CN110753913A - 基于样本的多维数据克隆 - Google Patents

基于样本的多维数据克隆 Download PDF

Info

Publication number
CN110753913A
CN110753913A CN201880016701.0A CN201880016701A CN110753913A CN 110753913 A CN110753913 A CN 110753913A CN 201880016701 A CN201880016701 A CN 201880016701A CN 110753913 A CN110753913 A CN 110753913A
Authority
CN
China
Prior art keywords
random
generating
dimensional
sample points
neighbors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880016701.0A
Other languages
English (en)
Inventor
于江生
马仕俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN110753913A publication Critical patent/CN110753913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/261Functional testing by simulating additional hardware, e.g. fault simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/263Generation of test inputs, e.g. test vectors, patterns or sequences ; with adaptation of the tested hardware for testability with external testers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/582Pseudo-random number generators

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及生成包含由多变量群体分布所分布的随机数的数据集的技术。从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建。从所述多维随机样本集合中采样多个多维样本点,并将所述多个多维样本点分别替换为随机邻居以生成克隆数据。

Description

基于样本的多维数据克隆
相关申请案交叉申请
本发明要求于2017年3月30日递交的发明名称为“基于样本的多维数据克隆”的第15/474801号美国非临时专利申请案以及于2018年3月27日递交的发明名称为“基于样本的多维数据克隆”的申请号为PCT/CN2018/080707的国际专利申请的在先申请优先权,该在先申请的内容以引入的方式并入本文中。
技术领域
本发明涉及生成随机数的技术领域。
背景技术
包含大量变量的数据越来越常见,尤其是在足够大的数据集中,这些数据集可以由多台计算设备生成和/或存储。除了处理如此大量的数据所面临的挑战之外,即使以较小的程度增加数据集中的变量数量,也往往至少以指数级增加数据值之间关系的复杂性,并可能导致数据大小呈指数级增加。
在这些具有挑战性的数据集中,有各种形式的统计分析生成的大量随机样本。性能测试对于确保所有行业产品和服务的质量至关重要。可靠的性能测试在很大程度上取决于测试数据是否准确,而所述测试数据并非总是可用于测试目的。因此,如果无法获得这类测试数据,开发人员和制造商将面临为测试产品和服务提供测试数据的挑战。因此,由于所述性能测试数据不可用,测试结果的精度往往不准确或具有误导性。
发明内容
在第在一个实施例中,提供了一种用于生成包含由多变量群体分布所分布的随机数的数据集的计算机实现方法,所述方法包括:从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;从所述多维随机样本集合中采样多个多维样本点;将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。
在根据前述任一实施例的第二实施例中,所述计算机实现的方法还包括:为所述多维随机样本点中的一个或多个多维随机样本点的元素生成所述随机邻居。
在根据前述任一实施例的第三实施例中,为所述一个或多个多维样本点的每个元素生成所述随机邻居包括:按递增次序对所述随机变量的不同观察值进行排序;当所述对应元素是所述观测值的最小值和最大值之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时,为所述多维样本点中的任意一个多维样本点的所述元素中的一个对应元素生成所述随机邻居。
在根据前述任一实施例的第四实施例中,为所述对应元素生成所述随机邻居还包括:将所述对应元素的左边界定义为一个或多个最近左邻居的所述最小值;将所述对应元素的右边界定义为一个或多个最近右邻居的所述最大值;生成第一随机数,所述第一随机数在由所述左边界和所述右边界构建的第一区间上均匀分布;搜索相邻两个观察值,以使所述相邻观察值的经验累积分布函数范围覆盖所述第一随机数;由所述两个相邻观察值定义第二区间;当所述对应的随机变量为连续或离散时生成所述随机邻居。
在根据前述任一实施例的第五实施例中,当所述对应的随机变量连续时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:生成在所述第二区间上均匀分布的第二随机数。
在根据前述任一实施例的第六实施例中,当所述对应的随机变量离散时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:将第二随机数定义为所述第二区间的所述右边界。
在根据前述任一实施例的第七实施例中,当所述对应的随机变量连续时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:生成在第三区间上从所述观察值的所述最小值到另一个值均匀分布的第二随机数。
在根据前述任一实施例的第八实施例中,当所述对应的随机变量连续时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:生成在第四区间上从非最大值观察值到所述最大值均匀分布的第二随机数。
在根据前述任一实施例的第九实施例中,当所述对应的随机变量离散时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:从所述最小观察值的预定数量生成第二随机数。
在根据前述任一实施例的第十实施例中,当所述对应的随机变量离散时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:从所述最大观察值的预定数量生成第二随机数。
在根据前述任一实施例的第十在一个实施例中,由一个或多个并行处理器执行将样本点的数量替换为随机邻居。
在第十二实施例中,提供了一种用于生成包含由多变量群体分布所分布的随机数的数据集的设备,包括:非瞬时性存储器,包含指令;一个或多个处理器,与所述存储器通信,其中所述一个或多个处理器执行所述指令完成以下操作,包括:从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;从所述多维随机样本集合中采样多个多维样本点;将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。
在第十三个实施例中,一种存储计算机指令的非瞬时性计算机可读介质,所述计算机指令用于生成包含由多变量群体分布所分布的随机数的数据集,当所述一个或多个处理器执行所述计算机指令时,执行以下步骤:从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;从所述多维随机样本集合中采样多个多维样本点;将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。
提供本发明内容是为了以简化的形式引入概念的选择,这些概念将在以下具体实施方式中进行进一步的描述。本发明内容的目的不在于识别权利要求书保护的主题的关键特征或必要特征,也不在于帮助确定权利要求书保护的主题的范围。权利要求书保护的主题不限于用于解决在背景技术中提到的任何或全部缺点的实现方式。
附图说明
本发明的方面通过举例的方式示出但不受附图的限制,附图中相同的附图标记表示元件;
图1为可以实现本发明实施例的分布式数据处理系统的示例;
图2为在图1的所述分布式数据处理系统中实现的示例仿真系统;
图3A示出了根据一个示例实施例的经验累积分布函数;
图3B示出了图3A中计算的两个分布函数之间的Kolmogorov距离;
图4A示出了在图1和图2所示环境中实现的总体流程图;
图4B示出了根据图4A生成样本的随机邻居;
图5A-5G示出了根据图1-2、图4和图6的流程图;
图6示出了可用于实现各种实施例的网络系统的方框图。
具体实施方式
本发明涉及用于生成按群体分布所分布的随机数的技术。
在统计学上,传统的重采样方法(例如自举法或刀切法)可以使用数据子集或通过替换从一组数据点随机抽取来估计所述样本统计(例如,中位数、方差、百分位数)的精度。在这种情况下,不会生成新的样本点。也就是说,只能对其它可用数据的数据点进行采样。因此,如果数据不可用,则不能用作所述重采样方法的一部分。
根据本发明的实施例,所提出的方法可以生成随机数,其特征是所述数据中的数据点(样本)将不可用于消费。也就是说,可生成不属于所述观察集的新随机数。例如,假设一组数据包含所述数据中有一小部分可用的私人或敏感信息(例如,姓名和地址),但所述数据的其它部分(例如,病史和社保号)仍不可用。在一个实施例中,通过从多变量群体的多维随机样本集合构造经验累积分布函数来创建表示所述不可用数据点特征的随机数。从所述集合中采样多个多维样本点,并将其替换为随机邻居以生成克隆数据。
应理解的是,本发明的现有实施例可以以许多不同的形式实现,并且权利要求范围不应理解为仅限于本文所述的实施例。相反,提供这些实施例是为了使本发明的实施例更加透彻和完整,并将本发明的实施例概念完整地传达给本领域技术人员。实际上,本发明旨在涵盖包括在由所附权利要求书限定的本发明公开的范围和精神内的这些实施例的替代物、修改和等同物。另外,在以下本发明实施例的详细描述中,阐述了许多特定细节以便提供透彻理解。但是,本领域普通技术人员清楚的是,本发明实施例可以在没有这些具体细节的情况下实施。
图1示出了可以实现本发明实施例的分布式数据处理系统的示例。分布式数据处理系统100包括但不限于网络102、服务器104、存储器106、数据群体系统108和客户端设备110。
所述网络102表示通过电信链路、红外链路、射频链路或提供电子通信的任何其它连接器或系统的电缆、无线、光纤或远程连接中的一个或多个。所述网络102可以包括内部网、互联网或任意组合,还包括中间代理、路由器、交换机、负载均衡器等。
在所描述的示例中,服务器104与存储器106和客户端110连接到网络102。在一个实施例中,所述服务器104向客户端110提供数据,例如引导文件、操作系统映像和应用。服务器106可以包括用于响应从客户端设备110接收的网络请求的任何计算设备,并且可以包括Web服务器、应用服务器、文件服务器或数据库服务器等。
客户端110可以包括,例如,笔记本电脑、台式计算机、笔记本电脑、手持计算设备、移动电话或智能手机、平板电脑计算设备、便携式读取设备或任何其它处理设备。
数据群体系统108可用于生成采样数据,例如,基于所述客户端110上提供的数据生成规则,下面将进行更详细的描述。
存储器106表示用于存储数据以供数据群体系统108使用的任何设备或设备组合。此类数据可包括数据库信息、数据架构、所述数据生成规则、数据模式和趋势以及历史采样数据。
应理解的是,此处描述的流程和方法可以在客户端设备或服务器中实现。例如,此处描述的进程可以在服务器中实现,例如服务器104,从通过所述网络连接102从各种数据源获取数据。为响应来自客户端设备(例如,客户端设备110)的请求,所述服务器104使用以下描述的技术收集用于评估的数据。
图2示出了在图1的分布式数据处理系统中实现的示例仿真系统。所述仿真系统202可以生成用于统计测试的近似概率分布,其中所述统计测试使用所述近似概率分布生成所述统计测试的结果。可以对任意数量的统计测试执行仿真。例如,统计测试可包括中值测试、Kolmogorov Smirnov测试、Friedman测试、数据挖掘决策树测试等。但是,应理解的是,任何数量的不同统计测试都可由熟练的技术人员所熟知并实现。
所述模拟系统202可安排为模拟测试的统计生成累积分布函数(cumulativedistribution function,简称CDF)(或分布函数)。概率分布可以将概率分配给随机统计推断实验的可能结果的每个可测量子集,并且可以是单变量或多变量。单变量分布给出了一个随机变量在各种备选值上的概率,而多变量分布则给出了一个随机向量(例如,两个或多个随机变量的集合)在各种值组合上的概率。
特别地,统计测试是基于观察通过一组随机变量建模的过程而可测试的假设。通常,两个统计数据集比较,或者通过采样获得的数据集与来自理想模型的合成数据集比较。然后,提出所述两个数据集之间的统计关系的假设,并将其作为备选方案与提出两个数据集之间不存在任何关系的理想化零假设进行比较。如果根据阈值概率(显著性级别),所述数据集之间的关系不太可能实现所述零假设,则比较在统计上具有显著性。
在统计测试中,测试统计数据是关联数据和模型的函数。在零假设和所述模型的假设条件下,所述测试统计数据具有关联的“采样分布”。对于所述模型假设的数据概率分布的随机数据样本和零假设,采样分布是指在假设的数据重复随机样本上测试统计数据的值的概率分布。
在不同的实施例中,概率分布可以是“已知”或“未知”。“已知”的概率分布是指可以有效地计算所述分布的CDF的分析公式,例如,所述CDF是封闭形式的表达式,或者所述CDF可以用数值方法获得很好的近似值。另一方面,“未知”的概率分布是指所述分布的CDF的分析公式不可用,或无法通过任何已知的数值方法有效地计算或获得近似值。因此,“未知”的概率分布将通过模拟进行评估,如本文描述的示例中所示。
在一个实施例中,模拟测试的统计遵循上述未知形式的概率分布。在这种情况下,未知形式的概率分布可以通过经验测量获得近似值。随机变量序列的特定实现所产生的随机性指标通常是有限的。因此,所述模拟系统202可以为所述模拟测试的统计生成近似概率分布,其中模拟测试的统计的概率分布未知。近似概率分布的示例可包括但不限于经验分布函数(或经验CDF),该函数是与统计数据的经验指标相关的累积分布函数。
所述模拟系统202可以是所述数据群体系统108的一部分(图1)。如所述非限制性实施例所示,所述仿真系统202包括仿真数据生成器202A和仿真功能202B。所述仿真系统202还以通信方式耦合到输入数据204、随机器206和仿真数据208,所述仿真数据208以通信方式耦合到存储器210。
所述模拟数据生成器202A可以使用所述模拟功能202B为模拟测试生成模拟数据208。所述模拟功能202B可以存储为软件库的一部分,可以是任何众所周知的分布模型,例如所述经验CDF。
所述输入数据204可以包括生成模拟数据208的定义,所述随机数发生器206可以生成用于导出所述模拟数据208的随机数。所述输入数据204还可以包括数据生成参数,例如统计信息,其中包括最小值、最大值、平均值、方差、不同值的数量等,对所述模拟系统202生成模拟数据208非常有用。例如,所述输入数据204可以提供所述模拟系统202要运行于的计算环境、存储所述模拟数据208的数据库、用于所述模拟数据208的数据结构的信息以及与生成模拟数据208相关的其它信息。
在一个实施例中,所述模拟数据发生器202A可以利用所述模拟功能202B、所述输入数据204和/或所述随机数发生器206来生成所述模拟数据208。所述模拟数据生成器202A还可以将所述模拟数据208存储在存储器210中。例如,所述模拟数据208可以根据所述输入数据204提供的定义存储在所述存储器210中。
存储210可以是任何存储、存储系统、数据源、数据库等。
图3A示出了根据一个示例实施例的经验累积分布函数。图3B示出了图3A中计算的两个分布函数之间的Kolmogorov距离。
在概率分布中,预测可能出现不同结果的可能性。概率分布通常分为两类:离散概率分布和连续概率分布。算法在[0,1]区间上均匀分布,其中许多算法基于生成数字X的伪随机数生成器。然后,通过算法转换这些随机变量X,以创建具有所需概率分布的新随机变量,如下所述。
在一个实施例中,其中为单变量随机变量分配数字指示随机实验的每个结果,经验累积分布函数(empirical cumulative distribution function,简称ECDF)由群体的随机样本构建。给定样本序列X1,X2,……,Xn~F(x),其中所述分布函数F(x)未知,所述样本的所述经验累积分布函数可用于从F(x)生成随机数(即,新令牌数)。在一个实施例中,所述新生成的随机数表示所述群体中的数据不可用于采样的特征。所述经验累积分布函数由以下在R上的非递减阶跃函数定义,其中值在所述区间[0,1]中:
Figure BDA0002194395110000051
其中,#{Xi≤x:I=1,2,……,n}表示所述数字Xi不大于x,并且R是所有实数的集合。
所述随机变量可以是连续随机变量,其中所述变量可以采用无穷多个值,也可以是离散随机变量,其中所述变量只能采用指定的值。为便于讨论,举几个简单示例,如果X在[0,1]区间中均匀分布,则X的分布函数如下所示:
Figure BDA0002194395110000052
如果X采用等概率的离散值0和1,则X的分布函数如下所示:
Figure BDA0002194395110000053
为了评估所述经验分布函数生成的随机数的性能,应用所述Kolmogorov距离(K-距离)来量化两个分布函数(例如F(x)和G(x))之间的距离。例如,参考图3B,F(x)用实线表示,G(x)用虚线表示。
所述两个分布函数F(x)和G(x)之间的K距离是它们之间的最大垂直偏差(最大偏差),以便:
应用来自群体的随机样本序列0、3、2、1、1,所述五个样本的经验分布函数为:
Figure BDA0002194395110000061
其中,所述概率分布函数描述了变量x具有在[0,1]区间中采用任何值的一致机会,而没有具有其它值的机会。图3A和图3B示出了概率分布函数。
例如,当在x<0的区间上对样本x绘制F(x)的ECDF时,F(x)的ECDF=0;在0≤x<1的区间中,F(x)的ECDF=0.2;在1≤x<2的区间中,F(x)的ECDF=0.6;在2≤x<3的区间上,F(x)的ECDF=0.8;在x≥3的区间上,F(x)的ECDF=1。
如果在同一时间区间上对样本x绘制第二分布图G(x),则测量第一分布图F(x)和第二分布图G(x)之间的K距离,从而生成图3B的示例图。所述K距离使用两条曲线之间的最大垂直偏差作为所述最大偏差统计D。在这种情况下,所述最大偏差发生在接近x=100,且具有D=0.5。(F(x)小于1的分数为0.2,G(x)小于1的分数为0.8。因此,累积分数的所述最大差异为D=0.5。)。
在二变量和多变量随机数的情况下,当已知以下形式的所有概率时便可知二变量的联合分布:
P(a<X≤b,c<Y≤d),其中a<b,c<d。
同样,当已知以下形式的所有概率时,便可知多变量X1,X2,……,Xm的联合分布:
P(a1<X1≤b1,a2<X2≤b2,……,am<X1≤bm),其中ak<bk,k=1,……,m。
如上文所述的单变量情况,任何多变量随机变量的联合概率分布都可以通过其累积分布函数实现。因此,两个随机变量(X,Y)的联合或二元累积分布函数定义为:
F(x,y)=P(X≤x,Y≤y),
以及多个随机变量X的联合或多变量累积分布函数X1,X2,……,Xm定义为:
F(x1,x2,……,xn)=P(X1≤x1,X2≤x2,……,Xn≤xn).
图4A示出了在图1和图2所示环境中实现的总体流程图。所公开的技术可以生成随机数,其特征是所述数据(群体)中的数据点(样本)将不可用于消费。也就是说,可以从不属于所述观察集的样本中生成新的随机数。
在图4的示例中,提供了群体402,所述群体402包含多个数据点(用黑圆圈表示)。这些数据点可来自于多种来源,通常包括极大的数据量,例如数据中心为大数据分析提供的数据量。可以从所述群体402中提取多维随机样本序列(例如,X1,X2,……,Xn~F(x))404,其中所述分布函数F(x)未知。在本文档的上下文中,所述矩阵为n x d矩阵,n表示样本数量,d表示维度数量。如果Xi是第i个样本,则Xi=(Xi (1),Xi (2),……,Xi (d))T,其中n个样本由以下d维数据矩阵描述:
Figure BDA0002194395110000062
所述数据矩阵中的每列包括一组随机变量X(j)的观察结果,其中j=1,2,……,d和j表示列数。
如果
Figure BDA0002194395110000071
是所述随机变量X(j)的所述经验累积分布函数,由所述观测值X1 (j),X2 (j),……,Xn (j)构建,其中j=1,2,……,d,则构建上述数据矩阵中每列的经验累积分布函数。
在一个实施例中,通过替换404A应用采样提取k个样本点406,并在408处搜索所述k个样本点406的随机邻居。为了生成所述多维随机数(k个克隆数据)410以及给定样本X1,X2,……,Xn,通过替换404A提取k个样本点406,如上所述。从这些k个样本点406中,所述随机邻居408是使用以下表示的算法确定的。如果X=(X(1),X(2),……,X(d))T是所述k个样本点406,则所述算法找到X(1),X(2),……,X(d)的随机邻居408。
Figure BDA0002194395110000072
在一个示例中,在不失去一般性的情况下,我们假设样本X1 (j),X2 (j),……,Xn (j)中有m≥3个不同的值,记为x1<x2<……<xm。当X(j)是离散随机变量时,则X(j)可以表示为:
X(j)~p1<x1>+……+pm<xm>,
其中,对于z=2,……,m,
Figure BDA0002194395110000073
特别地,在所述区间[xi-t,xi+t]中搜索X(j)=xi的随机邻居,称为大小为t的xi窗口(如以下图6所示)。为便于讨论,xi-t,xi+t也可以用xi left,xi right表示。在一个实施例中,xi left,xi right的指数是关于i的对称,可以表示为:
如果i-t≤1,xi left=x1,且如果i+t≥m,xi right=xm
为了说明起见,我们假设i=2,t=2,其中xi left=x1且xi right=x3。随机邻居可生成如下:
1.如果1<i<m,则从
Figure BDA0002194395110000074
生成随机数y* (j),其中U[a,b)表示所述区间[a,b)中的均匀分布。
(a)搜索所述指数l∈{i-t,……,i,……i+t},以使
Figure BDA0002194395110000076
(b)如果X(j)是连续的,则从U[xl,xl+1)生成随机数x* (j);如果X(j)是离散的,则令x* (j)=xl+1
2.如果i=1或i=m,则
Figure BDA0002194395110000077
图4B示出了根据图4A生成样本的随机邻居。该图示出了所述群体的样本xi-1、xi和xi+1的所述随机邻居的生成。在该示例中,[xi-1,xi]和[xi,xi+1]等区间被描述为实心黑线,例如,在点(A和A’)和(B和B’)之间,其中xi-1、xi和xi+1代表所述群体的样本。应用上述算法确定随机邻居,并参考该图,x* (j)是连续变量X(j)的随机邻居,且(x* (1),x* (2),……,x* (d))T是X=(X(1),X(2),……,X(d))T的随机邻居,例如,其是X的扰动,其中所述随机变量X(j)是连续的,且所述窗口大小为1。应当注意的是,促使窗口大小不限于大小为1,只是用于讨论。
图5A-5G示出了根据图1-2、图4、图6和图7的流程图。应理解的是,此处描述的流程和方法可以在客户端设备或服务器中实现。例如,此处描述的进程可以在服务器中实现,例如服务器104,从通过所述网络连接102从各种数据源获取数据。为响应来自客户端设备(例如,客户端设备110)的请求,所述服务器104从群体收集用于评估的数据。
图5A示出了从多维随机样本生成克隆数据的整个过程的流程图。在502中,服务器104从所述多变量群体的多维随机样本的集合
Figure BDA0002194395110000081
构建一组经验累积分布函数(empirical cumulative distribution function,简称ECDF)
Figure BDA0002194395110000082
每个经验累积分布函数
Figure BDA0002194395110000083
由一组随机变量Xj,j=1,2,......,d的观察结果构建。
在504处,所述服务器104在一个替换实施例中从所述多维随机样本
Figure BDA0002194395110000084
集合中抽样多个(k)多维样本点,并将所述多个多维样本点替换为随机邻居x* (j),以生成克隆数据,从而在506处的测试过程中使用所述克隆数据。
图5B示出了从观察到的值生成随机邻居的流程图。在508处,为所述多维样本点(Xi (1),Xi (2),……,Xi (d))中的任意一个多维样本点的每个元素生成所述随机邻居包括按递增次序对所述随机变量X(j)的不同观察值(X1 (1),X2 (1),……,Xn (1))进行排序,其中j=1,2,……,d。一旦完成排序,在510中,当所述对应元素是按x1<x2<……<xm排序的所述观测值的最小值(x1,x2,……,xt)和最大值(xm-t+1,……,xm)之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时,为所述多维样本点(Xi (1),Xi (2),……,Xi (d))中的任意一个多维样本点的所述元素中的一个对应元素生成所述随机邻居x* (j)
图5C示出了在最小值和最大值之间生成随机邻居的流程图。还将参考图4B中的说明来解释所述流程图。
在512中,服务器104将所述对应元素的左边界定义为所述一个或多个最近左邻居
Figure BDA0002194395110000085
的最小值,并且在514中,将所述相应元素的右边界定义为一个或多个最近右邻居
Figure BDA0002194395110000086
的最大值。
在516中,生成第一随机数y* (j)以使其在由左边界和右边界构建的第一区间上均匀分布。
所述两个相邻观察值(即,所述指数l∈{i-t,......,i,......,i+t})在518中搜索,以使其经验累积分布函数范围覆盖所述第一随机数y* (j)
在520中,所述服务器104通过所述两个相邻的观察值定义第二个区间[xl,xl+1),并且在522中,当所述对应随机变量Xj是连续或离散时,所述服务器104生成所述随机邻居xi
图5D-5E示出了所述随机变量是连续的流程图。图5F-5G示出了所述随机变量是离散的流程图。
在524中,所述服务器104生成第二随机数x* (j),当随机变量连续时,所述第二随机数x* (j)在第三区间[x1,xt+1)上从所述最小观察值到所述观察值中的另一观察值均匀分布。
在526中,所述服务器104生成第二随机数x* (j),当随机变量连续时,所述第二随机数x* (j)在第四区间(xm-t,xm]上从非最大值观察到所述最大值均匀分布。
在528中,所述服务器204生成当随机变量为离散时从预定数量的最小观测值(在{x1,......,xt}集上)开始的第二随机数
Figure BDA0002194395110000091
在530中,生成当随机变量为离散时从预定数量的最大观测值({xm-t+1,......,xm}集)开始的第二随机数。
图6是可用于实现各种实施例的网络设备的框图。特定网络可利用所有所示的组件或仅利用所述组件的子集,且设备之间的集成程度可能不同。此外,所述网络设备600可以包含部件的多个实例,例如多个处理单元、处理器、存储器、发射器、接收器等等。所述网络设备600可以包括配备有一个或多个输入/输出设备例如网络接口和存储接口等的处理单元601。所述处理单元601可以包括连接至总线670的中央处理器(central processingunit,简称CPU)610、存储器620、大容量存储器设备630和I/O接口660。所述总线670可以是任意类型的若干总线架构中的一个或多个,包括存储总线或存储控制器、外设总线等等。
所述CPU 610可包括任意类型的电子数据处理器。存储器620可包括任意类型的系统存储器,例如,静态随机存取存储器(static random access memory,简称SRAM)、动态随机存取存储器(dynamic random access memory,简称DRAM)、同步DRAM(synchronousDRAM,简称SDRAM)、只读存储器(read-only memory,简称ROM)或其组合等等。在一个实施例中,所述存储器620可包括在开机时使用的ROM以及在执行程序时使用的存储程序和数据的DRAM。在各实施例中,所述存储器620为非传输存储器。在一个实施例中,所述存储器620包括:构造函数模块621A,用于从所述多变量群体的多维随机样本集合构造一组经验累积分布函数;采样模块621B,用于从所述多维赎金样本集合中采样多个多维样本点;替换模块621C,用于将所述多个多维样本点替换为随机邻居以生成克隆数据。生成器模块621D为所述多维样本点中的任意一个多维样本点的元素生成随机邻居,搜索模块621E搜索两个相邻观测值,使其经验累积分布函数范围覆盖所述随机数。
所述大容量存储设备630可以包括任一类型的存储设备,用于存储数据、程序和其它信息,并通过所述总线670访问数据、程序和其它信息。例如,所述大容量存储设备630可以包括固态硬盘、硬盘驱动器、磁盘驱动器、光盘驱动器等中的一个或多个。
处理单元601还包括一个或多个网络接口650,所述网络接口650可以包括有线链路(例如以太网电缆等)和/或接入节点或一个或多个网络680的无线链路。所述网络接口650允许所述处理单元601通过所述网络680与远程设备通信。例如,所述网络接口650可以通过一个或多个发射器/发射天线以及一个或多个接收器/接收天线提供无线通信。在一个实施例中,所述处理单元601与局域网或者广域网耦合以进行数据处理以及与远端设备比如其它处理单元、因特网、远端存储设备等进行的通信。
在示例性实施例中,所述网络设备600包括函数模块,用于从所述多变量总体的多维随机样本集合构造一组经验累积分布函数,其中每个经验累积分布函数是从随机变量的观察结果构造而来;采样模块,用于从所述多维随机样本集合中采样多个多维样本点;随机邻居模块,用于将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。在一些实施例中,所述网络设备600可以包括其它或者附加模块,用于执行所述实施例中描述的任一或组合的步骤。此外,如所述附图中的任意图所示或所述权利要求中任一项所述,所述方法中的附加或替代实施例或方面中的任意实施例或方面也预期包括类似的模块。
应理解,本发明可以具体体现为许多不同的形式且不应被解释为仅限于本文所阐述的实施例。相反,提供这些实施例是为了使本主题内容更加透彻和完整,并将本发明完整地传达给本领域技术人员。实际上,本主题旨在涵盖包括在由所附权利要求书限定的本主题公开的范围和精神内的这些实施例的替代物、修改和等同物。此外,在本主题的下列具体描述中,列举了大量具体的细节,以对本主题有深入的了解。然而,所属领域的普通技术人员将清楚到,可以在没有这样具体细节的情况下实践本请求保护的主题。
根据本发明的各实施例,本文所述的方法可以通过执行软件程序的硬件计算机系统实现。此外,在非限制性实施例中,实施方式可以包括分布式处理、部件/对象分布式处理和并行处理。可以构建虚拟计算机系统处理以实施本文所描述的方法或功能中的一种或多种,本文所描述的处理器可以用于支持虚拟处理环境。
此处,结合本发明实施例的方法、装置(系统)以及计算机程序产品的流程图和/或方框图描述本发明的各方面。应理解,流程图和/或方框图的每个框以及流程图和/或方框图中的框的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,以生成机制,使得这些通过计算机或其它可编程指令执行装置的处理器所执行的指令创建实现所述流程图和/或方框图中的一个或多个方框所指定的功能/动作的机制。
根据各实施例,所公开的技术提供了以下优势,包括但不限于无分布方法,不需要对所述群体分布进行任何假设,所述分布算法本质上可以并行化,以便单独构造所述ECDF以及独立搜索所述随机邻居,该方法由ECDF统一用于连续和离散随机变量,并且通过大样本分析保证性能。也就是说,所述克隆的数据与所述给定样本具有相同的统计属性。
所述非瞬时性计算机可读介质包括所有类型的计算机可读介质,包括磁存储介质、光存储介质和固态存储介质,并且具体不包括信号。应当理解的是,软件可以安装在此处描述的设备上并可以随此处描述的设备一同出售。或者,可以获取软件并加载到设备中,包括通过光盘介质或以网络或分发系统的任何方式获取软件,例如,包括从软件开发者所有的服务器或从非软件开发者所有但为其所用的服务器获取软件。例如,该软件可以存储在服务器上以便通过因特网分发。
本文中所用的术语仅仅是出于描述特定方面的目的,而非旨在限制本发明。除非上下文清楚说明,否则本文所用的单数形式“一”和“所述”包括其复数形式。应进一步了解,本说明书中所用的术语“包括”用于说明存在所述特征、整数、步骤、操作、元件和/或部件,但并不排除存在或添加一个或多个其它特征、整数、步骤、操作、元件、部件和/或它们的组合。
对本发明的描述只是为了说明的目的,而这些描述并不旨在穷举或限于所公开的实施例。在不偏离本发明的范围和精神的前提下,多种修改和变体对本领域技术人员而言是显而易见的。选择和描述本发明的各个方面以便更好地解释本发明的原理和实际应用,并且使本领域普通技术人员能够理解本发明和适合预期特定用途的各种修改。
为了本文档的目的,与所公开的技术相关联的每个过程可以连续执行并由一个或多个计算设备执行。过程中的每个步骤可以由与其它步骤中使用的相同或不同的计算设备执行,并且每个步骤不一定由单个计算设备执行。
虽然已经以特定于结构特征和/或方法动作的语言描述了主题,但是应该理解的是,权利要求书定义的主题不必局限于上面描述的具体特征或动作。相反,上述具体的特征和动作被公开作为实施权利要求的示例性方式。

Claims (21)

1.一种用于生成包含随机数的数据集的计算机实现方法,所述随机数由多变量群体分布所分布,其特征在于,所述方法包括:
从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;
从所述多维随机样本的集合中采样多个多维样本点;
将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。
2.根据权利要求1所述的计算机实现方法,其特征在于,还包括:为所述多维样本点中的一个或多个多维样本点的元素生成所述随机邻居。
3.根据权利要求2所述的计算机实现方法,其特征在于,为所述多维样本点中的所述一个或多个多维样本点的每个元素生成所述随机邻居包括:
按递增次序对所述随机变量的不同的观察值进行排序;
当所述多维样本点中的任意一个多维样本点的所述元素中的一个对应元素是所述观测值的最小值和最大值之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时,为所述对应元素生成所述随机邻居。
4.根据权利要求3所述的计算机实现方法,其特征在于,为所述对应元素生成所述随机邻居还包括:
将所述对应元素的左边界定义为一个或多个最近左邻居的所述最小值;
将所述对应元素的右边界定义为一个或多个最近右邻居的所述最大值;
生成第一随机数,所述第一随机数在由所述左边界和所述右边界构建的第一区间上均匀分布;
搜索两个相邻的观察值,以使所述相邻的观察值的经验累积分布函数范围覆盖所述第一随机数;
由所述两个相邻观察值定义第二区间;
当所述对应的随机变量为连续或离散时生成所述随机邻居。
5.根据权利要求4所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:
生成在所述第二区间上均匀分布的第二随机数。
6.根据权利要求4所述的计算机实现方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:将第二随机数定义为所述第二区间的所述右边界。
7.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:生成在第三区间上从所述观察值的所述最小值到另一个值均匀分布的第二随机数。
8.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:生成在第四区间上从非最大值观察值到所述最大值均匀分布的第二随机数。
9.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:从所述最小观察值的预定数量生成第二随机数。
10.根据权利要求3所述的计算机实施的方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:从所述最大观察值的预定数量生成第二随机数。
11.根据权利要求1至10中任一项所述的计算机实现方法,其特征在于,由一个或多个并行处理器执行将样本点的数量替换为随机邻居。
12.一种用于生成随机数的设备,所述设备用于生成包含由多变量群体分布所分布的随机数的数据集,其特征在于,包括:
非瞬时性存储器,包含指令;
一个或多个处理器,与所述存储器通信,其中所述一个或多个处理器执行所述指令完成以下操作,包括:
从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;
从所述多维随机样本的集合中采样多个多维样本点;
将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。
13.根据权利要求12所述的设备,其特征在于,所述一个或多个处理器还执行所述指令完成以下操作,包括:
通过以下方式为所述一个或多个多维样本点的元素生成所述随机邻居:
为所述多维样本点中的任意一个多维样本点的每个元素生成所述随机邻居包括:
按递增次序对所述随机变量的不同的观察值进行排序;
当所述多维样本点中的任意一个多维样本点的所述元素中的一个对应元素是所述观测值的最小值和最大值之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时,为所述对应元素生成所述随机邻居。
14.根据权利要求13所述的设备,其特征在于,对于所述为所述对应元素生成所述随机邻居,所述一个或多个处理器还执行所述指令完成以下操作,包括:
将所述对应元素的左边界定义为一个或多个最近左邻居的所述最小值;
将所述对应元素的右边界定义为一个或多个最近右邻居的所述最大值;
生成第一随机数,所述第一随机数在由所述左边界和所述右边界构建的第一区间上均匀分布;
搜索两个相邻的观察值,以使所述相邻的观察值的经验累积分布函数范围覆盖所述第一随机数;
由所述两个相邻观察值定义第二区间;
当所述对应随机变量为连续或离散时生成所述随机邻居。
15.根据权利要求13所述的设备,其特征在于,对于当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,所述一个或多个处理器执行所述指令完成以下操作,包括生成在第三区间上从所述观察值的所述最小值到另一个值均匀分布的第二随机数。
16.根据权利要求13所述的设备,其特征在于,对于当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,所述一个或多个处理器执行所述指令完成以下操作,包括生成在第四区间上从非最大值观察值到所述最大值均匀分布的第二随机数。
17.根据权利要求13所述的设备,其特征在于,对于当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,所述一个或多个处理器执行所述指令完成以下操作,包括从所述最小观察值的预定数量生成第二随机数。
18.根据权利要求13所述的设备,其特征在于,对于当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,所述一个或多个处理器执行所述指令完成以下操作,包括从所述最大观察值的预定数量生成第二随机数。
19.一种存储计算机指令的非瞬时性计算机可读介质,其特征在于,所述计算机指令用于生成包含由多变量群体分布所分布的随机数的数据集,当所述一个或多个处理器执行所述计算机指令时,执行以下步骤:
从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;
从所述多维随机样本的集合中采样多个多维样本点;
将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。
20.根据权利要求19所述的非瞬时性计算机可读介质,其特征在于,所述一个或多个处理器还执行以下步骤:
为所述多维样本点中的一个或多个多维样本点的每个元素生成所述随机邻居包括:
按递增次序对所述随机变量的不同的观察值进行排序;
当所述多维样本点中的任意一个多维样本点的所述元素中的一个对应元素是所述观测值的最小值和最大值之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时,为所述对应元素生成所述随机邻居。
21.根据权利要求20所述的非瞬时性计算机可读介质,其特征在于,对于为所述对应元素生成所述随机邻居,所述一个或多个处理器还执行以下步骤:
将所述对应元素的左边界定义为一个或多个最近左邻居的所述最小值;
将所述对应元素的右边界定义为一个或多个最近右邻居的所述最大值;
生成第一随机数,所述第一随机数在由所述左边界和所述右边界构建的第一区间上均匀分布;
搜索两个相邻的观察值,以使所述相邻的观察值的经验累积分布函数范围覆盖所述第一随机数;
由所述两个相邻观察值定义第二区间;
当所述对应的随机变量为连续或离散时生成所述随机邻居。
CN201880016701.0A 2017-03-30 2018-03-27 基于样本的多维数据克隆 Pending CN110753913A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/474,801 US10365893B2 (en) 2017-03-30 2017-03-30 Sample-based multidimensional data cloning
US15/474,801 2017-03-30
PCT/CN2018/080707 WO2018177293A1 (en) 2017-03-30 2018-03-27 Sample-based multidimensional data cloning

Publications (1)

Publication Number Publication Date
CN110753913A true CN110753913A (zh) 2020-02-04

Family

ID=63669433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880016701.0A Pending CN110753913A (zh) 2017-03-30 2018-03-27 基于样本的多维数据克隆

Country Status (4)

Country Link
US (1) US10365893B2 (zh)
EP (1) EP3580676B1 (zh)
CN (1) CN110753913A (zh)
WO (1) WO2018177293A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752927A (zh) * 2020-06-30 2020-10-09 深圳前海微众银行股份有限公司 基于克隆的数据形态生成方法、装置、终端设备及介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11579845B2 (en) * 2017-07-26 2023-02-14 Nec Corporation Random number generation device, random number generation method, encryption device, and non-transitory recording medium
CN118378578B (zh) * 2024-06-21 2024-09-17 贝叶斯电子科技(绍兴)有限公司 一种多维数据的抽样方法、电路仿真方法和电路分析方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5124932A (en) 1988-03-10 1992-06-23 Indiana University Foundation Method for analyzing asymmetric clusters in spectral analysis
US6757700B1 (en) * 1999-10-28 2004-06-29 Phillip Druck Self-stabilizing, portable and efficient computer arithmetic using mappings of D Scale points
US6820090B2 (en) 2002-03-22 2004-11-16 Lucent Technologies Inc. Method for generating quantiles from data streams
US7496619B2 (en) * 2002-06-18 2009-02-24 Vanderbilt University System and methods of nonuniform data sampling and data reconstruction in shift invariant and wavelet spaces
US8166039B1 (en) 2003-11-17 2012-04-24 The Board Of Trustees Of The Leland Stanford Junior University System and method for encoding document ranking vectors
KR20060135794A (ko) * 2004-02-26 2006-12-29 미디어 가이드, 인코포레이티드 방송 오디오 또는 비디오 프로그래밍 신호의 자동 검출 및식별 방법, 및 장치
US7693683B2 (en) 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
JP5244686B2 (ja) 2009-04-24 2013-07-24 株式会社東芝 監視装置およびサーバー
US20140114609A1 (en) 2012-10-23 2014-04-24 Hewlett-Packard Development Company, L.P. Adaptive analysis of signals
CN106056254B (zh) 2016-06-15 2020-10-02 中国能源建设集团甘肃省电力设计院有限公司 一种计及出力水平影响的风电预测误差模拟方法
US10296628B2 (en) 2016-06-27 2019-05-21 Futurewei Technologies, Inc Sample size estimator

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752927A (zh) * 2020-06-30 2020-10-09 深圳前海微众银行股份有限公司 基于克隆的数据形态生成方法、装置、终端设备及介质
CN111752927B (zh) * 2020-06-30 2024-05-17 深圳前海微众银行股份有限公司 基于克隆的数据形态生成方法、装置、终端设备及介质

Also Published As

Publication number Publication date
EP3580676B1 (en) 2022-08-24
US20180285077A1 (en) 2018-10-04
WO2018177293A1 (en) 2018-10-04
EP3580676A4 (en) 2020-03-04
US10365893B2 (en) 2019-07-30
EP3580676A1 (en) 2019-12-18

Similar Documents

Publication Publication Date Title
WO2018157752A1 (en) Approximate random number generator by empirical cumulative distribution function
US11526799B2 (en) Identification and application of hyperparameters for machine learning
Talagala et al. Meta-learning how to forecast time series
Yigitbasi et al. Towards machine learning-based auto-tuning of mapreduce
Lü et al. Toward link predictability of complex networks
Hsu et al. Scout: An experienced guide to find the best cloud configuration
US10031945B2 (en) Automated outlier detection
JP6508661B2 (ja) データ処理システム、計算ノードおよびデータ処理方法
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及系统
US20210103858A1 (en) Method and system for model auto-selection using an ensemble of machine learning models
Maros et al. Machine learning for performance prediction of spark cloud applications
US10445341B2 (en) Methods and systems for analyzing datasets
Mall et al. Representative subsets for big data learning using k-NN graphs
CN110753913A (zh) 基于样本的多维数据克隆
CN116882520A (zh) 针对预定预测问题的预测方法及系统
US8650180B2 (en) Efficient optimization over uncertain data
WO2021000244A1 (en) Hyperparameter recommendation for machine learning method
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
CN115296984A (zh) 异常网络节点的检测方法及装置、设备、存储介质
Yang et al. A scalable feature selection and model updating approach for big data machine learning
CN113448821B (zh) 一种识别工程缺陷的方法和装置
CN116561338A (zh) 工业知识图谱生成方法、装置、设备及存储介质
US20230041338A1 (en) Graph data processing method, device, and computer program product
Younis et al. Global optimization using mixed surrogates and space elimination in computationally intensive engineering designs
Kang et al. The Advantage of Fuzzy Regression Analysis and the Establishment of Uml Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination