CN109697049A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents
数据处理方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109697049A CN109697049A CN201811628119.8A CN201811628119A CN109697049A CN 109697049 A CN109697049 A CN 109697049A CN 201811628119 A CN201811628119 A CN 201811628119A CN 109697049 A CN109697049 A CN 109697049A
- Authority
- CN
- China
- Prior art keywords
- sample
- grouping
- preset
- division ratio
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 28
- 238000012795 verification Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
- G06F7/588—Random number generators, i.e. based on natural stochastic processes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开实施例公开了一种数据处理方法、装置、电子设备及计算机可读存储介质,所述方法包括:获取样本集,生成与样本集中的每个样本数据对应的随机数;根据每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定每个样本数据的分组,得到n个样本子集;其中,n为大于等于2的正整数;根据n个样本子集对不同策略或模型性能进行验证。该方案能够采用被分组样本集的随机分组机制,将样本集中的各个样本数据都根据独立的随机数来决定被分到哪组中,保证各个样本子集都具有与样本集相同的数据分布,消除了分组样本的有偏性,进而提高了使用样本子集进行验证的准确性。
Description
技术领域
本公开涉及物流应用技术领域,具体涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
当前的物流配送及订单定价,用到了大量的策略和算法,在产品不断更新完善的过程中,策略和算法也在快速的变更,以不断适应特定的场景,使得订单的配送及定价向着更加合理的方向发展。
然而在产品版本快速迭代的情况下,如何判断一个策略或算法是否合理,在已有的物流调度中,取出部分订单样本,并以新的策略或算法去调度以及定价,通过与已有的策略和算法调度的订单进行效果对比,分析新策略和算法的合理性。
目前的调度或定价系统,对于要进行试验的网格的选取,往往是靠人为的选取,或按照每日订单量的范围来选取具体过程。对于网格内订单的分组,则采用订单尾号或其他某一位是否大于特定值的方法来实现订单样本的分组。但是这种分组方式在在订单密集度不高的众包订单中,会因为众包订单量比专送的单量少,而出现分组后的订单样本之间具有有偏性,进而导致采用分组后的订单样本进行验证时的准确性。
发明内容
本公开实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种数据处理方法。
具体的,所述数据处理方法,包括:
获取样本集,生成与所述样本集中的每个样本数据对应的随机数;
根据所述每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定所述每个样本数据的分组,得到n个样本子集;其中,n为大于等于2的正整数;
根据所述n个样本子集,对不同策略或模型性能进行验证。
结合第一方面,本公开在第一方面的第一种实现方式中,所述获取样本集,生成与所述样本集中的每个样本数据对应的随机数,包括:
获取样本集和预设随机函数;
根据预设随机函数,生成与所述样本集中的所述每个样本数据对应的随机数。
结合第一方面和第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述根据所述每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定所述每个样本数据的分组,直至将所述样本集中的样本数据全部分组完成,得到n个样本子集,包括:
根据所述预设分组数n和所述n个预设分组数量比例,确定n个分组划分比例阈值;
将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值进行对比,确定所述每个样本数据所属的分组得到所述n个样本子集。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述预设分组数n包括采用第i组表示的n个分组,其中,i为1-n的正整数;所述根据所述预设分组数n和所述n个预设分组数量比例,确定n个分组划分比例阈值,包括:
当i=1时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为所述n个预设分组数量比例的第i个预设分组数量比例;
当i不为1、且不为n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为前i个预设分组数量比例之和;
当i=n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为1;
其中,第i组、第i个预设分组数量比例和第i个分组划分比例阈值一一对应。
结合第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值进行对比,确定所述每个样本数据所属的分组,得到所述n个样本子集,包括:
将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值中的第i个分组划分比例阈值进行对比;其中,i从1开始;
当所述每个样本数据对应的随机数小于等于所述第i个分组划分比例阈值时,确定所述每个样本数据属于第i组;
当所述每个样本数据对应的随机数大于所述第i个分组划分比例阈值时,将i加1,进入所述每个样本数据对应的随机数与第i+1个分组划分比例阈值进行对比的流程,从而得到所述n个样本子集。
第二方面,本公开实施例中提供了一种数据处理装置。
具体的,所述数据处理装置,包括:
获取模块,被配置为获取样本集,生成与所述样本集中的每个样本数据对应的随机数;
分组模块,被配置为根据所述每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定所述每个样本数据的分组,得到n个样本子集;其中,n为大于等于2的正整数;
验证模块,被配置为根据所述n个样本子集对不同策略或模型性能进行验证。
结合第二方面,本公开在第二方面的第一种实现方式中,所述获取模块包括:
获取子模块,被配置为获取样本集和预设随机函数;
生成子模块,被配置为根据预设随机函数,生成与所述样本集中的所述每个样本数据对应的随机数。
结合第二方面和第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述分组模块包括:
确定子模块,被配置为根据所述预设分组数n和所述n个预设分组数量比例,确定n个分组划分比例阈值;
分组子模块,被配置为将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值进行对比,确定所述每个样本数据所属的分组,得到所述n个样本子集。
结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述预设分组数n包括采用第i组表示的n个分组,其中,i为1-n的正整数;
所述确定子模块,具体被配置为当i=1时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为所述n个预设分组数量比例的第i个预设分组数量比例;当i不为1、且不为n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为前i个预设分组数量比例之和;当i=n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为1;其中,第i组、第i个预设分组数量比例和第i个分组划分比例阈值一一对应。
结合第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中,
所述分组子模块,具体被配置为将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值中的第i个分组划分比例阈值进行对比;其中,i从1开始;当所述每个样本数据对应的随机数小于等于所述第i个分组划分比例阈值时,确定所述每个样本数据属于第i组;当所述每个样本数据对应的随机数大于所述第i个分组划分比例阈值时,将i加1,进入所述每个样本数据对应的随机数与第i+1个分组划分比例阈值进行对比的流程,从而得到所述n个样本子集。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持数据处理装置执行上述第一方面中数据处理方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述数据处理装置还可以包括通信接口,用于数据处理装置与其他设备或通信网络通信。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储数据处理装置所用的计算机指令,其包含用于执行上述第一方面中数据处理方法为数据处理装置所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
上述技术方案,通过采用被分组样本集的随机分组机制,将样本集中的各个样本数据都根据独立的随机数来决定被分到哪组中,保证各个样本子集都具有与样本集相同的数据分布,消除了分组样本的有偏性,进而提高了使用样本子集进行验证的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的数据处理方法的流程图;
图2示出根据图1所示实施方式的数据处理方法的步骤S102的流程图;
图3示出根据本公开一实施方式的数据处理装置的结构框图;
图4示出根据图3所示实施方式的数据处理装置的获取模块301的结构框图;
图5示出根据图3所示实施方式的数据处理装置的分组模块302的结构框图;
图6示出根据本公开一实施方式的电子设备的结构框图;
图7是适于用来实现根据本公开一实施方式的数据处理方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
本公开实施例提供的技术方案通过采用被分组样本集的随机分组机制,将样本集中的各个样本数据都根据独立的随机数来决定被分到哪组中,保证各个样本子集都具有与样本集相同的数据分布,消除了分组样本的有偏性,进而提高了使用样本子集进行验证的准确性。
图1示出根据本公开一实施方式的数据处理方法的流程图。如图1所示,所述数据处理方法包括以下步骤S101-S103:
在步骤S101中,获取样本集,生成与样本集中的每个样本数据对应的随机数;
在步骤S102中,根据每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定每个样本数据的分组,得到n个样本子集;其中,n为大于等于2的正整数;
在步骤S103中,根据n个样本子集对不同策略或模型性能进行验证。
上文提及,随着互联网技术的发展,越来越多的电子应用被广泛应用,而基于电子应用的功能实现,对于新旧版本或者新旧策略,算法的验证功能也越来越重要。现有技术中,采用订单尾号或其他某一位是否大于特定值的方法来实现订单样本的分组。但是这种分组方式在在订单密集度不高的众包订单中,会因为众包订单量比专送的单量少,而出现分组后的订单样本之间具有有偏性,进而导致采用分组后的订单样本进行验证时的准确性。
考虑到上述缺陷,在该实施方式中,提出一种数据处理方法,该方法采用被分组样本集的随机分组机制,将样本集中的各个样本数据都根据独立的随机数、预设分组数n和n个预设分组数量比例来决定被分到哪组中,保证各个样本子集都具有与样本集相同的数据分布,消除了分组样本的有偏性,进而提高了使用样本子集进行验证的准确性。
其中,样本集为历史样本数据组成的集合,针对不同的应用场景,样本集的数据内容不同。例如,本实施例应用于订单相关场景中时,这里的样本集是指历史订单数据的集合,应用于网络验证场景中时,这里的样本集是指历史网络记录数据。本实施例不限定应用的场景。
其中,数据处理装置在获取到样本集后,对该样本集中的每个样本数据都生成一个随机数,样本数据与随机数一一对应。
在本实施例的一个可选实现方式中,数据处理装置可以获取样本集和预设随机函数;根据预设随机函数,生成与所述样本集中的所述每个样本数据对应的随机数。
也就是说,数据处理装置采用预设随机函数为每个样本数据都生成一个随机数。
在本实施例中,预设随机函数可以为输出范围为0-1的随机数的函数。即随机数的取值范围为0-1之间的随机数,具体的随机数的输出范围可不作限制。
其中,数据处理装置还可以通过随机发生器生成随机数,本实施例不限制随机数的生成方式。
示例性的,样本集中包括样本1,样本2和样本3,数据处理装置通过预设随机函数生成样本1对应的随机数0.5,样本2对应的随机数0.2,以及样本3对应的随机数0.8。
需要说明的是,每个样本数据对应一个独立的随机事件,例如随机数。
其中,预设分组数n表征一共分几组,n为分组的总组数;n个预设分组数量比例表征的是每个组里的样本数量占总样本数的比例,代表了每个分组中的样本数量。本实施例中的预设分组数n和n个预设分组数量比例是预先设定的,看实际验证过程中需要多少组数据决定的。
在本实施例中,n个预设分组数量比例的之后一共为1。
其中,数据处理装置确定处每个样本数据的分组后,得到n个样本子集,将这n个样本子集中的不同分组输入到不同策略或模型性能的验证,由于样本子集消除了数据差异性的问题,因此,经过不同策略或算法的结果只是带有了策略和算法本身的差异性,可以很准确的体现出验证的结果。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S102,即根据每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定每个样本数据的分组,直至将样本集中的样本数据全部分组完成,得到n个样本子集的步骤,包括步骤S201-S203:
在步骤S201中,根据预设分组数n和n个预设分组数量比例,确定n个分组划分比例阈值;
在步骤S202中,将每个样本数据对应的随机数依次与n个分组划分比例阈值进行对比,确定每个样本数据所属的分组,得到n个样本子集。
其中,本实施例中,预设分组数n包括采用第i组表示的n个分组,其中,i为1-n的正整数;预设分组数n和n个预设分组数量比例可以具有顺序性,即预设分组数n可以包括:第1组、第2组,……第n组;预设分组数n是与n个预设分组数量比例一一对应,且n个预设分组数量比例是随着分组号的增大而增大的,即对应第i组的预设分组数量比例,是随着i的增大而增大的,i属于1-n。
其中,n个预设分组数量比例在0-1之间。
在本实施例中,当i=1时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为所述n个预设分组数量比例的第i个预设分组数量比例;当i不为1、且不为n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为前i个预设分组数量比例之和;
当i=n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为1;
其中,第i组、第i个预设分组数量比例和第i个分组划分比例阈值一一对应。
示例性的,样本集要划分为3组,样本数据为10个,那么第1组对应的预设分组数量比例为0.1,分1个样本数据;第2组对应的预设分组数量比例为0.3,分3个样本数据;第3组对应的预设分组数量比例为0.6,分6个样本数据。
在本实施例中,将每个样本数据对应的随机数依次与n个分组划分比例阈值中的第i个分组划分比例阈值进行对比;其中,i从1开始;当每个样本数据对应的随机数小于等于第i个分组划分比例阈值时,确定每个样本数据属于第i组;当每个样本数据对应的随机数大于第i个分组划分比例阈值时,将i加1,进入每个样本数据对应的随机数与第i+1个分组划分比例阈值进行对比的流程,从而得到n个样本子集。
其中,n个分组划分比例阈值中的第i个分组划分比例阈值是前i个预设分组数量比例之和,第n个分组划分比例阈值为1。即,n个分组划分比例阈值在0-1之间。
示例性的,将样本集分成n组,各分组的分组数量比例是:g1,g2,……,gn,其中,g1+g2+…+gn=1,数据处理装置确定分组划分比例阈值t1,t2,……,tn为ti=g1+g2+…gi,且tn=1。
在本实施例的一个可选实现方式中,当每个样本数据对应的随机数属于所述n个分组划分比例阈值中的第i个分组划分比例阈值内时,确定每个样本数据属于第i组;其中i属于1-n。
其中,随机数和n个分组划分比例阈值要属于用一个取值范围内,若不一致时,还需要进行归一化处理后再进行对比。
示例性的,对样本集中的每一个样本数据按照以下方式划分:
a)i=1,如果该样本数据的随机数value_r小于第i个分组划分比例阈值ti,那么该样本数据被分到第i组,结束该样本数据的分组,返回进行下一个样本数据的分组;如果该样本数据的随机数value_r小于第i个分组划分比例阈值ti,那么使得i=i+1,将该样本数据的随机数value_r与第i+1个分组划分比例阈值ti+1进行对比,直至该样本数据属于n个分组划分比例阈值的某一个分组划分比例阈值内,将该样本数据划分到该某一个分组划分比例阈值对应的分组内。其中,第i组、第i组的预设分组数量比例和第i个分组划分比例阈值是一一对应的关系。
在本实施例中,因为随机数value_r一定是小于1的,所有value_r一定小于tn,这样就确保了,任何一个样本数据一定会被分配到唯一的组中,这种划分方式完全与样本集无关。如果样本集的样本数量足够多,并且被分成的n个组也足够多,那么可以从理论上保证每组的样本子集的数据分布都与样本集的数据分布相同,所以,n个组的数据分布都相同,这样就实现了一种基于相同数据分布的样本子集上实施的策略或模型,所产生的结果的差异只与策略或模型相关,与其使用的样本集无关,因此可以提高验证的准确性。例如,在比较两中订单定价策略的优劣时,可以将样本集采用本实施例的方式分成两组,即两个数量相同的样本子集,采用不同的标记两个样本子集中的样本数据,那么采用不同样本子集分别对应两个定价策略得到的定价结果中,就带有不同标记,可以获知是定价结果是哪个定价策略得到的,那么这些定价结果之间的差异就可能代表策略本身的差异,跟样本采集无关,可以通过定价结果准确的判断出定价策略的优劣,进而决定使用哪种定价策略。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图3示出根据本公开一实施方式的数据处理装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示,所述数据处理装置包括:
获取模块301,被配置为获取样本集,生成与所述样本集中的每个样本数据对应的随机数;
分组模块302,被配置为根据所述每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定所述每个样本数据的分组,得到n个样本子集;其中,n为大于等于2的正整数;
验证模块303,被配置为根据所述n个样本子集对不同策略或模型性能进行验证。
上文提及,随着互联网技术的发展,越来越多的电子应用被广泛应用,而基于电子应用的功能实现,对于新旧版本或者新旧策略,算法的验证功能也越来越重要。现有技术中,采用订单尾号或其他某一位是否大于特定值的方法来实现订单样本的分组。但是这种分组方式在在订单密集度不高的众包订单中,会因为众包订单量比专送的单量少,而出现分组后的订单样本之间具有有偏性,进而导致采用分组后的订单样本进行验证时的准确性。
考虑到上述缺陷,在该实施方式中,提出一种数据处理装置,该装置采用被分组样本集的随机分组机制,将样本集中的各个样本数据都根据独立的随机数、预设分组数n和n个预设分组数量比例来决定被分到哪组中,保证各个样本子集都具有与样本集相同的数据分布,消除了分组样本的有偏性,进而提高了使用样本子集进行验证的准确性。
在本实施例的一个可选实现方式中,如图4所示,所述获取模块301包括:
获取子模块401,被配置为获取样本集和预设随机函数;
生成子模块402,被配置为根据预设随机函数,生成与所述样本集中的所述每个样本数据对应的随机数。
其中,样本集为历史样本数据组成的集合,针对不同的应用场景,样本集的数据内容不同。例如,本实施例应用于订单相关场景中时,这里的样本集是指历史订单数据的集合,应用于网络验证场景中时,这里的样本集是指历史网络记录数据。本实施例不限定应用的场景。
其中,数据处理装置在获取到样本集后,对该样本集中的每个样本数据都生成一个随机数,样本数据与随机数一一对应。
在本实施例的一个可选实现方式中,数据处理装置可以获取样本集和预设随机函数;根据预设随机函数,生成与所述样本集中的所述每个样本数据对应的随机数。
也就是说,数据处理装置采用预设随机函数为每个样本数据都生成一个随机数。
在本实施例中,预设随机函数可以为输出范围为0-1的随机数的函数。即随机数的取值范围为0-1之间的随机数,具体的随机数的输出范围可不作限制。
其中,数据处理装置还可以通过随机发生器生成随机数,本实施例不限制随机数的生成方式。
示例性的,样本集中包括样本1,样本2和样本3,数据处理装置通过预设随机函数生成样本1对应的随机数0.5,样本2对应的随机数0.2,以及样本3对应的随机数0.8。
需要说明的是,每个样本数据对应一个独立的随机事件,例如随机数。
其中,预设分组数n表征一共分几组,n为分组的总组数;n个预设分组数量比例表征的是每个组里的样本数量占总样本数的比例,代表了每个分组中的样本数量。本实施例中的预设分组数n和n个预设分组数量比例是预先设定的,看实际验证过程中需要多少组数据决定的。
在本实施例中,n个预设分组数量比例的之后一共为1。
其中,数据处理装置确定处每个样本数据的分组后,得到n个样本子集,将这n个样本子集中的不同分组输入到不同策略或模型性能的验证,由于样本子集消除了数据差异性的问题,因此,经过不同策略或算法的结果只是带有了策略和算法本身的差异性,可以很准确的体现出验证的结果。
在本实施例的一个可选实现方式中,如图5所示,所述分组模块302包括:
确定子模块501,被配置为根据所述预设分组数n和所述n个预设分组数量比例,确定n个分组划分比例阈值;
分组子模块502,被配置为将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值进行对比,确定所述每个样本数据所属的分组,得到所述n个样本子集。
其中,本实施例中,预设分组数n包括采用第i组表示的n个分组,其中,i为1-n的正整数;预设分组数n和n个预设分组数量比例可以具有顺序性,即预设分组数n可以包括:第1组、第2组,……第n组;预设分组数n是与n个预设分组数量比例一一对应,且n个预设分组数量比例是随着分组号的增大而增大的,即对应第i组的预设分组数量比例,是随着i的增大而增大的,i属于1-n。
其中,n个预设分组数量比例在0-1之间。
在本实施例中,确定子模块501,具体被配置为当i=1时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为所述n个预设分组数量比例的第i个预设分组数量比例;当i不为1、且不为n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为前i个预设分组数量比例之和;当i=n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为1;其中,第i组、第i个预设分组数量比例和第i个分组划分比例阈值一一对应。
示例性的,样本集要划分为3组,样本数据为10个,那么第1组对应的预设分组数量比例为0.1,分1个样本数据;第2组对应的预设分组数量比例为0.3,分3个样本数据;第3组对应的预设分组数量比例为0.6,分6个样本数据。
在本实施例中,所述分组子模块502,具体被配置为将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值中的第i个分组划分比例阈值进行对比;其中,i从1开始;当所述每个样本数据对应的随机数小于等于所述第i个分组划分比例阈值内时,确定所述每个样本数据属于第i组;当所述每个样本数据对应的随机数大于所述第i个分组划分比例阈值时,将i加1,进入所述每个样本数据对应的随机数与第i+1个分组划分比例阈值进行对比的流程,从而得到所述n个样本子集。
其中,n个分组划分比例阈值中的第i个分组划分比例阈值是前i个预设分组数量比例之和,第n个分组划分比例阈值为1。即,n个分组划分比例阈值在0-1之间。
示例性的,将样本集分成n组,各分组的分组数量比例是:g1,g2,……,gn,其中,g1+g2+…+gn=1,数据处理装置确定分组划分比例阈值t1,t2,……,tn为ti=g1+g2+…gi,且tn=1。
在本实施例的一个可选实现方式中,当每个样本数据对应的随机数属于所述n个分组划分比例阈值中的第i个分组划分比例阈值内时,确定每个样本数据属于第i组;其中i属于1-n。
其中,随机数和n个分组划分比例阈值要属于用一个取值范围内,若不一致时,还需要进行归一化处理后再进行对比。
示例性的,对样本集中的每一个样本数据按照以下方式划分:
a)i=1,如果该样本数据的随机数value_r小于第i个分组划分比例阈值ti,那么该样本数据被分到第i组,结束该样本数据的分组,返回进行下一个样本数据的分组;如果该样本数据的随机数value_r小于第i个分组划分比例阈值ti,那么使得i=i+1,将该样本数据的随机数value_r与第i+1个分组划分比例阈值ti+1进行对比,直至该样本数据属于n个分组划分比例阈值的某一个分组划分比例阈值内,将该样本数据划分到该某一个分组划分比例阈值对应的分组内。其中,第i组、第i个预设分组数量比例和第i个分组划分比例阈值是一一对应的关系。
在本实施例中,因为随机数value_r一定是小于1的,所有value_r一定小于tn,这样就确保了,任何一个样本数据一定会被分配到唯一的组中,这种划分方式完全与样本集无关。如果样本集的样本数量足够多,并且被分成的n个组也足够多,那么可以从理论上保证每组的样本子集的数据分布都与样本集的数据分布相同,所以,n个组的数据分布都相同,这样就实现了一种基于相同数据分布的样本子集上实施的策略或模型,所产生的结果的差异只与策略或模型相关,与其使用的样本集无关,因此可以提高验证的准确性。例如,在比较两中订单定价策略的优劣时,可以将样本集采用本实施例的方式分成两组,即两个数量相同的样本子集,采用不同的标记两个样本子集中的样本数据,那么采用不同样本子集分别对应两个定价策略得到的定价结果中,就带有不同标记,可以获知是定价结果是哪个定价策略得到的,那么这些定价结果之间的差异就可能代表策略本身的差异,跟样本采集无关,可以通过定价结果准确的判断出定价策略的优劣,进而决定使用哪种定价策略。
本公开还公开了一种电子设备,图6示出根据本公开一实施方式的电子设备的结构框图,如图6所示,所述电子设备1100包括存储器1101和处理器1102;其中,
所述存储器1101用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1102执行以实现上述任一方法步骤。
图7适于用来实现根据本公开实施方式的数据处理方法的计算机系统的结构示意图。
如图7所示,计算机系统1200包括中央处理单元(CPU)1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行上述实施方式中的各种处理。在RAM1203中,还存储有系统1200操作所需的各种程序和数据。CPU1201、ROM1202以及RAM1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述数据处理方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取样本集,生成与所述样本集中的每个样本数据对应的随机数;
根据所述每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定所述每个样本数据的分组,得到n个样本子集;其中,n为大于等于2的正整数;
根据所述n个样本子集对不同策略或模型性能进行验证。
2.根据权利要求1所述的方法,其特征在于,所述获取样本集,生成与所述样本集中的每个样本数据对应的随机数,包括:
获取样本集和预设随机函数;
根据预设随机函数,生成与所述样本集中的所述每个样本数据对应的随机数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定所述每个样本数据的分组,得到n个样本子集,包括:
根据所述预设分组数n和所述n个预设分组数量比例,确定n个分组划分比例阈值;
将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值进行对比,确定所述每个样本数据所属的分组,得到所述n个样本子集。
4.根据权利要求3所述的方法,其特征在于,所述预设分组数n包括采用第i组表示的n个分组,其中,i为1-n的正整数;所述根据所述预设分组数n和所述n个预设分组数量比例,确定n个分组划分比例阈值,包括:
当i=1时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为所述n个预设分组数量比例的第i个预设分组数量比例;
当i不为1、且不为n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为前i个预设分组数量比例之和;
当i=n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为1;
其中,第i组、第i个预设分组数量比例和第i个分组划分比例阈值一一对应。
5.根据权利要求4所述的方法,其特征在于,所述将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值进行对比,确定所述每个样本数据所属的分组,得到所述n个样本子集,包括:
将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值中的第i个分组划分比例阈值进行对比;其中,i从1开始;
当所述每个样本数据对应的随机数小于等于所述第i个分组划分比例阈值时,确定所述每个样本数据属于第i组;
当所述每个样本数据对应的随机数大于所述第i个分组划分比例阈值时,将i加1,进入所述每个样本数据对应的随机数与第i+1个分组划分比例阈值进行对比的流程,从而得到所述n个样本子集。
6.一种数据处理装置,其特征在于,包括:
获取模块,被配置为获取样本集,生成与所述样本集中的每个样本数据对应的随机数;
分组模块,被配置为根据所述每个样本数据对应的随机数、预设分组数n和n个预设分组数量比例,确定所述每个样本数据的分组,得到n个样本子集;其中,n为大于等于2的正整数;
验证模块,被配置为根据所述n个样本子集对不同策略或模型性能进行验证。
7.根据权利要求6所述的装置,其特征在于,所述分组模块包括:
确定子模块,被配置为根据所述预设分组数n和所述n个预设分组数量比例,确定n个分组划分比例阈值;
分组子模块,被配置为将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值进行对比,确定所述每个样本数据所属的分组,得到所述n个样本子集。
8.根据权利要求7所述的装置,其特征在于,所述预设分组数n包括采用第i组表示的n个分组,其中,i为1-n的正整数;
所述确定子模块,具体被配置为当i=1时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为所述n个预设分组数量比例的第i个预设分组数量比例;当i不为1、且不为n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为前i个预设分组数量比例之和;当i=n时,确定所述n个分组划分比例阈值中的第i个分组划分比例阈值为1;其中,第i组、第i个预设分组数量比例和第i个分组划分比例阈值一一对应;
所述分组子模块,具体被配置为将所述每个样本数据对应的随机数依次与所述n个分组划分比例阈值中的第i个分组划分比例阈值进行对比;其中,i从1开始;当所述每个样本数据对应的随机数小于等于所述第i个分组划分比例阈值内时,确定所述每个样本数据属于第i组;当所述每个样本数据对应的随机数大于所述第i个分组划分比例阈值时,将i加1,进入所述每个样本数据对应的随机数与第i+1个分组划分比例阈值进行对比的流程,从而得到所述n个样本子集。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-5任一项所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-5任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811628119.8A CN109697049A (zh) | 2018-12-28 | 2018-12-28 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811628119.8A CN109697049A (zh) | 2018-12-28 | 2018-12-28 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109697049A true CN109697049A (zh) | 2019-04-30 |
Family
ID=66232321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811628119.8A Pending CN109697049A (zh) | 2018-12-28 | 2018-12-28 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697049A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782507A (zh) * | 2020-06-12 | 2020-10-16 | 航天信息股份有限公司 | 数据测试方法、装置、存储介质及电子设备 |
CN111967798A (zh) * | 2020-09-07 | 2020-11-20 | 上海优扬新媒信息技术有限公司 | 实验样本分配的方法及装置、设备及计算机可读存储介质 |
CN113377339A (zh) * | 2021-07-09 | 2021-09-10 | 广东电网有限责任公司 | 基于电力物联网的分组编码真随机数生成方法及系统 |
WO2021185330A1 (zh) * | 2020-03-20 | 2021-09-23 | 京东方科技集团股份有限公司 | 数据增强方法和数据增强装置 |
CN116225372A (zh) * | 2023-02-28 | 2023-06-06 | 成都电科星拓科技有限公司 | 一种均匀分布的抖动伪随机数生成方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304888B1 (en) * | 1998-02-17 | 2001-10-16 | International Business Machines Corporation | High speed numerical integration method and system |
CN105975457A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于全自动学习的信息分类预测系统 |
CN107292186A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
CN107342857A (zh) * | 2017-07-04 | 2017-11-10 | 微鲸科技有限公司 | 分组方法及装置 |
-
2018
- 2018-12-28 CN CN201811628119.8A patent/CN109697049A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304888B1 (en) * | 1998-02-17 | 2001-10-16 | International Business Machines Corporation | High speed numerical integration method and system |
CN107292186A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
CN105975457A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于全自动学习的信息分类预测系统 |
CN107342857A (zh) * | 2017-07-04 | 2017-11-10 | 微鲸科技有限公司 | 分组方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021185330A1 (zh) * | 2020-03-20 | 2021-09-23 | 京东方科技集团股份有限公司 | 数据增强方法和数据增强装置 |
CN111782507A (zh) * | 2020-06-12 | 2020-10-16 | 航天信息股份有限公司 | 数据测试方法、装置、存储介质及电子设备 |
CN111782507B (zh) * | 2020-06-12 | 2024-04-30 | 航天信息股份有限公司 | 数据测试方法、装置、存储介质及电子设备 |
CN111967798A (zh) * | 2020-09-07 | 2020-11-20 | 上海优扬新媒信息技术有限公司 | 实验样本分配的方法及装置、设备及计算机可读存储介质 |
CN111967798B (zh) * | 2020-09-07 | 2023-10-03 | 度小满科技(北京)有限公司 | 实验样本分配的方法及装置、设备及计算机可读存储介质 |
CN113377339A (zh) * | 2021-07-09 | 2021-09-10 | 广东电网有限责任公司 | 基于电力物联网的分组编码真随机数生成方法及系统 |
CN113377339B (zh) * | 2021-07-09 | 2023-07-11 | 广东电网有限责任公司 | 基于电力物联网的分组编码真随机数生成方法及系统 |
CN116225372A (zh) * | 2023-02-28 | 2023-06-06 | 成都电科星拓科技有限公司 | 一种均匀分布的抖动伪随机数生成方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697049A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN108595157B (zh) | 区块链数据的处理方法、装置、设备和存储介质 | |
CN109921950B (zh) | 一种网络带宽需求预测方法、装置及电子设备 | |
US20070250630A1 (en) | Method and a system of generating and evaluating potential resource allocations for an application | |
US20200184366A1 (en) | Scheduling task graph operations | |
CN109583594B (zh) | 深度学习训练方法、装置、设备及可读存储介质 | |
CN103885876B (zh) | 测试方法及设备 | |
CN111723947A (zh) | 一种联邦学习模型的训练方法及装置 | |
US8528100B2 (en) | Software license reconciliation within a cloud computing infrastructure | |
CN114580280A (zh) | 模型量化方法、装置、设备、计算机程序及存储介质 | |
Bock | Solving the traveling repairman problem on a line with general processing times and deadlines | |
CN113206830A (zh) | 一种数据处理方法、装置和电子设备 | |
US20160342899A1 (en) | Collaborative filtering in directed graph | |
CN113094899B (zh) | 一种随机潮流计算方法、装置、电子设备及存储介质 | |
CN113010671B (zh) | 一种app分类系统 | |
CN116820709B (zh) | 任务链的运行方法、装置、终端及计算机存储介质 | |
CN104599092A (zh) | 用于监控订单业务的方法及设备 | |
CN115759238B (zh) | 一种量化模型的生成方法及装置、电子设备及存储介质 | |
CN115361340B (zh) | Ab实验分流方法、装置、计算机设备和存储介质 | |
CN114691630B (zh) | 一种智慧供应链大数据共享方法及系统 | |
CN116304699A (zh) | 基于新能源多场站短路比的临界样本集生成方法及系统 | |
CN110661913A (zh) | 一种用户排序方法、装置及电子设备 | |
CN114492844A (zh) | 机器学习工作流的构建方法、装置、电子设备及存储介质 | |
CN111598390B (zh) | 服务器高可用性评估方法、装置、设备和可读存储介质 | |
CN113419706A (zh) | 一种快速的任意分布随机数产生方法、系统及其检验方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190430 |
|
RJ01 | Rejection of invention patent application after publication |