CN104965976A - 一种抽样方法和装置 - Google Patents

一种抽样方法和装置 Download PDF

Info

Publication number
CN104965976A
CN104965976A CN201510323153.4A CN201510323153A CN104965976A CN 104965976 A CN104965976 A CN 104965976A CN 201510323153 A CN201510323153 A CN 201510323153A CN 104965976 A CN104965976 A CN 104965976A
Authority
CN
China
Prior art keywords
group
latin
data object
sampling
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510323153.4A
Other languages
English (en)
Other versions
CN104965976B (zh
Inventor
李鑫
王海旭
焦文健
张蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510323153.4A priority Critical patent/CN104965976B/zh
Publication of CN104965976A publication Critical patent/CN104965976A/zh
Application granted granted Critical
Publication of CN104965976B publication Critical patent/CN104965976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本申请公开了一种抽样方法和装置,将数据对象总体的特征划分为分类特征和拉丁特征,根据分类特征对总体进行分群,然后利用拉丁超立方体(NOLHD)抽样方法,在每个群内进行抽样。采用本发明,通过对总体分群、各群内单独拉丁超立方体抽样,可以减少抽样过程中总体信息的流失,提高样本反映总体的准确度。

Description

一种抽样方法和装置
技术领域
本发明涉及计算机应用领域,特别是涉及一种抽样方法和装置。
背景技术
目前,在网站用户调研或者网站用户分析中,常常需要对用户进行抽样,使得样本尽量多的保留总体信息。
现有的用户抽样方案,主要包括下述步骤:
步骤x1、对需要调研的用户总体进行分群,得到若干用户群。
步骤x2、对于每个用户群,采用随机抽取的方式,从中抽取样本。
步骤x3、将抽取到的所有用户群的样本合并,得到所述用户总体的样本集合。
从上述方案可以看出,现有的用户抽样方法采用随机抽取的方法进行样本的抽取,这样,每个用户被抽取的概率相同。而在实际应用中,不同样本间的相似度不同,采用随机抽取的方式,就会导致可能出现被抽取到的多个用户的相似度较高,而差异性大的用户没有被抽取到的情况,这样,就会导致抽取过程中总体信息流失过多,所抽取到的样本集合不能准确地反映用户总体的特点,即每个样本的代表性不强。
由此可见,现有的抽样方案由于采用随机抽取的方式,而存在总体信息流失多、样本无法反映总体的问题,从而会影响基于样本进行用户分析的准确性。
发明内容
有鉴于此,本发明的主要目的在于提供一种抽样方法和装置,可以减少抽样过程中总体信息的流失,提高样本反映总体的准确度。
为了达到上述目的,本发明提出的技术方案为:
一种抽样方法,包括:
将数据对象总体的特征划分为分类特征和拉丁特征,其中,每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数,且所述拉丁特征的数量q满足:q=2r,r为大于1的整数;
根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的拉丁特征的数量qi满足:ri为大于1的整数;
对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组,其中,所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述qi;对群中每个拉丁特征的取值进行归类处理,所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li;利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体,其中,所确定的拉丁超立方体的行数等于所述li;利用所确定的拉丁超立方体,对该群中的数据对象进行抽样;
将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。
一种抽样装置,包括:
特征分类单元,用于将数据对象总体的特征划分为分类特征和拉丁特征,其中,每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数,且所述拉丁特征的数量q满足:q=2r,r为大于1的整数;
分群单元,用于根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的拉丁特征的数量qi满足:ri为大于1的整数;
抽样单元,用于对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组,其中,所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述qi;对群中每个拉丁特征的取值进行归类处理,所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li;利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体,其中,所确定的拉丁超立方体的行数等于所述li;利用所确定的拉丁超立方体,对该群中的数据对象进行抽样;
样本汇总单元,用于将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。
综上所述,本发明提出的抽样方法和装置,将数据对象总体的特征划分为分类特征和拉丁特征,根据分类特征对总体进行分群,然后利用拉丁超立方体(NOLHD)抽样方法,在每个群内进行抽样。如此,通过对总体分群、各群内单独拉丁超立方体抽样,可以实现对每个样本的控制,减少抽样的随机性,提升样本的代表性,从而可以使得样本可以准确地反映总体的情况。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明的核心思想是:将拉丁超立方体(NOLHD)抽样引入到了用户抽样中,首先将总体的特征抽象为分类特征和拉丁特征,然后根据分类特征对用户总体分群,然后对于每个用户群,结合NOLHD群组,进行抽样。如此,通过对总体分群、各群内单独拉丁超立方体抽样,可以实现对每个样本的控制,减少抽样的随机性,提升样本的代表性,从而可以使得样本更能反映总体的情况。
图1为本发明实施例一的流程示意图,如图1所示,该实施例主要包括:
步骤101、将数据对象总体的特征划分为分类特征和拉丁特征,其中,每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数,且所述拉丁特征的数量q满足:q=2r,r为大于1的整数。
本步骤,用于对数据对象总体所包含的所有特征进行分类,即分为分类特征和拉丁特征。在实际应用中,所述数据对象可以是用户在计算机存储中存在的数值单元。
这里特征分类的依据是:特征的取值个数。拉丁特征的取值个数将大于所述分类特征的取值个数,并且需要使得拉丁特征的数量q为2的幂次方,即满足:q=2r
其中,分类特征,是用于依据此进行分类的特征,该类特征的取值有限并且枚举值很少,如用户的注册来源、用户的下单渠道等,因此,据此分类不会导致分类后的群中数据对象数量过少的问题。
对于拉丁特征,该类特征的取值为连续的,或者枚举值很多。如用户的下单地址,用户的下单金额、用户的下单量等。利用该类特征,可以构建相应的拉丁超立方体,基于拉丁超立方体抽样,使得抽样结果的特征分布尽量与总体的特征分布相一致,从而确保样本的代表性。
步骤102、根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的拉丁特征的数量qi满足:ri为大于1的整数。
本步骤,用分类特征进行分类,分类后的各群中拉丁特征的数量应为2的幂次方,以便可以基于此构建相应的用于抽样的拉丁超立方体。
步骤103、对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组,其中,所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述qi;对群中每个拉丁特征的取值进行归类处理,所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li;利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体,其中,所确定的拉丁超立方体的行数等于所述li;利用所确定的拉丁超立方体,对该群中的数据对象进行抽样。
本步骤,对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组,然后再从中选择出适用于该群抽样的拉丁超立方体,并利用该拉丁超立方体,对该群中的数据对象进行抽样。
这里为了便于理解,先介绍一下拉丁超立方体的特点以及构建方法。
近似正交的拉丁超立方体的设计(NOLHD):
将n个试验、m个因子的拉丁超立方体设计记为:L(n,m)=(l1,l2,...,lm),其中lj是第j个因子,并且每个因子的n个水平是等距的。简单的说,L(n,m)就是一个n×m的矩阵,每列的元素都是同一个等差数列,但排列方式不一样。
NOLHD是基于现有的OD(n)方阵构建得到的,n为方阵的阶数。
OD(n)方阵的定义(具体见yang and liu(2012)):
一个n×n的方阵A,如果它满足下面三个条件,那么就称它为OD(n)方阵:
1、它的每个元素都是{±a1,±a2,...,±an}
2、如果不考虑每个元素的正负号,那么A的每一列都是{a1,a2,...,an}的一个排列。
3、任意两列不同的内积为0
yang and liu(2012)证明了阶数为2r的OD(2r)是存在的。
例如,OD(4)为:
a + b 2 a + b - 4 a - b 3 a + b 2 a + b - a - b - 3 a - b - 4 a - b 3 a + b 4 a + b 2 a + b - a - b 4 a + b - 3 a - b a + b 2 a + b
其中,a为OD(4)方阵的第一线性组合参数,b为OD(n)方阵的第二线性参数。
对于近似正交的拉丁超立方体NOLHD,其中两两不同列之间的内积接近于0,如此,可以保证样本之间的线性无关性、空间均匀性和空间填充性。
一般的,对于每个数据对象群i,可以按照下述步骤构建该群使用的近似正交的拉丁超立方体(NOLHD)群组:
步骤z0、设置c=2,其中,c为OD(n)方阵的第一线性组合参数a的系数绝对值的最小值参数;n为OD(n)方阵的列数。
本步骤用于进行参数初始化。将OD(n)方阵的列数设置为数据对象群i的拉丁特征数量将c初始化为2。在此后的群组构造过程中c将依次增加直到即方阵的列数不变。
步骤z1、利用预设的超立方体矩阵模板NOD(n,c)_(a,b),按照 W 1 , c = N O D ( n , c ) _ ( a , b ) - N O D ( n , c ) _ ( a , b ) , 构造超立方体矩阵W1,c
其中, N O D ( n , c ) _ ( a , b ) = ( O D ( n , c ) _ ( a , b ) M ( n , c ) _ ( a , b ) ) , a为OD(n)方阵的第一线性组合参数,b为OD(n)方阵的第二线性参数,OD(n,c)_(a,b)为a的系数绝对值的最小值为c的OD(n)方阵;M(n,c)_(a,b)为所述OD(n,c)_(a,b)增加c-1行元素后得到的矩阵,所述c-1行元素为n列等差数列 a + b 2 a + b 3 a + b . . . ( c - 1 ) a + b .
步骤z2、利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W1,c,按照 W 2 , c = W 1 , c 0 N O D ( n , c - 1 ) _ ( a , 0 ) - N O D ( n , c - 1 ) _ ( a , 0 ) , 构造超立方体矩阵W2,c
步骤z3、利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W2,c,遍历s={3,4,…,ri+1}中的每个值,按照 W s , c = W s - 1 , c N O D ( n , c - 1 ) _ ( a , b 1 ) - N O D ( n , c - 1 ) _ ( a , b 1 ) N O D ( n , c - 1 ) _ ( a , b 2 ) - N O D ( n , c - 1 ) _ ( a , b 2 ) . . . N O D ( n , c - 1 ) _ ( a , b 2 s - 3 ) - N O D ( n , c - 1 ) _ ( a , b 2 s - 3 ) N O D ( n , c - 1 ) _ ( a , c 1 ) - N O D ( n , c - 1 ) _ ( a , c 1 ) N O D ( n , c - 1 ) _ ( a , c 2 ) - N O D ( n , c - 1 ) _ ( a , c 2 ) . . . N O D ( n , c - 1 ) _ ( a , c 2 s - 3 ) - N O D ( n , c - 1 ) _ ( a , c 2 s - 3 ) , 构造超立方体矩阵Ws,c;其中, b 1 = - 2 s - 2 + 1 2 s - 1 2 r i , b 2 = - 2 s - 2 + 3 2 s - 1 2 r i , ... , b 2 s - 3 = - 2 s - 1 - 1 2 s - 1 2 r i ; c 1 = - 1 2 s - 1 2 r i , c 2 = - 3 2 s - 1 2 r i , ... , c 2 s - 3 = - 2 s - 2 - 1 2 s - 1 2 r i .
步骤z4、按照c=c+1,更新所述c;判断是否满足如果是,则执行步骤z1,否则,执行步骤z5。
步骤z5、将所有所述超立方体矩阵的集合,确定为所述NOLHD群组。
采用上述方法,可以构造出多个列数均为但行数不同的多个超立方体矩阵,这些超立方体矩阵构成的集合即为数据对象群i对应的NOLHD群组,基于该群组,可以选择出其用于抽样的拉丁超立方体。
较佳地,利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体可以采用下述方法实现:
从所述数据对象群i对应的NOLHD群组中,选择出行数为所述li的拉丁超立方体,作为数据对象群i用于抽样的拉丁超立方体。
这样,就可以得到一个行数为数据对象群i的每个拉丁特征的枚举值数量li,列数为数据对象群i的拉丁特征的数量的矩阵,作为数据对象群i用于抽样的拉丁超立方体。
在选择用于抽样的拉丁超立方体之前,需要先对群中每个拉丁特征的取值进行归类处理,使得归类处理后的每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li。如此,可以使得归类处理后群中每个拉丁特征的取值个数统一为固定值(即单位特征枚举数阈值li),从而可以确保每个取值都可以与用于抽样的拉丁超立方体进行对应。
需要说明的是,在具体归类处理时,对于取值为连续值的拉丁特征,需要先对其取值进行离散化,然后再结合对离散化结果进行归类,得到li个枚举值。
这里,每个群的单位特征枚举数阈值li可由本领域技术人员根据实际需要设置合适取值,在此不再赘述。
较佳地,对于每个数据对象群i,可以采用下述方法利用该群对应的所述NOLHD群组,对该群中的数据对象进行抽样:
步骤t1、对于所述数据对象群i,将其用于抽样的拉丁超立方体中的每个元素at,j,与群中的每个拉丁特征取值ut,j,建立一一映射关系,其中,ut,j为数据对象群i中第j个拉丁特征的第t个取值。
步骤t2、对于所述数据对象群i,按照预设的数据对象群i的样本抽样数ni,根据该群用于抽样的拉丁超立方体进行抽样;其中,所述ni是所述li的整数倍,当ni/li大于1时,重复所述抽样ni/li次。
本步骤需要说明的是,根据该群用于抽样的拉丁超立方体进行抽样的具体方法可采用现有技术实现,在此不再赘述。
这里,如前所述基于拉丁超立方体的抽样可以确保样本之间的线性无关性和空间均匀性,而在步骤t1中使得拉丁超立方体中的每个元素at,j与群中的每个拉丁特征取值ut,j一一对应,因此,本步骤可以确保所抽取的样本对应的拉丁特征取值的分布是均匀的,从而可以确保基于此样本抽取到的数据对象的特征与数据对象总体的特征保持一致性,进而可以减少抽样过程中总体信息的流失,提高样本反映总体的准确度。
步骤t3、对于所述拉丁超立方体的抽样结果中的每个元素,根据该元素对应的拉丁特征取值,从所述数据对象群i中抽取ki个具有该拉丁特征取值的数据对象,所述ki为该元素在所述抽样结果中的数量。
步骤104、将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。
图2为与上述方法相对应的抽样装置结构示意图,如图2所示,该装置主要包括:特征分类单元、分群单元、抽样单元和样本汇总单元。
其中,特征分类单元,用于将数据对象总体的特征划分为分类特征和拉丁特征,其中,每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数,且所述拉丁特征的数量q满足:q=2r,r为大于1的整数。
分群单元,用于根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的拉丁特征的数量qi满足:ri为大于1的整数。
抽样单元,用于对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组,其中,所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述qi;对群中每个拉丁特征的取值进行归类处理,所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li;利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体,其中,所确定的拉丁超立方体的行数等于所述li;利用所确定的拉丁超立方体,对该群中的数据对象进行抽样。
样本汇总单元,用于将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。
较佳地,所述抽样单元可以包括:
初始化模块,用于设置c=2,其中,c为OD(n)方阵的第一线性组合参数a的系数绝对值的最小值参数;n为OD(n)方阵的列数;触发第一构造模块执行;
第一构造模块,用于利用预设的超立方体矩阵模板NOD(n,c)_(a,b),按照 W 1 , c = N O D ( n , c ) _ ( a , b ) - N O D ( n , c ) _ ( a , b ) , 构造超立方体矩阵W1,c;其中, N O D ( n , c ) _ ( a , b ) = ( O D ( n , c ) _ ( a , b ) M ( n , c ) _ ( a , b ) ) , a为OD(n)方阵的第一线性组合参数,b为OD(n)方阵的第二线性参数,OD(n,c)_(a,b)为a的系数绝对值的最小值为c的OD(n)方阵;M(n,c)_(a,b)为所述OD(n,c)_(a,b)增加c-1行元素后得到的矩阵,所述c-1行元素为n列等差数列 a + b 2 a + b 3 a + b . . . ( c - 1 ) a + b ; 触发第二构造模块执行;
第二构造模块,用于利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W1,c,按照 W 2 , c = W 1 , c 0 N O D ( n , c - 1 ) _ ( a , 0 ) - N O D ( n , c - 1 ) _ ( a , 0 ) , 构造超立方体矩阵W2,c;触发第三构造模块执行;
第三构造模块,用于利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W2,c,遍历s={3,4,…,ri+1}中的每个值,按照 W s , c = W s - 1 , c N O D ( n , c - 1 ) _ ( a , b 1 ) - N O D ( n , c - 1 ) _ ( a , b 1 ) N O D ( n , c - 1 ) _ ( a , b 2 ) - N O D ( n , c - 1 ) _ ( a , b 2 ) . . . N O D ( n , c - 1 ) _ ( a , b 2 s - 3 ) - N O D ( n , c - 1 ) _ ( a , b 2 s - 3 ) N O D ( n , c - 1 ) _ ( a , c 1 ) - N O D ( n , c - 1 ) _ ( a , c 1 ) N O D ( n , c - 1 ) _ ( a , c 2 ) - N O D ( n , c - 1 ) _ ( a , c 2 ) . . . N O D ( n , c - 1 ) _ ( a , c 2 s - 3 ) - N O D ( n , c - 1 ) _ ( a , c 2 s - 3 ) , 构造超立方体矩阵Ws,c其中, b 1 = - 2 s - 2 + 1 2 s - 1 2 r i , b 2 = - 2 s - 2 + 3 2 s - 1 2 r i , ... , b 2 s - 3 = - 2 s - 1 - 1 2 s - 1 2 r i ; c 1 = - 1 2 s - 1 2 r i , c 2 = - 3 2 s - 1 2 r i , ... , c 2 s - 3 = - 2 s - 2 - 1 2 s - 1 2 r i ; 触发更新模块执行;
更新模块,用于按照c=c+1,更新所述c;判断是否满足如果是,则触发第一构造模块执行,否则,触发群组生成模块执行;
群组生成模块,用于将所有所述超立方体矩阵的集合,确定为所述NOLHD群组。
较佳地,所述抽样单元进一步包括:
拉丁超立方体选择模块,用于从所述数据对象群i对应的NOLHD群组中,选择出行数为所述li的拉丁超立方体,作为数据对象群i用于抽样的拉丁超立方体。
较佳地,所述抽样单元进一步包括:
映射模块,用于对于所述数据对象群i,将其用于抽样的拉丁超立方体中的每个元素at,j,与群中的每个拉丁特征取值ut,j,建立一一映射关系,其中,ut,j为数据对象群i中第j个拉丁特征的第t个取值;
拉丁超立方体抽样模块,用于对于所述数据对象群i,按照预设的数据对象群i的样本抽样数ni,根据该群用于抽样的拉丁超立方体进行抽样;其中,所述ni是所述li的整数倍,当ni/li大于1时,重复所述抽样ni/li次;
抽样提取模块,用于对于所述拉丁超立方体的抽样结果中的每个元素,根据该元素对应的拉丁特征取值,从所述数据对象群i中抽取ki个具有该拉丁特征取值的数据对象,所述ki为该元素在所述抽样结果中的数量。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种抽样方法,其特征在于,包括:
将数据对象总体的特征划分为分类特征和拉丁特征,其中,每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数,且所述拉丁特征的数量q满足:q=2r,r为大于1的整数;
根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的拉丁特征的数量qi满足:ri为大于1的整数;
对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组,其中,所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述qi;对群中每个拉丁特征的取值进行归类处理,所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li;利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体,其中,所确定的拉丁超立方体的行数等于所述li;利用所确定的拉丁超立方体,对该群中的数据对象进行抽样;
将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。
2.根据权利要求1所述的方法,其特征在于,对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组包括:
z0、设置c=2,其中,c为OD(n)方阵的第一线性组合参数a的系数绝对值的最小值参数;n为OD(n)方阵的列数;
z1、利用预设的超立方体矩阵模板NOD(n,c)_(a,b),按照 W 1 , c = N O D ( n , c ) _ ( a , b ) - N O D ( n , c ) _ ( a , b ) , 构造超立方体矩阵W1,c;其中, N O D ( n , c ) _ ( a , b ) = ( O D ( n , c ) _ ( a , b ) M ( n , c ) _ ( a , b ) ) , a为OD(n)方阵的第一线性组合参数,b为OD(n)方阵的第二线性参数,OD(n,c)_(a,b)为a的系数绝对值的最小值为c的OD(n)方阵;M(n,c)_(a,b)为所述OD(n,c)_(a,b)增加c-1行元素后得到的矩阵,所述c-1行元素为n列等差数列 a + b 2 a + b 3 a + b . . . ( c - 1 ) a + b ;
z2、利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W1,c,按照 W 2 , c = W 1 , c N O D ( n , c - 1 ) _ ( a , 0 ) - N O D ( n , c - 1 ) _ ( a , 0 ) , 构造超立方体矩阵W2,c
z3、利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W2,c,遍历s={3,4,…,ri+1}中的每个值,按照 W s , c = W s - 1 , c N O D ( n , c - 1 ) _ ( a , b 1 ) - N O D ( n , c - 1 ) _ ( a , b 1 ) N O D ( n , c - 1 ) _ ( a , b 2 ) - N O D ( n , c - 1 ) _ ( a , b 2 ) . . . N O D ( n , c - 1 ) _ ( a , b 2 s - 3 ) - N O D ( n , c - 1 ) _ ( a , b 2 s - 3 ) N O D ( n , c - 1 ) _ ( a , c 1 ) - N O D ( n , c - 1 ) _ ( a , c 1 ) N O D ( n , c - 1 ) _ ( a , c 2 ) - N O D ( n , c - 1 ) _ ( a , c 2 ) . . . N O D ( n , c - 1 ) _ ( a , c 2 s - 3 ) - N O D ( n , c - 1 ) _ ( a , c 2 s - 3 ) , 构造超立方体矩阵Ws,c;其中, b 1 = - 2 s - 2 + 1 2 s - 1 2 r i , b 2 = - 2 s - 2 + 3 2 s - 1 2 r i , ... , b 2 s - 3 = - 2 s - 2 - 1 2 s - 1 2 r i , c 1 = - 1 2 s - 1 2 r i , c 2 = - 3 2 s - 1 2 r i , ... , c 2 s - 3 = - 2 s - 2 - 1 2 s - 1 2 r i ;
z4、按照c=c+1,更新所述c;判断是否满足如果是,则执行步骤z1,否则,执行步骤z5;
z5、将所有所述超立方体矩阵的集合,确定为所述NOLHD群组。
3.根据权利要求1所述的方法,其特征在于,所述利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体包括:
从所述数据对象群i对应的NOLHD群组中,选择出行数为所述li的拉丁超立方体,作为数据对象群i用于抽样的拉丁超立方体。
4.根据权利要求1所述的方法,其特征在于,所述利用该群对应的所述NOLHD群组,对该群中的数据对象进行抽样包括:
对于所述数据对象群i,将其用于抽样的拉丁超立方体中的每个元素at,j,与群中的每个拉丁特征取值ut,j,建立一一映射关系,其中,ut,j为数据对象群i中第j个拉丁特征的第t个取值;
对于所述数据对象群i,按照预设的数据对象群i的样本抽样数ni,根据该群用于抽样的拉丁超立方体进行抽样;其中,所述ni是所述li的整数倍,当ni/li大于1时,重复所述抽样ni/li次;
对于所述拉丁超立方体的抽样结果中的每个元素,根据该元素对应的拉丁特征取值,从所述数据对象群i中抽取ki个具有该拉丁特征取值的数据对象,所述ki为该元素在所述抽样结果中的数量。
5.一种抽样装置,其特征在于,包括:
特征分类单元,用于将数据对象总体的特征划分为分类特征和拉丁特征,其中,每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数,且所述拉丁特征的数量q满足:q=2r,r为大于1的整数;
分群单元,用于根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的拉丁特征的数量qi满足:ri为大于1的整数;
抽样单元,用于对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组,其中,所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述qi;对群中每个拉丁特征的取值进行归类处理,所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li;利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体,其中,所确定的拉丁超立方体的行数等于所述li;利用所确定的拉丁超立方体,对该群中的数据对象进行抽样;
样本汇总单元,用于将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。
6.根据权利要求5所述的装置,其特征在于,所述抽样单元包括:
初始化模块,用于设置c=2,其中,c为OD(n)方阵的第一线性组合参数a的系数绝对值的最小值参数;n为OD(n)方阵的列数;触发第一构造模块执行;
第一构造模块,用于利用预设的超立方体矩阵模板NOD(n,c)_(a,b),按照 W 1 , c = N O D ( n , c ) _ ( a , b ) - N O D ( n , c ) _ ( a , b ) , 构造超立方体矩阵W1,c;其中, N O D ( n , c ) _ ( a , b ) = ( O D ( n , c ) _ ( a , b ) M ( n , c ) _ ( a , b ) ) , a为OD(n)方阵的第一线性组合参数,b为OD(n)方阵的第二线性参数,OD(n,c)_(a,b)为a的系数绝对值的最小值为c的OD(n)方阵;M(n,c)_(a,b)为所述OD(n,c)_(a,b)增加c-1行元素后得到的矩阵,所述c-1行元素为n列等差数列 a + b 2 a + b 3 a + b . . . ( c - 1 ) a + b ; 触发第二构造模块执行;
第二构造模块,用于利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W1,c,按照 W 2 , c = W 1 , c 0 N O D ( n , c - 1 ) _ ( a , 0 ) - N O D ( n , c - 1 ) _ ( a , 0 ) , 构造超立方体矩阵W2,c;触发第三构造模块执行;
第三构造模块,用于利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W2,c,遍历s={3,4,…,ri+1}中的每个值,按照 W s , c = W s - 1 , c N O D ( n , c - 1 ) _ ( a , b 1 ) - N O D ( n , c - 1 ) _ ( a , b 1 ) N O D ( n , c - 1 ) _ ( a , b 2 ) - N O D ( n , c - 1 ) _ ( a , b 2 ) . . . N O D ( n , c - 1 ) _ ( a , b 2 s - 3 ) - N O D ( n , c - 1 ) _ ( a , b 2 s - 3 ) N O D ( n , c - 1 ) _ ( a , c 1 ) - N O D ( n , c - 1 ) _ ( a , c 1 ) N O D ( n , c - 1 ) _ ( a , c 2 ) - N O D ( n , c - 1 ) _ ( a , c 2 ) . . . N O D ( n , c - 1 ) _ ( a , c 2 s - 3 ) - N O D ( n , c - 1 ) _ ( a , c 2 s - 3 ) , 构造超立方体矩阵Ws,c其中, b 1 = - 2 s - 2 + 1 2 s - 1 2 r i , b 2 = - 2 s - 2 + 3 2 s - 1 2 r i , ... , b 2 s - 3 = - 2 s - 1 - 1 2 s - 1 2 r i ; c 1 = - 1 2 s - 1 2 r i , c 2 = - 3 2 s - 1 2 r i , ... , c 2 s - 3 = - 2 s - 2 - 1 2 s - 1 2 r i ; 触发更新模块执行;
更新模块,用于按照c=c+1,更新所述c;判断是否满足如果是,则触发第一构造模块执行,否则,触发群组生成模块执行;
群组生成模块,用于将所有所述超立方体矩阵的集合,确定为所述NOLHD群组。
7.根据权利要求5所述的装置,其特征在于,所述抽样单元包括:
拉丁超立方体选择模块,用于从所述数据对象群i对应的NOLHD群组中,选择出行数为所述li的拉丁超立方体,作为数据对象群i用于抽样的拉丁超立方体。
8.根据权利要求5所述的装置,其特征在于,所述抽样单元包括:
映射模块,用于对于所述数据对象群i,将其用于抽样的拉丁超立方体中的每个元素at,j,与群中的每个拉丁特征取值ut,j,建立一一映射关系,其中,ut,j为数据对象群i中第j个拉丁特征的第t个取值;
拉丁超立方体抽样模块,用于对于所述数据对象群i,按照预设的数据对象群i的样本抽样数ni,根据该群用于抽样的拉丁超立方体进行抽样;其中,所述ni是所述li的整数倍,当ni/li大于1时,重复所述抽样ni/li次;
抽样提取模块,用于对于所述拉丁超立方体的抽样结果中的每个元素,根据该元素对应的拉丁特征取值,从所述数据对象群i中抽取ki个具有该拉丁特征取值的数据对象,所述ki为该元素在所述抽样结果中的数量。
CN201510323153.4A 2015-06-12 2015-06-12 一种抽样方法和装置 Active CN104965976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510323153.4A CN104965976B (zh) 2015-06-12 2015-06-12 一种抽样方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510323153.4A CN104965976B (zh) 2015-06-12 2015-06-12 一种抽样方法和装置

Publications (2)

Publication Number Publication Date
CN104965976A true CN104965976A (zh) 2015-10-07
CN104965976B CN104965976B (zh) 2018-02-27

Family

ID=54220014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510323153.4A Active CN104965976B (zh) 2015-06-12 2015-06-12 一种抽样方法和装置

Country Status (1)

Country Link
CN (1) CN104965976B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105790258A (zh) * 2016-03-15 2016-07-20 国电南瑞科技股份有限公司 基于正态Copula函数的拉丁超立方抽样法概率潮流计算方法
CN108319611A (zh) * 2017-01-17 2018-07-24 腾讯科技(深圳)有限公司 抽样方法和抽样装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009317A1 (en) * 2001-06-18 2003-01-09 Ford Motor Company Method and system for optimizing the design of a mechanical system
EP1488364A1 (en) * 2002-03-26 2004-12-22 Council of Scientific and Industrial Research Method and system to build optimal models of 3-dimensional molecular structures
US8037447B2 (en) * 2006-01-31 2011-10-11 Oracle America, Inc. Identifying semiconductor system specification violations
US8781993B2 (en) * 2010-04-09 2014-07-15 Bae Systems Information And Electronic Systems Integration Inc. Nearly orthogonal latin hypercubes for optimization algorithms
CN104484531A (zh) * 2014-12-18 2015-04-01 大连理工大学 考虑多源不确定性的加筋板壳结构可靠度优化方法
CN104659782A (zh) * 2015-03-20 2015-05-27 太原理工大学 考虑负荷波动极限的电力系统电压稳定性风险评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009317A1 (en) * 2001-06-18 2003-01-09 Ford Motor Company Method and system for optimizing the design of a mechanical system
EP1488364A1 (en) * 2002-03-26 2004-12-22 Council of Scientific and Industrial Research Method and system to build optimal models of 3-dimensional molecular structures
US8037447B2 (en) * 2006-01-31 2011-10-11 Oracle America, Inc. Identifying semiconductor system specification violations
US8781993B2 (en) * 2010-04-09 2014-07-15 Bae Systems Information And Electronic Systems Integration Inc. Nearly orthogonal latin hypercubes for optimization algorithms
CN104484531A (zh) * 2014-12-18 2015-04-01 大连理工大学 考虑多源不确定性的加筋板壳结构可靠度优化方法
CN104659782A (zh) * 2015-03-20 2015-05-27 太原理工大学 考虑负荷波动极限的电力系统电压稳定性风险评估方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YANG J,ET AL.,: "CONSTRUCTION OF ORTHOGONAL AND NEARLY ORTHOGONAL LATIN HYPERCUBE DESIGNS FROM ORTHOGONAL DESIGNS", 《STATISTICA SINICA》 *
崔旭东,等: "地下水抽水方案设计的抽样技术研究", 《SCIENCE&TECHOLOGY&INFORMATION》 *
张建平,等: "基于改进拉丁超立方抽样的概率潮流计算", 《华东电力》 *
李鑫: "嵌套近似正交拉丁超立方体设计的构造", 《万方数据知识服务平台》 *
杨金语: "由正交设计构造正交和近似正交的拉丁超立方体设计", 《万方数据知识服务平台》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105790258A (zh) * 2016-03-15 2016-07-20 国电南瑞科技股份有限公司 基于正态Copula函数的拉丁超立方抽样法概率潮流计算方法
CN105790258B (zh) * 2016-03-15 2018-06-29 国电南瑞科技股份有限公司 基于正态Copula函数的拉丁超立方抽样法概率潮流计算方法
CN108319611A (zh) * 2017-01-17 2018-07-24 腾讯科技(深圳)有限公司 抽样方法和抽样装置
CN108319611B (zh) * 2017-01-17 2022-03-11 腾讯科技(深圳)有限公司 抽样方法和抽样装置

Also Published As

Publication number Publication date
CN104965976B (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
US11036685B2 (en) System and method for compressing data in a database
CN107292186A (zh) 一种基于随机森林的模型训练方法和装置
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
Ignatov et al. Can triconcepts become triclusters?
CN105117442B (zh) 一种基于概率的大数据查询方法
CN102523274A (zh) 基于核心网侧的无线个性化精准信息主动推送系统及方法
CN105825269B (zh) 一种基于并行自动编码机的特征学习方法及系统
US10210251B2 (en) System and method for creating labels for clusters
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN113094533B (zh) 一种基于混合粒度匹配的图文跨模态检索方法
CN100476824C (zh) 存储元素的方法与系统及查找元素的方法与系统
CN106294363A (zh) 一种论坛帖子评价方法、装置及系统
CN115587597B (zh) 基于子句级关系图的方面词的情感分析方法以及装置
CN107798059A (zh) 一种nco气象数据结构化存储方法和装置
CN104965976A (zh) 一种抽样方法和装置
CN110457706A (zh) 兴趣点名称选择模型训练方法、使用方法、装置及存储介质
CN101916254A (zh) 表单统计方法和装置
CN109062946A (zh) 一种基于多网页的突出显示方法及装置
CN107818125A (zh) 通过simd处理器寄存器对数据进行迭代评估
Bo et al. An improved PAM algorithm for optimizing initial cluster center
Tian et al. A Near Optimal Approach for Symmetric Traveling Salesman Problem in Euclidean Space.
CN102541284A (zh) 一种文字输入中通过目标量进行组合的方法及系统
CN114048854B (zh) 一种深度神经网络大数据内部数据文件的管理方法
CN109783649A (zh) 一种领域词典生成方法及装置
CN110704481A (zh) 展示数据的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant