CN104965976B

CN104965976B - 一种抽样方法和装置

Info

Publication number: CN104965976B
Application number: CN201510323153.4A
Authority: CN
Inventors: 李鑫; 王海旭; 焦文健; 张蕾
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2018-02-27
Anticipated expiration: 2035-06-12
Also published as: CN104965976A

Abstract

本申请公开了一种抽样方法和装置，将数据对象总体的特征划分为分类特征和拉丁特征，根据分类特征对总体进行分群，然后利用拉丁超立方体(NOLHD)抽样方法，在每个群内进行抽样。采用本发明，通过对总体分群、各群内单独拉丁超立方体抽样，可以减少抽样过程中总体信息的流失，提高样本反映总体的准确度。

Description

一种抽样方法和装置

技术领域

本发明涉及计算机应用领域，特别是涉及一种抽样方法和装置。

背景技术

目前，在网站用户调研或者网站用户分析中，常常需要对用户进行抽样，使得样本尽量多的保留总体信息。

现有的用户抽样方案，主要包括下述步骤：

步骤x1、对需要调研的用户总体进行分群，得到若干用户群。

步骤x2、对于每个用户群，采用随机抽取的方式，从中抽取样本。

步骤x3、将抽取到的所有用户群的样本合并，得到所述用户总体的样本集合。

从上述方案可以看出，现有的用户抽样方法采用随机抽取的方法进行样本的抽取，这样，每个用户被抽取的概率相同。而在实际应用中，不同样本间的相似度不同，采用随机抽取的方式，就会导致可能出现被抽取到的多个用户的相似度较高，而差异性大的用户没有被抽取到的情况，这样，就会导致抽取过程中总体信息流失过多，所抽取到的样本集合不能准确地反映用户总体的特点，即每个样本的代表性不强。

由此可见，现有的抽样方案由于采用随机抽取的方式，而存在总体信息流失多、样本无法反映总体的问题，从而会影响基于样本进行用户分析的准确性。

发明内容

有鉴于此，本发明的主要目的在于提供一种抽样方法和装置，可以减少抽样过程中总体信息的流失，提高样本反映总体的准确度。

为了达到上述目的，本发明提出的技术方案为：

一种抽样方法，包括：

将数据对象总体的特征划分为分类特征和拉丁特征，其中，每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数，且所述拉丁特征的数量q满足：q＝2^r，r为大于1的整数；

根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中的拉丁特征的数量q_i满足：r_i为大于1的整数；

对于每个数据对象群i，构建该群使用的近似正交的拉丁超立方体NOLHD群组，其中，所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述q_i；对群中每个拉丁特征的取值进行归类处理，所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值l_i；利用该群对应的所述NOLHD群组，确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体，其中，所确定的拉丁超立方体的行数等于所述l_i；利用所确定的拉丁超立方体，对该群中的数据对象进行抽样；

将所有数据对象群的抽样结果合并，得到所述数据对象总体的样本。

一种抽样装置，包括：

特征分类单元，用于将数据对象总体的特征划分为分类特征和拉丁特征，其中，每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数，且所述拉丁特征的数量q满足：q＝2^r，r为大于1的整数；

分群单元，用于根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中的拉丁特征的数量q_i满足：r_i为大于1的整数；

抽样单元，用于对于每个数据对象群i，构建该群使用的近似正交的拉丁超立方体NOLHD群组，其中，所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述q_i；对群中每个拉丁特征的取值进行归类处理，所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值l_i；利用该群对应的所述NOLHD群组，确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体，其中，所确定的拉丁超立方体的行数等于所述l_i；利用所确定的拉丁超立方体，对该群中的数据对象进行抽样；

样本汇总单元，用于将所有数据对象群的抽样结果合并，得到所述数据对象总体的样本。

综上所述，本发明提出的抽样方法和装置，将数据对象总体的特征划分为分类特征和拉丁特征，根据分类特征对总体进行分群，然后利用拉丁超立方体(NOLHD)抽样方法，在每个群内进行抽样。如此，通过对总体分群、各群内单独拉丁超立方体抽样，可以实现对每个样本的控制，减少抽样的随机性，提升样本的代表性，从而可以使得样本可以准确地反映总体的情况。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明的核心思想是：将拉丁超立方体(NOLHD)抽样引入到了用户抽样中，首先将总体的特征抽象为分类特征和拉丁特征，然后根据分类特征对用户总体分群，然后对于每个用户群，结合NOLHD群组，进行抽样。如此，通过对总体分群、各群内单独拉丁超立方体抽样，可以实现对每个样本的控制，减少抽样的随机性，提升样本的代表性，从而可以使得样本更能反映总体的情况。

图1为本发明实施例一的流程示意图，如图1所示，该实施例主要包括：

步骤101、将数据对象总体的特征划分为分类特征和拉丁特征，其中，每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数，且所述拉丁特征的数量q满足：q＝2^r，r为大于1的整数。

本步骤，用于对数据对象总体所包含的所有特征进行分类，即分为分类特征和拉丁特征。在实际应用中，所述数据对象可以是用户在计算机存储中存在的数值单元。

这里特征分类的依据是：特征的取值个数。拉丁特征的取值个数将大于所述分类特征的取值个数，并且需要使得拉丁特征的数量q为2的幂次方，即满足：q＝2^r。

其中，分类特征，是用于依据此进行分类的特征，该类特征的取值有限并且枚举值很少，如用户的注册来源、用户的下单渠道等，因此，据此分类不会导致分类后的群中数据对象数量过少的问题。

对于拉丁特征，该类特征的取值为连续的，或者枚举值很多。如用户的下单地址，用户的下单金额、用户的下单量等。利用该类特征，可以构建相应的拉丁超立方体，基于拉丁超立方体抽样，使得抽样结果的特征分布尽量与总体的特征分布相一致，从而确保样本的代表性。

步骤102、根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中的拉丁特征的数量q_i满足：r_i为大于1的整数。

本步骤，用分类特征进行分类，分类后的各群中拉丁特征的数量应为2的幂次方，以便可以基于此构建相应的用于抽样的拉丁超立方体。

步骤103、对于每个数据对象群i，构建该群使用的近似正交的拉丁超立方体NOLHD群组，其中，所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述q_i；对群中每个拉丁特征的取值进行归类处理，所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值l_i；利用该群对应的所述NOLHD群组，确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体，其中，所确定的拉丁超立方体的行数等于所述l_i；利用所确定的拉丁超立方体，对该群中的数据对象进行抽样。

本步骤，对于每个数据对象群i，构建该群使用的近似正交的拉丁超立方体NOLHD群组，然后再从中选择出适用于该群抽样的拉丁超立方体，并利用该拉丁超立方体，对该群中的数据对象进行抽样。

这里为了便于理解，先介绍一下拉丁超立方体的特点以及构建方法。

近似正交的拉丁超立方体的设计(NOLHD)：

将n个试验、m个因子的拉丁超立方体设计记为：L(n,m)＝(l₁，l₂,...,l_m),其中l_j是第j个因子，并且每个因子的n个水平是等距的。简单的说，L(n,m)就是一个n×m的矩阵，每列的元素都是同一个等差数列，但排列方式不一样。

NOLHD是基于现有的OD(n)方阵构建得到的，n为方阵的阶数。

OD(n)方阵的定义(具体见yang and liu(2012))：

一个n×n的方阵A，如果它满足下面三个条件，那么就称它为OD(n)方阵：

1、它的每个元素都是{±a₁，±a₂，...，±a_n}

2、如果不考虑每个元素的正负号，那么A的每一列都是{a₁，a₂，...，a_n}的一个排列。

3、任意两列不同的内积为0

yang and liu(2012)证明了阶数为2^r的OD(2^r)是存在的。

例如，OD(4)为：

其中，a为OD(4)方阵的第一线性组合参数，b为OD(n)方阵的第二线性参数。

对于近似正交的拉丁超立方体NOLHD，其中两两不同列之间的内积接近于0，如此，可以保证样本之间的线性无关性、空间均匀性和空间填充性。

一般的，对于每个数据对象群i，可以按照下述步骤构建该群使用的近似正交的拉丁超立方体(NOLHD)群组：

步骤z0、设置c＝2，其中，c为OD(n)方阵的第一线性组合参数a的系数绝对值的最小值参数；n为OD(n)方阵的列数。

本步骤用于进行参数初始化。将OD(n)方阵的列数设置为数据对象群i的拉丁特征数量将c初始化为2。在此后的群组构造过程中c将依次增加直到而即方阵的列数不变。

步骤z1、利用预设的超立方体矩阵模板NOD(n,c)_(a,b)，按照构造超立方体矩阵W_1,c。

其中，a为OD(n)方阵的第一线性组合参数，b为OD(n)方阵的第二线性参数，OD(n,c)_(a,b)为a的系数绝对值的最小值为c的OD(n)方阵；M(n,c)_(a,b)为所述OD(n,c)_(a,b)增加c-1行元素后得到的矩阵，所述c-1行元素为n列等差数列

步骤z2、利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W_1,c，按照构造超立方体矩阵W_2,c。

步骤z3、利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W_2,c，遍历s＝{3,4,…,r_i+1}中的每个值，按照构造超立方体矩阵W_s,c；其中，

步骤z4、按照c＝c+1，更新所述c；判断是否满足如果是，则执行步骤z1，否则，执行步骤z5。

步骤z5、将所有所述超立方体矩阵的集合，确定为所述NOLHD群组。

采用上述方法，可以构造出多个列数均为但行数不同的多个超立方体矩阵，这些超立方体矩阵构成的集合即为数据对象群i对应的NOLHD群组，基于该群组，可以选择出其用于抽样的拉丁超立方体。

较佳地，利用该群对应的所述NOLHD群组，确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体可以采用下述方法实现：

从所述数据对象群i对应的NOLHD群组中，选择出行数为所述l_i的拉丁超立方体，作为数据对象群i用于抽样的拉丁超立方体。

这样，就可以得到一个行数为数据对象群i的每个拉丁特征的枚举值数量l_i，列数为数据对象群i的拉丁特征的数量的矩阵，作为数据对象群i用于抽样的拉丁超立方体。

在选择用于抽样的拉丁超立方体之前，需要先对群中每个拉丁特征的取值进行归类处理，使得归类处理后的每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值l_i。如此，可以使得归类处理后群中每个拉丁特征的取值个数统一为固定值(即单位特征枚举数阈值l_i)，从而可以确保每个取值都可以与用于抽样的拉丁超立方体进行对应。

需要说明的是，在具体归类处理时，对于取值为连续值的拉丁特征，需要先对其取值进行离散化，然后再结合对离散化结果进行归类，得到l_i个枚举值。

这里，每个群的单位特征枚举数阈值l_i可由本领域技术人员根据实际需要设置合适取值，在此不再赘述。

较佳地，对于每个数据对象群i，可以采用下述方法利用该群对应的所述NOLHD群组，对该群中的数据对象进行抽样：

步骤t1、对于所述数据对象群i，将其用于抽样的拉丁超立方体中的每个元素a_t,j，与群中的每个拉丁特征取值u_t,j，建立一一映射关系，其中，u_t,j为数据对象群i中第j个拉丁特征的第t个取值。

步骤t2、对于所述数据对象群i，按照预设的数据对象群i的样本抽样数n_i，根据该群用于抽样的拉丁超立方体进行抽样；其中，所述n_i是所述l_i的整数倍，当n_i/l_i大于1时，重复所述抽样n_i/l_i次。

本步骤需要说明的是，根据该群用于抽样的拉丁超立方体进行抽样的具体方法可采用现有技术实现，在此不再赘述。

这里，如前所述基于拉丁超立方体的抽样可以确保样本之间的线性无关性和空间均匀性，而在步骤t1中使得拉丁超立方体中的每个元素a_t,j与群中的每个拉丁特征取值u_t,j一一对应，因此，本步骤可以确保所抽取的样本对应的拉丁特征取值的分布是均匀的，从而可以确保基于此样本抽取到的数据对象的特征与数据对象总体的特征保持一致性，进而可以减少抽样过程中总体信息的流失，提高样本反映总体的准确度。

步骤t3、对于所述拉丁超立方体的抽样结果中的每个元素，根据该元素对应的拉丁特征取值，从所述数据对象群i中抽取k_i个具有该拉丁特征取值的数据对象，所述k_i为该元素在所述抽样结果中的数量。

步骤104、将所有数据对象群的抽样结果合并，得到所述数据对象总体的样本。

图2为与上述方法相对应的抽样装置结构示意图，如图2所示，该装置主要包括：特征分类单元、分群单元、抽样单元和样本汇总单元。

其中，特征分类单元，用于将数据对象总体的特征划分为分类特征和拉丁特征，其中，每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数，且所述拉丁特征的数量q满足：q＝2^r，r为大于1的整数。

分群单元，用于根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中的拉丁特征的数量q_i满足：r_i为大于1的整数。

抽样单元，用于对于每个数据对象群i，构建该群使用的近似正交的拉丁超立方体NOLHD群组，其中，所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述q_i；对群中每个拉丁特征的取值进行归类处理，所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值l_i；利用该群对应的所述NOLHD群组，确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体，其中，所确定的拉丁超立方体的行数等于所述l_i；利用所确定的拉丁超立方体，对该群中的数据对象进行抽样。

较佳地，所述抽样单元可以包括：

初始化模块，用于设置c＝2，其中，c为OD(n)方阵的第一线性组合参数a的系数绝对值的最小值参数；n为OD(n)方阵的列数；触发第一构造模块执行；

第一构造模块，用于利用预设的超立方体矩阵模板NOD(n,c)_(a,b)，按照构造超立方体矩阵W_1,c；其中，a为OD(n)方阵的第一线性组合参数，b为OD(n)方阵的第二线性参数，OD(n,c)_(a,b)为a的系数绝对值的最小值为c的OD(n)方阵；M(n,c)_(a,b)为所述OD(n,c)_(a,b)增加c-1行元素后得到的矩阵，所述c-1行元素为n列等差数列触发第二构造模块执行；

第二构造模块，用于利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W_1,c，按照构造超立方体矩阵W_2,c；触发第三构造模块执行；

第三构造模块，用于利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W_2,c，遍历s＝{3,4,…,r_i+1}中的每个值，按照构造超立方体矩阵W_s,c其中，触发更新模块执行；

更新模块，用于按照c＝c+1，更新所述c；判断是否满足如果是，则触发第一构造模块执行，否则，触发群组生成模块执行；

群组生成模块，用于将所有所述超立方体矩阵的集合，确定为所述NOLHD群组。

较佳地，所述抽样单元进一步包括：

拉丁超立方体选择模块，用于从所述数据对象群i对应的NOLHD群组中，选择出行数为所述l_i的拉丁超立方体，作为数据对象群i用于抽样的拉丁超立方体。

较佳地，所述抽样单元进一步包括：

映射模块，用于对于所述数据对象群i，将其用于抽样的拉丁超立方体中的每个元素a_t,j，与群中的每个拉丁特征取值u_t,j，建立一一映射关系，其中，u_t,j为数据对象群i中第j个拉丁特征的第t个取值；

拉丁超立方体抽样模块，用于对于所述数据对象群i，按照预设的数据对象群i的样本抽样数n_i，根据该群用于抽样的拉丁超立方体进行抽样；其中，所述n_i是所述l_i的整数倍，当n_i/l_i大于1时，重复所述抽样n_i/l_i次；

抽样提取模块，用于对于所述拉丁超立方体的抽样结果中的每个元素，根据该元素对应的拉丁特征取值，从所述数据对象群i中抽取k_i个具有该拉丁特征取值的数据对象，所述k_i为该元素在所述抽样结果中的数量。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种抽样方法，其特征在于，包括：

将数据对象总体的特征划分为分类特征和拉丁特征，其中，每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数，且所述拉丁特征的数量q满足：q＝2^r，r为大于1的整数；所述拉丁特征为取值连续的特征或者具有多个枚举值的特征；

2.根据权利要求1所述的方法，其特征在于，对于每个数据对象群i，构建该群使用的近似正交的拉丁超立方体NOLHD群组包括：

z0、设置c＝2，其中，c为OD(n)方阵的第一线性组合参数a的系数绝对值的最小值参数；n为OD(n)方阵的列数；

z1、利用预设的超立方体矩阵模板NOD(n,c)_(a,b)，按照构造超立方体矩阵W_1,c；其中，a为OD(n)方阵的第一线性组合参数，b为OD(n)方阵的第二线性参数，OD(n,c)_(a,b)为a的系数绝对值的最小值为c的OD(n)方阵；M(n,c)_(a,b)为所述OD(n,c)_(a,b)增加c-1行元素后得到的矩阵，所述c-1行元素为n列等差数列

z2、利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W_1,c，按照构造超立方体矩阵W_2,c；

z3、利用所述超立方体矩阵模板NOD(n,c)_(a,b)和所述W_2,c，遍历s＝{3,4,…,r_i+1}中的每个值，按照构造超立方体矩阵W_s,c；其中，

z4、按照c＝c+1，更新所述c；判断是否满足如果是，则执行步骤z1，否则，执行步骤z5；

z5、将所有所述超立方体矩阵的集合，确定为所述NOLHD群组。

3.根据权利要求1所述的方法，其特征在于，所述利用该群对应的所述NOLHD群组，确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体包括：

4.根据权利要求1所述的方法，其特征在于，所述利用该群对应的所述NOLHD群组，对该群中的数据对象进行抽样包括：

对于所述数据对象群i，将其用于抽样的拉丁超立方体中的每个元素a_t,j，与群中的每个拉丁特征取值u_t,j，建立一一映射关系，其中，u_t,j为数据对象群i中第j个拉丁特征的第t个取值；

对于所述数据对象群i，按照预设的数据对象群i的样本抽样数n_i，根据该群用于抽样的拉丁超立方体进行抽样；其中，所述n_i是所述l_i的整数倍，当n_i/l_i大于1时，重复所述抽样n_i/l_i次；

对于所述拉丁超立方体的抽样结果中的每个元素，根据该元素对应的拉丁特征取值，从所述数据对象群i中抽取k_i个具有该拉丁特征取值的数据对象，所述k_i为该元素在所述抽样结果中的数量。

5.一种抽样装置，其特征在于，包括：

特征分类单元，用于将数据对象总体的特征划分为分类特征和拉丁特征，其中，每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数，且所述拉丁特征的数量q满足：q＝2^r，r为大于1的整数；所述拉丁特征为取值连续的特征或者具有多个枚举值的特征；

6.根据权利要求5所述的装置，其特征在于，所述抽样单元包括：

7.根据权利要求5所述的装置，其特征在于，所述抽样单元包括：

8.根据权利要求5所述的装置，其特征在于，所述抽样单元包括：