CN104881475A

CN104881475A - 一种用于大数据随机抽样的方法和系统

Info

Publication number: CN104881475A
Application number: CN201510294368.8A
Authority: CN
Inventors: 唐平; 梁竹; 肖丹; 王威
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-06-02
Filing date: 2015-06-02
Publication date: 2015-09-02

Abstract

本申请提供了一种数据库中的随机抽样方法，该方法包括以下步骤：将多个记录分为多个组；随机抽取该多个组中的一个或多个组；以及在所随机抽取的该一个或多个组中，随机抽取要抽取数量的记录。此外，本申请还提供了一种用于数据库中的随机抽样系统和计算机可读存储介质。

Description

一种用于大数据随机抽样的方法和系统

技术领域

本公开涉及一种随机抽样方法和系统，具体地，涉及一种用于大数据随机抽样的方法和系统。

背景技术

在做市场调查的时候，需要从一个很大的样本库中随机筛选出一定量的样本来做调查，即需要随机抽样调查。存在众多分布式存储系统。例如，HBase是一个no-sql(不支持sql条件查询)的key-value(键值)分布式存储系统，在大数据存取的应用场景中表现十分优异。

当我们在进行随机抽样调查时，如果样本库的量级达到了亿级别，我们可以选择具有海量存储能力的数据库(例如HBase)来存取数据。从而实现高效的随机抽样，得到所需要的样本来做调查。

现有技术中存在多种随机抽样的方案。第一种方案是将大数据存储在传统的关系型数据库中，利用分库分表的方式，将数据离散存储在不同库和表中。需要随机抽样时，根据所选的样本数据，通过先把所有样本数据读取出来，然后针对每个样本，通过随机函数(Random)生成一个随机数，如果随机数匹配一个值，就采用这个样本，以这种方式来达到随机抽样的效果。该方案存在以下缺陷：传统的数据库就需要用到分库分表(将数据分块存储到不同的库以及不同的表中)等技术，当数据量上亿后，其数据存取量大，可维护性低，扩展性低，技术难度高。

第二种方案是将数据存储到nosql的分布式存储系统(例如HBase)中，需要随机抽样时，获取所有满足条件的样本，然后进行概率抽样(同关系型数据库方法相同)。该方案利用了存储系统自身的分布式优势，在存取方面获得良好效果。但该方案存在以下缺陷：由于需要扫描所有样本数据，所以当样本库中的样本量达到亿级别时，进行一次随机抽样很耗时。

发明内容

基于以上对现有技术方案的描述，在现有技术中存在需要提高从大数据样本中的抽样的效率的技术问题。

具体地，根据本发明的第一方面，提供了一种数据库中的随机抽样方法，所述方法包括以下步骤：步骤a：将多个记录分为多个组；步骤b：随机抽取所述多个组中的一个或多个组；以及步骤c：并在所随机抽取的所述一个或多个组中，随机抽取要抽取数量的记录。

在一个实施例中，所述多个组中的每一个组内记录的数量是相等的。

在一个实施例中，步骤a还包括：为所述多个组中的每一个组中的特定记录创建索引。

在一个实施例中，所述特定记录是所述多个组中的每一个组中的第一个记录。

在一个实施例中，创建索引包括将所述索引存放在数据库。

在一个实施例中，创建所述索引的周期是根据任务执行的周期确定的。

在一个实施例中，步骤c还包括：基于要抽取的记录的数量，产生第一随机数；对所随机抽取的所述一个或多个组中的数据进行逐一扫描；对于每一个所扫描的数据，基于要抽取的记录的数量，产生第二随机数；如果所述第一随机数等于所述第二随机数，则抽取所述记录。

在一个实施例中，基于要抽取的记录的数量产生第一随机数还基于所述多个记录的数量；基于要抽取的记录的数量产生第二随机数还基于所述多个记录的数量。

在一个实施例中，基于所述要抽取的记录的数量和所述多个记录的数量产生第一随机数是随机产生小于等于所述多个记录的数量除以要抽取的记录的数量的第一随机数；基于所述要抽取的记录的数量和所述多个记录的数量产生第二随机数是随机产生小于等于所述多个记录的数量除以要抽取的记录的数量的第二随机数。

根据本发明的第二方面，提供了一种用于数据库中的随机抽样系统，所述系统包括：分组装置，被配置为：将多个记录分为多个组；随机抽取装置，被配置为：随机抽取所述多个组中的一个或多个组，并在所随机抽取的所述一个或多个组中，随机抽取要抽取数量的记录。

在一个实施例中，所述分组装置还被配置为：为所述多个组中的每一个组中的特定记录创建索引。

在一个实施例中，创建索引包括将所述索引存放在数据库。

在一个实施例中，所述随机抽取装置，被配置为：基于要抽取的记录的数量，产生第一随机数；对所随机抽取的所述一个或多个组中的数据进行逐一扫描；对于每一个所扫描的数据，基于要抽取的记录的数量，产生第二随机数；如果所述第一随机数等于所述第二随机数，则抽取所述记录。

根据本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括由处理器执行的指令，所述指令被处理器执行以使所述处理器实现根据所述第一方面中所述的方法。

根据本公开，通过对大数据创建索引，提升抽样效率，实现大数据随机抽样。

附图说明

图1是示出了根据本公开实施例的HBase的一个示例。

图2是示出了根据本公开实施例的一种数据库中的随机抽样方法。

图3是示出了根据本公开实施例的数据库中的随机抽样方法中的分组步骤。

图4是示出了根据本公开实施例的数据库中的随机抽样方法中的随机抽样步骤。

图5是示出了根据本公开实施例的一种用于数据库中的随机抽样系统。

具体实施方式

现在结合图1和图2描述本公开的随机抽样方法的一个实施例。在众多分布式存储系统中，HBase是适用于大数据存取的应用场景的一个示例。HBase是一个分布式的键值存取数据库，其不支持sql条件查询，但能通过主键查询，或者按主键的范围查询。

图1是示出了根据本公开的实施例的HBase的一个示例。如图1所示，主键为身份证号，主键和数据库中的主键意义一样。列簇是可以看做是一个管理单元，把相关性比较紧密的几列放在一起，以方便存取。在本实施例中，仅存在一个列簇。本公开可以包括更多个列簇的实施例。列簇下方的列类似于数据库中的字段，只是HBase可以动态添加一列。每一行数据代表了一个样本数据。在本实施例中，数据库的表中存在有1亿条数据。

图2是示出了根据本公开的实施例的一种数据库中的随机抽样方法。在步骤S201中，将多个记录分为多个组。然后，在步骤S202，随机抽取多个组中的一个或多个组。在所随机抽取的一个或多个组中，随机抽取要抽取数量的记录(步骤S203)。

以下描述根据本公开的一种数据库中的随机抽样方法的另一实施例。本实施例的背景是常见的一种调查，该调查需要从1亿人中随机抽出1000人以参与此调查。在本实施例中，假定1亿人的姓名和/或联系方式等信息都已经按照如图1所示的数据项形式(包括主键和列簇)保存在分布式存储系统(例如HBase)中。

图3是示出了根据本公开的实施例的数据库中的随机抽样方法中的分组步骤。首先，将所有数据项分为数量相等的多个组，每一个组都包含100万条记录，如步骤S301所示。然后，为多个组中的每一个组中的特定记录创建索引。在本实施例中，为该样本库中的数据每100万记录中的第一个记录创建索引(步骤S302)，并将该索引存放在数据库中(步骤S303)。即扫描到第100万个记录的时候，取出主键，并记录下主键与第100万个记录之间的映射关系。然后接着扫描到第200万个记录(步骤305)，并取出主键然后记录该主键和第200万个记录之间的映射。依次类推，直到对所有1亿条数据中的每100万条记录的主键进行扫描为止(步骤304)。上述创建索引的周期是根据任务执行的周期确定的，即创建索引的步骤可以根据数据的变更情况来确定。例如，如果每一个月对数据进行一次更新，则可以每一个月执行一次创建索引的任务。

图4是示出了根据本公开的实施例的数据库中的随机抽样方法中的随机抽样步骤。本实施例中的数据库中存在100个组，每个组包括100万条记录。首先，随机抽取多个组中的一个组。具体地，在步骤S401中，随机抽取多个组中的一个组。随机抽取这100个组中的一个(既获取得到主键的开始和结束范围，如随机到第6个组，则主键范围就是第五个100万个记录的主键到第六个100万个记录的主键)。由于是随机到某个百万区间，所以对每个样本来说，被选到的概率是一样的。然后，在所随机抽取的一个组中，随机抽取要抽取数量的记录。具体抽取方法可以是：在步骤S402中，产生第一随机数。然后，对所随机抽取的一个组中的数据进行逐一扫描(步骤S403)。接着，在步骤S404中，对于每一个所扫描的数据，产生第二随机数。判断如果第一随机数等于第二随机数(步骤S405中是)，则抽取记录(步骤S406)。在以上步骤中，产生第一随机数是随机产生小于等于多个记录的数量除以要抽取的记录的数量的第一随机数；产生第二随机数是随机产生小于等于多个记录的数量除以要抽取的记录的数量的第二随机数。具体地，在本实施例中，根据我们需要抽样的样本数量(即需要抽样1000个样本)，计算出一个随机数(第一随机数)(如步骤S402)。具体计算方法可以是：先用100万除以1000(即需要抽样1000个样本)，得到1000，然后随机产生一个小于等于1000的整数，假设随机产生的随机数是56(即第一随机数为56)。在计算出该第一随机数后，然后通过数据库的范围查询(根据主键的范围查询)，把随机到的第6个组的数据进行逐一扫描(步骤S403)，每扫一条样本数据出来，再随机产生另一个小于等于1000(100万除以1000(即需要抽样1000个样本)得到的)的整数(第二随机数)(步骤S404)，如果第二随机数等于之前生成的第一随机数(即56)(步骤S405中是)，则抽取该样本数据记录(步骤S406)。以此类推，直到抽样出所有数据记录(步骤S407)。

以上所描述的根据本公开的实施例的数据库中的随机抽样方法中的分组步骤和随机抽样步骤都可以通过HBase的协处理器来完成。协处理器是被放到HBase的服务器端的一段程序，其在服务器端接收客户端的调用。程序中的处理逻辑可以完全按照需求来实现。上述随机抽样方法可以实现为处于HBase的服务器端的程序，其完成扫描和抽样的过程，然后将结果返回给客户端。通过这种方式，可以减少服务器端和客户端之间的网络交互量。

本领域技术人员应当理解，以上实施例中的数据库不限于HBase，而可以是本领域中的其他任意数据库。以上实施例中的数据库中的随机抽样方法中的随机抽样步骤不限于以上结合图4所描述的对特定组内的随机抽样方法，而可以是本领域常用的任意随机抽样方法。以上实施例中的计算一个随机数(第一随机数)的计算方法不限于以上所描述的计算方法，而可以是本领域常用的产生小于等于多个记录的数量除以要抽取的记录的数量的任意方法。

图5是示出了根据本公开的实施例的一种用于数据库中的随机抽样系统。随机抽样系统501包括分组装置502和随机抽取装置503。分组装置502被配置为：将多个记录分为多个组。随机抽取装置503被配置为：随机抽取多个组中的一个组，并在所随机抽取的一个组中，随机抽取要抽取数量的记录。

在一个实施例中，多个组中的每一个组内记录的数量是相等的。

在一个实施例中，分组装置502还被配置为：为多个组中的每一个组中的特定记录创建索引。

在一个实施例中，特定记录是多个组中的每一个组中的第一个记录。

在一个实施例中，创建索引包括将索引存放在数据库。

在一个实施例中，创建索引的周期是根据任务执行的周期确定的。

在一个实施例中，随机抽取装置被配置为：基于要抽取的记录的数量，产生第一随机数；对所随机抽取的一个或多个组中的数据进行逐一扫描；对于每一个所扫描的数据，基于要抽取的记录的数量，产生第二随机数；如果第一随机数等于第二随机数，则抽取记录。

在一个实施例中，基于要抽取的记录的数量产生第一随机数还基于多个记录的数量；基于要抽取的记录的数量产生第二随机数还基于多个记录的数量。

在一个实施例中，基于要抽取的记录的数量和多个记录的数量产生第一随机数是随机产生小于等于多个记录的数量除以要抽取的记录的数量的第一随机数；基于要抽取的记录的数量和多个记录的数量产生第二随机数是随机产生小于等于多个记录的数量除以要抽取的记录的数量的第二随机数。

通过本公开的各种实施例，能达到不用每次都扫描全部样本数据，而只有创建索引的时候需要全部扫描一次。创建索引可以根据需要按周期执行。以后每次随机抽样都是某个组中进行，这样提高了响应速度，并且随机到各个组的概率是相等的。然后根据需要抽取的样本数量，通过随机函数匹配的方法来进行随机抽取，这种抽取方法使每个样本被抽样的概率也是相等的，从而实现大数据样本调查中的样本抽样的随机性。

根据本发明的第三方面，提供了一种计算机可读存储介质，计算机可读存储介质包括由处理器执行的指令，指令被处理器执行以使处理器实现根据第一方面中的方法。

已经描述了本公开的多个实施例。然而，将理解的是，在不脱离本公开的精神和范围的前提下，可以作出多种修改。因此，其他实施例落入所附权利要求的范围中。

类似地，尽管以特定顺序在附图中描述操作，这不应当被理解为要求以所示特定顺序或以连续的顺序执行这些操作，或执行所有操作，以实现期望的结果。在特定情况下，多任务和并行处理可以是有益的。此外，上述实现中的多个系统组件的分离不应被理解为在所有实现中都需要这种分离，并且应当理解的是，所描述的程序组件和系统通常可以集成到单个软件产品中或封装到多个软件产品中。

此外，在不脱离本公开的范围的前提下，在多种实现中描述和阐述为分立或分离的技术、系统、子系统和方法可以与其他系统、模块、技术或方法合并或集成。示出为或讨论为相互耦合的或相互直接耦合或通信的其他项目可以通过某一接口、设备或中间组件(电子地、机械地或以其他方式)间接耦合或通信。本领域技术人员可确定改变、替换和变更的其他示例，并可以在不脱离本文公开的精神和范围的前提下，作出改变、替换和变更的其他示例。

尽管以上详细描述已经示出、描述并指出应用于多种实现的本公开的基本新颖特征，但是将理解的是，本领域技术人员可以在不脱离本公开的意图的前提下，在系统的形式和细节中作出多种省略、替换和改变。此外，方法步骤在权利要求中出现的顺序并不暗示方法步骤的顺序。

Claims

1.一种数据库中的随机抽样方法，所述方法包括以下步骤：

步骤a：将多个记录分为多个组；

步骤b：随机抽取所述多个组中的一个或多个组；以及

步骤c：在所随机抽取的所述一个或多个组中，随机抽取要抽取数量的记录。

2.根据权利要求1所述的方法，其中，所述多个组中的每一个组内记录的数量是相等的。

3.根据权利要求1或2所述的方法，其中，步骤a还包括：为所述多个组中的每一个组中的特定记录创建索引。

4.根据权利要求3所述的方法，其中，所述特定记录是所述多个组中的每一个组中的第一个记录。

5.根据权利要求3所述的方法，其中，创建索引包括将所述索引存放在数据库。

6.根据权利要求3所述的方法，其中，创建所述索引的周期是根据任务执行的周期确定的。

7.根据权利要求1所述的方法，其中，步骤c还包括：基于要抽取的记录的数量，产生第一随机数；对所随机抽取的所述一个或多个组中的数据进行逐一扫描；对于每一个所扫描的数据，基于要抽取的记录的数量，产生第二随机数；如果所述第一随机数等于所述第二随机数，则抽取所述记录。

8.根据权利要求7所述的方法，其中，基于要抽取的记录的数量产生第一随机数还基于所述多个记录的数量；基于要抽取的记录的数量产生第二随机数还基于所述多个记录的数量。

9.根据权利要求8所述的方法，其中，基于所述要抽取的记录的数量和所述多个记录的数量产生第一随机数是随机产生小于等于所述多个记录的数量除以要抽取的记录的数量的第一随机数；基于所述要抽取的记录的数量和所述多个记录的数量产生第二随机数是随机产生小于等于所述多个记录的数量除以要抽取的记录的数量的第二随机数。

10.一种用于数据库中的随机抽样系统，所述系统包括：

分组装置，被配置为：将多个记录分为多个组；

随机抽取装置，被配置为：随机抽取所述多个组中的一个或多个组，并在所随机抽取的所述一个或多个组中，随机抽取要抽取数量的记录。

11.根据权利要求10所述的系统，其中，所述多个组中的每一个组内记录的数量是相等的。

12.根据权利要求10或11所述的系统，其中，所述分组装置还被配置为：为所述多个组中的每一个组中的特定记录创建索引。

13.根据权利要求12所述的系统，其中，所述特定记录是所述多个组中的每一个组中的第一个记录。

14.根据权利要求12所述的系统，其中，创建索引包括将所述索引存放在数据库。

15.根据权利要求12所述的系统，其中，创建所述索引的周期是根据任务执行的周期确定的。

16.根据权利要求10所述的系统，其中，所述随机抽取装置被配置为：基于要抽取的记录的数量，产生第一随机数；对所随机抽取的所述一个或多个组中的数据进行逐一扫描；对于每一个所扫描的数据，基于要抽取的记录的数量，产生第二随机数；如果所述第一随机数等于所述第二随机数，则抽取所述记录。

17.根据权利要求16所述的系统，其中，基于要抽取的记录的数量产生第一随机数还基于所述多个记录的数量；基于要抽取的记录的数量产生第二随机数还基于所述多个记录的数量。

18.根据权利要求17所述的系统，其中，基于所述要抽取的记录的数量和所述多个记录的数量产生第一随机数是随机产生小于等于所述多个记录的数量除以要抽取的记录的数量的第一随机数；基于所述要抽取的记录的数量和所述多个记录的数量产生第二随机数是随机产生小于等于所述多个记录的数量除以要抽取的记录的数量的第二随机数。

19.一种计算机可读存储介质，所述计算机可读存储介质包括由处理器执行的指令，所述指令被处理器执行以使所述处理器实现根据权利要求1～9中任一项所述的方法。