CN108628889A

CN108628889A - 基于时间片的数据抽样方法、系统和装置

Info

Publication number: CN108628889A
Application number: CN201710168786.1A
Authority: CN
Inventors: 马刚
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2018-10-09
Anticipated expiration: 2037-03-21
Also published as: CN108628889B

Abstract

本发明提供一种基于时间片的数据抽样方法、系统和装置，所述方法包括：将任务时间分片成多个时间片的集合S＝{S₁，S₂，...，S_i，...，S_L}，其中1≤i≤L，L为大于1的整数；选取所述多个时间片中的一个时间片S_i；从所选取的时间片S_i中选取数据，作为抽样结果。根据本发明所述的数据抽样方法、系统和装置，有助于使用较少的计算资源和较短的时间而完成大量数据的抽样操作，从而优化数据抽样在大数据中的应用。

Description

基于时间片的数据抽样方法、系统和装置

技术领域

本发明涉及计算机及软件技术领域，特别地涉及一种基于时间片的数据抽样方法、系统和装置。

背景技术

目前的电子商务领域中，随着互联网技术的飞速发展，大数据的分析技术已经成为行业关注的焦点。目前，对于大数据的分析主要通过异步的任务计算获取期望的结果，对于大量的机器智能尚不能很好分析的数据，只能通过抽样技术进行人工分析。一方面，针对大数据的抽样要保证样本的随机分布，但在不进行遍历的情况下，很难进行随机抽样。另一方面，对于大数据系统，要尽量高效地完成抽样，保证算法的效率，使用少的资源在较短时间内完成抽样操作。

因此在现有技术中，一般采用基于随机数的抽样方法或蓄水池算法来对数据进行抽样。

基于随机数的抽样方法的基本思路在于，首先构造一个数据池，将所有的数据有序地放入该数据池中，数据池中的数据连续存储。数据池例如MySQL关系数据库或者内存数组，通过连续自增ID或者 Index索引数据。抽样时，系统自动生成一个随机数，命中相应的ID 或者Index，抽取对应的数据放入结果集中。当数据量较小时，此方案实现简单，抽样效率高，在实践中被广泛应用。当数据量增大时，想要在内存中构建一个这样的数据池完全不可行，一般需要配合数据库进行存储管理，并且构建连续的顺序索引。另外，传统的关系型数据库能够很方便的生成连续顺序索引，但是数据量过大时性能较差，一般使用分库分表的技术扩展支持；NoSQL数据库能很好的支持数据，但是要生成连续顺序索引需要额外的ID系统配合。综上，此方案在大数据抽样中，使用成本较高、实现难度较大，一般不建议采用。

使用蓄水池算法的数据抽样方法的基本思路在于，通过遍历数据，实现数据的随机抽样。此方法中，首先构造一个结果池，池的大小等于要抽样的数据量的大小。通过遍历数据，将前k个数据放入结果池中， k到N的数据k+i按照k/(k+i)的概率与结果池的数据进行随机置换。此方案对存储要求较低，实现简单，配合一般的NoSQL数据库，能够很方便的实现数据的随机抽样。但是需要对整体数据进行遍历，数据量较大时，全量遍历数据是非常耗时的操作，而且需要消耗大量的计算资源。

发明内容

有鉴于此，本发明提供一种基于时间片的数据抽样方法、系统和装置，能够在不进行全量的数据遍历的情况下，对非均匀分布的数据，尽可能保证抽样结果在整个样本空间的均匀分布；有助于使用较少的计算资源和较短的时间而完成大量数据的抽样操作，从而优化数据抽样在大数据中的应用。

为实现上述目的，根据本发明的一个方面，提供了一种方法，包括以下步骤：将任务时间分片成多个时间片的集合S＝{S₁，S₂，…,S_i,…,S_L}，其中1≤i≤L，L为大于1的整数；选取所述多个时间片中的一个时间片S_i；从所选取的时间片S_i中选取数据，作为抽样结果。

可选地，选取所述多个时间片中的一个时间片S_i的步骤，包括：对所述多个时间片中的每个时间片S_i，估算单位时间数据密度；利用所估算的单位时间数据密度，计算数据落在第i个时间片之前的时间内的概率P(i)＝P(t＜S_i)；生成随机浮点数X；选取满足P(i)＜X≤P(i+1)的时间片S_i。

可选地，估算单位时间数据密度的步骤包括：在每个时间片S_i中，使用最开始若干时间长度内的数据量，估计S_i中的单位时间数据密度。

可选地，从所选取的时间片S_i中选取数据的步骤，包括：在S_i中随机选取一个时间段；遍历所选取的时间段内的所有数据，从中选取一个数据作为抽样结果。

可选地，所述方法，进一步包括：重复选取一个时间片，并且从所选取的时间片中选取数据，作为多个抽样结果。

根据本发明的另一个方面，提供了一种基于时间片的数据抽样的系统，包括：数据采集模块，所述数据采集模块被配置为采集原始数据；抽样模块，所述抽样模块被配置为：将任务时间分片成多个时间片的集合S＝{S₁，S₂,…,S_i,…,S_L}；选取所述多个时间片中的一个时间片S_i；从所选取的时间片S_i中选取数据，作为抽样结果；以及，结果存取模块，所述结果存取模块被配置为将抽样结果进行存储。

可选地，所述数据采集模块被进一步配置为按时间序列索引存储原始数据。

可选地，所述抽样模块被进一步配置为：重复选取一个时间片，并且从所选取的时间片中选取数据，作为多个抽样结果。

根据本发明的另一个方面，提供了一种基于时间片的数据抽样的电子装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述根据本发明的方面所述的方法。

根据本发明的另一个方面，提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行前述根据本发明的方面所述的方法。

根据本发明的技术方案，能够有助于使用较少的计算资源和较短的时间而完成大量数据的抽样操作，从而优化数据抽样在大数据中的应用。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是一天内数据系统的数据访问曲线的示例；

图2是根据本发明的实施例的基于时间片的数据抽样方法的流程图；

图3是根据本发明的实施方式的能够实现基于时间片的数据抽样的系统的框图；

图4是根据本发明的实施方式的能够实现基于时间片的数据抽样的方法的电子装置的硬件结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施方式做出说明，其中包括本发明实施方式的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施方式做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是一天内数据系统的数据访问曲线的示例。如图1所示，可以看出，系统在每个单位时间采集到的数据量按一定的规律分布，呈现出不规则的起伏变化。在离线的数据采样过程中，如果我们按单位时间进行随机的数据抽取，最终采集到的数据则会均匀地分布在指定的时间段内，而非符合真实的数据分布。

为此，本发明采取基于时间片的数据抽样方法。本发明中，数据抽样包含两个步骤：

首先，需要构建数据分布的密度函数D(t)。

在状态连续变化的系统中，将某个较小时间段T分成M个单位时间{T₁，T₂,…,T_i,…,T_M}，记第i个单位时间内的数据个数为Sum(i)，其中 i＝1,2,…,M。简记作T_i∈T。

在某个较小时间段Δt内，对于T_i，T_j∈T∈Δt，满足Sum(T_i)≈ Sum(T_j)。则在T＝{T₁，T₂,…,T_i,…,T_M}时间段内，定义数据密度函数D(T)：

一般的互联网大数据量的系统中，数据分布皆符合以上情况。当数据量足够大时，我们可以使用Δt中某段较短时间内的数据密度表示整个Δt内的数据密度。选取T＝{T₁，T₂,…,T_i,…,T_M}时间段内的前k个单位时间{T₁，T₂,…,T_k}来估计整个Δt中的数据密度函数的公式描述为：

其中有k＜M，且通常有k＜＜M。例如，假设我们以秒为单位进行数据密度的统计，可以选取k＝3，M＝300，每5分钟内的数据密度可以取该段时间前3s的数据总量进行计算得到。

在构建了密度函数之后，可以进行基于时间维度的数据抽样方法。

根据(2)中构建的密度函数D₀(t)，取合适的T，将抽样任务的时间段进行等距分割成L份，得到若干个时间片的集合 S＝{S₁,S₂,…,S_i,…,S_L}，每个时间分片记作S_i，对应公式(1)中的时段 T。时间分片的数量为L，需要抽取的样本数量为N。L＞N，且优选地， L＞＞N。

最终抽样结果按一定的规律分布在S中，令D(i)表示时间片S_i的数据密度，则有样本落在S_i中的概率P(S_i)描述为：

其中i∈{1,2,…,L}

综上，对于每一次独立的抽样操作，原始的抽样过程即可分两步完成：①先从时间分片集合S中随机抽取一个时间片S_i；②从S_i中随机选取一个单位时间时段T，遍历此单位时间段内的所有数据，等概率随机选取一个样本数据作为单次抽样的结果。此处的单位时间指一段时间，例如1秒、1分或者其他维度的切分。

前文描述的为选取一个样本的过程。不断重复以上过程N次，分别完成对N个样本的选取。

图2是根据本发明的实施例的基于时间片的数据抽样方法的流程图。根据图2，描述根据本发明的实施例的抽样过程。

如图2所示，首先，在步骤S201，系统100获取抽样任务。

在步骤S202中，根据抽样任务的起止时间，和抽样数量N，估算合适的时间分片长度T。其中，时间段T可以分成M个单位时间 T＝{T₁，T₂,…,T_i,…,T_M}。可以根据任务时间和数据量的大小选取“单位时间”。例如，数据量较大的系统中，单位时间一般以秒或者毫秒计，数据量少可以调大度量单位，否则抽中此段时间内可能没有数据。其中，可根据实际抽样样本的时间分布跨度酌情选择T。关于T的长度，例如，可以选取5分钟。

在步骤S203中，将抽样任务起止时间段按T进行分片成L个时间段S＝{S₁,S₂,…,S_i,…,S_L}，如上所述，其中每个时间片S_i的长度为 T＝{T₁，T₂,…,T_i,…,T_M}。需要保证时间的分片数量L远大于需要抽到的样本量N，以保证足够的随机性。

在步骤S204，对于每个时间分片S_i，参考前述公式(2)，取其前若干个单位时间计算数据密度D(i)。以取前3个单位时间为例，则采用 T₁、T₂、T₃中的数据量来计算时长为M个单位时间(即，T)的整个时间分片S_i中的数据密度。单位时间的定义如前所述，可以是几秒或者几毫秒，或更长等。

在步骤S205，在针对i＝1,2,…,L计算了数据密度D(i)之后，代入上述公式(3)，针对每个时间片S_i，计算其样本分布概率P(S_i)。

在步骤S206，对于每个时间分片S_i，根据P(S_i)计算数据分布在 t＜Min(S_i)时间段内的概率P(i)，即即样本落在S_i之前的某个时间点的概率。此后，设定计数器计数n＝0，其代表已经抽样的数据个数。

在步骤S207，判断当前已经抽样的数据个数是否尚未满足抽样任务的要求，即是否满足n＜N。若否(S207：N)，则转到S215。若是 (S207：Y)，则转到S208。

在步骤S208，生成一个0～1之间的随机浮点数X。

在步骤S209，根据在步骤S208中生成的随机浮点数X，选中时间片S_i，使得P(i)＜X≤P(i+1)，其中，P(i)的含义如前所述，描述的是从起始时间到时间片S_i之前的数据的概率，i∈{1,2,…,L}，并为方便表述，令P(L+1)＝1。注意，由于P(i+1)即等于P(i)加上样本落在S_i中的概率，对i∈{1,2,…,L}均有0≤P(i)＜P(i+1)≤1；随机生成一个0～1 之间的随机数，则必然有且只有一个i满足此式。

在步骤S210，随机生成一个整数m，使得0＜m≤M。此时选定了时间片S_i中的单位时间段T_m，也即，在接下来的步骤S211-S214中，开始单次抽样操作。

首先，在步骤S211，在步骤S209中选中的时间分片S_i中，对第m 个单位时间段T_m(图中简称为“S_i-T_m”)内的所有数据K＝ {K₁，K₂,…K_j,..}中的第一个数据K₁，计抽样结果RS＝K₁。

在步骤S212，对于单位时间T_m内的第j个数据，随机生成一个0～1之间的数字R_j。

在步骤S213，若R_j≤1/j，则令RS＝K_j。

在步骤S214，确定是否已经遍历时间分片S_i中第m个单位时间段 (即T_m)内的所有数据K＝{K₁，K₂,…K_j,..}。如果否(S214：N)，过程返回到步骤S212，对下一个K_j重复步骤S212、S213。

如果已经遍历了S_i-T_m内的所有数据(S214：Y)，则此时对时间分片S_i的单次抽样完成，当前RS的值即为单次抽样的结果。此时递增计数器的值n，表示完成了一次抽样。此时，过程返回到步骤S207，确定是否完成了所有的抽样。

在步骤S215，N轮抽样已经完成，已获取任务所需的N个抽样数据，输出最终抽样结果，过程结束。

图3是根据本发明实施方式的能够实现基于时间片的数据抽样的系统300的框图。如图3所示，系统300主要包括数据采集模块310、任务管理模块320和抽样与结果存取模块330。

数据采集模块310主要负责原始数据的收集，按时间序列索引存储，并提供适配接口按索引进行数据的读取操作。在数据采集模块310 中，使用HBASE作为大数据存储的一种数据库实现，从数据源收集的数据以时间序列生成RowKey存储在HBASE中。

任务管理模块320包括任务管理模块和规则引擎模块，主要负责创建抽样任务，配置抽样规则。抽样任务描述要抽样的数据集，抽样的起止时间段，最终期望的抽样结果数据量，以及其他的业务规则。如图3所示，任务管理模块320接收由配置管理员350在系统中创建的抽样任务和指定的抽样规则。

抽样与结果存取模块330主要负责按照任务管理模块配置的规则进行抽样，并由结果存取模块对抽样结果进行存储，以便进行后续的人工处理。例如是指对样本进行标注等，此处主要是数据能被其他模块读取访问。

根据本发明的实施例，本发明还提供了一种电子装置和一种可读存储介质。

根据本发明的实施例的电子装置包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明所提供的数据抽样的方法。

本发明的非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行本发明所提供的数据抽样的方法。

图4是根据本发明的实施方式的能够实现基于时间片的数据抽样的方法的电子装置的硬件结构示意图。如图4所示，该电子装置包括：一个或多个存储器41以及处理器42，图4中以一个处理器42为例。其中，存储器41即为本发明所提供的非暂态计算机可读存储介质。

能够实现数据抽样的方法的电子装置还可以包括：输入装置43和输出装置44。

存储器41、处理器42、输入装置43和输出装置44可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器41作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的数据抽样的方法对应的程序指令/模块(例如，图3所示的数据采集模块310、任务管理模块320和抽样与结果存取模块330)。处理器42 通过运行存储在存储器41中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据抽样的方法。

存储器41可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据抽样的装置的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器41可选包括相对于处理器42远程设置的存储器，这些远程存储器可以通过网络连接至数据抽样的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置43可接收输入的数字或字符信息(例如，图3中由配置管理员350创建的抽样任务和指定的抽样规则等)，以及产生与数据抽样的装置的用户设置以及功能控制有关的键信号输入。输出装置44 可输出数据，例如如前文所述的抽样结果数据。输出装置44也可包括显示屏等显示装置。

所述一个或者多个模块存储在所述存储器41中，当被所述一个或者多个处理器42执行时，执行上述任意方法实施例中的数据抽样的方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

根据本发明实施例的技术方案，可以实现基于时间概率密度的抽样方法，在不进行全量的数据遍历的情况下，对非均匀分布的数据，尽可能保证抽样结果在整个样本空间的均匀分布；该方案提高抽样的效率，节省计算资源，为大数据的抽样提供一套通用的方法。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于时间片的数据抽样方法，其特征在于，包括以下步骤：

将任务时间分片成多个时间片的集合S＝{S₁,S₂,…,S_i,…,S_L}，其中1≤i≤L，L为大于1的整数；

选取所述多个时间片中的一个时间片S_i；

从所选取的时间片S_i中选取数据，作为抽样结果。

2.根据权利要求1所述的方法，其特征在于，选取所述多个时间片中的一个时间片S_i的步骤，包括：

对所述多个时间片中的每个时间片S_i，估算单位时间数据密度；

利用所估算的单位时间数据密度，计算数据落在第i个时间片之前的时间内的概率P(i)＝P(t＜S_i)，其中1≤i≤L，并令P(L+1)＝1；

生成随机浮点数X；

选取满足P(i)＜X≤P(i+1)的时间片S_i。

3.根据权利要求2所述的方法，其特征在于，估算单位时间数据密度的步骤包括：在每个时间片S_i中，使用最开始若干时间长度内的数据量，估计S_i中的单位时间数据密度。

4.根据权利要求1所述的方法，其特征在于，从所选取的时间片S_i中选取数据的步骤，包括：

在S_i中随机选取一个时间段；

遍历所选取的时间段内的所有数据，从中选取一个数据作为抽样结果。

5.根据权利要求1所述的方法，其特征在于，进一步包括：

重复选取一个时间片，并且从所选取的时间片中选取数据，作为多个抽样结果。

6.一种基于时间片的数据抽样的系统，其特征在于，包括：

数据采集模块，所述数据采集模块被配置为采集原始数据；

抽样模块，所述抽样模块被配置为：将任务时间分片成多个时间片的集合S＝{S₁,S₂,…,S_i,…,S_L}；选取所述多个时间片中的一个时间片S_i；从所选取的时间片S_i中选取数据，作为抽样结果；以及，

结果存取模块，所述结果存取模块被配置为将抽样结果进行存储。

7.根据权利要求6所述的系统，其特征在于，所述数据采集模块被进一步配置为按时间序列索引存储原始数据。

8.根据权利要求6所述的系统，其特征在于，选取所述多个时间片中的一个时间片S_i的步骤，包括：

利用所估算的单位时间数据密度，计算数据落在第i个时间片之前的时间内的概率P(i)＝P(t＜S_i)，其中1≤i≤L，并令P(L+1)＝1；；

生成随机浮点数X；

选取满足P(i)＜X≤P(i+1)的时间片S_i。

9.根据权利要求6所述的系统，其特征在于，估算单位时间数据密度的步骤包括：在每个时间片S_i中，使用最开始若干时间长度内的数据量，估计S_i中的单位时间数据密度。

10.根据权利要求6所述的系统，其特征在于，从所选取的时间片S_i中选取数据的步骤，包括：

在S_i中随机选取一个时间段；

11.根据权利要求6所述的系统，其特征在于，所述抽样模块被进一步配置为：重复选取一个时间片，并且从所选取的时间片中选取数据，作为多个抽样结果。

12.一种电子装置，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

13.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。