CN104424331A - 数据抽样方法及装置 - Google Patents
数据抽样方法及装置 Download PDFInfo
- Publication number
- CN104424331A CN104424331A CN201310411200.1A CN201310411200A CN104424331A CN 104424331 A CN104424331 A CN 104424331A CN 201310411200 A CN201310411200 A CN 201310411200A CN 104424331 A CN104424331 A CN 104424331A
- Authority
- CN
- China
- Prior art keywords
- data
- sampling
- data block
- samples
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
Abstract
本申请公开了一种数据抽样方法及装置,其中,该方法包括:获取目标数据,其中,该目标数据包括多个数据块,计算所述目标数据的数据块总数N;根据对样本数的要求计算所述目标数据的抽样样本数M;从每个数据块中分别随机选取R个样本,并构成所述目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。本申请解决了相关技术中的数据抽样的随机性不好的问题,从而提高了抽样样本的随机分布。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据抽样方法及装置。
背景技术
一般地,随机抽样是设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≦N),如果每次抽取使总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。
相关技术中,随机抽样有以下两种方法:
在第一种方法中认为输入的数据就是随机的,因此在该方法中,认为直接取前n行。
在第二种方法中,取数据中行数取模m等于c的行,这样随机取出的数据中的行应该是随机的。在这种方法中,可以根据N和n的大小决定m大概等于多少。
对于上述两种方法,都存在问题:
对于第一种方法而言,该方法的前提是输入的数据是随机的,但是,在实际情况中,一般情况下输入的数据的分布是未知的,需要强调的是,未知并不等同随机,其数据的输入有可能是随机的也有可能不是随机的。
第二种方法存在的问题与第一种方法存在的问题是类似的。该方法对数据的排列要求比较高,如果输入的数据的排列是随机的,那么该方取出的数据基本上是随机的。但是同第一种方法一样,一般输入的数据可能不是随机排列的。例如,如果数据是按时间排序的,取模抽样得到的有可能是一天某几个特定小时的或某些特定分钟的数据。因此,第二种数据抽样方法的随机性也不好。
针对相关技术中的数据抽样的随机性不好的问题,尚未提出解决方案。
发明内容
本申请提供了一种数据抽样的方法及装置,以至少相关技术中的数据抽样的随机性不好的问题。
根据本申请的一个方面,提供了一种数据抽样方法,包括:获取目标数据,其中,所述目标数据包括多个数据块;计算所述目标数据的数据块总数N;根据对样本数的要求计算所述目标数据的抽样样本数M;从每个数据块中分别随机选取R个样本,并并进行汇总构成所述目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。
根据本申请的另一个方面,还提供了一种数据抽样装置,包括:第一获取模块,用于获取包括多个数据块的目标数据,并计算所述目标数据的数据块总数N;第二获取模块,用于根据对样本数的要求计算所述目标数据的抽样样本数M;构成模块,用于从每个数据块中分别随机选取R个样本,并进行汇总构成所述目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。
通过本申请,采用了计算所述目标数据的数据块总数N;根据对样本数的要求计算所述目标数据的抽样样本数M;从每个数据块中分别随机选取R个样本,并构成所述目标数据的抽样样本,解决了相关技术中的数据抽样的随机性不好的问题,从而提高了抽样样本的随机分布。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本申请实施例的数据抽样方法的流程图;
图2是根据本申请实施例的优选的从数据块中抽取数据方法的流程图;
图3是根据本申请实施例的优选的从每个数据块中选取R行数据方法的流程图;
图4是根据本申请实施例的优选的从每个数据块中选取R行数据方法的流程图;
图5是根据本申请优选实施例的抽样算法的流程图一;
图6是根据本申请优选实施例的抽样算法的流程图二;
图7是根据本申请实施例的数据抽样装置的结构图;
图8是根据本申请实施例的构成模块的结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程示意图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程示意图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。其中,计算机可以包括个人计算机、服务器、移动终端等各种产品,在以下实施例中,使用了CPU、单片机、DSP等具有处理芯片的设备均可以称为计算机。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而,尽管在上述上下文中描述本申请,但它并不意味着限制性的,如本领域的技术人员所理解的,后文所描述的动作和操作的各方面也可用硬件来实现。
转向附图,其中相同的参考标号指代相同的元素,本申请的原理被示为在合适的计算环境中实现。以下描述基于所述的本申请的实施例,并且不应认为是关于此处未明确描述的替换实施例而限制本申请。
优选地,本申请实施例可以提供一个其上存储有本申请实施例的机器可读媒体。需要说明的是,任一适合存储设计关于本申请的指令的媒体都在本申请的范围以内。例如,这样的媒体可以采用磁性媒体、光学媒体或半导体媒体的形式。
在本实施例中,提供了一种数据抽样方法,图1是根据本申请实施例的数据抽样方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,获取目标数据,其中,该目标数据包括多个数据块;
步骤S104,计算该目标数据的数据块的总数N;
步骤S106,根据对样本数的要求计算该目标数据的抽样样本数M;
步骤S108,从每个数据块中分别随机选取R个样本,并进行汇总构成目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。
通过上述步骤,将目标数据分成了多个数据块,然后从每个数据块中随机抽出所需要的样本,再将这些样本组成目标数据的抽样样本。由于采用了将数据分成数据块的处理方式,但对于每个数据块来抽样,相对于对于整个目标数据进行抽样的方法其抽样的随机性更好,从而解决了相关技术中的数据抽样的随机性不好的问题,从而提高了抽样样本的随机性。对于抽样样本的随机性提高,会使样本更加真实的反应该目标数据,从而为了解目标数据提供了依据。
上述步骤解决了抽样样本的随机性的问题,相关技术中的第一种方法和第二种方法还存在一种问题:即使第一种方法和第二种方法的数据是均匀打散,即随机输入的,但是,由于第一种方法和第二种方法,总是取相同的行,例如在第一种方法中总是取前n行,因此,不能难满足多次抽样结果不同的需求。
上述步骤S108中,从每个数据块中选出的样本均是随机选取的,因此,通过上述步骤,在多次抽样中,所取得的抽样结果是不相同的。
从数据块中抽样的方式有很多种,在一个优选的实施例中可以通过行的方式来进行抽取,图2是根据本申请实施例的优选的从数据块中抽取数据方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取一个数据块中的数据行数r;计算该目标数据的总行数N*r;
步骤S204,使用随机抽样公式根据总行数得到该抽样样本数M;
步骤S206,从每个数据块中分别随机选取R行数据作为R个样本,其中在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。
图2中示出了图1中的一种优选的实施方式,但并不限于此,可以根据不同的方式来选择如何从数据块中抽出数据。
对于图2中示出的采用行来抽取数据的方式,如果不对目标数据进行分块,那么就需要对目标数据中的每一行都分配一个随机数,最后按此随机数排序取前n个,这种方法抽取出来的数据应该是随机分布的,但是,在数据量很大的情况下,这种方式需要对大量的行分配随机数,这种计算量是非常大,效率比较低。
对于每个数据块中的数据抽取方式可以采用为每一行都分配一个随机数的方式,图3是根据本申请实施例的优选的从每个数据块中选取R行数据方法的流程图,如图3所示,该流程包括如下步骤:
步骤S302,获取一个数据块中的数据行数r;计算该目标数据的总行数N*r;
步骤S304,使用随机抽样公式根据总行数得到该抽样样本数M;
步骤S306,为每个数据块中的每一行数据分配一个随机数;
步骤S308,将每个数据块中的行数据分别按照随机数的大小进行排列;
步骤S310,在每个数据块中的排列好的数据中分别取连续的R行数据。
上述步骤S306至步骤S310是步骤S206的一种优选的实施方式。为每个数据块中的每一行数据分配一个随机数;这样就可以保证抽样数据块是随机分布的,将每个数据块中的行数据分别按照随机数的大小进行排列;在每个数据块中的排列好的数据中分别取连续的R行数据。例如,可以在每个数据块中排列好的数据中取随机数最大的R行数据;或者,也可以在每个数据块中排列好的数据中取随机数最小的R行数据。这种处理方式是对数据块中的每一行数据分配随机数,相对于对整个目标数据分配随机数并进行排序的算法,其计算量减少了。
优选地,可以采用数组的方式来实现上述步骤S306至步骤S310,图4是根据本申请实施例的优选的从每个数据块中选取R行数据方法的流程图,如图4所示,该流程包括如下步骤:
步骤S402,获取一个数据块中的数据行数r;计算该目标数据的总行数N*r;
步骤S404,使用随机抽样公式根据总行数得到该抽样样本数M;
步骤S406,将每个数据块中的数据分别读入内存并存放在数组中,为数组的每一列生成一个随机数;
例如,假定一个数据块中存在1000行数据,则可以建立一个1000列的数组,该数据的每一列均对应内存中的一个存储空间,然后将该1000行数据分别存入到该1000列的数组中,即该数组的每一列都保存了一行数据。然后,可以为数组的每一列生成一个随机数,并保存。
步骤S408,按照随机数的大小对该数组中的列进行排序;
步骤S410,在每个数据块中排列好的数组中分别取连续的R列作为R行数据。
在上述步骤S406至步骤S410中采用了数组的实现方式,通过数组的方式,效率比较高。
上述步骤S102、步骤S202、步骤S302和步骤S402中,均涉及到将目标数据分成N个数据块,将目标数据拆成多个数据块的方法可以由很多种,例如,在大量数据处理中一般情况下可以采用分布式处理的软件框架。在分布式软件处理框架中,可以将一个大文件(即目标数据)分割成一个或多个数据块,这些数据块的大小可以是相同的,也可以是不同的。上述实施例可以应用到Hadoop软件框架中,但是并不限于该软件框架,其他的分布式数据存储系统或者软件框架同样可以应用本优选实施例中的处理方法。Hadoop:是一个能够对大量数据进行分布式处理的软件框架,HDFS:Hadoop框架下的分布式文件系统。HDFS文件系统内部机制是将一个大文件分割成一个或多个相同大小的数据块(一般是64M),然后存储在一组数据节点中。因此对单个数据块进行随机抽样的和,就可以得到整个大数据文件的随机抽样样本。
图5是根据本申请优选实施例的抽样算法的流程图一,如图5所示,该流程包括如下步骤:
步骤S502,对于每一份Hadoop上的数据,计算出该数据在HDFS上的数据块个数为N;
步骤S504,对于每一个数据块,计算出该数据块中包含的数据行数r;
步骤S506,得到该份数据的总行数N*r;
步骤S508,根据随机抽样公式得到抽样样本数M;
步骤S510,得到单个数据块应该抽出的样本数R;
步骤S512,为单个数据块的每一行数据随机分配一个随机数,将数据按照随机数大小进行排序,然后取前R行;
步骤S514,将所有单个数据块抽出的样本进行汇总,得到整个数据的抽样样本。
图6是根据本申请优选实施例的抽样算法的流程图二,在图6中使用了数组的方式来进行处理,如图6所示,将每个数据块的数据读入内存,存放在数组中,给数组的每一个列生成一个随机数,按照随机数的大小对数组进行排序,输出前m列数据,获得该数据块的样本,最后将这N个数据块加在一起,就是总体抽样样本。
上述步骤S104、步骤S204、步骤S304和步骤S404中,均涉及到获取目标数据的抽样样本数M,对于M越大则该抽样样本越接近于该目标数据的真实情况,但是,M值越大抽样的计算量也就越大。该M的取值可以是根据经验值来取值的。下面对样本数进行说明。
样本数又称为样本容量,指一个样本的必要抽样单位数目。抽样误差的大小直接影响样本指标代表性的大小,而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。因此,在抽样设计时,适当的样本单位数目是保证样本指标具有充分代表性的基本前提。一般来说,样本的容量大的话,样本的误差就小。反之则大。
确定样本容量的大小可以考虑很多的方面,例如,变量个数,数据分析的性质,同类研究中所用的样本量,发生率,完成率,资源限制等。具体地说,如果需要更多的信息和更准确的信息,就需要较大的样本;如果需要的信息不需要特别精确,则可以采用较小的样本,因此,抽样样本数可以根据实际的需要来进行确定。
具体确定样本量可以采用公式计算的方式,在本实施例中提供了优选的计算方式,样本量的计算还可以采用其他的公式,并不限于本实施例提供的计算方式。下面对该优选的计算方式进行说明。
在一定的抽样方式下,建立置信区间所需样本容量的大小取决于以下几个因素:
(一)置信度,也即总体参数真值落在置信区间内的可靠程度。要求较高的置信度,就需要较大的样本容量,置信度越高,样本容量就越大。
(二)估计的精度,也即置信区间的宽度。要求较高的置信度,就会扩大置信区间的宽度,也就是说降低了估计的精度。因此,要想既提高估计的精度,又不降低估计的可靠性程度,必须增加样本容量。
(三)建立置信区间的费用。虽然增加样本容量可以提高置信区间的可靠性程度和估计的精度,但也不是样本容量愈大愈好。因为增加样本容量,就会延长调查时间,增大工作量和成本费用,同时还可能增大调查误差。
1.已知总体方差σ,重复抽样条件下:
Δ=Zα/2其中Δ为允许误差,表示总体均值与样本均值的绝对误差不超过Δ,上式两边整理可得:
以上公式得到至少应抽取的样本容量n。
2.已知总体方差,不重复抽样条件下:
上式两边整理可得:
在以上公式中,各字母表示意义如下:
Z:概率度
N:样本总数
n:样本容量
a:极限误差
在本实施例中还提供了估计成数时样本容量的确定公司:
1.重复抽样条件下:
2.不重复抽样条件下:
其中各字母的含义如下:
P:总体成数
:样本成数
上述公式是优选的公式,并不限于此,可以根据实际的情况来选择不同的公式处理。
上述实施例中的算法可以应用到多种场景中,下面以举例的方式对其中的两种场景进行了说明。
场景一:为了创造一个良好的用户体验环境,需要对微博用户上传的图片需要进行审核。这些审核是通过相似度算法来实现的。那么如何来评价一个相似度算法的好坏呢?全量去审核自动算法的结果是不现实的。这就需要对微博用户的所有图片分成N个数据块,通过随机抽样算法,算出对所有微博图片数据抽要的样本数M,这样就能够快速获取一个合理的M/N样本,构成所有微博图片数据的抽样样本,该抽样样本能够代表整个数据的特性,通过对该样本的评价来得到对整个数据的评价。
场景二:为了了解全网用户对各个软件的频率,次数,需要对用户在某一段时间内使用软件的次数将进行抽样。用户在每次使用该软件的时候,均将该数据上报给服务器,这样在服务器中就保存了大量的数据。通过随机抽样算法,计算出需要抽出的样本数M,然后通过上述算法得到抽样样本,该抽样样本能够大代表全网用户的数据的特性,通过对该样本的评价来得到对全网用户的评价。
在本实施例中,还提供了一种数据抽样装置,该数据抽样装置用于实现上述的方法,在上述实施例及优选实施方式中已经进行过说明的,在此不再赘述。需要说明的是,下述装置中的模块的名称并不构成对该模块的实际限定,例如,第一获取模块可以表述为“用于获取包括多个数据块的目标数据,并计算所述目标数据的数据块总数N的模块”,以下的模块均可以在处理器中实现,例如,第一获取模块可以表述为“一种处理器,用于获取包括多个数据块的目标数据,并计算所述目标数据的数据块总数N”,或者,“一种处理器,包括第一获取模块”等。
图7是根据本发明实施例的数据抽样装置的结构图,如图7所示,该装置70包括:第一获取模块72,第二获取模块74和构成模块76,下面对该装置进行说明。
第一获取模块72,用于获取包括多个数据块的目标数据,并计算所述目标数据的数据块总数N;
第二获取模块74,用于根据对样本数的要求计算目标数据的抽样样本数M;
构成模块76,用于从每个数据块中均随机选取R个样本,构成目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。
通过上述步骤,将目标数据分成了多个数据块,然后从每个数据块中随机抽出所需要的样本,再将这些样本组成目标数据的抽样样本。由于采用了将数据分成数据块的处理方式,但对于每个数据块来抽样,相对于对于整个目标数据进行抽样的方法其抽样的随机性更好,从而解决了相关技术中的数据抽样的随机性不好的问题,从而提高了抽样样本的随机性。
优选的,第二获取模块74,用于获取一个数据块中的数据行数r,计算该目标数据的总行数N*r,并使用随机抽样公式根据总行数得到抽样样本数M;构成模块76,用于从每个数据块中随机选取R行数据作为R个样本。
图8是根据本发明实施例的优选的构成模块的结构图,如图8所示,该构成模块76包括:分配单元762,排列单元764和抽样单元766,下面对该优选的构成模块76进行说明。
分配单元762,用于为每个数据块中的每一行数据分配一个随机数;排列单元764,用于将每个数据块中的行数据分别按照随机数的大小进行排列;抽取单元766,用于在每个数据块中的排列好的数据中分别取连续的R行数据。
优选的,抽取单元766,用于在每个数据块中排列好的数据中取随机数最大的R行数据;或者,用于在每个数据块中排列好的数据中取随机数最小的R行数据。
优选的,分配单元762,用于将每个数据块中的数据分别读入内存并存放在数组中;为数组的每一列生成一个随机数;排列单元764,用于按照随机数的大小对数组中的列进行排序;抽取单元766,用于在每个数据块中排列好的数组中分别取连续的R列作为上述的R行数据。
上述优选的实施方式是可以结合使用的。另外,如本申请所使用的,术语“模块”或“单元”可以指在上述装置上执行的软件对象或例程。此处所描述的不同模块和单元可被实现为在上述装置上执行(例如,作为单独的线程)的对象或进程,同时,上述装置使用硬件或软件和硬件的组合的实现也是可能并被构想的。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据抽样方法,其特征在于包括:
获取目标数据,其中,所述目标数据包括多个数据块;
计算所述目标数据的数据块总数N;
根据对样本数的要求计算所述目标数据的抽样样本数M;
从每个数据块中分别随机选取R个样本,并进行汇总构成所述目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。
2.根据权利要求1所述的方法,其特征在于,
计算所述目标数据的抽样样本数M包括:获取一个数据块中的数据行数r;计算所述目标数据的总行数N*r,使用随机抽样公式根据所述总行数得到所述抽样样本数M;
从所述每个数据块中分别随机选取R个样本包括:从所述每个数据块中随机选取R行数据作为所述R个样本。
3.根据权利要求2所述的方法,其特征在于,从所述每个数据块中随机选取R行数据包括:
为所述每个数据块中的每一行数据分配一个随机数;
将所述每个数据块中的行数据分别按照随机数的大小进行排列;
在所述每个数据块中的排列好的数据中分别取连续的R行数据。
4.根据权利要求3所述的方法,其特征在于,在所述每个数据块中的排列好的数据中取连续的M/N行数据包括:
在所述每个数据块中排列好的数据中取随机数最大的R行数据;或者,
在所述每个数据块中排列好的数据中取随机数最小的R行数据。
5.根据权利要求3所述的方法,其特征在于,
为所述每个数据块中的每一行数据分配一个随机数包括:将所述每个数据块中的数据分别读入内存并存放在数组中;为所述数组的每一列生成一个随机数;
将所述每个数据块中的行数据分别按照随机数的大小进行排列包括:按照随机数的大小对所述数组中的列进行排序;
在所述每个数据块中的排列好的数据中分别取连续的R行数据包括:在所述每个数据块中排列好的数组中分别取连续的R列作为所述R行数据。
6.一种数据抽样装置,其特征在于包括:
第一获取模块,用于获取包括多个数据块的目标数据,并计算所述目标数据的数据块总数N;
第二获取模块,用于根据对样本数的要求计算所述目标数据的抽样样本数M;
构成模块,用于从每个数据块中分别随机选取R个样本,并进行汇总构成所述目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。
7.根据权利要求6所述的装置,其特征在于,
所述第二获取模块,用于获取一个数据块中的数据行数r,计算所述目标数据的总行数N*r,并使用随机抽样公式根据所述总行数得到所述抽样样本数M;
所述构成模块,用于从所述每个数据块中随机选取R行数据作为所述R个样本。
8.根据权利要求7所述的装置,其特征在于,所述构成模块包括:
分配单元,用于为所述每个数据块中的每一行数据分配一个随机数;
排列单元,用于将所述每个数据块中的行数据分别按照随机数的大小进行排列;
抽取单元,用于在所述每个数据块中的排列好的数据中分别取连续的R行数据。
9.根据权利要求8所述的装置,其特征在于,
所述抽取单元,用于在所述每个数据块中排列好的数据中取随机数最大的R行数据;或者,用于在所述每个数据块中排列好的数据中取随机数最小的R行数据。
10.根据权利要求8所述的装置,其特征在于,
所述分配单元,用于将所述每个数据块中的数据分别读入内存并存放在数组中;为所述数组的每一列生成一个随机数;
所述排列单元,用于按照随机数的大小对所述数组中的列进行排序;
所述抽取单元,用于在所述每个数据块中排列好的数组中分别取连续的R列作为所述R行数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310411200.1A CN104424331A (zh) | 2013-09-10 | 2013-09-10 | 数据抽样方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310411200.1A CN104424331A (zh) | 2013-09-10 | 2013-09-10 | 数据抽样方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104424331A true CN104424331A (zh) | 2015-03-18 |
Family
ID=52973305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310411200.1A Pending CN104424331A (zh) | 2013-09-10 | 2013-09-10 | 数据抽样方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104424331A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881475A (zh) * | 2015-06-02 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 一种用于大数据随机抽样的方法和系统 |
CN105512306A (zh) * | 2015-12-14 | 2016-04-20 | 北京奇虎科技有限公司 | 文件统计方法和文件统计系统 |
CN106372233A (zh) * | 2016-09-09 | 2017-02-01 | 北京奇虎科技有限公司 | 数据集合存储方法及装置 |
CN106469164A (zh) * | 2015-08-18 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 数据集的乱序处理方法和装置 |
CN107766486A (zh) * | 2017-10-16 | 2018-03-06 | 山东浪潮通软信息科技有限公司 | 随机抽取样本数据的方法、装置、可读介质及存储控制器 |
CN108491476A (zh) * | 2018-03-09 | 2018-09-04 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
CN110399413A (zh) * | 2019-07-04 | 2019-11-01 | 博彦科技股份有限公司 | 数据抽样方法、装置、存储介质和处理器 |
CN110515980A (zh) * | 2019-07-17 | 2019-11-29 | 金蝶软件(中国)有限公司 | 抽检方法、装置、计算机设备和存储介质 |
CN110782550A (zh) * | 2019-09-20 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种数据采集方法、装置及设备 |
CN110825783A (zh) * | 2019-10-31 | 2020-02-21 | 深圳前海微众银行股份有限公司 | 数据抽样方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799682A (zh) * | 2012-05-10 | 2012-11-28 | 中国电力科学研究院 | 一种海量数据预处理方法及其系统 |
-
2013
- 2013-09-10 CN CN201310411200.1A patent/CN104424331A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799682A (zh) * | 2012-05-10 | 2012-11-28 | 中国电力科学研究院 | 一种海量数据预处理方法及其系统 |
Non-Patent Citations (4)
Title |
---|
庄美美: ""Excel在随机抽样中的应用"", 《福建广播电视大学学报》 * |
桂诗春等: "《语言学方法论》", 30 September 1997 * |
郭永: ""诠释三种抽样方法的区别与联系"", 《中学生数理化(高一版)》 * |
陶国泰等: "《儿童少年精神医学》", 31 December 2008 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881475A (zh) * | 2015-06-02 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 一种用于大数据随机抽样的方法和系统 |
CN106469164A (zh) * | 2015-08-18 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 数据集的乱序处理方法和装置 |
CN105512306A (zh) * | 2015-12-14 | 2016-04-20 | 北京奇虎科技有限公司 | 文件统计方法和文件统计系统 |
CN105512306B (zh) * | 2015-12-14 | 2020-04-07 | 北京世界星辉科技有限责任公司 | 文件统计方法和文件统计系统 |
CN106372233B (zh) * | 2016-09-09 | 2019-09-20 | 北京奇虎科技有限公司 | 数据集合存储方法及装置 |
CN106372233A (zh) * | 2016-09-09 | 2017-02-01 | 北京奇虎科技有限公司 | 数据集合存储方法及装置 |
CN107766486A (zh) * | 2017-10-16 | 2018-03-06 | 山东浪潮通软信息科技有限公司 | 随机抽取样本数据的方法、装置、可读介质及存储控制器 |
CN107766486B (zh) * | 2017-10-16 | 2021-04-20 | 浪潮通用软件有限公司 | 随机抽取样本数据的方法、装置、可读介质及存储控制器 |
CN108491476A (zh) * | 2018-03-09 | 2018-09-04 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
CN110399413A (zh) * | 2019-07-04 | 2019-11-01 | 博彦科技股份有限公司 | 数据抽样方法、装置、存储介质和处理器 |
CN110515980A (zh) * | 2019-07-17 | 2019-11-29 | 金蝶软件(中国)有限公司 | 抽检方法、装置、计算机设备和存储介质 |
CN110782550A (zh) * | 2019-09-20 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种数据采集方法、装置及设备 |
CN110825783A (zh) * | 2019-10-31 | 2020-02-21 | 深圳前海微众银行股份有限公司 | 数据抽样方法、装置、设备及存储介质 |
CN110825783B (zh) * | 2019-10-31 | 2024-07-02 | 深圳前海微众银行股份有限公司 | 数据抽样方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104424331A (zh) | 数据抽样方法及装置 | |
CN106407207B (zh) | 一种实时新增数据更新方法和装置 | |
CN107832407B (zh) | 用于生成知识图谱的信息处理方法、装置和可读存储介质 | |
US10331156B2 (en) | System and method for big data geographic information system discovery | |
US9286312B2 (en) | Data coreset compression | |
CN108415845A (zh) | Ab测试系统指标置信区间的计算方法、装置和服务器 | |
CN108322363B (zh) | 推送数据异常监控方法、装置、计算机设备和存储介质 | |
CN106227881B (zh) | 一种信息处理方法及服务器 | |
CN111444363A (zh) | 一种图片检索方法、装置、终端设备及存储介质 | |
US20150052151A1 (en) | Scoring relationships between entities based on proximity in space and time | |
Gupta et al. | Faster as well as early measurements from big data predictive analytics model | |
CN106605222B (zh) | 有指导的数据探索 | |
CN113272798A (zh) | 地图获取方法、装置、计算机设备和存储介质 | |
WO2014101507A1 (zh) | 一种在线用户分布的处理方法、装置以及存储介质 | |
CN113656670A (zh) | 面向飞行数据的时空轨迹数据管理分析方法和装置 | |
CN112860808A (zh) | 基于数据标签的用户画像分析方法、装置、介质和设备 | |
CN106796587B (zh) | 用于验证分析结果的方法和系统 | |
CN113515703A (zh) | 信息推荐方法、装置、电子设备及可读存储介质 | |
CN116737373A (zh) | 负载均衡方法、装置、计算机设备、存储介质 | |
CN105989154B (zh) | 相似性度量的方法及设备 | |
CN110909072B (zh) | 一种数据表建立方法、装置及设备 | |
CN105589683B (zh) | 样本抽取方法和装置 | |
Alam et al. | Generating massive scale-free networks: Novel parallel algorithms using the preferential attachment model | |
CN108133234B (zh) | 基于稀疏子集选择算法的社区检测方法、装置及设备 | |
CN113296962B (zh) | 内存管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150318 |