CN108491476A - 大数据随机采样数据子块的划分方法及装置 - Google Patents

大数据随机采样数据子块的划分方法及装置 Download PDF

Info

Publication number
CN108491476A
CN108491476A CN201810193125.9A CN201810193125A CN108491476A CN 108491476 A CN108491476 A CN 108491476A CN 201810193125 A CN201810193125 A CN 201810193125A CN 108491476 A CN108491476 A CN 108491476A
Authority
CN
China
Prior art keywords
block
data
data sub
stochastical sampling
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810193125.9A
Other languages
English (en)
Inventor
黄哲学
何玉林
张晓亮
魏承昊
朱胡飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Blue whale Guoshu (Shenzhen) Technology Co.,Ltd.
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201810193125.9A priority Critical patent/CN108491476A/zh
Publication of CN108491476A publication Critical patent/CN108491476A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明适用于大数据处理技术领域,提供了一种大数据随机采样数据子块的划分方法,包括:切割一个大数据块,得到P个原始数据子块;从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复提取组合的操作共K次,得到K个所述随机采样数据子块;本发明提供的划分方法可以保证所得到的随机采样数据子块是整个大数据块的随机采样;并且,在得到各个随机采样数据子块时,并不需要对整个大数据块进行遍历,从而大大提高了效率。

Description

大数据随机采样数据子块的划分方法及装置
技术领域
本发明属于大数据处理技术领域,尤其涉及一种大数据随机采样数据子块的划分方法及装置。
背景技术
对于数据处理的任务,常规的传统数据分析的处理方式是直接处理全部数据;然而,随着数据量变大,直接处理全部数据在技术上不可行。
因此,一方面,Hadoop、Spark等的大数据处理系统的处理方式是divide-and-conquer(即分块处理),将原始的大数据块切成若干个小数据块存储,再由相应的各个计算集群(computing clusters)处理,从而将大数据整体的分析任务转变成多个可并行处理的子任务。然而,现有的这种大数据分块处理方法不考虑这些数据块的概率分布,通常顺序的把一个大数据块切割成多个数据子块,对大数据块做顺序切割得到的数据子块,没法保证是整个大数据块的随机采样;相应的,直接用数据子块估计整个大数据的统计特性或者做数据分析,将得到有偏差的结果。
另一方面,传统的随机采样方法为:每次扫描整个大数据块以得到一个随机采样数据子块,若采用这种方式,每次为了得到一个随机采样数据子块,都需要扫描整个大数据块,随着大数据块尺寸越来越大,这种策略的效率急剧下降。
所以,高效率的把一个大数据块切分成多个数据子块,每个数据子块是整个大数据块的随机采样,成为大数据分析面临的基础问题。有了随机采样数据子块,我们就能进行统计抽样,即通过处理部分子数据小块得到的信息去近似替代大数据整体的信息。
发明内容
本发明提供一种大数据随机采样数据子块的划分方法及装置,旨在提出高效率的随机采样数据分块技术,把大数据块表示成一系列互不重叠的数据子块,每个数据子块本身是整个大数据块的随机采样。
本发明提供了一种大数据随机采样数据子块的划分方法,所述方法包括:
步骤S1,切割一个大数据块,得到P个原始数据子块;
步骤S2,从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复执行此步骤共K次,得到K个所述随机采样数据子块。
进一步地,所述步骤S1具体为:顺序的均匀切割一个大数据块,得到P个原始数据子块,其中,每个所述原始数据子块中包含n条数据。
进一步地,所述步骤S2中,所述若干条数据为b条数据,K=n/b,其中,n为每个所述原始数据子块中包含的数据条数,b为每次从每一个所述原始数据子块中提取出的数据条数。
进一步地,所述步骤S2中,所述若干条数据为b条数据;b=n/P,其中,n为每个所述原始数据子块中包含的数据条数,P为原始数据子块的个数;K=P。
进一步地,所述大数据块为Hadoop分布式文件系统。
本发明还提供了一种大数据随机采样数据子块的划分装置,所述装置包括:
切割模块,用于切割一个大数据块,得到P个原始数据子块;
随机采样模块,用于从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复此操作共K次,得到K个所述随机采样数据子块。
进一步地,所述切割模块具体用于:顺序的均匀切割一个大数据块,得到P个原始数据子块,其中,每个所述原始数据子块中包含n条数据。
进一步地,所述随机采样模块中,所述若干条数据为b条数据,K=n/b,其中,n为每个所述原始数据子块中包含的数据条数,b为每次从每一个所述原始数据子块中提取出的数据条数。
进一步地,所述随机采样模块中,所述若干条数据为b条数据;b=n/P,其中,n为每个所述原始数据子块中包含的数据条数,P为原始数据子块的个数;K=P。
进一步地,所述大数据块为Hadoop分布式文件系统。
本发明与现有技术相比,有益效果在于:本发明提供的一种大数据随机采样数据子块的划分方法及装置,首先,将一个大数据块进行切割,得到P个原始数据子块;然后,从P个中的每一个原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复提取组合操作K次,共得到K个随机采样数据子块;本发明与现有技术相比,先进行数据分块,再进行数据随机化,可以保证所得到的随机采样数据子块是整个大数据块的随机采样;并且,在得到各个随机采样数据子块时,不需要遍历扫描整个大数据块,从而大大提高了效率。
附图说明
图1是本发明实施例提供的一种大数据随机采样数据子块的划分方法的流程示意图;
图2是本发明实施例提供的另一种大数据随机采样数据子块的划分方法的流程示意图;
图3是本发明实施例提供的另一种大数据随机采样数据子块的划分方法的流程示意图;
图4是本发明实施例提供的一种大数据随机采样数据子块的划分装置的模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于现有技术中,一方面存在每个数据子块本身无法保证是整个大数据块的随机采样的问题,另一方面存在每次得到一个随机采样数据子块都需要扫描整个大数据块,从而导致效率低的问题。
为了解决上述技术问题,本发明提出一种大数据随机采样数据子块的划分方法及装置,该方法先将大数据分块,再进行数据随机化,得到新的随机采样数据子块,这种新的随机采样数据子块本身是整个大数据块的随机采样,在执行效率上有很大的优势,不需要遍历扫描整个大数据块。
下面举一具体实施例介绍一种大数据随机采样数据子块的划分方法,如图1所示,包括:
步骤S101,切割一个大数据块,得到P个原始数据子块;
具体地,在实际操作中,通常是顺序的切割,在现有的大数据处理系统中,这是一个很常见的操作;但是本发明实施例不限于顺序的切割,也可以采用其它的办法切割。比如,假定一个大数据块有100条数据,编号为1到100,需要切割成10个原始数据子块,如果顺序切割,就是1到10为一块,11到20为一块,等等;也可以用其它办法切割成10个原始数据子块,比如1、11、21、31直到91为一块,2、12、22、32直到92为一块,等等。
通常大数据块D是一个分布式数据集,例如,用分布式文件系统例如Hadoop分布式文件系统(HDFS)切分成P个数据子块并且分布式放置在一个计算集群中。
步骤S102,从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复执行此操作共K次,得到K个所述随机采样数据子块。
具体地,本发明实施例提供的所述原始数据子块中的数据为记录,从每个所述原始数据子块中取出记录的条数不一定是相同的,且取出之后不再用其它记录去替换,把从每个所述原始数据子块中取出的若干条记录组合,即可得到一个新的随机采样数据子块,而得到的这种新的所述随机采样数据子块即为整个大数据块D的随机采样。
具体地,得到的K个所述随机采样数据子块中的每一个皆为整个大数据块D的随机采样。
本发明实施例提供的一种大数据随机采样数据子块的划分方法,在一个计算集群(computing cluster)上生成一个随机采样数据划分(RSDP:Random Sample DataPartition),把大数据块D表示成一系列互不重叠的随机采样数据子块,每个随机采样数据子块本身是整个大数据块D的随机采样;特别的,本发明实施例在得到各个随机采样数据子块时,并不需要对整个大数据块进行遍历,从而大大提高了效率。
下面再举一具体实施例介绍一种大数据随机采样数据子块的划分方法,如图2所示,包括:
步骤S201,顺序的均匀切割一个大数据块,得到P个原始数据子块,其中,每个所述原始数据子块中包含n条数据;
具体地,本发明实施例提供的所述原始数据子块中的数据为记录,通过均匀切割,得到的每个所述原始数据子块中包含的记录条数是相等的,为n条记录。
步骤S202,从P个中的每一个所述原始数据子块中随机取出b条数据,并把从每一个所述原始数据子块中取出的b条数据组合,生成一个新的随机采样数据子块;重复执行此操作共K次,得到K个所述随机采样数据子块;其中,K=n/b。
具体地,从每个所述原始数据子块中随机取出相等的b条记录,把从每个所述原始数据子块中取出的b条记录组合,即可得到一个新的随机采样数据子块,而得到的这种新的所述随机采样数据子块即为整个大数据块D的随机采样。
具体地,K=n/b,其中,n为每个所述原始数据子块中包含的记录条数,b为每次从每一个所述原始数据子块中提取出的记录条数;通过提取并组合共n/b次,即可得到n/b个所述随机采样数据子块。
本发明实施例提供的一种大数据随机采样数据子块的划分方法,通过均匀分割并均匀提取组合的方式,得到一系列互不重叠的随机采样数据子块,一方面,可以保证所得到的数据子块是整个大数据块的随机采样;另一方面,在执行效率上有很大的优势,不需要遍历扫描整个大数据块。
下面再举一具体实施例介绍一种大数据随机采样数据子块的划分方法,如图3所示,包括:
步骤S301,顺序的均匀切割一个大数据块,得到P个原始数据子块,其中,每个所述原始数据子块中包含n条数据;
具体地,本发明实施例提供的所述原始数据子块中的数据为记录,通过均匀切割,得到的每个所述原始数据子块中包含的记录条数是相等的,为n条记录。
步骤S302,从P个中的每一个所述原始数据子块中随机取出b条数据,并把从每一个所述原始数据子块中取出的b条数据组合,生成一个新的随机采样数据子块;重复执行此操作共K次,得到K个所述随机采样数据子块;其中,b=n/P。
具体地,b=n/P,其中,n为每个所述原始数据子块中包含的数据条数,P为原始数据子块的个数。
具体地,从每个所述原始数据子块中随机取出相等的n/P条记录,把从每个所述原始数据子块中取出的n/P条记录组合,即可得到一个新的随机采样数据子块,而得到的这种新的所述随机采样数据子块即为整个大数据块D的随机采样。
具体地,K=P;通过提取并组合共P次,即可得到P个所述随机采样数据子块。通过这种提取组合的方式得到的所述随机采样数据子块的个数和分割之后得到的所述原始数据子块的个数相等,并且,每个所述随机采样数据子块的记录条数也和所述原始数据子块的记录条数相等。
本发明实施例提供的一种大数据随机采样数据子块的划分方法,提出高效率的随机采样数据分块技术,通过把大数据块D划分成K个随机采样数据子块,每个随机采样数据块包含n条记录;可以保证所得到的随机采样数据子块是整个大数据块的随机采样;并且在执行效率上有很大的优势,不需要遍历扫描整个大数据块。
下面再举一具体实施例介绍一种大数据随机采样数据子块的划分装置,如图4所示,包括:
切割模块401,用于切割一个大数据块,得到P个原始数据子块;
随机采样模块402,用于从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复此操作共K次,得到K个所述随机采样数据子块。
需要说明的是,大数据随机采样数据子块的划分装置的相关内容具体可参阅图1-3所示实施例中描述的大数据随机采样数据子块的划分方法,此处不做赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种大数据随机采样数据子块的划分方法,其特征在于,所述方法包括:
步骤S1,切割一个大数据块,得到P个原始数据子块;
步骤S2,从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复执行此步骤共K次,得到K个所述随机采样数据子块。
2.如权利要求1所述的大数据随机采样数据子块的划分方法,其特征在于,所述步骤S1具体为:顺序的均匀切割一个大数据块,得到P个原始数据子块,其中,每个所述原始数据子块中包含n条数据。
3.如权利要求2所述的大数据随机采样数据子块的划分方法,其特征在于,所述步骤S2中,所述若干条数据为b条数据,K=n/b,其中,n为每个所述原始数据子块中包含的数据条数,b为每次从每一个所述原始数据子块中提取出的数据条数。
4.如权利要求2所述的大数据随机采样数据子块的划分方法,其特征在于,所述步骤S2中,所述若干条数据为b条数据;b=n/P,其中,n为每个所述原始数据子块中包含的数据条数,P为原始数据子块的个数;K=P。
5.如权利要求1-4任一项所述的大数据随机采样数据子块的划分方法,其特征在于,所述大数据块为Hadoop分布式文件系统。
6.一种大数据随机采样数据子块的划分装置,其特征在于,所述装置包括:
切割模块,用于切割一个大数据块,得到P个原始数据子块;
随机采样模块,用于从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复此操作共K次,得到K个所述随机采样数据子块。
7.如权利要求6所述的大数据随机采样数据子块的划分装置,其特征在于,所述切割模块具体用于:顺序的均匀切割一个大数据块,得到P个原始数据子块,其中,每个所述原始数据子块中包含n条数据。
8.如权利要求7所述的大数据随机采样数据子块的划分装置,其特征在于,所述随机采样模块中,所述若干条数据为b条数据,K=n/b,其中,n为每个所述原始数据子块中包含的数据条数,b为每次从每一个所述原始数据子块中提取出的数据条数。
9.如权利要求7所述的大数据随机采样数据子块的划分装置,其特征在于,所述随机采样模块中,所述若干条数据为b条数据;b=n/P,其中,n为每个所述原始数据子块中包含的数据条数,P为原始数据子块的个数;K=P。
10.如权利要求6-9任一项所述的大数据随机采样数据子块的划分装置,其特征在于,所述大数据块为Hadoop分布式文件系统。
CN201810193125.9A 2018-03-09 2018-03-09 大数据随机采样数据子块的划分方法及装置 Pending CN108491476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810193125.9A CN108491476A (zh) 2018-03-09 2018-03-09 大数据随机采样数据子块的划分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810193125.9A CN108491476A (zh) 2018-03-09 2018-03-09 大数据随机采样数据子块的划分方法及装置

Publications (1)

Publication Number Publication Date
CN108491476A true CN108491476A (zh) 2018-09-04

Family

ID=63338111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810193125.9A Pending CN108491476A (zh) 2018-03-09 2018-03-09 大数据随机采样数据子块的划分方法及装置

Country Status (1)

Country Link
CN (1) CN108491476A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634521A (zh) * 2018-12-05 2019-04-16 深圳大学 一种数据分块方法、装置及终端设备
WO2020113470A1 (zh) * 2018-12-05 2020-06-11 深圳大学 一种数据分块方法、装置及终端设备
CN117421354A (zh) * 2023-12-19 2024-01-19 国家卫星海洋应用中心 一种卫星遥感大数据集统计方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157624A1 (en) * 2007-12-17 2009-06-18 Electronic And Telecommunications Research Institute System and method for indexing high-dimensional data in cluster system
CN102750309A (zh) * 2012-03-19 2012-10-24 南京大学 一种基于Hadoop的并行化SVM求解方法
CN104424331A (zh) * 2013-09-10 2015-03-18 深圳市腾讯计算机系统有限公司 数据抽样方法及装置
CN106598729A (zh) * 2016-11-18 2017-04-26 深圳市证通电子股份有限公司 分布式并行计算系统的数据分配方法及系统
CN107563450A (zh) * 2017-09-14 2018-01-09 深圳大学 聚类簇的获取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157624A1 (en) * 2007-12-17 2009-06-18 Electronic And Telecommunications Research Institute System and method for indexing high-dimensional data in cluster system
CN102750309A (zh) * 2012-03-19 2012-10-24 南京大学 一种基于Hadoop的并行化SVM求解方法
CN104424331A (zh) * 2013-09-10 2015-03-18 深圳市腾讯计算机系统有限公司 数据抽样方法及装置
CN106598729A (zh) * 2016-11-18 2017-04-26 深圳市证通电子股份有限公司 分布式并行计算系统的数据分配方法及系统
CN107563450A (zh) * 2017-09-14 2018-01-09 深圳大学 聚类簇的获取方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634521A (zh) * 2018-12-05 2019-04-16 深圳大学 一种数据分块方法、装置及终端设备
WO2020113470A1 (zh) * 2018-12-05 2020-06-11 深圳大学 一种数据分块方法、装置及终端设备
CN109634521B (zh) * 2018-12-05 2022-04-12 蓝鲸国数(深圳)科技有限公司 一种数据分块方法、装置及终端设备
CN117421354A (zh) * 2023-12-19 2024-01-19 国家卫星海洋应用中心 一种卫星遥感大数据集统计方法、装置及设备
CN117421354B (zh) * 2023-12-19 2024-03-19 国家卫星海洋应用中心 一种卫星遥感大数据集统计方法、装置及设备

Similar Documents

Publication Publication Date Title
EP3330880B1 (en) Secure computation system, secure computation device, secure computation method, and program
CN108491476A (zh) 大数据随机采样数据子块的划分方法及装置
CN105404679B (zh) 数据处理方法和装置
US9619492B2 (en) Data migration
CN102750309A (zh) 一种基于Hadoop的并行化SVM求解方法
CN105989129A (zh) 实时数据统计方法和装置
WO2019218976A1 (zh) 数据处理方法、装置和计算机可读存储介质
CN105205154B (zh) 数据迁移方法以及装置
CN102725753A (zh) 优化数据访问的方法及装置、优化数据存储的方法及装置
CN110636258B (zh) 同行人员分析方法、装置、设备和存储介质
CN106055630A (zh) 日志存储的方法及装置
CN106294745A (zh) 大数据清洗方法及装置
CN110232074A (zh) 流数据与维表关联方法及流计算装置
CN110287189A (zh) 一种基于spark streaming处理流动车辆数据的方法及系统
CN110297810A (zh) 一种流数据处理方法、装置及电子设备
CN113794696B (zh) 一种基于因果模型的网络安全信息处理方法和系统
US20160124841A1 (en) Information processing system and data processing method
CN110704407B (zh) 一种数据去重的方法和系统
CN110110849B (zh) 基于图分割的行固定数据流映射方法
CN106326400A (zh) 基于多维数据集的数据处理系统
CN106599326B (zh) 一种云化架构下的记录数据剔重处理方法及系统
JP5651568B2 (ja) データベース撹乱装置、システム、方法及びプログラム
CN111221814A (zh) 二级索引的构建方法、装置及设备
WO2019169619A1 (zh) 大数据随机采样数据子块的划分方法及装置
CN103970792A (zh) 一种基于索引进行文件比对的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Huang Zhexue

Inventor after: He Yulin

Inventor after: Zhang Xiaoliang

Inventor after: Wei Chenghao

Inventor after: Zhu Hufei

Inventor before: Huang Zhexue

Inventor before: He Yulin

Inventor before: Zhang Xiaoliang

Inventor before: Wei Chenghao

Inventor before: Zhu Hufei

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20211221

Address after: 518000 Room 202, 2 / F, r1-b building, Gaoxin industrial village, 021 South 4th Road, Gaoxin District, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Blue whale Guoshu (Shenzhen) Technology Co.,Ltd.

Address before: 518060 No. 3688 Nanhai Road, Shenzhen, Guangdong, Nanshan District

Applicant before: SHENZHEN University

TA01 Transfer of patent application right