CN109634521A - 一种数据分块方法、装置及终端设备 - Google Patents

一种数据分块方法、装置及终端设备 Download PDF

Info

Publication number
CN109634521A
CN109634521A CN201811480718.XA CN201811480718A CN109634521A CN 109634521 A CN109634521 A CN 109634521A CN 201811480718 A CN201811480718 A CN 201811480718A CN 109634521 A CN109634521 A CN 109634521A
Authority
CN
China
Prior art keywords
data
block
sub
record
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811480718.XA
Other languages
English (en)
Other versions
CN109634521B (zh
Inventor
黄哲学
朱胡飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Blue Whale Guoshu Shenzhen Technology Co ltd
Original Assignee
深圳大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳大学 filed Critical 深圳大学
Priority to CN201811480718.XA priority Critical patent/CN109634521B/zh
Publication of CN109634521A publication Critical patent/CN109634521A/zh
Application granted granted Critical
Publication of CN109634521B publication Critical patent/CN109634521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于大数据处理技术领域,提供了一种数据分块方法、装置及终端设备,方法包括:将数据分块并分别存储到C个数据中心;将第i个数据中心中所存储的数据块切割成Pi个原始数据子块,并分布式放置在第i个数据中心的计算集群中;选择C个数据中心,获取每个数据中心中每个原始数据子块中的记录数据,得到C个数据中心的原始数据子块中的记录数据,对原始数据子块中的每条记录数据有且只有获取一次;根据C个数据中心的原始数据子块中的记录数据,混合生成随机采样数据块;K次重复上述步骤,生成K个随机采样数据块,并将K个随机采样数据块存储在预设数据中心。通过本发明能够明显提高数据分块处理的效率。

Description

一种数据分块方法、装置及终端设备
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种数据分块方法、装置及终端设备。
背景技术
在进行数据处理的相关时,传统数据分析的处理方式是直接处理全部数据;然而,随着数据量变大,直接处理全部数据在已经无法满足数据处理量和数据处理效率的要求,因此,Hadoop、Spark等的大数据处理系统采用分块处理的处理方式,将原始的大数据块切成若干个小数据块存储,再由相应的各个计算集群处理,从而将大数据整体的分析任务转变成多个可并行处理的子任务。但是,对于大数据块,如果将特大数据块的处理任务转变成多个可并行处理的子任务,需要多次扫描整个大数据块及其所在的数据中心、得到多个随机采样数据子块,存入一个数据中心,再由该数据中心处理上述的多个随机采样数据子块,实现并行处理。
然而,由于每得到一个随机采样数据子块都需要遍历所有的多个数据中心、扫描整个大数据块,那么随着大数据块尺寸越来越大,例如特大数据块,此时所需要遍历的数据中心的数目也越来越多,传统的数据分块方法工作量大、效率低。
发明内容
本发明的主要目的在于提出一种数据分块方法、装置及终端设备,以解决现有的数据分块方法处理特大数据块时工作量大、效率低的问题。
为实现上述目的,本发明实施例第一方面提供一种数据分块方法,应用于特大数据处理,所述数据分块方法包括:
步骤1:将数据分块并分别存储到C个数据中心,其中C为正整数;
步骤2:将第i个数据中心中所存储的数据块切割成Pi个原始数据子块,并分布式放置在所述第i个数据中心的计算集群中,其中i=1,2,3,...,C;P1,P2,...,Pi均为正整数;
步骤3:选择C个所述数据中心,获取每个所述数据中心中每个原始数据子块中的记录数据,得到C个所述数据中心的原始数据子块中的记录数据,对所述原始数据子块中的每条记录数据有且只有获取一次;
步骤4:根据所述C个所述数据中心的原始数据子块中的记录数据,混合生成随机采样数据块;
步骤5:K次重复步骤1至步骤4,生成K个所述随机采样数据块,并将K个所述随机采样数据块存储在预设数据中心,其中,K为小于等于C的正整数。
结合本发明第一方面,本发明第一方面的第一实施方式中,选择C个所述数据中心,获取每个所述数据中心中每个原始数据子块中的记录数据,得到C个所述数据中心的原始数据子块中的记录数据包括:
计算所述第i个所述数据中心的Pi个所述原始数据子块中获取的记录数据总数,公式为:
Si=P1×b1+P2×b2+P3×b3+...+Pi×bi
其中,Pi表示第i个所述数据中心的Pi个原始数据子块,bi表示第Pi个原始数据子块中获取到的记录数据条数;
计算C个所述数据中心的原始数据子块中获取的记录数据总数,公式为:
S=S1+S2+S3+...+Si
其中,Si表示第i个所述数据中心的Pi个所述原始数据子块中的记录数据总数,i=1,2,3,...,C。
结合本发明第一方面第一实施方式,本发明第一方面的第二实施方式中,所述第Pi个原始数据子块中包括ni条记录数据;
所述第Pi个原始数据子块中获取到的记录数据条数bi小于所述第Pi个原始数据子块中包括的记录数据条数ni
在第i个数据中心和第j个数据中心中,其中i,j=1,2,3,...,C,且i不等于j。
结合本发明第一方面,本发明第一方面的第三实施方式中,所述预设数据中心为所述C个数据中心以外的另外一个数据中心;
或所述预设数据中心为所述C个数据中心中的一个。
结合本发明第一方面,本发明第一方面的第四实施方式中,所述原始数据子块为所述数据块的随机采样。
本发明实施例第二方面提供一种数据分块装置,应用于大数据处理,包括:
第一存储模块,用于将数据分块并分别存储到C个数据中心,其中C为正整数;
数据切割模块,用于将第i个数据中心中所存储的数据块切割成Pi个原始数据子块,并分布式放置在所述第i个数据中心的计算集群中,其中i=1,2,3,...,C;P1,P2,...,Pi均为正整数;
记录数据获取模块,用于选择C个所述数据中心,获取每个所述数据中心中每个原始数据子块中的记录数据,得到C个所述数据中心的原始数据子块中的记录数据,对所述原始数据子块中的每条记录数据有且只有获取一次;
随机采样数据块生成模块,用于根据所述C个所述数据中心的原始数据子块中的记录数据,混合生成随机采样数据块;
第二存储模块,用于K次重复使用所述第一存储模块、所述数据切割模块、所述记录数据获取模块和所述随机采样数据块生成模块,生成K个所述随机采样数据块,并将K个所述随机采样数据块存储在预设数据中心,其中,K为小于等于C的正整数。
结合本发明第二方面,本发明第二方面的第一实施方式中,所述记录数据获取模块包括:
第一计算单元,用于计算所述第i个所述数据中心的Pi个所述原始数据子块中获取的记录数据总数,公式为:
Si=P1×b1+P2×b2+P3×b3+...+Pi×bi
其中,Pi表示第i个所述数据中心的Pi个原始数据子块,bi表示第Pi个原始数据子块中获取到的记录数据条数;
第二计算单元,用于计算C个所述数据中心的原始数据子块中获取的记录数据总数,公式为:
S=S1+S2+S3+...+Si
其中,Si表示第i个所述数据中心的Pi个所述原始数据子块中的记录数据总数,i=1,2,3,...,C。
结合本发明第二方面的第一实施方式,本发明第二方面的第二实施方式中,所述第Pi个原始数据子块中包括ni条记录数据;
所述第Pi个原始数据子块中获取到的记录数据条数bi小于所述第Pi个原始数据子块中包括的记录数据条数ni
在第i个数据中心和第j个数据中心中,其中i,j=1,2,3,...,C,且i不等于j。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。
本发明实施例提出的数据分块方法,将数据块分别存储到多个数据中心,将数据中心切割成多个原始数据子块,以每个数据中心为单位获取此数据中心的原始数据子块中的记录数据,且原始数据子块中的记录数据只能被一次获取,即第二次获取每个数据中心的原始数据子块中的记录数据时,已经被获取过的记录数据将不被获取;以使每次在全部数据中心所获取到的记录数据,可以混合生成互不重叠的随机采样数据块随机采样数据块,则多次在全部数据中心所获取到的记录数据,可以混合生成多个随机采样数据块,然后把上述的多个随机采样数据块存储在预设数据中心,实现跨数据中心的随机样本划分,将大数据整体的分析任务转变成多个可并行处理的子任务。由于随机采样数据块互不重叠,且在获得各个随机采样数据子块时,不需要对存储在多个数据中心的整个数据块进行遍历,因此可以明显提高数据分块处理的效率。
附图说明
图1为本发明实施例一提供的数据分块方法的实现流程示意图;
图2为图1中步骤S3的详细实现流程示意图;
图3为本发明实施例二提供的数据分块装置的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本文中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
在后续的描述中,发明实施例序号仅仅为了描述,不代表实施例的优劣。
实施例一
如图1所示,本发明实施例提供了一种数据分块方法,应用于特大数据处理,以提高基于特大数据块的数据分块处理效率,便于后续将大数据整体的分析任务转变成多个可并行处理的子任务进行处理。数据分块方法包括但不限于以下步骤:
S1、将数据分块并分别存储到C个数据中心,其中C为正整数。
在上述步骤S1中,在将数据分块后,可以顺序地将各数据块分别存储到C个数据中心中;也可以采用随机地方式,将各数据块分别存储到C个数据中心中。
S2、将第i个数据中心中所存储的数据块切割成Pi个原始数据子块,并分布式放置在所述第i个数据中心的计算集群中,其中i=1,2,3,...,C;P1,P2,...,Pi均为正整数。
在上述步骤S2中,进行分块的数据通常是一个分布式数据集,对于分块后形成的数据块,其也是一个分布式的数据集,将此数据块分割成多个原始数据子块时,原始数据子块应分布式放置在该数据中心对应的一个计算集群中。
在具体应用中,分布式的数据集可以用分布式文件系统,如Hadoop分布式文件系统获得。
在一个实施例中,所述原始数据子块还可以为所述数据块的随机采样。
S3、选择C个所述数据中心,获取每个所述数据中心中每个原始数据子块中的记录数据,得到C个所述数据中心的原始数据子块中的记录数据,对所述原始数据子块中的每条记录数据有且只有获取一次。
在上述步骤S3中,原始数据子块是一组按顺序连续排列在一起的几组记录,在对数据块进行随机采样时,即获取数据中心中各原始数据子块中的记录数据。
在具体应用中,先以每个数据中心为单位,同时获取数据中心中各原始数据子块中的记录数据,将C个数据中心中获取的全部记录数据整合,则得到C个所述数据中心的原始数据子块中的记录数据。
在具体应用中,原始数据子块中的记录数据只能被一次获取,即第二次获取每个数据中心的原始数据子块中的记录数据时,已经被获取过的记录数据将不被获取;以使每次在全部数据中心所获取到的记录数据,可以混合生成互不重叠的随机采样数据块随机采样数据块,以使对于特大数据进行处理、生成多个随机采样数据块时,避免了对存储在多个数据中心的数据块进行遍历,从而明显提高数据分块的效率。
如图2所示,在本发明实施例中,上述步骤S3的详细实现流程可以为:
S31、计算所述第i个所述数据中心的Pi个所述原始数据子块中获取的记录数据总数,公式为:
Si=P1×b1+P2×b2+P3×b3+...+Pi×bi
其中,Pi表示第i个所述数据中心的Pi个原始数据子块,bi表示第Pi个原始数据子块中获取到的记录数据条数。
S32、计算C个所述数据中心的原始数据子块中获取的记录数据总数,公式为:
S=S1+S2+S3+...+Si
其中,Si表示第i个所述数据中心的Pi个所述原始数据子块中的记录数据总数,i=1,2,3,...,C。
在上述步骤S31至S32中,假设C=3,共有3个数据中心;
当i=1时,P1=1,b1=1;则在第1个数据中心中,具有1个原始数据子块,在此原始数据子块获得的记录数据为1;在第1个数据中心的1个原始数据子块中获取的记录数据总数S1=1=1。
当i=2时,P2=2,b1=2,b2=3;则在第2个数据中心中,具有2个原始数据子块,第1个原始数据子块获得的记录数据为1,第2个原始数据子块获得的记录数据为3;在第2个数据中心的2个原始数据子块中获取的记录数据总数S2=1+3=4。
当i=3时,P3=3,b1=1,b2=3,b3=2;则在第3个数据中心中,具有3个原始数据子块,第1个原始数据子块获得的记录数据为1,第2个原始数据子块获得的记录数据为3,第3个原始数据子块获得的记录数据为2;在第3个数据中心的2个原始数据子块中获取的记录数据总数S3=1+3+2=6。
在3个数据中心的原始数据子块中获取的记录数据总数S=1+4+6=11。
在具体应用中,所述第Pi个原始数据子块中包括ni条记录数据;
所述第Pi个原始数据子块中获取到的记录数据条数bi小于所述第Pi个原始数据子块中包括的记录数据条数ni
在第i个数据中心和第j个数据中心中,其中i,j=1,2,3,...,C,且i不等于j。
上述等式表示,任意两个数据中心的第Pi个原始数据子块中获取到的记录数据条数bi,与第Pi个原始数据子块中包括的记录数据条数ni存在函数关系。
S4、根据所述C个所述数据中心的原始数据子块中的记录数据,混合生成随机采样数据块。
在上述步骤S4中,将上述C个数据中心的共P1+P2+P3+…PC个数据子块中随机取出的S1+S2+S3+...+Si条记录混合,生成一个新的随机采样数据块。
结合在上述步骤S31至S32中的假设,上述步骤S4即:
将上述3个数据中心的共1+2+3=6个数据子块中随机取出的1+4+6=11条记录混合,生成一个新的随机采样数据块。
S5、K次重复S1至S4,生成K个所述随机采样数据块,并将K个所述随机采样数据块存储在预设数据中心,其中,K为小于等于C的正整数。
在上述步骤S5中,预设数据中心为一个数据中心,将获得的K个随机采样数据块存储在一个数据中心后,则可以由此数据中心处理上述K个随机采样数据块,从而将数据整体的分析任务转变成多个可并行处理的子任务。
在一个实施例中,所述预设数据中心为所述C个数据中心以外的另外一个数据中心;
或所述预设数据中心为所述C个数据中心中的一个。
本发明实施例提供的数据分块方法,将数据块分别存储到多个数据中心,将数据中心切割成多个原始数据子块,以每个数据中心为单位获取此数据中心的原始数据子块中的记录数据,且原始数据子块中的记录数据只能被一次获取,即第二次获取每个数据中心的原始数据子块中的记录数据时,已经被获取过的记录数据将不被获取;以使每次在全部数据中心所获取到的记录数据,可以混合生成互不重叠的随机采样数据块随机采样数据块,则多次在全部数据中心所获取到的记录数据,可以混合生成多个随机采样数据块,然后把上述的多个随机采样数据块存储在预设数据中心,实现跨数据中心的随机样本划分,将大数据整体的分析任务转变成多个可并行处理的子任务。由于随机采样数据块互不重叠,且在获得各个随机采样数据子块时,不需要对存储在多个数据中心的整个数据块进行遍历,因此可以明显提高数据分块处理的效率。
实施例二
如图3所示,本发明实施例提供一种数据分块装置30,应用于大数据处理,包括第一存储模块31、数据切割模块32、记录数据获取模块33、随机采样数据块生成模块34、第二存储模块35。
在本发明实施例中,第一存储模块31,用于将数据分块并分别存储到C个数据中心,其中C为正整数。
在本发明实施例中,数据切割模块32,用于将第i个数据中心中所存储的数据块切割成Pi个原始数据子块,并分布式放置在第i个数据中心的计算集群中,其中i=1,2,3,...,C;P1,P2,...,Pi均为正整数。
在一个实施例中,原始数据子块为数据块的随机采样。
在本发明实施例中,记录数据获取模块33,用于选择C个数据中心,获取每个数据中心中每个原始数据子块中的记录数据,得到C个数据中心的原始数据子块中的记录数据,对原始数据子块中的每条记录数据有且只有获取一次。
在一个实施例中,记录数据获取模块33可以包括:
第一计算单元331,用于计算第i个数据中心的Pi个原始数据子块中获取的记录数据总数,公式为:
Si=P1×b1+P2×b2+P3×b3+...+Pi×bi
其中,Pi表示第i个数据中心的Pi个原始数据子块,bi表示第Pi个原始数据子块中获取到的记录数据条数;
第二计算单元332,用于计算C个数据中心的原始数据子块中获取的记录数据总数,公式为:
S=S1+S2+S3+...+Si
其中,Si表示第i个数据中心的Pi个原始数据子块中的记录数据总数,i=1,2,3,...,C。
在具体应用中,第Pi个原始数据子块中包括ni条记录数据;
第Pi个原始数据子块中获取到的记录数据条数bi小于第Pi个原始数据子块中包括的记录数据条数ni
在第i个数据中心和第j个数据中心中,其中i,j=1,2,3,...,C,且i不等于j。
上述等式表示,任意两个数据中心的第Pi个原始数据子块中获取到的记录数据条数bi,与第Pi个原始数据子块中包括的记录数据条数ni存在函数关系。
随机采样数据块生成模块34,用于根据C个数据中心的原始数据子块中的记录数据,混合生成随机采样数据块。
在本发明实施例中,第二存储模块35,用于K次重复使用第一存储模块、数据切割模块、记录数据获取模块和随机采样数据块生成模块,生成K个随机采样数据块,并将K个随机采样数据块存储在预设数据中心,其中,K为小于等于C的正整数。
在一个实施例中,预设数据中心为C个数据中心以外的另外一个数据中心,或预设数据中心为C个数据中心中的一个。
本发明实施例还提供一种终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如实施例一中所述的数据分块方法中的各个步骤。
本发明实施例还提供一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如实施例一中所述的数据分块方法中的各个步骤。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据分块方法,其特征在于,应用于特大数据处理,所述数据分块方法包括:
步骤1:将数据分块并分别存储到C个数据中心,其中C为正整数;
步骤2:将第i个数据中心中所存储的数据块切割成Pi个原始数据子块,并分布式放置在所述第i个数据中心的计算集群中,其中i=1,2,3,...,C;P1,P2,...,Pi均为正整数;
步骤3:选择C个所述数据中心,获取每个所述数据中心中每个原始数据子块中的记录数据,得到C个所述数据中心的原始数据子块中的记录数据,对所述原始数据子块中的每条记录数据有且只有获取一次;
步骤4:根据所述C个所述数据中心的原始数据子块中的记录数据,混合生成随机采样数据块;
步骤5:K次重复步骤1至步骤4,生成K个所述随机采样数据块,并将K个所述随机采样数据块存储在预设数据中心,其中,K为小于等于C的正整数。
2.如权利要求1所述数据分块方法,其特征在于,选择C个所述数据中心,获取每个所述数据中心中每个原始数据子块中的记录数据,得到C个所述数据中心的原始数据子块中的记录数据包括:
计算所述第i个所述数据中心的Pi个所述原始数据子块中获取的记录数据总数,公式为:
Si=P1×b1+P2×b2+P3×b3+...+Pi×bi
其中,Pi表示第i个所述数据中心的Pi个原始数据子块,bi表示第Pi个原始数据子块中获取到的记录数据条数;
计算C个所述数据中心的原始数据子块中获取的记录数据总数,公式为:
S=S1+S2+S3+...+Si
其中,Si表示第i个所述数据中心的Pi个所述原始数据子块中的记录数据总数,i=1,2,3,...,C。
3.如权利要求2所述数据分块方法,其特征在于,所述第Pi个原始数据子块中包括ni条记录数据;
所述第Pi个原始数据子块中获取到的记录数据条数bi小于所述第Pi个原始数据子块中包括的记录数据条数ni
在第i个数据中心和第j个数据中心中,其中i,j=1,2,3,...,C,且i不等于j。
4.如权利要求1所述数据分块方法,其特征在于,所述预设数据中心为所述C个数据中心以外的另外一个数据中心;
或所述预设数据中心为所述C个数据中心中的一个。
5.如权利要求1所述数据分块方法,其特征在于,所述原始数据子块为所述数据块的随机采样。
6.一种数据分块装置,其特征在于,应用于大数据处理,包括:
第一存储模块,用于将数据分块并分别存储到C个数据中心,其中C为正整数;
数据切割模块,用于将第i个数据中心中所存储的数据块切割成Pi个原始数据子块,并分布式放置在所述第i个数据中心的计算集群中,其中i=1,2,3,...,C;P1,P2,...,Pi均为正整数;
记录数据获取模块,用于选择C个所述数据中心,获取每个所述数据中心中每个原始数据子块中的记录数据,得到C个所述数据中心的原始数据子块中的记录数据,对所述原始数据子块中的每条记录数据有且只有获取一次;
随机采样数据块生成模块,用于根据所述C个所述数据中心的原始数据子块中的记录数据,混合生成随机采样数据块;
第二存储模块,用于K次重复使用所述第一存储模块、所述数据切割模块、所述记录数据获取模块和所述随机采样数据块生成模块,生成K个所述随机采样数据块,并将K个所述随机采样数据块存储在预设数据中心,其中,K为小于等于C的正整数。
7.如权利要求6所述的数据分块装置,其特征在于,所述记录数据获取模块包括:
第一计算单元,用于计算所述第i个所述数据中心的Pi个所述原始数据子块中获取的记录数据总数,公式为:
Si=P1×b1+P2×b2+P3×b3+...+Pi×bi
其中,Pi表示第i个所述数据中心的Pi个原始数据子块,bi表示第Pi个原始数据子块中获取到的记录数据条数;
第二计算单元,用于计算C个所述数据中心的原始数据子块中获取的记录数据总数,公式为:
S=S1+S2+S3+...+Si
其中,Si表示第i个所述数据中心的Pi个所述原始数据子块中的记录数据总数,i=1,2,3,...,C。
8.如权利要求7所述的数据分块装置,其特征在于,所述第Pi个原始数据子块中包括ni条记录数据;
所述第Pi个原始数据子块中获取到的记录数据条数bi小于所述第Pi个原始数据子块中包括的记录数据条数ni
在第i个数据中心和第j个数据中心中,其中i,j=1,2,3,...,C,且i不等于j。
9.一种终端设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至5任一项所述的数据分块方法中的各个步骤。
10.一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至5任一项所述的数据分块方法中的各个步骤。
CN201811480718.XA 2018-12-05 2018-12-05 一种数据分块方法、装置及终端设备 Active CN109634521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811480718.XA CN109634521B (zh) 2018-12-05 2018-12-05 一种数据分块方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811480718.XA CN109634521B (zh) 2018-12-05 2018-12-05 一种数据分块方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN109634521A true CN109634521A (zh) 2019-04-16
CN109634521B CN109634521B (zh) 2022-04-12

Family

ID=66071210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811480718.XA Active CN109634521B (zh) 2018-12-05 2018-12-05 一种数据分块方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN109634521B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847279A (zh) * 2016-05-03 2016-08-10 深圳市永兴元科技有限公司 分布式数据处理方法及数据中心
US20160366217A1 (en) * 2015-06-12 2016-12-15 International Business Machines Corporation Clone efficiency in a hybrid storage cloud environment
CN106407200A (zh) * 2015-07-29 2017-02-15 北京京东尚科信息技术有限公司 一种数据下发的方法与装置
CN106777070A (zh) * 2016-12-12 2017-05-31 江苏师范大学 一种基于分块的Web记录链接的系统及方法
CN108491476A (zh) * 2018-03-09 2018-09-04 深圳大学 大数据随机采样数据子块的划分方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160366217A1 (en) * 2015-06-12 2016-12-15 International Business Machines Corporation Clone efficiency in a hybrid storage cloud environment
CN106407200A (zh) * 2015-07-29 2017-02-15 北京京东尚科信息技术有限公司 一种数据下发的方法与装置
CN105847279A (zh) * 2016-05-03 2016-08-10 深圳市永兴元科技有限公司 分布式数据处理方法及数据中心
CN106777070A (zh) * 2016-12-12 2017-05-31 江苏师范大学 一种基于分块的Web记录链接的系统及方法
CN108491476A (zh) * 2018-03-09 2018-09-04 深圳大学 大数据随机采样数据子块的划分方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王敬平: "《面向高分辨率影像分布式处理的HDFS存储研究》", 《数字技术与应用》 *

Also Published As

Publication number Publication date
CN109634521B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN102375837B (zh) 数据采集系统和方法
CN104079960B (zh) 文件推荐方法和装置
CN104283975B (zh) 文件分发方法和装置
CN110175154A (zh) 一种日志记录的处理方法、服务器及存储介质
Isenburg et al. Parallel and streaming generation of ghost data for structured grids
US20060179267A1 (en) Method and structure for skewed block-cyclic distribution of lower-dimensional data arrays in higher-dimensional processor grids
CN105574151B (zh) 图像存储方法和设备
CN106844320A (zh) 一种财务报表整合方法和设备
US20100205075A1 (en) Large-scale item affinity determination using a map reduce platform
Laganá et al. Spiral-like structure at the centre of nearby clusters of galaxies
Zhao et al. Universal embedding strategy for batch adaptive steganography in both spatial and JPEG domain
CN108491476A (zh) 大数据随机采样数据子块的划分方法及装置
Lee et al. A case study on parallel HDF5 dataset concatenation for high energy physics data analysis
CN111223558A (zh) 医疗物品管理方法、装置、服务器以及存储介质
CN109634521A (zh) 一种数据分块方法、装置及终端设备
CN108664322A (zh) 数据处理方法及系统
CN106992901A (zh) 用于资源调度模拟压力的方法和设备
CN106446080B (zh) 数据查询的方法、查询服务设备、客户端设备和数据系统
CN1245315A (zh) 数据转换装置和方法
Weekly et al. Azure-based hybrid cloud extension to campus clusters
CN106250243B (zh) 基于轮询处理模式的银行系统应用的处理方法及装置
WO2020113470A1 (zh) 一种数据分块方法、装置及终端设备
CN104793997B (zh) 一种数据处理装置及方法
CN103605740B (zh) 数据导入处理方法和装置
Lin et al. Participant selection problem: relative performance of five optimization solvers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220106

Address after: 518000 Room 202, 2 / F, r1-b building, Gaoxin industrial village, 021 South 4th Road, Gaoxin District, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Blue whale Guoshu (Shenzhen) Technology Co.,Ltd.

Address before: 518060 No. 3688 Nanhai Road, Shenzhen, Guangdong, Nanshan District

Applicant before: SHENZHEN University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant