CN109634521A

CN109634521A - 一种数据分块方法、装置及终端设备

Info

Publication number: CN109634521A
Application number: CN201811480718.XA
Authority: CN
Inventors: 黄哲学; 朱胡飞
Original assignee: 深圳大学
Current assignee: Blue Whale Guoshu Shenzhen Technology Co ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2019-04-16
Anticipated expiration: 2038-12-05
Also published as: CN109634521B

Abstract

本发明适用于大数据处理技术领域，提供了一种数据分块方法、装置及终端设备，方法包括：将数据分块并分别存储到C个数据中心；将第i个数据中心中所存储的数据块切割成P_i个原始数据子块，并分布式放置在第i个数据中心的计算集群中；选择C个数据中心，获取每个数据中心中每个原始数据子块中的记录数据，得到C个数据中心的原始数据子块中的记录数据，对原始数据子块中的每条记录数据有且只有获取一次；根据C个数据中心的原始数据子块中的记录数据，混合生成随机采样数据块；K次重复上述步骤，生成K个随机采样数据块，并将K个随机采样数据块存储在预设数据中心。通过本发明能够明显提高数据分块处理的效率。

Description

一种数据分块方法、装置及终端设备

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种数据分块方法、装置及终端设备。

背景技术

在进行数据处理的相关时，传统数据分析的处理方式是直接处理全部数据；然而，随着数据量变大，直接处理全部数据在已经无法满足数据处理量和数据处理效率的要求，因此，Hadoop、Spark等的大数据处理系统采用分块处理的处理方式，将原始的大数据块切成若干个小数据块存储，再由相应的各个计算集群处理，从而将大数据整体的分析任务转变成多个可并行处理的子任务。但是，对于大数据块，如果将特大数据块的处理任务转变成多个可并行处理的子任务，需要多次扫描整个大数据块及其所在的数据中心、得到多个随机采样数据子块，存入一个数据中心，再由该数据中心处理上述的多个随机采样数据子块，实现并行处理。

然而，由于每得到一个随机采样数据子块都需要遍历所有的多个数据中心、扫描整个大数据块，那么随着大数据块尺寸越来越大，例如特大数据块，此时所需要遍历的数据中心的数目也越来越多，传统的数据分块方法工作量大、效率低。

发明内容

本发明的主要目的在于提出一种数据分块方法、装置及终端设备，以解决现有的数据分块方法处理特大数据块时工作量大、效率低的问题。

为实现上述目的，本发明实施例第一方面提供一种数据分块方法，应用于特大数据处理，所述数据分块方法包括：

步骤1：将数据分块并分别存储到C个数据中心，其中C为正整数；

步骤2：将第i个数据中心中所存储的数据块切割成P_i个原始数据子块，并分布式放置在所述第i个数据中心的计算集群中，其中i＝1,2,3,...,C；P₁,P₂,...,P_i均为正整数；

步骤3：选择C个所述数据中心，获取每个所述数据中心中每个原始数据子块中的记录数据，得到C个所述数据中心的原始数据子块中的记录数据，对所述原始数据子块中的每条记录数据有且只有获取一次；

步骤4：根据所述C个所述数据中心的原始数据子块中的记录数据，混合生成随机采样数据块；

步骤5：K次重复步骤1至步骤4，生成K个所述随机采样数据块，并将K个所述随机采样数据块存储在预设数据中心，其中，K为小于等于C的正整数。

结合本发明第一方面，本发明第一方面的第一实施方式中，选择C个所述数据中心，获取每个所述数据中心中每个原始数据子块中的记录数据，得到C个所述数据中心的原始数据子块中的记录数据包括：

计算所述第i个所述数据中心的P_i个所述原始数据子块中获取的记录数据总数，公式为：

S_i＝P₁×b₁+P₂×b₂+P₃×b₃+...+P_i×b_i，

其中，P_i表示第i个所述数据中心的P_i个原始数据子块，b_i表示第P_i个原始数据子块中获取到的记录数据条数；

计算C个所述数据中心的原始数据子块中获取的记录数据总数，公式为：

S＝S₁+S₂+S₃+...+S_i，

其中，S_i表示第i个所述数据中心的P_i个所述原始数据子块中的记录数据总数，i＝1,2,3,...,C。

结合本发明第一方面第一实施方式，本发明第一方面的第二实施方式中，所述第P_i个原始数据子块中包括n_i条记录数据；

所述第P_i个原始数据子块中获取到的记录数据条数b_i小于所述第P_i个原始数据子块中包括的记录数据条数n_i；

在第i个数据中心和第j个数据中心中，其中i，j＝1,2,3,...,C，且i不等于j。

结合本发明第一方面，本发明第一方面的第三实施方式中，所述预设数据中心为所述C个数据中心以外的另外一个数据中心；

或所述预设数据中心为所述C个数据中心中的一个。

结合本发明第一方面，本发明第一方面的第四实施方式中，所述原始数据子块为所述数据块的随机采样。

本发明实施例第二方面提供一种数据分块装置，应用于大数据处理，包括：

第一存储模块，用于将数据分块并分别存储到C个数据中心，其中C为正整数；

数据切割模块，用于将第i个数据中心中所存储的数据块切割成P_i个原始数据子块，并分布式放置在所述第i个数据中心的计算集群中，其中i＝1,2,3,...,C；P₁,P₂,...,P_i均为正整数；

记录数据获取模块，用于选择C个所述数据中心，获取每个所述数据中心中每个原始数据子块中的记录数据，得到C个所述数据中心的原始数据子块中的记录数据，对所述原始数据子块中的每条记录数据有且只有获取一次；

随机采样数据块生成模块，用于根据所述C个所述数据中心的原始数据子块中的记录数据，混合生成随机采样数据块；

第二存储模块，用于K次重复使用所述第一存储模块、所述数据切割模块、所述记录数据获取模块和所述随机采样数据块生成模块，生成K个所述随机采样数据块，并将K个所述随机采样数据块存储在预设数据中心，其中，K为小于等于C的正整数。

结合本发明第二方面，本发明第二方面的第一实施方式中，所述记录数据获取模块包括：

第一计算单元，用于计算所述第i个所述数据中心的P_i个所述原始数据子块中获取的记录数据总数，公式为：

S_i＝P₁×b₁+P₂×b₂+P₃×b₃+...+P_i×b_i，

第二计算单元，用于计算C个所述数据中心的原始数据子块中获取的记录数据总数，公式为：

S＝S₁+S₂+S₃+...+S_i，

结合本发明第二方面的第一实施方式，本发明第二方面的第二实施方式中，所述第P_i个原始数据子块中包括n_i条记录数据；

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。

本发明实施例提出的数据分块方法，将数据块分别存储到多个数据中心，将数据中心切割成多个原始数据子块，以每个数据中心为单位获取此数据中心的原始数据子块中的记录数据，且原始数据子块中的记录数据只能被一次获取，即第二次获取每个数据中心的原始数据子块中的记录数据时，已经被获取过的记录数据将不被获取；以使每次在全部数据中心所获取到的记录数据，可以混合生成互不重叠的随机采样数据块随机采样数据块，则多次在全部数据中心所获取到的记录数据，可以混合生成多个随机采样数据块，然后把上述的多个随机采样数据块存储在预设数据中心，实现跨数据中心的随机样本划分，将大数据整体的分析任务转变成多个可并行处理的子任务。由于随机采样数据块互不重叠，且在获得各个随机采样数据子块时，不需要对存储在多个数据中心的整个数据块进行遍历，因此可以明显提高数据分块处理的效率。

附图说明

图1为本发明实施例一提供的数据分块方法的实现流程示意图；

图2为图1中步骤S3的详细实现流程示意图；

图3为本发明实施例二提供的数据分块装置的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本文中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

在后续的描述中，发明实施例序号仅仅为了描述，不代表实施例的优劣。

实施例一

如图1所示，本发明实施例提供了一种数据分块方法，应用于特大数据处理，以提高基于特大数据块的数据分块处理效率，便于后续将大数据整体的分析任务转变成多个可并行处理的子任务进行处理。数据分块方法包括但不限于以下步骤：

S1、将数据分块并分别存储到C个数据中心，其中C为正整数。

在上述步骤S1中，在将数据分块后，可以顺序地将各数据块分别存储到C个数据中心中；也可以采用随机地方式，将各数据块分别存储到C个数据中心中。

S2、将第i个数据中心中所存储的数据块切割成P_i个原始数据子块，并分布式放置在所述第i个数据中心的计算集群中，其中i＝1,2,3,...,C；P₁,P₂,...,P_i均为正整数。

在上述步骤S2中，进行分块的数据通常是一个分布式数据集，对于分块后形成的数据块，其也是一个分布式的数据集，将此数据块分割成多个原始数据子块时，原始数据子块应分布式放置在该数据中心对应的一个计算集群中。

在具体应用中，分布式的数据集可以用分布式文件系统，如Hadoop分布式文件系统获得。

在一个实施例中，所述原始数据子块还可以为所述数据块的随机采样。

S3、选择C个所述数据中心，获取每个所述数据中心中每个原始数据子块中的记录数据，得到C个所述数据中心的原始数据子块中的记录数据，对所述原始数据子块中的每条记录数据有且只有获取一次。

在上述步骤S3中，原始数据子块是一组按顺序连续排列在一起的几组记录，在对数据块进行随机采样时，即获取数据中心中各原始数据子块中的记录数据。

在具体应用中，先以每个数据中心为单位，同时获取数据中心中各原始数据子块中的记录数据，将C个数据中心中获取的全部记录数据整合，则得到C个所述数据中心的原始数据子块中的记录数据。

在具体应用中，原始数据子块中的记录数据只能被一次获取，即第二次获取每个数据中心的原始数据子块中的记录数据时，已经被获取过的记录数据将不被获取；以使每次在全部数据中心所获取到的记录数据，可以混合生成互不重叠的随机采样数据块随机采样数据块，以使对于特大数据进行处理、生成多个随机采样数据块时，避免了对存储在多个数据中心的数据块进行遍历，从而明显提高数据分块的效率。

如图2所示，在本发明实施例中，上述步骤S3的详细实现流程可以为：

S31、计算所述第i个所述数据中心的P_i个所述原始数据子块中获取的记录数据总数，公式为：

S_i＝P₁×b₁+P₂×b₂+P₃×b₃+...+P_i×b_i，

其中，P_i表示第i个所述数据中心的P_i个原始数据子块，b_i表示第P_i个原始数据子块中获取到的记录数据条数。

S32、计算C个所述数据中心的原始数据子块中获取的记录数据总数，公式为：

S＝S₁+S₂+S₃+...+S_i，

在上述步骤S31至S32中，假设C＝3，共有3个数据中心；

当i＝1时，P₁＝1，b₁＝1；则在第1个数据中心中，具有1个原始数据子块，在此原始数据子块获得的记录数据为1；在第1个数据中心的1个原始数据子块中获取的记录数据总数S₁＝1＝1。

当i＝2时，P₂＝2，b₁＝2，b₂＝3；则在第2个数据中心中，具有2个原始数据子块，第1个原始数据子块获得的记录数据为1，第2个原始数据子块获得的记录数据为3；在第2个数据中心的2个原始数据子块中获取的记录数据总数S₂＝1+3＝4。

当i＝3时，P₃＝3，b₁＝1，b₂＝3，b₃＝2；则在第3个数据中心中，具有3个原始数据子块，第1个原始数据子块获得的记录数据为1，第2个原始数据子块获得的记录数据为3，第3个原始数据子块获得的记录数据为2；在第3个数据中心的2个原始数据子块中获取的记录数据总数S₃＝1+3+2＝6。

在3个数据中心的原始数据子块中获取的记录数据总数S＝1+4+6＝11。

在具体应用中，所述第P_i个原始数据子块中包括n_i条记录数据；

上述等式表示，任意两个数据中心的第P_i个原始数据子块中获取到的记录数据条数b_i，与第P_i个原始数据子块中包括的记录数据条数n_i存在函数关系。

S4、根据所述C个所述数据中心的原始数据子块中的记录数据，混合生成随机采样数据块。

在上述步骤S4中，将上述C个数据中心的共P₁+P₂+P₃+…P_C个数据子块中随机取出的S₁+S₂+S₃+...+S_i条记录混合，生成一个新的随机采样数据块。

结合在上述步骤S31至S32中的假设，上述步骤S4即：

将上述3个数据中心的共1+2+3＝6个数据子块中随机取出的1+4+6＝11条记录混合，生成一个新的随机采样数据块。

S5、K次重复S1至S4，生成K个所述随机采样数据块，并将K个所述随机采样数据块存储在预设数据中心，其中，K为小于等于C的正整数。

在上述步骤S5中，预设数据中心为一个数据中心，将获得的K个随机采样数据块存储在一个数据中心后，则可以由此数据中心处理上述K个随机采样数据块，从而将数据整体的分析任务转变成多个可并行处理的子任务。

在一个实施例中，所述预设数据中心为所述C个数据中心以外的另外一个数据中心；

或所述预设数据中心为所述C个数据中心中的一个。

本发明实施例提供的数据分块方法，将数据块分别存储到多个数据中心，将数据中心切割成多个原始数据子块，以每个数据中心为单位获取此数据中心的原始数据子块中的记录数据，且原始数据子块中的记录数据只能被一次获取，即第二次获取每个数据中心的原始数据子块中的记录数据时，已经被获取过的记录数据将不被获取；以使每次在全部数据中心所获取到的记录数据，可以混合生成互不重叠的随机采样数据块随机采样数据块，则多次在全部数据中心所获取到的记录数据，可以混合生成多个随机采样数据块，然后把上述的多个随机采样数据块存储在预设数据中心，实现跨数据中心的随机样本划分，将大数据整体的分析任务转变成多个可并行处理的子任务。由于随机采样数据块互不重叠，且在获得各个随机采样数据子块时，不需要对存储在多个数据中心的整个数据块进行遍历，因此可以明显提高数据分块处理的效率。

实施例二

如图3所示，本发明实施例提供一种数据分块装置30，应用于大数据处理，包括第一存储模块31、数据切割模块32、记录数据获取模块33、随机采样数据块生成模块34、第二存储模块35。

在本发明实施例中，第一存储模块31，用于将数据分块并分别存储到C个数据中心，其中C为正整数。

在本发明实施例中，数据切割模块32，用于将第i个数据中心中所存储的数据块切割成P_i个原始数据子块，并分布式放置在第i个数据中心的计算集群中，其中i＝1,2,3,...,C；P₁,P₂,...,P_i均为正整数。

在一个实施例中，原始数据子块为数据块的随机采样。

在本发明实施例中，记录数据获取模块33，用于选择C个数据中心，获取每个数据中心中每个原始数据子块中的记录数据，得到C个数据中心的原始数据子块中的记录数据，对原始数据子块中的每条记录数据有且只有获取一次。

在一个实施例中，记录数据获取模块33可以包括：

第一计算单元331，用于计算第i个数据中心的P_i个原始数据子块中获取的记录数据总数，公式为：

S_i＝P₁×b₁+P₂×b₂+P₃×b₃+...+P_i×b_i，

其中，P_i表示第i个数据中心的P_i个原始数据子块，b_i表示第P_i个原始数据子块中获取到的记录数据条数；

第二计算单元332，用于计算C个数据中心的原始数据子块中获取的记录数据总数，公式为：

S＝S₁+S₂+S₃+...+S_i，

其中，S_i表示第i个数据中心的P_i个原始数据子块中的记录数据总数，i＝1,2,3,...,C。

在具体应用中，第P_i个原始数据子块中包括n_i条记录数据；

第P_i个原始数据子块中获取到的记录数据条数b_i小于第P_i个原始数据子块中包括的记录数据条数n_i；

随机采样数据块生成模块34，用于根据C个数据中心的原始数据子块中的记录数据，混合生成随机采样数据块。

在本发明实施例中，第二存储模块35，用于K次重复使用第一存储模块、数据切割模块、记录数据获取模块和随机采样数据块生成模块，生成K个随机采样数据块，并将K个随机采样数据块存储在预设数据中心，其中，K为小于等于C的正整数。

在一个实施例中，预设数据中心为C个数据中心以外的另外一个数据中心，或预设数据中心为C个数据中心中的一个。

本发明实施例还提供一种终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如实施例一中所述的数据分块方法中的各个步骤。

本发明实施例还提供一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如实施例一中所述的数据分块方法中的各个步骤。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据分块方法，其特征在于，应用于特大数据处理，所述数据分块方法包括：

2.如权利要求1所述数据分块方法，其特征在于，选择C个所述数据中心，获取每个所述数据中心中每个原始数据子块中的记录数据，得到C个所述数据中心的原始数据子块中的记录数据包括：

S_i＝P₁×b₁+P₂×b₂+P₃×b₃+...+P_i×b_i，

S＝S₁+S₂+S₃+...+S_i，

3.如权利要求2所述数据分块方法，其特征在于，所述第P_i个原始数据子块中包括n_i条记录数据；

4.如权利要求1所述数据分块方法，其特征在于，所述预设数据中心为所述C个数据中心以外的另外一个数据中心；

或所述预设数据中心为所述C个数据中心中的一个。

5.如权利要求1所述数据分块方法，其特征在于，所述原始数据子块为所述数据块的随机采样。

6.一种数据分块装置，其特征在于，应用于大数据处理，包括：

7.如权利要求6所述的数据分块装置，其特征在于，所述记录数据获取模块包括：

S_i＝P₁×b₁+P₂×b₂+P₃×b₃+...+P_i×b_i，

S＝S₁+S₂+S₃+...+S_i，

8.如权利要求7所述的数据分块装置，其特征在于，所述第P_i个原始数据子块中包括n_i条记录数据；

9.一种终端设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至5任一项所述的数据分块方法中的各个步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至5任一项所述的数据分块方法中的各个步骤。