CN108334596A

CN108334596A - 一种面向大数据平台的海量关系数据高效并行迁移方法

Info

Publication number: CN108334596A
Application number: CN201810095569.9A
Authority: CN
Inventors: 王博; 刘波; 林伟伟
Original assignee: South China University of Technology SCUT; South China Normal University
Current assignee: South China University of Technology SCUT; South China Normal University
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2018-07-27
Anticipated expiration: 2038-01-31
Also published as: CN108334596B

Abstract

本发明涉及一种面向大数据平台的海量关系数据高效并行迁移方法，包括以下步骤：输入迁移表名、划分列、并行度；迁移任务决策器从RDBMS中获取迁移表的元数据；根据迁移表的元数据对迁移表进行分区划分；计算划分的各分区的数据密度；判断各分区划分是否均匀；若分区划分均匀则将划分结果发送至Hadoop；若分区划分不均匀，则迁移任务决策器对分区进行重划分，并将新划分结果发送至Hadoop；Hadoop根据接收信息创建、执行数据迁移作业，实现数据从RDBMS高效并行迁移至HDFS、HBase。本发明提供的一种面向大数据平台的海量关系数据高效并行迁移方法设计科学合理，既能保证数据的高效抽取，又避免了数据抽取过程中的数据倾斜问题；还解决了数据迁移至HDFS后数据分布不均的问题。

Description

一种面向大数据平台的海量关系数据高效并行迁移方法

技术领域

本发明涉及大数据迁移传输领域，具体来说，是一种面向大数据平台的海量关系数据高效并行迁移方法。

背景技术

近年来，随着互联网技术的迅猛发展，越来越多的数据正呈爆炸性的增长，人类进入了大数据时代。在大数据时代，数据的价值日益凸显，如何利用现有技术，将数据全面汇总并快速返回分析结果，挖掘数据背后隐藏的价值已成为大数据分析迫切需要解决的问题。大数据分析的前提是海量数据存储问题，而传统关系型数据库对海量数据存储、查询和分析表现得越发的力不从心。面对海量数据，传统关系型数据库存在扩展性差、查询效率低以及难以应对高并发请求等缺点。而分布式文件系统以及NoSQL数据库很好的解决了海量数据存储的问题，但现在企业或机构中仍有大量数据是存储于传统数据库或传统文件系统中的，故存在把数据从关系型数据库迁移到大数据平台的需求。

由于Hadoop生态系统具有开源、功能多样、灵活、可扩展性强、稳定性好等诸多优点，现以成为众多企业面临大数据问题的优先解决方案。故研究海量数据迁移至大数据平台具有重大的实际意义。

现有大数据迁移工具有Sqoop、DataX、Kettle、Talend等，但每一种工具或方案都有较大的不足之处。例如，Kettle和Talend与Hadoop存在版本兼容问题；Sqoop存在学习成本高、迁移时易出现数据倾斜、安全机制不够完善等问题；DataX采用多线程并发实现数据抽取，但性能比基于MapReduce实现的Sqoop低。海量数据迁移对迁移性能非常注重，提高大数据迁移工具性能，不仅能节省海量数据迁移时间、减少数据迁移成本，还能降低数据迁移风险。

虽然最近几年在大数据迁移开展了不少研究工作，然而，大部分研究工作都集中在传统关系型数据库与NoSQL之间的数据模式转换上，而对大数据迁移工具性能研究较少。

发明内容

鉴于上述现有技术存在的不足，本发明目的是提供一种面向大数据平台的海量关系数据高效并行迁移方法，能根据关系大表的数据分布情况合理划分Map对应数据迁移范围，节省了数据迁移时间，减少了数据迁移风险。

为了实现上述目的，本发明所采用的一种面向大数据平台的海量关系数据高效并行迁移方法，包括以下步骤：

本发明一种面向大数据平台的海量关系数据高效并行迁移方法，该方法基于数据源、Hadoop集群、数据迁移服务器组成的数据迁移系统，所述数据迁移服务器中包括迁移任务决策器，该方法具体包括下述步骤：

S1、用户输入待迁移数据的表名、划分列和并行度参数，创建数据迁移作业；

S2、迁移任务决策器通过JDBC、ODBC从RDBMS中获取待迁移表的元数据；

S3、迁移任务决策器根据所接收待迁移表的元数据对待迁移表进行迁移分区范围划分；

S4、迁移任务决策器计算划分的各个分区实际记录数及待迁移表总记录数，判断分区范围划分是否均匀；

S5、如果步骤S4中迁移任务决策器判断分区范围划分是否均匀；

若划分均匀则将划分结果发送至Hadoop集群主节点；

若划分不均匀，则迁移任务决策器对分区进行重划分，并将重划分结果发送至Hadoop集群主节点；

S6、Hadoop集群主节点根据接收信息创建数据迁移作业，并执行数据迁移作业实现数据从RDBMS抽取至HDFS、HBase中存储。

作为优选的技术方案，所述步骤S1中，所述划分列为关系表主键或唯一键；所述并行度为MapReduce执行迁移作业MAP个数，所述MAP个数用N表示。

作为优选的技术方案，所述步骤S3中，对待迁移表进行迁移分区范围划分的具体方法为：

根据待迁移表的元数据，通过SELECT获取划分列的最小值MIN(id)和最大值MAX(id)，基于并行度N，求步长I＝[MAX(id)-MIN(id)]/N，根据步长I计算每个分区范围的上下界。

作为优选的技术方案，所述步骤S4中，迁移任务决策器计算划分的各个分区实际记录数及待迁移表总记录数为：

根据待迁移表的元数据，通过聚集函数COUNT分别获取各个分区实际记录数,第i个分区的实际记录数为C_i；基于并行度N，计算待迁移表总记录数

作为优选的技术方案，步骤S4中，所述迁移任务决策器的分区范围划分均匀判断方法为：

S41、根据待迁移表总记录数SUM和并行度N计算分区平均记录数AVG＝SUM/N；

S42、根据分区平均记录数AVG和分区实际记录数C_i计算分区实际记录数方差

S43、根据分区实际记录数C_i和分区理想记录数IDEAL＝I求分区理想记录数方差

S44、计算分区实际记录数方差与分区理想记录数方差之差的绝对值判断绝对值是否大于系统设定阈值，若大于则认为分区划分不均匀，否则认为分区划分均匀。

作为优选的技术方案，步骤S5中，所述迁移任务决策器的分区重划分步骤为：

S5.1、分区重划分预处理：根据总记录数和分区实际记录数计算分区数据密度，各个分区数据密度之和为1；在数据量情况比较大和分区实际记录数较小情况下，分区数据密度为0；对于分区数据密度为0的分区，直接与其相邻分区合并；对于连续多个分区密度为0情况，直接合并这些分区，再与相邻分区合并；

S5.2、根据分区数据密度和并行度计算各个分区对应迁移作业的Map个数，根据各个分区对应Map个数进行取整，对分区对应Map个数大于1的分区进行分裂操作，即通过SQL语句探测分区数据记录分布情况，寻找分割点切分分区；分区进行分裂操作后会形成一些小的分区，这些小的分区对应Map个数都大于0且小于1；

S5.3、统计已经成功分配Map的分区个数，然后基于并行度N计算剩下未分配Map个数，将步骤S5.2中数据密度小的分区合并分配给未分配分区的Map。

作为优选的技术方案，步骤S6中，所述执行数据迁移作业为：

基于MapReduce利用Map函数进行并行数据抽取，Map输出即将数据写入HDFS，每个Map抽取数据范围为权利要求3划分的关系表范围，表划分均匀，各个Map负载相近，Map输出到每个节点的数据量也相近。

基于MapReduce利用Map函数进行并行数据抽取，每个Map抽取数据范围为权利要求6所划分的关系表范围，表划分相对均匀，各个Map负载相近，Map输出到每个节点的数据量也相近。

本发明与现有大数据迁移工具相比，具有如下优点：

1、本发明操作简单，学习成本低，无需复杂命令行操作，用户通过WEB页面输入必要信息，创建、启动迁移作业即可。

2、本发明提出的一种面向大数据平台的海量关系数据高效并行迁移方法基于MapReduce实现，利用MapReduce的并行特性，数据抽取效率高。

3、本发明提出的数据划分方法，解决了数据抽取过程中可能存在的数据倾斜问题。

4、本发明提出的数据划分方法，能将数据相对均匀的迁移至Hadoop的各个数据节点，避免了后续大数据处理过程中由于节点数据分布不均导致的单点读/写负载过重问题。

5、本发明提出的数据划分方法，能将数据相对均匀的迁移至Hadoop的各个数据节点，迁移至HDFS的数据可以通过预生成HFile文件方式导入到HBase数据库，该方式相较于HBase自身的数据导入方式更加高效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图：

图1为本发明方法的流程图。

图2为本发明面向大数据平台的海量关系数据高效并行迁移方法实施示意图。

具体实施方式

下面结合附图对本发明作进一步的详细描述，但本发明的实施和保护范围不限于此。

如图1所示，本实施例一种面向大数据平台的海量关系数据高效并行迁移方法，包括下述步骤：

用户通过WEB页面输入待迁移表名、划分列、并行度等相关参数创建数据迁移作业；迁移任务决策器收到用户输入后，通过JDBC、ODBC接口从RDBMS中获取待迁移表的元数据；然后，迁移任务决策器根据所接收待迁移表的元数据对待迁移表进行迁移分区范围划分，划分的每一个分区内的数据记录分配给一个Map负责数据抽取；随后，迁移任务决策器计算划分的各个分区实际记录数及待迁移表总记录数，判断分区范围划分是否均匀；若迁移表分区划分均匀则将划分结果，即每个分区上下界值发送给Hadoop集群的主节点；若迁移表分区划分不均匀，则计算各分区数据密度，将数据密度大的分区进行裂变，然后将小的未分配Map的分区进行合并以达到基本均匀划分的效果，将最终重划分结果发送给Hadoop集群的主节点；Hadoop集群的主节点根据接收到的划分分区创建数据迁移Job，并响应用户创建迁移作业成功；用户选择执行创建的数据迁移Job，Hadoop集群启动执行数据迁移Job。

如图2所示，给出了一种面向大数据平台的海量关系数据高效并行迁移方法的实施方式，该迁移系统由数据源、Hadoop集群、数据迁移服务器三部分组成，其中迁移任务决策器位于数据迁移服务器。用户通过前端WEB页面录入数据迁移作业必要参数——迁移表名(TABLENAME)、划分列(PRIMARY KEY or UNIQUE KEY)、并行度(迁移作业MAP个数)，并创建数据迁移作业。迁移任务决策器收到用户输入后，通过JDBC、ODBC接口从RDBMS中获取待迁移表的元数据(表列属性、主外键等)。然后，迁移任务决策器根据所接收待迁移表元数据对待迁移表进行迁移分区范围划分。分区范围划分为：

通过SQL语句查询待迁移表划分列(id)最大值MAX(id)和最小值MIN(id)：SELECTMAX(id)，MIN(id)FROM<TABLENAME>；

假设并行度为N，则分区步长I＝(MAX(id)-MIN(id))/N；第i个分区的范围为PR(i)∈[R(i)_left,R(i)_right],(1≤i≤N)，

其中，R(i)_left＝MIN(id)+I×(i-1)，

当i≠N时，R(i)_right＝MIN(id)+I×i，

当i＝N时，R(i)_right＝MAX(id)；

迁移任务决策器判断分区范围划分是否均匀：通过聚集函数COUNT获取第i个分区实际记录数C_i，例如：

SELECT COUNT(*)FROM＜TABLENAME＞WHERE id≥R(i)_left AND id≤R(i)_right；

则迁移表总记录数分区平均记录数AVG＝SUM/N，那么分区实际记录数方差分区理想记录数IDEAL＝I，则分区理想记录数方差计算分区实际记录数方差与分区理想记录数方差之差的绝对值判断绝对值是否大于系统设定的阈值，若大于则认为分区划分不均匀，否则认为分区划分均匀。若划分均匀，则将划分分区范围结果发送至Hadoop集群节点并创建、执行数据迁移作业；否则，执行分区重划分，分区重划分包括：

计算分区数据密度ρ_i＝C_i/SUM，那么存在ρ₁+…+ρ_i+…ρ_N＝1,(1≤i≤N)。另外，不难发现对于大表且分区实际数据记录较小情况ρ_i值为0。

分区重划分前预处理工作：将分区数据密度为0的分区分别与相邻数据密度非0分区进行合并(默认与左分区合并)；对于连续多个分区数据密度都为0情况，则将这些连续分区先合并，再与相邻数据密度非0分区进行合并。

若M_i代表第i个分区对应Map个数，则M_i＝ρ_i*N。若M_i>1，则该分区需要进行分裂操作。对于分裂操作，可以利用SQL语句查询划分列高低位分布情况以探测数据记录实际分布情况，寻找INT(M_i)(向下取整)个分割点，从而确定新分区范围的上下界值。分区经过分割后，会存在M_i＝1或M_i<1情况，对M_i＝1的分区则认为已经分配好Map。而对于M_i<1的分区，将它们合并成个分区。对于这些小分区的合并，是逻辑上的合并。至此，分区划分完毕，迁移任务决策器将分区范围划分结果发送至Hadoop集群主节点。

Hadoop集群主节点根据接收信息创建数据迁移作业，并执行数据迁移作业实现数据从RDBMS并行迁移至HDFS、HBase中存储。利用MapReduce的并行特性，通过Map过程从关系型表抽取数据直接输出至HDFS存储。由于数据迁移作业的每个Map负载相对均衡，故数据迁移效率更高，同时，Map输出的数据也可相对均匀分布在不同的节点，这有利于后续的大数据处理工作。另外，若需要迁移关系数据至HBase，可以通过先将数据迁移至HDFS，再建立相应HBase表，最后利用HBase API的PUT方法(数据量较小情况)或Bulkload方式将HDFS中数据迁入至HBase。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向大数据平台的海量关系数据高效并行迁移方法，其特征在于，该方法基于数据源、Hadoop集群、数据迁移服务器组成的数据迁移系统，所述数据迁移服务器中包括迁移任务决策器，该方法具体包括下述步骤：

若划分均匀则将划分结果发送至Hadoop集群主节点；

2.根据权利要求1所述的一种面向大数据平台的海量关系数据高效并行迁移方法，其特征在于：所述步骤S1中，所述划分列为关系表主键或唯一键；所述并行度为MapReduce执行迁移作业MAP个数，所述MAP个数用N表示。

3.根据权利要求2所述的一种面向大数据平台的海量关系数据高效并行迁移方法，其特征在于：所述步骤S3中，对待迁移表进行迁移分区范围划分的具体方法为：

4.根据权利要求1所述的一种面向大数据平台的海量关系数据高效并行迁移方法，其特征在于：所述步骤S4中，迁移任务决策器计算划分的各个分区实际记录数及待迁移表总记录数为：

5.根据权利要求4所述的一种面向大数据平台的海量关系数据高效并行迁移方法，其特征在于：步骤S4中，所述迁移任务决策器的分区范围划分均匀判断方法为：

6.根据权利要求1所述的一种面向大数据平台的海量关系数据高效并行迁移方法，其特征在于：步骤S5中，所述迁移任务决策器的分区重划分步骤为：

7.根据权利要求3所述的一种面向大数据平台的海量关系数据高效并行迁移方法，其特征在于：步骤S6中，所述执行数据迁移作业为：

8.根据权利要求6所述的一种面向大数据平台的海量关系数据高效并行迁移方法，其特征在于：步骤S6中，所述执行数据迁移作业为：