CN114546989B

CN114546989B - 一种Hbase增量数据迁移系统、方法及存储介质

Info

Publication number: CN114546989B
Application number: CN202210162797.XA
Authority: CN
Inventors: 段朋
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2024-04-12
Anticipated expiration: 2042-02-22
Also published as: CN114546989A

Abstract

本发明公开了一种Hbase增量数据迁移系统、方法及存储介质，本发明利用了Hbase的Export工具完成源集群增量数据扫描，采用HDFS DispCp完成增量数据的跨集群传输，最后使用分布式计算引擎Spark将增量数据通过ETL过程转为为Hbase表底层的HFile文件加载到目标集群在线的Hbase表中。在增量数据写入目标Hbase集群的过程中规避了Hbase本身提供的put方法在大写入场景下的Hbase RegionServer节点大GC引发的宕机和性能降低问题，采用Spark‑Bulkload方案在保证Hbase集群稳定的情况下加速增量数据接入。

Description

一种Hbase增量数据迁移系统、方法及存储介质

技术领域

本发明属于Hbase数据库技术领域，更具体涉及混合云Hbase增量数据迁移系统、方法及存储介质。

背景技术

随着智能化汽车的发展，用户端与云端的数据交互越来越频繁，对数据的传输效率要求越来越高，而传统的数据库难以满足频繁且海量的数据传输及存储需求。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库，HBase 不同于一般的关系型数据库，它是一个适合于非结构化数据存储的数据库，目前的汽车企业通常基于Hbase构建面向用户的高开发读写业务。随着云原生技术的发展，车企的IT架构从单一的私有云架构往由公有云和私有云组成的混合云架构迈进，其中，Hbase组件在公有云和私有云上均有部署，公有云部分承担热数据的存储和查询，私有云承担数据备份和冷数据查询业务。在混合云架构下，如何将公有云Hbase集群每天的增量数据迁移到私有云Hbase集群是构建稳定高效的Hbase查询服务需要解决的首要问题。

混合云Hbase增量数据迁移业务场景可以抽象为Hbase大批量数据写入场景：待写入的数据位于HDFS上，业务需要定期将这部分海量数据导入Hbase中，以执行随机查询更新操作。在这种场景下如果调用Hbase的Put Api进行处理，极有可能给Hbase RegionServer节点带来较大的写入压力，造成Hbase集群不稳定，甚至节点宕机，该方案存在以下问题：

1)引起RegionServer（区域服务器）频繁大GC，导致RegionServer节点宕机。

2)引起ReigonServer频繁flush，进而不断压缩、分裂，影响集群稳定性。

3)消耗Hbase集群大量的CPU磁盘、带宽资源、内存资源及IO资源，与其他业务产生资源竞争。

Hbase的大批量数据写入场景一般会舍弃Put Api的方案而采用Bulkload方案，Hbase原生提供的Bulkload方案基于MapReduce计算引擎实现，MapReduce引擎是一个多进程的计算引擎，相比于多线程的分布式计算引擎Spark，计算资源消耗大，计算效率低。因此，选择Spark引擎实现Hbase的Bulkload海量数据写入在保证计算效率的情况下，可以降低计算资源的消耗。

如我国专利CN110209653A公开的Hbase数据迁移方法及装置，以实现对HBase数据的跨版本迁移。上述迁移方法包括：获取源HBase集群待迁移的表名；待迁移的表名所对应的表格为源HBase表格；在目标HBase集群中建立与源HBase表格对应的目标HBase表格；从配置文件中读取迁移配置参数；根据迁移配置参数，使用DistCp工具将源HBase表格的数据文件拷贝到目标HBase集群；修复目标HBase集群的HBase元信息。在该发明实施例中，基于DistCp可从源地址(源集群)直接将数据拷贝到目标地址(目标集群)，从而不产生临时文件，避免了备份文件占用大量存储空间的情况的出现，保证跨版本的数据迁移得以实施。其描述了一种采用HDFS DistCp同步工具直接拷贝源集群中Hbase表HFile到目标集群Hbase表存储目录，再修复目标集群Hbase表元数据的数据迁移方法。该方法采用直接同步Hbase底层数据文件的方式，避免了调用Hbase Put Api的计算资源消耗问题，但依旧会面临如下问题：

1）仅适用于Hbase全表迁移的场景，不适宜Hbase的增量同步场景

2）每次都进行Hbase的全表备份，会消耗大量的公有云到私有云的专线带宽资源，成本高昂。

发明内容

为解决上述问题，本发明提供了一种Hbase增量数据迁移系统、方法及存储介质，实现了混合云架构下Hbase源集群增量数据的高效扫描，提升效率的同时降低了计算资源的使用，具有稳定高效的混合云Hbase集群增量数据同步能力。

为了解决上述技术问题，本发明采用的技术方案是这样的：一种Hbase增量数据迁移系统，其特征在于，包括源集群和目标集群，还包括，

增量导出模块，用于扫描并导出源集群中的增量数据，并将该增量数据存放在源集群指定的目录中；

数据同步模块，用于将所述增量数据同步到目标集群指定的目录中；

文件生成模块，用于将同步到目标集群指定目录中的增量数据生成为目标集群能够加载的目标文件；

数据在线加载模块，用于将所述目标文件加载到目标集群中。

作为优化，还包括大数据分布式调度系统，用于通过任务节点的形式控制所述增量导出模块、数据同步模块、文件生成模块和数据在线加载模块定期将源集群中的增量数据迁移至目标集群。

基于上述系统，本发明还提供了一种Hbase增量数据迁移方法，包括以下步骤，

S1、通过增量导出模块扫描源集群并获取增量数据，将增量数据存放在源集群指定的目录中；

S2、通过数据同步模块将所述增量数据同步传输至目标集群指定的目录中；

S3、通过文件生成模块读取所述增量数据，并对该增量数据进行处理，生成目标集群能够加载的目标文件；

S4、通过数据在线加载模块将所述目标文件加载到目标集群中，完成增量数据由源集群向目标集群的迁移。

作为优化，在步骤S1之前，还包括将增量导出模块、数据同步模块、文件生成模块和数据在线加载模块以任务节点的方式在大数据分布式调度系统上构建任务流，并配置该任务流的调度周期，所述任务流根据该调度周期执行步骤S1-S4完成增强数据的迁移。

作为优化，所述增量导出模块采用Hbase提供的Export工具扫描并导出源集群Hbase表的增量数据，并将该增量数据存放在源集群中按所述调度周期划分的HDFS目录上。

作为优化，所述数据同步模块基于HDFS DistCp实现，其采用HDFS提供的DistCp组件完成源集群到目标集群的增量数据传输，并将增量数据存放在目标集群中按所述调度周期划分的HDFS目录下。

作为优化，所述目标集群的增量数据存储目录和源集群保持一致，并在数据同步的过程中开启Bzip压缩并跳过CRC检验。

作为优化，所述文件生成模块读取目标集群中按调度周期划分的HDFS目录下的增量数据，执行数据的ETL流程，生成目标集群能够加载的HFile文件并重新写回该HDFS目录。

作为优化，所述文件生成模块为基于Spark计算引擎的HFile生成模块，其生成HFile文件包括以下步骤，

S301、使用spark.read算子读取增量数据并转为增量数据RDD，读取Hbase增量数据的schema信息并转为schema的广播变量；

S302、在增量数据RDD上应用flatMap算子并引入schema广播变量，生成HFile所需的RDD类，对RDD进行全局排序。

S303、将排序的RDD写回到目标集群的HDFS目录中。

本发明还提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序被处理器运行时，执行上述的Hbase增量数据迁移方法的步骤。

与现有技术相比，本发明具有如下优点：

本发明利用了Hbase的Export工具完成源集群增量数据扫描，采用HDFS DispCp完成增量数据的跨集群传输，最后使用分布式计算引擎Spark将增量数据通过ETL过程转为为Hbase表底层的HFile文件加载到目标集群在线的Hbase表中。在增量数据写入目标Hbase集群的过程中规避了Hbase本身提供的put方法在大写入场景下的Hbase RegionServer节点大GC引发的宕机和性能降低问题，采用Spark-Bulkload方案在保证Hbase集群稳定的情况下加速增量数据接入。本发明实现了混合云架构下Hbase源集群增量数据的高效扫描；利用Spark计算引擎加速增量数据生成HFile的ETL流程，提升效率的同时降低计算资源的使用；采用Hbase的bulkload数据加载方式，避免大批量数据直接写入Hbase造成的Hbase节点宕机问题，提供了稳定高效的混合云hbase集群增量数据同步能力。

附图说明

图1为本实施例的系统架构图；

图2为本实施例的同步工作流构建示例；

图3为本实施例的基于Spark的HFile生成流程图。

具体实施方式

下面将结合附图及实施例对本发明作进一步说明。

实施例：参见图1-图3，

一种Hbase增量数据迁移系统，其特征在于，包括源集群-公有云Hbase，和目标集群-私有云Hbase，还包括，

增量导出模块，用于扫描并导出源集群中的增量数据，并将该增量数据存放在源集群指定的目录中。具体的，该模块主要用于导出源集群需要进行同步的Hbase表的增量数据。将源Hbase表的增量数据扫描出来存放在源集群固定的HDFS目录上。

数据同步模块，用于将所述增量数据同步到目标集群指定的目录中。所述数据同步模块基于HDFS DistCp实现，用于将源Hbase集群待同步的增量数据同步到目标集群的HDFS指定目录上。

文件生成模块，用于将同步到目标集群指定目录中的增量数据生成为目标集群能够加载的目标文件。所述文件生成模块为HFile生成模块，基于Spark实现，利用ApacheSpark分布式计算引擎将目标集群的增量数据通过ETL操作生成目标集群Hbase表的HFile文件。

数据在线加载模块，用于将所述目标文件加载到目标集群中。其采用Hbase提供的import hfile工具将HFile生成模块生成好的HFile文件在线加载到目标集群Hbase表中。

还包括大数据分布式调度系统，用于通过任务节点的形式控制所述增量导出模块、数据同步模块、文件生成模块和数据在线加载模块定期将源集群中的增量数据迁移至目标集群。具体的，以上模块都以任务节点的形式挂在大数据离线调度系统上，每天凌晨定时将增量数据从公有云Hbase迁移到私有云Hbase。

基于上述系统，本发明还提供了一种基于Spark-Bulkload的混合云Hbase增量数据迁移方法，通过增量导出模块扫描源Hbase集群中待同步Hbase表的增量数据，将其导出到源集群的tmp目录下。数据同步模块采用HDFS提供的DistCp组件完成源集群到目标集群的增量数据传输，每天的增量数据放置在一个按天划分的HDFS目录下。增量数据同步到目标集群后，HFile生成模块会读取按天划分的增量数据，执行数据的ETL流程，将生成的HFile文件重新写回一个按天划分的HDFS目录下。最终，使用数据在线加载模块，将HFile生成模块产出的HFile文件在线加载到目标Hbase集群中。以上四个模块以工作流的形式由大数据分布式调度系统进行每日的定时调度。

具体包括以下步骤，

S0、系统管理员将增量导出模块、数据同步模块、文件生成模块和数据在线加载模块以任务节点的方式在大数据分布式调度系统上构建任务流，并配置该任务流的调度周期，所述任务流根据该调度周期执行步骤S1-S4完成增强数据的迁移。在本实施例中，所述调度周期为一天，时间节点设在每天的凌晨。

S1、通过增量导出模块扫描源集群并获取增量数据，将增量数据存放在源集群指定的目录中。增量导出模块为了保证读取Hbase增量数据的效率，采用Hbase提供的Export工具，指定scanner批次大小为2000，仅导出Hbase最新版本的数据以减少导出的数据量。增量数据放置在源集群HDFS的/tmp/Hbase目录下，按照每个待导出的Hbase表的命名空间_表名的方式构建单表，在单表的HDFS目录下按天进行目录划分。样例执行脚本如下：

S2、通过数据同步模块将所述增量数据同步传输至目标集群指定的目录中。数据同步模块将增量导出模块导出的按Hbase表按天分区的增量数据采用HDFS DistCp的方式同步到目标集群的HDFS的目录上，其中目标集群的增量数据存储目录和源集群保持一致，为保证跨集群数据同步的效率在执行数据同步的过程中开启Bzip压缩并跳过CRC检验。样例执行脚本如下：

S3、通过文件生成模块读取所述增量数据，并对该增量数据进行处理，生成目标集群能够加载的目标文件。所述文件生成模块为基于Spark计算引擎的HFile生成模块，读取增量数据同步模块同步到目标HDFS集群上的增量数据。将类型为SequenceFile的增量数据文件转为Hbase的KeyValue对象构建的RDD，然后将KeyValue RDD转换为HFileOutputFormat2写出到目标集群的hdfs://target-cluster:8020/tmp/hbase/hfile/

namespace_table/yyyy-MM-dd目录下。

基于Spark-Bulkload的HFile生成计算逻辑如图3所示：

S301、使用spark.read算子读取增量数据转为增量数据RDD，读取hbase增量数据的schema信息并转为schema的广播变量，以减少数据join的shuffle计算开销。

S302、在增量数据RDD上应用flatMap算子并引入schema广播变量，在计算逻辑中生成HFile所需的RDD[(KeyFamilyQualifier, KeyValue)]类，对RDD进行全局排序操作。

S303、将按照KeyFamilyQualifier排序的RDD写出到hdfs://target-cluster:8020/

tmp/hbase/hfile/namespace_table/yyyy-MM-dd目录下。到此增量数据对应的HFile生成完成。

Hfile生成模块是一个基于Spark开发的离线计算Jar报，其任务提交样例脚本下所示：

S4、通过数据在线加载模块将所述目标文件加载到目标集群中，完成增量数据由源集群向目标集群的迁移。数据在线加载模块使用Hbase的LoadIncrementalHFiles组件将生成好的HFile文件在线加载到对应的Hbase表中。样例执行脚本如下：

本发明还提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序被处理器运行时，执行上述的基于Spark-Bulkload的混合云Hbase增量数据迁移方法的步骤。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种Hbase增量数据迁移系统，其特征在于，包括源集群和目标集群，还包括，

文件生成模块，用于将同步到目标集群指定目录中的增量数据生成为目标集群能够加载的目标文件；其中，所述文件生成模块为基于Spark计算引擎的HFile生成模块，其用于生成HFile文件；

具体的，所述文件生成模块用于使用spark.read算子读取增量数据并转为增量数据RDD，读取Hbase增量数据的schema信息并转为schema的广播变量；在增量数据RDD上应用flatMap算子并引入schema广播变量，生成HFile所需的RDD类，对RDD进行全局排序；将排序的RDD写回到目标集群的HDFS目录中；

2.根据权利要求1所述的一种Hbase增量数据迁移系统，其特征在于，还包括大数据分布式调度系统，用于通过任务节点的形式控制所述增量导出模块、数据同步模块、文件生成模块和数据在线加载模块定期将源集群中的增量数据迁移至目标集群。

3.一种Hbase增量数据迁移方法，其特征在于，包括以下步骤，

S3、通过文件生成模块读取所述增量数据，并对该增量数据进行处理，生成目标集群能够加载的目标文件；所述文件生成模块为基于Spark计算引擎的HFile生成模块，其生成HFile文件包括以下步骤，

S302、在增量数据RDD上应用flatMap算子并引入schema广播变量，生成HFile所需的RDD类，对RDD进行全局排序；

S303、将排序的RDD写回到目标集群的HDFS目录中；

4.根据权利要求3所述的一种Hbase增量数据迁移方法，其特征在于，在步骤S1之前，还包括将增量导出模块、数据同步模块、文件生成模块和数据在线加载模块以任务节点的方式在大数据分布式调度系统上构建任务流，并配置该任务流的调度周期，所述任务流根据该调度周期执行步骤S1-S4完成增强数据的迁移。

5.根据权利要求4所述的一种Hbase增量数据迁移方法，其特征在于，所述增量导出模块采用Hbase提供的Export工具扫描并导出源集群Hbase表的增量数据，并将该增量数据存放在源集群中按所述调度周期划分的HDFS目录上。

6.根据权利要求4所述的一种Hbase增量数据迁移方法，其特征在于，所述数据同步模块基于HDFS DistCp实现，其采用HDFS提供的DistCp组件完成源集群到目标集群的增量数据传输，并将增量数据存放在目标集群中按所述调度周期划分的HDFS目录下。

7.根据权利要求6所述的一种Hbase增量数据迁移方法，其特征在于，所述目标集群的增量数据存储目录和源集群保持一致，并在数据同步的过程中开启Bzip压缩并跳过CRC检验。

8.根据权利要求6所述的一种Hbase增量数据迁移方法，其特征在于，所述文件生成模块读取目标集群中按调度周期划分的HDFS目录下的增量数据，执行数据的ETL流程，生成目标集群能够加载的HFile文件并重新写回该HDFS目录。

9.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序被处理器运行时，执行如权利要求3~8中任一所述的Hbase增量数据迁移方法的步骤。