CN111694811B

CN111694811B - 一种批量数据入库方法及装置

Info

Publication number: CN111694811B
Application number: CN202010247836.7A
Authority: CN
Inventors: 李京京
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2022-08-30
Anticipated expiration: 2040-04-01
Also published as: CN111694811A

Abstract

本发明提供了一种批量数据入库方法及装置，用于解决大批量数据导入Hbase数据库时使用SparkSQL调用Hbase提供的原生批量导入接口不支持对Phoenix的二级索引同步更新的技术问题。本发明对批量导入Hbase表的文本数据进行预处理，将预处理后的文本文件存储HDFS指定位置，然后通过集成在SparkSQL中的Phoenix的批量数据导入工具类的实例对象，基于在SparkSQL运行环境中构造的批量数据导入工具类的参数，实现以批量导入方式将海量文本数据导入Hbase中且同时同步更新Phoenix的二级索引。

Description

一种批量数据入库方法及装置

技术领域

本发明涉及大数据技术领域，尤其涉及一种批量数据入库方法及装置。

背景技术

Hbase是基于Hadoop构建的一个分布式的、可伸缩的海量数据存储系统，亦可称为Hbase数据库。Hbase本身不提供二级索引支持，只有RowKey作为一级索引，如果对非RowKey字段进行检索和查询，则会触发Hbase的全表扫描，这对资源的压力会非常大。因此，衍生出了各种Hbase二级索引方案，其中Apache的Phoenix是开源方案中使用最为广泛的一种，能够提供Hbase的二级索引功能，从而避开全表扫描。

Hbase的使用过程中，不可避免的会面临将海量文本数据导入Hbase的场景。Hbase官方推荐使用大批量数据迁移Bulkload方式来实现海量文本数据批量导入。但对于使用Phoenix构建二级索引的Hbase应用，SparkSQL提供的对Hbase数据批量导入的Bulk LoadAPI不支持Phoenix二级索引的同步更新。

发明内容

有鉴于此，本发明提供一种批量数据入库的方法及装置，用于解决大批量数据导入Hbase数据库时Phoenix二级索引不能同步更新的技术问题。

基于本发明实施例，本发明提供一种批量数据入库方法，该方法包括：

将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame，对转化后的DataFrame进行预处理后以文本数据文件形式存入Hadoop分布式文件系统HDFS的指定路径；

通过在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象，接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与所述目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象；

通过Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库。

进一步地，所述的批量数据导入工具类为Phoenix的CsvBulkloadTool，所述的Hadoop的辅助工具运行类为ToolRunner。

进一步地，通过调用SparkSQL的用户定义函数UDF对所述DataFrame进行预处理，所述UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF中的一种或多种的组合。

进一步地，所述方法还包括：在进行批量数据导入之前，通过Phoenix为所述目的Hbase表建立二级索引。

进一步地，所述方法还包括：在运行所述的批量数据导入工具对象完成一个所述预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后，判断本次入库操作是否成功，若不成功则再次尝试，若指定次数后仍未成功，则记录错误日志，并进行下一个处理后的文本数据文件的处理。

基于本发明实施例，本发明还提供一种批量数据入库装置，该装置包括：

预处理模块，用于将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame，对转化后的DataFrame进行预处理后以文本数据文件形式存入Hadoop分布式文件系统HDFS的指定路径；

接口模块，用于在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象，接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与所述目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象；

导入模块，用于调用Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库。

本发明对批量导入Hbase表的文本数据进行预处理，将预处理后的文本文件存储HDFS指定位置，然后通过集成在SparkSQL中的Phoenix的批量数据导入工具类的实例对象，基于在SparkSQL运行环境中构造的批量数据导入工具类的参数，实现以批量导入方式将海量文本数据导入Hbase中且同时同步更新Phoenix的二级索引。

附图说明

为了更加清楚地说明本发明实施例或者现有技术中的技术方案，下面将对本发明实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本发明实施例的这些附图获得其他的附图。

图1为本发明提供了一种批量数据入库方法的流程示意图；

图2为本发明提供了一种批量数据入库装置的结构示意图。

具体实施方式

在本发明实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本发明实施例。本发明实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。本发明中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在将海量文本数据批量导入Hbase时，通常需要根据具体使用场景对文本数据进行处理，例如根据行键RowKey分布情况确定Hbase表预分区个数，以保证数据能够均匀分布到分布式数据库的各个存储分区Region上。这些海量文本数据的处理通常都在SparkSQL中来进行处理，但是缺少一套灵活方便的处理流程和方法。此外，虽然SparkSQL提供了对Hbase数据批量导入的批量导入应用程序接口(Bulk Load API)，可以实现将Spark中的弹性分布式数据集(Resilient Distributed Dataset，RDD)直接用Bulk Load方式导入Hbase，且无需事先在Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)上生成Hfiles。但该种方式不支持对Phoenix建立的二级索引的同步更新，只能对表数据进行批量导入，从而导致使用SparkSQL的Bulk Load API导入Hbase表的数据无法使用Phoenix二级索引。

本发明对上述实际应用中遇到的问题进行研究和分析后，提出了一种通用有效的解决方案。本发明在将批量文本数据导入Hbase之前，首先对批量文本数据进行预处理，然后通过将Phoenix提供的文本批量导入工具CsvBulkloadTool类集成在SparkSQL中，通过在SparkSQL中实例化CsvBulkloadTool类以及在运行环境中构造CsvBulkloadTool的参数，最终实现以批量导入方式将海量文本数据导入Hbase中且同时同步更新Phoenix所建的二级索引。

图1为本发明提供了一种批量数据入库方法的流程示意图，该方法包括：

步骤101.将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame，对转化后的DataFrame进行预处理后以文本数据文件形式存入HDFS的指定路径。

数据集DataFrame为SparkSQL中一种表格型数据结构，具有行索引和列索引，DataFrame类派生于弹性分布式数据集RDD。本发明将格式化的文本数据文件，例如以分隔符分隔字段值的CSV文件，转化为DataFrame数据结构，然后通过调用SparkSQL的用户定义函数(User Defined Function，UDF)对这些DataFrame进行预处理，所述UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF等其中的一种或多种的组合。

步骤102.通过在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象，接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象。

步骤103.通过Hadoop的辅助工具运行类运行所述的批量数据导入工具对象。

以下结合一个具体的应用实例来描述本发明的实现过程，该实施例中格式化文本数据文件以CSV文本数据文件为例，所引入并实例化的批量数据导入工具类为Phoenix的CsvBulkloadTool，所调用的Hadoop的辅助工具运行类为ToolRunner。

首先通过预处理对待导入的海量数据进行预处理从而得到符合要求的数据集，并将预处理后的数据集存储在HDFS中的指定路径待后续处理。具体步骤如下：

S1、SparkSQL从HDFS读取存储待导入数据的原始CSV文件，将CSV文件中的以分隔符分隔的数据记录集转换为Spark的DataFrame数据结构。

S2、预先实现Hbase行键RowKey生成UDF函数，然后在SparkSQL中调用RowKey生成UDF函数，为数据记录生成rowkey并列添加到DataFrame中。

S3、可选地，预先实现新增列UDF函数，然后调用新增列UDF函数，在DataFrame中添加入库时间列insert_time。

S4、可选地，在DataFrame中删除掉原始CSV数据中不需要的字段列。

S5、在SparkSQL中将处理过的DataFrame以CSV格式写入HDFS指定路径下。

通常，大数据业务场景中会有多个存储待导入数据的原始CSV文件，因此上述S1～S5会由多个进程并行或循环执行，直到将所有原始CSV文件处理完毕。

在完成上述预处理步骤后，将进一步执行将数据导入目的Hbase表的步骤，但由于Hbase的批量数据导入工具不支持Phoenix二级索引的同步更新，所以如果使用Hbase原有的批量导入工具则会导致虽然数据导入成功，但与目的Hbase表关的联的二级索引未同步更新情况。为解决这个问题，该实施例中将Phoenix的CsvBulkLoadTool集成到SparkSQL中，通过在SparkSQL中引入并实例化Phoenix的批量数据导入工具类CsvBulkLoadTool得到批量数据导入工具对象，将接收导入数据的目的Hbase表的表名、预处理后的文本数据文件在HDFS中的存储位置以及预处理后的文本数据文件中的字段列与目的Hbase表的字段列的对应关系作为参数传入CsvBulkLoadTool对象。

要实现目的Hbase表和其二级索引同步更新，需要使用Phoenix事先为目的Hbase表创建二级索引，其二级索引可以有多个。示例性地，可通过如下方法将CsvBulkLoadTool集成如SparkSQL中：

在SparkSQL程序中引入包含CsvBulkLoadTool的jar包，例如phoenix-core-4.10.0-Hbase-1.1.jar，该jar包版本需与Hbase版本相兼容。在SparkSql中直接调用CsvBulkLoadTool类，将CsvBulkLoadTool构造为一个Tool接口的实现(即初始化一个该类的对象实例，在SparkSQL中将Spark上下文环境中的Hadoop配置：SparkSession.sparkContext.hadoopConfiguration，赋给该类的对象实例)，然后在SparkSQL进程中构造CsvBulkLoadTool的参数args，参数包括目的Hbase表的表名—table、预处理后的CSV文件在HDFS上的存储位置—input以及预处理后的CSV文件中的字段列与目的Hbase表的字段列的对应关系-import-columns等参数。

在引入CsvBulkLoadTool后，通过Hadoop的辅助工具运行类ToolRunner运行CsvBulkLoadTool对象，CsvBulkLoadTool对象通过参数读取HDFS指定路径下的预处理后的CSV文件，根据文本数据文件中的字段列与目的Hbase表的字段列的对应关系将数据导入到目的Hbase表中，Phoenix的CsvBulkLoadTool在执行批量数据导入的同时，会同步更新与目的Hbase表关联的二级索引，从而使目的Hbase表和二级索引能够得到同步更新。

在运行CsvBulkLoadTool对象完成一个预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后，为了安全和可追溯的目的，还可包括判断本次入库操作是否成功的步骤，例如在执行完导入步骤后，判断数据入Hbase表是否成功，若不成功则再次尝试，若尝试指定次数后例如3次后仍未成功，则记录错误日志，例如未导入成功的预处理后的CSV文件移入bulkload_error文件夹中并在系统中记录日志，然后再进行下一个预处理后的CSV文本数据文件的处理。

图2为本发明一实施例提供的一种批量数据入库装置结构示意图，该装置可以应用于Hadoop等分布式架构中，可以在一个硬件设备上执行，也可以由不同的硬件设备分别完成上述批量数据入库方法中的一个或多个步骤。

该装置200包括：

预处理模块201，用于将待导入Hbase数据库的格式化文本数据文件转化为Spark支持的数据集DataFrame，对转化后的DataFrame进行预处理后以文本数据文件形式存入Hadoop分布式文件系统HDFS的指定路径；

接口模块202，用于在SparkSQL中引入并实例化批量数据导入工具类得到批量数据导入工具对象，接收导入数据的目的Hbase表的表名、预处理后的文本数据文件位置以及预处理后的文本数据文件中的字段列与所述目的Hbase表的字段列的对应关系作为参数传入所述批量数据导入工具对象；

导入模块203，用于调用Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库。

接口模块202在SparkSQL中引入并实例化的批量数据导入工具类可为Phoenix的CsvBulkloadTool。导入模块203所调用的Hadoop的辅助工具运行类可为ToolRunner。

预处理模块201通过调用SparkSQL的用户定义函数UDF对DataFrame进行预处理，UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF中的一种或多种的组合。

为实现对Hbase表的二级索引的同步更新支持，该装置200还包括：二级索引建立模块，用于在进行批量数据导入之前，通过Phoenix为所述目的Hbase表建立二级索引。

为安全及可追溯的目的，导入模块203在运行所述的批量数据导入工具对象完成一个所述预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后，可进一步判断本次入库操作是否成功，若不成功则再次尝试，若指定次数后仍未成功，则记录错误日志，并进行下一个处理后的文本数据文件的处理。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种批量数据入库方法，其特征在于，所述方法包括：

通过Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库；

所述的批量数据导入工具类为Phoenix的CsvBulkloadTool，所述的Hadoop的辅助工具运行类为ToolRunner。

2.根据权利要求1所述的方法，其特征在于，

通过调用SparkSQL的用户定义函数UDF对所述DataFrame进行预处理，所述UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF中的一种或多种的组合。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在进行批量数据导入之前，通过Phoenix为所述目的Hbase表建立二级索引。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在运行所述的批量数据导入工具对象完成一个所述预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后，判断本次入库操作是否成功，若不成功则再次尝试，若指定次数后仍未成功，则记录错误日志，并进行下一个处理后的文本数据文件的处理。

5.一种批量数据入库装置，其特征在于，所述装置包括：

导入模块，用于调用Hadoop的辅助工具运行类运行所述的批量数据导入工具对象以实现批量数据的入库；

6.根据权利要求5所述的装置，其特征在于，

所述接口模块在SparkSQL中引入并实例化的批量数据导入工具类为Phoenix的CsvBulkloadTool；

所述导入模块所调用的Hadoop的辅助工具运行类为ToolRunner。

7.根据权利要求6所述的装置，其特征在于，

所述预处理模块通过调用SparkSQL的用户定义函数UDF对所述DataFrame进行预处理，所述UDF包括但不限于行键RowKey生成UDF、新增列UDF、填充空置UDF、删除无用列UDF中的一种或多种的组合。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

二级索引建立模块，用于在进行批量数据导入之前，通过Phoenix为所述目的Hbase表建立二级索引。

9.根据权利要求5所述的装置，其特征在于，

所述导入模块在运行所述的批量数据导入工具对象完成一个所述预处理后的文本数据文件中的批量数据入所述目的Hbase表入库后，判断本次入库操作是否成功，若不成功则再次尝试，若指定次数后仍未成功，则记录错误日志，并进行下一个处理后的文本数据文件的处理。