CN105988995B

CN105988995B - 一种基于HFile批量加载数据的方法

Info

Publication number: CN105988995B
Application number: CN201510039306.2A
Authority: CN
Inventors: 谢忠贤; 浦世亮; 周明耀
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2019-05-24
Anticipated expiration: 2035-01-27
Also published as: CN105988995A

Abstract

本发明提供了一种基于HFile批量加载数据的方法，通过预分分区Region，形成多个分区Region，避免了现有技术中Region分裂过程时间过长的问题；在此基础上，在Map阶段生成HFile文件，避免了Reduce过程，提高了效率；并且，由于在Map阶段就成功生成了HFile文件，因此每生成一个HFile文件后可以保存该文件，避免MapReduce任务失败后，所有的中间结果都被删除的问题，进一步提高了HFile文件记载效率。

Description

一种基于HFile批量加载数据的方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于HFile批量加载数据的方法。

背景技术

随着网络技术的飞速发展，数据量的急速增长，为了分析和利用这些庞大的数据资源，传统的技术已然遇到了巨大的障碍，无法胜任大数据分析的任务。而为了满足大数据分析的要求，Google提出了MapReduce(映射化简)技术，它是一种面向大规模数据分析处理和并行计算的编程模型。

HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，HBase可以作为MapReduce的数据来源和数据目的地，从而使得MapReduce能够处理HBase中保存的数据或者将输出数据保存在HBase中。

当HBase作为MapReduce的数据目的地时，可采用HBase中自带的数据导入工具，但是由于HBase中自带的数据导入工具有一定的局限性，它不能使用户完全控制数据加载过程，并且不能自定义数据加载的预期格式。因此，加载具有特定格式的HBase加载数据的导入方法是非常重要的。

目前批量加载数据到HBase数据库最高效的方式如CN20131058470.2公开的一种HBase加载数据的导入方法，其首先根据实际数据对HBase表的Region(分区)进行预分，然后编写MapReduce程序将源数据转换为HFile文件，每个Region对应一个HFile文件，最后利用completebulkload命令将HFile文件加载到HBase。上述方法可以将生成好的HFile文件直接加载进运行中的HBase集群，减少了在数据迁移过程中数据传输的网络流量，提高了数据导入效率，节省CPU和网络资源。

但上述方法存在以下三点不足之处：

首先，HBase表创建时默认只有一个Region，数据加载时首先进入此Region，当数据量达到一个阈值时会被分裂成两个Region，分裂的Region会分布到其他的RegionServer，以保证集群的负载均衡，但是Region的分裂是一个耗时的过程，会导致数据加载时的效率低下。

其次，通过MapReduce生成HFile文件，由于HFile文件必须是按字典序排列的，因此必须首先通过Map(映射)过程将所有数据写到临时文件，然后在Reduce(化简)过程从临时文件读取数据进行排序，生成HFile文件，此过程非常耗时。

再者，通过MapReduce生成HFile文件的过程中，如果Map阶段任务失败，生成的临时文件会被删除，数据加载需要重新开始；如果Reduce阶段任务失败，生成的HFile文件会被删除，数据加载仍需要重新开始。

发明内容

鉴于现有技术的上述缺陷，本发明提供了一种基于HFile批量加载数据的方法，以进一步提高数据加载的效率。

本发明采用的技术手段如下：

一种基于HFile批量加载数据的方法，包括：

预分分区Region，形成与HFile文件一一对应的多个分区Region；

读取源数据记录，分别确定每一条源数据记录需写入的HFile文件，并将源数据记录写入其对应的HFile文件；

对已完成源数据记录写入的HFile文件加载至其对应的分区Region。

进一步，读取源数据记录，分别确定每一条源数据记录需写入的HFile文件，并将源数据记录写入其对应的HFile文件包括：

读取源数据记录，分别确定每一条源数据记录对应的HFile文件的文件名；

根据所述文件名将源数据记录向各自对应的多个HFile文件写入。

进一步，将源数据记录写入其对应的HFile文件后，将所述HFile文件存储到自定义目录。

进一步，预分分区Region，形成与HFile文件一一对应的多个分区Region包括：

预分分区Region，形成行主键RowKey自增的多个分区Region。

进一步，所述预分分区Region，形成行主键RowKey自增的多个分区Region包括：

根据源数据的总数据量确定预分分区Region个数及大小；

采用源数据中自增的ID作为分区Region的行主键RowKey。

进一步，读取源数据记录，分别确定每一条源数据记录对应的HFile文件的文件名包括：

在map的setup方法中获取所有分区Region的起始键值StartKey和终止键值EndKey，生成起始键值StartKey和终止键值EndKey集合，并定义endKey变量；

读取一条源数据记录后，判断endKey变量的值是否为空；

若判断结果为endKey变量的值为空，则判断当前读取的源数据记录中的所述自增的ID是否在某个Region的起始键值StartKey和终止键值EndKey之间，如果当前读取的源数据记录中的所述自增的ID处于某个Region的起始键值StartKey和终止键值EndKey之间，则将当前读取的源数据记录中的endKey变量赋值为该Region的终止键值EndKey，并判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值；

若当前读取的源数据记录中的所述自增的ID等于endKey变量的值，则说明当前读取的源数据记录已不属于该Region而属于该Region的下一个Region，将endKey赋值更新为该Region的下一个Region的EndKey，由此获得与该Region的下一个Region对应的HFile文件的文件名。

进一步，若判断结果为endKey变量的值不为空，则判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值；

当前读取的源数据记录中的所述自增的ID不等于endKey变量的值，则说明当前读取的源数据记录属于该Region，由此获得与该Region对应的HFile文件的文件名。

进一步，在获得HFile的文件名后，对当前读取的源数据记录中的KeyValue进行排序。

进一步，所述对当前读取的源数据记录中的KeyValue进行排序包括：

定义一个KeyValue的排序集合；

将当前读取的源数据记录中的KeyValue存放到所述排序集合中完成排序。

进一步，将该条源数据记录写入其对应的HFile文件包括：

调用map方法中的write方法，添加所述HFile的文件名；

利用write方法解析HFile的文件名；

判断该HFile的文件名对应的文件对象是否存在，若该HFile的文件名对应的文件对象不存在则根据该HFile的文件名创建文件对象，并将当前读取的源数据记录写入文件对象；

若该HFile的文件名对应的文件对象存在，则直接当前读取的源数据记录写入文件对象。

进一步，调用map方法中的write方法，添加所述HFile的文件名包括：

在FileOutputFormat类中根据键值对的规则定义名称为recordWriters，类型为HashMap<String，RecordWriter<K，V>>的变量；其中，recordWriters的key的类型为字符串String，表示输出的文件名；recordWriters的value的类型为RecordWriter<K，V>，表示记录的输出对象；

所述调用write方法为调用context.write(key，value)方法，将该条源数据记录对应的文件名添加到key的末尾。

进一步，所述判断该HFile的文件名对应的源数据记录是否存在，若该HFile的文件名对应的源数据记录不存在则根据该HFile的文件名创建该条源数据记录的输出对象，并将该源数据记录写入所述输出对象，生成HFile文件包括：

根据recordWriters变量中的key获取recordWriter，若recordWriter不存在，则表示该HFile的文件名对应的源数据记录不存在，则根据key创建recordWriter，并将将该源数据记录写入recordWriter，生成HFile文件；

若recordWriter存在，则直接使用recordWriter生成HFile文件。

进一步，对已完成源数据记录写入的HFile文件加载至其对应的分区Region包括：

利用completebulkload命令将HFile文件加载到HBase。

采用本发明提供的基于HFile批量加载数据的方法，通过预分分区Region，形成多个分区Region，避免了现有技术中Region分裂过程时间过长的问题；在此基础上，在Map阶段生成HFile文件，避免了Reduce过程，提高了效率；并且，由于在Map阶段就成功生成了HFile文件，因此每生成一个HFile文件后可以保存该文件，避免MapReduce任务失败后，所有的中间结果都被删除的问题，进一步提高了HFile文件记载效率。

附图说明

图1为本发明基于HFile批量加载数据的方法流程示意图；

图2为本发明中根据源数据记录确定其需写入的HFile文件的文件名的流程示意图；

图3为将源数据记录写入其对应的HFile文件的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明提供了一种基于HFile批量加载数据的方法，如图1所示，包括如下步骤：

预分分区Region，形成与HFile文件一一对应的多个分区Region；

在本申请典型的实施例中，形成与HFile文件一一对应的多个分区Region可采用以下方式：

在进行预分分区Region时，首先，根据源数据的总数据量确定预分分区Region个数；然后，采用源数据中自增的ID如采用源数据中的自增的字段作为分区Region的行主键RowKey。

例如，数据量1千万，预分10个分区Region，Region预分后的Startkey和EndKey分布如下表所示：

	StartKey	EndKey
			Region1	00000000	01000000
Region2	01000000	02000000
			Region3	02000000	03000000
Region4	03000000	04000000
			Region5	04000000	05000000
Region6	05000000	06000000
			Region7	06000000	07000000
Region8	07000000	08000000
			Region9	08000000	09000000
Region10	09000000	10000000

由于在数据导入前预分Region，避免了现有技术中采用的数据导入时，当数据量达到阈值时再进行分裂带来的耗时问题，由此提高数据加载的效率。

在形成了形成与HFile文件一一对应的多个分区Region的基础上，读取源数据记录，分别确定每一条源数据记录需写入的HFile文件，并将源数据记录写入其对应的HFile文件，包括：

具体步骤如图2所示：

读取一条源数据记录后，判断endKey变量的值是否为空；

7、根据权利要求6所述的方法，其特征在于，若判断结果为endKey变量的值不为空，则判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值；

在获得HFile的文件名后，对当前读取的源数据记录中的KeyValue进行排序；作为实现排序的一种方式，可首先定义一个KeyValue的排序集合，然后将当前读取的源数据记录中的KeyValue存放到所述排序集合中完成排序；例如采用以下方式：

定义TreeSet<KeyValue>treeMap＝new TreeSet<KeyValue>(KeyValue.COMPARATOR)，并将当前读取的源数据记录中的KeyValue存放到treeMap完成排序。

在上述过程中，可实现每个HFile文件中的RowKey只在一个Region中。由于记录ID为自增，因此生成的单个HFile文件已按照RowKey字典排序，只需要对单个记录中的KeyValue排序即可，从而避免了Reduce的排序过程。

进一步，针对现有技术中map失败删除Hfile文件，需要重新加载数据的问题，本申请的典型实施例中将源数据记录写入其对应的HFile文件后，将所述HFile文件存储到自定义目录，由此，即使map失败，仍可加载已生成的的HFile文件，数据加载可以从失败处开始。

在确定当前源数据记录需写入的HFile文件的文件名后，将该条源数据记录写入其对应的HFile文件包括如图3所示步骤：

调用map方法中的write方法，添加所述HFile的文件名；

利用write方法解析HFile的文件名；

其中，调用map方法中的write方法，添加所述HFile的文件名包括：

若recordWriter存在，则直接使用recordWriter生成HFile文件。

对已完成源数据记录写入的HFile文件加载至其对应的分区Region优选利用completebulkload命令将HFile文件加载到HBase。

综上所述，采用本发明提供的一种基于HFile批量加载数据的方法，通过预分分区Region，形成多个分区Region，避免了现有技术中Region分裂过程时间过长的问题；在此基础上，在Map阶段生成HFile文件，避免了Reduce过程，提高了效率；并且，由于在Map阶段就成功生成了HFile文件，因此每生成一个HFile文件后可以保存该文件，避免MapReduce任务失败后，所有的中间结果都被删除的问题，进一步提高了HFile文件记载效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于HFile批量加载数据的方法，其特征在于，包括：

预分分区Region，形成与HFile文件一一对应的多个分区Region，且采用源数据中自增的ID作为所述多个分区Region的行主键RowKey；

读取源数据记录，分别确定每一条源数据记录需写入的HFile文件，并将源数据记录写入其对应的HFile文件，所述HFile文件按照RowKey字典排序；

2.根据权利要求1所述的方法，其特征在于，读取源数据记录，分别确定每一条源数据记录需写入的HFile文件，并将源数据记录写入其对应的HFile文件包括：

根据所述文件名将源数据记录向各自对应的HFile文件写入。

3.根据权利要求2所述的方法，其特征在于，将源数据记录写入其对应的HFile文件后，将所述HFile文件存储到自定义目录。

4.根据权利要求1所述的方法，其特征在于，所述预分分区Region，形成与HFile文件一一对应的多个分区Region，且采用源数据中自增的ID作为多个分区Region的行主键RowKey包括：

根据源数据的总数据量确定预分分区Region个数及大小；

采用源数据中自增的ID作为分区Region的行主键RowKey。

5.根据权利要求4所述的方法，其特征在于，读取源数据记录，分别确定每一条源数据记录对应的HFile文件的文件名包括：

读取一条源数据记录后，判断endKey变量的值是否为空；

6.根据权利要求5所述的方法，其特征在于，若判断结果为endKey变量的值不为空，则判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值；

7.根据权利要求5或6所述的方法，其特征在于，在获得HFile的文件名后，对当前读取的源数据记录中的KeyValue进行排序。

8.根据权利要求7所述的方法，其特征在于，所述对当前读取的源数据记录中的KeyValue进行排序包括：

定义一个KeyValue的排序集合；

9.根据权利要求1所述的方法，其特征在于，将该条源数据记录写入其对应的HFile文件包括：

调用map方法中的write方法，添加所述HFile的文件名；

利用write方法解析HFile的文件名；

10.根据权利要求9所述的方法，其特征在于，调用map方法中的write方法，添加所述HFile的文件名包括：

在FileOutputFormat类中根据键值对的规则定义名称为recordWriters，类型为HashMap<String，RecordWriter<K,V>>的变量；其中，recordWriters的key的类型为字符串String，表示输出的文件名；recordWriters的value的类型为RecordWriter<K,V>，表示记录的输出对象；

所述调用write方法为调用context.write(key,value)方法，将该条源数据记录对应的文件名添加到key的末尾。

11.根据权利要求10所述的方法，其特征在于，所述判断该HFile的文件名对应的源数据记录是否存在，若该HFile的文件名对应的源数据记录不存在则根据该HFile的文件名创建该条源数据记录的输出对象，并将该源数据记录写入所述输出对象，生成HFile文件包括：

若recordWriter存在，则直接使用recordWriter生成HFile文件。

12.根据权利要求11所述的方法，其特征在于，对已完成源数据记录写入的HFile文件加载至其对应的分区Region包括：

利用completebulkload命令将HFile文件加载到HBase。