CN105956043A

CN105956043A - 为Hbase数据库上运行的MapReduce分配Map task的方法及装置

Info

Publication number: CN105956043A
Application number: CN201610265163.1A
Authority: CN
Inventors: 戚永峰
Original assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2016-09-21

Abstract

本发明提供一种为Hbase数据库上运行的MapReduce分配Map的方法及装置，用以解决目前由于大量数据集中于少数几个map task中，导致任务效率低的问题，该方法包括：将Hbase数据库的主键Rowkey所标识的范围划分成多个区间；为每个区间分配一个预先创建的扫描scan对象；在MapReduce运行时为每个scan对象分配一个Map task，该方案提高了程序运行的效率。

Description

为Hbase数据库上运行的MapReduce分配Map task的方法及装置

技术领域

本发明涉及通讯领域，特别是涉及一种为Hbase数据库上运行的MapReduce分配Map task的方法及装置。

背景技术

Hadoop是目前业界使用最多，最成熟的开源大数据存储和计算平台，它包含了很多组件，其中MapReduce(简称MR)是hadoop平台上的编程模型，适用于大数据量下的分布式计算。HBase是一个开源的非关系型分布式数据库(NoSQL)，它运行于HDFS(Distributed File System，Hadoop分布式文件系统)文件系统之上，为Hadoop提供类似于BigTable(大规模分散数据库)规模的服务，Hbase的jar包里提供了API(Application Programming Interface,应用程序编程接口)，可以使用MapReduce来读取或者写Hbase。其中，TableInputFormatBase类提供了对表数据的大部分操作，其子类TableInputFormat则提供用于处理表数据并生成键值对的功能，TableInputFormat类将数据表按照Region分割成split，既有多少个Region就有多个split。在MR job中每个split对应一个map task，据官方网站介绍，map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。

在hbase上进行MR统计时，由于大量数据集中于少数几个map中，导致任务效率低、运行时间长，以及单个map task(map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数)，占用资源多，容易失败等弊端。

发明内容

本发明提供一种为Hbase数据库上运行的MapReduce分配Map task的方法及装置，用以解决目前由于大量数据集中于少数几个Map task中，导致任务效率低的问题。

根据本发明的一个方面，提供了一种为Hbase数据库上运行的MapReduce分配Map task的方法，包括：将Hbase数据库的主键Rowkey所标识的范围划分成多个区间；为每个区间分配一个预先创建的扫描scan对象；在MapReduce运行时为每个scan对象分配一个Map task。

其中，将Hbase数据库的主键Rowkey所标识的范围划分成多个区间，包括：将Rowkey所标识的范围平均划分成多个连续的区间。

进一步的，上述方法还包括：在Rowkey所标识的范围划分成多个区间之前，创建第一scan对象；为第一scan对象设置共用属性；在Rowkey所标识的范围划分成多个区间之后，以第一scan对象为副本创建与区间对应的第二scan对象，并将区间的开始与结束位置参数加入到第二scan对象中。

其中，将Hbase数据库的主键Rowkey所标识的范围划分成多个区间，包括：将Rowkey划分为接收到的外部输入的数目或预设的数目个连续的区间。

进一步的，上述方法还包括：在为每个区间分配一个预先创建的scan对象之后，将分配的所有scan对象提交给MapReduce；当在Hbase上进行MapReduce统计时，根据统计到的scan对象的数量确定同时执行的Map task的数量。

根据本发明的第二个方面，提供了一种为Hbase数据库上运行的MapReduce分配Map task的装置，包括：划分模块，用于将Hbase数据库的主键Rowkey所标识的范围划分成多个区间；第一分配模块，用于为每个区间分配一个预先创建的扫描scan对象；第二分配模块，用于在MapReduce运行时为每个scan对象分配一个Map task。

其中，上述划分模块具体用于：将Rowkey所标识的范围平均划分成多个连续的区间。

进一步的，上述装置还包括：第一创建模块，用于在将Rowkey所标识的范围划分成多个区间之前，创建第一scan对象；设置模块，用于为第一scan对象设置共用属性；第二创建模块，用于在将Rowkey所标识的范围划分成多个区间之后，以第一scan对象为副本创建与区间对应的第二scan对象，并将区间的开始与结束位置参数加入到第二scan对象中。

其中，上述划分模块具体用于：将Rowkey划分为接收到的外部输入的数目或预设的数目个连续的区间。

进一步的，上述装置还包括：提交模块，用于在为每个区间分配一个预先创建的scan对象之后，将分配的所有scan对象提交给MapReduce；确定模块，用于当在Hbase上进行MapReduce统计时，根据统计到的scan对象的数量确定同时执行的Map task的数量。

本发明有益效果如下：

本实施例提供的方法，对Hbase数据库的主键Rowkey所标识的范围划分为多个区间，并为每个区间创建一个scan对象，在MapReduce运行时为每个scan对象分配一个Map task，使得Map task的数量增加，从而在Map阶段可以实现多个Map task并行执行，使得Map阶段的时间被大幅度缩短，进而提高了效率。

附图说明

图1是本发明实施例1中提供的为Hbase数据库上运行的MapReduce分配Map task的方法的流程图；

图2是本发明实施例2中提供的为Hbase数据库上运行的MapReduce分配Map task的方法的流程图；

图3是本发明实施例3中提供的为Hbase数据库上运行的MapReduce分配Map task的装置的结构框图。

具体实施方式

为了解决现有技术由于大量数据集中于少数几个Map task中，导致任务效率低的问题的问题，本发明提供了一种为Hbase数据库上运行的MapReduce分配Map task的方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

实施例1

本实施例提供了一种为Hbase数据库上运行的MapReduce分配Map task的方法，该方法用于为Hbase数据库上运行的mapreduce程序分配Map task的数量，图1是该方法的流程图，如图1所示，该方法包括如下步骤：

步骤101：将Hbase数据库的主键Rowkey所标识的范围划分成多个区间；

步骤102：为每个区间分配一个预先创建的scan对象；

其中，scan是在Hbase数据中进行查询时所用的数据结构，其中指定了查询的起始和结束位置。

步骤103：在MapReduce运行时为每个scan对象分配一个Map task。

其中，Map(映射)Reduce(归纳)是hadoop平台上的编程模型，用于大规模数据集(大于1TB)的并行运算，其中，Map task是用来把一组键值对映射成一组新的键值对。

其中，将Hbase数据库的主键Rowkey所标识的范围划分成多个区间，具体可以包括：将Hbase数据库的主键Rowkey所标识的范围平均划分成多个连续的区间；或更进一步的包括：将Rowkey划分为接收到的外部输入的数目或预设的数目个连续的区间，即，划分后的区间个数可以通过预设经验值或用户输入指定的数值来确定。

其中，在上述步骤101至103的基础上，上述方法还可以进一步包括：

在将Hbase数据库的主键Rowkey所标识的范围划分成多个区间之前，创建第一scan对象；

为该第一scan对象设置共用属性；在将Hbase数据库的主键Rowkey所标识的范围划分成多个区间之后，以第一scan对象为副本创建与划分后的各区间对应的第二scan对象，并将划分后的各区间的开始与结束位置参数加入创建的各第二scan对象中，基于此，与划分后的各区间对应的各第二scan对象在均具有第一scan对象的共用属性的基础上，还具有其对应的区间的开始与结束位置参数。

进一步的，上述方法还可以包括：

在为每个区间分配一个预先创建的scan对象之后，将分配的所有scan对象提交给MapReduce；

当在Hbase上进行MapReduce统计时，根据统计到的scan对象的数量确定同时执行的Map task的数量。

实施例2

本实施例在上述实施例1的基础上对本发明提供的为Hbase数据库上运行的MapReduce分配Map task的方法进行进一步说明：

将一个跨度大的Rowkey范围(例如00000000～10000000)，平均划分成多个连续的小rowkey区间(例如，00000000～01000000,01000000～02000000，……，09000000～10000000)。为每个小rowkey区间创建一个scan对象提交查询，作为MapReduce程序运行统计分析的数据源。在MapReduce程序运行时会为每个创建的这些scan分配1个map与之对应，一个小rowkey区间对应一个scan，一个scan对应一个map，本实施例中小row指划分之后的rowkey区间。

这样，通过控制划分的rowkey区间的个数，可以实现控制map个数的目的。

如图2所示，以伪代码片段为例对rowkey的划分以及scan的创建进行说明：

步骤一：创建scan0

Scan scan0＝new Scan()；

步骤二：设置一些公有属性，此处设置的公有属性与现有技术中创建scan后设置的公有属性相同，例如，可以包括表名、缓存大小等信息。

scan0.setAttribute(设置一些共有属性)；

scan0.set其他的公用参数；

步骤三：将rowkey划分成连续的多个小区间；

for(int i＝0；i<map个数；i++){

String startRow＝第i个小Rowkey区间开始；

String stopRow＝第i个小Rowkey区间结束；

步骤四：创建多个scan，将小rowkey区间加入scan中

Scan scani＝new Scan(scan0)；

设置scani的开始rowkey为startRow；

设置scani的结束rowkey为stopRow；

将scani添加到一个列表scanList；}

步骤五：将这些scan一起提交给MR；

TableMapReduceUtil.initTableMapperJob(scanList，其他的一些参数)；

通过本方案增加了map task的个数后，大幅度缩短程序的运行时间，提高了运行效率：使得map阶段可以有多个map task并行执行，在map阶段用时缩短到原来的1/3～1/10，效率提升3～10倍；同时，通过增加了map task的个数后，提高了程序运行的稳定性：由于单个map task更简洁精悍，大大降低了map task失败的几率，使得程序运行更加稳定。

实施例3

本实施例提供了一种为Hbase数据库上运行的mapreduce分配Map task的装置，该装置用于实现上述实施例1以及实施例2提供的为Hbase数据库上运行的mapreduce分配Map task的方法，图3是本实施例提供的为Hbase数据库上运行的mapreduce分配Map task的装置的结构框图，如图3所示，该装置30包括如下组成部分：

划分模块31，用于将Hbase数据库的主键Rowkey所标识的范围划分成多个区间；

第一分配模块32，用于为划分后的每个区间分配一个预先创建的scan对象；

第二分配模块33，用于在MapReduce运行时为每个scan对象分配一个Map task。

其中，上述划分模块31具体用于：

将Hbase数据库的主键Rowkey所标识的范围平均划分成多个连续的区间。

进一步的，上述装置30还包括：

第一创建模块，用于在将Hbase数据库的主键Rowkey所标识的范围划分成多个区间之前，创建第一scan对象；设置模块，用于为第一scan对象设置共用属性；第二创建模块，用于在将Hbase数据库的主键Rowkey所标识的范围划分成多个区间之后，以第一scan对象为副本创建与划分后的区间对应的第二scan对象，并将各划分后的区间的开始与结束位置参数加入第二scan对象中。

其中，上述划分模块31具体可以用于：将Rowkey划分为接收到的外部输入的数目或预设的数目个连续的区间。

进一步的，上述装置30还可以包括：提交模块，用于在为每个区间分配一个预先创建的scan对象之后，将分配的所有scan对象提交给MapReduce；确定模块，用于当在Hbase上进行MapReduce统计时，根据统计到的scan对象的数量确定同时执行的Map task的数量。

本实施例提供的方案，对Hbase数据库的主键Rowkey所标识的范围划分为多个区间，并为划分后的每个区间创建一个scan对象，在MapReduce运行时为每个scan对象分配一个Map task，使得Map task的数量增加，从而在Map阶段可以实现多个Map task并行执行，使得Map阶段的时间被大幅度缩短，进而提高了效率。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种为Hbase数据库上运行的MapReduce分配Map task的方法，其特征在于，包括：

将Hbase数据库的主键Rowkey所标识的范围划分成多个区间；

为每个所述区间分配一个预先创建的扫描scan对象；

在MapReduce运行时为每个所述scan对象分配一个Map task。

2.根据权利要求1所述的方法，其特征在于，所述将Hbase数据库的主键Rowkey所标识的范围划分成多个区间，包括：

将所述Rowkey所标识的范围平均划分成多个连续的区间。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在将所述Rowkey所标识的范围划分成多个区间之前，创建第一scan对象；

为所述第一scan对象设置共用属性；

在将所述Rowkey所标识的范围划分成多个区间之后，以所述第一scan对象为副本创建与所述区间对应的第二scan对象，并将所述区间的开始与结束位置参数加入到所述第二scan对象中。

4.根据权利要求1所述的方法，其特征在于，所述将Hbase数据库的主键Rowkey所标识的范围划分成多个区间，包括：

将所述Rowkey划分为接收到的外部输入的数目或预设的数目个连续的区间。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

在为每个所述区间分配一个预先创建的scan对象之后，将分配的所有scan对象提交给所述MapReduce；

6.一种为Hbase数据库上运行的MapReduce分配Map task的装置，其特征在于，包括：

划分模块，用于将Hbase数据库的主键Rowkey所标识的范围划分成多个区间；

第一分配模块，用于为每个所述区间分配一个预先创建的扫描scan对象；

第二分配模块，用于在MapReduce运行时为每个所述scan对象分配一个Map task。

7.根据权利要求6所述的装置，其特征在于，所述划分模块具体用于：

将所述Rowkey所标识的范围平均划分成多个连续的区间。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第一创建模块，用于在将所述Rowkey所标识的范围划分成多个区间之前，创建第一scan对象；

设置模块，用于为所述第一scan对象设置共用属性；

第二创建模块，用于在将所述Rowkey所标识的范围划分成多个区间之后，以所述第一scan对象为副本创建与所述区间对应的第二scan对象，并将所述区间的开始与结束位置参数加入到所述第二scan对象中。

9.根据权利要求6所述的装置，其特征在于，所述划分模块具体用于：

10.根据权利要求6至9任意一项所述的装置，其特征在于，所述装置还包括：

提交模块，用于在为每个所述区间分配一个预先创建的scan对象之后，将分配的所有scan对象提交给所述MapReduce；

确定模块，用于当在Hbase上进行MapReduce统计时，根据统计到的scan对象的数量确定同时执行的Map task的数量。