CN104391957A

CN104391957A - 一种针对混合型大数据处理系统的数据交互分析方法

Info

Publication number: CN104391957A
Application number: CN201410710850.0A
Authority: CN
Inventors: 亓开元; 卢军佐; 杨勇; 辛国茂
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2014-12-01
Filing date: 2014-12-01
Publication date: 2015-03-04

Abstract

本发明公开了一种针对混合型大数据处理系统的数据交互分析方法，属于大数据分析技术领域，混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建，交互查询sql语句由客户端发出，包括针对Hive表和HBase表的join操作，其特征在于采用bucketjoin方法进行数据交互，bucketjoin方法包括数据准备过程和运行时执行过程。本发明通过分桶、coprocessr和mapjoin的方式,大大提高了跨Hive和HBase系统的关联分析性能，能够满足行业大数据针对混合处理系统的交互分析业务应用需求。

Description

一种针对混合型大数据处理系统的数据交互分析方法

技术领域

本发明涉及一种大数据分析技术领域，具体地说是一种针对混合型大数据处理系统的数据交互分析方法。

背景技术

为了应对行业日益复杂的业务需求，当前出现一种融合了批处理、内存计算、流处理、NoSQL数据库等多种处理模式的混合型大数据处理系统。在混合型大数据处理系统支持的处理模式中，由于MapReduce、Spark、HBase等都引入了新的编程模型，学习成本较大，因此，基于各类大数据处理系统构建的交互分析应用最为广泛。交互分析的模式和效果与传统数据库应用非常相似的，数据以表的形式存储，应用层采用标准的SQL语句发起各种数据请求，支持对数据扫描、统计、聚合、多表关联等操作的高并发、低延迟的处理。当前出现的基于MapReduce的Hive、基于Spark的Shark都属于这一类交互分析引擎。

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。主要思想为Map（映射）和Reduce（化简）。MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点保持沉默超过一个预设的时间间隔，主节点（类同Google File System中的主服务器）记录下这个节点状态为死亡，并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突；当文件被改名的时候，系统可能会把他们复制到任务名以外的另一个名字上去。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

Spark有分配任务的主节点（Driver）和执行计算的工作节点（Worker）Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。

Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口，为了最大程度的保持和Hive的兼容性，Shark使用了Hive的API来实现query Parsing和 Logic Plan generation，最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用。

HBase是一个分布式的、面向列的开源数据库，该技术来源于Chang et al所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

然而，现有混合型大数据处理系统中的交互分析引擎，还仅是针对单一的大数据系统，无法实现跨系统的数据处理。例如，当前Hive与HBase中的数据无法直接建立关联，通常的做法是将进行一次数据迁移，在Hive或HBase单一系统中进行，在大量数据情况下造成的数据冗余以及传输延迟都是不可容忍的。为了实现混合型大数据架构中各类处理系统的真正融合，需要研究跨异构系统间的数据交互分析方法，其中比较重要的一种就是关联join分析。join又称连接查询，是关系数据库中最主要的查询，主要包括内连接、外连接和交叉连接等；通过连接运算符可以实现多个表查询。

在基于MapReduce的Hive中，join大多采用Hash join（哈希连接）方式，Hash join方式需要将某个表广播到所有处理节点进行全部缓存，因此仅适用于大表和小表的关联情况，否则会因为传输的数据量太大影响性能，甚至造成处理节点内存溢出。

发明内容

本发明的技术任务是提供一种能够减少数据传输量和缓存，通过分桶、coprocessr和map join的方式,大大提高了跨Hive和HBase系统的关联分析性能，能够满足行业大数据针对混合处理系统的交互分析业务应用需求的一种针对混合型大数据处理系统的数据交互分析方法。

本发明的技术任务是按以下方式实现的：

一种针对混合型大数据处理系统的数据交互分析方法，混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建，交互查询sql语句由客户端发出，包括针对Hive表和HBase表的join操作，采用bucket join（桶连接）方法进行数据交互，bucket join方法包括数据准备过程和运行时执行过程；

数据准备过程：建立Hive表并按关联字段join_key分桶，按分桶导入数据，显式的设置参与分桶的reduce（简化）数与分桶数n相同，按照hashCode=join_key % n将数据分别存入n个桶文件；建立hbase表并导入数据，hbase的主键除了表的key外，为了便于做join，在key之前连接join_key的hashCode；

运行时执行过程：客户端Driver解释sql语句，编译执行计划，在客户端构造内存空间、线程池用于驱动执行的运行时环境。

利用HBase coprocessor（HBase协处理器）引擎实现bucket join；Coprocessor是一个可构建分布式服务编程模型，在HBase Master和RegionServer进程内的运行时框架执行用户代码，在HBase内实现灵活、轻量级的分布式数据处理功能，并可以随HBase自动扩展和负载均衡等；Coprocessor分为Observer（观察者）和EndPoint（终端），Observer监听HBase Get、 Put、Delete、Scan数据操作，以及元数据和日志操作，实现类似数据库驱动器的功能；EndPoint属于远过程调用RPC类型的Coprocessor，客户端通过调用PRC接口按每个row或range的位置自动分片为多个并行的RPC调用，实现类似数据库中存储过程的功能。

RegionServer是HBase集群运行在每个工作节点上的服务。它是整个HBase系统的关键所在，一方面它维护了Region（域）的状态，提供了对于Region的管理和服务；另一方面，它与Master交互，上传Region的负载信息上传，参与Master的分布式协调管理。

在bucket join方法中，客户端调用HBase的Endpoint类型coprocessor Server Caching Protocal（协处理器服务器缓存协议）进行数据缓存；在Server Caching Protocal（服务器缓存协议）的实现中，每个Region调用Hive驱动查询分桶数据，Hive引擎仅仅针对所需分桶执行查询操作，返回结果后，以HashMap形式缓存在内存cache中，并通知客户端。

客户端Driver调用设定scan的类型为bucket join，发出scan调用原语；每个Region的Obesever型coprocessor region sever Scan Observer（协处理器地区切断扫描观察）拦截该join请求，调用MapJoin Scanner；Map Join Scanner执行Hash join算法；针对在本Region Sever上扫描结果result中的每个tuple，判断是否在cache中存在相同join_key的数据，如有，则进行join处理；各个Region Server将join结果返回客户端。

本发明的一种针对混合型大数据处理系统的数据交互分析方法具有以下优点：通过对Hive数据和Hbase数据进行分桶，能够大大减少参与数据传输、数据缓存和join过程的数据量，并且充分利用大数据系统的分布式架构使所有节点的缓存过程同时并行执行，减少处理延迟、避免缓存溢出。此外，通过在各节点缓存数据，能够加快join执行效率。Bucket join方法适用于关联字段规模大，重复较少，且不易分类的场景。

附图说明

下面结合附图对本发明进一步说明。

附图1为一种针对混合型大数据处理系统的数据交互分析方法的bucket join运行机制和处理过程。

图中虚线箭头线表示指令流，粗连接线表示数据流，实线箭头线表示指令数据流。

具体实施方式

参照说明书附图和具体实施例对本发明的一种针对混合型大数据处理系统的数据交互分析方法作以下详细地说明。

实施例1：

本发明的一种针对混合型大数据处理系统的数据交互分析方法，混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建，交互查询sql语句由客户端发出，包括针对Hive表和HBase表的join操作，采用bucket join方法进行数据交互，bucket join方法包括数据准备过程和运行时执行过程；

数据准备过程：建立Hive表并按关联字段join_key分桶，按分桶导入数据，显式的设置参与分桶的reduce数与分桶数n相同，按照hashCode=join_key % n将数据分别存入n个桶文件；建立hbase表并导入数据，hbase的主键除了表的key外，为了便于做join，在key之前连接join_key的hashCode；

　　利用HBase coprocessor引擎实现bucket join；Coprocessor是一个可构建分布式服务编程模型，在HBase Master和RegionServer进程内的运行时框架执行用户代码，在HBase内实现灵活、轻量级的分布式数据处理功能，并可以随HBase自动扩展和负载均衡等；Coprocessor分为Observer和EndPoint，Observer监听HBase Get、 Put、Delete、Scan数据操作，以及元数据和日志操作，实现类似数据库驱动器的功能；EndPoint属于远过程调用RPC类型的Coprocessor，客户端通过调用PRC接口按每个row或range的位置自动分片为多个并行的RPC调用，实现类似数据库中存储过程的功能。

在bucket join方法中，客户端调用HBase的Endpoint类型coprocessor Server Caching Protocal进行数据缓存；在Server Caching Protocal的实现中，每个Region调用Hive驱动查询分桶数据，Hive引擎仅仅针对所需分桶执行查询操作，返回结果后，以HashMap形式缓存在内存cache中，并通知客户端。

客户端Driver调用设定scan的类型为bucket join，发出scan调用原语；每个Region的Obesever型coprocessor region sever Scan Observer拦截该join请求，调用MapJoin Scanner；Map Join Scanner执行Hash join算法；针对在本Region Sever上扫描结果result中的每个tuple，判断是否在cache中存在相同join_key的数据，如有，则进行join处理；各个Region Server将join结果返回客户端。

实施例2：

设有Hive系统的表hive_table，包括主键id，内容字段value, HBase系统中表hbase_table, 包括主键id，内容字段value，链接字段join_key为id。对此执行如下join查询

select id,a.value,b.value from hive_table as a

join hbase_table as b on a.id=b.id

1. 数据准备过程

（1）建立Hive表并按id分桶。

create table hive_table (

id int,

value string

)

clustered by(bucket) into 3 buckets

stored as rcfile;

按分桶导入数据，显式的设置参与分桶的reduce数与分桶数相同，按照hashCode=id % 3将数据分别存入三个桶文件。

set hive.enforce.bucketing=true;

set mapred.reduce.tasks=3;

insert overwrite table hive_table select id,value from datasources distribute by (id);

最终hive_table表存储按hash值组织为三个桶。

（2）建立hbase表并导入数据。

create ‘hbase_table’,‘cf’；

hbase的主键除了表的id外，为了偏于做join，在id之前连接id的hashCode，即如某条数据的id为001，该条数据的主键为1_001；

put ‘hbase_table’, ’1_001’ ‘cf:value’, ’v’；

2. Bucket join 方法

select id,a.value,b.value from hive_table as a join hbase_table as b on a.id=b.id

bucket join的运行机制和处理过程如图1所示：

（1）客户端Driver解释sql语句，编译执行计划，在客户端构造内存空间、线程池等用于驱动执行的运行时环境；

（2）客户端调用ServerCachingProtocal进行数据缓存, 在ServerCachingProtocal的实现中，每个region调用hive驱动查询分桶数据，Hive引擎仅仅针对所需分桶执行查询操作，返回结果后，以HashMap形式缓存在内存cache中，并通知客户端

ServerCache cache = hashClient.addHashCache(“Hive”,” select id,a.value from hive_table as a where hashCode=’2’”)；

（3）客户端Driver调用设定scan的类型为join，发出scan调用原语；

（4）每个Region的regionseverScanObserver拦截请求，判断为join，调用MapJoinScanner；

（5）MapJoinScanner执行Hash join算法。即针对在本Region上扫描结果result中的每个tuple的主键的非hashCode部分，判断是否在cache中存在相同key的数据，如有，则进行join处理。

for(Tuple tupleA: result)

pk=getkey(tupleA).split(“_”)

id=pk[1]

tupleB=cache.get(id)!

if （tupleB!=null）join(tupleA,tupleB)

（6）各个RegionServer将join结果返回客户端。

上例bucket join方法与map join方式相比，减少了数据传输量和参与join的数据量，避免了HBase端缓存溢出的可能性，处理性能提高1/3以上。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

Claims

1.一种针对混合型大数据处理系统的数据交互分析方法，混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建，交互查询sql语句由客户端发出，包括针对Hive表和HBase表的join操作，其特征在于采用bucket join方法进行数据交互，bucket join方法包括数据准备过程和运行时执行过程；

数据准备过程：建立Hive表并按关联字段join_key分桶，按分桶导入数据，显式的设置参与分桶的reduce数与分桶数n相同，按照hashCode=join_key % n将数据分别存入n个桶文件；建立hbase表并导入数据，hbase的主键除了表的key外，在key之前连接join_key的hashCode；

2.根据权利要求1所述的一种针对混合型大数据处理系统的数据交互分析方法，其特征在于利用HBase coprocessor引擎实现bucket join； Coprocessor分为Observer和EndPoint，Observer监听HBase Get、 Put、Delete、Scan数据操作，以及元数据和日志操作；EndPoint属于远过程调用RPC类型的Coprocessor，客户端通过调用PRC接口按每个row或range的位置自动分片为多个并行的RPC调用。

3. 根据权利要求1所述的一种针对混合型大数据处理系统的数据交互分析方法，其特征在于在bucket join方法中，客户端调用HBase的Endpoint类型coprocessor Server Caching Protocal进行数据缓存；在Server Caching Protocal的实现中，每个Region调用Hive驱动查询分桶数据，Hive引擎仅仅针对所需分桶执行查询操作，返回结果后，以HashMap形式缓存在内存cache中，并通知客户端。

4.根据权利要求1所述的一种针对混合型大数据处理系统的数据交互分析方法，其特征在于客户端Driver调用设定scan的类型为bucket join，发出scan调用原语；每个Region的Obesever型coprocessor region sever Scan Observer拦截该join请求，调用MapJoin Scanner；Map Join Scanner执行Hash join算法；针对在本Region Sever上扫描结果result中的每个tuple，判断是否在cache中存在相同join_key的数据，如有，则进行join处理；各个Region Server将join结果返回客户端。