CN104346447A

CN104346447A - 一种面向混合型大数据处理系统的分区连接方法

Info

Publication number: CN104346447A
Application number: CN201410585204.6A
Authority: CN
Inventors: 亓开元; 卢军佐; 杨勇; 辛国茂
Original assignee: Langchao Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2014-10-28
Filing date: 2014-10-28
Publication date: 2015-02-11

Abstract

本发明提供一种面向混合型大数据处理系统的分区连接方法,本发明提出的面向混合型大数据处理系统的分区连接方法，能够满足行业大数据针对不同处理系统的交互分析业务应用需求，并且通过分区、coprocessr和mapjoin,大大提高了此类分析的性能，并可以进一步应用于基于join的分组、统计、排序等交互分析。通过确定Hive查询分区，减少参与传输、缓存和join过程的数据量，并且充分利用分布式架构优势，使所有节点的缓存过程并行执行，通过在各节点缓存数据，能够加快join执行效率，并且HBase表的数据量和节点数量能够按需扩展。

Description

一种面向混合型大数据处理系统的分区连接方法

技术领域

本发明涉及大数据技术领域, 具体地说是一种面向混合型大数据处理系统的分区连接方法。

背景技术

针对行业大数据业务应用需求，面向数据密集型应用的计算框架和系统不断出现，这些系统仅针对各自的问题域提供解决方案。为了应对行业日益复杂的业务需求，需要在大规模集群或数据中心中综合运用多种处理架构来存储和处理海量数据。因此，当前出现了混合型大数据处理系统，融合了批处理、内存计算、流处理、NoSQL数据库等多种处理模式，如YARN架构，满足行业大数据的实时处理、交互处理、高效检索、深入数据挖掘和商业智能等多样性和多维度需求，在实现资源调度和作业管理分离的基础上，提供对计算、存储和网络等集群资源的统一监控和分配，并解决当前单一数据处理系统普遍存在的管理节点单点失效和安装部署困难等问题，在提高资源利用率的同时促进对大数据技术的全方位有效利用。

在混合型大数据处理系统支持的处理模式中，由于MapReduce、Spark、HBase等都引入了新的编程模型，学习成本较大，因此，基于各类大数据处理系统构建的交互分析应用最为广泛。交互分析的模式和效果与传统数据库应用非常相似的，数据以表的形式存储，应用层采用标准的SQL语句发起各种数据请求，支持对数据扫描、统计、聚合、多表关联等操作的高并发、低延迟的处理。当前出现的基于MapReduce的Hive、基于Spark的Shark都属于这一类交互分析引擎。然而，现有混合型大数据架构中的交互分析引擎，还仅是针对单一的大数据系统，无法实现跨系统的数据处理。例如，当前Hive与HBase中的数据无法直接建立关联，通常的做法是将进行一次数据迁移，在Hive或HBase单一系统中进行，在大量数据情况下造成的数据冗余以及传输延迟都是不可容忍的。为了实现混合型大数据架构中各类处理系统的真正融合，需要研究跨异构系统间的数据交互分析方法，其中比较重要的一种就是关联join分析。

发明内容

本发明的目的是提供一种面向混合型大数据处理系统的分区连接方法。

本发明的目的是按以下方式实现的，本发明提出的面向混合型大数据处理系统的分区连接方法，通过分区、coprocessr和mapjoin方法,大大提高了跨Hive和HBase系统的关联分析性能，能够满足行业大数据针对混合处理系统的交互分析业务应用需求。

面向混合型大数据处理系统基于HBase数据库及基于内存计算引擎的Hive系统构建，交互查询sql语句由客户端发出，包括针对Hive表和HBase表的join操作，以及针对Hive表某个字段的过滤where条件。分区连接方法包括数据准备过程和运行时执行过程。

在数据准备阶段，建立Hive表并按过滤字段分区，按分区导入数据；建立HBase表，将HBase表主键设计为同Hive表一直，并导入数据。

在查询执行阶段客户端Driver解释sql语句，编译执行计划，在客户端构造内存空间、线程池等用于驱动执行的运行时环境。

利用HBase的coprocessor引擎实现分区连接。Coprocessor是一个可构建分布式服务编程模型，在HBase Master和RegionServer进程内的运行时框架执行用户代码，在HBase内实现灵活、轻量级的分布式数据处理功能，并可以随HBase自动扩展和负载均衡等。Coprocessor分为Observer和EndPoint，Observer可以监听HBase Get, Put, Delete, Scan等数据操作，以及元数据和日志操作，可实现类似数据库驱动器的功能；EndPoint属于远过程调用RPC类型的Coprocessor，客户端通过调用PRC接口可按每个row/range的位置自动分片为多个并行的RPC调用，实现类似数据库中存储过程的功能。

在分区连接方法中，客户端调用HBase的Endpoint类型coprocessor ServerCachingProtocal进行数据缓存。在ServerCachingProtocal的实现中，每个RegionServer调用Hive驱动查询分区数据，Hive引擎仅仅针对所需分区执行查询操作，返回结果后，以HashMap形式缓存在内存cache中，并通知客户端。

客户端Driver调用设定scan的类型为join，发出scan调用原语；每个RegionServer的Obesever型coprocessor regionseverScanObserver拦截该join请求，调用MapJoinScanner；MapJoinScanner执行Hash join算法。针对在本RegionSever上扫描结果result中的每个tuple，判断是否在cache中存在相同key的数据，如有，则进行jion处理；各个RegionServer将join结果返回客户端。

上述方法通过确定Hive查询分区，能够大大减少参与数据传输、数据缓存和join过程的数据量，并且充分利用大数据系统的分布式架构使所有节点的缓存过程同时并行执行，减少处理延迟、避免缓存溢出。此外，通过在各节点缓存数据，能够加快join执行效率，并且HBase表的数据量和节点数量能够按需扩展。

本发明的目的有益效果是：本发明提出的面向混合型大数据处理系统的分区连接方法，能够满足行业大数据针对不同处理系统的交互分析业务应用需求，并且通过分区、coprocessr和mapjoin,大大提高了此类分析的性能，并可以进一步应用于基于join的分组、统计、排序等交互分析。

附图说明

图1 是分区连接运行机制和处理过程图。

具体实施方式

参照说明书附图对本发明的作以下详细地说明。

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，如果不冲突，本发明实施例以及实施例中的各个特征的相互均在本发明的保护范围之内。

本发明以一个具体的执行过程为例说明本系统的运行机制和处理过程。

设有Hive系统的表hive_table，包括主键id，分区字段part，内容字段value, HBase系统中表hbase_table, 包括主键id，内容字段value。对此执行如下join查询；

select id,a.value,b.value from hive_table as a

join hbase_table as b on a.id=b.id

where a.part=’2’

1. 数据准备过程

（1）建立Hive表并分区，按分区导入数据。

create table hive_table (

id int,

value string

)

partitioned by(part string)

stored as rcfile;

from datasources

insert overwrite table hive_table partition(part =“1”)

select id, value where part =“1”

insert overwrite table hive_table partition(part =“2”)

select id, value where part =“2”

insert overwrite table hive_table partition(part =“3”)

select id, value where part =“3”；

（2）建立hbase表并导入数据；

create ‘hbase_table’,‘cf’

put ‘hbase_table’, ’001’ ‘cf:value’, ’v’

2. 分区连接方法

select id,a.value,b.value from hive_table as a join hbase_table as b on a.id=b.id where a.part=’2’

分区连接的运行机制和处理过程，如图1所示：

（1）客户端Driver解释sql语句，编译执行计划，在客户端构造内存空间、线程池等用于驱动执行的运行时环境；

（2）客户端调用ServerCachingProtocal进行数据缓存, 在ServerCachingProtocal的实现中，每个RegionServer调用hive驱动查询分区数据，Hive引擎仅仅针对所需分区执行查询操作，返回结果后，以HashMap形式缓存在内存cache中，并通知客户端

ServerCache cache = hashClient.addHashCache(“Hive”,” select id,a.value from hive_table as a where a.part=’2’”)

（3）客户端Driver调用设定scan的类型为join，发出scan调用原语

（4）每个RegionServer的regionseverScanObserver拦截请求，判断为join，调用MapJoinScanner，

（5）MapJoinScanner执行Hash join算法。即针对在本RegionSever上扫描结果result中的每个tuple，判断是否在cache中存在相同key的数据，如有，则进行jion处理。

for(Tuple tupleA: result)

key=getkey(tupleA)

tupleB=cache.get(key)!

if （tupleB!=null）join(tupleA,tupleB)

（6）各个RegionServer将join结果返回客户端。

上例partition方法与完全map join方式相比，减少了数据传输量和参与join的数据量，避免了HBase端缓存溢出的可能性，处理性能提高1/3以上。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种面向混合型大数据处理系统的分区连接方法, 其特征在于, 通过确定Hive查询分区，减少参与传输、缓存和join过程的数据量，并且充分利用分布式架构优势，使所有节点的缓存过程并行执行，通过在各节点缓存数据，能够加快join执行效率，并且HBase表的数据量和节点数量能够按需扩展，其中：

1）在数据准备阶段，建立Hive表并按过滤字段分区，按分区导入数据；建立HBase表，将HBase表主键设计为同Hive表一致，并导入数据；

2）在查询执行阶段，客户端Driver解释sql语句，编译执行计划，在客户端构造内存空间、线程池用于驱动执行的运行时环境；

3）在分区连接方法中，客户端调用HBase的Endpoint类型coprocessor ServerCachingProtocal进行数据缓存，在ServerCachingProtocal的实现中，每个RegionServer调用Hive驱动查询分区数据，Hive引擎仅仅针对所需分区执行查询操作，返回结果后，以HashMap形式缓存在内存cache中，并通知客户端；

4）客户端Driver调用设定scan的类型为join，发出scan调用原语；每个RegionServer的Obesever型coprocessor regionseverScanObserver拦截该join请求，调用MapJoinScanner；MapJoinScanner执行Hash join算法，针对在本RegionSever上扫描结果result中的每个tuple，判断是否在cache中存在相同key的数据，如有，则进行jion处理；各个RegionServer将join结果返回客户端；

系统的运行机制和处理过程如下：

设有Hive系统的表hive_table，包括主键id，分区字段part，内容字段value, HBase系统中表hbase_table, 包括主键id，内容字段value，对此执行如下join查询；