CN105045607A

CN105045607A - 一种实现多种大数据计算框架统一接口的方法

Info

Publication number: CN105045607A
Application number: CN201510552031.2A
Authority: CN
Inventors: 柴满; 徐健; 王国辉
Original assignee: GUANGDONG CREAWOR TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: Zhuhai Qiaogong Technology Co.,Ltd.
Priority date: 2015-09-02
Filing date: 2015-09-02
Publication date: 2015-11-11
Anticipated expiration: 2035-09-02
Also published as: CN105045607B

Abstract

建立统一的hadoop计算框架接口，实现以统一的接口来访问hadoop的多种计算框架，用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据，实现了多种hadoop计算框架统一接口的方法，让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。

Description

一种实现多种大数据计算框架统一接口的方法

技术领域

建立统一的hadoop计算框架接口，实现以统一的接口来访问hadoop的多种计算框架。用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。

背景技术

在大数据时代，为了存储和处理海量数据，需要规模较大的服务器集群，一般说来，这些集群上运行着数量众多类型纷杂的应用程序和服务，比如离线作业，流式作业，迭代式作业等，传统的做法是，每种类型的作业或者服务对应一个单独的集群，以避免相互干扰。这样，集群被分割成数量众多的小集群，有的集群运行Hadoop，有的运行Spark，等等。然而，由于不同类型的作业/服务需要的资源量不同，因此，这些小集群的利用率通常很不均衡，有的集群满负荷、资源紧张，而另外一些则长时间闲置、资源利用率极低。另外，由于不同计算框架的有不同的调用API，所以需要分别开发每一种计算框架的调用程序,导致开发效率极低。

发明内容

实现了多种hadoop计算框架统一接口的方法，让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。在hadoop之上实现一个任务分析控制器，任务分析控制器对外提供符合JDBC标准的接口，可以接收标准的SQL语句，接收客户端的请求后，任务分析控制器能够自动将SQL请求转化成不同的任务，分发给对应的计算框架执行，并将结果返回给客户端。从而实现了Hive，HBase，Spark，Impala等多种计算框架的统一访问。用户可以透明地调用Hive，HBase，Spark，Impala这几种计算框架，无需根椐不同计算框架的API编写不同的调用程序。

附图说明

图1为本发明一种实现多种大数据计算框架统一接口的方法

的架构图；

具体实施方式

第1步：实现一个元数据管理模块，用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用。

“业务元数据”是从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。用户可以访问“业务元数据”，知道有哪些业务数据可用；

“技术元数据”是描述关于数据仓库技术细节的数据，这些元数据应用于开发、管理和维护数据仓库。系统程序（任务分析控制器）则可以调用“技术元数据”，知道数据存放在什么地方，可以用哪种计算框架去操作。

第2步：实现一个基于JDBC标准接口层

外提供接口服务，接受客户端的请求，可以接收标准的SQL语句，支持多种前台应用和专业BI工具(如Tableau，QlikView等)以JDBC方式访问。

第3步：实现一个任务分析控制器，实现以下功能：

1．根椐“系统元数据”，将客户端请求的SQL语句转换为不同的计算任务，提交给Hive,HBase,Spark,Impala等计算框架执行，如SQL请求中访问的是Hive中的数据，则将请求转化为hive命令，通过调用hiveAPI发送给Hive执行，并将执行结果返回给客户端。

2．实现任务管理和调度控制。因为本方法在一个集群上实现了多种计算框架（Hive，HBase，Spark，Impala），可以统一管理多种计算框架的资源，如CPU，内存等，可以根椐各框架的任务负载，统一调度管理，可以实现任务的队列管理，优先级管理。在集群资源紧张的时候，让优先级低的任务等候。

Claims

1.一种实现多种大数据计算框架统一接口的方法，其特征在于，所述方法包括以下步骤：

1）、实现一个元数据管理模块，用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用；

2）、实现一个基于JDBC标准的接口层,对外提供接口服务，接受客户端的请求；

3）、实现一个任务分析控制器,根椐“系统元数据”，将客户端请求的SQL语句转换为不同的计算任务，提交给Hive,HBase,Spark,Impala等计算框架执行，并将执行结果返回给客户端。

2.如权利要求1所述的实现多种大数据计算框架统一接口的方法，其特征在于，用户在系统中可以查看元数据，了解系统中的数据，可以向系统发出访问请求。

3.如权利要求1所述的实现多种大数据计算框架统一接口的方法，其特征在于，系统对外提供JDBC标准的服务接口，客户端可以向系统发出标准SQL请求。

4.如权利要求1所述的实现多种大数据计算框架统一接口的方法，其特征在于，实现一个任务分析控制器，将客户端请求的SQL语句转换为不同的计算任务，提交给Hive,HBase,Spark,Impala等计算框架执行，并将执行结果返回给客户端。

5.如权利要求5所述的实现多种大数据计算框架统一接口的方法，其特征在于，实现一个任务分析控制器，按请求和数据来分别将任务转到Hive，HBase，Spark，Impala等计算框架上执行，可以根椐各框架的任务负载，统一调度管理，可以实现任务的队列管理，优先级管理，在集群资源紧张的时候，让优先级低的任务等候。