CN105045607A - 一种实现多种大数据计算框架统一接口的方法 - Google Patents

一种实现多种大数据计算框架统一接口的方法 Download PDF

Info

Publication number
CN105045607A
CN105045607A CN201510552031.2A CN201510552031A CN105045607A CN 105045607 A CN105045607 A CN 105045607A CN 201510552031 A CN201510552031 A CN 201510552031A CN 105045607 A CN105045607 A CN 105045607A
Authority
CN
China
Prior art keywords
task
interface
client
hive
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510552031.2A
Other languages
English (en)
Other versions
CN105045607B (zh
Inventor
柴满
徐健
王国辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Qiaogong Technology Co.,Ltd.
Original Assignee
GUANGDONG CREAWOR TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG CREAWOR TECHNOLOGY DEVELOPMENT Co Ltd filed Critical GUANGDONG CREAWOR TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201510552031.2A priority Critical patent/CN105045607B/zh
Publication of CN105045607A publication Critical patent/CN105045607A/zh
Application granted granted Critical
Publication of CN105045607B publication Critical patent/CN105045607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

建立统一的hadoop计算框架接口,实现以统一的接口来访问hadoop的多种计算框架,用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据,实现了多种hadoop计算框架统一接口的方法,让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。

Description

一种实现多种大数据计算框架统一接口的方法
技术领域
建立统一的hadoop计算框架接口,实现以统一的接口来访问hadoop的多种计算框架。用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。
背景技术
在大数据时代,为了存储和处理海量数据,需要规模较大的服务器集群,一般说来,这些集群上运行着数量众多类型纷杂的应用程序和服务,比如离线作业,流式作业,迭代式作业等,传统的做法是,每种类型的作业或者服务对应一个单独的集群,以避免相互干扰。这样,集群被分割成数量众多的小集群,有的集群运行Hadoop,有的运行Spark,等等。然而,由于不同类型的作业/服务需要的资源量不同,因此,这些小集群的利用率通常很不均衡,有的集群满负荷、资源紧张,而另外一些则长时间闲置、资源利用率极低。另外,由于不同计算框架的有不同的调用API,所以需要分别开发每一种计算框架的调用程序,导致开发效率极低。
发明内容
实现了多种hadoop计算框架统一接口的方法,让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。在hadoop之上实现一个任务分析控制器,任务分析控制器对外提供符合JDBC标准的接口,可以接收标准的SQL语句,接收客户端的请求后,任务分析控制器能够自动将SQL请求转化成不同的任务,分发给对应的计算框架执行,并将结果返回给客户端。从而实现了Hive,HBase,Spark,Impala等多种计算框架的统一访问。用户可以透明地调用Hive,HBase,Spark,Impala这几种计算框架,无需根椐不同计算框架的API编写不同的调用程序。
附图说明
图1为本发明一种实现多种大数据计算框架统一接口的方法
的架构图;
具体实施方式
第1步:实现一个元数据管理模块,用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用。
“业务元数据”是从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。用户可以访问“业务元数据”,知道有哪些业务数据可用;
“技术元数据”是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库。系统程序(任务分析控制器)则可以调用“技术元数据”,知道数据存放在什么地方,可以用哪种计算框架去操作。
第2步:实现一个基于JDBC标准接口层
外提供接口服务,接受客户端的请求,可以接收标准的SQL语句,支持多种前台应用和专业BI工具(如Tableau,QlikView等)以JDBC方式访问。
第3步:实现一个任务分析控制器,实现以下功能:
1.根椐“系统元数据”,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive,HBase,Spark,Impala等计算框架执行,如SQL请求中访问的是Hive中的数据,则将请求转化为hive命令,通过调用hiveAPI发送给Hive执行,并将执行结果返回给客户端。
2.实现任务管理和调度控制。因为本方法在一个集群上实现了多种计算框架(Hive,HBase,Spark,Impala),可以统一管理多种计算框架的资源,如CPU,内存等,可以根椐各框架的任务负载,统一调度管理,可以实现任务的队列管理,优先级管理。在集群资源紧张的时候,让优先级低的任务等候。

Claims (5)

1.一种实现多种大数据计算框架统一接口的方法,其特征在于,所述方法包括以下步骤:
1)、实现一个元数据管理模块,用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用;
2)、实现一个基于JDBC标准的接口层,对外提供接口服务,接受客户端的请求;
3)、实现一个任务分析控制器,根椐“系统元数据”,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive,HBase,Spark,Impala等计算框架执行,并将执行结果返回给客户端。
2.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,用户在系统中可以查看元数据,了解系统中的数据,可以向系统发出访问请求。
3.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,系统对外提供JDBC标准的服务接口,客户端可以向系统发出标准SQL请求。
4.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,实现一个任务分析控制器,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive,HBase,Spark,Impala等计算框架执行,并将执行结果返回给客户端。
5.如权利要求5所述的实现多种大数据计算框架统一接口的方法,其特征在于,实现一个任务分析控制器,按请求和数据来分别将任务转到Hive,HBase,Spark,Impala等计算框架上执行,可以根椐各框架的任务负载,统一调度管理,可以实现任务的队列管理,优先级管理,在集群资源紧张的时候,让优先级低的任务等候。
CN201510552031.2A 2015-09-02 2015-09-02 一种实现多种大数据计算框架统一接口的方法 Active CN105045607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510552031.2A CN105045607B (zh) 2015-09-02 2015-09-02 一种实现多种大数据计算框架统一接口的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510552031.2A CN105045607B (zh) 2015-09-02 2015-09-02 一种实现多种大数据计算框架统一接口的方法

Publications (2)

Publication Number Publication Date
CN105045607A true CN105045607A (zh) 2015-11-11
CN105045607B CN105045607B (zh) 2019-03-29

Family

ID=54452172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510552031.2A Active CN105045607B (zh) 2015-09-02 2015-09-02 一种实现多种大数据计算框架统一接口的方法

Country Status (1)

Country Link
CN (1) CN105045607B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787117A (zh) * 2016-03-28 2016-07-20 广东三盟信息科技有限公司 一种云计算环境下大数据节点的自动部署方法及其装置
CN106648871A (zh) * 2016-12-28 2017-05-10 北京奇艺世纪科技有限公司 一种资源管理方法及系统
CN106651221A (zh) * 2017-01-09 2017-05-10 国网宁夏电力公司信息通信公司 基于国网指标体系的通用电力企业数据分析平台
CN106648674A (zh) * 2016-12-28 2017-05-10 北京奇艺世纪科技有限公司 一种大数据计算管理方法及系统
CN106776717A (zh) * 2016-11-16 2017-05-31 北京集奥聚合科技有限公司 一种基于HBase的接口构造方法及系统
CN106777278A (zh) * 2016-12-29 2017-05-31 海尔优家智能科技(北京)有限公司 一种基于Spark的数据处理方法及装置
CN106980509A (zh) * 2017-04-05 2017-07-25 智恒科技股份有限公司 计算总线的计算方法和装置
CN107193854A (zh) * 2016-03-14 2017-09-22 商业对象软件有限公司 用于分布式处理平台的统一客户端
CN107291770A (zh) * 2016-04-11 2017-10-24 中国移动通信集团山西有限公司 一种分布式系统中海量数据的查询方法及装置
CN107402941A (zh) * 2016-07-22 2017-11-28 延边众生云计算科技有限公司 通用数据交换接口及其实现方法
CN107506381A (zh) * 2017-07-21 2017-12-22 中国建设银行股份有限公司 一种大数据分布式调度分析方法、系统装置及存储介质
CN108256046A (zh) * 2018-01-12 2018-07-06 福建星瑞格软件有限公司 大数据处理框架源数据的统一访问通道的实现方法
CN108268529A (zh) * 2016-12-30 2018-07-10 亿阳信通股份有限公司 一种基于业务抽象和多引擎调度的数据汇总方法和系统
CN108388470A (zh) * 2018-01-26 2018-08-10 福建星瑞格软件有限公司 一种大数据任务处理方法及计算机设备
CN108459844A (zh) * 2018-02-06 2018-08-28 福建星瑞格软件有限公司 基于大数据处理框架的任务分类处理方法以及计算机设备
CN109857535A (zh) * 2019-02-18 2019-06-07 国家计算机网络与信息安全管理中心 面向Spark JDBC的任务优先级控制的实现方法及装置
CN110019497A (zh) * 2017-08-07 2019-07-16 北京国双科技有限公司 一种数据读取方法及装置
CN110083625A (zh) * 2019-03-18 2019-08-02 北京奇艺世纪科技有限公司 实时流处理方法、设备、数据处理设备及介质
CN110083624A (zh) * 2019-03-18 2019-08-02 北京奇艺世纪科技有限公司 流数据处理方法、设备、数据处理设备、计算机介质
CN110187869A (zh) * 2019-05-14 2019-08-30 上海直真君智科技有限公司 一种大数据异构存储计算模型间的统一互操作系统及方法
CN110209380A (zh) * 2019-05-30 2019-09-06 上海直真君智科技有限公司 一种面向大数据异构模型的统一动态元数据处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629219A (zh) * 2012-02-27 2012-08-08 北京大学 并行计算框架中的Reduce端自适应负载均衡方法
CN103699445A (zh) * 2013-12-19 2014-04-02 北京奇艺世纪科技有限公司 一种任务调度方法、装置及系统
US20140229221A1 (en) * 2013-02-11 2014-08-14 Amazon Technologies, Inc. Cost-minimizing task scheduler
US20150066646A1 (en) * 2013-08-27 2015-03-05 Yahoo! Inc. Spark satellite clusters to hadoop data stores
CN104731595A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 面向大数据分析的混合计算系统
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629219A (zh) * 2012-02-27 2012-08-08 北京大学 并行计算框架中的Reduce端自适应负载均衡方法
US20140229221A1 (en) * 2013-02-11 2014-08-14 Amazon Technologies, Inc. Cost-minimizing task scheduler
US20150066646A1 (en) * 2013-08-27 2015-03-05 Yahoo! Inc. Spark satellite clusters to hadoop data stores
CN103699445A (zh) * 2013-12-19 2014-04-02 北京奇艺世纪科技有限公司 一种任务调度方法、装置及系统
CN104731595A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 面向大数据分析的混合计算系统
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李永峰等: "集群资源统一管理和调度技术综述", 《华东师范大学学报(自然科学版)》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193854B (zh) * 2016-03-14 2022-02-25 商业对象软件有限公司 用于分布式处理平台的统一客户端
CN107193854A (zh) * 2016-03-14 2017-09-22 商业对象软件有限公司 用于分布式处理平台的统一客户端
CN105787117A (zh) * 2016-03-28 2016-07-20 广东三盟信息科技有限公司 一种云计算环境下大数据节点的自动部署方法及其装置
CN107291770B (zh) * 2016-04-11 2021-04-02 中国移动通信集团山西有限公司 一种分布式系统中海量数据的查询方法及装置
CN107291770A (zh) * 2016-04-11 2017-10-24 中国移动通信集团山西有限公司 一种分布式系统中海量数据的查询方法及装置
CN107402941A (zh) * 2016-07-22 2017-11-28 延边众生云计算科技有限公司 通用数据交换接口及其实现方法
CN106776717A (zh) * 2016-11-16 2017-05-31 北京集奥聚合科技有限公司 一种基于HBase的接口构造方法及系统
CN106648674A (zh) * 2016-12-28 2017-05-10 北京奇艺世纪科技有限公司 一种大数据计算管理方法及系统
CN106648871A (zh) * 2016-12-28 2017-05-10 北京奇艺世纪科技有限公司 一种资源管理方法及系统
CN106777278A (zh) * 2016-12-29 2017-05-31 海尔优家智能科技(北京)有限公司 一种基于Spark的数据处理方法及装置
CN108268529B (zh) * 2016-12-30 2020-12-29 亿阳信通股份有限公司 一种基于业务抽象和多引擎调度的数据汇总方法和系统
CN108268529A (zh) * 2016-12-30 2018-07-10 亿阳信通股份有限公司 一种基于业务抽象和多引擎调度的数据汇总方法和系统
CN106651221A (zh) * 2017-01-09 2017-05-10 国网宁夏电力公司信息通信公司 基于国网指标体系的通用电力企业数据分析平台
CN106980509A (zh) * 2017-04-05 2017-07-25 智恒科技股份有限公司 计算总线的计算方法和装置
CN107506381A (zh) * 2017-07-21 2017-12-22 中国建设银行股份有限公司 一种大数据分布式调度分析方法、系统装置及存储介质
CN110019497B (zh) * 2017-08-07 2021-06-08 北京国双科技有限公司 一种数据读取方法及装置
CN110019497A (zh) * 2017-08-07 2019-07-16 北京国双科技有限公司 一种数据读取方法及装置
CN108256046A (zh) * 2018-01-12 2018-07-06 福建星瑞格软件有限公司 大数据处理框架源数据的统一访问通道的实现方法
CN108388470B (zh) * 2018-01-26 2022-09-16 福建星瑞格软件有限公司 一种大数据任务处理方法及计算机设备
CN108388470A (zh) * 2018-01-26 2018-08-10 福建星瑞格软件有限公司 一种大数据任务处理方法及计算机设备
CN108459844A (zh) * 2018-02-06 2018-08-28 福建星瑞格软件有限公司 基于大数据处理框架的任务分类处理方法以及计算机设备
CN109857535A (zh) * 2019-02-18 2019-06-07 国家计算机网络与信息安全管理中心 面向Spark JDBC的任务优先级控制的实现方法及装置
CN109857535B (zh) * 2019-02-18 2021-06-11 国家计算机网络与信息安全管理中心 面向Spark JDBC的任务优先级控制的实现方法及装置
CN110083625A (zh) * 2019-03-18 2019-08-02 北京奇艺世纪科技有限公司 实时流处理方法、设备、数据处理设备及介质
CN110083624A (zh) * 2019-03-18 2019-08-02 北京奇艺世纪科技有限公司 流数据处理方法、设备、数据处理设备、计算机介质
CN110187869A (zh) * 2019-05-14 2019-08-30 上海直真君智科技有限公司 一种大数据异构存储计算模型间的统一互操作系统及方法
CN110209380A (zh) * 2019-05-30 2019-09-06 上海直真君智科技有限公司 一种面向大数据异构模型的统一动态元数据处理方法

Also Published As

Publication number Publication date
CN105045607B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN105045607A (zh) 一种实现多种大数据计算框架统一接口的方法
US11354314B2 (en) Method for connecting a relational data store's meta data with hadoop
CN109643312B (zh) 托管查询服务
CN109997126B (zh) 事件驱动提取、变换、加载(etl)处理
US11487771B2 (en) Per-node custom code engine for distributed query processing
Gu et al. SHadoop: Improving MapReduce performance by optimizing job execution mechanism in Hadoop clusters
US10412158B2 (en) Dynamic allocation of stateful nodes for healing and load balancing
US10318346B1 (en) Prioritized scheduling of data store access requests
US20180293063A1 (en) Rolling version update deployment utilizing dynamic node allocation
US8819683B2 (en) Scalable distributed compute based on business rules
US20150150017A1 (en) Optimization of map-reduce shuffle performance through shuffler i/o pipeline actions and planning
Lai et al. Towards a framework for large-scale multimedia data storage and processing on Hadoop platform
US9836516B2 (en) Parallel scanners for log based replication
CN107463434A (zh) 一种分布式任务处理方法与设备
US11762860B1 (en) Dynamic concurrency level management for database queries
US10545941B1 (en) Hash based data processing
US10944814B1 (en) Independent resource scheduling for distributed data processing programs
Khanam et al. Map-reduce implementations: survey and performance comparison
CN113076224B (zh) 数据备份方法、数据备份系统、电子设备及可读存储介质
Liu et al. KubFBS: A fine‐grained and balance‐aware scheduling system for deep learning tasks based on kubernetes
Salehian et al. Comparison of spark resource managers and distributed file systems
US9772877B2 (en) Managing I/O operations in a shared file system
US9619153B2 (en) Increase memory scalability using table-specific memory cleanup
Hsu et al. Effective memory reusability based on user distributions in a cloud architecture to support manufacturing ubiquitous computing
US11061734B2 (en) Performing customized data compaction for efficient parallel data processing amongst a set of computing resources

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231023

Address after: 519000 Yunxi Valley Digital Industrial Park, No. 168 Youyou Road, Xiangzhou District, Zhuhai City, Guangdong Province (Block B, Meixi Commercial Plaza), 5th floor, 5-373 (centralized office area)

Patentee after: Zhuhai Qiaogong Technology Co.,Ltd.

Address before: 519080 Units 2 and 4, 2nd Floor, Building 4, Production and Processing Center, No. 1 Software Park Road, Tangjiawan Town, Zhuhai City, Guangdong Province

Patentee before: GUANGDONG CREAWOR TECHNOLOGY DEVELOPMENT Co.,Ltd.