CN105045607A - 一种实现多种大数据计算框架统一接口的方法 - Google Patents
一种实现多种大数据计算框架统一接口的方法 Download PDFInfo
- Publication number
- CN105045607A CN105045607A CN201510552031.2A CN201510552031A CN105045607A CN 105045607 A CN105045607 A CN 105045607A CN 201510552031 A CN201510552031 A CN 201510552031A CN 105045607 A CN105045607 A CN 105045607A
- Authority
- CN
- China
- Prior art keywords
- task
- interface
- client
- hive
- spark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000004364 calculation method Methods 0.000 title claims abstract description 7
- 241000282813 Aepyceros melampus Species 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 208000019901 Anxiety disease Diseases 0.000 claims description 2
- 230000036506 anxiety Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
建立统一的hadoop计算框架接口,实现以统一的接口来访问hadoop的多种计算框架,用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据,实现了多种hadoop计算框架统一接口的方法,让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。
Description
技术领域
建立统一的hadoop计算框架接口,实现以统一的接口来访问hadoop的多种计算框架。用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。
背景技术
在大数据时代,为了存储和处理海量数据,需要规模较大的服务器集群,一般说来,这些集群上运行着数量众多类型纷杂的应用程序和服务,比如离线作业,流式作业,迭代式作业等,传统的做法是,每种类型的作业或者服务对应一个单独的集群,以避免相互干扰。这样,集群被分割成数量众多的小集群,有的集群运行Hadoop,有的运行Spark,等等。然而,由于不同类型的作业/服务需要的资源量不同,因此,这些小集群的利用率通常很不均衡,有的集群满负荷、资源紧张,而另外一些则长时间闲置、资源利用率极低。另外,由于不同计算框架的有不同的调用API,所以需要分别开发每一种计算框架的调用程序,导致开发效率极低。
发明内容
实现了多种hadoop计算框架统一接口的方法,让用户通过JDBC接口透明访问Hive、HBase、spark、Impala等框架中的数据。在hadoop之上实现一个任务分析控制器,任务分析控制器对外提供符合JDBC标准的接口,可以接收标准的SQL语句,接收客户端的请求后,任务分析控制器能够自动将SQL请求转化成不同的任务,分发给对应的计算框架执行,并将结果返回给客户端。从而实现了Hive,HBase,Spark,Impala等多种计算框架的统一访问。用户可以透明地调用Hive,HBase,Spark,Impala这几种计算框架,无需根椐不同计算框架的API编写不同的调用程序。
附图说明
图1为本发明一种实现多种大数据计算框架统一接口的方法
的架构图;
具体实施方式
第1步:实现一个元数据管理模块,用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用。
“业务元数据”是从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。用户可以访问“业务元数据”,知道有哪些业务数据可用;
“技术元数据”是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库。系统程序(任务分析控制器)则可以调用“技术元数据”,知道数据存放在什么地方,可以用哪种计算框架去操作。
第2步:实现一个基于JDBC标准接口层
外提供接口服务,接受客户端的请求,可以接收标准的SQL语句,支持多种前台应用和专业BI工具(如Tableau,QlikView等)以JDBC方式访问。
第3步:实现一个任务分析控制器,实现以下功能:
1.根椐“系统元数据”,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive,HBase,Spark,Impala等计算框架执行,如SQL请求中访问的是Hive中的数据,则将请求转化为hive命令,通过调用hiveAPI发送给Hive执行,并将执行结果返回给客户端。
2.实现任务管理和调度控制。因为本方法在一个集群上实现了多种计算框架(Hive,HBase,Spark,Impala),可以统一管理多种计算框架的资源,如CPU,内存等,可以根椐各框架的任务负载,统一调度管理,可以实现任务的队列管理,优先级管理。在集群资源紧张的时候,让优先级低的任务等候。
Claims (5)
1.一种实现多种大数据计算框架统一接口的方法,其特征在于,所述方法包括以下步骤:
1)、实现一个元数据管理模块,用数据库保存hadoop中的“技术元数据”和“业务元数据”,供用户和任务分析控制器调用;
2)、实现一个基于JDBC标准的接口层,对外提供接口服务,接受客户端的请求;
3)、实现一个任务分析控制器,根椐“系统元数据”,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive,HBase,Spark,Impala等计算框架执行,并将执行结果返回给客户端。
2.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,用户在系统中可以查看元数据,了解系统中的数据,可以向系统发出访问请求。
3.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,系统对外提供JDBC标准的服务接口,客户端可以向系统发出标准SQL请求。
4.如权利要求1所述的实现多种大数据计算框架统一接口的方法,其特征在于,实现一个任务分析控制器,将客户端请求的SQL语句转换为不同的计算任务,提交给Hive,HBase,Spark,Impala等计算框架执行,并将执行结果返回给客户端。
5.如权利要求5所述的实现多种大数据计算框架统一接口的方法,其特征在于,实现一个任务分析控制器,按请求和数据来分别将任务转到Hive,HBase,Spark,Impala等计算框架上执行,可以根椐各框架的任务负载,统一调度管理,可以实现任务的队列管理,优先级管理,在集群资源紧张的时候,让优先级低的任务等候。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510552031.2A CN105045607B (zh) | 2015-09-02 | 2015-09-02 | 一种实现多种大数据计算框架统一接口的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510552031.2A CN105045607B (zh) | 2015-09-02 | 2015-09-02 | 一种实现多种大数据计算框架统一接口的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105045607A true CN105045607A (zh) | 2015-11-11 |
CN105045607B CN105045607B (zh) | 2019-03-29 |
Family
ID=54452172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510552031.2A Active CN105045607B (zh) | 2015-09-02 | 2015-09-02 | 一种实现多种大数据计算框架统一接口的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105045607B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787117A (zh) * | 2016-03-28 | 2016-07-20 | 广东三盟信息科技有限公司 | 一种云计算环境下大数据节点的自动部署方法及其装置 |
CN106648871A (zh) * | 2016-12-28 | 2017-05-10 | 北京奇艺世纪科技有限公司 | 一种资源管理方法及系统 |
CN106651221A (zh) * | 2017-01-09 | 2017-05-10 | 国网宁夏电力公司信息通信公司 | 基于国网指标体系的通用电力企业数据分析平台 |
CN106648674A (zh) * | 2016-12-28 | 2017-05-10 | 北京奇艺世纪科技有限公司 | 一种大数据计算管理方法及系统 |
CN106776717A (zh) * | 2016-11-16 | 2017-05-31 | 北京集奥聚合科技有限公司 | 一种基于HBase的接口构造方法及系统 |
CN106777278A (zh) * | 2016-12-29 | 2017-05-31 | 海尔优家智能科技(北京)有限公司 | 一种基于Spark的数据处理方法及装置 |
CN106980509A (zh) * | 2017-04-05 | 2017-07-25 | 智恒科技股份有限公司 | 计算总线的计算方法和装置 |
CN107193854A (zh) * | 2016-03-14 | 2017-09-22 | 商业对象软件有限公司 | 用于分布式处理平台的统一客户端 |
CN107291770A (zh) * | 2016-04-11 | 2017-10-24 | 中国移动通信集团山西有限公司 | 一种分布式系统中海量数据的查询方法及装置 |
CN107402941A (zh) * | 2016-07-22 | 2017-11-28 | 延边众生云计算科技有限公司 | 通用数据交换接口及其实现方法 |
CN107506381A (zh) * | 2017-07-21 | 2017-12-22 | 中国建设银行股份有限公司 | 一种大数据分布式调度分析方法、系统装置及存储介质 |
CN108256046A (zh) * | 2018-01-12 | 2018-07-06 | 福建星瑞格软件有限公司 | 大数据处理框架源数据的统一访问通道的实现方法 |
CN108268529A (zh) * | 2016-12-30 | 2018-07-10 | 亿阳信通股份有限公司 | 一种基于业务抽象和多引擎调度的数据汇总方法和系统 |
CN108388470A (zh) * | 2018-01-26 | 2018-08-10 | 福建星瑞格软件有限公司 | 一种大数据任务处理方法及计算机设备 |
CN108459844A (zh) * | 2018-02-06 | 2018-08-28 | 福建星瑞格软件有限公司 | 基于大数据处理框架的任务分类处理方法以及计算机设备 |
CN109857535A (zh) * | 2019-02-18 | 2019-06-07 | 国家计算机网络与信息安全管理中心 | 面向Spark JDBC的任务优先级控制的实现方法及装置 |
CN110019497A (zh) * | 2017-08-07 | 2019-07-16 | 北京国双科技有限公司 | 一种数据读取方法及装置 |
CN110083625A (zh) * | 2019-03-18 | 2019-08-02 | 北京奇艺世纪科技有限公司 | 实时流处理方法、设备、数据处理设备及介质 |
CN110083624A (zh) * | 2019-03-18 | 2019-08-02 | 北京奇艺世纪科技有限公司 | 流数据处理方法、设备、数据处理设备、计算机介质 |
CN110187869A (zh) * | 2019-05-14 | 2019-08-30 | 上海直真君智科技有限公司 | 一种大数据异构存储计算模型间的统一互操作系统及方法 |
CN110209380A (zh) * | 2019-05-30 | 2019-09-06 | 上海直真君智科技有限公司 | 一种面向大数据异构模型的统一动态元数据处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629219A (zh) * | 2012-02-27 | 2012-08-08 | 北京大学 | 并行计算框架中的Reduce端自适应负载均衡方法 |
CN103699445A (zh) * | 2013-12-19 | 2014-04-02 | 北京奇艺世纪科技有限公司 | 一种任务调度方法、装置及系统 |
US20140229221A1 (en) * | 2013-02-11 | 2014-08-14 | Amazon Technologies, Inc. | Cost-minimizing task scheduler |
US20150066646A1 (en) * | 2013-08-27 | 2015-03-05 | Yahoo! Inc. | Spark satellite clusters to hadoop data stores |
CN104731595A (zh) * | 2015-03-26 | 2015-06-24 | 江苏物联网研究发展中心 | 面向大数据分析的混合计算系统 |
CN104834561A (zh) * | 2015-04-29 | 2015-08-12 | 华为技术有限公司 | 一种数据处理方法及装置 |
-
2015
- 2015-09-02 CN CN201510552031.2A patent/CN105045607B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629219A (zh) * | 2012-02-27 | 2012-08-08 | 北京大学 | 并行计算框架中的Reduce端自适应负载均衡方法 |
US20140229221A1 (en) * | 2013-02-11 | 2014-08-14 | Amazon Technologies, Inc. | Cost-minimizing task scheduler |
US20150066646A1 (en) * | 2013-08-27 | 2015-03-05 | Yahoo! Inc. | Spark satellite clusters to hadoop data stores |
CN103699445A (zh) * | 2013-12-19 | 2014-04-02 | 北京奇艺世纪科技有限公司 | 一种任务调度方法、装置及系统 |
CN104731595A (zh) * | 2015-03-26 | 2015-06-24 | 江苏物联网研究发展中心 | 面向大数据分析的混合计算系统 |
CN104834561A (zh) * | 2015-04-29 | 2015-08-12 | 华为技术有限公司 | 一种数据处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
李永峰等: "集群资源统一管理和调度技术综述", 《华东师范大学学报(自然科学版)》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193854B (zh) * | 2016-03-14 | 2022-02-25 | 商业对象软件有限公司 | 用于分布式处理平台的统一客户端 |
CN107193854A (zh) * | 2016-03-14 | 2017-09-22 | 商业对象软件有限公司 | 用于分布式处理平台的统一客户端 |
CN105787117A (zh) * | 2016-03-28 | 2016-07-20 | 广东三盟信息科技有限公司 | 一种云计算环境下大数据节点的自动部署方法及其装置 |
CN107291770B (zh) * | 2016-04-11 | 2021-04-02 | 中国移动通信集团山西有限公司 | 一种分布式系统中海量数据的查询方法及装置 |
CN107291770A (zh) * | 2016-04-11 | 2017-10-24 | 中国移动通信集团山西有限公司 | 一种分布式系统中海量数据的查询方法及装置 |
CN107402941A (zh) * | 2016-07-22 | 2017-11-28 | 延边众生云计算科技有限公司 | 通用数据交换接口及其实现方法 |
CN106776717A (zh) * | 2016-11-16 | 2017-05-31 | 北京集奥聚合科技有限公司 | 一种基于HBase的接口构造方法及系统 |
CN106648674A (zh) * | 2016-12-28 | 2017-05-10 | 北京奇艺世纪科技有限公司 | 一种大数据计算管理方法及系统 |
CN106648871A (zh) * | 2016-12-28 | 2017-05-10 | 北京奇艺世纪科技有限公司 | 一种资源管理方法及系统 |
CN106777278A (zh) * | 2016-12-29 | 2017-05-31 | 海尔优家智能科技(北京)有限公司 | 一种基于Spark的数据处理方法及装置 |
CN108268529B (zh) * | 2016-12-30 | 2020-12-29 | 亿阳信通股份有限公司 | 一种基于业务抽象和多引擎调度的数据汇总方法和系统 |
CN108268529A (zh) * | 2016-12-30 | 2018-07-10 | 亿阳信通股份有限公司 | 一种基于业务抽象和多引擎调度的数据汇总方法和系统 |
CN106651221A (zh) * | 2017-01-09 | 2017-05-10 | 国网宁夏电力公司信息通信公司 | 基于国网指标体系的通用电力企业数据分析平台 |
CN106980509A (zh) * | 2017-04-05 | 2017-07-25 | 智恒科技股份有限公司 | 计算总线的计算方法和装置 |
CN107506381A (zh) * | 2017-07-21 | 2017-12-22 | 中国建设银行股份有限公司 | 一种大数据分布式调度分析方法、系统装置及存储介质 |
CN110019497B (zh) * | 2017-08-07 | 2021-06-08 | 北京国双科技有限公司 | 一种数据读取方法及装置 |
CN110019497A (zh) * | 2017-08-07 | 2019-07-16 | 北京国双科技有限公司 | 一种数据读取方法及装置 |
CN108256046A (zh) * | 2018-01-12 | 2018-07-06 | 福建星瑞格软件有限公司 | 大数据处理框架源数据的统一访问通道的实现方法 |
CN108388470B (zh) * | 2018-01-26 | 2022-09-16 | 福建星瑞格软件有限公司 | 一种大数据任务处理方法及计算机设备 |
CN108388470A (zh) * | 2018-01-26 | 2018-08-10 | 福建星瑞格软件有限公司 | 一种大数据任务处理方法及计算机设备 |
CN108459844A (zh) * | 2018-02-06 | 2018-08-28 | 福建星瑞格软件有限公司 | 基于大数据处理框架的任务分类处理方法以及计算机设备 |
CN109857535A (zh) * | 2019-02-18 | 2019-06-07 | 国家计算机网络与信息安全管理中心 | 面向Spark JDBC的任务优先级控制的实现方法及装置 |
CN109857535B (zh) * | 2019-02-18 | 2021-06-11 | 国家计算机网络与信息安全管理中心 | 面向Spark JDBC的任务优先级控制的实现方法及装置 |
CN110083625A (zh) * | 2019-03-18 | 2019-08-02 | 北京奇艺世纪科技有限公司 | 实时流处理方法、设备、数据处理设备及介质 |
CN110083624A (zh) * | 2019-03-18 | 2019-08-02 | 北京奇艺世纪科技有限公司 | 流数据处理方法、设备、数据处理设备、计算机介质 |
CN110187869A (zh) * | 2019-05-14 | 2019-08-30 | 上海直真君智科技有限公司 | 一种大数据异构存储计算模型间的统一互操作系统及方法 |
CN110209380A (zh) * | 2019-05-30 | 2019-09-06 | 上海直真君智科技有限公司 | 一种面向大数据异构模型的统一动态元数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105045607B (zh) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105045607A (zh) | 一种实现多种大数据计算框架统一接口的方法 | |
US11354314B2 (en) | Method for connecting a relational data store's meta data with hadoop | |
CN109643312B (zh) | 托管查询服务 | |
CN109997126B (zh) | 事件驱动提取、变换、加载(etl)处理 | |
US11487771B2 (en) | Per-node custom code engine for distributed query processing | |
Gu et al. | SHadoop: Improving MapReduce performance by optimizing job execution mechanism in Hadoop clusters | |
US10412158B2 (en) | Dynamic allocation of stateful nodes for healing and load balancing | |
US10318346B1 (en) | Prioritized scheduling of data store access requests | |
US20180293063A1 (en) | Rolling version update deployment utilizing dynamic node allocation | |
US8819683B2 (en) | Scalable distributed compute based on business rules | |
US20150150017A1 (en) | Optimization of map-reduce shuffle performance through shuffler i/o pipeline actions and planning | |
Lai et al. | Towards a framework for large-scale multimedia data storage and processing on Hadoop platform | |
US9836516B2 (en) | Parallel scanners for log based replication | |
CN107463434A (zh) | 一种分布式任务处理方法与设备 | |
US11762860B1 (en) | Dynamic concurrency level management for database queries | |
US10545941B1 (en) | Hash based data processing | |
US10944814B1 (en) | Independent resource scheduling for distributed data processing programs | |
Khanam et al. | Map-reduce implementations: survey and performance comparison | |
CN113076224B (zh) | 数据备份方法、数据备份系统、电子设备及可读存储介质 | |
Liu et al. | KubFBS: A fine‐grained and balance‐aware scheduling system for deep learning tasks based on kubernetes | |
Salehian et al. | Comparison of spark resource managers and distributed file systems | |
US9772877B2 (en) | Managing I/O operations in a shared file system | |
US9619153B2 (en) | Increase memory scalability using table-specific memory cleanup | |
Hsu et al. | Effective memory reusability based on user distributions in a cloud architecture to support manufacturing ubiquitous computing | |
US11061734B2 (en) | Performing customized data compaction for efficient parallel data processing amongst a set of computing resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231023 Address after: 519000 Yunxi Valley Digital Industrial Park, No. 168 Youyou Road, Xiangzhou District, Zhuhai City, Guangdong Province (Block B, Meixi Commercial Plaza), 5th floor, 5-373 (centralized office area) Patentee after: Zhuhai Qiaogong Technology Co.,Ltd. Address before: 519080 Units 2 and 4, 2nd Floor, Building 4, Production and Processing Center, No. 1 Software Park Road, Tangjiawan Town, Zhuhai City, Guangdong Province Patentee before: GUANGDONG CREAWOR TECHNOLOGY DEVELOPMENT Co.,Ltd. |