CN108459844A - 基于大数据处理框架的任务分类处理方法以及计算机设备 - Google Patents

基于大数据处理框架的任务分类处理方法以及计算机设备 Download PDF

Info

Publication number
CN108459844A
CN108459844A CN201810116385.6A CN201810116385A CN108459844A CN 108459844 A CN108459844 A CN 108459844A CN 201810116385 A CN201810116385 A CN 201810116385A CN 108459844 A CN108459844 A CN 108459844A
Authority
CN
China
Prior art keywords
task
big data
tasks
request
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810116385.6A
Other languages
English (en)
Inventor
卞信铨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Star Software Co Ltd
Original Assignee
Fujian Star Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Star Software Co Ltd filed Critical Fujian Star Software Co Ltd
Priority to CN201810116385.6A priority Critical patent/CN108459844A/zh
Publication of CN108459844A publication Critical patent/CN108459844A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于大数据处理框架的任务分类处理方法,将所有类型的大数据平台请求任务进行分类;根据请求任务的类型,将调用该任务接口将请求任务数据提交至大数据平台;根据请求任务数据调用对应的大数据框架的任务接口;大数据处理框架接收所述请求任务数据,构建大数据处理框架上下文;请求任务所需源数据,执行任务,输出结果;本发明提供一种计算机设备,提高了大数据平台应用的开发效率,节约了大量的开发资源。

Description

基于大数据处理框架的任务分类处理方法以及计算机设备
技术领域
本发明涉及一种基于大数据处理框架的任务分类处理方法以及计算机设备。
背景技术
大数据处理框架负责对大数据系统中的数据进行计算(管理和处理)的框架系统。数据包括从持久存储中读取的数据或通过消息队列等方式接入到系统中的数据,而计算则是从数据中提取信息的过程。现在每种大数据计算框架都支持多种的大数据计算类型,例如支持Query的SQL运算基本每个大数据计算框架都支持,就是没有直接支持的也可以使用间接的方式实现。那么也就意味着一种类型的大数据计算请求是可以把请求发送到多个大数据处理框架进行执行,只是每个框架执行的效率及方式不同,此时大家基本都是通过输入、输出、性能、使用资源等全盘考虑,择优选择。其他类型的大数据处理也是如此例如OLAP、流计算、搜索查询、图计算、机器学习等。在大数据平台上每个大数据处理框架往往背后都带有一个默认指定的兼容较好的大数据存储框架,那么在大数据平台上实现不同类型的大数据处理运算,把任务提交到某个框架上,往往需要的数据源一部分来自持久存储的大数据存储框架或者其他存储框架或者消息队列方式接入的流数据,其他的数据源都是来至大数据处理框架,因为其背后都带有存储框架,此时大数据处理框架就成了数据源。正如前面提到的每个任务具体使用哪个框架是通过输入、输出、性能、使用资源等全盘考虑,择优选择。如果要在一个应用程序系统中可以针对相同类型的任务使用不同的处理框架,需要对每个处理框架逐一实现,而且当提交任务的时候需要涉及大量关于执行框架的信息,如果需要对每个大数据处理框架的支持,这样客户端就比较庞大臃肿。
发明内容
本发明要解决的技术问题,在于提供一种基于大数据处理框架的任务分类处理方法以及计算机设备,提高了大数据平台应用的开发效率,节约了大量的开发资源。
本发明之一是这样实现的:一种基于大数据处理框架的任务分类处理方法,包括:
步骤1、将所有类型的大数据平台请求任务进行分类;
步骤2、根据请求任务的类型,将调用该任务接口将请求任务数据提交至大数据平台;根据请求任务数据调用对应的大数据框架的任务接口;;
步骤3、大数据处理框架接收所述请求任务数据,构建大数据处理框架上下文;
步骤4、请求任务所需源数据,执行任务,输出结果。
进一步地,所述步骤1进一步具体为:将所有类型的大数据平台请求任务进行分类,所述分类类型包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务。
进一步地,所述步骤4进一步具体为:请求任务所需源数据,执行任务,将输出的结果按照指定的封装类型进行封装,输出结果。
本发明之二是这样实现的:一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
步骤1、将所有类型的大数据平台请求任务进行分类;
步骤2、根据请求任务的类型,将调用该任务接口将请求任务数据提交至大数据平台;根据请求任务数据调用对应的大数据框架的任务接口;;
步骤3、大数据处理框架接收所述请求任务数据,构建大数据处理框架上下文;
步骤4、请求任务所需源数据,执行任务,输出结果。
进一步地,所述步骤1进一步具体为:将所有类型的大数据平台请求任务进行分类,所述分类类型包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务。
进一步地,所述步骤4进一步具体为:请求任务所需源数据,执行任务,将输出的结果按照指定的封装类型进行封装,输出结果。
本发明具有如下优点:一种基于大数据处理框架的任务分类处理方法以及计算机设备,降低了大数据平台使用的技术门槛,开发人员可以专注于业务的逻辑,不要过多的关注与后台技术的细节;提高了大数据平台应用的开发效率,节约了大量的开发资源;通过访问接口的统一,节约大量的系统资源,提高了大数据平台应用的性能;简化了大数据平台客户端的复杂性,提高了整体的运行成本,及部署成本。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
具体实施方式
本发明基于大数据处理框架的任务分类处理方法,包括:
步骤1、将所有类型的大数据平台请求任务进行分类,所述分类类型包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务;
步骤2、根据请求任务的类型,将调用该任务接口将请求任务数据提交至大数据平台;根据请求任务数据调用对应的大数据框架的任务接口;;
步骤3、大数据处理框架接收所述请求任务数据,构建大数据处理框架上下文;
步骤4、请求任务所需源数据,执行任务,将输出的结果按照指定的封装类型进行封装,输出结果。
本发明计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
步骤1、将所有类型的大数据平台请求任务进行分类,所述分类类型包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务;
步骤2、根据请求任务的类型,将调用该任务接口将请求任务数据提交至大数据平台;根据请求任务数据调用对应的大数据框架的任务接口;;
步骤3、大数据处理框架接收所述请求任务数据,构建大数据处理框架上下文;
步骤4、请求任务所需源数据,执行任务,将输出的结果按照指定的封装类型进行封装,输出结果。
本发明一种具体实施方式:
本发明的设计思想是通过设置统一大数据平台访问入口,将大数据处理任务进行归类,每种类型使用统一接口的方式访问,提交任务的时候指定具体的执行框架,无需关心指定的大数据执行框架怎么接受此执行任务,例如Query的SQL运算,通过提交统一的SQL语句到大数据平台指定执行框架,无需直接调用此框架的Query的接口,无需关心此框架怎么解析SQL语句,无需管理及参与SQL运算的数据源的获取。
方案结构:
任务分类、任务执行、参数适配、数据获取、结果集封装。
整体的方案结构与流程如图所示,现将大数据平台请求的任务分为Query任务、OLAP任务、Stream任务、Search任务和其他任务(所述其他任务为除Query任务、OLAP任务、Stream任务以及Search任务以外的所有任务),Query任务,用于执行用SQL语言表达的业务逻辑任务;OLAP任务,用于执行多维分析处理的业务任务;Stream任务,用于处理流数据计算的任务;Search任务,用于处理搜索及全文检索类的业务类型任务;如果后期在其他任务中还能归类,还可以归类出独立的任务项,例如归类出图计算任务,机器学习任务,深度学习任务等。
任务分类,原来是直接调用大数据处理框架的任务接口,那么不同的框架,不同的任务接口需要独立的实现,现在只需要通过统一通用的业务描述方式,根据任务类型调用对应的任务驱动访问入口,此描述与大数据处理框架无关,当需要调整其他框架计算时,只需要修改使用框架的配置信息即可。其他驱动访问入口将调用原来的大数据处理框架的任务接口。
在本任务分类模块中会实现集成的大数据处理框架的各种类型任务的接口的实现,当用户提交具体的业务描述和指定执行的框架,任务分类模块会将具体的业务描述改写为指定执行框架所需要的任务执行的描述,调度对应的接口执行。
接收通用的任务描述,例如关系型查询,使用SQL语言描述具体的业务逻辑。
将SQL语句提交到Quary驱动中执行,例如指定为Hive为执行引擎。
任务分类模块会自动将SQL语句通过调用集成的Hive处理框架(可以通过多种访问接口调用thrift,restful等),来执行SQL语句;
如果将执行引擎改为Spark,会在任务分类模块中先启动一个SparkContext然后将调用SQL语句执行;
任务执行,本模块对接了如Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase、MySQL等,每个大数据处理框架,通过提交的消息或者参数设置,将发送过来的任务调度到对应的框架上面执行,根据不同的框架及消息获取对应的执行参数,构建框架的任务上下文,在上下文中获取数据源,一部分来自大数据存储框架或者其他存储框架,通过数据获取模块获取数据,其他的数据源都是来至大数据处理框架,此时大数据处理框架就成了数据源。此时就需要递归调用大数据平台获取数据源,最后执行对应的任务,输出结果集。
数据获取,本模块用于获取大数据处理任务需要的数据源,与整个大数据平台一起提供数据源服务,这里包括不同的大数据处理框架的数据源,JDBC的数据源,NoSQL的数据源,大数据存储框架的数据源等。
结果集封装,任务执行模块输出结果集后通过本模块进行结果集封装,按照通讯消息或者参数设置来指定要封装的类型及输出的通道。
没有任务分类之前,每个大数据处理框架能处理的每种类型任务,都需要独立的开发对应的应用程序,如果遇到一个业务需要使用多个处理框架,多个类型的任务,需要开发及维护多个应用程序,或者维护一个汇总了多个应用程序的一个应用程序。任务分类后,只要按照任务类型对应的输入描述业务逻辑,指定对应的处理框架,执行具体的业务即可。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (6)

1.一种基于大数据处理框架的任务分类处理方法,其特征在于:包括:
步骤1、将所有类型的大数据平台请求任务进行分类;
步骤2、根据请求任务的类型,将调用该任务接口将请求任务数据提交至大数据平台;根据请求任务数据调用对应的大数据框架的任务接口;;
步骤3、大数据处理框架接收所述请求任务数据,构建大数据处理框架上下文;
步骤4、请求任务所需源数据,执行任务,输出结果。
2.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法,其特征在于:所述步骤1进一步具体为:将所有类型的大数据平台请求任务进行分类,所述分类类型包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务。
3.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法,其特征在于:所述步骤4进一步具体为:请求任务所需源数据,执行任务,将输出的结果按照指定的封装类型进行封装,输出结果。
4.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现以下步骤:
步骤1、将所有类型的大数据平台请求任务进行分类;
步骤2、根据请求任务的类型,将调用该任务接口将请求任务数据提交至大数据平台;根据请求任务数据调用对应的大数据框架的任务接口;;
步骤3、大数据处理框架接收所述请求任务数据,构建大数据处理框架上下文;
步骤4、请求任务所需源数据,执行任务,输出结果。
5.根据权利要求4所述的一种基于大数据处理框架的任务分类处理方法,其特征在于:所述步骤1进一步具体为:将所有类型的大数据平台请求任务进行分类,所述分类类型包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务。
6.根据权利要求4所述的一种基于大数据处理框架的任务分类处理方法,其特征在于:所述步骤4进一步具体为:请求任务所需源数据,执行任务,将输出的结果按照指定的封装类型进行封装,输出结果。
CN201810116385.6A 2018-02-06 2018-02-06 基于大数据处理框架的任务分类处理方法以及计算机设备 Pending CN108459844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810116385.6A CN108459844A (zh) 2018-02-06 2018-02-06 基于大数据处理框架的任务分类处理方法以及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810116385.6A CN108459844A (zh) 2018-02-06 2018-02-06 基于大数据处理框架的任务分类处理方法以及计算机设备

Publications (1)

Publication Number Publication Date
CN108459844A true CN108459844A (zh) 2018-08-28

Family

ID=63239498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810116385.6A Pending CN108459844A (zh) 2018-02-06 2018-02-06 基于大数据处理框架的任务分类处理方法以及计算机设备

Country Status (1)

Country Link
CN (1) CN108459844A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110826A (zh) * 2021-03-31 2021-07-13 北京靠谱云科技有限公司 一种云接口聚合层统一管控api的方法
CN115688054A (zh) * 2023-01-04 2023-02-03 成都中轨轨道设备有限公司 一种基于大数据处理框架的任务分类处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045607A (zh) * 2015-09-02 2015-11-11 广东创我科技发展有限公司 一种实现多种大数据计算框架统一接口的方法
US9519679B2 (en) * 2015-01-19 2016-12-13 Sas Institute Inc. Techniques for query homogenization in cache operations
CN106325984A (zh) * 2015-06-30 2017-01-11 上海证大喜马拉雅网络科技有限公司 一种大数据任务调度装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9519679B2 (en) * 2015-01-19 2016-12-13 Sas Institute Inc. Techniques for query homogenization in cache operations
CN106325984A (zh) * 2015-06-30 2017-01-11 上海证大喜马拉雅网络科技有限公司 一种大数据任务调度装置
CN105045607A (zh) * 2015-09-02 2015-11-11 广东创我科技发展有限公司 一种实现多种大数据计算框架统一接口的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110826A (zh) * 2021-03-31 2021-07-13 北京靠谱云科技有限公司 一种云接口聚合层统一管控api的方法
CN115688054A (zh) * 2023-01-04 2023-02-03 成都中轨轨道设备有限公司 一种基于大数据处理框架的任务分类处理方法

Similar Documents

Publication Publication Date Title
US11514032B2 (en) Splitting a query into native query operations and post-processing operations
US9778967B2 (en) Sophisticated run-time system for graph processing
US9189524B2 (en) Obtaining partial results from a database query
CN108304505B (zh) 一种sql语句的处理方法、装置、服务器及存储介质
US20180032375A1 (en) Data Processing Method and Apparatus
EP2596430B1 (en) A system and method for the parallel execution of database queries over cpus and multi core processors
US9400700B2 (en) Optimized system for analytics (graphs and sparse matrices) operations
US20190182323A1 (en) Hybrid cloud migration delay risk prediction engine
US20110295792A1 (en) Data mart automation
US11061964B2 (en) Techniques for processing relational data with a user-defined function (UDF)
KR20140112427A (ko) 아파치 하둡을 위한 로우 레이턴시 쿼리 엔진
US11216454B1 (en) User defined functions for database query languages based on call-back functions
US10949218B2 (en) Generating an execution script for configuration of a system
CN110249312B (zh) 用于将数据集成作业从源框架转换到目标框架的方法和系统
CN106354729A (zh) 一种图数据处理方法、装置和系统
CN108694221A (zh) 数据实时分析方法、模块、设备和装置
US9141251B2 (en) Techniques for guided access to an external distributed file system from a database management system
CN109840267A (zh) 一种数据etl系统及方法
CN106484826A (zh) 一种操作数据库的方法及装置
CN114490116B (zh) 数据处理方法、装置、电子设备及存储介质
CN108459844A (zh) 基于大数据处理框架的任务分类处理方法以及计算机设备
CN113051049A (zh) 任务调度系统、方法、电子设备及可读存储介质
CN112883088B (zh) 一种数据处理方法、装置、设备及存储介质
US11354592B2 (en) Intelligent computation acceleration transform utility
CN111290855B (zh) 分布式环境中多gpu服务器的gpu卡管理方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination