CN108388470A - 一种大数据任务处理方法及计算机设备 - Google Patents
一种大数据任务处理方法及计算机设备 Download PDFInfo
- Publication number
- CN108388470A CN108388470A CN201810076880.9A CN201810076880A CN108388470A CN 108388470 A CN108388470 A CN 108388470A CN 201810076880 A CN201810076880 A CN 201810076880A CN 108388470 A CN108388470 A CN 108388470A
- Authority
- CN
- China
- Prior art keywords
- task
- big data
- data
- processing
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer And Data Communications (AREA)
- Multi Processors (AREA)
Abstract
本发明提供一种大数据任务处理方法,接收前端发送的任务处理请求数据,并进行解析;根据解析后的数据,申请资源;若存在资源,则发送所请求处理的任务到对应的大数据处理框架;否,则进入资源等待队列,直至存在资源,并发送所请求处理的任务到对应的大数据处理框架;大数据处理框架接收任务,获取所需参数,之后构建任务上下文,获取所需源数据,执行任务,并将结果输出;本发明还提供一种计算机设备,大大的减少了开发的复杂度,降低了开发成本。
Description
技术领域
本发明涉及一种大数据任务处理方法及计算机设备。
背景技术
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。用于处理大数据集合的各类技术称为大数据技术,大数据技术是大数据价值体现的手段和前进的基石。大数据处理框架负责对大数据系统中的数据进行计算(管理和处理)的框架系统。数据包括从持久存储中读取的数据或通过消息队列等方式接入到系统中的数据,而计算则是从数据中提取信息的过程。相对于前端的大数据采集框架,后端的大数据存储框架和大数据部署及基础架构框架来说大数据处理框架这个软件栈层的软件是最多的,面对DB、SQL、NOSQL、MPP、Search、Streaming、Graph、MachineLearning、ETL等不同的业务及不同场景,现在主流的大数据处理框架更是琳琅满目,例如Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase、MySQL等,据统计常用的总共不下几十种,每种大数据处理框架面向不同的业务及场景都具有自己独有的优势,这个也是现在大数据平台框架的特性,没有一个既大而全还面向所有业务场景具有优势的框架。
那么现在企业的业务场景也是种类繁多,也就无法使用一个大数据处理框架来满足企业所需的所有技术业务要求,每套系统中往往为了支持业务要求都得嵌入多个大数据处理框架,就会出现每套框架都有访问各种数据源、消息通讯、资源隔离、资源调度、任务调度、结果集输出、参数设置等都要独立的一一实现实现,这样不但影响性能还影响开发进度。当新接入一个大数据处理框架,对系统的影响及变更还比较大,这个过程也极易产生错误问题。
发明内容
本发明要解决的技术问题,在于提供一种大数据任务处理方法及计算机设备,大大的减少了开发的复杂度,降低了开发成本。
本发明之一是这样实现的:一种大数据任务处理方法,包括:
步骤1、接收前端发送的任务处理请求数据,并进行解析;
步骤2、根据解析后的数据,申请资源;
步骤3、若存在资源,则发送所请求处理的任务到对应的大数据处理框架;否,则进入资源等待队列,直至存在资源,并发送所请求处理的任务到对应的大数据处理框架;
步骤4、大数据处理框架接收任务,获取所需参数,之后构建任务上下文,获取所需源数据,执行任务,并将结果输出。
进一步地,还包括步骤5、将输出的结果按照设定的封装类型进行封装,之后传输至设定地址。
进一步地,所述步骤1进一步具体为:接收前端发送的任务处理请求数据,若任务处理请求数据异常,则结束;否则将任务处理请求数据进行解析。
进一步地,所述大数据处理框架包括:Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase以及MySQL。
本发明之二是这样实现的:一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
步骤1、接收前端发送的任务处理请求数据,并进行解析;
步骤2、根据解析后的数据,申请资源;
步骤3、若存在资源,则发送所请求处理的任务到对应的大数据处理框架;否,则进入资源等待队列,直至存在资源,并发送所请求处理的任务到对应的大数据处理框架;
步骤4、大数据处理框架接收任务,获取所需参数,之后构建任务上下文,获取所需源数据,执行任务,并将结果输出。
进一步地,还包括步骤5、将输出的结果按照设定的封装类型进行封装,之后传输至设定地址。
进一步地,所述步骤1进一步具体为:接收前端发送的任务处理请求数据,若任务处理请求数据异常,则结束;否则将任务处理请求数据进行解析。
进一步地,所述大数据处理框架包括:Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase以及MySQL。
本发明具有如下优点:
1、通过统一的消息通讯、任务调度、资源管理、任务执行、参数适配、数据获取、结果封装,避免每个大数据处理框架的重复实现,大大的减少了开发的进度,降低了开发成本。
2、使用统一的任务调度、资源管理避免了当新接入一个大数据处理框架,比较大对系统的影响及变更,这个过程也极易产生错误的问题。
3、实现新的大数据处理框架的平滑接入无需对应用系统进行任何的修改。解决了之前逐一实现多框架到一个应用程序或者通过数据的ETL移动数据来支持大数据计算的局面。
4、通过使用统一的任务调度、资源管理、结果封装等模块应用程序的性能也获得比较大的提升。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
具体实施方式
本发明大数据任务处理方法,包括:
步骤1、接收前端发送的任务处理请求数据,若任务处理请求数据异常,则结束;否则将任务处理请求数据进行解析;
步骤2、根据解析后的数据,申请资源;
步骤3、若存在资源,则发送所请求处理的任务到对应的大数据处理框架;否,则进入资源等待队列,直至存在资源,并发送所请求处理的任务到对应的大数据处理框架,所述大数据处理框架包括:Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase以及MySQL;
步骤4、大数据处理框架接收任务,获取所需参数,之后构建任务上下文,获取所需源数据,执行任务,并将结果输出。
步骤5、将输出的结果按照设定的封装类型进行封装,之后传输至设定地址。
本发明计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
步骤1、接收前端发送的任务处理请求数据,若任务处理请求数据异常,则结束;否则将任务处理请求数据进行解析;
步骤2、根据解析后的数据,申请资源;
步骤3、若存在资源,则发送所请求处理的任务到对应的大数据处理框架;否,则进入资源等待队列,直至存在资源,并发送所请求处理的任务到对应的大数据处理框架,所述大数据处理框架包括:Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase以及MySQL;
步骤4、大数据处理框架接收任务,获取所需参数,之后构建任务上下文,获取所需源数据,执行任务,并将结果输出。
步骤5、将输出的结果按照设定的封装类型进行封装,之后传输至设定地址。
本发明一种具体实施方式:
通过设置统一的数据源读取、消息通讯、资源管理、任务调度、结果集封装及输出、参数适配等功能模块,用于接入各种类型的大数据处理框架,实现新的大数据处理框架的平滑接入无需对应用系统进行任何的修改,只要实现通用的接口即可,通过统一的资源管理和任务调度,对总体资源的分配和使用进行总体的规划,避免了资源使用溢出的场景出现。任务调度从整个大数据处理框架层为视角进行调度,无需停留在每个具体的框架里面,避免调度冲突。使用统一的消息通讯框架,避免需要实现各种大数据处理框架使用的通讯框架导致重复的工作及影响开发进度。通过统一的结果集封装及输出方式,将输出结果集封装成现在几个比较流行的输出结果集格式(Json、Parquet、CSV、OCRfile等)或者转储到某个存储框架。通过统一的参数适配,配置一套的参数系统,应用到所有的框架内,无需对每个框架的所有参数逐一配置。方案结构:
消息通讯、任务调度、资源管理、任务执行、参数适配、数据获取、结果封装。
如图1所示,通过设置统一的消息通讯、任务调度、资源管理、任务执行、参数适配、数据获取、结果封装功能模块,在任务执行模块结果各种类型的大数据处理框架,形成整体可以处理各种不同业务不同场景的计算。
1、消息通讯,作为接收前端发送来的各种消息,发送内部消息到指定位置的统一接口,内部具有消息判断机制,用于判断消息是否有异常,只有消息通过判断机制后才会生成任务发送到内部的任务调度模块。
2、任务调度,负责接收前端发送来的任务请求信息,内部具有一个队列用于存储等待资源的任务信息,在任务调度模块内,只有获取资源后才进入具体的大数据计算框架开始任务的执行。
3、资源管理,用于管理整个大数据平台的资源的申请及释放,如果没有申请到资源的任务会进入资源等待队列。
4、任务执行,本发明的核心模块,本模块对接了如Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase、MySQL等,每个大数据处理框架,通过消息或者参数设置,对发送过来的任务调度到对应的框架上面执行,根据不同的框架及消息获取对应的执行参数,构建框架的任务上下文,在上下文中获取数据源,最后执行对应的任务,输出结果集。
5、参数适配,存储需要对接的大数据处理框架的参数,在运行的时候实时调用参数适配接口,获取具体框架的参数信息。
6、数据获取,本模块用于获取大数据处理任务需要的数据源,这里包括不同的大数据处理框架的数据源,JDBC的数据源,NoSQL的数据源,大数据存储框架的数据源等。
7、结果集封装,任务执行模块输出结果集后通过本模块进行结果集封装,按照通讯消息或者参数设置来指定要封装的类型及输出的通道。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (8)
1.一种大数据任务处理方法,其特征在于:包括:
步骤1、接收前端发送的任务处理请求数据,并进行解析;
步骤2、根据解析后的数据,申请资源;
步骤3、若存在资源,则发送所请求处理的任务到对应的大数据处理框架;否,则进入资源等待队列,直至存在资源,并发送所请求处理的任务到对应的大数据处理框架;
步骤4、大数据处理框架接收任务,获取所需参数,之后构建任务上下文,获取所需源数据,执行任务,并将结果输出。
2.根据权利要求1所述的一种大数据任务处理方法,其特征在于:还包括步骤5、将输出的结果按照设定的封装类型进行封装,之后传输至设定地址。
3.根据权利要求1所述的一种大数据任务处理方法,其特征在于:所述步骤1进一步具体为:接收前端发送的任务处理请求数据,若任务处理请求数据异常,则结束;否则将任务处理请求数据进行解析。
4.根据权利要求1所述的一种大数据任务处理方法,其特征在于:所述大数据处理框架包括:Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase以及MySQL。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现以下步骤:
步骤1、接收前端发送的任务处理请求数据,并进行解析;
步骤2、根据解析后的数据,申请资源;
步骤3、若存在资源,则发送所请求处理的任务到对应的大数据处理框架;否,则进入资源等待队列,直至存在资源,并发送所请求处理的任务到对应的大数据处理框架;
步骤4、大数据处理框架接收任务,获取所需参数,之后构建任务上下文,获取所需源数据,执行任务,并将结果输出。
6.根据权利要求5所述的一种计算机设备,其特征在于:还包括步骤5、将输出的结果按照设定的封装类型进行封装,之后传输至设定地址。
7.根据权利要求5所述的一种计算机设备,其特征在于:所述步骤1进一步具体为:接收前端发送的任务处理请求数据,若任务处理请求数据异常,则结束;否则将任务处理请求数据进行解析。
8.根据权利要求5所述的一种计算机设备,其特征在于:所述大数据处理框架包括:Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase以及MySQL。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810076880.9A CN108388470B (zh) | 2018-01-26 | 2018-01-26 | 一种大数据任务处理方法及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810076880.9A CN108388470B (zh) | 2018-01-26 | 2018-01-26 | 一种大数据任务处理方法及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108388470A true CN108388470A (zh) | 2018-08-10 |
CN108388470B CN108388470B (zh) | 2022-09-16 |
Family
ID=63077445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810076880.9A Active CN108388470B (zh) | 2018-01-26 | 2018-01-26 | 一种大数据任务处理方法及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108388470B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145009A (zh) * | 2018-08-19 | 2019-01-04 | 杭州安恒信息技术股份有限公司 | 一种基于SQL检索ElasticSearch的方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120227053A1 (en) * | 2010-09-15 | 2012-09-06 | Gargash Norman S | Distributed resource management in a portable computing device |
CN102866918A (zh) * | 2012-07-26 | 2013-01-09 | 中国科学院信息工程研究所 | 面向分布式编程框架的资源管理系统 |
CN103064742A (zh) * | 2012-12-25 | 2013-04-24 | 中国科学院深圳先进技术研究院 | 一种hadoop集群的自动部署系统及方法 |
CN103841209A (zh) * | 2014-03-19 | 2014-06-04 | 中国联合网络通信集团有限公司 | 数据发送处理方法及装置 |
CN104636198A (zh) * | 2015-02-11 | 2015-05-20 | 中国石油大学(华东) | 一种基于OSGi的计算任务近数据源迁移方法 |
CN105045607A (zh) * | 2015-09-02 | 2015-11-11 | 广东创我科技发展有限公司 | 一种实现多种大数据计算框架统一接口的方法 |
CN106648871A (zh) * | 2016-12-28 | 2017-05-10 | 北京奇艺世纪科技有限公司 | 一种资源管理方法及系统 |
CN106648674A (zh) * | 2016-12-28 | 2017-05-10 | 北京奇艺世纪科技有限公司 | 一种大数据计算管理方法及系统 |
CN107301057A (zh) * | 2017-07-28 | 2017-10-27 | 山东中创软件工程股份有限公司 | 一种大数据批处理方法及装置 |
US20180032375A1 (en) * | 2015-04-29 | 2018-02-01 | Huawei Technologies Co., Ltd. | Data Processing Method and Apparatus |
-
2018
- 2018-01-26 CN CN201810076880.9A patent/CN108388470B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120227053A1 (en) * | 2010-09-15 | 2012-09-06 | Gargash Norman S | Distributed resource management in a portable computing device |
CN102866918A (zh) * | 2012-07-26 | 2013-01-09 | 中国科学院信息工程研究所 | 面向分布式编程框架的资源管理系统 |
CN103064742A (zh) * | 2012-12-25 | 2013-04-24 | 中国科学院深圳先进技术研究院 | 一种hadoop集群的自动部署系统及方法 |
CN103841209A (zh) * | 2014-03-19 | 2014-06-04 | 中国联合网络通信集团有限公司 | 数据发送处理方法及装置 |
CN104636198A (zh) * | 2015-02-11 | 2015-05-20 | 中国石油大学(华东) | 一种基于OSGi的计算任务近数据源迁移方法 |
US20180032375A1 (en) * | 2015-04-29 | 2018-02-01 | Huawei Technologies Co., Ltd. | Data Processing Method and Apparatus |
CN105045607A (zh) * | 2015-09-02 | 2015-11-11 | 广东创我科技发展有限公司 | 一种实现多种大数据计算框架统一接口的方法 |
CN106648871A (zh) * | 2016-12-28 | 2017-05-10 | 北京奇艺世纪科技有限公司 | 一种资源管理方法及系统 |
CN106648674A (zh) * | 2016-12-28 | 2017-05-10 | 北京奇艺世纪科技有限公司 | 一种大数据计算管理方法及系统 |
CN107301057A (zh) * | 2017-07-28 | 2017-10-27 | 山东中创软件工程股份有限公司 | 一种大数据批处理方法及装置 |
Non-Patent Citations (5)
Title |
---|
F. CHEN: "A Real-Time Scheduling Strategy Based on Processing Framework of Hadoop", 《2017 IEEE INTERNATIONAL CONGRESS ON BIG DATA (BIGDATA CONGRESS)》 * |
WEI-JU CHEN等: "Regular Composite Resource Partition in Open Systems", 《2017 IEEE REAL-TIME SYSTEMS SYMPOSIUM (RTSS)》 * |
于金良等: "Hadoop平台的自动化部署与监控研究", 《计算机与数字工程》 * |
向小佳等: "一种正交分解大数据处理系统设计方法及实现", 《计算机研究与发展》 * |
李丽新: "基于Mesos和Docker构建大数据平台技术研究与应用", 《吉林建筑大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145009A (zh) * | 2018-08-19 | 2019-01-04 | 杭州安恒信息技术股份有限公司 | 一种基于SQL检索ElasticSearch的方法 |
CN109145009B (zh) * | 2018-08-19 | 2020-10-27 | 杭州安恒信息技术股份有限公司 | 一种基于SQL检索ElasticSearch的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108388470B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107979635A (zh) | 基于微服务的系统、方法及存储介质 | |
KR20150103248A (ko) | 심층 패킷 검사 방법 및 기기, 그리고 코프로세서 | |
CN110210845B (zh) | 用于区块链数据迁移的方法、装置、介质和计算设备 | |
CN106998347A (zh) | 服务器虚拟化网络共享的装置和方法 | |
CN110851252A (zh) | 一种基于tsn架构的规约转换设备和规约转换方法 | |
CN110187986A (zh) | 一种命令管理方法、系统、装置及计算机可读存储介质 | |
CN104239508A (zh) | 数据查询方法和装置 | |
CN107947965A (zh) | 服务链编译器 | |
CN114237853A (zh) | 应用于异构系统的任务执行方法、装置、设备、介质和程序产品 | |
CN108388470A (zh) | 一种大数据任务处理方法及计算机设备 | |
CN107666401A (zh) | 一种配置信息获取方法及终端 | |
US20220046647A1 (en) | Logical channel management in a communication system | |
CN108256046A (zh) | 大数据处理框架源数据的统一访问通道的实现方法 | |
CN108170424A (zh) | 一种基于云知识库的自我扩展方法及系统 | |
CN107451435B (zh) | 一种硬件加密机的管控方法、管控机及管控系统 | |
CN107786308B (zh) | 数据传输方法及终端设备 | |
CN113364820A (zh) | 物联网业务系统的设备管控方法与装置 | |
CN110209722A (zh) | 一种用于数据交换的数据接口 | |
CN108459844A (zh) | 基于大数据处理框架的任务分类处理方法以及计算机设备 | |
CN105389355B (zh) | 数据处理方法和终端 | |
CN107704362A (zh) | 一种基于Ambari监控大数据组件的方法及装置 | |
US10866765B2 (en) | System and method for managing content using generic content management interface | |
CN103294527A (zh) | 一种处理网络任务的方法、系统以及服务器 | |
WO2017076322A1 (zh) | 一种通信方法及装置 | |
US8787972B2 (en) | Electronic device and method for managing commands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 350000 21 / F, building 5, f District, Fuzhou Software Park, 89 software Avenue, Gulou District, Fuzhou City, Fujian Province Applicant after: FUJIAN SINOREGAL SOFTWARE CO.,LTD. Address before: Floor 20-21, building 5, area F, Fuzhou Software Park, 89 software Avenue, Gulou District, Fuzhou City, Fujian Province 350000 Applicant before: FUJIAN SINOREGAL SOFTWARE CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |