CN111190704A - 一种基于大数据处理框架的任务分类处理方法 - Google Patents
一种基于大数据处理框架的任务分类处理方法 Download PDFInfo
- Publication number
- CN111190704A CN111190704A CN201911388737.4A CN201911388737A CN111190704A CN 111190704 A CN111190704 A CN 111190704A CN 201911388737 A CN201911388737 A CN 201911388737A CN 111190704 A CN111190704 A CN 111190704A
- Authority
- CN
- China
- Prior art keywords
- task
- big data
- classification
- tasks
- framework
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/466—Transaction processing
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据处理框架技术领域,尤其是一种基于大数据处理框架的任务分类处理方法,包括以下步骤:S1、大数据提交;S2、接收任务;S3、进行任务分类并初始化任务;S4、分析作业信息;S5、任务状态分析。本发明针对任务分类,并由大数据处理框架进行处理该任务的计算机集群进行合理性分配,又能考虑资源的负载状态,且方法较简单,不需要预测负载,也不需要迁移VM,因此方法易于实现,不涉及微分、积分运算,复杂度较低,有效实现负载均衡、提高调度效率和资源利用率。
Description
技术领域
本发明涉及大数据处理框架技术领域,尤其涉及一种基于大数据处理框架的任务分类处理方法。
背景技术
大数据处理框架负责对大数据系统中的数据进行计算(管理和处理)的框架系统。数据包括从持久存储中读取的数据或通过消息队列等方式接入到系统中的数据,而计算则是从数据中提取信息的过程。现在每种大数据计算框架都支持多种的大数据计算类型,例如支持Query的SQL运算基本每个大数据计算框架都支持,就是没有直接支持的也可以使用间接的方式实现。那么也就意味着一种类型的大数据计算请求是可以把请求发送到多个大数据处理框架进行执行,只是每个框架执行的效率及方式不同,此时大家基本都是通过输入、输出、性能、使用资源等全盘考虑,择优选择。其他类型的大数据处理也是如此例如OLAP、流计算、搜索查询、图计算、机器学习等。在大数据平台上每个大数据处理框架往往背后都带有一个默认指定的兼容较好的大数据存储框架,那么在大数据平台上实现不同类型的大数据处理运算,把任务提交到某个框架上,往往需要的数据源一部分来自持久存储的大数据存储框架或者其他存储框架或者消息队列方式接入的流数据,其他的数据源都是来至大数据处理框架,因为其背后都带有存储框架,此时大数据处理框架就成了数据源。正如前面提到的每个任务具体使用哪个框架是通过输入、输出、性能、使用资源等全盘考虑,择优选择。如果要在一个应用程序系统中可以针对相同类型的任务使用不同的处理框架,需要对每个处理框架逐一实现,而且当提交任务的时候需要涉及大量关于执行框架的信息,如果需要对每个大数据处理框架的支持,这样客户端就比较庞大臃肿,为此我们提出一种基于大数据处理框架的任务分类处理方法来解决以上问题。
发明内容
本发明的目的是为了解决现有技术中存在现有大数据处理框架的任务处理系统臃肿,处理任务效率低,资源分配不合理的缺点,而提出的一种基于大数据处理框架的任务分类处理方法。
为了实现上述目的,本发明采用了如下技术方案:
设计一种基于大数据处理框架的任务分类处理方法,包括以下步骤:
S1、通过有线或无线模块连接向大数据运行框架进行大数据提交;
S2、由计算机终端接收任务;
S3、进行任务分类,所述任务分类包括根据各个计算机集群的工作状态向大数据库反馈任务领取请求,其中闲置的计算机集群领取任务并解析处理任务参数;
S4、处理完任务参数的计算机集群进行初始化任务步骤并进行分析作业信息,所述分析作业信息包括请求数据框架所需参数、框架构建上下文、数据存储与检索、数据分析对比、运行控制和执行任务;
S5、执行任务的计算机集群向大数据运行框架进行反馈,由大数据运行框架进行任务状态分析,任务完成后执行任务完成结果输出指令,任务未完成则由执行任务的计算机集群向大数据运行框架进行再次反馈,并将未完成的任务数据打包并再次执行接收任务指令,直至任务处理结束。
优选的,在步骤S3中,所述任务分类包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务。
优选的,在步骤S4中,所述数据存储与检索通过基于Hadoop的数据储存模块为运行载体,所述数据储存模块包括Hive系统、MapReduce系统、HBase系统、HDFS系统。
优选的,在步骤S3中,所述任务分类通过基于多任务学习机制和分布式深度学习模块构建多任务分类模型,并对各类任务通过共享编码器进行编码,根据多标签分类任务和层次分类任务交替对各类任务分类模型进行解码并得到分类标签;所述分布式深度学习模块涵盖自回馈学习模型、再学习模型、长记忆模型和聚类模型。
优选的,在步骤S1中,所述大数据运行框架通过有线或无线模块连接本地资源管理器,所述本地资源管理器负责本地资源节点的监测和管理,周期性的监测本地资源的负载情况,并将这些信息及需处理任务信息提交大数据运行框架。
本发明提出的一种基于大数据处理框架的任务分类处理方法,有益效果在于:本发明针对任务分类,并由大数据处理框架进行处理该任务的计算机集群进行合理性分配,又能考虑资源的负载状态,且方法较简单,不需要预测负载,也不需要迁移VM,因此方法易于实现,不涉及微分、积分运算,复杂度较低,有效实现负载均衡、提高调度效率和资源利用率。
附图说明
图1为本发明提出的一种基于大数据处理框架的任务分类处理方法的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于大数据处理框架的任务分类处理方法,包括以下步骤:
S1、通过有线或无线模块连接向大数据运行框架进行大数据提交,所述大数据运行框架通过有线或无线模块连接本地资源管理器,所述本地资源管理器负责本地资源节点的监测和管理,周期性的监测本地资源的负载情况,并将这些信息及需处理任务信息提交大数据运行框架;
S2、由计算机终端接收任务;
S3、进行任务分类,所述任务分类包括根据各个计算机集群的工作状态向大数据库反馈任务领取请求,其中闲置的计算机集群领取任务并解析处理任务参数,所述任务分类包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务,所述任务分类通过基于多任务学习机制和分布式深度学习模块构建多任务分类模型,并对各类任务通过共享编码器进行编码,根据多标签分类任务和层次分类任务交替对各类任务分类模型进行解码并得到分类标签;所述分布式深度学习模块涵盖自回馈学习模型、再学习模型、长记忆模型和聚类模型;
S4、处理完任务参数的计算机集群进行初始化任务步骤并进行分析作业信息,所述分析作业信息包括请求数据框架所需参数、框架构建上下文、数据存储与检索、数据分析对比、运行控制和执行任务,所述数据存储与检索通过基于Hadoop的数据储存模块为运行载体,所述数据储存模块包括Hive系统、MapReduce系统、HBase系统、HDFS系统;
S5、执行任务的计算机集群向大数据运行框架进行反馈,由大数据运行框架进行任务状态分析,任务完成后执行任务完成结果输出指令,任务未完成则由执行任务的计算机集群向大数据运行框架进行再次反馈,并将未完成的任务数据打包并再次执行接收任务指令,直至任务处理结束。
本发明针对任务分类,并由大数据处理框架进行处理该任务的计算机集群进行合理性分配,又能考虑资源的负载状态,且方法较简单,不需要预测负载,也不需要迁移VM,因此方法易于实现,不涉及微分、积分运算,复杂度较低,有效实现负载均衡、提高调度效率和资源利用率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于大数据处理框架的任务分类处理方法,其特征在于,包括以下步骤:
S1、通过有线或无线模块连接向大数据运行框架进行大数据提交;
S2、由计算机终端接收任务;
S3、进行任务分类,所述任务分类包括根据各个计算机集群的工作状态向大数据库反馈任务领取请求,其中闲置的计算机集群领取任务并解析处理任务参数;
S4、处理完任务参数的计算机集群进行初始化任务步骤并进行分析作业信息,所述分析作业信息包括请求数据框架所需参数、框架构建上下文、数据存储与检索、数据分析对比、运行控制和执行任务;
S5、执行任务的计算机集群向大数据运行框架进行反馈,由大数据运行框架进行任务状态分析,任务完成后执行任务完成结果输出指令,任务未完成则由执行任务的计算机集群向大数据运行框架进行再次反馈,并将未完成的任务数据打包并再次执行接收任务指令,直至任务处理结束。
2.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法,其特征在于,在步骤S3中,所述任务分类包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务。
3.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法,其特征在于,在步骤S4中,所述数据存储与检索通过基于Hadoop的数据储存模块为运行载体,所述数据储存模块包括Hive系统、MapReduce系统、HBase系统、HDFS系统。
4.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法,其特征在于,在步骤S3中,所述任务分类通过基于多任务学习机制和分布式深度学习模块构建多任务分类模型,并对各类任务通过共享编码器进行编码,根据多标签分类任务和层次分类任务交替对各类任务分类模型进行解码并得到分类标签;所述分布式深度学习模块涵盖自回馈学习模型、再学习模型、长记忆模型和聚类模型。
5.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法,其特征在于,在步骤S1中,所述大数据运行框架通过有线或无线模块连接本地资源管理器,所述本地资源管理器负责本地资源节点的监测和管理,周期性的监测本地资源的负载情况,并将这些信息及需处理任务信息提交大数据运行框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388737.4A CN111190704A (zh) | 2019-12-30 | 2019-12-30 | 一种基于大数据处理框架的任务分类处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388737.4A CN111190704A (zh) | 2019-12-30 | 2019-12-30 | 一种基于大数据处理框架的任务分类处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111190704A true CN111190704A (zh) | 2020-05-22 |
Family
ID=70705937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911388737.4A Pending CN111190704A (zh) | 2019-12-30 | 2019-12-30 | 一种基于大数据处理框架的任务分类处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111190704A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377841A (zh) * | 2021-06-21 | 2021-09-10 | 国网宁夏电力有限公司电力科学研究院 | 一种基于大数据的能源负荷预测系统 |
CN115688054A (zh) * | 2023-01-04 | 2023-02-03 | 成都中轨轨道设备有限公司 | 一种基于大数据处理框架的任务分类处理方法 |
-
2019
- 2019-12-30 CN CN201911388737.4A patent/CN111190704A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377841A (zh) * | 2021-06-21 | 2021-09-10 | 国网宁夏电力有限公司电力科学研究院 | 一种基于大数据的能源负荷预测系统 |
CN115688054A (zh) * | 2023-01-04 | 2023-02-03 | 成都中轨轨道设备有限公司 | 一种基于大数据处理框架的任务分类处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111400326B (zh) | 一种智慧城市数据管理系统及其方法 | |
CN111061788B (zh) | 一种基于云架构的多源异构数据转换整合系统及其实现方法 | |
CN104298550B (zh) | 一种面向Hadoop的动态调度方法 | |
CN111694888A (zh) | 基于微服务架构的分布式etl数据交换系统及方法 | |
CN112416960B (zh) | 多场景下的数据处理方法、装置、设备及存储介质 | |
US20120284730A1 (en) | System to provide computing services | |
CN106021484A (zh) | 基于内存计算的可定制多模式大数据处理系统 | |
WO2019047441A1 (zh) | 一种通信优化方法及系统 | |
Arfat et al. | Big data for smart infrastructure design: Opportunities and challenges | |
CN111177237B (zh) | 一种数据处理系统、方法及装置 | |
CN105677763A (zh) | 一种基于Hadoop的图像质量评估系统 | |
EP4044031A1 (en) | Cloud orchestration system and method based on read-write separation and auto-scaling | |
CN111190704A (zh) | 一种基于大数据处理框架的任务分类处理方法 | |
US20170046195A1 (en) | Method and system for scheduling transactions in a data system | |
CN103198099A (zh) | 基于云计算的面向电信业务的数据挖掘应用方法 | |
CN108519908A (zh) | 一种任务动态管理方法和装置 | |
Hajji et al. | Optimizations of Distributed Computing Processes on Apache Spark Platform. | |
CN112506887B (zh) | 车辆终端can总线数据处理方法及装置 | |
CN113407343A (zh) | 一种基于资源分配的业务处理方法、装置及设备 | |
CN112052284A (zh) | 一种大数据下的主数据管理方法及系统 | |
CN116974994A (zh) | 一种基于集群的高效能文件协作系统 | |
CN110209631A (zh) | 大数据处理方法及其处理系统 | |
Khalil et al. | Survey of Apache Spark optimized job scheduling in Big Data | |
Kalay | Database system suggestions for the Internet of Things (IoT) systems | |
CN103942235A (zh) | 针对大规模数据集交叉比较的分布式计算系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200522 |