CN111190704A

CN111190704A - 一种基于大数据处理框架的任务分类处理方法

Info

Publication number: CN111190704A
Application number: CN201911388737.4A
Authority: CN
Inventors: 韩朝勇
Original assignee: Yancheng Guzhuo Technology Co Ltd
Current assignee: Yancheng Guzhuo Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-22

Abstract

本发明涉及大数据处理框架技术领域，尤其是一种基于大数据处理框架的任务分类处理方法，包括以下步骤：S1、大数据提交；S2、接收任务；S3、进行任务分类并初始化任务；S4、分析作业信息；S5、任务状态分析。本发明针对任务分类，并由大数据处理框架进行处理该任务的计算机集群进行合理性分配，又能考虑资源的负载状态，且方法较简单，不需要预测负载，也不需要迁移VM，因此方法易于实现，不涉及微分、积分运算，复杂度较低，有效实现负载均衡、提高调度效率和资源利用率。

Description

一种基于大数据处理框架的任务分类处理方法

技术领域

本发明涉及大数据处理框架技术领域，尤其涉及一种基于大数据处理框架的任务分类处理方法。

背景技术

大数据处理框架负责对大数据系统中的数据进行计算(管理和处理)的框架系统。数据包括从持久存储中读取的数据或通过消息队列等方式接入到系统中的数据，而计算则是从数据中提取信息的过程。现在每种大数据计算框架都支持多种的大数据计算类型，例如支持Query的SQL运算基本每个大数据计算框架都支持，就是没有直接支持的也可以使用间接的方式实现。那么也就意味着一种类型的大数据计算请求是可以把请求发送到多个大数据处理框架进行执行，只是每个框架执行的效率及方式不同，此时大家基本都是通过输入、输出、性能、使用资源等全盘考虑，择优选择。其他类型的大数据处理也是如此例如OLAP、流计算、搜索查询、图计算、机器学习等。在大数据平台上每个大数据处理框架往往背后都带有一个默认指定的兼容较好的大数据存储框架，那么在大数据平台上实现不同类型的大数据处理运算，把任务提交到某个框架上，往往需要的数据源一部分来自持久存储的大数据存储框架或者其他存储框架或者消息队列方式接入的流数据，其他的数据源都是来至大数据处理框架，因为其背后都带有存储框架，此时大数据处理框架就成了数据源。正如前面提到的每个任务具体使用哪个框架是通过输入、输出、性能、使用资源等全盘考虑，择优选择。如果要在一个应用程序系统中可以针对相同类型的任务使用不同的处理框架，需要对每个处理框架逐一实现，而且当提交任务的时候需要涉及大量关于执行框架的信息，如果需要对每个大数据处理框架的支持，这样客户端就比较庞大臃肿，为此我们提出一种基于大数据处理框架的任务分类处理方法来解决以上问题。

发明内容

本发明的目的是为了解决现有技术中存在现有大数据处理框架的任务处理系统臃肿，处理任务效率低，资源分配不合理的缺点，而提出的一种基于大数据处理框架的任务分类处理方法。

为了实现上述目的，本发明采用了如下技术方案：

设计一种基于大数据处理框架的任务分类处理方法，包括以下步骤：

S1、通过有线或无线模块连接向大数据运行框架进行大数据提交；

S2、由计算机终端接收任务；

S3、进行任务分类，所述任务分类包括根据各个计算机集群的工作状态向大数据库反馈任务领取请求，其中闲置的计算机集群领取任务并解析处理任务参数；

S4、处理完任务参数的计算机集群进行初始化任务步骤并进行分析作业信息，所述分析作业信息包括请求数据框架所需参数、框架构建上下文、数据存储与检索、数据分析对比、运行控制和执行任务；

S5、执行任务的计算机集群向大数据运行框架进行反馈，由大数据运行框架进行任务状态分析，任务完成后执行任务完成结果输出指令，任务未完成则由执行任务的计算机集群向大数据运行框架进行再次反馈，并将未完成的任务数据打包并再次执行接收任务指令，直至任务处理结束。

优选的，在步骤S3中，所述任务分类包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务。

优选的，在步骤S4中，所述数据存储与检索通过基于Hadoop的数据储存模块为运行载体，所述数据储存模块包括Hive系统、MapReduce系统、HBase系统、HDFS系统。

优选的，在步骤S3中，所述任务分类通过基于多任务学习机制和分布式深度学习模块构建多任务分类模型，并对各类任务通过共享编码器进行编码，根据多标签分类任务和层次分类任务交替对各类任务分类模型进行解码并得到分类标签；所述分布式深度学习模块涵盖自回馈学习模型、再学习模型、长记忆模型和聚类模型。

优选的，在步骤S1中，所述大数据运行框架通过有线或无线模块连接本地资源管理器，所述本地资源管理器负责本地资源节点的监测和管理，周期性的监测本地资源的负载情况，并将这些信息及需处理任务信息提交大数据运行框架。

本发明提出的一种基于大数据处理框架的任务分类处理方法，有益效果在于：本发明针对任务分类，并由大数据处理框架进行处理该任务的计算机集群进行合理性分配，又能考虑资源的负载状态，且方法较简单，不需要预测负载，也不需要迁移VM，因此方法易于实现，不涉及微分、积分运算，复杂度较低，有效实现负载均衡、提高调度效率和资源利用率。

附图说明

图1为本发明提出的一种基于大数据处理框架的任务分类处理方法的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，一种基于大数据处理框架的任务分类处理方法，包括以下步骤：

S1、通过有线或无线模块连接向大数据运行框架进行大数据提交，所述大数据运行框架通过有线或无线模块连接本地资源管理器，所述本地资源管理器负责本地资源节点的监测和管理，周期性的监测本地资源的负载情况，并将这些信息及需处理任务信息提交大数据运行框架；

S2、由计算机终端接收任务；

S3、进行任务分类，所述任务分类包括根据各个计算机集群的工作状态向大数据库反馈任务领取请求，其中闲置的计算机集群领取任务并解析处理任务参数，所述任务分类包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务，所述任务分类通过基于多任务学习机制和分布式深度学习模块构建多任务分类模型，并对各类任务通过共享编码器进行编码，根据多标签分类任务和层次分类任务交替对各类任务分类模型进行解码并得到分类标签；所述分布式深度学习模块涵盖自回馈学习模型、再学习模型、长记忆模型和聚类模型；

S4、处理完任务参数的计算机集群进行初始化任务步骤并进行分析作业信息，所述分析作业信息包括请求数据框架所需参数、框架构建上下文、数据存储与检索、数据分析对比、运行控制和执行任务，所述数据存储与检索通过基于Hadoop的数据储存模块为运行载体，所述数据储存模块包括Hive系统、MapReduce系统、HBase系统、HDFS系统；

本发明针对任务分类，并由大数据处理框架进行处理该任务的计算机集群进行合理性分配，又能考虑资源的负载状态，且方法较简单，不需要预测负载，也不需要迁移VM，因此方法易于实现，不涉及微分、积分运算，复杂度较低，有效实现负载均衡、提高调度效率和资源利用率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于大数据处理框架的任务分类处理方法，其特征在于，包括以下步骤：

S2、由计算机终端接收任务；

2.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法，其特征在于，在步骤S3中，所述任务分类包括Query任务、OLAP任务、Stream任务、Search任务以及其他任务。

3.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法，其特征在于，在步骤S4中，所述数据存储与检索通过基于Hadoop的数据储存模块为运行载体，所述数据储存模块包括Hive系统、MapReduce系统、HBase系统、HDFS系统。

4.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法，其特征在于，在步骤S3中，所述任务分类通过基于多任务学习机制和分布式深度学习模块构建多任务分类模型，并对各类任务通过共享编码器进行编码，根据多标签分类任务和层次分类任务交替对各类任务分类模型进行解码并得到分类标签；所述分布式深度学习模块涵盖自回馈学习模型、再学习模型、长记忆模型和聚类模型。

5.根据权利要求1所述的一种基于大数据处理框架的任务分类处理方法，其特征在于，在步骤S1中，所述大数据运行框架通过有线或无线模块连接本地资源管理器，所述本地资源管理器负责本地资源节点的监测和管理，周期性的监测本地资源的负载情况，并将这些信息及需处理任务信息提交大数据运行框架。