CN103970611A

CN103970611A - 基于计算机集群的任务处理方法

Info

Publication number: CN103970611A
Application number: CN201410187057.7A
Authority: CN
Inventors: 王亮; 张克慧; 谭映忠; 刘新宇; 刘畅; 关丹凤; 陈璇; 郭磊
Original assignee: Shenhua Group Corp Ltd
Current assignee: Shenhua Group Corp Ltd
Priority date: 2014-05-05
Filing date: 2014-05-05
Publication date: 2014-08-06

Abstract

本发明公开了一种基于计算机集群的任务处理方法，该方法包括：将任务链中的每个任务节点划分为多个子任务节点；分配完成子任务节点所需的运算到所述计算机集群中的多个计算机节点进行运算处理；保存所述多个计算机节点运算处理的状态快照；以及当所述子任务节点中断时，根据所述状态快照恢复中断前的子任务节点状态，以及继续执行中断的子任务节点。通过本发明提供的方法，能够将任务节点运算分布到多个计算节点进行处理，还能够实现任务中断后的继续执行而无需从任务链的初始状态重复执行，因而能够极大地提高任务处理效率。

Description

基于计算机集群的任务处理方法

技术领域

本发明涉及计算机应用领域，具体地，涉及一种基于计算机集群的任务处理方法。

背景技术

对任务链的处理，当前一般以线性处理为主，使用的是传统的非分布式计算技术。传统的线性处理，无法对处理链进行结构化的分解，任务处理只能从初始状态开始直至运行结束，中间不易进行并行计算等优化措施。同时因为强依赖的原因，如果当整个任务处理过程中因为某些原因导致处理中断，将无法应用之前处理已处理的资源，只能将任务从初始状态重复执行，导致任务处理效率降低、资源浪费及系统硬件性能的额外支出。

传统的分布式任务调度技术，能够解决在任务链中网状处理节点中子任务失效后，该子任务重新分配、启动的问题。然而，当整个网状处理节点失败的时候，传统的分布式任务调度技术，无法从当前的网状处理节点重新开始处理，只能将整个任务链从初始状态重复执行，仍然不能解决任务处理效率降低、资源浪费及系统硬件性能的额外支出的问题。

针对上述技术问题，现有技术中尚无良好解决方案。

发明内容

本发明的目的是提供一种方法，该方法能够实现任务中断后的继续执行，提高任务处理效率。

为了实现上述目的，本发明提供一种基于计算机集群的任务处理方法，其中，该方法包括：将任务链中的每个任务节点划分为多个子任务节点；分配完成子任务节点所需的运算到所述计算机集群中的多个计算机节点进行运算处理；保存所述多个计算机节点运算处理的状态快照；以及当所述子任务节点中断时，根据所述状态快照恢复中断前的子任务节点状态，以及继续执行中断的子任务节点。

进一步地，该方法还包括：对所述多个计算机节点进行心跳检测；以及将分配到心跳检测无响应的计算机节点的运算再分配到其他计算机节点。

进一步地，该方法还包括：将所述多个计算机节点的运算处理结果保存到与所述计算机集群中的所有计算机节点连接的共享存储器。

进一步地，该方法还包括：当执行当前子任务节点的所有计算机节点运算处理完成后，对完成下一个子任务节点所需的运算进行分配。

进一步地，该方法还包括：根据贪婪算法分配所述完成子任务节点所需的运算。

进一步地，该方法还包括：在完成最后一个任务节点的运算后，输出运算结果。

进一步地，所述计算机集群由部署云计算平台的计算机节点组成。

进一步地，所述云计算平台为HADOOP云计算平台。

进一步地，所述计算机节点为LINUX系统服务器。

通过上述技术方案，将完成一个任务链步骤所需的运算分配到多个计算机节点进行运算处理，能够将运算量化整为零，提高任务运行速度；通过保存运算处理的状态快照，在任务链步骤因故中断时，能够将任务链步骤恢复到中断前状态，从而从中断前状态开始继续执行任务链。因此，通过上述技术方案，当任务链步骤或节点失败时，能够从失败的步骤或节点继续执行任务链，而无需从初始状态重复执行，提高任务处理效率、降低资源浪费。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是根据本发明实施方式的基于计算机集群的任务处理方法流程图；以及

图2是使用本发明实施方式提供的基于计算机集群的任务处理方法进行任务处理的流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1是根据本发明实施方式的基于计算机集群的任务处理方法流程图。如图1所示，本发明实施方式提供的基于计算机集群的任务处理方法，可以包括：S101，将任务链中的每个任务节点划分为多个子任务节点；S102，分配完成子任务节点所需的运算到所述计算机集群中的多个计算机节点进行运算处理；S103，保存所述多个计算机节点运算处理的状态快照；以及S104，当所述子任务节点中断时，根据所述状态快照恢复中断前的子任务节点状态，以及继续执行中断的子任务节点。

在优选的实施方式中，方法还可以包括：对多个计算机节点进行心跳检测；以及将分配到心跳检测无响应的计算机节点的运算再分配到其他计算机节点。通过心跳检测可以确定进行运算的计算机节点的工作状态。为了确保分配到每个计算机节点的运算都能够完成，当出现心跳检测无响应的计算机时，可以将分配到该计算机节点的运算重新分配到其他心跳检测正常的计算机节点。优选地，重新分配到的计算机节点可以是已完成被分配的运算的计算机节点，这样可以充分利用空闲计算资源完成运算。

为了使完成任务链中每个任务节点或子任务节点的运算的计算机节点能够获取运算所需的数据，在实施方式中，方法还包括：将所述多个计算机节点的运算处理结果保存到与所述计算机集群中的所有计算机节点连接的共享存储器。这样所有计算机节点可以在运算开始时从共享存储器获取运算数据，以及在运算完成时向共享存储器中存储运算结果。这里需要说明的是，计算机节点运算处理的状态快照也可以保存在共享存储器中，或者也可以单独设置快照存储器。存储器的实例包括但不局限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备等。

在不同的实施方式中，该方法还可以包括：当执行当前子任务节点的所有计算机节点运算处理完成后，对完成下一个子任务节点所需的运算进行分配。在实施方式中，存在多种情况需要执行上述步骤。例如，对于大量运算，需要使用计算机集群中的所有计算机节点参与的子任务节点的运算，只有当所有计算机节点都完成运算处理后才能继续分配下一子任务节点的运算。再如，对于需要得到上一子任务节点的全部运算结果后才能分配下一子任务节点的运算的情况，方法中也需要包含这样的步骤。当然，在实施方式中，也可以将不同子任务节点的运算同时分配到计算机集群中的不同计算机节点组进行处理。

图2是使用本发明实施方式提供的基于计算机集群的任务处理方法进行任务处理的流程图。如图2所示，在一个任务链从开始到结束之间可以有多个任务节点(或网状处理节点)，每个任务节点中可以包括(例如具有网状拓扑结构的)多个子任务节点，每个子任务节点的运算可以被分配到计算机集群中的一个或多个计算机节点(图中未示出)进行处理。每个计算机节点所要进行的运算可以由统一的总控单元进行，该总控单元可以是计算机集群中的一个计算机节点，同时负责计算机集群中其他所有计算机节点的心跳检测。与运算相关的上下文共享数据(例如，计算机节点的运算处理结果)可以被保存到与所述计算机集群中的所有计算机节点连接的共享存储器。在完成最后一个网状处理节点的运算后，可以输出运算结果，例如输出到目标应用。需要说明的是，图2中示出了包括三个网状处理节点的任务链，然而附图仅出于示例性目的，并不对任务链的长度进行限制。

在优选的实施方式中，可以根据贪婪算法分配所述完成子任务节点所需的运算。即，可以将最复杂的运算交给计算能力最强的计算机节点进行处理，进而确保整个运算的处理速度。

在优选的实施方式中，计算机集群可以由部署云计算平台的计算机节点组成，从而可以利用云计算平台的资源优势，降低大量运算对计算机节点的硬件要求。例如，可以使用HADOOP云计算平台，而计算机节点可以为部署了云计算平台(例如HADOOP的)LINUX系统服务器。以下，结合HADOOP云计算平台对根据本发明的基于计算机集群的任务处理方法的实现方式进行说明。

在一个实施方式中，可以使用任务链开发模式以及命令模式搭配HADOOP云计算平台来实现。其具体的实施方式如下：

(1)根据业务需求(处理顺序)把任务处理链进行功能切分；

(2)确定任务链中任务先后顺序以及依赖关系；

(3)注册统一接口，继承接口对每个任务进行具体实现；

(4)选取多台(例如，5至10台)普通服务器(LINUX操作系统)，作为报表数据计算处理的节点；

(5)在这些普通的服务器上部署HADOOP平台，将这些机器组合成一个分布式计算集群；

(6)在分布式计算集群上初始化分布式文件系统(HDFS)；

(7)将处理链所需数据文件推送至HADOOP分布式文件系统(HDFS)；

(8)在节点进行计算的时候，系统会自动对输入文件进行切分，分发至HADOOP集群进行分布式并行计算；

(9)系统会对HADOOP集群进行计算的节点进行心跳检测，实时监测网状任务节点的计算运行状态，及时移除无响应节点，并将无响应节点计算数据分发至其他节点继续进行计算；

(10)所有节点进行计算完成后，数据被发送至链式节点上下文共享数据区域内，可供其他节点使用；

(11)在链式节点运行过程中，系统自动生成当前计算状态快照，并能够在处理链发生错误的时候提供足够的数据可供任务链继续进行数据处理；以及

(12)将最终数据结果统一输出给目标应用，任务链结束。

通过本发明实施方式提供的基于计算机集群的任务处理方法能够将任务节点运算分布到多个计算节点进行处理，还能够实现任务中断后的继续执行而无需从任务链的初始状态重复执行，因而能够极大地提高任务处理效率。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。例如，可以将计算机节点改变为计算节点或计算单元。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种基于计算机集群的任务处理方法，其特征在于，该方法包括：

将任务链中的每个任务节点划分为多个子任务节点；

分配完成子任务节点所需的运算到所述计算机集群中的多个计算机节点进行运算处理；

保存所述多个计算机节点运算处理的状态快照；以及

当所述子任务节点中断时，根据所述状态快照恢复中断前的子任务节点状态，以及继续执行中断的子任务节点。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

对所述多个计算机节点进行心跳检测；以及

将分配到心跳检测无响应的计算机节点的运算再分配到其他计算机节点。

3.根据权利要求1所述的方法，其特征在于，该方法还包括：

将所述多个计算机节点的运算处理结果保存到与所述计算机集群中的所有计算机节点连接的共享存储器。

4.根据权利要求1所述的方法，其特征在于，该方法还包括：

当执行当前子任务节点的所有计算机节点运算处理完成后，对完成下一个子任务节点所需的运算进行分配。

5.根据权利要求1所述的方法，其特征在于，该方法还包括：

根据贪婪算法分配所述完成子任务节点所需的运算。

6.根据权利要求1所述的方法，其特征在于，该方法还包括：

在完成最后一个任务节点的运算后，输出运算结果。

7.根据权利要求1所述的方法，其特征在于，所述计算机集群由部署云计算平台的计算机节点组成。

8.根据权利要求7所述的方法，其特征在于，所述云计算平台为HADOOP云计算平台。

9.根据权利要求7所述的方法，其特征在于，所述计算机节点为LINUX系统服务器。