CN105159769A

CN105159769A - 一种适用于计算能力异构集群的分布式作业调度方法

Info

Publication number: CN105159769A
Application number: CN201510579836.6A
Authority: CN
Inventors: 高原; 徐春雷; 顾文杰; 苏大威; 任升; 江叶峰; 沙一川; 仇晨光; 方华建; 余璟; 吴海伟; 庄卫金; 孟勇亮; 孙名扬; 孙世明
Original assignee: Nari Technology Co Ltd; NARI Nanjing Control System Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Nari Technology Co Ltd; NARI Nanjing Control System Co Ltd; Nanjing NARI Group Corp
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2015-12-16
Anticipated expiration: 2035-09-11
Also published as: CN105159769B

Abstract

本发明公开了一种适用于计算能力异构集群的分布式作业调度方法，包括五个步骤：第一，节点资源的自动化发现;集群中的每个节点将资源信息以组播报文的方式发送到网络中，调度器接收组播报文，自动发现集群节点；第二，基于FIFO和资源利用最大化的作业调度机制。第三，基于数据集的动态再调度机制。作业管理器动态调整各个任务的数据集；第四，延迟调度机制。将作业的部分任务部署到所有节点，剩下的任务提交到延迟队列等待调度。第五，使用冗余互备机制。调度器为每个任务部署备份任务，保证在任务故障或者离线后，备份任务依然能够提供计算结果。本发明提高了集群的分布式处理能力，提升了系统的资源利用率，确保了作业处理的可靠性。

Description

一种适用于计算能力异构集群的分布式作业调度方法

技术领域

本发明涉及一种适用于计算能力异构集群的分布式作业调度方法，属于自动化技术领域。

背景技术

当前的电网调度系统在部署作业时，主要将作业的任务分布到静态指定的节点上运行。这种方式在计算能力异构的集群下已经不适用了，一方面，异构集群下每个节点的处理能力不一样，静态指定作业的部署节点，无法充分发挥高处理能力节点的性能优势；另一方面，作业的任务不能充分部署到处理能力高的节点，无法提高作业的处理效率。因此，有必要引入一个新的调度算法，以充分利用集群资源，提高作业处理能力，提升系统的整体性能。

发明内容

为克服现有技术上的缺陷，本发明目的是在于提供一种扩展性强、支持跨平台的适用于计算能力异构集群的分布式任务调度方法，提高了集群的分布式处理能力，提升了系统的资源利用率，确保了作业处理的可靠性。

为实现上述目的，本发明的技术方案如下：

在进行技术方案阐述前，本发明先说明以下几个概念：

1）任务：执行特定功能的程序；

2）作业：由一系列任务组成，是实现系统功能的任务集合。

3）常驻作业：作业一直处于运行状态，生命周期长。

4）非常驻作业：作业运行一段时间后退出，生命周期短。

5）调度器：调度器的主要工作是将提交的每一个作业，按照某种规则，部署到集群中的节点上。

6）作业管理器：作业管理器是作业的管理进程，它负责监视作业的运行状态。它接收任务的实时处理数据，汇总计算结果；它统计每个任务的处理能力，对任务的数据集进行动态调度；同时还在延迟调度中负责将延迟队列的作业充分部署到那些高性能节点上。在本方法中，每个作业都有一个作业管理器。

7）调度队列：用于存放被提交的作业的队列。

8）延迟队列：作业管理器持有的一个队列，当作业所需的CPU资源不能被全部满足时，作业的部分任务将被插入到延迟队列。

9）任务的资源使用值：任务的资源使用值通过（内存使用值，CPU使用值）二元组表示。内存使用值就是运行时占用的物理内存大小；CPU使用值就是CPU占用的核数，该值等于CPU利用率，一般CPU利用率占用为50%，则其CPU使用值为0.5；如果CPU利用率占用为125%，则CPU使用值为1.25。

10）节点的资源能力：通过（空闲内存大小，CPU空闲值）二元组来表示。其中CPU空闲值=节点CPU空闲率*CPU物理核数。

本发明是一种适用于计算资源异构集群的分布式任务调度方法，，包括以下步骤：

1）自动化节点资源发现集群中的每个节点周期性地统计本节点的CPU核数、CPU利用率和内存空闲大小，组成组播报文发送出去。调度器、作业管理器加入组播组中，接收这些报文，并将各个节点的资源信息记录下来，存放在资源池中。

2）基于FIFO（FirstInputFirstOutput，先入先出队列）和资源利用最大化的作业调度

调度器按照FIFO的原则，从调度队列中逐个选择作业进行调度。调度器在部署作业时，首先要解析作业，即确定作业的任务、任务个数、是否指定节点。如果指定节点，则将任务分配到指定的节点上启动。

如果没有指定节点，则基于资源利用最大化的原则进行部署。首先，调度器从资源池中选出空闲内存大于作业各个任务的内存使用值的节点，然后从这些节点中选择CPU空闲值最大的节点。如果CPU空闲值同样大，则选择内存空闲值较大的节点。根据这种方法，调度器将任务逐个部署到资源利用率最低的节点上。

3）支持基于数据集的动态再调度机制

对于常驻作业，作业管理器需要周期性地接收各个任务的计算数据，并形成计算结果。每个任务的周期性的计算速度直接影响到作业的计算性能，通常作业的计算性能由最慢任务的计算速度决定。因此，为了提高作业的计算性能，就有必要提高最慢的任务的计算速度。

本发明采用动态数据集调度来实现这个目标。工作管理者监视各个任务每个周期的计算时间，如果最慢任务在某个周期的计算时间超过最快任务在该周期的计算时间的1倍，则工作管理器将最慢任务数据集的1/2调度给最快任务。

工作管理器主要采用应答方式来动态调度数据集。在周期性地接收完各个任务的计算结果后，作业管理器会进行应答。在应答中，作业管理器可以指定下个周期任务需要计算的数据集，以重新分配数据集。

4）支持延迟调度机制

对于非常驻作业，为了尽量让任务部署到高性能的节点上，调度器依次将作业部署资源能力最大的节点上，如果集群中各个节点的所有CPU核心都有该作业的任务在执行时，余下的任务被提交到延迟队列中。即作业在该节点的并行度已达最大化时，即使内存资源有空闲，也暂时不部署任务到该节点，开始执行延迟调度。

作业管理器监视各个任务运行状态和集群资源使用情况，当某个节点上属于该作业的任务完成或者某个节点有空闲的CPU核心可以执行任务时，各个作业管理器进行资源竞争，作业ID最小的作业管理器将获胜，并从延迟队列中将本作业的任务部署到该节点。

5）支持故障冗余

如果作业的可靠性要求很高，则需要进行冗余互备。对于需要冗余互备的作业，调度器首先解析作业，获取其所需的备份数N；然后为每个任务生成N个备份；接着，依次将各个任务和备份任务部署到集群上。

作业管理器监视本作业下所有任务的运行状态，并接收所有任务的实时计算数据。对于同一个任务的多份计算结果，作业管理者总是选择计算速度最快的任务的处理数据。当某个任务出现离线或者故障时，并不会影响到作业管理器汇总结果，它可以从计算速度最快的备份任务获取数据。

本发明通过以上步骤，可达到以下有益效果：

1.本发明充分利用资源，通过对资源使用量的监视，将作业部署在资源利用率低的节点上，全面提高资源利用率。

2.本发明处理能力强，作业上的任务被分布在多个节点上并行执行，同时通过基于数据集的动态调度和延迟调度等方式，尽量让作业调度在高性能节点上，以提高作业处理速度。

3.本发明扩展性强，节点加入系统后，调度器可以发现自动发现该节点，并将作业部署到该节点上，不需要增加配置或者重启管理程序。

4.本发明可靠性高，当任务出现故障或者断网，备份任务可以继续进行工作。

5.本发明支持跨平台，所有程序支持LINUX/AIX/HPUX/WINDOWS平台。

综上所述，本发明是一种资源利用高、处理能力强、扩展性强、可靠性高、支持跨平台的分布式作业调度方法。

附图说明

图1是本发明节点资源的自动化发现的过程图；

图2是本发明基于FIFO和资源利用最大化的作业调度过程图；

图3是本发明基于数据集的动态调度过程图；

图4是本发明延迟调度的过程说明图；

图5是本发明冗余互备过程说明图。

具体实施方式

下面结合附图对本发明的适用于计算能力异构集群的分布式任务调度方法作进一步的说明。

本发明公开了一种适用于计算能力异构集群的分布式作业调度方法，主要包括五个步骤：第一，节点资源的自动化发现。集群中的每个节点将资源信息以组播报文的方式发送到网络中，调度器接收组播报文，自动发现集群节点；第二，基于FIFO和资源利用最大化的作业调度机制。调度器根据FIFO的机制从调度队列选择作业，并指定满足任务资源使用值的高性能节点来部署任务，确保最大化利用集群资源。第三，基于数据集的动态再调度机制。作业管理器动态调整各个任务的数据集，以提高作业的整体计算性能；第四，延迟调度机制。将作业的部分任务部署到所有节点，剩下的任务提交到延迟队列等待调度。一旦某个节点有空闲的CPU资源，则从延迟队列中选取一个任务部署到该节点运行，保证异构集群中计算能力强的节点能够处理更多的任务，确保作业整体的完成时间更加提前；第五，使用冗余互备机制。调度器为每个任务部署备份任务，保证在任务故障或者离线后，备份任务依然能够提供计算结果。以上步骤，提高了集群的分布式处理能力，提升了系统的资源利用率，确保了作业处理的可靠性。

为了具体说明分布式任务调度方法的实施方式，现假定初始时调度队列中有3个作业：job1、job2、job3，其中job2是常驻作业，其它都是非常驻作业。每个作业存在3个任务，假设job1的任务为task1-1、task1-2、task1-3，其它作业的任务以此类推。每个任务的资源使用值为（1G，0.5），即内存使用值为1G，CPU利用率为50%。后续的job4有16个任务组成，每个任务的资源使用值（100M，0.5）；job5有3个任务组成，每个任务的资源使用值（1G，0.5）。

集群中总共有3个节点：node1、node2、node3，每个节点的资源能力是不同的，分别是（4G，4）、（2G，4）、（4G、2），其中（4G，4）表示节点空闲内存大小是4G，CPU空闲值是4，其它依此类推。

同时假定：在冗余互备过程中，任务的备份数是1。

图1是本发明节点资源的自动化发现的过程图，每个节点获取本节点的资源信息：CPU利用率、核数、空闲内存数，然后以组播的方式发送到整个集群的所有节点。调度器加入该组播组，并且从集群中接收这些资源信息，然后将这些资源信息存放在资源池中。

图2是本发明基于FIFO和资源利用最大化的作业调度过程图。调度队列中存在3个作业，每个作业分别有三个任务。调度器从调度队列中选择作业，依次选择job1，job2，job3部署到集群节点上。

参见图2的（a）job1中，调度器从调度队列中获取job1，并解析出3个任务，由于node1、node2是满足job1的各个任务的内存使用值中CPU空闲值最大的节点，于是将任务task1-1部署到node1；部署task1-2时，node1的资源能力是（3G，3.5），node2的资源能力是（2G，4），在空闲内存足够任务使用的的情况下，选择CPU空闲值最大的节点node2，将task1-2部署到node2；以此类推，将task1-3部署到node1上。部署完job1，三个节点的资源能力分别是（2G，3）、（1G，3.5）、（4G，2）。

图2的（b）job2中，调度job2，将task2-1部署到node2，task2-2部署到node1，task2-3部署到node3上，此时三个节点的资源能力分别是（1.5G，2.5）、（0G，3）、（3.5G，1.5）。

图2的（c）job3中,调度job3，将task3-1部署到node1，task3-2、task3-3部署到node3。

图3是本发明基于数据集的动态调度过程图。图3（a）中，对于常驻作业job2，其数据处理集被划分为12个块，分别为data_block1，data_block2，……，data_block12，因此，指派给每个任务4个数据块。

图3的（b）job2中，作业管理器2发现，task2-1的计算速度是task2-3的2倍多，于是就调度task2-3的1/2的任务集data_block9、data_block10到task2-1上。

图4是本发明延迟调度的过程说明图。假定job1已经完成，此时队列提交了job4。集群各个节点的资源能力分别是（2G，3），（1G，3.5），（1G，0.5）。图4的（a）job1，调度器解析job4，发现其由16个任务组成。调度器根据节点资源使用情况，将task4-1、task4-3、……、task4-13调度到node2上，将task4-2、task4-4、……、task4-12调度到node1上，将task4-14调度到node3上。此时，由于集群中每个节点无空闲CPU资源,即使有空闲的内存资源，此时也不再部署task4-15、task4-16到节点上,而是将这两个任务插入到延迟队列，等待先完成处理的节点来取。

图4的（b）job2中，作业管理器4监视job4其它14个任务的运行情况和集群资源利用情况。当job3运行结束后，node1的资源能力是（2.4G，0.5），node3的资源能力是（2.9G，1）满足task4-15、task4-16的运行要求。作业管理器4调度job4-15、job4-16到node3上运行。

图5是本发明支持冗余互备过程说明图。图5的（a）中，假定job1，job3，job4已经相继完成，同时集群增加节点node4，其资源能力是（2G，4）。此时，job5被提交到调度队列中。调度器解析job5提交的参数发现，该作业需要进行冗余互备，调度器为job5的每个任务指定一个备份，分别是task5-1’、task5-2’、task5-3’。这些任务在部署时，要满足节点互斥部署，即相同的任务的主备不能运行在同一个节点上。调度器先后部署主任务和备份任务，此时4个节点的资源能力分别是（3G，3.5）、（1G，1.5）、（3G，1.5）、（2G，4），调度器将job5的任务task5-1调度到node3上，将task5-2调度到node1上，将task5-3调度到node2上。

图5的图（b）中，当前4个节点的资源能力分别是（2G，3）、（0G，3）、（3G，1.5）、（1G，3.5），调度器依次部署三个备任务task5-1’，task5-2’，task5-3’；将job5的备任务task5-1’部署到node1，task5-2’部署到node4，task5-3’部署到node1上。

图5的图（c）中，node4离线，则job5的作业管理器从task5-1’、task5-2、task5-3汇总数据，生成计算结果。

通过上述实施例可知，本发明充分利用资源，通过对资源使用量的监视，将作业部署在资源利用率低的节点上，全面提高资源利用率。而且处理能力强，作业上的任务被分布在多个节点上并行执行，同时通过基于数据集的动态调度和延迟调度等方式，尽量让作业调度在高性能节点上，以提高作业处理速度。

此外，本发明扩展性强，节点加入系统后，调度器可以发现自动发现该节点，并将作业部署到该节点上，不需要增加配置或者重启管理程序；并且可靠性高，当任务出现故障或者断网，备份任务可以继续进行工作，支持跨平台，所有程序支持LINUX/AIX/HPUX/WINDOWS平台。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，包括以下步骤：

步骤1）：节点资源的自动发现；集群中的每个节点将资源信息以组播报文的方式发送到网络中，调度器接收组播报文，自动发现集群系统中的节点，并汇总各个节点的资源信息；

步骤2）：基于FIFO和资源利用最大化的作业调度机制；调度器在调度作业时，根据FIFO机制从调度队列中选择作业，并指定部署到该作业内存需求的节点中CPU利用率最小的节点上；

步骤3）：支持基于数据集的动态再调度机制；作业管理器动态调整各个任务的数据集，对于常驻作业，作业管理器周期性地汇总计算结果；如果作业的某个任务的周期性计算速度最慢，则作业管理器将计算速度最慢的任务的数据集调度一部分给计算速度最快的任务，以提高作业的整体计算性能；

步骤4）：支持延迟调度机制；对于非常驻作业，调度器先将作业的一部分任务部署到所有节点上运行，剩下的任务被放入延迟队列中等待调度；延迟队列的任务由首先完成部分任务的处理节点获取并运行，即，若某个节点有空闲的CPU资源，则从延迟队列中选取一个任务部署到该节点运行，保证异构集群中计算能力强的节点能够处理更多的任务，确保作业的整体完成时间更短；

步骤5）：分布式作业调度支持冗余互备机制；调度器为每个作业的任务部署多个备份任务，当作业的某个任务出现故障或者离线时，备份任务依然能够提供计算结果。

2.根据权利1所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，在上述步骤1）中，节点的资源信息主要由CPU和内存组成，各个节点通过心跳报文向调度器汇报节点的资源信息。

3.根据权利1所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，在步骤2）中，如果作业没有指定部署节点，调度器选择满足作业内存需求的节点中CPU利用率最小的节点来部署作业。

4.根据权利1所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，在步骤3)中，作业分为常驻作业和非常驻作业；常驻作业一直处于运行状态，生命周期长，主要提供实时计算和服务；非常驻作业生命周期短，主要处理临时用户请求和批量数据处理。

5.根据权利1所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，在步骤3)中，对于常驻作业，作业管理器需要周期性地接收每个任务的实时计算结果，并进行汇总；作业每个周期的计算时间由最慢的任务决定；作业管理器统计每个任务每周期的计算时间，如果最慢的任务t_slow的计算时间是最快任务t_fast的计算时间的N倍，当N≥2时,作业管理器将t_slow的1/2数据集调度给t_fast处理。

6.根据权利5所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于：作业管理器接收到任务的计算结果后，会给予应答；在应答时，作业管理器为任务指定下个周期需要计算的数据集，以重新分配数据集。

7.根据权利1所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，在步骤4)中，对于非常驻作业，调度器首先将作业的部分任务部署到有空闲CPU核心的所有节点，当各个节点没有空闲的CPU核心时，此时即使有空闲的内存也不再部署该作业的剩余任务，而是将它们插入到该作业的延迟队列；延迟队列中的任务将由作业管理器进行延迟调度。

8.根据权利7所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，作业管理器监视各个处理节点的运行状态和集群资源使用情况，当某个节点上先完成了部分任务，产生了空闲的CPU资源时，作业管理器从延迟队列中选择一个任务部署到该节点上，确保异构集群中处理能力更强的节点能够处理更多的任务，即保证作业的整体完成时间更短。

9.根据权利7所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，当某个节点上属于该作业的任务完成或者某个节点有空闲的CPU核心可以执行任务时，各个作业管理器进行资源竞争，作业ID最小的作业管理器将获胜，并从延迟队列中将本作业的任务部署到该节点。

10.根据权利1所要求的一种适用于计算能力异构集群的分布式作业调度算法，其特征在于，在步骤5)中，对于需要冗余互备的作业，调度器首先解析作业，获取其所需的备份数N，N≥2；然后为每个任务生成N个备份；接着，依次将各个任务和备份任务部署到集群上；

作业管理器监视本作业下所有任务的运行状态，并接收所有任务的实时计算数据；对于同一个任务的多份计算结果，作业管理者选择计算速度最快的任务的处理数据；

当作业的任务出现故障、停止、离线的异常状态时，计算速度最快的备份任务将提供计算结果。