CN109857532B

CN109857532B - 基于蒙特卡洛树搜索的dag任务调度方法

Info

Publication number: CN109857532B
Application number: CN201910059454.9A
Authority: CN
Inventors: 程雨夏; 刘奎; 吴志伟; 吴卿
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2020-11-17
Anticipated expiration: 2039-01-22
Also published as: CN109857532A

Abstract

本发明公开了一种基于蒙特卡洛树搜索的DAG任务调度方法，包括如下步骤：首先使用CPOP算法里求关键路径的方法计算DAG图的关键路径；然后执行本方法的蒙特卡洛树搜索四个阶段，从根节点开始判断当前结点是否扩展完，如果扩展完选择UCT值最大的结点作为搜索路径结点，如果没有扩展完则添加一个新的结点作为扩展结点，以扩展结点开始模拟任务调度过程，使用随机选择策略选择处理器和任务，模拟结束得到一个makspan值，根据makespan值回传更新结点，最后根据蒙特卡洛树搜索的结果找到一条能使makespan值最小的调度顺序。本发明具有能够在加速保证算法效率的同时，提高算法的搜索效率的特点。

Description

基于蒙特卡洛树搜索的DAG任务调度方法

技术领域

本发明涉及任务调度系统技术领域，尤其是涉及一种能够加速保证算法的效率，同时提高算法搜索效率的基于蒙特卡洛树搜索的DAG任务调度方法。

背景技术

在分布式异构计算系统中，如何优化DAG任务调度是一个开放的研究问题。DAG任务调度的目标是给出一个调度方案，将DAG图中的任务按照一定的顺序调度到处理器上执行，使调度长度最小化。其模型如下：

用一个有向无环图(DAG)G(V,E)代表一个计算应用。其中V代表应用程序中n个任务的集合，E代表任务之间e条边的集合。边e(i,j)∈E表示优先约束，任务n_j必须等到n_i完成它才可以执行。通常把没有前驱的任务称为入口任务，记为n_entry；没有后继的任务称为出口任务，记为n_exit。给出一个包含m个处理器的集合Q＝{p₁,p₂,…,p_m}。W_i,j表示任务n_i调度到处理器p_j上执行的计算开销；

表示任务n_i调度到处理器上执行的平均计算开销；C_i,j表示任务n_i和任务n_j之间的通信开销，当任务n_i和任务n_j在同一处理器上执行时通信开销为0；EST_i,j表示任务n_i调度到处理器p_j上的开始执行时间；EFT_i,j表示任务n_i调度到处理器p_j上的执行结束时间；三者关系为：EFT_i,j＝EST_i,j+W_i,j。所有的任务都调度完后，最后一个任务的EFT被命名为调度长度，也称为makespan。

CPOP算法中，任务n_i的上行权重用如下公式计算，其中

任务n_i的下行权重则用如下公式计算，其中rank_d(n_entry)＝0：

任务的权重值为上下行权重之和，用如下公式计算：

CT(n_i)＝rank_u(n_i)+rank_d(n_i)。

关键路径的任务结点为上下权重值最大的任务结点。

DAG任务调度在实际调度系统中被证明是NP完全问题，由于其重要性，它已在文献中得到了广泛的研究。许多基于DAG的任务调度算法已经被提出，例如列表启发式调度算法、基于任务复制的算法、基于遗传和进化的随机搜索算法等等。然而，列表启发式调度算法缺乏适应各种异构硬件和快速变化的应用需求；基于任务复制的算法的时间复杂度比较高；基于遗传和进化的随机搜索算法需要多次迭代过程，才能找到相对比较好的解，而且整个迭代过程执行时间较长。

因此，设计一种能够加速保证算法的效率，同时提高算法搜索效率的DAG任务调度方法，就显得十分重要。

发明内容

本发明是为了克服现有技术中，目前分布式环境下工作流调度方法存在执行时间长的问题，提供了一种能够加速保证算法的效率，同时提高算法搜索效率的基于蒙特卡洛树搜索的DAG任务调度方法。

为实现上述目的，本发明采用以下技术方案：

一种基于蒙特卡洛树搜索的DAG任务调度方法，包括如下步骤：

(1-1)利用CPOP算法求出DAG图的关键路径；

(1-2)选择阶段：设定搜索树的根节点为S₀，从根节点S₀开始，每经过一个结点，开始判断经过的这个结点是否扩展完；

(1-3)扩展阶段：若当前为扩展任务结点，则从待调度的任务队列中选择一个任务，添加到搜索树上，作为新的任务结点；

(1-4)模拟阶段：从扩展结点开始，在每一个位置S_i，使用随机策略交替选择任务和处理器，并将同一状态下选择的任务调度到处理器上，直到模拟到全部任务都被调度到处理器上为止，最后会得到一个makespan值；

(1-5)回传阶段：当模拟结束后，获得搜索树中各节点的信息，同时根据makespan值，将搜索后所得最新结点由叶子结点回传到根节点上进行更新；

(1-6)重复执行步骤(1-2)至步骤(1-5)直到DAG图的最后一个任务结点被调度到处理器上为止，并最后根据结果找到一条能使makespan值最小的调度顺序。

本发明提供了一种蒙特卡洛树搜索结合关键路径来进行DAG任务调度的方法。本发明方法在调度上既不像普通启发式算法一样采用同一模型对不同的DAG输入进行调度，也不像遗传算法一样，在计算调度结果过程中进行多次迭代，消耗大量的时间。本发明能够在加速保证算法效率的同时，提高算法的搜索效率。

作为优选，本发明的步骤(1-2)还包括如下步骤：

如果经过的这个结点没有扩展完，则进入扩展阶段；如果扩展完，选择UCT值最大的结点作为搜索路径结点，所述过程利用如下公式进行计算：

其中，Cpuct是重要的超参数，主要用于平衡探索和利用间的权重；N(s,a)表示当前任务结点的访问次数；

表示当前任务结点的所有父节点的访问次数；N(s,b)表示当前处理器结点的访问次数；

表示当前处理器结点的所有父结点的访问次数；p(s,a)当前状态下动作a的概率值，P(s,b)当前状态下动作b的概率值，其中模拟退火参数τ初始值为1。

作为优选，本发明的步骤(1-3)还包括如下步骤：

对新的任务结点的访问次数，奖励值和动作概率进行初始化N(s_t,a)＝0，Q(s_t,a)＝0，p(s_t,a)＝p_t；

若当前为扩展处理器结点，则从处理器集合中任意选择一个可利用的处理器，作为搜索树中新的处理器结点，并对该结点的访问次数，奖励值和动作概率进行初始化N(s_t,b)＝0，Q(s_t,b)＝0，p(s_t,b)＝p_t。

作为优选，本发明的步骤(1-5)还包括如下步骤：

其中，任务结点访问次数的更新方式为N(s,a)＝N(s,a)+1；处理器结点访问次数的更新方式为N(s,b)＝N(s,b)+1；

任务结点的奖励值的更新方式为：

处理器结点的奖励值的更新方式：

其中，

表示当前任务结点到最后一个任务结点之间的关键路径任务结点在其执行时间最短的处理器上执行所需的计算开销之和；

当MCTS搜索完成后，返回当前状态下动作a的概率值π(s,a)和动作b的概率值π(s,b)。

作为优选，所述动作a为从待调度的任务集合中选择一个任务；所述动作b为从处理器集合中选择一个可以使用的处理器。

因此，本发明具有如下有益效果：(1)本发明利用蒙特卡洛树搜索结合关键路径的方法，来进行DAG任务调度，解决了目前分布式环境下工作流调度方法执行时间长的缺点；(2)本发明能够在加速保证算法效率的同时，提高算法的搜索效率。

附图说明

图1是本发明的一种流程图。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步的描述：

实施例:如图1所示的基于蒙特卡洛树搜索的DAG任务调度方法，包括如下步骤：

(1-1)利用CPOP算法求出DAG图的关键路径；

表示当前处理器结点的所有父结点的访问次数；p(s,a)当前状态下动作a的概率值，P(s,b)当前状态下动作b的概率值，其中模拟退火参数τ初始值为1；

若当前为扩展处理器结点，则从处理器集合中任意选择一个可利用的处理器，作为搜索树中新的处理器结点，并对该结点的访问次数，奖励值和动作概率进行初始化N(s_t,b)＝0，Q(s_t,b)＝0，p(s_t,b)＝p_t；

任务结点的奖励值的更新方式为：

处理器结点的奖励值的更新方式：

其中，

当MCTS搜索完成后，返回当前状态下动作a的概率值π(s,a)和动作b的概率值π(s,b)；

上述方法过程中，所述动作a为从待调度的任务集合中选择一个任务；所述动作b为从处理器集合中选择一个可以使用的处理器。

本发明在调度上既不像普通启发式算法一样采用同一模型对不同的DAG输入进行调度，也不像遗传算法一样，在计算调度结果过程中进行多次迭代，需要消耗大量的时间。本发明能够在加速保证算法效率的同时，提高算法的搜索效率。

应理解，本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于蒙特卡洛树搜索的DAG任务调度方法，其特征是，包括如下步骤：

(1-1)利用CPOP算法求出DAG图的关键路径；

(1-3)扩展阶段：若当前为扩展任务结点，则从待调度的任务队列中选择一个任务，添加到搜索树上，作为新的任务结点；若当前为扩展处理器结点，则从处理器集合中任意选择一个可利用的处理器，作为搜索树中新的处理器结点；

2.根据权利要求1所述的基于蒙特卡洛树搜索的DAG任务调度方法，其特征是，步骤(1-2)还包括如下步骤：

如果经过的这个结点没有扩展完，则进入扩展阶段；如果扩展完，选择UCT值最大的结点作为搜索路径结点，其利用如下公式进行计算：

3.根据权利要求1所述的基于蒙特卡洛树搜索的DAG任务调度方法，其特征是，步骤(1-3)还包括如下步骤：

4.根据权利要求1所述的基于蒙特卡洛树搜索的DAG任务调度方法，其特征是，步骤(1-5)还包括如下步骤：

任务结点的奖励值的更新方式为：

处理器结点的奖励值的更新方式：

其中，

5.根据权利要求2或4所述的基于蒙特卡洛树搜索的DAG任务调度方法，其特征是，所述动作a为从待调度的任务集合中选择一个任务；所述动作b为从处理器集合中选择一个可以使用的处理器。