CN109857534A

CN109857534A - 一种基于策略梯度强化学习的智能任务调度策略训练方法

Info

Publication number: CN109857534A
Application number: CN201910111086.8A
Authority: CN
Inventors: 程雨夏; 庄跃辉
Original assignee: Zhejiang Fangzheng Printing Co Ltd
Current assignee: Zhejiang Fangzheng Printing Co Ltd
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2019-06-07

Abstract

本发明涉及一种基于策略梯度强化学习的智能任务调度策略训练方法，主要包括基于强化学习的任务调度序列数据生成和基于策略梯度强化学习的任务调度策略训练方法；本发明将任务调度问题抽象成一种强化学习的过程，使用策略梯度下降训练网络模型，提出一种结合多维度任务状态矩阵、调度策略矩阵和奖励函数的调度策略训练方法，提高了任务调度策略的训练效率，降低了任务的总体运行时间。

Description

一种基于策略梯度强化学习的智能任务调度策略训练方法

技术领域

本发明涉及计算机系统任务调度与人工智能算法技术领域，尤其涉及一种基于策略梯度强化学习的智能任务调度策略训练方法。

背景技术

面对数据中心的大数据分析计算任务，如何高效地调度计算任务在大规模服务器上运行成为计算机系统中的关键问题。大数据分析计算任务具有并行性高、数据依赖关系复杂等特点，任务调度问题面临巨大的挑战。与此同时，数据中心服务器计算设备之间存在较大的性能差异，因而形成了复杂的分布式异构计算系统。在分布式异构计算系统中调度并行计算任务是业界公认的NP难问题，无法在多项式时间内找到最优的调度策略。

传统的分布式异构计算系统中的并行任务调度算法依赖专家的经验设计，大多以基于启发式的贪心调度方法为主。例如，列表启发式调度算法、基于任务复制的调度算法、基于遗传和进化的随机搜索算法等等。然而，列表启发式调度算法的调度策略使用单个任务的最早完成时间作为依据，使得每次调度都是贪心策略，难以获得全局优化的调度。基于任务复制的调度算法的调度策略采用复制多个相同的任务在不同处理器上执行，虽然降低了通信开销，但是增加了任务执行数量，极大增加了计算资源消耗。基于遗传和进化的随机搜索算法的调度策略需要进行大量的迭代计算，随机搜索的迭代过程执行时间过长，无法满足实时性要求较高的任务调度场景。因此，设计一种能够提高任务调度策略的训练效率，降低任务的总体运行时间的调度策略训练方法，就显得十分重要。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于策略梯度强化学习的智能任务调度策略训练方法，本方法将任务调度问题抽象成一种强化学习的过程，使用策略梯度下降训练网络模型，提出一种结合多维度任务状态矩阵、调度策略矩阵和奖励函数的调度策略训练方法，提高了任务调度策略的训练效率，降低了任务的总体运行时间，减少计算资源消耗，解决了现有技术中存在的任务调度策略训练复杂度高，调度策略次优、消耗计算资源大的问题。

本发明是通过以下技术方案达到上述目的：一种基于策略梯度强化学习的智能任务调度策略训练方法，包括如下步骤：

(1)基于强化学习的任务调度序列数据生成：

(1.1)在线计算t时刻任务状态矩阵S_t；

(1.2)基于S_t使用策略网络输出调度动作矩阵PA_t；

(1.3)基于动作概率矩阵PA_t执行调度动作A_t；

(1.4)计算调度动作A_t对应的奖励回报R_t；

(1.5)检查系统中是否有就绪任务在等待队列中；若存在就绪任务，则执行步骤(1.1)至(1.4)；若没有就绪任务，则结束此轮调度；

(2)基于策略梯度强化学习的任务调度策略训练方法：

(2.1)初始化策略网络π(a|s，θ)和学习率α；其中，参数θ表示策略网络的权重参数，a表示调度动作，s表示任务状态，学习率α取值范围可选0＜α＜0.001；

(2.2)使用策略网络生成一组新的任务调度序列E；

(2.3)计算任务调度序列E中t时刻状态S_t的期望奖励G；

(2.4)基于梯度下降法更新策略网络参数θ；

(2.5)读取任务调度序列E中t+1时刻的S_t、A_t、R_t值；若E中存在未处理的数据，则继续子步骤(2.1)至(2.4)；若E中数据处理完成，则进入下一轮新调度序列的生成与策略网络的训练。

作为优选，所述步骤(1.1)的计算公式如下：

其中，S_t为m*2q维矩阵，其中m表示系统中就绪任务数量，q表示系统中处理器数量，EST(n_i，p_j)表示任务n_i在处理器p_j上的最早开始时间，w_i，j表示任务n_i在处理器p_j上的计算开销。

作为优选，所述步骤(1.2)的计算公式如下：

其中，通过策略网络π(a|s，θ)输出相应调度动作的概率值，p_m，q表示任务n_m调度到处理器q上的概率。

作为优选，所述步骤(1.3)的计算公式如下：

其中，调度动作A_t为每个就绪任务选取PA_t中相应概率值最大的处理器q_max。

作为优选，所述步骤(1.4)的计算公式如下：

R_t＝max{readyT_i，t-1|_i＝1...q}-max{readyT_i，t|_i＝1...q}

其中，奖励回报R_t表示系统中所有处理器在时刻t-1的最晚就绪时间与在时刻t的最晚就绪时间的差值；readyT_i，t表示在t时刻调度器执行调度动作A_t后处理器q_i的就绪时间。

作为优选，所述的任务调度序列E通过任务调度产生，任务调度序列E表示如下：

E＝S₀，A₀，R₀，...S_t，A_t，R_t，...S_T，A_T，R_T

其中，S_t，A_t，R_t表示t时刻的任务状态、调度动作和回报奖励；调度序列从时刻0开始到时刻T结束。

作为优选，所述期望奖励G的计算公式如下：

其中，期望奖励G表示从t+1时刻开始到时刻T调度结束的所有奖励回报R_k的总和。

作为优选，所述步骤(2.4)具体为：根据步骤(2.3)中计算的G更新策略网络参数θ，更新公式如下所示：

其中，γ^t为衰减系数γ＝0.99，为策略网络的梯度。

作为优选，所述步骤(2.5)还包括：若调度序列生成次数大于阈值N，则调度策略训练结束；其中，阈值N可取10000，实际使用时根据可用的计算资源人工设定阈值。

本发明的有益效果在于：本发明克服了现有技术中存在的任务调度策略训练复杂度高，调度策略次优、消耗计算资源大的问题，提供了一种能够提高任务调度策略的训练效率，降低任务的总体运行时间，减少计算资源消耗的的智能任务调度策略训练方法，大大提高了任务调度策略的训练效率，降低了任务的总体运行时间。

附图说明

图1是本发明方法的流程示意图；

图2是本发明的基于强化学习的调度流程示意图；

图3是本发明的基于策略梯度强化学习的任务调度策略训练方法流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种基于策略梯度强化学习的智能任务调度策略训练方法，主要包括如下步骤：

第一步：基于强化学习的任务调度序列数据生成；如图2所示，主要包括以下五个子步骤：

(1)在线计算t时刻任务状态矩阵S_t。如下公式所示，S_t为m*2q维矩阵，其中m表示系统中就绪任务数量，q表示系统中处理器数量，EST(n_i，p_j)表示任务n_i在处理器p_j上的最早开始时间，w_i，j表示任务n_i在处理器p_j上的计算开销。

(2)基于S_t使用策略网络输出调度动作矩阵PA_t。如下公式所示，通过策略网络π(a|s，θ)输出相应调度动作的概率值，其中p_m，q表示任务n_m调度到处理器q上的概率。策略网络模型的训练是一个逐步递进优化的过程(见第二步)。

(3)基于动作概率矩阵PA_t执行调度动作A_t。如下公式所示，调度动作A_t为每个就绪任务选取PA_t中相应概率值最大的处理器q_max。

(4)计算调度动作A_t对应的奖励回报R_t。如下公式所示，奖励回报表示系统中所有处理器在时刻t-1的最晚就绪时间与在时刻t的最晚就绪时间的差值。其中，readyT_i，t表示在t时刻调度器执行调度动作A_t后处理器q_i的就绪时间。

R_t＝max{readyT_i，t-1|_i＝1...q}-max{readyT_i，t|_i＝1...q}

(5)检查系统中是否有就绪任务在等待队列中。若存在就绪任务，则执行子步骤(1)至(4)。若没有就绪任务，则结束此轮调度。

第二步：基于策略梯度强化学习的任务调度策略训练方法；如图3所示，主要包括以下五个子步骤：

(1)初始化策略网络π(a|s，θ)和学习率α。参数θ表示策略网络的权重参数，a表示调度动作，s表示任务状态，学习率α取值范围可选0＜α＜0.001。

(2)使用策略网络生成一组新的任务调度序列E。任务调度序列通过第一步中的任务调度产生，调度序列E表示如下，其中S_t，A_t，R_t表示t时刻的任务状态、调度动作和回报奖励(见第一步)。调度序列从时刻0开始到时刻T结束。

E＝S₀，A₀，R₀，...S_t，A_t，R_t，...S_T，A_T，R_T

(3)计算序列E中t时刻状态S_t的期望奖励G。如下所示，期望奖励G表示从t+1时刻开始到时刻T调度结束的所有奖励回报R_k的总和。

(4)基于梯度下降法更新策略网络参数θ。根据子步骤(3)中计算的G更新策略网络参数θ，更新公式如下所示，其中γ^t为衰减系数γ＝0.99，为策略网络的梯度。

(5)读取序列E中t+1时刻的S_t、A_t、R_t值。若序列E中存在未处理的数据，则继续子步骤(1)至(4)。若序列E中数据处理完成，则进入下一轮新调度序列的生成与策略网络的训练。若调度序列生成次数大于阈值N，则调度策略训练结束。N阈值可取10000，实际使用时根据可用的计算资源人工设定阈值。

综上所述，本发明方法将任务调度问题抽象成一种强化学习的过程，使用策略梯度下降训练网络模型，提出一种结合多维度任务状态矩阵、调度策略矩阵和奖励函数的调度策略训练方法，提高了任务调度策略的训练效率，降低了任务的总体运行时间。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于，包括如下步骤：

(1)基于强化学习的任务调度序列数据生成：

(1.1)在线计算t时刻任务状态矩阵S_t；

(1.2)基于S_t使用策略网络输出调度动作矩阵PA_t；

(1.3)基于动作概率矩阵PA_t执行调度动作A_t；

(1.4)计算调度动作A_t对应的奖励回报R_t；

(2)基于策略梯度强化学习的任务调度策略训练方法：

(2.2)使用策略网络生成一组新的任务调度序列E；

(2.3)计算任务调度序列E中t时刻状态S_t的期望奖励G；

(2.4)基于梯度下降法更新策略网络参数θ；

2.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于：所述步骤(1.1)的计算公式如下：

3.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于：所述步骤(1.2)的计算公式如下：

4.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于：所述步骤(1.3)的计算公式如下：

5.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于：所述步骤(1.4)的计算公式如下：

R_t＝max{readyT_i，t-1|_i＝1...q}-max{readyT_i，t|_i＝1...q}

6.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于：所述的任务调度序列E通过任务调度产生，任务调度序列E表示如下：

E＝S₀，A₀，R₀，...S_t，A_t，R_t，...S_T，A_T，R_T

7.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于：所述期望奖励G的计算公式如下：

8.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于：所述步骤(2.4)具体为：根据步骤(2.3)中计算的G更新策略网络参数θ，更新公式如下所示：

其中，γ^t为衰减系数γ＝0.99，为策略网络的梯度。

9.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法，其特征在于：所述步骤(2.5)还包括：若调度序列生成次数大于阈值N，则调度策略训练结束；其中，阈值N可取10000，实际使用时根据可用的计算资源人工设定阈值。