CN109857534A - 一种基于策略梯度强化学习的智能任务调度策略训练方法 - Google Patents
一种基于策略梯度强化学习的智能任务调度策略训练方法 Download PDFInfo
- Publication number
- CN109857534A CN109857534A CN201910111086.8A CN201910111086A CN109857534A CN 109857534 A CN109857534 A CN 109857534A CN 201910111086 A CN201910111086 A CN 201910111086A CN 109857534 A CN109857534 A CN 109857534A
- Authority
- CN
- China
- Prior art keywords
- task
- scheduling
- policy
- scheduling strategy
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于策略梯度强化学习的智能任务调度策略训练方法,主要包括基于强化学习的任务调度序列数据生成和基于策略梯度强化学习的任务调度策略训练方法;本发明将任务调度问题抽象成一种强化学习的过程,使用策略梯度下降训练网络模型,提出一种结合多维度任务状态矩阵、调度策略矩阵和奖励函数的调度策略训练方法,提高了任务调度策略的训练效率,降低了任务的总体运行时间。
Description
技术领域
本发明涉及计算机系统任务调度与人工智能算法技术领域,尤其涉及一种基于策略梯度强化学习的智能任务调度策略训练方法。
背景技术
面对数据中心的大数据分析计算任务,如何高效地调度计算任务在大规模服务器上运行成为计算机系统中的关键问题。大数据分析计算任务具有并行性高、数据依赖关系复杂等特点,任务调度问题面临巨大的挑战。与此同时,数据中心服务器计算设备之间存在较大的性能差异,因而形成了复杂的分布式异构计算系统。在分布式异构计算系统中调度并行计算任务是业界公认的NP难问题,无法在多项式时间内找到最优的调度策略。
传统的分布式异构计算系统中的并行任务调度算法依赖专家的经验设计,大多以基于启发式的贪心调度方法为主。例如,列表启发式调度算法、基于任务复制的调度算法、基于遗传和进化的随机搜索算法等等。然而,列表启发式调度算法的调度策略使用单个任务的最早完成时间作为依据,使得每次调度都是贪心策略,难以获得全局优化的调度。基于任务复制的调度算法的调度策略采用复制多个相同的任务在不同处理器上执行,虽然降低了通信开销,但是增加了任务执行数量,极大增加了计算资源消耗。基于遗传和进化的随机搜索算法的调度策略需要进行大量的迭代计算,随机搜索的迭代过程执行时间过长,无法满足实时性要求较高的任务调度场景。因此,设计一种能够提高任务调度策略的训练效率,降低任务的总体运行时间的调度策略训练方法,就显得十分重要。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于策略梯度强化学习的智能任务调度策略训练方法,本方法将任务调度问题抽象成一种强化学习的过程,使用策略梯度下降训练网络模型,提出一种结合多维度任务状态矩阵、调度策略矩阵和奖励函数的调度策略训练方法,提高了任务调度策略的训练效率,降低了任务的总体运行时间,减少计算资源消耗,解决了现有技术中存在的任务调度策略训练复杂度高,调度策略次优、消耗计算资源大的问题。
本发明是通过以下技术方案达到上述目的:一种基于策略梯度强化学习的智能任务调度策略训练方法,包括如下步骤:
(1)基于强化学习的任务调度序列数据生成:
(1.1)在线计算t时刻任务状态矩阵St;
(1.2)基于St使用策略网络输出调度动作矩阵PAt;
(1.3)基于动作概率矩阵PAt执行调度动作At;
(1.4)计算调度动作At对应的奖励回报Rt;
(1.5)检查系统中是否有就绪任务在等待队列中;若存在就绪任务,则执行步骤(1.1)至(1.4);若没有就绪任务,则结束此轮调度;
(2)基于策略梯度强化学习的任务调度策略训练方法:
(2.1)初始化策略网络π(a|s,θ)和学习率α;其中,参数θ表示策略网络的权重参数,a表示调度动作,s表示任务状态,学习率α取值范围可选0<α<0.001;
(2.2)使用策略网络生成一组新的任务调度序列E;
(2.3)计算任务调度序列E中t时刻状态St的期望奖励G;
(2.4)基于梯度下降法更新策略网络参数θ;
(2.5)读取任务调度序列E中t+1时刻的St、At、Rt值;若E中存在未处理的数据,则继续子步骤(2.1)至(2.4);若E中数据处理完成,则进入下一轮新调度序列的生成与策略网络的训练。
作为优选,所述步骤(1.1)的计算公式如下:
其中,St为m*2q维矩阵,其中m表示系统中就绪任务数量,q表示系统中处理器数量,EST(ni,pj)表示任务ni在处理器pj上的最早开始时间,wi,j表示任务ni在处理器pj上的计算开销。
作为优选,所述步骤(1.2)的计算公式如下:
其中,通过策略网络π(a|s,θ)输出相应调度动作的概率值,pm,q表示任务nm调度到处理器q上的概率。
作为优选,所述步骤(1.3)的计算公式如下:
其中,调度动作At为每个就绪任务选取PAt中相应概率值最大的处理器qmax。
作为优选,所述步骤(1.4)的计算公式如下:
Rt=max{readyTi,t-1|i=1...q}-max{readyTi,t|i=1...q}
其中,奖励回报Rt表示系统中所有处理器在时刻t-1的最晚就绪时间与在时刻t的最晚就绪时间的差值;readyTi,t表示在t时刻调度器执行调度动作At后处理器qi的就绪时间。
作为优选,所述的任务调度序列E通过任务调度产生,任务调度序列E表示如下:
E=S0,A0,R0,...St,At,Rt,...ST,AT,RT
其中,St,At,Rt表示t时刻的任务状态、调度动作和回报奖励;调度序列从时刻0开始到时刻T结束。
作为优选,所述期望奖励G的计算公式如下:
其中,期望奖励G表示从t+1时刻开始到时刻T调度结束的所有奖励回报Rk的总和。
作为优选,所述步骤(2.4)具体为:根据步骤(2.3)中计算的G更新策略网络参数θ,更新公式如下所示:
其中,γt为衰减系数γ=0.99,为策略网络的梯度。
作为优选,所述步骤(2.5)还包括:若调度序列生成次数大于阈值N,则调度策略训练结束;其中,阈值N可取10000,实际使用时根据可用的计算资源人工设定阈值。
本发明的有益效果在于:本发明克服了现有技术中存在的任务调度策略训练复杂度高,调度策略次优、消耗计算资源大的问题,提供了一种能够提高任务调度策略的训练效率,降低任务的总体运行时间,减少计算资源消耗的的智能任务调度策略训练方法,大大提高了任务调度策略的训练效率,降低了任务的总体运行时间。
附图说明
图1是本发明方法的流程示意图;
图2是本发明的基于强化学习的调度流程示意图;
图3是本发明的基于策略梯度强化学习的任务调度策略训练方法流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,一种基于策略梯度强化学习的智能任务调度策略训练方法,主要包括如下步骤:
第一步:基于强化学习的任务调度序列数据生成;如图2所示,主要包括以下五个子步骤:
(1)在线计算t时刻任务状态矩阵St。如下公式所示,St为m*2q维矩阵,其中m表示系统中就绪任务数量,q表示系统中处理器数量,EST(ni,pj)表示任务ni在处理器pj上的最早开始时间,wi,j表示任务ni在处理器pj上的计算开销。
(2)基于St使用策略网络输出调度动作矩阵PAt。如下公式所示,通过策略网络π(a|s,θ)输出相应调度动作的概率值,其中pm,q表示任务nm调度到处理器q上的概率。策略网络模型的训练是一个逐步递进优化的过程(见第二步)。
(3)基于动作概率矩阵PAt执行调度动作At。如下公式所示,调度动作At为每个就绪任务选取PAt中相应概率值最大的处理器qmax。
(4)计算调度动作At对应的奖励回报Rt。如下公式所示,奖励回报表示系统中所有处理器在时刻t-1的最晚就绪时间与在时刻t的最晚就绪时间的差值。其中,readyTi,t表示在t时刻调度器执行调度动作At后处理器qi的就绪时间。
Rt=max{readyTi,t-1|i=1...q}-max{readyTi,t|i=1...q}
(5)检查系统中是否有就绪任务在等待队列中。若存在就绪任务,则执行子步骤(1)至(4)。若没有就绪任务,则结束此轮调度。
第二步:基于策略梯度强化学习的任务调度策略训练方法;如图3所示,主要包括以下五个子步骤:
(1)初始化策略网络π(a|s,θ)和学习率α。参数θ表示策略网络的权重参数,a表示调度动作,s表示任务状态,学习率α取值范围可选0<α<0.001。
(2)使用策略网络生成一组新的任务调度序列E。任务调度序列通过第一步中的任务调度产生,调度序列E表示如下,其中St,At,Rt表示t时刻的任务状态、调度动作和回报奖励(见第一步)。调度序列从时刻0开始到时刻T结束。
E=S0,A0,R0,...St,At,Rt,...ST,AT,RT
(3)计算序列E中t时刻状态St的期望奖励G。如下所示,期望奖励G表示从t+1时刻开始到时刻T调度结束的所有奖励回报Rk的总和。
(4)基于梯度下降法更新策略网络参数θ。根据子步骤(3)中计算的G更新策略网络参数θ,更新公式如下所示,其中γt为衰减系数γ=0.99,为策略网络的梯度。
(5)读取序列E中t+1时刻的St、At、Rt值。若序列E中存在未处理的数据,则继续子步骤(1)至(4)。若序列E中数据处理完成,则进入下一轮新调度序列的生成与策略网络的训练。若调度序列生成次数大于阈值N,则调度策略训练结束。N阈值可取10000,实际使用时根据可用的计算资源人工设定阈值。
综上所述,本发明方法将任务调度问题抽象成一种强化学习的过程,使用策略梯度下降训练网络模型,提出一种结合多维度任务状态矩阵、调度策略矩阵和奖励函数的调度策略训练方法,提高了任务调度策略的训练效率,降低了任务的总体运行时间。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (9)
1.一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于,包括如下步骤:
(1)基于强化学习的任务调度序列数据生成:
(1.1)在线计算t时刻任务状态矩阵St;
(1.2)基于St使用策略网络输出调度动作矩阵PAt;
(1.3)基于动作概率矩阵PAt执行调度动作At;
(1.4)计算调度动作At对应的奖励回报Rt;
(1.5)检查系统中是否有就绪任务在等待队列中;若存在就绪任务,则执行步骤(1.1)至(1.4);若没有就绪任务,则结束此轮调度;
(2)基于策略梯度强化学习的任务调度策略训练方法:
(2.1)初始化策略网络π(a|s,θ)和学习率α;其中,参数θ表示策略网络的权重参数,a表示调度动作,s表示任务状态,学习率α取值范围可选0<α<0.001;
(2.2)使用策略网络生成一组新的任务调度序列E;
(2.3)计算任务调度序列E中t时刻状态St的期望奖励G;
(2.4)基于梯度下降法更新策略网络参数θ;
(2.5)读取任务调度序列E中t+1时刻的St、At、Rt值;若E中存在未处理的数据,则继续子步骤(2.1)至(2.4);若E中数据处理完成,则进入下一轮新调度序列的生成与策略网络的训练。
2.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于:所述步骤(1.1)的计算公式如下:
其中,St为m*2q维矩阵,其中m表示系统中就绪任务数量,q表示系统中处理器数量,EST(ni,pj)表示任务ni在处理器pj上的最早开始时间,wi,j表示任务ni在处理器pj上的计算开销。
3.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于:所述步骤(1.2)的计算公式如下:
其中,通过策略网络π(a|s,θ)输出相应调度动作的概率值,pm,q表示任务nm调度到处理器q上的概率。
4.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于:所述步骤(1.3)的计算公式如下:
其中,调度动作At为每个就绪任务选取PAt中相应概率值最大的处理器qmax。
5.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于:所述步骤(1.4)的计算公式如下:
Rt=max{readyTi,t-1|i=1...q}-max{readyTi,t|i=1...q}
其中,奖励回报Rt表示系统中所有处理器在时刻t-1的最晚就绪时间与在时刻t的最晚就绪时间的差值;readyTi,t表示在t时刻调度器执行调度动作At后处理器qi的就绪时间。
6.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于:所述的任务调度序列E通过任务调度产生,任务调度序列E表示如下:
E=S0,A0,R0,...St,At,Rt,...ST,AT,RT
其中,St,At,Rt表示t时刻的任务状态、调度动作和回报奖励;调度序列从时刻0开始到时刻T结束。
7.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于:所述期望奖励G的计算公式如下:
其中,期望奖励G表示从t+1时刻开始到时刻T调度结束的所有奖励回报Rk的总和。
8.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于:所述步骤(2.4)具体为:根据步骤(2.3)中计算的G更新策略网络参数θ,更新公式如下所示:
其中,γt为衰减系数γ=0.99,为策略网络的梯度。
9.根据权利要求1所述的一种基于策略梯度强化学习的智能任务调度策略训练方法,其特征在于:所述步骤(2.5)还包括:若调度序列生成次数大于阈值N,则调度策略训练结束;其中,阈值N可取10000,实际使用时根据可用的计算资源人工设定阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910111086.8A CN109857534A (zh) | 2019-02-12 | 2019-02-12 | 一种基于策略梯度强化学习的智能任务调度策略训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910111086.8A CN109857534A (zh) | 2019-02-12 | 2019-02-12 | 一种基于策略梯度强化学习的智能任务调度策略训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109857534A true CN109857534A (zh) | 2019-06-07 |
Family
ID=66897726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910111086.8A Pending CN109857534A (zh) | 2019-02-12 | 2019-02-12 | 一种基于策略梯度强化学习的智能任务调度策略训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857534A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443412A (zh) * | 2019-07-18 | 2019-11-12 | 华中科技大学 | 动态优化加工过程中物流调度及路径规划的强化学习方法 |
CN111861159A (zh) * | 2020-07-03 | 2020-10-30 | 武汉实为信息技术股份有限公司 | 一种基于强化学习的任务分配方法 |
CN111858009A (zh) * | 2020-07-30 | 2020-10-30 | 航天欧华信息技术有限公司 | 基于迁移和强化学习的移动边缘计算系统任务调度方法 |
CN112853560A (zh) * | 2020-12-31 | 2021-05-28 | 盐城师范学院 | 一种基于环锭纺纱线质量的全局工序共享控制系统及方法 |
CN113031983A (zh) * | 2021-02-03 | 2021-06-25 | 国电南瑞科技股份有限公司 | 一种基于深度强化学习的软件智能升级方法及装置 |
CN113128702A (zh) * | 2021-04-15 | 2021-07-16 | 杭州电子科技大学 | 一种基于强化学习的神经网络自适应分布式并行训练方法 |
CN113535365A (zh) * | 2021-07-30 | 2021-10-22 | 中科计算技术西部研究院 | 基于强化学习的深度学习训练作业资源放置系统及方法 |
CN114147718A (zh) * | 2021-12-09 | 2022-03-08 | 申江万国数据信息股份有限公司 | 无人档案库房多任务执行控制方法、装置、设备以及介质 |
CN117971411A (zh) * | 2023-12-06 | 2024-05-03 | 南京财经大学 | 一种基于强化学习的云平台任务调度方法及装置 |
WO2024140355A1 (zh) * | 2022-12-26 | 2024-07-04 | 杭州阿里云飞天信息技术有限公司 | 基于深度强化学习的任务调度网络训练方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117255A (zh) * | 2018-07-02 | 2019-01-01 | 武汉理工大学 | 基于强化学习的异构多核嵌入式系统能耗优化调度方法 |
-
2019
- 2019-02-12 CN CN201910111086.8A patent/CN109857534A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117255A (zh) * | 2018-07-02 | 2019-01-01 | 武汉理工大学 | 基于强化学习的异构多核嵌入式系统能耗优化调度方法 |
Non-Patent Citations (1)
Title |
---|
QING WU 等: "daptive DAG Tasks Scheduling with Deep Reinforcement Learning", 《ALGORITHMS AND ARCHITECTURES FOR PARALLEL PROCESSING》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443412A (zh) * | 2019-07-18 | 2019-11-12 | 华中科技大学 | 动态优化加工过程中物流调度及路径规划的强化学习方法 |
CN111861159A (zh) * | 2020-07-03 | 2020-10-30 | 武汉实为信息技术股份有限公司 | 一种基于强化学习的任务分配方法 |
CN111861159B (zh) * | 2020-07-03 | 2024-02-02 | 武汉实为信息技术股份有限公司 | 一种基于强化学习的任务分配方法 |
CN111858009B (zh) * | 2020-07-30 | 2022-06-17 | 西北工业大学 | 基于迁移和强化学习的移动边缘计算系统任务调度方法 |
CN111858009A (zh) * | 2020-07-30 | 2020-10-30 | 航天欧华信息技术有限公司 | 基于迁移和强化学习的移动边缘计算系统任务调度方法 |
CN112853560A (zh) * | 2020-12-31 | 2021-05-28 | 盐城师范学院 | 一种基于环锭纺纱线质量的全局工序共享控制系统及方法 |
CN113031983B (zh) * | 2021-02-03 | 2022-11-11 | 国电南瑞科技股份有限公司 | 一种基于深度强化学习的软件智能升级方法及装置 |
CN113031983A (zh) * | 2021-02-03 | 2021-06-25 | 国电南瑞科技股份有限公司 | 一种基于深度强化学习的软件智能升级方法及装置 |
CN113128702A (zh) * | 2021-04-15 | 2021-07-16 | 杭州电子科技大学 | 一种基于强化学习的神经网络自适应分布式并行训练方法 |
CN113535365A (zh) * | 2021-07-30 | 2021-10-22 | 中科计算技术西部研究院 | 基于强化学习的深度学习训练作业资源放置系统及方法 |
CN114147718A (zh) * | 2021-12-09 | 2022-03-08 | 申江万国数据信息股份有限公司 | 无人档案库房多任务执行控制方法、装置、设备以及介质 |
WO2024140355A1 (zh) * | 2022-12-26 | 2024-07-04 | 杭州阿里云飞天信息技术有限公司 | 基于深度强化学习的任务调度网络训练方法 |
CN117971411A (zh) * | 2023-12-06 | 2024-05-03 | 南京财经大学 | 一种基于强化学习的云平台任务调度方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857534A (zh) | 一种基于策略梯度强化学习的智能任务调度策略训练方法 | |
CN110737529B (zh) | 一种面向短时多变大数据作业集群调度自适应性配置方法 | |
Guo et al. | Cloud resource scheduling with deep reinforcement learning and imitation learning | |
Cheng et al. | DRL-cloud: Deep reinforcement learning-based resource provisioning and task scheduling for cloud service providers | |
CN111858009B (zh) | 基于迁移和强化学习的移动边缘计算系统任务调度方法 | |
CN105956021B (zh) | 一种适用于分布式机器学习的自动化任务并行的方法及其系统 | |
CN111274036B (zh) | 一种基于速度预测的深度学习任务的调度方法 | |
CN104317658B (zh) | 一种基于MapReduce的负载自适应任务调度方法 | |
Fan et al. | Deep reinforcement agent for scheduling in HPC | |
CN112035251B (zh) | 基于强化学习作业布局的深度学习训练系统及方法 | |
CN110688219B (zh) | 基于反向混沌布谷鸟搜索的自适应权重负载均衡算法 | |
CN116542445A (zh) | 基于深度强化学习的装备制造车间智能调度方法和系统 | |
CN115237581A (zh) | 一种面向异构算力的多策略智能调度方法和装置 | |
CN111866187B (zh) | 分布式深度学习推理云平台任务调度方法 | |
CN109117255A (zh) | 基于强化学习的异构多核嵌入式系统能耗优化调度方法 | |
CN109067834A (zh) | 基于振荡式惯性权重的离散粒子群调度算法 | |
CN106648831A (zh) | 基于萤火虫算法和动态优先级的云工作流调度方法 | |
CN116932201A (zh) | 一种面向深度学习训练任务的多资源共享调度方法 | |
CN115686788A (zh) | 基于深度q网络的云数据中心启发式任务调度和能耗优化方法 | |
CN108415766A (zh) | 一种渲染任务动态调度方法 | |
CN109976873B (zh) | 容器化分布式计算框架的调度方案获取方法及调度方法 | |
CN106897199A (zh) | 一种基于大数据处理框架共有特征的批作业执行时间预测方法 | |
CN117555683A (zh) | 基于深度强化学习的云集群资源调度方法 | |
CN117850999A (zh) | 一种基于图神经网络的异构计算平台任务调度方法 | |
CN108270833A (zh) | 渲染云资源的自动调度方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |