CN111191934B - 一种基于强化学习策略的多目标云工作流调度方法 - Google Patents

一种基于强化学习策略的多目标云工作流调度方法 Download PDF

Info

Publication number
CN111191934B
CN111191934B CN201911409785.7A CN201911409785A CN111191934B CN 111191934 B CN111191934 B CN 111191934B CN 201911409785 A CN201911409785 A CN 201911409785A CN 111191934 B CN111191934 B CN 111191934B
Authority
CN
China
Prior art keywords
agent
reinforcement learning
sub
workflow
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911409785.7A
Other languages
English (en)
Other versions
CN111191934A (zh
Inventor
王彬阳
李慧芳
袁艳
邹伟东
柴森春
夏元清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201911409785.7A priority Critical patent/CN111191934B/zh
Publication of CN111191934A publication Critical patent/CN111191934A/zh
Application granted granted Critical
Publication of CN111191934B publication Critical patent/CN111191934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习策略的多目标云工作流调度方法,通过利用指针网络对强化学习Agent进行改进形成改进后的深度强化学习算法构建基于强化学习策略的工作流调度模型,使得工作流调度模型能适用于不同大小、不同类型的云工作流调度问题,在保证较高时效性的同时,提升模型的泛化能力。

Description

一种基于强化学习策略的多目标云工作流调度方法
技术领域
本发明属于云计算技术领域,具体涉及一种基于强化学习策略的多目标云工作流调度方法。
背景技术
近年来,越来越多的科学家使用工作流来构建他们的复杂应用并部署在云平台上执行。云计算是一种最新的分布式系统计算范例,其按使用付费与弹性资源模式为大规模科学工作流的快速、分布式高效执行提供了易于访问、灵活、可扩展的基础设施与部署环境,但这也给云环境下的工作流调度带来了很多挑战。一方面,其弹性资源模式使得调度求解空间大大增加。另一方面,云的按使用付费使得工作流调度需要同时考虑工作流执行时间与成本等,是一个典型的多目标优化问题,进一步增加了调度问题的难度。
目前,多目标优化问题的求解主要采用启发式、元启发式或二者的混合的算法。启发式算法,首先采用一定的规则计算任务的优先级,然后根据优先级依次进行工作流任务调度。但是,启发式算法依赖于规则,对复杂调度问题很难找到最优解,且泛化能力不足。与启发式算法相比,元启发式算法的泛化能力有了很大改善,但通常需要进行很多次的迭代更新才能找到近似最优解。当问题规模变大时,算法寻优所需的时间开销较大,难以满足用户对调度的实时性要求。
随着强化学习的发展及其在序列决策方面的突出优势,越来越多的研究者开始尝试利用强化学习求解调度问题。例如,有学者提出利用基于模拟退火的Q学习算法解决协同工作中的任务调度问题,以及利用基于DQN的多目标工作流调度算法解决云环境下的任务调度问题。然而,在面临过大规模的任务请求时,Q学习算法固有的Q值矩阵维数爆炸问题,需要大量的数据存储,导致很高的算法存储复杂性;基于DQN的算法,采用值函数逼近解决了Q学习的高维数据存储问题,但是由于采用固定维数的环境状态向量与单一类型的工作流来训练强化学习模型,其模型泛化能力具有较大的局限性,很难适应不同大小、不同类型的工作流调度需求。
发明内容
有鉴于此,本发明提供了一种基于强化学习策略的多目标云工作流调度方法,在适应多种类型工作流调度问题的情况下,实现工作流执行跨度时间和成本的同时最小化。
本发明提供的一种基于强化学习策略的多目标云工作流调度方法,包括以下步骤:
步骤1、采用强化学习算法(A3C)建立基于强化学习的工作流调度模型,所述基于强化学习的工作流调度模型包含时间优化子Agent和成本优化子Agent,所述时间优化子Agent和成本优化子Agent统称为子Agent,所述子Agent的策略模型的网络结构为以循环神经网络作为隐含层的指针网络;
步骤2、计算资源池中的资源执行所述待调度云工作流中入口任务的时间优化目标值及成本优化目标值,所述时间优化目标值及成本优化目标值作为强化学习算法中的状态;
步骤3、所述时间优化子Agent和成本优化子Agent分别以时间相关和成本相关的所述状态作为输入,对云工作流执行一次调度生成训练样本集,采用所述训练样本集完成时间优化子Agent和成本优化子Agent的训练;
步骤4、调度应用时,将由所述步骤2计算得到的待调度工作流中任务的状态输入到所述工作流调度模型中分别得到时间优化选择概率和成本优化选择概率,从中确定工作流调度方案。
进一步地,所述强化学习智能体的策略模型的网络结构为所述指针网络与长短期记忆网络(LSTM)的组合,所述指针网络的输出作为所述LSTM的输入。
进一步地,所述工作流调度方案的确定方式为:将所述时间优化子Agent和成本优化子Agent输出的选择概率作为输入,采用帕累托(Pareto)准则确定最终的行为,将所述行为转换为工作流调度方案。
进一步地,所述子Agent与环境交互的过程中,当所述工作流调度模型训练次数小于阈值时,采用随机选择策略与环境进行交互;当所述工作流调度模型训练次数大于或等于所述阈值时,依据网络输出概率与环境进行交互。
有益效果:
1、本发明通过利用指针网络对强化学习Agent进行改进形成改进后的深度强化学习算法构建基于强化学习策略的工作流调度模型,使得工作流调度模型能适用于不同大小、不同类型的云工作流调度问题,在保证较高时效性的同时,提升模型的泛化能力;
2、本发明为指针网络引入外层LSTM结构,使强化学习Agent在模型训练和决策时,能够综合考虑已调度任务的决策历史时序信息对当前调度决策的影响,以产生更好的调度方案;
3、本发明通过将强化学习Aagent决策与Pareto准则有机结合,建立了更为合理的决策行为选择准则,进一步提升了算法在多目标调度方面的性能。
附图说明
图1为本发明提供的一种基于强化学习策略的多目标云工作流调度方法的算法流程图。
图2为本发明提供的一种基于强化学习策略的多目标云工作流调度方法的时序指针网络结构框图。
图3为本发明提供的一种基于强化学习策略的多目标云工作流调度方法的工作流示例图。
图4为本发明提供的一种基于强化学习策略的多目标云工作流调度方法的处理结果收敛性对比图。
图5为本发明提供的一种基于强化学习策略的多目标云工作流调度方法的处理结果主导性对比图。
图6为本发明提供的一种基于强化学习策略的多目标云工作流调度方法的处理结果时效性对比图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
现有技术中,标准的强化学习算法AC(Actor-Critic Algorithm)包括智能体(Agent)及环境,其中,Agent作为学习系统由策略模型和价值模型构成。AC算法训练过程为:Agent获取外部环境的当前状态s,对环境采取试探性的动作a,并获取环境反馈的对该动作的回报r和新的状态s,当Agent的某动作a导致环境产生正的回报时,Agent以后产生这个动作的趋势便会加强;反之,Agent产生这个动作的趋势将减弱。在学习系统的控制行为与环境反馈的状态及评价的反复的交互作用中,以学习的方式不断修改从状态到动作的映射策略,以达到优化系统性能目的。
深度强化学习算法A3C是将异步的思想用于标准的强化学习算法中,它包含多个局部网络和一个全局网络,利用多线程的方法,多个局部网络同时在多个线程里面分别和环境进行交互学习,每个线程都把训练得到的参数保存在全局网络中,并且定期从全局网络中下载参数指导后续与环境的学习交互。通过这种方法,A3C避免了经验回放相关性过强的问题,同时形成了异步并发的学习模型。
本发明提出了一种基于强化学习策略的多目标云工作流调度方法,基本思想是:采用A3C算法建立基于强化学习的工作流调度模型,并采用时序融合指针网络对强化学习Agent进行优化,在适应多种类型工作流调度问题的情况下,实现工作流执行跨度时间和成本的同时最小化。
本发明提出的一种基于强化学习策略的多目标云工作流调度方法,包括基于强化学习的工作流调度模型的构建、模型训练以及在工作流调度中的应用,如图1所示,具体包括如下步骤:
步骤1、采用A3C算法建立基于强化学习的工作流调度模型,基于强化学习的工作流调度模型包含时间优化子Agent和成本优化子Agent,时间优化子Agent和成本优化子Agent统称为子Agent,子Agent的策略模型为以循环神经网络作为隐含层的指针网络。
现有技术中,深度强化学习算法的基本单元中仅有一个Agent,而本发明中与现有技术的区别在于,为工作流执行时间和成本优化分别构建相应的子Agent,即时间优化子Agent和成本优化子Agent,由时间优化子Agent和成本优化子Agent构成了完整的深度强化学习Agent。同时,本发明中构建的子Agent的价值模型为现有技术中的基于双全连接网络的价值模型,而策略模型则采用本发明提出的以循环神经网络作为隐含层的指针网络构建,以适用于不同大小、不同类型的云工作流调度问题,在保证较高时效性的同时,提升模型的泛化能力。
在此基础上,为了能产生更好的调度方案,本发明中还提出了以基于时序融合指针网络作为策略模型的技术方案。其中,时序融合指针网络是指在原有指针网络基础上增加外层LSTM结构,即指针网络的输出作为LSTM的输入,使得强化学习Agent决策时能够综合考虑已调度任务的决策历史时序信息对当前调度决策的影响,同时,能够克服当调度大规模工作流时采用基础RNN单元出现的梯度消失现象的问题,以产生更好的调度方案。
时序融合指针网络的网络结构如图2所示,如果将每一个输入网络的样本
Figure BDA0002349650150000061
当作一个时间序列,则pi就是某一个RNN时间步下输入到指针网络的特征向量,本发明中对于工作流调度过程而言,状态st的每个位置pi中,包含两个子Agent下备选方案相应的优化目标值,t表示调度到当前阶段的实际时间步,也就是工作流中当前调度任务所对应的时刻;nt表示当前调度阶段的可选调度方案数。将st输入指针网络RNN,计算得到输出向量
Figure BDA0002349650150000062
其中,
Figure BDA0002349650150000063
Wfo、Wfr、bfo和bfr为相应的线性权值矩阵,
Figure BDA0002349650150000064
为RNN隐含层的状态;随后,
Figure BDA0002349650150000065
经过指针网络softmax层依次计算,并输出条件概率
Figure BDA0002349650150000066
其中,
Figure BDA0002349650150000067
为RNN隐含层的状态,
Figure BDA0002349650150000068
为第i个备选方案的初步选择概率;然后,依据概率选择nx
Figure BDA0002349650150000069
值对应的
Figure BDA00023496501500000610
状态,组成特征向量
Figure BDA00023496501500000611
(本发明中nx=3),作为t时刻的外层LSTM输入,并进一步经外层网络计算后,得到t时刻的LSTM层输出向量
Figure BDA00023496501500000612
输出向量的计算过程即为现有技术中的LSTM算法的计算过程,如下所示:
遗忘门更新:f(t)=σ(Wf[Ht-1,Xt]++bf);
输入门更新:η(t)=σ(Wη[Ht-1,Xt]++bη),
Figure BDA00023496501500000613
单元状态更新:
Figure BDA00023496501500000614
隐层状态输出:o(t)=σ(Wo[Ht-1,Xt]+bo),Ht=o(t)etanh(ct);
最终输出:Yt=WeHt+be
其中,Ht为LSTM层的t时间步的隐含状态,σ为sigmoid激活函数,ct为LSTM层的单元状态,e为Hadamard积,上述各式中的W和b为相应与不同操作的线性权值矩阵,下标f,η,c,o,e分别表示遗忘门、输入门、隐层状态与最终输出。最后,Yt经外层softmax结构计算,输出t时刻各备选方案的最终选择概率P(y'j|Y0,...,Yt-1,Xt),j∈[1,nx]。
下面结合图3中显示的工作流示例对本发明建立基于强化学习的工作流调度模型进行说明。图中,括号内的数字表示任务量大小,结点之间连线上的数字为相邻任务之间的传输数据大小。假设利用两台虚拟机(例如其处理能力分别为cu1和cu2)来执行图3所示的工作流任务请求,且每次从入口任务开始调度的时刻t=0。由图3可知,在t=0时刻,存在一个可调度任务和两个可用虚拟机,所以,此时有两种备选调度方案。本发明中,状态st的每个位置pi包含两个子Agent下备选方案相应的优化目标值。对优化工作流执行时间的子Agent而言,t=0时刻的状态s0=(p0=0.3/cu1,p1=0.3/cu2)。接着,将s0输入Agent网络模型,经指针网络层运算得到初步选择概率
Figure BDA0002349650150000071
由于当前备选方案数为2,相应的初步选择概率个数为2(小于nx=3),所以无需进行概率选择,便可直接得到LSTM层的输入向量
Figure BDA0002349650150000072
最后,X0再经LSTM层运算,得到t=0时备选方案的最终选择概率P(y'j|X0),j∈[1,nx]。依照最终选择概率,对任务1完成调度后,t←t+1,进入对下一个任务的调度阶段。
步骤2、计算资源池中的资源执行待调度云工作流中任务的时间优化目标值及成本优化目标值,时间优化目标值及成本优化目标值作为深度强化学习算法中的状态。
步骤3、时间优化子Agent和成本优化子Agent分别以时间相关和成本相关的状态作为输入,通过与环境的交互完成时间优化子Agent和成本优化子Agent的训练。
由于,本发明中子Agent的训练过程与A3C算法的训练过程的区别在于,时间优化子Agent和成本优化子Agent所采用的输入不同,其中,时间相关的状态信息作为时间优化子Agent的输入,成本相关的状态信息则作为成本优化子Agent的输入。接收到输入后,子Agent与深度强化学习Agent相同,产生动作、回报和状态转换,以成本相关的任务状态、动作、回报及状态转换构建成本优化训练样本集,本发明中,该训练样本集包括时间优化子Agent训练样本集和成本优化子Agent训练样本集,采用上述样本集分别训练时间优化子Agent和成本优化子Agent,从而得到训练后的工作流调度模型。
本发明中,针对云工作流的调度,深度强化学习方法的训练过程为:将构建好的Agent与环境进行交互,完成一次完整调度(即,从入口任务到出口任务的一次调度称为完整调度),并将此次调度过程涉及的所有状态转换、动作和回报存入训练样本池中;交互过程中,需根据两个子Agent输出的最终选择概率,确定最终的行为选择决策,根据最终的行为决策确定工作流调度方案。本发明中行为a定义为备选方案的位置,工作流调度方案需对行为a进行反解码得到。子Agent与环境的交互过程,具体包括如下步骤:
步骤3.1、重置环境状态为初始状态,因此时尚未进行任务调度,所以已调度任务列表list_task及虚拟机运行状态记录列表list_vmsta均为空;
步骤3.2、检测当前时刻两个优化目标下的状态
Figure BDA0002349650150000081
并输入到对应的子agent网络中,得到备选方案在两个优化目标下的最终选择概率;
步骤3.3、将两个子agent输出的最终选择概率作为各个备选方案的属性值,依照Pareto准则选择最终行为at并输出。在图3所示的工作流中,以t=0时刻为例进行具体说明。假设t=0时刻的输出概率分别为Y0 m=(0.6,0.4)、Y0 c=(0.8,0.2),依照Pareto原则,方案一优于方案二(因为0.6>0.4,0.8>0.2)。所以,输出最终选择的行为a0=1。
步骤3.4、反解码出at所对应的备选方案并执行,检测执行调度方案后的新环境状态
Figure BDA0002349650150000091
Figure BDA0002349650150000092
并相应地应更新list_task和list_vmsta;如步骤3中,a0=1所对应的备选方案为:将任务1放到虚拟机1上执行。
步骤3.5、计算并存储当前时刻两个目标下的回报值rt m和rt c,同时存储马尔科夫过程
Figure BDA0002349650150000095
到样本池中。
步骤3.6、判断工作流调度过程是否完成。若完成,则转步骤3.7;否则,转步骤3.2。
步骤3.7、将全局agent模型的策略、价值网络参数梯度清零:
Figure BDA0002349650150000096
其中,
Figure BDA0002349650150000097
Figure BDA0002349650150000098
为全局agent的策略、价值网络参数。
步骤3.8、同步模型参数,
Figure BDA0002349650150000099
其中,
Figure BDA00023496501500000910
Figure BDA00023496501500000911
为局部agent的策略、价值网络参数。
步骤3.9、从样本池中按存入顺序取出一个采样序列,并从最后一个采样时刻开始,依次向前更新agent模型回报:
R:R←rt m+γR,t∈{Nw-,...,0}
其中,R为状态的长期回报,开始计算前R=0,γ为折扣因子,Nw为所调度工作流的规模大小。同时,更新agent模型回报后,计算策略损失函数及行为价值函数梯度,并将其累积到策略和价值模型梯度中,即
Figure BDA00023496501500000913
其中,
Figure BDA00023496501500000914
为当前策略的价值函数。
步骤3.10、对全局模型
Figure BDA00023496501500000915
Figure BDA00023496501500000916
进行异步更新:
Figure BDA00023496501500000917
步骤3.11、判断当前样本池中的样本是否全部参与了训练。若所有样本都已参与了训练,则模型训练结束;否则,转步骤3.7。
步骤3.12、判断累计的完整调度次数是否达到预先定义的上限。若达到定义的最大次数,则模型训练完成;否则转步骤3。
需要进一步说明的是,本发明结合两种行为选择策略(随机选择和依据网络输出概率选择)进行工作流调度。在初始阶段,由于网络训练次数较小,主要使用随机选择策略与环境进行交互,以降低最初网络参数的不合理性影响。随着训练次数的增加,依据网络输出概率进行策略选择的方式将逐步发挥主要作用。
步骤4、将新的工作流请求输入到已经训练好的基于强化学习的工作流调度模型中,求得对应的工作流调度方案。
将由步骤2计算得到待调度工作流的任务状态输入到工作流调度模型中分别得到时间优化工作流调度方案和成本优化工作流调度方案,再采用最终选择策略确定工作流调度方案。
为检验本发明方法的效果,使用python语言对算法以及模拟的云数据中心调度环境进行编程实现,并从多角度进行实验验证,以检验算法不同方面的性能。其中,实验部分的对比算法采用目前典型的多目标优化算法:NSGA-II,MODE,MOACS和ECMSMOO。
首先,采用结构较为复杂的Montage、CyberShake大规模工作流,训练强化学习模型,其训练过程的优化目标值变化趋势如图4所示。由图4可知,算法模型随着训练次数的增加趋于收敛,说明了算法的可行性。
其次,构建基于普通指针网络的强化学习模型,采用同样的方式进行训练,并在同一调度环境中进行工作流调度,其结果对比如图5所示(PO-RL和PO分别表示本发明与基于普通指针网络的强化学习模型)。由图5可知,相对于普通指针网络模型,本发明设计的时序融合指针网络模型给出的解更靠近Pareto前沿,调度效果更好。
最后,在同一调度环境下,分别用本发明(PO-RL)、NSGA-II、MODE、MOACS和ECMSMOO算法进行调度,其时效性比较如图6所示。由图6可以看出,本发明的调度时效性具有明显提升。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于强化学习策略的多目标云工作流调度方法,其特征在于,包括以下步骤:
步骤1、采用强化学习算法建立基于强化学习的工作流调度模型,所述基于强化学习的工作流调度模型包含时间优化子Agent和成本优化子Agent,所述时间优化子Agent和成本优化子Agent统称为子Agent,所述子Agent的策略模型的网络结构为以循环神经网络作为隐含层的指针网络;
步骤2、计算资源池中的资源执行待调度云工作流中入口任务的时间优化目标值及成本优化目标值,所述时间优化目标值及成本优化目标值作为强化学习算法中的状态;
步骤3、所述时间优化子Agent和成本优化子Agent分别以时间相关和成本相关的所述状态作为输入,对云工作流执行一次调度生成训练样本集,采用所述训练样本集完成时间优化子Agent和成本优化子Agent的训练;
步骤4、调度应用时,将由所述步骤2计算得到的待调度工作流中任务的状态输入到所述工作流调度模型中分别得到时间优化选择概率和成本优化选择概率,从中确定工作流调度方案;
所述工作流调度方案的确定方式为:将所述时间优化子Agent和成本优化子Agent输出的选择概率作为输入,采用帕累托(Pareto)准则确定最终的行为,将所述行为转换为工作流调度方案。
2.根据权利要求1所述的方法,其特征在于,所述强化学习智能体的策略模型的网络结构为所述指针网络与长短期记忆网络(LSTM)的组合,所述指针网络的输出作为所述LSTM的输入。
3.根据权利要求1所述的方法,其特征在于,所述子Agent与环境交互的过程中,当所述工作流调度模型训练次数小于阈值时,采用随机选择策略与环境进行交互;当所述工作流调度模型训练次数大于或等于所述阈值时,依据网络输出概率与环境进行交互。
CN201911409785.7A 2019-12-31 2019-12-31 一种基于强化学习策略的多目标云工作流调度方法 Active CN111191934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911409785.7A CN111191934B (zh) 2019-12-31 2019-12-31 一种基于强化学习策略的多目标云工作流调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911409785.7A CN111191934B (zh) 2019-12-31 2019-12-31 一种基于强化学习策略的多目标云工作流调度方法

Publications (2)

Publication Number Publication Date
CN111191934A CN111191934A (zh) 2020-05-22
CN111191934B true CN111191934B (zh) 2022-04-15

Family

ID=70707888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911409785.7A Active CN111191934B (zh) 2019-12-31 2019-12-31 一种基于强化学习策略的多目标云工作流调度方法

Country Status (1)

Country Link
CN (1) CN111191934B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756653B (zh) * 2020-06-04 2022-03-04 北京理工大学 基于图神经网络深度强化学习的多coflow调度方法
CN111738335A (zh) * 2020-06-23 2020-10-02 鲁东大学 一种基于神经网络的时间序列数据异常检测方法
CN112231091B (zh) * 2020-11-05 2022-08-23 北京理工大学 一种基于强化学习策略的并行云工作流调度方法
CN112488543B (zh) * 2020-12-04 2024-02-02 深圳市中科数建科技有限公司 基于机器学习的智慧工地智能排班方法及系统
CN112685165B (zh) * 2021-01-08 2022-08-23 北京理工大学 一种基于联合强化学习策略的多目标云工作流调度方法
CN112700065B (zh) * 2021-01-14 2022-03-11 上海交通大学 基于深度学习的业务流程完成时间区间预测方法和系统
CN112926729B (zh) * 2021-05-06 2021-08-03 中国科学院自动化研究所 人机对抗智能体策略制定方法
CN113361912B (zh) * 2021-06-04 2022-05-27 浙江工业大学 一种基于强化学习的服务任务调度方法
CN113515097B (zh) * 2021-07-23 2022-08-19 合肥工业大学 一种基于深度强化学习的两目标单机批调度方法
CN114066232B (zh) * 2021-11-15 2022-07-22 内蒙古北方重工业集团有限公司 基于分布式强化学习和边缘计算的工厂调度方法及系统
CN114493909A (zh) * 2021-12-20 2022-05-13 哈尔滨理工大学 一种基于工作流的制造工艺调度优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354085A (zh) * 2015-10-30 2016-02-24 广东石油化工学院 一种云工作流作业调度方法
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法
JP2018005739A (ja) * 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置
CN110515735A (zh) * 2019-08-29 2019-11-29 哈尔滨理工大学 一种基于改进q学习算法的多目标云资源调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354085A (zh) * 2015-10-30 2016-02-24 广东石油化工学院 一种云工作流作业调度方法
JP2018005739A (ja) * 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法
CN110515735A (zh) * 2019-08-29 2019-11-29 哈尔滨理工大学 一种基于改进q学习算法的多目标云资源调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Multi-object optimization cloud workflow scheduling algorithm based on Reinforcement Learning;Wu Jiahao et al.;《 Intelligent Computing Theories and Application 》;20180706;全文 *
Multi-Objective Workflow Scheduling With Deep-Q-Network-Based Multi-Agent Reinforcement Learning;Wang Yuandou et al.;《IEEE Access》;20190408;第7卷;全文 *

Also Published As

Publication number Publication date
CN111191934A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191934B (zh) 一种基于强化学习策略的多目标云工作流调度方法
Mousavi et al. Traffic light control using deep policy‐gradient and value‐function‐based reinforcement learning
CN112685165B (zh) 一种基于联合强化学习策略的多目标云工作流调度方法
CN113778648B (zh) 分层边缘计算环境中基于深度强化学习的任务调度方法
Ren et al. Solving flow-shop scheduling problem with a reinforcement learning algorithm that generalizes the value function with neural network
US11605026B2 (en) Methods and systems for support policy learning
Wauters et al. Boosting metaheuristic search using reinforcement learning
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Wang et al. Solving task scheduling problems in cloud manufacturing via attention mechanism and deep reinforcement learning
WO2023114661A1 (en) A concept for placing an execution of a computer program
Qazi et al. Towards quantum computing algorithms for datacenter workload predictions
Tian et al. A dynamic job-shop scheduling model based on deep learning.
Campbell et al. Multiagent allocation of markov decision process tasks
CN110971683B (zh) 基于强化学习的服务组合方法
Yang et al. Continuous control for searching and planning with a learned model
Guo et al. Multi-objective combinatorial generative adversarial optimization and its application in crowdsensing
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
Wang et al. A heuristic initialized memetic algorithm for the joint allocation of heterogeneous stochastic resources
CN114860385B (zh) 一种基于进化强化学习策略的并行云工作流调度方法
Saeed et al. Domain-aware multiagent reinforcement learning in navigation
Liao et al. Learning to schedule job-shop problems via hierarchical reinforcement learning
Hamzeloo et al. Decentralized incremental fuzzy reinforcement learning for multi-agent systems
Huang et al. A novel mission planning model and method for combat system-of-systems architecture design
Chen et al. Distributed continuous control with meta learning on robotic arms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant