CN110580196B - 一种实现并行任务调度的多任务强化学习方法 - Google Patents
一种实现并行任务调度的多任务强化学习方法 Download PDFInfo
- Publication number
- CN110580196B CN110580196B CN201910864432.XA CN201910864432A CN110580196B CN 110580196 B CN110580196 B CN 110580196B CN 201910864432 A CN201910864432 A CN 201910864432A CN 110580196 B CN110580196 B CN 110580196B
- Authority
- CN
- China
- Prior art keywords
- network
- sub
- task
- job
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000002787 reinforcement Effects 0.000 title claims abstract description 14
- 230000009471 action Effects 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008901 benefit Effects 0.000 claims description 4
- 125000004432 carbon atom Chemical group C* 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000002869 basic local alignment search tool Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Computer And Data Communications (AREA)
Abstract
一种实现并行任务调度的多任务强化学习方法,基于异步优势表演者批评家算法实现,包括下列操作步骤:(1)对算法模型进行设置操作以更好的解决并行多任务调度问题,包括设置状态空间、设置动作空间、设置奖励定义;(2)对算法网络进行如下改进:用深度神经网络来表示策略函数和值函数;全局网络由输入层、共享子网络和输出子网络构成;(3)设置算法的新损失函数;(4)利用采集观测的并行任务调度数据,训练算法网络,算法收敛后,将所述算法网络用于并行任务调度。
Description
技术领域
本发明涉及一种实现并行任务调度的多任务强化学习方法,属于信息技术领域,特别是属于分布和并行计算技术领域。
背景技术
在数据爆炸的时代,分布式和并行化已成为一种有效的数据处理方式。云计算、雾计算、边缘计算等都是大数据处理的典型的分布式和并行计算环境。这些计算系统的计算资源都是有限的,因此其中资源的合理分配始终是一个至关重要的研究课题。此外,可持续发展近年来已成为全球关注的重点,而计算中心的功耗则可能会造成巨大的能量损失。鉴于以上这些原因,在复杂的动态网络环境中,如何分配任务以有效利用分布式资源,实现计算系统的负载平衡,降低能耗,并确保服务质量(QoS),已经成为世界各地学者研究的关键问题。
在实际的网络调度问题中,我们经常需要处理由独立并行任务组成的一些工作。虽然在执行期间它们之间没有依赖关系,但它们需要共享计算资源并共同决定整个作业的最终执行结果。例如,在基于云的Apache Hadoop平台中,程序可能会拆分为多个map子程序并提交到云平台,此时就需要将它们作为一个整体进行调度,为各个子任务联合分配任务执行的计算节点。此外,分布式关系数据库查询,蒙特卡罗模拟,BLAST(basic localalignment search tool)搜索等都是独立并行任务的典型例子。
目前几种经典的调度算法,如Min-Min,Max-Min,循环调度算法和最小连接方法,它们虽然简单有效,但却不适用于计算节点性能差异较大的系统。此外,基于穷举搜索的任务调度以寻找最佳资源分配又是不可能的,因为其复杂性随着任务和资源的数量呈指数增长。因此,一些学者尝试使用评估算法在可接受的时间内找到近似最优解,如粒子群优化,遗传算法,蚁群优化。然而计算平台的环境总是动态且大规模的,对它们进行精确建模十分困难,因此启发式算法也很难表现出优秀的调度性能。
对于处理高维状态空间和低维动作空间中的复杂控制问题,深度强化学习(DeepReinforcement Learning,DRL)具有出色能力,因此如何基于DRL技术,实现多任务调度的无模型控制成为分布并行多任务调度技术领域一个亟待解决的技术难题。
发明内容
有鉴于此,本发明的目的是发明一种基于DRL的并行任务调度方法,以提高计算平台的资源利用率,同时确保基于经验数据优化的QoS。
为了达到上述目的,本发明提出了一种实现并行任务调度的多任务强化学习方法,基于异步优势表演者批评家Asynchronous Advantage Actor-Critic算法实现,所述方法包括下列操作步骤:
(1)对Asynchronous Advantage Actor-Critic算法模型进行如下设置操作以更好的解决并行多任务调度问题:
(1.1)设置状态空间S为一个集合,即:S={Ftask,L,T,Fnode},式中,
Ftask={f1,f2,f3,...,fM}表示一个作业的CPU指令编号,式中,M是自然数,表示一个作业的最大子任务数目;f1表示第1个子任务,f2表示第2个子任务,f3表示第3个子任务,fM表示第M个子任务;所述作业是指将并行任务分配给具有不同计算能力和资源的服务器节点;
L={L1,L2,L3,...,Li,...,LM}表示M个子任务的信息,Li={l1,l2,l3,...,lj...,lN}表示第i个子任务待处理数据的长度和存储位置,如果所述待处理数据存储在服务器节点j中,则将元素lj设置为该待处理数据的长度,并把其他元素设置为零;N为自然数,表示服务器节点的最大编号;
T表示所有服务器节点的每个子线程中已分配的待执行任务的预计剩余执行时间;Fnode表示所有服务器节点当前的CPU频率。
(1.2)设置动作空间:将一个作业的整体任务分为M个子决策,对应于M个子任务;对于每个子决策,动作空间由{1,2,3,...,N}给出,如果动作为i,则表示将子任务调度到第i个服务器节点;如果子任务的数量小于M,则将相应输出的动作直接丢弃;一个作业的完整动作at表示如下:at={at,1,at,2…,at,i…at,M},式中at,i表示t时刻第i个子任务被分配到的服务器节点编号;
(1.3)设置奖励定义:将奖励设置为最小化平均作业执行时间,即在每个决策点设置奖励rt为:rt=Tbase-Tjob(st,at),其中Tbase是作业执行时间的基线,Tjob(st,at)是t时刻决策中对应作业的实际执行时间;st表示t时刻所述作业调度问题的状态,at为在状态st情况下所采取的决策动作;
(2)对Asynchronous Advantage Actor-Critic算法网络进行如下改进:
(2.1)用深度神经网络来表示策略函数和值函数,即分别用表演者Actor网络来表示策略函数,用批评家Critic网络来表示值函数;设置多个表演者Actor网络来各自负责子任务的单独调度,因此,在所述神经网络中,包括M个softmax输出分支子网络用于策略πi(at,i|st;θi)和一个线性输出分支子网络用于值函数V(st,θv),πi(at,i|st;θi)表示第i个softmax输出分支子网络给出的与第i个子任务对应的策略,at,i表示t时刻第i个子任务对应的动作,st表示t时刻所述作业调度问题的状态,θi表示第i个softmax输出分支子网络的网络参数,θv表示所述线性输出分支子网络的网络参数;它们共享多个非输出层;每个softmax输出分支子网络包含N个输出节点,显示将子任务分配给服务器节点的概率分布;
(2.2)全局网络由输入层、共享子网络和输出子网络构成;其中所述的输入层的输入是所述作业调度问题的状态;其中所述的共享子网络由3层全连接层构成;所述的输出子网络由前述的M个softmax输出分支子网络和一个线性输出分支子网络构成;所述的softmax输出分支子网络由一个全连接层和一个softmax输出层构成;所述的线性输出分支子网络由一个全连接层和一个线性输出层构成;
(3)设置Asynchronous Advantage Actor-Critic算法的损失函数如下:
其中Lactor(θi)为第i个分支子网络的损失函数,计算公式如下:
Lactor(θi)=logπi(at,i|st;θi)(Rt-V(st;θv))+βH(πi(st;θi))
其中πi(at,i|st;θi)为第i个子网络输出动作at,i的概率,πi(st;θi)为子网络输出各个动作的概率分布,即选择N个节点中某一个节点执行任务的概率分布,H(πi(st;θi))为该概率分布的熵,参数β用于控制熵正则化项的强度,H(πi(st;θi))计算公式为:
Lcritic(θv)为共享的批评家Critic网络的损失函数,计算公式如下:
Lcritic(θv)=(Rt-V(si;θv))2
其中Rt代表累积奖励,计算公式为:
其中参数γ∈[0,1]为折扣因子。
(4)利用采集观测的并行任务调度数据,训练前述的Asynchronous AdvantageActor-Critic算法网络,算法收敛后,将所述算法网络用于并行任务调度。
步骤(2.2)中,所述的共享子网络中,第一层全连接层由128个节点构成,第二层全连接层由256个节点构成,第三层全连接层由128个节点构成。
步骤(2.2)中,所述的softmax输出分支子网络中的全连接层由64个节点构成;所述的线性输出分支子网络中的全连接层由64个节点构成。
一组数据{st,at,rt,st+1}仅用于训练批评家Critic网络和与本次调度相关的子任务的表演者Actor网络的参数,而不是全局网络中的所有参数。其中st代表t时刻所述作业调度问题的状态,at为在状态st情况下所采取的决策动作,rt为本次动作at获得的奖励,st+1表示t+1时刻所述作业调度问题的状态。
将一个作业中所有的子任务设置一个相同的目标,即:为包含多个子任务的作业安排最合适的服务器分配方案,以便作业执行最短,因此,对每个表演者Actor网络的输出没有设置特定的奖励,将前述的奖励定义rt=Tbase-Tjob(st,at)用于训练所有表演者Actor网络的参数。
本发明的有益效果在于:本发明提出的一种实现并行任务调度的多任务强化学习方法,采用多任务学习(Multi-taskLearning)方法为每个任务单独输出节点分配策略,考虑了任务之间的交互,能实现多个任务同时并行学习,并且能实现梯度的同时反向传播。这是一种使用共享结构来共同解决多个任务的方法,如果选择了适当的任务,这有助于改进模型的泛化。通过应用多任务学习,本发明的方法可以很好地适应任务数量的变化,适应学习子任务之间的相互影响,显示出更好的调度效果。
附图说明
图1是本发明提出的一种实现并行任务调度的多任务强化学习方法的流程图。
图2是本发明提出的对Asynchronous Advantage Actor-Critic算法网络所改进的网络示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明提出的一种实现并行任务调度的多任务强化学习方法,基于异步优势表演者批评家Asynchronous Advantage Actor-Critic算法实现,所述方法包括下列操作步骤:
(1)对Asynchronous Advantage Actor-Critic算法模型进行如下设置操作以更好的解决并行多任务调度问题:
(1.1)设置状态空间S为一个集合,即:S={Ftask,L,T,Fnode},式中,
Ftask={f1,f2,f3,...,fM}表示一个作业的CPU指令编号,式中,M为自然数,表示一个作业的最大子任务数目;f1表示第1个子任务,f2表示第2个子任务,f3表示第3个子任务,fM表示第M个子任务;所述作业是指将并行任务分配给具有不同计算能力和资源的服务器节点;
L={L1,L2,L3,...,Li,...,LM}表示M个子任务的信息,Li={l1,l2,l3,...,lj...,lN}表示第i个子任务待处理数据的长度和存储位置,如果所述待处理数据存储在服务器节点j中,则将元素lj设置为该待处理数据的长度,并把其他元素设置为零;N为自然数,表示服务器节点的最大编号;
T表示所有服务器节点的每个子线程中已分配的待执行任务的预计剩余执行时间;Fnode表示所有服务器节点当前的CPU频率。
在我们的实验中,最大子任务数量M=5,计算节点数量N=10。
(1.2)设置动作空间:将一个作业的整体任务分为M个子决策,对应于M个子任务;对于每个子决策,动作空间由{1,2,3,...,N}给出,如果动作为i,则表示将子任务调度到第i个服务器节点;如果子任务的数量小于M,则将相应输出的动作直接丢弃;一个作业的完整动作at表示如下:at={at,1,at,2...,at,i…at,M},式中at,i表示t时刻第i个子任务被分配到的服务器节点编号;
(1.3)设置奖励定义:将奖励设置为最小化平均作业执行时间,即在每个决策点设置奖励rt为:rt=Tbase-Tjob(st,at),其中Tbase是作业执行时间的基线,Tjob(st,at)是t时刻决策中对应作业的实际执行时间;st表示t时刻所述作业调度问题的状态,at为在状态st情况下所采取的决策动作;在我们实验中Tbase=9;
(2)参见图2,对Asynchronous Advantage Actor-Critic算法网络进行如下改进:
(2.1)用深度神经网络来表示策略函数和值函数,即分别用表演者Actor网络来表示策略函数,用批评家Critic网络来表示值函数;设置多个表演者Actor网络来各自负责子任务的单独调度,因此,在所述神经网络中,包括M个softmax输出分支子网络用于策略πi(at,i|st;θi)和一个线性输出分支子网络用于值函数V(st,θv),πi(at,i|st;θi)表示第i个softmax输出分支子网络给出的与第i个子任务对应的策略,at,i表示t时刻第i个子任务对应的动作,st表示t时刻所述作业调度问题的状态,θi表示第i个softmax输出分支子网络的网络参数,θv表示所述线性输出分支子网络的网络参数;它们共享多个非输出层;每个softmax输出分支子网络包含N个输出节点,显示将子任务分配给服务器节点的概率分布;
(2.2)全局网络由输入层、共享子网络和输出子网络构成;其中所述的输入层的输入是所述作业调度问题的状态;其中所述的共享子网络由3层全连接层构成;所述的输出子网络由前述的M个softmax输出分支子网络和一个线性输出分支子网络构成;所述的softmax输出分支子网络由一个全连接层和一个softmax输出层构成;所述的线性输出分支子网络由一个全连接层和一个线性输出层构成;
(3)设置Asynchronous Advantage Actor-Critic算法的损失函数如下:
其中Lactor(θi)为第i个分支子网络的损失函数,计算公式如下:
Lactor(θi)=logπi(at,i|st;θi)(Rt-V(st;θv))+βH(πi(st;θi))
其中πi(at,i|st;θi)为第i个子网络输出动作at,i的概率,πi(st;θi)为子网络输出各个动作的概率分布,即选择N个节点中的某一个节点执行任务的概率分布,H(πi(st;θi))为该概率分布的熵,参数β用于控制熵正则化项的强度,H(πi(st;θi))计算公式为:
Lcritic(θv)为共享的批评家Critic网络的损失函数,计算公式如下:
Lcritic(θv)=(Rt-V(si;θv))2
其中Rt代表累积奖励,计算公式为:
其中参数γ∈[0,1]为折扣因子;在实施例中,β设置为0.001,γ设置为0.9。
(4)利用采集观测的并行任务调度数据,训练前述的AsynchronousAdvantageActor-Critic算法网络,算法收敛后,将所述算法网络用于并行任务调度。
步骤(2.2)中,所述的共享子网络中,第一层全连接层由128个节点构成,第二层全连接层由256个节点构成,第三层全连接层由128个节点构成。
步骤(2.2)中,所述的softmax输出分支子网络中的全连接层由64个节点构成;所述的线性输出分支子网络中的全连接层由64个节点构成。
一组数据{st,at,rt,st+1}仅用于训练批评家Critic网络和与本次调度相关的子任务的表演者Actor网络的参数,而不是全局网络中的所有参数。其中st代表t时刻所述作业调度问题的状态,at为在状态st情况下所采取的决策动作,rt为本次动作at获得的奖励,st+1表示t+1时刻所述作业调度问题的状态。
将一个作业中所有的子任务设置一个相同的目标,即:为包含多个子任务的作业安排最合适的服务器分配方案,以便作业执行最短,因此,对每个表演者Actor网络的输出没有设置特定的奖励,将前述的奖励定义rt=Tbase-Tjob(st,at)用于训练所有表演者Actor网络的参数。
发明人对本发明所提出的方法,进行了大量实验,实验证明在相同网络环境中,本发明的方法可以有效调度网络资源,提高网络利用率,可以更好地降低网络拥挤,实现更高的网络吞吐量。
Claims (5)
1.一种实现并行任务调度的多任务强化学习方法,基于异步优势表演者批评家Asynchronous Advantage Actor-Critic算法实现,其特征在于:所述方法包括下列操作步骤:
(1)对Asynchronous Advantage Actor-Critic算法模型进行如下设置操作以更好的解决并行多任务调度问题:
(1.1)设置状态空间S为一个集合,即:S={Ftask,L,T,Fnode},式中,
Ftask={f1,f2,f3,...,fM}表示一个作业的CPU指令编号,式中,M是自然数,表示一个作业的最大子任务数目;f1表示第1个子任务,f2表示第2个子任务,f3表示第3个子任务,fM表示第M个子任务;所述作业是指将并行任务分配给具有不同计算能力和资源的服务器节点;
L={L1,L2,L3,...,Li,...,LM}表示M个子任务的信息,Li={l1,l2,l3,...,lj...,lN}表示第i个子任务待处理数据的长度和存储位置,如果所述待处理数据存储在服务器节点j中,则将元素lj设置为该待处理数据的长度,并把其他元素设置为零;N为自然数,表示服务器节点的最大编号;
T表示所有服务器节点的每个子线程中已分配的待执行任务的预计剩余执行时间;Fnode表示所有服务器节点当前的CPU频率;
(1.2)设置动作空间:将一个作业的整体任务分为M个子决策,对应于M个子任务;对于每个子决策,动作空间由{1,2,3,...,N}给出,如果动作为i,则表示将子任务调度到第i个服务器节点;如果子任务的数量小于M,则将相应输出的动作直接丢弃;一个作业的完整动作at表示如下:at={at,1,at,2...,at,i...at,M},式中at,i表示t时刻第i个子任务被分配到的服务器节点编号;
(1.3)设置奖励定义:将奖励设置为最小化平均作业执行时间,即在每个决策点设置奖励rt为:rt=Tbase-Tjob(st,at),其中Tbase是作业执行时间的基线,Tjob(st,at)是t时刻决策中对应作业的实际执行时间;st表示t时刻所述作业调度问题的状态,at为在状态st情况下所采取的决策动作;
(2)对Asynchronous Advantage Actor-Critic算法网络进行如下改进:
(2.1)用深度神经网络来表示策略函数和值函数,即分别用表演者Actor网络来表示策略函数,用批评家Critic网络来表示值函数;设置多个表演者Actor网络来各自负责子任务的单独调度,因此,在所述神经网络中,包括M个softmax输出分支子网络用于策略πi(at,i|st;θi)和一个线性输出分支子网络用于值函数V(st,θv),πi(at,i|st;θi)表示第i个softmax输出分支子网络给出的与第i个子任务对应的策略,at,i表示t时刻第i个子任务对应的动作,st表示t时刻所述作业调度问题的状态,θi表示第i个softmax输出分支子网络的网络参数,θv表示所述线性输出分支子网络的网络参数;它们共享多个非输出层;每个softmax输出分支子网络包含N个输出节点,显示将子任务分配给服务器节点的概率分布;
(2.2)全局网络由输入层、共享子网络和输出子网络构成;其中所述的输入层的输入是所述作业调度问题的状态;其中所述的共享子网络由3层全连接层构成;所述的输出子网络由前述的M个softmax输出分支子网络和一个线性输出分支子网络构成;所述的softmax输出分支子网络由一个全连接层和一个softmax输出层构成;所述的线性输出分支子网络由一个全连接层和一个线性输出层构成;
(3)设置Asynchronous Advantage Actor-Critic算法的损失函数如下:
其中Lactor(θi)为第i个分支子网络的损失函数,计算公式如下:
Lactor(θi)=logπi(at,i|st;θi)(Rt-V(st;θv))+βH(πi(st;θi))
其中πi(at,i|st;θi)为第i个子网络输出动作at,i的概率,πi(st;θi)为子网络输出各个动作的概率分布,即选择N个节点中的某一个节点执行任务的概率分布,H(πi(st;θi))为该概率分布的熵,参数β用于控制熵正则化项的强度,H(πi(st;θi))计算公式为:
Lcritic(θv)为共享的批评家Critic网络的损失函数,计算公式如下:
Lcritic(θv)=(Rt-V(si;θv))2
上式中Rt代表累积奖励,计算公式为:
其中参数γ∈[0,1]为折扣因子;
(4)利用采集观测的并行任务调度数据,训练前述的Asynchronous Advantage Actor-Critic算法网络,算法收敛后,将所述算法网络用于并行任务调度。
2.根据权利要求1所述的一种实现并行任务调度的多任务强化学习方法,其特征在于:步骤(2.2)中,所述的共享子网络中,第一层全连接层由128个节点构成,第二层全连接层由256个节点构成,第三层全连接层由128个节点构成。
3.根据权利要求1所述的一种实现并行任务调度的多任务强化学习方法,其特征在于:步骤(2.2)中,所述的softmax输出分支子网络中的全连接层由64个节点构成;所述的线性输出分支子网络中的全连接层由64个节点构成。
4.根据权利要求1所述的一种实现并行任务调度的多任务强化学习方法,其特征在于:一组数据{st,at,rt,st+1}仅用于训练批评家Critic网络和与本次调度相关的子任务的表演者Actor网络的参数,而不是全局网络中的所有参数;其中st代表t时刻所述作业调度问题的状态,at为在状态st情况下所采取的决策动作,rt为本次动作at获得的奖励,st+1表示t+1时刻所述作业调度问题的状态。
5.根据权利要求1所述的一种实现并行任务调度的多任务强化学习方法,其特征在于:将一个作业中所有的子任务设置一个相同的目标,即:为包含多个子任务的作业安排最合适的服务器分配方案,以便作业执行最短,因此,对每个表演者Actor网络的输出没有设置特定的奖励,将前述的奖励定义rt=Tbase-Tjob(st,at)用于训练所有表演者Actor网络的参数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864432.XA CN110580196B (zh) | 2019-09-12 | 2019-09-12 | 一种实现并行任务调度的多任务强化学习方法 |
US17/015,269 US11886993B2 (en) | 2019-09-12 | 2020-09-09 | Method and apparatus for task scheduling based on deep reinforcement learning, and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864432.XA CN110580196B (zh) | 2019-09-12 | 2019-09-12 | 一种实现并行任务调度的多任务强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580196A CN110580196A (zh) | 2019-12-17 |
CN110580196B true CN110580196B (zh) | 2021-04-06 |
Family
ID=68811958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910864432.XA Expired - Fee Related CN110580196B (zh) | 2019-09-12 | 2019-09-12 | 一种实现并行任务调度的多任务强化学习方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11886993B2 (zh) |
CN (1) | CN110580196B (zh) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11556393B2 (en) * | 2020-01-07 | 2023-01-17 | Adobe Inc. | Environment aware application-based resource management using reinforcement learning |
CN111324358B (zh) * | 2020-02-14 | 2020-10-16 | 南栖仙策(南京)科技有限公司 | 一种用于信息系统自动运维策略的训练方法 |
CN111400031B (zh) * | 2020-03-01 | 2023-08-22 | 南京大学 | 面向处理单元部署的基于值函数的强化学习方法 |
CN111585915B (zh) * | 2020-03-30 | 2023-04-07 | 西安电子科技大学 | 长、短流量均衡传输方法、系统、存储介质、云服务器 |
WO2022006830A1 (zh) * | 2020-07-10 | 2022-01-13 | 广东石油化工学院 | 一种多队列多集群的任务调度方法及系统 |
CN112231091B (zh) * | 2020-11-05 | 2022-08-23 | 北京理工大学 | 一种基于强化学习策略的并行云工作流调度方法 |
CN112508398B (zh) * | 2020-12-04 | 2022-09-16 | 北京邮电大学 | 基于深度强化学习的动态生产调度方法、装置及电子设备 |
EP4024212B1 (en) * | 2020-12-29 | 2024-04-24 | Telefonica Digital España, S.L.U. | Method for scheduling inference workloads on edge network resources |
CN113094159B (zh) * | 2021-03-22 | 2024-04-05 | 西安交通大学 | 一种数据中心作业调度方法、系统、存储介质及计算设备 |
CN113194086B (zh) * | 2021-04-27 | 2022-05-27 | 新华三信息安全技术有限公司 | 一种防攻击的方法及设备 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
CN113572804B (zh) * | 2021-04-29 | 2023-06-30 | 重庆工程职业技术学院 | 一种基于边缘协作的任务卸载系统、方法及装置 |
CN113071524B (zh) * | 2021-04-29 | 2022-04-12 | 深圳大学 | 决策控制方法、装置、自动驾驶车辆及存储介质 |
CN113238847B (zh) * | 2021-05-20 | 2022-12-06 | 西安电子科技大学 | 基于分散式网络环境下可分任务的分发和调度方法 |
CN113238846A (zh) * | 2021-05-20 | 2021-08-10 | 浙江网商银行股份有限公司 | 任务调度的方法以及装置 |
CN113361912B (zh) * | 2021-06-04 | 2022-05-27 | 浙江工业大学 | 一种基于强化学习的服务任务调度方法 |
CN113469369B (zh) * | 2021-06-04 | 2023-06-13 | 中电海康集团有限公司 | 一种面向多任务强化学习的缓解灾难性遗忘的方法 |
WO2022261652A1 (en) * | 2021-06-10 | 2022-12-15 | Sailion Inc. | Method and system for distributed workload processing |
CN113395207B (zh) * | 2021-06-15 | 2022-12-23 | 北京工业大学 | 一种sdn架构下基于深度强化学习的路由优化架构及方法 |
CN113485313A (zh) * | 2021-06-25 | 2021-10-08 | 杭州玳数科技有限公司 | 自动驾驶车辆的抗干扰方法和装置 |
EP4113241B1 (en) * | 2021-07-01 | 2023-08-16 | Volvo Autonomous Solutions AB | Method and system for traffic control of a plurality of vehicles, in particular autonomous vehicles |
CN113676519B (zh) * | 2021-07-28 | 2023-06-06 | 北京信息科技大学 | 车辆内容预缓存和宽带分配的联合优化方法及装置 |
CN113515385A (zh) * | 2021-07-30 | 2021-10-19 | 盛景智能科技(嘉兴)有限公司 | 资源调度的方法、装置、电子设备及存储介质 |
CN113535365A (zh) * | 2021-07-30 | 2021-10-22 | 中科计算技术西部研究院 | 基于强化学习的深度学习训练作业资源放置系统及方法 |
CN113641496B (zh) * | 2021-08-13 | 2023-12-12 | 陕西边云协同网络科技有限责任公司 | 基于深度强化学习的dids任务调度优化方法 |
CN113641481A (zh) * | 2021-08-27 | 2021-11-12 | 西安交通大学 | 一种采用dqn的fpga任务调度优化方法及系统 |
CN113992524B (zh) * | 2021-09-28 | 2024-04-09 | 北京工业大学 | 网络切片优化处理方法及系统 |
CN113886080B (zh) * | 2021-09-29 | 2024-10-18 | 苏州浪潮智能科技有限公司 | 高性能集群任务调度方法、装置、电子设备及存储介质 |
CN113946423B (zh) * | 2021-10-18 | 2024-04-19 | 天津大学 | 基于图注意力网络的多任务边缘计算调度优化方法 |
CN114025359B (zh) * | 2021-11-01 | 2024-04-23 | 湖南大学 | 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质 |
CN114126025B (zh) * | 2021-11-02 | 2023-04-28 | 中国联合网络通信集团有限公司 | 用于车载终端的功率调整方法、车载终端和服务器 |
CN114116047B (zh) * | 2021-11-09 | 2023-11-03 | 吉林大学 | 一种基于强化学习的车载计算密集型应用的v2i卸载方法 |
CN114116050A (zh) * | 2021-11-16 | 2022-03-01 | 天津市英贝特航天科技有限公司 | 一种边缘计算的选择性卸载方法及系统 |
CN114285847A (zh) * | 2021-12-17 | 2022-04-05 | 中国电信股份有限公司 | 数据处理、模型训练方法及装置、电子设备、存储介质 |
CN114528042B (zh) * | 2022-01-30 | 2023-04-21 | 南京信息工程大学 | 基于深度强化学习的节能型自动互联车辆服务卸载方法 |
CN114492842A (zh) * | 2022-02-07 | 2022-05-13 | 北京白海科技有限公司 | 一种机器学习任务的恢复方法、装置、电子设备及介质 |
CN114745317B (zh) * | 2022-02-09 | 2023-02-07 | 北京邮电大学 | 面向算力网络的计算任务调度方法及相关设备 |
CN114531448B (zh) * | 2022-02-21 | 2024-02-27 | 联想(北京)有限公司 | 算力确定方法、装置及算力共享系统 |
CN114546623B (zh) * | 2022-03-01 | 2022-12-27 | 淮安市第二人民医院 | 一种基于大数据系统的任务调度方法和系统 |
CN114610474B (zh) * | 2022-05-12 | 2022-09-02 | 之江实验室 | 一种异构超算环境下多策略的作业调度方法及系统 |
CN114675975B (zh) * | 2022-05-24 | 2022-09-30 | 新华三人工智能科技有限公司 | 一种基于强化学习的作业调度方法、装置及设备 |
CN115033343B (zh) * | 2022-05-27 | 2024-03-01 | 河南大学 | 一种云环境下遥感数据流程调度模型的建立方法 |
CN114912826B (zh) * | 2022-05-30 | 2024-07-02 | 华中农业大学 | 一种基于多层深度强化学习的柔性作业车间调度方法 |
CN115242796B (zh) * | 2022-06-15 | 2024-02-20 | 西安电子科技大学 | 一种面向云-边-端场景的任务调度方法 |
CN115333961B (zh) * | 2022-06-30 | 2023-10-13 | 北京邮电大学 | 基于深度强化学习的无线通信网络管控方法及相关设备 |
CN115237581B (zh) * | 2022-09-21 | 2022-12-27 | 之江实验室 | 一种面向异构算力的多策略智能调度方法和装置 |
CN115564056B (zh) * | 2022-09-21 | 2023-12-08 | 中国电信股份有限公司 | 节点选择方法、装置、电子设备及计算机可读存储介质 |
CN115643594B (zh) * | 2022-10-11 | 2024-08-02 | 重庆邮电大学 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
CN115348324B (zh) * | 2022-10-19 | 2023-01-31 | 北京中科海芯科技有限公司 | 一种最优化调度策略的确定方法及装置和电子设备 |
CN115904638B (zh) * | 2022-11-23 | 2023-07-25 | 中国科学院软件研究所 | 一种数据库事务智能管理方法及系统 |
CN115987817B (zh) * | 2022-12-23 | 2024-05-24 | 中国电信股份有限公司 | 交换任务调度方法、装置、电子设备及非易失性存储介质 |
CN115801549B (zh) * | 2023-01-28 | 2023-06-16 | 中国人民解放军国防科技大学 | 基于关键节点识别的自适应网络恢复方法、装置及设备 |
CN116069478B (zh) * | 2023-03-07 | 2023-06-02 | 湖南师范大学 | 基于图神经网络的车载系统安全感知设计优化方法及设备 |
CN117057569A (zh) * | 2023-08-21 | 2023-11-14 | 重庆大学 | 基于神经网络的非置换流水车间调度方法以及装置 |
CN117170886B (zh) * | 2023-11-03 | 2024-02-02 | 北京邮电大学 | 一种面向大连接视频分析的连续学习资源调度方法及装置 |
CN117971411B (zh) * | 2023-12-06 | 2024-08-06 | 南京财经大学 | 一种基于强化学习的云平台任务调度方法及装置 |
CN117555696B (zh) * | 2024-01-11 | 2024-03-15 | 西北工业大学 | 一种多模型并发执行的数据交互方法及系统 |
CN117707797B (zh) * | 2024-02-06 | 2024-05-03 | 湘江实验室 | 基于分布式云平台的任务调度方法、装置及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354862A (zh) * | 2016-09-06 | 2017-01-25 | 山东大学 | 一种异构网络中多维个性化推荐方法 |
CN109710289A (zh) * | 2018-12-21 | 2019-05-03 | 南京邮电大学 | 基于深度强化学习算法的分布式参数服务器的更新方法 |
CN109976909A (zh) * | 2019-03-18 | 2019-07-05 | 中南大学 | 边缘计算网络中基于学习的低延时任务调度方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165602A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
US11086317B2 (en) * | 2018-03-30 | 2021-08-10 | Intel Corporation | Emotional adaptive driving policies for automated driving vehicles |
-
2019
- 2019-09-12 CN CN201910864432.XA patent/CN110580196B/zh not_active Expired - Fee Related
-
2020
- 2020-09-09 US US17/015,269 patent/US11886993B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354862A (zh) * | 2016-09-06 | 2017-01-25 | 山东大学 | 一种异构网络中多维个性化推荐方法 |
CN109710289A (zh) * | 2018-12-21 | 2019-05-03 | 南京邮电大学 | 基于深度强化学习算法的分布式参数服务器的更新方法 |
CN109976909A (zh) * | 2019-03-18 | 2019-07-05 | 中南大学 | 边缘计算网络中基于学习的低延时任务调度方法 |
Non-Patent Citations (2)
Title |
---|
Autonomous Navigation with Improved Hierarchical Neural Network;Haiying Zhang;《Proceedings of the 38th Chinese Control Conference》;20190727;全文 * |
基于双重注意力机制的异步优势行动者评论家算法;凌兴宏等;《计算机学报》;20200131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110580196A (zh) | 2019-12-17 |
US11886993B2 (en) | 2024-01-30 |
US20210081787A1 (en) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580196B (zh) | 一种实现并行任务调度的多任务强化学习方法 | |
Tong et al. | A scheduling scheme in the cloud computing environment using deep Q-learning | |
Shyalika et al. | Reinforcement learning in dynamic task scheduling: A review | |
Pradhan et al. | A survey on PSO based meta-heuristic scheduling mechanism in cloud computing environment | |
Alresheedi et al. | Improved multiobjective salp swarm optimization for virtual machine placement in cloud computing | |
Liu et al. | Job scheduling model for cloud computing based on multi-objective genetic algorithm | |
Chen et al. | Using novel particle swarm optimization scheme to solve resource-constrained scheduling problem in PSPLIB | |
Al-maamari et al. | Task scheduling using hybrid algorithm in cloud computing environments | |
CN105446816B (zh) | 一种面向异构平台的能耗优化调度方法 | |
Bansal et al. | Dynamic task-scheduling in grid computing using prioritized round robin algorithm | |
Alsayegh et al. | Hybrid meta-heuristic methods for the multi-resource leveling problem with activity splitting | |
Fahmy | A fuzzy algorithm for scheduling non-periodic jobs on soft real-time single processor system | |
Jiahao et al. | A multi-object optimization cloud workflow scheduling algorithm based on reinforcement learning | |
Li et al. | Multitask scheduling in consideration of fuzzy uncertainty of multiple criteria in service-oriented manufacturing | |
CN109710372B (zh) | 一种基于猫头鹰搜索算法的计算密集型云工作流调度方法 | |
Li et al. | Task scheduling of computational grid based on particle swarm algorithm | |
Moazeni et al. | Dynamic resource allocation using an adaptive multi-objective teaching-learning based optimization algorithm in cloud | |
Chalack et al. | Resource allocation in cloud environment using approaches based particle swarm optimization | |
Jiang et al. | Hierarchical deployment of deep neural networks based on fog computing inferred acceleration model | |
Alzaqebah et al. | Self-adaptive bee colony optimisation algorithm for the flexible job-shop scheduling problem | |
Nouiri et al. | An effective particle swarm optimization algorithm for flexible job-shop scheduling problem | |
Cinar et al. | A taxonomy for the flexible job shop scheduling problem | |
Huang et al. | Integrated frameworks of unsupervised, supervised and reinforcement learning for solving air traffic flow management problem | |
Zhang et al. | A self-adaptive exception adjustment approach of multi-core value nets in industry alliance | |
Fomperosa et al. | Task scheduler for heterogeneous data centres based on deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210406 Termination date: 20210912 |