CN110580196A

CN110580196A - 一种实现并行任务调度的多任务强化学习方法

Info

Publication number: CN110580196A
Application number: CN201910864432.XA
Authority: CN
Inventors: 戚琦; 孙海峰; 王晶; 张凌昕; 王敬宇; 廖建新
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-12-17
Anticipated expiration: 2039-09-12
Also published as: US20210081787A1; US11886993B2; CN110580196B

Abstract

一种实现并行任务调度的多任务强化学习方法，基于异步优势表演者批评家算法实现，包括下列操作步骤：(1)对算法模型进行设置操作以更好的解决并行多任务调度问题，包括设置状态空间、设置动作空间、设置奖励定义；(2)对算法网络进行如下改进：用深度神经网络来表示策略函数和值函数；全局网络由输入层、共享子网络和输出子网络构成；(3)设置算法的新损失函数；(4)利用采集观测的并行任务调度数据，训练算法网络，算法收敛后，将所述算法网络用于并行任务调度。

Description

一种实现并行任务调度的多任务强化学习方法

技术领域

本发明涉及一种实现并行任务调度的多任务强化学习方法，属于信息技术领域，特别是属于分布和并行计算技术领域。

背景技术

在数据爆炸的时代，分布式和并行化已成为一种有效的数据处理方式。云计算、雾计算、边缘计算等都是大数据处理的典型的分布式和并行计算环境。这些计算系统的计算资源都是有限的，因此其中资源的合理分配始终是一个至关重要的研究课题。此外，可持续发展近年来已成为全球关注的重点，而计算中心的功耗则可能会造成巨大的能量损失。鉴于以上这些原因，在复杂的动态网络环境中，如何分配任务以有效利用分布式资源，实现计算系统的负载平衡，降低能耗，并确保服务质量(QoS)，已经成为世界各地学者研究的关键问题。

在实际的网络调度问题中，我们经常需要处理由独立并行任务组成的一些工作。虽然在执行期间它们之间没有依赖关系，但它们需要共享计算资源并共同决定整个作业的最终执行结果。例如，在基于云的Apache Hadoop平台中，程序可能会拆分为多个map子程序并提交到云平台，此时就需要将它们作为一个整体进行调度，为各个子任务联合分配任务执行的计算节点。此外，分布式关系数据库查询，蒙特卡罗模拟，BLAST(basic localalignment search tool)搜索等都是独立并行任务的典型例子。

目前几种经典的调度算法，如Min-Min，Max-Min，循环调度算法和最小连接方法，它们虽然简单有效，但却不适用于计算节点性能差异较大的系统。此外，基于穷举搜索的任务调度以寻找最佳资源分配又是不可能的，因为其复杂性随着任务和资源的数量呈指数增长。因此，一些学者尝试使用评估算法在可接受的时间内找到近似最优解，如粒子群优化，遗传算法，蚁群优化。然而计算平台的环境总是动态且大规模的，对它们进行精确建模十分困难，因此启发式算法也很难表现出优秀的调度性能。

对于处理高维状态空间和低维动作空间中的复杂控制问题，深度强化学习(DeepReinforcement Learning,DRL)具有出色能力，因此如何基于DRL技术，实现多任务调度的无模型控制成为分布并行多任务调度技术领域一个亟待解决的技术难题。

发明内容

有鉴于此，本发明的目的是发明一种基于DRL的并行任务调度方法，以提高计算平台的资源利用率，同时确保基于经验数据优化的QoS。

为了达到上述目的，本发明提出了一种实现并行任务调度的多任务强化学习方法，基于异步优势表演者批评家Asynchronous Advantage Actor-Critic算法实现，所述方法包括下列操作步骤：

(1)对Asynchronous Advantage Actor-Critic算法模型进行如下设置操作以更好的解决并行多任务调度问题：

(1.1)设置状态空间S为一个集合，即：S＝{F_task，L，T，F_node}，式中，

F_task＝{f₁，f₂，f₃，...，f_M}表示一个作业的CPU指令编号，式中，M是自然数，表示一个作业的最大子任务数目；f₁表示第1个子任务，f₂表示第2个子任务，f₃表示第3个子任务，f_M表示第M个子任务；所述作业是指将并行任务分配给具有不同计算能力和资源的服务器节点；

L＝{L₁，L₂，L₃，...，L_i，...，L_M}表示M个子任务的信息，L_i＝{l₁，l₂，l₃，...，l_j...，l_N}表示第i个子任务待处理数据的长度和存储位置，如果所述待处理数据存储在服务器节点j中，则将元素l_j设置为该待处理数据的长度，并把其他元素设置为零；N为自然数，表示服务器节点的最大编号；

T表示所有服务器节点的每个子线程中已分配的待执行任务的预计剩余执行时间；F_node表示所有服务器节点当前的CPU频率。

(1.2)设置动作空间：将一个作业的整体任务分为M个子决策，对应于M个子任务；对于每个子决策，动作空间由{1，2，3，...，N}给出，如果动作为i，则表示将子任务调度到第i个服务器节点；如果子任务的数量小于M，则将相应输出的动作直接丢弃；一个作业的完整动作a_t表示如下：a_t＝{a_t，1，a_t，2…，a_t，i…a_t，M}，式中a_t，i表示t时刻第i个子任务被分配到的服务器节点编号；

(1.3)设置奖励定义：将奖励设置为最小化平均作业执行时间，即在每个决策点设置奖励r_t为：r_t＝T_base-T_job(s_t，a_t)，其中T_base是作业执行时间的基线，T_job(s_t，a_t)是t时刻决策中对应作业的实际执行时间；s_t表示t时刻所述作业调度问题的状态，a_t为在状态s_t情况下所采取的决策动作；

(2)对Asynchronous Advantage Actor-Critic算法网络进行如下改进：

(2.1)用深度神经网络来表示策略函数和值函数，即分别用表演者Actor网络来表示策略函数，用批评家Critic网络来表示值函数；设置多个表演者Actor网络来各自负责子任务的单独调度，因此，在所述神经网络中，包括M个softmax输出分支子网络用于策略π_i(a_t，i|s_t；θ_i)和一个线性输出分支子网络用于值函数V(s_t，θ_v)，π_i(a_t，i|s_t；θ_i)表示第i个softmax输出分支子网络给出的与第i个子任务对应的策略，a_t，i表示t时刻第i个子任务对应的动作，s_t表示t时刻所述作业调度问题的状态，θ_i表示第i个softmax输出分支子网络的网络参数，θ_v表示所述线性输出分支子网络的网络参数；它们共享多个非输出层；每个softmax输出分支子网络包含N个输出节点，显示将子任务分配给服务器节点的概率分布；

(2.2)全局网络由输入层、共享子网络和输出子网络构成；其中所述的输入层的输入是所述作业调度问题的状态；其中所述的共享子网络由3层全连接层构成；所述的输出子网络由前述的M个softmax输出分支子网络和一个线性输出分支子网络构成；所述的softmax输出分支子网络由一个全连接层和一个softmax输出层构成；所述的线性输出分支子网络由一个全连接层和一个线性输出层构成；

(3)设置Asynchronous Advantage Actor-Critic算法的损失函数如下：

其中L_actor(θ_i)为第i个分支子网络的损失函数，计算公式如下：

L_actor(θ_i)＝logπ_i(a_t，i|s_t；θ_i)(R_t-V(s_t；θ_v))+βH(π_i(s_t；θ_i))

其中π_i(a_t，i|s_t；θ_i)为第i个子网络输出动作a_t，i的概率，π_i(s_t；θ_i)为子网络输出各个动作的概率分布，即选择N个节点中某一个节点执行任务的概率分布，片(π_i(s_t；θ_i))为该概率分布的熵，参数β用于控制熵正则化项的强度，片(π_i(s_t；θ_i))计算公式为：

为在时刻t子网络i选择动作j的概率，即选择节点j执行子任务i的概率。

L_critic(θ_v)为共享的批评家Critic网络的损失函数，计算公式如下：

L_critic(θ_v)＝(R_t-V(s_i；θ_v))²

其中R_t代表累积奖励，计算公式为：

其中参数γ∈[0，1]为折扣因子。

(4)利用采集观测的并行任务调度数据，训练前述的Asynchronous AdvantageActor-Critic算法网络，算法收敛后，将所述算法网络用于并行任务调度。

步骤(2.2)中，所述的共享子网络中，第一层全连接层由128个节点构成，第二层全连接层由256个节点构成，第三层全连接层由128个节点构成。

步骤(2.2)中，所述的softmax输出分支子网络中的全连接层由64个节点构成；所述的线性输出分支子网络中的全连接层由64个节点构成。

一组数据{s_t，a_t，r_t，s_t+1}仅用于训练批评家Critic网络和与本次调度相关的子任务的表演者Actor网络的参数，而不是全局网络中的所有参数。其中s_t代表t时刻所述作业调度问题的状态，a_t为在状态s_t情况下所采取的决策动作，r_t为本次动作a_t获得的奖励，s_t+1表示t+1时刻所述作业调度问题的状态。

将一个作业中所有的子任务设置一个相同的目标，即：为包含多个子任务的作业安排最合适的服务器分配方案，以便作业执行最短，因此，对每个表演者Actor网络的输出没有设置特定的奖励，将前述的奖励定义r_t＝T_base-T_job(s_t，a_t)用于训练所有表演者Actor网络的参数。

本发明的有益效果在于：本发明提出的一种实现并行任务调度的多任务强化学习方法，采用多任务学习(Multi-task Learning)方法为每个任务单独输出节点分配策略，考虑了任务之间的交互，能实现多个任务同时并行学习，并且能实现梯度的同时反向传播。这是一种使用共享结构来共同解决多个任务的方法，如果选择了适当的任务，这有助于改进模型的泛化。通过应用多任务学习，本发明的方法可以很好地适应任务数量的变化，适应学习子任务之间的相互影响，显示出更好的调度效果。

附图说明

图1是本发明提出的一种实现并行任务调度的多任务强化学习方法的流程图。

图2是本发明提出的对Asynchronous Advantage Actor-Critic算法网络所改进的网络示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明提出的一种实现并行任务调度的多任务强化学习方法，基于异步优势表演者批评家Asynchronous Advantage Actor-Critic算法实现，所述方法包括下列操作步骤：

F_task＝{f₁，f₂，f₃，...，f_M}表示一个作业的CPU指令编号，式中，M为自然数，表示一个作业的最大子任务数目；f₁表示第1个子任务，f₂表示第2个子任务，f₃表示第3个子任务，f_M表示第M个子任务；所述作业是指将并行任务分配给具有不同计算能力和资源的服务器节点；

在我们的实验中，最大子任务数量M＝5，计算节点数量N＝10。

(1.3)设置奖励定义：将奖励设置为最小化平均作业执行时间，即在每个决策点设置奖励r_t为：r_t＝T_base-T_job(s_t，a_t)，其中T_base是作业执行时间的基线，T_job(s_t，a_t)是t时刻决策中对应作业的实际执行时间；s_t表示t时刻所述作业调度问题的状态，a_t为在状态s_t情况下所采取的决策动作；在我们实验中T_base＝9；

(2)参见图2，对Asynchronous Advantage Actor-Critic算法网络进行如下改进：

(3)设置Asynchronous Advantage Actor-Critic算法的损失函数如下：

其中π_i(a_t，i|s_t；θ_i)为第i个子网络输出动作a_t，i的概率，π_i(s_t；θ_i)为子网络输出各个动作的概率分布，即选择N个节点中的某一个节点执行任务的概率分布，片(π_i(s_t；θ_i))为该概率分布的熵，参数β用于控制熵正则化项的强度，片(π_i(s_t；θ_i))计算公式为：

L_critic(θ_v)＝(R_t-V(s_i；θ_v))²

其中R_t代表累积奖励，计算公式为：

其中参数γ∈[0，1]为折扣因子；在实施例中，β设置为0.001，γ设置为0.9。

发明人对本发明所提出的方法，进行了大量实验，实验证明在相同网络环境中，本发明的方法可以有效调度网络资源，提高网络利用率，可以更好地降低网络拥挤，实现更高的网络吞吐量。

Claims

1.一种实现并行任务调度的多任务强化学习方法，基于异步优势表演者批评家AsynchronousAdvantageActor-Critic算法实现，其特征在于：所述方法包括下列操作步骤：

(1)对AsynchronousAdvantageActor-Critic算法模型进行如下设置操作以更好的解决并行多任务调度问题：

(1.1)设置状态空间S为一个集合，即：S＝{F_task,L,T,F_node}，式中，

F_task＝{f₁,f₂,f₃,…,f_M}表示一个作业的CPU指令编号，式中，M是自然数，表示一个作业的最大子任务数目；f₁表示第1个子任务，f₂表示第2个子任务，f₃表示第3个子任务，f_M表示第M个子任务；所述作业是指将并行任务分配给具有不同计算能力和资源的服务器节点；

L＝{L₁,L₂,L₃,…,L_i,…,L_M}表示M个子任务的信息，L_i＝{l₁,l₂,l₃,…,l_j…,l_N}表示第i个子任务待处理数据的长度和存储位置，如果所述待处理数据存储在服务器节点j中，则将元素l_j设置为该待处理数据的长度，并把其他元素设置为零；N为自然数，表示服务器节点的最大编号；

T表示所有服务器节点的每个子线程中已分配的待执行任务的预计剩余执行时间；F_node表示所有服务器节点当前的CPU频率；

(1.2)设置动作空间：将一个作业的整体任务分为M个子决策，对应于M个子任务；对于每个子决策，动作空间由{1,2,3，...，N}给出，如果动作为i，则表示将子任务调度到第i个服务器节点；如果子任务的数量小于M，则将相应输出的动作直接丢弃；一个作业的完整动作a_t表示如下：a_t＝{a_t,1,a_t,2…,i_t,i…i_t,M}，式中i_t,i表示t时刻第i个子任务被分配到的服务器节点编号；

(1.3)设置奖励定义：将奖励设置为最小化平均作业执行时间，即在每个决策点设置奖励r_t为：r_t＝T_base-T_job(s_t,a_t)，其中T_base是作业执行时间的基线，T_job(s_t,a_t)是t时刻决策中对应作业的实际执行时间；s_t表示t时刻所述作业调度问题的状态，i_t为在状态s_t情况下所采取的决策动作；

(2)对Asynchronous Advantage Actor-Critic算法网络进行如下改进：

(2.1)用深度神经网络来表示策略函数和值函数，即分别用表演者Actor网络来表示策略函数，用批评家Critic网络来表示值函数；设置多个表演者Actor网络来各自负责子任务的单独调度，因此，在所述神经网络中，包括M个softmax输出分支子网络用于策略π_i(a_t,i|s_t；θ_i)和一个线性输出分支子网络用于值函数V(s_t,θ_v)，π_i(a_t,i|s_t；θ_i)表示第i个softmax输出分支子网络给出的与第i个子任务对应的策略，a_t,i表示t时刻第i个子任务对应的动作，s_t表示t时刻所述作业调度问题的状态，θ_i表示第i个softmax输出分支子网络的网络参数，θ_v表示所述线性输出分支子网络的网络参数；它们共享多个非输出层；每个softmax输出分支子网络包含N个输出节点，显示将子任务分配给服务器节点的概率分布；

(3)设置Asynchronous Advantage Actor-Critic算法的损失函数如下：

其中L_ictor(θ_i)为第i个分支子网络的损失函数，计算公式如下：

L_ictor(θ_i)＝logπ_i(i_t,i|s_t；θ_i)(R_t-V(s_t；θ_v))+βH(π_i(s_t；θ_i))

其中π_i(i_t,i|m_t；θ_i)为第i个子网络输出动作i_t,i的概率，π_i(s_t；θ_i)为子网络输出各个动作的概率分布，即选择N个节点中的某一个节点执行任务的概率分布，H(π_i(s_t；θ_i))为该概率分布的熵，参数β用于控制熵正则化项的强度，H(π_i(s_t；θ_i))计算公式为：

上式中，为在时刻t子网络i选择动作j的概率，即选择节点j执行子任务i的概率；

L_critic(θ_v)＝(R_t-V(s_i；θ_v))²

上式中R_t代表累积奖励，计算公式为：

其中参数γ∈[0,1]为折扣因子；

(4)利用采集观测的并行任务调度数据，训练前述的Asynchronous Advantage Actor-Critic算法网络，算法收敛后，将所述算法网络用于并行任务调度。

2.根据权利要求1所述的一种实现并行任务调度的多任务强化学习方法，其特征在于：步骤(2.2)中，所述的共享子网络中，第一层全连接层由128个节点构成，第二层全连接层由256个节点构成，第三层全连接层由128个节点构成。

3.根据权利要求1所述的一种实现并行任务调度的多任务强化学习方法，其特征在于：步骤(2.2)中，所述的softmax输出分支子网络中的全连接层由64个节点构成；所述的线性输出分支子网络中的全连接层由64个节点构成。

4.根据权利要求1所述的一种实现并行任务调度的多任务强化学习方法，其特征在于：一组数据{s_t,i_t,r_t,s_t+1}仅用于训练批评家Critic网络和与本次调度相关的子任务的表演者Actor网络的参数，而不是全局网络中的所有参数；其中s_t代表t时刻所述作业调度问题的状态，i_t为在状态s_t情况下所采取的决策动作，r_t为本次动作i_t获得的奖励，s_t+1表示t+1时刻所述作业调度问题的状态。

5.根据权利要求1所述的一种实现并行任务调度的多任务强化学习方法，其特征在于：将一个作业中所有的子任务设置一个相同的目标，即：为包含多个子任务的作业安排最合适的服务器分配方案，以便作业执行最短，因此，对每个表演者Actor网络的输出没有设置特定的奖励，将前述的奖励定义r_t＝T_base-T_job(s_t,a_t)用于训练所有表演者Actor网络的参数。