CN115114030A

CN115114030A - 一种基于强化学习的在线多工作流调度方法

Info

Publication number: CN115114030A
Application number: CN202210857988.8A
Authority: CN
Inventors: 殷昱煜; 黄子信; 黄彬彬
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-27
Anticipated expiration: 2042-07-20
Also published as: GB2624736A; GB202311034D0; CN115114030B; JP2024014837A; US20240137404A1

Abstract

本发明公开了一种基于强化学习的在线多工作流调度方法。本发明首先建立系统模型来表征移动设备、边缘服务器、任务和节点。其次建立节点卸载规则，移动设备可选择将节点卸载到边缘服务器上或者留在本地执行。然后建立时间线模型，记录所有任务的到达事件以及节点的执行完成事件。再建立基于强化学习的在线多工作流调度策略，定义调度问题的状态空间和动作空间，并设计调度问题的奖励函数。最后设计一种基于策略梯度的求解在线多工作流调度问题算法用于调度策略实现。本发明基于图卷积神经网络提取的特征进行卸载决策与资源分配，能够实时分析当前的工作流以及服务器的状态，复杂度低，尽可能地降低所有工作流的平均完成时间。

Description

一种基于强化学习的在线多工作流调度方法

技术领域

本发明属于移动边缘计算领域，主要涉及一种基于强化学习的在线多工作流调度方法。

背景技术

移动边缘计算(Mobile Edge Computing,MEC)网络在网络的边缘处部署具有一定计算能力的边缘服务器，通过将计算任务卸载到靠近本地用户的网络边缘处的边缘服务器上，以提供更高的服务质量。该网络具有较低的延迟、较强的安全性以及减少网络拥塞等显著优势，解决了传统云计算模式算力有限以及时延较高的问题。有效且合理的卸载决策与资源分配将有助于提高MEC网络的性能，为企业带来可观的利润。

但是，以有向无环图(Directed Acyclic Graph,DAG)表征的工作流在MEC网络环境中的在线卸载决策与资源分配的联合优化问题为非凸的NP-hard问题，传统数学方法解该类问题计算量大，复杂性高，这为MEC网络带来巨大的负担。因此在移动边缘计算环境下如何得出较好的卸载决策与资源分配，也引起了国内外学者的广泛关注。

发明内容

为了解决上述问题，本发明提出一种基于强化学习的在线多工作流调度方法。

本发明包括如下步骤：

S1.建立系统模型：

移动边缘计算网络由多个移动设备和多个边缘服务器组成，移动设备的处理器频率与核数以f_n和cpu_n表示，边缘服务器的处理器频率与核数以f_m和cpu_m表示，边缘服务器之间的带宽以及移动设备与边缘服务器之间的带宽以B表示。

每个移动设备都会在线产生相互独立的、以DAG表征的任务。每个DAG可以用一个二元组G＝(V,E)来表示,其中V＝(v₁,…,v_k,…,v_K)表示该DAG里所包含的节点，E＝{e_kl|v_k∈V,v_l∈V}表示节点之间表征连接关系的边，边e_kl表示节点之间的约束依赖关系，即只有在节点v_k执行完毕后，节点v_l才能开始执行。每一个节点都可以表征为一个三元组

其中W_k表示节点v_k的工作负载，

表示节点v_k的输入数据大小，

表示节点v_k的输出数据大小。每个移动设备和边缘服务器都有一个自己的等待队列，用于存储即将在该移动设备或边缘服务器上执行的节点。

S2.建立节点卸载规则：

移动设备以节点为单位进行卸载，可选择将节点卸载到边缘服务器上或者留在本地执行。只有在当前节点的所有前驱节点执行完毕并且数据传输完成后，当前节点才可以开始执行。本发明所提出的调度策略在触发调度动作后，将选出一个待分配的节点并决定其所要分配的边缘服务器或移动设备。节点v_k在移动设备或边缘服务器上的完成时刻可由公式(1)计算：

其中公式(1)中avail表示移动设备或边缘服务器的可用时刻，

表示取

和avail的较大值。公式(2)表示当前节点v_k所有前驱节点执行完成并且输出数据传输完成的时刻，其中

表示节点v_l执行完成的时刻，

表示遍历节点v_k的所有前驱节点v_l，取

与T_tran(v_l,v_k)之和的最大值。公式(3)表示传输数据所需时间，若前驱节点和当前节点处在相同的移动设备或边缘服务器上执行则不需要进行数据的传输，反之则需要，公式(4)表示节点的执行所要花费的时间。

S3.建立时间线模型：

本发明提出了一种时间线模型，其上记录了所有DAG任务的到达事件以及节点的执行完成事件。移动设备上任务的到达过程服从参数为λ的泊松分布，即任务达到率为λ。时间线上离当前时刻最近的事件会不断被抓取，并根据被抓取的事件更新当前时刻，直到满足触发调度动作的条件。调度动作触发的条件是有可调度的节点并且边缘服务器或该节点所属的移动设备空闲时，调度动作结束后，则会继续抓取时间线上的事件。

S4.基于强化学习的在线多工作流调度策略：

需要定义调度问题的状态空间和动作空间，并设计调度问题的奖励函数，使用梯度策略进行训练，目标是使期望奖励最大化。具体包含以下子步骤：

S41.定义状态空间：

在以DAG表征的多工作流在线调度的环境下，与环境交互的智能体采用图卷积神经网络提取所有DAG的特征。通过图卷积神经网络，每个节点会自上而下聚合自己子节点的信息，同时自身作为父节点的子节点也会被其对应的父节点所聚合。通过消息一步步传递聚合可以得到每个节点的嵌入向量，其中包含每个节点关键路径值的信息。同时基于这些节点的嵌入向量，智能体可以进一步聚合而成节点所属DAG的嵌入向量，其中包括该DAG的剩余工作量的信息。再基于这些DAG的嵌入向量，智能体可以聚合得到全局的嵌入向量，其中包含全局的工作量的信息。

智能体观测环境而得的环境状态分为两部分：

在选择所要调度的节点时，智能体可观测环境状态O_node表示为公式(5)：

O_node＝[E_node,E_DAG,E_globa,T_stay,T_waste,D_i,o,W_node,W_pre] (5)

其中E_node、E_DAG、E_globa分别表示节点、节点所属DAG、全局级别的嵌入向量；T_stay表示节点所属DAG在环境中的停留时间；T_waste表示节点在移动设备或边缘服务器上执行会等待多长时间以及移动设备或边缘服务器会等待多长时间；D_i,o表示节点的输入与输出数据；W_node表示节点的工作负载；W_pre表示节点的所有父节点的工作负载之和。

在选择本次所要分配的服务器时，智能体可观测环境状态O_server表示为公式(6)：

O_server＝[st_pre,st_server,T_exec,num_child,W_child] (6)

其中st_pre表示该节点的前驱节点数据传输完成的时刻；st_server表示各个服务器的可用时刻；T_exec表示节点在各个服务器上的执行时间；num_child表示节点的所有子节点总数以及所有后代节点总数；W_child表示节点的所有子节点以及所有后代节点的工作负载之和。

S42.定义动作空间：

本发明提出的策略将动作分为两部分，智能体将上述观测到的状态O_node与O_server分别输入基于梯度策略的两个神经网络，即策略网络，以从待调度的节点里选出当次要调度的节点node，以及从可用的服务器里选出所要给该节点分配的服务器server，可由公式(7)表示：

A＝[node,server] (7)

其中A表示定义的动作空间。

S43.定义奖励函数：

在多工作流在线调度过程中，每个动作会得到一个即刻奖励以评估该动作的好坏。以所有DAG任务的平均完成时间作为最终的长期优化目标，根据利特尔法则，即刻奖励设定为当次动作开始到下一个动作触发的这段时间内，所有DAG任务在环境内的存在时间，可由公式(8)(9)表示：

R＝-∑T_stay(G) (8)

T_stay(G)＝min(T_now,T_finish(G))-max(T_pre,T_arrive(G)) (9)

其中T_now表示当前时刻，T_finish(G)表示工作流G的完成时刻，T_pre表示上一个动作执行的时刻，T_arrive(G)表示工作流G的到达时刻，min(T_now,T_finish(G))表示取T_now,T_finish(G)的最小值，max(T_pre,T_arrive(G))表示取T_pre,T_arrive(G)的最大值。

S44.问题形式化：

在线多工作流调度策略可以考虑基于梯度策略的神经网络模型，它的主要目标是最大化所有动作的累积奖励，可由公式(10)表示：

其中，T表示本次策略实施共有T个动作，k表示第k个动作，R_k表示第k个动作的奖励。

由于梯度策略的目标是最大化奖励，因此对神经网络参数执行梯度上升来进行参数的学习。

S5.策略实现：

本发明设计了一种基于策略梯度的求解在线多工作流调度问题算法(PG-OMWS)用于策略实现，策略实现的详细过程为：

(1)在策略实施阶段，首先初始化环境参数和网络参数。环境参数主要包括执行队列长度、移动设备和边缘服务器之间的带宽以及在环境内和即将到达环境的DAG任务结构。网络参数主要包括两个策略网络以及图卷积神经网络中的网络参数。然后，智能体观测环境里每个节点的基本特征，送入图卷积神经网络中经过两次聚合得到E_node，根据这些E_node再经过聚合得到E_DAG，根据所有E_DAG再次经过聚合得到E_globa，结合当前环境得到O_node与O_server，并根据这两个观测结果选择本次动作所要分配的节点和要给该节点分配的服务器。该节点的完成事件会记录到时间线中，同时计算出该动作的奖励。每次观测到的环境状态、动作以及奖励都会被保存下来。接下来判断触发调度动作的条件是否被满足，满足则继续触发调度动作，不满足，则去抓取时间线上离当前时刻最近的事件并根据该事件更新当前时刻，直到再次满足触发调度动作的条件。持续进行调度动作与抓取时间线事件的循环，直到环境内所有DAG任务执行完成。

(2)在训练阶段，智能体根据之前保存的环境状态、动作以及奖励，使用梯度策略由公式(11)去更新网络参数，得到最终的工作流调度策略：

其中θ表示网络参数，α表示学习率，T表示本次策略实施共有T个动作，k表示第k个动作，π_θ(o_k,a_k)表示以θ为参数的神经网络在环境状态o_k下做出动作a_k的概率，r_k表示基于即刻奖励进一步经过衰减得到的综合奖励，

表示对lnπ_θ(s_k,a_k)r_k求梯度，

表示对所有动作求得的梯度进行累加。

(3)策略执行阶段：环境中有工作流动态到达时，通过最终的工作流调度策略去选择执行该工作流中节点的边缘服务器或移动设备，作为执行该节点的服务器，依次执行完成工作流中的节点。

本发明有益效果：采取图卷积神经网络提取工作流的结构特征，并基于提取的特征进行卸载决策与资源分配，首次在移动边缘计算的多工作流在线调度环境下提出了一种结合梯度策略的解决方案。当环境中有工作流动态到达时，本发明能够实时分析当前的工作流以及服务器的状态，并调度工作流的节点到某个服务器上去执行。本方法复杂度低，并且实现了尽可能地降低所有工作流的平均完成时间。

附图说明

图1为本发明基于强化学习的在线多工作流调度策略的流程图；

图2为在任务到达率λ影响下，本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图；

图3为在边缘服务器处理器核数影响下，本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图；

图4为在移动设备处理器核数影响下，本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图；

图5为在边缘服务器个数影响下，本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图；

图6为在移动设备个数影响下，本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明进行进一步详细说明。

如图1所示，本发明提出的一种基于强化学习的在线多工作流调度方法，包括以下步骤：

S1.建立系统模型：

移动边缘计算网络由多个移动设备和多个边缘服务器组成,移动设备的处理器频率与核数以f_n和cpu_n表示，边缘服务器的处理器频率与核数以f_m和cpu_m表示，边缘服务器之间的带宽以及移动设备与边缘服务器之间的带宽以B表示。

每个移动设备都会在线产生相互独立的、以DAG表征的任务。每个DAG可以用一个二元组G＝(V,E)来表示,其中V＝(v₁,…,v_k,…,v_K)表示该DAG里所包含的节点，E＝{e_kl|v_k∈V,v_l∈V}表示节点之间表征连接关系的边。边e_kl表示节点之间的约束依赖关系，即只有在节点v_k执行完毕后，节点v_l才能开始执行。每一个节点都可以表征为一个三元组

其中W_k表示节点的工作负载，

表示节点v_k的输入数据大小，

表示节点输出数据大小。每个移动设备和边缘服务器都有一个自己的等待队列，用于存储即将在该移动设备或边缘服务器上执行的节点。

S2.建立节点卸载规则：

移动设备以节点为单位进行卸载，可选择将节点卸载到边缘服务器上或者留在本地执行。只有在当前节点所有前驱节点执行完毕并且数据传输完成后当前节点才可以开始执行。本发明所提出的调度策略在触发调度动作后，将选出一个待分配的节点并决定其所要分配的边缘服务器或移动设备。节点v_k在移动设备或边缘服务器上的完成时刻可由公式(1)计算：

其中公式(1)中avail表示移动设备或边缘服务器的可用时刻，公式(2)表示当前节点v_k所有前驱节点执行完成并且输出数据传输完成的时刻。公式(3)表示传输数据所需时间，若前驱节点和当前节点处在相同的移动设备或边缘服务器上执行则不需要进行数据的传输，反之则需要。公式(4)表示节点的执行所要花费的时间。

S3.建立时间线模型：

本发明提出了一种时间线模型，其上记录了所有DAG任务的到达事件以及节点的执行完成事件。移动设备上任务的到达过程服从参数为λ的泊松分布。时间线上离当前时刻最近的事件会不断被抓取并根据被抓取的事件更新当前时刻，直到满足触发调度动作的条件。调度动作触发的条件是有可调度的节点并且边缘服务器或该节点所属的移动设备空闲时。调度动作结束后，则会继续抓取时间线上的事件。

S4.基于强化学习的在线多工作流调度策略：需要定义调度问题的状态空间和动作空间，并设计调度问题的奖励函数，使用梯度策略进行训练，目标是使期望奖励最大化。具体包含以下子步骤：

S41.定义状态空间：

在以DAG形式表征的多工作流在线调度的环境下，与环境交互的智能体采用图卷积神经网络提取所有DAG的特征，每个节点会自上而下聚合自己子节点的信息，同时自身作为父节点的子节点也会被自身的父节点所聚合。通过消息一步步传递聚合可以得到每个节点的嵌入向量，其包含每个节点关键路径值的信息。同时基于这些节点的嵌入向量，智能体可以进一步聚合而成节点所属DAG的嵌入向量，其包括该DAG的剩余工作量的信息。再基于这些DAG的嵌入向量，智能体可以聚合得到全局的嵌入向量，其包含全局的工作量的信息。有了节点的嵌入向量，智能体才能判断沿着该节点向下关键路径的工作量，有了DAG以及全局级别的嵌入向量，智能体才能识别作业剩余工作量的相对大小。

智能体观测环境而得的环境状态分为两部分：

O_node＝[E_node,E_DAG,E_globa,T_stay,T_waste,D_i,o,W_node,W_pre] (5)

其中E_node,E_DAG,E_globa分别表示节点、节点所属DAG以及全局级别的嵌入向量；T_stay表示节点所属DAG在环境中的停留时间；T_waste表示节点在移动设备或边缘服务器上执行会等待多长时间以及移动设备或边缘服务器会等待多长时间；D_i,o表示节点的输入与输出数据；W_node表示节点的工作负载，W_pre表示节点的所有父节点的工作负载之和。

在选择本次所要分配的服务器时，智能体可观测环境状态空间O_server可表示为公式(6)：

O_server＝[st_pre,st_server,T_exec,num_child,W_child] (6)

S42.定义动作空间：

本发明提出的策略将动作分为两部分，智能体将上述观测到的状态O_node与O_server分别输入梯度策略的两个神经网络以从待调度的节点里选出当次要调度的节点node，以及从可用的服务器里选出所要给该节点分配的服务器server，可由公式(7)表示：

A＝[node,server] (7)

其中A表示定义的动作空间。

S43.定义奖励函数：

R＝-∑T_stay(G) (8)

T_stay(G)＝min(T_now,T_finish(G))-max(T_pre,T_arrive(G)) (9)

其中T_now表示当前时刻，T_finish(G)表示工作流G的完成时刻，T_pre表示上一个动作执行的时刻，T_arrive(G)表示工作流G的到达时刻，min(T_now,T_finish(G))表示取T_now,T_finish(G)的最小值，max(T_pre,T_arrive(G))表示取T_pre,T_arrive(G)的最大值。根据利特尔法则，由于任务到达的速率由外界决定，任务在环境中逗留时间越短，环境中平均任务数量就越少，所有任务平均完成时间就越低。因此该即刻奖励能较好地评估该动作的好坏。

S44.问题形式化：

在线多工作流调度策略可以考虑基于梯度策略模型，它的主要目标是最大化所有动作的累积奖励，可由公式(10)表示：

S5.策略实现：

(1)在策略执行阶段，首先初始化环境参数和网络参数。环境参数主要包括执行队列长度，移动设备和边缘服务器之间的带宽，已经在环境内和即将到达环境的DAG任务结构。网络参数主要包括两个策略网络以及图卷积神经网络中的网络参数。然后，智能体观测环境下每个节点的基本特征，送入图卷积神经网络中经过两次聚合得到E_node，根据这些E_node再经过聚合得到E_DAG，根据所有E_DAG再次经过聚合得到E_globa，结合当前环境得到O_node与O_server，并根据这两个观测结果选择本次动作所要分配的节点和要给该节点分配的服务器。该节点的完成事件会记录到时间线中，同时计算出该动作的奖励R。每次观测到的环境状态、动作以及奖励都会被保存下来。接下来判断触发调度动作的条件是否被满足，满足则继续触发调度动作，不满足，则去抓取时间线上离当前时刻最近的事件并根据该事件更新当前时刻，直到再次满足触发调度动作的条件。持续进行调度动作与抓取时间线事件的循环直到环境内所有DAG执行完成。

表示对lnπ_θ(s_k,a_k)r_k求梯度，

表示对所有动作求得的梯度进行累加。

实施例

本实施例步骤与具体实施方式相同，在此不再进行赘述。

作为优选，S1所述移动设备个数为3，其处理器核数cpu_n＝4，处理器频率f_n＝2.0GHZ。边缘服务器的个数为6，其处理器核数cpu_m＝6，处理器频率f_m＝2.5GHZ。移动设备和边缘服务器之间的带宽、边缘服务器与边缘服务器之间的带宽在[10,100]MB/s之间随机取值。DAG任务初始在环境内有10个，后续由移动设备在线产生15个。DAG里节点的工作负载在[10,100]GHZ·S之间随机取值。节点的输出数据数值上设置为工作负载的0.1倍，单位为MB，输入数据为其所有父节点输出数据之和。

作为优选，S2中所述的泊松分布参数，即任务到达率λ设置为5。

作为优选，S5中所述的图卷积神经网络聚合所经过的神经网络隐藏层结构均相同，都有两层隐藏层，神经元个数都分别是16和8，两个策略网络隐藏层结构也相同，都有三层隐藏层，神经元个数都分别是32、16和8。本发明采用Adam优化器来更新目标网络，激活函数均采用leakyRelu，学习率设置为0.0003，奖励衰减系数γ设置为1。

下面就对比方法的实施和实施结果进行展示：

为了评估提出的方法框架的有效性，使用了另外五种方法(SJF、FIFO、Random、LocalEx、EdgeEx)进行对比。下面简要介绍这五种方法：

(1)SJF:该方法根据短作业优先原则选择要执行的节点，将DAG中节点工作负载之和作为该DAG的工作量，工作量越少越早进行调度，并选择执行该节点完成时间最早的边缘服务器或移动设备作为执行该节点的服务器。

(2)FIFO:该方法根据先进先出的原则选择要执行的节点，并选择执行该节点完成时间最早的边缘服务器或移动设备作为执行该节点的服务器。

(3)LocalEx:该方法总是选择移动设备来执行节点，执行节点的顺序遵循先进先出的原则。

(4)EdgeEx:此缩写表示节点总是卸载到边缘服务器，即除了开始节点和结束节点外，该方法始终选择执行该节点完成时间最早的边缘服务器，执行节点顺序遵循先到先出的原则。

(5)Random：该方法随机选择当次分配的节点与边缘服务器或移动设备作为执行该节点的服务器。

分别就任务到达率、边缘服务器处理器核数、移动设备处理器核数、边缘服务器个数和移动设备个数这几个因素对所有任务平均完成时间的影响进行评估与分析。

为了检验不同任务到达间隔对性能的影响，将任务到达间隔从3变到7个单位时间，增量为1。六种方法得到的平均完成时间如图2所示。从图2中观察到，与其他方法相比，本发明提出的以PG-OMWS实现的方法具有更低的平均完成时间，随着任务到达间隔的增加，平均完成时间也逐渐降低。这是因为随着任务到达间隔的增加，需要同时处理的节点数量减少，从而令平均完成时间减少。

为了研究边缘服务器计算能力对性能的影响，将边缘服务器的处理器核数也就是CPU核数从4核变到8核，增量为1。实验中六种方法得到的平均完成时间如图3所示。可以看出，本发明提出的以PG-OMWS实现的方法可以得到最低的平均完成时间，并且平均完成时间随着CPU核数的增加而逐渐减少。这是因为CPU核数的增加使节点的处理延迟大大缩短，从而令平均完成时间缩短。

为了研究移动设备计算能力的影响，将移动设备的CPU核数从2核变到6核，增量为1。六种方法得到的平均完成时间如图4所示。与其他方法相比，本发明提出的以PG-OMWS实现的方法能得到更低的平均完成时间。随着移动设备CPU核数的增加，平均完成时间逐渐降低。这是因为随着移动设备CPU核数的增长，节点的处理速度大大加快，以使平均完成时间缩短。

为了研究不同数量的边缘服务器对方法性能的影响，令边缘服务器的数量设置为1到5，增量为1。通过六种方法得到的平均完成时间如图5所示。图5的结果表明，在边缘服务器个数变化的情况下，本发明提出的以PG-OMWS实现的方法始终优于其他方法。平均完成时间随着边缘服务器数量的增加而减少。其原因是更多的边缘服务器提供了更多的计算资源，从而降低了平均完成时间。此外，LocalEx方法的曲线是平坦的。这是因为LocalEx方法在本地执行所有节点，与边缘服务器的数量无关。

为了研究移动设备数量对性能的影响，基于不同数量的移动设备进行了实验。令边缘服务器的数量设置为4到8，增量为1。相关结果如图6所示。从图6可以看出，在移动设备个数变化的情况下，本发明提出的以PG-OMWS实现的方法始终优于其他方法。随着移动设备数量的增加，平均完成时间逐渐减少。其原因是，更多的移动设备提供了更多的计算资源，从而缩短了平均完成时间。此外，当移动设备的数量过度增加时，EdgeEx方法不会相应地继续减少。这是因为EdgeEx方法会将大部分节点卸载到边缘服务器，而移动设备的数量与此无关。

Claims

1.一种基于强化学习的在线多工作流调度方法，其特征在于包括以下步骤：

S1.建立系统模型：

移动边缘计算网络由多个移动设备和多个边缘服务器组成，移动设备的处理器频率与核数以f_n和cpu_n表示，边缘服务器的处理器频率与核数以f_m和cpu_m表示，边缘服务器之间的带宽以及移动设备与边缘服务器之间的带宽以B表示；

将每个移动设备在线产生相互独立的任务用有向无环图DAG表征，则每个有向无环图DAG表示为一个二元组G＝(V，E)表示，其中V＝(v₁，...，v_k，...，v_K)表示该DAG里所包含的节点，E＝{e_kl|v_k∈V，v_l∈V}表示节点之间表征连接关系的边，边e_kl表示节点之间的约束依赖关系，即只有在节点v_k执行完毕后，节点v_l才能开始执行；

每一个节点表征为一个三元组

其中W_k表示节点v_k的工作负载，

表示节点v_k的输入数据大小，

表示节点v_k输出数据大小；

S2.建立节点卸载规则：

调度策略在触发调度动作后，选出一个待分配的节点并决定其所要分配的边缘服务器或移动设备；

S3.建立时间线模型：

所述时间线模型记录了所有DAG任务的到达事件以及节点的执行完成事件；

移动设备上任务的到达过程服从参数为λ的泊松分布，即任务达到率为λ，时间线上离当前时刻最近的事件不断被抓取，并根据被抓取的事件更新当前时刻，直到满足触发调度动作的条件；调度动作结束后，则会继续抓取时间线上的事件；

S4.基于强化学习的在线多工作流调度策略：

定义调度问题的状态空间和动作空间，并设计调度问题的奖励函数，使用梯度策略进行训练；

S41.定义状态空间：

智能体观测环境而得的环境状态分为两部分：

O_node＝[E_node，E_DAG，E_globa，T_stay，T_waste，D_i，o，W_node，W_pre] (5)

其中E_node、E_DAG、E_globa分别表示节点、节点所属DAG以及全局级别的嵌入向量；T_stay表示节点所属DAG在环境中的停留时间；T_waste表示节点在移动设备或边缘服务器上执行会等待多长时间以及移动设备或边缘服务器会等待多长时间；D_i，o表示节点的输入与输出数据；W_node表示节点的工作负载；W_pre表示节点的所有父节点的工作负载之和；

在选择所要分配的服务器时，智能体可观测环境状态O_server表示为公式(6)：

O_server＝[st_pre，s_tserver，T_exec，num_child，W_child] (6)

其中st_pre表示该节点的前驱节点数据传输完成的时刻；st_server表示各个服务器的可用时刻；T_exec表示节点在各个服务器上的执行时间；num_child表示节点的所有子节点总数以及所有后代节点总数；W_child表示节点的所有子节点以及所有后代节点的工作负载之和；

S42.定义动作空间：

智能体将上述观测到的状态O_node与O_server分别输入基于梯度策略的两个神经网络，以从待调度的节点里选出当次要调度的节点node，以及从可用的服务器里选出所要给该节点分配的服务器server，由公式(7)表示：

A＝[node，server] (7)

其中A表示定义的动作空间；

S43.定义奖励函数：

即刻奖励设定为当次动作开始到下一个动作触发的这段时间内，所有DAG任务在环境内的存在时间R，由公式(8)(9)表示：

R＝-∑T_stay(G) (8)

T_stay(G)＝min(T_now，T_finish(G))-max(T_pre，T_arrive(G)) (9)

其中T_now表示当前时刻；T_finish(G)表示工作流G的完成时刻；T_pre表示上一个动作执行的时刻；T_arrive(G)表示工作流G的到达时刻；min(T_now，T_finish(G))表示取T_now，T_finish(G)的最小值；max(T_pre，T_arrive(G))表示取T_pre，T_arrive(G)的最大值；

S44.问题形式化：

在线多工作流调度策略基于梯度策略的神经网络模型的主要目标是最大化所有动作的累积奖励，由公式(10)表示：

其中，T表示本次策略实施共有T个动作，k表示第k个动作，R_k表示第k个动作的奖励；

对神经网络参数执行梯度上升来进行参数的学习；

S5.策略实现：

(1)首先初始化环境参数和网络参数，然后智能体观测环境里每个节点的基本特征，送入图卷积神经网络中经过两次聚合得到E_node，根据这些E_node再经过聚合得到E_DAG，根据所有E_DAG再次经过聚合得到E_globa，结合当前环境得到O_node与O_server，选择本次动作所要分配的节点和要给该节点分配的服务器，该节点的完成事件会记录到时间线中，同时计算出该动作的奖励；每次观测到的环境状态、动作以及奖励都会被保存下来；

然后判断触发调度动作的条件是否被满足，满足则继续触发调度动作，不满足，则去抓取时间线上离当前时刻最近的事件并根据该事件更新当前时刻，直到再次满足触发调度动作的条件；

持续进行调度动作与抓取时间线事件的循环，直到环境内所有DAG任务执行完成；

(2)智能体根据之前保存的环境状态、动作以及奖励，使用梯度策略由公式(11)去更新网络参数，得到最终的工作流调度策略：

其中θ表示网络参数，α表示学习率，T表示本次策略实施共有T个动作，k表示第k个动作，π_θ(o_k，a_k)表示以θ为参数的神经网络在环境状态o_k下做出动作a_k的概率，r_k表示基于即刻奖励进一步经过衰减得到的综合奖励，

表示对lnπ_θ(s_k，a_k)r_k求梯度，

表示对所有动作求得的梯度进行累加；

环境中有工作流动态到达时，通过最终的工作流调度策略去选择执行该工作流中节点的边缘服务器或移动设备，作为执行该节点的服务器，依次执行完成工作流中的节点。

2.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：步骤S1所述的移动设备和边缘服务器都有一个自己的等待队列，用于存储将在该移动设备或边缘服务器上执行的节点。

3.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：步骤S2所述的移动设备以节点为单位进行卸载，选择将节点卸载到边缘服务器上或者留在本地执行。

4.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：在步骤S2中只有在当前节点所有前驱节点执行完毕并且数据传输完成后当前节点才可以开始执行。

5.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：在步骤S2中节点v_k在移动设备或边缘服务器上的完成时刻由公式(1)计算：

其中公式(1)中avail表示移动设备或边缘服务器的可用时刻，

表示取

和avail的较大值；公式(2)表示当前节点v_k所有前驱节点执行完成并且输出数据传输完成的时刻，其中

表示节点v_l执行完成的时刻，

表示遍历节点v_k的所有前驱节点v_l，取

与T_tran(v_l，v_k)之和的最大值；公式(3)表示传输数据所需时间，若前驱节点和当前节点处在相同的移动设备或边缘服务器上执行则不进行数据的传输，反之则进行数据传输，其中B表示边缘服务器之间的带宽以及移动设备与边缘服务器之间的带宽，

表示节点v_l输出数据大小；公式(4)表示节点的执行所要花费的时间，其中f_n和cpu_n分别表示移动设备的处理器频率与核数，f_m和cpu_m分别表示边缘服务器的处理器频率与核数。

6.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：步骤S3所述的触发调度动作的条件是有可调度的节点并且边缘服务器或该节点所属的移动设备空闲时。

7.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：在步骤S4中以DAG表征的多工作流在线调度的环境下，与环境交互的智能体采用图卷积神经网络提取所有DAG的特征。

8.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：在步骤S41中通过图卷积神经网络，每个节点会自上而下聚合自己子节点的信息，同时自身作为父节点的子节点也会被其对应的父节点所聚合，得到每个节点的嵌入向量，其包含每个节点关键路径值的信息；

同时基于这些节点的嵌入向量，智能体进一步聚合而成节点所属DAG的嵌入向量，其中包括该DAG的剩余工作量的信息；

再基于这些DAG的嵌入向量，智能体聚合得到全局的嵌入向量，其包含全局的工作量的信息。

9.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：在步骤S43中在多工作流在线调度过程中，每个动作得到一个即刻奖励以评估该动作的好坏，以所有DAG任务的平均完成时间作为最终的长期优化目标。

10.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法，其特征在于：步骤S5所述的环境参数和网络参数：

所述的环境参数主要包括执行队列长度、移动设备和边缘服务器之间的带宽以及在环境内和即将到达环境的DAG任务结构；

所述的网络参数主要包括两个策略网络以及图卷积神经网络中的网络参数。