CN116880923A

CN116880923A - 一种基于多智能体强化学习的动态任务卸载方法

Info

Publication number: CN116880923A
Application number: CN202310887232.2A
Authority: CN
Inventors: 石文孝; 石玮楠; 刘思呈; 张佳栋
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-13

Abstract

本发明提供了一种基于多智能体强化学习的动态任务卸载方法，包括如下步骤：步骤一、建立动态动态移动边缘计算网络模型；步骤二、建立本地计算模型和部分卸载计算模型；步骤三、构建以最小化卸载成本为目标的优化问题；步骤四、建立多智能体深度延时确定性策略梯度模型；步骤五、模型的训练以及优化问题的求解；本方法考虑了移动设备的时延和能耗，将动态卸载和资源分配问题被转化为最小化平均加权成本问题，所设计的模型采用中心化训练、分布式执行的架构，在任务卸载的约束条件下，通过探索和训练不断优化卸载策略，实现移动设备长期平均加权成本的最小化。

Description

一种基于多智能体强化学习的动态任务卸载方法

技术领域

本发明涉及移动边缘计算和深度强化学习技术领域，具体涉及一种基于多智能体强化学习的动态任务卸载方法。

背景技术

移动边缘计算(Mobile Edge Computing,简称MEC)，是一种将原来置于云计算平台的功能和服务“下放”至移动网络的边缘的一种新兴的技术，能够在移动边缘网络中提供终端所需要的通信、存储和计算等资源，从而使用户可以获得高带宽与超低时延的高质量网络功能服务。然而，基于传统优化理论的解决方案通常需要经过复杂迭代，只能得到近似最优解。此外，任务的时延和能耗要求以及移动网络状态往往都是动态变化的，因此具有自适应性的任务卸载策略的研究十分迫切。为了应对以上挑战，目前有大量研究者应用基于强化学习或深度强化学习的方法解决相应问题。

深度强化学习(Deep Reinforcement Learning,简称DRL)是一种将深度学习和强化学习两种新兴技术融合的一种新技术，借助深度神经网络强大的表征能力去拟合强化学习的任何组成部分，包括状态价值函数﹑动作价值函数﹑策略﹑模型等，将深度神经网络中的权重作为拟合参数，通过不断与环境的交互最终得到特定任务的最优策略并使得任务累计期望收益最大化。

由于MEC网络模型中移动设备在不断运动，任务的时延和能耗要求也处于动态变化中，现有的基于单智能体的DRL算法在求解动态任务卸载和资源分配问题时难以收敛到最优解。此外，目前对模型训练过程中的经验回放机制研究较少，采用传统的均匀采样方式进行模型训练会造成大量高价值经验样本的浪费，导致难以获得最优的卸载策略，阻碍了DRL算法在MEC卸载领域的发展和应用。

发明内容

为了克服现有技术中存在的问题，本发明提供了一种基于多智能体强化学习的动态任务卸载方法。

本发明是通过如下技术方案实现的：

一种基于多智能体强化学习的动态任务卸载方法，通过建立任务的本地计算模型和部分卸载计算模型实现对移动设备卸载状态的描述，考虑移动设备与边缘服务器之间的距离、任务大小、计算强度、最大容忍时延以及最大容忍能耗值多个影响因素设定约束条件，在约束条件下，设计了多智能体深度延时确定性策略梯度模型求解多用户下的任务卸载划分和计算资源分配问题，本方法的具体步骤如下：

步骤一：建立动态移动边缘计算网络模型

所建立的动态移动边缘计算网络包括一个配备大规模多输入多输出天线阵列的基站、一个边缘服务器和一组移动设备；其中，移动设备的数量和分布情况是动态变化的，移动设备用集合表示，其中M为所建立的动态移动边缘计算网络模型内有卸载需求的移动设备的总数量，MDi为编号为i的移动设备，i∈[1,2,...,M]；将系统时间划为T个时隙，时隙索引为/>在时隙t内，集合/>内的各移动设备生成一个时延和能耗敏感型任务，该任务的参数组成任务参数集Φ_i＝{X_i(t),B_i(t),C_i(t),D_i(t),E_i(t)}，其中X_i(t)为移动设备MDi与边缘服务器之间的距离，B_i(t)为移动设备MDi的任务大小，C_i(t)该任务的计算强度，D_i(t)为最大容忍时延，E_i(t)为最大容忍能耗；

步骤二：建立本地计算模型和部分卸载计算模型

将每个生成的时延和能耗敏感型任务划分为两部分：本地执行部分和卸载部分，定义卸载率表示时隙t内移动设备MDi的任务卸载比例，任务的本地执行部分大小计算为/>因此，时隙t内移动设备MDi的本地执行时延/>表示为：

其中，f_i ^loc,t为时隙t内移动设备MDi的本地计算能力；时隙t内移动设备MDi的本地执行能耗表示为：

其中，κ₀为能量因子，在本方法中取值为10^-28；移动设备MDi卸载到边缘服务器上的任务大小为根据香农定理，移动设备MDi与边缘服务器之间的上行链路的传输时延/>表示为：

其中，W为上行链路的带宽，在本方法中取值为1MHz，P_i ^t为在时隙t内的上行传输功率，在本方法中取值为23dBm，σ²为噪声功率，在本方法中取值为-114dBm，h_i(t)＝|g_i|²[X_i(t)]^-α为移动设备MDi的上行传输信道增益，其中g_i为小尺度衰落系数，α为路径损耗因子，在本方法中取值为3.8；时隙t内移动设备MDi的卸载计算时延/>表示为：

其中，f_i ^ser,t表示在时隙t内边缘服务器分配给移动设备MDi的计算资源；

移动设备MDi的卸载时延由上行传输时延、排队等待时延、处理时延和下行传输时延四个部分构成，由于下行链路传输的计算结果数据量远小于卸载数据量，因此忽略下行传输延迟，此外，假设系统不发生拥塞，则移动设备MDi的卸载计算时延表示为：

移动设备MDi的卸载能耗由上行链路能耗和卸载计算能耗两个部分组成，由于边缘服务器直接通过电网供电，因此本方法不考虑卸载计算能耗，所以移动设备MDi的卸载能耗表示为：/>

各移动设备生成的时延和能耗敏感型任务能够由移动设备和边缘服务器并行处理，因此移动设备MDi的任务执行时延为本地执行时延和卸载计算时延/>之间的最大值，即/>任务执行的总能耗/>计算为：/>

步骤三：构建以最小化卸载成本为目标的优化问题

本方法是研究最小化各移动设备的时延和能耗加权和的卸载方法，因此，定义移动设备MDi的卸载成本函数为：

其中，ω₁表示时延权重参数，ω₂表示能耗权重参数，ω₁和ω₂的大小根据对任务的时延和能耗敏感程度的要求设置，本方法中假设对任务的时延和能耗敏感程度的要求相同，即ω₁与ω₂的取值均为0.5；因此，最小化各移动设备的时延和能耗加权和的优化问题即转化为最小化任务的长期平均加权成本：

本方法定义边缘服务器的最大计算能力为F_max，任务卸载的约束条件包括：

约束1：

约束2：

约束3：

约束4：

其中，约束1限制任务的卸载率为0到1之间的连续变量，/>表示移动设备MDi的任务全部由本地执行，/>表示移动设备MDi的任务由本地和边缘服务器共同执行，/>表示移动设备MDi的任务全部卸载到边缘服务器进行计算；

约束2限制分配给各移动设备的计算资源总和不超过服务器的最大计算能力F_max；

约束3限制任务完成时间不超过最大容忍时延D_i(t)；

约束4限制移动设备MDi的总能量消耗不超过最大容忍能耗E_i(t)；

步骤四：建立多智能体深度延时确定性策略梯度模型

多智能体深度延时确定性策略梯度模型为一种中心化训练、分布式执行的多智能体强化学习模型，包括：状态空间S、动作空间A、全局奖励函数R^t、行动网络、评价网络、延迟训练模块和经验缓存池；

状态空间S包括：

其中，S^t∈S，在时隙t内，移动设备MDi获取的本地状态包括移动设备MDi与边缘服务器之间的距离X_i(t)、任务大小B_i(t)、计算强度C_i(t)、最大容忍时延D_i(t)以及最大容忍能耗值E_i(t)，即/>

动作空间A包括：

其中，A^t∈A，定义时隙t内所有卸载任务的决策向量α^t为计算资源分配决策向量f^ser,t为/>定义时隙t内移动设备MDi的卸载动作/>为/>

全局奖励函数R^t：

如果移动设备MDi的延迟和能量消耗D_i(t)满足约束/>且/>则该任务成功卸载；当/>或/>视为该任务执行失败；移动设备MDi执行卸载动作后的当前奖励函数/>为：

其中，表示移动设备MDi的任务完全本地执行时的成本，将时隙t内所有移动设备的当前奖励函数/>的平均值定义为全局奖励函数R^t：/>

行动网络：行动网络部署在各移动设备上，包括策略行动网络和目标行动网络，二者结构相同，各包含两个全连接层，神经元数目分别为400和300。策略行动网络的权重参数为θ_μ，目标行动网络的权重参数为θ_μ′；行动网络直接与环境进行交互，输入为移动设备MD i获取的本地状态输出为移动设备MD i的卸载动作其中/>为确定性策略函数，ψ(t)为噪声函数，用于探索动作空间；

评价网络：评价网络部署在边缘服务器上，包括当前评价网络和目标评价网络，二者结构相同，各包含两个全连接层，神经元数目分别为400和300。当前评价网络的权重参数为θ_Q，目标评价网络的权重参数为θ_Q′，通过输入当前时刻的全局状态和所有移动设备的卸载动作/>得到动作价值函数/>

延迟训练模块：同步训练行动网络和评价网络会导致训练过程不稳定，但是当固定行动网络时，评价网络往往能够收敛到最优；因此多智能体深度延时确定性策略梯度的模型以较低的频率更新行动网络，以较高的频率更新评价网络，本方法中每更新两次评价网络后更新一次行动网络；

经验缓存池：储存与环境交互得到的经验样本(S^t，A^t，R^t，S^t+1)供给行动网络和评价网络更新权重参数，本方法中设置经验缓存池样本容量经验缓存池内的经验样本遵循先入先出原则，以保证更新采用的数据主要为当前与环境交互得到的数据；

步骤五：模型的训练以及优化问题的求解

多智能体深度延时确定性策略梯度模型的训练包括以下过程：

过程(1)：初始化参数

初始化行动网络与评价网络，其中行动网络的学习率为0.0001，评价网络的学习率为0.001。初始化经验缓存池，初始化噪声函数ψ(t)，初始化权重参数θ_μ与θ_Q并将θ_μ与θ_Q分别传入行动目标网络和评价目标网络，即θ_μ′＝θ_μ，θ_Q′＝θ_Q；

过程(2)：获取卸载动作

在时隙t内，部署在移动设备MDi上的行动网络接收本地观测状态根据/>得到移动设备MDi的卸载动作/>随后上传卸载动作到边缘服务器端，边缘服务器根据卸载动作执行卸载计算，获得全局奖励函数R^t以及下一个时刻的状态S^t+1；

过程(3)：评估卸载动作

在时隙t内，等待所有行动网络将卸载动作传入边缘服务器端后，部署在边缘服务器上的评价网络根据动作价值函数对所有卸载动作进行评估；

过程(4)：更新经验缓存池

在时隙t内，将数据(S^t，A^t，R^t，S^t+1)打包为经验四元组存储到经验缓存池中，经验缓存池内的经验样本遵循先入先出原则，以保证经验缓存池内样本与当前训练状态具有较强相关性；

经验样本的优先级值ρ_t由当前奖励函数衡量，即满足：其中ε为一个很小的正数，用于防止经验样本的优先级值为0而产生的过拟合现象；

过程(5)：经验样本抽样

定义φ为被抽取的经验样本集合，样本数量为m，当经验样本被抽取时，为了校正由基于奖励函数的优先采样机制引起的训练偏差，设计了重要性采样权重即满足：

其中，l为退火变量，n为经验缓存池中经验样本的实际数量，j表示经验缓存池中的第j条经验样本，j≤n，/>为第j条经验样本的采样概率，即满足：

其中ι是一个权衡因子，用来控制均匀采样和贪婪策略采样的偏好，当ι接近0时，采样策略偏向于均匀采样，当ι接近1时，采样策略偏向于贪婪策略采样；

过程(6)：更新网络参数

对于网络参数更新，采用延迟策略更新的技巧，即评价网络更新多次后，再更新行动网络，从而保证行动网络的训练更加稳定；

动作价值函数的优化目标是最小化贝尔曼残差，根据获得的经验样本集合φ，首先利用目标评价网络生成的动作价值函数/>来计算目标值y_j：

其中γ∈[0,1]为折扣因子，用来折扣未来时刻反馈对当前累积反馈的影响程度，之所以小于1是因为未来对现在的影响依次递减，并且数理上保证累加收敛；

然后利用目标值y_j与当前评价网络生成的动作价值函数计算均方差损失函数L(s_t,a_t,θ_Q)：

通过神经网络的梯度反向传播来更新行动网络的参数，因此，评价网络的累计权重更新表示为：

行动网络使总回报期望最大化，并以动作价值函数逼近总回报，行动网络利用梯度上升法更新策略，逼近最优解，损失函数J(s_t,a_t,θ_μ)计算为：

行动网络的累计权重更新表示为：

对于目标网络的网络参数更新采用软更新的方式，它可以使算法收敛更加可靠，如果将目标网络的参数完全更新，当本次训练效果较差时，会导致更新的网络没有原来的网络好，采用软更新的方法有助于防止这种情况的发生：

θ_μ′←λθ_μ+(1-λ)θ_μ′

θ_Q′←λθ_Q+(1-λ)θ_Q′

其中λ为更新率，本方法中设置为0.001；

对于步骤五，当过程(1)执行完毕后，不断重复过程(2)至过程(5)，直至训练过程中获得的全局奖励函数R^t不发生明显变化，此时行动网络与评价网络已经收敛，终止训练；此时，最优的动态任务卸载策略已经生成，所建立的动态移动边缘计算网络内的各移动设备在获取本地状态的情况下，能够根据行动网络提供的动态任务卸载策略进行任务卸载，从而使各移动设备的时延和能耗加权和最小化。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于多智能体强化学习的动态任务卸载方法，通过考虑移动设备与边缘服务器之间的距离、任务大小、计算强度、最大容忍时延以及最大容忍能耗值等多个影响因素，提出了以最小化系统的长期卸载成本为目标的优化问题。基于行动-评价框架，提出了多智能体深度延时确定性策略梯度模型，通过模型与环境之间的不断交互更新网络参数，最终得到最优的动态卸载和计算资源分配策略。

本发明提供了一种基于多智能体强化学习的动态任务卸载方法，利用多智能体强化学习技术提出了多智能体深度延时确定性策略梯度模型用来求解多用户下的任务卸载划分和计算资源分配问题，通过在移动设备上部署行动网络为每个任务指定卸载和计算资源分配策略，并且在边缘服务器上部署评价网络对生成的策略进行评价，从而在满足任务的时延和能耗敏感要求的条件下实现了卸载成本的最小化。

附图说明

下面结合附图对本发明作进一步的说明：图1为本发明提供的一种基于多智能体强化学习的动态任务卸载方法的流程示意图。

图2为本发明具体实施方式提供的一种基于多智能体强化学习的动态任务卸载方法的系统模型图。

图3为多智能体深度延时确定性策略梯度模型的框架图。

具体实施方式

下面结合附图对本发明作详细的描述：

本发明提供了一种基于多智能体强化学习的动态任务卸载方法，如图1所示，通过建立任务的本地计算模型和部分卸载计算模型实现对移动设备卸载状态的描述，考虑移动设备与边缘服务器之间的距离、任务大小、计算强度、最大容忍时延以及最大容忍能耗值多个影响因素设定约束条件，在约束条件下，设计了多智能体深度延时确定性策略梯度模型求解多用户下的任务卸载划分和计算资源分配问题，本方法的具体步骤如下：

步骤一：建立动态移动边缘计算网络模型

图2展示了本发明的系统模型，包括一个配备大规模多输入多输出天线阵列的基站、一个边缘服务器和一组移动设备。其中，移动设备的数量和分布情况是动态变化的，移动设备用集合表示，其中M为所建立的动态移动边缘计算网络模型内有卸载需求的移动设备的总数量，MDi为编号为i的移动设备，i∈[1,2,...,M]；本方法考虑一个具有离散时间的系统模型，其中系统时间被划为T个时隙，时隙索引为在时隙t内，集合/>内的各移动设备生成一个时延和能耗敏感型任务，该任务的属性由任务参数集Φ_i＝{X_i(t),B_i(t),C_i(t),D_i(t),E_i(t)}进行描述，其中X_i(t)为移动设备MDi与边缘服务器之间的距离，B_i(t)为移动设备MDi的任务大小，C_i(t)该任务的计算强度，D_i(t)为最大容忍时延，E_i(t)为最大容忍能耗；

步骤二：建立本地计算模型和部分卸载计算模型

其中，W为上行链路的带宽，在本方法中取值为1MHz，为在时隙t内的上行传输功率，在本方法中取值为23dBm，σ²为噪声功率，在本方法中取值为-114dBm，h_i(t)＝|g_i|²[X_i(t)]^-α为移动设备MDi的上行传输信道增益，其中g_i为小尺度衰落系数，/>α为路径损耗因子，在本方法中取值为3.8；时隙t内移动设备MDi的卸载计算时延/>表示为：

移动设备MDi的卸载能耗由上行链路能耗和卸载计算能耗两个部分组成，由于边缘服务器直接通过电网供电，因此在本方法不考虑卸载计算能耗，所以移动设备MDi的卸载能耗表示为：/>

步骤三：构建以最小化卸载成本为目标的优化问题

在所述的动态移动边缘网络模型中，由于边缘服务器的计算能力有限，本方法定义边缘服务器的最大计算能力为F_max，任务卸载的约束条件包括：

约束1：

约束2：

约束3：

约束4：

约束2限制分配给各移动设备的计算资源总和不超过边缘服务器的最大计算能力F_max；

约束3限制任务完成时间不超过最大容忍时延D_i(t)；

步骤四：建立多智能体深度延时确定性策略梯度模型

图3展示了多智能体深度延时确定性策略梯度模型的框架，所述的模型为中心化训练、分布式执行的多智能体强化学习模型，包括：状态空间S、动作空间A、全局奖励函数R^t、行动网络、评价网络、延迟训练模块和经验缓存池。其中，为边缘服务器部署一个评价网络，为每个移动设备部署一个行动网络，部署在各移动设备上的行动网络为完全合作关系，即它们的目标一致，只有当行动网络之间通力合作才能获得更好的奖励。

状态空间S包括：

动作空间A包括：

全局奖励函数R^t：

如果移动设备MDi的延迟和能量消耗D_i(t)满足约束/>且/>则该任务成功卸载；否则，当/>或/>视为该任务执行失败；移动设备MDi执行卸载动作后的当前奖励函数/>为：

评价网络：评价网络部署在边缘服务器上，包括当前评价网络和目标评价网络，二者结构相同，各包含两个全连接层，神经元数目分别为400和300。当前评价网络的权重参数为θ_Q，目标评价网络的权重参数为θ_Q′，通过输入当前时刻的全局状态和所有移动设备的卸载动作/>得到动作价值函数/>部署在各移动设备上的行动网络可以根据动作价值函数/>不断更新权重参数θ_μ从而改进卸载策略；

步骤五：模型的训练以及优化问题的求解

过程(1)：初始化参数

过程(2)：获取卸载动作

过程(3)：评估卸载动作

过程(4)：更新经验缓存池

不同于传统的均匀采样机制，本方法设计了基于奖励函数的优先采样机制以提高对高价值经验的学习效率；为了实现这种重要性采样机制，需要为每条存入缓存池内的经验样本计算采样优先级值ρ_t和重要性采样权重其中，经验样本的优先级值ρ_t由当前奖励函数/>衡量，即满足：ρ_t＝|r(s^t,a^t)|+ε；其中ε为一个很小的正数，用于防止经验样本的优先级值为0而产生的过拟合现象；

过程(5)：经验样本抽样

其中γ是一个权衡因子，用来控制均匀采样和贪婪策略采样的偏好，当γ接近0时，采样策略偏向于均匀采样，当γ接近1时，采样策略偏向于贪婪策略采样；

过程(6)：更新网络参数

其中γ∈[0,1]为折扣因子，用来折扣未来时刻反馈对当前累积反馈的影响程度，之所以小于1是因为未来对现在的影响依次递减，并且数理上保证累加收敛。

行动网络的累计权重更新表示为：

θ_μ′←λθ_μ+(1-λ)θ_μ′

θ_Q′←λθ_Q+(1-λ)θ_Q′

其中λ为更新率，本方法中设置为0.001。

Claims

1.一种基于多智能体强化学习的动态任务卸载方法，通过建立任务的本地计算模型和部分卸载计算模型实现对移动设备卸载状态的描述，考虑移动设备与边缘服务器之间的距离、任务大小、计算强度、最大容忍时延以及最大容忍能耗值多个影响因素设定约束条件，在约束条件下，设计了多智能体深度延时确定性策略梯度模型求解多用户下的任务卸载划分和计算资源分配问题，其特征在于，本方法的具体步骤如下：

步骤一：建立动态移动边缘计算网络模型

所建立的动态移动边缘计算网络包括一个配备大规模多输入多输出天线阵列的基站、一个边缘服务器和一组移动设备；其中，移动设备的数量和分布情况是动态变化的，移动设备用集合表示，其中M为所建立的动态移动边缘计算网络模型内有卸载需求的移动设备的总数量，MD i为编号为i的移动设备，i∈[1,2,...,M]；将系统时间划为T个时隙，时隙索引为/>在时隙t内，集合/>内的各移动设备生成一个时延和能耗敏感型任务，该任务的参数组成任务参数集Φ_i＝{X_i(t),B_i(t),C_i(t),D_i(t),E_i(t)}，其中X_i(t)为移动设备MD i与边缘服务器之间的距离，B_i(t)为移动设备MD i的任务大小，C_i(t)该任务的计算强度，D_i(t)为最大容忍时延，E_i(t)为最大容忍能耗；

步骤二：建立本地计算模型和部分卸载计算模型

将每个生成的时延和能耗敏感型任务划分为两部分：本地执行部分和卸载部分，定义卸载率表示时隙t内移动设备MD i的任务卸载比例，任务的本地执行部分大小计算为/>因此，时隙t内移动设备MD i的本地执行时延/>表示为：

其中，f_i ^loc,t为时隙t内移动设备MD i的本地计算能力；时隙t内移动设备MD i的本地执行能耗表示为：

其中，κ₀为能量因子，在本方法中取值为10^-28；移动设备MD i卸载到边缘服务器上的任务大小为根据香农定理，移动设备MD i与边缘服务器之间的上行链路的传输时延/>表示为：

其中，W为上行链路的带宽，在本方法中取值为1MHz，P_i ^t为在时隙t内的上行传输功率，在本方法中取值为23dBm，σ²为噪声功率，在本方法中取值为-114dBm，h_i(t)＝|g_i|²[X_i(t)]^-α为移动设备MD i的上行传输信道增益，其中g_i为小尺度衰落系数，α为路径损耗因子，在本方法中取值为3.8；时隙t内移动设备MD i的卸载计算时延/>表示为：

其中，f_i ^ser,t表示在时隙t内边缘服务器分配给移动设备MD i的计算资源；

移动设备MD i的卸载时延由上行传输时延、排队等待时延、处理时延和下行传输时延四个部分构成，由于下行链路传输的计算结果数据量远小于卸载数据量，因此忽略下行传输延迟，此外，假设系统不发生拥塞，则移动设备MD i的卸载计算时延表示为：

移动设备MD i的卸载能耗由上行链路能耗和卸载计算能耗两个部分组成，由于边缘服务器直接通过电网供电，因此本方法不考虑卸载计算能耗，所以移动设备MD i的卸载能耗表示为：/>

各移动设备生成的时延和能耗敏感型任务能够由移动设备和边缘服务器并行处理，因此移动设备MD i的任务执行时延为本地执行时延和卸载计算时延/>之间的最大值，即/>任务执行的总能耗/>计算为：/>

步骤三：构建以最小化卸载成本为目标的优化问题

本方法是研究最小化各移动设备的时延和能耗加权和的卸载方法，因此，定义移动设备MD i的卸载成本函数为：

约束1：

约束2：

约束3：

约束4：

其中，约束1限制任务的卸载率为0到1之间的连续变量，/>表示移动设备MD i的任务全部由本地执行，/>表示移动设备MD i的任务由本地和边缘服务器共同执行，表示移动设备MD i的任务全部卸载到边缘服务器进行计算；

约束3限制任务完成时间不超过最大容忍时延D_i(t)；

约束4限制移动设备MD i的总能量消耗不超过最大容忍能耗E_i(t)；

步骤四：建立多智能体深度延时确定性策略梯度模型

状态空间S包括：

其中，S^t∈S，在时隙t内，移动设备MD i获取的本地状态包括移动设备MD i与边缘服务器之间的距离X_i(t)、任务大小B_i(t)、计算强度C_i(t)、最大容忍时延D_i(t)以及最大容忍能耗值E_i(t)，即/>

动作空间A包括：

全局奖励函数R^t：

如果移动设备MD i的延迟和能量消耗D_i(t)满足约束/>且/>则该任务成功卸载；当/>或/>视为该任务执行失败；移动设备MD i执行卸载动作后的当前奖励函数/>为：

其中，表示移动设备MD i的任务完全本地执行时的成本，将时隙t内所有移动设备的当前奖励函数/>的平均值定义为全局奖励函数R^t：/>

步骤五：模型的训练以及优化问题的求解

过程(1)：初始化参数

初始化行动网络与评价网络，其中行动网络的学习率为0.0001，评价网络的学习率为0.001。初始化经验缓存池，初始化噪声函数ψ(t)，初始化权重参数θ_μ与θ_Q并将θ_μ与θ_Q分别传入行动目标网络和评价目标网络，即θ_μ′＝θ_μ，θ_Q＝θ_Q；

过程(2)：获取卸载动作

在时隙t内，部署在移动设备MD i上的行动网络接收本地观测状态根据/>得到移动设备MD i的卸载动作/>随后上传卸载动作到边缘服务器端，边缘服务器根据卸载动作执行卸载计算，获得全局奖励函数R^t以及下一个时刻的状态S^t+1；

过程(3)：评估卸载动作

过程(4)：更新经验缓存池

经验样本的优先级值ρ_t由当前奖励函数衡量，即满足：/>其中ε为一个很小的正数，用于防止经验样本的优先级值为0而产生的过拟合现象；

过程(5)：经验样本抽样

过程(6)：更新网络参数

行动网络的累计权重更新表示为：

θ_μ′←λθ_μ+(1-λ)θ_μ′

θ_Q′←λθ_Q+(1-λ)θ_Q′

其中λ为更新率，本方法中设置为0.001；