CN117149434A

CN117149434A - 基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法

Info

Publication number: CN117149434A
Application number: CN202311194533.3A
Authority: CN
Inventors: 季一木; 邱华杰; 李玲娟; 刘尚东; 黄昕; 梁伟; 孙朕
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-01

Abstract

本发明提供一种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，通过建立三层多无人机辅助的MEC计算卸载系统；使用时延与能耗作为度量网络性能的两个核心指标，构建多无人机辅助MEC系统WD计算卸载模型的优化问题；将计算卸载模型的优化问题解释为多智能体的马尔可夫决策过程；定义状态空间、动作空间和奖励函数；基于双重延迟深度确定性策略梯度算法与云边协同，对计算卸载模型进行分阶段模型训练，得到训练后的计算卸载模型；得到无人机在高维连续动作空间中最佳卸载决策；该方法收敛速度快，能够有效降低计算时延和能耗，能够使无人机在高维连续动作空间中更快地得到最佳卸载决策。

Description

基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法

技术领域

本发明涉及一种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，属于计算机技术领域。

背景技术

在智能电力系统中，由于无线传感器设备WD与智能监控设备工作性质的特殊性，其通常具有计算能力受限的特点，且只拥有较低的电池电量。因此，这些计算密集型任务对电力终端设备，尤其是对智能电力设备提出了巨大挑战。为解决上述问题，引入了多址边缘计算(MEC)作为一种新的计算卸载解决方案。MEC利用网络边缘节点(蜂窝基站或Wifi接入点)作为移动设备与中心云端之间的媒介，来提供灵活高效的计算服务。MEC可以根据移动设备的计算要求，将移动中终端设备上的部分计算密集型任务分配到合适的边缘计算节点，进而实现对计算卸载。

然而，对于智能电网无线终端设备来说，获得高效、可靠的边缘计算服务仍存在较大难度，其原因在于：一方面，智能电网中无线终端设施的部署表现出空间位置的多样性和复杂性；另一方面，智能电网场景下，可能存在着大量密集型任务同时需要处理的情况。幸运地，无人机已被应用在移动边缘计算场景下的计算迁移决策过程中，通过对目标区域内无线设备的信息收集，作为“空中的MEC服务器”为用户提供计算服务。

但目前的无人机辅助计算迁移方法，收敛速度较慢，计算时延和能耗较高，无人机在高维连续动作空间中得到最佳卸载决策的速度较慢。

上述问题是在基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移过程中应当予以考虑并解决的问题。

发明内容

本发明的目的是提供一种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法解决现有技术中存在的收敛速度较慢，计算时延和能耗较高，无人机在高维连续动作空间中得到最佳卸载决策的速度有待提高的问题。

本发明的技术解决方案是：

一种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，包括以下步骤，

S1、建立三层多无人机辅助的MEC计算卸载系统；

S2、使用时延与能耗作为度量网络性能的两个核心指标，构建多无人机辅助MEC系统WD计算卸载模型的优化问题；

S3、将计算卸载模型的优化问题解释为多智能体的马尔可夫决策过程；

S4、定义状态空间、动作空间和奖励函数；

S5、基于双重延迟深度确定性策略梯度算法与云边协同，对计算卸载模型进行分阶段模型训练，得到训练后的计算卸载模型；

S6、将无人机的当前状态信息输入训练后的计算卸载模型，得到无人机在高维连续动作空间中最佳卸载决策。

进一步地，步骤S1中，三层多无人机辅助的MEC计算卸载系统包括M个无线电设备WD、N个携带MEC服务器的无人机与中心云，

无线电设备WD：用于感知生成计算任务；

携带MEC服务器的无人机：为无线电设备WD提供计算卸载服务；

中心云：存储所有携带MEC服务器的无人机的基本信息包括无人机的位置、飞行方向、剩余电量、接受数据的功率、接受的计算任务大小信息，同时使用共享经验池保存所有携带MEC服务器的无人机在探索环境过程中产生的经验，用于每个携带MEC服务器的无人机在学习探索的过程中抽取复用这些公共的经验样本；在训练过程中，辅助携带MEC服务器的无人机之间进行探索经验的共享，以及帮助各无人机训练计算卸载模型。

进一步地，步骤S2中，构建多无人机辅助MEC系统WD计算卸载模型的优化问题为：

其中，U_i,j(total)为总成本，表示在时隙t,t∈[0,T]内UAV_i与WD_j的二机制服务关系，X_max,Y_max,Z_max表示三维空间的上边界；/>被定义为WD_j卸载任务到UAV_i的卸载比率，相应的，/>表示在WD_j本地进行计算的任务比率；/>表示在时隙t内UAV_i与WD_j之间是否由信号障碍物遮挡，值为1表示有遮挡，0表示没有遮挡；l^t表示所有无人机在三维空间中时隙t内的起始位置集合，单个UAV_i的位置用/>表示；P_i表示UAV_i的数据接收功率，P_max表示无人机能提供的接收功率上限。

进一步地，步骤S3中，将计算卸载模型解释为多智能体的马尔可夫决策过程，具体为，

将一个多智能体的马尔可夫决策过程MDP定义为四元组<U,S,A_n,P,R_n>，其中，U是由环境内所有智能体组成的集合，S为所有智能体的状态空间，A_n,n∈U是智能体的动作空间，P是一个状态转移模型，其中，P(s_t+1|s_t,a_t)表示状态s_t∈S中选择动作a_t∈A_n转移到状态s_t+1∈S的概率，R_n是奖励函数，其中，R_n(s,a)表示智能体n在状态s中采取行动a后，从环境中得到的奖励，使用状态转移模型和奖励函数来描述计算卸载环境。

进一步地，步骤S4中，定义状态空间、动作空间和奖励函数，具体为，

S41、定义状态空间，在构建的系统中，状态空间S＝{S_UAVs,S_WDs}由两个状态子集构成，其中，S_UAVs由当前时隙t内所有UAV的3维坐标位置、每个UAV所携带的电池剩余电量以及系统中可分配的剩余带宽总数组成，即/>其中，l^t表示无人机UAV_i在三维空间中，时隙t内的起始位置，/>表示每个UAV_i在时隙t开始时刻所携带的电池剩余电量，S_WDs定义为/>其中，/>表示无线电设备WD_j的位置信息，/>表示无线电设备WD_j任务的数据量大小，/>代表无线电设备WD_j与无人机UAV_i之间信道的遮挡情况；

S42、定义动作空间，每个无人机UAV_i根据观测到的系统状态与卸载策略在时隙t内移动，无人机UAV_i选择的动作A_i由所选服务的目标WD序列号、该WD对应任务的卸载比率、UAV_i的飞行角度、飞行速度，因此，动作空间的定义由下式给出：

其中，id_wd为无线电设备的ID编号，表示WD_j和UAV_i之间对应任务的卸载比率、分别表示UAV_i的飞行角度、飞行速度；

根据给出的优化问题中的约束，状态空间中每个元素的取值范围定义如下：其中，θ^x,θ^y,θ^z分别表示无人机飞行角度在三维空间坐标上的分量，无人机所能飞行的最大速度使用v_max表示；

S43、定义奖励函数，具体为，引入惩罚项且/>的绝对值大于系统总成本，将奖励函数定义如下：

其中，U_i,j(total)表示UAV_i辅助WD_j计算卸载过程中的总成本。

进一步地，步骤S5中，基于双重延迟深度确定性策略梯度算法与云边协同，对计算卸载模型进行分阶段模型训练，得到训练后的计算卸载模型，具体为，

S51、基于双重延迟深度确定性策略梯度算法对计算卸载模型进行第一阶段的分布式训练阶段；

S52、进行第二阶段的云边协同训练阶段后，得到训练后的计算卸载模型。

进一步地，步骤S51中，基于双重延迟深度确定性策略梯度算法对网络模型进行第一阶段的分布式训练阶段，具体为，

S511、对经验回放池中的经验进行优先级标识，无人机UAV_i根据所处的环境生成自己的经验，添加至共享的经验池中，并给该经验初始化一个优先级，一条经验表示为在之后的探索过程中，当每个无人机UAV_i的Critic网络在批量抽取经验进行学习时，会根据优先级从共享的经验池中抽取经验；同时在Critic网络计算出动作价值Q后，同步更新经验池中的优先级；

S512、无人机UAV_i各自进行探索，使用各自的网络参数与共享的经验回放池，每个无人机UAV_i仅基于自己的状态信息作为Actor网络的输入，并得到Actor网络输出的策略，无人机UAV_i所执行的策略/>近似为包含Actor网络参数/>的函数，定义如下：

S513、同时在输出的策略的基础上增加噪声ε，即无人机UAV_i最终采取的与环境交互的动作由下式表示：

其中，代表随机扰动噪声服从均值为0，标准差为/>的正态分布，最后使用clip函数将噪声控制在最小值o₁与最大值o₂的给定范围内；

S514、为评估输出策略的价值，将和/>输入Critic_0网络，得到动作价值来评估Actor网络输出动作的好坏，Actor网络的目的就是输出尽可能使动作价值更高的动作，因此，将/>作为Loss函数，来修正Actor网络的参数，因此，Actor网络的损失梯度由下式表示：

其中，K为梯度计算过程中的样本数量，为Q函数关于动作a的梯度，表示在状态信息/>下采取/>的梯度，/>为使用Actor网络π_θ，在状态信息/>下采取的动作，也即动作a；

S515、使用两个TargetCritic网络，分别得到动作价值，选择较小的动作价值来计算动作价值后，计算Loss值来对两个TargetCritic网络进行梯度反向传播，并对网络参数进行修正；

S516、在周期性更新Targetnet0网络和Targetnet1网络的参数时，使用软更新的方式，每次只更新一部分参数，即：

θ'_i←τθ_i+(1-τ)θ'_i

π′_i←τπ_i+(1-τ)π′_i

ω′_i←τω_i+(1-τ)ω′_i

其中，τ是更新系数；θ_i表示Actor网络的Valuenet网络在第i次更新时的参数，θ'_i表示Actor网络的Targetnet网络在第i次更新后新得到的参数；π_i表示Critic_0网络的Valuenet网络在第i次更新时的参数，π'_i表示Critic_0网络的Targetnet网络在第i次更新后新得到的参数；ω_i表示Critic_1网络的Valuenet网络在第i次更新时的参数，ω'_i表示Critic_1网络的Targetnet网络在第i次更新后新得到的参数；

S517、重复步骤S512-S516，直至达到设定的训练次数。

进一步地，步骤S515中，使用两个TargetCritic网络，分别得到动作价值，选择较小的动作价值来计算动作价值后，计算Loss值来对两个TargetCritic网络进行梯度反向传播，并对网络参数进行修正，具体为，使用Critic_0网络和Critic_1网络来分别得到动作价值和/>然后选择较小的动作价值来计算动作价值使用/>来修正Critic_0网络和Critic_1网络的参数，即使用上式/>的结果分别与/>和/>做均方差，最后作为Loss值来对Critic_0网络和Critic_1网络进行梯度反向传播，对网络参数进行修正。

进一步地，步骤S52中，进行第二阶段的云边协同训练阶段后，得到训练后的计算卸载模型，具体为，

S521、每一个无人机UAV_i所处的环境不同，在一次探索完成后，将Critic网络参数上传至云中心；

S522、云中心的网络参数进行更新，云中心的网络参数由各无人机UAV_i传输来的网络参数加权求和决定；

S523、每次云中心将网络参数更新后，将网络参数更新至所有无人机UAV_i；

S524、重复步骤S521-S523，直至达到设定的训练次数，得到训练后的计算卸载模型。

本发明的有益效果是：该种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，能够使无人机在高维连续动作空间中更快地得到最佳卸载决策。同时，在降低MEC边缘计算卸载系统的计算时延和能耗方面有显著提升。该种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，收敛速度快，能够在保证计算服务质量的同时降低服务器能耗。

附图说明

图1是本发明实施例基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法的流程示意图；

图2是实施例中三层多无人机辅助的MEC计算卸载系统的说明示意图；

图3是实施例中基于双重延迟深度确定性策略梯度算法与云边协同对计算卸载模型进行分阶段模型训练的说明示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例

一种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，如图1，包括以下步骤，

S1、建立三层多无人机辅助的MEC计算卸载系统；

步骤S1中，如图2，三层多无人机辅助的MEC计算卸载系统包括M个无线电设备WD、N个携带MEC服务器的无人机与中心云，

无线电设备WD：用于感知生成计算任务；

中心云：存储所有携带MEC服务器的无人机的基本信息，同时使用共享经验池保存所有携带MEC服务器的无人机在探索环境过程中产生的经验，用于每个携带MEC服务器的无人机在学习探索的过程中抽取复用这些公共的经验样本；在训练过程中，辅助携带MEC服务器的无人机之间进行探索经验与卸载策略生成模型的协作感知。

步骤S1中，最低一层由智能电网中的无线终端设备组成，例如充电桩终端控制单元、分布式电源监控终端、集中抄表终端、专变采集设备、配电自动化终端等，这些WD被部署在一个指定的三维区域内，用于感知生成计算任务。每个无人机UAV需要为WD提供计算卸载服务，由于WD只具备有限的计算能力，WD_j,j∈[0,M]会将部分计算密集型任务通过无线通信网络卸载至UAV_i,i∈(0,N)携带的MEC服务器上进行处理，剩余部分由WD_j在本地计算。使用表示在时隙t,t∈[0,T]内，UAV_i与WD_j的二机制服务关系，当/>时，WD_j的卸载任务由UAV_i提供计算服务，反之，/>又由UAV在时隙t内只会为单个WD提供服务可得：

步骤S2中，构建多无人机辅助MEC系统WD计算卸载模型的优化问题为：

步骤S2中，上述优化问题是一个非凸优化问题，因为无人机的动态移动会对系统能耗和时延造成影响。同时，MEC系统中，WD的位置信息、任务量信息、无线信道的传输条件都是未知的。很难通过使用传统的数学规划方法来解决此类NP难问题，并且使用传统的机器学习算法无法实现良好的通用性。此外，边缘环境中的计算卸载是一个高维动作空间中复杂的连续动作决策，而这正是强化学习的优势所在。因此，本发明提出了一种基于云边协同的双重延迟深度确定性策略梯度深度强化学习算法，以求在几乎对环境条件未知的情况下，学习近似最优解策略。

步骤S2中，使用时延与能耗作为度量网络性能的两个核心指标，本发明制定了多无人机辅助MEC系统WD计算卸载的优化问题，具体优化目标即为联合无人机行为和WD服务选择策略，来最小化所有WD的任务执行延迟和能耗的权重和，即总成本U(total)。在构建的多无人机辅助计算卸载的模型中，无人机的移动会改变MEC环境的状态，无人机UAV通过得到的卸载策略，采取各自的服务WD选择、移动方向、卸载任务比例，以求获得最小的任务时延与能耗，因此，MEC系统的总成本由环境内的所有UAVs的行为和状态转移函数共同决定。

S3、将计算卸载模型的优化问题解释为多智能体的马尔可夫决策过程，具体为，

将一个多智能体MDP定义为四元组<U,S,A_n,P,R_n>，其中，U是由环境内所有智能体组成的集合，S为所有智能体的状态空间，A_n,n∈U是智能体的动作空间，P是一个状态转移模型，其中，P(s_t+1|s_t,a_t)表示状态s_t∈S中选择动作a_t∈A_n转移到状态s_t+1∈S的概率，R_n是奖励函数，其中，R_n(s,a)表示智能体n在状态s中采取行动a后，从环境中得到的奖励，使用状态转移模型和奖励函数来描述计算卸载环境。

S4、定义状态空间、动作空间和奖励函数；

S43、定义奖励函数，具体为，在系统的时隙t内，无人机UAV_i在特定的状态的基础上，执行每一个可能的动作后，MEC卸载环境会返回奖励值/>N个无人机UAV_i应该协同最小化系统的总成本U_i,j(total)并保证最大的未来奖励值，同时需要满足优化问题中定义的约束条件；当所有约束都能被满足，则即时奖励被定义为系统总成本的负值；如果不能满足约束，则奖励函数中应该存在响应的惩罚，因此，为了更好地确保计算迁移策略探索的多样性，引入了惩罚项/>并且，/>的绝对值远大于系统总成本，所以将奖励函数定义如下：

其中，U_i,j(total)表示UAV_i辅助WD_j计算卸载过程中的总成本。

S51、基于双重延迟深度确定性策略梯度算法对计算卸载模型进行第一阶段的分布式训练阶段；如图3：

S511、对经验回放池中的经验进行优先级标识，无人机UAV_i根据所处的环境生成自己的经验，添加至共享的经验池中，并给该经验初始化一个优先级，一条经验表示为在之后的探索过程中，当每个无人机UAV_i的Critic网络在批量抽取经验进行学习时，会根据优先级从共享的经验池中抽取经验；同时在Critic网络计算出动作价值Q后，同步更新经验池中的优先级；这样如果Critic网络对当前动作的价值Q的绝对值|δ(t)|越大，优先级越高，则样本更容易被采样。

步骤S511中，在传统的确定性策略梯度深度学习方法中，在UAV_i得到经验数据后，虽然都是通过经验回放来采样。但是在采样的时候，在经验回放池里面的所有的样本被采样的概率都是相同的。由于在经验回放池里面的不同的样本由于动作价值Q的不同，在Actor网络进行梯度反向传播时的作用是也不一样的。动作价值Q越大，那么对反向传播的作用越大。反之，对反向梯度的计算影响不大。因此，本发明借鉴PrioritizedReplayDQN的思想，对经验池中的经验做了优先级标识，从而算法会更容易收敛。在实际使用中，用SumTree这样的二叉树结构来做带优先级的经验回放池样本的存储。

步骤S513中，为了给学习过程中增加一些随机性，以增加对环境感知范围的覆盖率，会在输出的策略的基础上增加一定的噪声ε，添加的噪声ε被限制在一定的范围内，以免选取不合理的动作，从而造成过多带有惩罚项的奖励，影响UAV_i对最佳卸载策略的探索。

S515、使用两个TargetCritic网络，分别得到动作价值，选择较小的动作价值来计算动作价值后，计算Loss值来对两个TargetCritic网络进行梯度反向传播，并对网络参数进行修正具体为，使用Critic_0网络和Critic_1网络来分别得到动作价值和然后选择较小的动作价值来计算动作价值/> 使用来修正Critic_0网络和Critic_1网络的参数，即使用上式/>的结果分别与/>和/>做均方差，最后作为Loss值来对Critic_0网络和Critic_1网络进行梯度反向传播，对网络参数进行修正；

步骤S515中，DDPG算法使用TargetActor网络和TargetCritic网络进行延迟更新策略。使用TargetActor网络的目的是为了减轻累计误差效应，并使Critic网络更容易稳定收敛，因为过于频繁地更新Actor网络会干扰Critic网络的收敛。而TargetCritic网络的目的与TargetActor网络的相同，都是为了使用一个更新频率较低的网络来增强Critic网络的稳定性。本发明提出的算法则为了提高Critic网络的准确性，使用两个TargetCritic网络来应对Critic网络常常高估Q值的问题。这种思路受DDQN的启发，即使用Critic_0网络和Critic_1网络来分别得到动作价值和/>然后选择较小的那个动作价值来计算/>以避免高估Q值的影响。得到最终的动作后价值Q后，使用/>来修正两个Critic网络的参数，即使用上式的结果分别与/>和做均方差，最后作为Loss值来对两个Critic网络进行梯度反向传播，从而对网络参数进行修正。通过使用两个网络进行估计。可以在实际应用中提高算法的稳定性和精确度，以提高训练的效果。

θ'_i←τθ_i+(1-τ)θ'_i

π′_i←τπ_i+(1-τ)π′_i

ω′_i←τω_i+(1-τ)ω′_i

其中，τ是更新系数；一般取一个较小值的值，如0.01。θ_i表示Actor网络的Valuenet网络在第i次更新时的参数，θ'_i表示Actor网络的Targetnet网络在第i次更新后新得到的参数；π_i表示Critic_0网络的Valuenet网络在第i次更新时的参数，π'_i表示Critic_0网络的Targetnet网络在第i次更新后新得到的参数；ω_i表示Critic_1网络的Valuenet网络在第i次更新时的参数，ω'_i表示Critic_1网络的Targetnet网络在第i次更新后新得到的参数；

S517、重复步骤S512-S516，直至达到设定的训练次数。

S52、进行第二阶段的云边协同训练阶段后，得到训练后的计算卸载模型，如图3。

步骤S52中，在云边协同多无人机辅助的MEC计算卸载系统中，每一个无人机UAV_i和云中心都可以被视作一个参与者。它们具有相同的网络结构。每一个无人机UAV_i所处的环境不同，在一次探索完成后，将Critic网络参数上传至云中心。云中心的网络参数由各个UAV传输来的网络参数加权求和决定。每次云中心将网络参数更新完后，将网络参数更新至所有UAV。这样不同的UAV执行不同的策略，可以更好地探索环境，同时，云中心网络参数的依据是所有UAV在不同环境中收集来的学习结果，可以更好地辅助单个UAV更全面地考虑环境，并采取更好的卸载策略。

步骤S6中，无人机可以在训练好的模型指导下进行动作执行，当前的网络模型输出的策略视为当前状态下的最佳行动策略。将基于无人机自己的状态信息作为训练后的计算卸载模型的Actor网络的输入，并得到Actor网络输出的策略/>无人机会直接执行这个策略动作，完成与环境的交互。

该种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，能够使无人机在高维连续动作空间中更快地得到最佳卸载决策。同时，在降低MEC边缘计算卸载系统的计算时延和能耗方面有显著提升。该种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，收敛速度快，能够在保证计算服务质量的同时降低服务器能耗。

该种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，首先，建立包括复杂终端位置和多无人机高维动作空间的计算卸载与通信传输模型，构建一个联合无人机的飞行角度、飞行距离、无人机的终端卸载服务选择和计算任务的卸载比的多目标优化函数，目的是最小化系统任务的计算时延与能耗；然后，将上述优化问题建模为一个马尔可夫决策过程，并通过深度强化学习算法DRL解决，提出了一种经验共享优化机制的双重延迟深度确定性策略梯度算法；基于动作评价，为共享经验池中的决策经验设置优先级；利用云边缘协作来对网络参数进行优化，可以使无人机在高维连续动作空间中更快地得到最佳卸载决策。

该种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，能够提高算法收敛速度的同时在降低MEC边缘计算卸载系统的计算时延和能耗方面有显著提升，对于高质量满足无线终端设备的计算需求以及提高移动边缘服务器计算、网络等有限资源的利用率有重大意义。该方法针对终端设施的位置通常分散在复杂的地形范围内，能够快速得到最佳卸载决策，进而高效完成移动边缘计算卸载任务。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：包括以下步骤，

S1、建立三层多无人机辅助的MEC计算卸载系统；

S4、定义状态空间、动作空间和奖励函数；

2.如权利要求1所述的基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：步骤S1中，三层多无人机辅助的MEC计算卸载系统包括M个无线电设备WD、N个携带MEC服务器的无人机与中心云，

无线电设备WD：用于感知生成计算任务；

3.如权利要求1所述的基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：步骤S2中，构建多无人机辅助MEC系统WD计算卸载模型的优化问题为：

4.如权利要求1所述的基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：步骤S3中，将计算卸载模型解释为多智能体的马尔可夫决策过程，具体为，

5.如权利要求1-4任一项所述的基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：步骤S4中，定义状态空间、动作空间和奖励函数，具体为，

其中，id_wd为无线电设备的ID编号，表示WD_j和UAV_i之间对应任务的卸载比率、/>分别表示UAV_i的飞行角度、飞行速度；

其中，U_i,j(total)表示UAV_i辅助WD_j计算卸载过程中的总成本。

6.如权利要求1-4任一项所述的基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：步骤S5中，基于双重延迟深度确定性策略梯度算法与云边协同，对计算卸载模型进行分阶段模型训练，得到训练后的计算卸载模型，具体为，

7.如权利要求6所述的基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：步骤S51中，基于双重延迟深度确定性策略梯度算法对网络模型进行第一阶段的分布式训练阶段，具体为，

S514、为评估输出策略的价值，将和/>输入Critic_0网络，得到动作价值/>来评估Actor网络输出动作的好坏，Actor网络的目的就是输出尽可能使动作价值更高的动作，因此，将/>作为Loss函数，来修正Actor网络的参数，因此，Actor网络的损失梯度由下式表示：

S516、在周期性更新Critic_0与Critic_1的Target网络的参数φ时，使用软更新的方式，每次只更新一部分参数，即：

θ′_i←τθ_i+(1-τ)θ′_i

π′_i←τπ_i+(1-τ)π′_i

ω′_i←τω_i+(1-τ)ω′_i

其中，τ是更新系数；θ_i表示Actor网络的Value net网络在第i次更新时的参数，θ'_i表示Actor网络的Target net网络在第i次更新后新得到的参数；π_i表示Critic_0网络的Valuenet网络在第i次更新时的参数，π'_i表示Critic_0网络的Target net网络在第i次更新后新得到的参数；ω_i表示Critic_1网络的Value net网络在第i次更新时的参数，ω'_i表示Critic_1网络的Target net网络在第i次更新后新得到的参数；

S517、重复步骤S512-S516，直至达到设定的训练次数。

8.如权利要求7所述的基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：步骤S515中，使用两个TargetCritic网络，分别得到动作价值，选择较小的动作价值来计算动作价值后，计算Loss值来对两个TargetCritic网络进行梯度反向传播，并对网络参数进行修正，具体为，使用Critic_0网络和Critic_1网络来分别得到动作价值和/>然后选择较小的动作价值来计算动作价值使用/> 来修正Critic_0网络和Critic_1网络的参数，即使用上式/>的结果分别与/>和/>做均方差，最后作为Loss值来对Critic_0网络和Critic_1网络进行梯度反向传播，对网络参数进行修正。

9.如权利要求6所述的基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法，其特征在于：步骤S52中，进行第二阶段的云边协同训练阶段后，得到训练后的计算卸载模型，具体为，