CN117499867A

CN117499867A - 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法

Info

Publication number: CN117499867A
Application number: CN202311404246.0A
Authority: CN
Inventors: 翟象平; 付爽; 郑洪源
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-02-02

Abstract

本发明针对智能空地一体化通信中搭载边缘服务器的无人机为地面用户提供高效计算卸载服务的问题，提出了一种名为“基于公平因子的轨迹选择(FFTS)”的强化学习决策方法。本发明通过双延迟深度确定性策略梯度算法结合公平匹配算法，解决了一个同时考虑用户接入策略和发射功率、无人机飞行轨迹、无人机计算资源分配比率、系统成本最小化和资源分配公平性的多重优化问题，使无人机为地面用户提供高效可靠的计算卸载服务，从而实现资源分配的有效性，并最大限度地减少系统的能耗和任务完成延迟。本发明提出的方法可以在每架无人机的初始位置随机的情况下在每个时间步采用最优的动作策略，实现系统成本的最小化并满足资源分配的公平性。

Description

一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法

技术领域

本发明涉及在智能空地一体化通信中搭载边缘服务器的无人机为地面用户提供高效计算卸载服务的场景下，以实现资源分配的有效性并最大限度地减少系统的能耗和任务完成延迟为目标，提出了一种名为″基于公平因子的轨迹选择(FFTS)″的强化学习决策方法。该算法能够得到最优的无人机动态轨迹、计算资源分配比率、用户卸载决策和任务传输功率。

背景技术

近年来，移动智能设备的激增以及5G和6G等无线通信技术的进步催生了众多具有低延迟和低能耗要求的计算密集型应用。移动边缘计算(MEC)是一项新兴技术，能够使移动地面用户能够在网络边缘执行计算敏感的应用程序。通过将MEC集成到物联网(IoT)中，可以将计算能力和能量有限的物联网设备的计算密集型和延迟敏感型任务卸载到网络边缘，从而为地面用户的高要求任务提供令人满意的服务质量(QoS)和体验质量(QoE)。近年来，多无人机MEC的部署因其灵活性和可控性而备受关注，携带边缘服务器的无人机可以持续为潜在用户提供可靠的服务而不受地理限制和部署环境的影响。此外，无人机可以支持6G网络的更高速度、更低延迟、更高可靠性、更高容量、更高密度和更低功耗等特性，因此与无人机辅助的MEC系统相关的无人机调度、无人机协作、资源分配、电池容量、轨迹优化、避障等问题也引发了广泛的关注和研究。

发明内容

发明目的：以往的问题主要针对无人机在固定的资源分配方案，或对单一通信资源调度的前提下对无人机进行单一的轨迹优化，而缺乏系统全局观念和动态部署的考虑，因此不能很好的适应任务环境的复杂性。所以如何通过无人机的轨迹设计联合用户的卸载决策和任务传输功率使无人机高效的处理任务成为了主要的技术问题。

为解决该多重优化技术问题，本发明提出了一种名为“基于公平因子的轨迹选择(FFTS)”的强化学习决策方法。通过双延迟深度确定性策略梯度算法结合公平匹配算法，使无人机为地面用户提供高效可靠的计算卸载服务，从而实现资源分配的有效性和最小化系统成本。

技术方案：为实现上述技术效果，本发明提出的技术方案为：

无人机辅助物联网数据采集场景下一种基于深度强化学习的飞行轨迹设计方法，其特征在于，包括步骤：

(1)携带边缘服务器的无人机在固定高度飞行，移动设备可以将任务转移到无人机上执行，也可以选择本地执行任务。

(2)为系统构建通讯模型、能量消耗模型和任务处理时延模型，并且以系统成本和资源分配有效性为目标建立的多重优化问题。

(3)将构建的多重优化问题模型其分解为两个子问题。第一个子问题是优化卸载决策和计算资源分配比例的过程，也就是找到无人机和用户之间的最佳匹配决策，针对该子问题提出了一种叫作公平因子优先级(FFP)的匹配算法，利用全局信息得到了使资源分配效率最大化的卸载决策。第二个子问题是优化无人机的轨迹和地面用户的传输功率，针对该子问题制定了一个马尔可夫决策过程，以系统优化目标的负值作为奖励，并设计了一种将FFP与双延迟深度确定性策略梯度(TD3)算法相结合的算法——FFTS，无人机作为智能体来优化自己的策略并在每个时间步上采取最佳动作。

进一步的，所述步骤(1)中，本发明在400m×400m的区域考虑一个多无人机辅助地面终端用户设备通信和任务处理的系统，用户设备的集合为{1，2…i，…M}，无人机的集合为{1，2…j，…K}；将服务持续时间划分为N个等距时隙，时隙Δ足够小，时隙的集合为{1，2，…n…N}；每个时隙n内用户都有任务生成，其中D_i(n)为任务大小，F_i(n)为计算该任务所需CPU周期数，/>为该任务的最大可容忍延时；每个任务的卸载决策表示为α_i(n)，α_i(n)＝j表示在这一时隙，用户i选择将任务卸载到无人机j上执行，α_i(n)＝0表示用户本地处理该任务。

进一步的，所述步骤(2)中构建的模型为N个时隙模型，每个时隙包括系统通讯模型、能量消耗模型和任务处理时延模型。

进一步的，所述通讯模型表示为：

其中，g_i，j(n)为该时隙的地空信道增益，g₀为单位信道增益，q_i(n)＝(x_i(n)，y_i(n))是用户设备的坐标，p_j(n)＝(X_j(n)，X_j(n))是无人机的坐标在x轴和y轴的投影，H是无人机的固定飞行高度。

其中，r_i，j(n)为根据香农定理得到的上行链路任务传输速率，B表示通信链路的带宽，表示地面用户的传输功率，N₀是噪声功率密度。

进一步的，所述系统总时延模型表示为：

其中，表示任务卸载处理的时延，它由任务传输时延/>和任务处理时延/>两部分组成；f_j(n)表示无人机的计算能力，b_i，j(n)表示无人机j给用户i分配服务器计算资源的比例；/>表示任务在本地执行所需要的时间，f_i(n)为本地设备的计算能力；因此，一个时隙内整个系统的有效任务处理时延表示为：

进一步的，能量消耗模型表示为：

其中，表示任务卸载处理的能耗，它由任务传输能耗/>和无人机飞行能耗/>两部分组成；/>表示任务本地处理的能耗，k为一个表示本地设备CPU的有效转换能力的常量，f_i(n)为本地设备的计算能力。因此，一个时隙内整个系统的总能耗表示为：

进一步的，以系统成本和资源分配有效性为目标建立的多重优化问题表示为：

s.t.C1：0≤η≤1

其中，系统的优化变量包括以下四个：为无人机在该时隙的位置和速度矢量，/>表示用户的传输功率向量，表示每个用户的卸载决策向量，/>表示任务卸载到某个无人机上的用户被分配到的资源比例的向量。

进一步的，所述步骤(3)问题模型的分解有如下两个过程：

1)无人机和用户的最优匹配过程

在每个时隙中，无人机信号覆盖范围内的用户可以选择将其任务卸载给无人机。但由于无人机的服务器的计算资源是有限的，系统既希望能更大程度地降低系统能耗，又能更大程度地提高资源分配的效率。因此，本发明首先根据对无人机的任务队列进行降序排序，每个无人机从前到后最多可以选择z个任务，得到α_i(n)；然后设置了一个基于优先级的CPU频率分配权重/>表示每个任务需要计算资源的迫切度：

接着将所得的公平权重因子进行归一化得到资源分配比例b_i，j(n)：

2)无人机轨迹和用户传输功率优化过程

简化后的优化问题被建模为无模型、无转移概率的MDP过程。在MI)P中，智能体与动态环境不新交互，以优化自身策略，例如，在某个时间步n，环境处于状态S_n，智能体执行动作A_n，环境以某种可能性转移到任何可行的后继状态S_n+1中，智能体通过当前状态结合1)得到的最优卸载决策和计算资源分配比例计算出奖励R_n，随后时隙n增加1。智能体通过观察S_n+1与R_n+1来调整自身策略，从而使积累奖励最大化。MI)P的三个关键要素：状态空间、动作空间和奖励定义如下：

A_n＝{V_j(n)，P_i(n)}

R_n＝-(ηE(n)+(1-η)T(n))-χ(n)

其中，状态向量S_n包含每个无人机的位置信息和所剩余能量，动作向量A_n包含每个无人机的速度矢量以及每个卸载任务的用户的传输功率，奖励R_n的前半部分是系统优化目标的相反数，后半部分是无人机超过活动范围时的惩罚项。

在FFTS的结构中，训练时的核心思想是通过离线播放缓冲区进行样本重用和延迟更新以减少策略学习中的样本相关性和高估问题。具体来说，该算法的主网络具有两个具有相同架构的critic网络和一个actor网络π_φ，目标网络也就是主网络的备份为和π_φ′。此外，actor网络使用延迟学习解决值函数和策略耦合问题，这意味着批评者网络比行动者网络更新更频繁，以便在引入策略之前最小化错误。

进一步的，在步骤(3)所述FFTS中学习最优策略的训练过程遵循以下步骤：

步骤一：通过与任务场景(环境)的交互，采集经验样本并存储在重播缓冲区中，然后再随机采样小批量L_b的经验样本用于更新策略网络和目标网络。通过最小化损失函数更新critic网络：

首先得到状态S_n+1下的动作，并且加上一个服从高斯分布的、截断的噪声来平滑Q值函数的估计，避免过拟合。然后再用TD误差方法得到每个critic网络的损失函数结合Adam优化器对网络进行更新。

步骤二：使用确定性梯度上升更新策略actor网络(不需要加入噪声)：

步骤三：三个目标网络的参数采用软更新的方式(更新率为τ)进行更新：

θ′_i←τθ_i+(1-τ)θ′_i，i＝1，2

φ′←τφ+(1-τ)φ′

步骤四：训练好的策略网络得到每个时隙的最佳动作，从而获得最优无人机轨迹和用户传输功率

附图说明

图1是本发明的流程图；

图2是本发明中无人机和地面用户组成的通信系统模型示意图；

图3是本发明所提算法的框架示意图；

图4是本发明进行仿真实验得到的四架无人机的飞行轨迹示意。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法，如图1所示，包括以下步骤：

(1)携带边缘服务器的无人机在固定高度飞行，移动设备通过将任务转移到无人机上，无人机为每个用户分配服务器资源来降低用户设备的耗能和延迟。

在步骤(1)中，多架无人机在400m×400m的区域内辅助地面终端用户设备通信，用户设备的集合为{1，2…i，…M}，无人机的集合为{1，2…j，…K}；将服务持续时间划分为N个等距时隙，时隙Δ足够小，时隙的集合为{1，2，…n…N}；每个时隙n内用户都有任务生成，其中D_i(n)为任务大小，F_i(n)为计算该任务所需CPU周期数，/>为该任务的最大可容忍延时；每个任务的卸载决策表示为α_i(n)，α_i(n)＝j表示在这一时隙，用户i选择将任务卸载到无人机j上执行，α_i(n)＝0表示用户本地处理该任务。系统模型示意图如图2所示。

步骤(2)为系统构建通讯模型、能量消耗模型和任务处理时延模型，构建的模型为N个时隙模型，每个时隙包括系统通讯模型、能量消耗模型和任务处理时延模型。并且以系统成本和资源分配有效性为目标建立多重优化问题。

所述通讯模型表示为：

其中，g_i，j(n)为该时隙的地空信道增益，g₀表示传输功率为1W，无人机和用户相距为1m时的单位信道增益，q_i(n)＝(x_i(n)，y_i(n))是用户设备的坐标，p_j(n)＝(X_j(n)，X_j(n))是无人机的坐标在x轴和y轴的投影。

所述系统总时延模型表示为：

其中，表示任务卸载处理的时延，它由任务传输时延/>和任务处理时延/>两部分组成；f_i(n)为本地设备的计算能力，b_i，j(n)表示无人机j给用户i分配服务器计算资源的比例。因此，一个时隙内整个系统的有效任务处理时延表示为：

能量消耗模型表示为：

最后，以系统成本和资源分配有效性为目标建立的多重优化问题表示为：

s.t.C1：0≤η≤1

系统的优化变量包括以下四个：为无人机在该时隙的位置和速度矢量，/>表示用户的传输功率向量，/>表示每个用户的卸载决策向量，/>表示任务卸载到某个无人机上的用户被分配到的资源比例的向量。

在步骤(3)中，本实施例首先解决无人机和用户的最优匹配问题，也就是找到最佳卸载决策和计算资源分配比例。在每个时隙中，无人机信号覆盖范围内的用户可以选择将其任务卸载给无人机。但由于无人机的服务器的计算资源是有限的，系统既希望能更大程度地降低系统能耗，又能更大程度地提高资源分配的效率。因此，首先根据对无人机的任务队列进行降序排序，/>反映了卸载任务相比于本地执行任务所节省的能耗。每个无人机从前到后最多可以选择z个任务，得到α_i(n)；然后设置了一个基于优先级的CPU频率分配权重/>表示每个任务需要计算资源的迫切度：

接着，本实施例解决步骤(3)中的第二个子问题，结合所提的公平匹配算法FFP和双延迟深度确定性策略梯度算法优化无人机轨迹和用户传输功率。将所有无人机视为一个探索未知环境的智能体，该过程可以建模为一个无模型、无转移概率的马尔可夫决策过程(MDP)。MDP可以表示为一个元组(S，A，P，R)，它对智能体的顺序决策过程进行建模。其中，S、A、R和P分别表示状态集、动作集、奖励和状态转移概率。在MDP中，智能体与动态环境不新交互，以优化自身策略，例如，在某个时间步n，环境处于状态S_n，智能体执行动作A_n，环境以某种可能性转移到任何可行的后继状态S_n+1中，智能体通过当前状态结合1)得到的最优卸载决策和计算资源分配比例计算出奖励R_n，随后时隙n增加1。智能体通过观察S_n+1与R_n来调整自身策略，从而使积累奖励最大化。本实施例中的状态集、动作集和奖励函数如下所示：

A_n＝{V_j(n)，P_i(n)}

R_n＝-(ηE(n)+(1-η)T(n))-χ(n)

采用本发明提出的基于深度强化学习的多重优化轨迹设计和功率分配算法——FFTS对构建的模型进行求解，该算法采用离线播放缓冲区进行样本重用和延迟更新以减少策略学习中的样本相关性和高估问题。具体来说，该算法的主网络具有两个具有相同架构的critic网络和一个actor网络π_φ，目标网络也就是主网络的备份为/>和π_φ′。此外，actor网络使用延迟学习解决值函数和策略耦合问题，这意味着批评者网络比行动者网络更新更频繁，以便在引入策略之前最小化错误。网络结构图如图3所示。

在训练阶段，首先需要算法初始化所需的参数。这里的参数包括无人机起始位置、无人机和用户通信相关的一些参数、重放缓冲区的容量、小批量大小L_b、训练周期数、时隙长度，还包括神经网络参数θ₁、θ₂、φ、θ₁’、θ₂’和φ’。每个周期包括N个时隙。在每个时隙，无人机首先从环境中观察状态S_n，并选择执行一个动作A_n，同时还需要对违反边界约束的行为进行惩罚。然后无人机获得下一个状态S_n+1，并结合第一个子问题得到的卸载决策和服务器资源分配比例得到即时奖励R_n，并将转换(S_n，A_n，S_n+1，R_n)存储在回放缓冲区中。然后再随机采样小批量L_b的经验样本用于更新策略网络和目标网络。通过最小化损失函数更新critic网络：

更新critic网络首先需要得到状态S_n+1下的动作，并且加上一个服从高斯分布的、截断的噪声来平滑Q值函数的估计，避免过拟合。然后再用TD误差方法得到每个critic网络的损失函数结合Adam优化器对网络进行更新。

其次，通过使用确定性梯度上升更新策略actor网络(不需要加入噪声)：

接着对三个目标网络的参数采用软更新的方式(更新率为τ)进行更新：

θ′_i←τθ_i+(1-τ)θ′_i，i＝1，2

φ′←τφ+(1-τ)φ′

由于经过多个周期的训练，神经网络的参数开始稳定下来。此时，Actor网络已经具备指导无人机执行满足最小化能耗和最大化资源分配公平性的动作，因此利用训练好的策略网络可以得到每个时隙的最佳动作，从而获得最优无人机轨迹和用户传输功率。本实施例测试了50个用户设备、4架无人机的通信系统，测试了四次生成了图4所示飞行轨迹。每架无人机的初始位置都是随机的，星星代表各自的的起始位置，圆圈是它们各自的信号覆盖范围。不难看出，在服务持续时间内，无人机倾向于飞向任务密集区域，并与其他无人机配合完成部署，使得所有无人机的飞行轨迹能够覆盖大部分用户。同时，对于距离较远且超过最大容忍延迟的用户，无人机会选择继续在用户较多的地方悬停，以减少路径损耗，最大限度地减少全局能耗和延迟，保证计算资源分配的公平性。

Claims

1.多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法，其特征在于，包括步骤：

(1)携带边缘服务器的无人机在固定高度飞行，移动设备可以选择将任务转移到无人机上，然后无人机为每个用户分配服务器资源来降低用户设备的耗能和延迟。本文在400m×400m的区域考虑一个多无人机辅助地面终端用户设备通信的系统，用户设备的集合为{1，2…i，…M}，无人机的集合为{1，2…j，…K}；将服务持续时间划分为N个等距时隙，时隙Δ足够小，时隙的集合为{1，2，…n…N}；每个时隙n内用户都有任务生成，其中D_i(n)为任务大小，F_i(n)为计算该任务所需CPU周期数，/>为该任务的最大可容忍延时；每个任务的卸载决策表示为α_i(n)，α_i(n)＝j表示在这一时隙，用户i选择将任务卸载到无人机j上执行，α_i(n)＝0表示用户本地处理该任务；

(2)无人机与用户之间的通信以及系统优化问题建模表示为以下：

1)所述通讯模型表示为：

其中，g_i，j(n)为该时隙的地空信道增益，g₀为单位信道增益，q_i(n)＝(x_i(n)，y_i(n))是用户设备的坐标，p_j(n)＝(X_j(n)，X_j(n))是无人机的坐标在x轴和y轴的投影，H是无人机固定的飞行高度；

其中，r_i，j(n)为根据香农定理得到的上行链路任务传输速率，B表示通信链路的带宽，P_i ^off(n)表示地面用户的传输功率，N₀是噪声功率密度；

2)所述系统总时延模型表示为：

其中，表示任务卸载处理的时延，它由任务传输时延T_i ^trans(n)和任务处理时延T_i ^execu(n)两部分组成；f_j(n)表示无人机的计算能力，b_i，j(n)表示无人机j给用户i分配服务器计算资源的比例；T_i ^loc(n)表示任务在本地执行所需要的时间，f_i(n)为本地设备的计算能力；因此，一个时隙内整个系统的有效任务处理时延表示为：

3)所述能量消耗模型表示为：

其中，表示任务卸载处理的能耗，它由任务传输能耗/>和无人机飞行能耗两部分组成；/>表示任务本地处理的能耗，k为一个表示本地设备CPU的有效转换能力的常量，f_i(n)为本地设备的计算能力；因此，一个时隙内整个系统的总能耗表示为：

4)以系统成本和资源分配有效性为目标建立的多重优化问题表示为：

系统的优化变量包括以下四个：为无人机在该时隙的位置和速度矢量，/>表示用户的传输功率向量，/>表示每个用户的卸载决策向量，/>表示任务卸载到某个无人机上的用户被分配到的资源比例的向量；

s.t.C1：0≤η≤1

C2：

C3：

C4：

C5：

C6：

C7：

C8：

C9：

C10：

C11：

(3)由于以上优化问题的非凸性，本发明将其分解为两个子问题：第一个子问题是优化卸载决策和计算资源分配比例，也就是找到无人机和用户之间的最佳匹配决策，针对该子问题，本发明提出了一种叫作公平因子优先级(FFP)的匹配算法，利用全局信息得到了使资源分配效率最大化的卸载决策；第二个子问题是优化无人机的轨迹和地面用户的传输功率，针对该子问题，本发明制定了一个马尔可夫决策过程，以系统优化目标的负值作为奖励，并设计了一种将FFP与双延迟深度确定性策略梯度(TD3)算法相结合的算法——FFTS，无人机作为智能体来优化自己的策略并在每个时间步上采取最佳动作；具体步骤如下：

1)无人机和用户的最优匹配过程

在每个时隙中，无人机信号覆盖范围内的用户可以选择将其任务卸载给无人机，但由于无人机的服务器的计算资源是有限的，系统既希望能更大程度地降低系统能耗，又能更大程度地提高资源分配的效率，因此，本发明首先根据对无人机的任务队列进行降序排序，/>代表本地执行该任务和将任务卸载给无人机执行所消耗能量的差值，每个无人机从前到后最多可以选择z个任务，得到α_i(n)；然后设置了一个基于优先级的CPU频率分配权重/>表示每个任务需要计算资源的迫切度：

2)无人机轨迹和用户传输功率优化过程

简化后的优化问题被建模为无模型、无转移概率的马尔可夫决策过程(MarkovDecision Process，MDP)，在MDP中，智能体与动态环境不新交互，以优化自身策略，例如，在某个时间步n，环境处于状态S_n，智能体执行动作A_n，环境以某种可能性转移到任何可行的后继状态S_n+1中，智能体通过当前状态结合1)得到的最优卸载决策和计算资源分配比例计算出奖励R_n，随后时隙n增加1。智能体通过观察S_n+1与R_n来调整自身策略，从而使积累奖励最大化，MDP的三个关键要素：状态空间、动作空间和奖励空间定义如下：

A_n＝{V_j(n)，P_i(n)}

R_n＝-(ηE(n)+(1-η)T(n))-χ(n)

其中，状态向量S_n包含每个无人机的位置信息和所剩余能量，动作向量A_n包含每个无人机的速度矢量以及每个卸载任务的用户的传输功率，奖励R_n的前半部分是系统优化目标的相反数，后半部分是无人机超过活动范围时的惩罚项；

在FFTS的结构中，训练时的核心思想是通过离线播放缓冲区进行样本重用和延迟更新以减少策略学习中的样本相关性和高估问题，具体来说，该算法的主网络具有两个具有相同架构的critic网络和一个actor网络π_φ，目标网络也就是主网络的备份为/> 和π_φ′；此外，actor网络使用延迟学习解决值函数和策略耦合问题，这意味着批评者网络比行动者网络更新更频繁，以便在引入策略之前最小化错误，在FFTS中学习最优策略的训练过程遵循以下步骤：

步骤一：通过与任务场景(环境)的交互，采集经验样本并存储在重播缓冲区中，然后再随机采样小批量L_b的经验样本用于更新策略网络和目标网络，通过最小化损失函数更新critic网络：

首先得到状态S_n+1下的动作，并且加上一个服从高斯分布的、截断的噪声来平滑Q值函数的估计，避免过拟合，然后再用TD误差方法得到每个critic网络的损失函数结合Adam优化器对网络进行更新；

θ′_i←τθ_i+(1-τ)θ′_i，i＝1，2

φ′←τφ+(1-τ)φ′

步骤四：训练好的策略网络得到每个时隙的最佳动作，从而获得最优无人机轨迹和用户传输功率。

2.根据权利要求1所述的多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法，其特征在于，在智能空地一体化通信中多架搭载边缘服务器的无人机为地面用户提供高效计算卸载服务的系统中，在保证系统成本最低和所有地面用户所分配资源的公平性的前提下，智能体经过训练得到了最优的无人机动态轨迹、计算资源分配比率、用户卸载决策和任务传输功率。