CN113660681B

CN113660681B - 一种应用于无人机集群辅助传输的多智能体资源优化方法

Info

Publication number: CN113660681B
Application number: CN202110602942.7A
Authority: CN
Inventors: 高昂; 王�琦; 陈凯月; 段渭军; 常宝成
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-06-06
Anticipated expiration: 2041-05-31
Also published as: CN113660681A

Abstract

本发明公开了一种应用于无人机集群辅助传输的多智能体资源优化方法，包括：步骤S101：将每个GU_m在当前时间帧开始时的环境参数输入多智能体深度确定性策略梯度模型；步骤S102：根据无线通信网络系统模型、通过潜在博弈算法对UAVs的服务分配U优化；步骤S103：通过输入当前时间帧的环境参数，MADDPG算法模型更新输出每一个GU的传输策略；步骤S104：根据每一个UAV n在当前帧的俯仰角增量

方位角增量Δφ_n和飞行速度增量Δν_n进行数据传输，确定下一帧开始时刻的每一个UAV的环境参数；重复执行步骤S101至步骤S103，直到M个GU均完成辅助传输。解决了现有技术中在基于无人机集群辅助中继的无线通信网络系统中多个GUs进行数据传输时，系统的能量效率低、时延较长的问题。

Description

一种应用于无人机集群辅助传输的多智能体资源优化方法

技术领域

本发明属于物联网通信技术领域，具体涉及一种应用于无人机集群辅助传输的多智能体资源优化方法。

背景技术

近年来，随着在5G技术的出现，地面移动用户设备(GU)迅速发展，数据流量呈指数增长，越来越多的计算密集，延迟敏感和能耗高的新型应用也不断涌现，尽管移动设备可以为各种应用提供有力的平台，然而，UE仍然受到其物理大小的限制，并且由于实时性不满足而无法抵抗计算密集型要求和极限计算之间的矛盾能力。对于计算密集型应用，如同时定位、映射(SLAM)和虚拟现实(VR)，将数据传输到移动云计算(MCC)或移动EDG并行计算(MEC)服务器是一种很有前途的解决方案，可以为实时应用提供位置感知、保持低延迟、支持异构性和改善服务质量(QoS)，它使UE能够传输部分或完整的计算密集型任务，以提高在有限电池功率下的传输性能，并降低计算的能耗。

与地面基站相比，无人机具有高机动性、通用性和可操纵性等优点，在辅助无线网络中引起了广泛的兴趣，用于各种应用，如数据收集、网络拓扑构建、能量收集等，其使无人机辅助无线系统成为一个前景广阔的无线通信系统，以提高通信性能。特别是对于意外或临时事件，无人机以具有成本效益和快速部署而十分具有优势。此外，GUs上的应用程序是典型的需要资源的，由于无人机独具的优势所在，可以作为空地集成移动边缘网络(AGMEN)的中继，结合移动云或移动边缘计算(MCC/MEC)，GUs可以通过它将数据传输到边缘服务器，以快速处理。

特别是，多架无人机也被称为遥控飞机系统(RPAS)或UAVs，在收敛、部署、合作导航和控制方面吸引了广泛的研究。然而，但是非预测的GUs和异质性导致了传输需求的时空不均衡，这要求UAV的分配应该安排好，以减少传输延迟。直观地说，由于视线(LoS)连接，无人机倾向于接近用户以改善信道衰落。然而，这种运动会导致大量的能源消耗，并恶化在广泛的范围内使用无人机的使用寿命。所以说在基于无人机集群辅助中继的无线通信网络系统中多个GUs 进行数据传输时，系统的能量效率低、时延较长。

发明内容

本发明的目的是提供一种应用于无人机集群辅助传输的多智能体资源优化方法，以解决现有技术中在基于无人机集群辅助中继的无线通信网络系统中多个 GUs进行数据传输时，系统的能量效率低、时延较长的问题。

本发明采用以下技术方案：一种应用于无人机集群辅助传输的多智能体资源优化方法，基于一种无线通信网络系统，所述无人机集群辅助传输的无线通信网络系统包括N个无人机UAV，M个地面用户GU，其中N，M为不小于2的整数；

所述资源优化方法包括以下内容：

步骤S101：将每个GU_m在当前时间帧开始时的环境参数输入多智能体深度确定性策略梯度模型；

其中，所述环境参数包括：每个UAV的当前时间帧所处位置C、当前时间帧用户剩余的待传输的数据量d和当前时间帧的服务分配U；

步骤S102：根据无线通信网络系统模型、通过潜在博弈算法对UAVs的服务分配U优化：

N个UAV中每一个UAV n在当前时间帧开始时，最小化的博弈开销V_n同时满足全局势函数Φ_n最小，进而使得达到纳什均衡NEU^*，并判断是否在下一帧更新当前的服务分配U；其中，U^*为预测的下一时刻的所有UAV的最优服务分配的集合；

步骤S103：通过输入当前时间帧的环境参数，MADDPG算法模型更新输出每一个GU的传输策略；

其中，所述传输策略包括每一个UAV的俯仰角增量

无人机方位角增量ΔΦ_n和UAV飞行速度增量Δν_n；

步骤S104：根据每一个UAV n在当前帧的俯仰角增量

方位角增量 ΔΦ_n和飞行速度增量Δν_n进行数据传输，从而确定下一帧开始时刻的每一个 UAV的环境参数，以及该时间帧内的能量消耗；

重复执行步骤S101至步骤S103，直到M个GU均完成辅助传输。

进一步的，步骤S102具体为：

步骤S1021：根据当前时间帧的UAV位置C，计算得到除特定UAV n外的其余UAV的A_n(u_-n)；

其中，所述A_n(u_-n)为当前博弈开销V_n中相关于信息传输速率的一部分，即开销V_n最小化的关键在于使得A_n(u_-n)部分最大化；

步骤S1022：根据A_n(u_-n)进而得到u_n ^*，所述u_n ^*表示最小化每一个UAV n 的博弈开销V_n而得到的UAV n的服务分配，并确保满足全局势函数Φ_n也可以得到最小值，该Φ_n表述为所有无人机博弈开销V_n的总和，此时存在纳什均衡，得到NE U^*，U^*表示最优服务分配集合；

步骤S1023：根据U^*确定是否UAV得到服务更新机会，并请求更新信息，进而确定是否更新服务分配于MADDPG的环境参数中。

进一步的，步骤S104中获取环境参数和能量消耗的具体方法为：

步骤S1041：根据每个UAV的俯仰角增量

方位角增量ΔΦ_n和飞行速度增量Δν_n，得到每个UAV的俯仰角/>

方位角Φ_n和飞行速度ν_n；

步骤S1042：根据每个UAV的俯仰角

方位角Φ_n和飞行速度ν_n确定每个 UAV的轨迹变化以及时刻末的所处新的位置C’；

步骤S1043：根据当前时间帧UAV位置C和当前时间帧的服务分配U，确定此时间帧以及之前累积的已传输数据量

步骤S1044：根据所述累积的已传输数据量

以及用户的初始输入数据量 D，确定每个GU m在下一时间帧开始时的剩余的待传输数据量/>

步骤S1045：根据每个UAV的当前时间帧的位置，以及上一时刻的位置确定所述每个UAV n在当前时间帧的移动距离Δd_n，同时判断UAV是否悬停从而确定UAV在当前时间帧消耗的能量。

本发明采用的第二种技术方案是一种应用于无人机集群辅助传输的多智能体资源优化装置，包括：

获取模块201，用于获取所述N个UAV中每一个UAV在当前时间帧开始时的环境参数，其中所述n＝1，2，…，N，所述环境参数包括每个UAV的当前时间帧所处位置C、当前时间帧用户剩余的待传输的数据量d和当前时间帧的服务分配U；

MADDPG模块202，用于将所述每一个UAV的在当前时间帧开始时的所述环境参数输入确定性策略深度梯度MADDPG模型，以及获取所述MADDPG模型输出的所述每一个UAV在所述当前时间帧的传输策略，其中所述传输策略包括UAV俯仰角增量

无人机方位角增量ΔΦ_n，UAV飞行速度增量Δν_n；

控制模块203，用于控制所述每一个UAV在所述当前时间帧根据所述UAV 俯仰角增量

无人机方位角增量ΔΦ_n，UAV飞行速度增量Δν_n进行主动传输，以将所述的此时间帧内无人机的所处位置C，当前用户剩余的待传输的数据量 d，当前的服务分配U传输至网络侧节点。

本发明采用的第三种技术方案是一种应用于无人机集群辅助传输的多智能体资源优化装置，包括：

存储器301，用于存储程序指令、UAV的环境参数以及传输策略，所述环境参数包括所述环境参数包括无人机的所处位置C，当前用户剩余的待传输的数据量d，当前的服务分配U，所述传输策略包括UAV俯仰角增量

无人机方位角增量ΔΦ_n，UAV飞行速度增量Δν_n；

MADDPG模型302，用于根据所述环境参数确定所述传输策略；

处理器303，用于调用所述程序代码和所述MADDPG模型，以执行如权利要求1-3中任意一项所述的资源优化方法。

本发明的有益效果是：本发明首先将该问题建模为一个混合整数非线性问题(MINP)，其中UAVs的服务分配U通过一个潜在博弈来解决，该博弈保证向纳什均衡(NE)的分布式收敛，然后通过多智能体深确定性策略梯度(MADDPG)方法将初始化的环境参数在环境策略的迭代更新中依次优化每个UAV的轨迹C，传输用户的数据信息D并躲避障碍物Q，该方法具有集中训练和分散执行的巨大优势，以减少全局同步和通信开销。无人机的动作可以在时隙内进行连续性优化，规划出最优的传输路线，使得无线通信网络系统可以最大限度地减少传输延迟，从而提高无人机的能量效率，同时有效的避免障碍物。采用空对地集成移动云计算(MCC)提供给UAVs处理地面用户(GUs)复杂性应用数据的计算能力，使得其具有更大的灵活性以及更高的效率。

附图说明

图1为根据本发明实施例的一种无人机集群辅助传输的无线通信网络系统的系统架构示意图；

图2为根据本发明一种应用于无人机集群辅助传输的多智能体资源优化方法的算法示意图；

图3为根据本发明实施例的辅助传输方法的流程示意图；

图4为根据本发明一实施例的辅助传输方法的流程示意图；

图5为根据本发明另一实施例的辅助传输方法的流程示意图；

图6为根据本发明实施例的MADDPG架构示意图；

图7为根据本发明实施例的MADDPG单一代理细节示意图；

图8为根据本发明实施例的辅助传输装置的模块装置示意图；

图9为根据本发明另一实施例的辅助传输装置的模块装置示意图；

图10为根据本发明实施例的UAVs辅助传输的运动轨迹实现示意图；

图11为根据本发明实施例的UAVs辅助传输的数据传输实现示意图；

图12为根据本发明实施例的UAVs辅助传输的飞行速度实现示意图。

其中，201.获取模块，202.第一MADDPG模块，203.控制模块，301.存储器，302.第二MADDPG模型，303.处理器。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

图1为根据本发明实施例的无人机集群辅助传输的无线通信网络系统架构示意图。如图1所示，无人机被派遣为地面用户提供数据传输中继，该网络的系统包括多个UAV，{1,2,....,N}和多个无线设备GU，{1,2,....,M}，其中N,M为不小于2的整数。无人机可以协同完成数据的辅助传输，然后在云中并行执行，以获得更好的实时性能。因此，无线通信网络系统可以通过选择适当的无人机作为接入点来执行资源分配。在上行链路上，无人机可以飞越该区域，并通过LoS通道与GUs通信。无人机和GUs都配备了一个天线，这样每个无人机就可以通过使用FDMA为特定的GU提供数据中继而相互不受干扰的。本发明认为通信信道遵循准静态块衰落，即通道的状态在传输期间的每个时隙保持不变。

然而，这种针对多架无人机辅助系统的工作机制却带来了新的问题。首先，与只有一个GBS的蜂窝通信不同，系统中有多无人机和地面移动设备，异构性能要求以及快速变化的通信条件使问题更加复杂。此外，无人机通常是电池驱动的，为了改善信道条件，提高传输速率，该系统对耐力的能量消耗很敏感，不仅对移动UE，而且对无人机本身也敏感。不同UEs处理能力有所不同，而不同类型的车载应用程序可能会产生异构的用户感知的QOS，这也被称为体验质量 (QOE)。因此，必须开发一种有效的无人机布局优化算法，以最大限度地提高整体吞吐量，并提供满足传输速率从而满足UEs的QoE要求。综上，如何配置无人机的位置，有限的能耗和复杂的传输QoE要求是一个巨大的挑战。然而，无人机作为无线通信空中平台只能提供中继有限的UE，并移动接近一个UE将恶化其他UE的信道条件。因此，范围内的多UE实际上相互竞争有限的服务。所以无人机在的位置系统应进行优化，以满足所有UE传输要求。

本发明提出了一种应用于无人机集群辅助传输的多智能体资源优化方法，用于无人机集群辅助传输的无线通信网络系统中多UAV进行数据的辅助传输，通过Q潜在博弈和MADDPG模型确定每个UAV的最佳传输策略，如图2，降低了系统传输时延且提高了系统能量利用率同时满足系统QoE，下面对具体的实现过程进行说明。

在本发明多个UAV进行辅助传输场景下，首先进行如下说明：与UAV上行辅助传输时间相比，从MCC/MEC服务器通过UAV返回处理结果至GU的回传延迟非常小，可忽略不计；由于无人机与地面的移动用户的距离足够远，因此无人机与地面用户间的天线高度与空对地链路来讲，可忽略不计；由于在该场景下，设定地面用户发射功率一定，在做无人机轨迹优化过程中主要是考虑到无人机移动过程中对整个无线通信网络系统造成的移动能源消耗的影响，其消耗比地面用户要大很多，因此在考虑能量效率时对于用户所造成的能耗影响波动忽略不计。

如图3所示，本发明一种应用于无人机集群辅助传输的多智能体资源优化方法包括以下内容：

步骤S101：将每个GU_m在当前时间帧开始时的环境参数输入多智能体深度确定性策略梯度(MADDPG)模型；

N个UAV中每一个UAV n在当前时间帧开始时，最小化的博弈开销V_n同时满足全局势函数Φ_n最小，进而使得达到纳什均衡NEU^*，并判断是否在下一帧更新当前的服务分配U；其中，U^*为预测的下一时刻的所有UAV的最优服务分配的集合；无线通信网络系统模型是无人机辅助传输的这样一个无线通信系统：在这样一个系统中指的是空对地的LoS数据传输链路，无人机作为空中移动中继在该系统中为地面用户服务，辅助地面用户进行数据传输。

其中，所述传输策略包括每一个UAV的俯仰角增量

无人机方位角增量ΔΦ_n和UAV飞行速度增量Δν_n；

步骤S104：根据每一个UAV n在当前帧的俯仰角增量

重复执行步骤S101至步骤S103，直到M个GU均完成数据传输。

在一些实施例中，步骤S102具体为：

在一些实施例中，步骤S104中获取环境参数和能量消耗的具体方法为：

步骤S1041：根据每个UAV的俯仰角增量

方位角Φ_n和飞行速度ν_n；

步骤S1042：根据每个UAV的俯仰角

步骤S1044：根据所述累积的已传输数据量

本发明*的步骤S103中，采用由智能体的状态、动作和奖励组成的元组{S， A，R}对所述MADDPG模型进行训练，其中所述状态S包括所述每一个UAV 在所述当前时间帧的所述环境参数，所述动作A包括所述每一个UAV在所述当前时间帧的传输策略，所述奖励R是根据所述每一个UAV的所述的由S和A所更新的当前帧的信息传输速率、Jain公平指数以及UAV的移动能耗确定的。

{S，A，R}皆为每个UAV的个体的元组{s_n,a_n,r_n}分别拼接而组成的，以及所述的R中的Jain公平指数是根据所述N个UAV从开始到当前帧的累计传输的待传输数据量而确定的。根据所述其MADDPG模型在交互过程中传输策略为集中式训练，分布式执行。训练时包含所有个体的环境参数，传输策略以及个体自己的奖励，即{S，A，r_n}，分布式执行时只取用个体自己的环境参数，传输策略以及奖励，即{s_n,a_n,r_n}。所述元组(S，A，R)还包括所述每一个UAV在所述下一时间帧的环境参数S’。

下面对本发明一种应用于无人机集群辅助传输的多智能体资源优化方法的具体实现过程进行说明，以当前时间帧为第k帧为例，主要分为三个部分详细描述，第一部分为该无线通信网络系统的具体模型结构，第二部分为优化算法描述，第三部分为具体模块装置。

1、一种无人机集群辅助传输的无线通信网络系统的系统模型：

在本发明中，主要考虑为无人机集群辅助传输的无线通信网络系统，在该系统中，无人机向地面用户提供中继通信服务。该模型同时联合考虑了UAVs和 GUs之间的通信链路模型，无人机的运动模型以及UAVs的能量消耗模型。首先设定一个服务指示U＝[u_m,n]来表示服务分配，u_m,n∈{0,1}，u_m,n＝1表示UAV n辅助GU m传输数据，反之亦然。由于每个UAV和GU都只配备一根天线，因此存在约束：

无人机的能量由内置锂电池驱动，动力充电站安装在特定位置，用于充电电池。因此，无人机应该不时返回或降落在一个固定的位置。/>

在无线通信网络中，GUs和UAVs之间的上行链路被视为地对空链路。由于在云上执行的密集任务的计算结果被认为是非常小的，因此与任务本身的大小相比，它可以被忽略不计。因此本发明只考虑传输延迟。根据无人机的高度确定为视距传输(LoS)链路，考虑了信号传输的相互干扰以及接收机上附加高斯白噪声(AWGN)，因此，在时隙k用户m到无人机n的传输速率比特/秒/Hz(BPS/Hz) 为r_n,m[k]＝B log₂(1+γ_n,m[k])，B为信道带宽，γ_m，n[k]为该时间帧内无人机n对用户m 信号与干扰加噪声比(SINR)。考虑到UAVs的运动模型，通过更新每个UAV n 的俯仰角增量

方位角增量ΔΦ_n，飞行速度增量Δν_n进而更新其俯仰角/>

方位角Φ_n，飞行速度ν_n来确定无人机下一时刻的位置C’，同时存在动作约束：

在传输过程中，每个UAV相互之间应当保持距离，以避免发生碰撞，其约束具体如下：/>

当不满足约束条件时，会附加惩罚项。为了简便起见，发明设定在范围内的弱信号区域或障碍区域为静态设定Q＝{obstacle₁,obstacle₂,....,obstacle_Q}，其约束条件为：/>

当UAVs碰到障碍物时，同样会附加惩罚项。

对于能量效率这一部分，在通常情况下，无人机是电池驱动的，这使得能源消耗成为可接受的寿命的关键问题。由于无人机需要向用户靠近改善通信条件，但在空中的移动会导致额外的能量消耗，因此应合理规划无人机的轨迹以及用户的服务分配以提高传输效率。假设ω₀和ω₀'分别是单位移动和单位时间悬停所造成的能耗，因此无人机n在时隙k处由移动所造成的能耗为：w_n[k]＝ω₀Δd_n[k]+ω′₀t₀.

本发明的目的是尽量减少相关于GUs的初始输入数据量D_m和能源成本的平均传输延迟。需要优化的参数变量为是服务分配U和UAVs轨迹C。更具体地说，在传输过程中，无人机到达一个新的位置C_n[k]，然后执行服务分配U为特定的GUs提供传输时延。因此每个无人机的性能r_n[k]为

该式分子指的是GUs对UAV n的归一化速率的总和，其中“归一化速率”是指来自特定GU 的传输率除以其数据大小D_m。它对于最小化整体延迟是合理的，可以使具有更大数据规模的GUs能够由它附近的UAV提供服务来获得更好的服务率。那么整个无线通信网络系统的性能R[k]可以表示为：/>

该式表示总体系统奖励R[k]是每个无人机奖励的总和乘以一个公平因子7^f[k]，其中f[k]是Jain的公平指数(JFI)，从1/N(不公平)到1(完全公平)不等。

因此，多无人机辅助传输问题可以被规划为以最大限度地提高累积历史回报问题，而是一个混合整数非线性问题(MINP)，由于目标函数中存在二进制约束以及具有非凸性，可以证明它是一个混合整形非线性问题，对这一复杂问题进行全面的研究是十分复杂和困难的。

2、一种应用于无人机集群辅助传输的多智能体资源优化方法：

本发明提出了一种博弈组合多智能体DRL算法来确定求解P1问题，如图2 所示，该算法使每个代理都能单独与环境交互，并学会选择最佳轨迹C以获得更多的报酬R。为了进一步降低学习复杂性和加快收敛的速度，通过潜在博弈迭代优化服务分配U，证明存在纳什均衡(NE)，从而确定最佳传输策略。下面将对上述算法的实例进行详细描述，分为对服务分配U的博弈论算法优化以及对轨迹C 的MADDPG算法优化。

1)潜在博弈服务分配

博弈论把每个参与者当作一个游戏玩家。而在DRL中，每个无人机也总是被称为智能代理，因此在本发明的下述中没有，区分无人机、玩家和代理。在系统模型中U可作为独立部分进行独立块优化，而潜在博弈可以保证收敛到一个具有有限迭代的纳什均衡，因此可以用潜在博弈事先独立解决U这一部分。

在这里，服务分配可以被建模为一个策略游戏，Γ＝(N,{u_n}_n∈N,{V_n}_n∈N)，N为玩家的数目，u_n＝(u_n,1,…,u_n,m),u_n,m∈{0,1}，上述表示UAV n服务于GU m，以及 u_-n＝(u₁,…,u_n-1,u_n+1,…,u_N)，表示除无人机n以外的服务分配，且u_-n∪u_n＝U，根据博弈论开销函数的一般形式，考虑到其他无人机的服务指示u_-n，无人机n希望为自己选择适当的服务指示u_n，以尽量减少其开销

其构成的第一部分是GU m关于UAV n的传输速率r_n,m，第二部分是为了避免其他无人机i≠n 服务GU m。注意到，V_n同时依赖于u_n和u_-n，而只与无人机的位置C_n[k]和GU的位置C_m'相关，它们可以在迭代循环中被暂时固定。每个玩家都倾向于通过选择适当的服务分配(为0或1)来最小化其开销。因此，得到最小V_n的/>

是：假设有一个矢量U^*＝(u₁,…,u_N)，如果对于所有的无人机，当其他玩家的服务分配指定为u_-n，服务指示向量/>

能够解决开销最小化问题，那么U^*被称为一个(广义的)纳什均衡(NE)。如果游戏已经达到NE U^*，这意味着没有一个玩家可以通过单方面改变其服务指示决定来进一步降低其开销，潜在博弈的一个吸引人的特性是它至少存在一个NE。通过异步更新最佳响应，迭代必须是有限的，并得到NE。具体来说，本发明实施例的多玩家服务分配博弈是一种潜在的博弈，并应始终收敛到具有有限数量的单向开销的NE，其全局潜在函数Φ(U)为所有无人机的开销总和，即对于GU m’来说，除了UAV n之外，没有其他无人机为其提供传输中继，使得存在最小Φ(U)时，满足存在至少一个NE，因此，当只有无人机n单方面更新其开销，而其他玩家的服务指示不会改变。

具体的可以采用下述服务分配优化算法流程1来解决服务分配U：

/>

该算法在所有玩家中被强制同步，直到没有玩家想再更新其开销(即，flag＝＝0)。由于潜在博弈至少存在一个NE，因此重复同步更新机制，通过时间有限迭代达到这样的最佳结果。在传输之前，每个玩家都会在步骤2中收集其他人的指示来构造u_-n，并在步骤五5决定是否更新V_n[k]。如果是的话，UAV想要改善其开销的将会满足更新机会，然后更新其u_n[k]，并向其他玩家广播请求更新(RTU) 消息，使他们更新自己的开销。迭代过程一直持续到无人机不再广播RTU消息。根据引理1，算法1应收敛到NE。

2)MADDPG轨迹优化：

本发明采用多智能体深度确定性决策梯度(MADDPG)优化连续变量C。 MADDPG消除了传统学习或策略梯度不适合多智能体环境的缺点，但仍然保留了DDPG的巨大优势，即动作空间可以是连续的，而不是离散的。如图6所示，基于演员评论家(Actor-Critic)框架，MADDPG是集中式训练，分布式执行的。每个代理都有一个评论家和一个演员，演员将当前的观察状态s_n映射出适当的动作a_n，评论家将根据全局观测S^All来评估输出动作a_n的策略梯度。在训练期间，每个代理的批评者都认为其他代理的一系列决策A^All可以得到更稳健的行动。在执行过程中，每个被很好训练的代理可以独立地做出最优动作a_n，而不参考其他代理动作，从而减少同步通信开销。为了与环境交互，每个无人机通过增量飞行方位更新其位置。为了与环境相互作用，每个无人机通过其俯仰角增量

方位角增量ΔΦ_n，飞行速度增量Δν_n，得到每个UAV的俯仰角/>

方位角Φ_n，飞行速度ν_n，进而更新其位置C_n[k]，并且致力于最大限度地提高累计报酬。

为了简单起见，本发明实例符号取上标表示代理数，下标表示时间帧/步长。详细的状态，(例：

代表在一次事件中的第k时刻的UAV n的动作)。算法中具体的状态/>

动作

奖励/>

定义为如下：

在时刻k的传输决策，也是无人机n的移动增量。

在k时刻的环境状态，C_n[k]和u_n分别是UAV n的坐标和服务分配，/>

为GUs剩余的未被传输的数据量。

由整个系统的性能R[k]定义，为了满足系统约束，在奖励中加入了附加的负项惩罚项，当无人机碰到障碍物或相互碰撞或超出领域位置时发生作用。

更具体的来讲，MADDPG的详细架构如图7所示，其中包含着两类网络： Actor和Critic。其各自还具有两个子网络：现实网络和目标网络。Actor网络通过从确定的分布中选择随机动作来训练生成确定性策略而不是策略梯度。Critic 网络被训练来评估真正的演员。在训练过程中，MADDPG加入噪声N₀，探索更好的策略，并采用了经验缓冲区(RB)。每一个代理都配备了RB来存储算法的状态转移元组

然后进行随机抽取小批量来更新权重。通过经验回放与小批量更新，避免连续更新的高度相关操作，有助于减少方差更新。

通过对目标Q网络训练的经验重放和深度神经元网络(DNN)，基于策略的 DRL在梯度方向上更新参数策略，以改善相关于actor参数μⁿ的值函数J：

其中d^π(sⁿ)是策略π的平稳状态分布， π(aⁿ,sⁿ|μ)基于状态s_n产生单一确定性动作a_n。很明显，演员和批评家网络都可以由DNN近似得到，并且在学习过程相互依赖。在与环境的交互过程中，其具体的网络更新过程为：

·Actor现实网络：

根据当前输入状态/>

与actor选择策略

选择最优的动作/>

代理采用该动作与环境交互获得奖励/>

代理n的actor现实网络的动作参数更新过程为：其中α_μ是参数更新步长。

·Actor目标网络：

负责从经验回放缓存区采样的或环境中得到的下一状态/>

预测下一动作/>

代理n的actor目标网络参数为μ^n'，其动作更新如下：

·Critic现实网络：通过抽取出来的小批量的输入(A^All,S^All)得到Q(S^All,A^All|θ)，进而更新决策梯度

代理n的critic现实网络的参数为θⁿ，θⁿ是根据抽样后的小批量的(A^All,S^All)得到的Q值进而训练，使得到最小的不同时间的状态估计的差异(TD-error)Lⁿ：

θⁿ的更新为/>

其中α_θ是参数更新的步长，其中的y_k由critic目标网络计算可得：/>

·Critic目标网络：负责根据

更新上式y_k。

上述actor和critic目标网络参数更新均采用软更新方式来确保学习的稳定性，克服了大规模问题中的过饱和的问题：θ′←ιθ+(1-ι)θ′,μ′←ιμ+(1-ι)μ′,这里ι为遗忘因子，具体的MADDPG算法流程图如下所示：

/>

/>

通过上述基于MADDPG的优化算法可以在连续空间内搜索最佳动作(即每个UAV的传输策略)，且同时考虑了各个移动设备之间的公平性和其传输大小的差异性。

3)本发明提供的一种应用于无人机集群辅助传输的多智能体资源优化方法如下算法3所示：在同时考虑每个GU剩余传输数据大小、每个UAV移动能耗的情况下，通过采用潜在博弈和MADDPG模型联合确定在每个时间帧中的最佳传输策略，在每个时间帧内最大化即时奖励和未来奖励，保证所有UAVs能够在同一时刻最优平均分配数据传输的目标，降低的系统的整体辅助传输时延，同时提高了系统能耗效率。

/>

3、图8为根据本发明一种应用于无人机集群辅助传输的多智能体资源优化装置的结构示意图，如图8所示，该装置200可以包括：获取模块201、MADDPG 模块202和控制模块203，其中：

获取模块201，可以用于获取所述N个UAV中每一个UAV在当前时间帧开始时的环境参数，其中所述n＝1，2，…，N，所述环境参数包括所述包括所述环境参数包括无人机的所处位置C，当前用户剩余的待传输的数据量d，当前的服务分配U；

MADDPG模块202，可以用于将所述每一个UAV的在当前时间帧开始时的所述环境参数输入确定性策略深度梯度MADDPG模型，以及获取所述MADDPG 模型输出的所述每一个UAV在所述当前时间帧的传输策略，其中所述传输策略包括UAV俯仰角增量

无人机方位角增量ΔΦ_n，UAV飞行速度增量Δν_n；

以及控制模块203，可以用于控制所述每一个UAV在所述当前时间帧根据所述UAV俯仰角增量

无人机方位角增量ΔΦ_n，UAV飞行速度增量Δν_n进行主动传输，以将所述的此时间帧内无人机的所处位置C，当前用户剩余的待传输的数据量d，当前的服务分配U传输至网络侧节点。

该辅助传输装置用于实现前述方法实施例，其实现原理和技术效果类似，此处不再赘述。

图9为本发明一种应用于无人机集群辅助传输的多智能体资源优化装置的另一结构示意图，如图9所示，该装置300可以包括：存储器301、MADDPG模型302、以及处理器303，其可以通过总线互连。

所述存储器301，可以用于存储程序指令、UAV的环境参数以及传输策略，所述环境参数包括所述环境参数包括无人机的所处位置C，当前用户剩余的待传输的数据量d，当前的服务分配U，所述传输策略包括UAV俯仰角增量

无人机方位角增量ΔΦ_n，UAV飞行速度增量Δν_n。需要说明的是，该存储器301 还可以存储其他用于执行辅助传输方法的其他数据或信息，本发明对此不作限制。

所述MADDPG模型302，可以用于根据所述环境参数确定所述传输策略。该MADDPG模型的实现可以参考前文相关描述，此处不在赘述。

所述处理器303，可以用于调用所述程序代码和所述MADDPG模型，以执行如本发明实施例所述的辅助传输方法。

本发明实施例中的辅助传输装置，用于实现前述方法实施例，其实现原理和技术效果类似，此处不再赘述。

图9仅示出了可用于实现本发明所公开的辅助传输装置300的结构示意图。该辅助传输装置300可以利用所有示出的部件或仅仅部件子集，对于不同的情形，结构可能会发生变化。此外，该辅助传输装置可包含组件的多个实例，例如多个处理器、存储器、发射器、接收器、网络接口等。该辅助传输装置还可以包括配备有诸如鼠标、触摸屏、小键盘、键盘、打印机、显示器等一个或多个输入/输出设备的处理单元。处理单元可以包括连接到总线的中央处理器(CPU)、图形处理器(GPU)、存储器、大容量存储设备、视频适配器、I/O接口、网络接口。

总线可以是任何类型的多个总线结构的一个或多个，包括存储器总线或存储器控制器、外围总线、视频总线等。CPU可以包括任何类型的电子数据处理器。存储器可以包括任何类型的系统存储器，比如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步DRAM(SDRAM)、只读存储器(ROM)、及其组合等。在一些实施例中，存储器可包括用于在启动时使用的ROM，以及执行程序时使用的用于程序和数据存储的DRAM。

大容量存储设备可以包括用于存储数据、程序和其它信息以及使这些数据、程序和其它信息通过总线可访问的任何类型的存储设备。大容量存储设备可以包括，例如，固态驱动器、硬盘驱动器、磁盘驱动器、光盘驱动器或类似物中的一种或多种。

视频适配器和I/O接口提供使外部输入和输出设备与处理单元耦合的接口。如图所示，输入和输出设备的示例包括与视频适配器耦合的显示器以及与I/O接口耦合的鼠标/键盘/打印机。其它设备可以与处理单元耦合，并且可以使用到额外或更少的接口卡。例如，可以使用诸如通用串行总线(USB)(未示出)等串行接口来为打印机提供接口。

处理单元还包括一个或多个网络接口，其可包括有线链路，例如以太网电缆等，和/或无线链路以访问节点或不同网络。网络接口允许处理单元通过网络与远程单元进行通信。例如，网络接口可以通过一个或多个发射器/发射天线以及一个或多个接收器/接收天线提供无线通信，其中发射器和接收器可以是集成在一起的。在一实施例中，处理单元与局域网或广域网耦合以便进行数据处理并与远程设备进行通信，比如其它处理单元、互联网、远程存储设备等。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还支持包括计算机可执行代码或计算机可执行指令的计算机程序产品，当所述计算机可执行代码或所述计算机可执行指令被执行时，使至少一个计算机执行本发明所述的运行和计算步骤，特别是上述方法的步骤。这样的计算机程序产品可以包括可读的非暂时性存储介质，其上存储程序代码以供计算机使用。所述程序代码可以执行这里描述的处理和计算步骤，特别是上述方法。

实施例

本发明实例的具体场景以及相关结果如下所示，设定一个800*800m的用户服务区域，无人机在该区域内进行同步辅助传输同时避障，优化飞行轨迹，在为提供最优的QoS的同时最大化能量效率。假设传输过程中的每个时隙的时长为 1000ms，无人机的运动能量系数分别为ω₀＝0.5Joule/m和ω′₀＝0.3Joule/m。发电机的传输功率固定为p＝30mW(14.77dBm)。在参考距离d₀＝1m处的信道功率增益ρ₀设置为-60dB，高斯噪声σ²＝-110dBm。训练过程中的神经网络配置见表四，RB为10kB。动作噪声N是高斯分布，开始时方差为3，每一步以 0.9995衰减。

图示10描述了通过联合博弈的MADDPG进行优化的两架无人机的飞行轨迹(N＝2)。两架无人机的初始位置和最终位置分别为

。无人机的最大速度被限制为v_max＝100m/s。该场景中随机分布6个初始数据大小为70Mbit的GUs。该范围内还有四个障碍物，尺寸为100m×100m宽，高 500m。如前所述，服务分配由潜在博弈决定，轨迹由图中的MADDPG进行优化。图10中的优化轨迹表明，无人机最终将飞到一个预定义的最终位置。在移动过程中，无人机可以有效地避开以最短路径并紧紧环绕障碍物，从而得到最小的功率成本。一旦GU的数据被传输，无人机将移动到下一个，直到没有可以传输的 GU，且联合博弈的MADDPG和联合博弈的DDPG所需的总时间都是200秒来完成数据中继的。

在图10中，无人机在对GU传输中继过程中，无人机下降并靠近GU，其中 UAV1分别为GU2、3、4，UAV2分别为GU1、6、5相应提供传输中继。无人机之间的公平性也出现在图11中，在每个GU处的剩余数据以相同的速率相继下降，这意味着UAV1和UAV2可以相应地为所有GU提供几乎相同的传输速率。相应的飞行速度见图12。无人机面对用户，通过潜在博弈算法可以很好的在每个时刻匹配相应GU进行数据传输，UAV以最大速度移动到目标GU并减速直至悬停，在其上方一个接一个的以进行数据中继，当所有数据传输后，无人机将通过v_max直接移动到最终目的地。此具体场景下的实验场景分析了该场景的无人机最优轨迹，用户辅助传输的优化，公平性等，多方位证明了本发明一种应用于无人机集群辅助传输的多智能体资源优化方法的实用性以及联合博弈MADDPG算法的有效性。

本发明一种应用于无人机集群辅助传输的多智能体资源优化方法中，采用空对地集成移动云计算(MCC)提供给UAVs处理地面用户(GUs)复杂性应用数据的计算能力，使得其具有更大的灵活性以及更高的效率。首先将该问题建模为一个混合整数非线性问题(MINP)，其中UAVs的服务分配U通过一个潜在博弈来解决，该博弈保证向纳什均衡(NE)的分布式收敛，然后通过多智能体深确定性策略梯度(MADDPG)方法将初始化的环境参数在环境策略的迭代更新中依次优化每个UAV的轨迹C，传输用户的数据信息D并躲避障碍物Q，该方法具有集中训练和分散执行的巨大优势，以减少全局同步和通信开销。无人机的动作可以在时隙内进行连续性优化，规划出最优的传输路线，使得无线通信网络系统可以最大限度地减少传输延迟，从而提高无人机的能量效率，同时有效的避免障碍物。

Claims

1.一种应用于无人机集群辅助传输的多智能体资源优化方法，其特征在于，基于一种无线通信网络系统，所述无人机集群辅助传输的无线通信网络系统包括N个无人机UAV，M个地面用户GU，其中N，M为不小于2的整数；

所述资源优化方法包括以下内容：

N个UAV中每一个UAV n在当前时间帧开始时，最小化的博弈开销V_n同时满足全局势函数Φ_n最小，进而使得达到纳什均衡U^*，并判断是否在下一帧更新当前的服务分配U；其中，U^*为预测的下一时刻的所有UAV的最优服务分配的集合；

所述步骤S102的具体为：

步骤S1022：根据A_n(u_-n)进而得到u_n ^*，所述u_n ^*表示最小化每一个UAV n的博弈开销V_n而得到的UAV n的服务分配，并确保满足全局势函数Φ_n也可以得到最小值，该Φ_n表述为所有无人机博弈开销V_n的总和，此时存在纳什均衡，得到NE U^*，U^*表示最优服务分配集合；

步骤S1023：根据U^*确定是否UAV得到服务更新机会，并请求更新信息，进而确定是否更新服务分配于确定性策略深度梯度MADDPG的环境参数中；

步骤S103：通过输入当前时间帧的环境参数，确定性策略深度梯度MADDPG算法模型更新输出每一个GU的传输策略；

其中，所述传输策略包括每一个UAV的俯仰角增量