CN110531617B

CN110531617B - 多无人机3d悬停位置联合优化方法、装置和无人机基站

Info

Publication number: CN110531617B
Application number: CN201910695765.4A
Authority: CN
Inventors: 许文俊; 徐越; 吴思雷; 冯志勇; 张平; 林家儒
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-01-08
Anticipated expiration: 2039-07-30
Also published as: CN110531617A

Abstract

本发明公开了多无人机3D悬停位置联合优化方法、装置和无人机基站。该方法首先获取无人机所处的异构网络的状态信息；将状态信息输入预先构建的深度强化学习网络，通过当前策略决策下一时刻的悬停位置，并从环境中获得无人机在当前时刻的悬停位置的回报函数值；基于异策略深度确定梯度策略算法，求取更新的梯度，多个无人机同步更新策略参数；根据更新梯度，迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤，使目标策略函数逐渐收敛，直至得到最优策略。该装置包括状态获取单元、回报单元、梯度更新单元和训练单元。无人机基站，其处理器可执行本发明方法。本发明实现了多无人机在环境中自主学习，可以适应动态、非平稳的环境变化。

Description

多无人机3D悬停位置联合优化方法、装置和无人机基站

技术领域

本发明涉及无线通信技术领域，特别涉及多无人机3D悬停位置联合优化方法、装置和无人机基站。

背景技术

多无人机悬停位置优化技术是无人机通信系统中不可或缺的一个关键技术，无线通信系统正在向多元化、异构的形式发展。在异构网络中，宏基站、小基站以及无人机基站同时存在。无人机基站的悬停位置决定了无人机与地面通信终端的通信速率，以及对通信系统中其他基站的干扰噪声，并间接影响了地面基站的通信负载。

目前用于多无人机悬停位置优化的方法主要为博弈均衡的方法。如一篇申请号为“201810766194.4”的中国专利申请，公开了一种基于离散平均场博弈的多无人机空对地无线通信方法。该方法首先根据通信链路传输速率阈值以及无人机能耗构造出相应的成本函数，并制定出一个使长期平均成本函数最小的优化问题。其次建立离散时间平均场博弈模型，通过不断迭代更新得到功率和速度的最优控制。该发明在进行多无人机功率和速度优化时，运用离散时间场博弈的方法，综合无人机传输速率的阈值和无人机耗能构造目标成本函数，最小化平均成本函数得到最优功率控制和最优速度控制，解决了现有技术中多无人机通信链路成功率和能量效率低的问题。

然而该现有方案在运用博弈均衡方法进行优化时，通常对无线通信环境有着极强的假设，如下述假设：1)地面通信终端静止，因此得到的无人机优化控制仅仅是针对一个真实网络的瞬间状态；2)无人机与地面通信终端仅建立一对一的静态链接；3)假设无人机仅在竖直方向上运动，水平方向上保持静止，以及二维状态的联合估计取定值；4)单一基站类型等。以上假设极大地限制了无人机系统的运作机制，无法适用于多基站类型的异构网络，与真实场景差距较大。

综上，现有技术中的无人机悬停位置优化方法，由于受限制因素较多，无法适用于实际通信环境。

发明内容

本发明的目的是提出一种多无人机3D悬停位置联合优化方法、装置和无人机基站，以解决上述技术问题。

为实现上述目的，本发明提供了如下方案：

本发明实施例的第一个方面，提供了一种多无人机3D悬停位置联合优化方法，包括如下步骤：

获取无人机所处的异构网络的状态信息；

将状态信息输入预先构建的深度强化学习网络，通过当前策略决策下一时刻的悬停位置，并从环境中获得无人机在当前时刻的悬停位置的回报函数值；

基于异策略深度确定梯度策略算法，求取更新的梯度，多个无人机同步更新策略参数；

根据梯度，迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤，使目标策略函数逐渐收敛，直至得到最优策略。

可选的，基于异策略深度确定梯度策略算法，求取更新梯度，多个无人机同步更新策略参数，包括：

利用异策略深度确定梯度策略算法，计算目标策略函数更新的梯度；

基于预先建立的多无人机共享一服务器的分布式平行学习框架，多个无人机将计算得到的梯度上传至同一服务器；

根据服务器进行全局参数更新后反馈的策略参数，多个无人机进行同步更新。

可选的，获取无人机所处的异构网络的状态信息，包括获取如下状态信息：每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例；

和/或，从环境中获得无人机在当前时刻的悬停位置的回报函数值，包括对吞吐量回报和能量回报进行求和，得到回报函数值：

其中，

表示t时刻的吞吐量回报；

表示t时刻的能量回报，等同于传输信息需要的发射功率；α是平衡吞吐量最大和能量损耗最小的参数；

表示t时刻的通信终端u连接地面基站所需要的物理资源块；

表示t时刻的通信终端u连接无人机所需要的物理资源块。

可选的，在获取无人机所处的异构网络的状态信息，之前还包括步骤：将强化学习网络和深度神经网络相结合，预先构建深度强化学习网络；所述深度强化学习网络包括评价网络和行动网络；

利用异策略深度确定梯度策略算法，计算目标策略函数的梯度，包括步骤：评价网络通过目标策略函数拟合出状态-行动值函数，并向行动网络提供状态-行动值函数的更新梯度；行动网络，根据评价网络提供的更新梯度，对目标策略函数进行梯度更新，得到当前待执行的目标策略。

可选的，应用经验回放和小批量学习，估算出评价网络的第一参数梯度，包括：

在t时刻，无人机m当前状态由

经动作

转换到状态

并得到回报函数

生成状态转换元组

并存储在本地经验回放池D_m；从所述经验回放池中随机取出预设数量的训练样本，用于更新评价网络的第二参数ω_m；运用基于小批量学习的随机梯度下降方法估算出第二参数ω_m的梯度为：

其中

为第二参数梯度；K为随机取出的训练样本的数量；

为拟合出的状态-行为值函数；γ为折扣因子，取值范围γ∈[0,1]；s_i+1表示下一时刻的状态；

表示下一时刻状态下的策略；

表示在状态s_i、动作

条件下的回报函数值；

为基于当前回报函数值

和状态-行为值函数估计出的修正值；

表示对ω_m求导；

和/或，行动网络得到的第一参数θ的梯度如下：

其中，α_θ为更新步长，

表示对为θ_m求导，

表示对a_i求导。

可选的，该方法还包括步骤：

额外应用与评价网络、行动网络分别对应的引导评价网络和引导行动网络，用于分别表示引导状态-行为值函数

和引导目标策略

和

分别是第二深度神经网络和第三深度神经网络的参数，并与所述第二参数ω_m和第一参数θ_m相互独立，更新过程如下：

其中τ为固定更新步长，上式中加上右上角标t均表示在t时刻的对应各参数。

本发明实施例的第二个方面，还提供一种多无人机3D悬停位置联合优化装置，包括状态获取单元、回报单元、梯度更新单元和训练单元；

状态获取单元，用于获取无人机所处的异构网络的状态信息；

回报单元，用于将状态信息输入预先构建的深度强化学习网络，通过当前策略决策下一时刻的悬停位置，并从环境中获得无人机在当前时刻的所述悬停位置的回报函数值；

梯度更新单元，用于基于异策略深度确定梯度策略算法，求取更新梯度，对多个无人机的策略参数进行同步更新；

训练单元，用于根据梯度，迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤，使目标策略函数逐渐收敛，直至得到最优策略。

可选的，梯度更新单元，用于：

根据服务器进行全局参数更新后反馈的策略参数，对多个无人机的策略参数进行同步更新。

可选的，状态获取单元，用于获取如下状态信息：每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例；

回报单元，用于对吞吐量回报和能量回报进行求和，得到回报函数：

其中，

表示t时刻的吞吐量回报；

表示t时刻的通信终端u连接地面基站所需要的物理资源块；

表示t时刻的通信终端u连接无人机所需要的物理资源块。

本发明实施例的第三个方面，还提供一种无人机基站，包括处理器，该处理器用于执行上述多无人机3D悬停位置联合优化方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了多无人机3D悬停位置联合优化方法、装置和无人机基站，实时获取异构网络的状态信息，以该状态信息作为深度强化学习网络的输入，并从通信环境获得在当前状态下执行当前策略后的下一时刻的悬停位置的回报函数，根据异策略深度确定梯度策略算法求取出更新梯度，对深度强化学习网络进行训练，使目标策略函数逐渐收敛，进而得到下一时刻使回报最大化的悬停策略。本发明在多无人机悬停位置优化中引入了深度强化学习技术，具体通过异策略深度确定梯度策略算法，实现多无人机在环境中自主学习并更新策略，减小样本之间的相关性，快速高效输出新的优化后的悬停位置，同时还可以适应动态、非平稳的环境变化；同时，该方法能够适用于异构网络的通信环境，不受通信基站为单一类型等因素的限制，更具实际应用价值；

进一步地，本发明建立了多无人机分布式平行学习的框架，其中使用了中心化的同于更新策略参数的服务器进行全局参数的更新，共享了无人机之间的学习经验，提升了整体的学习效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多无人机3D悬停位置联合优化方法的一个实施例的流程示意图；

图2为本发明多无人机3D悬停位置联合优化方法的另一个实施例中整体结构及相关数据交互示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例1提供了一种多无人机3D悬停位置联合优化方法，如图1所示，该方法包括如下步骤：

S101，获取无人机所处的异构网络的状态信息。

S102，将状态信息输入预先构建的深度强化学习网络，通过当前策略决策下一时刻的悬停位置。

策略即从状态到动作的映射。

S103，并从环境中获得无人机在当前时刻的悬停位置的回报函数值。

S104，基于异策略深度确定梯度策略算法，求取更新的梯度。

S105，多个无人机同步更新策略参数。

S106，根据步骤S104求取出的梯度，迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤，使目标策略函数逐渐收敛，直至得到最优策略。

本发明将深度强化学习技术引入多无人机悬停位置优化中，融合了基于异策略确定策略梯度OPDPG算法的强化学习方法和深度神经网络；使无人机拥有通过大量飞行数据进行自我学习的能力，实现了对多无人机的悬停位置进行联合优化，完成信息的更高能效传输，且该方案能够适用于异构网络，更贴合实际应用需求。

实施例2

本发明实施例2提供一种多无人机3D悬停位置联合优化方法的另一个实施例。

本发明实施例2提供的优化方法的主体流程图如图2所示。本发明实施例应用的场景为地面宏基站、地面微基站、无人机基站同时存在的异构网络，地面通信终端通过判决信号接收功率(RSRP)的大小，选择进行连接的基站。当相邻的基站信号接收功率满足切换条件时，终端切换连接的基站。

在该实施例中，首先获取异构网络的环境的状态信息，输入预先建立的深度强化学习网络，网络通过当前策略函数决策下一个时刻的悬停位置，并从环境中获得无人机在此行为下的回报函数。每个无人机分布式地利用异策略深度确定梯度策略算法(off-policy deterministic policy gradient，OPDPG)计算目标策略函数的梯度，同时无人机之间共用一个参数服务器，上传策略函数的梯度联合进行全局参数的更新，经过多次状态输入、行动决策、奖励回报、参数更新的过程，目标优化策略逐渐收敛，适应环境并得到最优策略。

具体地，该实施例提供的优化方法包括步骤：

S200，初始化深度强化学习的各个参数，随机分布无人机基站的初始悬停位置。

S201，获取状态信息。

为应对不同基站类型，首先需要观测计算无人机此时所处的通信环境的状态，实时获取每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载以及每个无人机拥有的边缘用户的比例，作为状态信息，并输入预见构建的深度强化学习网络。

S202，通过当前策略决策下一时刻的悬停位置，并从环境中获得无人机在当前时刻的悬停位置的回报函数值。

S203，将当前时刻、根据当前策略所采取的动作、无人机与环境交互获得的回报函数以及下一个时刻的状态，以(当前时刻，采取行动，奖励回报，下一个时刻状态)转换元组的形式储存，作为历史转换元祖存入经验回放池。

S204，无人机从历史转换元组中随机选择一小部分，利用小批量转换元组对深度强化学习网络进行训练，计算评价网络以及行动网络的相关参数的梯度，并将梯度传送至参数服务器。

选取的小批量转换元组的数目可由本领域技术人员根据实际需要具体设定。

S205得到所有无人机的网络参数梯度后，全局联合更新得到新的网络参数。

返回步骤S201重复上述操作，直至无人机任务结束。

在本发明实施例2中，利用参数服务器中的参数值，同步更新每一个无人机基站中深度强化学习网络的参数，共享了无人机之间的学习经验，提升了整体的学习效率。

实施例3

本发明实施例3提供一种多无人机3D悬停位置联合优化方法的再一个优选实施例。

在OPDPG算法中，采用异策略学习方式，因此训练得到的此目标策略和探索环境的行动策略互不相同。目标策略是一个确定方程，在给定状态s_i下a_i＝π(s_i)，用于无人机贪婪地选取最优行动。然而贪婪算法无法保证对环境状态进行充分探索学习，因此引入行动策略β(a|s)，以随机过程的方式采取行动，用于无人机探索未知的环境。

在本发明实施例中，OPDPG算法运用了行动-评价方法。行动-评价的方法结合了基于值函数和基于策略梯度的强化学习方法，继承了策略梯度算法可以在连续动作空间做出动作决策的优点，同时改善了其基于回合更新的低效率学习特点。

该实施例提供的优化方法主要包括步骤：

S300，预先构建深度强化学习网络。

首先需要在无人机飞行前构建模型基础网络结构，将强化学习网络和深度神经网络相结合，得到深度强化学习网络，由行动网络和评价网络两部分组成。

S301，获取异构网络的状态信息。

本发明实施例考虑的场景仍为基于多无人机基站的异构网络。假设该异构网络中有M个无人机基站，K个地面基站，U个地面通信终端，分别用集合M,K,U表示。

该步骤S301用于获取每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例。

作为一种可实施方式，边缘用户根据用户的接收SINR(信号与干扰加噪声比，Signal to Interference plus Noise Ratio)大小来定义。简单来说，信号接收质量差的用户即为边缘用户。实际操作中可将接收SINR低于特定值的用户判定为边缘用户，但具体判定的SINR阈值需根据环境参数与仿真结果来调整，并不唯一，本发明不一一列举。

具体步骤如下：

S3011，计算路径损耗。

无人机基站与地面通信终端连接的通信信道，使用sub-6GHz频段的频率，视线传输(LoS)在该无线链路中占主导地位。无人机基站m∈M与地面通信终端u∈U的平均路径损耗可以表示为：

其中f_c代表中心频率，

代表t时刻无人机基站m与地面通信终端u之间的欧氏距离，c代表光速，η_LoS代表LoS链路的附加空间传播损耗，是一个常量。

地面基站k∈K与地面通信终端u的平均路径损耗可以表示为：

其中

代表t时刻地面基站k与地面通信终端u之间的欧氏距离。

S3012，计算吞吐量。

地面通信终端u接收来自无人机基站m信息的信噪比(SINR)可以表示为:

其中

代表无人机基站m的传输功率，

代表t时刻无人机基站m与地面设备u之间信道的增益，N₀为噪声功率。假定所有设备的传输功率和噪声功率相同，信道增益只受路径损耗决定，所以

而且无人机移动带来的多普勒效应可以用现有技术完美补偿，如锁相环技术。因此，设备u向无人机传输的最大速率可以表示为：

B代表信道带宽，假定所有终端的带宽相同。

S3013，计算地面基站的通信负载。

假设每个地面用户在t时刻有连续的信息速率需求

因此其需要的物理资源块(PRBs)可以表示为：

其中N_c是防止信道质量过低导致占用大量物理资源块的常数限制。最终，地面基站的通信负载可以定义为：

其中

代表地面基站k拥有的全部物理资源块数量，

代表t时刻与地面基站k连接的用户集合。

地面基站的平均负载即多个地面基站的通信负载的均值。

S3014，将各状态信息量化表示。

异构网络的状态可以被特征化为如下：

无人机基站m到地面基站k的距离

m∈M,k∈K；

地面基站的通信负载ρ_k,k∈K；

地面基站的平均通信负载

边缘用户的比例E_k,k∈K。

因此，异构网络的状态可以表示为：

S302，以当前状态信息作为深度强化学习网络模型的输入，基于当前策略得到下一时刻的悬停位置，并求取回报函数。

强化学习的目标是通过选择行为最大化累计回报，寻找最优策略。通常面对未知的动态环境利用马尔科夫决策过程(MDP)进行建模，其包含状态空间S，行动空间A，回报函数r:S×A→R¹，以及满足马尔可夫性的状态转移概率p(s_t+1|s₁,a₁,…,s_t,a_t)＝p(s_t+1|s_t,a_t)。在每个状态s_t，无人机用户通过策略与环境交互，策略是指状态到动作的映射。

在建模过程中，需要将动作进行量化表示。考虑无人机在三维空间内的x轴、y轴、z轴方向均可以移动。特别的，无人机基站m在t时刻的动作包括：i)x轴方向的移动距离

ii)y轴方向的移动距离

iii)z轴方向的移动距离

在每个方向上，无人机移动的距离是连续、有界的。在t时刻，所有无人机采取的动作用符号

表示。

在本发明实施例中，回报函数由吞吐量回报和能量回报组合构成。吞吐量回报部分定义为用户从连接地面基站到连接无人机基站所需要的物理资源块减少量，可以表示为：

其中U_m'代表选择连接无人机基站的地面通信终端集合。能量回报部分定义为传输信息需要的发射功率，可以表示为：

总回报可以表示为吞吐量回报和能量回报的求和：

其中α是平衡吞吐量最大和能量损耗最小的参数，最终实现提升通信系统的能量效率。

在本发明实施例中，策略是一个状态空间到行动空间的映射概率

θ_m为需要优化的参数。M个无人机基站的策略可以写作

θ＝{θ₁，...，θ_M}为需要优化的参数。

S303，建立目标方程。

在强化学习中，状态s在策略π_θ下的状态值方程被定义为长期累积的回报。当状态为s时，无人机基站m的价值方程可以定义为：

γ为折扣因子，取值范围γ∈[0,1]。相似的，状态-行为值方程可以定义为：

无人机m的强化学习的目标方程定义为：

其中β_m:S→P(A)是用户m的随机行动行为策略，

是用户m的折扣状态访问分布，可表示为

因此，基于深度强化学习的高能效无人机3D悬停位置优化问题为：

其中，C₁,C₂,C₃限制了无人机动作的界限，C₄,C₅,C₆限制了无人机在三维空间可以悬停位置的边界，C₇限制了用户只能与一个基站建立连接。

S304，求取更新梯度。

为解决目标问题得到目标策略，需要计算目标方程的梯度，在确定策略π_θ下，目标方程(即目标策略函数)的梯度可以计算得到：

其中

每个无人机分别学习，由于每个无人机的回报

互不相同。

评价网络和行动网络分别包括对应的深度神经网络，评价网络中的深度神经网络拟合状态行动函数，行动网络中的深度神经网络表示确定性目标策略，更新时评价网络向行动网络提供状态行动函数的策略梯度作为联系。

具体地，评价网络通过目标策略函数π(s)估计状态-行动值函数

而行动网络基于预测的状态-行动值函数进行梯度更新目标策略。深度神经网络作为函数估计器，用于对状态-行动值函数

的估计，以及对目标策略π_θ(s)的优化，其中ω_m和θ分别为深度强化学习的参数。状态行动函数即Q函数，

表示在π策略条件下对应的Q函数，这个函数是待拟合函数；

则正是对

的拟合，其中ω_m是Q函数中的待优化参数，θ为目标策略函数π的待优化参数。

优选地，深度神经网络应用经验回放和小批量学习，可以很好的克服经验数据的相关性和非平稳分布并高效利用历史数据。

应用经验回放和小批量学习的具体过程如下：

在t时刻，无人机m的行动学习机基于行动策略采取行动

当前状态由

转换到

并得到回报

于是生成状态转换元组

并存储在本地经验回放池D_m。从经验回放池中随机取出小批量训练样本，用于更新评价网络的参数ω_m，首先定义损失函数为：

其中，

接下来，运用基于小批量学习的随机梯度下降方法估算目标方程的梯度，

其中K为随机取出的训练样本的数量，即小批量数据的数目大小。其中

为第二参数梯度；K为随机取出的训练样本的数量；

表示下一时刻状态下的策略；

表示在状态s_i、动作

条件下的回报函数值；

为基于当前回报函数值

和状态-行为值函数(Q函数)估计出的修正值；

为仅基于Q函数估计出的Q值预测(当前回报函数值

未知)。

与

的差值error是修正策略的重要信息。

是求导符号，代表对ω_m求导。

行动网络基于OPDPG算法更新目标策略

得到行动网络的参数梯度，

通过梯度

和

更新参数ω，θ，有：

其中α_ω和α_θ分别为更新步长，

表示对为θ_m求导，

表示对a_i求导。

S305，多无人机同步更新。

在多无人机平行学习的框架中，每个无人机得到梯度

和

后上传至参数服务器，在服务器上对参数ω，θ进行全局更新，即

更优地，在本发明实施例中引入引导状态-行为值函数

和引导目标策略

其中

和

分别是两个深度神经网络的参数，并与ω_m和θ_m相互独立，可以进一步减小数据的相关性，从而减小策略梯度参数更新时的方差，降低迭代更新时的计算复杂度，提升学习效率。

具体地，额外应用两个和上述结构相同的深度神经网络，分别是引导评价网络和引导行动网络，分别用于表示得出引导状态-行为值函数

和引导目标策略

在实现中，两个深度神经网络的参数更新应比较缓慢，使策略更容易收敛，参数更新如下：

其中τ作为固定更新步长，τ＜＜1。

本发明实施例在多无人机悬停位置优化中引入了深度强化学习技术，具体采用深度确定策略梯度算法，使多无人机在环境中自主学习，更新策略，并且减小样本之间的相关性，快速高效输出新的优化后的悬停位置，同时还可以适应动态、非平稳的环境变化；

本发明实施例通过采用多无人机间平行探索学习的框架，在所有无人机采取行动后，获得状态转换元组，通过深度神经网络得到参数更新梯度；使用了中心化的参数服务器进行全局参数的更新，共享了无人机之间的学习经验，提升了整体的学习效率；并缓慢更新引导目标网络，使目标策略函数更易收敛。

实施例4

本发明实施例还提供一种基于深度强化学习的无人机轨迹优化装置，包括状态获取单元、回报单元、梯度更新单元和训练单元。

状态获取单元，用于获取无人机所处的异构网络的状态信息。

回报单元，用于将状态信息输入预先构建的深度强化学习网络，通过当前策略决策下一时刻的悬停位置，并从环境中获得无人机在当前时刻的悬停位置的回报函数值。

梯度更新单元，用于基于异策略深度确定梯度策略算法，求取更新梯度，对多个无人机的策略参数进行同步更新。

训练单元，用于根据更新梯度，迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤，使目标策略函数逐渐收敛，直至得到最优策略。

实施例5

本发明实施例还提供一种无人机基站，包括处理器，该处理器用于执行本发明提供的基于深度强化学习的无人机轨迹优化方法。

综上，本发明引入了深度强化学习技术，提出了基于异策略的深度确定策略梯度算法的联合学习方案，相比于现有技术中的无人机悬停位置优化方法，本发明达到了如下技术效果：

首先，本发明在适应场景及环境的能力强于现有技术中的“一种基于离散平均场博弈的多无人机空对地无线通信方法”。由于本发明引入深度强化学习算法，在学习的过程中不断优化策略函数，而不是采用固定形式的平均场函数，因此具有更强的灵活性，面对变化、非平稳的环境也可以自主学习进行适应；

其次，本发明通过采用多无人机间平行探索学习的框架，在所有无人机采取行动后，获得状态转换元组，通过深度神经网络得到参数更新梯度，参数服务器综合所有无人机的更新梯度，对参数进行全局优化，相比现有技术提升了优化学习效率；

再者，本发明训练过程的输入以及输出的数据对象均可为三维连续数据，不限制地面通信终端是否移动，即本发明提供的优化方案适用于连续三维空间下的无人机悬停位置优化、异构基站组成、终端动态移动等应用场景，对比现有技术更符合真实场景需求，实用性更强。

在一个或多个示例性设计中，所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.多无人机3D悬停位置联合优化方法，其特征在于，包括如下步骤：

获取无人机所处的异构网络的状态信息；

将所述状态信息输入预先构建的深度强化学习网络，通过当前策略决策下一时刻的悬停位置，并从环境中获得无人机在当前时刻的所述悬停位置的回报函数值；

基于异策略深度确定梯度策略算法，求取更新的梯度，多个所述无人机同步更新策略参数；

根据所述梯度，迭代执行从获取所述状态信息到同步更新多个所述无人机的策略参数的步骤，使目标策略函数逐渐收敛，直至得到最优策略。

2.根据权利要求1所述的多无人机3D悬停位置联合优化方法，其特征在于，所述基于异策略深度确定梯度策略算法，求取更新梯度，多个所述无人机同步更新策略参数，包括：

利用异策略深度确定梯度策略算法，计算所述目标策略函数更新的梯度；

基于预先建立的多无人机共享一服务器的分布式平行学习框架，多个所述无人机将计算得到的所述梯度上传至同一服务器；

根据所述服务器进行全局参数更新后反馈的策略参数，多个所述无人机进行同步更新。

3.根据权利要求1所述的多无人机3D悬停位置联合优化方法，其特征在于：

所述获取无人机所处的异构网络的状态信息，包括获取如下状态信息：每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例；

和/或，所述从环境中获得无人机在当前时刻的所述悬停位置的回报函数值，包括对吞吐量回报和能量回报进行求和，得到回报函数值：

r_t ^m＝r_t ^m,throughput+α·r_t ^m,power；

其中，r_t ^m,throughput表示t时刻的吞吐量回报；r_t ^m,power表示t时刻的能量回报，等同于传输信息需要的发射功率；α是平衡吞吐量最大和能量损耗最小的参数；

表示t时刻的通信终端u连接地面基站所需要的物理资源块；

表示t时刻的通信终端u连接无人机所需要的物理资源块，U_m'表示选择连接无人机基站的地面通信终端集合。

4.根据权利要求2所述的多无人机3D悬停位置联合优化方法，其特征在于：

在获取无人机所处的异构网络的状态信息，之前还包括步骤：将强化学习网络和深度神经网络相结合，预先构建深度强化学习网络；所述深度强化学习网络包括评价网络和行动网络；

所述利用异策略深度确定梯度策略算法，计算所述目标策略函数更新的梯度包括步骤：所述评价网络通过所述目标策略函数拟合出状态-行动值函数，并向所述行动网络提供所述状态-行动值函数的更新梯度；所述行动网络，根据所述评价网络提供的更新梯度，对所述目标策略函数进行梯度更新，得到当前待执行的目标策略。

5.根据权利要求4所述的多无人机3D悬停位置联合优化方法，其特征在于：

所述方法还包括应用经验回放和小批量学习，估算出所述评价网络的第二参数梯度，具体包括：

在t时刻，无人机m当前状态由

经动作

转换到状态

并得到回报函数r_t ^m，生成状态转换元组

其中

为第二参数梯度；K为随机取出的训练样本的数量；

表示下一时刻状态下的策略；

表示在状态s_i、动作

条件下的回报函数值；

为基于当前回报函数值

和状态-行为值函数估计出的修正值；

表示对ω_m求导；

表示无人机m的目标策略；

表示当前时刻状态s_i对应的策略；

和/或，所述行动网络得到的第一参数θ的梯度如下：

其中，α_θ为更新步长，

表示对为θ_m求导，

表示对a_i求导。

6.根据权利要求5所述的多无人机3D悬停位置联合优化方法，其特征在于，该方法还包括步骤：

额外应用与所述评价网络、所述行动网络分别对应的引导评价网络和引导行动网络，用于分别表示引导状态-行为值函数

和引导目标策略

和

7.多无人机3D悬停位置联合优化装置，其特征在于，包括状态获取单元、回报单元、梯度更新单元和训练单元；

所述状态获取单元，用于获取无人机所处的异构网络的状态信息；

所述回报单元，用于将所述状态信息输入预先构建的深度强化学习网络，通过当前策略决策下一时刻的悬停位置，并从环境中获得无人机在当前时刻的所述悬停位置的回报函数值；

所述梯度更新单元，用于基于异策略深度确定梯度策略算法，求取更新梯度，对多个所述无人机的策略参数进行同步更新；

所述训练单元，用于根据所述梯度，迭代执行从获取所述状态信息到同步更新多个所述无人机的策略参数的步骤，使目标策略函数逐渐收敛，直至得到最优策略。

8.根据权利要求7所述的多无人机3D悬停位置联合优化装置，其特征在于，所述梯度更新单元，用于：

根据所述服务器进行全局参数更新后反馈的策略参数，对多个所述无人机的策略参数进行同步更新。

9.根据权利要求7所述的多无人机3D悬停位置联合优化装置，其特征在于：

所述状态获取单元，用于获取如下状态信息：每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例；

所述回报单元，用于对吞吐量回报和能量回报进行求和，得到回报函数：

r_t ^m＝r_t ^m,throughput+α·r_t ^m,power；

表示t时刻的通信终端u连接地面基站所需要的物理资源块；

10.一种无人机基站，包括处理器，其特征在于，所述处理器用于执行权利要求1-6任一项所述的多无人机3D悬停位置联合优化方法。