CN112511250A

CN112511250A - 一种基于drl的多无人机空中基站动态部署方法及系统

Info

Publication number: CN112511250A
Application number: CN202011406139.8A
Authority: CN
Inventors: 赵建伟; 吴官翰; 贾维敏; 金伟; 谭力宁; 王连锋; 廖伟; 张峰干; 朱丰超; 张聪; 姜楠; 沈晓卫
Original assignee: Rocket Force University of Engineering of PLA
Current assignee: Rocket Force University of Engineering of PLA
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-16
Anticipated expiration: 2040-12-03
Also published as: CN112511250B

Abstract

本发明涉及一种基于DRL的多无人机空中基站动态部署方法及系统。该方法包括：获取待部署的目标区域范围；根据所述目标区域范围，采用ATG信道模型确定无人机的部署高度；基于所述部署高度、所述目标区域范围内用户分布、无人机数量和更新时间段，构建多无人机基站动态部署的神经网络模型；所述神经网络模型包括Actor网络和Critic网络；基于DRL的训练方式对所述神经网络模型进行训练，得到训练后的Actor网络；基于所述更新时间段内初始时刻每个无人机的位置信息和每个用户的位置信息，采用所述训练后的Actor网络生成每个无人机在所述更新时间段内的运动决策。本发明可以在地面用户位置信息时变条件下，提升无人机基站的通信效能。

Description

一种基于DRL的多无人机空中基站动态部署方法及系统

技术领域

本发明涉及空中基站部署领域，特别是涉及一种基于DRL的多无人机空中基站动态部署方法及系统。

背景技术

近年来，无人机由于其快速响应和高度灵活等特性，成为了各领域关注、应用的焦点。在未来的民用或军事战场上，天基、空基、地基将会是一体组网，形成一个多层异构的无线网络架构，在万物互联模式之下我们身边的每一个物件都可能是一个智能化设备，构成网络的一个节点，通过网络可以随时将信息回传至云端。在不久的将来，物联网设备将会充斥着我们的生活，随之而来的也有海量的数据通信需求，信息通信与人工智能技术飞速发展之下，无人机作为连接天基、地基的一个中间层，将会起到至关重要的作用。

无人机作为空中基站是属于辅助地面蜂窝网络通信的一种新应用。随着目前数据需求业务的爆炸式增长，一些热点地区，例如拥堵的高架桥、重大体育赛场还有大型的集会场所等，均可能出现地面核心网负载超限的情况，导致当地局部地区的通信业务质量不高甚至中断，这时便可利用无人机作为空中接入节点(Air Access Node,AAN)，为地面基站卸载部分业务，缓解固定基站压力，提升用户服务质量(Quality of Service,QoS)。这样的情况还会发生在一些自然灾害地区，例如地震和山洪滑坡导致当地地面基站受损，短时间无法架设固定基站，为满足当地的临时通信需求，无人机可作为空中移动基站，在一定时间内为地面用户提供数据通信的服务。

无人机基站拥有良好的视距链路(Line of Sight,LoS)，可以在一定程度上减少非视距链路(Non-line of Sight,NLoS)造成的多径和阴影效应，减少不必要的损耗，在现实部署过程中，部署效益也是一个值得考虑的问题。由于覆盖能力有限，数量有限的无人机通常无法像固定基站一样实现目标区域的全范围覆盖，需要考虑在目标区域内根据地面用户的移动针对性地设计其部署。在实际的应用场景中，往往需要多架无人机根据用户的运动调整自己的3D位置，从而提供更优质的服务，在现有研究当中，缺乏对多无人机基站协作的动态部署方面的设计与考虑。

发明内容

本发明的目的是提供一种基于DRL的多无人机空中基站动态部署方法及系统，以在地面用户位置信息时变条件下，提升无人机基站的通信效能。

为实现上述目的，本发明提供了如下方案：

一种基于DRL的多无人机空中基站动态部署方法，包括：

获取待部署的目标区域范围；

根据所述目标区域范围，采用ATG信道模型确定无人机的部署高度；

基于所述部署高度、所述目标区域范围内用户分布、无人机数量和更新时间段，构建多无人机基站动态部署的神经网络模型；所述神经网络模型包括Actor网络和Critic网络，所述Actor网络用于生成运动决策，所述Critic网络用于拟合价值函数；

基于DRL的训练方式对所述神经网络模型进行训练，得到训练后的Actor网络；

基于所述更新时间段内初始时刻每个无人机的位置信息和每个用户的位置信息，采用所述训练后的Actor网络生成每个无人机在所述更新时间段内的运动决策。

可选的，所述根据所述目标区域范围，采用ATG信道模型确定无人机的部署高度，具体包括：

利用公式

确定无人机的LoS链路概率；其中，P_LoS为无人机的LoS链路概率；a和b为概率参数，与目标区域的环境相关；θ为通信仰角，与所述目标区域范围相关；

利用公式P_NLoS＝1-P_LoS确定无人机的NLoS链路概率；其中，P_NLoS为无人机的NLoS链路概率；

利用公式

确定无人机的LoS路径损耗；其中，L_LoS为无人机的LoS路径损耗；ζ_LoS为无人机LoS的附加损耗；f_c为信号载频；d为无人机到地面用户的直线距离；c为光速；

利用公式

确定无人机的NLoS路径损耗；其中，L_NLoS为无人机的NLoS路径损耗；ζ_NLoS为无人机NLoS的附加损耗；

确定无人机ATG信道模型为：L＝P_LoSL_LoS+P_NLoSL_NLoS；其中，L为无人机到地面用户传输信号的路径损耗；

基于所述无人机ATG信道模型，根据在所述目标区域范围下，使得无人机到地面用户传输信号的路径损耗最小的无人机到地面用户的直线距离，确定无人机的部署高度。

可选的，所述基于所述部署高度、所述目标区域范围内用户分布、无人机数量和更新时间段，构建多无人机基站动态部署的神经网络模型，具体包括：

确定多无人机基站动态部署的优化目标为：

约束条件为：

其中，T_ij表示在更新时间段T时，第i架无人机与第j个地面用户的关联情况，T_ij＝1表示第i架无人机与第j个地面用户之间相关联，T_ij＝0表示第i架无人机与第j个地面用户无关联；M为无人机的数量，N为地面用户的数量；x_i为第i架无人机在飞行平面的横坐标，y_i为第i架无人机在飞行平面的纵坐标，无人机的飞行平面为地面上方处于部署高度的水平面；[x_min,x_max]为无人机在飞行平面的横向边界，[y_min,y_max]为无人机在飞行平面的纵向边界；

表示无人机在更新时间段内t时隙移动的距离，

v_max为无人机的最大速度；a_max为最大加速度；

表示在更新时间段内t时隙时第i架无人机的飞行方位角，

Δθ_max为最大方位角变化量；所述更新时间段包括多个时隙；

基于所述优化目标和约束条件，构建多无人机基站动态部署的神经网络模型；所述神经网络模型中Actor网络的输入为联合状态信息，所述Actor网络的输出为联合动作信息；所述联合状态信息为：

所述联合动作信息为：

其中，

为在t时隙时所有无人机的水平坐标，所述水平坐标包括横坐标和纵坐标，i∈[1,2,…,M]；

为更新时间段T内地面用户的坐标信息j∈[1,2,…,N]；n_t为在当前时隙t下，无人机群关联用户的总数。

可选的，所述基于DRL的训练方式对所述神经网络模型进行训练，得到训练后的Actor网络，具体包括：

对于每一个训练回合，初始化联合状态信息；所述神经网络模型包括三个神经网络，分别为Actor_new网络、Actor_old网络和Critic网络；所述Actor_new网络和所述Actor_old网络结构相同，用于输出连续动作的概率分布；所述Critic网络用于拟合价值函数；每一个训练回合包括多次迭代，每次迭代包括多个阶段，每个阶段包括多个时隙；

对于当前训练回合第k次迭代的第m个阶段的第t个时隙，将联合状态信息作为所述Actor_new网络的输入量，输出联合动作；所述联合动作为正态分布参数；

依据所述正态分布参数构建动作的概率分布，采样得到具体动作；

所有无人机均按照采样得到的具体动作移动一个时隙，得到下一个时隙的联合状态信息；

根据奖励函数计算得到当前时隙t的单步奖励；

将当前时隙的经验轨迹(s_t,a_t,r_t)记录保存在缓存池中；其中，s_t为当前时隙的联合状态信息，a_t为当前时隙的联合动作，r_t为当前时隙的单步奖励；

判断缓存池是否达到预设的内存块大小；

当缓存池未达到预设的内存块大小时，更新当前时隙，更新当前时隙的联合状态信息，返回“将联合状态信息作为所述Actor_new网络的输入量，输出联合动作”步骤，进入下一个时隙；

当缓存池达到预设的内存块大小时，基于所述缓存池中的经验轨迹，用bellman方程计算每个阶段的累积奖励；

将Actor_new网络中的参数赋值给Actor_old网络中的参数；

基于Critic网络计算所述缓存池中每个时隙的状态价值；

根据每个时隙的状态价值和累积奖励，以梯度下降法更新Critic网络中的参数；

将所述缓冲池中所有的联合状态信息输入Actor_new网络和Actor_old网络，得到动作概率分布；

根据所述动作概率分布计算所述缓冲池中每个时隙的联合动作的概率，得到每个时隙的重要性权值；

根据每个时隙的重要性权值和优势函数，采用梯度上升法更新Actor_new网络的参数；

判断当前阶段是否达到最大阶段；

若当前阶段未达到最大阶段，清空所述缓存池中的数据，更新当前阶段，返回“将联合状态信息作为所述Actor_new网络的输入量，输出联合动作”步骤，进入下一个阶段；

若当前阶段达到最大阶段，返回“初始化联合状态信息”步骤，进入下一个训练回合；

当达到最大训练回合次数时，判断所有回合的累积奖励是否满足收敛；每个回合的累积奖励为该回合中所有时隙的累积奖励之和；

当训练回合的累积奖励满足收敛时，得到训练好的Actor_new网络模型；

将训练好的Actor_new网络模型确定为训练后的Actor网络；所述训练后的Actor网络使用输出的正态分布均值作为动作分量；

当训练回合的累积奖励不满足收敛时，调整DRL训练方式的超参数或者神经网络模型的结构，重新进行训练，直到累积奖励收敛，得到训练好的Actor_new网络模型。

可选的，所述奖励函数为：

r_t＝r_s+r_g+r_z+r_b；

其中，

为奖励基础项，N为地面用户的数量，n_t为在当前时隙t下无人机群关联用户的总数；

为关于覆盖率β的函数，ξ_g、λ_g分别是奖励因子和梯度参数，ξ_g∈(0,1)，λ_g为大于1的正常数；r_z＝ξ_zΔn_t是关于覆盖用户数变化量的势能函数，ξ_z为比例系数，Δn_t为当前时隙状态下覆盖数和前一时隙下状态下覆盖数的变化量；r_b＝κ_tξ_b为惩罚项，κ_t为时隙t时采取输出的联合动作动作后逾越边界的无人机数，ξ_b为惩罚因子。

本发明还提供一种基于DRL的多无人机空中基站动态部署系统，包括：

目标区域范围获取模块，用于获取待部署的目标区域范围；

部署高度确定模块，用于根据所述目标区域范围，采用ATG信道模型确定无人机的部署高度；

神经网络模型构建模块，用于基于所述部署高度、所述目标区域范围内用户分布、无人机数量和更新时间段，构建多无人机基站动态部署的神经网络模型；所述神经网络模型包括Actor网络和Critic网络，所述Actor网络用于生成运动决策，所述Critic网络用于拟合价值函数；

训练模块，用于基于DRL的训练方式对所述神经网络模型进行训练，得到训练后的Actor网络；

运动决策生成模块，用于基于所述更新时间段内初始时刻每个无人机的位置信息和每个用户的位置信息，采用所述训练后的Actor网络生成每个无人机在所述更新时间段内的运动决策。

可选的，所述部署高度确定模块具体包括：

LoS链路概率确定单元，用于利用公式

NLoS链路概率确定单元，用于利用公式P_NLoS＝1-P_LoS确定无人机的NLoS链路概率；其中，P_NLoS为无人机的NLoS链路概率；

LoS路径损耗确定单元，用于利用公式

NLoS路径损耗确定单元，用于利用公式

无人机ATG信道模型确定单元，用于确定无人机ATG信道模型为：L＝P_LoSL_LoS+P_NLoSL_NLoS；其中，L为无人机到地面用户传输信号的路径损耗；

部署高度确定单元，用于基于所述无人机ATG信道模型，根据使得无人机到地面用户传输信号的路径损耗最小的无人机到地面用户的直线距离，确定无人机的部署高度。

可选的，所述神经网络模型构建模块具体包括：

优化目标和约束条件确定单元，用于确定多无人机基站动态部署的优化目标为：

约束条件为：

表示无人机在更新时间段内t时隙移动的距离，

v_max为无人机的最大速度；a_max为最大加速度；

表示在更新时间段内t时隙时第i架无人机的飞行方位角，

神经网络模型构建单元，用于基于所述优化目标和约束条件，构建多无人机基站动态部署的神经网络模型；所述神经网络模型中Actor网络的输入为联合状态信息，输出为联合动作信息；所述联合状态信息为：

所述联合动作信息为：

其中，

可选的，所述训练模块具体包括：

初始化单元，用于对于每一个训练回合，初始化联合状态信息；所述神经网络模型包括三个神经网络，分别为Actor_new网络、Actor_old网络和Critic网络；所述Actor_new网络和所述Actor_old网络结构相同，用于输出连续动作的概率分布；所述Critic网络用于拟合价值函数；每一个训练回合包括多次迭代，每次迭代包括多个阶段，每个阶段包括多个时隙；

Actor_new网络输出单元，用于对于当前训练回合第k次迭代的第m个阶段的第t个时隙，将联合状态信息作为所述Actor_new网络的输入量，输出联合动作；所述联合动作为正态分布参数；

动作采样单元，用于依据所述正态分布参数构建动作的概率分布，采样得到具体动作；

联合状态信息更新单元，用于所有无人机均按照采样得到的具体动作移动一个时隙，得到下一个时隙的联合状态信息；

单步奖励计算单元，用于根据奖励函数计算得到当前时隙t的单步奖励；

缓存池保存单元，用于将当前时隙的经验轨迹(s_t,a_t,r_t)记录保存在缓存池中；其中，s_t为当前时隙的联合状态信息，a_t为当前时隙的联合动作，r_t为当前时隙的单步奖励；

判断单元，用于判断缓存池是否达到预设的内存块大小；

时隙迭代单元，用于当缓存池未达到预设的内存块大小时，更新当前时隙，更新当前时隙的联合状态信息，返回“将联合状态信息作为所述Actor_new网络的输入量，输出联合动作”步骤，进入下一个时隙；

累积奖励计算单元，用于当缓存池达到预设的内存块大小时，基于所述缓存池中的经验轨迹，用bellman方程计算每个阶段的累积奖励；

Actor_old网络参数更新单元，用于将Actor_new网络中的参数赋值给Actor_old网络中的参数；

状态价值计算单元，用于基于Critic网络计算所述缓存池中每个时隙的状态价值；

Critic网络参数更新单元，用于根据每个时隙的状态价值和累积奖励，以梯度下降法更新Critic网络中的参数；

动作概率分布确定单元，用于将所述缓冲池中所有的联合状态信息输入Actor_new网络和Actor_old网络，得到动作概率分布；

重要性权值计算单元，用于根据所述动作概率分布计算所述缓冲池中每个时隙的联合动作的概率，得到每个时隙的重要性权值；

Actor_new网络参数更新单元，用于根据每个时隙的重要性权值和优势函数，采用梯度上升法更新Actor_new网络的参数；

阶段判断单元，用于判断当前阶段是否达到最大阶段；

阶段更新单元，用于若当前阶段未达到最大阶段，清空所述缓存池中的数据，更新当前阶段，返回“将联合状态信息作为所述Actor_new网络的输入量，输出联合动作”步骤，进入下一个阶段；

训练回合更新单元，用于若当前阶段达到最大阶段，返回“初始化联合状态信息”步骤，进入下一个训练回合；

收敛判断单元，用于当达到最大训练回合次数时，判断所有回合的累积奖励是否满足收敛；每个回合的累积奖励为该回合中所有时隙的累积奖励之和；

迭代停止单元，用于当训练回合的累积奖励满足收敛时，得到训练好的Actor_new网络模型；

训练后的Actor网络确定单元，用于将训练好的Actor_new网络模型确定为训练后的Actor网络；所述训练后的Actor网络使用输出的正态分布均值作为动作分量；

重新训练单元，用于当训练回合的累积奖励不满足收敛时，调整DRL训练方式的超参数或者神经网络模型的结构，重新进行训练，直到累积奖励收敛，得到训练好的Actor_new网络模型。

可选的，所述奖励函数为：

r_t＝r_s+r_g+r_z+r_b；

其中，

为关于覆盖率β的函数，ξ_g、λ_g分别是奖励因子和梯度参数，ξ_g∈(0,1)，λ_g为大于1的正常数；r_z＝ξ_zΔn_t是关于覆盖用户数变化量的势能函数，ξ_z为比例系数，需要根据实际环境设计为一个合适大小的值(通常为正常数)，综合考虑此部分的奖励值和前部分奖励的值，使其保持在一个合适的大小范围；Δn_t为当前时隙状态下覆盖数和前一时隙下状态下覆盖数的变化量，即n_t-n_t-1，防止其来回在高覆盖和低覆盖之间徘徊“刷分”的行为；r_b＝κ_tξ_b为惩罚项，κ_t为时隙t时采取输出的联合动作动作后逾越边界的无人机数，ξ_b为惩罚因子。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明针对多无人机协作模式下对运动用户的实时覆盖问题，提出了一种基于PPO深度强化学习的动态部署方法及系统，在最佳部署高度下，多架无人机依据自身及用户的位置信息，完成状态到最佳移动策略的映射，实现了对运动用户的实时覆盖，解决了传统处理此类动态环境问题时，重复使用启发式或穷举算法带来的时间成本和计算开销巨大问题，相较于最大面积原则的静态部署方法，在目标区域无法实现全覆盖时，同样数量的无人机能够达到更高覆盖率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于DRL的多无人机空中基站动态部署方法的流程示意图；

图2为本发明基于DRL的多无人机空中基站动态部署系统的结构示意图；

图3为本发明仿真实例中每个回合训练累计奖励情况；

图4为本发明仿真实例中一个回合覆盖数变化曲线图；

图5为本发明仿真实例中DRL方法与其他部署算法对比图；

图6为本发明仿真实例中DRL方法与其他部署算法的平均覆盖率对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明基于DRL的多无人机空中基站动态部署方法的流程示意图。如图1所示，本发明基于DRL的多无人机空中基站动态部署方法包括以下步骤：

步骤100：获取待部署的目标区域范围。首先需要获取目标区域的环境、目标区域范围(半径)、目标区域内用户分布、无人机数量等信息，以供后续无人机控制动态控制。

步骤200：根据目标区域范围，采用ATG信道模型确定无人机的部署高度。在不同环境下无人机的ATG信道模型不同，无人机搭载小型化的基站设备，在目标区域上空进行无线覆盖时需要预先考虑待部署区域的环境特性，并针对性地根据待服务区域大小部署数量合适的无人机基站。能耗大小对于无人机基站来说也同样关键，无人机的能源总是有限的，在满足地面用户最低通信需求的情况下，最小化无人机基站功放模块的发射功率可以尽量延长其服务时间，而减少不必要的路径损耗则是一种有效且必要的方式。

ATG信道模型反应信号在空中的传播特性，主要影响问题建模中多无人机基站集群的统一部署高度。确定ATG信道模型的具体过程如下：

1.首先确定待部署区域环境，然后确定对应的概率参数，概率参数如表1所示。

表1不同环境下的概率参数

部署环境	概率参数(a,b)
		郊区	(4.88，0.43)
城市	(9.61，0.28)
		密集城市	(12.08，0.16)
高层建筑城市	(27.23，0.12)

基于表1，可以得到无人机的LoS链路概率

其中a、b为概率参数，取决于所处环境；θ是通信仰角，单位为弧度，是指地面用户与无人机形成通信链路的夹角，θ＝arctan(h/R)，R为目标区域的半径。从(1)中可以看出θ越大代表LoS链路出现的概率越高。同时可以获得NLoS链路的概率为P_NLoS＝1-P_LoS。

在信号传播过程当中，LoS和NLoS的路径损耗L_LoS、L_NLoS通过附加损耗ζ_LoS和ζ_NLoS进行区别

其中f_c为信号载频，d为无人机到地面用户的直线距离，d²＝h²+R²；c为光速。因此，无人机ATG信道的路径损耗模型可以表示为

L＝P_LoSL_LoS+P_NLoSL_NLoS (4)

公式(4)，路径损耗L是部署高度h和覆盖半径R(目标区域的半径)的函数，确定覆盖半径R后可以通过求极值的方式得到L的极小值，即在该h下L最小，此时h对应的就是最佳高度。

无人机在达到设定的覆盖半径时，部署高度h与路径损耗L关系之间存在一个最小值，即存在一个最佳部署高度h_opt使得路径损耗最小为L_min。在通信仰角较低时，NLoS链路占据较大概率从而带来了较大的附加损耗，而随着仰角的增加LoS链路逐渐成为主导，故而路径损耗开始降低，但是随着部署高度继续增加，NLoS链路出现的概率越来越小，其附加损耗的影响变得微乎其微，而此时无人机与地面用户通信距离的增加又导致了过多的自由空间传播损耗。所以，在满足R的覆盖半径下，存在一个最佳部署高度，使得无人机基站到小区边缘用户的路径损耗最小。在满足用户最低QoS需求下，设置噪声功率一定，用户的最小有用信号接收功率门限设为P_th，此时在满足小区边缘用户通信需求的条件下，无人机对该边缘用户的最小发射功率P_t＝L_min+P_th，而对小区内其他用户的最小发射功率均可低于此功率。由于无人机基站的最大发射功率有限，同时出于对节省能源的考虑，于是将无人机基站统一部署在此最佳高度，可以使得路径损耗最小从而延长工作时间。

步骤300：基于部署高度、目标区域范围内用户分布、无人机数量和更新时间段，构建多无人机基站动态部署的神经网络模型。所述神经网络模型包括Actor网络和Critic网络。

本发明在目标区域内部署了M架无人机作为空中基站，用(x_i,y_i,z_i),i∈[1,2,…,M]表示第i架无人机的位置坐标，使其对一个区域范围内随机移动的N个地面用户进行搜索覆盖，(x_j,y_j,0),j∈[1,2,…,N]表示第j个地面用户的坐标。由于用户的移动速度通常远低于无人机飞行速度，故在该问题中我们考虑将T作为一个时间间隔，T划分为t个时隙，在每T的时间间隔后用户坐标进行一次采集更新。而无人机可以在t个时隙内，根据训练好的策略部署到新的位置，省去穷举搜索一类算法的大量计算开销与时间成本，提升部署的实时性和效率。在同一个时隙t时，每个地面用户最多只能关联一架无人机基站，当一个地面用户被多架无人机基站同时覆盖时出于能耗考虑，优先选择欧式距离最近的无人机基站进行关联，于是得到了多无人机基站动态部署的优化目标为：

x_min≤x_i≤x_max (7)

y_min≤y_i≤y_max (8)

上式(5)中T_ij表示在T时段时，第i架无人机与第j个地面用户的关联情况，当用户处在无人机基站的额定覆盖范围内时，即认为可以形成关联，用户关联时T_ij为1，反之则为0；(6)式表示在同一时隙中，每个用户最多只能与一架无人机基站形成关联；(7)、(8)是对无人机飞行范围的约束，在训练时如果飞离边界将会受到一个惩罚，并将其拉回至目标区域内。在(9)、(10)中

表示无人机t时隙移动的距离，

v_max为无人机的最大速度，即一个时隙内所能移动的最大距离，

表示t时隙时第i架无人机的飞行方位角，

在现实中为了更加节省能源和出于安全考虑，无人机需有最大加速度限制，表示为a_max，同时为了让其飞行轨迹更加平滑防止姿态变化过大，我们给定了输出方位角约束Δθ_max。

基于上述问题模型，对于多无人机多目标的动态覆盖场景，很适合作为MDP去寻求最优策略，因此构建神经网络模型，对多无人机空中位置进行实施部署。在(S,A,P,R,γ)的五元组表示中，S代表状态空间，A代表动作空间，P代表状态转移概率，R代表奖励函数，γ代表折扣因子。由于地面用户位置信息的动态性，利用传统的启发式算法在寻找最优部署位置时，通常是将动态拓扑以网络快照的形式转变为静态拓扑处理，需要耗费大量计算时间，不适合进行动态目标跟踪，而强化学习的策略映射可以直接从状态输出动作继而控制无人机根据新的用户分布进行移动。

通常来说，在当地的固定地面基站负荷过大情况之下，地面用户无法获得一个较好的QoS保证，但是可以通过北斗、GPS或有限的信道资源上传自身的位置坐标。因此，为了让无人机群了解到足够的信息去进行优化部署，采用联合状态信息为s_t：

其中

代表在t时隙时所有无人机的水平坐标，由于所有无人机均部署在同一最优高度，因此无需包含高度信息，无人机群的联合位置信息依靠地面控制站或者通信卫星转发可以实现每个时隙实时更新。

代表T时段所有地面用户的坐标信息，训练时每隔T时段采集更新一次。n_t表示在当前时隙t下，无人机群关联用户的总数，通过此信息无人机可以获得当前覆盖是否达到一个合格的标准。在t时隙时无人机群的联合动作a_t为：

在执行时，每个时刻每架无人机将当前自己的状态输入训练好的MDP模型，按照输出的a_t决定自己下一时刻飞行的方位和距离并且实时更新自己的状态。

步骤400：基于DRL的训练方式对所述神经网络模型进行训练，得到训练后的Actor网络。本发明采用基于MDP马尔可夫决策模型设计的PPO算法，根据欲训练的无人机所处状态、可采取的动作来确定一个策略选择动作，而与环境交互的过程就是，状态、动作→新状态、新动作……，在此过程中，通过每次选择动作执行后达到的新状态确定奖励，然后调整策略。在该算法中定义有3个神经网络，1个Critic网络用来拟合状态价值函数V(s_t)，2个分别带有新旧策略参数的Actor网络用来输出连续动作的概率分布，其参数记为θ_new、θ_old，相较于基于信任区域的TRPO算法来说更简单且效果相近。

用网络参数为θ的策略π_θ与环境交互得到一系列的经验记录，记为(s_t,a_t,r_t,s′_t)，r_t和s′_t分别表示在t时刻s_t状态下执行a_t动作之后，环境反馈的奖励以及转移的新状态。这些经验在用来更新一次Actor网络之后便无法再直接使用，于是算法采用重要性权值来进行修正。例如现有的样本x服从q分布，想得到p分布下的期望E[f(x)],x～p，但此时p分布的样本没办法得到。通过现有样本的数据来求得期望，利用q分布来进行修正：

这样便把原问题转化为求解

在q分布下的期望，而

是重要性权重。

在PPO算法中存在一个缓存区D，用来存放在当前策略π_θ下与环境交互形成的经验元组，此经验收集过程中策略π_θ不会发生改变，当满足一定条件后依据最后得到的转移状态通过贝尔曼方程计算折扣奖励，并从D中取出数据用于训练。重要性权值

用来修正旧策略π_θ产生的样本数据，使得经验可以多次使用。

同时为了防止更新步幅过大，并且减小重要性权值修正之后带来的方差影响，相较于采用新旧策略之间KL散度约束法，采用直接利用clip函数的方法将ω_t(θ)裁剪到一个适合的范围，降低计算复杂度的同时保证性能。因此，目标函数可以定义为(12)所示，并采用梯度上升的方式更新Actor。

(12)中

表示t时刻采取a_t动作的优势函数估计，优势函数用来评价a_t动作相较于状态价值来说的优劣，Q(s_t,a_t)为状态动作值函数，表示在s_t状态执行a_t动作后未来奖励的期望，依据bellman方程进行计算，而ε是设定的一个较小的超参数，将ω_t(θ)限制在一个范围防止产生较大的更新梯度。

具体训练过程如下：

1.首先初始化3个神经网络参数，清空经验缓存池D，设置训练的超参数(训练最大回合数、每个回合最大飞行时隙数、Actor网络学习率、Critic网络学习率、折扣因子、训练批次、重要性权值参数)，在每个训练回合，按上述随机生成目标区域，目标区域内随机生成用户分布，根据初始起飞位置和用户位置信息联合编码得到初始联合状态信息S₀。

2.S₀归一化处理后作为Actor_new网络(参数记为θ_new的Actor网络)的输入量，输出为动作的正态分布参数(均值、方差)，即联合动作；

3.依据生成的均值和方差构建动作的概率分布(动作的每个维度均生成一个对应的正态分布)，采样得到具体的动作(此处需对采样到的动作进行限制约束，满足前述的飞行约束条件)。

4.所有无人机均按照采样得到的动作移动一个时隙，状态此时转移到新的状态S₁，得到在S₁位置时的覆盖数，由设计的奖励函数计算得到的单步奖励，将(s₀,a₀,r₀)这条经验轨迹记录保存在D的缓存池中。在DRL中，一个好的奖励函数就像一个好的指引路标，而对于多无人机覆盖运动目标的场景下，若完成任务才施以奖励的话会导致出现稀疏奖励，以至于很难学到有效经验。因此，在设计奖励函数时为了更好达到任务要求，本发明采用Reward Shaping的方式将奖励分为了4个部分：

r_t＝r_s+r_g+r_z+r_b (16)

其中

为奖励基础项，是依据覆盖用户数目线性增长的奖励并将其归一化。

是关于覆盖率β的函数；ξ_g、λ_g分别是奖励因子和梯度参数，ξ_g∈(0,1)将奖励大小进行缩放，该函数的指数形式为无人机提供了一个附加的奖励梯度，使其更倾向于获得高覆盖率条件下的高奖励，λ_g通常为大于1的正常数。r_z＝ξ_zΔn_t是关于覆盖用户数变化量的一个势能函数，可以防止无人机在一个区域来回刷分。r_b＝κ_tξ_b作为一个惩罚项，由于我们希望无人机群在可能需要部署的目标区域内运动，所以当它们中任何一架飞越了设定边界时，训练时需要将其拉回至目标区域内并给定一个惩罚，κ_t为s_t状态时采取a_t动作后逾越边界的无人机坐标数，逾越边界的坐标数越多，则会得到一个越大惩罚，ξ_b为惩罚因子通常取负常数。

5.然后将S₁替代S₀重复上述2、3、4步骤与环境交互收集经验，存放经验到D缓存池中记为(s_t,a_t,r_t)。

6.当与互动次数达到设定的训练批次或回合结束后，取出D中数据，用bellman方程计算累积奖励。

此时进入神经网络参数训练环节。先将θ_new赋值给θ_old(两个Actor网络模型结构一致)，然后用Critic网络计算D中状态价值(归一化状态作为输入，输出该状态的价值)，用计算的每个状态的累积奖励减去每个状态的价值得到优势函数的值，更新Critic网络的方式就是梯度下降最小化累积奖励与Critic评估的状态价值之间的均方差。

在训练多无人机基站动态部署模型时，每个回合T∈[1,T_m]在上述区域随机生成用户分布，无人机获得初始状态S₀并输入参数为θ_new的Actor网络，依据输出的均值和标准差生成动作的概率分布，并采样得到具体的动作。在每执行一个具体动作后Critic网络都能从环境的反馈中得到奖励信息r_t，然后将无人机状态转移到下一个状态s_t+1，并把(s_t,a_t,r_t)以经验元组的形式存入D，在此过程中θ_new并未发生改变。当与环境交互的步骤满足一定条件时，依据转移到的最后一个状态通过Critic网络计算其状态价值

以bellman方程计算累积奖励

并计算优势函数

然后将(17)作为损失函数以梯度下降的方式用来更新Critic网络参数φ，其中V(s_t)是Critic网络对D中存储的状态评估的价值。

7.D中的所有状态S_t归一化输入Actor_new、Actor_old网络，得到动作概率分布，并依据此分布计算D中所有动作a_t的概率，继而得到重要性权值。

8.计算Actor网络的目标函数，从7中得到的重要性权值乘上优势函数的值，对比将重要性权值限制在(1-ε，1+ε)范围内乘上优势函数的值，取二者中小的值，以梯度上升的方式更新Actor网络(更新θ_new)，然后利用D中数据重复计算更新Actor、Critic网络数次。

9.清空D中数据开始下一个训练回合，重复上述步骤，直到回合结束。

10.模型训练收敛后，取出训练好的Actor_new网络模型，作为无人机集群的控制模型即训练后的Actor网络，此时只需要根据归一化输入的状态则可以输出对应的联合动作，采样得到具体的动作。在采用训练好的Actor网络进行部署时，无需生成分布采样动作，直接使用输出的正态分布均值作为其动作分量。

步骤500：基于更新时间段内初始时刻每个无人机的位置信息和每个用户的位置信息，采用训练后的Actor网络生成每个无人机在更新时间段内的运动决策。根据生成的运动决策经过采样可以得到无人机群的动作。

基于上述方法，本发明还提供一种基于DRL的多无人机空中基站动态部署系统，图2为本发明基于DRL的多无人机空中基站动态部署系统的结构示意图。如图2所示，本发明基于DRL的多无人机空中基站动态部署系统包括：

目标区域范围获取模块201，用于获取待部署的目标区域范围。

部署高度确定模块202，用于根据所述目标区域范围，采用ATG信道模型确定无人机的部署高度。

神经网络模型构建模块203，用于基于所述部署高度、所述目标区域范围内用户分布、无人机数量和更新时间段，构建多无人机基站动态部署的神经网络模型。所述神经网络模型包括Actor网络和Critic网络，所述Actor网络用于生成运动决策，所述Critic网络用于拟合价值函数。

训练模块204，用于基于DRL的训练方式对所述神经网络模型进行训练，得到训练后的Actor网络。

运动决策生成模块205，用于基于所述更新时间段内初始时刻每个无人机的位置信息和每个用户的位置信息，采用所述训练后的Actor网络生成每个无人机在所述更新时间段内的运动决策。

作为具体实施例，本发明基于DRL的多无人机空中基站动态部署系统中，所述部署高度确定模块202具体包括：

LoS链路概率确定单元，用于利用公式

确定无人机的LoS链路概率；其中，P_LoS为无人机的LoS链路概率；a和b为概率参数，与目标区域的环境相关；θ为通信仰角，与所述目标区域范围相关。

NLoS链路概率确定单元，用于利用公式P_NLoS＝1-P_LoS确定无人机的NLoS链路概率；其中，P_NLoS为无人机的NLoS链路概率。

LoS路径损耗确定单元，用于利用公式

确定无人机的LoS路径损耗；其中，L_LoS为无人机的LoS路径损耗；ζ_LoS为无人机LoS的附加损耗；f_c为信号载频；d为无人机到地面用户的直线距离；c为光速。

NLoS路径损耗确定单元，用于利用公式

确定无人机的NLoS路径损耗；其中，L_NLoS为无人机的NLoS路径损耗；ζ_NLoS为无人机NLoS的附加损耗。

无人机ATG信道模型确定单元，用于确定无人机ATG信道模型为：L＝P_LoSL_LoS+P_NLoSL_NLoS；其中，L为无人机到地面用户传输信号的路径损耗。

作为具体实施例，本发明基于DRL的多无人机空中基站动态部署系统中，所述述神经网络模型构建模块203具体包括：

约束条件为：

表示无人机在更新时间段内t时隙移动的距离，

v_max为无人机的最大速度；a_max为最大加速度；

表示在更新时间段内t时隙时第i架无人机的飞行方位角，

Δθ_max为最大方位角变化量；所述更新时间段包括多个时隙。

所述联合动作信息为：

其中，

作为具体实施例，本发明基于DRL的多无人机空中基站动态部署系统中，所述训练模块204具体包括：

判断单元，用于判断缓存池是否达到预设的内存块大小；

阶段判断单元，用于判断当前阶段是否达到最大阶段；

作为具体实施例，本发明基于DRL的多无人机空中基站动态部署系统中，所述奖励函数为：

r_t＝r_s+r_g+r_z+r_b；

其中，

下面提供一个仿真实例，进一步说明本发明的方案。

本仿真实例的目标区域为在城市环境下10km×10km的目标区域，在该区域内部署了3架无人机基站对30个地面用户进行跟踪覆盖。同时本仿真实例与粒子群优化部署法和基于最大面积原则的静态部署法进行了200个回合的测试对比，验证所提算法的有效性和优越性。

无人机基站的额定覆盖半径R设为1km，在此覆盖半径下的最佳部署高度h约为600m，通信条件欠佳区域为{[2km,7km],[2km,7km]}的正方形，地面用户在此范围随机分布。为防止用户过于分散无法验证出实验效果，我们在每个训练回合让所有用户坐标在一个3km×3km的小正方形区域内随机生成，该小正方形区域在上述通信条件欠佳的大正方形区域内随机出现，3架无人机从(1km,1km)的地点升空，达到要求高度后根据已知信息进行自主部署。最大飞行速度v_max设为50m/s,最大加速度a_max设为15m/s²。

图3显示了在训练的2000个回合中，每个回合累积奖励变化情况，可以看到算法在大约1000个回合时开始收敛。前300个回合无人机一直在尝试和探索，随机性较多，在此阶段会时常违反约束而得到惩罚。在后续的约700个回合中，无人机处于探索最优策略的过程但累积奖励还在不断上升，在此阶段无人机还会偶有违反约束的情况发生，但也能偶尔寻找到最佳的覆盖位置。在最后的约500个回合中，无人机已经能够根据在服务区域内每个回合随机生成的用户坐标进行位置部署，在达到最大覆盖时悬停用户上空直到下一次用户坐标的更新。图4是在测试的某个回合中，无人机从出发点到最佳位置的覆盖情况，我们可以发现，由于初始出发点距离用户生成区域较远，前约110个时隙无人机快速飞向用户区域，到达目标区域之后3架无人机分散进行用户覆盖并且最终实现了全体覆盖。

接下来，利用本发明所提算法与传统粒子群优化部署法、最大面积原则的静态部署法进行了200个回合的覆盖率测试对比。在使用粒子群算法时，每个回合都采用了100个粒子迭代500次找到当前回合下的最优部署位置，在最大面积原则的静态部署法仿真当中，在{[2km,7km],[2km,7km]}的区域中心静止部署了3架无人机，使其在地面的覆盖区域为两两相切且半径为1km的圆，最大程度增加其覆盖范围。

从图5、6中可以看到，基于粒子群优化算法的部署方式能够达到平均92.4％的覆盖率，其主要原因是在上述仿真环境中，地面用户的基数比较少，故而对覆盖率的大小影响较大，同时由于在3km×3km的正方形区域内随机生成用户，用户依旧较为分散，会存在3架无人机基站无法同时全部覆盖的情景，这也导致了覆盖率整体水平不高，但粒子群优化算法不失为一种优秀的基线作为对照。在基于最大面积的静态部署方法中，由于覆盖能力有限，只能达到平均66.3％的覆盖率。而采用了DRL的多无人机基站动态部署方法中，达到了平均94.5％的覆盖率，已经十分接近粒子群算法的寻优能力。但由于现实中更多是动态环境，多次重复使用粒子群等启发式算法去寻优会耗费巨大的计算开销，同时也不利于实时性的动态部署，因此DRL的方式显得十分有效。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。