CN115494732B

CN115494732B - 一种基于近端策略优化的无人机轨迹设计和功率分配方法

Info

Publication number: CN115494732B
Application number: CN202211194735.3A
Authority: CN
Inventors: 陆元媛; 颜志; 欧阳博; 刘经纶; 毛建旭
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2024-04-12
Anticipated expiration: 2042-09-29
Also published as: CN115494732A

Abstract

本发明公开了一种基于近端策略优化的无人机轨迹设计和功率分配方法，包括获取当前环境状态；根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的随机变量，选择动作并保存动作选取概率，当动作超过预设的加速度上限时，作出相应调整；当执行更新后的动作违反约束条件时，则作出相应调整；各用户随机移动至新的位置，计算系统中断概率和当前无人机消耗的能量，进而获取奖励，将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区，当数据足够时，对算法网络进行训练并更新网络的参数；当无人机的能量耗尽时累加迭代次数，当迭代次数超过预设的迭代次数阈值，算法结束，完成无人机轨迹设计和功率分配。

Description

一种基于近端策略优化的无人机轨迹设计和功率分配方法

技术领域

本发明属于无人机通信技术领域，特别是涉及一种基于近端策略优化的无人机轨迹设计和功率分配方法。

背景技术

无人机(UAV,UnmannedAerial Vehicle)以其可控性高，灵活性强的特点，在各个领域都能代替人类完成一些特定的任务。在无线通信领域，UAV可以作为空中基站和飞行中继，为地面用户提供快速可靠的通信连接。在偏远地区，可能因为尚未建造通信设施，或者在城市地区因为通信设施受损，地面用户难以与其他地区的基站建立直连通信链路。此时，UAV可以作为中继以维持基站与地面移动用户的通信。而为了向动态地面用户提供无处不在的服务，UAV需要稳健的策略来优化其飞行轨迹。

UAV辅助通信受到越来越多的关注。在UAV作为空中中继时，有研究者提出UAV作为中继维持移动源节点和远程目标节点之间的通信，提出主动优化算法来联合优化功率分配和三维轨迹。在UAV作为空中基站时，有研究者提出UAV空中基站布局策略，找到空中基站的最佳位置以提供更可靠的连接和服务质量。在规划UAV轨迹方面，有研究者使用凸优化，逐次凸逼近等非机器学习方法得出UAV的最优轨迹。考虑到无人机轨迹设计和资源分配联合优化问题的非凸性，有研究者使用DQN(Deep Q-Network)、深度确定性策略梯度(DDPG,DeepDeterministic Policy Gradient)算法和DDQN(Double Deep Q-Network)算法等机器学习方法，解决在多用户的场景下，无人机轨迹设计和资源分配的联合优化问题。

然而，目前大部分研究关注与UAV向单用户、静止的多用户或轨迹固定的移动用户服务，并且未考虑到无法获取用户准确位置信息的情形。而在实际情况中，UAV向单用户提供服务会造成巨大开销，且地面用户移动时随机性很强，在某些地区全球定位系统信号较弱时，UAV也可能会无法获取用户的准确位置信息。

发明内容

针对以上技术问题，本发明提供一种基于近端策略优化的无人机轨迹设计和功率分配方法。

本发明解决其技术问题采用的技术方案是：

一种基于近端策略优化的无人机轨迹设计和功率分配方法，方法包括以下步骤：

S100：初始化无人机、基站、各用户的初始位置、无人机的初始速度和无人机电池总能量；获取当前环境状态；

S200：根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量，通过采样函数从随机变量中采样出一个动作，保存动作选取概率，动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率，当判断动作中加速度超过预设的加速度上限时，根据预设的第一动作更新函数调整得到更新后的动作；

S300：判断无人机执行更新后的动作是否违反约束条件，若违反，则根据预设的第二动作更新函数调整得到再次更新后的动作并执行；

S400：更新各用户位置，进入新的环境状态，根据新的环境状态和无人机的发射功率计算系统中断概率和当前无人机消耗的能量；

S500：根据系统的中断概率和当前无人机消耗的能量获取奖励，将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区，当确定预设的缓冲区中数据达到预设的数据阈值时，对预设的PPO算法网络进行训练并更新网络的参数，并清空预设的缓冲区中的数据；

S600：根据当前无人机消耗的能量和无人机电池总能量判断无人机能量是否耗尽，当无人机的能量耗尽时，累加迭代次数，判断是否超过预设的迭代次数阈值，若是，则达到预设的结束条件，完成无人机中继系统中的轨迹设计和功率分配。

优选地，S200中当判断动作中加速度超过预设的加速度上限时，根据预设的第一动作更新函数调整得到更新后的动作，具体为：

若则/>

其中，表示无人机在三个方向上的加速度，a_max表示预设的加速度上限。

优选地，当前环境状态中包括无人机的当前时隙的速度，S300包括：

S310：根据无人机的当前时隙速度和无人机在三个方向上的当前时隙的加速度计算无人机的下一时隙的速度：

S320：根据无人机的下一时隙的速度和预设的无人机速度最大值判断无人机执行更新后的动作是否违反约束条件，若违反，则根据预设的第二动作更新函数调整得到再次更新后的动作：

若则/>

其中，和/>分别表示无人机在第k+1个时隙和第k个时隙的速度矢量，且δ_t表示时隙长度，v_max表示无人机速度最大值；

若不违反，则执行S400；

S330：若无人机执行再次更新后的动作后在任一方向上超出预设的移动区域边界，则将该方向的位置分量调整为区域边界值，且令该方向上的速度分量为0。

优选地，S400包括：

S410：更新各用户位置，进入新的环境状态，新的环境状态包括更新后的用户位置、基站的位置、无人机的更新后的位置和无人机更新后的速度，根据更新后的用户位置、基站的位置、无人机的更新后的位置和无人机的发射功率使用如下公式计算系统的中断概率：

n＝1,2,3,…,N

其中，表示基站到无人机、无人机到用户n整条链路的中断概率；σ²表示信道噪声功率；Γ_th表示信噪比阈值；α表示单位路径损耗；/>和/>分别表示基站到无人机、无人机到用户n的距离；/>和/>分别表示基站和无人机的发射功率；/>和分别表示视距和非视距概率；a₀表示非视距链路的衰减因子；

S420：根据无人机更新后的速度使用如下公式计算当前无人机消耗的能量：

其中，表示第k个时隙中无人机消耗的能量；G表示无人机的重量；ρ表示空气密度；S表示转盘的面积；p0表示无人机悬停时所需的功率，且/>C_blade表示与转子叶片几何形状相关的阻力系数。

优选地，S500中根据系统的中断概率和当前无人机消耗的能量获取奖励包括：

S510：根据系统的中断概率计算与中断概率最小化相关的奖励

其中，N表示用户数量，ξ_out1是一个负的系数，用于调整奖励在总的奖励中所占比例；n_out表示中断概率大于ζ的用户数量；ξ_out2是一个负的常系数，平均中断概率无法凸显部分用户中断概率过大的情形；

S520：根据当前无人机消耗的能量计算与能耗最小化相关的奖励

其中，ε_ec是一个常数，表示每时隙的平均能耗阈值，在当前时隙中的能耗如果比ε_ec大，奖励为负，反之，奖励为正，ξ_ec是一个正系数，用于调整奖励在总的奖励中所占比例；

S530：根据无人机加速度和预设加速度上限得到与是否超过无人机加速度上限相关的奖励

其中，是一个二进制数，当无人机加速度矢量和模长大于预设的加速度上限a_max时，/>否则，/>ξ_acc是一个负系数，用于调整奖励/>在总的奖励中所占比例；

S540：根据无人机的实时位置确定与是否超出无人机预设的移动区域相关的奖励

其中，是一个二进制数，当无人机超出预设的移动区域边界时，/>否则，/>ξ_bd是一个负系数，用于调整奖励/>在总的奖励中所占比例；

S550：计算总奖励r_k：

r_k＝r_out,k+r_ec,k+r_bd,k+r_acc,k。

优选地，S500中将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区，当确定预设的缓冲区中数据足够时，对预设的PPO算法网络进行训练并更新网络的参数，包括：

S560：按照折扣率γ计算这批数据中每个时隙对应的奖励期望和优势估计：

其中，表示第k个时隙的奖励期望；/>表示第k个时隙的优势估计；V(s_k)表示利用预设的评估网络获得的s_k状态的价值；

S570：根据如下公式计算预设的PPO算法网络的目标函数：

其中，S_e是策略模型的熵，是策略梯度目标函数，/>是评估网络目标函数，c₁，c₂是常系数，用于调整网络目标函数中各部分的权重，/>和/>可用如下公式计算：

其中，表示新旧网络参数下的动作选择概率比率；ε表示剪切系数，以限制网络更新幅度；V_θ(s_k)表示在使用新的网络参数时的状态价值；

S580：通过最大化更新网络参数θ，使用采集的数据对网络参数连续更新n_update次后，将参数θ_old更新为θ。

优选地，S500还包括：当预设的缓冲区中数据未达到预设的数据阈值时时，执行S600。

优选地，S600还包括：当无人机能量未耗尽时，返回S100中获取当前环境状态；当迭代次数未超过预设的迭代次数阈值时，返回S100。

优选地，S100之前还包括：

创建无人机和N个用户的移动范围，设立基站；

创建预设的PPO算法网络，预设的PPO算法网络包括策略网络和评估网络，初始化预设的PPO算法网络参数和预设的缓冲区。

上述一种基于近端策略优化的无人机轨迹设计和功率分配方法，支持多个地面用户随机移动，支持无人机无法获取用户准确位置的情形，预设的PPO算法网络中的策略相比其他算法收敛更快，稳定性更高，且有更好的节能效果和更高的通信可靠性，大大提升了无人机应急通信系统的稳定性和通信可靠性，可以降低无人机能耗，大大降低了应急系统中的能源开销。

附图说明

图1为本发明一实施例中一种基于近端策略优化的无人机轨迹设计和功率分配方法的流程图；

图2为本发明一实施例中一种基于近端策略优化的无人机轨迹设计和功率分配方法的完整的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

在一个实施例中，如图1所示，一种基于近端策略优化的无人机轨迹设计和功率分配方法，方法包括以下步骤：

S100：初始化无人机、基站、各用户的初始位置、无人机的初始速度和无人机电池总能量；获取当前环境状态。

进一步地，如图2所示，S100之前还包括：创建无人机和N个用户的移动范围，设立基站；创建预设的PPO算法网络，预设的PPO算法网络包括策略网络和评估网络，初始化预设的PPO算法网络参数和预设的缓冲区。

具体地，各部分的位置用在笛卡尔坐标系中的坐标表示。策略网络用于输出动作的均值，评估网络用于计算状态的价值。当前环境状态包括基站位置，各用户的位置，无人机的位置和速度，即：

其中k表示第k个时隙。

S200：根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量，通过采样函数从随机变量中采样出一个动作，保存动作选取概率，动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率，当判断动作中加速度超过预设的加速度上限时，根据预设的第一动作更新函数调整得到更新后的动作。

具体地，以策略网络输出值为均值，标准差人为设定，构建一个服从高斯分布的动作值作为随机变量，从该随机变量中采样出一个值a_k，作用到环境中，选取动作a_k的概率为/>其中，动作包括无人机三个方向上的加速度和无人机的发射功率，即随网络更新频率衰减，从最大值/>衰减至最小值衰减因子为/>即/>

在一个实施例中，S200中当判断动作中加速度超过预设的加速度上限时，根据预设的第一动作更新函数调整得到更新后的动作，具体为：

若则/>

S300：判断无人机执行更新后的动作是否违反约束条件，若违反，则根据预设的第二动作更新函数调整得到再次更新后的动作并执行。

在一个实施例中，当前环境状态中包括无人机的当前时隙的速度，S300包括：

若则/>

若不违反，则执行S400；

S400：更新各用户位置，进入新的环境状态，根据新的环境状态和无人机的发射功率计算系统中断概率和当前无人机消耗的能量。

具体地，各用户随机移动至新的位置，计算系统中断概率(使用中断概率评估通信可靠性，中断概率越小，可靠性越高)和第k个时隙中无人机消耗的能量。

在一个实施例中，S400包括：

n＝1,2,3,…,N

S500：根据系统的中断概率和当前无人机消耗的能量获取奖励，将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区，当确定预设的缓冲区中数据达到预设的数据阈值时，对预设的PPO算法网络进行训练并更新网络的参数，并清空预设的缓冲区中的数据。

在一个实施例中，S500中根据系统的中断概率和当前无人机消耗的能量获取奖励包括：

S510：根据系统的中断概率计算与中断概率最小化相关的奖励

S550：计算总奖励r_k：

r_k＝r_out,k+r_ec,k+r_bd,k+r_acc,k。

具体地，根据无人机上一时隙的位置和加速度算出无人机当前时隙的位置，从而得到无人机的实时位置。

在一个实施例中，S500中将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区，当确定预设的缓冲区中数据足够时，对预设的PPO算法网络进行训练并更新网络的参数，包括：

S570：根据如下公式计算预设的PPO算法网络的目标函数：

在一个实施例中，S500还包括：当预设的缓冲区中数据未达到预设的数据阈值时时，执行S600。

在一个实施例中，S600还包括：当无人机能量未耗尽时，返回S100中获取当前环境状态；当迭代次数未超过预设的迭代次数阈值时，返回S100。

S600得到无人机轨迹设计和功率分配方案后，在尚未建立通信设施的偏远地区或者通信设施损坏的城市地区完成应急通信。

区别于现有的无人机轨迹设计和功率分配策略，本发明最有收益的效果在于：支持多个地面用户随机移动，支持无人机无法获取用户准确位置的情形。且该策略以PPO算法为基础，经其他研究者证明，PPO算法相比于DDPG，Actor-Critic等算法更易于实现且更加稳定。该策略相比其他算法收敛更快，稳定性更高，且有更好的节能效果和更高的通信可靠性。大大提升了无人机应急通信系统的稳定性和通信可靠性。该策略可以降低无人机能耗，大大降低了应急系统中的能源开销。

以上对本发明所提供的一种基于近端策略优化的无人机轨迹设计和功率分配方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于近端策略优化的无人机轨迹设计和功率分配方法，其特征在于，所述方法包括以下步骤：

S200：根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量，通过采样函数从所述随机变量中采样出一个动作，保存动作选取概率，所述动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率，当判断所述动作中加速度超过预设的加速度上限时，根据预设的第一动作更新函数调整得到更新后的动作；

S300：判断所述无人机执行所述更新后的动作是否违反约束条件，若违反，则根据预设的第二动作更新函数调整得到再次更新后的动作并执行；

S400：更新各用户位置，进入新的环境状态，根据所述新的环境状态和所述无人机的发射功率计算系统中断概率和当前无人机消耗的能量；

S500：根据所述系统的中断概率和当前无人机消耗的能量获取奖励，将所述当前环境状态、所述动作、所述动作选取概率和所述奖励作为一组数据存入预设的缓冲区，当确定预设的缓冲区中数据达到预设的数据阈值时，对预设的PPO算法网络进行训练并更新网络的参数，并清空所述预设的缓冲区中的数据；

S600：根据所述当前无人机消耗的能量和所述无人机电池总能量判断无人机能量是否耗尽，当所述无人机的能量耗尽时，累加迭代次数，判断是否超过预设的迭代次数阈值，若是，则达到预设的结束条件，完成无人机中继系统中的轨迹设计和功率分配。

2.根据权利要求1中所述的方法，其特征在于，S200中当判断所述动作中加速度超过预设的加速度上限时，根据预设的第一动作更新函数调整得到更新后的动作，具体为：

若则/>

3.根据权利要求2中所述的方法，其特征在于，所述当前环境状态中包括无人机的当前时隙的速度，S300包括：

S310：根据所述无人机的当前时隙速度和所述无人机在三个方向上的当前时隙的加速度计算无人机的下一时隙的速度：

S320：根据所述无人机的下一时隙的速度和预设的无人机速度最大值判断无人机执行所述更新后的动作是否违反约束条件，若违反，则根据预设的第二动作更新函数调整得到再次更新后的动作：

若则/>

若不违反，则执行S400；

S330：若无人机执行所述再次更新后的动作后在任一方向上超出预设的移动区域边界，则将该方向的位置分量调整为区域边界值，且令该方向上的速度分量为0。

4.根据权利要求3中所述的方法，其特征在于，S400包括：

S410：更新各用户位置，进入新的环境状态，所述新的环境状态包括更新后的用户位置、所述基站的位置、无人机的更新后的位置和无人机更新后的速度，根据所述更新后的用户位置、所述基站的位置、所述无人机的更新后的位置和所述无人机的发射功率使用如下公式计算系统的中断概率：

其中，表示基站到无人机、无人机到用户n整条链路的中断概率；σ²表示信道噪声功率；Γ_th表示信噪比阈值；α表示单位路径损耗；/>和/>分别表示基站到无人机、无人机到用户n的距离；/>和/>分别表示基站和无人机的发射功率；/>和/>分别表示视距和非视距概率；a₀表示非视距链路的衰减因子；

S420：根据所述无人机更新后的速度使用如下公式计算当前无人机消耗的能量：

5.根据权利要求4所述的方法，其特征在于，S500中根据所述系统的中断概率和当前无人机消耗的能量获取奖励包括：

S510：根据所述系统的中断概率计算与中断概率最小化相关的奖励

S520：根据所述当前无人机消耗的能量计算与能耗最小化相关的奖励

S530：根据所述无人机加速度和预设加速度上限得到与是否超过无人机加速度上限相关的奖励

其中，是一个二进制数，当无人机超出预设的移动区域边界时，/>否则，ξ_bd是一个负系数，用于调整奖励/>在总的奖励中所占比例；

S550：计算总奖励r_k：

r_k＝r_out,k+r_ec,k+r_bd,k+r_acc,k。

6.根据权利要求5所述的方法，其特征在于，S500中将所述当前环境状态、所述动作、所述动作选取概率和所述奖励作为一组数据存入预设的缓冲区，当确定预设的缓冲区中数据足够时，对预设的PPO算法网络进行训练并更新网络的参数，包括：

S570：根据如下公式计算预设的PPO算法网络的目标函数：

7.根据权利要求1所述的方法，其特征在于，S500还包括：当预设的缓冲区中数据未达到预设的数据阈值时时，执行S600。

8.根据权利要求1所述的方法，其特征在于，S600还包括：当无人机能量未耗尽时，返回S100中获取当前环境状态；当迭代次数未超过预设的迭代次数阈值时，返回S100。

9.根据权利要求1所述的方法，其特征在于，S100之前还包括：

创建无人机和N个用户的移动范围，设立基站；

创建预设的PPO算法网络，所述预设的PPO算法网络包括策略网络和评估网络，初始化所述预设的PPO算法网络参数和预设的缓冲区。