CN114910072A

CN114910072A - 基于深度强化学习的无人机导航方法、装置、设备及介质

Info

Publication number: CN114910072A
Application number: CN202210422011.3A
Authority: CN
Inventors: 吴迪; 施之羿; 黄梦醒; 冯子凯; 毋媛媛; 冯思玲; 周家昊; 帅文轩; 张宏瑞
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-16

Abstract

本发明公开基于深度强化学习的无人机导航方法、装置、设备及介质。该方法包括如下步骤：实时获取无人机与环境的交互信息；将所述交互信息输入深度强化学习模型中，输出无人机最优动作，生成动作对应的操作指令；基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息；基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数，采用更新了网络参数的深度强化学习模型，继续获得最优动作。本发明可在高速动态环境下，自主规划路径，沿着无碰撞、高效的路径到达理想的目的地，同时实现空中无人机的无处不在的三维通信覆盖，保证无人机与地面站的通信质量，实现实时的数据传输。

Description

基于深度强化学习的无人机导航方法、装置、设备及介质

技术领域

本发明涉及无人机导航技术领域，尤其涉及基于深度强化学习的无人机导航方法、装置、设备及介质。

背景技术

近年来，无人驾驶飞行器(UAV)已经在许多领域展示出其广阔的应用前景，越来越多地被运用于环境监测和探索例如灾难救援、野生动物保护和远程监视的任务中，特别是在无线通信，智能物流，现代战争等领域，无人机因其广阔的视野，高度的灵活性发挥着不可替代的作用而备受关注。

在对于无人机研究中，其自主路径规划的实现一直是一大难题。因其对于多状态动作对高维诅咒的有效处理，采用基于深度强化学习的方法对于该问题的解决早已不鲜见。然而许多研究聚焦于无人机在已知静态场景中或是室内环境的导航，这样的研究开发的算法在实际环境中的迁移应用表现大多不佳，因为实际环境中不可避免地存在着如飞鸟，其他飞行器等障碍物，所以我们研究的一大目标就是解决动态环境的无人机路径规划。另一大问题在于，由于基础设施和运营成本等原因当前对于如何实现无人机的无处不在的三维(3D)通信覆盖的技术很不成熟，但是这对于数据传输又至关重要，另一方面，未来无人机的应用场景中，复杂多变的干扰总是充斥其间。因而，对于无人机的覆盖感知导航的研究就显得迫在眉睫。

发明内容

为了解决上述技术问题，本发明提出基于深度强化学习的无人机导航方法、装置、设备及介质，确保无人机可在高速动态环境下，自主规划路径，沿着无碰撞、高效的路径到达理想的目的地，同时实现空中无人机的无处不在的三维通信覆盖，保证无人机与地面站的通信质量，实现实时的数据传输。

为了达到上述目的，本发明的技术方案如下：

基于深度强化学习的无人机导航方法，其特征在于，包括如下步骤：

步骤S1，实时获取无人机与环境的交互信息，所述交互信息包括与障碍物的距离、与目的地的方向距离和通信质量信息；

步骤S2，将所述交互信息输入深度强化学习模型中，输出无人机最优动作来引导无人机避免碰撞、获取目标、来到覆盖通信质量良好的区域；

步骤S3，生成最优动作对应的操作指令，并基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息，所述反馈信息包括状态、动作、奖励以及下一个状态的序列；

步骤S4，基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数，采用更新了网络参数的深度强化学习模型，重复步骤S1至S3，直至到达目的地。

优选地，所述深度学习模型包括用于指示无人机在导航任务中避开障碍物的避障网络，用于指示无人机在导航任务中使用最短航路点获取目标的目的地获取网络，以及将所述避障网络和目的地获取网络连接的综合网络，所述综合网络用于从避免网络或目的地获取网络中选择一个动作并保证飞行时的实时通信。

优选地，所述避障网络、目的地获取网络和综合网络均采用长短期记忆网络。

优选地，所述避障网络和目的地获取网络均由结构相同的评估网络与目标网络组成的。

优选地，所述避障网络的奖励r_avoid为：

其中α,β是常数,d_min为最短距离。

优选地，所述目的地获取网络的奖励r_acquire获取方式，如下所示：

当从正确的方向接近目标时，无人机离目标越远，奖励越小，接近目标的奖励r_approach如下所示：

其中ρ,σ是常数,d_target为目标距离，

为了激励无人机使用最短航路点获取目标，设置负常数奖励ζ以限制其在原地徘徊：

r_step＝ζ (9)

其中r_step为单步惩罚，ζ是负常数，

所述目的地获取网络的奖励r_acquire为：

r_acquire＝r_approach+r_step (10)。

优选地，所述综合网络的奖励

获取方式，如下所示：

其中μ、τ是常数，

是通信经验中断概率，s_t为无人机的状态向量,

不同方向的测距仪读数，

为无人机基于其周围环境的空旷程度获得的奖励，

为无人机基于其测定通信质量的好坏获得的奖励，

为综合网络的奖励，鼓励无人机避开障碍物并在空域中导航接近目标同时保证飞行时的通信质量，

为无人机与障碍物碰撞受到的惩罚。

一种基于深度强化学习的无人机导航装置，包括获取单元、学习单元、驱动单元和更新单元，其中，

所述获取单元，用于实时获取无人机与环境的交互信息，所述交互信息包括与障碍物的距离、与目的地的方向距离和通信质量信息；

所述学习单元，用于动作将所述交互信息输入深度强化学习模型中，输出无人机最优动作来引导无人机避免碰撞、获取目标、来到覆盖通信质量良好的区域；

所述驱动单元，用于生成最优动作对应的操作指令，并基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息，所述反馈信息包括状态、动作、奖励以及下一个状态的序列；

所述更新单元，用于基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数。

一种计算机设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如上述任一所述的方法。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述的方法。

基于上述技术方案，本发明的有益效果是：本发明提出了一个分布式的DRL框架，将无人机覆盖感知导航任务分解为两个更简单的子任务，每个子任务都通过设计的基于长短期记忆人工神经网络(LSTM)的DRL网络来解决，只使用部分交互数据。在此基础上，针对无人机覆盖感知导航问题，提出了一种截断DRL损失函数，将两个子解紧密叠加为一个整体，最终选取到符合当前最优策略的动作，完成对于无人机路径的实时规划与对通信质量良好区域的覆盖。大量的仿真结果证实了该方法能够完成高速动态环境下的无人机覆盖感知导航任务，且与现有DRL方法相比在收敛性和有效性方面性能更加优越。

附图说明

图1是一个实施例中基无人机通信覆盖环境示意图；

图2是一个实施例中无人机通信覆盖环境的基站俯视图；

图3是一个实施例中人机高速动态障碍环境示意图；

图4是一个实施例中分层RQN的示意图；

图5是一个实施例中Layered-RQN相较于基准算法的避障与目的地获取性能对比图；

图6是一个实施例中Layered-RQN相较于基准算法的通信覆盖感知性能对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本实施例公开一种基于深度强化学习的无人机导航方法，能够引导无人机从任意初始位置开始飞行，经过充满高速动态障碍物且通信覆盖质量分布不均的仿真环境，到达固定目的地，实现了无人机在构造的仿真环境中的实时路径规划，同时有效覆盖了通信质量较佳的区域，完成无人机的导航任务。具体包括如下步骤：

1.搭建无人机仿真环境

如图1，2所示，基于前人经验搭建无人机无线电通信环境，即由宏基站构成的蜂窝网络对每个位置的通信覆盖(非中断)概率数值地图，图1是基于3D建筑和信道实现通过计算机模拟在数值上获得的，其中颜色越深代表通信质量越差，中断概率越大。从图2中可以看出，覆盖范围由于3D BS天线辐射方向图和建筑物遮挡的共同影响，通信覆盖地图分布相当不规则。观察到，在区域中心附近，存在多个弱覆盖区域，覆盖概率小于30％。显然，有效的覆盖感知无人机导航应该引导无人机尽最大努力避免进入这样的弱覆盖区域。

无人机对于环境通信质量的测量可以通过利用具有频繁RSRP和RSRQ报告的现有软切换机制来实现。我们假设在每个时刻t内，UAV对M个蜂窝连接的宏基站中的每一个执行J次SIR测量。我们将具有蜂窝连接的b_t∈{1,…,M}的时刻t的第J个SIR测量表示为

其中

表示该情况下的小规模衰落。对应的中断指标值，表示为

可以基于通信背景知识获得。然后可以得到经验中断概率

为：

其中J为通信质量测量次数，

为通信质量对应的中断指标值，

表示无人机的绝对位置，b_t∈{1,…,M}表示连接的基站，

表示该情况下的小规模衰落。将经验中断概率与单位时间步长相乘便能得到引导无人机覆盖感知导航所需要的奖励值。

而如图3所示，在隐藏的通信环境之上，是显式的无人机高速动态障碍环境，其中最高、中等和最低速度的动态障碍物分别代表实际环境中的不同实体，如鸟类、人类和其他无人机。动态障碍物以规定的速度在空域中随机漂移，无人机导航问题的目标是通过杂乱的障碍物找到从原点到目标的可行路径，该路径应无碰撞且尽可能短。

仿真环境中，无人机传感器对于环境信息的采集我们设置如下，考虑到视觉摄像头和雷达的诸多限制(如照明、费用等)，我们使用超声波测距仪通过测量无人机与其周围环境的距离来帮助无人机感知环境。如图4所示，时刻t的观测向量由来自16个不同方向的无人机测距仪读数组成，即

其中

如果

更短，则当前无人机更接近该方向的障碍物。相反，如果大多数

较大则更安全。地球固定坐标可用于描述无人机的相对和绝对位置。考虑到无人机在固定高度导航，无人机的绝对位置

可以由第一视角与x轴的夹角确定。通过机载GPS设备计算无人机与目标之间的角度，可以轻松获取相对位置

我们使用观察向量o_t和

一起形成状态向量

其中

所有s_t构成MDP中的状态空间。

2.设置奖惩规则与网络的迭代更新策略

在导航任务中，DRL框架基于所收集的传感器数据(即到障碍物的距离、到目的地的方向距离、通信质量)来引导无人机避免碰撞、获取目标、覆盖通信质量良好的区域。无人机导航任务是一个较为复杂的任务，其可以被分为三个更简单的行为：避开障碍物、向目的地前进、选择特定动作。上述的第一个行为防止无人机发生碰撞，第二个行为驱使无人机到达目的地，第三个行为在躲避或向目的地前进两个行为中选择并保证实时通信。对此，解决无人机导航问题，可以转化为解决躲避、向目的地前进、选择三个问题之后再对解决方案进行梳理。每个问题都可以通过DRL网络来解决。

实际上，状态空间是非常高维的，这导致了通常被称为“维度诅咒”的问题。我们使用LSTM估计Q_t(s_t,a_t)，LSTM是一种具有记忆性的循环神经网络：

其中θ表示LSTM中的参数。注意，LSTM的输入是包含时间信息的张量。显然，逐步更新DRL的策略可以立即利用最新的经验，帮助无人机更快地学习。因此我们不是构建一个完整episode的历史轨迹h_i，而是制定一个随时间变化的实时h_t：

其中h_t表示实时历史轨迹，a_t为无人机执行的动作，

网络的监督数据来自自举估计：

其中

为目标网络的价值函数，r_t+1为获得的奖励，γ为常数，

为评估网络的价值函数，a′为下一时刻的动作。

训练目标是获得参数θ，这可以通过最小化

与

的差距来实现。然而，显然，由于参数需要更新，这会导致训练过程中出现很大的差异。为了解决这种差异，这项发明中使用了两种训练方法：(A)不是按顺序采样，而是使用经验回放池来随机获取样本；(B)另一个LSTM结构相同，但参数更新滞后于

(目标网络)，它被表述为为

(评估网络)。代价函数J[π(a|h)；θ]被表述为：

其中π(a|h)为状态概率，θ为超参数，

L代表样本总数。J[π(a|h)；θ]可以通过实施随机梯度下降(SGD)轻松优化。策略π(a|h)的梯度可以通过下式计算：

θ←θ+δΔθ (6)

其中δ是学习率，θ^-是θ的延迟副本。θ^-在某些训练时期被软更新取代。迭代过程重复几个周期，直到

稳定收敛。显然，更复杂的任务(navigation)是由几个更简单的行为(avoid、acquire、choose)演化而来的，也就是说无人机逐层学习导航，其被命名为分层循环Q网络(Layered-RQN)。

本发明使用裁剪的DRL损失函数将三个DRL网络堆叠成一个模型，以引导无人机高效安全地探索环境并保证实时通信。此外，需要构造避障网络和获取网络的奖励。避障网络用于指示无人机在导航任务中避开障碍物。奖励应该是信息丰富的，以防止无人机相撞。无人机越靠近障碍物，奖励越小：

其中α,β是常数,而d_min为最短距离，可以通过比较各个方向的测距仪读数来获得。

获取网络的建立是为了指示无人机在导航任务中获取目标。当从正确的方向接近目标时，无人机离目标越远，奖励越小，接近目标的奖励r_approach如下所示：

其中ρ,σ是常数,而d_target为目标距离，可以使用类似GPS的设备计算。为了进一步激励无人机使用最短航路点获取目标，设置负常数奖励ζ以限制其在原地徘徊：

r_step＝ζ (9)

其中r_step为单步惩罚，ζ是负常数，

获取网络的奖励r_acquire是：

r_acquire＝r_approach+r_step (10)

综合网络是制定从避免网络或获取网络中选择一个动作供无人机采取。在障碍物密布的环境中专注于避免碰撞而不是接近目标将降低失败的可能性。因此，无人机希望在障碍物密集时避开障碍物，并在开阔空域中快速接近目标。通过这种方式，我们通过在选择特定动作(获取或避障)后观察其状态来证明无人机的“选择行为”是正确的。如果发生碰撞，选择动作将受到惩罚。同时，为保证通信质量，每次无人机执行选取的动作后，利用具有频繁RSRP和RSRQ报告的现有软切换机制实现对环境通信中断概率的计算，根据大数定律，用经验值代替期望值作为通信中断的惩罚，构造的综合网络的奖惩

如下：

其中μ、τ是常数，

是通信经验中断概率，s_t为无人机的状态向量,

不同方向的测距仪读数，

为无人机基于其周围环境的空旷程度获得的奖励，

为无人机基于其测定通信质量的好坏获得的奖励，

为无人机与障碍物碰撞受到的惩罚。

3.初始化

初始化。首先随机初始化无人机位置为[0-2000,0-2000]中的某个坐标，初始化终点为[1400，1600]，飞行高度为固定高度100m。初始化无人机初始化无人机的各个目标网络和评估网络的参数，样本采样批次的大小，经验回放池的大小，学习率，一个循环内智能体的最大步数以及迭代次数等参数，如表1所示。

表1

参数	数值
		避障网络学习率	0.001
目的地获取网络学习率	0.001
		综合网络学习率	0.0001
ε	0.3
		ε-decay	e<sup>-3ε</sup>
γ	0.99
		经验回放池的大小	5000
样本采样批次的大小	200
		一个循环内智能体的最大步数	100
迭代次数	2000
		历史轨迹序列最长长度	40
α	4
		β	2
ρ	2
		σ	2
ζ	0.5
		τ	3
μ	4

4.算法流程

具体的算法流程如下所示：

1.通过初始化目标参数θ与评估目标参数θ^-初始化避障、目的地获取的动作-价值LSTM函数近似Q值。

2.通过初始化目标参数ψ与评估目标参数ψ^-初始化综合动作-价值全连接函数近似Q值。

3.初始化经验回放池R。

4.For 1to M,进行迭代

5.接收到初始观测s₀,h₀＝s₀。

6.初始化空历史h₀。

7.Fort＝1toT,进行迭代

8.以概率ε选择随机动作a_t。

9.否则依照贪心策略根据评估网络获取避障或向目的地前进的动作。

10.采用下式获取选择的动作

其中

为无人机选择的动作,

为综合网络的价值函数，

11.最后通过下式执行动作

其中

为无人机选择的避障动作，

无人机选择的向目的地进发的动作，

12.通过机载传感器测量信号，并获取经验通信中断概率

则通信评估奖励

13.更新历史轨迹并将历史轨迹h_t存储入R。

14.从R中随机选择minibatch即L个历史轨迹。

15.如果s_i+1不是终止状态,用式(3)设置y_i

16.否则设置y_i＝r_i。

17.用式(4)-(6)更新避障，目的地获取网络

18.利用下式通过Adam优化器更新综合评估网络

19.软更新所有目标网络

20.end for

21.end for

实验结果分析

本发明采用上文所描述的参数搭建的环境对算法的性能进行测试，并与当下流行的DRQN、Double DQN和Prioritized DQN方法进行了比较。结果如图5、6所示，可以看到我们所提出的Layered-RQN成功到达终点，且覆盖了最多的通信质量良好的区域，在所有测试环境中都优于DRQN、Double DQN和Prioritized DQN。因此，该算法具有最佳的综合性能。

以上所述仅为本发明所公开的基于深度强化学习的无人机导航方法的优选实施方式，并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的保护范围之内。

Claims

1.基于深度强化学习的无人机导航方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的无人机导航方法，其特征在于，所述深度学习模型包括用于指示无人机在导航任务中避开障碍物的避障网络，用于指示无人机在导航任务中使用最短航路点获取目标的目的地获取网络，以及将所述避障网络和目的地获取网络连接的综合网络，所述综合网络用于从避免网络或目的地获取网络中选择一个动作并保证飞行时的实时通信。

3.根据权利要求2所述的基于深度强化学习的无人机导航方法，其特征在于，所述避障网络、目的地获取网络和综合网络均采用长短期记忆网络。

4.根据权利要求3所述的基于深度强化学习的无人机导航方法，其特征在于，所述避障网络和目的地获取网络均由结构相同的评估网络与目标网络组成的。

5.根据权利要求2所述的基于深度强化学习的无人机导航方法，其特征在于，所述避障网络的奖励r_avoid为：