CN116384610A

CN116384610A - 基于深度图像和强化学习的无人机导航与避障方法

Info

Publication number: CN116384610A
Application number: CN202310538440.1A
Authority: CN
Inventors: 钱红燕; 杨柏桐
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-07-04

Abstract

本发明公开了一种基于深度图像和强化学习的无人机导航与避障方法，主要包括以下步骤：(1)基于马尔科夫决策过程在三维空间建立无人机导航和避障模型；(2)基于无人机的飞行方式，设计一种结合深度图像中深度信息和二维正态分布的障碍物分析方法，构造额外的奖励信号，提高无人机躲避障碍物的能力；(3)无人机基于策略选择动作并执行，与环境交互后到达新的状态并计算奖励值；使用采集到的样本对网络进行更新；重复该步骤直到得到最优策略。

Description

基于深度图像和强化学习的无人机导航与避障方法

技术领域

本发明属于智能控制技术领域，具体涉及一种基于深度图像和强化学习的无人机导航与避障方法。

背景技术

无人机在军事、农业、勘探、物流等领域都发挥着巨大的作用，多种场景都需要无人机在没有人工干预的情况下实现自主飞行，研究无人机的自主避障导航控制方法成为当前的主要研究之一。传统的避障算法只能应用于障碍物较少的稀疏环境中，并且需要根据不同的环境建立不同的模型，无法直接应用于未知环境。基于SLAM的算法虽然可以应用于未知环境，但只能安全避开静态障碍物，并且需要消耗大量计算资源。针对这些情况，强化学习是一种实现反应式避障的有效方法。

强化学习是一种不断与环境交互并优化策略的方法，采用强化学习技术能够摆脱环境和人为因素的影响，具有在未知环境中的自主控制能力，并且基于深度学习技术在处理高维信息上的强大能力，结合了强化学习和深度学习的深度强化学习方法能够很好地实现无人机的自主导航与避障。

携带摄像机能够比携带雷达等测距仪节省更多的能源消耗，基于图像的避障方法已经成为许多学者研究的焦点，现有的方法大多直接将图像信息直接输入神经网络进行训练，但这些方法都缺少对障碍物信息的具体分析，在面对复杂形状障碍物和障碍物分布较密集的情况时，安全飞行到目标概率较低，并且只有在发生碰撞时才给予负反馈，导致训练速度较慢甚至难以收敛。

发明内容

为了解决现有发明中的不足，本发明提供一种基于深度图像和强化学习的无人机导航与避障方法，该方法将无人机导航与避障问题建立成一个目标驱动的马尔科夫决策过程，将获取的深度图像信息作为无人机避障的一个重要因素，利用无人机与环境的交互信息对神经网络进行更新，实现无人机在复杂环境中的自主导航和避障。

为达到上述目的，本发明采用如下技术方案：本发明的一种基于深度图像和强化学习的无人机导航与避障方法，包括以下步骤：

步骤1，基于马尔科夫决策过程四元组S，A，P，R，建立三维环境中无人机导航与避障模型，其中S为状态空间，A为动作空间，P为状态转移概率函数，R为奖励函数；

步骤2，设计一种结合深度图像中深度信息和二维正态分布的障碍物分析方法，并提供额外的奖励信号，提高无人机躲避不同方位上复杂形状障碍物的能力；

步骤3，基于状态和策略选择动作，无人机执行动作与环境交互后到达新的状态，并计算所得到的奖励；

步骤4，采用PPO算法，利用环境反馈奖励计算出的优势值对网络进行更新；

步骤5，重复步骤3和步骤4，直到得到最优策略。

进一步的，步骤1中基于马尔科夫决策过程建立三维环境中无人机导航与避障模型，具体包括：

状态空间S：由无人机的观测状态和飞行状态组成；无人机将时刻t的深度图像信息作为观测值o_t，并叠加最近4个连续时刻的观测值(o_t-3，o_t-2，o_t-1，o_t)作为观测信息，用于提供时序信息；飞行状态s_t具体为：无人机与目标点的水平相对距离dt，定义目标点水平坐标(xt，yt)，计算无人机与目标点的距离d_real，采用缩放裁剪的方法，d_t＝clip(d_real/10，0，1)，将真实距离缩放为原来的十分之一，并将结果裁剪为0到1之间；无人机偏航方向与目标点方向的水平夹角φt；无人机的飞行高度h_t；以无人机为原点建立三维坐标系，无人机偏航方向为x轴，平行地面方向为y轴，垂直地面方向为z轴，计算无人机坐标轴方向分速度v_xt，v_yt，v_zt，无人机偏航角速度ω_t，飞行状态记为(d_t，

h，v_xt，v_yt，v_zt，ω_t)；

动作空间A：采用连续动作空间方法确定无人机t时刻的动作，分别为无人机直线飞行线速度a₁，无人机竖直飞行线速度a₂，无人机偏航角速度a₃，三个动作共同控制无人机的飞行；

奖励函数R：定义无人机导航与避障问题的非稀疏奖励函数，主要包括飞行奖励，步数惩罚，前向奖励，结束奖励四个部分；飞行奖励用于表示无人机相对目标点的飞行情况，使用v_t表示无人机水平方向上的速度，θ_t表示速度方向与目标点方向的夹角，飞行奖励为r_flight＝v_tcos(θ_t)；步数惩罚用于鼓励无人机用更少的时间完成飞行到目标点的任务，定义为r_step＝-0.005；前向奖励计算深度图像中间部分的像素值的平均值，鼓励无人机选择较安全的方向飞行，前向奖励被定义为r_front＝2×mean(center(20×20)-1；结束奖励被定义为r_done＝d_t，用于表示无人机到达飞行结束状态时的奖励，当无人机与障碍物发生碰撞或者飞行高度超过预设的高度时d_t＝-1，当无人机到达目标位置时d_t＝1，其余情况d_t＝0；最终的奖励函数由各部分加权得到：

r_t＝0.01×r_flight+r_step+0.01×r_front+r_done。

进一步的，步骤2中设计一种结合深度图像中深度信息和二维正态分布的障碍物检测方法，具体为，对无人机的飞行过程进行分析可知，在飞行中需要对靠近飞行方向基线上的障碍物进行优先避障，对于靠近飞行方向法线上的障碍物则保持较低的避障优先级；通过将深度信息在空间中的分布映射到二维正态分布上，可以计算出特定像素点所对应障碍物对无人机飞行安全的影响。

进一步的，步骤2中将深度信息转换为函数奖励的方法，具体为，深度图像由无人机携带的前置深度相机获取，图像大小为W×H；采用服从(μ₁，μ₂，σ₁，σ₂，ρ)＝(0，0，1，1，0)的二维正态分布：

定义飞行方向基线上的最小安全避障距离M，取二维坐标系区域D＝{x，y|-X＜x＜X，-Y＜y＜Y}，将x方向划分为W个等分点，y方向划分为H个等分点，划分出的W×H个点与深度图像上对应位置的像素点形成双射关系，设(0，0)点处在二维正态分布上的值对应的最大安全避障距离为M，可计算出其余任意点所对应的最小安全避障距离：

当一点处对应的障碍物距离大于最小安全避障距离时，该点的奖励为0，否则根据靠近程度计算出该点的奖励值，最后取所有点对应奖励值的最小值作为深度奖励r_dcpth：

式中O(x，y)为深度图像上(x，y)映射点的像素值大小，将深度奖励添加到奖励函数中得到新的奖励函数为：

r_t＝0.01×r_flight+r_step+0.01×r_front+r_done+0.04×r_depth。

本发明的有益效果：本发明使用图像作为观测信息，降低了无人机飞行中的能源消耗。使用深度图像信息和二维高斯分布结合的方法，对障碍物形状和分布进行有效分析，帮助无人机可以在复杂的未知环境中实现安全的自主导航和避障，由于只需考虑与环境的交互，具有极强的可扩展性和鲁棒性。使用PPO算法，以及采用连续动作空间的动作选择方法，使无人机可以选择各种可能的动作组合方式，最大程度发挥无人机的飞行能力。

附图说明

图1为本发明提出的基于深度图像和强化学习的无人机导航与避障方法示意图。

图2为深度图像与二维正态分布的映射图。

图3为本发明方法与改进前在训练过程中的平均奖励图。

图4为本发明方法与改进前在训练过程中飞行结束距目标点距离图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细说明。

本发明的一种基于深度图像和强化学习的无人机导航与避障方法，方法流程如图1所示，无人机在飞行的过程中，通过神经网络获取策略值，以每个策略值为均值构造正态分布并采样出动作值，无人机执行动作与环境交互后会产生新的状态并获得环境的反馈奖励，对新状态下观测值的深度信息进行分析得到深度奖励并加入至总奖励中，该观测值与之前三个时间步的观测值叠加作为神经网络的部分输入值。对一定时间步采样的样本进行保存并计算每个时间步的优势值，使用PPO算法对神经网络进行更新，直到得到最优飞行策略。

本发明的一种基于深度图像和强化学习的无人机导航与避障方法，包括如下步骤：

每个时刻t无人机处于状态st，状态输入神经网络中得到对应动作at，无人机在执行动作后系统进入下一状态st+1，并得到该状态对应的奖励rt+1，强化学习通过交互的数据根据一定的优化算法更新神经网络参数以最大化累计折扣回报的期望。

状态空间S：由无人机的观测状态和飞行状态组成；无人机将时刻t的深度图像信息作为观测值o_t，并叠加最近4个连续时刻的观测值(o_t-3，o_t-2，o_t-1，o_t)作为观测信息，用于提供时序信息；飞行状态s_t具体为：无人机与目标点的水平相对距离dt，定义目标点水平坐标(x_t，y_t)，计算无人机与目标点的距离d_real，采用缩放裁剪的方法，d_t＝clip(d_real/10，0，1)，将真实距离缩放为原来的十分之一，并将结果裁剪为0到1之间；无人机偏航方向与目标点方向的水平夹角φt；无人机的飞行高度h_t；以无人机为原点建立三维坐标系，无人机偏航方向为x轴，平行地面方向为y轴，垂直地面方向为z轴，计算无人机坐标轴方向分速度v_xt，v_yt，v_zt，无人机偏航角速度ω_t，飞行状态记为(d_t，

h，v_xt，v_yt，v_zt，ω_t)；

r_t＝0.01×r_flight+r_step+0.01×r_front+r_done。

深度图像由无人机携带的前置深度相机获取，图像大小为W×H；

采用服从(μ₁，μ₂，σ₁，σ₂，ρ)＝(0，0，1，1，0)的二维正态分布：

深度信息的分析如图2所示，二维正态分布在空间中的映射将无人机前方飞行空间分为两个部分，两者之间的空间为无人机的安全飞行空间，这部分空间中没有障碍物则认为无人机处于安全状态，在飞行过程中若安全飞行空间中有障碍物存在，则根据障碍物与无人机的距离和二维正态分布曲面到无人机的距离计算障碍物对无人机的威胁程度，并作为无人机的避障因素。

当一点处对应的障碍物距离大于最小安全避障距离时，该点的奖励为0，否则根据靠近程度计算出该点的奖励值，最后取所有点对应奖励值的最小值作为深度奖励r_depth：

r_t＝0.01×r_flight+r_step+0.01×r_front+r_done+0.04×r_depth。

时刻t，无人机将状态输入神经网络得到策略值pt＝(p₁，p₂，p₃)，以pt中各参数为均值，方差随时间线性减小的方式，构造正态分布，从中随机采样得到动作值at，定义时间步长为0.1s，当无人机执行完动作选择策略所选择的动作后，到达一个新的状态s_t+1，同时根据当前状态和奖励函数计算出一个实际回报值r_t+1并反馈给无人机。

使用两个神经网络θ，θold分别表示更新前后的策略，使用θold作为无人机与环境交互的策略，使用收集的样本对θ进行更新，并将θ更新后的参数赋值给θold。

当无人机收集T个时间步的样本后，使用GAE计算每一步的优势值：

A_t＝δ_t+(γλ)δ_t+1+...+(γλ)^T-t+1δ_T-1；

其中δ_t＝r_t+γV(s_t+1)-v(S_t)；

使用裁剪的方法计算动作值的损失函数：

L^CLIP(θ)＝E_t[min(r_t(θ)A_t，clip(r_t(θ)，1-ε，1+ε)A_t]；

其中

使用均方误差计算目标值的损失函数：

L^VF＝(V_θ(s_t)-V^target)²

两者之和作为函数网络的反向输入值，更新网络以使学习速度和精度逐渐提高。

步骤5，重复步骤3和步骤4，直到得到最优策略。

随着训练的进行，算法会找到每个状态下能得到更好飞行效果的动作，最终实现无人机在不确定环境下根据实时的状态进行决策，实现无碰撞飞向目标点。

实施例：

本实例使用虚幻引擎4结合Airsim插件提供的高保真度的3D环境对我们的算法进行测试评估。以无人机所在位置为起始点，确保飞行距离的一致性，终点在以起点为圆心，半径60m的圆上随机均匀选取；在基于强化学习的无人机导航与避障任务中，无人机重复观察环境，执行决策，与环境交互计算奖励，并保存最近512个时间步的样本用于更新神经网络；当无人机到达距离目标点1m的范围内，无人机与障碍物发生碰撞，无人机飞行高度距地面大于20m，无人机起飞后经过512步仍未到达目标，则认为一次飞行结束，记录此次飞行的奖励值之和；该实例进行153600个时间步的训练，训练过程中所获得的奖励如图3所示，飞行结束时距目标点的距离如图4所示。

以上所述为本发明的具体实施方式，但本发明的保护范围不仅限于此，可根据本发明技术方案及其发明构思加以变换以及根据本发明能够轻易想到的变换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于深度图像和强化学习的无人机导航与避障方法，其特征在于，包含以下步骤：

步骤5，重复步骤3和步骤4，直到得到最优策略。

2.根据权利要求1所述一种基于深度图像和强化学习的无人机导航与避障方法，其特征在于，步骤1中基于马尔科夫决策过程建立三维环境中无人机导航与避障模型，具体包括：

状态空间S：由无人机的观测状态和飞行状态组成；无人机将时刻t的深度图像信息作为观测值ot，并叠加最近4个连续时刻的观测值(ot-3，ot-2，ot-1，ot)作为观测信息，用于提供时序信息；飞行状态st具体为：无人机与目标点的水平相对距离dt，定义目标点水平坐标(xt，yt)，计算无人机与目标点的距离dreal，采用缩放裁剪的方法，d_t＝clip(d_real/10，0，1)，将真实距离缩放为原来的十分之一，并将结果裁剪为0到1之间；无人机偏航方向与目标点方向的水平夹角φt；无人机的飞行高度ht；以无人机为原点建立三维坐标系，无人机偏航方向为x轴，平行地面方向为y轴，垂直地面方向为z轴，计算无人机坐标轴方向分速度vxt，vyt，vzt，无人机偏航角速度ω_t，飞行状态记为(d_t，

h，v_xt，v_yt，v_zt，ω_t)；

动作空间A：采用连续动作空间方法确定无人机t时刻的动作，分别为无人机直线飞行线速度a1，无人机竖直飞行线速度a2，无人机偏航角速度a3，三个动作共同控制无人机的飞行；

奖励函数R：定义无人机导航与避障问题的非稀疏奖励函数，主要包括飞行奖励，步数惩罚，前向奖励，结束奖励四个部分；飞行奖励用于表示无人机相对目标点的飞行情况，使用vt表示无人机水平方向上的速度，θ_t表示速度方向与目标点方向的夹角，飞行奖励为r_flight＝v_tcos(θ_t)；步数惩罚用于鼓励无人机用更少的时间完成飞行到目标点的任务，定义为r_step＝-0.005；前向奖励计算深度图像中间部分的像素值的平均值，鼓励无人机选择较安全的方向飞行，前向奖励被定义为r_front＝2×mean(center(20×20)-1；结束奖励被定义为r_done＝d_t，用于表示无人机到达飞行结束状态时的奖励，当无人机与障碍物发生碰撞或者飞行高度超过预设的高度时d_t＝-1，当无人机到达目标位置时d_t＝1，其余情况d_t＝0；最终的奖励函数由各部分加权得到：

r_t＝0.01×r_flight+r_step+0.01×r_front+r_done。

3.根据权利要求1所述一种基于深度图像和强化学习的无人机导航与避障方法，其特征在于，步骤2中设计一种结合深度图像中深度信息和二维正态分布的障碍物检测方法，具体为，对无人机的飞行过程进行分析可知，在飞行中需要对靠近飞行方向基线上的障碍物进行优先避障，对于靠近飞行方向法线上的障碍物则保持较低的避障优先级；通过将深度信息在空间中的分布映射到二维正态分布上，可以计算出特定像素点所对应障碍物对无人机飞行安全的影响。

4.根据权利要求3所述一种基于深度图像和强化学习的无人机导航与避障方法，其特征在于，步骤2中将深度信息转换为函数奖励的方法，具体为，深度图像由无人机携带的前置深度相机获取，图像大小为W×H；采用服从(μ₁，μ₂，σ₁，σ₂，ρ)＝(0，0，1，1，0)的二维正态分布：

当一点处对应的障碍物距离大于最小安全避障距离时，该点的奖励为0，否则根据靠近程度计算出该点的奖励值，最后取所有点对应奖励值的最小值作为深度奖励rdepth：

r_t＝0.01×r_flight+r_step+0.01×r_front+r_done+0.04×r_depth。