CN115373415A

CN115373415A - 一种基于深度强化学习的无人机智能导航方法

Info

Publication number: CN115373415A
Application number: CN202210881739.2A
Authority: CN
Inventors: 李瑜; 张文博; 刘君兰; 王海林; 姬红兵
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-11-22

Abstract

一种基于深度强化学习的无人机智能导航方法，其方案为：(1)在三维仿真环境中建立四旋翼无人机模型并生成障碍物和目标点的环境；(2)设计多维度特征融合的状态空间和离散动作空间；(3)设计基于欧式距离的奖励函数；(4)设计策略网络和状态价值网络；(5)设计临时经验池存储无人机与环境交互时的信息反馈；(6)基于离散PPO算法进行强化学习网络训练；(7)无人机智能导航实现。本发明能够有效加快无人机的学习和训练效率并提高无人机在不同环境下做出决策的质量。

Description

一种基于深度强化学习的无人机智能导航方法

技术领域

本发明属于导航与无人驾驶技术领域，特别涉及一种基于深度强化学习的无人机智能导航方法。

背景技术

无人机在目前大多数场景下还是人为控制其飞行，这种方式在飞行过程中很容易因为操作不当导致无人机避障失败进而坠毁。传统的无人机避障方法如可视图法、粒子群优化算法根据不同任务建模过程复杂并且应用在三维空间计算量大，十分耗时。在实际飞行过程中，往往需要在未知环境中实时避障。

强化学习是一种让机器人不断与环境交互，根据得到的奖励改进机器人在特定状态下所作动作的方法，经过不断探索环境，最终可以得到每个状态下的最优动作，从而实现特定的任务。强化学习在无人机避障领域已经有一定的研究，但目前研究无人机仿真环境简单，几乎无法应用于复杂的真实场景，并且获得的观测信息往往非常少，无法很好的探测周围环境，进而无法在合适的状态下做出最优动作。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于深度强化学习的无人机智能导航方法，以解决无人机导航依赖已知仿真环境，无法在未知环境具体状态下做出及时准确反应等问题，以及无人机在用强化学习探索环境时不能有效利用不同维度的环境信息综合对训练做指导的问题，并通过设计离散动作空间、不同经验池概率采样、加入策略熵等方法提高了无人机利用深度强化学习在探索三维空间时算法的收敛速度。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度强化学习的无人机智能导航方法，包括如下步骤：

步骤(1)，在三维仿真环境中建立无人机模型，并生成障碍物和目标点，所述无人机上安装有机载前置摄像头和激光雷达，所述前置摄像头感知障碍物的二维轮廓，所述激光雷达感知无人机与障碍物的一维距离L，在环境中随机生成无人机的初始位置，无人机初始状态为着陆状态；

步骤(2)，设计多维度特征融合的状态空间S和离散动作空间A；所述状态空间S包括无人机的方向位置、用来计算无人机当前飞行状态的俯仰角pitch和翻滚角roll的四元数、所述无人机与障碍物的一维距离L以及所述二维轮廓的状态向量Cam；所述无人机在有限空间内飞行；所述离散动作空间A的动作包括前进、后退、左转、右转、升高、降落；

步骤(3)，设计基于欧式距离的奖励函数，表示为：

R＝r_p+r_s+r_f

式中，R表示总奖励，r_p为无人机正在进行环境探索时执行一个动作的连续奖励，r_s为一轮探索结束并且成功飞到目标点的稀疏奖励，r_f为一轮探索结束但出现故障没有到达目标点的稀疏奖励；

步骤(4)，设计策略网络和状态价值网络；

所述策略网络的输入量为多维度特征融合的状态空间S，输出量为无人机要执行的动作的概率向量a_prob，长度为动作空间内动作的个数，根据概率采样选择动作a，转化为无人机的控制量使无人机执行动作；

所述状态价值网络的输入量为多维度特征融合的状态空间S，输出量为对当前状态的评估V(s)；

步骤(5)，设计临时经验池存储无人机与环境交互时的信息反馈；

步骤(6)，基于离散PPO算法进行深度强化学习网络训练；

步骤(7)，将训练至收敛的策略网络作为无人机的动作决策控制器，实现智能导航。

在一个实施例中，所述步骤(1)，障碍物为同一颜色的长方体，环境有边界，无人机能到的最小边界ws_min＝(x_min,y_min,z_min)，无人机能到的最大边界ws_max＝(x_max,y_max,z_max)，(x_min,y_min,z_min)和(x_max,y_max,z_max)均是环境中的坐标点；边界与障碍物用不同颜色的墙体区分。

在一个实施例中，所述步骤(2)，建立的状态空间如下：

S＝(P_x,P_y,P_z,O_w,O_x,O_y,O_z,L,Cam)

P_x为无人机的x轴方向位置，P_y为无人机的y轴方向位置，P_z为无人机的z轴方向位置，满足：

ws_min≤(P_x,P_y,P_z)≤ws_max

O_w、O_x、O_y、O_z即所述四元数，翻滚角roll、俯仰角pitch满足：

pitch＝asin[2(O_wO_y-O_zO_x)]

无人机与障碍物的一维距离L的最小值为0，当检测不到前方有障碍物时赋值5；

所述二维轮廓的状态向量Cam通过如下方式获取：

前置摄像头接收到传来的RGB三通道图像数据后，输入到卷积神经网络中进行特征提取，得到状态向量Cam；

所述离散动作空间A的动作通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成。

在一个实施例中，所述卷积神经网络为三层，第一层网络输入通道数为3，输出通道数为32，卷积核大小为3x3，采样步长为2；卷积结束经过ReLU函数激活，再进行最大池化采样操作，池化尺寸为2x2，处理完后传入第二层网络；第二层网络输入通道数为32，输出通道数为16，卷积核大小为3x3，采样步长为2，卷积结束经过ReLU函数激活；第三层是全连接神经网络，将卷积神经网络得到的结果展开成一维向量，再经过全连接神经网络将结果转换成为一行三列的向量，再经过ReLU函数激活得到状态向量Cam。

在一个实施例中，所述步骤(3)中，当回合结束标志位done为0时，计算r_p作为当前奖励：

r_p＝(500-step)*dif*ηdone＝0

step为训练一轮走的当前步数，步数越多奖励r_p越小，目标点的位置为G＝(g_x,g_y,g_z)，当前位置为cur＝(cur_x,cur_y,cur_z)，上一个状态的位置为pred＝(pred_x,pred_y,pred_z)，dif为当前位置与上一个动作的位置相对于目标点的偏移量，等于当前距目标点的距离减去上一个动作距目标点的欧式距离；

η为超参数，用于调整r_p的大小，使得所有奖励的数量级均衡；

当done为1并且des为True时，计算r_s作为当前奖励：

r_s＝100done＝1 and des＝True

des为到达目标点标志位，若无人机当前距目标点的距离小于ε则认为无人机已到达目标点，des为True，不满足条件即为False；

当done为1并且des为False，计算r_f作为当前奖励：

r_f＝-100done＝1 and des＝False。

在一个实施例中，判断回合是否结束标志位done有以下因素：

insi代表无人机目前是否在观测空间中，若当前位置cur大于最小边界ws_min并且小于最大边界ws_max，则insi为真；

clp代表无人机是否非常接近地面，若当前位置的z方向cur_z小于最小的高度阈值h_min，则clp为真；

flip代表无人机是否发生坠毁，若当前欧拉角eul＝(pitch,roll)小于最小的欧拉角阈值eul_min或者大于最大的欧拉角阈值eul_max，则flip为真；

clo代表是否非常靠近障碍物，若雷达读数L小于最小阈值L_min，则clo为真；

当insi为假或者其他四个标志有一个为真则done为1，表示一个探索回合结束。

在一个实施例中，所述策略网络包含四层，第一层为输入层，输入个数为11个，第二层为隐藏层，节点数为128个，第三层为隐藏层，节点数为64个，第四层为输出层，节点数为动作空间动作的个数，策略网络的所有隐藏层之间的激活函数均为Tanh激活函数；

所述状态价值网络包含四层，第一层为输入层，输入个数为11个，第二层为隐藏层，节点数为128个，第三层为隐藏层，节点数为64个，第四层为输出层，节点个数为1，代表状态价值网络对当前输入的状态的打分，状态价值网络的所有隐藏层之间的激活函数均为Tanh激活函数。

在一个实施例中，所述临时经验池还用于计算优势函数，当出现当前步数step超过一轮规定的最大训练步数step_max，而无人机状态良好仍在探索时，done＝0，但此时的状态量并不是终止状态，定义一个变量flag，flag为True表示正常终止，反之表示达到单回合最大步数终止，从而与正常终止进行区分；

所述无人机与环境交互时的信息反馈为由无人机每回合和环境交互产生的当前状态s_t、当前采取的动作a、动作对应的概率p_θ(a_t|s_t)、得到的奖励r、下一时刻的状态s_t′、flag、done组成的向量。

在一个实施例中，所述步骤(6)，使用PPO算法进行无人机的避障与导航训练，设定训练的总周期数目N，在每个周期内无人机与环境进行信息交互，根据得到的状态信息s_t传入策略网络中得到动作的概率，采样得到输出的动作，执行完成动作后获得新的状态信息s_t′，并判断flag、done的值，将所得值按照顺序存入临时经验池中；每当临时经验池数据存满时，将数据分批取出更新策略网络和状态价值网络，数据利用完后清空临时经验池，重新让无人机探索环境再更新网络，直至网络结构收敛至稳定状态。

在一个实施例中，所述动作决策控制器，传入当前状态信息s_t，输出动作概率再采样得到动作a，控制无人机执行动作a，直至无人机达到目标点。

本发明与现有技术相比，具体有如下优点：

第一，本发明使用多维度特征融合的方式获取状态信息传入强化学习神经网络中，使得无人机可以很大程度利用不同维度环境信息综合决策，从而在避障导航的过程中更加智能化，做出的动作更优。

第二，本发明建模的仿真环境真实，充分的考虑了无人机在飞行过程中遇到的各种问题并加以处理，对在真实场景中进行无人机强化学习仿真有很强的借鉴意义。

第三，本发明采用PPO算法的离散形式设计动作空间，设计适当的动作空间使得无人机探索环境时，在不影响控制功能精度降低的前提下，换取解空间维度的压缩以及探索效率的提升，网络更容易收敛。

第四，本发明将经验池拆分，并设计采样概率函数在不同训练阶段对不同采样池进行采样，有效解决在训练初期奖励稀疏训练慢，在训练后期探索效率不足容易过拟合的问题。

附图说明

图1为本发明整体原理示意图。

图2为本发明的多维度状态量融合示意图。

图3为本发明的策略网络结构图。

图4为本发明的状态价值网络结构图。

图5、图6、图7为三次实验结果示意图。

图8为三次实验无人机对应的飞行轨迹图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如前所述，现有的无人机深度强化学习避障导航方法往往依赖于已知的仿真环境，而现实往往是未知的，因此没有太多实际意义。并且，基于未知环境的仿真中无人机无法充分的感知不同状态下的环境信息，因此无法在具体状态下做出及时准确的反应，表现效果较差，强化学习在三维空间中训练会出现网络训练效率慢甚至不收敛的情况。

为解决这些问题，本发明提出一种基于强化学习的无人机避障导航方法，在三维环境中进行仿真实验，融合二维图像信息和一维状态信息输入到强化学习网络中训练，使无人机可以充分的探测周围环境，并通过设计离散动作空间、拆分经验池按概率采样、加入策略熵等方式优化网络收敛速度，进而在特定的状态下做出更优的动作，从而实现良好的导航效果。

为使本领域技术人员更好地理解本发明的技术方案，下面结合具体实施方式对本发明作进一步详细描述。

本发明是一种基于深度强化学习的无人机智能导航方法，其原理如图1所示，建立无人机的仿真环境，智能体由策略网络和状态价值网络组成，智能体接收到环境的状态量后首先进行将不同维度的状态信息进行融合，将融合后的状态信息s_t传给策略网络，策略网络根据输入的状态量计算出动作空间中每一个动作发生的概率p_θ(a_t|s_t)，进行采样得出选择的动作a，将得出的动作发送给智能体控制层使智能体做出相应动作，动作完成后感知最新的状态s_t+1并计算获得的奖励r_t和标志位done,flag，将上面得到的数据序列[s_t,a,p_θ(a_t|s_t),r,s_t+1,done,flag]存入经验池内，经验池存满后分批选取数据。将s_t,s_t+1传入价值网络计算出两个状态的价值估计V(s_t),V(s_t+1)，结合经验池中的r_t,flag计算优势函数A，将计算完的优势函数和p_θ(a_t|s_t)传给策略网络进行参数更新，将计算完的优势函数和V(s_t)传给价值网络进行参数更新，直到网络收敛。收敛的策略网络可指导智能体在每个状态下做出最优的策略，从而实现避障导航。

具体地，本发明包括如下步骤：

步骤一：在三维仿真环境中建立无人机模型，并生成障碍物和目标点。

本发明中，采用四旋翼无人机，无人机上安装有机载前置摄像头和激光雷达，前置摄像头主要用于感知障碍物的二维轮廓，激光雷达主要用于感知无人机与障碍物的一维距离L。

示例地，障碍物为同一颜色的长方体，环境有边界，可用与障碍物不同颜色的墙体区分。无人机能到的最小边界ws_min＝(x_min,y_min,z_min)，无人机能到的最大边界ws_max＝(x_max,y_max,z_max)，(x_min,y_min,z_min)和(x_max,y_max,z_max)均是环境中的坐标点。

本发明的实施例中，环境大小为长宽为10m，高为6m的立方体。

在训练开始前需要初始化无人机前置摄像头和激光雷达，保证可以正确接收到数据，在环境中随机生成无人机的初始位置，无人机初始状态为着陆状态，给/takeoff话题发送指令即可起飞。

步骤二：设计多维度特征融合的状态空间S和离散动作空间A。

参考图2，建立的状态空间S如下：

S＝(P_x,P_y,P_z,O_w,O_x,O_y,O_z,L,Cam)

P_x为无人机的x轴方向位置，P_y为无人机的y轴方向位置，P_z为无人机的z轴方向位置，需满足：

ws_min≤(P_x,P_y,P_z)≤ws_max

即，保证无人机在有限空间内飞行。

四元数O_w、O_x、O_y、O_z用来计算无人机当前飞行状态的俯仰角pitch和翻滚角roll：

pitch＝asin[2(O_wO_y-O_zO_x)]

无人机与障碍物的一维距离L通过激光雷达传感器的读数获取，其最小值为0，当检测不到前方有障碍物时赋值5。

Cam为二维轮廓的状态向量，通过如下方式获取：

前置摄像头接收到传来的RGB三通道图像数据(本实施例中，其尺寸为640x360x3)后，输入到卷积神经网络中进行特征提取。

本实施例中，卷积神经网络为三层，第一层网络输入通道数为3，输出通道数为32，卷积核大小为3x3，采样步长为2。卷积结束经过ReLU函数激活，再进行最大池化采样操作，池化尺寸为2x2，处理完后传入第二层网络。第二层网络输入通道数为32，输出通道数为16，卷积核大小为3x3，采样步长为2，卷积结束经过ReLU函数激活。第三层是全连接神经网络，将卷积神经网络得到的结果展开成一维向量，再经过全连接神经网络将结果转换成为一行三列的向量，再经过ReLU函数激活即得到状态向量Cam。

本发明动作空间即为离散动作空间A，分别为前进、后退，左转、右转、升高、降落，通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成。示例地，每一个动作的执行时间T可以设定为0.3s。

步骤三：设计基于欧式距离的奖励函数。

R＝r_p+r_s+r_f

式中，R表示总奖励，r_p为无人机正在进行环境探索时执行一个动作的连续奖励，当回合结束标志位done为0时，计算r_p作为当前奖励。step为训练一轮走的当前步数，步数越多奖励r_p越小，目标点的位置为G＝(g_x,g_y,g_z)，当前位置为cur＝(cur_x,cur_y,cur_z)，上一个状态的位置为pred＝(pred_x,pred_y,pred_z)，dif为当前位置与上一个动作的位置相对于目标点的偏移量，等于当前距目标点的距离减去上一个动作距目标点的距离，这里的距离指欧式距离。

η为超参数，用于调整r_p的大小，使得所有奖励的数量级均衡。

r_s为一轮探索结束并且成功飞到目标点的稀疏奖励，des为到达目标点标志位，满足：

若无人机当前距目标点的距离小于ε则认为无人机已到达目标点，des为True，不满足条件即为False。当done为1并且des为True时，计算r_s作为当前奖励。

r_f为一轮探索结束但出现故障没有到达目标点的稀疏奖励，此时done为1并且des为False。

判断回合是否结束标志位done有以下因素：

insi代表无人机目前是否在观测空间中，若当前位置cur大于观测空间最小值(即最小边界)ws_min并且小于观测空间最大值(即最大边界)ws_max，则insi为真；

clo代表是否非常靠近障碍物，若雷达读数L小于最小阈值L_min，则clo为真。

步骤四：设计策略网络和状态价值网络。

强化学习PPO算法的网络包括策略网络和状态价值网络。

策略网络的输入量是多维度的状态量S＝(P_x,P_y,P_z,O_w,O_x,O_y,O_z,L,Cam)，输出量为无人机要执行的动作的概率向量a_prob，长度为动作空间内动作的个数，如图3所示，根据概率采样选择动作a，转化为无人机的控制量使无人机执行动作。

示例地，策略网络包含四层，第一层为输入层，输入个数为11个，第二层为隐藏层，节点数为128个，第三层为隐藏层，节点数为64个，第四层为输出层，节点数为动作空间动作的个数。

策略网络的所有隐藏层之间的激活函数均为Tanh激活函数，生成网络时对所有网络层进行正交初始化操作，用均值为0，标准差为1的高斯分布初始化权重矩阵，对这个权重矩阵进行奇异值分解，得到两个正交矩阵，取其中之一作为该层神经网络的权重矩阵。

策略网络最终要最大化的目标函数为：

式中p_θ(a_t|s_t)表示新策略，

表示旧策略，

表示旧优势函数，若新旧策略差太多会影响结果，用截断函数clip把新旧策略比值限制在1-ε和1+ε之间，从而提高训练的有效性。每次参数的更新的过程为：

状态价值函数估计网络输入量同样为状态量S，输出量为对当前状态的评估V(s)。如图4所示，状态价值网络同样包含四层，第一层为输入层，输入个数为11个，第二层为隐藏层，节点数为128个，第三层为隐藏层，节点数为64个，第四层为输出层，节点数为1，代表状态价值网络对当前输入的状态的打分。状态价值网络的所有隐藏层之间的激活函数均为Tanh激活函数，生成网络时对所有网络层进行正交初始化操作。

采用误差平方的形式和梯度下降法更新状态价值函数：

步骤五：设计临时经验池存储交互信息。

本发明的临时经验池还用于计算优势函数，在本训练框架中，会出现当前步数step超过一轮规定的最大训练步数step_max时，无人机状态良好仍在探索的情况，此时done＝0。此时的状态量S并不是终止状态，为和正常终止做区分，定义一个变量flag，flag为True表示正常终止，反之表示达到单回合最大步数终止。

本发明中，无人机与环境交互时的信息反馈，由无人机每回合和环境交互产生的当前状态s_t、当前采取的动作a、某状态下选择相应动作对应的概率p_θ(a_t|s_t)、得到的奖励r、下一时刻的状态s_t′、flag、done组成，具体形式为[s_t,a,p_θ(a_t|s_t),r,s_t+1,flag,done]。

将经验池分为正经验池和普通经验池，正经验池存放r大于零的训练样本，普通经验池存放所有样本，算法依据采样概率

从正经验池采样，依据采样概率1-P_sam从普通经验池采样。epi为训练周期，训练前期大概率从正经验池采样训练网络，随着训练周期变大，采样概率P_sam逐渐趋于零，采样均来自普通经验池，有效克服训练初期奖励稀疏，训练效率慢、训练后期探索效率不够出现过拟合的问题。

步骤六：基于PPO算法进行强化学习网络训练。

优势函数A_t(s_t,a_t)的计算方式采用GAE形式：

式中γ为折扣率，λ为调整因子，越接近1方差越大偏差越小，接近0反之。V(s_t)为价值评价网络当前输出的值。

为区分flag为True或False，即无人机训练正常结束和异常截断，对优势函数

的计算，加入条件判断flag：

flag为True时表明智能体正常结束探索，没有下一个状态V(s_t+1)。

为增加算法的探索能力，在策略网络的目标函数中增加一项策略熵：

J(θ)＝J(π_θ)+entr*coef

式中entr为策略熵，coef为系数。

使用PPO算法进行无人机的避障与导航训练，设定训练的总周期数目N，在每个周期内无人机与环境进行信息交互，根据得到的状态信息s_t传入策略网络中得到动作的概率，采样得到输出的动作，执行完成动作后获得新的状态信息s_t+1，并判断flag、done等变量的值，将这些值按照顺序存入经验池当中；每当经验池数据存满时，将数据分批取出计算梯度更新策略网络和状态价值网络，经验池数据利用完后清空经验池重新让无人机探索环境再更新网络，直至网络结构收敛至稳定状态。

步骤七：无人机智能导航实现。

将训练至收敛的策略网络直接当作无人机的动作决策控制器，传入当前状态信息s_t，输出动作概率再采样得到动作a，控制无人机执行动作a，直至无人机达到目标点。图5、图6、图7分别为三次仿真实验，在面对障碍物时，策略网络输出动作决策指导无人机避开障碍物并抵达目标点附近。四周白色部分为墙体，里边黑色有阴影的立方体为障碍物，无人机前端发出的四条白线为前置摄像机视野范围。图8展示了三次实验中无人机的飞行轨迹，可用看出，三次实验中无人机在躲避了障碍物后，都顺利到达目标点附近。

Claims

1.一种基于深度强化学习的无人机智能导航方法，其特征在于，包括如下步骤：

步骤(3)，设计基于欧式距离的奖励函数，表示为：

R＝r_p+r_s+r_f

步骤(4)，设计策略网络和状态价值网络；

步骤(6)，基于离散PPO算法进行深度强化学习网络训练；

2.根据权利要求1所述基于深度强化学习的无人机智能导航方法，其特征在于，所述步骤(1)，障碍物为同一颜色的长方体，环境有边界，无人机能到的最小边界ws_min＝(x_min，y_min，z_min)，无人机能到的最大边界ws_max＝(x_max，y_max，z_max)，(x_min，y_min，z_min)和(x_max，y_max，z_max)均是环境中的坐标点；边界与障碍物用不同颜色的墙体区分。

3.根据权利要求2所述基于深度强化学习的无人机智能导航方法，其特征在于，所述步骤(2)，建立的状态空间如下：

S＝(P_x，P_y，P_z，O_w，O_x，O_y，O_z，L，Cam)

ws_min≤(P_x，P_y，P_z)≤ws_max

pitch＝asin[2(O_wO_y-O_zO_x)]

所述二维轮廓的状态向量Cam通过如下方式获取：

4.根据权利要求3所述基于深度强化学习的无人机智能导航方法，其特征在于，所述卷积神经网络为三层，第一层网络输入通道数为3，输出通道数为32，卷积核大小为3x3，采样步长为2；卷积结束经过ReLU函数激活，再进行最大池化采样操作，池化尺寸为2x2，处理完后传入第二层网络；第二层网络输入通道数为32，输出通道数为16，卷积核大小为3x3，采样步长为2，卷积结束经过ReLU函数激活；第三层是全连接神经网络，将卷积神经网络得到的结果展开成一维向量，再经过全连接神经网络将结果转换成为一行三列的向量，再经过ReLU函数激活得到状态向量Cam。

5.根据权利要求1所述基于深度强化学习的无人机智能导航方法，其特征在于，所述步骤(3)中，当回合结束标志位done为0时，计算r_p作为当前奖励：

r_p＝(500-step)*dif*η done＝0

step为训练一轮走的当前步数，步数越多奖励r_p越小，目标点的位置为G＝(g_x，g_y，g_z)，当前位置为cur＝(cur_x，cur_y，cur_z)，上一个状态的位置为pred＝(pred_x，pred_y，pred_z)，dif为当前位置与上一个动作的位置相对于目标点的偏移量，等于当前距目标点的距离减去上一个动作距目标点的欧式距离；

当done为1并且des为True时，计算r_s作为当前奖励：

r_s＝100 done＝1 and des＝True

当done为1并且des为False，计算r_f作为当前奖励：

r_f＝-100 done＝1 and des＝False。

6.根据权利要求5所述基于深度强化学习的无人机智能导航方法，其特征在于，判断回合是否结束标志位done有以下因素：

flip代表无人机是否发生坠毁，若当前欧拉角eul＝(pitch，roll)小于最小的欧拉角阈值eul_min或者大于最大的欧拉角阈值eul_max，则flip为真；

7.根据权利要求5所述基于深度强化学习的无人机智能导航方法，其特征在于，所述策略网络包含四层，第一层为输入层，输入个数为11个，第二层为隐藏层，节点数为128个，第三层为隐藏层，节点数为64个，第四层为输出层，节点数为动作空间动作的个数，策略网络的所有隐藏层之间的激活函数均为Tanh激活函数；

8.根据权利要求1所述基于深度强化学习的无人机智能导航方法，其特征在于，所述临时经验池还用于计算优势函数，当出现当前步数step超过一轮规定的最大训练步数step_max，而无人机状态良好仍在探索时，done＝0，但此时的状态量并不是终止状态，定义一个变量flag，flag为True表示正常终止，反之表示达到单回合最大步数终止，从而与正常终止进行区分；

9.根据权利要求1所述基于深度强化学习的无人机智能导航方法，其特征在于，所述步骤(6)，使用PPO算法进行无人机的避障与导航训练，设定训练的总周期数目N，在每个周期内无人机与环境进行信息交互，根据得到的状态信息s_t传入策略网络中得到动作的概率，采样得到输出的动作，执行完成动作后获得新的状态信息s_t′，并判断flag、done的值，将所得值按照顺序存入临时经验池中；每当临时经验池数据存满时，将数据分批取出更新策略网络和状态价值网络，数据利用完后清空临时经验池，重新让无人机探索环境再更新网络，直至网络结构收敛至稳定状态。

10.根据权利要求1所述基于深度强化学习的无人机智能导航方法，其特征在于，所述动作决策控制器，传入当前状态信息s_t，输出动作概率再采样得到动作a，控制无人机执行动作a，直至无人机达到目标点。