CN116242364A

CN116242364A - 一种基于深度强化学习的多无人机智能导航方法

Info

Publication number: CN116242364A
Application number: CN202310223562.1A
Authority: CN
Inventors: 李瑜; 张文博; 姜超颖; 龙璐岚; 李林; 臧博
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-06-09

Abstract

本发明公开了一种基于深度强化学习的多无人机智能导航方法，包括以下步骤；(1)在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境：(2)设置无人机的多维度特征融合的全局观测信息、局部观测信息和离散动作空间；(3)基于欧式距离的奖励函数，定义无人机状态的价值评价指标；(4)设计策略网络和状态价值网络；(5)设计临时经验池存储交互信息；(6)基于OA‑MAPPO算法进行深度强化学习网络训练，按照算法设定的流程采样步骤(5)中产生的样本，用于步骤(4)中设计的网络的训练；(7)实现多无人机智能导航。本发明能够实现良好的避障导航效果。

Description

一种基于深度强化学习的多无人机智能导航方法

技术领域

本发明属于无人机智能导航技术领域，具体涉及一种基于深度强化学习的多无人机智能导航方法。

背景技术

无人机不管在军事领域还是民用领域都有很多的应用，但目前大多数场景下还是人为控制其飞行，这种方式在飞行过程中很容易因为操作不当导致无人机避障失败进而坠毁。传统的无人机避障方法如可视图法、粒子群优化算法根据不同任务建模过程复杂并且应用在三维空间计算量大，十分耗时。在实际飞行过程中，往往需要在未知环境中实时避障。

单无人机可解决的任务的复杂度和规模都远远小于多无人机协同方式，多无人机协同完成任务已是大势所趋，但多无人机比单无人机更难以联合操控，多无人机协同不仅要使得无人机避开障碍物，也要防止无人机之间发生碰撞。

强化学习是一种让机器人不断与环境交互，根据得到的奖励改进机器人在特定状态下所作动作的方法，经过不断探索环境，最终可以得到每个状态下的最优动作，从而实现特定的任务。强化学习在无人机避障领域已经有一定的研究，但目前研究无人机仿真环境简单，如基于增量式发育深度强化学习的无人机路径规划方法，公开号为：115686076A，几乎无法应用于复杂的真实场景，并且获得的观测信息往往非常少，无法很好的探测周围环境，进而无法在合适的状态下做出最优动作。

发明内容

为了克服上述现有技术存在的不足，本发明的目的在于提供一种基于深度强化学习的多无人机智能导航方法，在三维环境中进行仿真实验，融合二维图像信息和一维状态信息输入到强化学习网络中训练，使无人机可以充分的探测周围环境，进而在特定的状态下做出更优的动作，在奖励函数中设计机间避障函数，从而实现良好的避障导航效果。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度强化学习的多无人机智能导航方法，包括以下步骤；

(1)在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境：

(2)设置无人机的多维度特征融合的全局观测信息、局部观测信息和离散动作空间；(多维度指三维图像信息和一维其他信息，例如无人机位置、雷达数据)；

(3)基于欧式距离的奖励函数，定义无人机状态的价值评价指标；

(4)设计策略网络和状态价值网络，策略网络根据步骤(2)中无人机的局部观测信息决策出当前执行的动作，状态价值网络根据步骤(2)中全局观测信息评价出当前无人机执行的动作的分数；

(5)设计临时经验池存储交互信息，用于存储无人机和环境交互产生的样本序列，提供给步骤(4)中策略网络和状态价值网络训练；

(6)基于OA-MAPPO算法进行深度强化学习步骤四中设计的网络，按照算法设定的流程采样步骤(5)中产生的样本，用于步骤(4)中设计的网络的训练；

(7)实现多无人机智能导航。

所述步骤(1)中障碍物为同一颜色的长方体(颜色主要考虑到无人机要接收图像信息，为区分障碍物和其他物体，所有障碍物一个颜色，其他一个颜色)，环境有边界，ws_min＝(x_min，y_min，z_min)表示每个无人机能到的最小边界，ws_max＝(x_max，y_max，z_max)表示每个无人机能到的最大边界，边界与障碍物用不同颜色的墙体区分。

所述无人机上安装有机载前置摄像头和激光雷达，激光雷达感知无人机和障碍物的一维距离信息，前置摄像头感知障碍物的二维轮廓信息，训练开始前需要初始化每个无人机机载前置摄像头和激光雷达，用于保证正确接收到数据，无人机的初始位置位于环境左下角，无人机初始状态为着陆状态。

所述步骤(2)中，以一号无人机为例，其他无人机同理，对于一号无人机，建立其局部观测信息o¹如下：

o¹＝(P_x ¹，P_y ¹，P_z ¹，O_w ¹，O_x ¹，O_y ¹，O_z ¹，L¹，Cam¹，P_x ²，P_y ²，P_z ²，P_x ³，P_y ³，P_z ³)

其中包括一号无人机位置信息

P_z ¹和二号无人机的位置信息/>

P_z ²以及三号无人机的位置信息P_x ³、/>

P_z ³，所有无人机的位置信息需满足

ws_min≤(P_x ⁱ，P_y ⁱ，P_z ⁱ)≤ws_maxi∈{1，2，3}

保证无人机在有限空间内飞行；

无人机i的四元数O_w ⁱ、O_x ⁱ、O_y ⁱ、O_z ⁱ用来计算无人机当前飞行状态的俯仰角pitch和翻滚角roll：

pitch＝asin[2(O_wO_y-O_zO_x)]

激光雷达传感器的读数Lⁱ感应无人机i前方与障碍物的距离，最小值为0。

其他无人机和一号无人机硬件参数一样、传感器也一样，只是局部观测信息不同，例如二号的应为o2＝(P_x ²，P_y ²，P_z ²，O_w ²，O_x ²，O_y ²，O_z ²，L²，Cam²，P_x ¹，P_y ¹，P_z ¹，P_x ³，P_y ³，P_z ³)，也就是自身所有观测信息加其他无人机位置信息。

当检测不到前方有障碍物时赋值5，前置摄像头接收到传来的RGB三通道图像数据后，输入到卷积神经网络中进行特征提取，卷积神经网络为三层，第一层网络输入通道数为3，输出通道数为32，卷积核大小为3x3，采样步长为2，卷积结束经过ReLU函数激活，再进行最大池化采样操作，池化尺寸为2x2，处理完后传入第二层网络；第二层网络输入通道数为32，输出通道数为16，卷积核大小为3x3，采样步长为2，卷积结束经过ReLU函数激活，第三层是全连接神经网络，将卷积神经网络得到的结果展开成一维向量，再经过全连接神经网络将结果转换成为一行三列的向量，再经过ReLU函数激活得到状态向量Cam，全局观测信息为所有无人机部分观测信息除去重复信息的综合；

建立的动作空间A为离散的动作空间，分别为前进、后退，左转、右转、升高、降落，通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成，每一个动作的执行时间T设定为0.3s。

所述步骤(3)中，基于欧式距离的奖励函数的表达式为：

r＝r_p+r_s+r_f+r_d

r表示总奖励，其中r_p为所有无人机正在进行环境探索时执行一个动作的连续奖励的总和，式中描述了三架无人机的累加结果，定义回合结束标志done，值为True表示当前训练回合结束，值为False表示未结束，doneⁱ表示第i个无人机的回合结束标志，值为True表示结束，值为False表示未结束，设定若有一个无人机由于碰撞或其他情况导致回合结束，则整个飞行回合都结束，保证任务的完整性，因此回合结束标志done可由下式定义：

done＝done¹∪done²∪done³

当回合结束标志位done为False时，计算r_p作为当前奖励，step为训练一轮走的当前步数，步数越多奖励r_p越小，目标点的位置为G＝(g_x，g_y，g_z)，无人机i的当前位置为X_i＝(Cur_x ⁱ，cur_y ⁱ，cur_z ⁱ)，无人机i上一个状态的位置为predⁱ＝(pred_x ⁱ，pred_y ⁱ，pred_z ⁱ)，difⁱ为无人机i当前位置与上一个动作的位置相对于目标点的偏移量，等于当前距目标点的距离减去上一个动作距目标点的距离，这里的距离指欧式距离；

difⁱ＝||X_i-G||-||predⁱ-G||i∈{1，2，3}

η为超参数，用于调整r_p的大小，使得所有奖励的数量级均衡；

r_s为一轮探索结束并且成功飞到目标点的稀疏奖励，desⁱ为无人机i到达目标点标志位，满足：

若无人机i当前距目标点的距离小于ε则认为无人机已到达目标点，desⁱ为True，不满足条件即为False；当desⁱ为True时，计算r_s作为当前奖励；r_f为一轮探索结束但出现故障没有到达目标点的稀疏奖励，此时done为True；

判断回合结束标志位done有以下因素，insiⁱ代表无人机i目前是否在任务空间范围中，若当前位置X_i大于观测空间最小值ws_min并且小于观测空间最大值ws_max，则insiⁱ为真；

clpⁱ代表无人机i是否非常接近地面，若当前位置的z方向cur_z ⁱ小于最小的高度阈值h_min，则clpⁱ为真；

/>

flipⁱ代表无人机i是否发生坠毁，若无人机i的当前欧拉角eulⁱ＝(pitch，roll)小于最小的欧拉角阈值eul_min或者大于最大的欧拉角阈值eul_max，则flipⁱ为真；

cloⁱ代表无人机i是否非常靠近障碍物，若雷达读数L小于最小阈值L_min，则cloⁱ为真；

当insiⁱ为False或者其他标志有一个为True则doneⁱ为True，表示一个探索回合结束；

r_d为保证多无人机飞行时不发生机间碰撞的奖励，定义无人机i和无人机j之间的距离为

安全飞行区间D₀为[d_min，d_max]，构造/>

如下式：

若无人机i和无人机j的距离

不在安全飞行区间D₀内，则奖励r_d为负值，若在安全飞行区间内，则奖励为正(μ为奖励r_d的调整因子)。

所述步骤(4)中策略网络和状态价值网络为深度强化学习OA-MAPPO算法的网络包括策略网络结构和状态价值函数估计网络结构；

策略网络结构的输入量是多维度信息融合的部分观测量，对于一号无人机，部分观测量为o¹＝(P_x ¹，P_y ¹，P_z ¹，O_w ¹，O_x ¹，O_y ¹，O_z ¹，L¹，Cam¹，P_x ²，P_y ²，P_z ²，P_x ³，P_y ³，P_z ³)，输出量为无人机要执行的动作的概率向量a_prob，长度为动作空间内动作的个数，根据概率采样选择动作a，转化为无人机的控制量使无人机执行动作，策略网络结构包含四层网络，第一层网络输入个数为17个，第二层隐藏层的节点数为128个，第三层隐藏层的节点数为64个，第四层为输出层，节点的个数为动作空间动作的个数。策略网络结构的所有隐藏层之间的激活函数均为Tanh激活函数；

状态价值函数估计网络输入量为全局观测量o_t，输出量为对当前状态的评估V(o_t)，状态价值函数估计网络包含四层网络，第一层网络输入个数为33个，第一层隐藏层的节点数为128个，第二层隐藏层的节点数为128个，第三层隐藏层的节点数为64个，第四层隐藏层的节点数为32个，最后输出一个值代表状态价值网络对当前输入的多智能体联合状态的评估结果，状态价值网络的所有隐藏层之间的激活函数均为Tanh激活函数。

所述步骤(5)中，经验池用来存储每个无人机与环境交互时的信息反馈，包括每个无人机的部分观测

每个无人机下一状态的部分观测/>

多无人机联合动作u_t，执行一次联合动作获取的奖励r_t，全局观测s_t和下一状态的全局观测s_t+1具体形式为[s_t，o_t，u_t，r_t，o_t+1，s_t+1]。

所述步骤(6)中使用OA-MAPPO算法进行无人机的避障与导航训练，设定训练的总周期数目N，在每个周期内无人机与环境进行信息交互，根据每个无人机得到的局部观测信息o_t传入各自的策略网络中得到动作的概率，采样得到输出的动作，执行完成联合动作后获得新的局部观测信息o_t+1，将这些值按照顺序存入经验池当中；每当经验池数据存满时，将数据分批取出更新每个无人机的策略网络和总的状态价值网络，经验池数据利用完后清空经验池重新让无人机探索环境再更新网络，直至网络结构收敛至稳定状态。

所述步骤(7)中，将每个无人机训练至收敛的策略网络直接当作自身的动作决策控制器，传入当前状态信息s_t，输出动作概率再采样得到动作a，控制无人机执行动作a，直至所有无人机达到目标点。

本发明的有益效果：

第一，本发明使用多维度特征融合的观测量作为多无人机策略网络和价值评价网络的输入，基于距离和图像信息使得无人机更大程度的感知周围环境，从而做出更好的决策。

第二，本发明建模的仿真环境真实，充分的考虑了多无人机在飞行过程中遇到的各种问题并加以处理，对进行多无人机工程实践有很强的借鉴意义。

第三，本发明使用的多无人机强化学习算法，采用集中式训练，分布式执行的方式使多无人机实现分布式飞行，在奖励函数中融入无人机机间避障机制，实现多无人机飞行时灵活避障。

附图说明

图1为本发明的结构原理示意图。

图2为本发明的多维度状态量融合示意图。

图3为本发明的策略网络结构图。

图4为本发明的状态价值网络结构图。

图5为建立的仿真环境示意图。

图6为一次多无人机一次仿真示意图。

图7为多无人机对应的飞行轨迹图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明是一种基于深度强化学习的多无人机智能导航方法，方法总体结构原理如图1所示，建立多无人机的仿真环境，智能体由各自的策略网络和总的状态价值网络组成，智能体接收到环境的部分观测量后首先进行将不同维度的状态信息进行融合，将融合后的部分观测信息o_t传给对应策略网络并生成全局观测s_t，策略网络根据输入的状态量计算出动作空间中每一个动作发生的概率π_θ(a_t|o_t)，进行采样得出选择的动作a组成联合动作u_t，将得出的动作发送给每个智能体控制层使智能体做出相应动作，动作完成后感知自身最新的部分观测量o_t+1并计算获得的奖励r_t和全局观测量s_t+1，将上面得到的数据序列[s_t,o_t,u_t,r_t,o_t+1,s_t+1]存入经验池内，经验池存满后分批选取数据。将s_t,s_t+1传入总的价值网络计算出两个状态的价值估计V(s_t),V(s_t+1)，根据以上信息计算优势函数A_t，传给策略网络和价值网络进行参数更新，直到网络收敛。收敛的策略网络可指导智能体在每个状态下做出最优的策略，从而实现避障导航。

其中提出的OA-MAPPO算法的具体计算过程如下：

本发明的一种基于深度强化学习的多无人机智能导航方法，包括如下步骤：

步骤一：在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境；

在三维仿真环境中建立三架四旋翼无人机模型并生成包含障碍物和目标点的环境，障碍物为同一颜色的长方体，环境有边界，用与障碍物不同颜色的墙体区分，本发明的环境大小为长宽为14m，高为6m的立方体。无人机上安装有机载前置摄像头和激光雷达，训练开始前需要初始化无人机机载前置摄像头和激光雷达保证可以正确接收到数据，无人机的初始位置位于环境左下角，无人机初始状态为着陆状态，给/takeoff话题发送指令即可起飞。

步骤二：设计多维度特征融合的全局观测信息、局部观测信息和离散动作空间，以一号无人机为例，其他无人机同理。建立的一号无人机局部观测信息o¹如下：

o¹＝(P_x ¹,P_y ¹,P_z ¹,O_w ¹,O_x ¹,O_y ¹,O_z ¹,L¹,Cam¹,P_x ²,P_y ²,P_z ²,P_x ³,P_y ³,P_z ³)

无人机i的局部观测信息包括无人机i的x轴方向位置P_x ⁱ、y轴方向位置P_y ⁱ、z轴方向位置

需满足：

ws_min≤(P_x ⁱ,P_y ⁱ,P_z ⁱ)≤ws_max i∈{1,2,3}

保证无人机在有限空间内飞行。

四元数O_w ⁱ、O_x ⁱ、O_y ⁱ、O_z ⁱ用来计算无人机当前飞行状态的俯仰角pitch和翻滚角roll：

pitch＝asin[2(O_wO_y-O_zO_x)]

激光雷达传感器的读数Lⁱ感应无人机i前方与障碍物的距离，最小值为0，当检测不到前方有障碍物时赋值5。前置相机接收到传来的RGB三通道图像数据后，输入到卷积神经网络中进行特征提取。卷积神经网络为三层，第一层网络输入通道数为3，输出通道数为32，卷积核大小为3x3，采样步长为2。卷积结束经过ReLU函数激活，再进行最大池化采样操作，池化尺寸为2x2，处理完后传入第二层网络。第二层网络输入通道数为32，输出通道数为16，卷积核大小为3x3，采样步长为2，卷积结束经过ReLU函数激活。第三层是全连接神经网络，将卷积神经网络得到的结果展开成一维向量，再经过全连接神经网络将结果转换成为一行三列的向量，再经过ReLU函数激活得到状态向量Cam。全局观测信息为所有无人机部分观测信息除去重复信息的综合。

建立的动作空间A为离散的动作空间，分别为前进、后退，左转、右转、升高、降落，通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成，

每一个动作的执行时间T设定为0.3s。

步骤三：设计基于欧式距离的奖励函数；

r＝r_p+r_s+r_f+r_d

r表示总奖励，其中r_p为所有无人机正在进行环境探索时执行一个动作的连续奖励的总和，式中描述了三架无人机的累加结果。定义回合结束标志done，值为True表示当前训练回合结束，值为False表示未结束，doneⁱ表示第i个无人机的回合结束标志，值为True表示结束，值为False表示未结束。设定若有一个无人机由于碰撞或其他情况导致回合结束，则整个飞行回合都结束，保证任务的完整性。因此回合结束标志done可由下式定义：

done＝done¹∪done²∪done³

当回合结束标志位done为False时，计算r_p作为当前奖励。step为训练一轮走的当前步数，步数越多奖励r_p越小，目标点的位置为G＝(g_x,g_y,g_z)，无人机i的当前位置为X_i＝(cur_x ⁱ,cur_y ⁱ,cur_z ⁱ)，无人机i上一个状态的位置为predⁱ＝(pred_x ⁱ,pred_y ⁱ,pred_z ⁱ)，difⁱ为无人机i当前位置与上一个动作的位置相对于目标点的偏移量，等于当前距目标点的距离减去上一个动作距目标点的距离，这里的距离指欧式距离。

difⁱ＝||X_i-G||-||predⁱ-G||i∈{1，2，3}

为超参数，用于调整r_p的大小，使得所有奖励的数量级均衡。

若无人机i当前距目标点的距离小于ε则认为无人机已到达目标点，desⁱ为True，不满足条件即为False。当desⁱ为True时，计算r_s作为当前奖励。r_f为一轮探索结束但出现故障没有到达目标点的稀疏奖励，此时done为True。

cloⁱ代表无人机i是否非常靠近障碍物，若雷达读数L小于最小阈值L_min，则cloⁱ为真

当insiⁱ为False或者其他标志有一个为True则doneⁱ为True，表示一个探索回合结束。

步骤四：设计策略网络和状态价值网络；

深度强化学习OA-MAPPO算法的网络包括策略网络结构和状态价值函数估计网络结构。

策略网络结构的输入量是多维度信息融合的部分观测量，对于一号无人机，部分观测量为o¹＝(P_x ¹,P_y ¹,P_z ¹,O_w ¹,O_x ¹,O_y ¹,O_z ¹,L¹,Cam¹,P_x ²,P_y ²,P_z ²,P_x ³,P_y ³,P_z ³)，输出量为无人机要执行的动作的概率向量a_prob，长度为动作空间内动作的个数，根据概率采样选择动作a，转化为无人机的控制量使无人机执行动作。策略网络结构包含四层网络，如图3所示，第一层网络输入个数为17个，第二层隐藏层的节点数为128个，第三层隐藏层的节点数为64个，第四层为输出层，节点的个数为动作空间动作的个数。策略网络结构的所有隐藏层之间的激活函数均为Tanh激活函数。生成网络时对所有网络层进行正交初始化操作，用均值为0，标准差为1的高斯分布初始化权重矩阵，对这个权重矩阵进行奇异值分解，得到两个正交矩阵，取其中之一作为该层神经网络的权重矩阵。

状态价值函数估计网络输入量为全局观测量o_t，输出量为对当前状态的评估V(o_t)。状态价值函数估计网络包含四层网络，如图4所示，第一层网络输入个数为33个，第一层隐藏层的节点数为128个，第二层隐藏层的节点数为128个，第三层隐藏层的节点数为64个，第四层隐藏层的节点数为32个，最后输出一个值代表状态价值网络对当前输入的多智能体联合状态的评估结果。状态价值网络的所有隐藏层之间的激活函数均为Tanh激活函数。生成网络时对所有网络层进行正交初始化操作。

步骤五：设计临时经验池存储交互信息；

经验池用来存储每个无人机与环境交互时的信息反馈，包括每个无人机的部分观测

每个无人机下一状态的部分观测/>

步骤六：基于OA-MAPPO算法进行强化学习网络训练；

为区分flag为True或False对优势函数

的计算，加入条件判断：

flag为True时表明智能体正常结束探索，没有下一个状态V(s_t+1)。

使用OA-MAPPO算法进行无人机的避障与导航训练，设定训练的总周期数目N，在每个周期内无人机与环境进行信息交互，根据每个无人机得到的局部观测信息o_t传入各自的策略网络中得到动作的概率，采样得到输出的动作，执行完成联合动作后获得新的局部观测信息o_t+1，将这些值按照顺序存入经验池当中；每当经验池数据存满时，将数据分批取出更新每个无人机的策略网络和总的状态价值网络，经验池数据利用完后清空经验池重新让无人机探索环境再更新网络，直至网络结构收敛至稳定状态；

步骤七：多无人机智能导航；

将每个无人机训练至收敛的策略网络直接当作自身的动作决策控制器，传入当前部分观测信息o_t，输出动作概率再采样得到动作a，控制无人机执行动作a，直至所有无人机达到目标点。图5为基于Gazebo建立的仿真实验场景，四周为墙体，中间立方体为建立的障碍物，三架无人机的起始位置分别为(1，1，0)、(1，2，0)和(2，1，0)，无人机前方四条线显示摄像头的拍摄范围，飞行开始无人机会统一上升至一定高度然后开始自动导航，图6展示了一次自动导航的过程，右上角为目标点区域，可以看到，三架无人机顺利抵达目标点。图7为监听每个无人机的位置话题，得到实时位置信息再进行可视化的结果。

Claims

1.一种基于深度强化学习的多无人机智能导航方法，其特征在于，包括以下步骤；

(2)设置无人机的多维度特征融合的全局观测信息、局部观测信息和离散动作空间；

(6)基于OA-MAPPO算法进行深度强化学习网络训练，按照算法设定的流程采样步骤(5)中产生的样本，用于步骤(4)中设计的网络的训练；

(7)实现多无人机智能导航。

2.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法，其特征在于，所述步骤(1)中障碍物为同一颜色的长方体，环境有边界，ws_min＝(x_min,y_min,z_min)表示每个无人机能到的最小边界，ws_max＝(x_max,y_max,z_max)表示每个无人机能到的最大边界，边界与障碍物用不同颜色的墙体区分。

3.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法，其特征在于，所述无人机上安装有机载前置摄像头和激光雷达，激光雷达感知无人机和障碍物的一维距离信息，前置摄像头感知障碍物的二维轮廓信息，训练开始前需要初始化每个无人机机载前置摄像头和激光雷达，用于保证正确接收到数据，无人机的初始位置位于环境左下角，无人机初始状态为着陆状态。

4.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法，其特征在于，所述步骤(2)中，对于一号无人机，建立其局部观测信息o¹如下：

其中包括一号无人机位置信息

和二号无人机的位置信息/>

以及三号无人机的位置信息/>

所有无人机的位置信息需满足

ws_min≤(P_x ⁱ,P_y ⁱ,P_z ⁱ)≤ws_max i∈{1,2,3}

保证无人机在有限空间内飞行；

pitch＝asin[2(O_wO_y-O_zO_x)]

激光雷达传感器的读数Lⁱ感应无人机i前方与障碍物的距离，最小值为0；

当检测不到前方有障碍物时赋值5，前置相机接收到传来的RGB三通道图像数据后，输入到卷积神经网络中进行特征提取，全局观测信息为所有无人机部分观测信息除去重复信息的综合；

建立的动作空间A为离散的动作空间，分别为前进、后退，左转、右转、升高、降落，通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成。

5.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法，其特征在于，所述步骤(3)中，基于欧式距离的奖励函数的表达式为：

r＝r_p+r_s+r_f+r_d

done＝done¹∪done²∪done³

当回合结束标志位done为False时，计算r_p作为当前奖励，step为训练一轮走的当前步数，步数越多奖励r_p越小，目标点的位置为G＝(g_x,g_y,g_z)，无人机i的当前位置为X_i＝(cur_x ⁱ,cur_y ⁱ,cur_z ⁱ)，无人机i上一个状态的位置为predⁱ＝(pred_x ⁱ,pred_y ⁱ,pred_z ⁱ)，difⁱ为无人机i当前位置与上一个动作的位置相对于目标点的偏移量，等于当前距目标点的距离减去上一个动作距目标点的距离，这里的距离指欧式距离；

difⁱ＝||X_i-G||-||predⁱ-G||i∈{1,2,3}

/>

flipⁱ代表无人机i是否发生坠毁，若无人机i的当前欧拉角eulⁱ＝(pitch,roll)小于最小的欧拉角阈值eul_min或者大于最大的欧拉角阈值eul_max，则flipⁱ为真；

安全飞行区间D₀为[d_min,d_max]，构造/>

如下式：

若无人机i和无人机j的距离

6.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法，其特征在于，所述步骤(4)中策略网络和状态价值网络为深度强化学习OA-MAPPO算法的网络包括策略网络结构和状态价值函数估计网络结构；

策略网络结构的输入量是多维度信息融合的部分观测量，对于一号无人机，部分观测量为o¹＝(P_x ¹,P_y ¹,P_z ¹,O_w ¹,O_x ¹,O_y ¹,O_z ¹,L¹,Cam¹,P_x ²,P_y ²,P_z ²,P_x ³,P_y ³,P_z ³)，输出量为无人机要执行的动作的概率向量a_prob，长度为动作空间内动作的个数，根据概率采样选择动作a，转化为无人机的控制量使无人机执行动作；

状态价值函数估计网络输入量为全局观测量o_t，输出量为对当前状态的评估V(o_t)。

7.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法，其特征在于，所述步骤(5)中，经验池用来存储每个无人机与环境交互时的信息反馈，包括每个无人机的部分观测

每个无人机下一状态的部分观测/>

多无人机联合动作u_t，执行一次联合动作获取的奖励r_t，全局观测s_t和下一状态的全局观测s_t+1具体形式为[s_t,o_t,u_t,r_t,o_t+1,s_t+1]。

8.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法，其特征在于，所述步骤(6)中使用OA-MAPPO算法进行无人机的避障与导航训练，设定训练的总周期数目N，在每个周期内无人机与环境进行信息交互，根据每个无人机得到的局部观测信息o_t传入各自的策略网络中得到动作的概率，采样得到输出的动作，执行完成联合动作后获得新的局部观测信息o_t+1，将这些值按照顺序存入经验池当中；每当经验池数据存满时，将数据分批取出更新每个无人机的策略网络和总的状态价值网络，经验池数据利用完后清空经验池重新让无人机探索环境再更新网络，直至网络结构收敛至稳定状态。

9.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法，其特征在于，所述步骤(7)中，将每个无人机训练至收敛的策略网络直接当作自身的动作决策控制器，传入当前状态信息s_t，输出动作概率再采样得到动作a，控制无人机执行动作a，直至所有无人机达到目标点。