CN116242364A - 一种基于深度强化学习的多无人机智能导航方法 - Google Patents

一种基于深度强化学习的多无人机智能导航方法 Download PDF

Info

Publication number
CN116242364A
CN116242364A CN202310223562.1A CN202310223562A CN116242364A CN 116242364 A CN116242364 A CN 116242364A CN 202310223562 A CN202310223562 A CN 202310223562A CN 116242364 A CN116242364 A CN 116242364A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
information
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310223562.1A
Other languages
English (en)
Inventor
李瑜
张文博
姜超颖
龙璐岚
李林
臧博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310223562.1A priority Critical patent/CN116242364A/zh
Publication of CN116242364A publication Critical patent/CN116242364A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度强化学习的多无人机智能导航方法,包括以下步骤;(1)在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境:(2)设置无人机的多维度特征融合的全局观测信息、局部观测信息和离散动作空间;(3)基于欧式距离的奖励函数,定义无人机状态的价值评价指标;(4)设计策略网络和状态价值网络;(5)设计临时经验池存储交互信息;(6)基于OA‑MAPPO算法进行深度强化学习网络训练,按照算法设定的流程采样步骤(5)中产生的样本,用于步骤(4)中设计的网络的训练;(7)实现多无人机智能导航。本发明能够实现良好的避障导航效果。

Description

一种基于深度强化学习的多无人机智能导航方法
技术领域
本发明属于无人机智能导航技术领域,具体涉及一种基于深度强化学习的多无人机智能导航方法。
背景技术
无人机不管在军事领域还是民用领域都有很多的应用,但目前大多数场景下还是人为控制其飞行,这种方式在飞行过程中很容易因为操作不当导致无人机避障失败进而坠毁。传统的无人机避障方法如可视图法、粒子群优化算法根据不同任务建模过程复杂并且应用在三维空间计算量大,十分耗时。在实际飞行过程中,往往需要在未知环境中实时避障。
单无人机可解决的任务的复杂度和规模都远远小于多无人机协同方式,多无人机协同完成任务已是大势所趋,但多无人机比单无人机更难以联合操控,多无人机协同不仅要使得无人机避开障碍物,也要防止无人机之间发生碰撞。
强化学习是一种让机器人不断与环境交互,根据得到的奖励改进机器人在特定状态下所作动作的方法,经过不断探索环境,最终可以得到每个状态下的最优动作,从而实现特定的任务。强化学习在无人机避障领域已经有一定的研究,但目前研究无人机仿真环境简单,如基于增量式发育深度强化学习的无人机路径规划方法,公开号为:115686076A,几乎无法应用于复杂的真实场景,并且获得的观测信息往往非常少,无法很好的探测周围环境,进而无法在合适的状态下做出最优动作。
发明内容
为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于深度强化学习的多无人机智能导航方法,在三维环境中进行仿真实验,融合二维图像信息和一维状态信息输入到强化学习网络中训练,使无人机可以充分的探测周围环境,进而在特定的状态下做出更优的动作,在奖励函数中设计机间避障函数,从而实现良好的避障导航效果。
为了实现上述目的,本发明采用的技术方案是:
一种基于深度强化学习的多无人机智能导航方法,包括以下步骤;
(1)在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境:
(2)设置无人机的多维度特征融合的全局观测信息、局部观测信息和离散动作空间;(多维度指三维图像信息和一维其他信息,例如无人机位置、雷达数据);
(3)基于欧式距离的奖励函数,定义无人机状态的价值评价指标;
(4)设计策略网络和状态价值网络,策略网络根据步骤(2)中无人机的局部观测信息决策出当前执行的动作,状态价值网络根据步骤(2)中全局观测信息评价出当前无人机执行的动作的分数;
(5)设计临时经验池存储交互信息,用于存储无人机和环境交互产生的样本序列,提供给步骤(4)中策略网络和状态价值网络训练;
(6)基于OA-MAPPO算法进行深度强化学习步骤四中设计的网络,按照算法设定的流程采样步骤(5)中产生的样本,用于步骤(4)中设计的网络的训练;
(7)实现多无人机智能导航。
所述步骤(1)中障碍物为同一颜色的长方体(颜色主要考虑到无人机要接收图像信息,为区分障碍物和其他物体,所有障碍物一个颜色,其他一个颜色),环境有边界,wsmin=(xmin,ymin,zmin)表示每个无人机能到的最小边界,wsmax=(xmax,ymax,zmax)表示每个无人机能到的最大边界,边界与障碍物用不同颜色的墙体区分。
所述无人机上安装有机载前置摄像头和激光雷达,激光雷达感知无人机和障碍物的一维距离信息,前置摄像头感知障碍物的二维轮廓信息,训练开始前需要初始化每个无人机机载前置摄像头和激光雷达,用于保证正确接收到数据,无人机的初始位置位于环境左下角,无人机初始状态为着陆状态。
所述步骤(2)中,以一号无人机为例,其他无人机同理,对于一号无人机,建立其局部观测信息o1如下:
o1=(Px 1,Py 1,Pz 1,Ow 1,Ox 1,Oy 1,Oz 1,L1,Cam1,Px 2,Py 2,Pz 2,Px 3,Py 3,Pz 3)
其中包括一号无人机位置信息
Figure BDA0004117705120000031
Pz 1和二号无人机的位置信息/>
Figure BDA0004117705120000032
Pz 2以及三号无人机的位置信息Px 3、/>
Figure BDA0004117705120000033
Pz 3,所有无人机的位置信息需满足
wsmin≤(Px i,Py i,Pz i)≤wsmaxi∈{1,2,3}
保证无人机在有限空间内飞行;
无人机i的四元数Ow i、Ox i、Oy i、Oz i用来计算无人机当前飞行状态的俯仰角pitch和翻滚角roll:
Figure BDA0004117705120000034
pitch=asin[2(OwOy-OzOx)]
激光雷达传感器的读数Li感应无人机i前方与障碍物的距离,最小值为0。
其他无人机和一号无人机硬件参数一样、传感器也一样,只是局部观测信息不同,例如二号的应为o2=(Px 2,Py 2,Pz 2,Ow 2,Ox 2,Oy 2,Oz 2,L2,Cam2,Px 1,Py 1,Pz 1,Px 3,Py 3,Pz 3),也就是自身所有观测信息加其他无人机位置信息。
当检测不到前方有障碍物时赋值5,前置摄像头接收到传来的RGB三通道图像数据后,输入到卷积神经网络中进行特征提取,卷积神经网络为三层,第一层网络输入通道数为3,输出通道数为32,卷积核大小为3x3,采样步长为2,卷积结束经过ReLU函数激活,再进行最大池化采样操作,池化尺寸为2x2,处理完后传入第二层网络;第二层网络输入通道数为32,输出通道数为16,卷积核大小为3x3,采样步长为2,卷积结束经过ReLU函数激活,第三层是全连接神经网络,将卷积神经网络得到的结果展开成一维向量,再经过全连接神经网络将结果转换成为一行三列的向量,再经过ReLU函数激活得到状态向量Cam,全局观测信息为所有无人机部分观测信息除去重复信息的综合;
建立的动作空间A为离散的动作空间,分别为前进、后退,左转、右转、升高、降落,通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成,每一个动作的执行时间T设定为0.3s。
所述步骤(3)中,基于欧式距离的奖励函数的表达式为:
r=rp+rs+rf+rd
Figure BDA0004117705120000041
r表示总奖励,其中rp为所有无人机正在进行环境探索时执行一个动作的连续奖励的总和,式中描述了三架无人机的累加结果,定义回合结束标志done,值为True表示当前训练回合结束,值为False表示未结束,donei表示第i个无人机的回合结束标志,值为True表示结束,值为False表示未结束,设定若有一个无人机由于碰撞或其他情况导致回合结束,则整个飞行回合都结束,保证任务的完整性,因此回合结束标志done可由下式定义:
done=done1∪done2∪done3
当回合结束标志位done为False时,计算rp作为当前奖励,step为训练一轮走的当前步数,步数越多奖励rp越小,目标点的位置为G=(gx,gy,gz),无人机i的当前位置为Xi=(Curx i,cury i,curz i),无人机i上一个状态的位置为predi=(predx i,predy i,predz i),difi为无人机i当前位置与上一个动作的位置相对于目标点的偏移量,等于当前距目标点的距离减去上一个动作距目标点的距离,这里的距离指欧式距离;
difi=||Xi-G||-||predi-G||i∈{1,2,3}
η为超参数,用于调整rp的大小,使得所有奖励的数量级均衡;
rs为一轮探索结束并且成功飞到目标点的稀疏奖励,desi为无人机i到达目标点标志位,满足:
Figure BDA0004117705120000051
若无人机i当前距目标点的距离小于ε则认为无人机已到达目标点,desi为True,不满足条件即为False;当desi为True时,计算rs作为当前奖励;rf为一轮探索结束但出现故障没有到达目标点的稀疏奖励,此时done为True;
判断回合结束标志位done有以下因素,insii代表无人机i目前是否在任务空间范围中,若当前位置Xi大于观测空间最小值wsmin并且小于观测空间最大值wsmax,则insii为真;
Figure BDA0004117705120000052
clpi代表无人机i是否非常接近地面,若当前位置的z方向curz i小于最小的高度阈值hmin,则clpi为真;
Figure BDA0004117705120000061
/>
flipi代表无人机i是否发生坠毁,若无人机i的当前欧拉角euli=(pitch,roll)小于最小的欧拉角阈值eulmin或者大于最大的欧拉角阈值eulmax,则flipi为真;
Figure BDA0004117705120000062
cloi代表无人机i是否非常靠近障碍物,若雷达读数L小于最小阈值Lmin,则cloi为真;
Figure BDA0004117705120000063
当insii为False或者其他标志有一个为True则donei为True,表示一个探索回合结束;
Figure BDA0004117705120000064
rd为保证多无人机飞行时不发生机间碰撞的奖励,定义无人机i和无人机j之间的距离为
Figure BDA0004117705120000065
安全飞行区间D0为[dmin,dmax],构造/>
Figure BDA0004117705120000066
如下式:
Figure BDA0004117705120000067
若无人机i和无人机j的距离
Figure BDA0004117705120000068
不在安全飞行区间D0内,则奖励rd为负值,若在安全飞行区间内,则奖励为正(μ为奖励rd的调整因子)。
所述步骤(4)中策略网络和状态价值网络为深度强化学习OA-MAPPO算法的网络包括策略网络结构和状态价值函数估计网络结构;
策略网络结构的输入量是多维度信息融合的部分观测量,对于一号无人机,部分观测量为o1=(Px 1,Py 1,Pz 1,Ow 1,Ox 1,Oy 1,Oz 1,L1,Cam1,Px 2,Py 2,Pz 2,Px 3,Py 3,Pz 3),输出量为无人机要执行的动作的概率向量a_prob,长度为动作空间内动作的个数,根据概率采样选择动作a,转化为无人机的控制量使无人机执行动作,策略网络结构包含四层网络,第一层网络输入个数为17个,第二层隐藏层的节点数为128个,第三层隐藏层的节点数为64个,第四层为输出层,节点的个数为动作空间动作的个数。策略网络结构的所有隐藏层之间的激活函数均为Tanh激活函数;
状态价值函数估计网络输入量为全局观测量ot,输出量为对当前状态的评估V(ot),状态价值函数估计网络包含四层网络,第一层网络输入个数为33个,第一层隐藏层的节点数为128个,第二层隐藏层的节点数为128个,第三层隐藏层的节点数为64个,第四层隐藏层的节点数为32个,最后输出一个值代表状态价值网络对当前输入的多智能体联合状态的评估结果,状态价值网络的所有隐藏层之间的激活函数均为Tanh激活函数。
所述步骤(5)中,经验池用来存储每个无人机与环境交互时的信息反馈,包括每个无人机的部分观测
Figure BDA0004117705120000071
每个无人机下一状态的部分观测/>
Figure BDA0004117705120000072
多无人机联合动作ut,执行一次联合动作获取的奖励rt,全局观测st和下一状态的全局观测st+1具体形式为[st,ot,ut,rt,ot+1,st+1]。
所述步骤(6)中使用OA-MAPPO算法进行无人机的避障与导航训练,设定训练的总周期数目N,在每个周期内无人机与环境进行信息交互,根据每个无人机得到的局部观测信息ot传入各自的策略网络中得到动作的概率,采样得到输出的动作,执行完成联合动作后获得新的局部观测信息ot+1,将这些值按照顺序存入经验池当中;每当经验池数据存满时,将数据分批取出更新每个无人机的策略网络和总的状态价值网络,经验池数据利用完后清空经验池重新让无人机探索环境再更新网络,直至网络结构收敛至稳定状态。
所述步骤(7)中,将每个无人机训练至收敛的策略网络直接当作自身的动作决策控制器,传入当前状态信息st,输出动作概率再采样得到动作a,控制无人机执行动作a,直至所有无人机达到目标点。
本发明的有益效果:
第一,本发明使用多维度特征融合的观测量作为多无人机策略网络和价值评价网络的输入,基于距离和图像信息使得无人机更大程度的感知周围环境,从而做出更好的决策。
第二,本发明建模的仿真环境真实,充分的考虑了多无人机在飞行过程中遇到的各种问题并加以处理,对进行多无人机工程实践有很强的借鉴意义。
第三,本发明使用的多无人机强化学习算法,采用集中式训练,分布式执行的方式使多无人机实现分布式飞行,在奖励函数中融入无人机机间避障机制,实现多无人机飞行时灵活避障。
附图说明
图1为本发明的结构原理示意图。
图2为本发明的多维度状态量融合示意图。
图3为本发明的策略网络结构图。
图4为本发明的状态价值网络结构图。
图5为建立的仿真环境示意图。
图6为一次多无人机一次仿真示意图。
图7为多无人机对应的飞行轨迹图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明是一种基于深度强化学习的多无人机智能导航方法,方法总体结构原理如图1所示,建立多无人机的仿真环境,智能体由各自的策略网络和总的状态价值网络组成,智能体接收到环境的部分观测量后首先进行将不同维度的状态信息进行融合,将融合后的部分观测信息ot传给对应策略网络并生成全局观测st,策略网络根据输入的状态量计算出动作空间中每一个动作发生的概率πθ(at|ot),进行采样得出选择的动作a组成联合动作ut,将得出的动作发送给每个智能体控制层使智能体做出相应动作,动作完成后感知自身最新的部分观测量ot+1并计算获得的奖励rt和全局观测量st+1,将上面得到的数据序列[st,ot,ut,rt,ot+1,st+1]存入经验池内,经验池存满后分批选取数据。将st,st+1传入总的价值网络计算出两个状态的价值估计V(st),V(st+1),根据以上信息计算优势函数At,传给策略网络和价值网络进行参数更新,直到网络收敛。收敛的策略网络可指导智能体在每个状态下做出最优的策略,从而实现避障导航。
其中提出的OA-MAPPO算法的具体计算过程如下:
Figure BDA0004117705120000101
本发明的一种基于深度强化学习的多无人机智能导航方法,包括如下步骤:
步骤一:在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境;
在三维仿真环境中建立三架四旋翼无人机模型并生成包含障碍物和目标点的环境,障碍物为同一颜色的长方体,环境有边界,用与障碍物不同颜色的墙体区分,本发明的环境大小为长宽为14m,高为6m的立方体。无人机上安装有机载前置摄像头和激光雷达,训练开始前需要初始化无人机机载前置摄像头和激光雷达保证可以正确接收到数据,无人机的初始位置位于环境左下角,无人机初始状态为着陆状态,给/takeoff话题发送指令即可起飞。
步骤二:设计多维度特征融合的全局观测信息、局部观测信息和离散动作空间,以一号无人机为例,其他无人机同理。建立的一号无人机局部观测信息o1如下:
o1=(Px 1,Py 1,Pz 1,Ow 1,Ox 1,Oy 1,Oz 1,L1,Cam1,Px 2,Py 2,Pz 2,Px 3,Py 3,Pz 3)
无人机i的局部观测信息包括无人机i的x轴方向位置Px i、y轴方向位置Py i、z轴方向位置
Figure BDA0004117705120000111
需满足:
wsmin≤(Px i,Py i,Pz i)≤wsmax i∈{1,2,3}
保证无人机在有限空间内飞行。
四元数Ow i、Ox i、Oy i、Oz i用来计算无人机当前飞行状态的俯仰角pitch和翻滚角roll:
Figure BDA0004117705120000112
pitch=asin[2(OwOy-OzOx)]
激光雷达传感器的读数Li感应无人机i前方与障碍物的距离,最小值为0,当检测不到前方有障碍物时赋值5。前置相机接收到传来的RGB三通道图像数据后,输入到卷积神经网络中进行特征提取。卷积神经网络为三层,第一层网络输入通道数为3,输出通道数为32,卷积核大小为3x3,采样步长为2。卷积结束经过ReLU函数激活,再进行最大池化采样操作,池化尺寸为2x2,处理完后传入第二层网络。第二层网络输入通道数为32,输出通道数为16,卷积核大小为3x3,采样步长为2,卷积结束经过ReLU函数激活。第三层是全连接神经网络,将卷积神经网络得到的结果展开成一维向量,再经过全连接神经网络将结果转换成为一行三列的向量,再经过ReLU函数激活得到状态向量Cam。全局观测信息为所有无人机部分观测信息除去重复信息的综合。
建立的动作空间A为离散的动作空间,分别为前进、后退,左转、右转、升高、降落,通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成,
每一个动作的执行时间T设定为0.3s。
步骤三:设计基于欧式距离的奖励函数;
r=rp+rs+rf+rd
Figure BDA0004117705120000121
r表示总奖励,其中rp为所有无人机正在进行环境探索时执行一个动作的连续奖励的总和,式中描述了三架无人机的累加结果。定义回合结束标志done,值为True表示当前训练回合结束,值为False表示未结束,donei表示第i个无人机的回合结束标志,值为True表示结束,值为False表示未结束。设定若有一个无人机由于碰撞或其他情况导致回合结束,则整个飞行回合都结束,保证任务的完整性。因此回合结束标志done可由下式定义:
done=done1∪done2∪done3
当回合结束标志位done为False时,计算rp作为当前奖励。step为训练一轮走的当前步数,步数越多奖励rp越小,目标点的位置为G=(gx,gy,gz),无人机i的当前位置为Xi=(curx i,cury i,curz i),无人机i上一个状态的位置为predi=(predx i,predy i,predz i),difi为无人机i当前位置与上一个动作的位置相对于目标点的偏移量,等于当前距目标点的距离减去上一个动作距目标点的距离,这里的距离指欧式距离。
difi=||Xi-G||-||predi-G||i∈{1,2,3}
为超参数,用于调整rp的大小,使得所有奖励的数量级均衡。
rs为一轮探索结束并且成功飞到目标点的稀疏奖励,desi为无人机i到达目标点标志位,满足:
Figure BDA0004117705120000131
若无人机i当前距目标点的距离小于ε则认为无人机已到达目标点,desi为True,不满足条件即为False。当desi为True时,计算rs作为当前奖励。rf为一轮探索结束但出现故障没有到达目标点的稀疏奖励,此时done为True。
判断回合结束标志位done有以下因素,insii代表无人机i目前是否在任务空间范围中,若当前位置Xi大于观测空间最小值wsmin并且小于观测空间最大值wsmax,则insii为真;
Figure BDA0004117705120000132
clpi代表无人机i是否非常接近地面,若当前位置的z方向curz i小于最小的高度阈值hmin,则clpi为真;
Figure BDA0004117705120000133
flipi代表无人机i是否发生坠毁,若无人机i的当前欧拉角euli=(pitch,roll)小于最小的欧拉角阈值eulmin或者大于最大的欧拉角阈值eulmax,则flipi为真;
Figure BDA0004117705120000134
cloi代表无人机i是否非常靠近障碍物,若雷达读数L小于最小阈值Lmin,则cloi为真
Figure BDA0004117705120000141
当insii为False或者其他标志有一个为True则donei为True,表示一个探索回合结束。
Figure BDA0004117705120000142
步骤四:设计策略网络和状态价值网络;
深度强化学习OA-MAPPO算法的网络包括策略网络结构和状态价值函数估计网络结构。
策略网络结构的输入量是多维度信息融合的部分观测量,对于一号无人机,部分观测量为o1=(Px 1,Py 1,Pz 1,Ow 1,Ox 1,Oy 1,Oz 1,L1,Cam1,Px 2,Py 2,Pz 2,Px 3,Py 3,Pz 3),输出量为无人机要执行的动作的概率向量a_prob,长度为动作空间内动作的个数,根据概率采样选择动作a,转化为无人机的控制量使无人机执行动作。策略网络结构包含四层网络,如图3所示,第一层网络输入个数为17个,第二层隐藏层的节点数为128个,第三层隐藏层的节点数为64个,第四层为输出层,节点的个数为动作空间动作的个数。策略网络结构的所有隐藏层之间的激活函数均为Tanh激活函数。生成网络时对所有网络层进行正交初始化操作,用均值为0,标准差为1的高斯分布初始化权重矩阵,对这个权重矩阵进行奇异值分解,得到两个正交矩阵,取其中之一作为该层神经网络的权重矩阵。
状态价值函数估计网络输入量为全局观测量ot,输出量为对当前状态的评估V(ot)。状态价值函数估计网络包含四层网络,如图4所示,第一层网络输入个数为33个,第一层隐藏层的节点数为128个,第二层隐藏层的节点数为128个,第三层隐藏层的节点数为64个,第四层隐藏层的节点数为32个,最后输出一个值代表状态价值网络对当前输入的多智能体联合状态的评估结果。状态价值网络的所有隐藏层之间的激活函数均为Tanh激活函数。生成网络时对所有网络层进行正交初始化操作。
步骤五:设计临时经验池存储交互信息;
经验池用来存储每个无人机与环境交互时的信息反馈,包括每个无人机的部分观测
Figure BDA0004117705120000151
每个无人机下一状态的部分观测/>
Figure BDA0004117705120000152
多无人机联合动作ut,执行一次联合动作获取的奖励rt,全局观测st和下一状态的全局观测st+1具体形式为[st,ot,ut,rt,ot+1,st+1]。
步骤六:基于OA-MAPPO算法进行强化学习网络训练;
为区分flag为True或False对优势函数
Figure BDA0004117705120000153
的计算,加入条件判断:
Figure BDA0004117705120000154
flag为True时表明智能体正常结束探索,没有下一个状态V(st+1)。
使用OA-MAPPO算法进行无人机的避障与导航训练,设定训练的总周期数目N,在每个周期内无人机与环境进行信息交互,根据每个无人机得到的局部观测信息ot传入各自的策略网络中得到动作的概率,采样得到输出的动作,执行完成联合动作后获得新的局部观测信息ot+1,将这些值按照顺序存入经验池当中;每当经验池数据存满时,将数据分批取出更新每个无人机的策略网络和总的状态价值网络,经验池数据利用完后清空经验池重新让无人机探索环境再更新网络,直至网络结构收敛至稳定状态;
步骤七:多无人机智能导航;
将每个无人机训练至收敛的策略网络直接当作自身的动作决策控制器,传入当前部分观测信息ot,输出动作概率再采样得到动作a,控制无人机执行动作a,直至所有无人机达到目标点。图5为基于Gazebo建立的仿真实验场景,四周为墙体,中间立方体为建立的障碍物,三架无人机的起始位置分别为(1,1,0)、(1,2,0)和(2,1,0),无人机前方四条线显示摄像头的拍摄范围,飞行开始无人机会统一上升至一定高度然后开始自动导航,图6展示了一次自动导航的过程,右上角为目标点区域,可以看到,三架无人机顺利抵达目标点。图7为监听每个无人机的位置话题,得到实时位置信息再进行可视化的结果。

Claims (9)

1.一种基于深度强化学习的多无人机智能导航方法,其特征在于,包括以下步骤;
(1)在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境:
(2)设置无人机的多维度特征融合的全局观测信息、局部观测信息和离散动作空间;
(3)基于欧式距离的奖励函数,定义无人机状态的价值评价指标;
(4)设计策略网络和状态价值网络,策略网络根据步骤(2)中无人机的局部观测信息决策出当前执行的动作,状态价值网络根据步骤(2)中全局观测信息评价出当前无人机执行的动作的分数;
(5)设计临时经验池存储交互信息,用于存储无人机和环境交互产生的样本序列,提供给步骤(4)中策略网络和状态价值网络训练;
(6)基于OA-MAPPO算法进行深度强化学习网络训练,按照算法设定的流程采样步骤(5)中产生的样本,用于步骤(4)中设计的网络的训练;
(7)实现多无人机智能导航。
2.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(1)中障碍物为同一颜色的长方体,环境有边界,wsmin=(xmin,ymin,zmin)表示每个无人机能到的最小边界,wsmax=(xmax,ymax,zmax)表示每个无人机能到的最大边界,边界与障碍物用不同颜色的墙体区分。
3.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述无人机上安装有机载前置摄像头和激光雷达,激光雷达感知无人机和障碍物的一维距离信息,前置摄像头感知障碍物的二维轮廓信息,训练开始前需要初始化每个无人机机载前置摄像头和激光雷达,用于保证正确接收到数据,无人机的初始位置位于环境左下角,无人机初始状态为着陆状态。
4.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(2)中,对于一号无人机,建立其局部观测信息o1如下:
o1=(Px 1,Py 1,Pz 1,Ow 1,Ox 1,Oy 1,Oz 1,L1,Cam1,Px 2,Py 2,Pz 2,Px 3,Py 3,Pz 3)
其中包括一号无人机位置信息
Figure QLYQS_1
和二号无人机的位置信息/>
Figure QLYQS_2
以及三号无人机的位置信息/>
Figure QLYQS_3
所有无人机的位置信息需满足
wsmin≤(Px i,Py i,Pz i)≤wsmax i∈{1,2,3}
保证无人机在有限空间内飞行;
无人机i的四元数Ow i、Ox i、Oy i、Oz i用来计算无人机当前飞行状态的俯仰角pitch和翻滚角roll:
Figure QLYQS_4
pitch=asin[2(OwOy-OzOx)]
激光雷达传感器的读数Li感应无人机i前方与障碍物的距离,最小值为0;
当检测不到前方有障碍物时赋值5,前置相机接收到传来的RGB三通道图像数据后,输入到卷积神经网络中进行特征提取,全局观测信息为所有无人机部分观测信息除去重复信息的综合;
建立的动作空间A为离散的动作空间,分别为前进、后退,左转、右转、升高、降落,通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成。
5.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(3)中,基于欧式距离的奖励函数的表达式为:
r=rp+rs+rf+rd
Figure QLYQS_5
r表示总奖励,其中rp为所有无人机正在进行环境探索时执行一个动作的连续奖励的总和,式中描述了三架无人机的累加结果,定义回合结束标志done,值为True表示当前训练回合结束,值为False表示未结束,donei表示第i个无人机的回合结束标志,值为True表示结束,值为False表示未结束,设定若有一个无人机由于碰撞或其他情况导致回合结束,则整个飞行回合都结束,保证任务的完整性,因此回合结束标志done可由下式定义:
done=done1∪done2∪done3
当回合结束标志位done为False时,计算rp作为当前奖励,step为训练一轮走的当前步数,步数越多奖励rp越小,目标点的位置为G=(gx,gy,gz),无人机i的当前位置为Xi=(curx i,cury i,curz i),无人机i上一个状态的位置为predi=(predx i,predy i,predz i),difi为无人机i当前位置与上一个动作的位置相对于目标点的偏移量,等于当前距目标点的距离减去上一个动作距目标点的距离,这里的距离指欧式距离;
difi=||Xi-G||-||predi-G||i∈{1,2,3}
η为超参数,用于调整rp的大小,使得所有奖励的数量级均衡;
rs为一轮探索结束并且成功飞到目标点的稀疏奖励,desi为无人机i到达目标点标志位,满足:
Figure QLYQS_6
若无人机i当前距目标点的距离小于ε则认为无人机已到达目标点,desi为True,不满足条件即为False;当desi为True时,计算rs作为当前奖励;rf为一轮探索结束但出现故障没有到达目标点的稀疏奖励,此时done为True;
判断回合结束标志位done有以下因素,insii代表无人机i目前是否在任务空间范围中,若当前位置Xi大于观测空间最小值wsmin并且小于观测空间最大值wsmax,则insii为真;
Figure QLYQS_7
/>
clpi代表无人机i是否非常接近地面,若当前位置的z方向curz i小于最小的高度阈值hmin,则clpi为真;
Figure QLYQS_8
flipi代表无人机i是否发生坠毁,若无人机i的当前欧拉角euli=(pitch,roll)小于最小的欧拉角阈值eulmin或者大于最大的欧拉角阈值eulmax,则flipi为真;
Figure QLYQS_9
cloi代表无人机i是否非常靠近障碍物,若雷达读数L小于最小阈值Lmin,则cloi为真;
Figure QLYQS_10
当insii为False或者其他标志有一个为True则donei为True,表示一个探索回合结束;
Figure QLYQS_11
rd为保证多无人机飞行时不发生机间碰撞的奖励,定义无人机i和无人机j之间的距离为
Figure QLYQS_12
安全飞行区间D0为[dmin,dmax],构造/>
Figure QLYQS_13
如下式:
Figure QLYQS_14
若无人机i和无人机j的距离
Figure QLYQS_15
不在安全飞行区间D0内,则奖励rd为负值,若在安全飞行区间内,则奖励为正(μ为奖励rd的调整因子)。
6.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(4)中策略网络和状态价值网络为深度强化学习OA-MAPPO算法的网络包括策略网络结构和状态价值函数估计网络结构;
策略网络结构的输入量是多维度信息融合的部分观测量,对于一号无人机,部分观测量为o1=(Px 1,Py 1,Pz 1,Ow 1,Ox 1,Oy 1,Oz 1,L1,Cam1,Px 2,Py 2,Pz 2,Px 3,Py 3,Pz 3),输出量为无人机要执行的动作的概率向量a_prob,长度为动作空间内动作的个数,根据概率采样选择动作a,转化为无人机的控制量使无人机执行动作;
状态价值函数估计网络输入量为全局观测量ot,输出量为对当前状态的评估V(ot)。
7.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(5)中,经验池用来存储每个无人机与环境交互时的信息反馈,包括每个无人机的部分观测
Figure QLYQS_16
每个无人机下一状态的部分观测/>
Figure QLYQS_17
多无人机联合动作ut,执行一次联合动作获取的奖励rt,全局观测st和下一状态的全局观测st+1具体形式为[st,ot,ut,rt,ot+1,st+1]。
8.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(6)中使用OA-MAPPO算法进行无人机的避障与导航训练,设定训练的总周期数目N,在每个周期内无人机与环境进行信息交互,根据每个无人机得到的局部观测信息ot传入各自的策略网络中得到动作的概率,采样得到输出的动作,执行完成联合动作后获得新的局部观测信息ot+1,将这些值按照顺序存入经验池当中;每当经验池数据存满时,将数据分批取出更新每个无人机的策略网络和总的状态价值网络,经验池数据利用完后清空经验池重新让无人机探索环境再更新网络,直至网络结构收敛至稳定状态。
9.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(7)中,将每个无人机训练至收敛的策略网络直接当作自身的动作决策控制器,传入当前状态信息st,输出动作概率再采样得到动作a,控制无人机执行动作a,直至所有无人机达到目标点。
CN202310223562.1A 2023-03-09 2023-03-09 一种基于深度强化学习的多无人机智能导航方法 Pending CN116242364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310223562.1A CN116242364A (zh) 2023-03-09 2023-03-09 一种基于深度强化学习的多无人机智能导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310223562.1A CN116242364A (zh) 2023-03-09 2023-03-09 一种基于深度强化学习的多无人机智能导航方法

Publications (1)

Publication Number Publication Date
CN116242364A true CN116242364A (zh) 2023-06-09

Family

ID=86625933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310223562.1A Pending CN116242364A (zh) 2023-03-09 2023-03-09 一种基于深度强化学习的多无人机智能导航方法

Country Status (1)

Country Link
CN (1) CN116242364A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116718198A (zh) * 2023-08-10 2023-09-08 湖南璟德科技有限公司 基于时序知识图谱的无人机集群的路径规划方法及系统
CN116824303A (zh) * 2023-07-06 2023-09-29 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法
CN117162102A (zh) * 2023-10-30 2023-12-05 南京邮电大学 机器人联合行动的独立近端策略优化训练加速方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824303A (zh) * 2023-07-06 2023-09-29 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法
CN116824303B (zh) * 2023-07-06 2024-01-26 哈尔滨工业大学 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法
CN116718198A (zh) * 2023-08-10 2023-09-08 湖南璟德科技有限公司 基于时序知识图谱的无人机集群的路径规划方法及系统
CN116718198B (zh) * 2023-08-10 2023-11-03 湖南璟德科技有限公司 基于时序知识图谱的无人机集群的路径规划方法及系统
CN117162102A (zh) * 2023-10-30 2023-12-05 南京邮电大学 机器人联合行动的独立近端策略优化训练加速方法

Similar Documents

Publication Publication Date Title
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN110471444B (zh) 基于自主学习的无人机智能避障方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN111880567B (zh) 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN111950873A (zh) 基于深度强化学习的卫星实时引导任务规划方法及系统
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
Song et al. Guidance and control of autonomous surface underwater vehicles for target tracking in ocean environment by deep reinforcement learning
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
Xue et al. Multi-agent deep reinforcement learning for uavs navigation in unknown complex environment
CN109375642B (zh) 一种无人机节能控制方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
Zhou et al. Vision-based navigation of uav with continuous action space using deep reinforcement learning
CN116385909A (zh) 一种基于深度强化学习的无人机目标跟踪方法
CN116820134A (zh) 基于深度强化学习的无人机编队保持控制方法
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN116009583A (zh) 基于纯粹视觉的分布式无人机协同运动控制方法和装置
Wu et al. A multi-critic deep deterministic policy gradient UAV path planning
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination