CN109443366B

CN109443366B - 一种基于改进q学习算法的无人机群路径规划方法

Info

Publication number: CN109443366B
Application number: CN201811564184.9A
Authority: CN
Inventors: 曹先彬; 杜文博; 朱熙; 徐亮; 李宇萌
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2020-08-21
Anticipated expiration: 2038-12-20
Also published as: CN109443366A

Abstract

本发明公开了一种基于改进Q学习算法的无人机群路径规划方法，属于无人机技术领域。首先将四旋翼无人机分别与微型电脑，360度水平激光测距仪，360度顶部激光传感器，360度底部激光传感器，光流传感器以及风速测量仪组装配置，调试飞行。四旋翼无人机对未知环境进行勘测，勘测过程中若与环境冲突，则以当前前进方向，计算偏转最小的角度，并按该角度进行偏转飞行实现冲突解脱。然后无人机对勘测后的环境进行分割处理，采用栅格法建立环境模型。给无人机群中的每个无人机设定并分配各自的任务，确立各自的级别以及起始点和目标点，利用微型电脑各自进行强化学习，择优选择飞行路径。本发明大量减少人力成本，保障巡检人员安全，具有高效性。

Description

一种基于改进Q学习算法的无人机群路径规划方法

技术领域

本发明属于无人机技术领域，涉及复杂环境下无人机群的路径规划算法。具体是一种基于改进Q学习算法的无人机群路径规划方法。

背景技术

随着无人机技术的不断发展，近年来，无人机的应用领域不断拓宽，目前已经在商用、军用和民用中都发挥着重要的作用，体现在影视拍摄，监控巡查，灾后救援，快递运输以及新闻报道等等。同时，无人机群协同完成任务也成为重要的发展趋势，无人机群之间能够互相配合，实现功能互补，分担不同的任务，从而可以协作控制更大的范围，执行复杂的任务，缩短任务的执行时间，提高工作效率。

在一些复杂环境下如无光、无GPS信号等，人为地进行某些工作不光需要消耗大量的人力成本，而且一些危险的环境可能会威胁工作人员的生命安全，所以通常使用无人机群来完成这些工作，给每个无人机分配相应的任务后，由于环境未知，所以首先要解决的就是无人机群的路径规划问题，使得每个无人机能够安全高效地到达目标点，进而执行相应的任务。

现有技术中，路径规划问题可以用强化学习算法加以解决，强化学习中一个基础的算法是Q学习算法，它是类似于动态规划算法的一种最具代表性的算法，提供智能系统在环境中的学习能力，通过不断迭代后，智能系统可以根据所处状态选择最优的动作行为。该算法目前已经在人工智能以及机器学习领域受到了普遍的关注。

发明内容

本发明为了实现：无人机群在复杂环境下自主飞行，能够择优选择路径直至到达目标点。同时无人机在勘测未知环境的飞行过程中如果与障碍物发生冲突能自主进行解脱，保障无人机群的飞行安全，提出了一种基于改进Q学习算法的无人机群路径规划方法。

所述的无人机群路径规划方法，包括如下步骤：

步骤一、将四旋翼无人机分别与微型电脑，360度水平激光测距仪，360度顶部激光传感器，360度底部激光传感器，光流传感器以及风速测量仪组装配置，调试飞行。

四旋翼无人机包括无人机机身主体，具有动力装置。微型电脑用于计算调整无人机的飞行策略，控制无人机飞行。360度水平激光测距仪用于检测无人机与水平障碍物的距离。360度顶部激光传感器用于检测无人机与机头斜前上方障碍物的距离。360度底部激光传感器用于检测无人机与机头斜前下方障碍物的距离。光流传感器用于保持无人机机身稳定。风速测量仪用于检测环境风速。

步骤二、四旋翼无人机对未知环境进行勘测，勘测过程中检测是否与环境冲突，如果是，进入步骤三，否则，转到步骤四。

勘测飞行过程中，四旋翼无人机采用360度水平激光测距仪，360度顶部激光传感器，360度底部激光传感器，对以自身为中心，半径为R_d的范围内的环境进行探测，当检测到障碍物距离该无人机机身的距离d小于安全半径R_c时，则该无人机处于冲突状态。

步骤三、无人机以当前前进方向，计算偏转最小的角度，并按该角度进行偏转飞行实现冲突解脱。

无人机以自身为中心，以飞行方向为z轴，以竖直向上方向为y轴，以垂直y-z平面为x轴建立空间坐标系。将无人机与障碍物的连线方向记为w轴，在w-z平面内，无人机偏转最小的角度θ，使得无人机沿着偏转后的方向飞行，无人机距离障碍物的最小距离为R_c，刚好实现冲突解脱。

步骤四、无人机对勘测后的环境进行分割处理，采用栅格法建立环境模型。

将环境分成10×10×10的栅格，判断在每一个栅格中是否发现障碍物，如果是，定义该栅格为有障碍的栅格，无人机不能通过；否则，该栅格定义为无障碍物的栅格，无人机可以通过。

步骤五、给无人机群中的每个无人机设定并分配各自的任务，确立各自的级别以及起始点和目标点。

步骤六、每个无人机输入起始点和目标点坐标后，利用微型电脑各自进行强化学习。

强化学习采用改进后的Q学习算法进行，规则如下：

步骤601、设定学习周期个数为E，并初始化两个状态动作矩阵Q₁(s,a)和Q₂(s,a)；

初始Q₁(s,a)＝Q₂(s,a)＝0；s表示状态，a表示动作。

步骤602、对每一个周期，随机初始化状态s，以ε-greedy策略从状态动作矩阵中选择获得最大收益的下一步动作a；

ε-greedy策略是以概率ε随机选择状态s的可选动作a'，以概率1-ε选择当前矩阵可获得最大收益的动作a；

步骤603、从状态s选择动作a后到达状态s'后，对矩阵Q₁和Q₂同时进行更新；每个状态经过动作后到达下一个栅格。

以0.5的概率更新矩阵Q₁，公式如下：

Q₁(s,a)←Q₁(s,a)+α·(R(s,a)+γ·Q₂(s',argmax_aQ₁(s',a))-Q₁(s,a))

以另外0.5的概率更新矩阵Q₂，公式如下：

Q₂(s,a)←Q₂(s,a)+α·(R(s,a)+γ·Q₁(s',argmax_aQ₂(s',a))-Q₂(s,a))

其中R(s,a)为状态-动作对＜s,a＞的奖励值，结果为1，-1或0；α∈(0.5,1]为深度学习因子，γ∈(0,1)称为折算因子，argmax_a为求使得Q₁(s',a)或者Q₂(s',a)值最大对应的a值；

步骤604、当到达目标点栅格或者有障碍的栅格时，当前周期结束，开始下一周期；否则将状态s'赋给状态s，再转到步骤602；直至完成所有周期，结束学习过程。

步骤七、每个无人机根据各自的强化学习结果，择优选择飞行路径。

具体为：无人机群中的每个无人机从各自的起始点栅格开始飞行，基于强化学习结果，每一个时间步选择收益最大的动作飞往下一个距离最近的栅格中心，在飞行过程中判断是否与其它无人机发生冲突，如果是，则依据初始时确定的优先级，优先级低的无人机悬停，优先级高的无人机沿当前速度大小和方向继续飞行；否则，直接飞行直至到达目标点栅格为止，完成任务。

本发明的优点在于：

1.一种基于改进Q学习算法的无人机群路径规划方法，能够在复杂环境下实现无人机群的路径规划，从而使得无人机群能够高效地飞行到目标位置，协同完成后续任务。无人机群在飞行过程中能够自主的进行冲突解脱，同时检测复杂环境的风速，保障无人机群的飞行安全。

2.一种基于改进Q学习算法的无人机群路径规划方法，可以利用无人机勘测未知复杂环境，并完成后续任务，可以大量减少人力成本，保障巡检人员安全，具有高效性。

附图说明

图1为本发明采用的无人机群中每个无人机的硬件架构图。

图2为本发明无人机发生冲突的示意图。

图3为本发明无人机进行冲突解脱示意图。

图4为本发明利用改进的Q学习算法进行强化学习的流程图。

图5为本发明一种基于改进Q学习算法的无人机群路径规划方法流程图。

图中1-四旋翼无人机，2-NUC等微型电脑，3-360度水平激光测距仪，4-360度顶部激光传感器，5-360度底部激光传感器，6-光流传感器，7-风速测量仪。

具体实施方案

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明采用一种改进的Q学习算法来实现在复杂的未知的环境下无人机群的路径规划，无人机群在复杂环境下(无光、GPS信号等)自主飞行，首先需要对未知环境进行勘测，无人机利用360度激光扫描测距雷达来采集环境信息，确定障碍物的坐标以及可通行的区域。同时无人机在勘测过程中如果遇到障碍物，在确保自身安全的情况下，以当前方向偏转最小的角度来实现冲突解脱，从而可以减少动力消耗。

在完成对未知环境的勘测后，无人机对环境的空间区域进行分割处理，为了简化学习过程采用三维栅格法建立环境模型，每个无人机在确立起始点和目标点坐标后，通过改进的Q学习算法择优选择飞行路径，直至到达目标点为止。同时无人机群在飞行过程中如果相互发生冲突，优先级高的无人机沿当前方向飞行，优先级低的无人机悬停来进行冲突解脱，确保飞行安全。

所述的无人机群路径规划方法，包括：无人机群获取未知环境的信息，确定未知环境的障碍物坐标等。同时在飞行过程中，无人机如果遇到障碍物，需要自主进行冲突解脱。在此基础上无人机群利用改进的Q学习方法规划路径，并自主选择最优路径飞往目标点。

如图5所示，具体步骤如下：

步骤一、将四旋翼无人机分别与微型电脑，360度水平激光测距仪，360度顶部激光传感器，360度底部激光传感器，光流传感器以及风速测量仪组装配置，调试飞行，检验各飞行参数，确保无人机可以正常飞行。

如图1所示，四旋翼无人机包括无人机机身主体，具有动力装置。微型电脑用于计算调整无人机的飞行策略，控制无人机飞行。360度水平激光测距仪用于检测无人机与水平障碍物的距离。360度顶部激光传感器用于检测无人机与机头斜前上方障碍物的距离。360度底部激光传感器用于检测无人机与机头斜前下方障碍物的距离。在一些复杂环境下，可能会出现局部地区风速不稳定的情况，这将会造成无人机的机身振动，影响无人机的飞行安全；光流传感器用于保持无人机机身稳定。风速测量仪用于检测环境风速，如果风速测量仪检测到环境风速过大，影响无人机的飞行安全，无人机将按原路线返回。

在勘测飞行过程中，由于在一些复杂环境下可能没有GPS信号，所以无人机采用360度激光扫描测距雷达来探测周围环境；如图2所示，对以自身为中心，半径为R_d的范围内的环境进行探测，当检测到障碍物距离该无人机机身的距离d小于安全半径R_c时，则该无人机处于冲突状态；R_c＜R_d。

无人机通过360度激光扫描测距雷达，可以在复杂环境下(无光、无GPS信号等)检测周围环境，确定障碍物坐标，并与探测半径内的其它无人机建立联系，获得探测范围内其它无人机的位置和速度信息等。

本发明实现对无人机飞行动作的选择，进而实现无人机群的路径规划，算法空间复杂度小，计算量小，成本低，生成的最优规划路径更加准确高效，可以实现无人机群高效飞行，协同完成分配好的任务，达到预期目标。

无人机以自身为中心，以飞行方向为z轴，以竖直向上方向为y轴，以垂直y-z平面为x轴建立空间坐标系。无人机根据障碍物的位置信息偏转角度来避免冲突。如图3所示，将无人机与障碍物的连线方向记为w轴，在w-z平面内，无人机偏转最小的角度θ，使得无人机沿着偏转后的方向飞行，无人机距离障碍物的最小距离为R_c，刚好实现冲突解脱。尽量减小无人机的偏转角度可以减少动力消耗，同时也使得无人机的飞行更加安全。

在对未知环境进行勘测后，无人机获得了未知环境的障碍物信息等。采用栅格法建立环境模型，将环境分成10×10×10的栅格，无人机在没有障碍的条件下，在每一个时间步可以悬停在原栅格或者向距离最近的26个栅格飞行。栅格模型建立好后，在程序中进行判断在每一个栅格中是否发现障碍物，如果是，定义该栅格为有障碍的栅格，无人机不能通过；否则，该栅格定义为无障碍物的栅格，无人机可以通过。

无人机群在执行复杂的任务时，每个无人机的任务不尽相同。设定每个无人机具有不同的起始点和目标点，同时在环境中由起始点开始飞行，每一个时间步依据改进的Q学习算法向距离最近的栅格中心飞行或者悬停在原栅格，直至到达目标点为止，再开启下一阶段任务。

步骤六、每个无人机输入起始点和目标点坐标后，利用NUC等微型电脑各自进行强化学习。

强化学习采用改进后的Q学习算法进行，如图4所示，步骤如下：

初始Q₁(s,a)＝Q₂(s,a)＝0；s表示状态，a表示动作，E＝1000。

步骤602、对每一个周期，随机初始化状态s，以ε-greedy策略从状态动作矩阵Q₁+Q₂中选择获得最大收益的下一步动作a；

ε-greedy策略是以概率ε随机选择状态s的可选动作a'，以概率1-ε选择当前矩阵Q₁+Q₂可获得最大收益的动作a；

以0.5的概率更新矩阵Q₁，公式如下：

Q₁(s,a)←Q₁(s,a)+α·(R(s,a)+γ·Q₂(s',argmax_aQ₁(s',a))-Q₁(s,a))

以另外0.5的概率更新矩阵Q₂，公式如下：

Q₂(s,a)←Q₂(s,a)+α·(R(s,a)+γ·Q₁(s',argmax_aQ₂(s',a))-Q₂(s,a))

其中R(s,a)为状态-动作对＜s,a＞的奖励值，在初始时刻就已经设定好。如果状态s经过动作a后到达目标点栅格，那么R(s,a)＝1；如果状态s经过动作a后到达有障碍的栅格，那么R(s,a)＝-1；其它情况下R(s,a)＝0。α∈(0.5,1]为深度学习因子，γ∈(0,1)称为折算因子，argmax为求使得Q₁(s',a)或者Q₂(s',a)值最大对应的a值；

具体为：无人机群中的每个无人机从各自的起始点栅格开始飞行，基于强化学习后的矩阵Q₁+Q₂，每一个时间步选择收益最大的动作飞往下一个距离最近的栅格中心，在飞行过程中判断是否与其它无人机发生冲突，如果是，则依据初始时确定的优先级，优先级低的无人机悬停，优先级高的无人机沿当前速度大小和方向继续飞行进行冲突解脱；否则，直接飞行。直至到达目标点栅格为止，完成任务。

本发明在复杂未知环境下实现无人机群的路径规划，可以实现无人机群高效飞行，协同完成分配好的任务，具有积极意义。

Claims

1.一种基于改进Q学习算法的无人机群路径规划方法，其特征在于，包括如下步骤：

步骤一、将四旋翼无人机分别与微型电脑，360度水平激光测距仪，360度顶部激光传感器，360度底部激光传感器，光流传感器以及风速测量仪组装配置，调试飞行；

所述的四旋翼无人机包括无人机机身主体，具有动力装置；微型电脑用于计算调整无人机的飞行策略，控制无人机飞行；360度水平激光测距仪用于检测无人机与水平障碍物的距离；360度顶部激光传感器用于检测无人机与机头斜前上方障碍物的距离；360度底部激光传感器用于检测无人机与机头斜前下方障碍物的距离；光流传感器用于保持无人机机身稳定；风速测量仪用于检测环境风速；

步骤二、四旋翼无人机对未知环境进行勘测，勘测过程中检测是否与环境冲突，如果是，进入步骤三，否则，转到步骤四；

步骤三、无人机以当前前进方向，计算偏转最小的角度，并按该角度进行偏转飞行实现冲突解脱；

步骤四、无人机对勘测后的环境进行分割处理，采用栅格法建立环境模型；

将环境分成10×10×10的栅格，判断在每一个栅格中是否发现障碍物，如果是，定义该栅格为有障碍的栅格，无人机不能通过；否则，该栅格定义为无障碍物的栅格，无人机可以通过；

步骤五、给无人机群中的每个无人机设定并分配各自的任务，确立各自的级别以及起始点和目标点；

步骤六、每个无人机输入起始点和目标点坐标后，利用微型电脑各自进行强化学习；

强化学习采用改进后的Q学习算法进行，规则如下：

初始Q₁(s,a)＝Q₂(s,a)＝0；s表示状态，a表示动作；

步骤603、从状态s选择动作a后到达状态s'后，对矩阵Q₁和Q₂同时进行更新；每个状态经过动作后到达下一个栅格；

以0.5的概率更新矩阵Q₁，公式如下：

Q₁(s,a)←Q₁(s,a)+α·(R(s,a)+γ·Q₂(s',argmax_aQ₁(s',a))-Q₁(s,a))

以另外0.5的概率更新矩阵Q₂，公式如下：

Q₂(s,a)←Q₂(s,a)+α·(R(s,a)+γ·Q₁(s',argmax_aQ₂(s',a))-Q₂(s,a))

步骤604、当到达目标点栅格或者有障碍的栅格时，当前周期结束，开始下一周期；否则将状态s'赋给状态s，再转到步骤602；直至完成所有周期，结束学习过程；

步骤七、每个无人机根据各自的强化学习结果，择优选择飞行路径；

无人机群中的每个无人机从各自的起始点栅格开始飞行，基于强化学习结果，每一个时间步选择收益最大的动作飞往下一个距离最近的栅格中心，在飞行过程中判断是否与其它无人机发生冲突，如果是，则依据初始时确定的优先级，优先级低的无人机悬停，优先级高的无人机沿当前速度大小和方向继续飞行；否则，直接飞行直至到达目标点栅格为止，完成任务。

2.如权利要求1所述的一种基于改进Q学习算法的无人机群路径规划方法，其特征在于，步骤二中所述的勘测过程中，四旋翼无人机采用360度水平激光测距仪，360度顶部激光传感器，360度底部激光传感器，对以自身为中心，半径为R_d的范围内的环境进行探测，当检测到障碍物距离该无人机机身的距离d小于安全半径R_c时，则该无人机处于冲突状态。

3.如权利要求1所述的一种基于改进Q学习算法的无人机群路径规划方法，其特征在于，步骤三中所述的实现冲突解脱的具体过程为：无人机以自身为中心，以飞行方向为z轴，以竖直向上方向为y轴，以垂直y-z平面为x轴建立空间坐标系；将无人机与障碍物的连线方向记为w轴，在w-z平面内，无人机偏转最小的角度θ，使得无人机沿着偏转后的方向飞行，无人机距离障碍物的最小距离为R_c，刚好实现冲突解脱。