CN110488859A

CN110488859A - 一种基于改进Q-learning算法的无人机航路规划方法

Info

Publication number: CN110488859A
Application number: CN201910632921.2A
Authority: CN
Inventors: 富立; 李润夏; 王玲玲
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beijing University of Aeronautics and Astronautics
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-22
Anticipated expiration: 2039-07-15
Also published as: CN110488859B

Abstract

本发明公开了一种基于改进Q‑learning算法的无人机航路规划方法，在不同的仿真环境下训练无人机得到先验知识列表，之后在未知的环境中，利用训练得到的先验知识引导无人机进行探索，减少无人机在未知环境下的探索步数；引入单位置动作值函数收敛的准则，改变传统Q‑learning依据马尔科夫过程链式收敛的原则，加快动作值函数的收敛速度。

Description

一种基于改进Q-learning算法的无人机航路规划方法

技术领域

本发明涉及无人机航路规划领域，尤其涉及未知环境下一种基于改进Q-learning算法的无人机航路规划方法。

背景技术

无人驾驶飞机简称无人机，是指没有飞行员操纵，并且在飞行过程中可以由其机载设备进行导航和控制，也可以由地面远程操作的飞行器。由于无人机不需要飞行员驾驶，可以避免飞行员的生理限制，并且能够保证工作人员的安全。与有人驾驶飞机相比，无人机体积小、成本低、安全性高、隐蔽性好。与像卫星这样的传统工作载体相比，无人机综合成本低，效费比高，在使用中具有灵活机动的特点。所以各国都在积极的扩展无人机的应用范围，在电力、通信、气象、农林、海洋、勘探等领域应用无人机的技术效果和经济效果都非常看好。

而伴随着应用领域的拓展，无人机需完成的任务日趋复杂，这对无人机自主性或者智能性提出了更高的要求。无人机技术是现代科学理论和实践综合交叉的成果，而无人机的自主航路规划问题是提高无人机自主性的关键核心技术。航路规划是指无人机在特定约束条件下(比如飞行时间、燃料消耗、威胁、飞机本身机动性能等)搜索一条从起始状态到目标状态，并且在中途不能发生碰撞的最优或者次优的航路，以保证飞行任务的圆满完成。

从根本上来说，无人机的航路规划问题实际上是在满足一定约束条件下的优化问题，其算法设计过程具有复杂性、随机性、多目标性和多约束性等特点。而无人机本质上是一种可以在三维空间自由运动的机器人，但是比机器人更为复杂的是不确定性更强。国内外许多专家对无人机的航路规划提出了很多的算法，比如常用的有Dijkstra算法、A*算法、遗传算法、蚁群算法、人工势场法、粒子群算法等等。以上算法可以分为全局规划算法以及局部规划算法两种。像蚁群算法这样的全局航路规划算法对于无人机飞行环境的先验信息要求很大，在未知的环境中难以展开规划，但是无人机飞行任务越来越复杂，无人机建立先验环境的成本越来越高。而像人工势场法这样的局部航路规划算法虽然不需要环境的先验信息，可以在未知的环境中规划航路，但是由于没有全局信息，很容易陷入局部极值，难以在复杂的环境中安全高效的开展航路规划。现代飞行任务的复杂性决定了上述航路规划算法的局限性，所以，目前无人机系统航路规划自主性提升的研究热点及难点集中在未知环境下进行航路规划。

新兴的强化学习算法通过不断地试错感知环境信息，可以不断地和环境进行交互，对外界环境变化快速响应，利用强化学习进行自主航路规划，具有实时、快速的优点，开始逐渐被用来提升无人机航路规划的智能化水平。然而，强化学习归根结底是数据驱动的优化算法，较大的运算压力且需要较多的交互数据是其不可避免的缺点，以下三个问题使得基于强化学习的无人机航路规划算法难以满足实际应用的要求：

1)在大规模状态空间和动作空间下，算法对每个状态和动作进行无限次重复训练，将会导致维度灾难。

2)无人机在执行完一次动作后，所获得的回报函数值往往不是即时的，这增加了时间复杂性。

3)强化学习必须在探索和利用之间进行折中，即在已知信息下进行最优策略选择和进行进一步的探索之间进行折中。

无人机在未知的环境中进行航路规划必须面对以上三个问题，为加快无人机利用强化学习进行航路规划的收敛速度，有学者将Dyna学习框架加入Q-learning算法中，该算法利用少许真实数据建立环境模型，利用虚拟样本更新值函数，通过增加计算复杂度来降低时间复杂度，但是这违背了无人机航路规划完全自主性的要求。分层强化学习算法将分层思想引入Q-learning算法中，将原来的整个任务分解成一些彼此独立的子任务进行学习，加快学习速率，有学者提出了基于选择的分层学习方法，在第一层利用Q-learning算法分别训练运动的基本行为，在第二层里协调这些基本行为来解决规划的任务，仿真结果表明该算法能够很好地应用于未知环境的路径规划，提高收敛速度，但是需要指出的是，该算法依旧没有解决在未知环境下无人机需要大量探索的问题。

发明内容

为了解决上述已有技术存在的不足，减少无人机在未知环境下探索步数并加快最终的收敛速度，使得基于强化学习的无人机航路规划算法满足实际应用的要求，本发明提出一种无人机利用Q-learning算法在未知环境下进行航路规划的改进方法，该方法利用训练得到的先验知识引导无人机选取在未知环境下进行探索的动作，并利用单位置动作值函数收敛准则加快算法的收敛速度，实现减少无人机在未知环境下探索步数并加快最终收敛速度的目的。本发明的具体技术方案如下：

一种基于改进Q-learning算法的无人机航路规划方法，其特征在于，包括以下步骤：

S1：利用仿真环境训练无人机以获取先验知识，形成先验知识列表；

S2：在未知的环境中，设立无人机的起始点和终止点，利用步骤S1获取的先验知识引导无人机进行探索；

S3：判断每个位置的动作值函数是否收敛，若收敛，计算该位置的动作值函数，并停止更新该位置的动作值函数；若不收敛，更新该位置的动作值函数；

S4：判断是否所有位置的动作值函数都已收敛，若收敛，结束探索过程，根据动作值函数确定出最优航路方案；若不收敛，则无人机继续从起始点开始探索，进行下一次迭代，重复执行步骤S2和步骤S3，直到所有位置的动作值函数全部收敛。

进一步地，所述步骤S1的具体步骤为：

S1-1:以无人机为中心的八个象限表示目标点与无人机的相对方向，采用列表的方式存储先验知识，先验知识列表中的状态能映射Q值列表中的所有位置；

S1-2:除了目标点和无人机的相对方向，将无人机周围六个飞行方向上的障碍物有无状态也作为先验知识列表中的索引条件，先验知识列表中每个状态的存储形式为(ts′₁,ts′₂,ts′₃,ts′₄,ts′₅,ts′₆,qt,a₁,a₂,a₃,a₄,a₅,a₆,)，

其中，ts′₁至ts′₆表示以无人机为中心的六个飞行方向的障碍物有无状态，假如有障碍物则为1，没有障碍物则为0，qt表示目标点相较无人机的位置象限，a₁至a₆表示六个飞行方向上训练得到的先验动作值函数，先验知识列表用512个状态表示Q值列表中所有位置；

S1-3：训练先验知识的过程中，无人机观察其所在的位置，根据其周围六个飞行方向的障碍物有无状态以及目标点的位置象限，将所在位置归类为先验知识列表中的某一状态，将其执行某一动作后的动作值函数作为先验知识相应状态相同动作的动作值函数进行累加存储，并记录该动作被执行的次数；训练过程中，设置不同的起始点和目标点，使无人机得到充分训练；训练结束后，将先验知识列表中各个状态各动作的动作值函数的平均值视为训练得到的先验动作值函数，所有的先验动作值函数构成了先验知识列表。

进一步地，所述步骤S2的具体方法为，对于无人机所在位置，观察围绕它的六个方向的有无障碍物状态和目标点的位置象限，并且检索先验知识列表以获得相应位置的先验动作值函数，结合ε-greedy策略和Softmax算法进行探索动作的选取，ε-greedy策略使得接近目标点的三个动作被选择的概率更大，Softmax算法使得基于先验知识的最佳动作被选择的概率最大。

进一步地，所述步骤S3的具体方法为：无人机不断地从起始点到终止点进行迭代运算的每次迭代过程中，

当时，根据公式更新动作值函数其中，是在执行(s,a)动作第t+1次时获得的动作值函数，是在执行(s,a)动作第t次时获得的动作值函数，ε₁＝1是收敛误差参数，α为学习率，r为无人机在位置s处执行动作a所得到的奖励值，s′为无人机在位置s处执行动作a后到达的位置，γ为折扣因子，为无人机在位置s执行动作a的动作值函数，为无人机在位置s′执行动作a′的动作值函数，无人机只有当下次访问该位置时才会更新s的动作值函数；

若满足时，通过更新状态动作值函数，并停止更新该位置的动作值函数，其中，是第k次执行(s,a)动作获得的动作值函数，是收敛后的固定的动作值函数，正整数m用于记录无人机达到位置s处执行动作a的总次数，U(s,a)为达到位置s处执行动作a累计m次后的值。

本发明的有益效果在于：

1.利用先验知识的核心思想是引导无人机在未知环境中选择合理的动作。通过先验知识选择适当的动作，不合适的动作被选中的概率较低。通过选择合适的动作，先验知识的应用能够显著减少探索步数；

2.利用单位置动作值函数收敛准则可以加快无人机在航路规划过程中的收敛速度。因为传统的更新方式是当一个位置的动作值函数得到较小的更新后，与其相关的所有位置的动作值函数都将得到相应的更新，而这些更新的差值可能很小或者对于最终航路的选择、影响不大，但是却减慢了收敛的速度。采用单位置动作值函数收敛准则后，影响不大的更新被忽略，大大加快了最终的收敛速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1是本发明的改进Q-learning算法流程图；

图2是根据本发明的一个实施例的目标点象限的示意图；

图3是根据本发明的一个实施例的无人机飞行栅格地图；

图4是根据本发明的一个实施例的传统Q-learning迭代探索步数；

图5是根据本发明的一个实施例的传统Q-learning算法迭代动作值函数差值；

图6是根据本发明的一个实施例的不同高度平面内各位置动作值函数图；

图7是根据本发明的一个实施例的Q-learning算法规划航路；

图8是根据本发明的一个实施例的改进Q-learning算法迭代探索步数；

图9是根据本发明的一个实施例的改进Q-learning算法每次迭代动作值函数差值；

图10是根据本发明的一个实施例的改进Q-learning算法规划航路；

图11是根据本发明的一个实施例的改进Q-learning算法不同高度平面内各位置动作值函数图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明提供的一种无人机利用Q-learning算法在未知环境下进行航路规划的改进方法，首先是利用先验知识解决探索-运用的问题，强化学习基于马尔科夫决策过程，假如无人机可以知道完整的环境模型即完整的马尔科夫决策过程，无人机就不需要进行探索，可以直接利用动态规划的方法(有模型的强化学习算法)有效地计算出最优策略。但是，在未知的环境中，无人机无法获取这方面的知识，必须通过与环境交互和不断试错的方法学得正确的策略。无人机必须通过执行动作和感知动作结果的方式来探索环境。为了感知环境，无人机必须在环境中不断的探索，而为了更快的收敛以及最终学得最优策略，无人机又必须对学到的知识加以利用，平衡这两个方面的问题被称为探索-运用问题。探索-运用问题的本质是如何选择动作，现有的常用方法一般有ε-greedy策略和Softmax策略，这两种策略在环境状态数量特别大时的性能很低下，寻找最优的策略需要很大数量的探索，为强化学习无人机航路规划应用于实际带来了很多的困难。本发明提出利用先验知识引导无人机在未知环境中选择合理的动作，先在仿真环境中训练无人机以获取先验知识，形成先验知识列表，再将学到的先验知识应用到实际未知环境，引导无人机在未知环境下进行探索。先验知识的运用与典型的Q-learning算法之间的区别在于后者通过随机探索选择动作并导致极大量的探索步数，而前者旨在通过使用先验知识选择适当的动作，不合适的动作被选中的概率较低。通过选择合适的动作，先验知识的应用能够明显减少探索步数。

其次是航路规划算法收敛方式的选择，本发明提出单位置动作值函数分别收敛的准则，记录每个位置-动作对的执行次数及其动作值函数，当该动作值函数收敛时，将先前动作值函数的平均值视为该动作值函数，并且停止该动作值函数的更新。

具体的，如图1所示为本发明的改进Q-learning算法流程图，图2为根据本发明的一个实施例的目标点象限的示意图，一种基于改进Q-learning算法的无人机航路规划方法，其特征在于，包括以下步骤：

步骤S1的具体步骤为：

步骤S2的具体方法为，对于无人机所在位置，观察围绕它的六个方向的有无障碍物状态和目标点的位置象限，并且检索先验知识列表以获得相应位置的先验动作值函数，结合ε-greedy策略和Softmax算法进行探索动作的选取，ε-greedy策略使得接近目标点的三个动作被选择的概率更大，Softmax算法使得基于先验知识的最佳动作被选择的概率最大。

假设目标点位于第一象限，三个动作(向右，向前和向上)可以使无人机更接近目标点。当目标点位于其他象限时，也有类似的特征。可以选择三个动作使无人机更接近目标点，并且其它三个动作会使无人机远离目标点，这是使用先验知识的关键点。根据该原理，结合ε-greedy策略和Softmax算法，选择每个动作的概率为：

其中，P(k)和a(k)分别是对应动作被选中的概率以及先验知识列表中的动作值函数，i对应着动作序号，其值为1-3时，代表使无人机靠近目标点的三个动作，其值为4-6时代表使无人机远离目标点的三个动作，ε是探索率，设定ε＝0.2，τ是玻尔兹曼系数，设定τ＝5。ε-greedy策略使得接近目标点的三个动作被选择的概率更大，Softmax算法使得基于先验知识的最佳动作被选择的概率最大。

步骤S3的具体方法为：无人机不断地从起始点到终止点进行迭代运算的每次迭代过程中，

下面通过一个实施例来具体说明本发明的方法。

实施例一

将Q-learning算法应用于无人机的航路规划问题，首先对无人机的飞行环境进行建模和离散处理，将真实存在的连续环境转换成强化学习Q-learning可以利用的离散环境。为模拟无人机飞行的环境，对环境进行三维建模。设计一个100m*100m*20m的三维栅格地图，其中每一个栅格的大小为1m*1m*1m，将三维栅格地图作为无人机飞行的虚拟环境，如图3所示。栅格地图离散程度以及网格的尺寸对于计算结果影响很大，在相同尺寸全局地图的前提下，网格尺寸较大，会使状态空间减少，很大程度上减少计算开销，提高解算速度，但是降低了规划的精度。若将网格尺寸设置的较小，虽然提高了计算结果的精度，但是整个状态空间的数量会增加，求解的收敛速度会变慢。在本实施例中，将栅格大小设定为固定值，在保证一定精度的同时保证计算的时间可行性。

除了无人机飞行环境的离散化处理之外，还需将无人机的飞行动作进行离散化处理。选取动作的策略即强化学习的训练优化目标，只有在相应位置采取合理的动作无人机才可以安全高效地进行航路规划。将无人机的飞行动作离散为六个方向上的运动：向前、向后、向左、向右、向上和向下，这六个动作能够保证无人机在空间位置上的自由性，并且最大程度地将无人机的飞行动作简化，保证了强化学习的快速收敛性。

为将Q-learning应用于无人机的航路规划问题，在无人机所在位置选取合适的动作就是强化学习的目标即在学习过程中不断优化的策略。此处，将无人机的位置看作在强化学习中的状态，无人机的动作会改变其在环境中所处的位置即改变了强化学习中的状态。在本实施例中，学习率α＝08，在保证学习收敛速度的前提下，确保学习经验的合理利用；折扣因子γ＝0.85，无人机的航路规划问题本身是一个注重长期回报的问题，越靠近目标点的动作奖励应该具有更大的权重，所以折扣因子在重视长期回报的同时适当侧重于短期回报，这保证了计算过程中较快的收敛速度。

奖励值的定义式为其中，r是无人机在某一位置下的六个动作的奖励值，(a1，b1，c1)和(a2，b2，c2)分别是无人机所处的位置以及航路规划目标点的位置坐标，k是精度参数，可以根据环境范围的大小设定，在本实施例中，k＝1。

首先利用传统Q-learning进行航路规划，首先将无人机航路规划的起点坐标设定为(10，10，11)，目标点坐标设定为(73，83，12)。无人机将从起点开始探索，在每一个位置-状态根据ε-greedy策略(ε＝0.8)选取相应的动作，更新动作值函数列表，根据选取的动作确定下一个位置，当无人机到达目标点后，判断动作值函数是否收敛，判断依据是与上一次迭代动作值函数总和的差值是否小于一定范围。若无人机的动作值函数没有收敛，则进行下一次从起始点开始的迭代过程，直到动作值函数收敛。之后，根据已经收敛的动作值函数从起始点开始选取最优动作，直到目标点，完成航路规划的任务。

图4表示了无人机在环境中探索，直到动作值函数收敛前的探索次数以及每次迭代过程中的探索步数。从图中可以得知，无人机经过了1121次迭代，其中在环境中探索步数最多的一次迭代过程是第二次迭代，探索了83141次。收敛时，无人机在环境中一共探索2550227步。

图5表示了无人机迭代过程中前后两次迭代的动作值函数差值，作为动作值函数是否收敛的判断依据。根据设定的奖励值，无人机在某一位置-状态下选取动作的依据应该是选取具有最大动作值函数的动作。而无人机的动作值函数应该是执行单步动作奖励加上下一个位置的动作值函数，所以绘制环境中各个位置-的动作值函数，可以展示出无人机寻找航路的大致趋势。

考虑到无人机航路规划仿真实验设定的任务起始点和终止点的位置，无人机的航路规划任务主要集中在高度值为10、11、12、13的空间内。图6中(a)、(b)、(c)、(d)分别展示了高度值为10、11、12、13的平面内各个位置的动作值函数图。因为无人机总是会选择具有更大动作值函数值的位置状态作为它的下一个目标，所以基本可以看出无人机的运动趋势。

根据无人机训练最后得到的收敛的动作值函数，绘制出无人机以(10，10，11)为航路起始点，以(73，83，12)为航路终止点的规划的最终的航路，如图7所示，Q-learning算法最终规划的航路避开了障碍物，规划出了合理的航路，最终的航路是140步，是从起始点到目标点的步数最少的方案。这是无人机充分探索环境的结果，证明了强化学习在无人机航路规划方面可以求得全局最优解的特点。

为验证本发明的改进算法的有效性，设置相同的起始点和终止点，利用已经训练得到的先验知识列表引导无人机在仿真地图中进行动作的选择，并利用单位置动作值函数的收敛准则，进行实验。

图8表示了利用改进Q-learning算法无人机在环境中探索，直到动作值函数收敛前探索次数以及每次迭代过程中的探索步数，从图中可以得知，无人机经过了1398次迭代。收敛时，无人机在环境中一共探索611276步。图9表示了无人机迭代过程中前后两次迭代的值函数差值，作为动作值函数是否收敛的判断依据。图10展示的是改进Q-learning算法最终规划的航路，从图中可以看出，改进型算法成功完成了航路规划任务，最终航路的飞行146步。

改进Q-learning算法和传统Q-learning算法应用于无人机航路规划在具有相同初始点和任务点的情况下，规划数据如表1所示。

表1航路规划算法数据对比

根据表1的数据，虽然改进算法最终的航路比传统算法规划航路多出6步，但在航路规划速度方面，改进算法较传统算法提高了5.2倍，在航路规划过程中，传统算法最大探索的一次迭代探索步数达到83141，而改进算法的最大步数是778，这为算法应用到无人机的实际飞行任务中提供了可能。

另外，为了更加直观的观察改进Q-learning算法在减少探索空间和步数方面的贡献，同样绘制航路规划任务集中区域各个位置的动作值函数，如图11所示，对比图11和图6，改进Q-learning算法有效地减少了空间搜索区域，尤其是在靠近目标点的区域，表现出了较强的目标指向性，无人机的无效搜索较少，可以更加快速的向目标点靠近，而没有像传统Q-learning算法一样，为了探索环境进行更多区域的搜索。即传统Q-learning进行的是全局搜索，而改进Q-learning进行的是目标指向搜索，改进Q-learning在很大程度上提高了航路规划任务的效率。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本发明中，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进Q-learning算法的无人机航路规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于改进Q-learning算法的无人机航路规划方法，其特征在于，所述步骤S1的具体步骤为：

3.根据权利要求1所述的一种基于改进Q-learning算法的无人机航路规划方法，其特征在于，所述步骤S2的具体方法为，对于无人机所在位置，观察围绕它的六个方向的有无障碍物状态和目标点的位置象限，并且检索先验知识列表以获得相应位置的先验动作值函数，结合ε-greedy策略和Softmax策算法进行探索动作的选取，ε-greedy策略使得接近目标点的三个动作被选择的概率更大，Softmax算法使得基于先验知识的最佳动作被选择的概率最大。

4.根据权利要求1所述的一种基于改进Q-learning算法的无人机航路规划方法，其特征在于，所述步骤S3的具体方法为：无人机不断地从起始点到终止点进行迭代运算的每次迭代过程中，