CN109597425A

CN109597425A - 基于强化学习的无人机导航和避障方法

Info

Publication number: CN109597425A
Application number: CN201811215220.0A
Authority: CN
Inventors: 康敏旸; 周庆
Original assignee: China Aeronautical Radio Electronics Research Institute
Current assignee: China Aeronautical Radio Electronics Research Institute
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-04-09
Anticipated expiration: 2038-10-18
Also published as: CN109597425B

Abstract

本发明公开了一种基于强化学习的无人机导航和避障方法，其设计思想是：无人机每进行一步动作后，接收到环境的回报值，无人机通过回报值的大小来给上一步动作打分，形成一个动作‑状态分数网络，然后无人机根据当前的状态选择回报值最大的动作，反复进行以上步骤直到达到目标点。通过这种方法，能够实现无人机实时自主导航和避障功能，最终安全到达目标点。

Description

基于强化学习的无人机导航和避障方法

技术领域

本发明涉及一种基于强化学习的无人机导航和避障方法，其设计思想是：无人机每进行一步动作后，接收到环境的回报值，无人机通过回报值的大小来给上一步动作打分，形成一个动作-状态分数网络，然后无人机根据当前的状态选择回报值最大的动作，反复进行以上步骤直到达到目标点。通过这种方法，能够实现无人机实时自主导航和避障功能，最终安全到达目标点。

背景技术

无人机航路规划的基本目标是自主的获得一条能够避开威胁安全到达目标的飞行路径。近些年来，航路规划问题的技术方法发展迅速，有很多文献对该问题从不同方面提出了建模与求解方法。这些技术按照威胁信息获取方式的不同可以分为两大类：一类是静态航路规划技术，即基于环境先验完全信息的航路规划。无人机根据全局完整环境威胁信息构造出一条起始点和目标点之间的安全、可行、满意的路径；另一类是实时航路规划技术，在这部分工作中假设威胁环境预先完全未知或部分未知。此时，无人机只能获取有限范围(通常是传感器探测范围)内的威胁信息，为了安全到达目标就需要在飞行过程中实时规划航路。如果实时航路规划需要在机载计算机上运行，称为在线实时航路规划。下面分别从静态航路规划和实时航路规划两方面进行讨论。

第一方面是有关静态路径规划的方法。无人机静态路径规划的重点是如何在全部威胁环境已知的情况下计算得出一条全局优化路径。常用的规划方法包括：通过构造Voronoi图的方式搜索可行路径并优化；在学习阶段将威胁区域概率用图的形式描述，并在查询阶段构造两节点间的可行路径，或者采用概率路标法来构造路径；可视图法、Silhouettes法等。在已知全部威胁环境的情况下，这些方法可以针对全局威胁环境计算出安全可行或最优的飞行航路。然而，由于飞行区域巨大、无人机探测范围有限、威胁源类型多样以及威胁信息动态变化且难以精确描述等原因，无人机往往无法直接获取飞行区域的完整信息，而必须在飞行过程中实时探测，这就使得静态航路规划方法在实际应用中存在一定的局限性。鉴于以上原因，很多学者对实时航路规划方法开展了研究。

第二方面是有关实时航路规划的方法。无人机实时航路规划的重点是如何根据探测的有限环境信息规划出一条从起点到目标点的全局航路。目前的研究主要以机器人路径规划方法为参考，结合无人机性能以及飞行环境的特殊性来进行方法研究。目前，所提出的方法按照建模思想不同可以归为以下几种：

(1)基于概率的方法。Klasing等人采用基于Cell的概率路标(Cell-basedprobabilistic roadmaps)法实时对路径进行重规划；Jun和D’Andrea提出了一种基于威胁概率图的航路规划算法；Zengin和Dogan开发了动态环境下的概率模型框架(Probabilistic modeling framework)，为路径规划提供了较为完整的解决方案。

(2)数学规划方法。近来很多文献中给出了一系列利用混合整数规划来实时求解路径的方法；Shi和Wang采用Bayesian决策理论与动态规划算法相结合的方法来求解最优路径；另外，还有基于流函数(Stream Function)的人工势场的方法(Potential fieldapproaches)，全局动态窗口方法(Global dynamic window approaches)，基于进化计算的方法(Evolutionary computation)，边界跟踪方法(Bouncing based methods)等用于实时路径规划；Lan和Wen等人对采用不同规划方法进行路径规划的优缺点进行了分析和比较。

(3)全局路径规划与实时路径调整相结合的方法。Xiao和Gao等人首先采用Dijkstra算法根据改进的Voronoi图生成初始路径，然后在威胁信息变化时采用基于混合动态贝叶斯网络的转换线性动态系统对路径重新规划；Yan和Ding等人在给出初始路径的基础上采用基于路标图(Roadmap Diagram)的混合重规划方法(Hybrid path re-planningalgorithm)来实时搜索可行路径；Tarjan还基于有向图(Directed graphs)给出一种通用的可以解决大部分路径问题的一般性方法，并说明了构造路径表达式在某种意义上是最常见的路径问题，但这种方法在求解具体问题时的效率和可行性上都有一定的局限。

除了上述方法，还包括一些由静态方法(A*算法、Voronoi图法等)改进得到的实时方法，例如，Beard等人基于改进的Voronoi图动态生成可行路径；Bernhard等人使用Dijkstra算法给出了一种局部操作迭代步骤方法，进而用于确定每一步的最佳轨迹；Chen等人提出了基于D*算法在未知环境中进行无人战斗机航路规划的方法，其中还考虑了突发威胁。

但是以上航路规划方法面临着实时算法计算量大，环境描述的复杂性和局限性等特点，一直难以真正地应用在实际无人机系统中。随着近几年来机器学习技术的大热，机器学习方法在解决实际问题中的复杂性和实时性问题有非常好的效果，这一方法恰好能解决无人机在复杂环境中实时航路规划的问题。

发明内容

本发明的发明目的在于提供一种基于强化学习的无人机导航和避障方法，本发明通过在线学习能够实时获得无人机外界环境信息，学习无人机在何种环境下做出何种动作最为有效，通过本发明，无人机能完整地实现未知复杂障碍环境下的导航和避障，突破了原有航路规划算法实时计算的局限性和复杂性。

本发明的发明目的通过以下技术方案实现：

一种基于强化学习的无人机导航和避障方法，包含以下步骤：

a.初始化反映无人机状态与动作关系的Q值函数网络；

b.从环境中判断无人机的当前状态；

c.若无人机的当前状态为已陷入或即将陷入困境，则调用近邻危险区域逃离策略给出无人机要执行的动作；否则调用动作选择策略给出无人机作为要执行的动作；其中，动作选择策略依赖Q值网络函数计算出的各动作的回报值；

e.无人机执行动作，并获取动作的实际环境回报值和无人机的新状态；

f.利用实际环境回报值更新Q值函数网络；

g.将新状态设置为当前状态，重复c-g,直到无人机安全到达预设目标点。

优选地，动作选择策略按学习的阶段分为三部分：

在初始阶段，采用随机选择的策略，让无人机自由探索当前状态下合适的动作；

当无人机探索到足够的动作后，进入动作选择的第二阶段：引入Boltzmann分布对无人机的动作进行随机选择，某个动作被选择的概率为：

其中，P(a_i|s)即为无人机处于状态s时选择某个动作a_i的概率，T为虚拟温度因子，A为具有较高Q值的动作a的集合，e>0为一常量，它表示该动作选择策略优先考虑高Q值的程度，较大的e值会将较高的动作选择概率赋予具有较高Q值的动作a，从而使无人机能够利用它所学到的知识来选择它认为会使累积回报最大的动作，反之，较小的e值会使动作选择策略优先考虑高Q值的程度减小，其它小Q值得动作将获得更高的概率，从而可以使无人机继续探索那些当前Q值还不高的动作；

最后阶段，路径学习结果逐渐成熟，并且Q值逐渐趋向于所期望的状态-动作值，此时动作选择策略选择在当前状态下具有最大Q值对应的动作。

优选地，邻危险区域逃离策略采用三重策略，第一重，改变Boltzmann分布，使虚拟温度因子升高；第二重，调小无人机的动作步长，第三重，利用快速拓展随机树算法来避免无人机选择会导致碰壁的动作。

本发明的有益效果在于：本发明可以帮助无人机在完全未知的环境下进行导航和避障，最后安全到达目标点。本方法通过在线学习能够实时获得无人机外界环境信息，学习无人机在何种环境下做出何种动作。通过本发明，无人机能完整地实现未知复杂障碍环境下的导航和避障，突破了原有航路规划算法实时计算的局限性和复杂性。

附图说明

图1为基于强化学习的无人机导航和避障方法的流程示意图。

图2为Q值函数网络的学习流程示意图。

图3为随机树生成过程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。

参见图1所示，本实施例所示的一种基于强化学习的无人机导航和避障方法，包含以下步骤：

a.初始化反映无人机状态与动作关系的Q值函数网络。

b.从环境中判断无人机的当前状态。其中，环境信息通过无人机的传感等获得。

c.若无人机的当前状态为已陷入或即将陷入困境，则调用近邻危险区域逃离策略给出无人机要执行的动作；否则调用动作选择策略给出无人机作为要执行的动作；其中，动作选择策略依赖Q值网络函数计算出的各动作的回报值。

e.无人机执行动作，并获取动作的实际环境回报值和无人机的新状态。

f.利用实际环境回报值更新Q值函数网络。

在上述步骤中，有以下四个技术要点：

一、Q值函数网络

在本发明中，由于神经网络的存储能力强，因此可以利用神经网络的泛化能力对没有学过的状态进行外推。本发明采取三层BP神经网络来存储Q值，对于不同的行为采用不同的单输出的网络分别存储其Q值。

BP神经网络的设置分为三层：输入向量、隐藏层和输出层。输入向量有两组状态空间，一组是对应于无人机可能选择的所有行为，一组是无人机的当前状态，包含了位置坐标、处在场景中哪一计算单元等，两者数量相等并且一一对应；隐藏层决定了神经网络的收敛速度和计算速度，在没有很多先验数据的基础下需要多次尝试，通过比较找到较好的效果；输出层对应于Q值函数网络中的Q值。在确定了BP神经网络的结构后，要通过输入和输出样本集对网络进行训练，即对神经网络的权值和阈值进行学习和修正。BP神经网络的学习过程分为两个阶段：

第一个阶段是向BP神经网络输入已知的学习样本，通过已设的网络结构和前一次迭代的权值和阈值，从神经网络的第一层向后计算各神经元的输出。

第二阶段是对神经网络各权值和阈值进行修改，算法从最后一层向前反过来计算各权值和阈值对总误差的影响，据此对各神经层的权值和阈值进行修改。

以上两个过程重复交替，直到达到收敛为止。

根据神经网络特性与原理，设计出Q值函数网络，流程如图2所示。

a.初始化神经网络及运行过程中所用到的参数；

b.初始化无人机状态和场景状态；

c.执行动作，获得无人机的新状态，同时获得实际环境回报值r。在此过程中，若与墙或障碍物发生碰撞，则无人机返回初始位置并重新开始；

d.根据BP算法训练神经网络；

e.将当前无人机的状态信息输入到神经网络中，获取Q值并根据该Q值选择动作；

f.重复步骤c-e，直到学习完毕，无人机成功到达目标点。

二、动作选择策略

由于在学习的不同阶段，无人机在某个状态下，每个动作所具有的Q值分布是不同的。在学习的初始阶段，有可能无人机被过度束缚从而在早期训练中某些动作具有较高的Q值，而影响无人机继续探索其它可能更高值得动作。然而，收敛定理则要求每个状态动作对的转换无限频繁的发生。因此如果无人机总是选择当前Q值最大的动作，则无法保证状态动作对的无限频繁发生性。因此通过概率的方式让无人机进行动作选择：有较高Q值的动作被赋予更高的概率值，但是所有的动作的概率都是不为零的正数。动作选择策略按学习的阶段分为三部分：

在初始阶段，为使无人机有充分的机会探索其它可能更高回报值的动作，在路径学习的最初期，采用随机选择的策略，让无人机自由探索当前状态下合适的动作。

随着学习进行，当无人机探索过足够的动作后，进入动作选择的第二阶段：引入Boltzmann分布对无人机的动作进行随机选择，某个动作被选择的概率为：

此式中，P(a_i|s)即为无人机处于状态s时选择某个动作a_i的概率，A为具有较高Q值的动作a的集合，e>0为一常量，它表示该动作选择策略优先考虑高Q值的程度。较大的e值将会将较高的动作选择概率赋予具有较高Q值的动作a，从而使无人机能够利用它所学到的知识来选择它认为会使累积回报最大的动作。反之，较小的e值会使动作选择策略优先考虑高Q值的程度减小，其它小Q值的动作可以获得更高的概率，从而可以使无人机继续探索那些当前Q值还不高的动作。在本论文中，e是随着迭代次数而变化的，以使在学习的早期无人机利用探索型策略，然后逐步转换到利用型的策略。T为虚拟温度因子，随着温度的增加，Q值相对于选择概率的影响因子越小，因此无人机的动作选择的随机性越强。

最后阶段，路径学习结果逐渐成熟，并且Q值逐渐趋向于所期望的状态-动作值，此时根据贪婪策略来选择无人机动作，即选择在现在状态下具有最大Q值对应的动作：

三、回报值与Q值更新策略

在本发明中，学习知识的直接途径是来自于环境给予无人机的回报值。当无人机执行完动作选择策略所选择的动作后，到达一个新的状态s’，同时通过对比当前状态与过去状态的关系，外界环境根据该动作a是否合适于先前状态，反馈给无人机一个实际回报值r。

当无人机得到该动作的实际回报值之后，根据该算法的学习策略：

计算该动作新的Q值矩阵，即实际的Q值。所得到的新的Q值矩阵同先前的Q值预测矩阵进行差值计算，作为该Q值函数网络的反向输入值，更新该Q函数网络以使学习速度和精度逐渐提高。

四、近邻危险区域逃离策略

在无人机的导航和避障过程中，有两种困境难以仅通过Q学习算法的网络化改进快速逃离：一个是在概率选择的动作选择策略下，难以保证无人机不自主选择动作而致使自身碰壁的概率；另一个是在存在局部最优陷阱的场景下，与障碍的距离反馈和与目标点的距离反馈之和，难以帮助无人机通过局部“示弱”的方法从而逃离局部困境。

为解决上述提到的这两个问题，本发明提出三重近邻危险区域逃离策略。第一重，改变Boltzmann分布，使虚拟温度因子升高，调高了行为选择策略的随机性，从而使无人机易于逃离当前最优的局部函数。第二重，调小无人机的动作步长，相当于“刹车”。第三重，学习快速拓展随机树的思想，利用快速拓展随机树算法的基本原理来避免无人机选择会导致碰壁的动作，并且可以防止无人机陷入局部最优问题。

设置阈值H(阈值大于无人机动作的步长)，当无人机与障碍物之间的距离d<H时，算法的第三重危险规避策略发挥作用。其主要原理如下:

无人机所处的场景C_free进行建模，C_free可看做一个N＝3的状态空间，分别代表无人机的位置坐标和方向角度，且此空间不会与障碍物发生碰撞。无人机启用快速拓展随机路径策略时所处的位置点位初始起点x_init，然后随机在C_free空间上选取一个任意的位姿状态x_rand，向x_rand方向从起点x_init以步长ρ拓展一个随机树的节点x₁，以此类推，在该空间中拓展出一个随机树，直到拓展出一个树的节点x_k满足设置的停止条件，该节点与障碍之间的距离d大于设置值F并且距离目标点的距离较启用该近邻危险规避策略之前更短。于是，无人机选择随机树拓展出的路径x_init→x_k，执行后并继续开始基于神经网络的Q学习过程进行无人机导航和避障。上述随机树构建过程如图3所示。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于强化学习的无人机导航和避障方法，包含以下步骤：

a.初始化反映无人机状态与动作关系的Q值函数网络；

b.从环境中判断无人机的当前状态；

f.利用实际环境回报值更新Q值函数网络；

2.根据权利要求1所述的基于强化学习的无人机导航和避障方法，其特征在于所述动作选择策略按学习的阶段分为三部分：

3.根据权利要求2所述的基于强化学习的无人机导航和避障方法，其特征在于所述邻危险区域逃离策略采用三重策略，第一重，改变Boltzmann分布，使虚拟温度因子升高；第二重，调小无人机的动作步长，第三重，利用快速拓展随机树算法来避免无人机选择会导致碰壁的动作。