CN106595671A

CN106595671A - 一种基于强化学习的无人机路径规划方法和装置

Info

Publication number: CN106595671A
Application number: CN201710096811.XA
Authority: CN
Inventors: 郝祁; 张志建; 杨云波
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2017-02-22
Filing date: 2017-02-22
Publication date: 2017-04-26

Abstract

本发明公开了一种基于强化学习的无人机路径规划方法和装置，所述方法包括：执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作；执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数；判断所述飞行动作是否达到预设条件；若是，则飞行结束，否则进行下一次飞行动作。实现了未知环境下对无人机飞行动作进行选择，进而对其路径进行规划，计算量小，成本低。

Description

一种基于强化学习的无人机路径规划方法和装置

技术领域

本发明实施例涉及机器学习领域，尤其涉及一种基于强化学习的无人机路径规划方法和装置。

背景技术

由于人工作业的存在着一定的复杂性和危险性，现如今多数作业由机器实现。无人机由于其体积小，可以做各种动作以及可以灵活控制，在军事和民用领域中得到了广泛运用，在进行火灾抢救，民用施肥、浇水以及未知的狭小地区的探测等方面，都需要对无人机进行路径规划。

现有的路径规划算法，主要分为两层，一层是基于线下的静态路径规划，指的是各种威胁以及环境地形均已确定的情况下进行的路径规划。第二层则是实时动态的在线路径规划，指的是无人机在飞行过程中遇到未知威胁以及环境地形不确定的情况下的动态规划。其中，具体又有基于单元分解的规划方法、人工势场法、基于数学模型的轨迹优化法以及基于神经网络的路径规划法等。基于单元分解的规划方法，其分解较为复杂且该算法的收敛速度和计算量也依赖于启发函数的选择；人工势场法，容易出现局部最优点，导致无法找到航线，且只适合低维数空间的路径规划；基于数学模型的轨迹优化法，其计算量大，需要通过数值解法来进行求解且容易受局部最小值的影响，故常用于局部的规划；基于神经网络的规划方法是将数字地图地形信息映射到神经网络上，基于飞行约束条件构造能量函数，通过使得能量最小来回的航迹规划方法，但这种方法计算量大，适用于线下路径规划，不适合实时规划。

发明内容

本发明提供了一种基于强化学习的无人机路径规划方法和装置，实现了未知环境下对无人机飞行动作进行选择，进而对其路径进行规划，计算量小，成本低。

第一方面，本发明实施例提供了一种基于强化学习的无人机路径规划方法，所述方法包括：执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作；执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数；判断所述飞行动作是否达到预设条件；若是，则飞行结束，否则进行下一次飞行动作。

进一步的，所述Q函数为：

其中，Q_t+1(s_t,a_t)为t+1时刻对应的Q值，Q_t(s_t,a_t)为t时刻的Q值，λ_t为学习速率，γ为折扣因子，r_t为执行t时刻动作的回报值。

进一步的，所述方法还包括：初始化强化学习的Q函数，所述Q函数的参数，包括所述学习速率、所述折扣因子和所述回报值。

进一步的，所述执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作包括：执行单次飞行动作前感知无人机的当前环境状态；基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率；选择概率最大的动作作为飞行动作。

进一步的，所述预设条件包括：执行预设次数的动作或满足预设动作规则。

第二方面，本发明实施例提供了一种基于强化学习的无人机路径规划装置，所述装置包括：选择模块，用于执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作；更新模块，用于执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数；判断模块，用于判断所述飞行动作是否达到预设条件；若是，则飞行结束，否则进行下一次飞行动作。

进一步的，所述Q函数为：

进一步的，所述装置还包括：初始化模块，用于初始化强化学习的Q函数，所述Q函数的参数，包括所述学习速率、所述折扣因子和所述回报值。

进一步的，所述选择模块具体用于：执行单次飞行动作前感知无人机的当前环境状态；基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率；选择概率最大的动作作为飞行动作。

本发明实施例通过执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作，执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数，当所述飞行动作达到预设条件后结束飞行动作。实现了未知环境下对无人机飞行动作进行选择，进而对其路径进行规划，计算量小，成本低。

附图说明

图1是本发明实施例一中的一种基于强化学习的无人机路径规划方法的流程图；

图2是本发明实施例二中的一种基于强化学习的无人机路径规划方法的流程图；

图3是本发明实施例三中的一种基于强化学习的无人机路径规划装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种基于强化学习的无人机路径规划方法的流程图。该方法适用于对无人机进行路径规划的情况，该方法可以由具有无人机路径规划的装置来执行，该装置可以由软件和/或硬件的方式来实现。具体包括以下步骤：

S110、执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作。

具体的，无人驾驶飞机简称无人机，是利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机。机上无驾驶舱，但是安装有自动驾驶仪和程序控制装置等设备。地面或母机遥控站人员通过雷达等设备，对其进行追踪、定位、遥控、遥测和数字传输。单次飞行动作指的是，无人机从一个起始地点飞行到下一个地点，起始地点记为A，下一地点记为B，无人机在地点A时的环境状态为当前的环境状态，无人机根据当前的环境状态和Q函数选择飞行动作。

优选的，所述Q函数为：

其中，强化学习是一种重要的机器学习方法，强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：如果智能体的某个行为策略导致环境正的奖赏(强化信号)，那么智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。在本方案中，智能体可以是无人机中的控制模块，实现对无人机的飞行动作的控制。Q算法是强化学习中的一种算法，Q函数是Q算法中的一个函数，Q_t+1(s_t,a_t)为t+1时刻对应的Q值，Q值也称为状态-动作值，即经历K步学习后，在状态s_t时，选择动作a_t时的状态-动作值，K取大于1的正整数。起始Q值是随机量，可以设置为0。λ_t为学习速率，它是学习过程中从1到0不断衰减的参数，示例性的，λ_t取0.1。r_t为执行t时刻动作的回报值，代表智能体在采用动作a_t并转移到状态s_t+1后得到的立即奖赏，γ为折扣因子，0<γ<1，代表了立即奖赏和未来奖赏的比重，示例性的，γ取0.9。

S120、执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数。

具体的，无人机根据当前的环境状态和Q函数选择飞行动作，执行所述飞行动作，该动作作用环境中，会得到一个反馈，该反馈通过一定的回报规则生成回报值，在这里不对回报规则做具体限定，示例性的，回报规则可以设置为：当无人机躲避攻击和威胁时，设置r_t为100；当无人机被攻击时，设置r_t为-100；其他情况，考虑到无人机飞行过程中的能量损耗，设置r_t为-1。根据执行飞行动作后的回报值更新所述Q函数。

S130、判断所述飞行动作是否达到预设条件；若是，则飞行结束，否则进行下一次飞行动作。

具体的，飞行动作包括多个单次飞行的动作，该个数用N表示，需要说明的是，N不代表具体的数据，在这里只是一个符号表示。每进行一次单次飞行动作，对Q函数进行一次更新。当进行过N个单次飞行的动作后，判断是否达到预设条件，如果达到了预设条件，就结束飞行，结束飞行后，该N个单次飞行的动作生成无人机的一条完整的路径。如果没满足预设条件，则继续下一次飞行动作。

示例性的，无人机每进行一次飞行工作，利用即时定位与地图构建(simultaneouslocalization and mapping，SLAM)方法来构建新的地图和更新先前已知地图并确定无人机的自身位置，通过视觉SLAM实现即时定位与地图构建功能。视觉SLAM框架包括：传感器数据、视觉里程计、后端优化和回环检测。传感器信息读取主要为相机图像信息的读取预处理；视觉里程计的任务是估算相邻图像间相机的运动以及局部地图的样子；后端优化是指后端接受不同时刻视觉里程计测量的相机位姿以及回环检测的信息，对它们进行优化，得到全局一致的轨迹和地图；回环检测是判断无人机是否曾经到达过先前的位置，如果检测到回环，它就会把信息提供给后端进行处理；根据估计的轨迹，建立与任务要求对应的地图。

优选的，所述方法还包括：初始化强化学习的Q函数，所述Q函数的参数，包括所述学习速率、所述折扣因子和所述回报值。

具体的，强化学习的Q函数需要初始化，其中，初始化Q函数具体包括：初始化Q函数的参数，参数包括所述学习速率、所述折扣因子和所述回报值。对这三个参数均进行初始化，分别给定初始值，对初始值具体大小不做具体限定。

本发明实施例通过执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数，当所述飞行动作达到预设条件后结束飞行动作。实现了未知环境下对无人机飞行动作进行选择，进而对其路径进行规划，计算量小，成本低。

实施例二

图2是本发明实施例二提供的一种基于强化学习的无人机路径规划方法的流程图。本实施例在上述实施例的基础上，对“所述执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作”进行了优化。具体包括以下步骤：

S210、执行单次飞行动作前感知无人机的当前环境状态。

具体的，执行单次飞行动作前感知无人机的当前环境状态，其中，环境状态包括：环境中有静止的障碍物与运动的障碍物，环境中静止障碍物的位置和姿态，运动的障碍物在无人机到达时刻的位置和姿态。

S220、基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率。

具体的，Q函数的输入为状态和动作，输出为状态-动作值，基于Q函数的函数值即为输出值。应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率，其中，Q函数是关于动作和状态的函数，softmax函数是关于Q的函数，softmax函数是将一组数变为总和为1，各个数为0到1之间的软归一化结果，在本方案中，针对同一个环境状态可以选择多个动作，softmax函数用于计算一个环境状态下执行各个动作的概率值，同一个环境状态下可以执行多个动作，执行每个动作的概率大小不同，softmax函数用于计算该概率值。

S230、选择概率最大的动作作为飞行动作。

具体的，在步骤S220中计算出执行各个动作的概率值之后，选择概率最大的动作作为飞行动作。概率最大的动作即为最优动作，N个单次飞行动作的最优动作生成最优的飞行路径，完成路径规划。

S240、执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数。

S250、判断所述飞行动作是否达到预设条件；若是，则飞行结束，否则进行下一次飞行动作。

所述预设条件包括：执行预设次数的动作或满足预设动作规则。

具体的，预设条件包括：执行预设次数的动作或满足预设动作规则，预设次数可以是根据经验值预设，可以为200次；预设动作规则是指，执行一定次数的单次飞行后，满足操作者的预设动作规则，示例性的预设动作规则可以是，无人机的在动作后的位置和姿态达到预设要求。

本发明实施例中，通过执行单次飞行动作前感知无人机的当前环境状态，基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率；选择概率最大的动作作为飞行动作。实现了对当前环境状态下最优飞行动作的选择。

实施例三

图3是本发明实施例三提供的一种基于强化学习的无人机路径规划装置的结构示意图。该装置适用于执行本发明实施例一至二中提供的一种基于强化学习的无人机路径规划方法，该装置具体包括：

选择模块310，用于执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作；

更新模块320，用于执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数；

判断模块330，用于判断所述飞行动作是否达到预设条件；若是，则飞行结束，否则进行下一次飞行动作。

进一步的，所述Q函数为：

进一步的，选择模块310具体用于：执行单次飞行动作前感知无人机的当前环境状态；基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率；选择概率最大的动作作为飞行动作。

本发明实施例提供的一种基于强化学习的无人机路径规划装置可执行本发明任意实施例所提供的一种基于强化学习的无人机路径规划方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于强化学习的无人机路径规划方法，其特征在于，包括：

执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作；

执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数；

判断所述飞行动作是否达到预设条件；若是，则飞行结束，否则进行下一次飞行动作。

2.根据权利要求1所述的方法，其特征在于，所述Q函数为：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

初始化强化学习的Q函数，所述Q函数的参数，包括所述学习速率、所述折扣因子和所述回报值。

4.根据权利要求1所述的方法，其特征在于，所述执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作包括：

执行单次飞行动作前感知无人机的当前环境状态；

基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率；

选择概率最大的动作作为飞行动作。

5.根据权利要求1所述的方法，其特征在于，所述预设条件包括：执行预设次数的动作或满足预设动作规则。

6.一种基于强化学习的无人机路径规划装置，其特征在于，包括：

选择模块，用于执行单次飞行动作前感知无人机的当前环境状态，根据Q函数和所述当前环境状态选择飞行动作；

更新模块，用于执行所述飞行动作，根据执行所述飞行动作得到的回报更新所述Q函数；

判断模块，用于判断所述飞行动作是否达到预设条件；若是，则飞行结束，否则进行下一次飞行动作。

7.根据权利要求6所述的装置，其特征在于，所述Q函数为：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

初始化模块，用于初始化强化学习的Q函数，所述Q函数的参数，包括所述学习速率、所述折扣因子和所述回报值。

9.根据权利要求6所述的装置，其特征在于，所述选择模块具体用于：

执行单次飞行动作前感知无人机的当前环境状态；

选择概率最大的动作作为飞行动作。

10.根据权利要求6所述的装置，其特征在于，所述预设条件包括：执行预设次数的动作或满足预设动作规则。