CN111857142B

CN111857142B - 一种基于强化学习的路径规划避障辅助方法

Info

Publication number: CN111857142B
Application number: CN202010699872.7A
Authority: CN
Inventors: 蓝雪婧; 覃诚轩; 黄子恒
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-08-02
Anticipated expiration: 2040-07-17
Also published as: CN111857142A

Abstract

本发明公开了一种基于强化学习的路径规划避障辅助方法，包括如下步骤：步骤S1，构建移动机器人模型，基于Q学习算法对起点到目标点进行路径规划；步骤S2，当检测到移动机器人当前处于局部最优点时，确定临时目标点，将所述目标点更改为临时目标点，并以当前位置为起点，所述临时目标点为目标点，基于Q学习算法进行路径规划，以向临时目标点方向移动。

Description

一种基于强化学习的路径规划避障辅助方法

技术领域

本发明涉及路径避障技术领域，特别是涉及一种基于强化学习的路径规划避障辅助方法。

背景技术

在机器人研究学习当中，导航技术是移动机器人的基础，而路径规划又是导航技术的基础，所有智能移动车都需要安装避障路径规划系统。

避障规划属于局部路径规划，是一种动态路径规划，主要用于探测障碍物，并跟踪障碍物移动轨迹推算下一步可能位置，以避免移动机器人的路径与之相交。现实中常会面对各种各样的障碍物以及环境的复杂变化，在传统的局部路径规划下，移动机器人常常因无法绕过障碍物从而困于局部之中，因此，提高移动机器人对环境的适应性，对机器人导航能力的提升具有重大意义。

目前，移动机器人的路径规划常采用人工势场法，但是，人工势场法的路径规划容易使得移动机器人陷入局部最优点，从而导致移动机器人不能达到目标位置。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于强化学习的路径规划避障辅助方法，以在检测到移动机器人陷入局部最优点时，通过改变临时目标点从而使移动机器人从局部最优点逃逸并向正确的方向移动。

为达上述及其它目的，本发明提出一种基于强化学习的路径规划避障辅助方法，包括如下步骤：

步骤S1，构建移动机器人模型，基于Q学习算法对起点到目标点进行路径规划；

步骤S2，当检测到移动机器人当前处于局部最优点时，确定临时目标点，将所述目标点更改为临时目标点，并以当前位置为起点，所述临时目标点为目标点，基于Q学习算法进行路径规划，以向临时目标点方向移动。

优选地，于步骤S2中，当检测到移动机器人陷入局部最优点时，则在角度β±δ上的距离L处创建两个临时目标点P_R和P_L，并基于Q学习算法进行路径规划以使移动机器人往其中任意临时目标点方向移动，其中，

(Agent.x，Agent.y)为移动机器人当前位置坐标，(Goal.x，Goal.y)为所述目标点的坐标，δ为偏转量，L的值大于地图边长。

优选地，δ取值

优选地，当检测到移动机器人再次陷入局部最优点时，继续交替设置临时目标点P_R和P_L，并基于Q学习算法进行路径规划使移动机器人往临时目标点方向移动，直到绕过障碍物。

优选地，于步骤S2中，当检测到移动机器人陷入局部最优点时，则首先使移动机器人偏移到一侧，多次迭代后记录位置并计算由当前位置和上次记录位置形成的角度ω，并以

为角度在以根据地图和步长调节的距离处创建临时目标点，重复此操作，并于此期间基于Q学习算法往不断变化的临时目标点方向前进，直到移动机器人与实际目标之间的距离略小于实际目标与局部最优点之间的距离。

优选地，于步骤S2，在角度

上的距离L处创建临时目标点并以临时目标点为目标点前进使移动机器人偏移到一侧。

优选地，

为增量，取值π/6。

与现有技术相比，本发明一种基于强化学习的路径规划避障辅助方法能够在强化学习的基础上利用Q学习算法自身的特点，通过增设临时目标点，改变路径达到逃离局部最优点的目的并且往靠近目标点道路上更进一步。

附图说明

图1为本发明一种基于强化学习的路径规划避障辅助方法的步骤流程图；

图2为本发明具体实施例中移动机器人模型搭建示意图；

图3为本发明具体实施例中移动机器人离散化的传感器范围示意图；

图4为本发明具体实施例中仿真模型的地图示意图；

图5为未使用本发明的情况示意图；

图6为本发明具体实施例中摇摆法示意图；

图7为本发明一实施例中使用了摇摆法的情况示意图；

图8为本发明世界坐标系下需持续迂回的示意图；

图9为本发明实施例世界坐标系下使用绕墙法的情况示意图；

图10为本发明实施例仿真机器人坐标系下使用绕墙法的情况示意图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于强化学习的路径规划避障辅助方法的步骤流程图。如图1所示，本发明一种基于强化学习的路径规划避障辅助方法，包括如下步骤：

步骤S1，构建移动机器人模型，基于Q学习算法对起点到目标点进行路径规划。

本发明采用以下方法进行建模：在本发明中，机器人用笛卡尔坐标系T₁(世界坐标系)来表示的，设置于机器人上的传感器的探测范围为180°，分为三个区域：Left∈[180°，120°)，Front∈[120°，60°]和Right∈(60°，0°]；移动机器人的动作离散化为六个方向：A₀～A₆，它们相距30°，如图2。传感器检测到的距离如图3所示，离散分为四个范围：Scope0∈(0，0.5]，Scope1∈(0.5，2.5]，ScopeSP∈(2.5，3]和Scope2∈(2.5，7.5]。

在本发明具体实施例中，仿真环境利用Python构建，地图以笛卡尔坐标系T₀(仿真机器人坐标系)表示，如图4所示，地图上有三个元素：起点、目标点和障碍物，起点和目标点由点坐标表示，障碍物被表示为具有给定半径和中心的圆或具有给定三个顶点的三角形。

根据Q学习路径规划算法，移动机器人从起点出发，到达终点。当满足以下公式时，即达到目标：

δd＜e×S_L (1)

其中e∈(1，100)，以及δd是一个常数.S_L代表步长。

以下说明本发明所基于的Q学习算法：

1、状态设计

在本发明Q学习算法中，状态被离散为27个：

S＝[L_i，F_j，R_k]_{i，j，k∈0，1，2} (2)

X_i代表在方向X上，范围i内。

用以下函数将状态映射都整数集：

s＝i+3j+9k (3)

2、动作设计

在Q学习算法中，动作被离散为A₀～A₆.它是一个偏转角，最终的前进方向如下所示：

α＝β+A_i (4)

β为基础的参考方向，A_i＝-90°，-60°，-30°，0°，60°，30°，0°，A_i为Q学习的动作，根据强化学习算法选取-90°，-60°，-30°...，这些值即偏转角。(Goal.x，Goal.y)代表目标点的坐标，(Agent.x，Agent.y)为机器人当前坐标，a为机器人最终前进方向，为β和A_i的复合。选取动作策略使用ε-greedy strategy，ε取值如下所示：

在得到前向角α后，将其代入下式计算新的移动机器人坐标：

Agent.x＝Agent.x+S_L×cos(α) (7)

Agent.y＝Agent.y+S_L×sin(α) (8)

S_L＝0.01 (9)

3、奖励设置

在本发明Q学习算法中，奖惩函数reward是一个复合值：

reward＝w×r_ob+(1-w)×r_g (10)

r_ob＝k(Δd_L+Δd_L+Δd_L) (12)

r_g＝-k(Δd_g) (13)

其中，w代表分配因子；r_ob代表避障奖励，是一个负数；r_g代表目标奖励，是一个正数；Δd_L，Δd_F，Δd_R代表不同区域的距离差值：Left∈[180°，120°)，Front∈[120°，60°]和Right∈(60°，0°]；Δd_g代表与目标的距离差值。所有差值都是新值减去旧值。

4、Q表的更新

在本发明Q学习算法中，Q表更新如下：

Q(s_t，a)＝Q(s_t，a)+α(reward+γmax Q(s_t+1，：)-Q(s_t，a)) (14)

Q是一个27×7矩阵；s_t代表移动机器人当前状态；s_t+1代表移动机器人下一个状态；a代表A_i的索引；γ代表折扣因子；α代表学习率。

需说明的是，上述模型的搭建及基于Q学习算法的路径规划均采用的是现有的技术，在此不予赘述。

步骤S2，当检测到移动机器人当前在局部最优点时，确定临时目标点，将目标点更改为临时目标点，并以当前位置为起点，临时目标点为目标点，基于Q学习算法进行路径规划，以向临时目标点方向移动。一般地，检测移动机器人是否陷入局部最优点现有技术可以采用基于检测位置变换、动作输出、Q值变化及其复合条件等方法，本发明的检测设定为三者为“或”条件，即满足其中一个即判定为局部最优点，由于检测移动机器人是否陷入局部最优点采用的现有方法，在此不予赘述。

上述基于Q学习算法路径规划，当陷入局部最优点时会堵塞不前，形成振荡区域，如图5所示，图5中标识为1的区域为振荡区域。因此，当检测到移动机器人在局部最优点时，则需要执行一些策略，使移动机器人从局部最优点逃逸并向正确的方向移动。

在本发明一实施例中，采用摇摆法进行局部最优点的逃离。具体地，如图6所示，当检测到移动机器人陷入局部最优点时，根据模型机理，以当前β作为参考方向时，无论选取何种动作都无法逃离出局部最优点，因此需要临时更改目标点，本发明则在角度β±δ上的距离L处创建两个临时目标点P_R和P_L，其中δ是偏转量，此处设

但本发明不以此为限，L的值远远大于地图边长，此处设L＝1000，(需说明的是，L是随意确认的，一般只需L远远大于地图的边长，则可以避免移动机器人到达临时目标点，结束行动，由于本实施例中地图大小为100，所以设置为L为1000)，并按照Q学习算法进行路径规划以使移动机器人往临时目标点方向前进，当移动机器人再次陷入局部最优点时，它将继续依次设置P_R和P_L为临时目标点，直到绕过障碍物，也就是说，假设设定临时目标点为P_L，若再陷入局部最优点，则更改设定临时目标点为P_R，不断交替，反之亦然，仿真结果如图7所示(图7中由于临时目标点太远未标出)。

在摇摆法时改变临时目标的方法可以很容易地通过一类地图，而这类地图的特点是缺乏迂回的路线。但是，当一个移动机器人遇到一个需要持续迂回的地图时，摇摆法也是无效的，如图8所示。因此在本发明另一实施例中，则采用绕墙法进行局部最优点的逃离。

当移动机器人陷入局部最优点时，为了使移动机器人绕墙行走，首先使用摇摆法偏移到一侧

(即在此角度上选取临时目标点并以临时目标点为目标点前进)，其中

为增量，起到偏移的作用，这里

但本发明不以此为限。多次迭代后，每N＝50次迭代记录位置并计算由当前位置和上次记录位置形成的角度ω，并以

为角度在适当距离处(该距离根据地图和步长调节，一般为经验值，例如1000)创建临时目标点，重复此操作，此期间并基于Q学习算法往不断变化的临时目标点方向前进，直到移动机器人与实际目标之间的距离略小于实际目标与局部最优点之间的距离，其结果如图9和图10所示。

本发明提出了一类在线路径规划避障的辅助策略，如果在连续环境中得到局部最优点并将其存储起来，则可以将这些点连接成一个图或一棵树，并可使用Dijkstra算法来寻找最优路径。

综上所述，本发明一种基于强化学习的路径规划避障辅助方法能够在强化学习的基础上利用Q学习算法自身的特点，通过增设临时目标点，改变路径达到逃离局部最优点的目的并且往靠近目标点道路上更进一步，本发明提供的技术给移动机器人面对各种障碍物时，能更轻易更准确地前往最终目标点位。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于强化学习的路径规划避障辅助方法，包括如下步骤：

步骤S2，当检测到移动机器人当前处于局部最优点时，确定临时目标点，将所述目标点更改为临时目标点，并以当前位置为起点，所述临时目标点为目标点，基于Q学习算法进行路径规划，以向临时目标点方向移动；

其中，在步骤S2中，当检测到移动机器人陷入局部最优点时，则在角度β±δ上的距离L处创建两个临时目标点P_R和P_L，并基于Q学习算法进行路径规划以使移动机器人往其中任意临时目标点方向移动，其中，

(Agent.x，Agent.y)为移动机器人当前位置坐标，(Goal.x，Goal.y)为所述目标点的坐标，δ为偏转量，L的值远远大于地图边长。

2.如权利要求1所述的一种基于强化学习的路径规划避障辅助方法，其特征在于：δ取值

3.如权利要求1所述的一种基于强化学习的路径规划避障辅助方法，其特征在于：当检测到移动机器人再次陷入局部最优点时，继续交替设置临时目标点P_R和P_L，并基于Q学习算法进行路径规划使移动机器人往临时目标点方向移动，直到绕过障碍物。

4.如权利要求1所述的一种基于强化学习的路径规划避障辅助方法，其特征在于：于步骤S2中，当检测到移动机器人陷入局部最优点时，则首先使移动机器人偏移到一侧，多次迭代后记录位置并计算由当前位置和上次记录位置形成的角度ω，并以

为角度在以根据地图和步长调节的距离处创建临时目标点，重复此操作，并于此期间基于Q学习算法往不断变化的临时目标点方向前进，直到移动机器人与实际目标之间的距离略小于实际目标与局部最优点之间的距离；其中，

为增量，取值π/6。

5.如权利要求4所述的一种基于强化学习的路径规划避障辅助方法，其特征在于：于步骤S2，在角度