CN111857142B - 一种基于强化学习的路径规划避障辅助方法 - Google Patents

一种基于强化学习的路径规划避障辅助方法 Download PDF

Info

Publication number
CN111857142B
CN111857142B CN202010699872.7A CN202010699872A CN111857142B CN 111857142 B CN111857142 B CN 111857142B CN 202010699872 A CN202010699872 A CN 202010699872A CN 111857142 B CN111857142 B CN 111857142B
Authority
CN
China
Prior art keywords
target point
mobile robot
point
temporary target
obstacle avoidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010699872.7A
Other languages
English (en)
Other versions
CN111857142A (zh
Inventor
蓝雪婧
覃诚轩
黄子恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202010699872.7A priority Critical patent/CN111857142B/zh
Publication of CN111857142A publication Critical patent/CN111857142A/zh
Application granted granted Critical
Publication of CN111857142B publication Critical patent/CN111857142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于强化学习的路径规划避障辅助方法,包括如下步骤:步骤S1,构建移动机器人模型,基于Q学习算法对起点到目标点进行路径规划;步骤S2,当检测到移动机器人当前处于局部最优点时,确定临时目标点,将所述目标点更改为临时目标点,并以当前位置为起点,所述临时目标点为目标点,基于Q学习算法进行路径规划,以向临时目标点方向移动。

Description

一种基于强化学习的路径规划避障辅助方法
技术领域
本发明涉及路径避障技术领域,特别是涉及一种基于强化学习的路径规划避障辅助方法。
背景技术
在机器人研究学习当中,导航技术是移动机器人的基础,而路径规划又是导航技术的基础,所有智能移动车都需要安装避障路径规划系统。
避障规划属于局部路径规划,是一种动态路径规划,主要用于探测障碍物,并跟踪障碍物移动轨迹推算下一步可能位置,以避免移动机器人的路径与之相交。现实中常会面对各种各样的障碍物以及环境的复杂变化,在传统的局部路径规划下,移动机器人常常因无法绕过障碍物从而困于局部之中,因此,提高移动机器人对环境的适应性,对机器人导航能力的提升具有重大意义。
目前,移动机器人的路径规划常采用人工势场法,但是,人工势场法的路径规划容易使得移动机器人陷入局部最优点,从而导致移动机器人不能达到目标位置。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于强化学习的路径规划避障辅助方法,以在检测到移动机器人陷入局部最优点时,通过改变临时目标点从而使移动机器人从局部最优点逃逸并向正确的方向移动。
为达上述及其它目的,本发明提出一种基于强化学习的路径规划避障辅助方法,包括如下步骤:
步骤S1,构建移动机器人模型,基于Q学习算法对起点到目标点进行路径规划;
步骤S2,当检测到移动机器人当前处于局部最优点时,确定临时目标点,将所述目标点更改为临时目标点,并以当前位置为起点,所述临时目标点为目标点,基于Q学习算法进行路径规划,以向临时目标点方向移动。
优选地,于步骤S2中,当检测到移动机器人陷入局部最优点时,则在角度β±δ上的距离L处创建两个临时目标点PR和PL,并基于Q学习算法进行路径规划以使移动机器人往其中任意临时目标点方向移动,其中,
Figure BDA0002592633070000021
(Agent.x,Agent.y)为移动机器人当前位置坐标,(Goal.x,Goal.y)为所述目标点的坐标,δ为偏转量,L的值大于地图边长。
优选地,δ取值
Figure BDA0002592633070000022
优选地,当检测到移动机器人再次陷入局部最优点时,继续交替设置临时目标点PR和PL,并基于Q学习算法进行路径规划使移动机器人往临时目标点方向移动,直到绕过障碍物。
优选地,于步骤S2中,当检测到移动机器人陷入局部最优点时,则首先使移动机器人偏移到一侧,多次迭代后记录位置并计算由当前位置和上次记录位置形成的角度ω,并以
Figure BDA0002592633070000023
为角度在以根据地图和步长调节的距离处创建临时目标点,重复此操作,并于此期间基于Q学习算法往不断变化的临时目标点方向前进,直到移动机器人与实际目标之间的距离略小于实际目标与局部最优点之间的距离。
优选地,于步骤S2,在角度
Figure BDA0002592633070000024
上的距离L处创建临时目标点并以临时目标点为目标点前进使移动机器人偏移到一侧。
优选地,
Figure BDA0002592633070000025
为增量,取值π/6。
与现有技术相比,本发明一种基于强化学习的路径规划避障辅助方法能够在强化学习的基础上利用Q学习算法自身的特点,通过增设临时目标点,改变路径达到逃离局部最优点的目的并且往靠近目标点道路上更进一步。
附图说明
图1为本发明一种基于强化学习的路径规划避障辅助方法的步骤流程图;
图2为本发明具体实施例中移动机器人模型搭建示意图;
图3为本发明具体实施例中移动机器人离散化的传感器范围示意图;
图4为本发明具体实施例中仿真模型的地图示意图;
图5为未使用本发明的情况示意图;
图6为本发明具体实施例中摇摆法示意图;
图7为本发明一实施例中使用了摇摆法的情况示意图;
图8为本发明世界坐标系下需持续迂回的示意图;
图9为本发明实施例世界坐标系下使用绕墙法的情况示意图;
图10为本发明实施例仿真机器人坐标系下使用绕墙法的情况示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于强化学习的路径规划避障辅助方法的步骤流程图。如图1所示,本发明一种基于强化学习的路径规划避障辅助方法,包括如下步骤:
步骤S1,构建移动机器人模型,基于Q学习算法对起点到目标点进行路径规划。
本发明采用以下方法进行建模:在本发明中,机器人用笛卡尔坐标系T1(世界坐标系)来表示的,设置于机器人上的传感器的探测范围为180°,分为三个区域:Left∈[180°,120°),Front∈[120°,60°]和Right∈(60°,0°];移动机器人的动作离散化为六个方向:A0~A6,它们相距30°,如图2。传感器检测到的距离如图3所示,离散分为四个范围:Scope0∈(0,0.5],Scope1∈(0.5,2.5],ScopeSP∈(2.5,3]和Scope2∈(2.5,7.5]。
在本发明具体实施例中,仿真环境利用Python构建,地图以笛卡尔坐标系T0(仿真机器人坐标系)表示,如图4所示,地图上有三个元素:起点、目标点和障碍物,起点和目标点由点坐标表示,障碍物被表示为具有给定半径和中心的圆或具有给定三个顶点的三角形。
根据Q学习路径规划算法,移动机器人从起点出发,到达终点。当满足以下公式时,即达到目标:
δd<e×SL (1)
其中e∈(1,100),以及δd是一个常数.SL代表步长。
以下说明本发明所基于的Q学习算法:
1、状态设计
在本发明Q学习算法中,状态被离散为27个:
S=[Li,Fj,Rk]i,j,k∈0,1,2 (2)
Xi代表在方向X上,范围i内。
用以下函数将状态映射都整数集:
s=i+3j+9k (3)
2、动作设计
在Q学习算法中,动作被离散为A0~A6.它是一个偏转角,最终的前进方向如下所示:
α=β+Ai (4)
Figure BDA0002592633070000041
β为基础的参考方向,Ai=-90°,-60°,-30°,0°,60°,30°,0°,Ai为Q学习的动作,根据强化学习算法选取-90°,-60°,-30°...,这些值即偏转角。(Goal.x,Goal.y)代表目标点的坐标,(Agent.x,Agent.y)为机器人当前坐标,a为机器人最终前进方向,为β和Ai的复合。选取动作策略使用ε-greedy strategy,ε取值如下所示:
Figure BDA0002592633070000051
在得到前向角α后,将其代入下式计算新的移动机器人坐标:
Agent.x=Agent.x+SL×cos(α) (7)
Agent.y=Agent.y+SL×sin(α) (8)
SL=0.01 (9)
3、奖励设置
在本发明Q学习算法中,奖惩函数reward是一个复合值:
reward=w×rob+(1-w)×rg (10)
Figure BDA0002592633070000052
rob=k(ΔdL+ΔdL+ΔdL) (12)
rg=-k(Δdg) (13)
其中,w代表分配因子;rob代表避障奖励,是一个负数;rg代表目标奖励,是一个正数;ΔdL,ΔdF,ΔdR代表不同区域的距离差值:Left∈[180°,120°),Front∈[120°,60°]和Right∈(60°,0°];Δdg代表与目标的距离差值。所有差值都是新值减去旧值。
4、Q表的更新
在本发明Q学习算法中,Q表更新如下:
Q(st,a)=Q(st,a)+α(reward+γmax Q(st+1,:)-Q(st,a)) (14)
Q是一个27×7矩阵;st代表移动机器人当前状态;st+1代表移动机器人下一个状态;a代表Ai的索引;γ代表折扣因子;α代表学习率。
需说明的是,上述模型的搭建及基于Q学习算法的路径规划均采用的是现有的技术,在此不予赘述。
步骤S2,当检测到移动机器人当前在局部最优点时,确定临时目标点,将目标点更改为临时目标点,并以当前位置为起点,临时目标点为目标点,基于Q学习算法进行路径规划,以向临时目标点方向移动。一般地,检测移动机器人是否陷入局部最优点现有技术可以采用基于检测位置变换、动作输出、Q值变化及其复合条件等方法,本发明的检测设定为三者为“或”条件,即满足其中一个即判定为局部最优点,由于检测移动机器人是否陷入局部最优点采用的现有方法,在此不予赘述。
上述基于Q学习算法路径规划,当陷入局部最优点时会堵塞不前,形成振荡区域,如图5所示,图5中标识为1的区域为振荡区域。因此,当检测到移动机器人在局部最优点时,则需要执行一些策略,使移动机器人从局部最优点逃逸并向正确的方向移动。
在本发明一实施例中,采用摇摆法进行局部最优点的逃离。具体地,如图6所示,当检测到移动机器人陷入局部最优点时,根据模型机理,以当前β作为参考方向时,无论选取何种动作都无法逃离出局部最优点,因此需要临时更改目标点,本发明则在角度β±δ上的距离L处创建两个临时目标点PR和PL,其中δ是偏转量,此处设
Figure BDA0002592633070000061
但本发明不以此为限,L的值远远大于地图边长,此处设L=1000,(需说明的是,L是随意确认的,一般只需L远远大于地图的边长,则可以避免移动机器人到达临时目标点,结束行动,由于本实施例中地图大小为100,所以设置为L为1000),并按照Q学习算法进行路径规划以使移动机器人往临时目标点方向前进,当移动机器人再次陷入局部最优点时,它将继续依次设置PR和PL为临时目标点,直到绕过障碍物,也就是说,假设设定临时目标点为PL,若再陷入局部最优点,则更改设定临时目标点为PR,不断交替,反之亦然,仿真结果如图7所示(图7中由于临时目标点太远未标出)。
在摇摆法时改变临时目标的方法可以很容易地通过一类地图,而这类地图的特点是缺乏迂回的路线。但是,当一个移动机器人遇到一个需要持续迂回的地图时,摇摆法也是无效的,如图8所示。因此在本发明另一实施例中,则采用绕墙法进行局部最优点的逃离。
当移动机器人陷入局部最优点时,为了使移动机器人绕墙行走,首先使用摇摆法偏移到一侧
Figure BDA0002592633070000071
(即在此角度上选取临时目标点并以临时目标点为目标点前进),其中
Figure BDA0002592633070000072
为增量,起到偏移的作用,这里
Figure BDA0002592633070000073
但本发明不以此为限。多次迭代后,每N=50次迭代记录位置并计算由当前位置和上次记录位置形成的角度ω,并以
Figure BDA0002592633070000074
为角度在适当距离处(该距离根据地图和步长调节,一般为经验值,例如1000)创建临时目标点,重复此操作,此期间并基于Q学习算法往不断变化的临时目标点方向前进,直到移动机器人与实际目标之间的距离略小于实际目标与局部最优点之间的距离,其结果如图9和图10所示。
本发明提出了一类在线路径规划避障的辅助策略,如果在连续环境中得到局部最优点并将其存储起来,则可以将这些点连接成一个图或一棵树,并可使用Dijkstra算法来寻找最优路径。
综上所述,本发明一种基于强化学习的路径规划避障辅助方法能够在强化学习的基础上利用Q学习算法自身的特点,通过增设临时目标点,改变路径达到逃离局部最优点的目的并且往靠近目标点道路上更进一步,本发明提供的技术给移动机器人面对各种障碍物时,能更轻易更准确地前往最终目标点位。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (5)

1.一种基于强化学习的路径规划避障辅助方法,包括如下步骤:
步骤S1,构建移动机器人模型,基于Q学习算法对起点到目标点进行路径规划;
步骤S2,当检测到移动机器人当前处于局部最优点时,确定临时目标点,将所述目标点更改为临时目标点,并以当前位置为起点,所述临时目标点为目标点,基于Q学习算法进行路径规划,以向临时目标点方向移动;
其中,在步骤S2中,当检测到移动机器人陷入局部最优点时,则在角度β±δ上的距离L处创建两个临时目标点PR和PL,并基于Q学习算法进行路径规划以使移动机器人往其中任意临时目标点方向移动,其中,
Figure FDA0003670768170000011
(Agent.x,Agent.y)为移动机器人当前位置坐标,(Goal.x,Goal.y)为所述目标点的坐标,δ为偏转量,L的值远远大于地图边长。
2.如权利要求1所述的一种基于强化学习的路径规划避障辅助方法,其特征在于:δ取值
Figure FDA0003670768170000012
3.如权利要求1所述的一种基于强化学习的路径规划避障辅助方法,其特征在于:当检测到移动机器人再次陷入局部最优点时,继续交替设置临时目标点PR和PL,并基于Q学习算法进行路径规划使移动机器人往临时目标点方向移动,直到绕过障碍物。
4.如权利要求1所述的一种基于强化学习的路径规划避障辅助方法,其特征在于:于步骤S2中,当检测到移动机器人陷入局部最优点时,则首先使移动机器人偏移到一侧,多次迭代后记录位置并计算由当前位置和上次记录位置形成的角度ω,并以
Figure FDA0003670768170000013
为角度在以根据地图和步长调节的距离处创建临时目标点,重复此操作,并于此期间基于Q学习算法往不断变化的临时目标点方向前进,直到移动机器人与实际目标之间的距离略小于实际目标与局部最优点之间的距离;其中,
Figure FDA0003670768170000021
为增量,取值π/6。
5.如权利要求4所述的一种基于强化学习的路径规划避障辅助方法,其特征在于:于步骤S2,在角度
Figure FDA0003670768170000022
上的距离L处创建临时目标点并以临时目标点为目标点前进使移动机器人偏移到一侧。
CN202010699872.7A 2020-07-17 2020-07-17 一种基于强化学习的路径规划避障辅助方法 Active CN111857142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010699872.7A CN111857142B (zh) 2020-07-17 2020-07-17 一种基于强化学习的路径规划避障辅助方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010699872.7A CN111857142B (zh) 2020-07-17 2020-07-17 一种基于强化学习的路径规划避障辅助方法

Publications (2)

Publication Number Publication Date
CN111857142A CN111857142A (zh) 2020-10-30
CN111857142B true CN111857142B (zh) 2022-08-02

Family

ID=73002428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010699872.7A Active CN111857142B (zh) 2020-07-17 2020-07-17 一种基于强化学习的路径规划避障辅助方法

Country Status (1)

Country Link
CN (1) CN111857142B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882469B (zh) * 2021-01-14 2022-04-08 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN113050641B (zh) * 2021-03-18 2023-02-28 香港中文大学(深圳) 一种路径规划方法及相关设备
CN114115286B (zh) * 2021-12-06 2024-03-19 国网山东省电力公司汶上县供电公司 变电站机器人巡检系统与方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887271A (zh) * 2010-07-19 2010-11-17 东莞职业技术学院 一种移动机器人的路径规划方法
CN106843225A (zh) * 2017-03-15 2017-06-13 宜宾学院 一种变电站巡检机器人路径规划系统
CN107885209A (zh) * 2017-11-13 2018-04-06 浙江工业大学 一种基于动态窗口与虚拟目标点的避障方法
CN109582024A (zh) * 2018-12-27 2019-04-05 济南大学 一种智能铲运机的路径规划方法
CN109945873A (zh) * 2019-04-04 2019-06-28 东南大学 一种用于室内移动机器人运动控制的混合路径规划方法
CN110900611A (zh) * 2019-12-13 2020-03-24 合肥工业大学 一种新型机械臂目标定位及路径规划方法
CN111273670A (zh) * 2020-03-03 2020-06-12 大连海事大学 一种针对快速移动障碍物的无人艇避碰方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887271A (zh) * 2010-07-19 2010-11-17 东莞职业技术学院 一种移动机器人的路径规划方法
CN106843225A (zh) * 2017-03-15 2017-06-13 宜宾学院 一种变电站巡检机器人路径规划系统
CN107885209A (zh) * 2017-11-13 2018-04-06 浙江工业大学 一种基于动态窗口与虚拟目标点的避障方法
CN109582024A (zh) * 2018-12-27 2019-04-05 济南大学 一种智能铲运机的路径规划方法
CN109945873A (zh) * 2019-04-04 2019-06-28 东南大学 一种用于室内移动机器人运动控制的混合路径规划方法
CN110900611A (zh) * 2019-12-13 2020-03-24 合肥工业大学 一种新型机械臂目标定位及路径规划方法
CN111273670A (zh) * 2020-03-03 2020-06-12 大连海事大学 一种针对快速移动障碍物的无人艇避碰方法

Also Published As

Publication number Publication date
CN111857142A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111857142B (zh) 一种基于强化学习的路径规划避障辅助方法
CN107741745B (zh) 一种实现移动机器人自主定位与地图构建的方法
CN106708059B (zh) 一种基于通道选择的移动机器人实时运动规划方法
Madhavan et al. Distributed cooperative outdoor multirobot localization and mapping
Lacaze et al. Path planning for autonomous vehicles driving over rough terrain
CN112731916A (zh) 融合跳点搜索法和动态窗口法的全局动态路径规划方法
CN110645974A (zh) 一种融合多传感器的移动机器人室内地图构建方法
CN111596654B (zh) 基于改进d星路径规划算法的电缆沟机器人导航避障方法
CN112882053B (zh) 一种主动标定激光雷达和编码器外参的方法
Barton Controller development and implementation for path planning and following in an autonomous urban vehicle
CN110967032B (zh) 一种野外环境下无人车局部行驶路线实时规划方法
CN109782756A (zh) 具有自主绕障行走功能的变电站巡检机器人
CN114510057A (zh) 一种室内环境中基于ros的移动机器人自主导航方法
CN114964267B (zh) 一种无人牵引车在多任务点环境下的路径规划方法
JP2006293976A (ja) 自律移動装置
CN112882479B (zh) 一种基于内外角累积状态的路径规划方法
CN112650234B (zh) 一种双足机器人的路径规划方法
CN116009558A (zh) 一种结合运动学约束的移动机器人路径规划方法
CN115903823A (zh) 一种无人驾驶环卫车队的路径规划方法
Cong et al. Hybrid Extended Kalman Filter-based localization with a highly accurate odometry model of a mobile robot
CN112902963B (zh) 一种智能轮椅的路径规划避障方法
Vincke et al. Static and dynamic fusion for outdoor vehicle localization
CN114234968A (zh) 一种基于a星算法的移动机器人自主导航方法
CN113172623A (zh) 基于信息融合的无人平台避障算法
JP2597418B2 (ja) ファジィ制御を用いた小口径トンネルロボットの自動方向制御法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant