CN113848911A - 基于Q-learning和RRT*的移动机器人全局路径规划方法 - Google Patents

基于Q-learning和RRT*的移动机器人全局路径规划方法 Download PDF

Info

Publication number
CN113848911A
CN113848911A CN202111140913.XA CN202111140913A CN113848911A CN 113848911 A CN113848911 A CN 113848911A CN 202111140913 A CN202111140913 A CN 202111140913A CN 113848911 A CN113848911 A CN 113848911A
Authority
CN
China
Prior art keywords
node
value
learning
list
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111140913.XA
Other languages
English (en)
Other versions
CN113848911B (zh
Inventor
严怀成
洪朱超
张皓
李郅辰
王孟
田永笑
陈辉
张长驻
王曰英
施开波
秦博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN202111140913.XA priority Critical patent/CN113848911B/zh
Publication of CN113848911A publication Critical patent/CN113848911A/zh
Application granted granted Critical
Publication of CN113848911B publication Critical patent/CN113848911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0219Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface

Abstract

本发明涉及一种基于Q‑learning和RRT*的移动机器人全局路径规划方法,包括以下步骤:1)根据环境地图中确定起始点与目标点,并以起始点为根节点构建拓展树;2)对地图栅格化并初始化Q值矩阵;3)以初始化的Q值矩阵作为初始Q值矩阵,从起始点位置开始对地图进行探索学习并更新Q值矩阵,将探索点所经过的位置添加到探索列表中;4)搜索探索列表,概率选择Q值最大节点作为新节点拓展方向,将新节点插入拓展树中更新最优路径。与现有技术相比,本发明通过结合强化学习方法提高节点拓展的目的性,环境复杂度上升时,使整体路径规划任务的成功率上升,并且能够应用于移动机器人的全局路径规划任务中,在环境复杂度上升时依然能保持较高的成功率。

Description

基于Q-learning和RRT*的移动机器人全局路径规划方法
技术领域
本发明涉及机器人路径规划技术领域,尤其是涉及一种基于Q-learning和RRT*的移动机器人全局路径规划方法。
背景技术
近些年来,移动机器人的技术正在不断发展与突破,能在越来越多的场景下看见机器人的身影,得益于机器人的应用,机器人代替了人类在危险或者极端环境中作业,完成原本需要消耗大量人力或是承受极大风险的任务。
随着机器人的应用越来越广泛,执行任务的环境更加多元化,因此对移动机器人的自主导航能力要求越来越高,现有的路径规划方法在普遍的任务中有较好的效果,但是当环境复杂度极具上升,各种未知情况层出不穷时,现有方法会遇到各种想不到的难题,缺乏任务的泛化性以及对环境的认识,难以保证方法的有效性与成功率,因此提升路径规划方法的智能性十分关键。
基于采样的路径规划方法通过随机采样的方式对环境进行探索,由于无需对状态空间建模,因此能快速完成在空间的搜索,并且具有连通性。RRT*方法是一种经典的基于RRT改进的采样路径规划方法,采样方法属于具有概率完备性的路径规划方法,理论上可行解能通过在环境中选取足够数量的采样点而找到。
RRT方法将机器人的起始点作为拓展树的根节点,在地图中随机生成采样点作为拓展树的叶节点,当拓展树中的叶节点距离目标点在一定范围内时,从该叶节点逆向寻找每一叶节点的父节点直至根节点,RRT方法即完成了路径规划任务,通过拓展树中的节点从移动机器人的起始点延伸至目标点生成与障碍物无碰撞的路径。RRT方法搜索能力强且效率较高,但是由于采样点的随机性,每次执行方法都会规划出不相同的路径,因此稳定性较差。
RRT*方法针对RRT方法随机性较强、稳定性差等缺点,在原有RRT方法上进行了一定改进,RRT*方法整体拓展思路与RRT方法相同,在节点拓展过程中添加了剪枝优化步骤,RRT*方法解决了RRT方法路径规划长度不稳定的缺点,保留其高效的搜索能力,但是RRT*依然采用随机采样的方式,导致大量盲目的搜索,当地图环境较为复杂时可能无法规划出一条有效路径。
因此RRT*方法存在以下问题:
(1)采用随机采样的节点拓展方式目的性弱;
(2)当环境复杂度上升容易导致规划成功率降低。
因此需要对RRT*方法进行一定改进,提高其成功率和速度。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Q-learning和RRT*的移动机器人全局路径规划方法。
本发明的目的可以通过以下技术方案来实现:
一种基于Q-learning和RRT*的移动机器人全局路径规划方法,用以提升在环境复杂度上升后路径规划的成功率,包括以下步骤:
1)根据环境地图中的障碍物进行建模,初始化参数,确定起始点与目标点,并以起始点为根节点构建拓展树;
2)对地图栅格化并进行强化学习MDP建模,并初始化Q值矩阵;
3)初始化本回合探索列表,地图内设置Q-learning强化学习探索点,以初始化的Q值矩阵作为Q-learning强化学习探索阶段的初始Q值矩阵,从起始点位置开始对地图进行探索学习并更新Q值矩阵,在当前回合探索学习期间,将探索点所经过的位置添加到探索列表中;
4)搜索探索列表,概率选择Q值最大节点作为新节点拓展方向,根据拓展方向获得新节点并进行碰撞检测,若无碰撞则将新节点插入拓展树中并进行剪枝优化操作并更新最优路径,否则重新选择节点拓展方向;
5)若到达迭代次数则返回最优规划路径,否则返回步骤3)。
所述的步骤1)中,构建拓展树具体为:
移动机器人在2D环境中每一点的位置均通过坐标表示,移动机器人起始点为sinit,目标点为sgoal,对每一个新加入的树节点记录其父节点,并且为每一节点设置权值,权值代表当前节点沿着拓展树中父节点至根节点所花费的距离,即累计花费。
所述的步骤2)中,MDP建模具体为:
定义状态s代表地图中每个栅格的坐标位置,定义动作a代表Q-learning探索点所能执行的动作为{向上,向下,向左,向右},则状态转移方程为:
Figure BDA0003283880680000031
其中,st、st+1分别为t和t+1步迭代的状态;
采用稀疏奖励的方式定义环境提供的奖励值rt,则有:
Figure BDA0003283880680000032
所述的步骤2)中,初始化Q值矩阵具体包括以下步骤:
21)初始化list列表与closed列表,所述的list列表用于存放即将更新Q值的位置状态,所述的closed列表用于存放已被更新Q值的位置状态;
22)将目标点位置状态首先加入list列表中,并且以目标点位置开始向起始点位置进行搜索;
23)遍历list列表中所有状态
Figure BDA0003283880680000033
更新初始Q值矩阵
Figure BDA0003283880680000034
则有:
Figure BDA0003283880680000035
其中,
Figure BDA0003283880680000036
为list列表汇总存放的第i个位置状态,ai为位置状态
Figure BDA0003283880680000037
上可执行的有效动作,
Figure BDA0003283880680000038
为位置状态
Figure BDA0003283880680000039
执行动作ai后得到的下一位置状态,Q(s,a)表示评价状态-动作对的Q值,r为环境提供的奖励值,α为学习速率,γ为折扣因子;
24)将list列表中所有状态
Figure BDA00032838806800000310
存入closed列表中表示该状态已被初始化,并对每一个状态
Figure BDA00032838806800000311
进行判断,若
Figure BDA00032838806800000312
不存在于closed列表中,则将
Figure BDA00032838806800000313
存入list列表中,否则不执行操作;
25)判断closed列表中是否包含起始点sinit,若包含起始点sinit,即完成目标点位置向起始点位置的搜索,结束流程,否则,返回步骤23)。
所述的步骤3)中,对于Q-learning强化学习探索阶段的每个回合,Q值矩阵的更新公式具体为:
Figure BDA00032838806800000314
其中,Qp(st,at)、Qp+1(st,at)分别为第p和p+1次更新后的Q值矩阵,
Figure BDA0003283880680000041
为在位置状态st+1处,4个动作a中最大的Q值,α为学习速率,且α∈[0,1],当学习速率α为0时,Q值仅与已有经验相关,与新获得的经验无关,当学习速率α为1时,则新Q值完全抛弃过去经验,更新为新经验,γ为折扣因子,且γ∈[0,1],当折扣因子γ为0时,代表仅考虑当前奖励值,不考虑未来影响,当折扣因子为1时,代表当前状态-动作对与下一状态-动作对的奖励值有关。
在Q-learning强化学习探索阶段中,强化学习动作选择策略采用ε-greedy策略,通过设置策略选择因子ε1对策略的利用与探索进行权衡,使得探索点随着训练次数增加不断迭代而使动作选择策略从探索策略向利用策略过渡,对于随机生成的数值rand∈[0,1],当rand>ε1时选择利用策略,即选择当前Q值最大的动作,当rand<ε1时选择探索策略,即随机选择动作。
所述的策略选择因子ε1的表达为:
Figure BDA0003283880680000042
其中,itermax为总迭代次数,itert为当前迭代次数。
所述的步骤4)具体包括以下步骤:
401)初始化参数,设置起始点坐标sinit、目标点坐标sgoal、拓展步长δ、剪枝半径R和总迭代次数K;
402)将起始点坐标sinit加入拓展树T中;
403)若在总迭代次数内,则在探索列表中概率选择Q值最大节点或随机节点作为Q值节点sQ
404)遍历拓展树T,从拓展树中找到与Q值节点sQ最近的邻近点snearest
405)根据Q值节点sQ与邻近点snearest的相对位置,从邻近点拓展步长δ得到新节点snew
406)判断新节点snew与邻近点snearest之间是否存在碰撞,若存在碰撞则执行步骤412),否则继续执行407);
407)以新节点snew为圆心,将半径R内拓展树中节点放入搜索列表nearList;
408)在搜索列表nearList中选择新节点snew的父节点,使新节点snew的累计花费最小;
409)将新节点snew插入拓展树T中;
410)计算新节点snew至搜索列表nearList中各节点si∈nearList的累计花费,若新累计花费小于旧累计花费,则执行剪枝操作,改变该节点si的父节点并指向新节点snew
411)若已到达目标点sgoal,从目标点sgoal搜索父节点回溯至起始点sinit,更新最优路径;
412)若当前迭代次数达到总迭代次数则结束,否则返回步骤403)。
所述的步骤403)中,通过设置阈值ε2平衡探索列表中的节点选择,当随机生成数rand<ε2时,则在探索列表中随机选择一节点作为Q值节点,当随机生成数rand>ε2时,则选择Q值最大的节点作为Q值节点。
所述的阈值ε2为一定值。
与现有技术相比,本发明具有以下优点:
一、由于奖励值稀疏的缘故,在训练初期,Q值矩阵无任何学习策略,只有当抵达目标点才能获得正向奖励值,当地图环境较大时,在Q-learning探索点初期处于无任何反馈阶段,盲目随机探索容易造成的训练速度缓慢,因此本发明提出Q值矩阵初始化的方式,以使Q-learning探索点能更快收敛至最优策略,使方法整体迭代次数减小。
二、本发明每一回合Q-learning训练阶段通过探索点对地图环境的探索获得探索列表,RRT*采样节点从探索列表中选择,减少随机采样的盲目性,训练阶段的探索方式保持了一定的随机探索空间,使方法更易趋于最优,提高规划成功率。
附图说明
图1为基于Q-learning和RRT*路径规划方法流程图。
图2为栅格图示意图。
图3a为地图1中RRT*方法规划路径结果图。
图3b为地图2中RRT*方法规划路径结果图。
图4a为地图1中基于Q-learning和RRT*方法规划路径结果图。
图4b为地图2中基于Q-learning和RRT*方法规划路径结果图。
图5a为在复杂环境中RRT*方法规划路径结果图。
图5b为在复杂环境中基于Q-learning和RRT*方法规划路径结果图。
图6a为基于Q-learning和RRT*方法未初始化时路径规划结果图。
图6b为基于Q-learning和RRT*方法初始化后路径规划结果图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
本发明提出一种基于Q-learning和RRT*的移动机器人全局路径规划方法,提高节点拓展的目的性,在环境复杂度上升时,保持采样的成功率,以此使整体路径规划任务的成功率上升,如图1所示,包括以下步骤:
(1)获得环境地图中的障碍物进行建模,初始化参数,获得起始点与目标点,以起始点为根节点构建拓展树;
(2)对地图栅格化并进行强化学习MDP建模,初始化Q值矩阵;
(3)初始化本回合探索列表,地图内设置一Q-learning强化学习探索点,从起始点开始对地图进行探索学习、更新Q值矩阵,在本回合探索学习期间,将探索点所经过的位置添入探索列表;
(4)搜索探索列表,概率选择Q值最大节点作为新节点拓展方向,根据拓展方向获得新节点并进行碰撞检测,若无碰撞则将新节点插入拓展树中并进行剪枝优化操作、更新最优路径,否则重新选择节点拓展方向;
(5)若到达迭代次数则返回最优路径,否则返回步骤(3)。
步骤(1)中拓展树在地图中的构建具体为:
移动机器人处在2D环境中,每一点的位置均可用坐标s=(x,y)表示,移动机器人起始点为sinit,目标点为sgoal,每一个新加入的树节点记录其父节点,并且每一节点设置权值,权值代表当前节点沿着拓展树中父节点至根节点所花费的距离。
步骤(2)中强化学习方法采用Q-learning方法,移动机器人(智能体)在环境中根据设定好的目标要求不断探索、试错,通过环境的反馈更新自身策略,在多个回合之后获得能够完成指定任务的最优策略。策略就是智能体根据当前状态选择相应动作的方式,Q-learning方法将策略具体化为状态-动作对的集合并且将集合存储在Q值矩阵中,Q值矩阵的每一个单元为相应状态-动作对的Q值,Q值的大小用于评判当前状态执行该动作的好坏。同时环境的反馈可以设置成为奖励函数,作用是对Q值矩阵中的Q值进行更新,使智能体在多次训练后可以完成目标任务。奖励函数评判状态-动作对的好坏,若当前状态下执行动作后的效果不佳,则环境会给予惩罚,减小Q值矩阵中相对应的Q值,使智能体减小选择该动作的概率;若该动作效果较好,则环境会给予一正向奖励,增大Q值以鼓励智能体选择该动作,经过多次迭代更新后,Q值矩阵会趋于稳定,最终智能体获得最优策略。
步骤(2)中MDP建模包含3个部分,状态与动作可参考图2:
(1)状态s,代表地图中每个栅格的坐标位置(x,y);
(2)动作a,Q-learning探索点所能执行的动作为{向上,向下,向左,向右},状态转移方程为:
Figure BDA0003283880680000071
其中,st、st+1分别为t和t+1步的状态;
Q值矩阵用来存储状态-动作对的Q值,其大小由状态和动作的数量决定。
(3)奖励函数,奖励值的设计反应了在设计者的目的,但是奖励函数设计不佳可能会带来陷入局部最优的情况,因此本发明采用稀疏奖励的方式,希望探索点能获得从起始点趋向目标点的策略,则奖励值rt的表达式为:
Figure BDA0003283880680000072
步骤(2)中进行Q值矩阵初始化,目的是为了解决在地图较大时Q-learning探索度较低导致Q值矩阵无法更新完全的问题,这里提出初始化Q值矩阵加速Q-learning训练的思想,使Q-learning同样适用于目标点距离较远的路径规划问题。
Q值矩阵初始化过程如下:
(1)初始化list列表与closed列表,list列表用于存放即将更新Q值的状态,closed列表用于存放已被更新Q值的状态;
(2)将目标点位置状态加入list列表;
(3)遍历list列表中所有状态
Figure BDA0003283880680000073
更新Q值矩阵:
Figure BDA0003283880680000074
式中,
Figure BDA0003283880680000075
为list列表汇总存放的状态,ai
Figure BDA0003283880680000076
状态上可执行的有效动作,
Figure BDA0003283880680000077
Figure BDA0003283880680000078
执行动作ai后得到的下一位置;
(4)将list列表中所有状态
Figure BDA0003283880680000079
存入closed列表中表示该状态已被初始化,并对每一个状态
Figure BDA0003283880680000081
进行判断,若
Figure BDA0003283880680000082
不存在于closed列表中,则将
Figure BDA0003283880680000083
存入list列表中,否则不执行操作;
(5)判断closed列表中是否包含起始点sinit,若包含起始点sinit则结束流程,否则返回步骤(3)。
本发明提出的Q值矩阵初始化方式,以唯一拥有正向奖励值的目标点为中心向周围状态点传播更新,使Q值矩阵快速初始化,将已更新后的Q值矩阵作为Q-learning阶段的初始矩阵,使Q-learning探索点前期探索时依然能获得正向反馈,减少稀疏奖励带来的影响。
步骤(3)中Q-learning探索点的更新方式:
Q-learning方法通常以下方形式更新Q值:
Figure BDA0003283880680000084
式中,Q(st,at)为第t步评价状态-动作对的Q值,r为环境提供的奖励值。α为学习速率,通常设置为α∈[0,1],代表Q值更新的快慢程度。当学习速率α为0时,Q值仅与已有经验相关,与新获得的经验无关;当学习速率α为1时,则新Q值完全抛弃过去经验,更新为新经验,γ为折扣因子,通常设置为γ∈[0,1],体现未来奖励值对当前状态的影响大小。当折扣因子γ为0时,代表智能体仅考虑当前奖励值,不考虑未来影响;当折扣因子为1时,代表当前状态-动作对与下一状态-动作对的奖励值有关。
为了使智能体能更好更新策略,每一次的动作选择也至关重要。在某些环境下状态空间巨大,若智能体总是执行当前最优动作则无法探知所有状态,容易陷入局部最优。因此将探索与利用的思想作为两种动作选择策略,探索策略(Exploration)代表智能体从动作集合中随机选择一动作,使智能体更新的状态能更加广泛;利用策略(Exploitation)根据已更新的策略,选择当前状态下的最优动作。Q-learning中通常使用ε-greedy策略来平衡探索与利用两种策略,通过改变策略选择因子ε∈[0,1]的大小来调节探索和利用的比例,使智能体的策略能收敛至最优。
强化学习动作选择策略:动作选择策略采用如上所述Q-learning方法传统的ε-greedy策略,方法初期ε定为一较大数值,在选择动作策略时随机生成一数值rand∈[0,1],当rand>ε时选择利用策略;当rand<ε时选择探索策略。因此方法初期会大量选择探索策略随机对环境进行探索,策略选择因子ε随回合数增加而衰减,由探索策略逐渐转为利用策略。
Q-learning环境探索策略通过策略选择因子ε1对策略的利用与探索进行权衡,由于希望探索点能随着训练次数增加不断迭代而使动作选择策略从探索策略向利用策略过渡,因此设置策略选择因子:
Figure BDA0003283880680000091
式中itermax为总迭代次数,itert为当前迭代次数。奖励函数作为环境给予的唯一反馈,反映了设计者对任务的期望,设置稀疏奖励函数仅对到达目标点时产生一个正向奖励,通过抵达目标点获取正向奖励,使趋向目标点动作的Q值上升,选择相应动作的概率增大,每一次迭代中利用探索点对地图进行学习更新Q值矩阵。
步骤(4)中新节点拓展方式:
(1)初始化各个参数,设置起始点sinit与目标点坐标sgoal,拓展步长δ,剪枝半径R,总迭代次数K;
(2)将起始点sinit加入拓展树T中;
(3)若在总迭代次数内,则在Q-learning探索列表中概率选择Q值最大节点或是随机节点作为Q值节点sQ,否则结束;
(4)遍历拓展树T,从树中找到与sQ最近邻近点snearest
(5)根据Q值节点sQ与邻近点snearest相对位置,从邻近点拓展步长δ得到新节点snew
(6)检查snew与snearest之间是否存在碰撞,若存在碰撞则执行步骤(12),否则继续执行(7);
(7)以snew为圆心,将半径R内树中节点放入搜索节点列表nearList;
(8)在搜索节点列表nearList中选择snew的父节点,使snew的累计花费最小;
(9)将snew插入拓展树T中;
(10)计算snew至搜索节点列表nearList中各节点si∈nearList累计花费,若新累计花费小于旧累计花费,则执行剪枝操作,改变该节点si的父节点并指向snew
(11)若已到达目标点sgoal,从目标点sgoal搜索父节点回溯至起始点sinit,更新最优路径;
(12)达到迭代次数则结束方法,否则返回步骤(3);
概率选择Q值最大节点具体为:
概率选择探索列表中Q值最大的位置作为Q值节点,设置ε2来平衡探索列表中的节点选择,当rand<ε2时在探索列表中随机选择一节点作为Q值节点;当rand>ε2时选择Q值最大的节点作为Q值节点。
实施例:
对比基于采样的全局路径规划方法包括所提出的基于Q-learning和RRT*路径规划方法(命名为QRRT*)以及传统RRT*方法。搭建地图大小为100*100,白色区域为无障碍区域,黑色区域为障碍物区域,深灰色点代表起始点,浅灰色点代表目标点,起始点与目标点均选择与障碍物无碰撞的位置,浅灰色轨迹为最终规划路径,黑线为拓展树各节点的拓展与连接。QRRT*方法中Q-learning探索点学习速率α=0.8,折扣因子γ=0.3,QRRT*迭代次数200次,训练最大步数500,拓展步长δ=3,剪枝半径R=5,RRT*迭代次数1000次。
表1全局路径规划方法比较
Figure BDA0003283880680000101
传统RRT*与QRRT*的路径规划效果可参考图3a、图3b、图4a、图4b,从图中可以看出探索的区别,RRT*在较大范围对全地图进行探索可以增加采样的多样性,更有可能得到最优路径,当采样点数足够多时,由于概率完备性能得到渐近最优路径,但同时大范围的搜索会产生不必要的采样。当复杂度急剧上升后,由于探索盲目性会导致规划失败。QRRT*由于采用强化学习Q-learning作为拓展树拓展方式,概率选择Q值最大的点作为拓展方向,因此拓展树节点的拓展与探索更具目的性。
通过表1对各路径规划方法性能进行分析,若规划失败则用0表示。RRT*由于拓展盲目性导致速度很慢,QRRT*减少了节点拓展失败的概率能更快获得首次连接并且更快完成规划。RRT*始终保持随机采样的策略,连接与目标点大量不相关的点,使得更新速度较慢。QRRT*通过Q-learning探索点的策略使采样范围集中在最优路径附近,同时探索点的探索能力保持采样多样性,搜索范围更小,能稳定规划出最短路径。在不同的环境下相同方法会产生不同路径规划的成功率,由于RRT*作为采样方法因此并不会次次成功。当环境复杂度上升时由于采样大量失败导致的节点不足而无法通过拓展树从起点拓展至终点,因此RRT*成功率有所影响。QRRT*方法由Q-learning探索点引导拓展方向,即使环境改变也能保持良好的成功率。
参考图5a、图5b可以看出当环境复杂度大幅度增加,环境中存在大量狭窄通道以及障碍物时,传统RRT*方法的成功率会急剧下降,由于采样点不成功,无法有效延伸并探索,通常会困在某一被障碍物包围的区域。QRRT*通过Q-learning对环境进行学习探索获得探索列表再进行拓展,大幅度提高了采样成功率,减少被障碍物阻挡阻止节点拓展的几率,得以顺利拓展至目标点,并且对路径进行优化,提高路径规划的成功率。
参考图6a、图6b可以看出未初始化QRRT*方法的学习速度较慢,因此无法及时更新Q值矩阵,花费大量时间进行探索仅在起始点附近徘徊,导致规划失败。QRRT*对Q值矩阵快速初始化,加快了Q-learning探索点的学习速度,当规划距离较长、地图范围较大时依然能快速得到规划路径。

Claims (10)

1.一种基于Q-learning和RRT*的移动机器人全局路径规划方法,用以提升在环境复杂度上升后路径规划的成功率,其特征在于,包括以下步骤:
1)根据环境地图中的障碍物进行建模,初始化参数,确定起始点与目标点,并以起始点为根节点构建拓展树;
2)对地图栅格化并进行强化学习MDP建模,并初始化Q值矩阵;
3)初始化本回合探索列表,地图内设置Q-learning强化学习探索点,以初始化的Q值矩阵作为Q-learning强化学习探索阶段的初始Q值矩阵,从起始点位置开始对地图进行探索学习并更新Q值矩阵,在当前回合探索学习期间,将探索点所经过的位置添加到探索列表中;
4)搜索探索列表,概率选择Q值最大节点作为新节点拓展方向,根据拓展方向获得新节点并进行碰撞检测,若无碰撞则将新节点插入拓展树中并进行剪枝优化操作并更新最优路径,否则重新选择节点拓展方向;
5)若到达迭代次数则返回最优规划路径,否则返回步骤3)。
2.根据权利要求1所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,所述的步骤1)中,构建拓展树具体为:
移动机器人在2D环境中每一点的位置均通过坐标表示,移动机器人起始点为sinit,目标点为sgoal,对每一个新加入的树节点记录其父节点,并且为每一节点设置权值,权值代表当前节点沿着拓展树中父节点至根节点所花费的距离,即累计花费。
3.根据权利要求1所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,所述的步骤2)中,MDP建模具体为:
定义状态s代表地图中每个栅格的坐标位置,定义动作a代表Q-learning探索点所能执行的动作为{向上,向下,向左,向右},则状态转移方程为:
Figure FDA0003283880670000011
其中,st、st+1分别为t和t+1步迭代的状态;
采用稀疏奖励的方式定义环境提供的奖励值rt,则有:
Figure FDA0003283880670000021
4.根据权利要求3所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,所述的步骤2)中,初始化Q值矩阵具体包括以下步骤:
21)初始化list列表与closed列表,所述的list列表用于存放即将更新Q值的位置状态,所述的closed列表用于存放已被更新Q值的位置状态;
22)将目标点位置状态首先加入list列表中,并且以目标点位置开始向起始点位置进行搜索;
23)遍历list列表中所有状态
Figure FDA0003283880670000022
更新初始Q值矩阵
Figure FDA0003283880670000023
则有:
Figure FDA0003283880670000024
其中,
Figure FDA0003283880670000025
为list列表汇总存放的第i个位置状态,ai为位置状态
Figure FDA0003283880670000026
上可执行的有效动作,
Figure FDA0003283880670000027
为位置状态
Figure FDA0003283880670000028
执行动作ai后得到的下一位置状态,Q(s,a)表示评价状态-动作对的Q值,r为环境提供的奖励值,α为学习速率,γ为折扣因子;
24)将list列表中所有状态
Figure FDA0003283880670000029
存入closed列表中表示该状态已被初始化,并对每一个状态
Figure FDA00032838806700000210
进行判断,若
Figure FDA00032838806700000211
不存在于closed列表中,则将
Figure FDA00032838806700000212
存入list列表中,否则不执行操作;
25)判断closed列表中是否包含起始点sinit,若包含起始点sinit,即完成目标点位置向起始点位置的搜索,结束流程,否则,返回步骤23)。
5.根据权利要求4所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,所述的步骤3)中,对于Q-learning强化学习探索阶段的每个回合,Q值矩阵的更新公式具体为:
Figure FDA00032838806700000214
其中,Qp(st,at)、Qp+1(st,at)分别为第p和p+1次更新后的Q值矩阵,
Figure FDA00032838806700000213
为在位置状态st+1处,4个动作a中最大的Q值,α为学习速率,且α∈[0,1],当学习速率α为0时,Q值仅与已有经验相关,与新获得的经验无关,当学习速率α为1时,则新Q值完全抛弃过去经验,更新为新经验,γ为折扣因子,且γ∈[0,1],当折扣因子γ为0时,代表仅考虑当前奖励值,不考虑未来影响,当折扣因子为1时,代表当前状态-动作对与下一状态-动作对的奖励值有关。
6.根据权利要求5所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,在Q-learning强化学习探索阶段中,强化学习动作选择策略采用ε-greedy策略,通过设置策略选择因子ε1对策略的利用与探索进行权衡,使得探索点随着训练次数增加不断迭代而使动作选择策略从探索策略向利用策略过渡,对于随机生成的数值rand∈[0,1],当rand>ε1时选择利用策略,即选择当前Q值最大的动作,当rand<ε1时选择探索策略,即随机选择动作。
7.根据权利要求6所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,所述的策略选择因子ε1的表达为:
Figure FDA0003283880670000031
其中,itermax为总迭代次数,itert为当前迭代次数。
8.根据权利要求1所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,所述的步骤4)具体包括以下步骤:
401)初始化参数,设置起始点坐标sinit、目标点坐标sgoal、拓展步长δ、剪枝半径R和总迭代次数K;
402)将起始点坐标sinit加入拓展树T中;
403)若在总迭代次数内,则在探索列表中概率选择Q值最大节点或随机节点作为Q值节点sQ
404)遍历拓展树T,从拓展树中找到与Q值节点sQ最近的邻近点snearest
405)根据Q值节点sQ与邻近点snearest的相对位置,从邻近点拓展步长δ得到新节点snew
406)判断新节点snew与邻近点snearest之间是否存在碰撞,若存在碰撞则执行步骤412),否则继续执行407);
407)以新节点snew为圆心,将半径R内拓展树中节点放入搜索列表nearList;
408)在搜索列表nearList中选择新节点snew的父节点,使新节点snew的累计花费最小;
409)将新节点snew插入拓展树T中;
410)计算新节点snew至搜索列表nearList中各节点si∈nearList的累计花费,若新累计花费小于旧累计花费,则执行剪枝操作,改变该节点si的父节点并指向新节点snew
411)若已到达目标点sgoal,从目标点sgoal搜索父节点回溯至起始点sinit,更新最优路径;
412)若当前迭代次数达到总迭代次数则结束,否则返回步骤403)。
9.根据权利要求8所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,所述的步骤403)中,通过设置阈值ε2平衡探索列表中的节点选择,当随机生成数rand<ε2时,则在探索列表中随机选择一节点作为Q值节点,当随机生成数rand>ε2时,则选择Q值最大的节点作为Q值节点。
10.根据权利要求9所述的一种基于Q-learning和RRT*的移动机器人全局路径规划方法,其特征在于,所述的阈值ε2为一定值。
CN202111140913.XA 2021-09-28 2021-09-28 基于Q-learning和RRT*的移动机器人全局路径规划方法 Active CN113848911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111140913.XA CN113848911B (zh) 2021-09-28 2021-09-28 基于Q-learning和RRT*的移动机器人全局路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111140913.XA CN113848911B (zh) 2021-09-28 2021-09-28 基于Q-learning和RRT*的移动机器人全局路径规划方法

Publications (2)

Publication Number Publication Date
CN113848911A true CN113848911A (zh) 2021-12-28
CN113848911B CN113848911B (zh) 2023-06-27

Family

ID=78980715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111140913.XA Active CN113848911B (zh) 2021-09-28 2021-09-28 基于Q-learning和RRT*的移动机器人全局路径规划方法

Country Status (1)

Country Link
CN (1) CN113848911B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115328143A (zh) * 2022-08-26 2022-11-11 齐齐哈尔大学 一种基于环境驱动的主从水面机器人回收导引方法
CN117634548A (zh) * 2024-01-26 2024-03-01 西南科技大学 一种无人机行为树调整与优化方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035051A1 (en) * 2009-08-10 2011-02-10 Samsung Electronics Co., Ltd Path planning apparatus and method for robot
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN110032187A (zh) * 2019-04-09 2019-07-19 清华大学 无人摩托静态障碍避障路径规划计算方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
US20200023842A1 (en) * 2019-09-27 2020-01-23 David Gomez Gutierrez Potential collision warning system based on road user intent prediction
US20200097015A1 (en) * 2018-09-20 2020-03-26 Imagry (Israel) Ltd. System and method for motion planning of an autonomous driving machine
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112558601A (zh) * 2020-11-09 2021-03-26 广东电网有限责任公司广州供电局 一种基于Q-learning算法和水滴算法的机器人实时调度方法及系统
US20210094182A1 (en) * 2019-09-26 2021-04-01 Tata Consultancy Services Limited Method and system for real-time path planning
CN112595326A (zh) * 2020-12-25 2021-04-02 湖北汽车工业学院 一种融合先验知识的改进Q-learning路径规划算法
CN113341991A (zh) * 2021-06-18 2021-09-03 重庆大学 一种基于动态窗口和冗余节点过滤的路径优化方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035051A1 (en) * 2009-08-10 2011-02-10 Samsung Electronics Co., Ltd Path planning apparatus and method for robot
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
US20200097015A1 (en) * 2018-09-20 2020-03-26 Imagry (Israel) Ltd. System and method for motion planning of an autonomous driving machine
CN110032187A (zh) * 2019-04-09 2019-07-19 清华大学 无人摩托静态障碍避障路径规划计算方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
US20210094182A1 (en) * 2019-09-26 2021-04-01 Tata Consultancy Services Limited Method and system for real-time path planning
US20200023842A1 (en) * 2019-09-27 2020-01-23 David Gomez Gutierrez Potential collision warning system based on road user intent prediction
CN112558601A (zh) * 2020-11-09 2021-03-26 广东电网有限责任公司广州供电局 一种基于Q-learning算法和水滴算法的机器人实时调度方法及系统
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112595326A (zh) * 2020-12-25 2021-04-02 湖北汽车工业学院 一种融合先验知识的改进Q-learning路径规划算法
CN113341991A (zh) * 2021-06-18 2021-09-03 重庆大学 一种基于动态窗口和冗余节点过滤的路径优化方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ARUP KUMAR SADHU等: "Simultaneous Learning and Planning using Rapidly Exploring Random Tree* and Reinforcement Learning", 《2021 INTERNATIONAL CONFERENCE ON UNMANNED AIRCRAFT SYSTEMS》 *
GEORGE P. KONTOUDIS等: "Kinodynamic Motion Planning With Continuous-Time Q-Learning: An Online, Model-Free, and Safe Navigation Framework", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
JINWOOK HUH等: "Efficient Sampling With Q-Learning to Guide Rapidly Exploring Random Trees", 《IEEE ROBOTICS AND AUTOMATION LETTERS》 *
LIU XUELI等: "Research On Path Planning Of Hull Decontamination Robot Based On Q-Learning", 《2020 INTERNATIONAL CONFERENCE ON COMPUTER VISION,IMAGE AND DEEP LEARNING(CVIDL)》 *
SERTAC KARAMAN等: "Anytime Motion Planning using the RRT*", 《2011 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION》 *
ZHIYONG LIU等: "Partition Heuristic RRT Algorithm of Path Planning Based on Q-learning", 《2019 IEEE 4TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE(IAEAC)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115328143A (zh) * 2022-08-26 2022-11-11 齐齐哈尔大学 一种基于环境驱动的主从水面机器人回收导引方法
CN115328143B (zh) * 2022-08-26 2023-04-18 齐齐哈尔大学 一种基于环境驱动的主从水面机器人回收导引方法
CN117634548A (zh) * 2024-01-26 2024-03-01 西南科技大学 一种无人机行为树调整与优化方法及系统

Also Published As

Publication number Publication date
CN113848911B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN107272679B (zh) 基于改进的蚁群算法的路径规划方法
CN109116841B (zh) 一种基于蚁群算法的路径规划平滑优化方法
CN110231824B (zh) 基于直线偏离度方法的智能体路径规划方法
CN110989612A (zh) 一种基于蚁群算法的机器人路径规划方法及装置
CN109597425B (zh) 基于强化学习的无人机导航和避障方法
CN113848911A (zh) 基于Q-learning和RRT*的移动机器人全局路径规划方法
CN111982125A (zh) 一种基于改进蚁群算法的路径规划方法
CN113917925B (zh) 一种基于改进遗传算法的移动机器人路径规划方法
CN113296520A (zh) 融合a*与改进灰狼算法的巡检机器人路径规划方法
CN112214031B (zh) 基于遗传粒子群算法的多节点协同着陆位置规划方法
CN112395673A (zh) 基于精英竞争策略的桥梁维护多目标优化方法及系统
CN113467481B (zh) 一种基于改进Sarsa算法的路径规划方法
CN114167865A (zh) 一种基于对抗生成网络与蚁群算法的机器人路径规划方法
Bai et al. Design and Simulation of a Collision-free Path Planning Algorithm for Mobile Robots Based on Improved Ant Colony Optimization.
CN112486185B (zh) 在未知环境下基于蚁群和vo算法的路径规划方法
CN114815801A (zh) 一种基于策略-价值网络及mcts的自适应环境路径规划方法
CN116558527B (zh) 井下变电所巡检清扫机器人路径规划方法
Ma et al. Robot path planning using fusion algorithm of ant colony optimization and genetic algorithm
CN117406713A (zh) 基于改进水波优化算法的多目标点路径规划方法
CN116592890A (zh) 一种采摘机器人路径规划方法、系统、电子设备及介质
Tang et al. On the use of ant colony algorithm with weighted penalty strategy to optimize path searching
CN116225046A (zh) 基于深度强化学习的未知环境下无人机自主路径规划方法
CN115759199A (zh) 基于层次化图神经网络的多机器人环境探索方法及系统
CN115056222A (zh) 一种基于改进rrt算法的机械臂路径规划方法
CN115129064A (zh) 基于改进萤火虫算法与动态窗口法融合的路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant