CN102799179A - 基于单链序贯回溯q学习的移动机器人路径规划算法 - Google Patents

基于单链序贯回溯q学习的移动机器人路径规划算法 Download PDF

Info

Publication number
CN102799179A
CN102799179A CN2012102345106A CN201210234510A CN102799179A CN 102799179 A CN102799179 A CN 102799179A CN 2012102345106 A CN2012102345106 A CN 2012102345106A CN 201210234510 A CN201210234510 A CN 201210234510A CN 102799179 A CN102799179 A CN 102799179A
Authority
CN
China
Prior art keywords
state
value
mobile robot
learning
strand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102345106A
Other languages
English (en)
Other versions
CN102799179B (zh
Inventor
马昕
孙国强
许亚
宋锐
荣学文
李贻斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201210234510.6A priority Critical patent/CN102799179B/zh
Publication of CN102799179A publication Critical patent/CN102799179A/zh
Application granted granted Critical
Publication of CN102799179B publication Critical patent/CN102799179B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出了一种基于单链序贯回溯Q学习的移动机器人路径规划算法,是使用栅格法表示二维环境,每块环境区域都对应一个离散的位置表示,移动机器人在某一时刻的状态就表示为机器人所在环境位置,移动机器人的每一步搜索,都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础,从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端的Q值,直到到达目标状态,移动机器人循环往复地从初始状态开始寻找到达目标状态的路径,在搜索的每一步按照上述步骤,不断迭代和优化状态的Q值,直到收敛为止。本发明搜索最优路径需要的步数远少于经典Q-学习算法和Q(λ)算法,学习时间较短,学习效率较高,特别是对于大环境,优势更加明显。

Description

基于单链序贯回溯Q学习的移动机器人路径规划算法
技术领域
本发明涉及一种利用改进强化学习算法进行移动机器人路径规划的方法,属于人工智能技术领域。
背景技术
路径规划问题是移动机器人研究中的关键技术之一,路径规划算法是指移动机器人按照某一性能指标,搜索一条从起始位置到目标位置的最优或次优的无碰路径。
根据环境信息是否完全已知,路径规划可以分为环境信息完全已知的离线全局路径规划和环境信息完全或部分未知的在线局部路径规划,又称为静态路径规划和动态路径规划。目前,确定环境下的全局路径规划研究已较成熟,未知环境下的路径规划问题仍是机器人研究领域的热点问题。
传统的路径规划算法大多基于图论,在环境的几何模型上搜索某种最优或次优的避碰路径。近年来,随着人工智能的深入研究,研究者们将人工势场法、模糊逻辑、神经网络、遗传算法、强化学习等应用于路径规划,提出了多种智能路径规划算法。
人工势场法计算简单,便于实现,但可能陷入局部极小点,运动到一个合力为零的死区,规划失败,无法到达目标位置。模糊逻辑算法不需精确的系统模型,可以根据模糊信息,针对环境知识总结出规则,但当环境复杂时,难以建立全面的规则库,规则库的建立和修改需要花费大量时间,且缺乏泛化能力。采用神经网络算法进行路径规划,较难获得具有代表性的训练样本。遗传算法基于自然选择和基因遗传的搜索算法,通过机器人对环境的逐渐适应,学会相应的避碰行为,但实时性差,且较难构造合适的适应度函数。
强化学习是一种无监督的学习方法,其中的Q-学习算法不需要建立环境模型、算法简单、易于使用,许多研究者应用Q-学习算法获取未知环境下机器人控制策略,实现复杂环境下移动机器人的路径规划。
2002年发表在《7th International Workshop on Advanced Motion Control》(《第七届国际先进运动控制研讨会》)462-466页的论文《A reinforcement learning approach toobstacle avoidance of mobile robots》(《一种基于强化学习的移动机器人避障方法》)不需环境先验知识、通过与环境的交互学习,利用无监督的Q-学习算法实现移动机器人的无碰路径规划。2004年发表在《IEEE Proceedingsof the3rd International Conference onMachine Learning and Cybernetics》(《第三届IEEE机器学习和控制论国际会议论文集》)48-52页的论文《Mobile robot navigation using neural Q-learning》(《基于神经网络Q-学习算法的移动机器人导航》)采用了多层前馈神经网络逼近值函数Q-学习,机器人经过多次尝试后能够在环境中找到一条无碰路径进行导航。2004年发表在《Proceedings of the IEEEInternational Conference on Networking,Sens ing&Control》(《IEEE网络、传感器和控制国际会议论文集》)的论文《A reinforcement-learning approach to robot navigation》(《一种用于机器人导航的强化学习方法》)提出了一种基于强化学习的移动机器人导航方法,通过强化学习建立的模糊规则把传感器的观测映射到机器人适当的动作行为,实现移动机器人的路径规划。但是上述方法仅适用于静态环境并且学习时间长,效率低,对于复杂环境,难以收敛,不能够在短时间内找到一条最优路径。2008年发表在《Neural Networks》(《神经网络》)第21卷,第10期,1556-1566页的论文《Automatic generation of fuzzyinference systems via unsupervised learning》(无监督学习自动生成模糊推理系统)提出了一种能够自动生成模糊推理系统的增强型动态模糊Q-学习方法,仿真研究了单个移动机器人避障和沿壁行走行为,说明了这种新方法的有效性,但是这种方法也仅限于解决静态环境下的路径规划。2008年发表在《Applied Artificial Intelligence》(《应用人工智能》)第22卷,第7-8期,761-779页的论文《Reinforcement learning for POMDP using stateclassification》(《基于状态分类的部分可观察马尔可夫决策过程的强化学习》)提出将强化学习与递归神经网络相结合,将状态空间分成完全可观的状态和隐状态,利用Q值表存放完全可观状态的值,用回归神经网络近似隐状态的值,但是该方法仍旧没有解决复杂环境中学习算法收敛速度慢的问题。2011年发表在《Robotics and Computer-IntegratedManufacturing》(《机器人学与计算机集成制造》)第27卷,第1期,135-149页的论文《Reinforcement based mobile robot navigation in dynamic environment》(《动态环境下基于强化学习的移动机器人导航》)采用Q-学习算法实现动态环境下移动机器人导航,为了解决动态环境下状态值储存量大的问题,通过对状态空间进行重新定义,减少Q值表大小,从而加快了算法速度。
作为一种智能的路径规划算法,强化学习算法已被广泛地应用于移动机器人的路径规划问题。虽然经典单步Q学习算法较简单,但动态寻优和学习速度慢,如何对收敛过程进行改善,使得算法以较快速度收敛,以较短的时间找到最优或次优路径,是机器人行为学习急需解决的问题。
1996年发表在《Machine Learning》(机器学习)第22卷,第1-3期,283-290页的论文《Incremental Multi-step Q-learning》(递增的多步Q-学习算法)提出的多步Q(λ)在线回溯算法引入回溯和遗忘跟踪原理,显式地利用资格迹衰退系数λ,对将来多步决策的在线强化信息进行高效的回溯操作,提高了算法收敛速度。但是,多步Q(λ)算法利用资格迹衰退系数,将后续状态-动作的强化信息直接作用于前面的状态-动作对的Q值,不能及早校正错误动作决策,存在无意义的搜索,学习时间有待进一步减少,收敛速度有待进一步提高。
发明内容
本发明针对现有强化学习算法在未知环境下移动机器人路径规划应用中存在的学习时间长、收敛速度慢等不足,提出了一种能够在复杂环境中快速高效地搜索到最优路径的基于单链序贯回溯Q学习的移动机器人路径规划算法。
本发明的基于单链序贯回溯Q学习的移动机器人路径规划算法,是:
使用栅格法表示二维环境,每块环境区域都对应一个离散的位置表示,移动机器人在某一时刻的状态就表示为机器人所在环境位置,按照移动机器人顺序通过的环境位置依次排列,形成移动机器人的状态单链,移动机器人的每一步搜索,都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础,从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端即初始位置的Q值,直到到达目标位置,移动机器人循环往复地从初始位置开始寻找到达目标位置的路径,在搜索的每一步按照上述步骤,不断迭代和优化状态的Q值,直到收敛为止;具体步骤如下:
(1)建立状态单链:
在每一t时刻,为移动机器人记忆矩阵M(t)增加一行M(t)←[st,at,rtt],其中st表示机器人的当前状态,当前状态就是机器人所在位置的坐标,st=[xt,yt]),at表示在当前状态下执行的动作,包括向上、向下、向左、向右、静止五个动作,分别表示为[0,1],[0,-1],[-1,0],[1,0],[0,0],动作集合表示为A,当前状态st与五个动作构成五个状态-动作对,每一个状态-动作对对应一个Q值Q(s,a),所有的Q(s,a)初始化为零,并根据步骤(2)中的迭代更新公式进行更新,根据贪婪策略选择动作at,即选择满足也就是选择与当前状态st构成的五个状态-动作对的Q值最大的动作作为at,st+1表示执行动作at后下一时刻状态值,rt表示对动作at奖励值,如果执行at后的下一个坐标上有障碍物,则机器人下一时刻状态st+1仍为st的坐标值,奖励值rt=-0.2;如果执行at后的下一个坐标上没有障碍物,则st+1为该坐标,奖励值rt=-0.1;如果执行at后的下一个坐标是目标位置即终点,则奖励值rt=1;λt∈(0,1)表示学习率,只要λt∈(0,1),经过有限次迭代,Q-学习算法一定能够收敛于最优解(1992年发表在《Machine Learning》(《机器学习》)第8卷279-292页的论文《Q-Learning》(《Q-学习》中已证明),这里取λt=0.3;从初始时刻t=0到当前时刻t=n,所有的状态依序构成一个状态单链;
(2)序贯回溯迭代:
在t+1时刻,记忆矩阵M(t)增加一行新内容[st+1,at+1,rt+1t+1],并根据记忆矩阵中存储的状态链,用Q-学习迭代公式进行序贯回溯迭代更新:
对于k=t,t-1,t-2,…,1,0,执行:
Q t + 1 ( s k , a k ) ← ( 1 - λ k ) Q t ( s k , a k ) + λ k [ r k + γ max a k + 1 ∈ A Q t + 1 ( s k + 1 , a k + 1 ) ] ,
其中,γ是折扣因子,反映了后续状态-动作对对应的Q值对状态单链中前面状态动作对Q-值的影响,使得某一状态的动作决策能够直接受到其后续状态的影响,γ∈(0,1),值越大,后续状态对状态单链中前面的状态动作选择影响越大,在移动机器人路径规划问题中,为了使状态单链中前面的动作选择对后续状态的Q值影响及时反馈回来,取γ=0.95;
通过序贯回溯迭代,在t+1时刻不仅更新了状态st的Q值,也顺序地更新了状态单链中st前面的状态st-1,st-2,……,s2,s1,s0的Q值,迭代过程如下:
Figure BDA00001861361600041
其中s0表示机器人的初始状态(起始位置),s1表示t=1时机器人状态(所在环境位置),……,sn表示t=n时机器人状态(所在环境位置),箭头表示数据传递方向,所传递的数据包括奖励值rk和状态-动作对的Q值;
这样,t+n时刻的状态-动作对(st+n,at+n)的Q值通过单链序贯回溯迭代更新t时刻机器人状态-动作对的Q值,
Q t + n ( s t + n - 1 , a t + n - 1 ) ← ( 1 - λ t + n - 1 ) Q t + n - 1 ( s t + n - 1 , a t + n - 1 ) + λ t + n - 1 { r t + n - 1 + γ max a t + n ∈ A Q t + n ( s t + n , a t + n ) } ,
Q t + n ( s t + n - 2 , a t + n - 2 ) ← ( 1 - λ t + n - 2 ) Q t + n - 1 ( s t + n - 2 , a t + n - 2 ) + λ t + n - 2 { r t + n - 2 + γ max a t + n - 1 ∈ A Q t + n ( s t + n - 1 , a t + n - 1 ) } · · ·
· · · , Q t + n ( s t + 1 , a t + 1 ) ← ( 1 - λ t + 1 ) Q t + n - 1 ( s t + 1 , a t + 1 ) + λ t + 1 { r t + 1 + γ max a t + 2 ∈ A Q t + n ( s t + 2 , a t + 2 ) } ,
Q t + n ( s t , a t ) ← ( 1 - λ t ) Q t + n - 1 ( s t , a t ) + λ t { r t + γ max a t + 1 ∈ A Q t + n ( s t + 1 , a t + 1 ) } ;
(3)寻找目标点:
移动机器人在环境中每走一步,就会在记忆矩阵M(t)增加一行,并按照记忆矩阵,依次序贯迭代修正单链中前面所有状态-动作对所对应的Q值,直到到达目标位置,并更新完单链中所有状态-动作对对应的Q值,才会停止本次路径搜索;
(4)机器人回到初始状态,在先前建立的Q值表基础上继续搜索,直到收敛,找到最优路径。
本发明是在Q-学习算法基础上提出的一种单链序贯回溯Q-学习算法,在每一步的路径搜索中,建立状态单链,状态单链中后续状态顺序向前以依次迭代更新前面状态-动作对的Q值,与经典一步迭代Q-学习算法相比,增加了一步路径搜索中状态单链中前面各个状态动作对Q值的迭代更新次数,减少了收敛所需路径搜索的总次数,加快了Q值收敛速度;与多步Q(λ)算法相比,二者都利用了回溯使得某一状态的动作决策受到后续状态的影响,但二者有本质不同,多步Q(λ)算法利用资格迹衰退系数,将后续状态-动作的强化信息直接作用于前面的状态-动作对的Q值,而单链序贯回溯Q-算法则是在状态单链上,利用经典的一步迭代Q-学习算法,依序回溯,逐步更新前面状态-动作对的Q值,后续动作产生的奖赏值及时反馈回来,及早校正错误动作决策,减少无意义的搜索,进一步减少了学习时间、提高了收敛速度,能够满足复杂环境下移动机器人路径规划实时性要求,能够以更少的学习步数和更快的收敛速度使移动机器人在未知复杂环境中搜索到最优路径。
本发明在搜索过程中,按照顺序建立状态单链,在单链中以状态-动作对Q值的序贯回溯迭代提高学习效率,搜索最优路径需要的步数远少于经典Q-学习算法和Q(λ)算法,学习时间较短,学习效率较高,特别是对于大环境,优势更加明显。
附图说明
图1是状态单链示意图。
图2是简单环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索到的最优路径。
图3是简单环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索路径长度的收敛情况。
图4是简单环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法路径长度标准差的收敛情况。
图5是环形环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索到的最优路径。
图6是环形环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索路径长度的收敛情况。
图7是环形环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法路径长度标准差的收敛情况。
图8是复杂环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索到的最优路径。
图9是复杂环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索路径长度的收敛情况。
图10是复杂环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法路径长度标准差的收敛情况。
具体实施方式
1.Q-学习算法
Q-学习算法是一种迭代算法,对每个状态-动作对赋予一个对应的Q值,Q值定义为强化学习折扣奖赏和,某个动作策略改变了环境状态,就会获得强化信号,根据强化信号,迭代更新Q值,正确动作对应的Q值不断增加,错误动作对应的Q值不断减小,直到各状态动作对的Q值稳定收敛为止,从起点到目标点的最优路径就确定了。迭代过程如下:
Figure BDA00001861361600061
其中s0表示机器人的初始状态(起始位置),s1表示t=1时机器人状态(所在环境位置),……,sn表示t=n时机器人状态(所在环境位置),箭头表示数据传递方向,所传递的数据包括奖励值rk和状态-动作对的Q值。Q-学习算法每一步搜索只更新一个数据。
2.回溯
回溯可以使得后续产生的状态及时反馈影响先前的动作,在路径规划中的实际意义为:通过数据的不断传递,某一状态的动作决策受其后续状态的影响。如果未来某一动作决策是一个失败决策,那么当前动作决策也要承担相应的责任,并且会把这种影响追加到当前决策上来。如果未来某一决策是一个正确决策,那么当前的决策也要获得相应奖励,同样也要把这种影响追加到当前决策。
3.多步Q(λ)算法
多步Q(λ)算法引入遗忘跟踪的原理,对每一个经历过的状态-动作对(sk,ak)定义一个跟踪迹,
Figure BDA00001861361600071
遗忘衰减系数λ(0<λ<1)和折扣系数γ(0<γ<1),由此跟踪状态是指数衰减渐进遗忘的过程。
根据渐进跟踪遗忘的原理,传递而来的数据将会有一定衰减,第i个状态动作对,经历了n-i的单位时间后,传递回来的数据即为(λγ)n-i-1δ,δ是由最接近当前的两个状态,即状态st+k和下一个状态st+k+1共同决定的。
δ t + k = r t + k + γ max a t + k + 1 ∈ A ( Q ( s t + k + 1 , a t + k + 1 ) ) - Q ( s t + k , a t + k )
在每一步训练中,并行更新所有经历过的状态动作对,称为多步Q-学习算法,其迭代过程如下:
Figure BDA00001861361600073
t时刻的状态,在t+n时刻,其被记忆的状态动作对相应的Q值经过每一个时刻的积累变为:
Q ( s t , a t ) = Q ( s t , a t ) + Σ k = 1 n - 1 e t + k ( s t , a t ) δ t + k
= Q ( s t , a t ) + Σ k = 1 n - 1 ( λγ ) k δ t + k ,
4.Q-学习算法及其改进算法的状态收敛条件
假设状态-动作对(st,at)对应的Q值的初始值为Qt,(st,at)指向状态st+1,若λt∈(0,1),且st+1的所有状态动作对收敛,则经过足够多的迭代次数,Q(st,at)必将收敛。
证明:
Q t + 1 ( s t , a t ) ← ( 1 - λ t ) Q t ( s t , a t ) + λ t { r t + γ max a t + 1 ∈ A Q t + 1 ( s t + 1 , a t + 1 ) } - - - ( 1 )
由公式(1),状态st上的Q值Q(st,at)稳定的必要条件是状态st+1上的
Figure BDA00001861361600082
恒定,Qt+1为一常数;否则状态st上的Q值将随着Qt+1的变化而变化。
由假设条件st+1的所有状态动作对收敛,即
Figure BDA00001861361600083
恒定,Qt+1为一常数,令λt=α。为求Q(st,at)的稳定状态,通过公式(1)进行迭代,得:
一次迭代Q(st,at)=(1-α)Qt+α(r+γQt+1)
二次迭代Q(st,at)=(1-α)2Qt+(1-α)α(r+γQt+1)+α(r+γQt+1)
三次迭代
Q(st,at)=(1-α)3Qt+(1-α)2α(r+γQt+1)+(1-α)α(r+γQt+1)+α(r+γQt+1)
……
n次迭代
Figure BDA00001861361600086
Figure BDA00001861361600087
∵α=λt∈(0,1),
∴0<(1-α)<1,
当Q(st,at)有足够迭代次数m时,
( 1 - α ) m → 0 , Q ( s t , a t ) = r + γ max a t + 1 ∈ A ( Q ( s t + 1 , a t + 1 ) ) = r + γ Q t + 1 - - - ( 3 )
Q(st,at)收敛。
证明完毕。
5.理想收敛步数
根据收敛条件知道后一个状态的收敛是前一个状态收敛的必要条件,状态单链中各状态-动作对的收敛顺序是不同的,目标位置状态最先收敛,靠近目标位置状态的状态-动作对的Q值较早收敛,远离目标位置状态的状态-动作对的Q值收敛较晚。状态-动作对的Q值趋于收敛,就可为移动机器人路径规划提供正确决策帮助,状态-动作对的Q值不收敛,就有可能使得移动机器人做无意义的移动。
下面通过比较Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法在相同状态单链中某一状态-动作对收敛所需步数,证明单链序贯回溯Q-学习算法的快速收敛性。
(1)单个状态Q值收敛所需最少迭代次数
由Q-学习及其改进算法的状态收敛条件知道,足够的迭代次数是某一状态st收敛的必要条件,若对应的下一个状态st+1收敛,状态st收敛需要的迭代次数是最小迭代次数M。若满足(1-α)m<ε,需m>lnε/ln(1-α),m的下限值为lnε/ln(1-α),则M=lnε/ln(1-α)为最小迭代次数。
(2)状态链收敛所需步数比较
理想稳定状态下,状态链上所有状态-动作对都收敛,状态单链示意图如图1所示。状态单链中任意一个状态sk,距离目标位置状态sgoal为L个状态。从目标状态,由倒数第一个状态收敛逐级到sk收敛,Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法三种方法至少需要的总探索步数分别如表1和表2所示。
表1Q-学习算法和Q(λ)算法状态收敛
Figure BDA00001861361600092
表2单链序贯回溯Q-学习算法状态收敛表
Figure BDA00001861361600093
Figure BDA00001861361600101
Q-学习算法和Q(λ)算法由倒数第一个状态收敛,到sk收敛,至少需要总搜索步数为:
NQ=Nλ=L·M·T
单链序贯回溯Q-学习算法由倒数第一个状态收敛,逐级到sk收敛,至少需要总搜索步数为:
NSQ=M·T·(1+1/2+1/3……+1/L),
显然,对于
Figure BDA00001861361600102
所以NSQ<NQ,NSQ<Nλ
所以,单链序贯回溯Q-学习算法的收敛所需搜索步数小于其他两种强化学习算法更快。
6.基于单链序贯回溯Q-学习的移动机器人路径规划算法
6.1环境和动作设置
利用栅格法表示二维环境,每一栅格对应于1(有障碍物),或0(无障碍物)。
移动机器人在任一时刻可采取“向上、向下、向左、向右、静止”这五个动作的任一个动作,沿着栅格线移动。用变量Actionselect表征动作集合A,Actionselect=[0,1;0,-1;-1,0;1,0;0,0]。
6.2参数设定
环境表示为10×10的栅格,机器人在任一时刻都可以执行五个动作中的任一个动作,每个状态-动作对都对应一个Q值,则对应有500个Q值。Q值表初始化为1×500的零矩阵。
奖励值函数定义为:
Figure BDA00001861361600103
设置折扣因子γ=0.95,学习效率λt=0.3,记忆矩阵M(t)=[],该矩阵的行数随着搜索步数的增加而增加。设置最小搜索(从初始位置到目标位置)次数Mintrials=10,移动机器人在搜索到10个从初始位置到目标位置的路径之后,再每搜索到一个新的路径之后,计算已搜索所有路径长度的标准差,如果路径长度标准差小于Convgoal=0.01,则搜索到最优路径,停止搜索。设置最大搜索(初始状态到目标状态)次数Trials=500,每次搜索最大步数Maxiter=2000。
6.3单链序贯回溯Q-学习算法的步骤
步骤1:初始化;
步骤2:机器人从初始状态(即起始位置)s0开始移动,搜索到达目标状态(即目标位置)的路径;
步骤3:根据当前状态(即当前所在环境位置)st所对应的五个状态-动作对at∈A对应的Q值Q(st,at),通过贪婪决策方法,选择最大Q值对应的动作
Figure BDA00001861361600111
将位置状态st和动作at等参数作为新的一行添加到记忆矩阵中M(t)←[st,at,rtt];
步骤4:获取下一个状态st+1和奖励值rt,如果下一个坐标上有障碍物,则机器人下一个状态st+1仍为原来坐标,奖励值为rt=-0.2;如果下一个坐标上没有障碍物,则进入下一个坐标,且返回奖励值rt=-0.1;如果下一个坐标是终点,则返回奖励值rt=1,达到终点;
步骤5:根据记忆矩阵中记忆的状态链的顺序,按照经典Q-学习算法一步迭代公式,序贯迭代更新状态链中前面的动作-状态对的Q值:
对于k=t,t-1,…,1,0,顺序执行
Q t + 1 ( s k , a k ) ← ( 1 - λ k ) Q t ( s k , a k ) + λ k { r k + γ max a k + 1 ∈ A Q t + 1 ( s k + 1 , a k + 1 ) } ,
更新Q值表中相应状态-动作对的Q值;
步骤6:若当前状态(即当前所在环境位置)st+1是终点,进入步骤7。若不是终点,判断本次搜索步数是否超过最大搜索步数Maxiter,若超过,则返回步骤2,重新搜索;若没有超过,则返回步骤3;
步骤7:判断机器人搜索次数是否超过最小搜索次数Mintrials,超过则进入步骤8;否则,返回步骤2,继续搜索;
步骤8:计算已搜索所有路径长度的标准差,若小于Convgoal,则说明搜索已收敛,已搜索到最优路径,进入步骤9;否则,返回步骤2,继续搜索;
步骤9:结束。
6.4仿真实验和结果分析
在基于MATLAB GUI建立的路径规划仿真界面上进行仿真实验。栅格地图中,黑色方块区域表示障碍物,白色方块区域表示该位置没有障碍物。地图中障碍物的分布和终点位置对于移动机器人来说都是未知的。
设定了三种环境,简单环境、环形环境、复杂环境,针对这三种不同环境,分别应用Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索最优路径。如图2、图5和图8所示,分别为三种环境下利用三种强化学习方法搜索到的从起始位置到目标位置的最优路径。如图3、图6和图9所示,分别为三种环境下利用三种强化学习方法搜索路径长度的收敛情况。如图4、图7和图10所示,分别为三种环境下利用三种强化学习方法搜索路径长度标准差的收敛情况。表3、表4和表5分别比较了三种环境下三种强化学习方法搜索到最优路径所需的程序运行总时间和搜索次数。
表3简单环境下三种算法的实验结果比较
  算法名称   Q学习算法   Q(λ)算法   单链序贯回溯Q-学习算法
  程序运行总时间(s)   248   136   53
  搜索次数   4941   2409   1354
表4环形环境下三种算法的实验结果比较
  算法名称   Q学习算法   Q(λ)算法   单链序贯回溯Q-学习算法
  程序运行总时间(s)   291   152   66
  搜索次数   6351   3345   1856
表5复杂环境下三种算法的实验结果比较
  算法名称   Q学习算法   Q(λ)算法   单链序贯回溯Q-学习算法
  程序运行总时间(s)   443   248   40
  搜索次数   8790   5056   1129
仿真实验结果表明,单链序贯回溯Q-学习算法与传统Q-学习算法和Q(λ)算法相比,能够以较快的收敛速度和较少的搜索次数寻找到最优路径,特别是复杂环境,优势更加明显,能够满足复杂环境下移动机器人路径规划实时性要求。

Claims (1)

1.一种基于单链序贯回溯Q学习的移动机器人路径规划算法,其特征是:
使用栅格法表示二维环境,每块环境区域都对应一个离散的位置表示,移动机器人在某一时刻的状态就表示为机器人所在环境位置,按照移动机器人顺序通过的环境位置依次排列,形成移动机器人的状态单链,移动机器人的每一步搜索,都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础,从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端即初始位置的Q值,直到到达目标位置,移动机器人循环往复地从初始位置开始寻找到达目标位置的路径,在搜索的每一步按照上述步骤,不断迭代和优化状态的Q值,直到收敛为止;具体步骤如下:
(1)建立状态单链:
在每一t时刻,为移动机器人记忆矩阵M(t)增加一行M(t)←[st,at,rtt],其中st表示机器人的当前状态,当前状态就是机器人所在位置的坐标,st=[xt,yt]),at表示在当前状态下执行的动作,包括向上、向下、向左、向右、静止五个动作,分别表示为[0,1],[0,-1],[-1,0],[1,0],[0,0],动作集合表示为A,当前状态st与五个动作构成五个状态-动作对,每一个状态-动作对对应一个Q值Q(s,a),所有的Q(s,a)初始化为零,并根据步骤(2)中的迭代更新公式进行更新,根据贪婪策略选择动作at,即选择满足也就是选择与当前状态st构成的五个状态-动作对的Q值最大的动作作为at,st+1表示执行动作at后下一时刻状态值,rt表示对动作at奖励值,如果执行at后的下一个坐标上有障碍物,则机器人下一时刻状态st+1仍为st的坐标值,奖励值rt=-0.2;如果执行at后的下一个坐标上没有障碍物,则st+1为该坐标,奖励值rt=-0.1;如果执行at后的下一个坐标是目标位置即终点,则奖励值rt=1;λt∈(0,1)表示学习率,只要λt∈(0,1),经过有限次迭代,Q-学习算法一定能够收敛于最优解,这里取λt=0.3;从初始时刻t=0到当前时刻t=n,所有的状态依序构成一个状态单链;
(2)序贯回溯迭代:
在t+1时刻,记忆矩阵M(t)增加一行新内容[st+1,at+1,rt+1t+1],并根据记忆矩阵中存储的状态链,用Q-学习迭代公式进行序贯回溯迭代更新:
对于k=t,t-1,t-2,…,1,0,执行:
Q t + 1 ( s k , a k ) ← ( 1 - λ k ) Q t ( s k , a k ) + λ k [ r k + γ max a k + 1 ∈ A Q t + 1 ( s k + 1 , a k + 1 ) ] ,
其中,γ是折扣因子,反映了后续状态-动作对对应的Q值对状态单链中前面状态动作对Q-值的影响,使得某一状态的动作决策能够直接受到其后续状态的影响,γ∈(0,1),值越大,后续状态对状态单链中前面的状态动作选择影响越大,在移动机器人路径规划问题中,为了使状态单链中前面的动作选择对后续状态的Q值影响及时反馈回来,取γ=0.95;
通过序贯回溯迭代,在t+1时刻不仅更新了状态st的Q值,也顺序地更新了状态单链中st前面的状态st-1,st-2,……,s2,s1,s0的Q值,迭代过程如下:
Figure FDA00001861361500022
其中s0表示机器人的初始状态,s1表示t=1时机器人状态,……,sn表示t=n时机器人状态,箭头表示数据传递方向,所传递的数据包括奖励值rk和状态-动作对的Q值;
这样,t+n时刻的状态-动作对(st+n,at+n)的Q值通过单链序贯回溯迭代更新t时刻机器人状态-动作对的Q值,
Q t + n ( s t + n - 1 , a t + n - 1 ) ← ( 1 - λ t + n - 1 ) Q t + n - 1 ( s t + n - 1 , a t + n - 1 ) + λ t + n - 1 { r t + n - 1 + γ max a t + n ∈ A Q t + n ( s t + n , a t + n ) } ,
Q t + n ( s t + n - 2 , a t + n - 2 ) ← ( 1 - λ t + n - 2 ) Q t + n - 1 ( s t + n - 2 , a t + n - 2 ) + λ t + n - 2 { r t + n - 2 + γ max a t + n - 1 ∈ A Q t + n ( s t + n - 1 , a t + n - 1 ) } · · ·
· · · , Q t + n ( s t + 1 , a t + 1 ) ← ( 1 - λ t + 1 ) Q t + n - 1 ( s t + 1 , a t + 1 ) + λ t + 1 { r t + 1 + γ max a t + 2 ∈ A Q t + n ( s t + 2 , a t + 2 ) } ,
Q t + n ( s t , a t ) ← ( 1 - λ t ) Q t + n - 1 ( s t , a t ) + λ t { r t + γ max a t + 1 ∈ A Q t + n ( s t + 1 , a t + 1 ) } ;
(3)寻找目标点:
移动机器人在环境中每走一步,就会在记忆矩阵M(t)增加一行,并按照记忆矩阵,依次序贯迭代修正单链中前面所有状态-动作对所对应的Q值,直到到达目标位置,并更新完单链中所有状态-动作对对应的Q值,才会停止本次路径搜索;
(4)机器人回到初始状态,在先前建立的Q值表基础上继续搜索,直到收敛,找到最优路径。
CN201210234510.6A 2012-07-06 2012-07-06 基于单链序贯回溯q学习的移动机器人路径规划算法 Expired - Fee Related CN102799179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210234510.6A CN102799179B (zh) 2012-07-06 2012-07-06 基于单链序贯回溯q学习的移动机器人路径规划算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210234510.6A CN102799179B (zh) 2012-07-06 2012-07-06 基于单链序贯回溯q学习的移动机器人路径规划算法

Publications (2)

Publication Number Publication Date
CN102799179A true CN102799179A (zh) 2012-11-28
CN102799179B CN102799179B (zh) 2014-12-31

Family

ID=47198305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210234510.6A Expired - Fee Related CN102799179B (zh) 2012-07-06 2012-07-06 基于单链序贯回溯q学习的移动机器人路径规划算法

Country Status (1)

Country Link
CN (1) CN102799179B (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103308047A (zh) * 2013-05-10 2013-09-18 杭州师范大学 一种具有人工在线修正功能的移动机器人定位方法
CN103529843A (zh) * 2013-10-17 2014-01-22 电子科技大学中山学院 Lambda*路径规划算法
CN103914560A (zh) * 2014-04-16 2014-07-09 中国科学院合肥物质科学研究院 一种用于农资电子商务的基于Q学习的多agent主动推荐方法
CN104932267A (zh) * 2015-06-04 2015-09-23 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN105119733A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
CN105269576A (zh) * 2015-12-01 2016-01-27 邱炎新 一种智能巡查机器人
CN105740644A (zh) * 2016-03-24 2016-07-06 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN105911992A (zh) * 2016-06-14 2016-08-31 广东技术师范学院 一种移动机器人的自动规划路径方法及移动机器人
CN106056213A (zh) * 2015-04-06 2016-10-26 谷歌公司 使用目标和观察来选择强化学习动作
CN106919181A (zh) * 2016-10-20 2017-07-04 湖南大学 一种无人机避障方法
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及系统
CN107063260A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于鼠脑海马结构认知地图的仿生导航方法
CN107860389A (zh) * 2017-11-07 2018-03-30 金陵科技学院 机器人室内行走强化学习路径导航算法
CN107919014A (zh) * 2017-11-10 2018-04-17 湖南大学 面向多载客里程的出租车收入效率优化方法
CN107967513A (zh) * 2017-12-25 2018-04-27 徐雪松 多机器人强化学习协同搜索方法及系统
CN108268031A (zh) * 2016-12-30 2018-07-10 深圳光启合众科技有限公司 路径规划方法、装置及机器人
CN108444481A (zh) * 2018-03-25 2018-08-24 哈尔滨工程大学 一种基于辅助决策系统的水下潜器路径规划方法
CN108572654A (zh) * 2018-04-25 2018-09-25 哈尔滨工程大学 基于q学习的欠驱动auv虚拟锚泊三维镇定控制及实现方法
CN108594803A (zh) * 2018-03-06 2018-09-28 吉林大学 基于q-学习算法的路径规划方法
CN108594858A (zh) * 2018-07-16 2018-09-28 河南大学 马尔科夫运动目标的无人机搜索方法及装置
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN108995220A (zh) * 2018-07-17 2018-12-14 大连理工大学 基于强化学习的复杂薄壁结构物体3d打印路径规划方法
CN109035764A (zh) * 2018-07-06 2018-12-18 达闼科技(北京)有限公司 道路通行方法、相关装置及计算机可读存储设备
CN109778941A (zh) * 2019-03-25 2019-05-21 江苏徐工工程机械研究院有限公司 一种基于强化学习的半自主挖掘系统和方法
CN109857107A (zh) * 2019-01-30 2019-06-07 广州大学 Agv小车导航方法、装置、系统、介质和设备
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
WO2020034887A1 (zh) * 2018-08-13 2020-02-20 菜鸟智能物流控股有限公司 智能体行进路径的确定方法及装置
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111221312A (zh) * 2020-02-27 2020-06-02 广东工业大学 机器人在生产线的优化方法、系统及在数字孪生的应用
US10703370B2 (en) 2018-08-24 2020-07-07 Ford Global Technologies, Llc Vehicle action control
CN111552183A (zh) * 2020-05-17 2020-08-18 南京大学 一种基于自适应权重强化学习的六足机器人避障方法
CN111649758A (zh) * 2020-06-16 2020-09-11 华东师范大学 一种动态环境下基于强化学习算法的路径规划方法
CN111857107A (zh) * 2020-06-10 2020-10-30 同济大学 基于学习组件库的辅助型移动机器人导航控制系统和方法
CN112237403A (zh) * 2020-09-07 2021-01-19 安克创新科技股份有限公司 用于清扫设备的覆盖路径生成方法和清扫设备
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112595326A (zh) * 2020-12-25 2021-04-02 湖北汽车工业学院 一种融合先验知识的改进Q-learning路径规划算法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN113062601A (zh) * 2021-03-17 2021-07-02 同济大学 一种基于q学习的混凝土布料机器人轨迹规划方法
CN113848911A (zh) * 2021-09-28 2021-12-28 华东理工大学 基于Q-learning和RRT*的移动机器人全局路径规划方法
CN114489038A (zh) * 2021-12-08 2022-05-13 农芯(南京)智慧农业研究院有限公司 一种基于强化学习的农林用车辆的导航控制方法
CN116338598A (zh) * 2023-05-31 2023-06-27 西安电子科技大学 一种基于回溯dqn的雷达抗干扰智能决策方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
CN101954638A (zh) * 2010-10-18 2011-01-26 湖南大学 高压输电线路除冰机器人自主抓线控制方法
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
CN101954638A (zh) * 2010-10-18 2011-01-26 湖南大学 高压输电线路除冰机器人自主抓线控制方法
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JING PENG ,RONALD J.WILLIAMS: "《Incremental Multi-step Q-learning》", 《MACHINE LEARNING》 *
MOHAMMAD ABDEL KAREEM JARADAT , MOHAMMAD AL-ROUSAN, LARA QUADAN: "《Reinforcement based mobile robot navigation in dynamic environment》", 《ROBOTICS AND COMPUTER-INTEGRATED MANUFACTURING》 *
朱大奇, 颜明重: "《移动机器人路径规划技术综述》", 《控制与决策》 *

Cited By (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103308047A (zh) * 2013-05-10 2013-09-18 杭州师范大学 一种具有人工在线修正功能的移动机器人定位方法
CN103308047B (zh) * 2013-05-10 2016-04-20 杭州师范大学 一种具有人工在线修正功能的移动机器人定位方法
CN103529843B (zh) * 2013-10-17 2016-07-13 电子科技大学中山学院 Lambda*路径规划算法
CN103529843A (zh) * 2013-10-17 2014-01-22 电子科技大学中山学院 Lambda*路径规划算法
CN103914560A (zh) * 2014-04-16 2014-07-09 中国科学院合肥物质科学研究院 一种用于农资电子商务的基于Q学习的多agent主动推荐方法
CN103914560B (zh) * 2014-04-16 2017-01-18 中国科学院合肥物质科学研究院 一种用于农资电子商务的基于Q学习的多agent主动推荐方法
CN106056213B (zh) * 2015-04-06 2022-03-29 渊慧科技有限公司 使用目标和观察来选择强化学习动作
CN106056213A (zh) * 2015-04-06 2016-10-26 谷歌公司 使用目标和观察来选择强化学习动作
CN104932267B (zh) * 2015-06-04 2017-10-03 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN104932267A (zh) * 2015-06-04 2015-09-23 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN105119733B (zh) * 2015-07-06 2019-01-15 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
CN105119733A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
CN105269576A (zh) * 2015-12-01 2016-01-27 邱炎新 一种智能巡查机器人
CN105740644A (zh) * 2016-03-24 2016-07-06 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN105740644B (zh) * 2016-03-24 2018-04-13 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN105911992A (zh) * 2016-06-14 2016-08-31 广东技术师范学院 一种移动机器人的自动规划路径方法及移动机器人
CN106919181A (zh) * 2016-10-20 2017-07-04 湖南大学 一种无人机避障方法
CN108268031A (zh) * 2016-12-30 2018-07-10 深圳光启合众科技有限公司 路径规划方法、装置及机器人
CN107063260A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于鼠脑海马结构认知地图的仿生导航方法
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及系统
CN107860389A (zh) * 2017-11-07 2018-03-30 金陵科技学院 机器人室内行走强化学习路径导航算法
CN107919014A (zh) * 2017-11-10 2018-04-17 湖南大学 面向多载客里程的出租车收入效率优化方法
CN107919014B (zh) * 2017-11-10 2020-10-30 湖南大学 面向多载客里程的出租车运行线路优化方法
CN107967513B (zh) * 2017-12-25 2019-02-15 徐雪松 多机器人强化学习协同搜索方法及系统
CN107967513A (zh) * 2017-12-25 2018-04-27 徐雪松 多机器人强化学习协同搜索方法及系统
CN108594803A (zh) * 2018-03-06 2018-09-28 吉林大学 基于q-学习算法的路径规划方法
CN108594803B (zh) * 2018-03-06 2020-06-12 吉林大学 基于q-学习算法的路径规划方法
CN108444481A (zh) * 2018-03-25 2018-08-24 哈尔滨工程大学 一种基于辅助决策系统的水下潜器路径规划方法
CN108572654A (zh) * 2018-04-25 2018-09-25 哈尔滨工程大学 基于q学习的欠驱动auv虚拟锚泊三维镇定控制及实现方法
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108803313B (zh) * 2018-06-08 2022-07-12 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN109035764A (zh) * 2018-07-06 2018-12-18 达闼科技(北京)有限公司 道路通行方法、相关装置及计算机可读存储设备
CN109035764B (zh) * 2018-07-06 2020-10-02 达闼科技(北京)有限公司 道路通行方法、相关装置及计算机可读存储设备
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN108594858B (zh) * 2018-07-16 2020-10-27 河南大学 马尔科夫运动目标的无人机搜索方法及装置
CN108594858A (zh) * 2018-07-16 2018-09-28 河南大学 马尔科夫运动目标的无人机搜索方法及装置
CN108995220A (zh) * 2018-07-17 2018-12-14 大连理工大学 基于强化学习的复杂薄壁结构物体3d打印路径规划方法
CN108995220B (zh) * 2018-07-17 2020-04-28 大连理工大学 基于强化学习的复杂薄壁结构物体3d打印路径规划方法
CN110826755A (zh) * 2018-08-13 2020-02-21 菜鸟智能物流控股有限公司 智能体行进路径的确定方法及装置
WO2020034887A1 (zh) * 2018-08-13 2020-02-20 菜鸟智能物流控股有限公司 智能体行进路径的确定方法及装置
CN110826755B (zh) * 2018-08-13 2022-06-28 菜鸟智能物流控股有限公司 智能体行进路径的确定方法及装置
US10703370B2 (en) 2018-08-24 2020-07-07 Ford Global Technologies, Llc Vehicle action control
CN109857107A (zh) * 2019-01-30 2019-06-07 广州大学 Agv小车导航方法、装置、系统、介质和设备
CN109778941B (zh) * 2019-03-25 2021-05-07 江苏徐工工程机械研究院有限公司 一种基于强化学习的半自主挖掘系统和方法
CN109778941A (zh) * 2019-03-25 2019-05-21 江苏徐工工程机械研究院有限公司 一种基于强化学习的半自主挖掘系统和方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN110321666B (zh) * 2019-08-09 2022-05-03 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN112799386B (zh) * 2019-10-25 2021-11-23 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN110883776B (zh) * 2019-11-29 2021-04-23 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111221312A (zh) * 2020-02-27 2020-06-02 广东工业大学 机器人在生产线的优化方法、系统及在数字孪生的应用
CN111221312B (zh) * 2020-02-27 2020-10-09 广东工业大学 机器人在生产线的优化方法、系统及在数字孪生的应用
CN111552183B (zh) * 2020-05-17 2021-04-23 南京大学 一种基于自适应权重强化学习的六足机器人避障方法
CN111552183A (zh) * 2020-05-17 2020-08-18 南京大学 一种基于自适应权重强化学习的六足机器人避障方法
CN111857107B (zh) * 2020-06-10 2021-08-31 同济大学 基于学习组件库的辅助型移动机器人导航控制系统和方法
CN111857107A (zh) * 2020-06-10 2020-10-30 同济大学 基于学习组件库的辅助型移动机器人导航控制系统和方法
CN111649758B (zh) * 2020-06-16 2023-09-15 华东师范大学 一种动态环境下基于强化学习算法的路径规划方法
CN111649758A (zh) * 2020-06-16 2020-09-11 华东师范大学 一种动态环境下基于强化学习算法的路径规划方法
CN112237403A (zh) * 2020-09-07 2021-01-19 安克创新科技股份有限公司 用于清扫设备的覆盖路径生成方法和清扫设备
CN112237403B (zh) * 2020-09-07 2022-01-14 安克创新科技股份有限公司 用于清扫设备的覆盖路径生成方法和清扫设备
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112344944B (zh) * 2020-11-24 2022-08-05 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112595326A (zh) * 2020-12-25 2021-04-02 湖北汽车工业学院 一种融合先验知识的改进Q-learning路径规划算法
CN113062601B (zh) * 2021-03-17 2022-05-13 同济大学 一种基于q学习的混凝土布料机器人轨迹规划方法
CN113062601A (zh) * 2021-03-17 2021-07-02 同济大学 一种基于q学习的混凝土布料机器人轨迹规划方法
CN113848911A (zh) * 2021-09-28 2021-12-28 华东理工大学 基于Q-learning和RRT*的移动机器人全局路径规划方法
CN113848911B (zh) * 2021-09-28 2023-06-27 华东理工大学 基于Q-learning和RRT*的移动机器人全局路径规划方法
CN114489038A (zh) * 2021-12-08 2022-05-13 农芯(南京)智慧农业研究院有限公司 一种基于强化学习的农林用车辆的导航控制方法
CN114489038B (zh) * 2021-12-08 2024-02-27 农芯(南京)智慧农业研究院有限公司 一种基于强化学习的农林用车辆的导航控制方法
CN116338598A (zh) * 2023-05-31 2023-06-27 西安电子科技大学 一种基于回溯dqn的雷达抗干扰智能决策方法
CN116338598B (zh) * 2023-05-31 2023-08-29 西安电子科技大学 一种基于回溯dqn的雷达抗干扰智能决策方法

Also Published As

Publication number Publication date
CN102799179B (zh) 2014-12-31

Similar Documents

Publication Publication Date Title
CN102799179A (zh) 基于单链序贯回溯q学习的移动机器人路径规划算法
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN102402712B (zh) 基于神经网络的机器人强化学习初始化方法
CN105527965A (zh) 基于遗传蚁群算法的路径规划方法及系统
CN105509749A (zh) 基于遗传蚁群算法的移动机器人路径规划方法及系统
CN109597425B (zh) 基于强化学习的无人机导航和避障方法
CN110334837A (zh) 一种基于petri网分解的多AGV调度方法
Chatterjee et al. A Geese PSO tuned fuzzy supervisor for EKF based solutions of simultaneous localization and mapping (SLAM) problems in mobile robots
Ge et al. Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control
CN105389623A (zh) 一种采用改进蚁群算法的热工过程模型参数辨识方法
CN106529818A (zh) 基于模糊小波神经网络的水质评价预测方法
Xing et al. Research of a novel short-term wind forecasting system based on multi-objective Aquila optimizer for point and interval forecast
CN103052128A (zh) 一种基于无线传感器网络能量有效的协同调度方法
Saravanan et al. IoT enabled indoor autonomous mobile robot using CNN and Q-learning
CN114572229B (zh) 一种基于图神经网络的车速预测方法、装置、介质及设备
Li et al. Application of improved ant colony optimization in mobile robot trajectory planning
Wang et al. Hybrid bidirectional rapidly exploring random tree path planning algorithm with reinforcement learning
CN104331080B (zh) 用于移动式机器人的定点跟踪路径规划方法
Chen et al. Deep reinforcement learning-based robot exploration for constructing map of unknown environment
CN117522078A (zh) 无人系统集群环境耦合下的可迁移任务规划方法及系统
Qiao et al. Application of reinforcement learning based on neural network to dynamic obstacle avoidance
Zhou et al. Multi-robot coverage path planning based on deep reinforcement learning
CN114721397B (zh) 一种基于强化学习和好奇心的迷宫机器人路径规划方法
Zhang et al. A multi-goal global dynamic path planning method for indoor mobile robot
CN111552317A (zh) 一种多航天器四维协同轨迹确定方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141231

Termination date: 20170706

CF01 Termination of patent right due to non-payment of annual fee