CN102799179A

CN102799179A - 基于单链序贯回溯q学习的移动机器人路径规划算法

Info

Publication number: CN102799179A
Application number: CN2012102345106A
Authority: CN
Inventors: 马昕; 孙国强; 许亚; 宋锐; 荣学文; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2012-07-06
Filing date: 2012-07-06
Publication date: 2012-11-28
Anticipated expiration: 2032-07-06
Also published as: CN102799179B

Abstract

本发明提出了一种基于单链序贯回溯Q学习的移动机器人路径规划算法，是使用栅格法表示二维环境，每块环境区域都对应一个离散的位置表示，移动机器人在某一时刻的状态就表示为机器人所在环境位置，移动机器人的每一步搜索，都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础，从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端的Q值，直到到达目标状态，移动机器人循环往复地从初始状态开始寻找到达目标状态的路径，在搜索的每一步按照上述步骤，不断迭代和优化状态的Q值，直到收敛为止。本发明搜索最优路径需要的步数远少于经典Q-学习算法和Q(λ)算法，学习时间较短，学习效率较高，特别是对于大环境，优势更加明显。

Description

基于单链序贯回溯Q学习的移动机器人路径规划算法

技术领域

本发明涉及一种利用改进强化学习算法进行移动机器人路径规划的方法，属于人工智能技术领域。

背景技术

路径规划问题是移动机器人研究中的关键技术之一，路径规划算法是指移动机器人按照某一性能指标，搜索一条从起始位置到目标位置的最优或次优的无碰路径。

根据环境信息是否完全已知，路径规划可以分为环境信息完全已知的离线全局路径规划和环境信息完全或部分未知的在线局部路径规划，又称为静态路径规划和动态路径规划。目前，确定环境下的全局路径规划研究已较成熟，未知环境下的路径规划问题仍是机器人研究领域的热点问题。

传统的路径规划算法大多基于图论，在环境的几何模型上搜索某种最优或次优的避碰路径。近年来，随着人工智能的深入研究，研究者们将人工势场法、模糊逻辑、神经网络、遗传算法、强化学习等应用于路径规划，提出了多种智能路径规划算法。

人工势场法计算简单，便于实现，但可能陷入局部极小点，运动到一个合力为零的死区，规划失败，无法到达目标位置。模糊逻辑算法不需精确的系统模型，可以根据模糊信息，针对环境知识总结出规则，但当环境复杂时，难以建立全面的规则库，规则库的建立和修改需要花费大量时间，且缺乏泛化能力。采用神经网络算法进行路径规划，较难获得具有代表性的训练样本。遗传算法基于自然选择和基因遗传的搜索算法，通过机器人对环境的逐渐适应，学会相应的避碰行为，但实时性差，且较难构造合适的适应度函数。

强化学习是一种无监督的学习方法，其中的Q-学习算法不需要建立环境模型、算法简单、易于使用，许多研究者应用Q-学习算法获取未知环境下机器人控制策略，实现复杂环境下移动机器人的路径规划。

2002年发表在《7^th International Workshop on Advanced Motion Control》（《第七届国际先进运动控制研讨会》）462-466页的论文《A reinforcement learning approach toobstacle avoidance of mobile robots》（《一种基于强化学习的移动机器人避障方法》）不需环境先验知识、通过与环境的交互学习，利用无监督的Q-学习算法实现移动机器人的无碰路径规划。2004年发表在《IEEE Proceedingsof the3^rd International Conference onMachine Learning and Cybernetics》（《第三届IEEE机器学习和控制论国际会议论文集》）48-52页的论文《Mobile robot navigation using neural Q-learning》（《基于神经网络Q-学习算法的移动机器人导航》）采用了多层前馈神经网络逼近值函数Q-学习，机器人经过多次尝试后能够在环境中找到一条无碰路径进行导航。2004年发表在《Proceedings of the IEEEInternational Conference on Networking,Sens ing&Control》（《IEEE网络、传感器和控制国际会议论文集》）的论文《A reinforcement-learning approach to robot navigation》（《一种用于机器人导航的强化学习方法》）提出了一种基于强化学习的移动机器人导航方法，通过强化学习建立的模糊规则把传感器的观测映射到机器人适当的动作行为，实现移动机器人的路径规划。但是上述方法仅适用于静态环境并且学习时间长，效率低，对于复杂环境，难以收敛，不能够在短时间内找到一条最优路径。2008年发表在《Neural Networks》（《神经网络》）第21卷，第10期，1556-1566页的论文《Automatic generation of fuzzyinference systems via unsupervised learning》（无监督学习自动生成模糊推理系统）提出了一种能够自动生成模糊推理系统的增强型动态模糊Q-学习方法，仿真研究了单个移动机器人避障和沿壁行走行为，说明了这种新方法的有效性，但是这种方法也仅限于解决静态环境下的路径规划。2008年发表在《Applied Artificial Intelligence》（《应用人工智能》）第22卷，第7-8期，761-779页的论文《Reinforcement learning for POMDP using stateclassification》（《基于状态分类的部分可观察马尔可夫决策过程的强化学习》）提出将强化学习与递归神经网络相结合，将状态空间分成完全可观的状态和隐状态，利用Q值表存放完全可观状态的值，用回归神经网络近似隐状态的值，但是该方法仍旧没有解决复杂环境中学习算法收敛速度慢的问题。2011年发表在《Robotics and Computer-IntegratedManufacturing》（《机器人学与计算机集成制造》）第27卷，第1期，135-149页的论文《Reinforcement based mobile robot navigation in dynamic environment》（《动态环境下基于强化学习的移动机器人导航》）采用Q-学习算法实现动态环境下移动机器人导航，为了解决动态环境下状态值储存量大的问题，通过对状态空间进行重新定义，减少Q值表大小，从而加快了算法速度。

作为一种智能的路径规划算法，强化学习算法已被广泛地应用于移动机器人的路径规划问题。虽然经典单步Q学习算法较简单，但动态寻优和学习速度慢，如何对收敛过程进行改善，使得算法以较快速度收敛，以较短的时间找到最优或次优路径，是机器人行为学习急需解决的问题。

1996年发表在《Machine Learning》（机器学习）第22卷，第1-3期，283-290页的论文《Incremental Multi-step Q-learning》(递增的多步Q-学习算法)提出的多步Q(λ)在线回溯算法引入回溯和遗忘跟踪原理，显式地利用资格迹衰退系数λ，对将来多步决策的在线强化信息进行高效的回溯操作，提高了算法收敛速度。但是，多步Q(λ)算法利用资格迹衰退系数，将后续状态-动作的强化信息直接作用于前面的状态-动作对的Q值，不能及早校正错误动作决策，存在无意义的搜索，学习时间有待进一步减少，收敛速度有待进一步提高。

发明内容

本发明针对现有强化学习算法在未知环境下移动机器人路径规划应用中存在的学习时间长、收敛速度慢等不足，提出了一种能够在复杂环境中快速高效地搜索到最优路径的基于单链序贯回溯Q学习的移动机器人路径规划算法。

本发明的基于单链序贯回溯Q学习的移动机器人路径规划算法，是：

使用栅格法表示二维环境，每块环境区域都对应一个离散的位置表示，移动机器人在某一时刻的状态就表示为机器人所在环境位置，按照移动机器人顺序通过的环境位置依次排列，形成移动机器人的状态单链，移动机器人的每一步搜索，都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础，从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端即初始位置的Q值，直到到达目标位置，移动机器人循环往复地从初始位置开始寻找到达目标位置的路径，在搜索的每一步按照上述步骤，不断迭代和优化状态的Q值，直到收敛为止；具体步骤如下：

（1）建立状态单链：

在每一t时刻，为移动机器人记忆矩阵M(t)增加一行M(t)←[s_t,a_t,r_t,λ_t]，其中s_t表示机器人的当前状态，当前状态就是机器人所在位置的坐标，s_t＝[x_t,y_t]），a_t表示在当前状态下执行的动作，包括向上、向下、向左、向右、静止五个动作，分别表示为[0,1]，[0,-1]，[-1,0]，[1,0]，[0,0]，动作集合表示为A，当前状态s_t与五个动作构成五个状态-动作对，每一个状态-动作对对应一个Q值Q(s,a)，所有的Q(s,a)初始化为零，并根据步骤（2）中的迭代更新公式进行更新，根据贪婪策略选择动作a_t，即选择满足也就是选择与当前状态s_t构成的五个状态-动作对的Q值最大的动作作为a_t，s_t+1表示执行动作a_t后下一时刻状态值，r_t表示对动作a_t奖励值，如果执行a_t后的下一个坐标上有障碍物，则机器人下一时刻状态s_t+1仍为s_t的坐标值，奖励值r_t＝-0.2；如果执行a_t后的下一个坐标上没有障碍物，则s_t+1为该坐标，奖励值r_t＝-0.1；如果执行a_t后的下一个坐标是目标位置即终点，则奖励值r_t＝1；λ_t∈(0,1)表示学习率，只要λ_t∈(0,1)，经过有限次迭代，Q-学习算法一定能够收敛于最优解（1992年发表在《Machine Learning》（《机器学习》）第8卷279-292页的论文《Q-Learning》（《Q-学习》中已证明），这里取λ_t＝0.3；从初始时刻t＝0到当前时刻t＝n，所有的状态依序构成一个状态单链；

（2）序贯回溯迭代：

在t+1时刻，记忆矩阵M(t)增加一行新内容[s_t+1,a_t+1,r_t+1,λ_t+1]，并根据记忆矩阵中存储的状态链，用Q-学习迭代公式进行序贯回溯迭代更新：

对于k＝t,t-1,t-2,…,1,0，执行：

Q_{t + 1} (s_{k}, a_{k}) &LeftArrow; (1 - λ_{k}) Q_{t} (s_{k}, a_{k}) + λ_{k} [r_{k} + γ \max_{a_{k + 1} &Element; A} Q_{t + 1} (s_{k + 1}, a_{k + 1})],

其中，γ是折扣因子，反映了后续状态-动作对对应的Q值对状态单链中前面状态动作对Q-值的影响，使得某一状态的动作决策能够直接受到其后续状态的影响，γ∈(0,1)，值越大，后续状态对状态单链中前面的状态动作选择影响越大，在移动机器人路径规划问题中，为了使状态单链中前面的动作选择对后续状态的Q值影响及时反馈回来，取γ＝0.95；

通过序贯回溯迭代，在t+1时刻不仅更新了状态s_t的Q值，也顺序地更新了状态单链中s_t前面的状态s_t-1，s_t-2,……，s₂，s₁，s₀的Q值，迭代过程如下：

其中s₀表示机器人的初始状态（起始位置），s₁表示t＝1时机器人状态（所在环境位置），……，s_n表示t＝n时机器人状态（所在环境位置），箭头表示数据传递方向，所传递的数据包括奖励值r_k和状态-动作对的Q值；

这样，t+n时刻的状态-动作对(s_t+n,a_t+n)的Q值通过单链序贯回溯迭代更新t时刻机器人状态-动作对的Q值，

Q_{t + n} (s_{t + n - 1}, a_{t + n - 1}) &LeftArrow; (1 - λ_{t + n - 1}) Q_{t + n - 1} (s_{t + n - 1}, a_{t + n - 1}) + λ_{t + n - 1} {r_{t + n - 1} + \underset{a_{t + n} &Element; A}{γ \max} Q_{t + n} (s_{t + n}, a_{t + n})},

Q_{t + n} (s_{t + n - 2}, a_{t + n - 2}) &LeftArrow; (1 - λ_{t + n - 2}) Q_{t + n - 1} (s_{t + n - 2}, a_{t + n - 2}) + λ_{t + n - 2} {r_{t + n - 2} + \underset{a_{t + n - 1} &Element; A}{γ \max} Q_{t + n} (s_{t + n - 1}, a_{t + n - 1})} \cdot \cdot \cdot

\cdot \cdot \cdot, Q_{t + n} (s_{t + 1}, a_{t + 1}) &LeftArrow; (1 - λ_{t + 1}) Q_{t + n - 1} (s_{t + 1}, a_{t + 1}) + λ_{t + 1} {r_{t + 1} + \underset{a_{t + 2} &Element; A}{γ \max} Q_{t + n} (s_{t + 2}, a_{t + 2})},

Q_{t + n} (s_{t}, a_{t}) &LeftArrow; (1 - λ_{t}) Q_{t + n - 1} (s_{t}, a_{t}) + λ_{t} {r_{t} + \underset{a_{t + 1} &Element; A}{γ \max} Q_{t + n} (s_{t + 1}, a_{t + 1})};

（3）寻找目标点：

移动机器人在环境中每走一步，就会在记忆矩阵M(t)增加一行，并按照记忆矩阵，依次序贯迭代修正单链中前面所有状态-动作对所对应的Q值，直到到达目标位置，并更新完单链中所有状态-动作对对应的Q值，才会停止本次路径搜索；

（4）机器人回到初始状态，在先前建立的Q值表基础上继续搜索，直到收敛，找到最优路径。

本发明是在Q-学习算法基础上提出的一种单链序贯回溯Q-学习算法，在每一步的路径搜索中，建立状态单链，状态单链中后续状态顺序向前以依次迭代更新前面状态-动作对的Q值，与经典一步迭代Q-学习算法相比，增加了一步路径搜索中状态单链中前面各个状态动作对Q值的迭代更新次数，减少了收敛所需路径搜索的总次数，加快了Q值收敛速度；与多步Q(λ)算法相比，二者都利用了回溯使得某一状态的动作决策受到后续状态的影响，但二者有本质不同，多步Q(λ)算法利用资格迹衰退系数，将后续状态-动作的强化信息直接作用于前面的状态-动作对的Q值，而单链序贯回溯Q-算法则是在状态单链上，利用经典的一步迭代Q-学习算法，依序回溯，逐步更新前面状态-动作对的Q值，后续动作产生的奖赏值及时反馈回来，及早校正错误动作决策，减少无意义的搜索，进一步减少了学习时间、提高了收敛速度，能够满足复杂环境下移动机器人路径规划实时性要求，能够以更少的学习步数和更快的收敛速度使移动机器人在未知复杂环境中搜索到最优路径。

本发明在搜索过程中，按照顺序建立状态单链，在单链中以状态-动作对Q值的序贯回溯迭代提高学习效率，搜索最优路径需要的步数远少于经典Q-学习算法和Q(λ)算法，学习时间较短，学习效率较高，特别是对于大环境，优势更加明显。

附图说明

图1是状态单链示意图。

图2是简单环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索到的最优路径。

图3是简单环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索路径长度的收敛情况。

图4是简单环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法路径长度标准差的收敛情况。

图5是环形环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索到的最优路径。

图6是环形环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索路径长度的收敛情况。

图7是环形环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法路径长度标准差的收敛情况。

图8是复杂环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索到的最优路径。

图9是复杂环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索路径长度的收敛情况。

图10是复杂环境下Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法路径长度标准差的收敛情况。

具体实施方式

1．Q-学习算法

Q-学习算法是一种迭代算法，对每个状态-动作对赋予一个对应的Q值，Q值定义为强化学习折扣奖赏和，某个动作策略改变了环境状态，就会获得强化信号，根据强化信号，迭代更新Q值，正确动作对应的Q值不断增加，错误动作对应的Q值不断减小，直到各状态动作对的Q值稳定收敛为止，从起点到目标点的最优路径就确定了。迭代过程如下：

其中s₀表示机器人的初始状态（起始位置），s₁表示t＝1时机器人状态（所在环境位置），……，s_n表示t＝n时机器人状态（所在环境位置），箭头表示数据传递方向，所传递的数据包括奖励值r_k和状态-动作对的Q值。Q-学习算法每一步搜索只更新一个数据。

2．回溯

回溯可以使得后续产生的状态及时反馈影响先前的动作，在路径规划中的实际意义为：通过数据的不断传递，某一状态的动作决策受其后续状态的影响。如果未来某一动作决策是一个失败决策，那么当前动作决策也要承担相应的责任，并且会把这种影响追加到当前决策上来。如果未来某一决策是一个正确决策，那么当前的决策也要获得相应奖励，同样也要把这种影响追加到当前决策。

3.多步Q(λ)算法

多步Q(λ)算法引入遗忘跟踪的原理，对每一个经历过的状态-动作对(s_k,a_k)定义一个跟踪迹，

遗忘衰减系数λ(0＜λ＜1)和折扣系数γ(0＜γ＜1)，由此跟踪状态是指数衰减渐进遗忘的过程。

根据渐进跟踪遗忘的原理，传递而来的数据将会有一定衰减，第i个状态动作对，经历了n-i的单位时间后，传递回来的数据即为（λγ）^n-i-1δ，δ是由最接近当前的两个状态，即状态s_t+k和下一个状态s_t+k+1共同决定的。

δ_{t + k} = r_{t + k} + γ \max_{a_{t + k + 1} &Element; A} (Q (s_{t + k + 1}, a_{t + k + 1})) - Q (s_{t + k}, a_{t + k})

在每一步训练中，并行更新所有经历过的状态动作对，称为多步Q-学习算法，其迭代过程如下：

t时刻的状态，在t+n时刻，其被记忆的状态动作对相应的Q值经过每一个时刻的积累变为：

Q (s_{t}, a_{t}) = Q (s_{t}, a_{t}) + Σ_{k = 1}^{n - 1} e_{t + k} (s_{t}, a_{t}) δ_{t + k}

= Q (s_{t}, a_{t}) + Σ_{k = 1}^{n - 1} {(λγ)}^{k} δ_{t + k},

4．Q-学习算法及其改进算法的状态收敛条件

假设状态-动作对(s_t,a_t)对应的Q值的初始值为Q_t，(s_t,a_t)指向状态s_t+1，若λ_t∈(0,1)，且s_t+1的所有状态动作对收敛，则经过足够多的迭代次数，Q(s_t,a_t)必将收敛。

证明：

Q_{t + 1} (s_{t}, a_{t}) &LeftArrow; (1 - λ_{t}) Q_{t} (s_{t}, a_{t}) + λ_{t} {r_{t} + \underset{a_{t + 1} &Element; A}{γ \max} Q_{t + 1} (s_{t + 1}, a_{t + 1})} - - - (1)

由公式（1），状态s_t上的Q值Q(s_t,a_t)稳定的必要条件是状态s_t+1上的

恒定，Q_t+1为一常数；否则状态s_t上的Q值将随着Q_t+1的变化而变化。

由假设条件s_t+1的所有状态动作对收敛，即

恒定，Q_t+1为一常数，令λ_t＝α。为求Q(s_t,a_t)的稳定状态，通过公式（1）进行迭代，得：

一次迭代Q(s_t,a_t)＝(1-α)Q_t+α(r+γQ_t+1)

二次迭代Q(s_t,a_t)＝(1-α)²Q_t+(1-α)α(r+γQ_t+1)+α(r+γQ_t+1)

三次迭代

Q(s_t,a_t)＝(1-α)³Q_t+(1-α)²α(r+γQ_t+1)+(1-α)α(r+γQ_t+1)+α(r+γQ_t+1)

……

n次迭代

∵α＝λ_t∈(0,1)，

∴0＜(1-α)＜1，

当Q(s_t,a_t)有足够迭代次数m时，

{(1 - α)}^{m} &RightArrow; 0, Q (s_{t}, a_{t}) = r + γ \max_{a_{t + 1} &Element; A} (Q (s_{t + 1}, a_{t + 1})) = r + γ Q_{t + 1} - - - (3)

Q(s_t,a_t)收敛。

证明完毕。

5.理想收敛步数

根据收敛条件知道后一个状态的收敛是前一个状态收敛的必要条件，状态单链中各状态-动作对的收敛顺序是不同的，目标位置状态最先收敛，靠近目标位置状态的状态-动作对的Q值较早收敛，远离目标位置状态的状态-动作对的Q值收敛较晚。状态-动作对的Q值趋于收敛，就可为移动机器人路径规划提供正确决策帮助，状态-动作对的Q值不收敛，就有可能使得移动机器人做无意义的移动。

下面通过比较Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法在相同状态单链中某一状态-动作对收敛所需步数，证明单链序贯回溯Q-学习算法的快速收敛性。

（1）单个状态Q值收敛所需最少迭代次数

由Q-学习及其改进算法的状态收敛条件知道，足够的迭代次数是某一状态s_t收敛的必要条件，若对应的下一个状态s_t+1收敛，状态s_t收敛需要的迭代次数是最小迭代次数M。若满足(1-α)^m＜ε，需m＞lnε/ln(1-α)，m的下限值为lnε/ln(1-α)，则M＝lnε/ln(1-α)为最小迭代次数。

（2）状态链收敛所需步数比较

理想稳定状态下，状态链上所有状态-动作对都收敛，状态单链示意图如图1所示。状态单链中任意一个状态s_k，距离目标位置状态s_goal为L个状态。从目标状态，由倒数第一个状态收敛逐级到s_k收敛，Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法三种方法至少需要的总探索步数分别如表1和表2所示。

表1Q-学习算法和Q(λ)算法状态收敛

表2单链序贯回溯Q-学习算法状态收敛表

Q-学习算法和Q(λ)算法由倒数第一个状态收敛，到s_k收敛，至少需要总搜索步数为：

N_Q＝N_λ＝L·M·T

单链序贯回溯Q-学习算法由倒数第一个状态收敛，逐级到s_k收敛，至少需要总搜索步数为：

N_SQ＝M·T·(1+1/2+1/3……+1/L)，

显然，对于

所以N_SQ＜N_Q，N_SQ＜N_λ。

所以，单链序贯回溯Q-学习算法的收敛所需搜索步数小于其他两种强化学习算法更快。

6．基于单链序贯回溯Q-学习的移动机器人路径规划算法

6.1环境和动作设置

利用栅格法表示二维环境，每一栅格对应于1（有障碍物），或0（无障碍物）。

移动机器人在任一时刻可采取“向上、向下、向左、向右、静止”这五个动作的任一个动作，沿着栅格线移动。用变量Actionselect表征动作集合A，Actionselect=[0,1；0,-1；-1,0；1,0；0,0]。

6.2参数设定

环境表示为10×10的栅格，机器人在任一时刻都可以执行五个动作中的任一个动作，每个状态-动作对都对应一个Q值，则对应有500个Q值。Q值表初始化为1×500的零矩阵。

奖励值函数定义为：

设置折扣因子γ＝0.95，学习效率λ_t＝0.3，记忆矩阵M(t)=[]，该矩阵的行数随着搜索步数的增加而增加。设置最小搜索（从初始位置到目标位置）次数Mintrials=10，移动机器人在搜索到10个从初始位置到目标位置的路径之后，再每搜索到一个新的路径之后，计算已搜索所有路径长度的标准差，如果路径长度标准差小于Convgoal=0.01，则搜索到最优路径，停止搜索。设置最大搜索（初始状态到目标状态）次数Trials=500，每次搜索最大步数Maxiter=2000。

6.3单链序贯回溯Q-学习算法的步骤

步骤1：初始化；

步骤2：机器人从初始状态（即起始位置）s₀开始移动，搜索到达目标状态（即目标位置）的路径；

步骤3：根据当前状态（即当前所在环境位置）s_t所对应的五个状态-动作对a_t∈A对应的Q值Q(s_t,a_t)，通过贪婪决策方法，选择最大Q值对应的动作

将位置状态s_t和动作a_t等参数作为新的一行添加到记忆矩阵中M(t)←[s_t,a_t,r_t,λ_t]；

步骤4：获取下一个状态s_t+1和奖励值r_t，如果下一个坐标上有障碍物，则机器人下一个状态s_t+1仍为原来坐标，奖励值为r_t＝-0.2；如果下一个坐标上没有障碍物，则进入下一个坐标，且返回奖励值r_t＝-0.1；如果下一个坐标是终点，则返回奖励值r_t＝1，达到终点；

步骤5：根据记忆矩阵中记忆的状态链的顺序，按照经典Q-学习算法一步迭代公式，序贯迭代更新状态链中前面的动作-状态对的Q值：

对于k＝t,t-1,…,1,0，顺序执行

Q_{t + 1} (s_{k}, a_{k}) &LeftArrow; (1 - λ_{k}) Q_{t} (s_{k}, a_{k}) + λ_{k} {r_{k} + γ \max_{a_{k + 1} &Element; A} Q_{t + 1} (s_{k + 1}, a_{k + 1})},

更新Q值表中相应状态-动作对的Q值；

步骤6：若当前状态（即当前所在环境位置）s_t+1是终点，进入步骤7。若不是终点，判断本次搜索步数是否超过最大搜索步数Maxiter，若超过，则返回步骤2，重新搜索；若没有超过，则返回步骤3；

步骤7：判断机器人搜索次数是否超过最小搜索次数Mintrials，超过则进入步骤8；否则，返回步骤2，继续搜索；

步骤8：计算已搜索所有路径长度的标准差，若小于Convgoal，则说明搜索已收敛，已搜索到最优路径，进入步骤9；否则，返回步骤2，继续搜索；

步骤9：结束。

6.4仿真实验和结果分析

在基于MATLAB GUI建立的路径规划仿真界面上进行仿真实验。栅格地图中，黑色方块区域表示障碍物，白色方块区域表示该位置没有障碍物。地图中障碍物的分布和终点位置对于移动机器人来说都是未知的。

设定了三种环境，简单环境、环形环境、复杂环境，针对这三种不同环境，分别应用Q-学习算法、Q(λ)算法和单链序贯回溯Q-学习算法搜索最优路径。如图2、图5和图8所示，分别为三种环境下利用三种强化学习方法搜索到的从起始位置到目标位置的最优路径。如图3、图6和图9所示，分别为三种环境下利用三种强化学习方法搜索路径长度的收敛情况。如图4、图7和图10所示，分别为三种环境下利用三种强化学习方法搜索路径长度标准差的收敛情况。表3、表4和表5分别比较了三种环境下三种强化学习方法搜索到最优路径所需的程序运行总时间和搜索次数。

表3简单环境下三种算法的实验结果比较

算法名称	Q学习算法	Q(λ)算法	单链序贯回溯Q-学习算法
				程序运行总时间(s)	248	136	53
搜索次数	4941	2409	1354

表4环形环境下三种算法的实验结果比较

算法名称	Q学习算法	Q(λ)算法	单链序贯回溯Q-学习算法
				程序运行总时间(s)	291	152	66
搜索次数	6351	3345	1856

表5复杂环境下三种算法的实验结果比较

算法名称	Q学习算法	Q(λ)算法	单链序贯回溯Q-学习算法
				程序运行总时间(s)	443	248	40
搜索次数	8790	5056	1129

仿真实验结果表明，单链序贯回溯Q-学习算法与传统Q-学习算法和Q(λ)算法相比，能够以较快的收敛速度和较少的搜索次数寻找到最优路径，特别是复杂环境，优势更加明显，能够满足复杂环境下移动机器人路径规划实时性要求。

Claims

1.一种基于单链序贯回溯Q学习的移动机器人路径规划算法，其特征是：

（1）建立状态单链：

在每一t时刻，为移动机器人记忆矩阵M(t)增加一行M(t)←[s_t,a_t,r_t,λ_t]，其中s_t表示机器人的当前状态，当前状态就是机器人所在位置的坐标，s_t＝[x_t,y_t]），a_t表示在当前状态下执行的动作，包括向上、向下、向左、向右、静止五个动作，分别表示为[0,1]，[0,-1]，[-1,0]，[1,0]，[0,0]，动作集合表示为A，当前状态s_t与五个动作构成五个状态-动作对，每一个状态-动作对对应一个Q值Q(s,a)，所有的Q(s,a)初始化为零，并根据步骤（2）中的迭代更新公式进行更新，根据贪婪策略选择动作a_t，即选择满足也就是选择与当前状态s_t构成的五个状态-动作对的Q值最大的动作作为a_t，s_t+1表示执行动作a_t后下一时刻状态值，r_t表示对动作a_t奖励值，如果执行a_t后的下一个坐标上有障碍物，则机器人下一时刻状态s_t+1仍为s_t的坐标值，奖励值r_t＝-0.2；如果执行a_t后的下一个坐标上没有障碍物，则s_t+1为该坐标，奖励值r_t＝-0.1；如果执行a_t后的下一个坐标是目标位置即终点，则奖励值r_t＝1；λ_t∈(0,1)表示学习率，只要λ_t∈(0,1)，经过有限次迭代，Q-学习算法一定能够收敛于最优解，这里取λ_t＝0.3；从初始时刻t＝0到当前时刻t＝n，所有的状态依序构成一个状态单链；

（2）序贯回溯迭代：

对于k＝t,t-1,t-2,…,1,0，执行：

Q_{t + 1} (s_{k}, a_{k}) &LeftArrow; (1 - λ_{k}) Q_{t} (s_{k}, a_{k}) + λ_{k} [r_{k} + γ \max_{a_{k + 1} &Element; A} Q_{t + 1} (s_{k + 1}, a_{k + 1})],

其中s₀表示机器人的初始状态，s₁表示t＝1时机器人状态，……，s_n表示t＝n时机器人状态，箭头表示数据传递方向，所传递的数据包括奖励值r_k和状态-动作对的Q值；

Q_{t + n} (s_{t + n - 1}, a_{t + n - 1}) &LeftArrow; (1 - λ_{t + n - 1}) Q_{t + n - 1} (s_{t + n - 1}, a_{t + n - 1}) + λ_{t + n - 1} {r_{t + n - 1} + \underset{a_{t + n} &Element; A}{γ \max} Q_{t + n} (s_{t + n}, a_{t + n})},

Q_{t + n} (s_{t + n - 2}, a_{t + n - 2}) &LeftArrow; (1 - λ_{t + n - 2}) Q_{t + n - 1} (s_{t + n - 2}, a_{t + n - 2}) + λ_{t + n - 2} {r_{t + n - 2} + \underset{a_{t + n - 1} &Element; A}{γ \max} Q_{t + n} (s_{t + n - 1}, a_{t + n - 1})} \cdot \cdot \cdot

\cdot \cdot \cdot, Q_{t + n} (s_{t + 1}, a_{t + 1}) &LeftArrow; (1 - λ_{t + 1}) Q_{t + n - 1} (s_{t + 1}, a_{t + 1}) + λ_{t + 1} {r_{t + 1} + \underset{a_{t + 2} &Element; A}{γ \max} Q_{t + n} (s_{t + 2}, a_{t + 2})},

Q_{t + n} (s_{t}, a_{t}) &LeftArrow; (1 - λ_{t}) Q_{t + n - 1} (s_{t}, a_{t}) + λ_{t} {r_{t} + \underset{a_{t + 1} &Element; A}{γ \max} Q_{t + n} (s_{t + 1}, a_{t + 1})};

（3）寻找目标点：