CN102819264A

CN102819264A - 移动机器人路径规划q学习初始化方法

Info

Publication number: CN102819264A
Application number: CN2012102692807A
Authority: CN
Inventors: 宋勇; 李贻斌; 刘冰; 王小利; 荣学文
Original assignee: Shandong University
Current assignee: Shandong University Weihai
Priority date: 2012-07-30
Filing date: 2012-07-30
Publication date: 2012-12-12
Anticipated expiration: 2032-07-30
Also published as: CN102819264B

Abstract

本发明公开了一种基于人工势能场的移动机器人强化学习初始化方法。将机器人工作环境虚拟化为一个人工势能场，利用先验知识确定所有状态的势能值，使得障碍物区域势能值为零，目标点具有全局最大的势能值，这时人工势能场中每个状态的势能值就代表相应状态遵循最优策略获得的最大累积回报。然后定义Q初始值为当前状态的立即回报加上后继状态的最大折算累积回报。人工势能场将已知环境信息映射成为Q函数初始值，从而将先验知识融入到机器人学习系统中，提高了机器人在强化学习初始阶段的学习能力，与传统Q学习算法相比，本发明能够有效提高初始阶段的学习效率，加快算法收敛速度，算法收敛过程更稳定。

Description

移动机器人路径规划Q学习初始化方法

技术领域

本发明属于机器学习技术领域，尤其涉及一种移动机器人路径规划Q学习初始化方法。

背景技术

随着机器人应用领域的不断拓展，机器人所面临的任务也越来越复杂，尽管很多情况下研究人员可以对机器人可能执行的重复行为进行预编程，但为实现整体的期望行为而进行行为设计变得越来越困难，设计人员往往不可能事先对机器人的所有行为做出合理的预测。因此，能够感知环境的自治机器人必须能够通过与环境的交互在线学习获得新的行为，使得机器人能够根据特定的任务选择能达到目标的最优动作。

强化学习利用类似于人类思维中的试错(trial-and-error)的方法来发现最优行为策略，目前已经在机器人行为学习方面展现出了良好的学习性能。Q学习算法是求解信息不完全Markov决策问题的一种强化学习方法，根据环境状态和上一步学习获得的立即回报，修改从状态到动作的映射策略，以使行为从环境中获得的累积回报值最大，从而获得最优行为策略。标准Q学习算法一般将Q值初始化为0或随机数，机器人没有对环境的先验知识，学习的初始阶段只能随机地选择动作，因此，在复杂环境中算法收敛速度较慢。为了提高算法收敛速度，研究人员提出了许多改进Q学习的方法，提高算法学习效率，改善学习性能。

通常情况下，加速Q学习收敛速度的方法主要包括两个方面：一种方法是设计合适的回报函数，另一种方法是合理初始化Q函数。

目前，研究人员已经提出了许多改进的Q学习算法，使机器人在强化学习的过程中能够获得更加有效的回报，主要包括：关联Q学习算法、惰性Q学习算法、贝叶斯Q学习算法等。其主要目的就是将对于机器人有价值的隐含信息融入到回报函数中，从而加速算法收敛速度。

关联Q学习将当前回报与过去时刻的立即回报进行比较，选择回报值更大的动作，通过关联回报方法能够改善系统的学习能力，减少获得最优值所需要的迭代步数。

惰性Q学习的目标是提供一种预测状态立即回报的方法，学习过程中利用信息延迟原则，在必要的情况下对新的目标进行预测，动作比较器检查每一种情形的期望回报，然后选择期望回报最大的动作执行。

贝叶斯Q学习利用概率分布描述机器人状态-动作对Q值的不确定性估计，学习过程中需要考虑前一时刻Q值的分布，并利用机器人学习到的经验对先前的分布进行更新，利用贝叶斯变量表示当前状态的最大累积回报，贝叶斯方法从本质上改进了Q学习的探索策略，改善了Q学习的性能。

由于标准强化学习中强化信号都是由状态值函数计算得到的标量值，无法将人的知识形态和行为模式融入到学习系统中。而在机器人学习过程中，人往往具有相关领域的经验和知识，因此，在学习过程中将人的认知和智能以强化信号的形式反馈给机器人，能够减小状态空间维数，加快算法收敛速度。针对标准强化学习在人机交互过程中存在的问题，Thomaz等在机器人强化学习过程中由人实时地给出外部强化信号，人根据自身经验调整训练行为，引导机器人进行前瞻性探索。Arsenio提出了一种对训练数据进行在线、自动标注的学习策略，在人机交互过程中通过触发特定的事件获得训练数据，从而将施教者嵌入到强化学习的反馈回路。Mirza等提出了基于交互历史的体系结构，机器人能够利用与人进行社会性交互的历史经验进行强化学习，使机器人能够在与人进行的简单游戏中逐渐获得合适的行为。

另一种改善Q学习算法性能的方法就是将先验知识融入到学习系统中，对Q值进行初始化。目前，对Q值进行初始化的方法主要包括近似函数法、模糊规则法、势函数法等。

近似函数法利用神经网络等智能系统逼近最优值函数，将先验知识映射成为回报函数值，使机器人在整个状态空间的子集上进行学习，从而能够加快算法收敛速度。

模糊规则法根据初始环境信息建立模糊规则库，然后利用模糊逻辑对Q值进行初始化。利用这种方法建立的模糊规则都是根据环境信息人为设定的，往往不能客观地反映机器人的环境状态，造成算法不稳定。

势函数法在整个状态空间定义相应的状态势函数，每一点势能值对应于状态空间中某一离散状态值，然后利用状态势函数对Q值进行初始化，学习系统的Q值可以表示为初始值加上每次迭代的改变量。

在机器人的各种行为当中，机器人必须遵守一系列的行为准则，机器人通过认知与交互作用涌现出相应的行为与智能，机器人强化学习Q值初始化就是要将先验知识映射成为相应的机器人行为。因此，如何获得先验知识的规则化表达形式，特别是实现领域专家的经验与常识知识的机器推理，将人的认知和智能转化为机器的计算和推理的人机智能融合技术是机器人行为学习急需解决的问题。

发明内容

本发明的目的就是为了解决上述问题，提供一种移动机器人路径规划Q学习初始化方法，该方法通过Q值初始化能够将先验知识融入到学习系统中，对机器人初始阶段的学习进行优化，从而为机器人提供一个较好的学习基础，具有能够有效提高初始阶段的学习效率、加快收敛速度的优点。

为了实现上述目的，本发明采用如下技术方案：

一种移动机器人路径规划Q学习初始化方法，具体包括以下步骤：

步骤一：建立人工势能场模型：根据已知环境信息在机器人工作空间构建人工势能场，使得障碍物区域势能值为零，目标点具有全局最大的势能值，整个势能场形成单调递增的曲面，这时人工势能场中每个状态的势能值就代表该状态可获得的最大累积回报；

步骤二：设计回报函数；

步骤三：计算最大累积回报初始值：将每个状态的势能值作为该状态遵循最优行为策略所能够获得的最大累积回报；

步骤四：Q值初始化：将所有状态-动作对的Q(s,a)初始值定义为当前状态执行选定的动作获得的立即回报加上后继状态遵循最优策略获得的最大折算累积回报（最大累积回报乘以折算因子）；

步骤五：基于人工势能场的移动机器人Q学习：移动机器人在初始Q值的基础上继续在复杂环境中进行学习，通过Q值初始化能够将先验知识融入到学习系统中，对机器人初始阶段的学习进行优化，从而为机器人提供一个较好的学习基础。

所述步骤一中，人工势能场法是由Khatib最先提出来的一种虚拟方法，最初只是为了解决机械手臂的避障问题，目前已成为应用最为广泛的机器人实时路径规划方法之一。其基本原理是将机器人的整个工作环境虚拟化为每一状态点都具有相应势能的空间，目标点在全局环境产生引力势场，障碍物在局部产生斥力场，利用叠加原理将引力场与斥力场叠加产生势场中每个状态的总场强。在人工势场中机器人依靠斥力场进行避障，利用引力场趋向目标，使得机器人能够从起始位置出发，避开障碍物到达目标点。目前，大多采用库伦定理创建人工势能场计算模型，某一状态的势能大小反比于该状态与障碍物或目标之间的距离；

所述步骤二中，在学习过程中，机器人能够在4个方向上移动，在任意状态选择上下左右4个动作，机器人根据当前状态选择动作，如果该动作使机器人到达目标则获得的立即回报为1，如果机器人与障碍物或其他机器人发生碰撞则获得立即回报为-0.2，如果机器人在自由空间移动则获得的立即回报为-0.1；

所述步骤三中，根据已知环境信息构造人工势能场U′，定义每个状态的最大累积回报初始值V^* _Init(s_i)等于该状态对应点的势能值|U′|，其关系公式如下：

V_{Init}^{*} (s_{i}) &LeftArrow; | U^{'} (s_{i}) |,

公式中，|U′(s_i)|为状态s_i的势能值，V^* _Init(s_i)为从状态s_i出发遵循最优策略所能获得的最大累积回报初始值；

所述步骤四中，Q值初始化时，定义Q(s_i,a)的初始值为在状态s_i下选择动作a所获得的立即回报r加上后继状态的最大折算累积回报：

Q_{Init} (s_{i}, a) = r + γ V_{Init}^{*} (s_{j})

公式中，s_j为机器人在状态s_i下选择动作a所产生的后继状态，Q_Init(s_i,a)为状态-动作对(s_i,a)的初始Q值；γ为折算因子，选择γ=0.95；

所述步骤五的具体步骤为：

(a)利用构造的人工势能场U′；

(b)状态s_i获得的最大累积回报的初始值定义为该状态的势能值，公式如下：

V_{Init}^{*} (s_{j}) &LeftArrow; | U^{'} (s_{i}) |

(c)按照如下规则初始化Q值：

Q_{Init} (s_{i}, a) = r + γ V_{Init}^{*} (s_{j}),

(d)观察当前状态s_t；

(e)继续在复杂环境中探索，在当前状态s_t下选择一个动作a_t并执行，环境状态更新为新的状态s′_t，并接收立即回报r_t；

(f)观察新状态s′_t；

(g)根据以下公式更新表项Q(s_t,a_t)值：

Q_{t} (s_{t}, a_{t}) = (1 - α_{t}) Q_{t - 1} (s_{t}, a_{t}) + α_{t} (r_{t} + γ \underset{a_{t}^{'}}{\arg} \max Q_{t - 1} (s_{t}^{'}, a_{t}^{'}))

公式中，α_t为学习率，取值范围为(0，1)，通常取值为0.5，并随学习过程衰减；

Q_t-1(s_t,a_t)和Q_t-1(s′_t,a′_t)分别为状态-动作对(s_t,a_t)和(s′_t,a′_t)在t-1时刻的取值，a′_t为在新状态s′_t下选择的动作；

(h)判断机器人是否已经到达目标或者学习系统已经达到设定的最大学习次数（保证学习系统在最大学习次数内收敛，在本发明的实验环境中最大学习次数设置为300），如果两者满足其一，则学习结束，否则返回到步骤(d)继续学习。

本发明的有益效果：

通过人工势能场将已知环境信息映射成为Q函数初始值，从而将先验知识融入到机器人学习系统中，提高了机器人在强化学习初始阶段的学习能力，与传统Q学习算法相比，能够有效提高初始阶段的学习效率，加快算法收敛速度。

附图说明

图1是基于人工势能场的移动机器人强化学习实施步骤流程图；

图2是基于人工势能场的移动机器人Q学习具体算法流程图；

图3是基于初始环境构建的人工势能场示意图；

图4是机器人目标点邻域内状态势能值及初始Q值示意图；

图5是基于标准Q-学习的机器人规划路径示意图；

图6是标准Q-学习算法收敛过程示意图；

图7是改进Q-学习算法收敛过程示意图；

图8是两种Q-学习算法迭代次数标准差示意图。

具体实施方式

下面结合附图与实例对本发明作进一步说明。

本发明基于人工势能场对机器人强化学习进行初始化，将机器人工作环境虚拟化为一个人工势能场，利用先验知识构建人工势能场，使得障碍物区域势能值为零，目标点具有全局最大的势能值，这时人工势能场中每个状态的势能值就代表相应状态遵循最优策略可获得的最大累积回报。然后定义Q初始值为当前状态的立即回报加上后继状态的最大折算累积回报。通过Q值初始化，使得学习过程收敛速度更快，收敛过程更稳定；如图1所示，具体包括以下步骤：

1人工势能场模型

人工势能场法是由Khatib最先提出来的一种虚拟方法，最初只是为了解决机械手臂的避障问题，目前已成为应用最为广泛的机器人实时路径规划方法之一。其基本原理是将机器人的整个工作环境虚拟化为每一状态点都具有相应势能的空间，目标点在全局环境产生引力势场，障碍物在局部产生斥力场，利用叠加原理将引力场与斥力场叠加产生势场中每个状态的总场强。在人工势场中机器人依靠斥力场进行避障，利用引力场趋向目标，使得机器人能够从起始位置出发，避开障碍物到达目标点。目前，大多采用库伦定理创建人工势能场计算模型，某一状态的势能大小反比于该状态与障碍物或目标之间的距离，计算公式如下：

U(s)＝U_a(s)+U_r(s)

其中U(s)为状态s点的势能，U_a(s)为引力场在状态s点产生的势能，U_r(s)为斥力场在状态s点产生的势能。

U_{a} (s) = \frac{1}{2} k_{a} ρ_{g}^{2} (s)

其中k_a为比例因子，ρ_g(s)为状态s点与目标点之间的最短距离。

U_{r} (s) = \{\begin{matrix} \frac{1}{2} k_{r} {(\frac{1}{ρ_{ob} (s)} - \frac{1}{ρ_{0}})}^{2} & ifρ (s) < ρ_{0} \\ 0 & ifρ (s) &GreaterEqual; ρ_{0} \end{matrix}

其中k_r为比例因子，ρ_ob(s)为状态s点与障碍物之间的最短距离，ρ₀为障碍物影响系数。

在人工势能场中，机器人工作的环境被转换为一个矢量场，目标点具有最低势能，势能值为零，障碍物区域具有最高势能。为了缩小势能场量值的范围差，并且使目标点具有全局最高势能，利用如下公式对构造的矢量场进行归一化处理：

U^{'} (s) = \frac{U_{\max} (s) - U (s)}{| U_{\max} (s) |}

其中U′(s)为势能场U′中状态s的势能，U_max(s)为势能场中最高的势能，其对应的势能值为|U_max(s)|。通过上式转换在机器人工作空间构造出一个新的势能场，使得障碍物区域势能值为零，目标点势能值为1，并且整个势能场形成单调递增的曲面。

2回报函数设计

在学习过程中，机器人能够在4个方向上移动，在任意状态可以选择上下左右4个动作，机器人根据当前状态选择动作，如果该动作使机器人到达目标则获得的立即回报为1，如果机器人与障碍物或其他机器人发生碰撞则获得立即回报为-0.2，如果机器人在自由空间移动则获得的立即回报为-0.1。

3计算最大累积回报初始值

利用人工势能场对已知的环境信息进行描述，目标位置在全局范围产生吸引势能场，已知的障碍物产生局部排斥势能场，两种势能场的叠加产生每个状态点的总场强，并对构建的势能场进行归一化处理，使得目标点具有全局最大势能，障碍物区域具有最小势能，所有状态的势能值就构成了一个单峰值的曲面，如图3所示，曲面上每一个点的值就代表其所对应状态可获得的最大累积回报。

机器人从任意初始状态s_t出发获得的累积回报定义如下：

V^{π} (s_{t}) = r_{t} + γ r_{t + 1} + γ^{2} r_{t + 2} + \cdot \cdot \cdot = Σ_{i = 0}^{\infty} γ^{i} r_{t + i}

上式中，π为控制策略，r为获得的立即回报序列，γ为折算因子，取值范围为(0，1)，这里选择γ=0.95；则机器人从状态s出发遵循最优策略所获得的最大累积回报V^*(s)计算如下：

V^{*} (s) = \underset{π}{\arg \max} V^{π} (s), (&ForAll; s)

构建如图1所示的人工势能场，定义每个状态的最大累积回报V^* _Init(s_i)等于该状态的势能值，其关系公式如下：

V_{Init}^{*} (s_{i}) &LeftArrow; | U^{'} (s_{i}) | .

公式中，|U′(s_i)|为状态s_i对应点的势能值，V^* _Init(s_i)为从状态s_i出发遵循最优策略所能获得的最大累积回报初始值。

4基于人工势能场的机器人强化学习

4.1传统Q学习算法

在马尔科夫决策过程中，机器人通过传感器感知周围环境获知当前状态，并选择当前要执行的动作，环境响应该动作并给出立即回报，并产生后继状态。机器人强化学习的任务就是获得一个最优策略使得机器人从当前状态出发获得最大的折算累积回报。机器人从任意初始状态遵循任意策略π获得的累积回报定义为：

V^{π} (s_{t}) &equiv; r_{t} + γ r_{t + 1} + γ^{2} r_{t + 2} + \cdot \cdot \cdot &equiv; Σ_{i = 0}^{\infty} γ^{i} r_{t + i}

公式中，r_t为t时刻的立即回报，γ为折算因子，取值范围为(0，1)，这里选择γ=0.95。

机器人从状态s出发能够获得最大累积回报的最优策略π^*定义如下：

π^{*} &equiv; \underset{π}{\arg \max} V^{π} (s), &ForAll; (s)

机器人从状态s出发遵循最优策略π^*所能够获得的最大累积回报定义为V^*(s)，则Q函数的值为当前状态的立即回报加上后继状态的最大折算累积回报，计算公式如下：

Q(s,a)≡(1-α_t)Q(s,a)+α_t(r(s,a)+γV*(s'))

公式中，α_t为学习率，取值范围为(0，1)，通常选择α_t初始值为0.5，并随学习次数衰减；V*(s’)与Q(s′，a’)关系式如下：

V * (s^{'}) = \underset{a^{'}}{\max Q (s^{'}, a^{'})}

则Q(s_t,a_t)按照如下规则更新：

Q_{t} (s_{t}, a_{t}) = (1 - α_{t}) Q_{t - 1} (s_{t}, a_{t}) + α_{t} (r_{t} + γ \underset{a_{t}^{'}}{\arg} \max Q_{t - 1} (s_{t}^{'}, a_{t}^{'}))

公式中，Q_t-1(s_t,a_t)和Q_t-1(s′_t,a′_t)分别为状态-动作对(s_t,a_t)和(s′_t,a′_t)在t-1时刻的取值，a′_t为在新状态s′_t下选择的动作。

4.2Q值初始化

根据已知环境信息构建人工势能场，这时定义每个离散状态可获得的最大累积回报等于该状态的势能值。然后将从当前状态执行选定的动作获得的立即回报加上后继状态遵循最优策略获得的最大折算累积回报，即可对所有状态-动作对的Q(s_i,a)设置合理的初始值。Q(s_i,a)的初始值计算公式如下：

Q_{Init} (s_{i}, a) = r + γ V_{Init}^{*} (s_{j})

公式中，r为在状态s_i下选择动作a获得的立即回报，γ为折算因子，取值范围为(0，1)，这里选择γ=0.95；s_j为机器人在状态s_i下选择动作a所产生的后继状态，Q_Init(s_i,a)为状态-动作对(s_i，a)的初始Q值；

4.3如图2所示，本发明的基于人工势能场的Q学习算法

(1)根据初始化环境信息构造人工势能场U′。

(2)将状态s_i的势能值|U′(s_i)|定义为从该状态出发采用最优行为策略可获得的最大累积回报，关系公式如下：

V_{Init}^{*} (s_{i}) &LeftArrow; | U^{'} (s_{i}) |

(3)按照如下规则初始化Q值：

Q_Init(s_i,a)＝r+γV_Init*(s_j)

(4)观察当前状态s_t。

(5)继续在复杂环境中探索，在当前状态s_t下选择一个动作a_t并执行，环境状态更新为新的状态s′_t，并接收立即回报r_t。

(6)观察新状态s′_t。

(7)根据以下公式更新表项Q(s_t，a_t)值：

Q_{t} (s_{t}, a_{t}) = (1 - α_{t}) Q_{t - 1} (s_{t}, a_{t}) + α_{t} (r_{t} + γ \underset{a_{t}^{'}}{\arg} \max Q_{t - 1} (s_{t}^{'}, a_{t}^{'}))

(8)判断机器人是否已经到达目标或者学习系统已经达到设定的最大学习次数（保证学习系统在最大学习次数内收敛，在本发明的实验环境中最大学习次数设置为300），如果两者满足其一，则学习结束，否则返回到步骤(4)继续学习。

为了说明机器人强化学习Q值初始化过程，选择仿真实验中机器人目标点邻域进行演示。在人工势能场中，目标点邻域内状态的势能值如图4中节点中数值所示，每个节点对应于一个离散的状态，每个状态的最大累积回报等于该状态的势能值，势能值为1的节点表示目标状态，势能值为0的节点表示障碍物。每个箭头代表一个动作，若机器人导向目标状态G则获得的立即回报为1，若与障碍物发生碰撞则获得的立即回报为-0.2，若机器人在自由空间移动则获得的立即回报为-0.1。γ为折算因子，选择γ=0.95，根据Q值初始化公式可获得Q函数的初始值，每个状态-动作对的初始Q值如图4中箭头代表数值所示。初始化完成以后，机器人在初始环境的任意状态下都能够选择合适的动作，当机器人面临较复杂的环境时，在学习的初始阶段就具有一定的目的性，而不是完全随机地选择动作，从而加快算法收敛速度。

在实验室所建立的移动机器人环境建模和探索软件平台上，进行了仿真实验。图5为现有的机器人强化学习方法获得的机器人规划路径；图6为现有的机器人强化学习算法收敛过程。算法在经过265次尝试以后开始收敛，在学习的初始阶段(如前80次尝试)机器人在最大迭代次数内基本都不能到达目标点。这是由于Q值被初始化为0，使得机器人没有任何先验知识，只能随机地选择动作，从而导致学习初始阶段效率较低，算法收敛速度较慢。

图7为本发明的算法收敛过程，改进算法明显改善了学习过程的收敛性，算法在经过143次尝试以后开始收敛，而且机器人在经过十几次尝试以后，基本都能在最大迭代次数之内到达目标点，与图6比较可以发现，这种启发式Q值初始化方法有效提高了算法初始阶段的学习效率，明显地改善了机器人路径规划强化学习算法的性能；图8为两种Q-学习算法迭代次数标准差，在学习的初始阶段基于标准Q-学习的机器人在最大迭代次数范围内无法到达目标点，每次学习的迭代次数都等于最大迭代次数，标准差为零。随着学习过程的进行，经过几十次尝试机器人偶尔能够到达目标点，标准差逐渐增大。经过一定时间的学习，机器人每次尝试的迭代次数逐渐收敛于最短路径步数，标准差逐渐减小直至为零。与标准Q-学习算法相比，改进的Q-学习算法在经过十几次尝试，标准差就大于零，说明机器人已经开始能够到达目标点。在学习的最后阶段，改进的Q-学习算法的标准差曲线也较平滑，而且收敛速度更快，这一现象表明基于人工势能场的Q值初始化方法能够明显加快算法的收敛速度，并且能够使得算法收敛过程更加稳定。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种移动机器人路径规划Q学习初始化方法，其特征是，具体包括以下步骤：

步骤一：建立人工势能场模型：根据已知环境信息在机器人工作空间构建人工势能场，使得障碍物区域势能值为零，目标点具有全局最大的势能值，整个势能场形成单调递增的曲面，这时人工势能场中每个状态的势能值就代表该状态获得的最大累积回报；

步骤二：设计回报函数；

步骤四：Q值初始化：将所有状态-动作对的Q(s，a)初始值定义为当前状态执行选定的动作获得的立即回报加上后继状态遵循最优策略获得的最大折算累积回报；

步骤五：基于人工势能场的移动机器人Q-学习：移动机器人在初始Q值的基础上继续在复杂环境中进行强化学习，通过Q值初始化能够将先验知识融入到学习系统中，对机器人初始阶段的学习进行优化，从而为机器人提供一个较好的学习基础。

2.如权利要求1所述的一种移动机器人路径规划Q学习初始化方法，其特征是，所述步骤二中，在学习过程中，机器人能够在4个方向上移动，在任意状态选择上下左右4个动作，机器人根据当前状态选择动作。

3.如权利要求1所述的一种移动机器人路径规划Q学习初始化方法，其特征是，所述步骤三中，根据已知环境信息构造人工势能场U′，定义每个状态的最大累积回报初始值V^* _Init(s_i)等于该状态对应点的势能值|U′|，其关系公式如下：

V_{Init}^{*} (s_{i}) &LeftArrow; | U^{'} (s_{i}) |,

公式中，U′(s_i)为状态s_i的势能值，V^* _Init(s_i)为从状态s_i出发遵循最优策略所能获得的最大累积回报初始值。

4.如权利要求1所述的一种移动机器人路径规划Q学习初始化方法，其特征是，所述步骤四中，Q值初始化描述如下：

Q(s_i，a)的初始值定义为在状态s_i下选择动作a所获得的立即回报r加上后继状态的最大折算累积回报：

Q_{Init} (s_{i}, a) = r + γ V_{Init}^{*} (s_{j})

公式中，s_j为机器人在状态s_i下选择动作a所产生的后继状态，Q_Init(s_i，a)为状态-动作对(s_i,a)的初始Q值；γ为折算因子。

5.如权利要求1所述的一种移动机器人路径规划Q学习初始化方法，其特征是，所述步骤五的具体步骤为：

(a)根据已知环境信息构造人工势能场U′；

V_{Init}^{*} (s_{j}) &LeftArrow; | U^{'} (s_{i}) |

(c)按照如下规则初始化Q值：

Q_{Init} (s_{i}, a) = r + γ V_{Init}^{*} (s_{j}),

(d)观察当前状态s_t；

(f)观察新状态s′_t；

(g)根据以下公式更新表项Q(s_t,a_t)值：

Q_{t} (s_{t}, a_{t}) = (1 - α_{t}) Q_{t - 1} (s_{t}, a_{t}) + α_{t} (r_{t} + γ \underset{a_{t}^{'}}{\arg} \max Q_{t - 1} (s_{t}^{'}, a_{t}^{'}))

公式中，α_t为学习率，取值范围为(0，1)，通常取值为0.5，并随学习过程衰减；Q_t-1(s_t，a_t)和Q_t-1(s′_t,a′_t)分别为状态-动作对(s_t，a_t)和(s′_t,a′_t)在t-1时刻的取值，a′_t为在新状态s′_t下选择的动作；

(h)判断机器人是否已经到达目标或者学习系统已经达到设定的最大学习次数，如果两者满足其一，则学习结束，否则返回到步骤(d)继续学习。