CN105137967B

CN105137967B - 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

Info

Publication number: CN105137967B
Application number: CN201510420223.8A
Authority: CN
Inventors: 于乃功; 默凡凡; 阮晓钢
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-07-16
Filing date: 2015-07-16
Publication date: 2018-01-19
Anticipated expiration: 2035-07-16
Also published as: CN105137967A

Abstract

一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法，该方法包括深度自动编码器部分，BP神经网络部分，强化学习部分。深度自动编码器部分主要采用深度自动编码器处理机器人所处环境的图像，获得图像数据的特征，为后续实现对环境的认知打下基础。BP神经网络部分主要实现奖励值与图像特征数据的拟合，实现深度自动编码器与强化学习的结合。Q学习算法通过与环境交互学习，在行动‑评价的环境中获得知识，改进行动方案以适应环境达到预想目的。机器人通过与环境的交互实现自主学习，最终找到从起始点到达终点的可行路径。本发明提高了系统处理图像的能力，通过深度自动编码器与BP神经网络结合可实现对环境的认知。

Description

一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法

技术领域

本发明涉及一种将深度自动编码器与Q学习算法相结合的移动机器人路径规划方法，属于机器人路径规划领域。

背景技术

路径规划是移动机器人领域的基础问题。移动机器人路径规划是指在有障碍物的工作环境中，如何寻找一条从给定起点到终点的适当的运动路径，使机器人在运动过程中能安全、无碰地绕过所有障碍物。

随着机器人技术的发展，机器人己开始应用到未知环境，与已知环境下的移动机器人路径规划研究相比，对于未知环境的探索带来了新的挑战。由于在未知环境下，机器人不具有环境的先验知识，移动机器人在路径规划过程中不可避免的会遇到各式各样的障碍物，因此，如何提高移动机器人对环境的自学习和自适应能力具有非常重要的实际意义。

移动机器人路径规划方法可分为基于模版匹配的路径规划技术、基于人工势场的路径规划技术、基于地图构建的路径规划技术和基于人工智能的路径规划技术。基于人工智能的路径规划技术是将现代人工智能技术应用到移动机器人的路径规划中，如强化学习、人工神经网络、进化计算、模糊逻辑与信息融合等。其中强化学习又称再励学习、增强学习，是一种实时、在线的学习方法，通过试错的方法不断获得先验知识，根据这些知识来改变行动策略实现到达目标的目的。强化学习是一种赋予智能体学习自适应能力的方法。

强化学习在机器人控制领域得到广泛重视，一些现有方法将强化学习与其他机器学习算法结合实现机器人的控制，如将模糊逻辑与强化学习算法结合实现移动机器人的导航；将高斯过程与基于模型的策略搜索强化学习结合实现机器人的控制；或将人工神经网络与强化学习结合实现移动机器人在特定任务中的路径规划。

但要把基于强化学习的路径规划应用在真实环境中，系统必须能很好的处理图像数据。以上方法均需人工处理图像。传统地人工提取图像特征是一件非常费力、启发式(需要专业知识)的方法，能不能选取好的特征很大程度上靠经验和运气，而且它的调节需要大量的时间。

发明内容

针对上述问题本发明将深度学习中的深度自动编码器与强化学习中的Q学习算法结合，本发明可通过深度自动编码器自主提取环境图像特征，完成对原始图像的处理，实现对环境的认知，具有很强的图像处理能力，可应用于机器人的路径规划。

本发明采用如下技术方案。它包括深度自动编码器部分，BP神经网络部分，强化学习部分。深度自动编码器部分主要采用深度自动编码器处理机器人所处环境的图像，获得图像数据的特征，为后续实现对环境的认知打下基础。图1是一个具有n层网络的深度自动编码器。输入图像数据，通过一层层网络提取图像特征，最终得到可以代表图像的最主要的特征。图2是每层网络提取图像特征的过程，其思想是堆叠多个层(s₁,s₂,…,s_n)，令每一层的输出等于输入。输入经过编码器产生一个输出，这个输出经过解码器解码后是原输入信号的复现。以重建的输入与原输入的差最小为原则调节参数，参数调节好后去掉解码器，即得到一个隐藏层，固定此层参数，将此层的输出作为下一层的输入训练下一层。

本发明中在深度自动编码器加入了稀疏限制其中s₂是隐层神经元的数目；ρ是稀疏参数，通常被设为一个很小的接近于0的值；ρ_j表示某一层网络节点输出值的平均值(j＝1、2、3﹒﹒﹒s_l，s_l为某一层网络的节点数)。加入稀疏限制可保证当隐含层神经元的数量很大时，自动编码器依然能发现输入数据的结构性特征。

BP神经网络部分主要实现奖励值与图像特征数据的拟合，实现深度自动编码器与强化学习的结合。BP神经网络主要包括三个部分：输入部、训练部、输出部。输入部接收外来的输入样本X，由训练部进行网络的权系数W调整，然后由输出部输出结果。在这个过程中，期望的输出信号可以作为教师信号输入，由该教师信号与实际输出进行比较，产生的误差去控制修改权系数W。

通过深度自动编码器提取图像特征，再将提取的特征经BP神经网络拟合可实现对环境的认知。

强化学习部分基于以上网络的输出结果实现机器人的路径规划，本发明采用的是强化学习中的Q学习算法。Q学习算法通过与环境交互学习，在行动-评价的环境中获得知识，改进行动方案以适应环境达到预想目的。强化学习框图如图3，agent感知周围环境状态，根据Q学习算法选择相应的动作，agent执行完动作后会作用于环境使环境发生改变，同时返回一个奖赏信号给agent。机器人通过与环境的交互实现自主学习，最终找到从起始点到达终点的可行路径。

本发明的有益效果在于提高了系统处理图像的能力。传统的提取图像特征需经过图像预处理、特征提取、特征选择，耗时耗力，而本发明可直接处理原始图像数据，自主提取良好的特征，无需经过上述步骤。通过深度自动编码器与BP神经网络结合可实现对环境的认知。

附图说明

图1为深度自动编码器网络结构。

图2为深度自动编码器某一层训练过程。

图3为Q学习框图。

图4为整体系统框图。

图5为收敛后机器人行走路径。

图6为系统收敛前机器人行走过程(从左到右)。

图7为系统收敛后机器人行走过程。

图8为系统收敛前到收敛后行走步数。

具体实施方式

下面结合图4～7对本发明做进一步说明：

整体系统框图如图4所示，深度自动编码器处理机器人所处环境信息(即机器人所处环境的图像)，获取图像特征数据；所得环境特征数据通过BP神经网络的拟合得到机器人所处位置，实现对周围环境的认知，进而得到相应的奖励值R；Q学习算法通过奖励值R改变相应的Q值，Q学习算法再根据Q值选择移动机器人要执行的动作，使机器人所处的位置发生变化，从而其周围环境变化，实现与环境交互。

其中深度自动编码器每一层网络的参数更新过程如图2，其每层参数更新规则如公式(1)到(7)所示：

公式(1)、(2)中h_W,b(x)是各网络节点的输出；f(z)是输出函数；为l层的节点j与l+1层的节点i之间的连接权重；表示与l+1层与的节点i连接的偏置；x⁽ⁱ⁾是输入，我们输入一幅图像，先通过(1)、(2)式得到此图像的特征值，即输出f(z)。公式(3)、(4)、(5)中J(W,b)是损失函数，在J(W,b)中h_W,b(x)的输入x是得到的原图像的特征值，解码器解码得到复现的原图像，y⁽ⁱ⁾是期望的输出，即原输入图像，我们的目标是最小化关于w和b的函数J(W,b)；KL(ρ||ρ_j)是稀疏性限制，上文已介绍。公式(6)、(7)中分别为W,b的更新公式，α是0到1之间的参数。通过调节W,b的值，使深度编码器的最终输出经过反解码后最能代表原图像，得到最能代表原图像的特征值。本发明采用梯度下降法与Rprop方法更改各层参数值。

Q-learning算法常采用数值迭代来逼近最优值，其更新规则如公式(8)：

公式(8)中α∈[0,1]是学习率，控制学习速度；s_t,a_t分别为机器人当前的状态(文中是机器人的位置)和选择的动作值；γ∈[0,1]是折扣因子。由式(1)可知要更新的Q值是由原来的Q值和下一个状态的Q值共同决定，Q值数据传递具有一定的滞后性。假设有任意相连的s₁、s₂、s₃三种状态，状态s₁要获得状态s₃的Q值反馈需要2次重复训练循环，为改善数据传递滞后性采用基于“回溯”思想的Q值更新策略。

数值更新过程如下：

第一步训练s₀←s₁

第二步训练s₀←s₁←s₂

第三步训练s₀←s₁←s₂←s₃

………

第n步训练s₀←s₁←s₂←……←s_n-1←s_n

由以上数据更新过程可知，后续动作产生的影响可快速反馈给当前的状态，一定程度上改善了Q学习过程中数据传递的滞后性。

采用本发明方法我们实现了对移动机器人的路径规划并进行了仿真，结果如图5所示，机器人从起始点找到了到终点的可行路径。系统收敛前机器人在环境中盲目行走，对周围环境没有一定的判别能力，任意行走。如图6，图中前驱状态和后继状态是机器人在环境中的坐标，动作值分为1、2、3、4、5，分别代表机器人向右走、向上走、向左走、向下走、停在原地。经算法演绎，系统收敛后，机器人对周围环境有了一定判断能力，能直接找到一条从起点到终点的可行路径，如图7和图8所示。图8中纵坐标表示每次从起点走到终点的步数，横坐标表示迭代次数。此次仿真验证了本发明方法的有效性。

Claims

1.一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法，其特征在于：该方法包括深度自动编码器部分，BP神经网络部分，强化学习部分；深度自动编码器部分采用深度自动编码器处理机器人所处环境的图像，获得图像数据的特征，为后续实现对环境的认知打下基础；输入图像数据，通过一层层网络提取图像特征，最终得到可以代表图像的最主要的特征；每层网络提取图像特征的过程，其思想是堆叠多个层(s₁,s₂,…,s_n)，令每一层的输出等于输入；输入经过编码器产生一个输出，这个输出经过解码器解码后是原输入信号的复现；以重建的输入与原输入的差最小为原则调节参数，参数调节好后去掉解码器，即得到一个隐藏层，固定此层参数，将此层的输出作为下一层的输入训练下一层；

本方法中在深度自动编码器加入了稀疏限制其中s₂是隐含层神经元的数目；ρ是稀疏参数被设为一个很小的接近于0的值；ρ_j表示某一层网络节点输出值的平均值，j＝1、2、3﹒﹒﹒s_l，s_l为某一层网络的节点数；加入稀疏限制可保证当隐含层神经元的数量很大时，自动编码器依然能发现输入数据的结构性特征；

BP神经网络部分实现奖励值与图像特征数据的拟合，实现深度自动编码器与强化学习的结合；BP神经网络包括三个部分：输入部、训练部、输出部；输入部接收外来的输入样本X，由训练部进行网络的权系数W调整，然后由输出部输出结果；在这个过程中，期望的输出信号可以作为教师信号输入，由该教师信号与实际输出进行比较，产生的误差去控制修改权系数W；

通过深度自动编码器提取图像特征，再将提取的特征经BP神经网络拟合可实现对环境的认知；

强化学习部分基于以上网络的输出结果实现机器人的路径规划，本方法采用的是强化学习中的Q学习算法；Q学习算法通过与环境交互学习，在行动-评价的环境中获得知识，改进行动方案以适应环境达到预想目的；强化学习框图中，agent感知周围环境状态，根据Q学习算法选择相应的动作，agent执行完动作后会作用于环境使环境发生改变，同时返回一个奖赏信号给agent；机器人通过与环境的交互实现自主学习，最终找到从起始点到达终点的可行路径。

2.根据权利要求1所述的一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法，其特征在于：深度自动编码器处理机器人所处环境信息即机器人所处环境的图像，获取图像特征数据；所得环境特征数据通过BP神经网络的拟合得到机器人所处位置，实现对周围环境的认知，进而得到相应的奖励值R；Q学习算法通过奖励值R改变相应的Q值，Q学习算法再根据Q值选择移动机器人要执行的动作，使机器人所处的位置发生变化，从而其周围环境变化，实现与环境交互；

深度自动编码器每一层网络的参数更新过程中，其每层参数更新规则如公式(1)到(7)所示：

<mrow> <msub> <mi>h</mi> <mrow> <mi>W</mi> <mo>,</mo> <mi>b</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>&lsqb;</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <msub> <mi>h</mi> <mrow> <mi>W</mi> <mo>,</mo> <mi>b</mi> </mrow> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>+</mo> <mfrac> <mi>&lambda;</mi> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>n</mi> <mi>l</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>s</mi> <mi>l</mi> </msub> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>&rho;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>&rho;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&beta;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>s</mi> <mn>2</mn> </msub> </munderover> <mrow> <mo>(</mo> <mi>&rho;</mi> <mi>log</mi> <mfrac> <mi>&rho;</mi> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> </mfrac> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> <mo>)</mo> <mi>log</mi> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mo>&lsqb;</mo> <msubsup> <mi>a</mi> <mi>j</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mi>&alpha;</mi> <mfrac> <mo>&part;</mo> <mrow> <mo>&part;</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>b</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>b</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mi>&alpha;</mi> <mfrac> <mo>&part;</mo> <mrow> <mo>&part;</mo> <msubsup> <mi>b</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

公式(1)、(2)中h_W,b(x)是各网络节点的输出；f(z)是输出函数；为l层的节点j与l+1层的节点i之间的连接权重；表示与l+1层的节点i连接的偏置；x⁽ⁱ⁾是输入，输入一幅图像，先通过(1)、(2)式得到此图像的特征值，即输出f(z)；公式(3)、(4)、(5)中J(W,b)是损失函数，在J(W,b)中h_W,b(x)的输入x是得到的原图像的特征值，解码器解码得到复现的原图像，y⁽ⁱ⁾是期望的输出，即原输入图像，目标是最小化关于w和b的函数J(W,b)；KL(ρ||ρ_j)是稀疏性限制，上文已介绍；公式(6)、(7)中分别为W,b的更新公式，α是0到1之间的参数；通过调节W,b的值，使深度编码器的最终输出经过反解码后最能代表原图像，得到最能代表原图像的特征值；本方法采用梯度下降法与Rprop方法更改各层参数值；

Q-learning算法采用数值迭代来逼近最优值，其更新规则如公式(8)：

<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>&lsqb;</mo> <msub> <mi>R</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <munder> <mi>max</mi> <mi>a</mi> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

公式(8)中α∈[0,1]是学习率，控制学习速度；s_t,a_t分别为机器人当前的状态即机器人的位置和机器人当前的选择的动作值；γ∈[0,1]是折扣因子；由式(1)可知要更新的Q值是由原来的Q值和下一个状态的Q值共同决定，Q值数据传递具有一定的滞后性；若有任意相连的s₁、s₂、s₃三种状态，状态s₁要获得状态s₃的Q值反馈需要2次重复训练循环，为改善数据传递滞后性采用基于“回溯”思想的Q值更新策略；

数值更新过程如下：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>&lsqb;</mo> <msub> <mi>R</mi> <mi>k</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <munder> <mi>max</mi> <mi>a</mi> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>k</mi> <mo>=</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>2</mn> <mo>,</mo> <mn>....</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

第一步训练 s₀←s₁

第二步训练 s₀←s₁←s₂

第三步训练 s₀←s₁←s₂←s₃

………

第n步训练 s₀←s₁←s₂←……←s_n-1←s_n。