CN113029145A

CN113029145A - 一种基于强化学习的视觉拓扑导航方法

Info

Publication number: CN113029145A
Application number: CN202110226995.3A
Authority: CN
Inventors: 任鹏举; 张均旺; 丁焱; 景鑫; 赵文哲; 夏天; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-25
Anticipated expiration: 2041-03-01
Also published as: CN113029145B

Abstract

本发明公开了一种基于强化学习的视觉拓扑导航方法，方法中，基于所述强化学习模型以及序列图像建立拓扑地图，给定可移动机器人的当前位置和目标位置之后，基于所述拓扑地图搜索匹配所述当前位置和目标位置；定位当前位置和目标位置之后，进行路径规划，采用最短路径算法选取从当前位置到达目标位置的最短路径；预测子目标节点，在所述最短路径中从当前节点之后的节点中选择一个节点作为子目标节点以引导可移动机器人到达下一个子目标点；以当前状态图像特征和子目标节点的状态图像特征作为强化学习网络输入，强化学习网络进行导航控制，输出引导可移动机器人到达子目标节点的动作信号，直至目标位置完成导航。

Description

一种基于强化学习的视觉拓扑导航方法

技术领域

本发明属于可移动机器人视觉导航领域，特别是一种基于强化学习的视觉拓扑导航方法。

背景技术

自主导航是移动机器人实现环境探索的基本前提，也是当前研究的热点。强化学习由于其突出的动作规划能力而被认为是一种很有前途的进行自主探索的技术。强化学习是一种自我进化类型的机器学习，其通过和环境进行交互，不断试错来进行学习，更加接近于实现真正的人工智能。不过由于强化学习受限于自身的规划能力，对于远距离的导航无能为力，所以需要规划算法进行引导，将大范围的导航任务分解为强化学习可以完成的子任务。

在进行大范围的导航任务时，需要所在环境的地图，当前移动机器人所采用的地图方案通常有度量地图和拓扑地图。其中度量地图具有精度高的特点，但是度量地图建图较为麻烦，需要高精度仪器设备进行辅助。而拓扑地图是一个以关键帧为节点，邻接关系为边的图，其边的权值表示相邻节点的距离。它强调地图元素之间的连接关系，有低空间复杂度，不需要精确的位置信息且可以进行有效的路径规划的优点。在系统对精度要求不是特别高的情况下，使用结合视觉特征的拓扑地图是一个不错的解决方案。这种结合拓扑地图进行导航规划的方法称为视觉拓扑导航。但是在现有的方法中，在不使用度量工具的情况下，建立的拓扑地图还不够有效，相邻节点之间的距离估计也不够准确，同时现有技术在复杂的环境中定位难度比较大，而且定位错误可能会导致增加不必要的轨迹。

在背景技术部分中公开的上述信息仅仅用于增强对本发明背景的理解，因此可能包含不构成在本国中本领域普通技术人员公知的现有技术的信息。

发明内容

针对现有技术中的问题，本发明提出一种基于强化学习的视觉拓扑导航方法。通过融入拓扑地图的方式，有效的提高了基于强化学习的可移动机器人的导航范围，解决了在大范围环境中的导航问题，同时解决了拓扑地图稀疏后的有效性问题，并且使用基于时间序列的方式，对可移动机器人定位进行修正，提高了可移动机器人在定位时的准确性。

本发明的目的是通过以下技术方案予以实现，一种基于强化学习的视觉拓扑导航方法包括以下步骤：

第一步骤，可移动机器人遍历当前环境的所有运行轨迹并沿着所述运行轨迹获得当前环境的序列图像，基于所述运动轨迹以及序列图像建立拓扑地图，所述拓扑地图为加权有向图，顶点为图像特征，边的方向代表可移动方向，边的权值代表在两个节点之间的距离；

第二步骤，给定可移动机器人的当前位置和目标位置之后，基于所述拓扑地图搜索匹配所述当前位置和目标位置，其中，当前状态匹配程度最高的节点为当前位置节点，状态匹配程度使用估算的节点之间的距离来度量，距离越近，匹配程度越高；

第三步骤，定位当前位置和目标位置之后，进行路径规划，采用最短路径算法选取从当前位置到达目标位置的最短路径，所述最短路径为从图中的某个节点出发到达另外一个节点的所经过的边的权重和最小的一条路径；

第四步骤，预测子目标节点，在所述最短路径中从当前节点之后的节点中选择一个节点作为子目标节点以引导可移动机器人到达下一个子目标点；

第五步骤，以当前状态图像特征和子目标节点的状态图像特征作为强化学习网络输入，强化学习网络进行导航控制，输出引导可移动机器人到达子目标节点的动作信号，直至目标位置完成导航。

所述的方法中，第一步骤中，所述运行轨迹及序列图像采用通用值函数逼近器模型UVFA进行处理，得到拓扑地图，其中，目标条件值函数估计当前状态到目标状态的长期奖励，设可移动机器人当前状态为s∈S，目标状态为s_g∈S，表示在目标位置所观察到的环境图像。在朝目标位置运动的过程中执行动作a～π(a|s，s_g)，并且获得奖励r(s，a，s_g)，其中，π表示强化学习模型所学习到的动作策略，a～π(a|s，s_g)表示在当前状态为s，目标状态为Sg的情况下，基于策略π确定的动作为a，当可移动机器人到达目标位置或者超过时间阈值后结束，可移动机器人的目标是最大化累计奖励，

Q(s，a，s_g)为动作值函数，V(s，s_g)为状态值函数，为了使模型的奖励能够很好的表示状态之间的距离，定义每一步的奖励为常数r(s，a，s_g)＝-1，折扣因子Y＝1，保留每一步的奖励，当到达目标状态时累积奖励对应于到达目标状态的步骤的负数：d(s，s_g)＝-v(s，s_g)，d(s，s_g)为在使用最优策略下从s到s_g的期望步数，表示状态之间的相对距离，可移动机器人所执行的策略

每次执行使得Q值最大的动作，

通过设定阈值距离δ，当d(s，s_g)＜δ时，认为两个节点相连，通过设置阈值距离δ删除多余的边，然后使用深度优先搜索遍历，简称DFS，如果连通分量增加，那么该边就是“桥”，并将其记录下来作为不可稀疏的边，最后对边进行稀疏，即只保留阈值距离δ内距离当前节点最远的那个节点，将二者视为相连，删除其余节点。

所述的方法中，基于时间序列的方式进行定位以判断当前可移动机器人是否还在所述最短路径V^{shortest_path}上，最短路径V^{shortest_path}为最短路径上的拓扑节点的集合，当可移动机器人当前状态为S_i时，保留当前状态s_i前k时刻的状态{s_i-k，s_i-k+1，...S_i-1}，当检测到s_i定位到最短路径V^{shortest_path}之外的节点u上时，分别比较{v_i，v_i+1，…v_i+T}∈V^{shortest_path}和u到{s_i-k，s_i-k+1，...s_i}的距离，取{v_i，v_i+1，...v_i+T，u}中距离序列{s_i-k，s_i-k+1，...，s_i}最近的一个节点：

其中，V^{shortest_path}表示最短路径中所有节点的集合，{v_i，v_i+1，...v_i+T}表示在当前状态S_i的前T个时刻经过的拓扑节点组成的集合，并且这个集合是V^{shortest_path}的子集，d(*，*)表示两个节点之间的距离，

表示从t＝i-k时刻到t＝i这段时间内的所有状态s_t到节点v的距离之和，节点v的取值范围为{v_i，v_i+1，...v_i+T，u}，找到使得距离和最小的那个节点v，

若距离最小的为节点u，说明可移动机器人已经偏离当前规划的最短路径，则重新规划最短路径V^{shortest_path}，可移动机器人沿着新的路径V^{shortest_path}进行导航，否则，将定位修正到原最短路径V^{shortest_path}上来，继续进行导航。

所述的方法中，所述最短路径算法为Dijkstra算法或Bellman-Ford算法。

所述的方法中，对移动机器人进行导航控制采用通用值函数逼近器模型(UVFA)，使用当前状态s和所述子目标节点的状态s_g作为强化学习模型的输入，输出控制信号用于控制可移动机器人导航到子目标节点，直到到达目标位置，导航结束。

有益效果

本发明将强化学习和拓扑地图相结合，提供了一种基于强化学习的视觉拓扑导航系统，该系统既突出了强化学习优秀的动作规划能力和自主探索能力，又结合了拓扑地图低空间复杂度，不需要精确的位置信息的特点，在不提高强化学习算法复杂度的前提下，极大提升了基于强化学习导航系统的导航范围。同时，通过对建图过程的优化，在不使用度量工具的前提下也能够较为准确的估计两个状态之间的相对距离，也通过查找拓扑地图中的“桥”解决了拓扑地图稀疏后的连接有效性问题，以及对可移动机器人进行了定位修正。

上述说明仅是本发明技术方案的概述，为了能够使得本发明的技术手段更加清楚明白，达到本领域技术人员可依照说明书的内容予以实施的程度，并且为了能够让本发明的上述和其它目的、特征和优点能够更明显易懂，下面以本发明的具体实施方式进行举例说明。

附图说明

通过阅读下文优选的具体实施方式中的详细描述，本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

在附图中：

图1所示为基于强化学习的视觉拓扑导航方法的流程示意图；

图2所示为本发明的一个实施例的生成拓扑地图的流程示意图；

图3为系统整体框架示意图。

以下结合附图和实施例对本发明作进一步的解释。

具体实施方式

下面将参照附图1至图3更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

为便于对本发明实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本发明实施例的限定。

基于强化学习的视觉拓扑导航方法包括，

第一步骤，可移动机器人遍历当前环境的所有运行轨迹并沿着所述运行轨迹获得当前环境的序列图像，基于所述运动轨迹以及序列图像建立拓扑地图，所述拓扑地图为加权有向图，顶点为图像特征，边的方向代表可移动方向，边的权值代表在两个节点之间的距离，在一个实施例中，在采集数据的时候，只需要人手动控制机器人在环境中遍历一遍，机器人正前方有一个摄像头，按一定频率拍照，沿途将所经过的场景拍下来，保存为序列图像。可以理解的是，拓扑地图强调的是节点之间的连通性，即两个节点之间是否可以直接到达，显然时间上连续的图像是相连的，还有一种情况就是在运动过程中形成闭环，即回到了原处，那么闭环处的节点是很相似的，也可认为是相连的，这时可以通过估计两个节点之间的距离确定是否相连，如果距离很近，就认为相连；本发明不需要采集运动轨迹来进行建图。

第二步骤，给定可移动机器人的当前位置和目标位置之后，基于所述拓扑地图搜索匹配所述当前位置和目标位置，其中，当前状态匹配程度最高的节点为当前位置节点；

第三步骤，定位当前位置和目标位置之后，进行路径规划，采用最短路径算法选取从当前位置到达目标位置的最短路径，所述最短路径为从图中的某个节点出发到达另外一个节点的所经过的边的权重和最小的一条路径，

第五步骤，以当前状态图像特征和子目标节点的状态图像特征作为强化学习网络输入，强化学习网络进行导航控制，输出引导可移动机器人到达子目标节点的动作信号。

所述的方法的优选实施方式中，第一步骤中，所述运行轨迹及序列图像采用通用值函数逼近器模型UVFA进行处理，得到拓扑地图，其中，通用值函数逼近器是一种基于目标的强化学习模型，目标条件值函数估计当前状态到目标状态的长期奖励，设可移动机器人当前状态为s∈S，目标状态为s_g∈S，表示在目标位置所观察到的环境图像。在朝目标位置运动的过程中执行动作a～π(a|s，s_g)，并且获得奖励r(s，a，s_g)，其中，π表示强化学习模型所学习到的动作策略，a～π(a|s，s_g)表示在当前状态为s，目标状态为Sg的情况下，基于策略π确定的动作为a，当可移动机器人到达目标位置或者超过时间阈值后结束，可移动机器人的目标是最大化累计奖励，

为了使模型的奖励能够很好的表示状态之间的距离，定义每一步的奖励为常数r(s，a，s_g)＝-1，折扣因子Y＝1，保留每一步的奖励，当到达目标状态时累积奖励对应于到达目标状态的步骤的负数：

d(s，s_g)＝-v(s，s_g)

d(s，s_g)为在使用最优策略下从s到s_g的期望步数，表示状态之间的相对距离，

通过设定阈值距离δ，当d(s，s_g)＜δ时，认为两个节点相连，通过设置阈值距离δ删除多余的边，然后进行DFS遍历，如果连通分量增加，那么该边就是“桥”，并将其记录下来作为不可稀疏的边。最后对边进行稀疏，即只保留阈值距离δ内距离当前节点最远的那个节点，将二者视为相连，删除其余节点。

所述的方法的优选实施方式中，基于时间序列的方式进行定位以判断当前可移动机器人是否还在所述最短路径上，其中，保留当前状态S_i前k时刻的状态{s_i-k，s_i-k+1，...s_i-1｝，当检测到s_i定位到最短路径V^{shortest_path}之外的节点u上时，分别比较{v_i，v_i+1，...v_i+T}∈V^{shortest_path}和u到{S_i-k，s_i-k+1，...s_i}的距离，取{v_i，v_i+1，...v_i+T，u}中距离序列{s_i-k，s_i-k+1，...，s_i}最近的一个节点：

其中，V^{shortest_path}表示最短路径中所有节点的集合。

若距离最小的为节点u，则重新规划最短路径V^{shortest_path}，可移动机器人沿着新的路径V^{shortest_path}进行导航，否则，将定位修正到原最短路径V^{shortest_path}上来，继续进行导航。

所述的方法的优选实施方式中，所述最短路径算法为Dijkstra算法或Bellman-Ford算法。

所述的方法的优选实施方式中，强化学习网络进行导航控制采用通用值函数逼近器模型(UVFA)，这是一种基于目标的强化学习模型，使用当前状态s和所述子目标节点的状态s_g作为强化学习模型的输入，v(s，s_g|θ)，输出控制信号用于控制可移动机器人导航到子目标节点。直到到达目标位置，导航结束。

在一个实施例中，如图1所示，方法包括，步骤一，对当前环境建立拓扑地图，需要让可移动机器人遍历其可能的运行轨迹并沿着轨迹获取环境的序列图像，可以采用控制可移动机器人遍历整个环境的方法或直接采用强化学习进行探索的方式实现数据的采集。然后利用获取的轨迹信息建立拓扑图，建立的拓扑图为加权有向图，顶点为图像特征，边的方向代表可行驶方向，边的权值代表在两个节点之间行驶所需要的代价。

步骤二，给定可移动机器人的当前位置和目标位置之后，需要对其定位。首次进行定位时，在全局拓扑地图中进行搜索匹配，和当前状态匹配程度最高的节点即为当前位置节点。在行驶过程中的匹配可以只考虑上一时刻定位附近的节点，减小定位搜索范围，缩小计算量。

步骤三，定位好起点和终点之后，进行路径规划，采用最短路径算法选取从当前位置到达目标点的最短路径，最短路径指的是从图中的某个节点出发到达另外一个节点的所经过的边的权重和最小的一条路径，常见的最短路径算法如Dijkstra算法、Bellman-Ford算法等。

步骤四，预测子目标节点。由于强化学习导航能力的限制，需要对长距离任务进行分解，分解为一个个强化学习容易实现的子任务，即预测子目标。在最短路径中从当前节点之后的节点中选择一个节点作为子目标，用于引导可移动机器人到达下一个子目标点。

步骤五，使用强化学习网络进行导航控制。以当前状态图像特征和子目标点的状态图像特征作为强化学习网络输入，输出能够引导可移动机器人到达子目标的动作信号。

进一步的，如图2所示，针对步骤一，建立拓扑地图，拓扑地图是一个以关键帧为节点，邻接关系为边的图，其边的权值表示相邻节点的距离。在获取当前环境的视觉轨迹图像之后，可以将每个图像所在的位置视为一个拓扑节点。如果直接在一个节点保存原始图像，会消耗大量的内存，可以使用卷积神经网络对图像进行特征提取，直接保存提取到的特征。节点相连的情况一般有两种，一是两个节点在时间上是连续的；二是两个节点所包含的特征非常相似。情况一是很明显的，时间上连续的两个节点必然在空间上是相连的，因为可移动机器人不可能跳跃。而情况二则说明两个节点在同一个位置或者距离十分接近，这个时候也可以视为连个节点相连。

确定好边之后，还需要确定边的权值，即两个节点之间的距离。本发明采用基于目标的强化学习进行估计，常用的目标条件强化学习模型如通用值函数逼近器(UniversalValue Function Approximators，简称UVFA)。目标条件值函数能够估计当前状态到目标状态的长期奖励，这个过程可以描述为：设可移动机器人当前状态为s∈S，目标状态为s_g∈S，表示在目标位置所观察到的环境图像。在朝目标位置运动的过程中执行动作a～π(a|s，s_g)，并且获得奖励r(s，a，s_g)，其中，π表示强化学习模型所学习到的动作策略，a～π(a|s，s_g)表示在当前状态为s，目标状态为Sg的情况下，基于策略π确定的动作为a，当可移动机器人到达目标位置或者超过时间阈值后结束，可移动机器人的目标是最大化累计奖励，即：

在这个过程中，我们定义每一步的奖励为常数r(s，a，s_g)＝-1，折扣因子Y＝1，保留每一步的奖励，当到达目标状态时累积奖励对应于到达目标状态的步骤的负数：

d(s，s_g)＝-v(s，s_g)

也即d(s，s_g)为在使用最优策略下从s到s_g的期望步数，它能较好的反应状态之间的相对距离。

通过设定阈值距离δ，当d(s，s_g)＜δ时，认为两个节点相连。同时，通过合理设置阈值距离δ，也能达到对拓扑图稀疏的目的，即删除一些多余的边。拓扑图的稀疏过程一般包括节点稀疏和边稀疏。不过在稀疏的过程中有一些特殊的边和节点是不能稀疏的，当把这些边稀疏之后，有可能会改变图的连通性，这种边称为“桥”，或者使得原本经过这条边才能到达目标的最短路径长度大幅增加，这些边需要我们特别关注。为了保证拓扑图的连通性，在稀疏过程之前判定该边是否为“桥”或类似于“桥”。在构建稀疏地图之前，对图中所有的边进行判断，设去掉某条边，然后进行DFS遍历，如果连通分量增加，那么该边就是“桥”，并将其记录下来作为不可稀疏的边。最后对边进行稀疏，即只保留阈值距离δ内距离当前节点最远的那个节点，将二者视为相连，删除其余节点。

针对步骤二，基于视觉的定位方案在复杂的环境中定位难度比较大，而且定位错误可能会导致增加不必要的轨迹。在较为复杂的环境中，为了让地图包含整个环境，拓扑地图轨迹会较为密集，当采用单个状态作为定位标准时，由于节点中状态的相似性，容易出现误匹配。为了判断当前可移动机器人是否还在原规划的最短路径上，我们采用基于时间序列的方式进行定位修正。

如图3所示，在可移动机器人导航过程中，当可移动机器人当前状态为S_i时，保留当前状态S_i前k时刻的状态{S_i-k，S_i-k+1，...S_i-1}，当检测到S_i定位到最短路径V^{shortest_path}之外的节点u上时，分别比较{v_i，v_i+1，...v_i+T}∈V^{shortest_path}和u到{s_i-k，S_i-k+1，...s_i}的距离，取{v_i，v_i+1，...v_i+T，u}中距离序列{s_i-k，s_i-k+1，...，s_i}最近的一个节点：

若距离最小的为节点u，则重新规划最短路径V^{shortest_path′}，可移动机器人沿着新的路径V^{shortest_path′}进行导航，否则，将定位修正到原最短路径V^{shortest_path}上来，继续进行导航。这种基于时间序列的方法能够对定位进行修正，能够大大缩短因定位错误而产生的不必要的路径。

针对步骤四，由于强化学习受限于自身的规划能力，对于远距离的导航无能为力，所以需要将长距离的导航任务分解为强化学习可以完成的子任务，通过完成一个个子任务，从而到达目标点。通常选择当前节点之后的第k个节点，k视情况而定。不选取紧挨当前节点的下一个节点的原因是距离太近的容易引起控制信号抖动。

针对步骤五，使用基于目标的强化学习进行训练，常用的目标条件强化学习模型如通用值函数逼近器(Universal Value Function Approximators，简称UVFA)。使用当前状态s和步骤四确定的子目标状态s_g作为强化学习模型的输入，v(s，s_g|θ)，输出控制信号用于控制可移动机器人导航到子目标。直到到达目标点，导航结束。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于强化学习的视觉拓扑导航方法，所述方法包括以下步骤：

第一步骤，可移动机器人遍历当前环境的所有运行轨迹并沿着所述运行轨迹获得当前环境的序列图像，基于所述运行轨迹以及序列图像建立拓扑地图，所述拓扑地图为加权有向图，顶点为图像特征，边的方向代表可移动方向，边的权值代表在两个节点之间的距离；

2.根据权利要求1所述的方法，其中，优选的，第一步骤中，所述运行轨迹及序列图像采用通用值函数逼近器模型UVFA进行处理，得到拓扑地图，其中，目标条件值函数估计当前状态到目标状态的长期奖励，设可移动机器人当前状态为s∈S，目标状态为s_g∈S，表示在目标位置所观察到的环境图像，在朝目标位置运动的过程中执行动作a～π(a|s，s_g)，并且获得奖励r(s，a，s_g)，其中，π表示强化学习模型所学习到的动作策略，a～π(a|s，s_g)表示在当前状态为s，目标状态为Sg的情况下，基于策略π确定的动作为a，当可移动机器人到达目标位置或者超过时间阈值后结束，可移动机器人的目标是最大化累计奖励，

Q(s，a，s_g)为动作值函数，V(s，s_g)为状态值函数，为了使模型的奖励能够很好的表示状态之间的距离，定义每一步的奖励为常数r(s，a，s_g)＝-1，折扣因子Y＝1，保留每一步的奖励，当到达目标状态时累积奖励对应于到达目标状态的步骤的负数：d(s，s_g)＝--v(s，s_g)，d(s，s_g)为在使用最优策略下从s到s_g的期望步数，表示状态之间的相对距离，可移动机器人所执行的策略

每次执行使得Q值最大的动作，

通过设定阈值距离δ，当d(s，s_g)＜δ时，认为两个节点相连，通过设置阈值距离δ删除多余的边，然后使用深度优先搜索遍历，如果连通分量增加，那么边为“桥”，并将其记录下来作为不可稀疏的边，最后对边进行稀疏，其中，只保留阈值距离δ内距离当前节点最远的那个节点，将二者视为相连，删除其余节点。

3.根据权利要求1所述的方法，其中，基于时间序列的方式进行定位以判断当前可移动机器人是否还在所述最短路径V^{shortest_path}上，最短路径V^{shortest_path}为最短路径上的拓扑节点的集合，当可移动机器人当前状态为si时，保留当前状态s_i前k时刻的状态{S_i-k，S_i-k+1，…S_i-1}，当检测到s_i定位到最短路径V^{shortest_path}之外的节点u上时，分别比较{v_i，v_i+1，...v_i+T}∈V^{shortest_path}和u到{s_i-k，s_i-k+1，…s_i}的距离，取{v_i，v_i+1，...v_i+T，u}中距离序列{s_i-k，s_i-k+1，...，s_i}最近的一个节点：

其中，V^{shortest_path}表示最短路径中所有节点的集合，{v_i，v_i+1，…v_i+T}表示在当前状态S_i的前T个时刻经过的拓扑节点组成的集合，并且这个集合是V^{shortest_path}的子集，d(*，*)表示两个节点之间的距离，

若距离最小的为节点u，说明可移动机器人已经偏离当前规划的最短路径，则重新规划最短路径V^{shortest_path’}，可移动机器人沿着新的路径V^{shortest_path’}进行导航，否则，将定位修正到原最短路径V^{shortest_path}上来，继续进行导航。

4.根据权利要求1所述的方法，其中，所述最短路径算法为Dijkstra算法或Bellman-Ford算法。

5.根据权利要求1所述的方法，其中，对移动机器人进行导航控制采用通用值函数逼近器模型(UVFA)，使用当前状态s和所述子目标节点的状态s_g作为强化学习模型的输入，输出控制信号用于控制可移动机器人导航到子目标节点，直到到达目标位置，导航结束。