CN112484733A

CN112484733A - 一种基于拓扑图的强化学习室内导航方法

Info

Publication number: CN112484733A
Application number: CN202011402063.1A
Authority: CN
Inventors: 蔡文哲; 孙长银; 陆科林; 徐乐玏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-12
Anticipated expiration: 2040-12-04
Also published as: CN112484733B

Abstract

本发明涉及一种基于拓扑图的强化学习室内导航方法，针对强化学习在导航任务中数据效率低，算法泛化性能差等问题，本发明结合了传统路径规划方法以及强化学习算法。通过对智能体的相对位置进行估计，进而依据关键位置对场景建立抽象的稀疏拓扑图，根据结点之间实际的物理距离定义连接关系，通过将传统路径规划算法与强化学习相结合的方式，形成了一种分层的导航策略，将长距离的导航问题分解为短期目标的导航问题，提升了在室内场景下的导航算法的学习效率以及泛化性能。

Description

一种基于拓扑图的强化学习室内导航方法

技术领域

本发明涉及一种导航方法，具体涉及一种基于拓扑图的强化学习室内导航方法，属于基于关系的高效强化学习技术领域。

背景技术

随着近年来，大数据与人工智能技术以及硬件条件的快速发展，机器学习，深度学习，强化学习逐渐在各个领域中得到了广泛应用。而传统导航方法中，如SLAM一类的系统是通过将导航任务分割成三个独立任务定位，建图，路径规划来完成的，这样的方式对于建图定位精度要求都较高，同样也浪费了很多资源成本，而强化学习能够以一种端到端网络的形式实现导航任务，而这种方式的问题在于数据效率低以及泛化性能差。因此，迫切的需要一种新的方案解决现有技术中存在的技术问题。

发明内容

本发明的目的是将传统规划算法与强化学习算法进行有机结合来解决强化学习数据效率低下以及针对长时序任务的表现不佳的问题。

为了实现上述目的，本发明的技术方案如下，一种基于拓扑图的强化学习室内导航方法，所述方法包括以下步骤：

S1：初始化智能体所在位置x_t，将智能体初始位置作为坐标原点，并初始化拓扑图G,将拓扑图中的结点集合定义为N，连接关系集合定义为ε。初始化智能体策略π_θ(s_t,g_t),其中s_t为当前智能体所处环境中的全景第一人称视角RGB图像信息，g_t为期望的目标位置对应的RGB图像信息；

S2：根据ImageNet数据集预训练出一个ResNet18模型，记作

S3：若

则新增节点

N＝{n₀}；其中

表示结点对应的视觉特征，x₀表示结点所对应的相对位置信息，c₀表示当前结点的访问次数。

S4：将

与所有节点N中视觉特征进行对比，若

则认为拓扑图上还未建立与目标g_t相关的节点，此时进入S5，进行待探索节点w_t的选取。若

则说明找到目标g_t对应节点n_g,进入S6路径规划阶段。

S5：根据SLAM模块对当前智能体所在位置x_t进行估计,根据位置信息x_t以及视觉信息s_t找到智能体所属的结点n_p,并将n_p中到达次数c_p加一，根据到达次数对n_p所有邻居结点进行排序，根据Softmax策略进行选择，得到待探索结点w_t。

S6:根据目标g_t，定位g_t所属节点n_g与当前位置所对应结点n_p,针对拓扑图G进行路径规划，得到拓扑图在拓扑图上的路径{n₁,n₂,…n_g},把路径中的下一跳结点n₁作为中继目标节点w_t

S7：根据w_t中的视觉信息

以及当前所在位置目标特征

输入到策略网络中，依据策略网络

采样得到行动a_t,并与环境交互得到s_t+1,x_t+1

S8：若

与

相似度较高，则认为到达中继目标结点w_t，得到奖励+1，反之得到奖励-0.05；

S9：根据新观测值s_t+1,x_t+1来进行拓扑图G更新，并重复S4,S5,S6,S7,S8步骤。

其中，所述步骤S6中所使用的路径规划阶段算法为Dijkstra最短路径计算方法。

其中，所述步骤S5中，寻找智能体所属结点n_p时，根据物理距离以及视觉特征距离同时考量，当且仅当||x_t-x_p||²<Dist1；

才认为当前时刻所属结点为n_p，否则保持所属结点等于上一时刻所属结点。

所述步骤S5中，将探索的机制与拓扑图相结合，具体采用了Softmax的策略，即待选择的结点,基于软策略的方式来进行结点选择，能够保证探索的多样性。

其中，所述步骤S9拓扑图建立过程为：根据新观测得到的位置输入x_t以及视觉输入s_t，如果在已建立好的拓扑图上找不到一个高相似度的结点，即min_i∈K||x_t-x_i||>MinDist1,

那么以当前状态为中心

建立一个新的结点，并于上一时刻所在的结点n_t-1建立连接关系；若找到一个高相似度的结点，则将当前所处位置x_t+1也加入到所属结点n中，并以均值方式来更新结点n中心。

相对于现有技术，本发明具有如下优点，本发明提出了一种将规划算法与强化学习算法进行结合的导航算法，能够通过建立拓扑图的形式建立对环境的抽象表达，进而通过将长时间导航任务在拓扑图上分成较为容易完成的阶段性任务，不仅提升了强化学习的数据效率，同时也提升了强化学习算法在新场景下的探索效率，并且实现了同一场景下不同目标的泛化性。

附图说明

图1强化学习算法A3C示意图；

图2为ResNet18,34,50；101；152示意图；

图3整体框架结构图。

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1-图3，一种基于拓扑图的强化学习室内导航方法，该方法将传统规划算法与强化学习算法相结合：包括以下步骤：