CN112484733A - 一种基于拓扑图的强化学习室内导航方法 - Google Patents

一种基于拓扑图的强化学习室内导航方法 Download PDF

Info

Publication number
CN112484733A
CN112484733A CN202011402063.1A CN202011402063A CN112484733A CN 112484733 A CN112484733 A CN 112484733A CN 202011402063 A CN202011402063 A CN 202011402063A CN 112484733 A CN112484733 A CN 112484733A
Authority
CN
China
Prior art keywords
node
topological graph
reinforcement learning
agent
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011402063.1A
Other languages
English (en)
Other versions
CN112484733B (zh
Inventor
蔡文哲
孙长银
陆科林
徐乐玏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011402063.1A priority Critical patent/CN112484733B/zh
Publication of CN112484733A publication Critical patent/CN112484733A/zh
Application granted granted Critical
Publication of CN112484733B publication Critical patent/CN112484733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于拓扑图的强化学习室内导航方法,针对强化学习在导航任务中数据效率低,算法泛化性能差等问题,本发明结合了传统路径规划方法以及强化学习算法。通过对智能体的相对位置进行估计,进而依据关键位置对场景建立抽象的稀疏拓扑图,根据结点之间实际的物理距离定义连接关系,通过将传统路径规划算法与强化学习相结合的方式,形成了一种分层的导航策略,将长距离的导航问题分解为短期目标的导航问题,提升了在室内场景下的导航算法的学习效率以及泛化性能。

Description

一种基于拓扑图的强化学习室内导航方法
技术领域
本发明涉及一种导航方法,具体涉及一种基于拓扑图的强化学习室内导航方法,属于基于关系的高效强化学习技术领域。
背景技术
随着近年来,大数据与人工智能技术以及硬件条件的快速发展,机器学习,深度学习,强化学习逐渐在各个领域中得到了广泛应用。而传统导航方法中,如SLAM一类的系统是通过将导航任务分割成三个独立任务定位,建图,路径规划来完成的,这样的方式对于建图定位精度要求都较高,同样也浪费了很多资源成本,而强化学习能够以一种端到端网络的形式实现导航任务,而这种方式的问题在于数据效率低以及泛化性能差。因此,迫切的需要一种新的方案解决现有技术中存在的技术问题。
发明内容
本发明的目的是将传统规划算法与强化学习算法进行有机结合来解决强化学习数据效率低下以及针对长时序任务的表现不佳的问题。
为了实现上述目的,本发明的技术方案如下,一种基于拓扑图的强化学习室内导航方法,所述方法包括以下步骤:
S1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图G,将拓扑图中的结点集合定义为N,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角RGB图像信息,gt为期望的目标位置对应的RGB图像信息;
S2:根据ImageNet数据集预训练出一个ResNet18模型,记作
Figure BDA0002817290620000011
S3:若
Figure BDA0002817290620000012
则新增节点
Figure BDA0002817290620000013
N={n0};其中
Figure BDA0002817290620000014
表示结点对应的视觉特征,x0表示结点所对应的相对位置信息,c0表示当前结点的访问次数。
S4:将
Figure BDA0002817290620000015
与所有节点N中视觉特征进行对比,若
Figure BDA0002817290620000016
则认为拓扑图上还未建立与目标gt相关的节点,此时进入S5,进行待探索节点wt的选取。若
Figure BDA0002817290620000017
则说明找到目标gt对应节点ng,进入S6路径规划阶段。
S5:根据SLAM模块对当前智能体所在位置xt进行估计,根据位置信息xt以及视觉信息st找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据Softmax策略进行选择,得到待探索结点wt
S6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图G进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
S7:根据wt中的视觉信息
Figure BDA0002817290620000021
以及当前所在位置目标特征
Figure BDA0002817290620000022
输入到策略网络中,依据策略网络
Figure BDA0002817290620000023
采样得到行动at,并与环境交互得到st+1,xt+1
S8:若
Figure BDA0002817290620000024
Figure BDA0002817290620000025
相似度较高,则认为到达中继目标结点wt,得到奖励+1,反之得到奖励-0.05;
S9:根据新观测值st+1,xt+1来进行拓扑图G更新,并重复S4,S5,S6,S7,S8步骤。
其中,所述步骤S6中所使用的路径规划阶段算法为Dijkstra最短路径计算方法。
其中,所述步骤S5中,寻找智能体所属结点np时,根据物理距离以及视觉特征距离同时考量,当且仅当||xt-xp||2<Dist1;
Figure BDA0002817290620000026
才认为当前时刻所属结点为np,否则保持所属结点等于上一时刻所属结点。
所述步骤S5中,将探索的机制与拓扑图相结合,具体采用了Softmax的策略,即待选择的结点,基于软策略的方式来进行结点选择,能够保证探索的多样性。
Figure BDA0002817290620000027
其中,所述步骤S9拓扑图建立过程为:根据新观测得到的位置输入xt以及视觉输入st,如果在已建立好的拓扑图上找不到一个高相似度的结点,即mini∈K||xt-xi||>MinDist1,
Figure BDA0002817290620000028
那么以当前状态为中心
Figure BDA0002817290620000029
建立一个新的结点,并于上一时刻所在的结点nt-1建立连接关系;若找到一个高相似度的结点,则将当前所处位置xt+1也加入到所属结点n中,并以均值方式来更新结点n中心。
相对于现有技术,本发明具有如下优点,本发明提出了一种将规划算法与强化学习算法进行结合的导航算法,能够通过建立拓扑图的形式建立对环境的抽象表达,进而通过将长时间导航任务在拓扑图上分成较为容易完成的阶段性任务,不仅提升了强化学习的数据效率,同时也提升了强化学习算法在新场景下的探索效率,并且实现了同一场景下不同目标的泛化性。
附图说明
图1强化学习算法A3C示意图;
图2为ResNet18,34,50;101;152示意图;
图3整体框架结构图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1-图3,一种基于拓扑图的强化学习室内导航方法,该方法将传统规划算法与强化学习算法相结合:包括以下步骤:
S1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图G,将拓扑图中的结点集合定义为N,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角RGB图像信息,gt为期望的目标位置对应的RGB图像信息;
S2:根据ImageNet数据集预训练出一个ResNet18模型,记作
Figure BDA0002817290620000031
S3:若
Figure BDA0002817290620000032
则新增节点
Figure BDA0002817290620000033
N={n0};其中
Figure BDA0002817290620000034
表示结点对应的视觉特征,x0表示结点所对应的相对位置信息,c0表示当前结点的访问次数。
S4:将
Figure BDA0002817290620000035
与所有节点N中视觉特征进行对比,若
Figure BDA0002817290620000036
则认为拓扑图上还未建立与目标gt相关的节点,此时进入S5,进行待探索节点wt的选取。若
Figure BDA0002817290620000037
则说明找到目标gt对应节点ng,进入S6路径规划阶段。
S5:根据SLAM模块对当前智能体所在位置xt进行估计,找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据Softmax策略进行选择,得到待探索结点wt
S6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图G进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
S7:根据wt中的视觉信息
Figure BDA0002817290620000038
以及当前所在位置目标特征
Figure BDA0002817290620000039
输入到策略网络中,依据策略网络
Figure BDA00028172906200000310
采样得到行动at,并与环境交互得到st+1,xt+1
S8:若
Figure BDA00028172906200000311
Figure BDA00028172906200000312
相似度较高,则认为到达中继目标结点wt,得到奖励+1,反之得到奖励-0.05;
S9:根据新观测值st+1,xt+1来进行拓扑图G更新,并重复S4,S5,S6,S7,S8步骤。
所述步骤S6中所使用的路径规划阶段算法为Dijstra最短路径计算方法。
所述步骤S5中,寻找智能体所属结点np时,根据物理距离以及视觉特征距离同时考量,当且仅当|xt-xp||2<Dist1;
Figure BDA00028172906200000313
才认为当前时刻所属结点为np,否则保持所属结点等于上一时刻所属结点。
所述步骤S5中,将探索的机制与拓扑图相结合,具体采用了Softmax的策略,即待选择的结点,基于软策略的方式来进行结点选择,能够保证探索的多样性。
Figure BDA0002817290620000041
所述步骤S9拓扑图建立过程为:根据新观测得到的位置输入xt以及视觉输入st,如果在已建立好的拓扑图上找不到一个高相似度的结点,即mini∈K||xt-xi||>MinDist1,
Figure BDA0002817290620000042
那么以当前状态为中心
Figure BDA0002817290620000043
建立一个新的结点,并于上一时刻所在的结点nt-1建立连接关系;若找到一个高相似度的结点,则将当前所处位置xt+1也加入到所属结点n中,并以均值方式来更新结点n中心。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (5)

1.一种基于拓扑图的强化学习室内导航方法,其特征在于,所述方法包括以下步骤:
S1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图G,将拓扑图中的结点集合定义为N,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角RGB图像信息,gt为期望的目标位置对应的RGB图像信息;
S2:根据ImageNet数据集预训练出一个ResNet18模型,记作
Figure FDA0002817290610000011
S3:若
Figure FDA0002817290610000012
则新增节点
Figure FDA0002817290610000013
N={n0};其中
Figure FDA0002817290610000014
表示结点对应的视觉特征,x0表示结点所对应的相对位置信息,c0表示当前结点的访问次数。
S4:将
Figure FDA0002817290610000015
与所有节点N中视觉特征进行对比,若
Figure FDA0002817290610000016
则认为拓扑图上还未建立与目标gt相关的节点,此时进入S5,进行待探索节点wt的选取。若
Figure FDA0002817290610000017
则说明找到目标gt对应节点ng,进入S6路径规划阶段。
S5:根据SLAM模块对当前智能体所在位置xt进行估计,根据位置信息xt和视觉信息st找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据Softmax策略进行选择,得到待探索结点wt
S6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图G进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
S7:根据wt中的视觉信息
Figure FDA0002817290610000018
以及当前所在位置目标特征
Figure FDA0002817290610000019
输入到策略网络中,依据策略网络
Figure FDA00028172906100000110
采样得到行动at,并与环境交互得到st+1,xt+1
S8:若
Figure FDA00028172906100000111
Figure FDA00028172906100000112
相似度较高,则认为到达中继目标结点wt,得到奖励+1,反之得到奖励-0.05;
S9:根据新观测值st+1,xt+1来进行拓扑图G更新,并重复S4,S5,S6,S7,S8步骤。
2.根据权利要求1所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤S6中所使用的路径规划阶段算法为dijkstra最短路径计算方法。
3.根据权利要求2所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤S5中,寻找智能体所属结点np时,根据物理距离以及视觉特征距离同时考量,当且仅当||xt-xp||2<Dist1;
Figure FDA00028172906100000113
才认为当前时刻所属结点为np,否则保持所属结点等于上一时刻所属结点。
4.根据权利要求2所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤S5中,将探索的机制与拓扑图相结合,具体采用了Softmax的策略,即待选择的结点,基于软策略的方式来进行结点选择,能够保证探索的多样性。
Figure FDA0002817290610000021
5.根据权利要求1所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤S9拓扑图建立过程为:根据新观测得到的位置输入xt以及视觉输入st,如果在已建立好的拓扑图上找不到一个高相似度的结点,即mini∈K||xt-xi||>MinDist1,
Figure FDA0002817290610000022
Figure FDA0002817290610000023
那么以当前状态为中心
Figure FDA0002817290610000024
建立一个新的结点,并于上一时刻所在的结点nt-1建立连接关系;若找到一个高相似度的结点,则将当前所处位置xt+1也加入到所属结点n中,并以均值方式来更新结点n中心。
CN202011402063.1A 2020-12-04 2020-12-04 一种基于拓扑图的强化学习室内导航方法 Active CN112484733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011402063.1A CN112484733B (zh) 2020-12-04 2020-12-04 一种基于拓扑图的强化学习室内导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011402063.1A CN112484733B (zh) 2020-12-04 2020-12-04 一种基于拓扑图的强化学习室内导航方法

Publications (2)

Publication Number Publication Date
CN112484733A true CN112484733A (zh) 2021-03-12
CN112484733B CN112484733B (zh) 2022-10-25

Family

ID=74939756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011402063.1A Active CN112484733B (zh) 2020-12-04 2020-12-04 一种基于拓扑图的强化学习室内导航方法

Country Status (1)

Country Link
CN (1) CN112484733B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489065A (zh) * 2022-01-20 2022-05-13 华中科技大学同济医学院附属同济医院 手术室医疗物资配送多机器人协同路径规划方法及其应用
CN117899487A (zh) * 2024-03-15 2024-04-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备、存储介质及程序产品
CN117899487B (zh) * 2024-03-15 2024-05-31 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备、存储介质及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN110081893A (zh) * 2019-04-01 2019-08-02 东莞理工学院 一种基于策略重用和强化学习的导航路径规划方法
CN110376594A (zh) * 2018-08-17 2019-10-25 北京京东尚科信息技术有限公司 一种基于拓扑图的智能导航的方法和系统
CN111416771A (zh) * 2020-03-20 2020-07-14 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN111896006A (zh) * 2020-08-11 2020-11-06 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN110376594A (zh) * 2018-08-17 2019-10-25 北京京东尚科信息技术有限公司 一种基于拓扑图的智能导航的方法和系统
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN110081893A (zh) * 2019-04-01 2019-08-02 东莞理工学院 一种基于策略重用和强化学习的导航路径规划方法
CN111416771A (zh) * 2020-03-20 2020-07-14 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN111896006A (zh) * 2020-08-11 2020-11-06 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YUKI KATO: "Autonomous Robot Navigation System with Learning Based on Deep Q-Network and Topological Maps", 《2017 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION (SII)》 *
万里鹏等: "深度强化学习理论及其应用综述", 《模式识别与人工智能》 *
孙长银等: "多智能体深度强化学习的若干关键科学问题", 《自动化学报》 *
肖扬等: "一种基于深度强化学习的动态路由算法", 《信息通信技术与政策》 *
赵辰豪等: "基于改进Q学习算法的导航认知图构建", 《空军工程大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489065A (zh) * 2022-01-20 2022-05-13 华中科技大学同济医学院附属同济医院 手术室医疗物资配送多机器人协同路径规划方法及其应用
CN114489065B (zh) * 2022-01-20 2023-08-25 华中科技大学同济医学院附属同济医院 手术室医疗物资配送多机器人协同路径规划方法及其应用
CN117899487A (zh) * 2024-03-15 2024-04-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备、存储介质及程序产品
CN117899487B (zh) * 2024-03-15 2024-05-31 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN112484733B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN108827335B (zh) 一种基于单向搜索模型的最短路径规划方法
CN106525047A (zh) 一种基于floyd算法的无人机路径规划方法
Bürki et al. Appearance-based landmark selection for efficient long-term visual localization
CN110726408A (zh) 一种基于改进蚁群算法的移动机器人路径规划方法
CN112987799A (zh) 一种基于改进rrt算法的无人机路径规划方法
WO2022198947A1 (zh) 密接人群识别方法、装置、电子设备及存储介质
CN112484733B (zh) 一种基于拓扑图的强化学习室内导航方法
CN110420461A (zh) 一种基于高度图的戏游层次化导航方法
CN116952251B (zh) 路径规划的方法、装置、终端设备及可读存储介质
Xu et al. Moving target tracking in three dimensional space with wireless sensor network
CN110769430B (zh) 基于最小包围圆算法的无线传感器网络中继节点部署方法
CN117029861A (zh) 一种全局路径规划方法、装置、系统及存储介质
CN115547087B (zh) 基于两阶段法与方向诱导的城市路网最短路径获取方法及应用
CN116817913A (zh) 利用转弯惩罚因子和孪生路网改进的路径规划新方法
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
CN116908777A (zh) 基于显式通信带标签伯努利的多机器人随机组网协同导航方法
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
CN115545106A (zh) 一种多无人机中的AoI敏感的数据收集方法及系统
CN108731688A (zh) 导航方法和装置
CN111340870B (zh) 基于视觉的拓扑地图生成方法
Wen et al. Research on MDS-MAP Location Algorithm Based on Floyd's Shortest Path
CN113008223A (zh) 基于粒子滤波与图优化的海底地形同步定位与建图方法
CN115507852B (zh) 一种基于区块链和强化注意力学习的多无人机路径规划方法
CN116465403A (zh) 一种基于室内平面地图进行寻路的方法
CN117742976B (zh) 一种基于蜣螂优化算法的共识节点选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant