CN112484733A - 一种基于拓扑图的强化学习室内导航方法 - Google Patents
一种基于拓扑图的强化学习室内导航方法 Download PDFInfo
- Publication number
- CN112484733A CN112484733A CN202011402063.1A CN202011402063A CN112484733A CN 112484733 A CN112484733 A CN 112484733A CN 202011402063 A CN202011402063 A CN 202011402063A CN 112484733 A CN112484733 A CN 112484733A
- Authority
- CN
- China
- Prior art keywords
- node
- topological graph
- reinforcement learning
- agent
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
- G01C21/206—Instruments for performing navigational calculations specially adapted for indoor navigation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于拓扑图的强化学习室内导航方法,针对强化学习在导航任务中数据效率低,算法泛化性能差等问题,本发明结合了传统路径规划方法以及强化学习算法。通过对智能体的相对位置进行估计,进而依据关键位置对场景建立抽象的稀疏拓扑图,根据结点之间实际的物理距离定义连接关系,通过将传统路径规划算法与强化学习相结合的方式,形成了一种分层的导航策略,将长距离的导航问题分解为短期目标的导航问题,提升了在室内场景下的导航算法的学习效率以及泛化性能。
Description
技术领域
本发明涉及一种导航方法,具体涉及一种基于拓扑图的强化学习室内导航方法,属于基于关系的高效强化学习技术领域。
背景技术
随着近年来,大数据与人工智能技术以及硬件条件的快速发展,机器学习,深度学习,强化学习逐渐在各个领域中得到了广泛应用。而传统导航方法中,如SLAM一类的系统是通过将导航任务分割成三个独立任务定位,建图,路径规划来完成的,这样的方式对于建图定位精度要求都较高,同样也浪费了很多资源成本,而强化学习能够以一种端到端网络的形式实现导航任务,而这种方式的问题在于数据效率低以及泛化性能差。因此,迫切的需要一种新的方案解决现有技术中存在的技术问题。
发明内容
本发明的目的是将传统规划算法与强化学习算法进行有机结合来解决强化学习数据效率低下以及针对长时序任务的表现不佳的问题。
为了实现上述目的,本发明的技术方案如下,一种基于拓扑图的强化学习室内导航方法,所述方法包括以下步骤:
S1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图G,将拓扑图中的结点集合定义为N,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角RGB图像信息,gt为期望的目标位置对应的RGB图像信息;
S5:根据SLAM模块对当前智能体所在位置xt进行估计,根据位置信息xt以及视觉信息st找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据Softmax策略进行选择,得到待探索结点wt。
S6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图G进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
S9:根据新观测值st+1,xt+1来进行拓扑图G更新,并重复S4,S5,S6,S7,S8步骤。
其中,所述步骤S6中所使用的路径规划阶段算法为Dijkstra最短路径计算方法。
所述步骤S5中,将探索的机制与拓扑图相结合,具体采用了Softmax的策略,即待选择的结点,基于软策略的方式来进行结点选择,能够保证探索的多样性。
其中,所述步骤S9拓扑图建立过程为:根据新观测得到的位置输入xt以及视觉输入st,如果在已建立好的拓扑图上找不到一个高相似度的结点,即mini∈K||xt-xi||>MinDist1,那么以当前状态为中心建立一个新的结点,并于上一时刻所在的结点nt-1建立连接关系;若找到一个高相似度的结点,则将当前所处位置xt+1也加入到所属结点n中,并以均值方式来更新结点n中心。
相对于现有技术,本发明具有如下优点,本发明提出了一种将规划算法与强化学习算法进行结合的导航算法,能够通过建立拓扑图的形式建立对环境的抽象表达,进而通过将长时间导航任务在拓扑图上分成较为容易完成的阶段性任务,不仅提升了强化学习的数据效率,同时也提升了强化学习算法在新场景下的探索效率,并且实现了同一场景下不同目标的泛化性。
附图说明
图1强化学习算法A3C示意图;
图2为ResNet18,34,50;101;152示意图;
图3整体框架结构图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1-图3,一种基于拓扑图的强化学习室内导航方法,该方法将传统规划算法与强化学习算法相结合:包括以下步骤:
S1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图G,将拓扑图中的结点集合定义为N,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角RGB图像信息,gt为期望的目标位置对应的RGB图像信息;
S5:根据SLAM模块对当前智能体所在位置xt进行估计,找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据Softmax策略进行选择,得到待探索结点wt。
S6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图G进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
S9:根据新观测值st+1,xt+1来进行拓扑图G更新,并重复S4,S5,S6,S7,S8步骤。
所述步骤S6中所使用的路径规划阶段算法为Dijstra最短路径计算方法。
所述步骤S5中,将探索的机制与拓扑图相结合,具体采用了Softmax的策略,即待选择的结点,基于软策略的方式来进行结点选择,能够保证探索的多样性。
所述步骤S9拓扑图建立过程为:根据新观测得到的位置输入xt以及视觉输入st,如果在已建立好的拓扑图上找不到一个高相似度的结点,即mini∈K||xt-xi||>MinDist1,那么以当前状态为中心建立一个新的结点,并于上一时刻所在的结点nt-1建立连接关系;若找到一个高相似度的结点,则将当前所处位置xt+1也加入到所属结点n中,并以均值方式来更新结点n中心。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。
Claims (5)
1.一种基于拓扑图的强化学习室内导航方法,其特征在于,所述方法包括以下步骤:
S1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图G,将拓扑图中的结点集合定义为N,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角RGB图像信息,gt为期望的目标位置对应的RGB图像信息;
S5:根据SLAM模块对当前智能体所在位置xt进行估计,根据位置信息xt和视觉信息st找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据Softmax策略进行选择,得到待探索结点wt。
S6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图G进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
S9:根据新观测值st+1,xt+1来进行拓扑图G更新,并重复S4,S5,S6,S7,S8步骤。
2.根据权利要求1所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤S6中所使用的路径规划阶段算法为dijkstra最短路径计算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011402063.1A CN112484733B (zh) | 2020-12-04 | 2020-12-04 | 一种基于拓扑图的强化学习室内导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011402063.1A CN112484733B (zh) | 2020-12-04 | 2020-12-04 | 一种基于拓扑图的强化学习室内导航方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112484733A true CN112484733A (zh) | 2021-03-12 |
CN112484733B CN112484733B (zh) | 2022-10-25 |
Family
ID=74939756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011402063.1A Active CN112484733B (zh) | 2020-12-04 | 2020-12-04 | 一种基于拓扑图的强化学习室内导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112484733B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114489065A (zh) * | 2022-01-20 | 2022-05-13 | 华中科技大学同济医学院附属同济医院 | 手术室医疗物资配送多机器人协同路径规划方法及其应用 |
CN117899487A (zh) * | 2024-03-15 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备、存储介质及程序产品 |
CN117899487B (zh) * | 2024-03-15 | 2024-05-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备、存储介质及程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN109682392A (zh) * | 2018-12-28 | 2019-04-26 | 山东大学 | 基于深度强化学习的视觉导航方法及系统 |
CN110081893A (zh) * | 2019-04-01 | 2019-08-02 | 东莞理工学院 | 一种基于策略重用和强化学习的导航路径规划方法 |
CN110376594A (zh) * | 2018-08-17 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 一种基于拓扑图的智能导航的方法和系统 |
CN111416771A (zh) * | 2020-03-20 | 2020-07-14 | 深圳市大数据研究院 | 基于多智能体强化学习路由策略控制路由动作的方法 |
CN111896006A (zh) * | 2020-08-11 | 2020-11-06 | 燕山大学 | 一种基于强化学习和启发式搜索的路径规划方法及系统 |
-
2020
- 2020-12-04 CN CN202011402063.1A patent/CN112484733B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN110376594A (zh) * | 2018-08-17 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 一种基于拓扑图的智能导航的方法和系统 |
CN109682392A (zh) * | 2018-12-28 | 2019-04-26 | 山东大学 | 基于深度强化学习的视觉导航方法及系统 |
CN110081893A (zh) * | 2019-04-01 | 2019-08-02 | 东莞理工学院 | 一种基于策略重用和强化学习的导航路径规划方法 |
CN111416771A (zh) * | 2020-03-20 | 2020-07-14 | 深圳市大数据研究院 | 基于多智能体强化学习路由策略控制路由动作的方法 |
CN111896006A (zh) * | 2020-08-11 | 2020-11-06 | 燕山大学 | 一种基于强化学习和启发式搜索的路径规划方法及系统 |
Non-Patent Citations (5)
Title |
---|
YUKI KATO: "Autonomous Robot Navigation System with Learning Based on Deep Q-Network and Topological Maps", 《2017 IEEE/SICE INTERNATIONAL SYMPOSIUM ON SYSTEM INTEGRATION (SII)》 * |
万里鹏等: "深度强化学习理论及其应用综述", 《模式识别与人工智能》 * |
孙长银等: "多智能体深度强化学习的若干关键科学问题", 《自动化学报》 * |
肖扬等: "一种基于深度强化学习的动态路由算法", 《信息通信技术与政策》 * |
赵辰豪等: "基于改进Q学习算法的导航认知图构建", 《空军工程大学学报(自然科学版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114489065A (zh) * | 2022-01-20 | 2022-05-13 | 华中科技大学同济医学院附属同济医院 | 手术室医疗物资配送多机器人协同路径规划方法及其应用 |
CN114489065B (zh) * | 2022-01-20 | 2023-08-25 | 华中科技大学同济医学院附属同济医院 | 手术室医疗物资配送多机器人协同路径规划方法及其应用 |
CN117899487A (zh) * | 2024-03-15 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备、存储介质及程序产品 |
CN117899487B (zh) * | 2024-03-15 | 2024-05-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN112484733B (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108827335B (zh) | 一种基于单向搜索模型的最短路径规划方法 | |
CN106525047A (zh) | 一种基于floyd算法的无人机路径规划方法 | |
Bürki et al. | Appearance-based landmark selection for efficient long-term visual localization | |
CN110726408A (zh) | 一种基于改进蚁群算法的移动机器人路径规划方法 | |
CN112987799A (zh) | 一种基于改进rrt算法的无人机路径规划方法 | |
WO2022198947A1 (zh) | 密接人群识别方法、装置、电子设备及存储介质 | |
CN112484733B (zh) | 一种基于拓扑图的强化学习室内导航方法 | |
CN110420461A (zh) | 一种基于高度图的戏游层次化导航方法 | |
CN116952251B (zh) | 路径规划的方法、装置、终端设备及可读存储介质 | |
Xu et al. | Moving target tracking in three dimensional space with wireless sensor network | |
CN110769430B (zh) | 基于最小包围圆算法的无线传感器网络中继节点部署方法 | |
CN117029861A (zh) | 一种全局路径规划方法、装置、系统及存储介质 | |
CN115547087B (zh) | 基于两阶段法与方向诱导的城市路网最短路径获取方法及应用 | |
CN116817913A (zh) | 利用转弯惩罚因子和孪生路网改进的路径规划新方法 | |
CN116679710A (zh) | 一种基于多任务学习的机器人避障策略训练与部署方法 | |
CN116908777A (zh) | 基于显式通信带标签伯努利的多机器人随机组网协同导航方法 | |
CN114662656A (zh) | 一种深度神经网络模型训练方法、自主导航方法及系统 | |
CN115545106A (zh) | 一种多无人机中的AoI敏感的数据收集方法及系统 | |
CN108731688A (zh) | 导航方法和装置 | |
CN111340870B (zh) | 基于视觉的拓扑地图生成方法 | |
Wen et al. | Research on MDS-MAP Location Algorithm Based on Floyd's Shortest Path | |
CN113008223A (zh) | 基于粒子滤波与图优化的海底地形同步定位与建图方法 | |
CN115507852B (zh) | 一种基于区块链和强化注意力学习的多无人机路径规划方法 | |
CN116465403A (zh) | 一种基于室内平面地图进行寻路的方法 | |
CN117742976B (zh) | 一种基于蜣螂优化算法的共识节点选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |