CN114526738B - 一种基于深度强化学习的移动机器人视觉导航方法及装置 - Google Patents

一种基于深度强化学习的移动机器人视觉导航方法及装置 Download PDF

Info

Publication number
CN114526738B
CN114526738B CN202210085265.0A CN202210085265A CN114526738B CN 114526738 B CN114526738 B CN 114526738B CN 202210085265 A CN202210085265 A CN 202210085265A CN 114526738 B CN114526738 B CN 114526738B
Authority
CN
China
Prior art keywords
mobile robot
scene
reinforcement learning
target point
navigation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210085265.0A
Other languages
English (en)
Other versions
CN114526738A (zh
Inventor
张仪
冯伟
王卫军
朱子翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202210085265.0A priority Critical patent/CN114526738B/zh
Publication of CN114526738A publication Critical patent/CN114526738A/zh
Priority to PCT/CN2022/140079 priority patent/WO2023142780A1/zh
Application granted granted Critical
Publication of CN114526738B publication Critical patent/CN114526738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及机器视觉导航领域,具体涉及一种基于深度强化学习的移动机器人视觉导航方法及装置,本发明方法基于深度强化学习方法,以图像、深度图像、目标点位置为输入,可实现在多种场景混合的大空间下进行导航,提升了基于深度强化学习的移动机器人视觉导航技术的导航能力;此外,本发明通过设计移动机器人速度及移动机器人与目标距离相关的奖励函数,使深度强化学习模型的训练能够快速收敛;本发明可提高深度强化学习方法在复杂大场景下的导航能力,解决奖励稀疏问题,加快模型收敛速度,提高在复杂大场景下的导航性能。

Description

一种基于深度强化学习的移动机器人视觉导航方法及装置
技术领域
本发明涉及机器视觉导航领域,具体而言,涉及一种基于深度强化学习的移动机器人视觉导航方法及装置。
背景技术
基于深度强化学习的复杂大场景下的移动机器人视觉导航方法,以当前观测得到的图像及目标信息为输入,输出连续动作使智能体避开障碍,以较短路径到指定位置。目前基于深度强化学习的移动机器人视觉导航技术主要有以下两大问题:一是大空间下的视觉导航性能偏弱,二是同时在多种不同场景进行导航有难度。
目前技术比较成熟且应用较为广泛的定位技术为全球定位系统定位技术,这种定位技术的定位方法是车辆、手机等移动设备通过搭载GPS模块实现对自身的定位,从而实现导航。但此种技术在室内会出现信号偏弱,定位不准等问题,导致导航效果不佳,无法实现在室内外同时进行导航的目标;此外,移动机器人导航技术应用较多使用基于激光雷达导航的技术和基于视觉导航的技术,通过激光雷达和视觉传感器完成同时定位与建图,实现移动机器人的导航;但激光雷达成本较高,也无法识别物体;而视觉传感器造价低,可通过图像对周围环境有一个清楚的认知。
现有的技术没有充分融合图像中的深度信息,对未知场景目标的泛化能力、避障能力较差,且对深度强化学习的奖励函数设计较简单,极易出现奖励稀疏问题,导致移动机器人极难到达目标点,导致训练收敛速度变慢,另外在复杂的大空间下导航性能大大减弱。
因此,越来越多的研究人员将精力投入到基于深度强化学习的移动机器人的视觉导航中来,只需简单输入当前移动机器人观测到的图像以及目标点位置,即可以较短路径无碰撞的到达指定位置。
发明内容
本发明实施例提供了一种基于深度强化学习的移动机器人视觉导航方法及装置,以提高机器人在复杂的多场景下的快速导航性能。
根据本发明的一实施例,提供了一种基于深度强化学习的移动机器人视觉导航方法,包括以下步骤:
构建具有多种场景的场景地图;
移动机器人在场景地图中移动,并在场景地图中收集当前观测到的图像以及目标点位置信息,将当前观测到的图像以及目标点位置信息,设计卷积神经网络并提取出图像特征;
在场景地图中的单场景中构建深度强化学习模型,将图像特征及目标点位置输入深度强化学习模型,并通过设计奖励函数进行深度强化学习模型的训练,输出移动机器人连续的线速度以及角速度;
将各个单场景中移动机器人学习到的动作存储到数据库中,在穿越多种场景时对应使用,将各单场景的连通位置作为中间目标点,导航移动机器人到达目标点位置。
进一步地,构建具有多种场景的场景地图具体为:
基于gazebo仿真平台构建具有多种场景的场景地图。
进一步地,在场景地图中的单场景中构建PPO深度强化学习模型。
进一步地,奖励函数为:
Figure GDA0004202724850000021
其中,奖励函数的含义为:当移动机器人到达目标,即可获得100的奖励,若在导航过程中发生碰撞,给予-50的碰撞奖励;导航过程中,为了以最短距离到达目标,将与目标的距离Δd乘一个系数C1,作为距离奖励;为了以最快速度到达目标,将移动机器人的线速度Cv乘一个系数C2,作为速度奖励;为了以平滑的路径到达目标,限制移动机器人的角速度Cw,将其乘一个系数C3作为转弯奖励;为了以较短步数到达目标,加入步长奖励C4
进一步地,将各个单场景中移动机器人学习到的策略存储到数据库中,在穿越多种场景时对应使用,将各单场景的连通位置作为中间目标点,直到到达目标点位置具体为:
将移动机器人在单场景中动作存储到数据库中;
在场景地图中,根据移动机器人的位置及图像特征确定所处场景;
从数据库中调取对应动作,以根据对应动作实现导航至目标点位置。
进一步地,在从数据库中调取对应动作,以根据对应动作实现导航至目标点位置之前还包括:
判断移动机器人的起点与终点是否位于同一单场景;
若是同一单场景,则直接从对应的单场景的数据库中选取动作,移动机器人根据选取动作移动至目标点。
进一步地,在判断移动机器人的起点与终点是否位于同一单场景之后还包括:
若不是同一单场景,则判断移动机器人是否需要穿越其它单场景才能到达目标;
若不用穿越其它单场景,则确定当前单场景与目标单场景间的中间目标点,从单场景的数据库中选取动作,移动机器人根据选取的动作到达中间目标点,继续判断移动机器人的起点与终点是否位于同一单场景,直至移动机器人根据选取动作移动至目标点;
若需要穿越其它单场景,则确定当前单场景与要穿越的单场景之间的中间目标点,从对应单场景的数据库中取动作到达中间目标点,继续判断移动机器人的起点与终点是否位于同一单场景,直至移动机器人根据选取动作移动至目标点。
一种基于深度强化学习的移动机器人视觉导航装置,包括:
地图构建模块,用于构建具有多种场景的场景地图;
特征提取模块,用于移动机器人在场景地图中移动,并在场景地图中收集当前观测到的图像以及目标点位置信息,将当前观测到的图像以及目标点位置信息,设计卷积神经网络并提取出图像特征;
机器人状态输出模块,用于在场景地图中的单场景中构建深度强化学习模型,将图像特征及目标点位置输入深度强化学习模型,并通过设计奖励函数进行深度强化学习模型的训练,输出移动机器人连续的线速度以及角速度;
目标点位置导航模块,用于将各个单场景中移动机器人学习到的动作存储到数据库中,在穿越多种场景时对应使用,将各单场景的连通位置作为中间目标点,导航移动机器人到达目标点位置。
一种计算机可读介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述任意一项的基于深度强化学习的移动机器人视觉导航方法中的步骤。
一种终端设备,包括:处理器、存储器及通信总线;存储器上存储有可被处理器执行的计算机可读程序;
通信总线实现处理器和存储器之间的连接通信;
处理器执行计算机可读程序时实现如上述任意一项的基于深度强化学习的移动机器人视觉导航方法中的步骤。
本发明提供一种基于深度强化学习的移动机器人视觉导航方法及装置,本发明方法基于深度强化学习方法,以图像、深度图像、目标点位置为输入,可实现在多种场景,例如包含工厂,餐厅,办公区,户外等环境混合的大空间下进行导航,提升了基于深度强化学习的移动机器人视觉导航技术的导航能力;此外,本发明通过设计移动机器人速度及移动机器人与目标距离相关的奖励函数,使深度强化学习模型的训练能够快速收敛;本发明可提高深度强化学习方法在复杂大场景下的导航能力,解决奖励稀疏问题,加快模型收敛速度,提高在复杂大场景下的导航性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明基于深度强化学习的移动机器人视觉导航方法的流程图;
图2为本发明基于深度强化学习的视觉导航模型图;
图3为本发明移动机器人移至目标点的区域化导航模型图;
图4为本发明基于深度强化学习的移动机器人视觉导航装置的模块图;
图5为本发明终端设备原理图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明一实施例,提供了一种基于深度强化学习的移动机器人视觉导航方法,参见图1,包括以下步骤:
S100:构建具有多种场景的场景地图;
S200:移动机器人在场景地图中移动,并在场景地图中收集当前观测到的图像以及目标点位置信息,将当前观测到的图像以及目标点位置信息,设计卷积神经网络并提取出图像特征;
实施例中,将移动机器人模型在步骤101中的场景地图移动,将当前观测到的RGB-D图像以及目标点位置信息,设计卷积神经网络并提取出图像特征。
S300:在场景地图中的单场景中构建深度强化学习模型,将图像特征及目标点位置输入深度强化学习模型,并通过设计奖励函数进行深度强化学习模型的训练,输出移动机器人连续的线速度以及角速度;
S400:将各个单场景中移动机器人学习到的动作存储到数据库中,在穿越多种场景时对应使用,将各单场景的连通位置作为中间目标点,导航移动机器人到达目标点位置。
本发明提供一种基于深度强化学习的移动机器人视觉导航方法及装置,本发明方法基于深度强化学习方法,以图像、深度图像、目标点位置为输入,可实现在多种场景,例如包含工厂,餐厅,办公区,户外等环境混合的大空间下进行导航,提升了基于深度强化学习的移动机器人视觉导航技术的导航能力;此外,本发明通过设计移动机器人速度及移动机器人与目标距离相关的奖励函数,使深度强化学习模型的训练能够快速收敛;本发明可提高深度强化学习方法在复杂大场景下的导航能力,解决奖励稀疏问题,加快模型收敛速度,提高在复杂大场景下的导航性能。
本发明面向复杂大场景下的视觉导航,可实现在餐厅,办公室,户外,工厂等多种大空间下的视觉导航,并可穿越不同场景进行视觉导航。本发明基于区域化的方法,通过输入RGB图像及深度图像,设计和移动机器人与目标间距离、移动机器人速度相关的奖励函数,使移动机器人能较快到达目标点位置;通过对多种场景的区域化处理,实现移动机器人在复杂大场景下的视觉导航。
实施例中,步骤S100具体为:
基于gazebo仿真平台构建具有多种场景的场景地图。
具体的,构建基于gazebo仿真平台的复杂大场景地图,地图中包括工厂、办公室、户外、餐厅等多种场景。
实施例中,步骤S300包括:
在场景地图中的单场景中构建PPO深度强化学习模型。
具体的,在单场景中构建PPO深度强化学习模型,并将步骤S102中的图像特征及目标点位置作为模型的输入,设计奖励函数,进行模型的训练,输出为连续的移动机器人的线速度以及角速度。
具体地,为了要使移动机器人快速到达目标点位置,需要设计一个与移动机器人的目标距离及速度相关的奖励函数,因此设计如下奖励函数:
Figure GDA0004202724850000061
其中,奖励函数的含义为:当移动机器人到达目标,即可获得100的奖励,若在导航过程中发生碰撞,给予-50的碰撞奖励;导航过程中,为了以最短距离到达目标,将与目标的距离Δd乘一个系数C1,作为距离奖励;为了以最快速度到达目标,将移动机器人的线速度Cv乘一个系数C2,作为速度奖励;为了以平滑的路径到达目标,限制移动机器人的角速度Cw,将其乘一个系数C3作为转弯奖励;为了以较短步数到达目标,加入步长奖励C4
实施例中,步骤S400具体为:
S401:将移动机器人在单场景中动作存储到数据库中;
S402:在场景地图中,根据移动机器人的位置及图像特征确定所处场景;
S403:从数据库中调取对应动作,以根据对应动作实现导航至目标点位置。
具体的,将步骤S300中各个单场景中学习到的策略或动作存储到经验池或数据库中,在穿越多场景时对应使用,将各场景连通位置作为中间目标点,导航移动机器人,直至移动机器人到达目标点位置。
实施例中,在步骤S403之前还包括:
S404:判断移动机器人的起点与终点是否位于同一单场景;
S405:若是同一单场景,则直接从对应的单场景的数据库中选取动作,移动机器人根据选取动作移动至目标点。
在步骤S404之后还包括:
S406:若不是同一单场景,则判断移动机器人是否需要穿越其它单场景才能到达目标;
S407:若不用穿越其它单场景,则确定当前单场景与目标单场景间的中间目标点,从单场景的数据库中选取动作,移动机器人根据选取的动作到达中间目标点,继续判断移动机器人的起点与终点是否位于同一单场景,直至移动机器人根据选取动作移动至目标点;
S408:若需要穿越其它单场景,则确定当前单场景与要穿越的单场景之间的中间目标点,从对应单场景的数据库中取动作到达中间目标点,继续判断移动机器人的起点与终点是否位于同一单场景,直至移动机器人根据选取动作移动至目标点。
在本发明中,我们提出了一个基于深度强化学习的用于复杂大场景的区域化视觉导航框架。主要包括:基于深度强化学习的导航模型、深度强化学习奖励函数设计、区域化导航模型。
具体地,本发明步将移动机器人以第一视角观测到的RGB图像及深度图像输入卷积神经网络,提取出与目标和障碍物相关的特征。
通过构建与移动机器人与目标之间距离、夹角、以及本身线速度及角速度相关的奖励函数,计算出移动机器人所采取的动作的奖励值。
设计区域化导航模型,将移动机器人在单场景中动作存储到数据库中,在复杂大场景下,根据移动机器人的位置及周围图像特征确定所处场景,并从数据库中调取动作以实现导航至目标。
具体地,基于深度强化学习的导航模型:
室内目标驱动视觉导航如图2所示,该网络以移动机器人64×48×3的RGB图像以及32×24×1的深度图像为输入,RGB图像首先经过32个滤波器,8×6的内核,跨度为4,ReLU为激活函数的二维卷积层,然后经过64个滤波器,4×3的内核,跨度为2,ReLU为激活函数的二维卷积层,然后经过以2×2的内核,跨度为2的最大化池化层,最后经过64个滤波器,2×2的内核,跨度为2,ReLU为激活函数的二维卷积层,获得有关RGB图像的特征向量;深度图像首先经过32个滤波器,4×3的内核,跨度为2,ReLU为激活函数的二维卷积层,然后经过64个滤波器,4×3的内核,跨度为2,ReLU为激活函数的二维卷积层,然后经过以2×2的内核,跨度为2的最大化池化层,最后经过64个滤波器,2×2的内核,跨度为2,ReLU为激活函数的二维卷积层,获得有关深度图像的特征向量;
将有关RGB图像和深度图像的特征向量铺平整合,经过具有32个隐藏单元和ReLU激活函数的全连接层处理,将处理后结果与目标信息整合,输入具有256个隐藏单元的LSTM层中,将处理后结果与上一时刻移动机器人速度、上一时刻移动机器人获得的奖励进行整合,输入具有256个隐藏单元的LSTM层中,再输入具有32个隐藏单元和ReLU激活函数的全连接层处理,得到该时刻移动机器人的速度,实现端到端的视觉导航。
具体地,深度强化学习奖励函数的改进设计思路基于如下区域化导航模型,并参考图3所示内容。
步骤一:将移动机器人在单场景中学习到的策略存储到经验池或数据库中,在穿越多场景时对应使用,将各单场景连通位置作为中间目标点。
步骤二:判断移动机器人起点与终点是否在同一子地图(单场景),若是,直接从对应子地图经验池中选取动作,根据所选取的动作即可到达目标点;若否执行步骤三。
步骤三:判断是否需要穿越其它子地图才能到达目标;若否,则先确定当前子地图与目标子地图间的中间目标点,从子地图经验池或数据库选取动作到达中间目标点,转执行步骤二;若是,则执行步骤四;
步骤四:确定移动机器人当前子地图与要穿越的子地图间的中间目标点,从子地图经验池或数据库选取动作到达中间目标点,转执行步骤二,直至移动机器人到达目的点。
本发明通过gazebo仿真平台建立融合工厂,办公室,户外,餐厅的复杂大场景,通过设计区域化深度强化学习的视觉导航框架,改进深度强化学习中的奖励函数,实现移动机器人在复杂大场景下的视觉导航。本发明对比现有技术,提升了在复杂大场景下的泛化能力,提升了导航性能。
本发明经过与视觉导航方法进行多组实验对比,在设计的仿真地图中取得了很好的效果,在复杂大场景下的泛化能力和导航性能都有所提升。
参见图4,根据本发明一实施例,提供了一种基于深度强化学习的移动机器人视觉导航装置,包括:
地图构建模块100,用于构建具有多种场景的场景地图;
特征提取模块200,用于移动机器人在场景地图中移动,并在场景地图中收集当前观测到的图像以及目标点位置信息,将当前观测到的图像以及目标点位置信息,设计卷积神经网络并提取出图像特征;
机器人状态输出模块300,用于在场景地图中的单场景中构建深度强化学习模型,将图像特征及目标点位置输入深度强化学习模型,并通过设计奖励函数进行深度强化学习模型的训练,输出移动机器人连续的线速度以及角速度;
目标点位置导航模块400,用于将各个单场景中移动机器人学习到的动作存储到数据库中,在穿越多种场景时对应使用,将各单场景的连通位置作为中间目标点,导航移动机器人到达目标点位置。
本发明提供一种基于深度强化学习的移动机器人视觉导航方法及装置,本发明方法基于深度强化学习方法,以图像、深度图像、目标点位置为输入,可实现在多种场景,例如包含工厂,餐厅,办公区,户外等环境混合的大空间下进行导航,提升了基于深度强化学习的移动机器人视觉导航技术的导航能力;此外,本发明通过设计移动机器人速度及移动机器人与目标距离相关的奖励函数,使深度强化学习模型的训练能够快速收敛;本发明可提高深度强化学习方法在复杂大场景下的导航能力,解决奖励稀疏问题,加快模型收敛速度,提高在复杂大场景下的导航性能。
本发明面向复杂大场景下的视觉导航,可实现在餐厅,办公室,户外,工厂等多种大空间下的视觉导航,并可穿越不同场景进行视觉导航。本发明基于区域化的方法,通过输入RGB图像及深度图像,设计和移动机器人与目标间距离、移动机器人速度相关的奖励函数,使移动机器人能较快到达目标点位置;通过对多种场景的区域化处理,实现移动机器人在复杂大场景下的视觉导航。
基于上述基于深度强化学习的移动机器人视觉导航方法,本实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例的基于深度强化学习的移动机器人视觉导航方法中的步骤。
一种终端设备,包括:处理器、存储器及通信总线;存储器上存储有可被处理器执行的计算机可读程序;通信总线实现处理器和存储器之间的连接通信;处理器执行计算机可读程序时实现上述的基于深度强化学习的移动机器人视觉导航方法中的步骤。
基于上述基于深度强化学习的移动机器人视觉导航方法,本申请提供了一种终端设备,如图5所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于深度强化学习的移动机器人视觉导航方法,其特征在于,包括以下步骤:
构建具有多种场景的场景地图;
移动机器人在所述场景地图中移动,并在所述场景地图中收集当前观测到的图像以及目标点位置信息,将当前观测到的所述图像以及目标点位置信息,设计卷积神经网络并提取出图像特征;
在所述场景地图中的单场景中构建深度强化学习模型,将所述图像特征及目标点位置输入所述深度强化学习模型,并通过设计奖励函数进行所述深度强化学习模型的训练,输出所述移动机器人连续的线速度以及角速度;
将各个所述单场景中所述移动机器人学习到的动作存储到数据库中,在穿越多种场景时对应使用,将各所述单场景的连通位置作为中间目标点,导航所述移动机器人到达目标点位置;
所述将各个所述单场景中所述移动机器人学习到的策略存储到数据库中,在穿越多种场景时对应使用,将各所述单场景的连通位置作为中间目标点,直到到达目标点位置具体为:
将所述移动机器人在单场景中动作存储到数据库中;
在所述场景地图中,根据所述移动机器人的位置及所述图像特征确定所处场景;
从所述数据库中调取对应动作,以根据所述对应动作实现导航至所述目标点位置;
在所述从所述数据库中调取对应动作,以根据所述对应动作实现导航至所述目标点位置之前还包括:
判断所述移动机器人的起点与终点是否位于同一所述单场景;
若是同一所述单场景,则直接从对应的所述单场景的所述数据库中选取动作,所述移动机器人根据所述选取动作移动至目标点;
在所述判断所述移动机器人的起点与终点是否位于同一所述单场景之后还包括:
若不是同一所述单场景,则判断所述移动机器人是否需要穿越其它所述单场景才能到达目标;
若不用穿越其它所述单场景,则确定当前单场景与目标单场景间的中间目标点,从单场景的数据库中选取动作,所述移动机器人根据选取的动作到达所述中间目标点,继续判断所述移动机器人的起点与终点是否位于同一所述单场景,直至所述移动机器人根据所述选取动作移动至目标点;
若需要穿越其它所述单场景,则确定当前单场景与要穿越的单场景之间的中间目标点,从对应单场景的所述数据库中取动作到达中间目标点,继续判断所述移动机器人的起点与终点是否位于同一所述单场景,直至所述移动机器人根据所述选取动作移动至目标点。
2.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法,其特征在于,所述构建具有多种场景的场景地图具体为:
基于gazebo仿真平台构建具有多种场景的所述场景地图。
3.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法,其特征在于,在所述场景地图中的单场景中构建PPO深度强化学习模型。
4.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法,其特征在于,所述奖励函数为:
Figure FDA0004202724840000021
其中,所述奖励函数的含义为:当移动机器人到达目标,即可获得100的奖励,若在导航过程中发生碰撞,给予-50的碰撞奖励;导航过程中,为了以最短距离到达目标,将与目标的距离Δd乘一个系数C1,作为距离奖励;为了以最快速度到达目标,将移动机器人的线速度Cv乘一个系数C2,作为速度奖励;为了以平滑的路径到达目标,限制移动机器人的角速度Cw,将其乘一个系数C3作为转弯奖励;为了以较短步数到达目标,加入步长奖励C4
5.一种基于深度强化学习的移动机器人视觉导航装置,其特征在于,包括:
地图构建模块,用于构建具有多种场景的场景地图;
特征提取模块,用于移动机器人在所述场景地图中移动,并在所述场景地图中收集当前观测到的图像以及目标点位置信息,将当前观测到的所述图像以及目标点位置信息,设计卷积神经网络并提取出图像特征;
机器人状态输出模块,用于在所述场景地图中的单场景中构建深度强化学习模型,将所述图像特征及目标点位置输入所述深度强化学习模型,并通过设计奖励函数进行所述深度强化学习模型的训练,输出所述移动机器人连续的线速度以及角速度;
目标点位置导航模块,用于将各个所述单场景中所述移动机器人学习到的动作存储到数据库中,在穿越多种场景时对应使用,将各所述单场景的连通位置作为中间目标点,导航所述移动机器人到达目标点位置。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-4任意一项所述的基于深度强化学习的移动机器人视觉导航方法中的步骤。
7.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-4任意一项所述的基于深度强化学习的移动机器人视觉导航方法中的步骤。
CN202210085265.0A 2022-01-25 2022-01-25 一种基于深度强化学习的移动机器人视觉导航方法及装置 Active CN114526738B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210085265.0A CN114526738B (zh) 2022-01-25 2022-01-25 一种基于深度强化学习的移动机器人视觉导航方法及装置
PCT/CN2022/140079 WO2023142780A1 (zh) 2022-01-25 2022-12-19 一种基于深度强化学习的移动机器人视觉导航方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210085265.0A CN114526738B (zh) 2022-01-25 2022-01-25 一种基于深度强化学习的移动机器人视觉导航方法及装置

Publications (2)

Publication Number Publication Date
CN114526738A CN114526738A (zh) 2022-05-24
CN114526738B true CN114526738B (zh) 2023-06-16

Family

ID=81622478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210085265.0A Active CN114526738B (zh) 2022-01-25 2022-01-25 一种基于深度强化学习的移动机器人视觉导航方法及装置

Country Status (2)

Country Link
CN (1) CN114526738B (zh)
WO (1) WO2023142780A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114526738B (zh) * 2022-01-25 2023-06-16 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006289602A (ja) * 2005-03-17 2006-10-26 Sony Corp ロボット装置及びその制御方法
CN109239660A (zh) * 2018-08-31 2019-01-18 平安科技(深圳)有限公司 室内导航方法、装置、计算机设备及存储介质
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109931942A (zh) * 2019-03-13 2019-06-25 浙江大华技术股份有限公司 机器人路径生成方法、装置、机器人和存储介质
CN110455306A (zh) * 2018-05-07 2019-11-15 南京图易科技有限责任公司 一种基于深度学习的机器人场景识别与语义导航地图标注方法
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN111026157A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111552301A (zh) * 2020-06-21 2020-08-18 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111728532A (zh) * 2020-06-01 2020-10-02 珠海市一微半导体有限公司 一种机器人进入电梯的控制方法、激光机器人及芯片
CN111750862A (zh) * 2020-06-11 2020-10-09 深圳优地科技有限公司 基于多区域的机器人路径规划方法、机器人及终端设备
CN112149344A (zh) * 2020-08-24 2020-12-29 同济大学 一种基于强化学习的足球机器人带球策略选择方法
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN113252026A (zh) * 2021-06-03 2021-08-13 炬星科技(深圳)有限公司 跨场景导航方法、设备及存储介质
CN113392584A (zh) * 2021-06-08 2021-09-14 华南理工大学 基于深度强化学习和方向估计的视觉导航方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110376594B (zh) * 2018-08-17 2022-02-01 北京京东叁佰陆拾度电子商务有限公司 一种基于拓扑图的智能导航的方法和系统
CN109682392B (zh) * 2018-12-28 2020-09-01 山东大学 基于深度强化学习的视觉导航方法及系统
CN111123738B (zh) * 2019-11-25 2023-06-30 的卢技术有限公司 提高仿真环境中深度强化学习算法训练效率的方法及系统
CN112767373B (zh) * 2021-01-27 2022-09-02 大连理工大学 一种基于单目相机的机器人室内复杂场景避障方法
CN113920484A (zh) * 2021-10-15 2022-01-11 湖南师范大学 基于单目rgb-d特征和强化学习的端到端自动驾驶决策方法
CN114526738B (zh) * 2022-01-25 2023-06-16 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006289602A (ja) * 2005-03-17 2006-10-26 Sony Corp ロボット装置及びその制御方法
CN110455306A (zh) * 2018-05-07 2019-11-15 南京图易科技有限责任公司 一种基于深度学习的机器人场景识别与语义导航地图标注方法
CN109239660A (zh) * 2018-08-31 2019-01-18 平安科技(深圳)有限公司 室内导航方法、装置、计算机设备及存储介质
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109931942A (zh) * 2019-03-13 2019-06-25 浙江大华技术股份有限公司 机器人路径生成方法、装置、机器人和存储介质
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN111026157A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111728532A (zh) * 2020-06-01 2020-10-02 珠海市一微半导体有限公司 一种机器人进入电梯的控制方法、激光机器人及芯片
CN111750862A (zh) * 2020-06-11 2020-10-09 深圳优地科技有限公司 基于多区域的机器人路径规划方法、机器人及终端设备
CN111552301A (zh) * 2020-06-21 2020-08-18 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN112149344A (zh) * 2020-08-24 2020-12-29 同济大学 一种基于强化学习的足球机器人带球策略选择方法
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN113252026A (zh) * 2021-06-03 2021-08-13 炬星科技(深圳)有限公司 跨场景导航方法、设备及存储介质
CN113392584A (zh) * 2021-06-08 2021-09-14 华南理工大学 基于深度强化学习和方向估计的视觉导航方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于强化学习的ICRA RoboMaster AI策略研究;陈明阳;刘博;茆意风;;中阿科技论坛(中英文)(第09期);179-182 *
基于神经网络租遗传算法的足球机器人路径规划;刘祚时;胡翠娜;;计算机应用与软件(第05期);160-16,190 *
基于空间特征重标定网络的遥感图像场景分类;刘燕芝;陈立福;崔先亮;袁志辉;邢学敏;;计算机工程(第01期);235-241 *

Also Published As

Publication number Publication date
WO2023142780A1 (zh) 2023-08-03
CN114526738A (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN113110457B (zh) 在室内复杂动态环境中智能机器人的自主覆盖巡检方法
US11360216B2 (en) Method and system for positioning of autonomously operating entities
CN108763287A (zh) 大规模可通行区域驾驶地图的构建方法及其无人驾驶应用方法
CN105973145A (zh) 移动式三维激光扫描系统及移动式三维激光扫描方法
CN114526738B (zh) 一种基于深度强化学习的移动机器人视觉导航方法及装置
CN113359859B (zh) 一种组合导航避障方法、系统、终端设备及存储介质
ElHalawany et al. Modified a* algorithm for safer mobile robot navigation
CN110146086B (zh) 一种生成室内地图的方法及装置
CN112304314A (zh) 一种分布式多机器人的导航方法
CN107305125A (zh) 一种地图构建方法及终端
Jiang et al. A brief survey: Deep reinforcement learning in mobile robot navigation
CN110967019A (zh) 一种规划机器人局部路径的方法及机器人
Li et al. Learning view and target invariant visual servoing for navigation
KR20220083975A (ko) 궤적 계획 방법, 장치, 기기, 저장 매체 및 프로그램 제품
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN114879660B (zh) 一种基于目标驱动的机器人环境感知方法
CN112857370A (zh) 一种基于时序信息建模的机器人无地图导航方法
CN108803659A (zh) 基于魔方模型的多窗口启发式三维空间路径规划方法
Marzouqi et al. Covert path planning for autonomous robot navigation in known environments
EP4293458A1 (en) Method and device for pool cleaning
CN114518762B (zh) 机器人避障装置、避障控制方法和机器人
CN114563011A (zh) 一种用于无地图导航的主动听觉定位方法
CN111784797A (zh) 一种基于ar的机器人物联网交互方法、装置及介质
Stamford et al. Pathfinding in partially explored games environments: The application of the A* Algorithm with occupancy grids in Unity3D

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant