CN114526738B

CN114526738B - 一种基于深度强化学习的移动机器人视觉导航方法及装置

Info

Publication number: CN114526738B
Application number: CN202210085265.0A
Authority: CN
Inventors: 张仪; 冯伟; 王卫军; 朱子翰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2023-06-16
Anticipated expiration: 2042-01-25
Also published as: WO2023142780A1; CN114526738A

Abstract

本发明涉及机器视觉导航领域，具体涉及一种基于深度强化学习的移动机器人视觉导航方法及装置，本发明方法基于深度强化学习方法，以图像、深度图像、目标点位置为输入，可实现在多种场景混合的大空间下进行导航，提升了基于深度强化学习的移动机器人视觉导航技术的导航能力；此外，本发明通过设计移动机器人速度及移动机器人与目标距离相关的奖励函数，使深度强化学习模型的训练能够快速收敛；本发明可提高深度强化学习方法在复杂大场景下的导航能力，解决奖励稀疏问题，加快模型收敛速度，提高在复杂大场景下的导航性能。

Description

一种基于深度强化学习的移动机器人视觉导航方法及装置

技术领域

本发明涉及机器视觉导航领域，具体而言，涉及一种基于深度强化学习的移动机器人视觉导航方法及装置。

背景技术

基于深度强化学习的复杂大场景下的移动机器人视觉导航方法，以当前观测得到的图像及目标信息为输入，输出连续动作使智能体避开障碍，以较短路径到指定位置。目前基于深度强化学习的移动机器人视觉导航技术主要有以下两大问题：一是大空间下的视觉导航性能偏弱，二是同时在多种不同场景进行导航有难度。

目前技术比较成熟且应用较为广泛的定位技术为全球定位系统定位技术，这种定位技术的定位方法是车辆、手机等移动设备通过搭载GPS模块实现对自身的定位，从而实现导航。但此种技术在室内会出现信号偏弱，定位不准等问题，导致导航效果不佳，无法实现在室内外同时进行导航的目标；此外，移动机器人导航技术应用较多使用基于激光雷达导航的技术和基于视觉导航的技术，通过激光雷达和视觉传感器完成同时定位与建图，实现移动机器人的导航；但激光雷达成本较高，也无法识别物体；而视觉传感器造价低，可通过图像对周围环境有一个清楚的认知。

现有的技术没有充分融合图像中的深度信息，对未知场景目标的泛化能力、避障能力较差，且对深度强化学习的奖励函数设计较简单，极易出现奖励稀疏问题，导致移动机器人极难到达目标点，导致训练收敛速度变慢，另外在复杂的大空间下导航性能大大减弱。

因此，越来越多的研究人员将精力投入到基于深度强化学习的移动机器人的视觉导航中来，只需简单输入当前移动机器人观测到的图像以及目标点位置，即可以较短路径无碰撞的到达指定位置。

发明内容

本发明实施例提供了一种基于深度强化学习的移动机器人视觉导航方法及装置，以提高机器人在复杂的多场景下的快速导航性能。

根据本发明的一实施例，提供了一种基于深度强化学习的移动机器人视觉导航方法，包括以下步骤：

构建具有多种场景的场景地图；

移动机器人在场景地图中移动，并在场景地图中收集当前观测到的图像以及目标点位置信息，将当前观测到的图像以及目标点位置信息，设计卷积神经网络并提取出图像特征；

在场景地图中的单场景中构建深度强化学习模型，将图像特征及目标点位置输入深度强化学习模型，并通过设计奖励函数进行深度强化学习模型的训练，输出移动机器人连续的线速度以及角速度；

将各个单场景中移动机器人学习到的动作存储到数据库中，在穿越多种场景时对应使用，将各单场景的连通位置作为中间目标点，导航移动机器人到达目标点位置。

进一步地，构建具有多种场景的场景地图具体为：

基于gazebo仿真平台构建具有多种场景的场景地图。

进一步地，在场景地图中的单场景中构建PPO深度强化学习模型。

进一步地，奖励函数为：

其中，奖励函数的含义为：当移动机器人到达目标，即可获得100的奖励，若在导航过程中发生碰撞，给予-50的碰撞奖励；导航过程中，为了以最短距离到达目标，将与目标的距离Δd乘一个系数C₁，作为距离奖励；为了以最快速度到达目标，将移动机器人的线速度C_v乘一个系数C₂，作为速度奖励；为了以平滑的路径到达目标，限制移动机器人的角速度C_w，将其乘一个系数C₃作为转弯奖励；为了以较短步数到达目标，加入步长奖励C₄。

进一步地，将各个单场景中移动机器人学习到的策略存储到数据库中，在穿越多种场景时对应使用，将各单场景的连通位置作为中间目标点，直到到达目标点位置具体为：

将移动机器人在单场景中动作存储到数据库中；

在场景地图中，根据移动机器人的位置及图像特征确定所处场景；

从数据库中调取对应动作，以根据对应动作实现导航至目标点位置。

进一步地，在从数据库中调取对应动作，以根据对应动作实现导航至目标点位置之前还包括：

判断移动机器人的起点与终点是否位于同一单场景；

若是同一单场景，则直接从对应的单场景的数据库中选取动作，移动机器人根据选取动作移动至目标点。

进一步地，在判断移动机器人的起点与终点是否位于同一单场景之后还包括：

若不是同一单场景，则判断移动机器人是否需要穿越其它单场景才能到达目标；

若不用穿越其它单场景，则确定当前单场景与目标单场景间的中间目标点，从单场景的数据库中选取动作，移动机器人根据选取的动作到达中间目标点，继续判断移动机器人的起点与终点是否位于同一单场景，直至移动机器人根据选取动作移动至目标点；

若需要穿越其它单场景，则确定当前单场景与要穿越的单场景之间的中间目标点，从对应单场景的数据库中取动作到达中间目标点，继续判断移动机器人的起点与终点是否位于同一单场景，直至移动机器人根据选取动作移动至目标点。

一种基于深度强化学习的移动机器人视觉导航装置，包括：

地图构建模块，用于构建具有多种场景的场景地图；

特征提取模块，用于移动机器人在场景地图中移动，并在场景地图中收集当前观测到的图像以及目标点位置信息，将当前观测到的图像以及目标点位置信息，设计卷积神经网络并提取出图像特征；

机器人状态输出模块，用于在场景地图中的单场景中构建深度强化学习模型，将图像特征及目标点位置输入深度强化学习模型，并通过设计奖励函数进行深度强化学习模型的训练，输出移动机器人连续的线速度以及角速度；

目标点位置导航模块，用于将各个单场景中移动机器人学习到的动作存储到数据库中，在穿越多种场景时对应使用，将各单场景的连通位置作为中间目标点，导航移动机器人到达目标点位置。

一种计算机可读介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如上述任意一项的基于深度强化学习的移动机器人视觉导航方法中的步骤。

一种终端设备，包括：处理器、存储器及通信总线；存储器上存储有可被处理器执行的计算机可读程序；

通信总线实现处理器和存储器之间的连接通信；

处理器执行计算机可读程序时实现如上述任意一项的基于深度强化学习的移动机器人视觉导航方法中的步骤。

本发明提供一种基于深度强化学习的移动机器人视觉导航方法及装置，本发明方法基于深度强化学习方法，以图像、深度图像、目标点位置为输入，可实现在多种场景，例如包含工厂，餐厅，办公区，户外等环境混合的大空间下进行导航，提升了基于深度强化学习的移动机器人视觉导航技术的导航能力；此外，本发明通过设计移动机器人速度及移动机器人与目标距离相关的奖励函数，使深度强化学习模型的训练能够快速收敛；本发明可提高深度强化学习方法在复杂大场景下的导航能力，解决奖励稀疏问题，加快模型收敛速度，提高在复杂大场景下的导航性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于深度强化学习的移动机器人视觉导航方法的流程图；

图2为本发明基于深度强化学习的视觉导航模型图；

图3为本发明移动机器人移至目标点的区域化导航模型图；

图4为本发明基于深度强化学习的移动机器人视觉导航装置的模块图；

图5为本发明终端设备原理图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明一实施例，提供了一种基于深度强化学习的移动机器人视觉导航方法，参见图1，包括以下步骤：

S100：构建具有多种场景的场景地图；

S200：移动机器人在场景地图中移动，并在场景地图中收集当前观测到的图像以及目标点位置信息，将当前观测到的图像以及目标点位置信息，设计卷积神经网络并提取出图像特征；

实施例中，将移动机器人模型在步骤101中的场景地图移动，将当前观测到的RGB-D图像以及目标点位置信息，设计卷积神经网络并提取出图像特征。

S300：在场景地图中的单场景中构建深度强化学习模型，将图像特征及目标点位置输入深度强化学习模型，并通过设计奖励函数进行深度强化学习模型的训练，输出移动机器人连续的线速度以及角速度；

S400：将各个单场景中移动机器人学习到的动作存储到数据库中，在穿越多种场景时对应使用，将各单场景的连通位置作为中间目标点，导航移动机器人到达目标点位置。

本发明面向复杂大场景下的视觉导航，可实现在餐厅，办公室，户外，工厂等多种大空间下的视觉导航，并可穿越不同场景进行视觉导航。本发明基于区域化的方法，通过输入RGB图像及深度图像，设计和移动机器人与目标间距离、移动机器人速度相关的奖励函数，使移动机器人能较快到达目标点位置；通过对多种场景的区域化处理，实现移动机器人在复杂大场景下的视觉导航。

实施例中，步骤S100具体为：

基于gazebo仿真平台构建具有多种场景的场景地图。

具体的，构建基于gazebo仿真平台的复杂大场景地图，地图中包括工厂、办公室、户外、餐厅等多种场景。

实施例中，步骤S300包括：

在场景地图中的单场景中构建PPO深度强化学习模型。

具体的，在单场景中构建PPO深度强化学习模型，并将步骤S102中的图像特征及目标点位置作为模型的输入，设计奖励函数，进行模型的训练，输出为连续的移动机器人的线速度以及角速度。

具体地，为了要使移动机器人快速到达目标点位置，需要设计一个与移动机器人的目标距离及速度相关的奖励函数，因此设计如下奖励函数：

实施例中，步骤S400具体为：

S401：将移动机器人在单场景中动作存储到数据库中；

S402：在场景地图中，根据移动机器人的位置及图像特征确定所处场景；

S403：从数据库中调取对应动作，以根据对应动作实现导航至目标点位置。

具体的，将步骤S300中各个单场景中学习到的策略或动作存储到经验池或数据库中，在穿越多场景时对应使用，将各场景连通位置作为中间目标点，导航移动机器人，直至移动机器人到达目标点位置。

实施例中，在步骤S403之前还包括：

S404：判断移动机器人的起点与终点是否位于同一单场景；

S405：若是同一单场景，则直接从对应的单场景的数据库中选取动作，移动机器人根据选取动作移动至目标点。

在步骤S404之后还包括：

S406：若不是同一单场景，则判断移动机器人是否需要穿越其它单场景才能到达目标；

S407：若不用穿越其它单场景，则确定当前单场景与目标单场景间的中间目标点，从单场景的数据库中选取动作，移动机器人根据选取的动作到达中间目标点，继续判断移动机器人的起点与终点是否位于同一单场景，直至移动机器人根据选取动作移动至目标点；

S408：若需要穿越其它单场景，则确定当前单场景与要穿越的单场景之间的中间目标点，从对应单场景的数据库中取动作到达中间目标点，继续判断移动机器人的起点与终点是否位于同一单场景，直至移动机器人根据选取动作移动至目标点。

在本发明中，我们提出了一个基于深度强化学习的用于复杂大场景的区域化视觉导航框架。主要包括：基于深度强化学习的导航模型、深度强化学习奖励函数设计、区域化导航模型。

具体地，本发明步将移动机器人以第一视角观测到的RGB图像及深度图像输入卷积神经网络，提取出与目标和障碍物相关的特征。

通过构建与移动机器人与目标之间距离、夹角、以及本身线速度及角速度相关的奖励函数，计算出移动机器人所采取的动作的奖励值。

设计区域化导航模型，将移动机器人在单场景中动作存储到数据库中，在复杂大场景下，根据移动机器人的位置及周围图像特征确定所处场景，并从数据库中调取动作以实现导航至目标。

具体地，基于深度强化学习的导航模型：

室内目标驱动视觉导航如图2所示，该网络以移动机器人64×48×3的RGB图像以及32×24×1的深度图像为输入，RGB图像首先经过32个滤波器，8×6的内核，跨度为4，ReLU为激活函数的二维卷积层，然后经过64个滤波器，4×3的内核，跨度为2，ReLU为激活函数的二维卷积层，然后经过以2×2的内核，跨度为2的最大化池化层，最后经过64个滤波器，2×2的内核，跨度为2，ReLU为激活函数的二维卷积层，获得有关RGB图像的特征向量；深度图像首先经过32个滤波器，4×3的内核，跨度为2，ReLU为激活函数的二维卷积层，然后经过64个滤波器，4×3的内核，跨度为2，ReLU为激活函数的二维卷积层，然后经过以2×2的内核，跨度为2的最大化池化层，最后经过64个滤波器，2×2的内核，跨度为2，ReLU为激活函数的二维卷积层，获得有关深度图像的特征向量；

将有关RGB图像和深度图像的特征向量铺平整合，经过具有32个隐藏单元和ReLU激活函数的全连接层处理，将处理后结果与目标信息整合，输入具有256个隐藏单元的LSTM层中，将处理后结果与上一时刻移动机器人速度、上一时刻移动机器人获得的奖励进行整合，输入具有256个隐藏单元的LSTM层中，再输入具有32个隐藏单元和ReLU激活函数的全连接层处理，得到该时刻移动机器人的速度，实现端到端的视觉导航。

具体地，深度强化学习奖励函数的改进设计思路基于如下区域化导航模型，并参考图3所示内容。

步骤一：将移动机器人在单场景中学习到的策略存储到经验池或数据库中，在穿越多场景时对应使用，将各单场景连通位置作为中间目标点。

步骤二：判断移动机器人起点与终点是否在同一子地图(单场景)，若是，直接从对应子地图经验池中选取动作，根据所选取的动作即可到达目标点；若否执行步骤三。

步骤三：判断是否需要穿越其它子地图才能到达目标；若否，则先确定当前子地图与目标子地图间的中间目标点，从子地图经验池或数据库选取动作到达中间目标点，转执行步骤二；若是，则执行步骤四；

步骤四：确定移动机器人当前子地图与要穿越的子地图间的中间目标点，从子地图经验池或数据库选取动作到达中间目标点，转执行步骤二，直至移动机器人到达目的点。

本发明通过gazebo仿真平台建立融合工厂，办公室，户外，餐厅的复杂大场景，通过设计区域化深度强化学习的视觉导航框架，改进深度强化学习中的奖励函数，实现移动机器人在复杂大场景下的视觉导航。本发明对比现有技术，提升了在复杂大场景下的泛化能力，提升了导航性能。

本发明经过与视觉导航方法进行多组实验对比，在设计的仿真地图中取得了很好的效果，在复杂大场景下的泛化能力和导航性能都有所提升。

参见图4，根据本发明一实施例，提供了一种基于深度强化学习的移动机器人视觉导航装置，包括：

地图构建模块100，用于构建具有多种场景的场景地图；

特征提取模块200，用于移动机器人在场景地图中移动，并在场景地图中收集当前观测到的图像以及目标点位置信息，将当前观测到的图像以及目标点位置信息，设计卷积神经网络并提取出图像特征；

机器人状态输出模块300，用于在场景地图中的单场景中构建深度强化学习模型，将图像特征及目标点位置输入深度强化学习模型，并通过设计奖励函数进行深度强化学习模型的训练，输出移动机器人连续的线速度以及角速度；

目标点位置导航模块400，用于将各个单场景中移动机器人学习到的动作存储到数据库中，在穿越多种场景时对应使用，将各单场景的连通位置作为中间目标点，导航移动机器人到达目标点位置。

基于上述基于深度强化学习的移动机器人视觉导航方法，本实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例的基于深度强化学习的移动机器人视觉导航方法中的步骤。

一种终端设备，包括：处理器、存储器及通信总线；存储器上存储有可被处理器执行的计算机可读程序；通信总线实现处理器和存储器之间的连接通信；处理器执行计算机可读程序时实现上述的基于深度强化学习的移动机器人视觉导航方法中的步骤。

基于上述基于深度强化学习的移动机器人视觉导航方法，本申请提供了一种终端设备，如图5所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的移动机器人视觉导航方法，其特征在于，包括以下步骤：

构建具有多种场景的场景地图；

移动机器人在所述场景地图中移动，并在所述场景地图中收集当前观测到的图像以及目标点位置信息，将当前观测到的所述图像以及目标点位置信息，设计卷积神经网络并提取出图像特征；

在所述场景地图中的单场景中构建深度强化学习模型，将所述图像特征及目标点位置输入所述深度强化学习模型，并通过设计奖励函数进行所述深度强化学习模型的训练，输出所述移动机器人连续的线速度以及角速度；

将各个所述单场景中所述移动机器人学习到的动作存储到数据库中，在穿越多种场景时对应使用，将各所述单场景的连通位置作为中间目标点，导航所述移动机器人到达目标点位置；

所述将各个所述单场景中所述移动机器人学习到的策略存储到数据库中，在穿越多种场景时对应使用，将各所述单场景的连通位置作为中间目标点，直到到达目标点位置具体为：

将所述移动机器人在单场景中动作存储到数据库中；

在所述场景地图中，根据所述移动机器人的位置及所述图像特征确定所处场景；

从所述数据库中调取对应动作，以根据所述对应动作实现导航至所述目标点位置；

在所述从所述数据库中调取对应动作，以根据所述对应动作实现导航至所述目标点位置之前还包括：

判断所述移动机器人的起点与终点是否位于同一所述单场景；

若是同一所述单场景，则直接从对应的所述单场景的所述数据库中选取动作，所述移动机器人根据所述选取动作移动至目标点；

在所述判断所述移动机器人的起点与终点是否位于同一所述单场景之后还包括：

若不是同一所述单场景，则判断所述移动机器人是否需要穿越其它所述单场景才能到达目标；

若不用穿越其它所述单场景，则确定当前单场景与目标单场景间的中间目标点，从单场景的数据库中选取动作，所述移动机器人根据选取的动作到达所述中间目标点，继续判断所述移动机器人的起点与终点是否位于同一所述单场景，直至所述移动机器人根据所述选取动作移动至目标点；

若需要穿越其它所述单场景，则确定当前单场景与要穿越的单场景之间的中间目标点，从对应单场景的所述数据库中取动作到达中间目标点，继续判断所述移动机器人的起点与终点是否位于同一所述单场景，直至所述移动机器人根据所述选取动作移动至目标点。

2.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法，其特征在于，所述构建具有多种场景的场景地图具体为：

基于gazebo仿真平台构建具有多种场景的所述场景地图。

3.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法，其特征在于，在所述场景地图中的单场景中构建PPO深度强化学习模型。

4.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法，其特征在于，所述奖励函数为：

其中，所述奖励函数的含义为：当移动机器人到达目标，即可获得100的奖励，若在导航过程中发生碰撞，给予-50的碰撞奖励；导航过程中，为了以最短距离到达目标，将与目标的距离Δd乘一个系数C₁，作为距离奖励；为了以最快速度到达目标，将移动机器人的线速度C_v乘一个系数C₂，作为速度奖励；为了以平滑的路径到达目标，限制移动机器人的角速度C_w，将其乘一个系数C₃作为转弯奖励；为了以较短步数到达目标，加入步长奖励C₄。

5.一种基于深度强化学习的移动机器人视觉导航装置，其特征在于，包括：

地图构建模块，用于构建具有多种场景的场景地图；

特征提取模块，用于移动机器人在所述场景地图中移动，并在所述场景地图中收集当前观测到的图像以及目标点位置信息，将当前观测到的所述图像以及目标点位置信息，设计卷积神经网络并提取出图像特征；

机器人状态输出模块，用于在所述场景地图中的单场景中构建深度强化学习模型，将所述图像特征及目标点位置输入所述深度强化学习模型，并通过设计奖励函数进行所述深度强化学习模型的训练，输出所述移动机器人连续的线速度以及角速度；

目标点位置导航模块，用于将各个所述单场景中所述移动机器人学习到的动作存储到数据库中，在穿越多种场景时对应使用，将各所述单场景的连通位置作为中间目标点，导航所述移动机器人到达目标点位置。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-4任意一项所述的基于深度强化学习的移动机器人视觉导航方法中的步骤。

7.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-4任意一项所述的基于深度强化学习的移动机器人视觉导航方法中的步骤。