CN116518973A

CN116518973A - 一种适用于现实室内环境的机器人视觉语言导航方法

Info

Publication number: CN116518973A
Application number: CN202310475326.9A
Authority: CN
Inventors: 刘成菊; 陆理文; 陈启军; 王乃佳
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-01

Abstract

本发明涉及一种适用于现实室内环境的机器人视觉语言导航方法，包括以下步骤：获取环境信息和全景图片；对现实室内环境进行二维栅格地图构建，并将连续的室内环境转换成离散图；生成路径‑指令对训练样本并提取全景图片的图像特征信息，基于二者构建现实室内环境的视觉语言导航数据集；构建视觉语言导航模型，接收语言指令和当前环境信息指令，输出当前时刻下的下一步动作选择；以视觉语言导航数据集为训练数据，对视觉语言导航模型进行迁移训练；以ROS系统为基础，在机器人上实现视觉语言导航功能的部署。与现有技术相比，本发明具有适用于室内环境、能够极大地提高机器人在室内环境下的视觉语言导航任务的成功率，加速网络模型训练、适用性强等优点。

Description

一种适用于现实室内环境的机器人视觉语言导航方法

技术领域

本发明涉及机器人与深度学习技术领域，尤其是涉及一种适用于现实室内环境的机器人视觉语言导航方法。

背景技术

机器人能够在现实室内环境中理解用户的移动指令并且通过自主导航完成对应指令要求不仅是人们对于未来人工智能的愿景，也是目前机器人需要研究的长期目标之一。

室内视觉语言导航技术要求机器人在接受到用户语言指令后，通过不断对当前场景视觉特征的观测输出运动信号，并最终完成用户指令中所指定的移动任务。视觉语言导航技术主要包括了单模态的语音特征理解，视觉特征理解和多模态的特征融合三个主要过程，其中语音特征理解要求机器人能够理解用户所给出的用户指令信息，视觉特征理解要求机器人能够通过RGB图片和深度图片获得当前环境信息，多模态融合过程要求机器人能够根据用户所给指令，并结合当前机器人状态和环境信息，最终给出当前时刻下应选择的动作指令并更新当前状态信息。

现有的室内视觉语言导航模型主要应用在虚拟仿真环境，如Matterport3D，Habitat仿真环境，无法在现实室内环境下成功完成实验。在实际的现实生活场景中，视觉语言导航模型主要面临着两个问题，首先，现实室内环境与虚拟仿真环境相比环境特征差距较大，且现实生活环境语义信息较为单一，导致无法将虚拟环境中的视觉语言导航模型直接应用在现实室内环境中。第二，无法对所采集的室内场景进行连续环境建模，即难以以身边室内环境为基础，构建相似的仿真环境进行训练，若直接在现实环境中进行模型训练需要考虑机器人和环境中各种设施的碰撞成本，极大地提高了实验代价。

发明内容

本发明的目的就是为了提供一种适用于现实室内环境的机器人视觉语言导航方法，使在现实室内环境中机器人能够实现视觉语言导航功能，并保持较小的实验成本。

本发明的目的可以通过以下技术方案来实现：

一种适用于现实室内环境的机器人视觉语言导航方法，包括以下步骤：

S1、获取现实环境数据采集硬件平台采集的环境信息和全景图片；

S2、基于采集的环境信息对现实室内环境进行二维栅格地图构建，对室内环境进行房间区域的分类，将当前环境看作由多个不同房间组成的室内环境，并在栅格地图中定义栅格地图的导航点位置和导航点连接关系，将原本连续的室内环境转换成现实环境中视觉语言导航所使用的离散图，所述离散图中的每个导航点对应一张全景图片；

S3、基于离散图自动生成路径-指令对训练样本，并对生成的每条路径进行人工标注，获取对应每条生成路径的标注信息；对采集的全景图片进行图像特征提取，获取离散图中每个导航点的图像特征信息；基于路径-指令对训练样本以及路径中的导航点对应的全景图片的图像特征信息构建现实室内环境的视觉语言导航数据集；

S4、构建视觉语言导航模型，接收语言指令和当前环境信息指令，输出当前时刻下的下一步动作选择，所述视觉语言导航模型包括单模态语言特征提取模块、单模态环境特征提取模块和多模态特征融合与状态更新模块；

S5、以视觉语言导航数据集为训练数据，对视觉语言导航模型进行迁移训练；

S6、以ROS系统为基础，在机器人上实现视觉语言导航功能的部署，所述视觉语言导航功能含五个工作节点，分别为相机节点、语音节点、SLAM节点、机器人主控节点和网络计算节点，其中，所述视觉语言导航模型部署在网络计算节点上。

所述现实环境数据采集硬件平台的AGV底盘具有建图和自主导航与定位能力，全景相机采集的全景图片满足水平方向360度和垂直方向90度的视角。

对于一张全景图片，将其按照水平方向间隔30度，垂直方向间隔30度进行图像切分，获得36张分辨率为640*480的彩色RGB图像。

所述S3中生成的路径满足三种规范：

导航路径起点和终点位于当前环境中的不同房间；

导航路径长度大于设定的路径最短长度；

导航路径所过导航点数大于设定的最小点数，小于设定的最大点数。

所述S3中对采集的全景图片采用在Image-Net上预训练好的ResNet152网络进行图像特征提取。

所述单模态语言特征提取模块基于BERT-base网络构建，使用大型语料数据集进行预训练；所述单模态环境特征提取模块基于ResNet152网络构建，使用ImageNet进行预训练；所述多模态特征融合与状态更新模块基于跨注意力机制来融合状态、视觉和语言信息，使用仿真环境Matterport3D和habitat下的视觉语言导航任务进行预训练。

所述视觉语言导航模型在任务开始阶段接受用户指令，利用单模态语言特征提取模块获得语言特征和初始状态特征；在任务进行过程中，机器人接收当前所处的导航点的图像作为输入，利用单模态环境特征提取模块获得当前导航点的图像特征，并经过多模态特征融合与状态更新模块获得当前时刻的动作选择和更新后的状态特征。

所述S5的迁移训练过程中，将单模态视觉特征提取模型的参数固定，不进行梯度更新，仅对单模态环境特征提取模块和多模态特征融合与状态更新模块进行网络参数更新。

所述机器人主控节点为视觉语言导航功能流程控制节点，其接收来自语音节点的用户指令信息，接收坐标信息发出环境采集指令，并通过与网络计算节点交互获得下一导航点的目标位置，发出导航指令控制机器人移动；网络计算节点接收机器人主控节点发出的环境信息和指令信息，进行网络前向计算，并返回计算结果，即所选下一导航点信息。

创建ROS下的消息模式VlnNavigation和VlnPoint供机器人主控节点与网络计算节点进行信息交互，其中，VlnNavigation中包括用户指令信息、导航点信息和导航点数量，VlnPoint中包括视觉语言导航模型计算所获得的下一导航点信息和是否停止的标志位。

与现有技术相比，本发明具有以下有益效果：

(1)本发明对室内环境进行离散化构建，首先能够简化数据集采集流程，加速数据构造时间。将连续的环境抽象成数个离散的导航点，并通过导航点的连接图和全景图像构建室内环境训练集能够省略对当前环境的三维重建过程。同时，本发明通过自动化的方式在离散图中自动生成导航路径样本，能够快速的生成供视觉语言导航网络模型训练的路径样本，做到快速的训练数据集构建。

(2)针对每条训练样本，本发明采用人工标注的方式进行导航指令标注，与现有标注相比具有更高的精度，同时对于每条路径分别标注三条指令，提高了输入指令的丰富度。

(3)本发明所构建的视觉语言导航模型基于BERT-base网络和ResNet152网络，并通过大型语料数据集，ImageNet数据集和仿真环境Matterport3D和habitat下的视觉语言导航任务进行网络模型预训练，与现有网络相比准确率更高，具有更强的网络泛化性能，能够在视觉语言导航任务中获得更高的准确率。

(4)在视觉语言导航模型的基础上，本发明利用在离散室内环境下采集的数据集能够使用迁移学习的方式能够使得网络模型快速地拟合室内视觉语言导航任务，加速了视觉语言导航网络模型训练拟合过程，节省了大量算力。

(5)本发明利用ROS系统进行视觉语言导航功能部署，对ROS系统进行了功能适配，使本发明所提出地视觉语言导航方法能够广泛地适用于目前社会上地大量移动机器人，使得视觉语言导航算法部署更加高效与方便。

附图说明

图1为本发明的方法流程示意图；

图2为本发明实施例中的现实环境数据采集硬件平台示意图；

图3为本发明实施例中的视觉语言导航所用离散图的示意图；

图4为本发明实施例中的现实环境与生成路径示意图；

图5为本发明实施例中视觉语言导航模型结构示意图；

图6为本发明实施例中ROS系统下个工作节点间的关系示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种适用于现实室内环境的机器人视觉语言导航方法，如图1所示，包括以下步骤：

S1、获取现实环境数据采集硬件平台采集的环境信息和全景图片。

如图2所示，现实环境数据采集硬件平台主要由能够自主定位导航的AGV移动底盘和全景相机组成，用于构建现实室内环境的离散全景地图，其中，AGV底盘具有建图和自主导航与定位能力，全景相机采集的全景图片满足水平方向360度和垂直方向90度的视角。对于一张全景图片，将其按照水平方向间隔30度，垂直方向间隔30度进行图像切分，获得36张分辨率为640*480的彩色RGB图像。由图2中可以看出全景相机通过三脚架固定在底盘上，相机通过usb连接线与底盘工控机进行连接，拍摄的全景图片将直接存放于工控机硬盘中。

S2、基于采集的环境信息对现实室内环境进行二维栅格地图构建，对室内环境进行房间区域的分类，将当前环境看作由多个不同房间组成的室内环境，并在栅格地图中定义栅格地图的导航点位置和导航点连接关系，将原本连续的室内环境转换成现实环境中视觉语言导航所使用的离散图G＝V,E，离散图中的每个导航点对应一张全景图片。

一种实施例中，构建的栅格地图和离散图如图3所示，栅格地图中的导航点对应于离散图中的坐标信息，导航点之间以直线相连。

S3、在离散图G的基础上自动生成路径-指令对训练样本，并对生成的每条路径进行人工标注，获取对应每条生成路径的标注信息。对采集的全景图片利用在Image-Net上预训练好的ResNet152网络进行图像特征提取，获取离散图中每个导航点的图像特征信息，用以加快视觉语言导航模型训练速度。基于路径-指令对训练样本以及路径中的导航点对应的全景图片的图像特征信息构建现实室内环境的视觉语言导航数据集。

本实施例中，为了保证生成路径的质量，生成的路径需满足三种规范：

导航路径起点和终点位于当前环境中的不同房间；

导航路径长度大于设定的路径最短长度；

一种实施例中，现实环境及生成的路径如图4所示。为了增加样本的丰富性，防止模型对训练样本产生过拟合，本实施例对同一条路径由三个不同的标注者进行标注，构建视觉语言导航模型训练可用的路径-指令样本对。标注过程中首先采用中文对所生成的路径进行任务描述，之后统一使用云翻译接口对中文指令进行翻译处理，生成对应的英文指令。

S4、构建视觉语言导航模型，接收语言指令和当前环境信息指令，输出当前时刻下的下一步动作选择。

本实施例中，视觉语言导航模型结构如图5所示，包括单模态语言特征提取模块、单模态环境特征提取模块和多模态特征融合与状态更新模块。

单模态语言特征提取模块基于BERT-base网络构建，使用大型语料数据集进行预训练；单模态环境特征提取模块基于ResNet152网络构建，使用ImageNet进行预训练；多模态特征融合与状态更新模块基于跨注意力机制来融合状态、视觉和语言信息，使用仿真环境Matterport3D和habitat下的视觉语言导航任务进行预训练。

视觉语言导航模型在任务开始阶段接受用户指令，利用单模态语言特征提取模块获得语言特征和初始状态特征；在任务进行过程中，机器人接收当前所处的导航点的图像作为输入，利用单模态环境特征提取模块获得当前导航点的图像特征，并经过多模态特征融合与状态更新模块获得当前时刻的动作选择和更新后的状态特征。

S5、以视觉语言导航数据集为训练数据，对视觉语言导航模型进行迁移训练。

迁移训练过程中，将单模态视觉特征提取模型的参数固定，不进行梯度更新，仅对单模态环境特征提取模块和多模态特征融合与状态更新模块进行网络参数更新。

同时，在训练过程中采用较小的学习率，防止模型产生过拟合。

S6、以ROS系统为基础，在机器人上实现视觉语言导航功能的部署，所述视觉语言导航功能含五个工作节点，分别为相机节点、语音节点、SLAM节点、机器人主控节点和网络计算节点。

如图6所示，机器人主控节点为视觉语言导航功能流程控制节点，其接收来自语音节点的用户指令信息，接收坐标信息发出环境采集指令，并通过与网络计算节点交互获得下一导航点的目标位置，发出导航指令控制机器人移动；视觉语言导航模型部署在网络计算节点上，网络计算节点接收机器人主控节点发出的环境信息和指令信息，在移动电脑上进行网络前向计算，并返回计算结果，即所选下一导航点信息。

机器人视觉语言导航功能实际使用时流程如图1右侧部分所示，首先，服务机器人等待听取用户指令，在获得有效的用户指令后将调用云接口进行文字翻译，将接收到的语音信息转换成英文文字，并开始当前视觉语言导航任务。任务开始后，机器人在导航点拍摄全景图像，并根据室内离散图信息和当前实际朝向提取出当前全景图中对应的候选点图片信息，并将用户指令与候选点图片信息通过消息发送至移动电脑端，进行网络前向计算。若网络前向计算结果不为停止信号，那么将给出对应的下一导航点的序号，再通过离散图得到下一导航点的具体位置，机器人通过调用SLAM系统接口移动至下一导航点，并等待SLAM系统返回的到达信号。当机器人到达下一导航点后，重复环境采集流程，直到网络前向计算结果输出停止信号，表示当前所给指令对应的导航任务已经完成，视觉语言导航功能流程结束。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，所述现实环境数据采集硬件平台的AGV底盘具有建图和自主导航与定位能力，全景相机采集的全景图片满足水平方向360度和垂直方向90度的视角。

3.根据权利要求2所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，对于一张全景图片，将其按照水平方向间隔30度，垂直方向间隔30度进行图像切分，获得36张分辨率为640*480的彩色RGB图像。

4.根据权利要求1所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，所述S3中生成的路径满足三种规范：

导航路径起点和终点位于当前环境中的不同房间；

导航路径长度大于设定的路径最短长度；

5.根据权利要求1所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，所述S3中对采集的全景图片采用在Image-Net上预训练好的ResNet152网络进行图像特征提取。

6.根据权利要求1所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，所述单模态语言特征提取模块基于BERT-base网络构建，使用大型语料数据集进行预训练；所述单模态环境特征提取模块基于ResNet152网络构建，使用ImageNet进行预训练；所述多模态特征融合与状态更新模块基于跨注意力机制来融合状态、视觉和语言信息，使用仿真环境Matterport3D和habitat下的视觉语言导航任务进行预训练。

7.根据权利要求1所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，所述视觉语言导航模型在任务开始阶段接受用户指令，利用单模态语言特征提取模块获得语言特征和初始状态特征；在任务进行过程中，机器人接收当前所处的导航点的图像作为输入，利用单模态环境特征提取模块获得当前导航点的图像特征，并经过多模态特征融合与状态更新模块获得当前时刻的动作选择和更新后的状态特征。

8.根据权利要求1所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，所述S5的迁移训练过程中，将单模态视觉特征提取模型的参数固定，不进行梯度更新，仅对单模态环境特征提取模块和多模态特征融合与状态更新模块进行网络参数更新。

9.根据权利要求1所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，所述机器人主控节点为视觉语言导航功能流程控制节点，其接收来自语音节点的用户指令信息，接收坐标信息发出环境采集指令，并通过与网络计算节点交互获得下一导航点的目标位置，发出导航指令控制机器人移动；网络计算节点接收机器人主控节点发出的环境信息和指令信息，进行网络前向计算，并返回计算结果，即所选下一导航点信息。

10.根据权利要求1所述的一种适用于现实室内环境的机器人视觉语言导航方法，其特征在于，创建ROS下的消息模式VlnNavigation和VlnPoint供机器人主控节点与网络计算节点进行信息交互，其中，VlnNavigation中包括用户指令信息、导航点信息和导航点数量，VlnPoint中包括视觉语言导航模型计算所获得的下一导航点信息和是否停止的标志位。