CN115082915A

CN115082915A - 一种基于多模态特征的移动机器人视觉-语言导航方法

Info

Publication number: CN115082915A
Application number: CN202210586122.8A
Authority: CN
Inventors: 董敏; 钟浩钊; 毕盛
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-20
Anticipated expiration: 2042-05-27
Also published as: CN115082915B

Abstract

本发明公开了一种基于多模态特征的移动机器人视觉‑语言导航方法，包括：1)对输入的自然语言指令进行编码，得到语言特征向量和初始的状态特征向量；2)对于当前时刻的输入图像进行编码，得到视觉特征向量；3)根据机器人的历史动作编码得到历史特征向量；4)对步骤1)到步骤3)得到的多种模态的特征向量进行跨模态编码；5)将跨模态编码结果输入到动作决策模块，预测下一步动作并执行；6)重复步骤2)到步骤5)直到机器人停止移动，然后更新模型。本发明提供物体参考信息和历史导航信息，能让机器人根据自然语言指令进行视觉导航，实验表明所提出方法具有优秀的性能。

Description

一种基于多模态特征的移动机器人视觉-语言导航方法

技术领域

本发明涉及移动机器人视觉-语言导航的技术领域，尤其是指一种基于多模态特征的移动机器人视觉-语言导航方法。

背景技术

近年来，移动机器人的工作场景和功能需求呈现出多样化和复杂化的趋势。自主导航功能是移动机器人完成其他复杂功能的基础，是最不可或缺的功能之一。目前广泛应用于移动机器人中的自主导航功能主要使用激光雷达实现，无法利用图像和语言等具有丰富特征的信息进行导航。如何让移动机器人理解图像和语言，并将其获得的视觉和语义信息利用到自主导航中成为亟需解决的问题。

视觉-语言导航是将自然语言与未知环境中非结构化的视觉信息联系起来的任务。例如，给定指令“Standing in front of the family picture,turn left and walkstraight through the bathroom past the tub and mirrors.Go through the doorwayand stop when the door to the bathroom is on your right and the door to thecloset is to your left.”，移动机器人需要理解上述指令并根据视觉输入进行导航。

以往的视觉-语言导航技术主要存在两个问题：一是使用的视觉特征缺乏对物体细节的描述，在上述例子中，以往使用的视觉特征只能帮助智能体理解其所在的位置是“bathroom”或是“doorway”，而无法捕获“picture”、“tub”、“mirrors”和“closet”等物体作为参考信息；二是导航过程缺乏整体的历史导航信息，机器人难以将自然语言指令和视觉图像进行匹配。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于多模态特征的移动机器人视觉-语言导航方法，利用基于词袋模型思想的目标检测信息和基于循环神经网络思想的导航历史隐状态信息增强模型对当前环境和导航过程的认知能力，降低模型过拟合的风险。

为实现上述目的，本发明所提供的技术方案为：一种基于多模态特征的移动机器人视觉-语言导航方法，包括以下步骤：

1)使用Transformer对输入的自然语言指令进行编码，得到语言特征向量和初始的状态特征向量；

2)对于当前时刻能导航的方向对应的图像，首先使用ResNet-152提取得到场景特征向量，然后使用Faster R-CNN进行目标检测，对目标检测得到的类别进行独热编码得到目标检测特征向量，最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中，得到视觉特征向量；

3)除初始时刻外，将机器人上一个时刻所选择的动作对应的视觉隐层表示加入到历史特征向量；

4)使用跨模态编码模块OHAMT(Object and History Aware MultimodalTransformer)对得到的语言特征向量、视觉特征向量、历史特征向量以及机器人上一个时刻得到的状态特征向量进行跨模态编码，得到当前时刻的状态特征向量和视觉隐层表示；

5)将步骤4)得到的视觉隐层表示和OHAMT中最后一个自注意力层得到的状态特征隐层表示输入到动作决策模块ActionPredictor中，得到动作概率分布，然后机器人根据动作概率分布选取下一步动作并执行；

6)重复步骤2)-步骤5)直到机器人停止移动，最后更新模型的权重，即跨模态编码模块OHAMT和动作决策模块ActionPredictor的权重。

进一步，所述步骤1)包括以下步骤：

1.1)对自然语言指令进行预处理，包括在自然语言指令第一个单词前插入[CLS]标记，在最后一个单词后插入[SEP]标记，并将单词数量不足80的自然语言指令使用[PAD]标记补齐；

1.2)使用Transformer对预处理后的自然语言指令进行编码，[CLS]标记经过编码后得到初始的状态特征向量

其余单词和标记编码后得到语言特征向量

其中

是向量空间。

进一步，所述步骤2)包括以下步骤：

2.1)使用在ImageNet训练，然后在Place365调优得到的ResNet-152对当前时刻t能导航的方向i对应的图像I_t,i提取得到场景特征向量

其中

是向量空间；

2.2)使用BUTD(Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering)中预训练的Faster R-CNN对I_t,i进行目标检测，然后对目标检测得到的类别进行过滤，仅保留在R2R训练集的语料中出现过的类别，将其进行独热编码，得到目标检测特征向量

2.3)将I_t,i对应的观察角度和高度编码成方向特征向量

2.4)使用步骤2.1)-步骤2.3)得到的场景特征向量、目标检测特征向量和方向特征向量拼接得到特征向量

然后将F_t,i输入到视觉编码器VisionEncoder中，得到视觉特征向量

其中，视觉编码器VisionEncoder定义如下：

V_t,i＝VisionEncoder(F_t,i)＝LayerNorm(Linear(F_t,i))

式中，LayerNorm是层归一化，Linear是线性层。

进一步，在步骤3)中，除初始时刻外，将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量H_t-1进行拼接得到当前时刻的历史特征向量H_t。

进一步，在步骤4)中，使用跨模态编码模块OHAMT(Object and History AwareMultimodal Transformer)对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量V_t、历史特征向量H_t以及机器人上一个时刻得到的状态特征向量s_t-1进行跨模态编码，得到当前时刻的状态特征向量s_t和视觉隐层表示V_t′：

s_t,V_t′＝OHAMT(s_t-1,X,V_t,H_t)

式中，跨模态编码模块OHAMT是由12个包含12个自注意力头的Transformer堆叠而成的BERT结构。

进一步，在步骤5)中，将步骤4)中OHAMT最后一层输出的状态特征表示

和视觉隐层表示V_t′输入到动作决策模块ActionPredictor中，得到动作概率分布

然后机器人根据动作概率分布

选取下一步动作并执行；其中，动作决策模块ActionPredictor定义如下：

式中，Linear是线形层，ReLU是线性整流激活函数，LayerNorm是层归一化，Dropout是丢弃层，*是使用广播机制的逐元素乘积。

进一步，在步骤6)中，使用强化学习RL(Reinforcement learning，RL)和模仿学习IL(Imitation learning，IL)混合训练模型；在RL中，使用优势动作评论算法A2C在每一步中根据动作概率分布

采样动作和计算优势A_t；在IL中，模型根据教师动作来学习真实的轨迹，并为每个决策计算交叉熵，使用的目标函数

为：

式中，

是采样的动作，

是教师动作，λ是IL损失的权重因子；

在RL中设计的奖惩函数包含三部分：一是过程奖惩，模型预测的动作使得机器人距离目标位置距离更小给予+1.0的奖励，反之给予-1.0的惩罚，在模型预测停止时机器人到达目标位置则给予+2.0的奖励，反之给予-2.0的惩罚；二是路径相似度奖惩，使用动态时间规整算法(Normalised dynamic time warping，ndtw)计算真实路径和预测路径的相似度，并以机器人执行动作前后的路径相似度差值作为奖惩，在模型预测停止时机器人到达目标位置则给予+2.0乘以最终的路径相似度的奖励；三是路过奖惩，如果在机器人到达终点后，模型仍没有预测停下，则每一步给予-2.0乘以(1.0-与终点的距离)的惩罚。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明使用基于词袋模型思想的目标检测特征，帮助模型了解周围环境存在的物体，提高模型对周围环境和所处位置的认知能力。

2、本发明使用基于循环神经网络中隐层输出思想的导航历史特征，为模型提供整体的历史导航信息，提高模型的跨模态匹配能力，降低模型过拟合的风险。

3、本发明能让机器人根据自然语言指令进行视觉导航，实验表明所提出方法具有优秀的性能。

附图说明

图1为本发明方法流程图。

图2为本发明中视觉-语言导航的框架结构图。

图3为本发明中计算目标检测特征向量的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1至图3所示，本实施例提供了一种基于多模态特征的移动机器人视觉-语言导航方法，其具体情况如下：

1)使用Transformer对输入的自然语言指令进行编码，得到语言特征向量和初始的状态特征向量，包括以下步骤：

其余单词和标记编码后得到语言特征向量

其中

是向量空间。

2)对于当前时刻能导航的方向对应的图像，首先使用ResNet-152提取得到场景特征向量，然后使用Faster R-CNN进行目标检测，对目标检测得到的类别进行独热编码得到目标检测特征向量，最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中，得到视觉特征向量；其包括以下步骤：

其中

是向量空间；

2.3)将I_t,i对应的观察角度和高度编码成方向特征向量

视觉编码器VisionEncoder定义如下：

V_t,i＝VisionEncoder(F_t,i)＝LayerNorm(Linear(F_t,i))

式中，LayerNorm是层归一化，Linear是线性层。

3)除初始时刻外，将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量H_t-1进行拼接得到当前时刻的历史特征向量H_t。

4)使用跨模态编码模块OHAMT(Object and History Aware MultimodalTransformer)对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量V_t、历史特征向量H_t以及机器人上一个时刻得到的状态特征向量s_t-1进行跨模态编码，得到当前时刻的状态特征向量s_t和视觉隐层表示V_t′：

s_t,V_t′＝OHAMT(s_t-1,X,V_t,H_t)

5)将步骤4)中OHAMT最后一层输出的状态特征表示

然后机器人根据动作概率分布

6)重复步骤2)-步骤5)直到机器人停止移动，最后更新模型的权重，即跨模态编码模块OHAMT和动作决策模块ActionPredictor的权重，具体如下：

使用强化学习RL(Reinforcement learning，RL)和模仿学习IL(Imitationlearning，IL)混合训练模型。在RL中，使用优势动作评论算法A2C在每一步中根据动作概率分布

为：

式中，

是采样的动作，

是教师动作，λ是IL损失的权重因子，实例中设置为0.2。

我们在公开的基准数据集R2R上对本发明提出的方法的效果进行测试，该数据集收集了来自90个真实场景的数据，分为训练集、验证集和测试集三个部分，其中验证集包括已见过的场景和未见过的场景两部分。测试结果表明本发明提出的方法对模型的导航性能有明显提升，具体测试结果如表1所示。

表1R2R数据集上的测试结果对比

表1中，Our表示本发明提出的方法，RecBERT(init.OSCAR)和RelGraph等表示其它知名的视觉-语言导航方法。TL是指路径长度评测，NE是指导航误差评测，SR表示导航成功率，SPL是指反向路径长度的加权成功率，这四个指标均是国际评测导航精度的公认指标。箭头向下表示该评测标准下值越小越好，而箭头朝上则刚好相反。加粗字体表示获得的最好结果。从表中可以看出，本发明提出的方法在三部分的数据集上均取得最优的结果。

综上所述，相比现有技术，本发明利用基于词袋模型思想的目标检测信息和基于循环神经网络思想的导航历史隐状态信息增强模型对当前环境和导航过程的认知能力，降低模型过拟合的风险，具有研究价值，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于多模态特征的移动机器人视觉-语言导航方法，其特征在于，包括以下步骤：

4)使用跨模态编码模块OHAMT对得到的语言特征向量、视觉特征向量、历史特征向量以及机器人上一个时刻得到的状态特征向量进行跨模态编码，得到当前时刻的状态特征向量和视觉隐层表示；

2.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法，其特征在于，所述步骤1)包括以下步骤：

其余单词和标记编码后得到语言特征向量

其中

是向量空间。

3.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法，其特征在于，所述步骤2)包括以下步骤：

其中

是向量空间；

2.2)使用BUTD中预训练的Faster R-CNN对I_t,i进行目标检测，然后对目标检测得到的类别进行过滤，仅保留在R2R训练集的语料中出现过的类别，将其进行独热编码，得到目标检测特征向量

2.3)将I_t,i对应的观察角度和高度编码成方向特征向量

其中，视觉编码器VisionEncoder定义如下：

V_t,i＝VisionEncoder(F_t,i)＝LayerNorm(Linear(F_t,i))

式中，LayerNorm是层归一化，Linear是线性层。

4.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法，其特征在于：在步骤3)中，除初始时刻外，将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量H_t-1进行拼接得到当前时刻的历史特征向量H_t。

5.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法，其特征在于：在步骤4)中，使用跨模态编码模块OHAMT对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量V_t、历史特征向量H_t以及机器人上一个时刻得到的状态特征向量s_t-1进行跨模态编码，得到当前时刻的状态特征向量s_t和视觉隐层表示V_t′：

s_t,V_t′＝OHAMT(s_t-1,X,V_t,H_t)

6.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法，其特征在于：在步骤5)中，将步骤4)中OHAMT最后一层输出的状态特征表示

然后机器人根据动作概率分布

7.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法，其特征在于：在步骤6)中，使用强化学习RL和模仿学习IL混合训练模型；在RL中，使用优势动作评论算法A2C在每一步中根据动作概率分布

为：

式中，

是采样的动作，

是教师动作，λ是IL损失的权重因子；

在RL中设计的奖惩函数包含三部分：一是过程奖惩，模型预测的动作使得机器人距离目标位置距离更小给予+1.0的奖励，反之给予-1.0的惩罚，在模型预测停止时机器人到达目标位置则给予+2.0的奖励，反之给予-2.0的惩罚；二是路径相似度奖惩，使用动态时间规整算法计算真实路径和预测路径的相似度，并以机器人执行动作前后的路径相似度差值作为奖惩，在模型预测停止时机器人到达目标位置则给予+2.0乘以最终的路径相似度的奖励；三是路过奖惩，如果在机器人到达终点后，模型仍没有预测停下，则每一步给予-2.0乘以(1.0-与终点的距离)的惩罚。