CN116385757B

CN116385757B - 一种基于vr设备的视觉语言导航系统及方法

Info

Publication number: CN116385757B
Application number: CN202211729544.2A
Authority: CN
Inventors: 张珺倩; 黄如强; 杨超; 王宁慈; 于文东; 张久松; 耿震; 孟祥轶; 任晓琪
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-10-31
Anticipated expiration: 2042-12-30
Also published as: CN116385757A

Abstract

本发明公开了一种基于VR设备的视觉语言导航系统及方法，系统包括图像采集模块、VR设备模块、深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块、注意力权重模块、眼动信息融合模块、GRU网络模块及置信度判断模块A；眼动信息融合模块用于融合眼动特征与以下特征中的一种或几种特征：深度特征、视觉特征、文本特征；GRU网络模块用于输入由注意力权重模块赋予注意力权重的深度特征、视觉特征、文本特征或融合眼动特征的深度特征、视觉特征、文本特征，输出预测导航动作指令。本发明以适当的时机和适量的程度加入人机交互，并以VR设备为人机交互的载体，以眼动识别模块为交互形式，能够使导航任务更加高效精确。

Description

一种基于VR设备的视觉语言导航系统及方法

技术领域

本发明涉及一种导航系统及方法，特别涉及一种基于VR设备的视觉语言导航系统及方法。

背景技术

目前，导航是自主机器人等智能无人设备的一项基本技能，近年来已经成为一个重要的研究领域，无人设备导航系统的研究包括环境预测、姿态选择、路径规划、行为选择等内容。大多研究仅仅局限于部分导航过程，例如运动规划、路径跟踪、低级行为控制等，均以高精度的环境地图作为已知条件，需要无人设备搭载激光雷达、GPS等多种传感器提前构建环境地图，或者需要人类专家进行无人设备运动的逐步指导，需要无人设备具备较高的设备条件并投入更多的时间成本，忽略了实际应用中人机交互的需求。

人类一般利用视觉信息进行导航至某一目标位置的路线规划行为，为了实现更加自然的人机交互，视觉语言跨模态导航技术能够根据人类语言指令，结合路径中的视觉信息，完成由任意起点至目标位置点的导航任务。现有技术在具有全景图像的虚拟室内环境中设定了一定数量的可选点位，经过训练的导航系统能够基于从未见过的环境，以规定点位为起点，逐步选择正确的点位进行导航，经过若干的点位后最终到达正确的目标点位。现有的跨模态智能交互导航系统主要面向虚拟环境进行研究和开发，但是不同于虚拟环境，实际情况下的无人设备导航需要面对硬件设备或者真实环境中的视觉差异、定位误差问题等，距离技术应用还有一定差距。因此，需要依据实际室内环境设计可应用于无人设备的更加精细化的跨模态导航系统，实现人机协同的智能化导航系统。

VR设备是智能化人机交互系统中利用率较高的硬件设备，一般具有全景图像显示、眼动和头动信息采集等功能，能够利用多模态的信息形式与用户进行交互协同。而眼动信息是高效反应用户意图的表达形式，随着注视跟踪算法的发展，现有眼动识别技术已经能够以较高的精度进行眼动目标的实时定位。但是只通过眼动交互实现无人设备的导航过程较为繁琐，使用者的交互任务过重，从而导致疲劳等问题产生导航误差。

在视觉语言导航过程中，无人设备难以一次性地根据单条指令到达目的地，在此过程中往往会遇到各种困难，例如难以解析的场景和指令，此时就需要系统和用户进行二次或多次的交互，获取更多的信息，来完成接下来的动作。以适当的时机和适量的程度加入人类交互的指导过程，能够避免导航路线产生较大的偏差，从而使导航任务更加高效精确。

发明内容

本发明为解决公知技术中存在的技术问题而提供一种基于VR设备的视觉语言导航系统及方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是：一种基于VR设备的视觉语言导航系统，系统包括图像采集模块、VR设备模块、深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块、注意力权重模块、眼动信息融合模块、GRU网络模块及置信度判断模块A；

图像采集模块用于实时采集环境图像，环境图像的信息包括全景图像信息和深度信息；

VR设备用于输入来自图像采集模块采集的环境图像，及实时向用户显示采集的环境图像，并采集一段时间内用户的眼灰度图像序列并保存；

眼动特征提取模块用于对VR设备采集的眼灰度图像序列进行注视角度识别，其将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列；其再将二维坐标值序列转换为高斯图序列的眼动特征；

深度特征提取模块用于提取图像采集模块采集的环境图像的深度特征；

视觉特征提取模块用于提取图像采集模块采集的环境图像的视觉特征；

文本特征提取模块用于提取导航动作指令的文本特征；

注意力权重模块用于计算多个特征的注意力权重；

眼动信息融合模块用于融合眼动特征与以下特征中的一种或几种特征：深度特征、视觉特征、文本特征；

GRU网络模块用于输入由注意力权重模块赋予注意力权重的深度特征、视觉特征、文本特征，或融合眼动特征的深度特征、视觉特征、文本特征，输出预测的导航动作指令特征；

置信度判断模块A用于判断GRU网络模块预测的导航动作指令特征置信度高低。

进一步地，GRU网络模块包括多个GRU网络单元，GRU网络单元直接或者通过注意力权重模块与以下模块的一种或几种相连：深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块。

进一步地，GRU网络模块还包括置信度判断模块B，置信度判断模块B用于判断各GRU网络单元输出的置信度。

进一步地，置信度判断模块B包括全连接层以及softmax层；全连接层用于对导航动作指令特征进行分类，softmax层用于计算各导航动作指令特征的置信度。

进一步地，注意力权重模块包括多个注意力权重单元；每个注意力权重单元与以下模块中的至少一个相连：深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块。

进一步地，GRU网络模块包括二个GRU网络单元，分别是第一至第二GRU网络单元；注意力权重模块包括五个注意力权重单元；分别是第一至第五注意力权重单元；

设当前时间节点t，第二GRU网络单元的输出值为a_t，a_t作为当前时间节点t预测的导航动作指令特征数据；

第一GRU网络单元的输出值及隐状态值为第二GRU网络单元的隐状态值为

设上一个时间节点t-1，第二GRU网络单元输出预测的导航动作指令特征数据为a_t-1，第一GRU网络单元的隐状态值为第二GRU网络单元的隐状态值为/>

其中，第一GRU网络单元，其将当前位置视觉特征提取模块及深度特征提取模块的输出数据，以及a_t-1及作为其当前时间节点时t的输入数据；

第一注意力权重单元，其分别输入来自文本特征提取模块的输出数据及

第二注意力权重单元，其分别输入视觉特征提取模块及第一注意力权重单元的输出数据；

第三注意力权重单元，其分别输入深度特征提取模块及第一注意力权重单元的输出数据；

第四注意力权重单元，其分别输入视觉特征提取模块及眼动特征提取模块的输出数据，输出眼动注意力加权的视觉特征数据；

第五注意力权重单元，其分别输入深度特征提取模块及眼动特征提取模块的输出数据，输出眼动注意力加权的深度特征数据；

第二GRU网络单元，其将如下数据作为其当前时间节点时的输入数据：当前位置第一至第三注意力权重单元的输出数据，以及a_t-1、及/>

进一步地，深度特征提取模块包括利用PointGoal数据集完成预训练的ResNet50模型以及平均池化层；ResNet50模型用于利用预训练所学的网络参数权重，计算深度特征表达；平均池化层用于调整维度大小，从而使深度特征与其他特征位于同一向量空间。

进一步地，视觉特征提取模块包括利用ImageNet数据集完成预训练的ResNet50模型以及平均池化层；ResNet50模型用于利用预训练所学的网络参数权重，计算视觉特征表达；平均池化层用于调整ResNet50模型输出数据的维度大小，使视觉特征与其他特征位于同一向量空间。

进一步地，文本特征提取模块包括GLoVE模型和全连接层；GLoVE模型用于计算文本输入的词向量表示；全连接层用于调整GLoVE模型输出数据的维度大小，使文本特征与其他特征位于同一向量空间。

进一步地，眼动特征提取模块包括基于三维建模的注视跟踪模块以及特征计算模块；基于三维建模的注视跟踪模块用于由VR眼睛采集的双眼图像得到注视坐标；特征计算模块，其用于将坐标值形式的眼动序列转化为二维的高斯图表示，其中高斯图的均值为某一时刻的眼动坐标点(a,b),方差设定为1，其采用卷积神经网络调整特征维度。

本发明还提供了一种利用上述的基于VR设备的视觉语言导航系统的基于VR设备的视觉语言导航方法，该方法包括如下步骤：

步骤1，用户向VR设备下达导航动作指令特征，通过文本特征提取模块提取导航动作指令特征中的文本特征；

步骤2，通过图像采集模块获取所在环境的全景图像信息和深度信息；

步骤3，深度特征提取模块及视觉特征提取模块对应提取环境图像的深度特征及视觉特征；

步骤4，注意力权重模块计算文本特征、深度特征及视觉特征的注意力权重，并输出加权的文本特征、深度特征及视觉特征；

步骤5，GRU网络模块输入由注意力权重模块赋予注意力权重的深度特征、视觉特征及文本特征，输出导航动作指令特征；GRU网络模块输出的导航动作指令特征包括停止、前进0.25m、15°左转以及15°右转；

步骤6，置信度判断模块A判断GRU网络模块输出的导航动作指令特征是否具有显著性；若具有显著性则执行步骤7；若不具有显著性则执行步骤8；

步骤7，判断GRU网络模块输出的导航动作指令特征是否为停止，若为是，则停止导航；若为否，则返回步骤1；

步骤8，向用户发起人机协同请求，通过VR设备显示环境全景图，同时获取用户的眼灰度图像序列，然后由眼动特征提取模块对采集的眼灰度图像序列进行注视角度识别，并将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列；再将二维坐标值序列转换为高斯图序列的眼动特征；

步骤9，由眼动信息融合模块融合眼动特征与深度特征及视觉特征，得到眼动注意力加权的视觉特征和眼动注意力加权的深度特征，将两者分别代替未加权的视觉特征及深度特征输入至注意力权重模块；返回步骤4。

本发明具有的优点和积极效果是：本发明所提出的一种基于VR设备的视觉语言导航系统及方法，以适当的时机和适量的程度加入人机交互的指导过程，并以VR设备为人机交互的载体，以眼动识别模块为交互形式，能够避免导航路线产生较大的偏差，从而使导航任务更加高效精确。

本发明相较于现有的以规定点位为可导航点的方法，本发明可将导航动作设定为几种方式，比如包括停止在终点位置、前进和转向，并结合环境深度信息进行导航动作的选择，令导航路径更具有连续性，更加贴近实际应用场景。

附图说明

图1是本发明的工作流程图。

图2是本发明的第一GRU网络单元工作流程图。

图3是本发明的第二GRU网络单元工作流程图。

图4是本发明的眼动信息融合模块融合眼动特征与视觉特征的工作流程图。

图5是本发明的眼动信息融合模块融合眼动特征与深度特征的工作流程图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹列举以下实施例，并配合附图详细说明如下：

以下的英文单词及缩写的中文释义如下：

ResNet50：一种残差卷积神经网络，利用残差结构的卷积神经网络，即令神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系，从而解决深层网络中的退化问题。其中50指模型包括全连接层和卷积层共50层。

GLoVE模型：用于计算文本词向量表示，利用语料库的统计信息构造的模型。

SoftMax层：使用softmax函数将特征值输出转换为范围在[0,1]和为1的概率分布的一种神经网络层。

GRU网络：一种循环神经网络，用于时间序列信息的处理和记忆。

VR设备：虚拟现实头戴式显示设备，一种将人的对外界的视觉、听觉封闭，引导用户产生一种身在虚拟环境中的设备。

ImageNet：用于计算机视觉研究的大型自然图像公开数据集。

PointGoal：具有深度信息的大型公开数据集。

请参见图1至图5，一种基于VR设备的视觉语言导航系统，系统包括图像采集模块、VR设备模块、深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块、注意力权重模块、眼动信息融合模块、GRU网络模块及置信度判断模块A；

图像采集模块用于实时采集环境图像，环境图像的信息包括全景图像信息和深度信息；图像采集模块可包括全景相机、双目相机的装置，用于采集全景图像信息和深度信息。

文本特征提取模块用于提取导航动作指令的文本特征；

注意力权重模块用于计算多个特征的注意力权重；

置信度判断模块A可用于判断GRU网络模块预测的导航动作指令特征置信度是否具有显著性。预测的导航动作指令特征置信度是否具有显著性，是指GRU网络模块预测的导航动作指令特征的置信度明显高于其他可选动作的置信度值。

优选地，GRU网络模块可包括多个GRU网络单元，GRU网络单元可直接或者通过注意力权重模块与以下模块的一种或几种相连：深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块。

优选地，GRU网络模块还可包括置信度判断模块B，置信度判断模块B可用于判断各GRU网络单元输出的置信度。

优选地，置信度判断模块B可包括全连接层以及softmax层；GRU网络单元、全连接层以及softmax层依次相连；全连接层可用于对导航动作指令特征进行分类，softmax层可用于计算各导航动作指令特征的置信度。全连接层可用于对GRU网络单元输出预测的导航动作指令特征进行降维，从而便于对导航动作指令特征进行分类。

优选地，注意力权重模块可包括多个注意力权重单元；每个注意力权重单元可与以下模块中的至少一个相连：深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块。

优选地，GRU网络模块可包括二个GRU网络单元，分别是第一至第二GRU网络单元；注意力权重模块包括五个注意力权重单元；分别是第一至第五注意力权重单元；

可设当前时间节点t，第二GRU网络单元的输出值为a_t，a_t可作为当前时间节点t预测的导航动作指令特征数据；

其中，第一GRU网络单元，其可将当前位置视觉特征提取模块及深度特征提取模块的输出数据，以及a_t-1及作为其当前时间节点时t的输入数据；

第一注意力权重单元，其可分别输入来自文本特征提取模块的输出数据及

第二注意力权重单元，其可分别输入视觉特征提取模块及第一注意力权重单元的输出数据；

第三注意力权重单元，其可分别输入深度特征提取模块及第一注意力权重单元的输出数据；

第四注意力权重单元，其可分别输入视觉特征提取模块及眼动特征提取模块的输出数据，输出眼动注意力加权的视觉特征数据；

第五注意力权重单元，其可分别输入深度特征提取模块及眼动特征提取模块的输出数据，输出眼动注意力加权的深度特征数据；

第二GRU网络单元，其可将如下数据作为其当前时间节点时的输入数据：当前位置第一至第三注意力权重单元的输出数据，以及a_t-1、及/>

优选地，深度特征提取模块可包括利用PointGoal数据集完成预训练的ResNet50模型以及平均池化层；ResNet50模型可用于利用预训练所学的网络参数权重，计算深度特征表达；平均池化层可用于调整维度大小，从而使深度特征与其他特征位于同一向量空间。

优选地，视觉特征提取模块可包括利用ImageNet数据集完成预训练的ResNet50模型以及平均池化层；ResNet50模型可用于利用预训练所学的网络参数权重，计算视觉特征表达；平均池化层可用于调整ResNet50模型输出数据的维度大小，使视觉特征与其他特征位于同一向量空间。

优选地，文本特征提取模块可包括GLoVE模型和全连接层；GLoVE模型可用于计算文本输入的词向量表示；全连接层可用于调整GLoVE模型输出数据的维度大小，使文本特征与其他特征位于同一向量空间。

优选地，眼动特征提取模块可包括基于三维建模的注视跟踪模块以及特征计算模块；基于三维建模的注视跟踪模块可用于由VR眼睛采集的双眼图像得到注视坐标；特征计算模块，其用于将坐标值形式的眼动序列转化为二维的高斯图表示，其中高斯图的均值为某一时刻的眼动坐标点(a,b),方差可设定为1，其可采用卷积神经网络调整特征维度。高斯图的均值对应某一时刻的眼动坐标点(a,b)，a表示眼动坐标点的横坐标值，b表示眼动坐标点的纵坐标值。

高斯图中的像素点可符合二维正态分布，即：

(x,y)表示高斯图中的像素坐标，f(x,y)为像素坐标(x,y)对应的坐标值。x的取值在0至w之间。y的取值在0至h之间。w为输入图像的宽，h为输入图像的高。每个像素坐标(x,y)都有一个对应的坐标值f(x,y)。

眼动特征提取模块还可以包括：眼图采集模块及眼动坐标识别模块。

眼图采集模块用于通过AR眼镜采集一段时间内用户的近距离双眼灰度图像序列，并进行保存和记录；眼动坐标识别模块用于对一段时间内用户的近距离双眼灰度图像序列进行注视角度识别，并将其转化为与自然图像相对应的以像素为单位的二维坐标值序列。

眼动特征提取模块还可以采用现有技术中的其他功能模块，来实现对VR设备采集的眼灰度图像序列进行注视角度识别，其将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列；其再将二维坐标值序列转换为高斯图序列的眼动特征。

眼动信息融合模块可包括特征拼接模块。特征拼接模块可用于将文本特征、图像特征及眼动特征进行拼接，生成多模态特征。

特征拼接模块根据图像特征图的大小计算其二维位置特征图，并与图像特征相加求和，然后进行像素维度的特征展开为一维图像特征，将一维图像特征和文本特征进行拼接。

步骤1，用户向VR设备下达导航动作指令特征，通过文本特征提取模块提取导航动作指令特征中的文本特征。

步骤2，通过图像采集模块获取所在环境的全景图像信息和深度信息。

步骤3，深度特征提取模块及视觉特征提取模块对应提取环境图像的深度特征及视觉特征。

步骤4，注意力权重模块计算文本特征、深度特征及视觉特征的注意力权重，并输出加权的文本特征、深度特征及视觉特征。

步骤5，GRU网络模块输入由注意力权重模块赋予注意力权重的深度特征、视觉特征及文本特征，输出导航动作指令特征。GRU网络模块输出的导航动作指令特征包括停止、前进0.25m、15°左转以及15°右转。

步骤7，判断GRU网络模块输出的导航动作指令特征是否为停止，若为是，则停止导航；若为否，则返回步骤1。

步骤8，向用户发起人机协同请求，通过VR设备显示环境全景图，同时获取用户的眼灰度图像序列，然后由眼动特征提取模块对采集的眼灰度图像序列进行注视角度识别，并将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列；再将二维坐标值序列转换为高斯图序列的眼动特征。

下面以本发明的一个优选实施例来进一步说明本发明的工作原理：

本发明为解决公知技术中存在的技术问题所采取的技术方案是：一种基于VR设备的视觉语言导航系统，系统包括图像采集模块、VR设备模块、深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块、注意力权重模块、眼动信息融合模块、GRU网络模块及置信度判断模块A。

文本特征提取模块用于将文本形式的导航指令转化为包含上下文信息的矩阵形式的文本特征表达，表示为S＝{s₁,…,s_T}，其中T为文本的单词序列长度。

视觉特征提取模块用于计算无人设备所在环境全景图的视觉特征，根据无人设备获取的三通道全景图像，将其计算为三维矩阵形式的多通道的特征图表示，具体表示为V＝{v_i}，其中i表示全景图中某个角度的空间位置，v_i表示i空间位置上的环境特征图表示，所有角度中的环境特征图的集合表示为V。

深度特征提取模块用于提取无人设备所在环境的深度特征，与视觉特征相对应，根据无人设备获取的单通道全景深度信息，将其计算为三维矩阵形式的多通道的深度特征图表示，表示为D＝{d_i}，其中i表示全景深度图中某个角度的空间位置，v表示i角度上的深度特征图表示，所有角度中的深度特征图的集合表示为D。

眼动特征提取模块用于在时间节点t，将用户的眼动坐标序列转换为高斯图序列，从而得到三维矩阵形式的眼动特征表达G_t。

第一GRU网络单元用于视觉特征的记忆和处理。将当前时间节点t，无人设备所在的位置获取的视觉特征V_t与深度特征D_t，结合前一个时间节点t-1时第一GRU网络单元的隐状态值以及第二GRU网络单元的输出值a_t-1，作为时间节点t时第一GRU网络单元的输入，得到第一GRU网络单元的隐状态值/>即包含历史视觉信息的视觉记忆特征：

第一注意力权重单元用于利用注意力机制计算文本特征S与视觉记忆特征的跨模态注意力，作为当前时间节点t的加权文本特征表示/>

Attn表示注意力机制，其中一般f^v＝f^q，d^k为f^k矩阵的最后一维的特征大小。

第二注意力权重单元用于计算加权文本特征与视觉特征V_t的跨模态特征表示，记为当前时间节点t加权视觉特征/>

第三注意力权重单元用于计算加权文本特征与深度特征D_t的跨模态特征表示，记为当前时间节点t加权深度特征/>

第四注意力权重单元用于利用注意力机制计算视觉特征V_t与眼动特征G_t的跨模态注意力，作为当前时间节点t的眼动注意力加权视觉特征V_t ^g：

V_t ^g＝Attn(V_t,G_t)；

第五注意力权重单元用于利用注意力机制计算深度特征D_t与眼动特征G_t的跨模态注意力，作为当前时间节点t的眼动注意力加权深度特征

第二GRU网络单元用于融合：第一注意力权重单元输出的加权文本特征第二注意力权重单元输出的加权视觉特征/>第三注意力权重单元输出的加权深度特征/>以及上一个时间节点t-1时第二GRU网络单元的隐状态信息/>和上一个时间节点t-1时第二GRU网络单元的输出值a_t-1，计算t时刻的多模态特征表达，即为第二GRU网络单元的隐状态

其中a_t为第二GRU网络单元的输出值，作为当前时间节点t预测的导航动作指令特征。

全连接层fc用于将预测的导航动作指令特征a_t降维至4个特征值，softmax层用于计算四个可选动作的置信度四个可选动作可为：“停止”、“前进0.25m”、“15°左转”以及“15°右转”动作其一。其中/>可代表“停止”，/>可代表“前进0.25m”，/>可代表“15°左转”，/>可代表“15°右转”。

根据下式计算并选择置信度最高的动作，作为系统输出的预测结果A_t：

导航动作置信度判断模块用于判断连续视觉语言导航系统的动作输出的置信度是否具有显著性，假设导航动作指令特征总计有4个类别，分别为：其对应的置信度为：/>在这4个类别中，假设置信度由高到低的顺序为：/>若其置信度/>则判定导航动作指令特征/>具有显著性，否则不具有显著性。

本发明还提供了一种利用上述的基于VR设备的视觉语言导航系统的基于VR设备的视觉语言导航系统方法，包括如下步骤：

步骤A，用户向VR设备下达导航指令，通过文本特征提取模块将语音指令转化为文本信息；

步骤B，无人设备获取所在环境的全景图像信息和深度信息，连续视觉语言导航系统根据文本指令输入以及图像信息和深度信息进行动作预测，其预测结果包括“停止”、“前进0.25m”、“15°左转”以及“15°右转”；

步骤C，根据连续视觉语言导航系统中softmax层的输出结果，采用导航动作置信度判断模块判断其动作输出是否具有显著性。若是，则进行步骤5，否则进行步骤4；

步骤D，向用户发起人机协同请求，通过VR设备显示环境全景图，同时获取用户的眼动注视信息，然后通过眼动信息融合模块计算眼动注意力加权视觉特征和眼动注意力加权深度特征/>分别代替连续视觉语言导航系统中第二注意力权重单元输入的视觉特征V_t和第三注意力权重单元输入的深度特征D_t。

上述的图像采集模块、VR设备模块、深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块、注意力权重模块、眼动信息融合模块、GRU网络模块及置信度判断模块A、置信度判断模块B、第一至第五注意力权重单元、第一至第二GRU网络单元、softmax层、全连接层等均可为现有技术中的适用装置及功能模块，或可采用现有技术中的适用装置及功能模块并采用常规技术手段构造。

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施，不能仅以本实施例来限定本发明的专利范围，即凡本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。

Claims

1.一种基于VR设备的视觉语言导航系统，其特征在于，系统包括图像采集模块、VR设备模块、深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块、注意力权重模块、眼动信息融合模块、GRU网络模块及置信度判断模块A；

文本特征提取模块用于提取导航动作指令的文本特征；

注意力权重模块用于计算多个特征的注意力权重；

置信度判断模块A用于判断GRU网络模块预测的导航动作指令特征置信度高低；

GRU网络模块包括多个GRU网络单元，GRU网络单元直接或者通过注意力权重模块与以下模块的一种或几种相连：深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块；

注意力权重模块包括多个注意力权重单元；每个注意力权重单元与以下模块中的至少一个相连：深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块；

GRU网络模块包括二个GRU网络单元，分别是第一至第二GRU网络单元；注意力权重模块包括五个注意力权重单元；分别是第一至第五注意力权重单元；

第一GRU网络单元的输出值及隐状态值为第二GRU网络单元的隐状态值为/>设上一个时间节点t-1，第二GRU网络单元输出预测的导航动作指令特征数据为a_t-1，第一GRU网络单元的隐状态值为/>第二GRU网络单元的隐状态值为/>

2.根据权利要求1所述的基于VR设备的视觉语言导航系统，其特征在于，GRU网络模块还包括置信度判断模块B，置信度判断模块B用于判断各GRU网络单元输出的置信度。

3.根据权利要求1所述的基于VR设备的视觉语言导航系统，其特征在于，置信度判断模块B包括全连接层以及softmax层；全连接层用于对导航动作指令特征进行分类，softmax层用于计算各导航动作指令特征的置信度。

4.根据权利要求1所述的基于VR设备的视觉语言导航系统，其特征在于，深度特征提取模块包括利用PointGoal数据集完成预训练的ResNet50模型以及平均池化层；ResNet50模型用于利用预训练所学的网络参数权重，计算深度特征表达；平均池化层用于调整维度大小，从而使深度特征与其他特征位于同一向量空间。

5.根据权利要求1所述的基于VR设备的视觉语言导航系统，其特征在于，视觉特征提取模块包括利用ImageNet数据集完成预训练的ResNet50模型以及平均池化层；ResNet50模型用于利用预训练所学的网络参数权重，计算视觉特征表达；平均池化层用于调整ResNet50模型输出数据的维度大小，使视觉特征与其他特征位于同一向量空间。

6.根据权利要求1所述的基于VR设备的视觉语言导航系统，其特征在于，文本特征提取模块包括GLoVE模型和全连接层；GLoVE模型用于计算文本输入的词向量表示；全连接层用于调整GLoVE模型输出数据的维度大小，使文本特征与其他特征位于同一向量空间。

7.根据权利要求1所述的基于VR设备的视觉语言导航系统，其特征在于，眼动特征提取模块包括基于三维建模的注视跟踪模块以及特征计算模块；基于三维建模的注视跟踪模块用于由VR眼睛采集的双眼图像得到注视坐标；特征计算模块，其用于将坐标值形式的眼动序列转化为二维的高斯图表示，其中高斯图的均值为某一时刻的眼动坐标点(a,b),方差设定为1，其采用卷积神经网络调整特征维度。

8.一种利用权利要求1至7任一所述的基于VR设备的视觉语言导航系统的基于VR设备的视觉语言导航方法，其特征在于，该方法包括如下步骤：