CN113670310A

CN113670310A - 视觉语音导航方法、装置、设备及存储介质

Info

Publication number: CN113670310A
Application number: CN202110851455.4A
Authority: CN
Inventors: 李伟; 左星星; 杨睿刚
Original assignee: International Network Technology Shanghai Co Ltd
Current assignee: International Network Technology Shanghai Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-19
Anticipated expiration: 2041-07-27
Also published as: CN113670310B

Abstract

本发明提供一种视觉语音导航方法、装置、设备及存储介质，通过接收到的语义导航指令控制智能体行进，并在行进过程中采集实时的图像，从图像中识别行进路径上的路径对象特征，并提取该路径对象特征所预匹配的文本标签。当该文本标签恰好与语义导航指令中包含的目标路径节点的标识信息匹配时，则可以确定该路径对象为目标路径节点及基于该目标路径节点的行进转向方向，从而当智能体抵达目标路径节点时，根据行进转向方向控制智能体转向并进一步行动，直到抵达目的地。本发明技术方案创造性地提出了用语义信息作为锚点来对齐语义导航指令和智能体采集到的图像，提高智能体的理解能力，进而做出更精确的行动决策，提升视觉语音导航精确度。

Description

视觉语音导航方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种视觉语音导航方法、装置、设备及存储介质。

背景技术

视觉语言导航(Visual Language Navigation)的主要任务是让机器人(智能体)遵照人类的自然语言指令在无先验地图的环境中进行导航。

如何实现精确的视觉语音导航，是业界普遍考虑的课题。

发明内容

本发明提供一种视觉语音导航方法、装置、设备及存储介质，用以解决现有技术中视觉语音导航需求，实现精确的视觉语音导航。

本发明提供一种视觉语音导航方法，包括：

接收语义导航指令，所述语义导航指令包括行进方向、至少一个目标路径节点和目的地；

按照所述行进方向控制智能体行进并在行进过程中采集图像；

从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签；

若所述文本标签与所述目标路径节点的标识信息匹配，则确定基于所述目标路径节点的行进转向方向；

当所述智能体抵达所述目标路径节点时，则根据所述行进转向方向控制所述智能体转向，直到抵达所述目的地。

根据本发明提供的一种视觉语音导航方法，从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签，包括：

使用图像识别模型从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签，所述图像识别模型为利用带有所述文本标签的图像样本数据训练得到的。

根据本发明提供的一种视觉语音导航方法，所述图像识别模型采用Faster RCNN网络，则从所述图像中识别路径对象特征，包括：

利用卷积层从所述图像中提取特征图；

利用区域生成网络对所述特征图提取候选框；

利用特征映射的方法将所述候选框的位置映射到所述特征图相应位置，并提取所述路径对象特征。

根据本发明提供的一种视觉语音导航方法，确定基于所述目标路径节点的行进转向方向，包括：

从所述语义导航指令中识别到基于所述目标路径节点的所述行进转向方向。

从所述图像中识别基于所述目标路径节点向所述目的地的行进转向标记，根据所述行进转向标记确定所述行进转向方向。

根据本发明提供的一种视觉语音导航方法，所述语义导航指令包括输入文本信息或语音信息。

根据本发明提供的一种视觉语音导航方法，在接收到所述语义导航指令时，还包括：

使用语义识别模型对所述语义导航指令进行语义识别以得到文本信息，所述文本信息包括所述行进方向、至少一个目标路径节点和目的地；

所述语义识别模型是采用样本数据训练得到的。

本发明还提供一种视觉语音导航装置，包括：

接收模块，接收语义导航指令，所述语义导航指令包括行进方向、至少一个目标路径节点和目的地；

采集模块，按照所述行进方向控制智能体行进并在行进过程中采集图像；

识别模块，从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签；

确定模块，若所述文本标签与所述目标路径节点的标识信息匹配，则确定基于所述目标路径节点的行进转向方向；

转向模块，当所述智能体抵达所述目标路径节点时，则用于根据所述行进转向方向控制所述智能体转向，直到抵达所述目的地。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视觉语音导航方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视觉语音导航方法的步骤。

本发明提供的视觉语音导航方法、装置、设备及存储介质，通过接收到的语义导航指令控制智能体行进，并在行进过程中采集实时的图像，从图像中识别行进路径上的路径对象特征，并提取该路径对象特征所预匹配的文本标签。当该文本标签恰好与语义导航指令中包含的目标路径节点的标识信息匹配时，则可以确定该路径对象为目标路径节点及基于该目标路径节点的行进转向方向，从而当智能体抵达目标路径节点时，根据行进转向方向控制智能体转向并进一步行动，直到抵达目的地。

本发明技术方案创造性地提出了用语义信息作为锚点来对齐语义导航指令和智能体采集到的图像，路径对象的图像特征通过文本标签文本化，图像特征和语义导航指令基于语义信息直接匹配，从而排除了基于距离或时序关系的间接匹配。直接的语义匹配使得图像和语义导航指令能够更好地相互理解，也提高智能体的理解能力，进而做出更精确的行动决策，提升视觉语音导航精确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视觉语音导航方法的流程示意图之一；

图2是本发明实施例提供的视觉语音导航方法的流程示意图之二；

图3是本发明实施例提供的视觉语音导航方法的流程示意图之三；

图4是本发明实施例提供的视觉语音导航装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对现有技术的视觉语音导航方案研究过程中发现，目前采用的方法是利用带有注意力(attention)模型的Seq-to-seq的网络，端到端的预测下一步的行动。该网络基于LSTM结构主要包括编码器和解码器。

将语言指令中的每个单词x_i作为embedding输入给编码器LSTM_enc。在时刻i将编码器的输出表示为h_i，这样h_i＝LSTM_enc(x_i,h_i-1)。用h＝{h₁,h₂,…,h_L}表示编码器输出的上下文信息，这些信息将在注意力机制中使用。

在解码器中，对每幅采集到的图像，首先经过预特征提取，使用在ImageNet上预训练的ResNet-152 CNN提取图像特征。类似于用embedding表示语言指令，每个行动a_i,k(如前后左右上下)也都用embedding g_i,k表示。然后将图像特征和前一步的动作特征串联在一起，形成单个向量q_t,并作为解码器LSTM_dec的输入h′_t＝LSTM_dec(q_t,h′_t-1)。通过综合当前时刻解码器和编码器的隐状态作为输入，利用注意力机制计算一个包含指令上下文语境的embeddingc_t＝f(h′_t,h)。最终计算，对当前时刻每个可行的行动a_i,k，预测得分p_t(a_i,k)＝softmax_k(e(g_i,k,h′_t,c_t))，最终可选取得分较高的行动。现有的方法大都从语言和图像在时间序列上对齐、数据增强及强化学习三个角度对算法做出改进，使得模型可以更好地理解环境的信息与反馈。

本发明实施例提出了不同于现有技术的一种新的视觉语音导航方案，下面结合图1-图3描述本发明的视觉语音导航方法。本方法的执行主体可以是智能体或与智能体建立通信连接的后端。

其中，智能体可以是具有智能的实体。在本发明实施例中，智能体能够自主接收语义导航指令，并自动感知周围图像并能够自主运动的实体。例如，该智能体可以是机器人，该机器人可以是任何形式。

参照图1所示，本发明实施例的视觉语音导航方法可以包括如下步骤：

步骤110：接收语义导航指令，所述语义导航指令包括行进方向、至少一个目标路径节点和目的地；

步骤120：按照所述行进方向控制智能体行进并在行进过程中采集图像；

步骤130：从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签；

步骤140：若所述文本标签与所述目标路径节点的标识信息匹配，则确定基于所述目标路径节点的行进转向方向；

步骤150：当所述智能体抵达所述目标路径节点时，则根据所述行进转向方向控制所述智能体转向，直到抵达所述目的地。

在本发明实施例中，语义导航指令是包含语义信息的导航指令。语义导航指令中的行进方向包括从当前位置的初始行进方向，具体可以是经纬度信息或者基于智能体本体的相对方位方向，如前进、后退、左转或右转，在此不作限定。

其中，目标路径节点为从当前位置到目的地所经过的中间路径节点，具体可以是物体、建筑物或其他标志物，在此不作限定。其中，目标路径节点可以具有是一个或不止一个，在此不作限定。

在本发明可选实施例中，语义导航指令还可以包括基于目标路径节点的行进转向方向，这可以指导智能体在抵达目标路径节点时进行转向。另外，语义导航指令也可以不包括行进转向方向。

在可选实施例中，语义导航指令还可以包括行进距离信息，如从当前位置到下一个目标路径节点之间、或相邻两个目标路径节点之间的距离信息，这可以提升智能体行进控制的准确性。另外，语义导航指令也可以不包括行进距离信息。

在本发明实施例中，语义导航指令的接收形式可以不受限制，具体可以是输入文本信息或语音信息。

语义导航指令可以是以文本形式输入的。具体地，智能体可以提供用户界面接收用户输入文本信息。

智能体还可以设置麦克风来接收语音信息，以确认语义导航指令。

在本发明实施例中，在接收到语义导航指令时，还使用语义识别模型对所述语义导航指令进行语义识别以得到文本信息，所述文本信息包括所述行进方向、至少一个目标路径节点和目的地。

语义识别模型经常使用在许多自然语言处理NLP(Natural LanguageProcessing,)方面的应用，自然语言处理使用机器学习来剖析文本的结构和含义，如语音识别、机器翻译、句法分析等。

在本发明实施例中，使用语义识别模型可以实现文本信息识别或语音识别。语义识别模型可以基于神经网络语言模型，例如基于前馈神经网络的模型、基于循环神经网络的模型、动态卷积网络DCNN、或Seq2Seq(Sequence to Sequence)端到端神经网络，seq2seq是一个Encoder–Decoder结构的网络。

所述语义识别模型是采用样本数据训练得到的，例如文本样本数据或语音样本数据。具体地，通过对机器学习网络进行训练使得网络学得句子中的词汇关系，从而得到语义识别模型。

例如，经过预训练的网络可以对用户输入的语义导航指令(如Walk down stairs，stop next to the fridge)进行有效的embedding。具体地，可以引入一些特殊的Token，比如图中的“[CLS]”、“[SEP]”，它们分别表示指令的开始，以及和其他类型数据的分隔。

根据语义导航指令的不同形式，可以使用不同语义识别模型。

在本发明实施例中，智能体上可以设置摄像头来实时地采集图像。摄像头可以是全景摄像头，能够更大范围内采集图像，实现导航准确性和可靠性。

在本发明实施例中，能够基于图像特征从图像中识别路径对象特征，并获取该特征所预匹配的文本标签，该文本标签与路径对象特征之间具有预设的匹配关系。

具体地，可以使用图像识别模型从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签，所述图像识别模型为利用带有所述文本标签的图像样本数据训练得到的。

在训练过程中，图像识别模型要学习识别图像特征，并建立文本标签与图像特征之间的匹配关系，这里的图像特征具体是路径对象特征。这实现了以语义信息为锚点，将路径对象的图像特征通过文本标签语义化，语义导航指令和路径对象特征通过语义信息相互理解和匹配，从而使得智能体更准确识别目标路径节点，做出更准确可靠的行动决策。

在本发明实施例中，图像识别模型可以采用Faster RCNN网络，则参考图2所示，从所述图像中识别路径对象特征，可以包括：

步骤210：利用卷积层从所述图像中提取特征图；

步骤220：利用区域生成网络RPN(Region Proposal Network)对所述特征图提取候选框；

步骤230：利用特征映射的方法将所述候选框的位置映射到所述特征图相应位置，并提取所述路径对象特征。

Faster RCNN网络包括所述卷积层和RPN，其中RPN能够学习到如何生成高质量的提议区域，从而在减少提议区域数量的情况下也能保证目标检测的精度。

在对Faster RCNN网络训练过程中，从智能体能够观测到的原始的图像中，使用Faster RCNN网络提取物体和看到的可导航点的区域图像特征Region image feature。Faster RCNN网络还能给物体标签，如“stairs”、“fridge”等。

可导航点处可能并没有特定的物体，因此Faster RCNN网络并不能给出有效的标签，这里可以统一给定可导航点的标签为“point”。

为了表示图像特征image feature在原始图像中的坐标，可以对提取出的imagefeature做增广，加上feature的左上角和右下角像素坐标，以及上一步行动的embedding。

这样，把物体和可导航点的文本标签(object tags)，以及增广后的imagefeature一同输入到网络中。

通过有监督的训练，在训练时，可以随机地从文本标签Word Tokens和ObjectTags中替换掉某几个Token为“[MASKED]”，并在网络学出的feature上做Masked TokenLoss。

该Loss是为了让网络学会补全随机去掉的Token。对于从可导航点image feature中学出的feature，可以预测下一步的行动，并做Cross Entropy Loss，因为行动是有优劣之分的，从而可以选择行动来让智能体执行。

另外，图像识别模型还可以采用区域卷积神经网络RCNN(region-based CNN)、Fast-RCNN、Mask-RCNN、YOLO(全称：You Only Live Once)或SSD(全称：Single ShotMultiBox Detector)，在此不受限定。

在本发明实施例中，在确定基于所述目标路径节点的行进转向方向之前，参考图3，还可以包括如下步骤：

步骤310可以参考上文步骤130，在此不再详述；

步骤320：判断所述文本标签与目标路径节点的标识信息是否语义匹配；

若是，则执行步骤330：确定基于目标路径节点的行进转向方向；

若否，则执行步骤340：控制智能体继续行进。

在可选实施例中，若文本标签与目标路径节点的标识信息的语义不匹配，则说明智能体所拍摄图像范围内未出现目标路径节点，此时智能体可以继续前进。

使用本实施例的方案，图像特征和语义导航指令基于语义信息直接匹配，而排除了基于距离或时序关系的间接匹配，语义匹配的精确度和可靠性高，一旦确定语义匹配，则可以确定识别到目标路径节点，以确定基于该目标路径节点的行进转向方向。

其中，确定基于所述目标路径节点的行进转向方向，可以包括：

在这个实施例中，语义导航指令中包含行进转向方向。

在本发明另外实施例中，确定基于所述目标路径节点的行进转向方向，还可以包括：

在该实施例的应用场景中，在目标路径节点位置设置有行进转向标记，通过识别该行进转向标记可以得到行进转向方向。行进转向标记可以是目的地的文本信息和对应的指向箭头，或者目的地的文本信息及文本形式的行进转向方向。

在本发明实施例中，智能体可以配置有激光雷达或速度检测模块，从而能够在抵达目标路径节点时，生成转向指令，以控制智能体按照行进转向方向转向，直到抵达目的地。

在本发明实施例中，当从当前位置到目的地包括多个目标路径节点，则对任一个目标路径节点，可以采用图1所示步骤120-140，来确定各个目标路径节点的行进转向方向，在此不再赘述。

下面对本发明提供的视觉语音导航装置进行描述，下文描述的视觉语音导航装置与上文描述的视觉语音导航方法可相互对应参照。

参照图4所示，本发明实施例提供的视觉语音导航装置可以包括：

接收模块410，用于接收语义导航指令，所述语义导航指令包括行进方向、至少一个目标路径节点和目的地；

采集模块420，用于按照所述行进方向控制智能体行进并在行进过程中采集图像；

识别模块430，用于从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签；

确定模块440，若所述文本标签与所述目标路径节点的标识信息匹配，则用于确定基于所述目标路径节点的行进转向方向；

转向模块450，当所述智能体抵达所述目标路径节点时，则用于根据所述行进转向方向控制所述智能体转向，直到抵达所述目的地。

在可选实施例中，识别模块430具体用于：

在可选实施例中，所述图像识别模型采用Faster RCNN网络，则识别模块430具体还用于：

利用卷积层从所述图像中提取特征图；

利用区域生成网络对所述特征图提取候选框；

在可选实施例中，确定模块440具体用于：

在可选实施例中，接收模块410在接收到所述语义导航指令时，具体还用于：

所述语义识别模型是采用样本数据训练得到的。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行视觉语音导航方法，该方法包括：

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的视觉语音导航方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的视觉语音导航方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉语音导航方法，其特征在于，包括：

2.根据权利要求1所述的视觉语音导航方法，其特征在于，从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签，包括：

3.根据权利要求2所述的视觉语音导航方法，其特征在于，所述图像识别模型采用Faster RCNN网络，则从所述图像中识别路径对象特征，包括：

利用卷积层从所述图像中提取特征图；

利用区域生成网络对所述特征图提取候选框；

4.根据权利要求1所述的视觉语音导航方法，其特征在于，确定基于所述目标路径节点的行进转向方向，包括：

5.根据权利要求1所述的视觉语音导航方法，其特征在于，确定基于所述目标路径节点的行进转向方向，包括：

6.根据权利要求1所述的视觉语音导航方法，其特征在于，所述语义导航指令包括输入文本信息或语音信息。

7.根据权利要求1所述的视觉语音导航方法，其特征在于，在接收到所述语义导航指令时，还包括：

所述语义识别模型是采用样本数据训练得到的。

8.一种视觉语音导航装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述视觉语音导航方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视觉语音导航方法的步骤。