CN111914777A

CN111914777A - 一种跨模态识别机器人指令的方法及系统

Info

Publication number: CN111914777A
Application number: CN202010789075.8A
Authority: CN
Inventors: 刘文印; 王思涵; 陈俊洪; 林大润; 朱展模
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-10
Anticipated expiration: 2040-08-07
Also published as: CN111914777B

Abstract

本申请提供了一种跨模态识别机器人指令的方法与系统，包括：将获取的各模态数据作为训练集输入至神经网络中，经过训练确立机器人指令识别模型；将待识别的各模态数据输入至所述机器人指令识别模型中，输出机器人指令。本发明提供的方法及系统，可以基于跨模态准确地识别出机器人指令，训练模型所需的训练集数据量小，在输入中缺失任一模态或任一模态数据不平衡的情况下，本方法与系统仍能正常识别出机器人指令，人工标记的工作量小，实用性较强。

Description

一种跨模态识别机器人指令的方法及系统

技术领域

本发明涉及信息技术领域，尤其涉及一种跨模态识别机器人指令的方法及系统。

背景技术

随着机器人技术的不断发展，智能机器人逐渐被运用至人们的日常生活中。机器人需要根据从视频或语音不同跨模态中识别出的指令执行相应的动作。

现有的跨模态识别方法主要为以下三种：一是基于跨模态特征融合进行指令识别的方法；二是跨模态在特定少数指令上的指令识别的方法；三是基于跨模态局部特征的融合识别指令的方法。基于跨模态特征融合进行指令识别的方法需要同时拥有庞大视频和音频数据集，并且如果任意一种模态的数据较少或者缺失，都将导致系统无法使用。跨模态在特定少数指令上的指令识别的方法虽然需求的数据量较少，但是在真实使用场景中的人机交互性并不好，而且稳定性较差。基于跨模态局部特征的融合识别指令虽然在一些场景下能取得较好成绩，但是他们所需要的人工标记工作量巨大，不太可能在现实场景中使用。

发明内容

基于此，本发明提供一种跨模态识别机器人指令的方法及系统，即使缺失任一模态，或者在数据不平衡的条件下也可以实现机器人指令的识别与提取。

为了达到上述发明目的，本申请采用如下技术方案：

第一方面，本申请公开一种跨模态识别机器人指令的方法，包括：

S1、将获取的各模态数据作为训练集输入至神经网络中，经过训练确立机器人指令识别模型；

S2、将待识别的各模态数据输入至所述机器人指令识别模型中，输出机器人指令。

优选地，所述步骤S1中，所述机器人指令识别模型具体包括：

各模态低级特征提取模型、各模态指令特征提取模型、各模态特征选择模型、特征融合模型。

优选地，所述步骤S1中，所述将获取的各模态数据作为训练集输入至神经网络中，经过训练确立机器人指令识别模型，包括：

S11、将获取的各模态数据输入至对应的各模态低级特征提取模型中，提取所述各模态数据对应的各模态低级特征，输出所述各模态低级特征；

S12、将所述各模态低级特征输入至对应的各模态指令特征提取模型中，提取所述各模态低级特征对应的各模态指令特征，并将所述各模态指令特征转化为相同维度，输出所述各模态指令特征；

S13、将所述各模态指令特征输入至对应的各模态特征选择模型中，对所述各模态指令特征进行拟合选择，输出各模态拟合选择后的指令特征；

S14、将所述各模态拟合选择后的指令特征输入至特征融合模型中，对所述各模态拟合选择后的指令特征进行特征融合，输出高级指令特征；

S15、将所述高级指令特征输入至识别分类模型中，对所述高级指令特征进行识别分类，并将识别分类结果转译成机器人指令；

S16、获取已标记的真实机器人指令，将所述机器人指令与所述已标记的真实机器人指令输入至判决模型中，计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数，将所述损失函数反馈至各模态低级特征提取模型、各模态指令特征提取模型、选择模型；

S17、利用所述损失函数调整各模态低级特征提取模型、各模态指令特征提取模型、选择模型的参数，更新各模态低级特征提取模型、各模态指令特征提取模型、选择模型。

优选地，所述步骤S11中，作为训练集输入至神经网络中的各模态数据，在不同模态之间的数据为一一对应的关系，若缺失其中一个模态的数据，则将该模态置为无。

优选地，所述步骤S2中，输入至机器人指令识别模型的待识别的各模态数据，在不同模态之间的数据为一一对应的关系，若缺失其中一个模态的数据，则将该模态置为无。

优选地，所述步骤S13中，所述将所述对各模态指令特征进行拟合选择，包括：

将各模态指令特征进行逐个比较，从各模态指令特征中各选择出一个最接近真实指令特性的指令特征。

优选地，所述各模态数据，包括：

视频数据、语音数据、图像数据、文本数据中的任意两个模态数据、任意三个模态数据或四个模态数据。

优选地，若所述模态数据中包括视频数据时，先对将视频数据逐帧拆分成图像数据，或者将视频数据以一定的采样间隔拆分成图像数据，再将处理后的数据输入至机器人指令识别模型。

优选地，所述各模态低级特征提取模型，包括：针对视频数据与图像数据，使用卷积神经网络构成的视频低级特征提取模型与图像低级特征提取模型。

优选地，所述各模态指令特征提取模型，包括：针对视频数据与图像数据，使用双流三维卷积神经网络构成的视频指令特征提取模型与图像指令特征提取模型；针对语音序列数据，使用自注意力机制与循环神经网络构成的语音指令特征提取模型。

优选地，所述各模态特征选择模型，包括：卷积神经网络与线性方程构成的所述各模态特征选择模型。

优选地，所述判决模型，包括：门控循环单元网络与分类器网络构成的所述判决模型。

第二方面，本申请公开一种基于跨模态识别机器人指令的系统，包括：

各模态数据获取模块，用于获取各模态数据；

各模态特征提取模块，用于将获取的各模态数据输入至对应的各模态低级特征提取模型中，提取所述各模态数据对应的各模态低级特征，输出所述各模态低级特征；将所述各模态低级特征输入至对应的各模态指令特征提取模型中，提取所述各模态低级特征对应的各模态指令特征，并将所述各模态指令特征转化为相同维度，输出所述各模态指令特征；

选择模块，用于将所述各模态指令特征输入至对应的各模态特征选择模型中，对所述各模态指令特征进行拟合选择，输出各模态拟合选择后的指令特征；

融合模块，用于将所述各模态拟合选择后的指令特征输入至特征融合模型中，对所述各模态拟合选择后的指令特征进行特征融合，输出高级指令特征；

识别分类模块，用于将所述高级指令特征输入至识别分类模型中，对所述高级指令特征进行识别分类，并将识别分类结果转译成机器人指令；

判决模块，用于计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数；将所述损失函数反馈至各模态特征提取模块中的各模态低级特征提取模型与各模态指令特征提取模型、选择模块中的选择模型；

输出模块，输出所述机器人指令。

优选地，所述各模态特征提取模块，包括：

各模态低级特征提取模块，用于将获取的各模态数据输入至对应的各模态低级特征提取模型中，提取所述各模态数据对应的各模态低级特征，输出所述各模态低级特征；

各模态指令特征提取模块，用于将所述各模态低级特征输入至对应的各模态指令特征提取模型中，提取所述各模态低级特征对应的各模态指令特征，并将所述各模态指令特征转化为相同维度，输出所述各模态指令特征。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供的一种跨模态识别机器人指令的方法及系统，在输入至神经网络中的各模态数据中，不同模态之间的数据为一一对应的关系，若缺失其中一个模态的数据，则将该模态置为无，只输入其他模块；与现有技术需要大量训练数据集、只能输入特定的少数集中指令的技术缺点相比，通过本技术方案能够达到在训练机器人指令识别模型时，用于训练的数据量翻倍，并且在数据不平衡的情况下，也能对模型进行训练的效果。本发明的技术方案中，在输入至机器人指令识别模型的待识别的各模态数据中，不同模态之间的数据为一一对应的关系，若缺失其中一个模态的数据，则将该模态置为无，只输入其他模块；与现有技术输入的待识别数据中若缺失任一模态数据，将导致系统无法识别机器人指令，并且无法处理任一输入模态数据不平衡的问题的技术缺点相比，本技术方案能够达到在识别机器人指令时，即使缺失任一模态的数据，依然能够识别出机器人指令的效果。本发明的技术方案中利用识别出的机器人指令与已标记的真实机器人指令对应的损失函数，调整机器人指令识别模型中的各模态低级特征提取模型、各模态指令特征提取模型、选择模型的参数，与现有技术需要大量人工标记相比，本技术方案不需要局部人工标记就能够实现特征最大化提取的方法，减少了人工标记的工作量，提高了实用性。综上所述，本发明提供的一种跨模态识别机器人指令的方法及系统，可以基于跨模态准确地识别出机器人指令，训练模型所需的训练集数据量小，在输入中缺失任一模态或任一模态数据不平衡的情况下，本方法与系统仍能正常识别出机器人指令，人工标记的工作量小，实用性较强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种实施例中跨模态识别机器人指令的方法流程图；

图2为本发明一种实施例中跨模态识别机器人指令的系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体的，本发明实施例提供了一种跨模态识别机器人指令的方法及系统，

请参考图1，本实施例中选择对视频数据与音频数据进行跨模态识别机器人指令，本实施例中方法的具体步骤：

S1、将获取的视频数据与语音数据作为训练集输入至神经网络中，经过训练确立机器人指令识别模型；其中，作为训练集输入至神经网络中的各模态数据，在不同模态之间的数据为一一对应的关系，若缺失其中一个模态的数据，则将该模态置为无。先对将视频数据逐帧拆分成图像数据，或者将视频数据以一定的采样间隔拆分成图像数据，得到处理后的视频数据，再将处理后的视频数据输入至机器人指令识别模型。

S11、将处理后的视频数据输入至卷积神经网络构成的视频低级特征提取模型，提取所述视频数据的视频低级特征；将获取的语音数据输入至语音低级特征提取模型中，提取所述语音数据的MFCC梅尔频率倒谱系数构成的语音低级特征，输出所述视频低级特征与语音低级特征；

S12、将所述视频低级特征输入至双流三维卷积神经网络构成的视频指令特征提取模型中，提取视频指令特征；将所述语音低级特征输入至自注意力机制与循环神经网络构成的语音指令特征提取模型中，提取语音指令特征；并将所述视频指令特征与语音指令特征转化为相同维度，输出所述视频指令特征与语音指令特征；

S13、将所述视频指令特征输入至视频特征选择模型中，对所述视频指令特征进行拟合选择，输出拟合选择后的视频指令特征；将所述语音指令特征输入至语音特征选择模型中，对所述语音指令特征进行拟合选择，输出拟合选择后的语音指令特征；其中，所述对各模态指令特征进行拟合选择，包括：将各模态指令特征进行逐个比较，从各模态指令特征中各选择出一个最接近真实指令特性的指令特征。

S14、将所述拟合选择后的语视频指令特征与拟合选择后的语音指令特征输入至特征融合模型中，对所述拟合选择后的语视频指令特征与拟合选择后的语音指令特征进行特征融合，输出高级指令特征；

S16、获取已标记的真实机器人指令，将所述机器人指令与所述已标记的真实机器人指令输入至判决模型中，计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数，将所述损失函数反馈至视频低级特征提取模型与语音低级特征提取模型、视频指令特征提取模型与语音指令特征提取模型、视频特征选择模型与语音特征选择模型；

S17、利用所述损失函数调整视频低级特征提取模型与语音低级特征提取模型、视频指令特征提取模型与语音指令特征提取模型、视频特征选择模型与语音特征选择模型的参数，更新视频低级特征提取模型与语音低级特征提取模型、视频指令特征提取模型与语音指令特征提取模型、视频特征选择模型与语音特征选择模型。

S2、将获取的待识别视频数据与语音数据输入至所述机器人指令识别模型中，输出机器人指令。其中，输入至机器人指令识别模型的待识别的各模态数据，在不同模态之间的数据为一一对应的关系，若缺失其中一个模态的数据，则将该模态置为无。

请参考图2，本实施例中的系统包括：

各模态数据获取模块1，包括视频数据获取模块101与语音数据获取模块102，用于获取视频数据与语音数据；

各模态特征提取模块2，包括视频低级特征提取模块2101与语音低级特征提取模块2102，用于将获取的视频数据输入至视频低级特征提取模型，将获取的语音数据输入至语音低级特征提取模型中，提取所述视频数据与语音数据对应的视频低级特征与视频低级特征，输出所述视频低级特征与视频低级特征；视频低级特征提取模块2201与语音指令特征提取模块2202，用于将所述视频低级特征输入至视频指令特征提取模型，将所述语音低级特征输入至语音指令特征提取模型中，提取所述视频低级特征与语音低级特征对应的视频指令特征与语音指令特征，并将所述视频指令特征与语音指令特征转化为相同维度，输出所述视频指令特征与语音指令特征；

选择模块3，包括视频特征选择模块301与语音特征选择模块302，用于将所述视频指令特征输入至视频特征选择模型中，将所述语音指令特征输入至语音特征选择模型中，对所述视频指令特征与语音指令特征进行拟合选择，输出拟合选择后的视频指令特征与语音指令特征；

融合模块4，用于将所述拟合选择后的视频指令特征与语音指令特征输入至特征融合模型中，对所述各模态拟合选择后的指令特征进行特征融合，输出高级指令特征；

识别分类模块5，用于将所述高级指令特征输入至识别分类模型中，对所述高级指令特征进行识别分类，并将识别分类结果转译成机器人指令；

判决模块6，用于计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数；将所述损失函数反馈至各模态特征提取模块2中的各模态低级特征提取模型与各模态指令特征提取模型、选择模块3中的选择模型；

输出模块7，输出所述机器人指令。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种跨模态识别机器人指令的方法，其特征在于，包括：

2.根据权利要求1所述的一种跨模态识别机器人指令的方法，其特征在于，所述步骤S1中的机器人指令识别模型具体包括：

3.根据权利要求1所述的一种跨模态识别机器人指令的方法，其特征在于，所述步骤S1包括：

4.根据权利要求3所述的一种跨模态识别机器人指令的方法，其特征在于，所述步骤S11中输入至神经网络中的各模态数据在不同模态之间的数据为一一对应的关系，若缺失其中一个模态的数据，则将该模态置为无。

5.根据权利要求1所述的一种跨模态识别机器人指令的方法，其特征在于，所述步骤S2中输入至机器人指令识别模型的待识别的各模态数据，在不同模态之间的数据为一一对应的关系，若缺失其中一个模态的数据，则将该模态置为无。

6.根据权利要求3所述的一种跨模态识别机器人指令的方法，其特征在于，所述步骤S13中的对所述各模态指令特征进行拟合选择包括：

将所述各模态指令特征进行逐个比较，从各模态指令特征中各选择出一个最接近真实指令特性的指令特征。

7.根据权利要求1所述的一种跨模态识别机器人指令的方法，其特征在于，所述各模态数据包括：

视频数据、语音数据、图像数据、文本数据中的至少两项。

8.根据权利要求7所述的一种跨模态识别机器人指令的方法，其特征在于，若所述模态数据中包括视频数据时，先对将视频数据逐帧拆分成图像数据，或者将视频数据以一定的采样间隔拆分成图像数据，再将处理后的数据输入至机器人指令识别模型。

9.根据权利要求2所述的一种跨模态识别机器人指令的方法，其特征在于，所述各模态低级特征提取模型包括：针对视频数据与图像数据，使用卷积神经网络构成的视频低级特征提取模型与图像低级特征提取模型；

所述各模态指令特征提取模型包括：

针对视频数据与图像数据，使用双流三维卷积神经网络构成的视频指令特征提取模型与图像指令特征提取模型；针对语音序列数据，使用自注意力机制与循环神经网络构成的语音指令特征提取模型；

所述各模态特征选择模型，包括：卷积神经网络与线性方程构成的所述各模态特征选择模型；

所述判决模型，包括：门控循环单元网络与分类器网络构成的所述判决模型。

10.一种基于跨模态识别机器人指令的系统，其特征在于，包括：

各模态数据获取模块，用于获取各模态数据；

输出模块，输出所述机器人指令。