CN112102830A

CN112102830A - 一种粗颗粒度指令识别方法和装置

Info

Publication number: CN112102830A
Application number: CN202010961391.9A
Authority: CN
Inventors: 林大润; 刘文印; 陈俊洪; 王思涵; 黄可思; 钟经谋
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-18
Anticipated expiration: 2040-09-14
Also published as: CN112102830B

Abstract

本发明公开了一种粗颗粒度指令识别方法和装置，包括：接收用户输入的视频数据和指令音频；使用已训练实例分割模型从所述视频数据提取物体特征矩阵；使用已训练语音模型从所述指令音频提取粗颗粒度指令特征矩阵；对所述物体特征矩阵和所述粗颗粒度指令矩阵进行拼接，生成融合特征；将所述融合特征输入到已训练推理分类模型，输出细颗粒度指令组。有效提高粗颗粒度指令识别的灵活性，降低工作量。

Description

一种粗颗粒度指令识别方法和装置

技术领域

本发明涉及机器人指令识别技术领域，尤其涉及一种粗颗粒度指令识别方法和装置。

背景技术

机器人的动作指令一般通过文本或者语音的方式直接表达出人们想要机器人做出的动作。这种思路方案已经相当成熟。但所给出的指令颗粒度需要很细，即非常具体的动作例如切苹果、倒油等。而对于炒蛋炒饭等这些较为笼统的粗颗粒度的指令的研究相对还比较少。由于这种指令由于包含了若干个细颗粒度的指令，例如炒饭就包含了蒸米饭，倒油，翻炒米饭等细颗粒度的操作。如何对这些粗颗粒度动作进行分解将使得机器人能够顺利准确的执行成为了一个难点。

传统的方法是对粗颗粒度的动作指令人为的分解成若干个动作指令组并记录到数据库中，这种依靠人类经验的方法工作量较大，无法根据不同的粗颗粒度指令进行灵活识别，交互性较差。

发明内容

本发明提供了一种粗颗粒度指令识别方法和装置，解决了现有技术中依靠人类经验对粗颗粒度指令进行分解的方法所导致的工作量较大，无法根据不同的粗颗粒度指令进行灵活识别，交互性较差的技术问题。

本发明提供的一种粗颗粒度指令识别方法，包括：

接收用户输入的视频数据和指令音频；

使用已训练实例分割模型从所述视频数据提取物体特征矩阵；

使用已训练语音模型从所述指令音频提取粗颗粒度指令特征矩阵；

对所述物体特征矩阵和所述粗颗粒度指令矩阵进行拼接，生成融合特征；

将所述融合特征输入到已训练推理分类模型，输出细颗粒度指令组。

可选地，所述使用已训练实例分割模型从所述视频数据中提取物体特征矩阵的步骤，包括：

从所述视频数据中提取多个视频帧；

将每个所述视频帧输入到已训练实例分割模型，确定目标物体特征；

将所述目标物体特征输入到预置全连接层，生成物体特征矩阵。

可选地，所述已训练语音模型包括一维卷积神经网络和双向长短期记忆网络，所述使用已训练语音模型从所述指令音频中提取粗颗粒度指令特征矩阵的步骤，包括：

将所述指令音频转换为梅尔频率倒谱系数特征数据；

输入所述梅尔频率倒谱系数特征数据到所述一维卷积神经网络，得到与所述梅尔频率倒谱系数特征数据对应的指令信息；

将所述指令信息输入到所述双向长短期记忆网络，得到粗颗粒度指令特征；

将所述粗颗粒度指令特征输入到预置全连接层，生成粗颗粒度指令特征矩阵。

可选地，所述已训练推理分类模型包括已训练门控循环单元网络和已训练分类模型，所述将所述融合特征输入到已训练推理分类模型，输出细颗粒度指令组的步骤，包括：

将所述融合特征输入到预置全连接层，生成动作-物体联合特征；

将所述动作-物体联合特征输入到所述已训练门控循环单元网络，得到目标特征；

将目标特征输入到所述已训练分类模型，确定与所述目标特征对应的指令组类别；

输出与所述指令组类别对应的细颗粒度指令组。

可选地，在所述接收用户输入的视频数据和指令音频的步骤之前，所述方法还包括：

获取样本数据；所述样本数据包括已分类的视频数据和已分类的指令音频；

采用所述已分类的视频数据对预置的未训练实例分割模型进行训练，得到已训练实例分割模型；

采用所述已分类的指令音频对预置的未训练语音模型进行训练，得到已训练语音模型；

获取融合样本数据；

通过所述融合样本数据训练预置的未训练推理分类模型，得到已训练推理分类模型。

本发明还提供了一种粗颗粒度指令识别装置，包括：

数据接收模块，用于接收用户输入的视频数据和指令音频；

物体特征矩阵提取模块，用于使用已训练实例分割模型从所述视频数据提取物体特征矩阵；

粗颗粒度指令特征矩阵提取模块，用于使用已训练语音模型从所述指令音频提取粗颗粒度指令特征矩阵；

融合特征生成模块，用于对所述物体特征矩阵和所述粗颗粒度指令矩阵进行拼接，生成融合特征；

细颗粒度指令组输出模块，用于将所述融合特征输入到已训练推理分类模型，输出细颗粒度指令组。

可选地，所述物体特征矩阵提取模块包括：

视频帧提取子模块，用于从所述视频数据中提取多个视频帧；

目标物体特征确定子模块，用于将每个所述视频帧输入到已训练实例分割模型，确定目标物体特征；

物体特征矩阵生成子模块，用于将所述目标物体特征输入到预置全连接层，生成物体特征矩阵。

可选地，所述已训练语音模型包括一维卷积神经网络和双向长短期记忆网络，所述粗颗粒度指令特征矩阵提取模块包括：

数据转换子模块，用于将所述指令音频转换为梅尔频率倒谱系数特征数据；

指令信息生成子模块，用于输入所述梅尔频率倒谱系数特征数据到所述一维卷积神经网络，得到与所述梅尔频率倒谱系数特征数据对应的指令信息；

粗颗粒度指令特征生成子模块，用于将所述指令信息输入到所述双向长短期记忆网络，得到粗颗粒度指令特征；

粗颗粒度指令特征矩阵生成子模块，用于将所述粗颗粒度指令特征输入到预置全连接层，生成粗颗粒度指令特征矩阵。

可选地，所述已训练推理分类模型包括已训练门控循环单元网络和已训练分类模型，所述细颗粒度指令组输出模块包括：

联合特征生成子模块，用于将所述融合特征输入到预置全连接层，生成动作-物体联合特征；

目标特征生成子模块，用于将所述动作-物体联合特征输入到所述已训练门控循环单元网络，得到目标特征；

指令组类别确定子模块，用于将目标特征输入到所述已训练分类模型，确定与所述目标特征对应的指令组类别；

细颗粒度指令组输出子模块，用于输出与所述指令组类别对应的细颗粒度指令组。

可选地，所述装置还包括：

样本数据获取模块，用于获取样本数据；所述样本数据包括已分类的视频数据和已分类的指令音频；

实例分割模型训练模块，用于采用所述已分类的视频数据对预置的未训练实例分割模型进行训练，得到已训练实例分割模型；

语音模型训练模块，用于采用所述已分类的指令音频对预置的未训练语音模型进行训练，得到已训练语音模型；

融合样本数据获取模块，用于获取融合样本数据；

推理分类模型训练模块，用于通过所述融合样本数据训练预置的未训练推理分类模型，得到已训练推理分类模型。

从以上技术方案可以看出，本发明具有以下优点：

在本发明实施例中，通过从接收到的视频数据中提取得到物体特征矩阵，从指令音频中提取得到粗颗粒度指令特征矩阵，基于上述特征矩阵拼接生成的融合特征，将所述融合特征输入到已训练推理分类模型，以输出细颗粒度指令组，从而解决现有技术中依靠人类经验对粗颗粒度指令进行分解的方法，导致工作量较大，无法根据不同的粗颗粒度指令进行灵活识别，交互性较差的技术问题，有效提高粗颗粒度指令识别的灵活性，降低工作量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种粗颗粒度指令识别方法的步骤流程图；

图2为本发明可选实施例提供的一种粗颗粒度指令识别方法的步骤流程图；

图3为本发明实施例提供的物体特征矩阵提取过程的流程图；

图4为本发明实施例提供的粗颗粒度指令特征矩阵提取过程的流程图；

图5为本发明实施例提供的细颗粒度指令组生成过程的流程图；

图6为本发明实施例提供的一种粗颗粒度指令识别装置的结构框图。

具体实施方式

本发明实施例提供了一种粗颗粒度指令识别方法和装置，用于解决现有技术中依靠人类经验对粗颗粒度指令进行分解的方法所导致的工作量较大，无法根据不同的粗颗粒度指令进行灵活识别，交互性较差的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种粗颗粒度指令识别方法的步骤流程图。

本发明提供的一种粗颗粒度指令识别方法，包括：

步骤101，接收用户输入的视频数据和指令音频；

在本发明实施例中，为保证机器人行为控制的准确性，需要在生成机器人需要执行的动作指令组之前，预先接收用户输入的视频数据和指令音频，以根据指令音频表述的粗颗粒度指令以及视频数据所表现的物体，建立对应的控制关系生成动作指令组。

步骤102，使用已训练实例分割模型从所述视频数据提取物体特征矩阵；

在获取到视频数据之后，由于视频数据中包含的物体不仅有机器人所需要模仿的物体，还包括周围环境等无关物体，而为了提高粗颗粒度指令的识别效率，此时可以使用已训练实例分割模型从视频数据提取物体特征矩阵。

其中，所述实例分割模型可以为Mask R-CNN网络模型等用于目标检测、目标实例分割或目标关键点检测的模型，实例分割指的是在像素级识别对象轮廓。

步骤103，使用已训练语音模型从所述指令音频提取粗颗粒度指令特征矩阵；

在具体实现中，在获取到指令音频之后，由于指令音频中包括了指令、环境噪音或者情绪等等多个音频，此时可以通过采用已训练语音模型从指令音频中提取粗颗粒度指令特征矩阵，以便于后续确定指令所对应的操作物体。

步骤104，对所述物体特征矩阵和所述粗颗粒度指令矩阵进行拼接，生成融合特征；

在获取到物体特征矩阵和粗颗粒度指令矩阵之后，需要根据上述特征矩阵进行进一步地推理分析，此时可以将上述特征矩阵在相同维度上进行拼接，以生成融合特征，以便于根据融合特征进行进一步的分类。

步骤105，将所述融合特征输入到已训练推理分类模型，输出细颗粒度指令组。

在本发明实施例中，推理分类模型中可以包括多个细颗粒度指令组，在接收到融合特征之后，根据融合特征的不同确定对应的指令类型，也就是对应的细颗粒度指令组，最后输出细颗粒度指令组。

请参阅图2，图2为本发明可选实施例提供的一种粗颗粒度指令识别方法的步骤流程图。

本发明提供的一种粗颗粒度指令识别方法，包括：

步骤201，接收用户输入的视频数据和指令音频；

在本发明实施例中，步骤201的具体实现过程与上述步骤101类似，在此不再赘述。

步骤202，使用已训练实例分割模型从所述视频数据提取物体特征矩阵；

可选地，所述步骤202可以包括以下子步骤：

从所述视频数据中提取多个视频帧；

在具体实现中，可以将视频数据按帧数划分为多个视频帧，将每个视频帧输入到已训练实例分割模型，而已训练实例分割模型如Mask R-CNN，可以通过模型中的分类层，在训练阶段设定需要识别的物体特征，从而在得到已训练实例分割模型后，能够保证在每个视频帧中识别出目标物体特征；而后为了后续能够将视频与指令音频进行特征对应，将目标物体特征输入到预置全连接层，以生成与目标物体特征对应的物体特征矩阵。

其中，全连接层(fully connected layers，FC)指的是每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来的层。用于对前面设计的特征做加权和，将物体特征矩阵映射到后续与粗颗粒度指令特征矩阵相同的维度。

参见图3，示出了本发明实施例中的物体特征矩阵提取过程的流程图，其中包括从视频数据中提取多个视频帧，将多个视频帧输入到Mask R-CNN网络中，得到目标物体特征后输入到全连接层FC，生成物体特征矩阵。

步骤203，使用已训练语音模型从所述指令音频提取粗颗粒度指令特征矩阵；

进一步地，所述已训练语音模型包括一维卷积神经网络和双向长短期记忆网络，所述步骤203可以包括以下子步骤：

将所述指令音频转换为梅尔频率倒谱系数特征数据；

在具体操作中，所述已训练语音模型可以包括一维卷积神经网络和双向长短期记忆网络，为使粗颗粒度指令特征提取的准确性进一步提高，在选择指令音频时可以选择10秒以下的音频，本发明实施例对此不作限制。

在本发明实施例中，为对指令音频进行去噪过滤，可以将所述指令音频转换为梅尔频率倒谱系数特征数据，以更为符合人耳听觉特性，更具鲁棒性；然后将梅尔频率倒谱系数特征数据输入到一维卷积神经网络中，以提取出与指令音频对应的中间数据，再使用最大池化层对中间数据进行筛选，得到指令信息；再将指令信息输入到双向长短期记忆网络中，以得到粗颗粒度指令特征；最后将所述粗颗粒度指令特征输入到预置全连接层，生成粗颗粒度指令特征矩阵。

值得一提的是，所述粗颗粒度指令特征可以序列信息的形式进行表示，本发明实施例对此不作限制。

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。例如在音讯压缩中。

长短期记忆网络(LSTM，Long Short-Term Memory)指的是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。而双向长短期记忆网络BiLSTM由两个普通的LSTM所组成，一个正向的LSTM，利用过去的信息，一个逆序的LSTM，利用未来的信息，这样在时刻t，既能够使用t-1时刻的信息，又能够利用到t+1时刻的信息。一般来说，由于双向LSTM能够同时利用过去时刻和未来时刻的信息，会比单向LSTM最终的预测更加准确。

参见图4，示出了本发明实施例中的粗颗粒度指令特征矩阵提取过程的流程图，其中包括依据指令音频转换得到MFCC特征的音频数据，将MFCC特征的音频数据输入到一维卷积网络和BiLSTM中，得到粗颗粒度指令特征并输入到FC中，最后生成粗颗粒度指令特征矩阵。

步骤204，对所述物体特征矩阵和所述粗颗粒度指令矩阵进行拼接，生成融合特征；

在本发明实施例中，上述过程与步骤104类似，在此不再赘述。

在本发明的一个示例中，所述已训练推理分类模型包括已训练门控循环单元网络和已训练分类模型，上述步骤105可以替换为以下步骤205-208：

步骤205，将所述融合特征输入到预置全连接层，生成动作-物体联合特征；

在本发明实施例中，为使后续识别效果更为精准，可以将融合特征输入到预置全连接层，以生成动作-物体联合特征，进而将动作-物体联合特征输入到已训练门控循环单元网络，进行进一步的操作。

步骤206，将所述动作-物体联合特征输入到所述已训练门控循环单元网络，得到目标特征；

值得一提的是，门控循环单元网络(gated recurrent neural network，GRU)是循环神经网络(RNN)中的一种门控机制，与其他门控机制相似，其旨在解决标准RNN中的梯度消失/爆炸问题并同时保留序列的长期信息。能够捕捉时间序列中时间步距较大的依赖关系的神经网络，相对于RNN增加了重置门和更新门。

步骤207，将目标特征输入到所述已训练分类模型，确定与所述目标特征对应的指令组类别；

在本发明实施例中，在获取到目标特征之后，将目标特征输入到已训练分类模型，通过已训练分类模型基于已存在的指令组类别将目标特征分类到各个类别。

可选地，分类模型可以采用Softmax分类器，或者其他分类模型，本发明实施例对此不作限制。

步骤208，输出与所述指令组类别对应的细颗粒度指令组。

值得一提的是，每个指令组类别中都有预先设置的细颗粒度指令组，在获取到对应的目标特征之后，可以在将目标特征对应的粗颗粒度指令划分为对应的细颗粒度指令，例如每个粗颗粒度指令最多可分成三个细颗粒度指令，故最后分类得到的是维度为3×3×54向量(输出3个指令，每个指令包含动作、主体、受体3个变量，物体与动作类别总数为54)。

参见图5，图5示出了细颗粒度指令组生成过程的流程图，其中包括将获取到的物体特征矩阵和粗颗粒度指令特征矩阵拼接成融合特征，输入到FC中生成动作-物体联合特征并映射到操作空间，将动作-物体联合特征依次输入到GRU和分类模型中，从而划分得到细颗粒度指令组1(电饭煲，蒸，米饭)、细颗粒度指令组2(油，倒，锅)，细颗粒度指令组3(锅铲，炒，米饭)。

在本发明的可选实施例中，在步骤201之前，所述方法还包括：

获取融合样本数据；

在具体实现中，上述训练过程可以如下：

1、将视频数据逐帧输入至Mask R-CNN神经网络中进行目标检测模型的训练，并把其分类层取出，加入全连接层。

2、将指令音频数据输入至语音模型(即一维卷积神经网络+双向长短期记忆网络)中进行语音模型的训练，并把其分类层取出，加入全连接层。

3、将1和2得到的网络融合后输入到双向GRU网络进行训练，直到得到一个效果好的模型。

4、将测试或者预测的数据输入至3训练完成的模型中，得到结果，完成识别。

可选地，在各个模型训练完成后，可以将已分类的视频数据和已分类的指令音频输入到模型中进行识别，以验证模型的优劣性。

请参阅图6，图6为本发明实施例提供的一种粗颗粒度指令识别装置的结构框图。

本发明还提供了一种粗颗粒度指令识别装置，包括：

数据接收模块601，用于接收用户输入的视频数据和指令音频；

物体特征矩阵提取模块602，用于使用已训练实例分割模型从所述视频数据提取物体特征矩阵；

粗颗粒度指令特征矩阵提取模块603，用于使用已训练语音模型从所述指令音频提取粗颗粒度指令特征矩阵；

融合特征生成模块604，用于对所述物体特征矩阵和所述粗颗粒度指令矩阵进行拼接，生成融合特征；

细颗粒度指令组输出模块605，用于将所述融合特征输入到已训练推理分类模型，输出细颗粒度指令组。

可选地，所述物体特征矩阵提取模块602包括：

可选地，所述已训练语音模型包括一维卷积神经网络和双向长短期记忆网络，所述粗颗粒度指令特征矩阵提取模块603包括：

可选地，所述已训练推理分类模型包括已训练门控循环单元网络和已训练分类模型，所述细颗粒度指令组输出模块605包括：

可选地，所述装置还包括：

融合样本数据获取模块，用于获取融合样本数据；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种粗颗粒度指令识别方法，其特征在于，包括：

接收用户输入的视频数据和指令音频；

2.根据权利要求1所述的方法，其特征在于，所述使用已训练实例分割模型从所述视频数据中提取物体特征矩阵的步骤，包括：

从所述视频数据中提取多个视频帧；

3.根据权利要求1所述的方法，其特征在于，所述已训练语音模型包括一维卷积神经网络和双向长短期记忆网络，所述使用已训练语音模型从所述指令音频中提取粗颗粒度指令特征矩阵的步骤，包括：

将所述指令音频转换为梅尔频率倒谱系数特征数据；

4.根据权利要求1所述的方法，其特征在于，所述已训练推理分类模型包括已训练门控循环单元网络和已训练分类模型，所述将所述融合特征输入到已训练推理分类模型，输出细颗粒度指令组的步骤，包括：

输出与所述指令组类别对应的细颗粒度指令组。

5.根据权利要求1至4任一项所述的方法，其特征在于，在所述接收用户输入的视频数据和指令音频的步骤之前，所述方法还包括：

获取融合样本数据；

6.一种粗颗粒度指令识别装置，其特征在于，包括：

数据接收模块，用于接收用户输入的视频数据和指令音频；

7.根据权利要求6所述的装置，其特征在于，所述物体特征矩阵提取模块包括：

8.根据权利要求6所述的装置，其特征在于，所述已训练语音模型包括一维卷积神经网络和双向长短期记忆网络，所述粗颗粒度指令特征矩阵提取模块包括：

9.根据权利要求6所述的装置，其特征在于，所述已训练推理分类模型包括已训练门控循环单元网络和已训练分类模型，所述细颗粒度指令组输出模块包括：

10.根据权利要求6至9任一项所述的装置，其特征在于，所述装置还包括：

融合样本数据获取模块，用于获取融合样本数据；