CN111783892B

CN111783892B - 一种机器人指令识别方法、装置及电子设备和存储介质

Info

Publication number: CN111783892B
Application number: CN202010639967.XA
Authority: CN
Inventors: 刘文印; 王思涵; 陈俊洪; 林大润; 朱展模
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2021-10-01
Anticipated expiration: 2040-07-06
Also published as: CN111783892A

Abstract

本申请公开了一种机器人指令识别方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取训练视频和所述训练视频对应的语音片段，并预测所述训练视频对应的指令标签；从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络；利用训练完成的神经网络进行指令识别。本申请提供的机器人指令识别方法，利用训练视频预测语音片段的指令标签，基于指令标签和语音特征进行神经网络的训练。在训练过程中，不需要过多的数据集，操作人员不需要拥有专业的知识背景。在识别阶段，可以通过完整语音直接识别机器人指令，不需要其他输入，可以很随意的切换语种而不需要额外的人工修正数据集，减少制作数据集的工作量。

Description

一种机器人指令识别方法、装置及电子设备和存储介质

技术领域

本申请涉及机器人技术领域，更具体地说，涉及一种机器人指令识别方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术

在相关技术中，通过输入特定的编程的文字和机器人指令，使机器人做出对应的动作。而语音输入作为指令仍然是业内的一个难点，现有的语音交互方案现行的技术存在以下几种：基于完整语句语音识别后进行文字处理、基于特定少数指令做语音智能学习处理、基于特定音素提取从而获取指令的方法。基于完整语句语音识别后进行文字处理的方案需要庞大的数据集并且同时需要庞大的校对和打数据标签等以供机器可以学习。基于特定少数指令做语音智能学习处理虽然需求的数据量较少，但是在真实使用中人机交互性并不好，它只能识别特定少数的短语音指令。基于特定音素提取从而获取指令的方法为传统的方法，但是其需要很强的专业背景，故不适合大规模使用。除此之外，现行的机器人还存在从一种语言切换到另外一种语言便无法运行的情况。

因此，如何在不需要专业的技术背景的前提下，只需少量操作便可学习其他语言的语音、提取机器人动作指令是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种机器人指令识别方法、装置及一种电子设备和一种计算机可读存储介质，在不需要专业的技术背景的前提下，只需少量操作便可学习其他语言的语音、提取机器人动作指令。

为实现上述目的，本申请提供了一种机器人指令识别方法，包括：

获取训练视频和所述训练视频对应的语音片段，并预测所述训练视频对应的指令标签；

从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络；

利用训练完成的神经网络进行指令识别。

其中，所述预测所述训练视频对应的指令标签，包括：

将所述训练视频以预设采样间隔输入卷积神经网络中以便提取所述训练视频的视频特征；

利用双流三维卷积神经网络对所述视频特征进行动作预测，将预测得到的动作类型作为所述训练视频对应的指令标签。

其中，所述神经网络包括编码器-解码器神经网络，所述编码器具体为双向长短期记忆网络，所述解码器具体为门控循环单元网络。

其中，从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络，包括：

将所述语音片段转换为MFCC特征，将所述MFCC特征输入神经网络中以便提取所述语音片段对应的语音特征；

将所述语音特征输入分类器中得到语音预测结果，根据所述语音预测结果和所述指令标签计算损失函数；

利用所述损失函数训练所述神经网络得到训练完成的神经网络。

其中，所述利用训练完成的神经网络进行指令识别，包括：

获取目标语音片段，将所述语音片段转换为目标MFCC特征；

将所述目标MFCC特征输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征；

将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。

为实现上述目的，本申请提供了一种机器人指令识别装置，包括：

预测模块，用于获取训练视频和所述训练视频对应的语音片段，并预测所述训练视频对应的指令标签；

训练模块，用于从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络；

识别模块，用于利用训练完成的神经网络进行指令识别。

其中，所述训练模块包括：

第一提取单元，用于通过MFCC将所述语音片段转换为特征向量，将所述特征向量输入神经网络中以便提取所述语音片段对应的语音特征；

计算单元，用于将所述语音特征输入分类器中得到语音预测结果，根据所述语音预测结果和所述指令标签计算损失函数；

训练单元，用于利用所述损失函数训练所述神经网络得到训练完成的神经网络。

其中，所述识别模块包括：

转换单元，用于获取目标语音片段，通过MFCC将所述目标语音片段转换为目标特征向量；

第二提取单元，用于将所述目标特征向量输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征；

识别单元，用于将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述机器人指令识别方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述机器人指令识别方法的步骤。

通过以上方案可知，本申请提供的一种机器人指令识别方法，包括：获取训练视频和所述训练视频对应的语音片段，并预测所述训练视频对应的指令标签；从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络；利用训练完成的神经网络进行指令识别。

本申请提供的机器人指令识别方法，利用训练视频预测语音片段的指令标签，基于指令标签和语音特征进行神经网络的训练。在训练过程中，不需要过多的数据集，操作人员不需要拥有专业的知识背景。无论有多少句语音数据，只要是描述视频中的指令，只需要一个视频便可完成多个语音的标注的系统，即多个语音对应于一个视频标签。在识别阶段，可以通过完整语音直接识别机器人指令，不需要其他输入，可以很随意的切换语种而不需要额外的人工修正数据集，减少制作数据集的工作量。本申请还公开了一种机器人指令识别装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种机器人指令识别方法的流程图；

图2为根据一示例性实施例示出的一种机器人指令识别装置的结构图；

图3为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种机器人指令识别方法，在不需要专业的技术背景的前提下，只需少量操作便可学习其他语言的语音、提取机器人动作指令。

参见图1，根据一示例性实施例示出的一种机器人指令识别方法的流程图，如图1所示，包括：

S101：获取训练视频和所述训练视频对应的语音片段，并预测所述训练视频对应的指令标签；

在本实施例中，通过视频辅助语音进行机器人指令识别，具体的，利用训练视频预测语音片段的指令标签，从而辅助训练神经网络。作为一种可行的实施方式，所述预测所述训练视频对应的指令标签，包括：将所述训练视频以预设采样间隔输入卷积神经网络中以便提取所述训练视频的视频特征；利用双流三维卷积神经网络对所述视频特征进行动作预测，将预测得到的动作类型作为所述训练视频对应的指令标签。

在具有实施中，视频辅助生成机器人指令标签就是给定一个视频序列，在每个视频中预测其视频中对应的机器人指令标签，视频可以通过预训练好的网络进行少量的视频训练，获取视频预测的标签。此处可以采用双流三维卷积神经网络，迁移现行已经有庞大训练集训练过的神经网络。使用支持向量机分类算法、随机森林或神经网络等分类方法对动作进行分类，得到训练视频的动作预测结果，即指令标签。

S102：从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络；

在本步骤中，从语音片段中提取语音特征，基于语音片段的语音特征和该语音片段对应的指令标签训练神经网络。作为一种可行的实施方式，本步骤可以包括：将所述语音片段转换为MFCC特征，将所述MFCC特征输入神经网络中以便提取所述语音片段对应的语音特征；将所述语音特征输入分类器中得到语音预测结果，根据所述语音预测结果和所述指令标签计算损失函数；用所述损失函数训练所述神经网络得到训练完成的神经网络。

在具体实施中，获得与视频对应的语音片段通过MFCC(Mel频率倒谱系数)转换为特征，即一段或者几段描述该视频动作的交互式语音转换带一定信息的特征向量。神经网络进行以视频预测的指令标签为训练标签的训练。此处的神经网络包括编码器-解码器神经网络，所述编码器具体为双向长短期记忆网络，所述解码器具体为门控循环单元网络。其中，编码器为双向长短期记忆网络，后使用修正现行单元做激活函数，在训练期间附加drop-out(神经元随机缺失)以提高训练效果。之后，把编码器部分的权重输入解码器中，解码器部分使用门控循环单元网络，后使用修正现行单元做激活函数，在训练期间附加drop-out以提高训练效果。使用逻辑回归做最后的分类器识别具体实施的动作。将语音模型预测出来的结果和视频模型预测的结果进行损失函数的计算，最终通过视频预测的指令标签的结果修正语音模型的神经网络。

S103：利用训练完成的神经网络进行指令识别。

在本步骤中，可以利用训练完成的神经网络进行指令识别。作为一种可行的实施方式，本步骤可以包括：获取目标语音片段，将所述语音片段转换为目标MFCC特征；将所述目标MFCC特征输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征；将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。

需要说明的是，与训练阶段不同，在识别阶段不需要视频的辅助。在识别阶段，只需要语音片段作为输入，神经网络仍然使用编码器-解码器神经网络，但是会移除掉drop-out单元，最后通过逻辑回归做最后的分类器识别具体的指令。

本申请实施例提供的机器人指令识别方法，利用训练视频预测语音片段的指令标签，基于指令标签和语音特征进行神经网络的训练。在训练过程中，不需要过多的数据集，操作人员不需要拥有专业的知识背景。无论有多少句语音数据，只要是描述视频中的指令，只需要一个视频便可完成多个语音的标注的系统，即多个语音对应于一个视频标签。在识别阶段，可以通过完整语音直接识别机器人指令，不需要其他输入，可以很随意的切换语种而不需要额外的人工修正数据集，减少制作数据集的工作量。

下面介绍本申请提供的一种应用实施例，具体可以包括以下步骤：

步骤1：将待处理长视频逐帧(或者以一定的采样间隔)输入到卷积神经网络中，提取图像特征；

步骤2：以提取的视频图像特征序列作为输入，使用预先训练的双流三维卷积神经网络模型，对视频特征序列进行机器人指令预测，得到长视频的预测机器人序列；

步骤3：获得与视频片段对应的语音输入片段。以语音片段作为输入编码器-解码器神经网络中，提取语音片段的特征；

步骤4：输入语音片段的特征到分类器中，获得语音的识别机器人序列；

步骤5：对比视频的预测动作序列和语音的识别机器人序列的结果，计算他们对应的损失函数并在训练阶段持续训练神经网络，即持续3-5步骤；

步骤6：获得任意的语音片段(不需要出现在视频中)，同步骤3一样，输入训练好的编码器-解码器神经网络，获得语音片段的特征；

步骤7：将语音片段的特征输入分类器中，进行机器人指令的识别。

可见，本实施例通过视频辅助语音的方法进行语音动作识别，直接通过视频做软标签，而不依赖于文本的标签，生成机器人指令。无论有多少句语音数据，只要是描述视频中的指令，只需要一个视频便可完成多个语音的标注的系统，即多个语音对应于一个视频标签。在识别阶段，可以通过完整语音直接识别机器人指令，可以很随意的切换语种而不需要额外的人工修正数据集的系统。

下面对本申请实施例提供的一种机器人指令识别装置进行介绍，下文描述的一种机器人指令识别装置与上文描述的一种机器人指令识别方法可以相互参照。

参见图2，根据一示例性实施例示出的一种机器人指令识别装置的结构图，如图2所示，包括：

预测模块201，用于获取训练视频和所述训练视频对应的语音片段，并预测所述训练视频对应的指令标签；

训练模块202，用于从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络；

识别模块203，用于利用训练完成的神经网络进行指令识别。

本申请实施例提供的机器人指令识别装置，利用训练视频预测语音片段的指令标签，基于指令标签和语音特征进行神经网络的训练。在训练过程中，不需要过多的数据集，操作人员不需要拥有专业的知识背景。无论有多少句语音数据，只要是描述视频中的指令，只需要一个视频便可完成多个语音的标注的系统，即多个语音对应于一个视频标签。在识别阶段，可以通过完整语音直接识别机器人指令，不需要其他输入，可以很随意的切换语种而不需要额外的人工修正数据集，减少制作数据集的工作量。

在上述实施例的基础上，作为一种优选实施方式，所述预测模块201包括：

获取单元，用于获取训练视频和所述训练视频对应的语音片段；

输入单元，用于将所述训练视频以预设采样间隔输入卷积神经网络中以便提取所述训练视频的视频特征；

预测单元，用于利用双流三维卷积神经网络对所述视频特征进行动作预测，将预测得到的动作类型作为所述训练视频对应的指令标签。

在上述实施例的基础上，作为一种优选实施方式，所述神经网络包括编码器-解码器神经网络，所述编码器具体为双向长短期记忆网络，所述解码器具体为门控循环单元网络。

在上述实施例的基础上，作为一种优选实施方式，所述训练模块202包括：

在上述实施例的基础上，作为一种优选实施方式，所述识别模块203包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图3，本申请实施例提供的一种电子设备300的结构图，如图3所示，可以包括处理器11和存储器12。该电子设备300还可以包括多媒体组件13，输入/输出(I/O)接口14，以及通信组件15中的一者或多者。

其中，处理器11用于控制该电子设备300的整体操作，以完成上述的机器人指令识别方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件15可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的机器人指令识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述机器人指令识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器12，上述程序指令可由电子设备300的处理器11执行以完成上述的机器人指令识别方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种机器人指令识别方法，其特征在于，包括：

从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络，所述神经网络包括编码器-解码器神经网络，所述编码器具体为双向长短期记忆网络，所述解码器具体为门控循环单元网络；

利用训练完成的神经网络进行指令识别；

2.根据权利要求1所述机器人指令识别方法，其特征在于，所述预测所述训练视频对应的指令标签，包括：

3.根据权利要求1所述机器人指令识别方法，其特征在于，所述利用训练完成的神经网络进行指令识别，包括：

获取目标语音片段，将所述语音片段转换为目标MFCC特征；

4.一种机器人指令识别装置，其特征在于，包括：

训练模块，用于从所述语音片段中提取语音特征，并基于所述语音特征和所述指令标签训练神经网络，所述神经网络包括编码器-解码器神经网络，所述编码器具体为双向长短期记忆网络，所述解码器具体为门控循环单元网络；

识别模块，用于利用训练完成的神经网络进行指令识别；

其中，所述训练模块包括：

5.根据权利要求4所述机器人指令识别装置，其特征在于，所述识别模块包括：

6.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述机器人指令识别方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述机器人指令识别方法的步骤。