CN106898350A

CN106898350A - 一种基于深度学习的智能工业机器人语音交互与控制方法

Info

Publication number: CN106898350A
Application number: CN201710027763.9A
Authority: CN
Inventors: 李莹莹; 肖南峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2017-06-27

Abstract

本发明公开了一种基于深度学习的智能工业机器人语音交互与控制方法，包括步骤：1)语音转化为语谱图，通过FFT方法将原始语音转化为一张可以作为输入的图像；2)对整句语音建模，将语谱图作为输入对卷积神经网络进行无监督的训练；3)将卷积神经网络的输出序列O与标签T进行比较，通过BP算法对卷积神经网络进行有监督的调整；4)将特定的文本信息作为控制指令输入给机器人。本发明将语音识别技术与工业机器人相结合，改变了传统的生产方式，减轻了工人劳动强度，提高劳动生产率，促进了工业技术向智能化方向发展。

Description

一种基于深度学习的智能工业机器人语音交互与控制方法

技术领域

本发明涉及深度学习及工业机器人语音控制的技术领域，尤其是指一种基于深度学习的智能工业机器人语音交互与控制方法。

背景技术

一直以来，语音作为人类特有的能力，是人与其他动物最本质的区别，也是人类之间交流以及获取外界信息资源的最重要的工具和渠道。21世纪是信息技术蓬勃发展的时代，语音识别技术作为这个洪流中人机交互分支的一个重要组成，是人机交互的重要接口，使得人类和机器的交互更加自动化、智能化，实现了让机器听得懂人类语言的主要途径，推动了人工智能的发展。因此，将语音识别技术和机器人控制技术相结合，更体现了技术自动化和智能化。在我国，机器人被应用到很多领域，而且随着语音识别技术在机器人控制中的应用，机器人的应用领域在不断扩大。例如，将语音识别技术与工业机器人相结合，改变了传统的生产方式，减轻工人劳动强度，提高劳动生产率，促进了工业技术向智能化方向发展。

目前，国内外关于基于语音识别的机器人控制技术的研究已经很多了。例如，国内有白琳在基于语音识别的机器人控制技术的研究中对语音特征参数提取方法进行了改进，将传统的MFCC特征参数与共振峰参数相结合，提出了新的语音特征参数提取方法；国外，有美国、日本、德国等对智能服务机器人控制技术进行研究。

近年来，随着深度学习热潮的再次涌起，基于深度神经网络的语音识别系统的研究随之火热，目前最好的语音识别系统采用双向长短时记忆网络(LSTM，Long Short TermMemory)，但是这以系统训练复杂度高、解码时间长，在工业的实时识别系统中难以广泛应用，尤其是在工厂巨大噪音的环境下更加难以识别。因此需要一种基于深度学习的智能工业机器人语音交互与控制方法，使得机器人能在嘈杂的作业环境中准确识别人类语音命令。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于深度学习的智能工业机器人语音交互与控制方法，该方法考虑了工厂中嘈杂的作业环境问题，减少了语音系统训练的复杂度和时间，实现了更好的语音交互与机器人控制。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习的智能工业机器人语音交互与控制方法，包括以下步骤：

1)将语音转化为语谱图，通过短时傅里叶变换FFT方法将原始语音转化为一张能够作为输入的图像，具体是：利用短时傅里叶变换FFT方法对原始语音信号的每一帧进行处理，通过时间抽取算法和频率抽取算法得到由时域和频域两个维度组成的语谱图，其中，在频率抽取过程中，对不需要的频率进行压缩处理，从而降低噪音影响；

2)对整句语音建模，将由步骤1)得到的语谱图作为特征图输入到一个由多个卷积层组成的神经网络中，这里的卷积层与全连接层不同，它是非全连接层，非全连接是指后一层的输出与前一层的部分输入相关，而全连接则是认为后一层的输出与前一层的全部输入都相关，其中，每个卷积层都包括卷积、非线性变换和下采样三个阶段，具体如下：

2.1)卷积阶段：假设n₁是输入语音信号的帧数，n₂和n₃分别对应每一帧特征图的时域维度和频域维度，即有n₁个n₂×n₃大小的二维特征图组成的三维数组，将每个输入特征图记为x_i，卷积后的结果y也是一个三维数组，每个输出特征图记为y_j，链接x_i和y_j的权重记为w_ij，则

其中，*表示二维离散卷积运算符，b_j是偏置项；

2.2)非线性阶段：将卷积阶段输出的特征y作为输入，进行非线性变换R＝h(y)，采用收敛速度较快的不饱和非线性函数ReLU，具体函数公式为：

R＝max(0,y)

2.3)下采样阶段：采用最大池化的操作，依据定义的邻域窗口大小计算特定范围内的数据最值P_M；

将上述的卷积层进行三次堆叠，前一层的输出作为后一层的输入，组成卷积神经网络，其中，最后一个卷积层的下采样阶段输出的特征图与一个全连接层相连接，得到输出序列O；

3)将卷积神经网络的输出序列O与标签T进行比较，这里的标签T指的是预定义在网络中的命令，用于与网络识别的命令做比较，比较结果所得的误差E大于预设阈值时，用反向传播BP算法对网络权值进行调整，直至E小于预设阈值时就认为收敛，训练结束，输出文本信息结果；

4)将步骤3)输出的文本信息结果作为控制命令，机器人接收到特定的命令后，做出相应的动作。

本发明与现有技术相比，具有以下优点与有益效果：

1、本发明将语音识别技术与工业机器人相结合，改变了传统的生产方式，促进了工业技术向智能化方向发展。

2、减轻了工人劳动强度，提高劳动生产率。

3、可以远程控制机器人在危险环境下作业，也可以近距离控制机器人。

4、可以使机器人在工厂嘈杂的环境下对人类语音进行准确地识别，并根据相应的识别命令进行作业。

附图说明

图1为本发明方法的逻辑流程示意图。

图2为卷积层的三个阶段。

图3为非线性函数ReLU形态图。

图4为本发明使用的卷积神经网络框架图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所述的基于深度学习的智能工业机器人语音交互与控制方法，包括以下步骤：

1)将语音转化为语谱图，通过短时傅里叶变换FFT方法将原始语音转化为一张能够作为输入的图像，具体是：利用短时傅里叶变换FFT方法对原始语音信号的每一帧进行处理，通过时间抽取算法和频率抽取算法得到由时域和频域两个维度组成的语谱图，其中，在频率抽取过程中，对不需要的频率进行压缩处理，从而降低噪音影响。

2)对整句语音建模，将由步骤1)得到的语谱图作为特征图输入到一个由多个卷积层组成的神经网络中，这里的卷积层与全连接层不同，它是非全连接层，非全连接是指后一层的输出与前一层的部分输入相关，而全连接则是认为后一层的输出与前一层的全部输入都相关；如图2所示，每个卷积层都包括卷积、非线性变换和下采样三个阶段，具体如下：

2.1)卷积阶段：假设原始语音中有n₁个音节，则输入语音信号的帧数就是n₁个，n₂和n₃分别对应每一帧特征图的时域维度和频域维度，具体维度大小根据FFT变换后决定，即有n₁个n₂×n₃大小的二维特征图组成的三维数组，将每个输入特征图记为x_i，卷积后的结果y也是一个三维数组，每个输出特征图记为y_j，链接x_i和y_j的权重记为w_ij，则

其中，*表示二维离散卷积运算符，b_j是偏置项；

2.2)非线性阶段：将卷积阶段输出的特征y作为输入，进行非线性变换R＝h(y)，本发明采用收敛速度较快的不饱和非线性函数ReLU，如图3所示，具体函数公式为：

R＝max(0,y)

2.3)下采样阶段：本发明采用最大池化的操作，依据定义的邻域窗口大小计算特定范围内的数据最值P_M；

将第一个卷积神经网络的输出结果图像作为第二个卷积神经网络的输入，同样经历三个阶段，输出结果再输入到第三个卷积神经网络中，经历三个阶段后得到卷积网络的输出结果，该结果与一个全连接层相连接，最后得到最终的输出序列O，如图4所示。

3)将卷积神经网络的输出序列O与标签T进行比较，这里的标签T指的是预定义在网络中的命令，用于与网络识别的命令做比较，比较结果所得的误差E大于预设阈值时，用反向传播BP算法对网络权值进行调整，直至E小于预设阈值时就认为收敛，训练结束，输出信息文本作为最终识别结果，即控制命令。其中，预定义的命令标签有十个，分别是：抓、握、推、拉、插、按、夹、捏、剪、切、敲、打、采、挖、撕、拽、磨、削、刨、挫等。

4)将步骤3)得到的文本信息结果作为控制命令，机器人接收到特定的命令后，做出相应的动作。本实例将前三个步骤用到的卷积神经网络用于Linux Ubuntu 16.04系统安装的Robot Operating System(ROS)的kinetic版本上，一个talker节点将步骤3)得到的最终命令文本信息结果作为消息发布给ROS Master，并由一个机器人控制节点listener作为消息接收者来接收这个消息，从而对机器人进行相应的控制。

具体如下所示：当用户通过语音设备下达指令后，如指令“抓”，该语音信号的语谱图通过卷积神经网络的识别，与命令标签T中的“抓”比较，产生误差小于阈值，则将“抓”作为文本信息输出，该文本信息被发布到ROS Master中，由一个机器人控制节点listener作为消息接收者来接收这个消息，通过选择机制，最终将消息解释为动作并控制机器人做出“抓”的反应；当用户通过语音设备下达的指令与命令标签T中的不相符，如指令“揉”，则通过卷积神经网络识别后不将结果作为文本信息输出，相应的机器人也不做任何反应；当用户下达命令时使用友好的语句，如“请抓”，其识别与控制过程与指令“抓”类似，区别在于语音识别结果只将“抓”与命令标签T中的“抓”作比较，忽略“请”字。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于深度学习的智能工业机器人语音交互与控制方法，其特征在于，包括以下步骤：

y_{j} = b_{j} + \underset{i}{Σ} w_{i j} * x_{i}

其中，*表示二维离散卷积运算符，b_j是偏置项；

R＝max(0,y)