CN112289309A

CN112289309A - 一种基于深度学习的机器人语音控制方法

Info

Publication number: CN112289309A
Application number: CN202011196439.8A
Authority: CN
Inventors: 王晓华; 赵晨鑫; 李鹏飞; 张蕾; 苏泽斌
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-29

Abstract

本发明一种基于深度学习的机器人语音控制方法依据卷积神经网络(CNN)、长短期记忆模型(LSTM)、时序分类模型(CTC)相结合的一种新的语音识别模型，搭建CNN‑LSTM‑CTC声学模型，通过SMFCC算法完成语音输入信号的特征提取，利用新的混合声学模型提取更深层的特征，经LSTM网络对语音数据进行时序特征提取，再经CTC算法完成对语音信号的训练和识别。本发明一种基于深度学习的机器人语音控制方法能够有效地改善传统方法中训练时间短和识别准确率低的缺点，使得人机交互更加高效便捷。

Description

一种基于深度学习的机器人语音控制方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于深度学习的机器人语音控制方法。

背景技术

近些年来，机器人智能水平的提高和语音识别技术研究取得重大突破，机器人语音控制技术已经成为科技发展最前沿的领域之一。

随着不同功能的移动机器人被广泛应用到各个领域中，键盘和手柄等传统的控制方式已经难以满足人与机器人协同工作的需求，人们迫切需要一种高效方便的方法实现人机交互，机器人语音控制技术能够让机器人对人的语音内容进行识别，并按照人的指令完成指定任务。

机器人语音控制可分为几个过程：语音信号的预处理、特征参数提取、语音信号的识别与控制。其中，基于神经网络的语音识别方法是目前最热门的语音识别方法之一，该方法通过建立语音信号的声学模型，有效地改善了传统方法中训练时间短和识别准确率低的缺点。目前，国内在这方面尚无十分成熟的技术。

发明内容

本发明的目的是提供一种基于深度学习的机器人语音控制方法，该方法简化了基于GMM-HMM的混合声学模型，加强了对相邻语音帧之间的联系。

本发明所采用的技术方案是一种基于深度学习的机器人语音控制方法，具体步骤如下：

步骤1：利用SMFCC算法提取语音信号的特征；

步骤2：应用CNN网络提取更加深层的语音特征；

步骤3：经池化层处理后的语音数据送入LSTM网络进行时序特征提取；

步骤4：判断误差值是否满足预先设置的阀值，或声学模型优化的迭代次数是否已达到预设值；

若是，则训练结束输出权值；

若否，返回步骤3继续训练。

步骤5：利用CTC算法对LSTM各个节点的输出权值进行自动对齐，完成语音信号的训练和识别。

步骤6：使用python编写语音控制机器人的代码，通过ROS的通信机制将各个模块串接，完成语音控制机器人过程。

本发明的特点还在于：

步骤1中提取特征参数的具体过程为：

步骤1.1：对输入的语音信号进行预处理；

步骤1.2：对S矩阵A进行奇异值分解(SVD)计算，经降噪处理后，得到矩阵B；

步骤1.3：对矩阵B求取统计值得到2N维的统计值向量C；

步骤1.4：通过Mel滤波器组以及求对数能量，得到离散余弦变换(DCT)倒谱,经DCT倒谱得到75维的SMFCC特征。

步骤1.1中对输入的语音信号x(n)进行预处理，对一帧语音信号进行S变换，得到S矩阵A：

对语音信号x(t)进行S变换：

g(τ,f)为高斯函数：

式(1)中，τ参数为高斯窗函数中心点，f为频率。

步骤1.2中对矩阵A进行奇异值分解(SVD)计算，通过奇异值取舍对S矩阵进行降噪，得到矩阵B：

若A为一个信号矩阵，那么A的奇异值按递减的顺序排列为σ₁，σ₂，...,σ_i,...,σ_t，且σ₁≥σ₂≥...≥σ_i≥...≥σ_t。将S矩阵中对角元素相邻的前一项减后一项得到k，K＝{k₁,k₂,...,k_i,...,k_t-1}。

若k_i为最大，则确定该位置为S矩阵奇异值阈值位置，并将以后的值置零，通过式(4)得到矩阵B。

设A为m×n矩阵，秩为r(r<n)，则存在m×n的正交阵U和n×n的正交阵V，使得：

A＝UDV^T (3)

步骤1.3中分别对矩阵B的行列向量求取统计值，得到2N维向量C，即同时对语音信号的频域、时域进行处理。

步骤1.4中将向量C通过Mel滤波器组以及对数能量，求离散余弦变换(DCT)倒谱，得到SMFCC特征。

对数能量进行离散余弦变换(DCT)，得到语音信号特征，公式如下：

式(4)中，M表示特征维数，计算每帧语音命令信号的特征分布。

步骤3的具体过程为：

步骤3.1：通过LSTM中的三个门对输入信息进行筛选，提高识别精度；

步骤3.2：通过Dropout层防止神经网络在训练过程中过拟合。

步骤3.1中LSTM中的输入门、忘记门和输出门对输入信息和上一时刻的信息进行筛选，有效防止神经网络在训练过程中发生梯度消失的问题，从而提高识别精度。i_t、f_t、c_t、o_t为各个门的基本单元，该网络的输出计算公式如下所示：

其中，x＝{x₁，x₂，…，x_t，…，x_N}，N为输入数据的个数，σ为sigmoid激活函数，b_i、b_f、b_o、b_c分别为所对应的门的偏置，W为各个门之间的权值矩阵。

步骤3.2中Dropout层以一定比例让LSTM网络中的一些隐含层的输出权重在训练中停止更新，保存到下次迭代过程时再被激活，有效防止了神经网络训练过程中的过拟合现象。

步骤5的具体过程为：

步骤5.1：经过CTC算法预测的序列结果与经LSTM进行时序特征提取的输出权重进行自动对齐；

步骤5.2：CTC算法引入blank，每个预测的分类对应语音数据被标记；

步骤5.1中CTC算法作为损失函数只需一个输入序列和一个输出序列即可训练，并直接输出序列预测的概率，与经LSTM输出的权重自动对齐。

步骤5.2中CTC算法自身引入的blank，每个预测的分类对应一整段语音数据的一个尖峰，其余位置被标记为blank，完成对语音信号的训练和识别。

步骤6的具体过程为：

步骤6.1：通过Python编写的control.py将深度学习网络输出的语音文本通过消息发布；

步骤6.2：把检测到的语音文本与语音库中的文本信息进行匹配，并发布该消息到命令相关的节点；

步骤6.3：经匹配和处理后，系统判断机器人的执行命令，并发布该消息到移动相关的节点；

步骤6.4：机器人接收到命令，实现语音控制机器人的运动。

本发明的有益效果是，本发明是一种基于深度学习的机器人语音控制方法，能够有效地改善传统方法中训练时间短和识别准确率低的缺点，简化基于GMM-HMM的混合声学模型，加强对相邻语音帧之间的联系。

附图说明

图1是本发明一种基于深度学习的机器人语音控制方法的特征提取流程图；

图2是本发明一种基于深度学习的机器人语音控制方法的训练流程图；

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于深度学习的机器人语音控制方法，通过SMFCC方法提取语音信号特征具体包括如下步骤：

如图1所示，具体步骤如下：

步骤1：利用SMFCC算法提取语音信号的特征，主要步骤如下：

步骤1.1：对输入的语音信号进行预处理；

步骤1.3：对矩阵B求取统计值得到2N维的统计值向量C；

如图2所示，具体步骤如下：

步骤2：应用CNN网络提取更加深层的语音特征；

步骤3：经池化层处理后的语音数据送入LSTM网络进行时序特征提取，主要步骤如下：

步骤3.2：通过Dropout层防止神经网络在训练过程中过拟合。

步骤5：利用CTC算法对LSTM各个节点的输出权值进行自动对齐，完成语音信号的训练和识别；

步骤5.2：CTC算法引入blank，每个预测的分类对应语音数据被标记。

步骤6：使用python编写语音控制机器人的代码，通过ROS的通信机制将各个模块串接，完成语音控制机器人过程；

步骤6.4：机器人接收到命令，实现语音控制机器人的运动。

本发明一种基于深度学习的机器人语音控制方法依据卷积神经网络(CNN)、长短期记忆模型(LSTM)、时序分类模型(CTC)相结合的一种新的语音识别模型，搭建CNN-LSTM-CTC声学模型，完成对语音信号的TEOGFCC特征参数提取，利用新的混合声学模型提取更深层的特征，经LSTM网络对语音数据进行时序特征提取，再经CTC算法完成对语音信号的训练和识别。本发明一种基于深度学习的机器人语音控制方法能够有效地改善传统方法中训练时间短和识别准确率低的缺点，使得人机交互更加高效便捷。

Claims

1.一种基于深度学习的机器人语音控制方法，其特征在于，具体包括如下步骤：

步骤1：利用SMFCC算法提取语音信号的特征；

步骤2：应用CNN网络提取更加深层的语音特征；

若是，则训练结束输出权值；

若否，返回步骤3继续训练；

2.根据权利要求1所述的一种基于深度学习的机器人语音控制方法，其特征在于：

对语音信号x(t)进行S变换：

g(τ,f)为高斯函数：

式(1)中，τ参数为高斯窗函数中心点，f为频率。

若A为一个信号矩阵，那么A的奇异值按递减的顺序排列为σ₁，σ₂，...,σ_i,...,σ_t，且σ₁≥σ₂≥...≥σ_i≥...≥σ_t。将S矩阵中对角元素相邻的前一项减后一项得到k，K＝{k₁,k₂,...,k_i,...,k_t-1}；

若k_i为最大，则确定该位置为S矩阵奇异值阈值位置，并将以后的值置零，通过式(4)得到矩阵B；

A＝UDV^T (3)

步骤1.3中分别对矩阵B的行列向量求取统计值，得到2N维向量C，即同时对语音信号的频域、时域进行处理；

步骤1.4中将向量C通过Mel滤波器组以及对数能量，求离散余弦变换(DCT)倒谱，得到SMFCC特征；

3.根据权利要求2所述的一种基于深度学习的机器人语音控制方法，本发明的特点还在于，步骤3中利用LSTM网络在对语音数据进行时序特征提取的过程中，通过输入门、忘记门和输出门对上一时刻的语音信息进行筛选，有效地防止出现梯度消失的现象，从而提高识别精度。

4.根据权利要求3所述的一种基于深度学习的机器人语音控制方法，其特征还在于：利用CTC算法代替LSTM-HMM混合声学模型中的HMM模型，使得经LSTM网络的输出权重不需再强制对齐，即可完成对语音信号的训练和识别。

5.根据权利要求4所述的一种深度学习的机器人语音控制方法，其特征在于：基于ROS系统利用Python语言编写语音控制机器人的代码，并通过ROS中的通信机制将各个模块串接起来，完成语音控制机器人过程。

6.根据权利要求5所述的一种深度学习的机器人语音控制方法，其特征在于：步骤6的具体过程为：

步骤6.4：机器人接收到命令，实现语音控制机器人的运动。

7.根据权利要求1所述的一种基于深度学习的机器人语音控制方法，硬件平台由计算机、Turtlebot移动机器人平台构成。