CN110415685A

CN110415685A - 一种语音识别方法

Info

Publication number: CN110415685A
Application number: CN201910771339.4A
Authority: CN
Inventors: 张骏鹏
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-05

Abstract

本发明公开了一种语音识别方法，包括LSTM语音系统的搭建；语音数据采集及采样；训练；识别等步骤。本发明方法所搭建的语音识别系统识别率都比较高，且LSTM模型所搭建的语音识别系统识别精度接近100％，本发明的LSTM模型更为实用。

Description

一种语音识别方法

技术领域

本发明涉及人工智能研究技术领域，具体是一种语音识别方法。

背景技术

早期主要用于语音识别系统的模型是高斯混合模型(Gaussian Mixture Model，简称GMM)和隐马尔可夫模型(Hidden Markov Model，简称HMM)，即GMM-HMM模型的混合模型建模，由于这种模型相对简单和方便训练，在语音识别技术的应用中取得了极大的成就，长时间在语音识别应用领域的主导地位。但这些混合模型实质上是浅层的学习网络，表面特征的空间分布状态不能充分描述，而且效果有限，随着用到的语音数据量的增加，语音数据也越来越复杂，训练时间逐渐增多，GMM-HMM模型的在处理复杂数据上模型构建的能力就会不足，因此亟需找到一种新的方法来处理复杂数据的更好的建模的方法。

发明内容

为了克服现有传统识别模型(GMM-HMM混合模型)在语音识别中的不足，寻找合适的识别模型来使语音识别性能达到最优，本发明提供一种基于LSTM来搭建声学模型的语音识别方法，对语音的长时相关性进行建模，从而提高识别正确率。

深度学习技术是当下的热门领域，我们平时所说的深度学习，主要就是指深度神经网络，它是一种监督学习的技术，具备对于海量复杂数据在声学模型上进行建模的能力。2006年，Hinton提出了深度置信网络(Deep Belief Networks，DBN)，对神经网络进行初始化，使得训练深层的神经网络变得容易，从而掀起了深度学习(Deep Learning，DL)的浪潮。而深度学习在语音识别真正的突破是在2011年，微软公司提出基于深度神经网络(DeepNeural Network，DNN)的语音识别系统，它模拟人的脑神经结构，一层层地进行数据特征的抽取，充分显示了样品数据特征间的关联性信息，最终获得了所需要进行分类的理想特征。实践证明，深度神经网络模拟技术与传统的语音识别技术很好地结合在一起，大大提高了语音识别系统的识别精度，深度学习也因此得到快速的发展。

神经网络又继续分为卷积神经网络(CNN)和循环神经网络(RNN)，这两种神经网络也是针对于不同的应用场景，CNN主要是解决图像、视频类的问题，比如人脸识别等等，而RNN主要是解决时间序列的问题，比如一些具有时间维度的信号，比如语音信号。LSTM属于特定形式的网络RNN，也是深度学习方法的一种，是目前语音识别应用最广泛的一种结构，这种网络能够对语音的长时相关性进行建模，从而提高识别正确率，本发明就采用LSTM来搭建声学模型，与传统混合模型GMM-HMM对比有更好的识别性能。

本发明的技术方案：

一种语音识别方法，其基本思想是：首先对所识别的数字0-9的语音数据进行了预处理和特征提取；然后通过MATLAB编码搭建了基于LSTM模型的语音识别系统，进行训练以及识别。

具体步骤如下：

步骤1：LSTM语音系统的搭建；本发明中LSTM模型的网络架构分为5层，输入层因为是24位MFCC特征，所以输入神经元是24；LSTM层的隐藏神经元数目的参数设置为120，且仅输出最后一个时刻的输出值(向量)，全连接层设置的参数是10，因为要判别10个数字；softmax层和classification层为默认设置。

本发明中training options设置求解器为adam，最大循环次数maxEpochs为100，mini Batchsize为4，为防止渐变溢出，设置渐变阈值为1。

各类参数设置好后，LSTM的训练网络搭建完成，代码表示如下：

net＝train Network(Xtrain，Ytrain，layers，options)

步骤2：语音数据采集及采样；通过MATLAB编码出录制语音的文件，进行录制，本实验共录制了300个语音文件(0-9各三十个)，训练时提取每个数字的前n个语音样本进行训练，剩余的m(m＝30-n)个语音样本进行测试。遵循奈奎斯特采样定理得到采样波形。

步骤3：训练；分别提取0-9每个数字的前n个语音样本逐个进行训练，首先对每个样本进行预加重、VAD端点检测等预处理操作后，完成语音的分帧操作，之后再提取每个语音样本的MFCC特征参数，并迭代更新各参数，存成模型(每个数字对应一个模型)，至此，训练完成。

步骤4：识别；上述训练过程中已经提到，用剩余的m个语音样本进行测试，与训练过程类似，依旧是逐个识别，首先对每个样本进行预加重、VAD端点检测等预处理操作后，完成语音的分帧操作，之后再提取每个语音样本的MFCC特征参数。在训练过程中，每个数字已经有了对应的训练模型，直接用对应的训练模型对当前语音样本进行识别，直至全部识别完毕，最终得到测试的准确率。

为了更好的理解本发明所涉及的技术和方法，在此对本发明涉及的理论进行介绍。

1、语音采样

语音信号是随着时间的推移而变化的一维信号。使用计算机分析说话人的声音，它将语音信号转换成数字信号，便于计算机处理。采样的过程是在短时间内测量特定频率下模拟信号的模拟值。由奈奎斯特采样定理可知，如果模拟信号的频谱带宽是有限的，那么就用≥2f_m的取样频率(即)的时间间隔)进行取样，所得到的等间隔离散时间取样值(取样信号)可以代表原模拟信号。

2、语音信号预加重

语音信号采样完成之后，就可以对数据进行预处理(预加重、加窗分帧、VAD端点检测)。

为提高语音的高频分辨率，突出语音的高频部分，需要对语音信号进行预加重处理。一般通过传递函数为一阶的FIR高通数字滤波器，实现预加重。其公式表为：

Y(n)＝X(n)-αX(n-1) (1)

其中，X(n)为原始信号序列，Y(n)预加重后序列，α预加重系数，通常α取值0.98或1.0。这样输出和输入s(n)的关系可用一差分方程表示：

3、语音信号加窗分帧

语音信号具有短时平稳性(10-30ms近似恒定)，可以把语音信号分割处理，每段是一帧，对语音信号进行分帧操作时，使用移动有限长度窗口加权的方法。一般来说，每秒的帧数大约是33到100帧。

加窗处理目前用得最多的有三种窗函数，分别为矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)，本设计采用矩形窗，其函数公式如下：

4、语音信号端点检测。

端点检测是语音处理技术的一个重要方面，目的在于从语音信号的一段中准确地确定语音的起始点和结束点，并对语音信号和非语音信号进行区分。端点检测一般采用短时能量和短时平均过零率相结合的方法，也称为“双阈值法”端点检测算法。

①短时能量

我们可以根据能量的不同区分语音和噪声，语音段比噪声段的能量大，因为语音段能量＝语音声波的能量+噪声段能量。在高信噪比的情况下，只需计算输入信号的短时能量或者短时平均幅度，便可以区分出语音段和噪声段。

语音信号的短时能量定义如下(其中窗函数w(n)为上一小节讨论的任意一种)：

②短时平均过零率

短时间内，语音波形通过水平轴(零点平)的次数被称为短时过零。那么显而易见，过零率就是样本改变符号次数。在音频时间域分析中，过零分析是最简单的。对于一个连续的声学信号，过零就是时域波形穿过时间轴；但对于一个离散的声学信号，过零就是相邻样本的取值符号改变。语音信号属于宽带信号，但可以用短期平均过零率来计算，则语音信号s(n)的短时平均过零率定义为：

式中：

w(n)为窗口函数，其作用与求短时平均能量时一样，一般取：

③端点检测——“双门限”算法

“双门限”端点检测算法的流程为：首先，分别为短时能量和过零率确定了两个阈值。一是阈值较低且对信号变化敏感，容易被超过；另一个阈值则较高。要注意的一点是：即便是超过低阈值，也不一定代表语音开始，它可能是由非常短的噪声造成的；如果超过了高阈值，且下一个自定义周期中的语音超过了低阈值，才表示语音开始。

语音开始后，端点检测分为四段：静音段、过渡段、语音段、结束。实验时，用一个变量表示当前状态。如果能量或过零率超过了低阈值，则静音段开始标记起点并进入过渡段。在过渡段中，当两个参数值都低于低阈值时，当前状态将恢复到无声状态；当过渡段中的两个参数中有一个超过了高阈值，则认为它进入了语音段。在语音段中，如果将两个参数降低到阈值以下，且总定时长度小于最小时间阈值，可认为是噪声，继续扫描后面的语音数据，反之，标记为结束。

5、语音信号特征参数提取

目前在语音识别中常用的特征参数是Mel倒谱系数(MFCC)，它是在Mel刻度频率提取出来的倒谱参数，它和频率f的关系可以用下式近似表示：

6、LSTM模型基本思想

LSTM是长期短期记忆网络，LSTM算法是深度学习方法之一并且属于特定形式的网络RNN，也可以说它是一种门限RNN。相比RNN，它通过增加三个门(输入门，遗忘门和输出门)，使得自循环的权重发生变化，这样一来在模型参数固定的情况下，不同时刻的积分呈现一个动态的过程，也就避免了梯度消失和膨胀的问题。

RNN的目标是处理序列数据。在传统的神经网络模型中，层之间完全相连，层之间的节点没有连接，但这种神经网络虽然简单，却对许多问题无能为力。例如，如果你想在一个句子中预测下一个单词，你通常必须使用第一个单词，因为一个句子中的单词并不是独立的。在循环神经网络RNN中，一个序列的输出与前一个序列的输出相关联。因为它会记住前面的信息，并应用于后面的输出计算中，即各节点参与各层之间的连接，从理论上讲，RNN可以处理任何长度的序列数据。然而，在实践中，为了减少复杂性，通常假设当前的状态只与前一个状态相关。提出了一种LSTM算法来解决RNN中的漏洞。

LSTM与一般的RNN结构没有本质上的区别，只是使用了不同的函数来计算隐藏层的状态。在LSTM中，结构i被称为细胞，细胞可以被认为是在当前输入之前保存保存状态的黑盒子，因为这些细胞更有条件地决定哪些细胞抑制哪些细胞。它们结合了过去的状态、当前的记忆和当前的输入。研究表明，LSTM网络结构对长期依赖问题非常有效。

LSTM的三扇门(遗忘门、输入门和输出门)，其责任是不同的。遗忘门负责确定当前单位状态的最后时刻的单位数量；输入门负责决定目前在单位状态下保留的条目数量；输出门的任务是确定目前单位状态下的出口数量。我们希望神经网络学会更新他们的知识，这样神经网络就能相对不断地更新他们对实际的了解。添加遗忘机制。例如，如果场景完成，模型应该忘记当前场景的位置和时间，并重新初始化与该场景相关的所有信息；但如果一个角色在这个场景中死亡，模型应该记住这个角色已经不存在了。因此，我们希望模型学习独立的遗忘/记忆机制；当新数据被接收时，模型必须知道应该保留哪些知识，哪些知识应该被放弃。添加备份机制，当模型收到新的输入信息时，它首先会忘记它认为不再需要的所有长期信息。然后我们学习新信息的哪些部分是有用的，并将它们保存在长期记忆中。将长期记忆集中在操作记忆上。最后，模型必须了解长期记忆的哪一部分立即起作用。该模型并不总是使用整个长期记忆的，它只需要了解内存的哪一部分应该集中记忆。这是长短期的记忆网络，通过使用特定的学习机制来确定哪些信息应该被存储，哪些信息应该被更新，哪些信息应该被特别注意，因此LSTM实现了对信息的长期跟踪。

5、LSTM模型构建

(1)传统网络中有隐层节点，在LSTM中，引入一组记忆单元的循环连接子网络来替换它，用一个记忆细胞实现线性反馈。

(2)为实现对记忆细胞的读、写、重置操作，控制信息的累积速度，引入门机制。遗忘门，顾名思义，用来选择内存单元需要遗忘的信息；输入门用来记忆新加入内存单元的信息；输出门控制每个内存单元输出的信息。

信息通过输人门和遗忘门，合并过去和现在的记忆，然后通过输出门输出信息。由于LSTM可以选择性遗忘信息，它通过控制门来删除、增加信息到细胞状态，让信息选择式通过，这样，LSTM模型就能够学到长时的历史信息。

本发明的有益效果在于：

本发明方法所搭建的语音识别系统识别率都比较高，且LSTM模型所搭建的语音识别系统识别精度接近100％，本发明的LSTM模型更为实用。

附图说明

图1为本发明中LSTM模型的网络架构；

图2为MATLAB仿真流程图；

图3为语音训练、识别过程，其中3a为语音的训练过程，3b为语音的识别过程；

图4为语音数据集；

图5为数字“6”经过采样所得的语音波形；

图6为数字“6”的短时能量图；

图7为数字“6”的短时过零率图；

图8为Mel倒谱系数的提取过程；

图9为数字“6”的MFCC参数分析结果；

图10为GMM-HMM混合模型数字“1”的识别结果图；

图11为LSTM模型Training Progress运行结果，其中11a为展示结果1，11b展示结果2。

图12为训练数对GMM-HMM模型识别率的影响；

图13为训练数对LSTM模型识别率的影响；

图14为不同比例的训练集：测试集对两种模型识别率的影响对比。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明语音识别方法，具体包括如下步骤：

步骤1：LSTM语音系统的搭建。本发明中LSTM模型的网络架构分为5层，输入层因为是24位MFCC特征，所以输入神经元是24；LSTM层的隐藏神经元数目的参数设置为120，且仅输出最后一个时刻的输出值(向量)，全连接层设置的参数是10，因为要判别10个数字；softmax层和classification层为默认设置。如图1所示。

net＝train Network(Xtrain，Ytrain，layers，options)

步骤2：如图2，语音数据采集及采样。通过MATLAB编码出录制语音的文件，进行录制，本实验共录制了300个语音文件(0-9各三十个)，训练时提取每个数字的前n个语音样本进行训练，剩余的m(m＝30-n)个语音样本进行测试。遵循奈奎斯特采样定理得到采样波形。

步骤3：训练；如图3a，分别提取0-9每个数字的前n个语音样本逐个进行训练，首先对每个样本进行预加重、VAD端点检测等预处理操作后，完成语音的分帧操作，之后再提取每个语音样本的MFCC特征参数，并迭代更新各参数，存成模型(每个数字对应一个模型)，至此，训练完成。

步骤4：识别；如图3b，上述训练过程中已经提到，用剩余的m个语音样本进行测试，与训练过程类似，依旧是逐个识别，首先对每个样本进行预加重、VAD端点检测等预处理操作后，完成语音的分帧操作，之后再提取每个语音样本的MFCC特征参数。在训练过程中，每个数字已经有了对应的训练模型，直接用对应的训练模型对当前语音样本进行识别，直至全部识别完毕，最终得到测试的准确率。

仿真实验结果分析：

1.实验图像

通过MATLAB编码出录制语音的文件<get_audio.m>，然后<get_audio.fig>通过调用<get_audio.m>函数实现语音数据的录制，本实验共录制了300个语音文件(0-9各三十个)，存放在<train_wav>文件中，如图4，训练时提取每个数字的前n个语音样本进行训练，剩余的m(m＝30-n)个语音样本进行测试。

2.相关参数设置

本发明中LSTM模型的网络架构分为5层，输入层因为是24位MFCC特征，所以输入神经元是24；LSTM层的隐藏神经元数目的参数设置为120，且仅输出最后一个时刻的输出值(向量)，全连接层设置的参数是10，因为要判别10个数字；softmax层和classification层为默认设置。

net＝train Network(Xtrain，Ytrain，layers，options)

3.训练过程

以数字“6”为例，得到的采样波形如图5所示，得到的短时能量图如图6所示，得到的短时过零率图如图7所示。然后对每个样本进行预加重、VAD端点检测等预处理操作后，完成语音的分帧操作，之后再提取每个语音样本的MFCC特征参数，并迭代更新各参数，存成模型(每个数字对应一个模型)，至此训练完成。

4.识别过程

如图8，上述训练过程中已经提到，用剩余的m个语音样本进行测试，与训练过程类似，依旧是逐个识别，首先对每个样本进行预加重、VAD端点检测等预处理操作后，完成语音的分帧操作，之后再提取每个语音样本的MFCC特征参数，如图9。在训练过程中，每个数字已经有了对应的训练模型，直接用对应的训练模型对当前语音样本进行识别，直至全部识别完毕，最终得到测试的准确率，如图10为GMM-HMM混合模型数字“1”的识别结果图。

5.实验对比与结果分析

通过改变训练数(这里的训练数指的是每个数字的训练个数)，多次进行实验，采集数据，丢弃无用数据，得到表1和表2，根据表格数据画出折线图12为训练数对GMM-HMM模型识别率的影响，折线图13为训练数对LSTM模型识别率的影响，便于直观形象地作对比。

表1训练数对GMM-HMM模型识别率的影响

根据表1和折线图1可得如下实验结果：

(1)训练数据量越大，MFCC特征下GMM-HMM搭建的语音识别系统对数字0-9的识别精度就越高；

(2)由折线图1可以看出，折线图较为平缓，说明MFCC特征下GMM-HMM搭建的语音识别系统识别率较为稳定；

(3)在每个数字的训练数为5(即训练集：测试集＝17％：83％)时，识别精度较低且波动较大；在每个数字的训练数为25(即训练集：测试集＝83％：17％)时，识别精度可达100％；

(4)训练集：测试集＝50％：50％时，识别精度基本稳定在90％之上，若此比例再增大，识别率不会有大幅提升。

表2训练数对LSTM模型识别率的影响

训练数	实验1	实验2	实验3	实验4	实验5
						5	0.6360	0.6440	0.6480	0.7600	0.8280
10	0.7250	0.7850	0.8000	0.8050	0.9500
						15	0.9533	0.9933	0.9933	1.0000	1.0000
20	0.9400	0.9800	1.0000	1.0000	1.0000
						25	0.9800	1.0000	1.0000	1.0000	1.0000

根据表2和折线图2可得如下实验结果：

(1)训练数据量越大，基于LSTM所搭建的语音识别系统对数字0-9的识别精度就越高；

(2)由折线图2可以看出，在训练数较多时，折线图较为平缓且识别精度基本接近百分之百；在训练数较少时，折线图波动较大；

(3)训练集：测试集＝50％：50％时，识别精度基本稳定在95％之上，若此比例再增大，识别率不会有大幅提升。

根据表1和表2的数据得到表3，根据表格3数据画出折线图14，便于直观地把两种模型所搭建的语音识别系统进行对比。

表3不同比例的训练集：测试集对两种模型识别率的影响对比

训练集∶数据集	GMM-HMM	LSTM
			17％∶83％	0.7568	0.7032
33％∶67％	0.8080	0.8375
			50％∶50％	0.9480	0.9880
67％∶33％	0.9200	0.9840
			83％∶17％	1.0000	0.9960

由表3和折线图3可得如下实验结果：

(1)训练集∶测试集＝17％∶83％和训练集∶测试集＝83％∶17％时，MFCC特征下GMM-HMM所搭建的语音识别系统识别率更高；

(2)训练集∶测试集≥50％∶50％时，两种模型所搭建的语音识别系统识别率都比较高，且LSTM模型所搭建的语音识别系统识别精度接近100％。

分析上述实验可得如下结论：

①训练数越多，两种模型的识别率都会越高。根据语音识别的基本原理可知，训练数越多，训练过程所形成的模式库就越全面，因此识别率会越高。

②训练集所占比例相同的情况下，MFCC特征下GMM-HMM所搭建的语音识别系统的识别率较为稳定(图10是利用GMM-HMM混合模型识别数字“1”的结果图)；LSTM模型存在较大波动(注：LSTM模型的波动可由图11a看出，此图的识别率为1，但仍然存在波动)，这是由神经网络的不稳定性引起的。

③训练集：测试集＝50％：50％时，两种模型的识别率都较为良好，但总体可以看出，还是LSTM模型识别率更高一些，识别精度为0.9880。说明在小样本情况下进行实验，当训练集∶测试集＝1∶1时，两种模型都可以采用。

④经多次测试，训练集∶测试集＝83％；17％时，GMM-HMM模型识别率达到100％，而LSTM模型识别率因为神经网络存在一定的波动性无法达到100％，但由于这属于小样本实验，我们在实验过程中对模型训练的数据还不够充分，需要更多的数据进行训练，便于对训练获得的参数进一步修正。这也是HMM的一大特点——需要大量的语音样本作为训练模型的数据，考虑到实际应用，还是LSTM模型更为实用。

⑤分析图11a和图11b：训练的过程就是改变参数不断拟合网络的过程，误差Loss越小代表拟合的越好，Accuracy也越高。图11a后面所出现的不稳定的波形表明神经网络存在不稳定性；而图11b后面没有这种波动，这是因为即使是相同的数据，每次训练过程都不一样。

Claims

1.一种语音识别方法，其特征在于，所述方法的具体步骤如下：

步骤1：LSTM训练网络的搭建；其中LSTM模型的网络架构分为5层，输入层因为是24位MFCC特征，所以输入神经元是24；LSTM层的隐藏神经元数目的参数设置为120，且仅输出最后一个时刻的输出值，全连接层设置的参数是10，因为要判别10个数字；softmax层和classification层为默认设置；

步骤2：语音数据采集及采样；通过MATLAB编码出录制语音的文件，进行录制，训练时提取每个数字的前n个语音样本进行训练，剩余的m(m＝30-n)个语音样本进行测试，遵循奈奎斯特采样定理得到采样波形；

步骤3：训练；分别提取0-9每个数字的前n个语音样本逐个进行训练，首先对每个样本进行预处理操作，之后再提取每个语音样本的MFCC特征参数，并迭代更新各参数，存成模型，其中每个数字对应一个模型，至此训练完成；

步骤4：识别；上述训练过程中用剩余的m个语音样本进行测试，逐个识别，首先对每个样本进行预处理操作，之后再提取每个语音样本的MFCC特征参数；在训练过程中，每个数字已经有了对应的训练模型，直接用对应的训练模型对当前语音样本进行识别，直至全部识别完毕，最终得到测试的准确率。

2.如权利要求1所述的语音识别方法，其特征在于：步骤1中training options设置求解器为adam，最大循环次数maxEpochs为100，mini Batchsize为4，为防止渐变溢出，设置渐变阈值为1。

3.如权利要求1所述的语音识别方法，其特征在于：步骤2中共录制300个语音文件，其中数字0-9各三十个。

4.如权利要求1所述的语音识别方法，其特征在于：步骤3中对每个样本的预处理操作包括预加重、分帧和加窗。

5.如权利要求1所述的语音识别方法，其特征在于：步骤3中对每个样本的预处理操作包括预加重、分帧和加窗。