CN108847244A

CN108847244A - 基于mfcc和改进bp神经网络的声纹识别方法及系统

Info

Publication number: CN108847244A
Application number: CN201810963310.1A
Authority: CN
Inventors: 高明柯; 王熠; 周燕琼; 邵培南; 夏定江; 白利娟; 李旭波; 崔璨; 王灿
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2018-11-20

Abstract

本发明提供了一种基于MFCC和改进BP神经网络的声纹识别方法及系统，包括：采用MFCC对语音信号进行特征提取，得到MFCC特征参数；将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练；从待识别语音信号中提取MFCC特征参数，输入训练好的改进BP神经网络中计算，将错误率最低值所对应的计算结果作为最终识别结果。本发明利用MFCC和改进的BP神经网络相结合，能够更有效地识别声纹，以随机梯度下降代替梯度下降，在相同的迭代次数的情况下，所耗费的时间更少，相同的时间内，迭代的次数更多，可以达到更好的训练效果，具有广泛的应用前景。

Description

基于MFCC和改进BP神经网络的声纹识别方法及系统

技术领域

本发明涉及声纹识别领域，具体地，涉及基于MFCC和改进BP神经网络的声纹识别方法及系统。

背景技术

MFCC：梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)，将时域的语音变为频域，对频域的信号进行分段滤波，得出不同频率段的占比，所得到的占比系数组成的矩阵即梅尔倒频谱系数。

BP神经网络：反向传播神经网络(Back Propagation)，一种按照误差逆向传播算法训练的多层前馈神经网络。

SGD：随机梯度下降(Stochastic Gradient Descent)，一种优化方法，属于梯度下降的一种，适用于大规模的问题。

声纹识别，又称说话人识别，是指通过对声纹语音信号的分析处理，自动识别说话人身份的技术。语音信号是由不同的发音器官随时间而改变位置而产生的一系列声音，鉴于声音的特性与个体的生理解剖结构相关，因此不同人所发出的声音不同，同时可以根据这一点进行说话人身份识别。声纹识别的基本方法是通过不同的语音信号提取声纹的特征，将特征进行训练，并在得到的识别模型中进行推理。

目前常用的声纹识别的主流方法有动态时间规整(DTW)、隐马尔科夫刚理论(HMM)、矢量量化(VQ)等。然而，这些方法都具有识别的准确率较低、需要进行大量的计算、缺乏动态的训练或者过度依赖原话者等缺点。

BP神经网络是一种误差反向传播的多层前馈网络，具有大规模并行处理、分布式信息存储、良好的自组织和自学习能力及原理简单、容易实现等优点。但其也存在固有的缺陷，如容易过拟合，收敛速度慢等。在传统的BP神经网络中使用的梯度下降是一种全局最优解，但在每个迭代步骤中，要求使用所有的训练数据。当样本数量很大时，该方法的迭代速度较低，处理时间越来越长。

发明内容

针对现有技术中的缺陷，本发明的目的是提供基于MFCC和改进BP神经网络的声纹识别方法及系统。

根据本发明提供的一种基于MFCC和改进BP神经网络的声纹识别方法，包括：

语音处理步骤：采用MFCC对语音信号进行特征提取，得到MFCC特征参数；

模型训练步骤：将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练；

语音识别步骤：从待识别语音信号中提取MFCC特征参数，输入训练好的改进BP神经网络中计算，将错误率最低值所对应的计算结果作为最终识别结果。

较佳的，所述语音处理步骤包括：

预加重子步骤：将语音信号通过滤波器提升高频部分；

分帧子步骤：对预加重后的语音信号进行分帧；

汉明窗子步骤：将分帧后的语音信号的每帧乘以汉明窗；

快速傅里叶变换子步骤：对汉明窗后的每一帧语音信号进行快速傅里叶变换，得到能量谱；

三角带通滤波子步骤：将能量普输入三角带通滤波器组；

对数能量计算子步骤：计算每个三角带通滤波器输出的对数能量；

离散余弦变换子步骤：将计算得到的对数能量代入离散余弦变换，得到MFCC特征参数；

动态差分参数子步骤：通过MFCC的差分谱来表示语音信号的动态特性，得到多维MFCC特征参数。

较佳的，所述预加重子步骤中，预加重计算公式为：

H(Z)＝1-μz^-1

其中，μ的值介于0.9-1.0之间，Z为预加重之后的语音信号，z为预加重之前的语音信号。

较佳的，所述三角带通滤波器组包括40个三角带通滤波器，所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换，得到13阶MFCC。

较佳的，所述模型训练步骤中，BP神经网络的改进方法包括：

网络初始化子步骤：对BP神经网络进行初始化，设输入层的节点个数为n，隐含层的节点个数为l，输出层的节点个数为m，输入层到隐含层的权重ω_ij，隐含层到输出层的权重为ω_jk，输入层到隐含层的偏置为a_j，隐含层到输出层的偏置为b_k，学习速率为η，激励函数为g(x)，其中激励函数为g(x)取Sigmoid函数，形式为

隐藏层输出子步骤：在三层BP神经网络中，隐含层的输出H_j为

输出层输出子步骤：输出层的输出O_k为

误差计算子步骤：取误差公式为

其中Y_k为期望输出，记Y_k-O_k＝e_k，则E表示为：

权值更新子步骤：

在训练过程中，通过使用随机梯度下降反向传播神经网络来修改权重；

偏置更新子步骤：

迭代判断子步骤：指定迭代次数，判断相邻两次误差之间的差别是否小于预定的值。

根据本发明提供的一种基于MFCC和改进BP神经网络的声纹识别系统，包括：

语音处理模块：采用MFCC对语音信号进行特征提取，得到MFCC特征参数；

模型训练模块：将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练；

语音识别模块：从待识别语音信号中提取MFCC特征参数，输入训练好的改进BP神经网络中计算，将错误率最低值所对应的计算结果作为最终识别结果。

较佳的，所述语音处理模块包括：

预加重子模块：将语音信号通过滤波器提升高频部分；

分帧子模块：对预加重后的语音信号进行分帧；

汉明窗子模块：将分帧后的语音信号的每帧乘以汉明窗；

快速傅里叶变换子模块：对汉明窗后的每一帧语音信号进行快速傅里叶变换，得到能量谱；

三角带通滤波子模块：将能量普输入三角带通滤波器组；

对数能量计算子模块：计算每个三角带通滤波器输出的对数能量；

离散余弦变换子模块：将计算得到的对数能量代入离散余弦变换，得到MFCC特征参数；

动态差分参数子模块：通过MFCC的差分谱来表示语音信号的动态特性，得到多维MFCC特征参数。

较佳的，所述预加重子模块中，预加重计算公式为：

H(Z)＝1-μz^-1

较佳的，所述三角带通滤波器组包括40个三角带通滤波器，所述离散余弦变换子模块将计算得到的40个对数能量代入离散余弦变换，得到13阶MFCC。

较佳的，所述模型训练模块中，BP神经网络的改进方法包括：

网络初始化子模块：对BP神经网络进行初始化，设输入层的节点个数为n，隐含层的节点个数为l，输出层的节点个数为m，输入层到隐含层的权重ω_ij，隐含层到输出层的权重为ω_jk，输入层到隐含层的偏置为a_j，隐含层到输出层的偏置为b_k，学习速率为η，激励函数为g(x)，其中激励函数为g(x)取Sigmoid函数，形式为

隐藏层输出子模块：在三层BP神经网络中，隐含层的输出H_j为

输出层输出子模块：输出层的输出O_k为

误差计算子模块：取误差公式为

其中Y_k为期望输出，记Y_k-O_k＝e_k，则E表示为：

权值更新子模块：

偏置更新子模块：

迭代判断子模块：指定迭代次数，判断相邻两次误差之间的差别是否小于预定的值。

与现有技术相比，本发明具有如下的有益效果：

本发明利用MFCC和改进的BP神经网络相结合，能够更有效地识别声纹，以随机梯度下降代替梯度下降，在相同的迭代次数的情况下，所耗费的时间更少，相同的时间内，迭代的次数更多，可以达到更好的训练效果，具有广泛的应用前景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的系统结构示意图；

图2为本发明的工作流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1和图2所示，本发明提供的一种基于MFCC和改进BP神经网络的声纹识别方法，包括：

在本实施例中，语音处理步骤采用MFCC对语音信号进行特征提取，然后采用基于随机梯度下降的BP神经网络进行模型训练和识别，步骤是输入声纹语音信号，采用MFCC提取声纹的39维特征，包括13维MFCC系数、13维一阶差分参数和13维二阶差分参数。提取MFCC特征的主要步骤包括预加重、分帧、加窗、快速傅里叶变换、三角带通滤波器、对数能量、离散余弦变换和动态差分参数。语音训练步骤，对传统的BP神经网络采用随机梯度下降代替梯度下降进行优化，将MFCC特征参数在改进的BP神经网络中进行训练，初始化网络权值和神经元阈值，计算隐藏层神经元和输出层神经元的输入与输出(前向传播)，修正权值和阈值直至满足终止条件(后向传播)。语音识别步骤，在改进的BP神经网络中输入MFCC特征参数，对比MFCC特征参数与训练模型，计算输出结果，将错误率最低值所对应的结果作为最终识别。

具体的，语音处理步骤包括：

步骤1：预加重：语音样本通过滤波器可以提升高频部分，使信号的频谱变得更加平坦，保持在低频到高频的整个频带中，能用相同的信噪比求频谱，同时使得信号的能量在更高的频率上提升。预加重计算公式为：

H(Z)＝1-μz^-1

其中，μ的值介于0.9-1.0之间，通常取0.97，Z为预加重之后的语音信号，z为预加重之前的语音信号

步骤2：分帧：由于语音信号快速变化，同时傅立叶变换仅适用于分析平稳信号，因此需要将较长的语音信号分帧，以获得短期且平稳的语音信号。在语音/声纹识别中，帧大小为(通常取25ms)，这样一帧内有足够的周期，并且不会剧烈变化，帧位移为10ms，这意味着在每帧之间重复15ms，则帧数的公式为：

N＝(s-15)/10

其中s是一段语音的毫秒数，N为帧数。

步骤3：汉明窗：为了获得更高质量的频谱，每帧乘以汉明窗口以增加帧左端和右端的连续性。通过使用汉明窗口，可在每帧的起点和终点将采样减少到零，最小化频谱失真。假设分帧后的信号为：

S(n)，n＝0，1，2....，N-1

其中，N为帧数，n为汉明窗编号。

那么，每一帧乘以汉明窗：

S′(n)＝S(n)*W(n)

其中，

不同的a值会产生不同的汉明窗，通常取0.46。

步骤4：快速傅立叶变换：语音信号的变化在时域上很难看出，因此需要将时域转换到频域，为每一帧实施快速傅立叶变换，以得到在频谱上的能量分布。

其中，x(n)为输入的语音信号，j为虚数符号，e为自然对数的底数。

步骤5：三角带通滤波器：三角带通滤波器的主要目的是对频谱进行平滑化和降低运算量，定义一个有40个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m)，m＝1，2，...，40。将能量谱通过此三角形滤波器组。三角滤波器的频率响应定义为：

其中，

步骤6：对数能量：计算每个滤波器输出的对数能量为：

Xa为快速傅里叶变换结果，Hm为三角带通滤波器结果。

步骤7：离散余弦变换：将从三角带通滤波器获得的40个对数能量代入离散余弦变换来获得13阶梅尔频率倒谱系数MFCC。离散余弦变换公式如下所示：

其中M为三角带通滤波器的数量。

步骤8：动态差分参数：标准的梅尔频率倒谱系数MFCC只反映语音参数的静态特性，语音的动态特性可以通过静态参数的差分谱来表示，动态静态特征结合可以有效地提高系统的识别性能，一阶差分参数计算公式：

其中，d_t表示第t个一阶差分，C_t表示第t个倒谱系数，Q表示倒谱系数的阶数，K表示一阶导数的时间差，可取1或2。

将上式的结果再代入可得到二阶差分参数。

然后采用改进的BP神经网络进行模型训练，BP神经网络的改进方法如下：

假设输入层的节点个数为n，隐含层的节点个数为l，输出层的节点个数为m。输入层到隐含层的权重ω_ij，隐含层到输出层的权重为ω_jk，输入层到隐含层的偏置为a_j，隐含层到输出层的偏置为b_k。学习速率为η，激励函数为g(x)。其中激励函数为g(x)取Sigmoid函数。形式为

步骤2：隐藏层的输出：

在三层BP神经网络中，隐含层的输出H_j为：

步骤3：输出层的输出：

步骤4：误差的计算：

取误差公式为：

其中Y_k为期望输出。记Y_k-O_k＝e_k，则E可以表示为：

步骤5：权值的更新：

在此处采用随机梯度下降的算法，即人为随机选取一定量(小于整体训练样本量)。

使用三层神经元作为我们的模型。它们是一个输入层，一个隐藏层和一个输出层。在训练过程中，通过使用随机梯度下降反向传播神经网络来修改权重。

步骤6偏置的更新：

步骤7：判断算法迭代是否结束：

指定迭代的代数，判断相邻两次误差之间的差别是否小于指定的值。

语音识别阶段从待识别的语音中提取出MFCC语音特征，在训练好的改进的BP神经网络模型中输入特征参数，计算输出结果，将错误率最低值所对应的结果作为最终识别。

在上述一种基于MFCC和改进BP神经网络的声纹识别方法的基础上，本发明还提供一种基于MFCC和改进BP神经网络的声纹识别系统，包括：

语音处理模块包括：

预加重子模块：将语音信号通过滤波器提升高频部分；

分帧子模块：对预加重后的语音信号进行分帧；

汉明窗子模块：将分帧后的语音信号的每帧乘以汉明窗；

三角带通滤波子模块：将能量普输入三角带通滤波器组；

预加重子模块中，预加重计算公式为：

H(Z)＝1-μz^-1

三角带通滤波器组包括40个三角带通滤波器，所述离散余弦变换子模块将计算得到的40个对数能量代入离散余弦变换，得到13阶MFCC。

模型训练模块中，BP神经网络的改进方法包括：

输出层输出子模块：输出层的输出O_k为

误差计算子模块：取误差公式为

其中Y_k为期望输出，记Y_k-O_k＝e_k，则E表示为：

权值更新子模块：

偏置更新子模块：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于MFCC和改进BP神经网络的声纹识别方法，其特征在于，包括：

2.根据权利要求1所述的于MFCC和改进BP神经网络的声纹识别方法，其特征在于，所述语音处理步骤包括：

预加重子步骤：将语音信号通过滤波器提升高频部分；

分帧子步骤：对预加重后的语音信号进行分帧；

汉明窗子步骤：将分帧后的语音信号的每帧乘以汉明窗；

三角带通滤波子步骤：将能量普输入三角带通滤波器组；

3.根据权利要求2所述的于MFCC和改进BP神经网络的声纹识别方法，其特征在于，所述预加重子步骤中，预加重计算公式为：

H(Z)＝1-μz^-1

4.根据权利要求2所述的于MFCC和改进BP神经网络的声纹识别方法，其特征在于，所述三角带通滤波器组包括40个三角带通滤波器，所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换，得到13阶MFCC。

5.根据权利要求1所述的于MFCC和改进BP神经网络的声纹识别方法，其特征在于，所述模型训练步骤中，BP神经网络的改进方法包括：

输出层输出子步骤：输出层的输出O_k为

误差计算子步骤：取误差公式为

其中Y_k为期望输出，记Y_k-O_k＝e_k，则E表示为：

权值更新子步骤：

偏置更新子步骤：

6.一种基于MFCC和改进BP神经网络的声纹识别系统，其特征在于，包括：

7.根据权利要求6所述的于MFCC和改进BP神经网络的声纹识别系统，其特征在于，所述语音处理模块包括：

预加重子模块：将语音信号通过滤波器提升高频部分；

分帧子模块：对预加重后的语音信号进行分帧；

汉明窗子模块：将分帧后的语音信号的每帧乘以汉明窗；

三角带通滤波子模块：将能量普输入三角带通滤波器组；

8.根据权利要求7所述的于MFCC和改进BP神经网络的声纹识别系统，其特征在于，所述预加重子模块中，预加重计算公式为：

H(Z)＝1-μz^-1

9.根据权利要求7所述的于MFCC和改进BP神经网络的声纹识别系统，其特征在于，所述三角带通滤波器组包括40个三角带通滤波器，所述离散余弦变换子模块将计算得到的40个对数能量代入离散余弦变换，得到13阶MFCC。

10.根据权利要求6所述的于MFCC和改进BP神经网络的声纹识别系统，其特征在于，所述模型训练模块中，BP神经网络的改进方法包括：

输出层输出子模块：输出层的输出O_k为

误差计算子模块：取误差公式为

其中Y_k为期望输出，记Y_k-O_k＝e_k，则E表示为：

权值更新子模块：

偏置更新子模块：