CN111524520A

CN111524520A - 一种基于误差逆向传播神经网络的声纹识别方法

Info

Publication number: CN111524520A
Application number: CN202010321963.7A
Authority: CN
Inventors: 宋永端; 陈里蒙
Original assignee: Star Institute of Intelligent Systems
Current assignee: Star Institute of Intelligent Systems
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-11

Abstract

本发明公开了一种基于误差逆向传播神经网络的声纹识别方法，其包括如下步骤：步骤1：采集已知说话人的语音信号，得到语音频谱图后对语音信号进行预处理，所述语音信号的预处理包括采样和量化、预加重、分帧加窗和端点检测；步骤2：采用美尔频率倒谱系数作为语音信号的特征参数，对预处理后的语音信号进行美尔频率倒谱系数提取；步骤3：建立BP神经网络，用步骤1所提取的美尔频率倒谱系数中的一部分训练BP神经网络；步骤4：采集待识别语音信号，根据步骤1的方法获得待识别语音信号的美尔频率倒谱系数，并将其输入步骤2训练好的BP神经网络进行识别，得出识别结果。本发明能有效的提升声纹识别的准确性和效率。

Description

一种基于误差逆向传播神经网络的声纹识别方法

技术领域

本发明涉及深度学习、模式识别、语音信号处理技术领域，特别涉及一种声纹识别方法。

背景技术

如今，我们的生活被人工智能技术所包围，信息量冗杂庞大，个人信息披露问题成为人们关注的焦点，如账号、密码、个人关键信息等。信息安全管理问题如果不能得到有效的保障会造成个人信息的走漏，进而会给企业甚至国家造成严重的经济损失，验证身份信息虚实的有效性是首要考虑的因素。随着信息技术的飞速发展，由字母和数字组成的密码不足以保护个人隐私，声纹识别对保护信息的隐私具有重要意义。语音是每个人特有的生物特征，相对于传统的验证方式有着方便、高效的特点，使用声音认证和识别，只允许被识别的人访问需要保护的信息系统或设施，以防止未经授权的人入侵。随着电子产品数据处理能力的日益提高和语音识别领域的长足进展，利用计算机通过语音识别话者身份的技术逐渐成熟，即声纹识别技术。

声纹识别技术作为语音信号处理学科一个重要的组成部分，完成好坏与否关乎着模式识别领域的成就。目前常用的用于声纹识别或者语音识别的声学特征为美尔频率倒谱系数(MelFrequencyCepstrum Cocfficicnt,MFCC)，通常会选择采用Hamming窗来对已分帧信号加窗处理阻止频谱泄露现象，但这会导致方差变大稳定性变差。并且用于声纹识别训练的传统BP神经网络存在收敛速度慢、容易陷入局部极小值等缺陷。这些缺陷导致因此现有声纹识别技术在识别准确性和效率方面还存在不足。

发明内容

有鉴于此，本发明的目的一种基于误差逆向传播神经网络的声纹识别方法，以解决现有声纹识别的准确性和效率还有待提高的技术问题。

本发明基于误差逆向传播神经网络的声纹识别方法，其包括如下步骤：

步骤1：采集已知说话人的语音信号，得到语音频谱图后对语音信号进行预处理，所述语音信号的预处理包括采样和量化、预加重、分帧加窗和端点检测；

所述语音信号的预加重包括：

将经过采样与量化转换后的数字语音信号输入一阶高通滤波器，凸显语音信号的高频部分，所述一阶高通滤波器的传递函数为：

H(Z)＝1-0.975Z^-1

其中，Z为语音信号的频率；

所述语音信号的分帧加窗包括：

将连续语音信号拆分为多帧语音信号；

采用多正弦窗作为窗函数对已分帧信号进行加窗处理，所述多正弦窗为：

其中，N为语音信号的帧数，n＝1,2,...,N，j表示窗的个数；

所述语音信号的端点检测包括：

采用短时能量方法和短时过零率方法将语音信号中的清浊音分开；

步骤2：采用美尔频率倒谱系数作为语音信号的特征参数，对预处理后的语音信号进行美尔频率倒谱系数提取，其包括如下步骤：

S1：将经过预处理的语音信号进行短时傅里叶变换，变换为频域，取模的平方得到离散功率谱：

其中，N为采样点数，j表示窗的个数；

S2：将线性频率f映射到美尔频率f_mel上，

S3：通过美尔尺度滤波器组得到美尔功率频谱，

滤波器的频率响应为：

其中，f(m)为在Mel频率轴上的中心频率，M表示滤波器个数，

S4：通过对美尔功率频谱取对数的信号进行离散余弦变换获得美尔频率倒谱系数，

其中M为滤波器个数，L为美尔频率倒谱系数的阶数；

步骤3：建立BP神经网络，用步骤1所提取的美尔频率倒谱系数中的一部分训练BP神经网络；

步骤4：采集待识别语音信号，根据步骤1的方法获得待识别语音信号的美尔频率倒谱系数，并将其输入步骤2训练好的BP神经网络进行识别，得出识别结果。

进一步，所述步骤3中的BP神经网络，其权重变化算法为：

Δw()为权重变化，η为学习率，为α动量因子。

所述步骤1和4中还包括对采集到的待识别语音信号增加噪声进行数据增强，公式如下：

其中，SNR为信噪比，P_signal为信号功率，P_noise为噪声功率。

本发明的有益效果：

1、目前常用的用于声纹识别或者语音识别的声学特征为美尔频率倒谱系数(MelFrequencyCepstrum Cocfficicnt,MFCC)，通常会选择采用Hamming窗来对已分帧信号加窗处理阻止频谱泄露现象，但这会导致方差变大稳定性变差。考虑到这点，本发明基于误差逆向传播神经网络的声纹识别方法，其采用多正弦窗(Sinusoidal Window CepstralEstimator,SWCE)进行加窗处理得到多个频谱后求加权平均值，既可以减小噪声影响又降低了方差。

2、传统误差逆向传播(error BackPropagation，BP)神经网络存在收敛速度慢、容易陷入局部极小值等缺陷。本发明基于误差逆向传播神经网络的声纹识别方法，通过向BP神经网络引入动量因子，同时使用增加高斯噪声的方法进行数据增强达到防止过拟合目的，更大程度上改善了BP神经网络的劣势。

3、本发明基于误差逆向传播神经网络的声纹识别方法，通过对现有提取美尔频率倒谱系数的方法进行改进传统，对传统BP神经网络进行改进和对待识别声纹信号进行数据增强等措施，有效的提升了声纹识别的准确性和效率。

附图说明

图1为基于误差逆向传播神经网络的声纹识别分析框架示意图；

图2为完整的基于误差逆向传播神经网络的声纹识别算法流程图；

图3为提取MFCC特征参数的流程图；

图4为误差逆向传播神经网络算法流程图；

图5为识别模型总体结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步描述，以令本领域技术人员参照说明书文字能够据以实施。

本实施例基于误差逆向传播神经网络的声纹识别方法，其包括如下步骤：

步骤1：采集已知说话人的语音信号，得到语音频谱图后对语音信号进行预处理，所述语音信号的预处理包括采样和量化、预加重、分帧加窗和端点检测。

为了平衡声音获取过程产生的衰减对语音信号的影响，本实施例通过预加重对除噪声以外的信号中容易损失的高频部分进行加强，这样可以适当补足后续传输中的衰减，使声音频谱光滑缓和，提高信噪比。所述语音信号的预加重包括：

H(Z)＝1-0.975Z^-1

其中，Z为语音信号的频率。

本实施例中，语音信号的采样频率为44.1kHz，采样位数为16位，提取美尔频率倒谱系数(MFCC)参数时相应地取语音帧的帧长25ms，将连续语音信号以25ms的帧长拆分为多帧语音信号；为减少在信号两端处的预测误差，避免频谱中出现泄漏现象，采用多正弦窗作为窗函数对已分帧信号进行加窗处理，所述多正弦窗为：

其中，N为语音信号的帧数，n＝1,2,...,N，j表示窗的个数。

说话人的语音中除了包括有效的语音片段外，往往还包括静音片段和浊音片段，会导致声纹识别准确率和效率的降低。利用端点检测准确的判断出语音信号的开始和终点，筛掉无效信号，能保证目标信号不受干扰，还可以大大缓解数据存储的压力和处理的强度，节约实际时间成本、提高识别率。

所述语音信号的端点检测包括：

采用短时能量方法和短时过零率方法将语音信号中的清浊音分开。

S1：将经过预处理的语音信号进行短时傅里叶变换(STFT，short-time Fouriertransform，或short-term Fourier transform)，变换为频域，取模的平方得到离散功率谱(表示频率与能量的关系)：

其中，N为采样点数，j表示窗的个数；

S2：将线性频率f映射到美尔频率f_mel上，

S3：通过美尔尺度滤波器组得到美尔功率频谱，

滤波器的频率响应为：

其中，f(m)为在Mel频率轴上的中心频率，M表示滤波器个数，

其中M为滤波器个数，L为美尔频率倒谱系数的阶数。

步骤3：建立BP神经网络，本实施例中BP神经网络为3层网络结构，其包括输入层、隐含层和输出层，隐含层节点数目从[6,15]中获得，初始权值的选取范围在(-1,1)，学习率通常设定在0.01到0.8之间，动量因子系数期望误差设定为0.01。用步骤1所提取的美尔频率倒谱系数中的一部分训练BP神经网络，具体过程如下所述：

对输入层与隐含层之间、隐含层与输出层之间的每个连接权值分别初始化为(-1,1)内的随机数，同时设定学习速率η为0.05。

随机选取一组输入和输出作为样本对，此时的输出即为网络的期望输出值。

根据式

可以计算隐含层数输入向量和输出向量。

其中θ_j为阈值，w_ij为权值，x_i为网络输入，s_j为神经元输入，b_j为神经元输出，f()为激活函数。

使用上述中获得的隐藏层输出，然后通过与输出层之间的连接权值和阈值计算输出层中每个神经元的输入，再通过变换函数得到实际的的输出向量。

计算全局误差，计算输出层、隐含层误差。

更新网络节点的权值和阈值。

再从数据库中随机选取样本对作为网络的下一次输入数据，依次循环训练遍历所有样本。

反复对BP神经网络声纹识别系统训练，直到任意选取样本中的任意一个样本误差值满足要求时训练结束。此时系统已可以精确的识别说话人身份。

传统的BP算法中往往只看重最新梯度变化方向而忽略上一时刻梯度的方向，可能会导致在两个时刻之间重复训练来回震荡的现象发生，为解决这一问题，本实施例中建立的BP神经网络通过增加动量因子α来实时调整敏感度，加入动量因子后的公式为：

η为学习率，Δw()为权重变化。

步骤4：采集待识别语音信号，根据步骤1的方法获得待识别语音信号的美尔频率倒谱系数，并将其输入步骤2训练好的BP神经网络进行识别，当识别所述待测语音信号的实际输出等于期望输出时，判定发出该未知语音信号的人是对应的已知说话人，否则不是已知的说话人。

如果只为满足损失函数对最小化的盲目追求，则所建立的BP神经网络将面临过度拟合的问题，这类问题会出现在最后发生的高频特征中。为减小高频特征带来的影响，本实施例采用给原始数据增加噪声的手段进行数据增强，提高系统的泛化性和鲁棒性。公式如下：

其中，SNR为信噪比，P_signal为信号功率，P_noise为噪声功率。

本实施例中基于误差逆向传播神经网络的声纹识别方法，提取了语音信号的特征参数，并通过改进的BP神经网络训练、识别，能够正确的识别说话人的身份，能有效的提升声纹识别的准确性和效率。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。