CN115116446A

CN115116446A - 一种噪声环境下说话人识别模型构建方法

Info

Publication number: CN115116446A
Application number: CN202210734918.3A
Authority: CN
Inventors: 张葛祥; 陈柯屹; 董建平; 方祖林; 肖东洋; 罗标; 杨强
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-09-27

Abstract

本发明公开了一种噪声环境下说话人识别模型构建方法，在说话人识别网络前端增加一个去噪模块，使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数(过减因子α和谱下限参数β)，使用梯度下降的方法由神经网络动态调整两个参数的值，保留更符合说话人识别任务的语音信息，从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换，可以防止频谱泄露说话人识别任务需要的说话人信息。

Description

一种噪声环境下说话人识别模型构建方法

技术领域

本发明涉及声纹识别领域，特别是一种噪声环境下说话人识别模型构建方法。

背景技术

声纹识别作为生物特征识别的重要组成部分，广泛地应用于安全领域、医疗领域、金融领域以及智能家居中。目前，在安静的实验室环境下以及语音数据充足的条件下，说话人识别技术已经达到令人满意的效果。然而，实际应用环境无法预测，导致说话人识别系统鲁棒性差。在现实应用中，受到环境中不同噪声影响，系统性能对比纯净环境明显降低，严重阻碍了说话人识别技术的应用发展。

目前大多语音去噪的方案都是基于深度神经网络来进行，体积大，计算量高，不利于加入到具体的语音识别、声纹识别等任务中。因此，目前的声纹识别算法无法很好地满足真实场景下带噪声的说话人识别的需求，其识别准确率有待提高。

发明内容

本发明的目的是提供一种噪声环境下说话人识别模型构建方法。

实现本发明目的的技术方案如下：

一种噪声环境下说话人识别模型构建方法，所述说话人识别模型包括去噪模块、语音特征提取模块和神经网络；

所述去噪模块为：

1.1将输入语音分帧进行短时傅里叶变换，抽取语音在窗函数长度T下的线性频谱P_y(ω)；

1.2噪声估计，得到噪声的线性频谱P_e(ω)；

1.3将语音的线性频谱P_y(ω)和噪声的线性频谱P_e(ω)分别转换为语音的能量谱P_Y(ω)和噪声的能量谱P_E(ω)，再进行谱减，得到干净语音的能量谱P_X(ω)，即：

P_Y(ω)＝|P_y(ω)|²，

P_E(ω)＝|P_e(ω)|²，

其中，α为过减因子，β为谱下限参数，γ为谱系数，γ＝1；

1.4平滑处理干净语音的能量谱P_X(ω)；

1.5使用傅里叶反变换恢复干净语音；

训练所述说话人识别模型：将语音训练集输入去噪模块得到干净语音，使用语音特征提取模块提取语音特征后，放入神经网络进行训练；训练过程中，去噪模块的过减因子α和谱下限参数β通过梯度下降的方法更新梯度，反向传播与神经网络的其它参数一起更新。

进一步的技术方案，所述窗函数长度T，在所述说话人识别模型的训练过程中自适应调整：可选择的长度为256、512、1024和2048，默认为256，当训练轮数超过40轮后，最低的等错误率超过10轮未变化时调整窗函数的长度，窗函数的长度在四个值中依次选择。

优选的，所述语音特征提取模块提取的语音特征为梅尔谱图、MFCC或者PLP；所述神经网络为ECAPA-TDNN、ResNet或者LSTM。

优选的，所述语音特征提取模块提取的语音特征为梅尔谱图；所述神经网络为ECAPA-TDNN。

本发明在说话人识别网络前端增加一个去噪模块，使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数(过减因子α和谱下限参数β)，使用梯度下降的方法由神经网络动态调整两个参数的值，保留更符合说话人识别任务的语音信息，从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换，可以防止频谱泄露说话人识别任务需要的说话人信息。

附图说明

图1为具体实施例的结构图。

图2为梅尔滤波器组示意图。

图3为不添加语音去噪模块与添加语音去噪模块的等错误率变换曲线图。

图4为ECAPA-TDNN网络结构图。

具体实施方式

以下结合附图和具体实施例对本发明进一步说明。

具体实施例如图1所示，包括以下步骤：

1、加载原始音频，对原始语音数据进行读取，本实施例中语音的采样频率为16000Hz。

2、将读取后的语音数据送入去噪模块进行语音去噪，具体步骤如下：

A1：将输入语音进行短时傅里叶变换，抽取语音信号进行分帧，在变窗长下短时傅里叶变换(STFT)的线性频谱特征。其公式可表示为：

y(t)＝x(t)·ω(t)，0≤t≤T-1 (1)

式中，x(t)为t时刻的信号，ω(t-τ)为窗函数。对应到离散场景中，STFT(ω，τ)就是一个二维矩阵，每一列代表了在不同位置对信号加窗，对得到的分段进行傅里叶变换后的结果序列。

窗函数长度T在训练时由说话人识别网络自适应调整，对语音信号进行处理得到语音信号的线性谱图P_y(ω)。

A2：取没有语音，只有噪音的那一段时间进行噪声估计。本实施例，取前N帧进行噪声估计，0＜N≤30。这里默认取N＝5，获取噪音的线性频谱P_e(ω)。将这N帧中的噪音强度取平均值，作为估计出来的噪音。

A3：对线性谱的模取平方，将线性频谱转换成能量谱，进行谱减，使用语音的能量谱P_Y(ω)减去噪音的能量谱P_E(ω)，得到干净语音的能量谱P_X(ω)，其原理可表示为：

P_Y(ω)＝|P_y(ω)|² (3)

P_E(ω)＝|P_e(ω)|² (4)

P_X(ω)＝P_Y(ω)-P_E(ω) (5)

针对谱减法的两个参数α(过减因子)和β(谱下限参数)，使用神经网络动态调整两个参数的值，保留更符合说话人识别任务的语音信息。γ为谱系数，当γ等于1时相当于使用两个能量谱相减，等于0.5时相当于先使用两个幅度谱相减，再将结果平方得到能量谱。这里γ的值取1。

A4：对谱减后的频谱进行平滑处理；

计算最大噪声残差：

P_e(ω)为初始噪声估计，由前N帧中的噪音强度取平均值得到，P_t(ω)为N帧中的第t帧的噪声频谱，maxP(ω)为计算出的最大噪声残差，对小于最大残差的部分用相邻帧的最小值取代：

k为时间间隔，当噪声频谱小于最大残差的部分时，则选用相邻的t+k帧到t-k帧中的最小值取代，使语音过渡更加平滑。

A5：使用傅里叶反变换对信号进行恢复。

3、将去噪后的语音提取梅尔谱图Mel(X，Y)，梅尔刻度和频率的关系如下所示：

F_mel是以Mel为单位的感知频率，f是以Hz为单位的实际频率。梅尔滤波器组如图2所示。

4、将谱图特征放入ECAPA-TDNN网络训练，得到说话人特征向量

谱减法的两个参数通过梯度下降的方法计算更新梯度，反向传播与神经网络的其他参数一起更新，使用梯度下降的优化方法更新参数使得损失函数最小化，去噪模块使用更新后的过减因子α和谱下限参数β继续去噪。针对窗函数的长度T，可选择的长度为256、512、1024和2048，默认为256，当训练轮数超过40轮后，最低的等错误率超过十轮未变化时，调整窗函数的长度，窗函数的长度在四个值中依次选择。其中，ECAPA-TDNN网络的结构如图4所示。

5、应用时，使用已训练的说话人识别模型得到说话人的特征向量，将说话人特征向量

与数据库中已有的特征向量

进行余弦相似度计算，如下式所示：

其中，d为余弦距离，根据d与阈值的大小来判定出说话人。

仿真实验：

本方法使用的说话人数据集为Free ST Chinese Mandarin Corpus中文数据集，噪声数据集为Noise92噪音数据集，Free ST Chinese Mandarin Corpus中文数据集本身为干净的语音数据集，选择Noise92噪音数据集中的factory工厂噪声与Free ST ChineseMandarin Corpus数据集合成信噪比为5dB的含噪声数据集。Free ST Chinese MandarinCorpus数据集中共包含855人，每人120条语音，使用855人中的90％作为训练集，10％作为测试集。使用本方法后的测试结果等错误率达到了2.30％，相对于不添加去噪模块提升了7％，其等错误率变换曲线如图3所示。对于其他语音特征，如MFCC、PLP等，以及其他的神经网络，如ResNet，LSTM等，本实施例中的语音特征和网络的组合得出的实验效果最优。

Claims

1.一种噪声环境下说话人识别模型构建方法，其特征在于，所述说话人识别模型包括去噪模块、语音特征提取模块和神经网络；