CN108573698B

CN108573698B - 一种基于性别融合信息的语音降噪方法

Info

Publication number: CN108573698B
Application number: CN201710139644.2A
Authority: CN
Inventors: 李军锋; 李煦; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2021-06-08
Anticipated expiration: 2037-03-09
Also published as: CN108573698A

Abstract

本发明公开了一种基于性别融合信息的语音降噪方法，所述方法包括：步骤1)采集大量语音训练数据，训练得到男性说话人DNN‑NMF模型和女性说话人DNN‑NMF模型；步骤2)提取测试语音的频谱，确定测试语音说话人的性别；步骤3)根据步骤2)确定的性别，将测试语音的幅度谱输入相应的DNN‑NMF模型，得到降噪后的语音。本发明的方法将引入性别信息，提出了一种新的性别鉴定算法，并且针对不同性别的训练语音训练不同的DNN‑NMF模型，提高的模型的学习能力；而且模型结合DNN和NMF的优点，能够同时利用DNN的学习优势以及NMF对于语音频谱的描述能力，提高了降噪效果。

Description

一种基于性别融合信息的语音降噪方法

技术领域

本发明涉及一种语音降噪方法，更具体地说，本发明涉及一种基于性别融合信息的语音降噪方法。

背景技术

在很多应用场景中(如语音通信，自动语音识别，助听器)语音信号不可避免地受到周围干扰的影响，如路噪，周围非目标说话人干扰等，因此需要对设备采集到的带噪语音信号进行降噪处理。而且很多听力设备(或仪器)通常只有一个传声器来拾取语音信号，算法需要从一个混合语音中去除噪声信号，进一步增加了问题的解决难度。近年来，基于数据驱动的算法已经被提出来解决单传声器语音降噪问题，如基于非负矩阵分解(non-negative matrix factorization,NMF)的语音降噪算法和基于深度神经网络(deepneural networks,DNN)的降噪算法等。在基于NMF的降噪算法中，NMF首先被用于语音和噪声训练数据得到对应的字典描述语音和噪声的频谱结构；然后在降噪阶段，混合语音幅度谱被分解为字典矩阵和权重矩阵的乘积；最后，通过语音字典和对应权重矩阵的乘积来重构增强后的语音信号。然而在很多实际场景中，语音和噪声字典张成的子空间可能会重叠，导致很难准确估计权重矩阵以及有效抑制噪声信号。而在基于DNN的语音降噪算法中，语音降噪被当做是一个有监督的学习问题，通过监督学习的算法训练DNN模型预测目标语音。由于人类发声的机理，语音频谱具有很强的时频结构特性，如浊音的谐波结构等。然而很多基于DNN的降噪算法并没有考虑这种语音频谱结构特性。

发明内容

本发明的目的在于克服传统的基于NMF降噪算法和基于DNN降噪算法存在的问题，提出了一种新的融合性别信息的基于DNN-NMF的单传声器降噪方法，提高了降噪效果。

为了实现上述目的，本发明提供了一种基于性别融合信息的语音降噪方法，所述方法包括：

步骤1)采集大量语音训练数据，训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型；

步骤2)提取测试语音的频谱，确定测试语音说话人的性别；

步骤3)根据步骤2)确定的性别，将测试语音的幅度谱输入相应的DNN-NMF模型，得到降噪后的语音。

上述技术方案中，所述步骤1)具体包括：

步骤101)采集大量语音训练数据，所述语音训练数据包括：不含噪声的语音训练数据和纯噪声语音训练数据；

步骤102)对语音训练数据进行预处理，然后通过快速傅里叶变换提取语音训练数据的频谱；

步骤103)对不含噪声的语音训练数据按照性别进行分类：男性说话人训练数据和女性说话人训练数据，然后分别对男性说话人训练数据幅度谱

和女性说话人训练数据幅度谱和

进行非负矩阵分解：

从中得到男性说话人和女性说话人对应的字典矩阵

和

步骤104)对纯噪声语音训练数据的幅度谱进行非负矩阵分解，得到噪声字典W_N；

步骤105)训练女性说话人DNN-NMF模型；

步骤106)训练男性说话人DNN-NMF模型。

上述技术方案中，所述步骤105)具体包括：

步骤105-1)随机初始化女性说话人DNN-NMF模型参数；

步骤105-2)将不含噪声的女性说话人训练数据和纯噪声训练数据进行混合，形成混合训练数据，对混合训练数据进行快速傅里叶变换，提取其幅度谱，作为女性说话人DNN-NMF模型的输入x；

步骤105-3)根据前向传播算法计算女性说话人DNN-NMF模型最终的目标函数：

其中，x_S是步骤105-2)中的不含噪声的女性说话人训练数据的幅度谱，x_N是步骤105-2)中的纯噪声训练数据的幅度谱，

和

是DNN模型的输出，表示NMF的权重向量，通过DNN前向传播算法得到，是模型的一个中间变量，用于和字典相乘重构语音和噪声信号；λ₁为系数；

步骤105-4)计算步骤105-3)中目标函数关于女性说话人DNN-NMF模型参数的导数，然后采用后向传播算法估计女性说话人DNN-NMF的参数，参数包括模型层与层之间的权重矩阵和偏置向量，得到女性说话人的DNN-NMF模型。

上述技术方案中，所述步骤106)具体包括：

步骤106-1)随机初始化男性说话人DNN-NMF模型参数；

步骤106-2)将不含噪声的男性说话人训练数据和纯噪声训练数据进行混合，形成混合训练数据，对混合训练数据进行快速傅里叶变换，提取其幅度谱，作为男性说话人DNN-NMF模型的输入y；

步骤105-3)根据前向传播算法计算男性说话人DNN-NMF模型最终的目标函数：

其中，y_S是步骤106-2)中的不含噪声的男性说话人训练数据的幅度谱，y_N是步骤106-2)中的纯噪声训练数据的幅度谱，

和

是DNN模型的输出，表示NMF的权重向量，通过DNN前向传播算法得到，是模型的一个中间变量，用于和字典相乘重构语音和噪声信号；λ为系数；

步骤106-4)计算步骤106-3)中目标函数关于男性说话人DNN-NMF模型参数的导数，然后采用后向传播算法估计男性说话人DNN-NMF的参数，参数包括模型层与层之间的权重矩阵和偏置向量，得到男性说话人的DNN-NMF模型。

上述技术方案中，所述步骤2)具体包括：

步骤201)对测试语音进行预处理，提取其频谱；

步骤202)根据测试语音幅度谱X，利用性别鉴定算法确定测试语音说话人的性别。

上述技术方案中，所述步骤202)具体包括：

步骤202-1)对测试语音幅度谱X进行无监督非负矩阵分解，解决如下最优化问题：

其中，W＝[W_S W_N]，

H＝[H_S ^T H_N ^T]^T，以及

目标函数的第二项为稀疏惩罚函数，β为系数，

ε₁为系数；

在进行分解时，步骤202-1)具体包括：

步骤202-1-1)计算X和WH的相似度V：

V＝X./(WH)

其中，./表示逐点相除；

步骤202-1-2)更新权重向量H：

其中，.*表示逐点相乘；

步骤202-1-3)对

中的语音权重矩阵H_S进行稀惩罚，更新

λ₂和ε₂为系数；

步骤202-1-4)更新噪声矩阵W_N，并对其进行归一化：

步骤202-1-5)判断步骤202-1-4)

是否收敛；如果判断结果是肯定的，转入步骤202-2)；否则，令

转入步骤202-1-1)；

步骤202-2)通过比较权重矩阵

和

的大小判断该说话人的性别；

如果

||·||₁表示矩阵的第一范式；判断该说话人为男性，反之则判断为女性。

上述技术方案中，所述步骤3)具体包括：

步骤301)将测试语音幅度谱X输入对应性别的DNN-NHF模型，利用前向传播算法得到DNN模型输出的

和

然后通过NMF层和Wiener filtering得到最终降噪后的语音谱X_S：

步骤302)结合降噪后的语音谱X_S和混合信号的相位信息通过逆傅里叶变换恢复出降噪后的语音的时域波形。

本发明的优点在于：

1、本发明的方法引入性别信息，提出了一种新的性别鉴定算法，并且针对不同性别的训练语音训练不同的DNN-NMF模型，提高的模型的学习能力；

2、本发明的方法能够同时结合DNN和NMF的优点，能够同时利用DNN的学习优势，以及NMF对于语音频谱的描述能力，提高了降噪效果。

附图说明

图1是本发明提出基于性别融合信息的语音降噪方法的流程图；

图2是本发明所使用的DNN-NMF模型图。

具体实施方式

现结合附图和具体实施例对本发明作进一步的描述。

如图1所示，一种基于性别融合信息的语音降噪方法，所述方法包括：

步骤1)采集大量语音训练数据，训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型；具体包括：

步骤102)对语音训练数据进行预处理，然后通过快速傅里叶变换(FFT)提取语音训练数据的频谱；

所述对语音训练数据预处理包括：对每一帧语音训练数据先补零到N点，N＝2ⁱ，i为整数，且i≥8；然后，对每一帧的数据进行加窗或预加重处理，加窗函数采用汉明窗(hamming)或哈宁窗(hanning)。

和女性说话人训练数据幅度谱和

进行非负矩阵分解：

从中得到男性说话人和女性说话人对应的字典矩阵

和

步骤105)训练女性说话人DNN-NMF模型；具体包括：

步骤105-1)随机初始化女性说话人DNN-NMF模型参数；

DNN-NMF模型的结构如图2所示。

和

是DNN模型的输出，通过DNN前向传播算法得到，是模型的一个中间变量，用于和字典相乘重构语音和噪声信号；表示NMF的权重向量；λ₁为系数；

步骤105-4)计算步骤105-3)中目标函数关于女性说话人DNN-NMF模型参数的导数，然后采用后向传播算法估计女性说话人DNN-NMF的参数，参数包括模型层与层之间的权重矩阵和偏置向量，得到女性说话人的DNN-NMF模型；

步骤106)训练男性说话人DNN-NMF模型；具体包括：

步骤106-1)随机初始化男性说话人DNN-NMF模型参数；

和

步骤2)提取测试语音的频谱，确定测试语音说话人的性别；按照性别分别输入相应的DNN-NMF模型，得到降噪后的语音；具体包括：

步骤201)对测试语音进行预处理，提取其频谱；

步骤202)根据测试语音幅度谱X，利用性别鉴定算法确定测试语音说话人的性别；具体包括：

其中，W＝[W_S W_N]，

H＝[H_S ^T H_N ^T]^T，以及

目标函数的第二项为稀疏惩罚函数，β为系数，

i＝f，m；ε₁为系数；

在进行分解时，步骤202-1)具体包括：

步骤202-1-1)计算X和WH的相似度V：

V＝X./(WH)

其中，./表示逐点相除；

步骤202-1-2)更新权重向量H：

其中，.*表示逐点相乘；

步骤202-1-3)对

中的语音权重矩阵H_S进行稀惩罚，更新

λ₂和ε₂为系数；

步骤202-1-4)更新噪声矩阵W_N，并对其进行归一化：

步骤202-1-5)判断步骤202-1-4)

转入步骤202-1-1)；

在本实例中，一般迭代50次则确认

已经收敛，然后停止迭代。

步骤202-2)通过比较权重矩阵

和

的大小来判断该说话人的性别；

如果

步骤3)根据步骤2)确定的性别，将测试语音幅度谱X输入相应的DNN-NMF模型，得到降噪后的语音；具体包括：

和

然后通过NMF层和Wiener filtering得到最终降噪后的语音谱X_S：

最后所应说明的是，以上实施例仅用于说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围内。

Claims

1.一种基于性别融合信息的语音降噪方法，所述方法包括：

步骤2)提取测试语音的频谱，确定测试语音说话人的性别；

步骤3)根据步骤2)确定的性别，将测试语音的幅度谱输入相应的DNN-NMF模型，得到降噪后的语音；

所述步骤2)具体包括：

步骤201)对测试语音进行预处理，提取其频谱；

步骤202)根据测试语音幅度谱X，利用性别鉴定算法确定测试语音说话人的性别；

所述步骤202)具体包括：

其中，W＝[W_s W_N]，

H＝[H_S ^T H_N ^T]^T，以及

目标函数的第二项为稀疏惩罚函数，β为系数，

ε₁为系数；

在进行分解时，步骤202-1)具体包括：

步骤202-1-1)计算X和WH的相似度V：

V＝X./(WH)

其中，./表示逐点相除；

步骤202-1-2)更新权重向量H：

其中，.*表示逐点相乘；

步骤202-1-3)对

中的语音权重矩阵H_S进行稀惩罚，更新

λ₂和ε₂为系数；

步骤202-1-4)更新噪声矩阵W_N，并对其进行归一化：

步骤202-1-5)判断步骤202-1-4)

转入步骤202-1-1)；

步骤202-2)通过比较权重矩阵

和

的大小判断该说话人的性别；

如果

2.根据权利要求1所述的基于性别融合信息的语音降噪方法，其特征在于，所述步骤1)具体包括：

和女性说话人训练数据幅度谱

进行非负矩阵分解：

从中得到男性说话人和女性说话人对应的字典矩阵

和

步骤105)训练女性说话人DNN-NMF模型；

步骤106)训练男性说话人DNN-NMF模型。

3.根据权利要求2所述的基于性别融合信息的语音降噪方法，其特征在于，所述步骤105)具体包括：

步骤105-1)随机初始化女性说话人DNN-NMF模型参数；

和

4.根据权利要求2所述的基于性别融合信息的语音降噪方法，其特征在于，所述步骤106)具体包括：

步骤106-1)随机初始化男性说话人DNN-NMF模型参数；

和

5.根据权利要求4所述的基于性别融合信息的语音降噪方法，其特征在于，所述步骤3)具体包括：

步骤301)将测试语音幅度谱X输入对应性别的DNN-NMF模型，利用前向传播算法得到DNN模型输出的

和

然后通过NMF层和Wiener filtering得到最终降噪后的语音谱X_S：