CN110491406A

CN110491406A - 一种多模块抑制不同种类噪声的双噪声语音增强方法

Info

Publication number: CN110491406A
Application number: CN201910914176.0A
Authority: CN
Inventors: 蓝天; 叶文政; 惠国强; 刘峤; 李森; 钱宇欣; 吕忆蓝; 彭川; 李萌
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2019-11-22
Anticipated expiration: 2039-09-25
Also published as: CN110491406B

Abstract

本发明公开一种多模块抑制不同种类噪声的双噪声语音增强方法，包括以下步骤：S1：对多种类型的噪声进行分阶段建模，对于输入的带噪语音，在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征；其中，每个噪声抑制模块的损失函数均不相同；S2：过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络；本发明提出一种多模块分阶段抑制不同种类噪声的双噪声语音增强方法，每个模块分别抑制一种或几种不同类型的噪声，同时提高其在混合噪声环境和低信噪比环境的性能，再将增强结果集成到后一阶段，它在每个阶段使用神经网络学习带噪幅度谱到较纯净幅度谱的映射，对特征进行提炼，得到更加纯净的幅度谱。

Description

一种多模块抑制不同种类噪声的双噪声语音增强方法

技术领域

本发明属于语音增强技术领域，尤其涉及一种多模块抑制不同种类噪声的双噪声语音增强方法。

背景技术

语音增强算法是一项重要的语音处理技术，可为语音识别系统、听觉辅助设备和军事窃听装置提供支持。目前语音识别算法准确率已经达到较高水平，在一些公开数据集中甚至超过熟练的听写转录人员。然而由于噪声或混响干扰的存在，语音增强后语音识别算法才能达到理想的效果。现在的语音增强算法只对较高信噪比的含单种噪声的带噪语音有良好的表现。在会议环境、战场环境和街道环境等真实场景下，环境中会存在多种噪声而且信噪比有较大的变化范围。对于双噪声场景，一般算法不易表现出良好的泛化性。而在低信噪比环境下，由于音频中噪声能量占主导，语音增强算法性能会明显恶化。

发明内容

本发明提供一种多模块抑制不同种类噪声的双噪声语音增强方法，旨在解决上述存在的问题。

本发明是这样实现的，一种多模块抑制不同种类噪声的双噪声语音增强方法，包括以下步骤：

S1：对多种类型的噪声进行分阶段建模，对于输入的带噪语音，在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征；其中，每个噪声抑制模块的损失函数均不相同；

S2：过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络；

S3：使用神经网络学习带噪幅度谱到纯净幅度谱的映射，对特征进行提炼，得到纯净的幅度谱；

S4：中间噪声抑制模块损失函数的拟合目标为带噪语音，最终噪声抑制模块损失函数的拟合目标为纯净语音。

进一步的，所述带噪语音由以下公式表示：

式中X表示带噪语音，S表示纯净语音，N_i表示一种加性噪声，共有k种噪声。

进一步的，所述噪声抑制模块包含2层全连接层和2层LSTM，其执行基本的抑制带噪语音中某一种或多种噪声的任务，其功能由以下公式表示：

X′＝f(X)

上式表示增强语音X′，其噪声数量少于降噪以前，f表示NRM网络。

进一步的，步骤S1中，包含两个阶段，所述第一阶段包含两个噪声抑制模块，其中，每个噪声抑制模块的输入都为含两种噪声的带噪语音，输出幅度谱的带噪语音中噪声种类少于输入。

进一步的，第一阶段得到2个含不同噪声类型的语音幅度谱，每个幅度谱含有不同的语音特征信息；两个噪声抑制模块及其损失函数分别由以下公式表示：

X₂₁＝f_1l(X₁)

X₂₂＝f₁₂(X₁)

式中，x₁＝5+N₁+N₂、X₂₁＝S+N₁、x₂₂＝S+N₂，X₁表示含两种噪声的混合带噪语音，X₂₁、X₂₂表示含一种噪声的带噪语音，X₂₁、X₂₂含有噪声种类不同；l_i表示噪声抑制模块的损失函数，i＝1，2。

进一步的，所述第二阶段只含一个噪声抑制模块，不限定过滤某种噪声，输入为第一阶段产生的含丰富语音特征信息的多个幅度谱，这些幅度谱被拼接送入一个噪声抑制模块，噪声抑制模块的输出为最终增强语音，表示为：

X₂＝[X₁；X₂₁；X₂₂]

X₃＝f₂(x₂)

式中表示X₂由X₁、X₂₁、X₂₂拼接形成；

该噪声抑制模块的损失函数表示为：

进一步的，还包括以下步骤：对3个模块进行联合训练，最终的损失函数表示为：

loss＝α₁*l₁+α₂*l₂+...+α_m*l_m

其中l_i表示每个模块的损失函数，α_i表示每个模块的权重，共有m个模块。

与现有技术相比，本发明的有益效果是：本发明提出一种多模块分阶段抑制不同种类噪声的双噪声语音增强方法，每个模块分别抑制一种或几种不同类型的噪声，同时提高其在混合噪声环境和低信噪比环境的性能，再将增强结果集成到后一阶段，它在每个阶段使用神经网络学习带噪幅度谱到较纯净幅度谱的映射，对特征进行提炼，得到更加纯净的幅度谱。

附图说明

图1为本发明中密集连接的三阶段渐进学习模型结构示意图；

图2为本发明中密集连接的双噪声抑制模型(Double Noise Speech EnhancementModel,DNSE)结构示意图；

图3为本发明中噪声抑制模块结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

请参阅图1-3，本发明提供一种技术方案：一种多模块抑制不同种类噪声的双噪声语音增强方法，包括以下步骤：

本发明借鉴了Gao等人的渐进学习模型，其渐进学习模型结构如图1所示。它在每个阶段使用神经网络学习带噪幅度谱到较纯净幅度谱的映射，对特征进行提炼，得到更加纯净的幅度谱。对于每一个阶段，每个批次的语音目标更加纯净，意味着每阶段提高一定程度的语音质量。

与上述模型不同的是，DNSE模型每个子目标为减少了噪声种类的带噪语音幅度谱。对一种带噪语音单独建模的方法在之前的研究中已经大量出现，其对已知噪声具有较强的降噪能力。根据这个特点，本模型被设计为对多种类型的噪声进行分阶段建模，对于输入的带混合噪声的语音，在每个阶段提取并过滤一种噪声特征。之后，过程中被抑制部分噪声的幅度谱被和原始带噪语音幅度谱拼接并输入最终的神经网络。本模型包括两个阶段，每阶段含不同数量相同结构的NRM。模型示意图参见图2。

本发明使用的含混合噪声的带噪语音可由以下公式表示：

式(1)中X表示带噪语音，S表示纯净语音，N_i表示一种加性噪声，共有k种噪声。

如图3所示，模型基本的语音增强模块含2层全连接层和2层LSTM，其执行基本的抑制带噪语音中某一种或多种噪声的任务，其功能可由以下公式表示：

X′＝f(X) (2)

式(2)表示增强语音X′，其噪声数量少于降噪以前。f表示NRM网络。

具体地，第一阶段中包含两个噪声抑制模块，每个模块执行抑制不同简单噪声的任务。第一阶段中所有模块的输入都为含2种噪声的带噪语音，输出幅度谱的带噪语音中噪声种类少于输入。本阶段将得到2个含不同噪声类型的语音幅度谱，每个幅度谱含有不同的语音特征信息。两个模块及其损失函数可分别由以下公式表示：

X₂₁＝f₁₁(X₁) (3)

X₂₂＝f₁₂(X₁) (4)

式(3)和式(4)中，X₁＝S+N₁+N₂、X₂₁＝S+N₁、X₂₂＝S+N₂，x₁表示含两种噪声的混合带噪语音，X₂₁、X₂₂表示含一种噪声的带噪语音，X₂₁、X₂₂含有噪声种类不同。式(5)表示NRM的损失函数，i＝1，2。

其中，第二阶段只含一个NRM，不限定过滤某种噪声。输入为第一阶段产生的含丰富语音特征信息的多个幅度谱，这些幅度谱被拼接送入一个NRM，NRM的输出为最终增强语音。其可表示为：

X₂＝[X₁；X₂₁；X₂₂] (6)

X₃＝f₂(X₂) (7)

式(6)表示X₂由X₁、X₂₁、X₂₂拼接形成。

该模块的损失函数可表示为：

作为优选的，双噪声模型的3个模块进行联合训练，最终的损失函数可表示为：

loss＝α₁*l₁+α₂*l₂+...+α_m*l_m (9)

试验例

噪声数据来自Noisex92数据集，取babble、destroyerops、m109、factory1、factory2、volvo共6种噪声作为噪声数据集。语音数据来自TIMIT数据集，从中抽取训练数据1984条和测试数据1280条，测试数据分与说话人身份相同或不同的数据集。双噪声实验将使用babble、factory1、factory2、volvo、babble、destroyerops、m109共6种非平稳噪声。factory1、factory2、volvo和babble、destroyerops、m109按主观感受分为相似的两组，每组分别取一种噪声产生混合噪声，共形成9种混合噪声。混合噪声与语音产生混合带噪语音。

实验分为双噪声模型实验、基线模型实验。基线模型包括Gao的渐进学习模型、LSTM模型和log-MMSE模型。双噪声模型和基线模型都在-10、-5、0、5dB的信噪比环境下进行训练，在对应的信噪比环境下测试。模型网络的输入为语音信号经短时傅里叶变换处理所得的幅度谱，窗长为512，滑动长度为256。幅度谱为(batch×time×frequency)的矩阵，其中batch为32，frequency为257，所有音频的采样频率为16000Hz。

双噪声模型中，输入6种噪声里的2种和语音混合产生带噪语音。NRM的每个全连接层的参数矩阵尺寸为(frequency×1024)，LSTM层的尺寸为1024。第一阶段目标为对应的含单种噪声的带噪语音，第二阶段目标为对应的纯净语音。最终的损失函数中，第一阶段的2个损失值的权值为0.20，第二阶段的权值为1。三阶段渐进学习模型、4层LSTM模型和Log-MMSE模型被作为基线模型。渐进学习模型的输入为含混合噪声的带噪语音，每一阶段把较高信噪比的带噪语音作为目标，混合语音的噪声类型不变。例如，输入为0dB带噪语音，第一阶段目标为10dB带噪语音，第二阶段目标为20dB带噪语音，第三阶段目标为纯净语音。这里的10dB和20dB带噪语音都由之前已有的混合噪声和语音产生。每阶段损失值的权值与Gao论文中相同。为保证几个模型的模型复杂度接近，同时减少梯度消失现象的发生，LSTM基线模型由4层LSTM和两层全连接层

构成，每层LSTM的尺寸为1024。

表1列出了双噪声语音增强模型和基线模型在可见说话人带噪语音测试数据集上的实验结果。从3个指标总体来看，深度学习模型性能优于传统算法Log-MMSE；PL和DNSE模型优于LSTM模型。DNSE只在PESQ和SDR上优于PL，其STOI和PL较为接近。在-10、-5dB环境下，DNSE的SDR明显高于PL，分别提高了0.51和0.62；PESQ较PL分别提高了0.05和0.03。然而，较高信噪比环境下，SDR提升不明显。

表2列出了双噪声语音增强模型和基线模型在不可见说话人带噪语音测试数据集上的实验结果。总的来说，从表2与表1中可以发现相同的趋势。在-10、-5、0dB等较低信噪比环境下，DNSE模型较PL模型在PESQ、SDR上有所提高。SDR分别提高了0.58、0.65和0.25，PESQ分别提高了0.06、0.03和0.04。然而，在5dB环境下，它的PESQ、SDR都低于PL模型。

由于在低信噪比环境下，噪声能量占主导，神经网络难以捕获带噪语音特征到纯净语音特征的映射关系，单个学习器获取的语音特征信息有限。且用单个神经网络学习含多噪声的带噪语音特征易导致神经网络遗忘早期训练得到的信息。因此使用多个神经网络分别学习某一噪声特征可以提高语音增强模型在低信噪比环境下保存信息的能力，由此提高模型性能。

为了有效处理含多种噪声的低信噪比语音，本发明提出了一种双噪声模型。双噪声模型由多个NRM构成，每一个模块负责抑制一种或多种噪声。每个模块的损失函数设置不同，中间模块损失函数的拟合目标为带噪语音，最终模块损失函数的拟合目标为纯净语音。双噪声模型在已知说话人和未知说话人带噪语音数据集上的性能都超过基线模型，证明了在低信噪比环境下用多个神经网络对不同种噪声分别进行建模的方法好于单个神经网络对所有噪声建模。此外，不同带噪语音幅度谱含有丰富的特征信息也使得模型获得了更好的性能。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模块抑制不同种类噪声的双噪声语音增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的双噪声语音增强方法，其特征在于：所述带噪语音由以下公式表示：

3.根据权利要求1所述的双噪声语音增强方法，其特征在于：所述噪声抑制模块包含2层全连接层和2层LSTM，其执行基本的抑制带噪语音中某一种或多种噪声的任务，其功能由以下公式表示：

X′＝f(X)

上式表示增强语音X′，其噪声数量少于降噪以前，f表示噪声抑制模块(NoiseReduction Module，NRM)网络。

4.根据权利要求1所述的双噪声语音增强方法，其特征在于，步骤S1中，包含两个阶段，所述第一阶段包含两个噪声抑制模块，其中，每个噪声抑制模块的输入都为含两种噪声的带噪语音，输出幅度谱的带噪语音中噪声种类少于输入。

5.根据权利要求4所述的双噪声语音增强方法，其特征在于：第一阶段得到2个含不同类型噪声的语音幅度谱，每个幅度谱含有不同的语音特征信息；两个噪声抑制模块及其损失函数分别由以下公式表示：

X₂₁＝f₁₁(X₁)

X₂₂＝f₁₂(X₁)

式中，X₁＝S+N₁+N₂、X₂₁＝S+N₁、X₂₂＝S+N₂，X₁表示含两种噪声的混合带噪语音，X₂₁、X₂₂表示含一种噪声的带噪语音，X₂₁、X₂₂含有噪声种类不同；l_i表示噪声抑制模块的损失函数，i＝1，2。

6.根据权利要求5所述的双噪声语音增强方法，其特征在于：所述第二阶段只含一个噪声抑制模块，不限定过滤某种噪声，输入为第一阶段产生的含丰富语音特征信息的多个幅度谱，这些幅度谱被拼接送入一个噪声抑制模块，噪声抑制模块的输出为最终增强语音，表示为：

X₂＝[X₁；X₂₁；X₂₂]

X₃＝f₂(X₂)

式中表示X₂由X₁、X₂₁、X₂₂拼接形成；

该噪声抑制模块的损失函数表示为：

7.根据权利要求6所述的双噪声语音增强方法，其特征在于，还包括以下步骤：对3个模块进行联合训练，最终的损失函数表示为：

loss＝α₁*l₁+α₂*l₂+···+α_m*l_m