CN110428849B

CN110428849B - 一种基于生成对抗网络的语音增强方法

Info

Publication number: CN110428849B
Application number: CN201910696224.3A
Authority: CN
Inventors: 殷绪成; 赵力; 杨春
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-10-08
Anticipated expiration: 2039-07-30
Also published as: CN110428849A

Abstract

本发明公开了一种基于生成对抗网络的语音增强方法，其特征在于，包括以下步骤：步骤1、采用渐进式训练方式，重建纯净语音的分布；步骤2、采用基于判别器的特征匹配策略，优化生成器的增强性能；步骤3、采用若干种噪声类型数据进行训练，以生成对抗网络。本发明将基于判别器的特征匹配与传统的特征映射方法相结合，有效减少了增强后语音的特征分布与纯净语音特征分布的差异。此外，还采用GAN目标函数对网络进行了联合优化训练，使生成器和判别器之间的损失达到最小。

Description

一种基于生成对抗网络的语音增强方法

技术领域

本发明涉及语音信号处理领域的单通道语音增强技术领域，具体涉及一种基于生成对抗网络的语音增强方法。

背景技术

近年来，自动语音识别(ASR)和说话人识别取得了重大突破，但在自然环境条件下，语音信号受到不同程度的噪声污染。在严重的情况下，语音将完全淹没在噪声中，无法区分原始语义。因此，识别系统需要语音增强技术的支持，通过语音增强技术消除噪声部分，给语音识别任务提供高质量和可理解的音频数据。所以语音增强技术作为一个前端的预处理阶段，在噪声环境下起着至关重要的作用。本发明就是研究如何解决在低信噪比环境下具有挑战性的语音降噪问题。

传统语音增强方法也称为无监督语音增强方法，主要分为谱减法、基于统计模型的算法和子空间算法。谱减法(Study and the development of the INTEL techniquefor improving speech intelligibility)(M.R.Weiss,E.Aschkenasy,andT.W.Parsons.1974.Technical Report NSC-FR/4023,Nicolet ScientificCorporation.)是基于噪声是加性的假设，在无语音的情况下，进行更新或者估计噪声谱，然后从含噪语音中去除噪声。谱减法是最容易实现也是最常用的一种方法，但是它利用无语音阶段统计到的噪声谱代替当前时刻的噪声谱，当此时的噪声分量较大时，增强后会有较大的噪声残留(音乐噪声)。在基于统计模型的算法(Statistical-model-based speechenhancement systems)(EphraimY.Proceedings of the IEEE,2002,80(10):1526-1555.)中，给定一组测量参数(如离散傅里叶变换系数)，从测量参数中得到一个线性或非线性的估计器。维纳滤波(Enhancement and bandwidth compression of noisy speech)(Lim JS,Oppenheim A V.Proceedings of the IEEE,1979,67(12):1586-1604.)就属于这一类。利用维纳滤波增强的语音残留的噪声类似于白噪声，而不是音乐噪声。但是这类的方法一般依据语音信号和噪声信号是统计独立的假设，而且需要服从特定分布。子空间算法(Asignal subspace approach for speech enhancement)(Ephraim,Yariv,and H.L.VanTrees.ICASSP IEEE Computer Society,1993.)的原理为将带噪信号的向量空间分解为两个子空间，其中一个为信号子空间，主要包括正交的信号加噪声，另一个为噪声子空间，主要包括纯噪声。对纯净语音的估计可以通过去除噪声子空间，只保留信号子空间中的信号，来达到增强的目的。但是子空间算法的计算量较大，而且在短时的情况下效果不好。在平稳噪声环境下，传统的语音增强方法对噪声的抑制效果比较显著，但在非平稳的噪声环境下，其效果明显下降。

近年来随着神经网络的兴起，神经网络由于其优异的特征提取和数据拟合能力，已被广泛应用于语音增强任务中，基于神经网络的方法相较于传统方法已经有了较大提升。在这些方法中，基于DNN的方法(Aregression approach to speech enhancementbasedon deep neural networks)(Xu,Y.,Du,J.,Dai,L.R.,&Lee,C.H..(2015).IEEE/ACMTransactions on Audio,Speech,and Language Processing,23(1),7-19.)主要是在频域内处理语音，通过短时傅里叶变换求得短时频谱，然后对短时频谱进行处理，利用DNN的拟合能力学习到从噪声信号到纯净信号的映射函数，同时利用每一条音频的前6帧作为噪声的估计加入到训练当中，最后在后处理中利用含噪语音的相位进行重构增强语音信号。虽然这种方法的增强效果较以往的有了不错的提升，但是由于噪声估计只用了前6帧的信息，其对非平稳的噪声环境下的鲁棒性还是明显不强。之后Se Rim Park等人提出一种全卷积的网络模型(AFully Convolutional Neural Network for Speech Enhancement)(Se RimPark and Jinwon Lee.Interspeech 2017,18th Annual Conference of theInternational Speech CommunicationAssociation)。他们提出的R-CED(RedundantConvolutional Encoder-DecoderNetwork)由卷积、批规格化和ReLU激活层的堆叠组成，同时使用了skip connection。与CED相反，R-CED沿编码器将特征编码到更高维度，并沿译码器实现压缩。其中滤波器个数保持对称，而且没有池化层。在语音增强效果相近的情况下。其网络模型大小相较于RNN系列模型要小近10倍，但是其网络在训练过程中收敛速度较慢而且不太稳定。近年来，生成对抗网络GAN在图像生成领域取得了重大突破。同时，GAN也被逐步应用于语音增强任务中。2017年，Santiago Pascual等人第一次将GANs的思想运用在语音增强中，提出了SEGAN(SEGAN:Speech Enhancement Generative AdversarialNetwork)(Santiago Pascual and Antonio Bonafonte and Joan Serrà.Interspeech2017,18th Annual Conference of the International Speech CommunicationAssociation(2017),3642–3646)。SEGAN的设计结合了conditional GAN和LSGAN，并用L1norm优化了生成器。其生成器主要为Encoder-Decoder的结构，同时添加了skipconnection，判别器为全卷积的结构。该模型的整体性能较之前的网络有一定的提升，且产生的失真情况更少。随后Chris Donahue等人在SEGAN的基础上将输入特征改为时频特征，丢弃随机变量z的同时并削减网络结构，其FSEGAN比SEGAN语音增强效果有了小幅提升。Zhong Meng等人提出的AFM，在GAN的基础上增加了Feature Mapping loss，同时结合声学模型的Seone loss，使模型学习到更鲁棒的映射关系。在这些工作中，利用对抗式训练，可以使生成器从带噪语音到纯净语音中学习到更好的映射关系。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于生成对抗网络的语音增强方法，该方法是一种端到端的深度神经网络，以SEGAN为基础网络进行改进，用于去除音频中的噪声，进而提升信噪比。

为实现本发明的目的，采取以下的技术方案：一种基于生成对抗网络的语音增强方法，主要可以包括以下步骤：

步骤1、考虑到不同信噪比的语音特征与纯净语音数据之间存在很大的差异，因此，采用渐进式训练方式，重建纯净语音的分布；

步骤2、除了应用传统的特征映射方法，还采用基于判别器的特征匹配策略，来优化生成器的增强性能；

步骤3、由于现实中存在很多非平稳噪声，采用若干种噪声类型数据进行训练，以生成对抗网络。

在步骤1中，所述的渐进式训练方法，通过同时增加数据的信噪比和网络层数，将较困难的语音去噪任务分解为几个简单的去噪任务，通过渐进式的训练，模型可以更容易地重建了纯净语音的分布，同时，渐进式训练的机制使训练更稳定，计算所需的复杂度更低。

在步骤2中，所述的基于判别器的特征匹配策略，采用最后一层卷积层的输出特征来优化生成器的增强性能，在低信噪比环境下，本发明的网络具有更好的增强效果。

在步骤3中，所述的数据集由不同的语音信号(由不同区域采集)和噪声类型(100种，包含平稳噪声和非平稳噪声)混合得到，并将它们整合到共享参数中。这使得网络在实际应用中具有一定的鲁棒性和可推广性。

通过渐进式的训练方法，即同时增加数据的信噪比和网络层数，将较困难的语音去噪任务分解为几个简单的去噪任务，这样模型可以更容易地重建了纯净语音的分布。同时，将基于判别器的特征匹配与传统的特征映射方法相结合，这样可以减少了增强后语音的特征分布与纯净语音特征分布的差异。此外，利用GAN目标函数对网络进行了联合优化训练，使生成器和判别器之间的损失最小。在AISHELL-2数据集上进行了评估，本发明的方法在STOI和PESQ的评价指标上有所提升。同时本发明在语音识别任务上进行了测试，在识别精度上本发明的方法也展示了其优势所在。

在单通道语音增强中，基于生成对抗网络(GAN)的语音增强方法被证明能够有效地消除噪声，提高语音的清晰度和质量。由此，本发明提出了一种针对高噪声环境下的渐进式训练的特征匹配语音增强方法。本发明的方法通过同时增加数据的信噪比和网络层数，将较困难的语音去噪任务分解为几个简单的去噪任务。通过渐进式的训练，模型可以更容易地重建了纯净语音的分布。同时，将基于判别器的特征匹配与传统的特征映射方法相结合，这样可以减少了增强后语音的特征分布与纯净语音特征分布的差异。此外，利用GAN目标函数对网络进行了联合优化训练，使生成器和判别器之间的损失最小。在AISHELL-2数据集上进行了评估，本发明的方法在STOI和PESQ的评价指标上有所提升。同时本发明在语音识别任务上进行了测试，在识别精度上本发明的方法也展示了其优势所在。

对于语音增强任务来说，给定一系列噪声语音特征Y＝{y₁，y₂，...，y_i}和干净语音特征X＝{x₁，x₂，...，x_i}，i＝1，2，...，T，T为语音信号的数目。本发明的目的是学习一个非线性映射函数F，它可以生成一段去噪语音

使其分布尽可能接近于纯净语音的分布X。具体来说，本发明使用生成器G来充当映射函数F。本发明通过最小化均方误差约束X和

之间的特征映射损失

其中，T为语音信号的数目，

表示对第1条语音到第T条语音特征的误差进行累加，y_i为第i条噪声语音特征，x_i为第i条干净语音特征，

为第i条增强后的语音特征，G(y_i)表示生成器根据第i条噪声语音特征生成增强之后的语音特征，[·]²表示为向量元素的平方和的平方根。

然而，语音特征映射损失的均方误差是基于同方差的，没有噪声自相关的假设，但在实际上这对于非平稳噪声的情况是无效的。为了减小非平稳噪声和自相关噪声下增强后的语音特征和纯净语音特征的分布差异，本发明提取了判别器上的最后一个卷积层的输出进行特征匹配，使生成器能够学习如何匹配纯净语音和增强后语音的中间表示。本发明的特征匹配损失

计算如下：

其中，M表示判别器的最后一卷积层中的元素数，T为语音信号的数目，

表示对第1条语音到第T条语音特征的误差进行累加，

是从纯净语音和噪声语音的数据对中提取的特征，

是从增强后的语音和噪声语音的数据对中提取的特征，y_i为第i条噪声语音特征，x_i为第i条干净语音特征，G(y_i)表示生成器根据第i条噪声语音特征，生成增强后的语音特征，D_c(·)是根据输入的数据，提取判别器上最后一卷积层的输出，||·||₁表示为向量中每个元素的绝对值之和。

在生成对抗网络中，生成器G学习从随机噪声或者先验分布z生成给定数据集的真实样本，判别器D接收生成的样本G(z)或真实数据样本x，并且学习区分这些样本。最后，在这种对抗式训练中，生成器可以混淆判别器，使其无法区分正负样本。本发明将GAN应用于语音增强中，因为通过对抗式训练，生成器可以获得更好的映射性能。为了使生成器的训练过程更加可控，本发明利用了条件GAN(Conditional GAN)。本发明用含噪语音替换了先验分布z，因为一般情况下，在cGAN中，先验分布z是一个正态分布的随机数，而含噪语音的数据中隐式的符合了z的正态分布，所以用含噪语音代替先验分布z是合理的。因此，生成器的输入仅仅是含噪语音，而判别器的输入要么是纯净语音和含噪语音的数据对，要么是增强后语音和含噪语音的数据对。此外，本发明还借鉴了最小二乘GAN(Least Squares GAN)中，因为它可以缩短增强后的语音与决策边界之间的距离，并间接地使增强后的语音遵循纯净音分布。受此启发，本发明设计了目标函数

如下：

其中，y_i为第i条噪声语音特征，x_i为第i条干净语音特征，

表示对第1条语音到第T条语音特征的误差进行累加，

和

分别是含噪语音和纯净语音的数据分布，

表示任意x_i条语音都服从

的数据分布，

表示任意y_i条语音都服从

的数据分布，G(y_i)表示生成器根据第i条噪声语音特征，生成增强后的语音特征，D(·)表示根据输入的语音特征，判断其是否为干净的语音特征。然后，特征映射方法更有效地约束增强后的语音。

本发明的总损失

为GAN损失

特征映射损失

和特征匹配损失

的加权和，具体如下所示：

其中，λ_α和λ_β分别是特征映射损失和特征匹配损失的梯度回传系数，控制着网络训练时的平衡和稳定。

下面详细介绍一下本发明的渐进式训练方式，一般来说，网络很难直接从低信噪比的含噪语音到纯净语音中学习到性能优异的映射方法，因为在低信噪比的情况下，语音的细节被大量破坏。于是，本发明引导GAN从低信噪比的含噪语音中学习，并通过在网络中逐步添加层，并逐渐提高ground truth的信噪比。由此，在训练阶段，网络首先关注于容易消除的噪声或噪声中容易消除的明显特征，然后将注意力转移到更精细的特征上。这样通过将一个困难的任务分解成几个简单的任务，它使网络更有效地区分噪音和纯语音，而不是在训练期间学习所有的特征尺度。

测试结果表明，如果训练含噪语音是一种信噪比数据(如-10db)，则对其他不同信噪比的含噪语音的增强效果会显著降低。为了解决这个问题，在增加ground truth信噪比的同时，本发明在输入中混合了一部分低于目标信噪比的噪声语音，如图3所示，本发明拟定了7个训练阶段：在第一阶段，输入数据的信噪比为-10db，生成器为两层结构，网络只需学习从-10db到-5db的映射。在第二阶段，输入数据的信噪比为-10db和-5db，生成器为在第三阶段至第六阶段的四层结构，网络须学习从混合信噪比(-10db和-5db)到0db的映射。在第七阶段，本发明将混合从-10db到20db的数据(间隔为5db)喂给到网络中，这样减少了不同输入对网络的扰动。

在训练的初始阶段，由于特征信息较少，网络模型较小，语音的生成基本上是稳定。通过逐步提高目标信噪比，本发明不断地设定一个比最终目标更简单的任务，即从低信噪比的含噪语音映射到纯净语音映射，并且网络的收敛更平滑。其次，与相同深度(本发明模型的最大深度)的模型相比，大大减少了训练时间，因为大多数迭代都是在较少的网络层进行的。

本发明所要解决的关键技术问题是，解决在高噪声场景下语音信号的低信噪比问题：在现实的场景下，噪声对语音信号的干扰是不可避免的，在一些严重的情况下，语音将完全淹没在噪声中，无法区分原始的语义信息；并且，由于环境的复杂多变，现实中存在很多非平稳噪声，这些对语音增强任务来说是一个极具挑战性的问题；此外，一般情况下，在模型训练阶段网络的输入是多种信噪比混合的数据，然而不同信噪比的语音特征与纯净语音数据之间存在很大的差异，网络必须在训练阶段学习所有的尺度，因此，模型收敛的速度缓慢，不能很好地学习低信噪比数据到纯净数据的映射关系。这些问题使得真实场景中的语音增强任务变得比较困难，还有诸多问题有待解决。

本发明的优点和有益效果：

1、本发明提出了一个端到端的语音增强方法，可用于在高噪声环境中对低信噪比语音进行增强；在本发明的方法中，网络可以通过逐步增加数据的信噪比和提升网络的深度，逐步学习从含噪语音到纯净语音的映射关系，同时，渐进式训练的机制使训练更稳定，计算所需的复杂度更低。

2、除了传统的特征映射方法，本发明增加了一种基于判别器的特征匹配策略，来优化生成器的增强性能。在低信噪比环境下，本发明的网络具有更好的增强效果。同时本发明的网络从不同的语音信号(由不同区域采集)和噪声类型(100种，包含平稳噪声和非平稳噪声)中学习，并将它们整合到共享参数中。这使得网络在实际应用中具有一定的鲁棒性和可推广性。

3、本发明所提出的应用于语音增强方法的端到端的深度神经网络，通过测试得到了很好的证实，此外，该深度神经网络模型层数要比对比模型少近一半，通过分析与验证，本发明的语音增强方法取得了很大的性能和语音指标的提升。

附图说明

图1为应用于本发明的语音增强方法的端到端的模型的整体结构图。

图2为在渐进式的训练中通过增加网络深度进行语音增强学习的过程图。

图3为在渐进式的训练过程中通过同时增加网络深度和输入的信噪比进行语音增强学习过程图。

具体实施方式

实施例

下面结合具体实施方式对本发明作进一步的说明。

如图1所示，本发明提出了一种基于生成对抗网络的语音增强方法，该语音增强方法通过渐进式的训练方式，即同时增加数据的信噪比和网络层数，将较困难的语音去噪任务分解为几个简单的去噪任务，这样模型可以更容易地重建了纯净语音的分布。同时，将基于判别器的特征匹配与传统的特征映射方法相结合，这样可以减少了增强后语音的特征分布与纯净语音特征分布的差异。此外，利用GAN目标函数对网络进行了联合优化训练，使生成器和判别器之间的损失最小。如图2所示，本发明引导GAN从低信噪比的含噪语音中学习，并通过在网络中逐步添加层，并逐渐提高ground truth的信噪比。

(1)本发明使用的数据集；

在测试中，本发明使用AISHELL-2语料库的ios数据部分作为干净语音数据的来源,它包含了从不同地区的1991位说话人(845名男性和1146名女性)收集到的大约100万句语音(1000小时的语音数据)。本发明随机抽取20000条语音作为训练集，从其余数据中随机抽取2000条作为测试集。

为了生成噪声训练数据，本发明使用了Guoning Hu收集的100种不同的噪声数据。每条纯净语音从七种信噪比中随机选择一种(10，-5，0，5，10，15和20db)进行合成作为含噪语音。然后，本发明将各种信噪比的含噪语音和相应的纯净语音作为训练的数据对，将它们喂给本发明的模型。在训练中，本发明将不同信噪比的输入数据数目比例设置为相等的。同样，本发明合成了含噪语音测试集，包含4种信噪比(10、-5、0和5db)。

(2)测试描述；

在本发明的测试中，本发明使用Tensorflow框架作为训练工具。测试中使用的语音数据以16kHz的采样率进行重采样，本发明用短时傅立叶变换(STFT)提取了时频表示的语音信息。

模型的生成器网络包含7个编码器和7个解码器层(filter大小为4×4，stride为2)，卷积深度逐渐增加(16、32、64、128、256、512、1024)，并在相应的层上添加了skipconnection。解码器的深度与编码器相反，但每层的filter数量相同，最后连接到激活函数(Prelu)。判别器包含7个卷积层，卷积参数与产生器网络中的编码器相同，最后接入一个非线性的全连接层。由于渐进式训练方法的优点，本发明仅使用RMSprop(λ_α＝10和λ_β＝0.1，生成器的学习率为0.0005，判别器的学习率为0.0007)对网络进行了70个epochs的训练，从而获得更好的性能。

为了评估增强后的语音识别性能，本发明在纯净的AISHELL-2数据集ios部分上训练了一个ASR模型。本发明用对数滤波器组的谱图作为输入特征(滑窗20ms，跨步10ms)。ASR模型包含卷积层(3层，filter为41×11，21×11和21×11，stride分别为2×2，2×1和2×1)，BiLSTM层(5层，每层1024个单元)和一个全连接层。所有的测试都在2台NVIDIA TITAN1080Ti的工作站上进行。

(3)测试结果；

短时目标可懂度(STOI)是基于离散傅立叶变换(DFT)时频分解计算短时频域的可懂度指标。在低信噪比下，干净的语音受到的干扰更大，语音质量严重下降。表1列出了不同系统在测试数据中的平均STOI得分(10db、-5db、0db和5db)，并给出了生成器和判别器的隐藏层数。当信噪比小于0db时，本发明的方法的STOI得分优于SEGAN。总的来说，本发明比SEGAN取得了4.69％的相对提升。

PESQ是对语言质量的主观感知评估(从-0.5到4.5)。它使用被测噪声的干扰密度，这是感知响应和参考响度之间的绝对差异。在PESQ指数中，本发明的方法在每个信噪比上的得分都高于SEGAN，并实现了10.44％的相对改善，如表2所示。

在ASR任务中，如表3所示，与SEGAN相比，本发明的方法在-5db时的最大绝对提升率为7.4％。在低信噪比情况下，ASR模型的错误率仍然较高，主要原因是语音中的语义信息被噪声严重破坏，所以从中映射出纯净语音仍是一个挑战。简而言之，本发明的方法实现了约7.46％的相对提升。

本发明通过同时增加网络深度和数据的信噪比，网络可以逐步学习从噪声语音到干净语音的映射关系，并将基于判别器的特征匹配策略与传统的特征映射方法结合起来。此外，利用GAN目标函数对网络进行了联合优化训练，使生成器和判别器之间的损失最小。根据测试表明，本发明提出的方法在语音指标(STOI和PESQ)和语音识别任务中都有一定的性能提升。

然而在低信噪比情况下，人们会提高语音音量，以提高“听觉信噪比”，这就是Lombard效应。因此，在未来，本发明将收集一些低信噪比的真实数据进行研究。此外，探索一种更好的语音去噪网络结构，并结合噪声估计来提高算法的性能，这都是本发明接下来的研究任务。

表格说明如下：

表1

其中，STOI为短时客观可懂度，SNR表示数据的信噪比，Noisy表示未经过增强的数据，SEAGN表示进行对比的模型，FSDGAN表示本文的模型。

表2

其中，PESQ为语音质量的听觉评估，SNR表示数据的信噪比，Noisy表示未经过增强的数据，SEAGN表示进行对比的模型，FSDGAN表示本文的模型。

表3

其中，WER为词错误率，SNR表示数据的信噪比，Noisy表示未经过增强的数据，SEAGN表示进行对比的模型，FSDGAN表示本文的模型。

表1为在信噪比(10db、-5db、0db、5db)下不同语音增强系统的STOI百分比得分(短时目标可懂度)的表格，其中，D_h和G_h分别表示为生成器G和判别器D的隐藏层数。

表2为在信噪比(10db、-5db、0db、5db)下不同增强系统的PESQ得分(语言质量的主观感知评估)的表格，其中，D_h和G_h分别表示为生成器G和判别器D的隐藏层数。

表3为在信噪比(10db、-5db、0db、5db)下不同增强系统的ASR的错误率百分比的表格，其中，D_h和G_h分别表示为生成器G和判别器D的隐藏层数。

上列详细说明是针对本发明可行实施例的具体说明，该实施例并非用以限制本发明的专利范围，凡未脱离本发明所为的等效实施或变更，均应包含于本案的专利范围中。