CN110390950B

CN110390950B - 一种基于生成对抗网络的端到端语音增强方法

Info

Publication number: CN110390950B
Application number: CN201910761150.7A
Authority: CN
Inventors: 吴建锋; 秦会斌; 徐敏; 秦宏帅; 王章权
Original assignee: Zhejiang Shuren University
Current assignee: Beijing Hengyi Zhihui Technology Co ltd
Priority date: 2019-08-17
Filing date: 2019-08-17
Publication date: 2021-04-09
Anticipated expiration: 2039-08-17
Also published as: CN110390950A

Abstract

本发明公开了一种基于生成对抗网络的端到端语音增强方法，将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号；其中，深度神经网络通过以下步骤训练得到：步骤S1：初步训练生成对抗网络，其中，所述生成对抗网络包括两个深度神经网络：生成器G和判别器D；步骤S2：通过传统基于统计学语音增强算法对模拟带噪语音进行知识蒸馏后，再次训练生成对抗网络；步骤S3：利用真实带噪语音对经上述步骤训练得到的生成器G进行微调；步骤S4：将经上述步骤训练的生成器G输出作为最终的深度神经网络以用于语音增强处理。

Description

一种基于生成对抗网络的端到端语音增强方法

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于生成对抗网络的端到端语音增强方法。

背景技术

单通道语音增强已经研究数十年，但其在自动语音识别、助听设备及免提移动通信等各种应用系统中仍面临着极大的挑战。传统语音增强算法通常基于统计学方法，包括噪声估计和语音估计。由于传统语音增强算法基于对语音信号和噪声信号的统计学模型假设，其性能很大程度上依赖于噪声估计的准确性。

为了在语音和噪声信号处理过程避免使用特定失真度准则和模型假设，研究者们提出大量基于数据驱动的语音增强方法，其中，近年来，生成对抗网络(GAN)称为深度学习领域研究的新热点，其结构和训练方法与传统的深度神经网络有很大的区别。传统的深度神经网络(DNN)一般直接使用原始数据作为网络的学习目标，反向传播的误差一般是网络的输出与真实数据的欧式距离等函数。而GAN尝试隐式地使用神经网络去拟合高维度数据的分布，即该方法属于机器学习领域的生成式模型方法。生成对抗网络最大的特点是，使用竞争对抗的方式同时训练一对网络模型，而不是分别单独训练模型。用个通俗易懂的类比来说明：一个神经网络模型类似于艺术作品的仿冒者，另一个神经网络模型类似于艺术作品的鉴定者。这个仿冒者，即生成对抗网络的生成器G，试图创作仿冒的艺术作品，他的最终目的是创作出极度真实的图像作品。这个鉴定者，即生成对抗网络的判别器D，收到仿冒者创作的图片和真实的图片，并试图鉴别出这两幅图片。生成器G和判别器D是同时训练的，并且是以一种相互竞争的机制在同时进行训练。

有学者将GAN应用于语音增强领域提出SEGAN(Speech Enhancement GAN)，实验结果显示在语音客观评测和主观评测方面取得了比传统算法更优的性能。然而，所有基于DNN的方法都是需要大量数据进行训练，获得的数据越多，就能获得更优的性能；当训练数据不是很充足时，学者们通常会用相同的数据训练多个不同的模型，然后平均它们的预测结果作为最终输出。很显然，训练多个不同模型的计算代价太大；同时，实际环境中的带噪语音，作为标注数据的纯净语音是无法获得的，因此，DNN往往在训练数据中表现优异，而在某些特定环境下的真实应用却性能一般。

故，针对现有技术的缺陷，实有必要提出一种技术方案以解决现有技术存在的技术问题。

发明内容

有鉴于此，确有必要提供一种基于生成对抗网络的端到端语音增强方法，在无法获得大量训练数据的情况下，能够进一步提高深度神经网络在语音增强应用中的泛化性能。

为了解决现有技术存在的技术问题，本发明的技术方案如下：

一种基于生成对抗网络的端到端语音增强方法，将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号；

其中，深度神经网络通过以下步骤训练得到：

步骤S1：初步训练生成对抗网络，其中，所述生成对抗网络包括两个深度神经网络：生成器G和判别器D，所述生成器G用于产生生成信号以逼近真实语音信号；所述判别器D用于判别所述生成器G产生的生成信号是否为真实语音信号并以此输出‘1’或‘0’；

所述步骤S1进一步包括：

步骤S11：获取第一训练数据，其中，第一训练数据包括模拟带噪语音及其相对应的纯净语音，均从标准数据集中直接得到，以纯净语音作为标签数据；

步骤S12：将第一训练数据输入到生成对抗网络，并以对抗学习的方式训练生成对抗网络；

步骤S2：通过传统基于统计学语音增强算法对模拟带噪语音进行知识蒸馏后，再次训练生成对抗网络，所述步骤S2进一步包括：

步骤S21：获取第二训练数据，其中，第二训练数据包括模拟带噪语音及该模拟带噪语音经过传统基于统计学语音增强算法处理后产生第一增强语音，以第一增强语音作为标签数据；

步骤S22：将第二训练数据输入到生成对抗网络，并以对抗学习的方式再次训练生成对抗网络；

步骤S3：利用真实带噪语音对经上述步骤训练得到的生成器G进行微调，所述步骤S3进一步包括：

步骤S31：获取第三训练数据，第三训练数据包括真实带噪语音及该真实带噪语音经过传统基于统计学语音增强算法处理后产生第二增强语音，以第二增强语音作为标签数据；

步骤S32：以真实带噪语音作为生成器G的输入数据，第二增强语音作为生成器G的目标输出，通过误差反向传播算法对生成器G进行训练；

步骤S4：将经上述步骤训练的生成器G输出作为最终的深度神经网络以用于语音增强处理。

作为进一步的优选方案，所述以对抗学习的方式训练生成对抗网络进一步包括：

步骤S101：训练判别器D，将标签数据输给判别器D并以‘1’作为判别器D的目标输出，通过误差反向传播算法对判别器D进行训练使其学习纯净语音的数据分布；

步骤S102：通过训练数据同时训练生成器G和判别器D，其中，对生成器G的训练中，生成器G的输入数据为模拟带噪语音，生成器G的目标输出为使所述判别器D输出‘1’；

对判别器D的训练中，判别器D的输入数据为生成器G产生的生成信号，判别器D的的目标输出为‘0’；

通过反向误差传播对生成器G和判别器D进行同时训练，以使所述生成器G产生的生成信号逼近纯净语音，同时使所述判别器D的判别能力进一步提高；

步骤S103：冻结经上述步骤训练的判别器D参数，对生成器G进行再次训练；其中，生成器G的输入数据为模拟带噪语音，生成器G的目标输出为使所述判别器D输出‘1’；所述生成器G不断产生生成信号并通过判别器D对该生成信号进行判别，直至所述判别器D输出‘1’。

与现有技术相比较，本发明具有如下技术效果：

1、本发明基于生成对抗网络通过对抗学习以半监督的方式训练深度神经网络，能够以零和博弈的方式进行自我训练，从而降低对训练数据的需求；

2、本发明利用传统基于统计学语音增强算法对数据集进行知识蒸馏，达到数据扩增的目的，并作为新数据训练神经网络，进一步提高神经网络的泛化性能；

3、本发明通过真实带噪语音数据对训练得到的生成器G进行微调，从而提高深度神经网络对实际应用中特定环境的适应能力；用于微调的训练数据通过传统统计学语音增强算法估计得到。

附图说明

图1为本发明语音增强方法的原理框图。

图2为本发明中基于对抗学习的语音增强算法流程框图。

图3为基于统计学语音增强算法的原理框图。

图4为深度神经网络的结构示意图。

图5为各种方法在开发集和验证集下SDR得分结果。

图6为各种方法在开发集和验证集下STOI得分结果。

图7为各种方法在开发集和验证集下eSTOI得分结果。

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明提供的技术方案作进一步说明。

先简单介绍几个相关技术：

生成式对抗网络结构与传统的深度神经网络(DNN)有很大的区别。首先，网络结构上，生成器并没有直接连接真实数据样例而只通过判别器间接地与真实数据样例进行误差传递，判别器同时连接从生成器合成的数据样例和从真实数据采样得到的数据样例。其次，反向传播误差的计算方法上，生成式对抗网络的误差仅仅是二值判决信号，即判别器判断所得到的数据样例是真实的数据样例还是从生成器生成的数据样例。最后，训练方法上，从判别器得到的该误差信号反馈给生成器用于指导其下一步训练，使得生成器能产生出更接近真实数据的数据样例。

现有技术中，对深度神经网络(DNN)的训练通常采用有监督训练，也即通过有标记的训练数据训练DNN，也即，将训练数据输入DNN，并使DNN输出接近标签数据，这个过程通常采用误差反向传播算法。其中，标签数据作为DNN的目标输出，通过误差反向传播算法使反向传播的误差最小化，比如最小化网络的输出与标签数据的欧式距离等。

目前，将DNN应用于语音增强的主要挑战是如何获得更多的训练数据，尤其是在真实应用环境下，作为标签数据的纯净语音通常没办法直接获得。在训练数据不足的情况下，现有基于DNN的语音增强方法，通常在相同数据上训练多个不同模型然后平均其预测，或使用大量噪声类型来扩大模拟带噪语音的，训练多个模型极大提高了计算成本，同时，所模拟的带噪语音并不能涵盖所有真实案例。

为了解决现有技术存在的上述技术问题，本发明提出一种基于生成对抗网络的端到端语音增强方法，基于生成对抗网络，通过竞争对抗学习的方式预先训练一个端对端的深度神经网络，实际应用时，将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号。

参见图1，所示为本申请的原理框图，其中，深度神经网络通过以下步骤训练得到：

步骤S1：初步训练生成对抗网络，其中，生成对抗网络包括两个深度神经网络：生成器G和判别器D，所述生成器G用于产生生成信号以逼近真实语音信号；所述判别器D用于判别所述生成器G产生的生成信号是否为真实语音信号并以此输出‘1’或‘0’；在训练中，生成器G学习训练数据分布的，判别器D学习到纯净语音的分布并以此判决样本来自训练数据或是生成器生成数据的概率。在SEGAN的结构中，G的输入是带噪声的语音，G的预期输出是纯净语音。因此，生成器G执行语音增强。

所述步骤S1进一步包括：

步骤S11：获取第一训练数据，其中，第一训练数据包括模拟带噪语音及其相对应的纯净语音，均从标准数据集中直接得到，以纯净语音作为标签数据；也就是说，第一训练数据中的模拟带噪语音及作为标签数据的纯净语音都是完全确定的。

参见图2，所示为基于对抗学习的语音增强算法流程框图，类似与，生成器G和判别器D之间的零和博弈，首先，D先反向传播学习纯净语音，然后，D反向传播生成器G生成的语音并对其进行判别，此过程，同时训练G和D；最后，冻结D的参数，G反向传播直至D做出误判。具体过程包括如下步骤：

在上述训练过程中，G的训练输入是带噪语音信号

z为隐藏层表示参量，G的输出是增强后的语音

因此，理论上,G的训练过程可以阐述为最小化以下损失函数：

其中，附加了L₁正则化项，其实最小化生成器G的生成信号和纯净语音x之间的欧氏距离，λ为权重参数。

通过步骤S1的训练，生成器G能够学习到从模拟带噪语音和纯净语音之间的映射关系。

为了进一步提高在步骤S1中训练的生成器G的泛化性能，申请人提出从传统基于统计学的语音增强算法中进行知识蒸馏，而不是像现有技术一样去构建更复杂的训练集。基于统计学的语音增强算法为现有技术普遍使用的传统语音增强方法，比如采用IMCRA-OMLSA算法，IMCRA最小控制迭代平均(Improved Minima Contrllled RecursiveAveraging)性能较佳的噪声估计方法之一，最优修正对数幅度估计OMLSA(OptimallyModifiled Log Spectral Amplitude)是性能较佳的传统基于统计学的方法之一。在知识蒸馏步骤中，重新步骤S1中使用过的模拟带噪语音输入到基于统计学的语音增强算法得到第一增强语音，然后，将模拟带噪语音和相对于的第一增强语音重新构成新的第二训练数据。在机器学习的观点中，获得新训练对的过程可以被认为是数据扩增。随后，我们用步骤S1得到的权重重新训练判别器D和生成器G。该过程中的知识蒸馏，可以理解为使用传统的基于统计学语音增强方法来获得增强语音，从而为DNN获得更多的训练对。也就是说，我们通过从传统的基于统计的方法中提取知识来训练基于DNN的模型。也可以理解为神经网络使用大模型(即教师)在没有更多训练数据的情况下教授小模型(即学生)。给定训练数据，教师模型可以产生更多“软目标”来教授学生模型。学生模型可以进一步了解教师模型“教授”的内容。在本发明中，基于统计学的语音增强算法是教师，DNN是学生。给定模拟的带噪语音，DNN可以学习基于统计学的方法的内在映射功能。具体训练过程参见步骤S2。

步骤S22：将第二训练数据输入到生成对抗网络，并以对抗学习的方式再次训练生成对抗网络，其中，对抗学习的方式再次训练生成对抗网络参见上述步骤S101-S103以及图2。

基于上述步骤，生成器网络G已经从模拟带噪语音中学习了纯净语音信号的高级特征。然而，所有先前步骤的明显缺点是模拟带噪语音不能覆盖所有实际情况，例如噪声类型，信噪比和加性噪声假设。

为了提高语音增强算法在特定应用场景下的泛化性能，本发明提出如下方式：

在步骤S3中，使用真实带噪语音来微调在之前步骤中训练的生成器G，由于仅使用生成器G在增强阶段执行语音估计，判别器D不参与该训练步骤。然而，实际应用场景下，作为标签数据的纯净语音是无法获得的，本申请提出通过传统统计学语音增强算法(IMCRA-OMLSA)估计得到第二增强语音，并和真实带噪语音构成新的第三训练数据，通过微调实现针对实际应用的一些特定环境的适应过程。在机器学习的观点中，微调步骤是迁移学习过程。

综上所述，本发明提出了一种基于生成对抗网络的端到端语音增强方法，其主要创新在于，提出了一种基于语音增强的深度神经网络训练方法，从而能特定数据集下，获得更优的泛化性能，其原理是通过传统基于统计学的语音增强算法对数据集进行知识蒸馏，从而达到数据扩增的目的；同时，通过传统基于统计学的语音增强算法对真实带噪语音进行处理得到增强语音，并将其应用于神经网络训练，从而提高特定环境下语音增强的适应能力。具体流程参见步骤S1至S3以及步骤S101至步骤S103。

通过上述步骤训练的深度神经网络可以应用实际语音增强系统，端到端的语音增强系统在结构上较为简单，包括麦克风和语音增强单元，将通过上述步骤预先训练好的深度神经网络导入到语音增强单元，麦克风用于获取实际环境下的真实带噪语音，语音增强单元通过深度神经网络对真实带噪语音进行处理并输出增强后的语音。

上述中语音增强单元为具有一定计算和存储能力的装置，比如服务器、PC、移动终端等智能设备。

上述技术方案中，基于统计学语音增强算法是目前普遍的语音增强方法，其结构框图如图3所示，下面简述其原理：

其中，y(n)表示带噪语音的时域信号，基于加性噪声的假设：

y(n)＝x(n)+d(n) (2.1)

其中，x(n)和d(n)分别表示纯净语音和噪声的时域信号，传统语音增强通常在频域进行信号处理，因此，要进行短时傅里叶变换(STFT，Short Time Fourier Transform),也即对y(n)进行加窗分帧并对每一帧信号分别进行傅里叶变换得到Y_tk，其中，t和k分别表示时间上的帧和频域上的频带。对公式2.1进行STFT：

Y_tk＝X_tk+D_tk,t＝1,2,......,T；k＝1,2,......,K (2.2)

X_tk、D_tk分别表示纯净语音和噪声的频谱，T和K分别表示信号的总帧数和总频带数。

在语音增强中通常计算功率谱，对公式2.2两边进行平方操作，基于加性噪声和各频点独立分布的假设，可近似表示为：

Y_tk ²＝X_tk ²+D_tk ² (2.3)

对Y_tk在频域执行语音增强算法进行降噪处理得到估计的语音谱

再对

进行短时傅里叶逆变换获得增强后的语音信号

基于统计学框架下，频域语音增强任务可以阐述为从带噪语音谱中Y_tk基于某种失真量度下估计得到纯净语音谱

用

表示失真量度，通过最小化

获得

的最优估计值。在传统语音估计算法中，最广泛使用的是最小均方误差准则(MMSE)。首先计算带噪语音的对数功率谱，然后对每一帧数据判断是语音帧还是噪声帧，或者其存在概率；如果判断为噪声帧，通过噪声估计算法估计噪声，如果是语音帧，在当前噪声估计的情况下，通过语音估计算法估计语音幅度谱，然后利用原有带噪语音的相位信息得到语音谱。由此可知，传统语音增强中最为关键的是噪声估计和语音估计这两个过程，现有技术中，IMCRA是最为优秀的噪声估计算法之一，OMLSA是最为优秀的语音估计算法。在本发明一种优选实施例中，基于统计学语音增强算法采用IMCRA-OMLSA算法。

上述技术方案中，生成对抗网络的生成器G和判别器D一般由多层的神经网络层组成，全连接层神经网络、自编码器或者卷积神经网络。

上述技术方案中，标准数据集采用CHiME4数据语料库，该语料库包括纯净语音和模拟带噪数据，从而不需要重新构建带噪语音。从5k WSJ0-Corpus中能够获取四种场景下不同类型噪声的，即巴士(BUS)，咖啡厅(CAF)，步行区(PED)和街口(STR)。共有8738条语音用于训练，3280条语音用于验证，以及2640条语音用于测试。

在一种优选实施方式中，生成对抗网络和训练参数的设置如下。参见图4，生成器G使用自动编码器架构，其具有从编码器到解码器的跳跃连接。编码器由22个滤波器宽度为31和步幅2的一维卷积层组成，解码器是具有相同参数集的编码器的镜像。判别器D遵循与G的编码器相同的一维卷积结构。所有层的权重由Xavier初始化器初始化，并且所有偏置用零初始化。采用RMSprop优化器来训练模型，学习率设置为固定值0.0002的。为了最小化生成的语音和真正干净的语音之间的距离，采用L₁正则化，同时，权重参数λ设置为100。执行训练算法的工作站具有Intel Xeon E5-2630CPU和两个GTX1080ti GPU。

下面通过实验来验证本发明技术方案的技术效果。感知语音质量评分(PESQ，perceptual evaluation of speech quality)、信号失真比(SDR，signal to distortionratios，以dB为单位)、短时客观可懂度(STOI，short-time objective intelligibility)和和扩展短时客观可懂度(eSTOI，extended STOI)广泛用于评估增强语音信号的质量。对于模拟带噪语音数据，能够获得纯净语音作为标签数据，而对于真实带噪语音数据，作为标签数据的纯净语音是无法获得的。因此，我们使用近场(close-talking)麦克风录音作为纯净语音。实验中使用SEGAN和OMLSA与本发明进行比较。此外，还和带噪语音进行比较(由NONE表示)。

在开发集和验证集上进行语音质量测试，SDR，STOI和eSTOI得分如图5-7所示，其中dev和eval分别是开发和验证集的缩写。结果表明，采用模拟数据时，本发明的方法优于SEGAN和OMLSA，采用真实数据时，本发明的方法与OMLSA算法性能相当。例如，在开发集的模拟数据中，与SEGAN和OMLSA相比，在SDR指标中，本发明提出的方法实现了约26.01％和21.10％的相对增益提升。又比如，在验证集的真实数据中，本发明的方法的eSTOI得分为0.34，而SEGAN和OMLSA的eSTOI得分分别为0.28和0.31。

图5-7的实验结果是所有环境条件的平均得分，接下来再对比各种算法在不同环境类型下的性能表现，比如BUS，CAF，PED和STR等场景下。在本实验中，使用PESQ作为评估性能的标准。表1中的PESQ结果表明，对于真实数据，所有方法在PED中均获得最高分，同时在BUS中均获得最低分数。这是因为录制的音频中，公交车环境比步行区噪音大得多。从表1结果中可以得出结论，本发明所提出的方法对噪声类型不敏感，并且比SEGAN更稳健。

表1不同场景下算法性能比较

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于生成对抗网络的端到端语音增强方法，其特征在于，将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号；

其中，深度神经网络通过以下步骤训练得到：

所述步骤S1进一步包括：

步骤S4：将经上述步骤训练的生成器G输出作为最终的深度神经网络以用于语音增强处理；

所述以对抗学习的方式训练生成对抗网络进一步包括：

步骤S103：冻结经上述步骤训练的判别器D参数，对生成器G进行再次训练；

其中，生成器G的输入数据为模拟带噪语音，生成器G的目标输出为使所述判别器D输出‘1’；所述生成器G不断产生生成信号并通过判别器D对该生成信号进行判别，直至所述判别器D输出‘1’。