CN108986835B

CN108986835B - 基于改进gan网络的语音去噪方法、装置、设备及介质

Info

Publication number: CN108986835B
Application number: CN201810985896.1A
Authority: CN
Inventors: 成学军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-11-26
Anticipated expiration: 2038-08-28
Also published as: CN108986835A

Abstract

本申请实施例提供了一种基于改进GAN网络的语音去噪方法、装置、设备及介质。该方法包括：获取待处理的语音数据；对待处理的语音数据进行特征提取，形成待处理语音的特征数据；计算待处理语音的特征数据的均值方差归一化处理值；将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出待处理的语音数据对应的去噪语音特征数据的理想掩膜值；根据去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据；其中，待处理的语音数据对应的去噪语音特征数据的理想掩膜值为待处理的语音数据对应的去噪语音特征数据和待处理语音特征数据的比值。能够对复杂分布的噪声信号也具有明显的去噪效果，有效提高了去噪效果。

Description

基于改进GAN网络的语音去噪方法、装置、设备及介质

技术领域

本申请实施例涉及语音增强技术领域，尤其涉及一种基于改进GAN网络的语音去噪方法、装置、设备及介质。

背景技术

语音增强是指当语音信号被各种各样的噪声打扰甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。语音增强很重要的一点是，针对带噪的语音进行噪声过滤，提高语句的清晰度与语音识别的准确率。

现有技术中，对语音进行去噪的方法主要有两种：传统的给予信号处理的方法，和先进的使用深度学习模型的方法。现有的先进的使用深度学习模型的方法普遍采用深度神经网络模型，长短期记忆网络模型，卷积神经网络模型的方法。

但现有技术中对语音进行去噪的方法只能对简单分布的噪声进行去除,对于复杂分布的噪声信号,无法有效去噪,并且有可能去除掉有价值的语音,导致去噪结果并不理想。

发明内容

本申请实施例提供一种基于改进GAN网络的语音去噪方法、装置、设备及介质，解决了现有技术中的对语音进行去噪的方法只能对简单分布的噪声进行去除,对于复杂分布的噪声信号,无法有效去噪,并且有可能去除掉有价值的语音,导致去噪结果并不理想的技术问题。

本申请实施例第一方面提供一种基于改进GAN网络的语音去噪方法，包括：获取待处理的语音数据；对所述待处理的语音数据进行特征提取，形成待处理语音的特征数据；计算所述待处理语音的特征数据的均值方差归一化处理值；将所述待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出所述待处理的语音数据对应的去噪语音特征数据的理想掩膜值；根据所述去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据；其中，所述待处理的语音数据对应的去噪语音特征数据的理想掩膜值为所述待处理的语音数据对应的去噪语音特征数据和待处理语音特征数据的比值。

本申请实施例第二方面提供一种基于改进GAN网络的语音去噪装置，包括：数据获取模块，用于获取待处理的语音数据；特征提取模块，用于对所述待处理的语音数据进行特征提取，形成待处理语音的特征数据；处理值计算模块，用于计算所述待处理语音的特征数据的均值方差归一化处理值；语音去噪模块，用于将所述待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出所述待处理的语音数据对应的去噪语音特征数据的理想掩膜值；去噪数据确定模块，用于根据所述去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据；其中，所述待处理的语音数据对应的去噪语音特征数据的理想掩膜值为所述待处理的语音数据对应的去噪语音特征数据和待处理语音特征数据的比值。

本申请实施例第三方面提供一种终端设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面所述的方法。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行如上述第一方面所述的方法。

基于以上各方面，本申请实施例通过获取待处理的语音数据；对待处理的语音数据进行特征提取，形成待处理语音的特征数据；计算待处理语音的特征数据的均值方差归一化处理值；将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出待处理的语音数据对应的去噪语音特征数据的理想掩膜值；根据去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据；其中，待处理的语音数据对应的去噪语音特征数据的理想掩膜值为待处理的语音数据对应的去噪语音特征数据和待处理语音特征数据的比值。由于均值方差归一化处理值和理想掩膜值作为样本数据对语音去噪具有显著的效果，所以将均值方差归一化处理值和理想掩膜值结合到GAN网络中，对GAN网络进行训练测试形成改进GAN网络，采用改进GAN网络对语音进行去噪，能够对复杂分布的噪声信号也具有明显的去噪效果。而且能够有效保护有价值的语音信号，有效提高了去噪效果。

应当理解，上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

图1为本申请实施例提供的基于改进GAN网络的语音去噪方法的应用场景图；

图2为本申请实施例一提供的基于改进GAN网络的语音去噪方法的流程图；

图3为本申请实施例二提供的基于改进GAN网络的语音去噪方法的流程图；

图4为本申请实施例二提供的基于改进GAN网络的语音去噪方法步骤301的流程图；

图5为本申请实施例三提供的基于改进GAN网络的语音去噪装置的结构示意图；

图6为本申请实施例四提供的基于改进GAN网络的语音去噪装置的结构示意图；

图7为本申请实施例五提供的终端设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了清楚理解本申请的技术方案，下面对本申请中涉及的算法进行解释：

GAN网络：目前已经成为人工智能学界一个热门的研究方向，GAN的基本思想源自博弈论的二人零和博弈，由一个生成器和一个判别器构成，生成器捕捉真实数据样本的潜在分布，并生成新的数据样本；判别器是一个二分类器，判别输入是真实数据还是生成的样本，生成器和判别器均可以采用神经网络模型，如深度神经网络模型，循环神经网络模型或卷积神经网络模型等。GAN的优化过程是一个极小极大博弈问题，优化目标是达到纳什均衡，使生成器估测到数据样本的分布。

本申请中，改进GAN网络是在原有GAN网络的基础上，改变了输入到生成器和判别器中的数据样本，并应用在语音去噪的领域中。

下面对本申请实施例提供的基于改进GAN网络的语音去噪方法的应用场景进行介绍。图1为本发明基于改进GAN网络的语音去噪方法的应用场景图，如图1所示，在进行语音识别时，安静环境下的语音识别的准确率能够达到96％以上，但远场或高噪环境下的语音识别准确率大幅度下降。但在应用智能手机11的地图导航，车载导航设备12的车载导航，智能语音设备13等场景中，会面临远场或高噪的环境，需要在语音识别系统111进行语音识别前，对语音进行有效的去噪处理。本发明实施例提供的基于改进GAN网络的语音去噪方法，采用改进GAN网络对语音进行去噪，由于均值方差归一化处理值和理想掩膜值作为样本数据对语音去噪具有显著的效果，所以将均值方差归一化处理值和理想掩膜值结合到GAN网络中，对GAN网络进行训练测试形成改进GAN网络，通过获取待处理的语音数据；对待处理的语音数据进行特征提取，形成待处理语音的特征数据；计算待处理语音的特征数据的均值方差归一化处理值；将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出待处理的语音数据对应的去噪语音特征数据的理想掩膜值；根据去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据。能够对复杂分布的噪声信号也具有明显的去噪效果。在进行语音去噪后，将去噪后的语音输入到各个场景的语音识别系统中，能够显著提高语音识别的准确性。

以下将参照附图来具体描述本申请的实施例。

实施例一

图1为本申请实施例一提供的基于改进GAN网络的语音去噪方法的流程图，如图1所示，本申请实施例的执行主体为基于改进GAN网络的语音去噪装置，该基于改进GAN网络的语音去噪装置可以集成在终端设备中。终端设备可以为智能手机，车载终端，智能语音设备等，智能语音设备可以为智能语音音箱，智能语音电视，智能语音冰箱等。则本实施例提供的基于改进GAN网络的语音去噪方法包括以下几个步骤。

步骤201，获取待处理的语音数据。

具体地，本实施例中，待处理的语音数据可以为用户语音数据，如用户发出的指令语音数据。该待处理的语音数据具有噪声，噪声可以为施工噪声，人流噪声，驾驶中产生的噪声，工厂噪声等，本实施例中对此不做限定。

其中，待处理的语音数据的长度可以为几秒钟，语音数据的帧长可以为32毫秒，帧移可以为10毫秒，待处理的语音长度，帧长和帧移还可以为其他数值，本实施例中对此不做限定。

步骤202，对待处理的语音数据进行特征提取，形成待处理语音的特征数据。

具体地，本实施例中，对待处理的语音数据进行声学特征的特征提取，特征提取的算法可以为mel filterbank特征提取算法，mfcc特征提取算法或plp特征提取算法，还可以其他特征提取的算法，本实施例中对此不做限定。

本实施例中，待处理语音的特征数据可以为表示为矩阵或向量形式。如待处理的语音特征数据表示为80维的数据。

步骤203，计算待处理语音的特征数据的均值方差归一化处理值。

具体地，本实施例中，计算待处理语音的特征数据中的每个维度元素的均值和方差，并对每个维度的均值和方差分别进行归一化处理，形成待处理语音的每个维度特征数据的均值方差归一化处理值。

其中，待处理语音的特征数据的均值方差归一化处理值也可表示为矩阵或向量的形式。

其中，由于对待处理语音的特征数据进行均值方差归一化处理，所以待处理语音的特征数据的均值方差归一化处理值的取值范围在(0,1)之间。将待处理的特征数据进行均值方差归一化处理，能够有效保留有价值的语音，抑制噪声。

步骤204，将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出待处理的语音数据对应的去噪语音特征数据的理想掩膜值。

其中，改进GAN网络不是采用常规的频谱对对GAN网络进行训练和测试后获得的。而是以每个加噪语音特征数据的均值方差归一化处理值作为GAN网络的生成器的训练样本，以每个加噪语音特征数据的均值方差归一化处理值及对应的干净语音特征数据的理想掩膜值组成的值对，以及每个加噪语音特征数据的均值方差归一化处理值及对应的去噪语音特征数据的理想掩膜值组成的值对作为GAN网络的判别器的训练样本对GAN网络的生成器和判别器进行训练及测试后获得的。

其中，改进GAN网络的生成器和判别器可以为深度神经网络模型，循环神经网络模型或卷积神经网络模型等神经网络模型。

具体地，本实施例中，将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，改进GAN网络的生成器根据待处理语音的特征数据的均值方差归一化处理值对待处理的语音数据进行去噪，生成去噪语音特征数据的理想掩膜值，并进行输出。

步骤205，根据去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据。

其中，待处理的语音数据对应的去噪语音特征数据的理想掩膜值为待处理的语音数据对应的去噪语音特征数据和待处理语音特征数据的比值。

具体地，本实施例中，由于待处理的语音数据对应的去噪语音特征数据的理想掩膜值为待处理的语音数据对应的去噪语音特征数据和待处理语音特征数据的比值。所以根据去噪语音特征数据的理想掩膜值和待处理语音的特征数据计算出待处理的语音数据对应的去噪语音特征数据，对待处理的语音数据对应的去噪语音特征数据进行特征提取的反变换，获得待处理的语音数据对应的去噪语音数据。

本实施例提供的基于改进GAN网络的语音去噪方法，通过获取待处理的语音数据；对待处理的语音数据进行特征提取，形成待处理语音的特征数据；计算待处理语音的特征数据的均值方差归一化处理值；将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出待处理的语音数据对应的去噪语音特征数据的理想掩膜值；根据去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据；其中，待处理的语音数据对应的去噪语音特征数据的理想掩膜值为待处理的语音数据对应的去噪语音特征数据和待处理语音特征数据的比值。由于均值方差归一化处理值和理想掩膜值作为样本数据对语音去噪具有显著的效果，所以将均值方差归一化处理值和理想掩膜值结合到GAN网络中，对GAN网络进行训练测试形成改进GAN网络，采用改进GAN网络对语音进行去噪，能够对复杂分布的噪声信号也具有明显的去噪效果。而且能够有效保护有价值的语音信号，有效提高了去噪效果。

实施例二

图3为本申请实施例二提供的基于改进GAN网络的语音去噪方法的流程图，如图3所示，本实施例提供的基于改进GAN网络的语音去噪方法，是在本申请实施例一提供的基于改进GAN网络的语音去噪方法的基础上，对步骤202的进一步细化，并且还包括了对GAN网络进行训练和测试，直到GAN网络收敛，以得到改进GAN网络的步骤以及对去噪后的语音数据进行语音识别的步骤。则本实施例提供的基于改进GAN网络的语音去噪方法包括以下步骤。

步骤301，对GAN网络进行训练和测试，直到GAN网络收敛，以得到改进GAN网络。

进一步地，本实施例中，GAN网络的生成器和GAN网络的判别器为以下模型的任意一种：

深度神经网络模型，循环神经网络模型或卷积神经网络模型。

具体地，本实施例中，在未对GAN网络进行训练和测试前，GAN网络中的生成器和判别器对应的神经网络模型不是优化的神经网络模型。

进一步地，本实施例中，图4为本申请实施例二提供的基于改进GAN网络的语音去噪方法步骤301的流程图，如图4所示，本实施例中，对GAN网络进行训练，具体包括：

步骤301a，对每个干净语音数据进行加噪处理，形成对应的加噪语音数据。

其中，干净语音的个数可以为几千个或上万个，本实施例中对此不做限定。

其中，每个干净语音数据可以为在安静环境下采集的语音数据，每个干净的语音数据可以为用户干净语音数据。每个干净语音数据的长度可以为几秒钟，帧长可以为32ms，帧移可以为10ms。本实施例中，对每个干净语音数据的长度，帧长和帧移不做限定。

具体地，本实施例中，对每个干净语音数据进行加噪处理，形成对应的加噪语音数据，加噪语音数据与干净语音数据具有相同的长度，帧长及帧移。

其中，加入的噪声可以为施工噪声，人流噪声，驾驶中产生的噪声，工厂噪声等，本实施例中对此不做限定。

步骤301b，对每个加噪语音数据进行特征提取，形成每个加噪语音特征数据。

进一步地，本实施例中，对每个加噪语音数据采用mel filterbank特征提取算法，mfcc特征提取算法或plp特征提取算法进行特征提取，形成每个加噪语音特征数据。

步骤301c，计算每个加噪语音特征数据的均值方差归一化处理值，将每个加噪语音特征数据的均值方差归一化处理值作为GAN网络的生成器的第一训练样本。

其中，第一训练样本为GAN网络的生成器的训练样本。

具体地，本实施例中，计算每个加噪语音特征数据中的每个维度元素的均值和方差，并对每个维度的均值和方差分别进行归一化处理，形成每个加噪语音每个维度特征数据的均值方差归一化处理值。

本实施例中，将每个加噪语音特征数据的均值方差归一化处理值作为GAN网络的生成器的第一训练样本，而非将每个加噪语音的频谱作为GAN网络的生成器的第一训练样本。每个加噪语音特征数据的均值方差归一化处理值取值在(0,1)之间，能够有效体现有价值的语音信号，抑制噪声信号。

步骤301d，将每个第一训练样本输入到GAN网络的生成器中，对GAN网络的生成器进行训练。

进一步地，本实施例中，将每个第一训练样本输入到GAN网络的生成器中，对GAN网络的生成器的神经网络模型进行训练，优化神经网络模型中的参数。

步骤301e，从GAN网络的生成器输出第一训练样本对应的去噪语音特征数据的理想掩膜值。

进一步地，本实施例中，去噪语音特征数据的理想掩膜值为去噪语音特征数据与对应的加噪语音特征数据的比值，其取值在(0,1)之间，能够有效体现有价值的语音信号，抑制噪声信号。

进一步地，如图4所示，本实施例中，对GAN网络进行训练，还包括：

步骤301f，对每个干净语音数据进行特征提取，形成每个干净语音特征数据。

进一步地，本实施例中，对每个干净语音数据采用mel filterbank特征提取算法，mfcc特征提取算法或plp特征提取算法进行特征提取，形成每个干净语音特征数据。

需要说明的是，对每个干净语音数据进行特征提取的算法与对加噪语音噪声进行特征提取的算法相同。

步骤301g，计算每个干净语音特征数据的理想掩膜值。

其中，干净语音特征数据的理想掩膜值为干净语音特征数据与对应的加噪语音特征数据的比值。其取值在(0,1)之间。

步骤301h，将每个加噪语音特征数据的均值方差归一化处理值及对应的干净语音特征数据的理想掩膜值组成的值对，以及每个加噪语音特征数据的均值方差归一化处理值及对应的去噪语音特征数据的理想掩膜值组成的值对作为GAN网络的判别器的第二训练样本。

具体地，本实施例中，每个加噪语音特征数据的均值方差归一化处理值及对应的干净语音特征数据的理想掩膜值组成的值对作为GAN网络的判别器的一个第二训练样本。每个加噪语音特征数据的均值方差归一化处理值及对应的去噪语音特征数据的理想掩膜值组成的值对也作为GAN网络的判别器的一个第二训练样本。在GAN网络的判别器中若输入加噪语音特征数据的均值方差归一化处理值及对应的干净语音特征数据的理想掩膜值组成的值对的第二训练样本，则判别器判断为1，在GAN网络的判别器中若输入加噪语音特征数据的均值方差归一化处理值及对应的去噪语音特征数据的理想掩膜值组成的值对作为第二训练样本，则判别器判断为0。

其中，第二训练样本为GAN网络的判别器的训练样本。

步骤301i，将第二训练样本输入到GAN网络的判别器中，对GAN网络的判别器进行训练。

进一步地，本实施例中，将第二训练样本输入到GAN网络的判别器中，对GAN网络的判别器的神经网络模型进行训练，优化神经网络模型的参数。

如图4所示，本实施例中，对GAN网络进行测试，具体包括：

步骤301j，获取待测试的加噪语音特征数据的均值方差归一化处理值作为GAN网络的生成器的测试样本。

进一步地，本实施例中，待测试的加噪语音数据具有对应的干净语音数据。对待测试的加噪语音数据进行相同算法的特征提取，并计算待测试的加噪语音特征数据的均值方差归一化处理值，将待测试的加噪语音特征数据的均值方差归一化处理值作为GAN网络的生成器的测试样本。

步骤301k，将测试样本输入到训练后的生成器中，输出待测试的加噪语音数据对应的去噪语音特征数据的理想掩膜值。

其中，待测试的加噪语音数据对应的去噪语音特征数据的理想掩膜值为去噪语音特征数据与待测试的加噪语音特征数据的比值。

步骤301l，根据理想掩膜值计算待测试加噪语音对应的去噪语音数据。

进一步地，根据理想掩膜值和待测试的加噪语音特征数据计算出去噪语音特征数据，根据去噪语音特征数据计算出去噪语音数据。

步骤301m，将去噪语音数据与待测试加噪语音的干净语音数据进行参数对比，以完成GAN网络的测试。

进一步地，本实施例中，将去噪语音数据与待测试加噪语音的干净语音数据进行参数对比，若参数满足语音去噪的要求，则该训练后的GAN网络满足要求，构成了改进GAN网络，若参数不满足语音去噪的要求，则需要再次对GAN网络进行训练，直到对待测试的语音数据测试后满足语音去噪的要求为止，此时GAN网络收敛，得到改进的GAN网络。

其中，参数可以为均值，方差或其他参数。

可以理解的是，若执行步骤301得到改进GAN网络后，后续对待处理语音信号进行去噪时不再执行步骤301。

步骤302，获取待处理的语音数据。

步骤303，对待处理的语音数据进行特征提取，形成待处理语音的特征数据。

进一步地，本实施例中，采用以下任一种特征提取算法对待处理的语音数据进行特征提取，形成待处理语音的特征数据。

特征提取算法为：mel filterbank特征提取算法，mfcc特征提取算法或plp特征提取算法。

需要说明的是，对待处理的语音数据进行特征提取的算法与获得改进GAN网络时对干净语音数据和加噪语音数据进行特征提取的算法相同。

步骤304，计算待处理语音的特征数据的均值方差归一化处理值。

步骤305，将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出待处理的语音数据对应的去噪语音特征数据的理想掩膜值。

步骤306，根据去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据。

本实施例中，步骤304-步骤306的实现方式与本发明实施例一提供的基于改进GAN网络的语音去噪方法步骤203-步骤205的实现方式相同，在此不再一一赘述。

步骤307，对去噪后的语音数据进行语音识别。

进一步地，本实施例中，将该基于改进GAN网络的语音去噪方法应用在手机地图导航，车载设备的车载导航或智能语音设备上。在对待处理的语音数据进行去噪后，通过语音识别系统对去噪后的语音数据进行语音识别。

本实施例提供的基于改进GAN网络的语音去噪方法，通过对GAN网络进行训练和测试，直到GAN网络收敛，以得到改进GAN网络，获取待处理的语音数据，对待处理的语音数据进行特征提取，形成待处理语音的特征数据，将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出待处理的语音数据对应的去噪语音特征数据的理想掩膜值，根据去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据，不仅能够对复杂分布的噪声信号也具有明显的去噪效果，能够有效保护有价值的语音信号，有效提高了去噪效果，而且将去噪后的语音输入到各个场景的语音识别系统中，能够显著提高语音识别的准确性。

实施例三

图5为本申请实施例三提供的基于改进GAN网络的语音去噪装置的结构示意图，如图5所示，本实施例提供的基于改进GAN网络的语音去噪装置包括：数据获取模块51，特征提取模块52，处理值计算模块53，语音去噪模块54，去噪数据确定模块55。

其中，数据获取模块51，用于获取待处理的语音数据。特征提取模块52，用于对待处理的语音数据进行特征提取，形成待处理语音的特征数据。处理值计算模块53，用于计算待处理语音的特征数据的均值方差归一化处理值。语音去噪模块54，用于将待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出待处理的语音数据对应的去噪语音特征数据的理想掩膜值。去噪数据确定模块55，用于根据去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据。

本实施例提供的基于改进GAN网络的语音去噪装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

实施例四

图6为本申请实施例四提供的基于改进GAN网络的语音去噪装置的结构示意图，如图6所示，本实施例提供的基于改进GAN网络的语音去噪装置在本申请实施例三提供的基于改进GAN网络的语音去噪装置的基础上，进一步地，还包括：训练测试模块61，加噪处理模块62，第一训练样本确定模块63，输出模块64，理想掩膜值计算模块65及第二训练样本确定模块66。

进一步地，特征提取模块52，具体用于：采用以下任一种特征提取算法对待处理的语音数据进行特征提取，形成待处理语音的特征数据；

进一步地，训练测试模块61，用于对GAN网络进行训练和测试，直到GAN网络收敛，以得到改进GAN网络。

进一步地，训练测试模块61包括：训练模块611。

其中，训练模块611，用于将每个第一训练样本输入到GAN网络的生成器中，对GAN网络的生成器进行训练；将第二训练样本输入到GAN网络的判别器中，对GAN网络的判别器进行训练。

进一步地，加噪处理模块62，用于对每个干净语音数据进行加噪处理，形成对应的加噪语音数据。特征提取模块52，还用于对每个加噪语音数据进行特征提取，形成每个加噪语音特征数据。处理值计算模块53，还用于计算每个加噪语音特征数据的均值方差归一化处理值。第一训练样本确定模块63，用于将每个加噪语音特征数据的均值方差归一化处理值作为GAN网络的生成器的第一训练样本。

进一步地，输出模块64，用于从GAN网络的生成器输出第一训练样本对应的去噪语音特征数据的理想掩膜值。

进一步地，特征提取模块52，还用于对每个干净语音数据进行特征提取，形成每个干净语音特征数据。理想掩膜值计算模块65，用于计算每个干净语音特征数据的理想掩膜值。第二训练样本确定模块66，用于将每个加噪语音特征数据的均值方差归一化处理值及对应的干净语音特征数据的理想掩膜值组成的值对，以及每个加噪语音特征数据的均值方差归一化处理值及对应的去噪语音特征数据的理想掩膜值组成的值对作为GAN网络的判别器的第二训练样本。

进一步地，训练测试模块61还包括：测试模块612。

测试模块612，用于获取待测试的加噪语音特征数据的均值方差归一化处理值作为GAN网络的生成器的测试样本；将测试样本输入到训练后的生成器中，输出待测试的加噪语音数据对应的去噪语音特征数据的理想掩膜值；根据理想掩膜值计算待测试加噪语音数据对应的去噪语音数据；将去噪语音数据与待测试加噪语音的干净语音数据进行参数对比，以完成GAN网络的测试。

进一步地，GAN网络的生成器和GAN网络的判别器为以下模型的任意一种：

本实施例提供的基于改进GAN网络的语音去噪装置可以执行图3和图4所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

实施例五

图7为本申请实施例五提供的终端设备的结构示意图，如图7所示，本实施例提供的终端设备70包括：一个或多个处理器71及存储器72。

其中，存储器72，用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器71实现如本申请实施例一提供的基于改进GAN网络的语音去噪方法或本申请实施例二提供的基于改进GAN网络的语音去噪方法。

相关说明可以对应参见图2，图3和图4的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

实施例六

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现如本申请实施例一提供的基于改进GAN网络的语音去噪方法或本申请实施例二提供的基于改进GAN网络的语音去噪方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种基于改进GAN网络的语音去噪方法，其特征在于，包括：

获取待处理的语音数据；

对所述待处理的语音数据进行特征提取，形成待处理语音的特征数据；

计算所述待处理语音的特征数据的均值方差归一化处理值；

将所述待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出所述待处理的语音数据对应的去噪语音特征数据的理想掩膜值；

根据所述去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据；

其中，所述待处理的语音数据对应的去噪语音特征数据的理想掩膜值为所述待处理的语音数据对应的去噪语音特征数据和待处理语音特征数据的比值。

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理的语音数据进行特征提取，形成待处理语音的特征数据，具体包括：

采用以下任一种特征提取算法对所述待处理的语音数据进行特征提取，形成待处理语音的特征数据；

所述特征提取算法为：mel filterbank特征提取算法，mfcc特征提取算法或plp特征提取算法。

3.根据权利要求2所述的方法，其特征在于，所述将所述待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出所述待处理的语音数据对应的去噪语音特征数据的理想掩膜值之前，还包括：

对GAN网络进行训练和测试，直到所述GAN网络收敛，以得到改进GAN网络。

4.根据权利要求3所述的方法，其特征在于，所述对GAN网络进行训练具体包括：

将每个第一训练样本输入到所述GAN网络的生成器中，对所述GAN网络的生成器进行训练；

将第二训练样本输入到所述GAN网络的判别器中，对所述GAN网络的判别器进行训练。

5.根据权利要求4所述的方法，其特征在于，所述将每个第一训练样本输入到所述GAN网络的生成器中，对所述GAN网络的生成器进行训练之前，还包括：

对每个干净语音数据进行加噪处理，形成对应的加噪语音数据；

对每个加噪语音数据进行特征提取，形成每个加噪语音特征数据；

计算每个加噪语音特征数据的均值方差归一化处理值，将每个所述加噪语音特征数据的均值方差归一化处理值作为所述GAN网络的生成器的第一训练样本。

6.根据权利要求5所述的方法，其特征在于，所述将每个第一训练样本输入到所述GAN网络的生成器中，对所述GAN网络的生成器进行训练之后，还包括：

从所述GAN网络的生成器输出第一训练样本对应的去噪语音特征数据的理想掩膜值。

7.根据权利要求6所述的方法，其特征在于，所述将所述第二训练样本输入到所述GAN网络的判别器中，对所述GAN网络的判别器进行训练之前，还包括：

对每个干净语音数据进行特征提取，形成每个干净语音特征数据；

计算所述每个干净语音特征数据的理想掩膜值；

将每个加噪语音特征数据的均值方差归一化处理值及对应的干净语音特征数据的理想掩膜值组成的值对，以及每个加噪语音特征数据的均值方差归一化处理值及对应的去噪语音特征数据的理想掩膜值组成的值对作为所述GAN网络的判别器的第二训练样本。

8.根据权利要求3所述的方法，其特征在于，所述对GAN网络进行测试，具体包括：

获取待测试的加噪语音特征数据的均值方差归一化处理值作为所述GAN网络的生成器的测试样本；

将所述测试样本输入到训练后的生成器中，输出待测试的加噪语音数据对应的去噪语音特征数据的理想掩膜值；

根据所述理想掩膜值计算所述待测试加噪语音对应的去噪语音数据；

将所述去噪语音数据与所述待测试加噪语音数据的干净语音数据进行参数对比，以完成GAN网络的测试。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述GAN网络的生成器和所述GAN网络的判别器为以下模型的任意一种：

10.一种基于改进GAN网络的语音去噪装置，其特征在于，包括：

数据获取模块，用于获取待处理的语音数据；

特征提取模块，用于对所述待处理的语音数据进行特征提取，形成待处理语音的特征数据；

处理值计算模块，用于计算所述待处理语音的特征数据的均值方差归一化处理值；

语音去噪模块，用于将所述待处理语音的特征数据的均值方差归一化处理值输入到改进GAN网络的生成器中，输出所述待处理的语音数据对应的去噪语音特征数据的理想掩膜值；

去噪数据确定模块，用于根据所述去噪语音特征数据的理想掩膜值确定待处理的语音数据的去噪语音数据；

11.根据权利要求10所述的装置，其特征在于，所述特征提取模块，具体用于：

12.根据权利要求11所述的装置，其特征在于，还包括：

训练测试模块，用于对GAN网络进行训练和测试，直到所述GAN网络收敛，以得到改进GAN网络。

13.根据权利要求12所述的装置，其特征在于，所述训练测试模块包括：训练模块：

所述训练模块，用于将每个第一训练样本输入到所述GAN网络的生成器中，对所述GAN网络的生成器进行训练；将第二训练样本输入到所述GAN网络的判别器中，对所述GAN网络的判别器进行训练。

14.根据权利要求13所述的装置，其特征在于，还包括：加噪处理模块及第一训练样本确定模块；

所述加噪处理模块，用于对每个干净语音数据进行加噪处理，形成对应的加噪语音数据；

所述特征提取模块，还用于所述对每个加噪语音数据进行特征提取，形成每个加噪语音特征数据；

所述处理值计算模块，还用于计算每个加噪语音特征数据的均值方差归一化处理值；

所述第一训练样本确定模块，用于将每个所述加噪语音特征数据的均值方差归一化处理值作为所述GAN网络的生成器的第一训练样本。

15.根据权利要求14所述的装置，其特征在于，还包括：

输出模块，用于从所述GAN网络的生成器输出第一训练样本对应的去噪语音特征数据的理想掩膜值。

16.根据权利要求15所述的装置，其特征在于，还包括：理想掩膜值计算模块，第二训练样本确定模块；

所述特征提取模块，还用于对每个干净语音数据进行特征提取，形成每个干净语音特征数据；

所述理想掩膜值计算模块，用于计算所述每个干净语音特征数据的理想掩膜值；

所述第二训练样本确定模块，用于将每个加噪语音特征数据的均值方差归一化处理值及对应的干净语音特征数据的理想掩膜值组成的值对，以及每个加噪语音特征数据的均值方差归一化处理值及对应的去噪语音特征数据的理想掩膜值组成的值对作为所述GAN网络的判别器的第二训练样本。

17.根据权利要求12所述的装置，其特征在于，所述训练测试模块还包括：测试模块；

所述测试模块，用于获取待测试的加噪语音特征数据的均值方差归一化处理值作为所述GAN网络的生成器的测试样本；将所述测试样本输入到训练后的生成器中，输出待测试的加噪语音数据对应的去噪语音特征数据的理想掩膜值；根据所述理想掩膜值计算所述待测试加噪语音数据对应的去噪语音数据；将所述去噪语音数据与所述待测试加噪语音的干净语音数据进行参数对比，以完成GAN网络的测试。

18.根据权利要求10-17任一项所述的装置，其特征在于，所述GAN网络的生成器和所述GAN网络的判别器为以下模型的任意一种：

19.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行如权利要求1-9中任一项所述的方法。