CN111564160A

CN111564160A - 一种基于aewgan的语音降噪的方法

Info

Publication number: CN111564160A
Application number: CN202010316731.2A
Authority: CN
Inventors: 胡章芳; 徐轩; 罗元; 张毅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Hongyue Information Technology Co ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-21
Anticipated expiration: 2040-04-21
Also published as: CN111564160B

Abstract

本发明请求保护一种基于AEWGAN的语音降噪方法，该方法包括步骤：S1，将时域语音信号做为AEWGAN的生成器的输入，使用无监督方式让生成器自动生成新的语音；S2，将纯净语音和生成语音做为判别器的输入，训练判别器对干净语音的判别能力；S4，同时，在模型训练的过程会各自更新自身的参数使得损失最小，通过不断迭代优化，最终达到一个纳什均衡，此时模型达到最优；该发明能够有效的去除带噪语音信号的噪声，为后续的语音识别模型提供干净的语音信号，且鲁棒性好。

Description

一种基于AEWGAN的语音降噪的方法

技术领域

本发明属于语音信号处理领域，特别是一种基于AEWGAN的语音降噪方法。

背景技术

语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在实际环境中,语音信号总是会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒质中引入的噪声、通信设备内部电噪声乃至其他说话人的干扰等等。这些干扰会使接收端的语音成为受噪声污染的语音,当噪声干扰严重时,语音将完全淹没到噪声中,使其无法分辨。语音增强是解决噪声污染的一种有效方法,它是从带噪语音信号中提取尽可能纯净的原始语音。总的来说语音增强的目标主要有:改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳；提高语音可懂度,方便听者理解。但由于噪声来源众多,随着应用场合不同,它们的特性也各不相同,即使在实验室室仿真条件下,也难以找到一种通用的语音增强算法,能适用于各种噪声环境,因此必须根据不同的噪音,采取特定的语音增强策略来降低噪音。

传统的语音增强算法都有各自缺点，维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维纳滤波来增强语音存在一定的缺陷。以均方误差或方差最小为准则,对噪声信号进行最优估计,然后从带噪语音中减去噪声达到降噪,提高信噪比,增强语音的目的。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参,以满足某种准则的要求,从而实现最优滤波。因此,自适应滤波器具有“自我调节”和“跟踪”能力。此方法的关键是如何得到带噪语音中的噪声。在多声道采集系统中,两个话筒间要有一定的距离,因而实时采集的两路信号的噪声不同,而且还受到回声及其他可变衰减特性的影响。在用单声道系统来采集带噪语音时,必须在语音间歇期间利用采集到的噪声进行估值,如果噪声是非平稳的,会严重影响语音的增强效果,另一个缺点是增强后的语音中含有明显的“音乐噪声”。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于AEWGAN的语音降噪的方法。本发明的技术方案如下：

一种基于AEWGAN的语音降噪的方法，其包括以下步骤：

S1、测试阶段，获取一维的语音信号并转成一维离散语音信号，作为AEWGAN的输入；

S2、训练阶段，将一维离散语音信号输入AEWGAN的生成器中，利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系，接着再通过反卷积层生成新的语音信号；

S3、将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中，训练一个能够识别纯净语音信号的判别器，判别器中的DNN网络利用BP传播法对网络参数进行调整，利用惩罚因子对神经元节点进行稀疏性限制；

S4、判别器拟合出一个复杂的函数，该函数用于判断真实样本与生成的样本之间的Wasserstein距离；

S5、用训练集对模型进行训练，利用Adam算子优化目标函数；

S6、使用验证集对训练后的模型进项交叉验证，调整模型的超参数(迭代批次、批次大小和学习率，在训练过程中对超参数设定不同的值)，得到最终网络模型，利用最终网络模型进行语音降噪。

进一步的，所述步骤S1获取一维的语音信号并转成一维离散语音信号，具体包括；

(输入约为1s的带噪语音，该语音的采样频率为8000Hz，为8192×1的一维向量。)

进一步的，所述步骤S2将带噪语音信号输入AEGAN的生成器中，利用卷积网络提取信号特征，接着再通过反卷积层生成新的语音信号，并在对应卷积和反卷积层引入U-Net结构，假设生成器网络总层数为n，使用跳跃连接技术通过对i层与n-i层相连接，该做法有效地将编码阶段的信息传递给解码阶段，使得网络梯度能更好地传播。U-Net结构的表达式为：

其中，x^i,j表示输出，i沿编码器索引下采样层，j表沿着跳跃路径对稠密块进行索引的卷积层，H[·]函数为卷积运算，u[·]为上采样层，[·]为级联层。

进一步的，所述步骤S2利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系，接着再通过反卷积层生成新的语音信号；

语音信号和带噪语音信号的非线性表达式为：

y(t)＝x(t)+z(t)

其中x(t)为干净语音，z(t)为噪声，y(t)为带噪语音。

生成器分为两个部分，编码和解码。编码部分由一维卷积组成，主要是对输入的带噪语音进行编码：

x_i+1＝ReLU(∑X·ω_i+b_i)

其中x_i+1表示第i层卷积后的结果，ω_i表示为第i层的权重参数，b_i表示第i层的偏置值，ReLU为线性整流单元结构。

ReLU(x)＝max(0,x)

而解码由反卷积构成，因此得到新的语音信号为：

其中，

为反卷积核，

表示反卷积核在输入特征X上滑动进行能反卷积运算

进一步的，所述S3将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中，训练一个能够识别纯净语音信号的判别器，判别器的表达式：

z＝∑w_ix_i+b

x_i+1＝σ(z)

其中x_i为输入语音信号，w_i为权重参数，b为偏置值，σ(z)为Sigmoid激活函数。

判别器中的DNN网络利用BP传播法对网络参数进行调整，利用惩罚因子对神经元节点进行稀疏性限制。

进一步的，所述判别器中的DNN网络利用BP传播法对网络参数进行调整，利用惩罚因子对神经元节点进行稀疏性限制，具体包括：

在激活函数为sigmoid的情况下，当神经元输出接近1的时候被认为是激活状态，输出接近0的时候被认为处于抑制状态，所谓稀疏性限制，即神经元多数时间被限制为处于抑制状态的规则，用

表示输入为x的情况下，隐藏神经元j的活跃度，将隐藏层神经元节点j的平均活跃度记为：

m为每层网络的神经元节点数，则稀疏性限制记为

其中ρ为稀疏性参数，通常是一个接近于0的较小值，为了实现此限制需加入惩罚因子，对导致

情况的活跃神经元进行惩罚，从而使神经元平均活跃度保持在较小范围内，惩罚因子式为：

其中：其中：S₂表示隐藏层神经元数量、KL散度表达式为：

惩罚因子性质为当

时

随着

和ρ间的差异增大而单调递增，要使

和ρ的值靠近，可以通过最小化惩罚因子的方法，总体代价函数为：

其中β为控制稀疏性惩罚因子的权重，W为权重参数、b为偏置值。

进一步的，所述步骤S4判别器拟合出一个复杂的函数，该函数用于判断真实样本与生成的样本之间的Wasserstein距离，具体包括：

在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量，Wasserstein距离的定义如下：

其中inf(·)表示为·函数的下界，P₁和P₂为概率分布，γ为每一个可能的集合分布，x、y为样本值。E_(x,y)～γ[||x-y||]表示为x与y的Wasserstein距离，Π(P₁,P₂)为P₁和P₂的联合分布集合，γ服从Π(P₁,P₂)，在(x,y)～γ分布条件下，求得E_(x,y)～γ[||x-y||]，结果为x与y距离的期望，Wasserstein距离就是对该期望求其下界值，将上式转换为：

该式中sup(·)为函数·的上界，|f||_L≤K定义为：

|f(x₁)-f(x₂)|≤K|x₁-x₂|

K为函数f(x)的Lipschitz常数，同时K也可以理解为梯度，即在神经网络f(x)中x的梯度绝对值小于K；

判别器用FDNN网络模拟的函数无限逼近于Wasserstein距离，从而计算出真实样本和生成样本之间的Wasserstein距离。

进一步的，判别器网络的优化目标函数为：

L(w)表示判别器的优化目标函数，

表示为求x样本的均值，

表示为求z样本均值，f_w(x)表示判别器拟合的函数，f_w(G(z))表示生成器生成的语音样本在判别器中值到的距离值，w为判别器网络中的权重参数，P_data和P_z为真实样本和生成样本的分布，在本网络中由于K值不影响f_w(x)的梯度方向，所以取为1，而生成器中为了让Wasserstein距离最小也需要进行优化，优化目标函数为：

其中L(G)表示生成器的优化目标函数，由于该式中和生成器网络无关，可以等价为：

另外在训练的过程中，必须满足条件|f||_L≤K，所以在每次更新权重后对权重进行参数截断，把权重的值控制在[-c,c]。

进一步的，使用梯度惩罚来替换参数截断，通过额外设置的梯度惩罚项，实现满足条件|f||_L≤K，最终生成器网络和判别器网络的目标函数如下：

式中的

表示为f_w(x_t)的梯度，

表示

的2范数，λ₁为惩罚因子。

进一步的，所述步骤S5用训练集对模型进行训练，利用Adam算子优化目标函数，Adam优化算法是随机梯度下降算法的优化，该算法是Momentum算法与RMSprop算法的结合。

其中Momentum算法过程为；

vdw＝βvdw+(1-β)dW

vdb＝βvdb+(1-β)db

W＝W-αvdw

b＝b-αvdb

其中vdw和vdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量，β是梯度累积的一个指数。dw和db分别是损失函数反向传播时候所求得的梯度，α是网络的学习率。

RMSprop算法过程：

sdw＝βsdw+(1-β)dW²

sdb＝βsdb+(1-β)db²

其中sdw和sdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量，β是梯度累积的一个指数。ε来进行平滑，防止分母为0。

设在训练的第t轮训练中，我们首先可以计算得到Momentum和RMSProp的参数更新，由于移动指数平均在迭代开始的初期会导致和开始的值有较大的差异，所以我们需要偏差修正。

因此求得在第t轮迭代过程中，参数梯度累积量的修正值，从而接下来就可以根据Momentum和RMSProp算法的结合来对权重和偏置进行更新。

上面的所有步骤就是Momentum算法和RMSProp算法结合起来从而形成Adam算法。其中β₁的值为Momentum算法的β值，β₂为RMSProp的β值。

本发明的优点及有益效果如下：

大多数的传统语音降噪算法都是基于统计学模型，先是对噪声分布进行建模，而后根据建模结果去除噪声，获得纯净语音。但是随着信噪比降低，传统的降噪算法会失效，造成大量噪声余留以及语音失真；其二，由于传统语音降噪算法附带一些不合理的假设，例如噪声信号与语音信号在统计上是相互独立的、噪声是平稳的等，导致无法在现实场景中应用。针对以上问题，本文提出了一种基于AEWGAN的语音降噪方法，训练AEWGAN的生成器和判别器参数后，生成器可以自动将去除带噪语音的噪声信号，且泛化性好、鲁棒性强。其二，AEWGAN可以训练各类噪声，因此只要在数据量足够的前提下，生成器在训练完成后，可以去除语音中的各类噪声，生成出去噪的干净语音。

附图说明

图1是本发明提供优选实施例AEWGAN中生成器模型结构；

图2为AEWGAN中判别器模型结构；

图3为本发明优选实施例发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明引入了深度学习理论中的对抗生成网络(GAN)用于语音降噪中，在GAN中的生成器网络中使用了自编码网络(AutoEncoder)结构，并且在对应卷积层和反卷积层引入了U-Net结构，然后在GAN中引入Wasserstein距离，改善普通GAN的梯度消失问题和模式崩溃问题以及传统语音降噪方法的缺点。并在判别器网络中，加入惩罚因子对神经元节点进行稀疏性限制。基于以上的改进，本发明提出了一种基于AEWGAN的语音降噪方法，技术方案如下：

基于以上结构，本发明对传统GAN结构提出了改进，针对传统GAN的梯度消失问题和模式崩溃问题，在生成器中使用卷积层和反卷积代替传统生成器中的DNN层，利用卷积提取语音信号特征，然后接入反卷积层生成去噪语音信号，并在对应卷积和反卷积层引入U-Net结构，如图1所示。由于传统的GAN使用的是JS和KL散度计算真实样本和生成样本分布之间的差异，但容易造成梯度消失、模式崩溃、自由不可控等问题。因此在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量，如图2所示。并在判别器中加入稀疏惩罚因子，解决判别器过拟合的问题，

本发明在传统GAN中的生成器中使用了自编码网络(AutoEncoder)结构，并且在对应卷积层和反卷积层引入了U-Net结构，并在判别器网络中，加入惩罚因子对神经元节点进行稀疏性限制，并使用Wasserstein距离对真实样本和生成样本的距离进行度量。。改善普通GAN的梯度消失问题和模式崩溃问题以及解决判别器过拟合的问题，在语音降噪的任务中优于传统降噪算法。

S1、将带噪语音信号输入AEGAN的生成器中,利用卷积网络提取信号特征，接着再通过反卷积层生成新的语音信号，并在对应卷积和反卷积层引入U-Net结构，这种结构相比普通的CNN网络具有局部感知能力，使得在深层的卷积中能够有浅层的简单特征，使得卷积的输入更加丰富，自然得到的结果也更加能够反映图像的原始信息，U-Net结构表达式为；

S2、将生成语音信号和干净语音信号输入AEGAN的判别器中，训练一个能够识别纯净语音信号的判别器。判别器中的DNN网络利用BP传播法对网络参数进行调整，利用惩罚因子对神经元节点进行稀疏性限制；

在激活函数为sigmoid的情况下，当神经元输出接近1的时候被认为是激活状态，输出接近0的时候被认为处于抑制状态。所谓稀疏性限制，即神经元多数时间被限制为处于抑制状态的规则。用

表示输入为x的情况下，隐藏神经元j的活跃度。将隐藏层神经元节点j的平均活跃度记为：

则稀疏性限制记为

其中ρ为稀疏性参数，通常是一个接近于0的较小值(如ρ＝0.05，表示神经元节点j的平均活跃度为0.05)。为了实现此限制需加入惩罚因子，对导致

情况的活跃神经元进行惩罚，从而使神经元平均活跃度保持在较小范围内。惩罚因子式为：

其中：

惩罚因子性质为当

时

随着

和ρ间的差异增大而单调递增。要使

和ρ的值靠近，可以通过最小化惩罚因子的方法。总体代价函数为：

其中β为控制稀疏性惩罚因子的权重。

S4，由于传统的GAN使用的是JS和KL散度计算真实样本和生成样本分布之间的差异，但容易造成梯度消失、模式崩溃、自由不可控等问题。因此在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量。Wasserstein距离的定义如下：

其中inf(·)表示为·函数的下界，Π(P₁,P₂)为P₁和P₂的联合分布集合，γ服从Π(P₁,P₂)。在(x,y)～γ分布条件下，求得E_(x,y)～γ[||x-y||]，结果为x与y距离的期望。Wasserstein距离就是对该期望求其下界值，但公式(3.20)无法直接求解，而是将该式转换为：

该式中sup(·)为函数·的上界，|f||_L≤K定义为：

|f(x₁)-f(x₂)|≤K|x₁-x₂|

K为函数f(x)的Lipschitz常数，同时K也可以理解为梯度，即在神经网络f(x)中x的梯度绝对值小于K。

因此判别器用FDNN网络模拟的f_w(x)函数可以无限逼近于公式(3.21)表示的Wasserstein距离，从而计算出真实样本和生成样本之间的Wasserstein距离。所以判别器网络的优化目标函数为：

w为判别器网络中的权重参数，P_data和P_z为真实样本和生成样本的分布，在本网络中由于K值不影响f_w(x)的梯度方向，所以取为1。而生成器中为了让Wasserstein距离最小也需要进行优化，优化目标函数为：

由于该式中和生成器网络无关，可以等价为：

另外在训练的过程中，必须满足条件|f||_L≤K，所以在每次更新权重后对权重进行参数截断(Weight clipping)，把权重的值控制在[-c,c](c是一个非常小的正数，例如0.01)。但这样做的结果会使得网络参数走极端，要么取最大值c，要么取最小值-c，导致判别器失效。为了进一步优化，使用梯度惩罚(Gradient penalty)来替换参数截断，通过额外设置的梯度惩罚项，实现满足条件|f||_L≤K。最终生成器网络和判别器网络的目标函数如下：

式中的

表示为f_w(x_t)的梯度，

表示

的2范数，λ₁为惩罚因子，梯度惩罚能有效解决梯度二值化和消失问题。

S5、用训练集对模型进行训练，利用Adam算子优化目标函数；

S6、使用验证集对训练后的模型进项交叉验证，调整模型的超参数，得到最终网络模型；

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于AEWGAN的语音降噪的方法，其特征在于，包括以下步骤：

S1、测试阶段，获取一维的语音信号并转成一维离散语音信号，作为AEWGAN自动编码对抗网络的输入；

S5、用训练集对模型进行训练，利用Adam算子优化目标函数；

S6、使用验证集对训练后的模型进项交叉验证，调整模型的超参数，包括迭代批次、批次大小和学习率，在训练过程中对超参数设定不同的值，得到最终网络模型，利用最终网络模型进行语音降噪。

2.根据权利要求1所述的一种基于AEWGAN的语音降噪的方法，其特征在于，所述步骤S1获取一维的语音信号并转成一维离散语音信号，具体包括；

输入约为1s的带噪语音，该语音的采样频率为8000Hz，为8192×1的一维向量。

3.根据权利要求1所述的一种基于AEWGAN的语音降噪的方法，其特征在于，

所述步骤S2将带噪语音信号输入AEGAN的生成器中，利用卷积网络提取信号特征，接着再通过反卷积层生成新的语音信号，并在对应卷积和反卷积层引入U-Net结构，假设生成器网络总层数为n，使用跳跃连接技术通过对i层与n-i层相连接，该做法有效地将编码阶段的信息传递给解码阶段，使得网络梯度能更好地传播，U-Net结构的表达式为：

4.根据权利要求3所述的一种基于AEWGAN的语音降噪的方法，所述步骤S2利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系，接着再通过反卷积网络生成新的语音信号；

语音信号和带噪语音信号的非线性表达式为：

y(t)＝x(t)+z(t)

其中x(t)为干净语音，z(t)为噪声，y(t)为带噪语音。

x_i+1＝ReLU(∑X·ω_i+b_i)

其中x_i+1表示第i层卷积后的结果，ω_i表示为第i层的权重参数，b_i表示第i层的偏置值，ReLU为线性整流单元结构；

ReLU(x)＝max(0,x)

而解码由反卷积构成，因此得到新的语音信号为：

其中，

为反卷积核，

表示反卷积核在输入特征X上滑动进行能反卷积运算。

5.根据权利要求4所述的一种基于AEWGAN的语音降噪的方法，其特征在于，

所述S3将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中，训练一个能够识别纯净语音信号的判别器，判别器的表达式：

z＝∑w_ix_i+b

x_i+1＝σ(z)

其中x_i为输入语音信号，w_i为权重参数，b为偏置值，σ(z)为Sigmoid激活函数；

6.根据权利要求5所述的一种基于AEWGAN的语音降噪的方法，其特征在于，

所述判别器中的DNN网络利用BP传播法对网络参数进行调整，利用惩罚因子对神经元节点进行稀疏性限制，具体包括：

m为每层网络的神经元节点数，则稀疏性限制记为

其中：S₂表示隐藏层神经元数量、KL散度表达式为：

惩罚因子性质为当

时

随着

和ρ间的差异增大而单调递增，要使

7.根据权利要求6所述的一种基于AEWGAN的语音降噪的方法，其特征在于，

所述步骤S4判别器拟合出一个复杂的函数，该函数用于判断真实样本与生成的样本之间的Wasserstein距离，具体包括：

该式中sup(·)为函数·的上界，|f||_L≤K定义为：

|f(x₁)-f(x₂)|≤K|x₁-x₂|

判别器用FDNN网络模拟的f_w(x)函数无限逼近于Wasserstein距离，从而计算出真实样本和生成样本之间的Wasserstein距离。

8.根据权利要求7所述的一种基于AEWGAN的语音降噪的方法，其特征在于，

判别器网络的优化目标函数为：

L(w)表示判别器的优化目标函数，

表示为求x样本的均值，

表示为求z样本均值，f_w(x)表示判别器拟合的函数，f_w(G(z))表示生成器生成的语音样本在判别器中值，w为判别器网络中的权重参数，P_data和P_z为真实样本和生成样本的分布，在本网络中由于K值不影响f_w(x)的梯度方向，所以取为1，而生成器中为了让Wasserstein距离最小也需要进行优化，优化目标函数为：