CN110619885A

CN110619885A - 基于深度完全卷积神经网络的生成对抗网络语音增强方法

Info

Publication number: CN110619885A
Application number: CN201910755047.1A
Authority: CN
Inventors: 李立欣; 程倩倩; 李旭; 程岳
Original assignee: Northwest University of Technology
Current assignee: Northwestern Polytechnical University; Northwest University of Technology
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-27
Anticipated expiration: 2039-08-15
Also published as: CN110619885B

Abstract

本发明公开了基于深度完全卷积神经网络的生成对抗网络语音增强方法，解决了现有高噪声环境下语音信号质量差的问题。该方法包括以下步骤：步骤一、构建一个数据集，包含含噪语音信号和纯净语音信号；获得所述含噪语音信号的语谱图，将语谱图作为生成对抗网络中生成器G的输入；步骤二、生成器G对步骤一所生成的语谱图进行处理，将生成器构建为编码器‑译码器结构，通过编码器部分获得潜在向量z，然后潜在向量z经过译码器部分获得语音信号的输出信号；步骤三、设置判别器D的结构，然后将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入，两者不断交互对抗、训练，直至达到平衡，获得增强语音信号。

Description

基于深度完全卷积神经网络的生成对抗网络语音增强方法

【技术领域】

本发明属于语音识别技术领域，具体涉及基于深度完全卷积神经网络的生成对抗网络语音增强方法。

【背景技术】

在语音信号中，必然有混杂的各种干扰噪声，语音增强的目的就是最大化地去掉信号中含有的不需要的噪声，改善含噪语音的质量，使听者乐于接受，同时增加语音的可懂性，使听者易于理解。增强后的语音信号要尽可能的在波形上面无限地接近纯净的语音信号，方便后续的信号处理。现如今，语音增强的应用范围十分广泛，比如军事通信、窃听技术和语音识别等方面。然而，由于噪声具有随机性、多样性和不稳定性，找到适用于多种环境的语音增强技术是十分困难的。因此，如何提高模型的泛化能力，也是现如今的工作重点之一。

目前，关于语音增强方面的研究有了长足的进展。传统方法上，有谱减法、维纳滤波(WienerFiltering)、小波变换等，它们的大致思路是先对语音信号进行频域或者时域的变换，估算出噪声的能量信息，然后用含噪信号减去估算出来的噪声信号的信息，得到增强后的语音信号。这些方法在语音信号稳定时可以取得较好的结果。在机器学习得到迅猛发展后，深度神经网络、卷积神经网络、长短期记忆网络也被广泛的用于增强语音信号，并取得了令人满意的结果。

文献1“Enhancement of Speech Corrupted by Acoustic Noise[IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP),1979].”中介绍了使用谱减法增强语音信号的方法，它是假设含噪语音信号中只有假性噪声，然后从含噪语音信号的功率谱中减去估计噪声的功率谱，从而得到纯净语音信号。

文献2“Evaluation of rasta approach with modified parameters forspeech enhancement in communication systems[in Computers&Informatics,Mar.2011,pp.159–162].”中评价了RASTA算法对白噪声和有色噪声抑制的性能，提出了对参数和滤波方法的改进，使其性能优于原RASTA算法。

文献3“Noise Reduction of Speech Signal Using Wavelet Transform withModified Universal Threshold[International Journal of Computer Applications,vol.20,no.5,pp.14-19,2011].”中根据有用信号与噪声信号对应的小波系数的不同来达到语音增强的目的。

生成式对抗网络是Ian Goodfellow于2016年在NIPS会议上面提出，最初被用于计算机视觉和图像领域，引起了巨大的反向。目前，生成对抗网络已经逐渐地被用于语音合成、增强、分离和识别等方面，均取得了不错的成就。条件生成对抗网络最早被提出用于语音领域，为模型加入监督信息，指导生成器生成数据，然后由于模型结构较为单一，存在训练困难的问题。Liu等人在生成对抗网络的基础上额外增加了声学模型构成的分类器，生成器、判别器和分类器构成深度联合对抗网络，以此来提高系统的鲁棒性。近年来，Santiago等人提出了语音增强生成对抗网络(Speech Enhancement Generative AdversarialNetworks,SEGAN)，使用端到端的结构，不需要直接处理音频信号，但是在试验过程中，还是发现增强后的语音信号靠近纯净语音信号的能力很弱。

【发明内容】

本发明的目的是提供基于深度完全卷积神经网络的生成对抗网络语音增强方法，以解决现有高噪声环境下语音信号质量差的问题。

本发明采用以下技术方案：基于深度完全卷积神经网络的生成对抗网络语音增强方法，包括以下步骤：

步骤一、构建一个数据集，包含含噪语音信号，以及与所述含噪语音信号相对应的纯净语音信号；获得所述含噪语音信号的语谱图，将语谱图作为生成对抗网络中生成器G的输入；

步骤二、基于深度完全卷积神经网络的生成对抗网络模型的生成器G对步骤一所生成的语谱图进行处理，将生成器构建为编码器-译码器结构，通过编码器部分获得潜在向量z，然后潜在向量z经过译码器部分获得语音信号的输出信号；

步骤三、设置判别器D的结构，然后将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入，判别器将结果反馈给生成器，根据系统目标函数，两者不断交互对抗、训练，直至达到平衡，获得增强语音信号。

进一步的，步骤一具体为：对于含噪语音信号进行处理，首先分帧，然后做傅里叶变换，得到语音频谱随时间变化的图形，即含噪语音的语谱图。

进一步的，步骤二具体为：

2.1、将深度完全卷积神经网络与生成对抗网络相结合，对生成对抗网络中生成器的结构进行改进。如附图2所示，生成器G网络是一种编码-译码器框架。首先是编码器部分，在编码阶段，将步骤一所得到的含噪语音信号的语谱图作为生成器的输入，然后通过组合许多卷积层和池化层，对语音信号自动进行特征提取来代替传统的人为提取语音特征方式。在多个卷积层之后添加池化层，累计大量的卷积-池化层对，通过一系列卷积层来压缩语音信息。每个卷积层使用小卷积核而不是大卷积核，并且使用均方根误差(Root MeanSquare prop,RMSprop)激活函数用于获得卷积结果，这时经过编码器部分，可以获得潜在向量z。

2.2、译码器阶段，潜在向量z作为译码器的输入，在多个卷积层之后添加转置卷积层，对应于编码器阶段。在非线性变换之后，输出生成的语音信号。

进一步的，步骤三具体为：

3.1、设置判别器D的结构：判别器D由卷积层实现，采用“same”零填充策略；使用带泄露修正线性单元，在所有卷积层和LeakyReLU激活层之间都有一个批处理规范化层；同时，为了确保后一层的输入数据，选择批量规范化层。

3.2、将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入，判别器通过比较二者的特征分布，计算系统的目标函数：

其中，λE[||▽xD(x)||_ρ-K²]这一项是惩罚项，并设置额外的损失以实现梯度和K间的连接，其中K设置为1，λ是惩罚参数，p_data(x)表示真实数据的概率分布，表示输入噪声变量的概率分布；

3.3、根据计算得到的目标函数损失值，判别器D得到判断结果，然后通过反向传播算法调整自身的网络参数，使得两者不断交互对抗、训练，直至达到平衡，获得增强语音信号。

本发明的有益效果是：提供一种在高噪声环境下基于深度全连接卷积神经网络和生成对抗网络框架的语音增强方法，从而达到语音降噪，增强语音信号的目的，减少高噪声环境对于语音信号的影响。

【附图说明】

图1为本发明基于生成对抗网路的语音增强的系统模型图；

图2为本发明基于深度完全卷积神经网络的生成对抗网络的模型生成器的结构图；

图3为不同语音增强方法的性能得分比较示意图。

【具体实施方式】

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了基于深度完全卷积神经网络的生成对抗网络语音增强方法，如图1所示，具体实施方式如下：

步骤一、构建一个数据集，包含含噪语音信号，以及与所述含噪语音信号相对应的纯净语音信号；获得所述含噪语音信号的语谱图，将语谱图作为生成对抗网络中生成器G的输入。其中，获得语谱图的方法为：对于含噪语音信号进行处理，首先分帧，然后做傅里叶变换，得到语音频谱随时间变化的图形，也就是含噪语音的频谱图。

步骤二、基于深度完全卷积神经网络的生成对抗网络模型的生成器G对步骤一所生成的语谱图进行处理，将生成器构建为编码器-译码器结构，通过编码器部分获得潜在向量z，然后潜在向量z经过译码器部分获得语音信号的输出。

其具体实施过程为：

步骤三、设置判别器D的结构，然后将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入，判别器将结果反馈给生成器，根据系统目标函数，两者不断交互对抗、训练，直至达到平衡，获得增强语音信号；

其具体实施过程为：

3.1首先，设置判别器D的结构。判别器D由卷积层实现，采用“same”零填充策略。为了激活所有的神经元，使用了带泄露修正线性单元(Leaky ReLU)。在所有卷积层和LeakyReLU激活层之间都有一个批处理规范化层。同时，为了确保后一层的输入数据，选择批量规范化层。

3.2、判别器的结构设置完成后，将步骤二生成的增强语音信号和纯净的语音信号作为判别器D的输入，判别器通过比较二者的特征分布，计算系统的目标函数：

其中，λE[||▽xD(x)||_ρ-K²]这一项是惩罚项，并设置额外的损失以实现梯度和K间的连接，其中K设置为1，λ是惩罚参数。p_data(x)表示真实数据的概率分布，表示输入噪声变量的概率分布。

【实施例】

以下实例中所提供的图示以及模型中的具体参数值的设定只是为了说明本发明的基本构想以及对本发明做仿真验证。

为了系统地评估所提模型的有效性，本发明选择开源数据集进行训练分析。数据集中有来自语音库的30名英语母语者，这些语音信号包含有多种类型噪音。语音库中测试集包含两个英语母语者，每人约有400句纯净和噪音测试语音信号，共有824个语音。训练集包括28名英语母语者，每人400句纯净和噪声训练语音信号，共计11572个语音。在噪声训练集中，有40种不同条件，包括10种噪声(2种人工噪声和8种来自需求数据集[18]的噪声，分别有4种不同的信噪比、15dB、10dB、5dB和0dB)。在测试集中，有20种不同的条件，包括5种类型的噪声(均来自需求数据库)，其中有4种不同的信噪比(17.5dB、12.5dB、7.5dB和2.5dB)。

本发明模型采用均方根反向传播算法进行训练。学习率设置为0.0002，批次大小为256，经过86次遍历。为了满足波形产生的要求，对从48kHz到16kHz的原始声音进行了下采样。使用折扣因子为0.95进行预加重。

生成器网络是由卷积层和转置卷积层实现的编码器-解码器结构。为了在边界处得到卷积结果，选择了“same”填充方法。为了避免梯度消失，每个卷积层和反卷积层后面都有一个预激活函数。在编码器部分，每两个卷积层添加一个池化层，池窗口设置为2。在解码器部分，每两层添加一个反池化层，池窗口设置为2。

判别器D由卷积层实现，采用“same”零填充策略。为了激活所有的神经元，使用了带泄露修正线性单元(Leaky ReLU)。在所有卷积层和Leaky ReLU激活层之间都有一个批处理规范化层。同时，为了确保后一层的输入数据，选择批量规范化层。

为了全面系统评价增强后语音信号的效果，本发明将所提方法DFCNN-GAN与传统的生成对抗网络GAN、维纳滤波法Wiener、语音增强生成对抗网络方法SEGAN以及原始的含噪语音信号Noisy相比较，对比表现所提方法性能。为了评估增强语音的质量，本发明计算了以下参数。

(1)语音质量感知评价(Perceptual Evaluation ofSpeech Quality,PESQ)：利用语音信号客观特性去模拟人主观意识，从而对语音质量进行感知评估，评分范围是[-0.5～4.5]。

(2)平均意见分(Mean Opinion Score,CMOS)：对语音信号的主观感知根据评判标准来评分，是一种主观评价，也是使用最为广泛的一种语音质量评价方法。

(3)分段信噪比(Segmented Signal to Noise Ratio,SSNR)：一种常用的语音信号质量的评判标准，反映了某一段范围内语音信号的信噪比，评分范围是[0～∞]。

附图3显示了不同语音增强方法的度量分数，可以得出基于深度全连接卷积生成对抗网络的语音增强方法具有更加优良的去噪效果。与Wiener滤波和SEGAN相比，DFCNN-GAN各项指标都有一定程度的改进。而且，SEGAN的PESQ指标较差，但DFCNN-GAN可以在一定程度上弥补其缺陷。

本发明背景技术中所描述的各项技术在语音信号稳定的情况下可以取得良好的效果，然而却都有着较大的局限性，如谱减法的残余噪声严重、维纳滤波法难以在实际中应用以及小波变换存在冗余大的缺点。此外，由于将生成对抗网络的技术应用于语音信号处理的时间短，因此上面提到的SEGAN等方法难以处理噪声信号复杂时的情形。当语音信号不稳定、噪声成分复杂时，上述方法均难以达到令人满意的效果，因此，本发明提出了基于深度全连接卷积神经网络和生成对抗网络框架的语音增强方法，从而解决此问题，增强语音信号。与上述技术相比，本发明的改进点在于：将深度完全卷积神经网络应用到生成对抗网络框架中做语音增强的工作，然后将生成器的结构分为编码器-译码器两部分，从而可以使神经网络更好的提取语音信号的特征；与其他技术不同，为了解决传统的生成对抗网络着梯度消失、训练困难的问题，本发明采用改进的Wasserstein生成对抗网络来代替传统生成对抗中的交叉熵损失，从而可以达到更好的训练效果。

生成器不仅仅使用卷积神经网络，而是用深度完全卷积神经网络结构替代它，提高了卷积神经网络的表达能力，由于不需要复杂的前段处理过程，直接是端到端处理，简化了训练过程。

将深度完全卷积神经网络应用到生成对抗网络框架中做语音增强的工作，同时与改进的Wasserstein生成对抗网络结合，使用了更为先进的损失函数。深度完全卷积神经网络，作为生成器的结构，相较于传统的生成对抗网络，训练起来更加稳定，同时能够提高系统的鲁棒性；本发明通过数值结果显示了该方法与其他方法确实有一定的改进作用。

Claims

1.基于深度完全卷积神经网络的生成对抗网络语音增强方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度完全卷积神经网络的生成对抗网络语音增强方法，其特征在于，所述步骤一具体为：对于含噪语音信号进行处理，首先分帧，然后做傅里叶变换，得到语音频谱随时间变化的图形，即含噪语音的语谱图。

3.如权利要求1所述的基于深度完全卷积神经网络的生成对抗网络语音增强方法，其特征在于，所述步骤二具体为：

2.1、将深度完全卷积神经网络与生成对抗网络相结合，对生成对抗网络中生成器的结构进行改进。如附图2所示，生成器G网络是一种编码-译码器框架。首先是编码器部分，在编码阶段，将步骤一所得到的含噪语音信号的语谱图作为生成器的输入，然后通过组合许多卷积层和池化层，对语音信号自动进行特征提取来代替传统的人为提取语音特征方式。在多个卷积层之后添加池化层，累计大量的卷积-池化层对，通过一系列卷积层来压缩语音信息。每个卷积层使用小卷积核而不是大卷积核，并且使用均方根误差(Root Mean Squareprop,RMSprop)激活函数用于获得卷积结果，这时经过编码器部分，可以获得潜在向量z。

4.如权利要求1所述的基于深度完全卷积神经网络的生成对抗网络语音增强方法，其特征在于，所述步骤三具体为：

3.1、设置判别器D的结构：判别器D由卷积层实现，采用“same”零填充策略；使用带泄露修正线性单元，在所有卷积层和Leaky ReLU激活层之间都有一个批处理规范化层；同时，为了确保后一层的输入数据，选择批量规范化层。

其中，这一项是惩罚项，并设置额外的损失以实现梯度和K间的连接，其中K设置为1，λ是惩罚参数，p_data(x)表示真实数据的概率分布，表示输入噪声变量的概率分布；