CN113066483B

CN113066483B - 一种基于稀疏连续约束的生成对抗网络语音增强方法

Info

Publication number: CN113066483B
Application number: CN201911402478.6A
Authority: CN
Inventors: 孙成立; 袁丛琳; 邹强; 洪依
Original assignee: Nanchang Hangkong University; Guangzhou Maritime University; Chaoyang Jushengtai Xinfeng Technology Co Ltd
Current assignee: Nanchang Hangkong University; Guangzhou Maritime University; Chaoyang Jushengtai Xinfeng Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2024-01-30
Anticipated expiration: 2039-12-31
Also published as: CN113066483A

Abstract

本发明公开了一种基于稀疏连续约束的生成对抗网络语音增强方法，包括步骤：1)数据收集和分类；2)语音分帧加窗；3)幅度压缩；4)输入基于稀疏性约束的生成对抗网络训练；5)幅度解压缩；6)合成增强语音。本发明的优点是：通过生成对抗网络中的生成模型和判别模型之间的对抗学习，最终得到干净语音样本的分布；对语音或噪声的统计分布没有任何假设；在生成器的损失函数上添加了稀疏性和连续性约束，可以使获取的稀疏矩阵更符合语音频谱分布。本发明巧妙地解决了语音和噪声信号分布难以估计问题，有助于提高语音可懂度，得到更符合纯净语音频谱分布的增强语音。

Description

一种基于稀疏连续约束的生成对抗网络语音增强方法

技术领域

本发明涉及语音处理技术领域，具体涉及一种基于稀疏连续约束的生成对抗网络语音增强方法。

背景技术

语音作为人类交流的主要媒介，已经在移动通信、语音助手等领域发挥了重要作用。在人工智能技术和物联网技术方兴未艾的大背景下，语音识别、声纹识别等技术的广泛应用也对语音信号的质量提出了更高的要求。然而在实际的语音采集和对话交流场景中，语音信号往往会受到各种噪声的干扰。语音增强是解决噪声污染的有效技术。

传统的语音增强方法主要有四种：(1)谱减法，是利用语音的短时平稳性将含噪语音信号的功率谱减去噪声信号的功率谱，便可得到纯净语音信号的功率谱估计。此方法容易产生“音乐噪声”问题；(2)维纳滤波器法，是在假定语音和加性噪声都服从高斯分布的条件下，从给定的含噪语音中通过维纳滤波器估计出语音的谱系数。当滤波器参数的调节到达极限或者处于非稳态噪声环境时，维纳滤波法的效果不佳；(3)基于谱幅度最小均方误差估计法(MMSE)，是假设语音幅度谱满足某种分布，如高斯分布、伽玛分布等，通过统计学习估计出谱系数的概率分布。然而，假设的分布和真实的分布往往并不一致；(4)子空间法，是将纯净语音置于一个低秩的信号子空间，噪声信号置于一个噪声子空间。此方法通过将噪声子空间置零，再对信号子空间进行滤波以得到纯净的语音信号。此方法未考虑语音和噪声的先验知识，难以完全去除噪声子空间。

发明内容

本发明所要解决的问题是：提供一种基于稀疏连续约束的生成对抗网络语音增强方法旨在解决低信噪比环境下，现有方法存在“音乐噪声”、非稳态噪声干扰、真实语音分布难以估计的问题。

本发明为解决上述问题所提供的技术方案为：一种基于稀疏连续约束的生成对抗网络语音增强方法，所述方法包括以下步骤，

1)、数据收集和分类；

2)、语音分帧加窗；

3)、幅度压缩；

4)、输入基于稀疏连续约束的生成对抗网络训练；

5)、幅度解压缩；

6)、合成增强语音。

优选的，所述步骤1)中数据收集和分类具体包括以下步骤：

(1.1)数据收集：采用NOIZEUS库的语音作为纯净语音，以此作为纯净语音数据集；采用NOISEX～92噪声库中的噪声作为噪声信号；

(1.2)数据分类：每种噪声分别以-5dB，0dB，5dB，10dB和15dB的信噪比叠加到纯净语音，以此作为含噪语音数据集。

优选的，所述步骤2)语音分帧加窗是指采用长度为512，帧移为50％的汉明窗对含噪语音分帧，短时傅里叶变换的点数为1024。

优选的，所述步骤3)幅度压缩是指使用双曲正切函数对复数谱串接向量进行幅度压缩，把取值范围限制在[-1,1]，双曲正切函数定义为

优选的，所述步骤4)输入基于稀疏连续约束的生成对抗网络训练可分为网络模型初始化、训练判别器、训练生成器及输出训练模型，具体如下：

(5.1)网络模型初始化：初始化生成器和判别器；生成器G通过卷积层和反卷积层实现，激活函数选择PReLU；判别器D通过卷积层实现，激活函数选择LeakyReLU；采用“same”的补零策略，并采用BatchNormalization对每一层进行归一化；优化器选择RMSprop，学习率为0.0002；

(5.2)训练判别器：对步骤3)得到的纯净语音样本压缩复数谱训练，使得D(X_m)趋近1；对步骤3)得到的含噪语音样本压缩复数谱训练，使得增强语音复数谱且趋近0；

(5.3)训练生成器：对步骤3)得到的纯净语音样本和含噪语音样本压缩复数谱训练，冻结判别器，训练生成器，使得判别器D对增强语音复数谱且/>趋近1；

(5.4)输出训练模型：重复步骤(5.1)～(5.3)，直到模型收敛为止，输出生成器G和判别器D。

优选的，所述步骤5)幅度解压缩是指使用反双曲正切函数对增强复数谱串接向量进行幅度解压缩，反双曲正切函数定义为

优选的，所述步骤6)合成增强语音是指将增强语音复数谱进行逆短时傅里叶变换，得到降噪语音时域波形的过程。

与现有技术相比，本发明的优点是：本发明通过生成对抗网络中的生成模型和判别模型之间的对抗学习，最终得到干净语音样本的分布；对语音或噪声的统计分布没有任何假设；在生成器的损失函数上添加了稀疏性和连续性约束，可以使获取的稀疏矩阵更符合语音频谱分布。本发明巧妙地解决了语音和噪声信号分布难以估计问题，有助于提高语音可懂度，得到更符合纯净语音频谱分布的增强语音。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的工作原理图。

图2是本发明基于稀疏连续约束的生成对抗网络原理框图。

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

一种基于稀疏连续约束的生成对抗网络语音增强方法，实现低信噪比环境下的语音去噪，如图1所示，其具体实施步骤如下：

1)数据收集和分类

(1.1)数据收集：本发明实例采用NOIZEUS库的sp01～sp30语音作为纯净语音，采用NOISEX～92噪声库中的babble噪声，white噪声，hfchannel噪声及buccaneer1噪声作为噪声信号，采样频率均为8KHz；

(1.2)数据分类：将(1.1)所述的四种噪声分别以-5dB，0dB，5dB，10dB和15dB的信噪比叠加到纯净语音，以此作为含噪语音数据集。纯净语音数据集和含噪语音数据集里均为8KHz、16位、单通道的语音。将数据集以3:1的比例分成训练集和测试集。

2)语音分帧加窗

采用长度为512，帧移为50％的汉明窗对含噪语音分帧，短时傅里叶变换(STFT)的点数为1024，得到含噪语音的复数谱，并将复数谱的实部和虚部串接成向量，以此作为网络训练目标。

3)幅度压缩

使用双曲正切函数对步骤2)所得复数谱串接向量进行幅度压缩，将图1所示的含噪语音复数谱Z的实部Z_r和虚部Z_i的幅度范围限制在[-1,1]，然后把Z_r和Z_i的串接向量作为SCC-GAN的输入，通过SCC-GAN计算X_r和X_i的估计值和/>双曲正切函数定义如式(1)所示：

4)输入基于稀疏连续约束的生成对抗网络训练

(4.1)网络模型初始化：初始化生成器和判别器。生成器G通过卷积层和反卷积层实现，激活函数选择PReLU。判别器D通过卷积层实现，激活函数选择LeakyReLU。采用“same”的补零策略，并采用BatchNormalization对每一层进行归一化。优化器选择RMSprop，学习率为0.0002。输入基于稀疏连续约束的生成对抗网络目标函数如式(2)所示：

式中，有X_c＝[X_r'X_i']，Z_c＝[Z_r'Z_i']，λ表示调节权重，E[·]表示计算数学期望，μ为平衡因子，|·|_2,1为L_2,1范数，其定义为

如果不考虑语音的连续性，容易使生成的增强语音时频矩阵出现一些不合理的孤立离群点。通过引入语音连续性，可以使获取的稀疏矩阵更符合语音频谱分布，减少不合理的孤立点。T.Virtanen在语音分离研究中提出了一个时间连续性代价函数，它的原理是根据时频矩阵相邻列元素之间的连续性建立一个惩罚函数

式中，n，k分别为时间索引和频率索引，且有标准差在式(2-b)中加入连续性约束，得到含有时间连续性的代价函数为

其中，c为调节因子，用于调节连续性惩罚项所占的权重。

(4.2)训练判别器：对步骤3)得到的纯净语音样本压缩复数谱训练，使得D(X_m)趋近1；对步骤3)得到的含噪语音样本压缩复数谱训练，使得增强语音复数谱且趋近0。

(4.3)训练生成器：对步骤3)得到的纯净语音样本和含噪语音样本压缩复数谱训练，冻结判别器，训练生成器，使得判别器D对增强语音复数谱且/>趋近1；

(4.4)输出训练模型：重复步骤(4.1)～(4.3)，直到模型收敛为止，输出生成器G和判别器D。

5)幅度解压缩

使用反双曲正切函数对步骤4)得到的增强复数谱串接向量的实部和虚部/>进行幅度解压缩，获得/>和/>反双曲正切函数定义如式(3)所示：

6)合成增强语音

对步骤5)得到的增强语音复数谱进行逆短时傅里叶变换(ISTFT)，得到降噪语音的时域波形，完成语音增强过程。

将测试集的所有含噪语音重复步骤6)，可得增强后的语音数据集。

以上仅就本发明的最佳实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化。凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明保护范围内。

Claims

1.一种基于稀疏连续约束的生成对抗网络语音增强方法，所述方法包括以下步骤，

1)、数据收集和分类

(1.1)数据收集：采用NOIZEUS库的sp01～sp30语音作为纯净语音，采用NOISEX～92噪声库中的babble噪声，white噪声，hfchannel噪声及buccaneer1噪声作为噪声信号，采样频率均为8KHz；

(1.2)数据分类：将(1.1)所述的四种噪声分别以-5dB，0dB，5dB，10dB和15dB的信噪比叠加到纯净语音，以此作为含噪语音数据集;纯净语音数据集和含噪语音数据集里均为8KHz、16位、单通道的语音;将数据集以3:1的比例分成训练集和测试集；

2)、语音分帧加窗

采用长度为512，帧移为50％的汉明窗对含噪语音分帧，短时傅里叶变换的点数为1024，得到含噪语音的复数谱，并将复数谱的实部和虚部串接成向量，以此作为网络训练目标；

3)、幅度压缩

使用双曲正切函数对步骤2)所得复数谱向量进行幅度压缩，将含噪语音复数谱Z的实部Z_r和虚部Z_i的幅度范围限制在[-1,1]，然后把Z_r和Z_i的向量作为SCC-GAN的输入，通过SCC-GAN计算X_r和X_i的估计值和/>双曲正切函数定义如下式所示：

4)、输入基于稀疏连续约束的生成对抗网络训练

基于稀疏连续约束的生成对抗网络训练可分为网络模型初始化、训练判别器、训练生成器及输出训练模型，具体如下：

网络模型初始化：初始化生成器和判别器；生成器G通过卷积层和反卷积层实现，激活函数选择PReLU；判别器D通过卷积层实现，激活函数选择LeakyReLU；采用“same”的补零策略，并采用Batch Normalization对每一层进行归一化；优化器选择RMSprop，学习率为0.0002；

训练判别器：对纯净语音样本的压缩复数谱训练，使得D(X_m)趋近1；对步骤3)得到的含噪语音样本压缩复数谱训练，使得增强语音复数谱且/>趋近0；

训练生成器：对纯净语音样本和含噪语音样本的压缩复数谱训练，冻结判别器，训练生成器，使得判别器D对增强语音复数谱且/>趋近1；

输出训练模型：重复以上步骤训练交替判别器和生成器，直到模型收敛为止，输出生成器G和判别器D；

5)、幅度解压缩；

使用反双曲正切函数对增强复数谱向量进行幅度解压缩，反双曲正切函数定义为：

6)、合成增强语音；

将增强语音复数谱进行逆短时傅里叶变换，得到降噪语音时域波形的过程。