CN112802491A

CN112802491A - 一种基于时频域生成对抗网络的语音增强方法

Info

Publication number: CN112802491A
Application number: CN202110167844.5A
Authority: CN
Inventors: 高戈; 尹文兵; 陈怡�; 杨玉红; 曾邦; 王霄
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-05-14
Anticipated expiration: 2041-02-07
Also published as: CN112802491B

Abstract

本发明公开了一种基于时频域生成对抗网络的语音增强方法，在传统的基于时频域生成对抗网络的语音增强方法的基础上，通过增加一个频域鉴别器，使语音增强模型能够同时学习到输入语音的时域特征和频域特征，以提高模型的性能。其中，时域鉴别器直接判别生成器输出的增强语音；频域鉴别器则对增强语音做短时傅里叶变换后得到频域特征进行判别。模型训练时，时域和频域鉴别器同时监督生成器，使生成器能够同时学习到语音和噪声的时域和频域特征。并且，为了保留原始语音的底层信息和防止生成器产生过拟合，在模型的损失函数中加入频域约束项。本发明方法增强性能更好，且其能处理的噪声种类更多、适用的场景更广。

Description

一种基于时频域生成对抗网络的语音增强方法

技术领域

本发明涉及语音增强技术，特别涉及一种基于时频域生成对抗网络的语音增强方法。

背景技术

语音增强是指通过一定方法抑制和降低语音中噪声的技术，其主要目的是提高语音的质量和可懂度。语音增强技术发展于上个世纪70年代，至今已有约50年的历史。从最早的谱减法，到后来的基于统计模型的方法，再到基于深度学习的方法，语音增强技术发展迅速。

基于深度学习的语音增强方法主要包括：基于深度神经网络(Deep NeuralNetworks，DNN)的语音增强方法、基于卷积神经网络(Convolutional Neural Networks，CNN)的语音增强方法、基于循环神经网络(Recurrent Neural Network,，RNN)的语音增强方法和基于生成对抗网络(Generative Adversarial Networks，GAN)的语音增强方法。其中，基于GAN的语音增强方法性能良好。使用该方法增强过的语音失真小，清晰度和可懂度高。但是，传统的基于GAN的语音增强方法(SEGAN)仅在时域上将带噪语音映射为干净语音，忽略了语音和噪声的频域特性。

发明内容

传统的基于GAN的语音增强方法使用语音信号的时域特征进行模型训练，旨在学习时域上带噪语音和干净语音的映射关系。虽然该方法训练出的模型能够较好地拟合语音和噪声的时域特性，但是其完全忽略了语音和噪声的频域特性。这就导致其对多噪声源的声学场景适应度低，以及对某些特定噪声的抑制效果很差。

鉴于传统的基于GAN的语音增强方法的局限性，本发明提出了基于时频域生成对抗网络的语音增强方法(TF-SEGAN)。本发明通过在SEGAN模型中增加一个频域鉴别器，来使语音增强模型能够同时学习到语音和噪声的时域和频域特性，从而提高性能和泛化性。

本发明的方案为一种基于时频域生成对抗网络的语音增强方法，包括以下步骤：

步骤1：构建生成器网络；

步骤2，构建鉴别器网络；

步骤3，构建生成对抗网络训练集；

步骤4，训练生成对抗网络模型；

作为优选，步骤1所述生成器网络由编码器、解码器级联组成：

所述编码器由输入层，隐藏层和输出层组成；

所述编码器输入层采用全连接神经网络层(DNN)，其输入为带噪语音x_c，输出为e_in维的带噪语音时域特征向量y_c。

所述编码器隐藏层由n₀层一维跨步卷积层依次级联构成，整个隐藏层的输入为e_in维的带噪语音时域特征向量y_c，输出为e_n0维的特征向量y_e。

所述编码器隐藏层，从第1层到第n₀层的输出维度分别为：e₁、e₂、e₃…e_n0。

其中，所有一维跨步卷积层的卷积核大小均为k₀，卷积步长均为s₀，输入通道数均为c₀；

每一层一维跨步卷积层采用的神经网络激活函数为带参整流线性单元：

其中，y_i为第i个神经元的值，α_i为参数。

编码器输出层采用上述一维跨步卷积层，其输入为e_n0维的特征向量y_e，输出为l_c维的隐藏向量c。

所述解码器由输入层，隐藏层和输出层级联组成，所述解码器与所述编码器在结构上呈镜像对称；

所述解码器输入层采用一维反卷积层，其输入为l_c维的隐藏向量c,输出为d₁维的特征向量y₁。

所述解码器隐藏层由n₀层一维反卷积层依次级联构成，整个隐藏层的输入为d₁维的带噪语音时域特征向量y₁，输出为d_n0维的特征向量y_e。

所述解码器隐藏层(从第1层到第n₀层)的输出维度分别为：d₁、d₂、d₃…d_n0。

其中，所有反卷积层的卷积核大小都为k，卷积步长都为s，输入通道数都为c，激活函数采用带参整流线性单元；

所述解码器输出层采用全连接神经网络层(DNN)，其输入为d_n0维的特征向量y_e，输出为增强语音x_e。

将所述编码器的每一层与所述解码器对应的层链接起来，具体为：

所述编码器中第k层一维跨步卷积层与所述解码器中第k层反卷积层连接；

作为优选，步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成；

所述时域鉴别器由输入层，隐藏层和输出层组成；

所述时域鉴别器输入层采用全连接神经网络层(DNN)，其输入为干净语音x和生成器输出的增强语音x_e，输出为e_in维的干净语音时域特征y和生成器输出语音时域特征y_e。

所述时域鉴别器的隐藏层由n₁层一维跨步卷积层级联构成；

其中，前n₁-1层隐藏层的卷积核大小均为k₁，卷积步长均为s₁，输入通道数均为c₁。每一层一维卷积层的激活函数都采用LeakyReLU，具体如下：

其中，参数α_i为泄露参数，设置为0.3；x_i为第i个神经元的值；y_i为第i个神经元的输出。

第n₁层隐藏层的卷积核为k₂，卷积步长均为s₂，输入通道数均为c₂的一维卷积层，其输入为T_n维的特征向量，输出为T_n+1维的特征向量。

所述时域鉴别器的输出层采用softmax分类层，实现鉴别器的分类与判别功能，其输入为T_n+1维的特征向量，输出为概率P_T；

其中，分类层采用softmax分类器，将特征提取网络的输出表征为不同类别之间的相对概率，进行最终的类别预测，如下所示：

其中，i表示第i个类别，N表示类别总数，V_i表示第i个类别的概率值，S_i表示经softmax处理之后第i个类别的概率值；

为了防止网络训练时出现训练不稳定或不收敛的情况，所述频域鉴别器与所述时域鉴别器的网络结构完全相同。不同的是，频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换得到的频域幅度谱X和X_e，输出为0到1之间的分类概率P_F；

作为优选，步骤3所述构建生成对抗网络训练集为：

使用kaldi中的工具包wav-reverberate将Noise92噪声集和aishell中文语音训练集进行合成，得到信噪比为0-5DB和5-10DB的带噪语音训练集。

所述步骤4具体为：

步骤4.1，将训练集的语音，训练集的语音包括干净原始语音和带噪原始语音，训练集的语音经分帧、采样得到干净语音x和带噪语音x_c。其中，分帧的帧长为N、帧移为Mms，采样率为S；

步骤4.2，将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和X_c。其中，STFT采用的窗函数为汉明窗，窗长为N，采样率为S。标准的短时傅里叶变换，具体如下：

其中，n为时间，x(n)为时域信号，w(n)为窗函数；X_n(e^jw)为x(n)对应的频域幅度谱。

步骤4.3，预训练鉴别器网络；

进一步的，具体的实施方案如下:

步骤4.3.1，预训练时域鉴别器D₁，将干净语音x和带噪语音x_c输入时域鉴别器，使用公式5所示的损失函数和RMSProp优化器来训练网络模型。

其中，x为干净语音，x_c为带噪语音；D₁(x)为输入为x时，时域鉴别器的输出；D₁(x_c)为输入为x_c时，时域鉴别器的输出。

步骤4.3.2，预训练频域鉴别器D₂，将干净语音和带噪语音的频域幅度谱X和X_c输入频域鉴别器，使用如下所示的损失函数和RMSProp优化器来训练网络模型。

其中，X为干净语音的频域幅度谱，X_c为带噪语音的频域幅度谱；D₂(X)为输入为X时，频域鉴别器的输出；D₂(X_c)为输入为X_c时，频域鉴别器的输出。

步骤4.4，训练生成器网络G，将带噪语音x_c、带噪语音频域幅度谱X_c和随机噪声z输入生成器，利用预训练好的两个鉴别器监督训练生成器。生成器使用公式7所示的损失函数和RMSProp优化器来训练网络模型。

其中，z为随机噪声，x_c为带噪语音，X_c为带噪语音频域幅度谱；G(z，x_c)为生成器的输出；D₁(G(z，x_c))为时域鉴别器的输出，D₂(G(z，x_c))为频域鉴别器的输出；a和b为时频域平衡参数，设置为1；λ为时域范数系数，设置为100；μ为频域范数系数，设置为100。

步骤4.5，训练鉴别器

进一步的，具体的实施方案如下：

步骤4.5.1，训练时域鉴别器D₁,将干净语音和生成器输出的增强语音x和x_e输入时域鉴别器，使用公式8所示的损失函数和RMSProp优化器来训练网络模型。

其中，x为干净语音，x_e为增强语音；D₁(x)为输入为x时，时域鉴别器的输出；D₁(x_e)为输入为x_e时，时域鉴别器的输出。

步骤4.5.2，训练频域鉴别器D₂,将干净语音的频域幅度谱特征X和生成器输出的语音做STFT得到的频域幅度谱特征X_e输入频域鉴别器，使用公式9所示的损失函数和RMSProp优化器来训练网络模型。

其中，X为干净语音的频域幅度谱，X_e为增强语音的频域幅度谱；D₂(X)为输入为X时，频域鉴别器的输出；D₂(X_e)为输入为X_c时，频域鉴别器的输出。

与现有技术相比，本发明具有以下优点和有益效果：TF-SEGAN模型能够同时学习到语音和噪声的时域特性和频域特性，相比于传统语音增强方法，其性能和对多噪声源的声学场景的适应性都更好。

附图说明

图1为本发明中TF-SEGAN的整体模型结构图。

图2为本发明中生成器的网络结构图。

图3为本发明中鉴别器的网络结构图。

图4为本发明实施的工作流程图。

具体实施方式

下面结合图1至图4介绍本发明的具体实施方式。

本发明第一实施例为一种基于时频域生成对抗网络的语音增强方法，具体步骤如下：

步骤1：构建生成器网络；

所述生成器网络由编码器、解码器级联组成：

所述编码器由输入层，隐藏层和输出层组成；

所述编码器隐藏层由n₀＝11层一维跨步卷积层依次级联构成，整个隐藏层的输入为e₀＝16384×1维的带噪语音时域特征向量y_c，输出为e_n0＝16×512维的特征向量y_e。

所述编码器隐藏层，从第1层到第n₀层的输出维度分别为：e₁＝16384×1、e₂＝8192×16、e₃＝4096×32，e₄＝2048×32，e₅＝1024×64，e₆＝512×64，e₇＝256×128，e₈＝128×128，e₉＝64×256，e₁₀＝32×256，e₁₁＝16×512。

其中，所有一维跨步卷积层的卷积核大小均为k₀＝31，卷积步长均为s₀＝2，输入通道数均为c₀＝1；

其中，y_i为第i个神经元的值，α_i为参数。

编码器输出层采用上述一维跨步卷积层，其输入为e_n0维的特征向量y_e，输出为l_c＝8×1024维的隐藏向量c。

所述解码器输入层采用一维反卷积层，其输入为l_c维的隐藏向量c,输出为d₁＝16×512维的特征向量y₁。

所述解码器隐藏层由n₀层一维反卷积层依次级联构成，整个隐藏层的输入为d₁＝16×512维的带噪语音时域特征向量y₁，输出为d_n0＝16384×1维的特征向量y_e。

所述解码器隐藏层，从第1层到第n₀层的输出维度分别为：d₁、d₂＝32×256、d₃＝64×256、d₃＝64×256、d₄＝128×128、d₅＝256×128、d₆＝512×64、d₇＝1024×64、d₈＝2048×32、d₉＝4096×32、d₁₀＝8192×16、d₁₁＝16384×1。

其中，所有反卷积层的卷积核大小都为k₀，卷积步长都为s₀，输入通道数都为c₀，激活函数采用带参整流线性单元；

所述编码器中第k层隐藏层与所述解码器中第k层隐藏连接；

步骤2，构建鉴别器网络；

步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成；

所述时域鉴别器由输入层，隐藏层和输出层组成；

所述时域鉴别器输入层采用全连接神经网络层(DNN)，其输入为干净语音x和生成器输出的增强语音x_e，输出为e_in维的干净语音时域特征y和增强语音时域特征y_e。

所述时域鉴别器的隐藏层由n₁＝11层一维跨步卷积层级联构成；

其中，前n₁-1＝10层隐藏层的卷积核大小均为k₁＝31，卷积步长均为s₁＝2，输入通道数均为c₁＝2。每一层一维卷积层的激活函数都采用LeakyReLU，具体如下：

第n₁层隐藏层的卷积核为k₂＝1，卷积步长均为s₂＝2，输入通道数均为c₂＝2的一维卷积层，其输入为t_n维的特征向量，输出为t_n+1维的特征向量。

为了防止网络训练时出现训练不稳定或不收敛的情况，所述频域鉴别器与所述时域鉴别器的网络结构完全相同。不同的是，频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换(STFT)得到的频域幅度谱X和X_e，输出为0到1之间的分类概率P_F；

步骤3，构建生成对抗网络训练集；

步骤4，训练生成对抗网络模型；

进一步的，具体的实施方案如下：

生成对抗网络的训练是一个交叉训练的过程，分为：

步骤4.1，将训练集的语音，训练集的语音包括干净原始语音和带噪原始语音，训练集的语音经分帧、采样得到干净语音x和带噪语音x_c。其中，分帧的帧长为N＝16384、帧移为M＝10ms，采样率为S＝16kHz；

步骤4.2，将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和X_c。其中，STFT采用的窗函数为汉明窗，窗长为N，采样率为S。标准的短时傅里叶变换如公式4所示。

步骤4.3，预训练鉴别器网络；

进一步的，具体的实施方案如下:

步骤4.3.2，预训练频域鉴别器D₂，将干净语音和带噪语音的频域幅度谱X和X_c输入频域鉴别器，使用公式6所示的损失函数和RMSProp优化器来训练网络模型。

步骤4.5，训练鉴别器

进一步的，具体的实施方案如下：

本发明第二实施例用于实现基于aishell语音集与Noise92噪声集的训练和测试。

如图1所示，本实施例基于时频域双鉴别器生成对抗网络的语音增强模型(TF-SEGAN)，通过增加一个频域鉴别器和损失函数中的频域约束项来提高模型性能。

具体模型训练流程包括以下步骤：

步骤1，数据准备，下载aishell语音集和Noise92噪声集；

步骤2，合成带噪语音、收集复杂声学场景下真实带噪语音；

步骤3，对带噪语音和干净语音进行分帧、采样得到时域特征。对带噪语音和干净语音进行短时傅里叶变换得到频域幅度谱特征；

步骤4，搭建TF-SEGAN网络模型，整体模型结构如图1所示。其中，生成器的具体网络结构如图2所示，鉴别器的网络结构如图3所示；

步骤5，网络训练，将步骤3中得到的原始时域特征和频域幅度谱特征输入到步骤4的网络模型中，开始神经网络训练。

具体模型测试流程包括以下步骤：

步骤1，采集真实场景下的带噪语音，提取其原始时域特征；

步骤2，将带噪语音输入训练好的TF-SEGAN的生成器，得到增强后的语音；

步骤3，计算增强后的语音的PESQ、MOS和SSNR值，评估模型的增强性能。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于时频域生成对抗网络的语音增强方法，其特征在于，包括以下步骤：

步骤1：构建生成器网络；

步骤2，构建鉴别器网络；

步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成；

所述时域鉴别器由输入层，隐藏层和输出层组成；

所述时域鉴别器输入层采用全连接神经网络层(DNN)，其输入为干净语音x和生成器输出的增强语音x_e，输出为e_in维的干净语音时域特征y和生成器输出语音时域特征y_e；

所述时域鉴别器的隐藏层由n₁层一维跨步卷积层级联构成；

其中，前n₁-1层隐藏层的卷积核大小均为k₁，卷积步长均为s₁，输入通道数均为c₁；每一层一维卷积层的激活函数都采用LeakyReLU，具体如下：

其中，参数α_i为泄露参数，设置为0.3；x_i为第i个神经元的值；y_i为第i个神经元的输出；

第n₁层隐藏层的卷积核为k₂，卷积步长均为s₂，输入通道数均为c₂的一维卷积层，其输入为T_n维的特征向量，输出为T_n+1维的特征向量；

其中，i表示第i个类别，N表示类别总数，表示第i个类别的概率值，表示经softmax处理之后第i个类别的概率值；

为了防止网络训练时出现训练不稳定或不收敛的情况，所述频域鉴别器与所述时域鉴别器的网络结构完全相同；不同的是，频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换得到的频域幅度谱X和X_e，输出为0到1之间的分类概率P_F；

步骤3，构建生成对抗网络训练集；

所述步骤4具体为：

步骤4.1，将训练集的语音，训练集的语音包括干净原始语音和带噪原始语音，训练集的语音经分帧、采样得到干净语音x和带噪语音x_c；其中，分帧的帧长为N、帧移为Mms，采样率为S；

步骤4.2，将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和X_c；其中，STFT采用的窗函数为汉明窗，窗长为N，采样率为S；标准的短时傅里叶变换，具体如下：

其中，n为时间，x(n)为时域信号，w(n)为窗函数；X_n(e^jw)为x(n)对应的频域幅度谱；

步骤4.3，预训练鉴别器网络；

进一步的，具体的实施方案如下:

步骤4.3.1，预训练时域鉴别器D₁，将干净语音x和带噪语音x_c输入时域鉴别器，使用公式5所示的损失函数和RMSProp优化器来训练网络模型；

其中，x为干净语音，x_c为带噪语音；D₁(x)为输入为x时，时域鉴别器的输出；D₁(x_c)为输入为x_c时，时域鉴别器的输出；

步骤4.3.2，预训练频域鉴别器D₂，将干净语音和带噪语音的频域幅度谱X和X_c输入频域鉴别器，使用如下所示的损失函数和RMSProp优化器来训练网络模型；

其中，X为干净语音的频域幅度谱，X_c为带噪语音的频域幅度谱；D₂(X)为输入为X时，频域鉴别器的输出；D₂(X_c)为输入为X_c时，频域鉴别器的输出；

步骤4.4，训练生成器网络G，将带噪语音x_c、带噪语音频域幅度谱X_c和随机噪声z输入生成器，利用预训练好的两个鉴别器监督训练生成器；生成器使用公式7所示的损失函数和RMSProp优化器来训练网络模型；

其中，z为随机噪声，x_c为带噪语音，X_c为带噪语音频域幅度谱；G(z，x_c)为生成器的输出；D₁(G(z，x_c))为时域鉴别器的输出，D₂(G(z，x_c))为频域鉴别器的输出；a和b为时频域平衡参数，设置为1；λ为时域范数系数，设置为100；μ为频域范数系数，设置为100；

步骤4.5，训练鉴别器

进一步的，具体的实施方案如下：

步骤4.5.1，训练时域鉴别器D₁,将干净语音和生成器输出的增强语音x和x_e输入时域鉴别器，使用公式8所示的损失函数和RMSProp优化器来训练网络模型；

其中，x为干净语音，x_e为增强语音；D₁(x)为输入为x时，时域鉴别器的输出；D₁(x_e)为输入为x_e时，时域鉴别器的输出；

步骤4.5.2，训练频域鉴别器D₂,将干净语音的频域幅度谱特征X和生成器输出的语音做STFT得到的频域幅度谱特征X_e输入频域鉴别器，使用公式9所示的损失函数和RMSProp优化器来训练网络模型；

其中，X为干净语音的频域幅度谱，X_e为增强语音的频域幅度谱；D₂(X)为输入为X时，频域鉴别器的输出；D₂(X_e)为输入为X_c时，频域鉴别器的输出；

步骤4，训练生成对抗网络模型。

2.根据权利要求1所述的基于时频域生成对抗网络的语音增强方法，其特征在于，

步骤1所述生成器网络由编码器、解码器级联组成：

所述编码器由输入层，隐藏层和输出层组成；

所述编码器输入层采用全连接神经网络层(DNN)，其输入为带噪语音x_c，输出为e_in维的带噪语音时域特征向量y_c；

所述编码器隐藏层由n₀层一维跨步卷积层依次级联构成，整个隐藏层的输入为e_in维的带噪语音时域特征向量y_c，输出为e_n0维的特征向量y_e；

所述编码器隐藏层，从第1层到第n₀层的输出维度分别为：e₁、e₂、e₃…e_n0；

其中，y_i为第i个神经元的值，α_i为参数；

编码器输出层采用上述一维跨步卷积层，其输入为e_n0维的特征向量y_e，输出为l_c维的隐藏向量c；

所述解码器输入层采用一维反卷积层，其输入为l_c维的隐藏向量c,输出为d₁维的特征向量y₁；

所述解码器隐藏层由n₀层一维反卷积层依次级联构成，整个隐藏层的输入为d₁维的带噪语音时域特征向量y₁，输出为d_n0维的特征向量y_e；

所述解码器隐藏层(从第1层到第n₀层)的输出维度分别为：d₁、d₂、d₃…d_n0；

所述解码器输出层采用全连接神经网络层(DNN)，其输入为d_n0维的特征向量y_e，输出为增强语音x_e；

所述编码器中第k层一维跨步卷积层与所述解码器中第k层反卷积层连接。

3.根据权利要求1所述的基于时频域生成对抗网络的语音增强方法，其特征在于，

步骤3所述构建生成对抗网络训练集为：