CN115410589A

CN115410589A - 一种基于联合感知损失的注意力生成对抗语音增强方法

Info

Publication number: CN115410589A
Application number: CN202211079475.5A
Authority: CN
Inventors: 郭创建; 黄志华; 李慧
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-11-29

Abstract

本发明公开了一种基于联合感知损失的注意力生成对抗语音增强的方法。所述方法包括以下步骤：步骤1：训练数据预处理：对训练数据进行重采样、分帧加窗，短时傅里叶变换，获取训练数据的幅度谱特征；步骤2：构建模型并训练：构建基于联合感知损失函数的注意力生成对抗语音增强模型，设定合理的训练参数，并对其进行训练；步骤3：测试模型：预处理带噪语音测试集，利用上述训练完成的语音增强模型对其进行去噪与增强，并保存结果，完成语音增强任务。利用本发明，可以在不显著增加模型参数和计算开销的情况下显著提高带噪语音信号的语音质量和可懂度。

Description

一种基于联合感知损失的注意力生成对抗语音增强方法

技术领域

本发明涉及语音信号处理的语音增强技术领域，尤其涉及了一种基于联合感知损失的注意力生成对抗语音增强方法。

背景技术

语音是人类最重要的交流工具，是人们所使用的最古老、最普遍的通信方式，它有着自然方便、高效准确的优点，但是在现实生活中语音往往会被各种各样的噪声影响而造成失真，这些噪声会不同程度地影响语音质量，从而导致语音可懂度下降。

为了解决这个问题，许多基于信号处理的方法被提出，如谱减法、子空间法、维纳滤波法等。近几年，研究界见证了传统信号处理方法到数据驱动增强方法的转变，尤其是基于深度学习的方法。深度学习中典型的神经网络模型有递归神经网络（RNN）、长短期记忆网络（LSTM）、卷积神经网络（CNN）、全卷积网络（FCN）、卷积递归神经网络（CRNN）、生成对抗网络（GAN）。与传统的基于信号处理的语音增强方法相比，深度学习方法的语音增强性能有了显著的提高。

深度学习语音增强算法的性能主要和四个因素密切相关。即：输入特征，训练目标，网络结构，损失函数。要部署特定任务的语音增强模型，最直观的方法是采用与最终目标相关的损失函数，而当前很多基于生成对抗网络的语音增强模型，其指导生成器生成数据的对抗性损失所用参数（频谱）与语音质量评价所用参数（STOI）不匹配，从而限制了增强模型对语音质量与语音可懂度的提升性能。

在语音增强领域MetricGAN显示出强大的能力，其被证明可以有效地优化复杂甚至不可微的语音评估指标。但仅优化单个目标度量通常会导致另一个指标处于次优状态，因而限制了MetricGAN语音增强的性能。

发明内容

本发明主要在MetricGAN语音增强模型中使用联合感知损失函数，以改善仅优化单个目标度量通常会导致另一个指标处于次优状态这一缺点；同时，在MetricGAN语音增强模型的判别器模型D中使用SK-Net卷积注意力模块，使模型可以根据输入信息的多个尺度自适应的调节感受野大小，以此提升判别器模型的预测能力，使其更好地指导生成器训练。

本发明的目的是通过以下技术方案实现。

一种基于联合感知损失的注意力生成对抗语音增强方法，包括以下步骤。

步骤1：预处理训练数据：提取语音幅度谱特征作为模型输入，提取语音幅度谱特征使用的窗函数为汉明窗，窗长为32ms，窗移为16ms，傅里叶点数为512；

步骤2：构建模型并训练：构建基于联合感知损失函数的注意力生成对抗语音增强模型，设置合理的训练参数，并对其进行训练；

步骤3：测试模型：预处理带噪语音测试集，利用上述训练完成的语音增强模型对其进行去噪与增强，并保存结果，完成语音增强任务。

本发明的模型称为AMGAN（Attention MetricGAN）模型，通过训练AMGAN模型，可在幅度谱域完成语音增强任务，该模型可改善仅优化单个目标度量通常会导致另一个指标处于次优状态从而限制增强性能这一缺点；本发明可以在不显著增加模型参数和计算开销的情况下同时有效提升带噪语音信号的语音质量和语音可懂度。

进一步的，步骤2的AMGAN模型由两个深度神经网络模型构建，分别称为生成器模型G和判别器模型D：

生成器模型G对输入带噪语音的幅度谱特征进行特征掩蔽，获得去除噪声分量后的语音幅度谱特征；

判别器模型D使用CNN网络对生成器模型G生成语音的增强效果进行量化估计。为进一步提升判别器模型D预测目标度量的能力，在模型中使用SK-Net卷积注意力模块，使网络可以根据输入信息的多个尺度自适应地调节感受野大小，以此提升网络模型的表达能力，更加准确预测目标度量的分数。

进一步的，AMGAN模型的生成器模型G含有两个双向LSTM层，每一层有200个神经元，LSTM后面接两个全连接层，它们分别有300个LeakyReLU节点和257个可学习的sigmoid节点用于掩模估计，当该掩模与带噪语音幅度谱相乘时，应去除噪声分量。

进一步的，AMGAN模型的判别器模型D采用四个二维卷积层，为了提高判别器D的模型预测能力，在第四层卷积后添加一个SK-Net卷积注意力模块，每一层卷积都具有15个滤波器，普通二维卷积的卷积核大小为（5，5），SK-Net卷积注意力模块通过模型训练在（1，1）、（3，3）、（5，5）、（7，7）之间自适应地选择卷积核大小。为了处理可变长度输入，添加一个二维全局平均池化层，以便可以将特征固定在15个维度上。随后添加三个全连接层，它们分别有50个和10个LeakyReLU节点，以及一个线性节点用于预测目标度量分数。

进一步的，SK-Net是基于卷积核的注意力机制，它是一种可在多个不同大小卷积核之间进行选择的卷积操作。对于网络模型来说，人为设定的感受野大小不一定是最优的，而SK-Net可以使网络根据输入信息的多个尺度自适应的调节感受野大小，以此提升网络模型的表达能力，作用在本发明判别器模型D中以提升判别器模型D的对目标度量的预测性能，使其更好地指导生成器训练。

进一步的，所述联合感知损失作用在生成器模型G中。其由两部分构成，一部分是生成对抗网络的对抗性损失，通过使用判别器D模拟PESQ的行为，获得语音质量的损失；另一部分是使用STOI损失，用来代表语音可懂度的损失。所述AMGAN模型的判别器模型D和生成器模型G的损失函数分别为：

其中

代表带噪语音信号的幅度谱特征，

代表干净语音信号的幅度谱特征，

代表通过生成器模型G优化后的带噪语音幅度谱特征，

在本发明中表示目标度量，得到的是归一化后的PESQ指标分数，为了使判别器D学习预测语音信号的PESQ分数，判别器D输入为成对的干净语音与带噪语音、干净语音与增强语音或干净语音与干净语音的幅度谱。

进一步的，虽然STOI函数的计算是复杂的，但大部分计算是可微的，因此可以将其重写集成到模型用于直接优化STOI度量，在所述生成器G的损失函数中添加可懂度损失

，可以引导生成器G重构的语音信号可懂度得到有效提升。

进一步的，

损失函数的计算包括以下操作步骤：

步骤1：移除静音段：因为在语音静音段中没有需要被理解的语音内容，所以计算前需要将其移除。

步骤2：短时傅里叶变换（STFT）：对信号进行短时傅里叶变换，该变换所使用的窗函数为汉明窗，窗长256ms，窗移为128ms，傅里叶点数为512。

步骤3：1/3倍频程分析：对信号进行DFT变换并将频率进行划分。该操作一共用了15个1/3倍频程，干净语音信号的短时时域包络可以表示为：

其中，

是得到的1/3倍频程，M是信号帧的总数，

是帧的索引，

是1/3倍频程的索引，N=30相当于帧长384ms。

表示增强语音或带噪语音的短时时域包络。

步骤4：归一化和限幅：归一化过程的目的是补偿全局水平差异，限幅过程的目的是未为了确保STOI评价对于带噪信号时频单元的敏感性上升。受噪声干扰的语音经过归一化和限幅后的时间包络可以表示为

。

步骤5：可懂度测度：中间可懂度可以定义为两个时域包络之间的相关系数，即：

其中，

代表L₂范式，

表示对应向量的样本均值。STOI是通过对所有子带和帧的中间可懂度取平均得到的，即：

最后，

损失函数由以下公式取得，即：

进一步的，生成器模型G和判别器模型D进行交替训练，相互对抗，直到带噪语音通过生成器G重构后的语音质量和语音可懂度足够逼近理想值。

进一步的，所述的步骤3包括以下步骤：

步骤3-1：测试数据预处理：提取测试数据的语音幅度谱特征，提取语音幅度谱特征使用的窗函数为汉明窗，窗长为32ms，窗移为16ms，傅里叶点数为512；

步骤3-2：特征掩蔽：将所述测试数据的语音幅度谱特征输入训练完成的AMGAN算法模型，通过生成器模型G对其进行幅度谱掩蔽，去除噪声分量，输出经过掩蔽后的语音幅度谱；

步骤3-3：语音重构：将所述掩蔽后的语音幅度谱与原始带噪语音的相位谱通过短时傅里叶逆变换操作，重构得到去噪后的语音。

进一步的，利用训练好的AMGAN算法模型对带噪语音信号进行处理，通过生成器模型G生成出语音质量和可懂度指标尽可能理想的语音信号，完成对带噪语音的去噪和增强。

采用上述方案，本发明的有益效果包括以下几点。

1.本发明提供了一种基于联合感知损失的注意力生成对抗语音增强方法，利用SK-Net卷积注意力模块自适应调节卷积核大小的优点，有效提升了判别器D的模型表达能力，使其能更加准确预测特定的目标度量，更好地指导生成器模型G的训练。

2.本发明使用一种联合感知损失函数指导AMGAN语音增强模型进行训练，同时优化多个语音感知度量，改善了仅优化单个目标度量通常会导致另一个指标处于次优状态的缺点，同时有效提升了语音质量和可懂度。

3.本发明可以在不同的噪声条件下完成语音增强，具有较强的适应能力和一定实用性。

附图说明

为进一步理解本发明实施的技术方案，在此对附图加以说明，此处附图构成本申请的一部分，并不构成本发明实施例的限定。

在附图中：图1为本发明实施例提供的一种语音增强技术路线示意图，图2为本发明判别器D的网络模型图。

具体实施方式

在此结合本发明实施例中的附图，对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是对本发明的一部分实施例，并非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于联合感知损失的注意力生成对抗语音增强方法，本发明的模型可简称为AMGAN（Attention MetricGAN）模型，通过联合对抗训练，获得AMGAN模型完成语音增强任务，在模型参数及计算开销并没有显著增加的前提下，既能有效提升语音质量，又能解决使用判别器模型D模拟PESQ函数作为生成器损失函数时，语音质量提升但语音可懂度没有得到有效提升这一问题，更加有效的实现了语音增强任务。

如图1所示，本发明实施例提供的一种语音增强技术路线图，其中包括以下步骤：

步骤1：预处理训练数据：提取语音幅度谱特征作为模型输入，提取语音幅度谱特征使用的窗函数为汉明窗，窗长为32ms，窗移为16ms，傅里叶点数为512。

步骤2：构建模型并训练：构建基于联合感知损失的注意力生成对抗语音增强模型，将预处理后的语音训练集输入模型进行联合对抗训练，将训练完成的AMGAN模型部署到服务器中。

AMGAN模型由两个深度神经网络模型构建，分别是生成器模型G和判别器模型D。

生成器模型G对输入带噪语音的幅度谱特征进行特征掩蔽，去除噪声分量获得经过掩蔽后的语音幅度谱特征。

判别器模型D如图2所示使用CNN网络对生成器模型G生成语音的增强效果进行量化估计。为进一步提升判别器模型D预测目标度量的能力，在模型中使用SK-Net卷积注意力模块，使网络可以根据输入信息的多个尺度自适应地调节感受野大小，以此提升网络模型的表达能力，更加准确预测目标度量的分数。

模型构建完成后，通过联合对抗训练方式对模型进行训练，通过判别器模型D获得预测PESQ的分数，通过使用STOI函数获得STOI的分数，并将上述两种分数作为联合感知损失指导生成器G的训练，直到带噪语音通过生成器G重构后得到足够理想的语音质量和可懂度。

AMGAN模型的判别器模型D和生成器模型G和的损失函数分别为：

利用联合感知损失的注意力生成对抗语音增强模型，以优化训练数据的PESQ和STOI度量为训练目标，使重构语音信号尽可能逼近干净语音信号，有效解决了一些生成对抗网络语音增强模型不能同时有效提升语音质量和可懂度的问题。

步骤3：测试模型：将带噪语音测试集的语音数据进行预处理，利用训练完成的AMGAN模型对其去噪，并重构获得去噪后的语音信号，完成语音增强任务。

步骤3-1：预处理测试数据：对测试集的带噪语音信号的预处理方式与训练集预处理方式相同。提取语音幅度谱特征作为模型输入，提取语音幅度谱特征使用的窗函数为汉明窗，窗长为32ms，窗移为16ms，傅里叶点数为512；

步骤3-2：特征掩蔽：将所述测试数据的语音幅度谱特征输入训练完成的AMGAN算法模型，通过生成器G对其进行幅度谱掩蔽，去除噪声分量，输出经过掩蔽后的语音幅度谱；

步骤3-3：语音重构：将所述掩蔽后的语音幅度谱与原始带噪语音的相位谱通过短时傅里叶逆变换操作，重构得到去噪后的语音并保存。

步骤4：评估模型：采用多种评价指标对增强后语音信号的质量与可懂度进行评估。

对保存的去噪语音进行评估，以此来测评模型性能。评价指标包括：STOI、PESQ、CSIG、CBAK以及COVL。其中STOI为短时可懂度，PESQ为感知语音质量评估，CSIG为针对语音信号失真的平均意见得分，CBAK为测评背景噪声干扰性的平均意见得分，COVL为总体增强效果的平均意见得分。通过这些评价指标，可准确有效地对模型进行评估。

本发明的一个实施例，评测模型采用了公开数据集VoiceBank-DEMAN。

测试集中噪声类型是五种与训练集不同的环境噪声，模拟本模型应对未知环境噪声时，所获得的增强效果。同时证明本模型的有效性和可行性，实施例结果如表1所示。

表1 VoiceBank-DEMAN测试集的不同指标得分情况

指标	PESQ	CSIG	CBAK	COVL	STOI
						带噪测试集得分	1.97	3.35	2.44	2.63	0.916
MetricGAN+方法得分	3.15	4.14	3.16	3.64	0.927
						本实施例方法得分	3.25	4.08	3.12	3.66	0.937

为了证明本发明有效性和可行性，本实施例还与MetricGAN+语音增强模型方法的结果进行比较。由表1发现，本实施例的PESQ得分相比于MetricGAN+方法提升了0.10，STOI相对提升了0.10，说明本实施例可有效抑制噪声，改善语音质量与可懂度。

以上所述的具体实施方式对本发明的目的、技术路线和有益效果进行了进一步说明。并且仅为本发明具体实施方式以及较佳实施例，其不用以限制本发明，凡在本发明精神和原则之内，所做的任何修改、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于联合感知损失的注意力生成对抗语音增强方法，其特征在于，包括以下步骤：

步骤1：训练数据预处理，提取语音幅度谱特征：对训练数据进行重采样、分帧加窗，短时傅里叶变换，获取训练数据的幅度谱特征；

步骤2：构建模型并训练：构建基于联合感知损失函数的注意力生成对抗语音增强模型，设定合理的训练参数，并对其进行训练；

步骤3：测试模型：预处理带噪语音测试集，利用上述训练完成的基于联合感知损失函数的注意力生成对抗语音增强模型对其进行去噪与增强，并保存结果，完成语音增强任务。

2.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法，其特征在于所述的步骤1训练数据预处理：对训练数据以16000HZ频率重采样，分帧加窗，短时傅里叶变换，提取语音的幅度谱特征作为语音增强模型的输入。

3.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法，其特征在于，所述的步骤2中基于联合感知损失函数的注意力生成对抗语音增强模型由两个深度神经网络模型构建，分别是生成器模型G和判别器模型D：

生成器模型G使用BLSTM网络对输入带噪语音的幅度谱特征进行特征掩蔽，获得去除噪声分量后的语音幅度谱特征；判别器模型D使用CNN网络对生成器模型G生成语音的增强效果进行量化估计；为进一步提升判别器模型D预测目标度量的能力，在模型中使用SK-Net卷积注意力模块，使网络可以根据输入信息的多个尺度自适应地调节感受野大小，以此提升网络模型的表达能力，更加准确预测目标度量的分数。

4.根据权利要求3所述的一种基于联合感知损失的注意力生成对抗语音增强方法，其特征在于，所述联合感知损失是作用在生成器模型G中；其由两部分构成，一部分是生成对抗网络的对抗性损失，通过使用判别器D模拟PESQ的行为，获得语音质量的损失；另一部分是使用STOI损失，用来代表语音可懂度的损失；基于联合感知损失的注意力生成对抗语音增强模型的两个深度神经网络模型通过联合训练方式进行训练，将带噪语音的幅度谱特征输入生成器模型G，通过判别器模型D获得预测PESQ的分数，通过使用STOI函数获得STOI的分数，并将上述两种分数用于指导生成器模型G的训练，判别器模型D和生成器模型G的损失函数分别为：