CN114360571A

CN114360571A - 基于参考的语音增强方法

Info

Publication number: CN114360571A
Application number: CN202210042390.3A
Authority: CN
Inventors: 岳焕景; 多文昕; 杨敬钰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-15

Abstract

本发明涉及一种基于参考的语音增强方法，包括下列步骤：分析真实环境中的带噪语音，建立加性噪声模型；定义基于参考的语音增强模型；得到带噪语音频谱X与参考语音频谱R；MFCC组匹配获取帧间对应关系；编码器提取深度特征；参考语音特征重组；二段式的特征融合；深度特征解码，得到一个乘性复数掩膜；使用乘性复数掩膜对带噪语音频谱X进行滤波，获得增强语音频谱；通过短时傅里叶变换反变换获得最后的增强语音。

Description

基于参考的语音增强方法

技术领域

本发明属于语音信号处理领域，涉及语音增强算法。

背景技术

真实环境中采集到的语音信号通常含有背景噪声。这些噪声的形式是多种多样的，其存在严重降低了语音的听觉感知质量和可懂度。语音增强的目的便是从被各种各样的噪声干扰、甚至淹没的信号中提取有用的语音信号，同时抑制、降低噪声的干扰。

现有的单通道语音增强方法可以分为两类，一类是传统方法，例如谱减法、维纳滤波法、基于隐马尔可夫模型的方法、基于非负矩阵的方法等。另一类是基于深度学习的方法。

基于深度学习的单通道语音增强方法主要分为时域和频域方法。时域方法通常利用深度神经网络来学习带噪语音和干净语音的一维波形之间的映射关系。由于一维语音信号缺乏明显的几何结构，从其中提取有用的信息较为困难。频域方法对带噪语音信号的二维频谱进行处理，通常有两种方式，一是直接通过深度神经网络重建出干净的语音频谱，二是预测一个时频掩膜以对带噪频谱进行滤波从而生成增强的频谱。虽然以上方法的出现均极大地提高了基于深度学习的单通道语音增强方法的效果，但恢复出的增强语音仍然有部分信息丢失。为了进一步提升语音增强算法的效果，许多借助外部参考的或语音自身固有的先验信息来帮助重建怎强语音的方法被提了出来，例如外部参考的说话人视频中的口部动作先验、表情先验，语音自身固有的或外部干净参考语音含有的说话人身份先验、情绪先验、音素发声特征先验等。其中，由于外部参考语音与目标语音具有相同的说话人(说话内容不同)，且其帧级别的音素信息是部分共享的，所以通过引入外部参考语音来辅助进行带噪语音的增强(基于参考的语音增强)能够取得更好的效果。

发明内容

为了进一步提升现有语音增强算法的效果，本发明旨在提供一套基于参考的语音增强算法，本发明所涉及到的语音均为单通道语音。技术方案如下

一种基于参考的语音增强方法，包括下列步骤：

1)分析真实环境中的带噪语音，建立加性噪声模型：

x＝y+n

其中，y为干净语音，n为环境噪声，x为带噪语音；

2)定义基于参考的语音增强模型：

其中g为基于参考的语音增强模型；r为带噪语音x所对应的参考语音，即与带噪语音x具有相同说话人但说话可能内容不同的干净语音；

为模型输出的增强语音，即对干净语音y的估计；

3)通过短时傅里叶变换将带噪语音x和参考语音r从时域转至频域，得到带噪语音频谱

与参考语音频谱

其中T_x和T_r分别是X和R的帧数，F为频域点数；

4)MFCC组匹配获取帧间对应关系，方法如下：

从分别从带噪语音频谱X和参考语音频谱R提取MFCC，并将连续3帧的MFCC组合在一起构成一个带噪语音频谱X的MFCC组和一个参考语音频谱R的MFCC组；对于带噪语音的某个MFCC组，通过计算所有参考语音的MFCC组与其的余弦相似度，挑选出余弦相似度最高的5个MFCC组的中间帧与带噪语音的所述MFCC组的中间组构成一个帧间对应关系

重复此过程便可以对带噪语音的每一帧得到一个帧间对应关系；

5)编码器提取深度特征，方法如下

编码器由3个级联的卷积层构成，每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分，其中复数卷积通过控制步长来对输入进行频域下采样，使用同一个编码器对X和R分别进行处理，得到3 对不同深度的带噪特征

和参考特征

6)参考语音特征重组，方法如下：

对于每一个

基于相应的帧间对应关系

对

进行重组，构成5个与

维度相同的重组参考特征

7)二段式的特征融合，方法如下：

第一阶段，通过softmax函数对

与

的幅度值的帧间余弦相似度进行归一化生成权重系数

随后基于权重系数

对5个

进行卷积融合，得到

第二阶段，使用通道注意力将

与

进行融合，得到

8)深度特征解码，方法如下：

解码器由4个残差块和3个级联的转置卷积层构成，每个残差块由复数卷积、ReLu激活、复数卷积、 ReLu激活构成，前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分，最后一个转置卷积层只有复数转置卷积操作；解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样；解码器首先将

送入4个残差块得到

随后使用3个转置卷积层对其逐级进行上采样，并在每次进入转置卷积层之前与相应的

合并在一起：

其中，decode_i指第i个转置卷积层；

最后使用tanh激活函数对解码器输出的

的幅度谱进行处理，得到一个乘性复数掩膜M：

9)使用乘性复数掩膜M对带噪语音频谱X进行滤波，获得增强语音频谱

10)通过短时傅里叶变换反变换将

从频域转换至时域获得最后的增强语音

本发明的技术特点及效果：针对基于参考的语音增强，本发明使用基于MFCC组匹配获得的帧间对应关系来进行参考特征重组。重组参考特征和噪声特征通过特征融合模块融合在一起经过解码器，最终获得增强语音频谱。本发明具有以下特点：

1.本发明利用了带噪语音和参考语音之间的局部相关性，进行了基于参考的语音增强。本发明首先使用MFCC组进行匹配，然后根据匹配所得的帧间对应关系重组参考特征。

2.由于参考特征与带噪特征具有不同的相似性，并且它们对最终增强语音的贡献不同，本发明使用特征融合模块来将参考和带噪特征自适应融合在一起。

3.本发明首个进行了基于参考的单通道语音增强，希望本发明能够启发更多基于参考的语音处理方法的研究。

附图说明

图1是算法流程框图。

图2是模型结构图。

图3是融合模块结构图。

图4是不同时长的参考语音对增强结果的影响对比图。

具体实施方式

本发明采用如下技术方案：

1)分析真实环境中的带噪语音，建立加性噪声模型：

x＝y+n

其中，y为干净语音，n为环境噪声，x为带噪语音。

2)定义基于参考的语音增强模型及其输入输出：

其中g为基于参考的语音增强模型；r为x所对应的参考语音，即与x具有相同说话人但说话内容不同的干净语音；

为模型输出的增强语音，即对干净语音y的估计。

3)针对加性噪声模型设计算法流程。

本发明提供的基于参考的语音增强算法包含以下8个步骤：

第1步：通过短时傅里叶变换将带噪语音x和参考语音r从时域转至频域，得到带噪语音频谱

与参考语音频谱

其中T_x和T_r分别是X和R的帧数，F为频域点数。

第2步：MFCC组匹配获取帧间对应关系。

为了获取帧间对应关系，本发明首先从频谱中提取MFCC(Mel FrequencyCepstrum Coefficient)并将连续3帧(前一帧、当前帧、后一帧)的MFCC组合在一起构成一个MFCC组。对于带噪语音的某一个 MFCC组，通过计算所有参考语音的MFCC组与其的余弦相似度(Cosine Similarity)，挑选出余弦相似度最高的5个MFCC组的中间帧与带噪MFCC组的中间帧构成一个帧间对应关系

重复这个过程便可以对带噪语音的每一帧得到一个帧间对应关系。

第3步：编码器提取深度特征。

编码器由3个级联的卷积层构成。每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分，其中复数卷积通过控制步长来对输入进行频域下采样。使用同一个编码器对X和R分别进行处理可以得到3 对不同深度的特征

和

称之为带噪特征和参考特征。编码过程如下：

其中，encode_i为第i个卷积层。

第4步：参考语音特征重组。

对于每一个

基于相应的帧间对应关系

对

进行重组，构成5个与

维度相同的重组参考特征

第5步：特征融合。

为了将

与

融合在一起，本发明设计了二段式的特征融合模块：

·第一阶段，首先通过softmax函数对

与

的幅度值的帧间余弦相似度进行归一化生成权重系数

其中，

和

分别是

和

的第t帧，|·|是计算复数的幅度，α_t是

构成的向量。

随后基于权重系数

对5个

进行卷积融合，得到

其中，complexConv为复数卷积。

·第二阶段，使用通道注意力(channel attention)将

与

进行融合，通道注意力具有多种形式，本发明采用如下形式的通道注意力：

其中，[·]是将

与

在通道维度上合并起来，GlobalPooling是全局池化层。

第6步：深度特征解码。

解码器由4个残差块和3个级联的转置卷积层构成，每个残差块由复数卷积、ReLu激活、复数卷积、ReLu激活构成，前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分，最后一个转置卷积层只有复数转置卷积操作。解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样。解码器首先将

送入4个残差块得到

合并在一起：

其中，decode_i指第i个转置卷积层。

最后使用tanh激活函数对解码器输出的

的幅度谱进行处理，得到一个乘性复数掩膜M：

第7步：使用乘性复数掩膜M对带噪语音频谱X进行滤波，获得增强语音频谱

第8步：通过短时傅里叶变换反变换将

从频域转换至时域获得最后的增强语音

4)数据集获取及其预处理。

本发明使用Voice Bank+DEMAND开源数据集对模型进行训练与测试。Voice Bank+DEMAND开源数据集的训练集包含28个说话人的多条内容不同的带噪-干净语音数据对，共计11572对。测试集包含2个说话人的多条内容不同的带噪-干净语音数据对，共计824对。对于每一条带噪语音，从其说话人的其他内容不同的干净语音中随机挑选出15秒构成对应的参考语音。

5)训练。

本发明中，训练模型所使用的损失函数为L1-Loss和感知损失的加权和，优化器使用Adam优化器，初始学习率设置为0.0001。本发明利用深度学习框架Pytorch平台训练模型，在整个数据集上迭代80次，随后减小学习率至0.00001，迭代20次，使得损失收敛，得到最终模型。

6)测试。

将测试集中的带噪语音与其相应的参考语音输入到模型中，得到相应的增强语音。

表1

表1是本发明所提算法与其他语音增强算法在Voice Bank+DEMAND测试集上的结果对比表。表中各个方法的参考文献如下：

[1]Pascual S,Bonafonte A,Serra J.SEGAN:Speech enhancement generativeadversarial network[J].arXiv preprint arXiv:1703.09452,2017.

[2]Germain F G,Chen Q,Koltun V.Speech denoising with deep featurelosses[J].arXiv preprint arXiv:1806.10522,2018.

[3]Fu S W,Liao C F,Tsao Y,et al.Metricgan:Generative adversarialnetworks based black-box metric scores optimization for speech enhancement[C]//International Conference on Machine Learning.PMLR,2019: 2031-2041.

[4]Yin D,Luo C,Xiong Z,et al.PHASEN:A phase-and-harmonics-awarespeech enhancement network[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2020,34(05):9458-9465.

[5]Kim J,El-Khamy M,Lee J.T-gsa:Transformer with gaussian-weightedself-attention for speech enhancement[C]//ICASSP 2020-2020IEEE InternationalConference on Acoustics,Speech and Signal Processing (ICASSP).IEEE,2020:6649-6653.

[6]Defossez A,Synnaeve G,Adi Y.Real time speech enhancement in thewaveform domain[J].arXiv preprint arXiv:2006.12847,2020.

[7]Fu S W,Yu C,Hsieh T A,et al.MetricGAN+:An Improved Version ofMetricGAN for Speech Enhancement[J].arXiv preprint arXiv:2104.03538,2021.

[8]Hsieh T A,Yu C,Fu S W,et al.Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement[J].arXiv preprint arXiv:2010.15174,2020.

凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于参考的语音增强方法，包括下列步骤：

1)分析真实环境中的带噪语音，建立加性噪声模型：

x＝y+n

其中，y为干净语音，n为环境噪声，x为带噪语音；

2)定义基于参考的语音增强模型：

为模型输出的增强语音，即对干净语音y的估计；

与参考语音频谱

其中T_x和T_r分别是X和R的帧数，F为频域点数；

4)MFCC组匹配获取帧间对应关系，方法如下：

5)编码器提取深度特征，方法如下

编码器由3个级联的卷积层构成，每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分，其中复数卷积通过控制步长来对输入进行频域下采样，使用同一个编码器对X和R分别进行处理，得到3对不同深度的带噪特征

和参考特征

6)参考语音特征重组，方法如下：

对于每一个

基于相应的帧间对应关系

对

进行重组，构成5个与

维度相同的重组参考特征

7)二段式的特征融合，方法如下：

第一阶段，通过softmax函数对

与

的幅度值的帧间余弦相似度进行归一化生成权重系数

随后基于权重系数

对5个

进行卷积融合，得到

第二阶段，使用通道注意力将

与

进行融合，得到

8)深度特征解码，方法如下：

解码器由4个残差块和3个级联的转置卷积层构成，每个残差块由复数卷积、ReLu激活、复数卷积、ReLu激活构成，前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分，最后一个转置卷积层只有复数转置卷积操作；解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样；解码器首先将

送入4个残差块得到

合并在一起：

其中，decode_i指第i个转置卷积层；

最后使用tanh激活函数对解码器输出的

的幅度谱进行处理，得到一个乘性复数掩膜M：

10)通过短时傅里叶变换反变换将

从频域转换至时域获得最后的增强语音