CN114360567A

CN114360567A - 一种基于深度复卷积网络的单通道语音增强方法

Info

Publication number: CN114360567A
Application number: CN202210142181.6A
Authority: CN
Inventors: 魏阳杰; 袁艺; 张克
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-04-15

Abstract

本发明公开一种基于深度复卷积网络的单通道语音增强方法，方法首先构造带噪语音，计算带噪语音复数域上的频谱特征，并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签，构造训练集；然后构建深层复卷积网络模型，并通过计算估计语音在纯净语音上的投影值和估计噪音在噪声信号上的投影值，构造加权源失真比损失函数；接着将训练集中的带噪语音复数域上的频谱特征作为深层复卷积网络模型的输入数据对模型进行训练；最后利用训练好的深度复卷积网络模型对带噪语音信号进行降噪处理。本发明通过深度复卷积网络训练低信噪比场景下单麦克风语音信号的复掩膜特征，增加估计语音的信噪比，提升单通道语音增强方法的语音质量和可懂度。

Description

一种基于深度复卷积网络的单通道语音增强方法

技术领域

本发明涉及语音信号增强技术领域，尤其涉及一种基于深度复卷积网络的单通道语音增强方法。

背景技术

语音是日常生活中人际交往最重要的媒介，但是，实际环境中背景噪声和其他语音的干扰严重影响语音质量和可懂度。语音增强是一种常用的抑制噪声、分离纯净语音的技术，尤其是以低信噪比为应用背景的单通道语音增强近年来受到广泛关注。

目前的单通道语音增强方法包括：传统的语音增强和有监督的语音增强。传统的单通道语音增强方法可以细分为：谱减法、维纳滤波法和基于统计模型的方法等。但是，这些方法大多建立在准确估计噪声谱信号的基础上，因此，增强效果与噪声估计的准确性紧密相关，容易引入额外的音乐噪声或者出现语音失真问题。尽管有学者提出了基于自适应滤波的单通道语音增强方法，但是该方法的前提条件是预先已知噪声或者纯净语音信号。但是在大多数实际环境下，噪声或者纯净语音等先验知识是无法获得的，因此大大限制了自适应滤波方法的应用。此外，近年来基于子空间的增强方法也备受关注，但运算量大，应用并不广泛。

有监督的语音增强指的是利用神经网络的非线性映射能力，学习带噪语音到纯净语音的映射关系，目前较新的一种方法是CRN，即：采用二维CNN提升噪声与语音的特征提取效果。但是，当前的基于监督学习的语音增强技术只对语谱中的幅度谱估计，不考虑相位谱的增强，因此，在低信噪比条件下，模型的性能有限。尽管最近许多方法都提出了相位重构的理论，但是它们所使用的网络结构仍然是语谱中的实值，无法进一步提高单通道的语音增强算法的性能。

发明内容

针对上述现有技术的不足，本发明提供一种基于深度复卷积网络的单通道语音增强方法

为解决上述技术问题，本发明所采取的技术方案是：一种基于深度复卷积网络的单通道语音增强方法，包括如下步骤：

步骤1：构造带噪语音，计算带噪语音复数域上的频谱特征，并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签，将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集，具体过程如下：

步骤1.1：将纯净语音信号x(t)和噪声信号n(t)合并，得到带噪语音信号y(t)：

y(t)＝x(t)+n(t) (1)

步骤1.2：将公式(1)的带噪语音通过短时傅里叶变换得到频谱：

Y(t,f)＝X(t,f)+N(t,f) (2)

其中X(t，f)、N(t，f)、Y(t，f)分别表示纯净语音信号频谱、噪声信号频谱和带噪语音信号频谱；

步骤1.3：将带噪语音信号频谱Y(t，f)用实部Y_r(t，f)和虚部Y_i(t，f)具体表示：

Y(t,f)＝Y_r(t,f)+Y_i(t,f) (3)

步骤1.4：计算掩膜特征CRM作为网络训练使用的标签，具体如下：

其中，X_r、X_i分别为纯净语音频谱的实部和虚部，Y_r、Y_i分别为带噪语音频谱的实部和虚部，j为虚数单位；

步骤1.5：将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集。

步骤2：构建深层复卷积网络模型；

所述深层复卷积网络模型的具体结构包括：卷积傅里叶变换模块、编码器、解码器和反卷积模块，在编码器和解码器之间有两个用于建模时间依赖关系的GRU层，所述GRU层用来分离语音和噪声成分；深层复卷积网络模型还通过跳转，连接整合编码器和解码器的信息，有利于梯度的流动，在没有先验知识的情况下学习实部和虚部。

进一步的，所述编码器由五个Conv2d块组成，从输入特征提取高维特征，降低分辨率；所述解码器将低分辨率特征重构为输入的原始大小，对称的设计编码器-解码器结构；所述编码器或解码器中的Conv2d块由卷积或反卷积层组成，用来提取高维特征，再经过批量归一化为标准正态分布，经过激活层将特征值集中在激活函数的线性范围。

所述步骤2具体的构建过程如下：

步骤2.1：设置编码器中的复数卷积滤波器为：

W＝W_r+jW_i (5)

其中，W_r和W_i分别代表卷积滤波器的实部和虚部；

步骤2.2：将带噪语音信号频谱Y(t，f)与复数卷积滤波器相乘，得到卷积后的特征图F_out，表示为：

F_out＝(Y_r×W_r-Y_i×W_i)+j(Y_r×W_i-Y_i×W_r) (6)

步骤2.3：将F_out经过复数批归一化层和PReLU激活函数层，得到第一个编码器的输出特征F₁：

F₁＝PReLu(BN(F_out)) (7)

其中，BN()为批归一化层函数，PReLU()为激活函数；

步骤2.4：深层复卷积网络结构中包含六个编码模块，重复6次步骤2.1至步骤2.3中的处理，得到从训练集数据中提取输入语谱的高维特征F₆，F₆的复数表示为：

F₆＝F_r6+F_i6 (8)

其中，F_r6为最后一个编码器输出的高维特征的实部，F_i6为最后一个编码器输出的高维特征的虚部；

步骤2.5：设分离模块复数GRU层的实部和虚部分别为：GRU_r和GRU_i，将高维特征F₆输入分离模块复数GRU中，得到增强后的特征F^：

其中，F_rr为编码器输出的高维特征的实部经过复数分离模块GRU的实部得到的输出特征向量，F_ir为编码器输出的高维特征的虚部经过复数分离模块GRU的实部得到的输出特征向量，F_ri为编码器输出的高维特征的实部经过复数分离模块GRU的虚部得到的输出特征向量，F_ii为编码器输出的高维特征的虚部经过复数分离模块GRU的虚部得到的输出特征向量；

步骤2.6：将增强后的特征输入到解码器中，将特征图的大小恢复到与原始输入一致，网络按照以上步骤计算，通过步骤1.4的掩膜计算方法得到估计掩膜F_CRM，并将估计掩膜F_CRM与公式(4)得到的原始频谱Y(t，f)相乘，得到估计语谱Y^(t，f)＝Y(t，f)×F_CRM；

步骤2.7：经过短时傅里叶逆变换得到估计语音的时序序列y^(t)：

y^(t)＝iSTFT(Y^{^}(t，f)) (10)

其中，iSTFT()为短时傅里叶逆变换函数。

步骤3：优化损失函数：提出一种改进的加权源失真比wSDR作为损失函数，通过计算估计语音在纯净语音上的投影值和估计噪音在噪声信号上的投影值，将两个投影值通过比例系数加和，构造加权源失真比损失函数，具体过程如下：

步骤3.1：使用估计语音的时序序列y^{^}(t)和纯净语音信号x(t)计算源失真比原始的损失函数：

其中，SDR为源失真比原始的损失函数；

步骤3.2：对公式(11)取负倒数，具体公式定义为：

其中，loss_{V en}为取负倒数后的源失真比的值；

步骤3.3：将损失函数的值限定在[-1,1]的范围内，增加相位敏感性，得到损失函数为：

其中，loss_SDR为将损失函数限定在[-1,1]内的损失函数；

步骤3.4：为了补偿只有噪声存在的片段的样本在反向传播过程中的计算误差，添加噪声估计损失函数项，构造加权源失真比损失函数，过程如下：

步骤3.4.1：估计噪声表示为：

n^{^}(t)＝y(t)-y^(t) (14)

其中，n^(t)为时域上的估计噪声；

步骤3.4.2：在损失函数中增加噪声估计项，此时的噪声估计损失函数项为：loss_SDR(n(t),n^(t))；

步骤3.4.3：为了合理平衡各损失项的贡献程度，增加损失函数对尺度变换的敏感性，将各损失项与每个信号的能量成比例加权，得到加权源失真比损失函数的最终形式，如下:

loss_wSDR(y(t),x(t),y^(t))＝αloss_SDR(x(t),y^(t))+(1-α)loss_SDR(n(t),n^(t)) (15)

其中，a＝||y||²/(||y||²+||n^(t)||²)表示纯净语音信号与带噪语音信号之间的能量比，当噪声能量||n^(t)||²趋于0，代表语音能量在带噪信号中占据主导地位，此时的能量比a则趋于1；构造损失函数后，计算损失函数的值，再进行反向传播更新梯度值。

步骤4：将网络训练所需的训练集数据中的带噪语音复数域上的频谱特征作为深层复卷积网络模型的输入数据对深层复卷积网络模型进行训练；

步骤5：利用训练好的确定参数的深层复卷积网络对带噪语音信号进行降噪处理。

采用上述技术方案所产生的有益效果在于：

1、本发明提供的基于深度复卷积网络的单通道语音增强方法采用深度复卷积网络中的编解码和分离模块对复数频谱进行特征提取、将噪声与语音分离和信号恢复阶段均模拟复数运算，使得频谱的幅度谱和相位谱之间一直满足复数运算关系。训练低信噪比场景下单麦克风语音信号的复掩膜特征，增加估计语音的信噪比，提升单通道语音增强方法的语音质量和可懂度。

2、本发明的方法更改网络结构中的分离模块，改进为GRU单元，在保证信噪比的情况下，降低模型占用内存；

3、本发明的方法目标函数的计算改为加权源失真比损失函数wSDR，增加噪声估计项，增加损失函数对尺度变换的敏感性，将各损失项与每个信号的能量成比例加权，补偿语音信号的预测，弥补只有噪声存在的片段的样本在反向传播过程中的计算误差。

4、本发明的方法编码器采用多层卷积来提取重要的上下文信息，更好的重构语音。

附图说明

图1为本发明实施例中基于深度复卷积网络的单通道语音增强方法的流程图；

图2为本发明实施例中深度复卷积网络模型的结构示意图；

图3为本发明实施例中复编码器的工作原理图；

图4为本发明实施例中模拟复数运算法则示意图；

图5为本发明实施例中分离模块为LSTM时测试集数据信噪比分布情况示意图；

图6为本发明实施例中分离模块为GRU时测试集数据信噪比分布情况示意图；

图7为本发明实施例中学习率为0.0001的-sisnr曲线；

图8为本发明实施例中学习率为0.001的-sisnr曲线。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例的实验环境为：在pytorch框架下进行试验。实验设备采用处理器Intel(R)Xeon(R)CPU E5-2697 v4，内存256G，操作系统为64位Windows10，GPU型号GEFORCE RTX3060，实验在GPU模式下运行。

如图1所示，本实施例中基于深度复卷积网络的单通道语音增强方法如下所述。

y(t)＝x(t)+n(t) (1)

Y(t,f)＝X(t,f)+N(t,f) (2)

Y(t,f)＝Y_r(t,f)+Y_i(t,f) (3)

本实施例中，纯净语音数据集采用深度抑制噪声大赛的纯净语音数据，包含4600条语音，每条语音的时长为30秒钟，总时长为40小时。噪声库选用TUT的15种声学场景噪音，每个噪声片段同为30秒钟，总时长10小时。采样频率都为16KHz。在训练数据集生成阶段，将语音库和噪声库交叉混合，生成带噪语音数据集，共4600条，涵盖的每种噪声的比例大致相同，并将数据集按照8:1:1的比例分为训练集、验证集和测试集。

步骤2：构建深层复卷积网络模型；

所述深层复卷积网络模型的具体结构如图2所示，包括：卷积傅里叶变换模块、编码器、解码器和反卷积模块，在编码器和解码器之间有两个用于建模时间依赖关系的GRU层，所述GRU层用来分离语音和噪声成分；深层复卷积网络模型还通过跳转，连接整合编码器和解码器的信息，有利于梯度的流动，在没有先验知识的情况下学习实部和虚部。

本实施例中，模型参数的设置为：初始学习率设置为0.001，每当验证集损失函数上升时，将学习率衰减0.5。编码器的二维卷积模块通道数分别设为16、32、64、128、256、256，卷积核的大小为5*2，步长为2*1。每个编码器的输出都通过跳转连接输出到对应的解码器输入中，保证信息流在网络中的传输，因此网络中的六个解码器中的二维反卷积模块的通道数分别设为256、256、128、64、32、1，反卷积核的大小为5*2，步长为2×1。本实施例中使用pytorch框架训练网络模型，优化器使用SGD。

所述步骤2具体的构建过程如下：

步骤2.1：设置编码器中的复数卷积滤波器为：

W＝W_r+jW_i (5)

其中，W_r和W_i分别代表卷积滤波器的实部和虚部；

步骤2.2：将带噪语音信号频谱Y(t，f)与复数卷积滤波器相乘，过程如图4所示，得到卷积后的特征图F_out，表示为：

F_out＝(Y_r×W_r-Y_i×W_i)+j(Y_r×W_i-Y_i×W_r) (6)

F₁＝PReLu(BN(F_out)) (7)

其中，BN()为批归一化层函数，PReLU()为激活函数；

本实施例中，复编码器的工作原理如图3所示。

F₆＝F_r6+F_i6 (8)

步骤2.6：将增强后的特征输入到解码器中，将特征图的大小恢复到与原始输入一致，网络按照以上步骤计算，通过步骤1.4的掩膜计算方法得到估计掩膜F_CRM，并将估计掩膜F_CRM与公式(4)得到的原始频谱Y(t，f)相乘，得到估计语谱Y^{^}(t，f)＝Y(t，f)×F_CRM；

步骤2.7：经过短时傅里叶逆变换得到估计语音的时序序列y^{^}(t)：

y^{^}(t)＝iSTFT(Y^{^}(t，f)) (10)

其中，iSTFT()为短时傅里叶逆变换函数。

其中，SDR为源失真比原始的损失函数；

步骤3.2：对公式(11)取负倒数，具体公式定义为：

其中，loss_{V en}为取负倒数后的源失真比的值；

其中，loss_SDR为将损失函数限定在[-1,1]内的损失函数；

步骤3.4.1：估计噪声表示为：

n^(t)＝y(t)-y^(t) (14)

其中，n^{^}(t)为时域上的估计噪声；

为了体现本发明在单通道语音增强方面的效果，本实施例中另外还采用LSTM层作为模型的分离模块进行对比实验，实验得到当分离模块分别为GRU和LSTM时，深度复卷积网络的训练集信噪比如表1所示，当分离模块分别为GRU和LSTM时，深度复卷积网络的测试集损失函数如表2所示。

表1分离模块为GRU和LSTM的深度复卷积网络的训练集信噪比

表2分离模块为GRU和LSTM的深度复卷积网络的测试集损失函数

	LSTM	GRU
			总体均值	15.7569	15.9623
总体方差	28.7046	26.3062
			模型大小	16645KB	15745KB

由表1可知，分离模块为GRU的网络比分离模块为LSTM的网络训练集信噪比提升0.16dB。由表2可知，分离模块为GRU的网络比分离模块为LSTM的网络在测试集的信噪比均值提升了0.21dB，测试集的信噪比方差降低了2.4，这一点也可以从图5和图6中看出，数据分布更加集中。其次，分离模块选用含有更少的门控单元的GRU，通过将编码后的复频谱的实部和虚部均送入GRU层的实部和虚部，计算输出部分的实部和虚部，进行向量拼接得到估计的CRM掩膜的复数形式，利用GRU对时间的建模能力实现性能提升，GRU的参数量少，可以在增强模块上降低模型规模和占用内存大小，通过表2可以看出分离模块为GRU的网络比分离模块为LSTM的网络少占用900K内存，可以减少模型复杂度。最后，在训练过程中使用优化后的加权源失真比作为损失函数，在原有的计算纯净语音和估计语音的失真比的基础上，考虑原始混合语音中添加的噪声和估计的噪声信号的失真比，通过设置权重系数ɑ为纯净语音能量与纯净语音和噪声信号的能量和的比值，补偿语音信号的预测，弥补只有噪声存在的片段的样本在反响传播过程中的计算误差。

采用上述对比实验在TUT的15种声学场景噪音上进行结果对比，如表3所示。

表3 15种噪声下不同分离模块实验结果对比

从表3的结果中可以看出，分离模块为GRU的网络比分离模块为LSTM的网络在测试集的信噪比均值提升了0.21dB，测试集的信噪比方差降低了2.4。在绝大多数噪声种类上，信噪比的均值和方差表现均提升。

此外，本实施例中还将深层复卷积网络模型的学习率设置为0.0001，其余参数与上述实验相同进行对比实验。得到结果如图7和图8所示，损失函数在这种情况下曲线震荡幅度大，收敛速度慢，容易在局部最优解周围震荡。因此，实验中学习率参数设置为0.001更为合适，此时训练得到的网络模型在训练集和验证集上更稳定，面对未知的测试集也有更优的性能表现。

Claims

1.一种基于深度复卷积网络的单通道语音增强方法，其特征在于，包括如下步骤：

步骤1：构造带噪语音，计算带噪语音复数域上的频谱特征，并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签，将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集；

步骤2：构建深层复卷积网络模型；

步骤3：优化损失函数：提出一种改进的加权源失真比wSDR作为损失函数，通过计算估计语音在纯净语音上的投影值和估计噪音在噪声信号上的投影值，将两个投影值通过比例系数加和，构造加权源失真比损失函数；

2.根据权利要求1所述的基于深度复卷积网络的单通道语音增强方法，其特征在于，所述步骤1的过程如下：

y(t)＝x(t)+n(t) (1)

Y(t,f)＝X(t,f)+N(t,f) (2)

Y(t,f)＝Y_r(t,f)+Y_i(t,f) (3)

3.根据权利要求1所述的基于深度复卷积网络的单通道语音增强方法，其特征在于，所述深层复卷积网络模型的具体结构包括：卷积傅里叶变换模块、编码器、解码器和反卷积模块，在编码器和解码器之间有两个用于建模时间依赖关系的GRU层，所述GRU层用来分离语音和噪声成分；深层复卷积网络模型还通过跳转，连接整合编码器和解码器的信息，有利于梯度的流动，在没有先验知识的情况下学习实部和虚部。

4.根据权利要求3所述的基于深度复卷积网络的单通道语音增强方法，其特征在于，所述编码器由五个Conv2d块组成，从输入特征提取高维特征，降低分辨率；所述解码器将低分辨率特征重构为输入的原始大小，对称的设计编码器-解码器结构；所述编码器或解码器中的Conv2d块由卷积或反卷积层组成，用来提取高维特征，再经过批量归一化为标准正态分布，经过激活层将特征值集中在激活函数的线性范围。

5.根据权利要求2所述的基于深度复卷积网络的单通道语音增强方法，其特征在于，所述步骤2的过程如下：

步骤2.1：设置编码器中的复数卷积滤波器为：

W＝W_r+jW_i (5)

其中，W_r和W_i分别代表卷积滤波器的实部和虚部；