CN110246510A

CN110246510A - 一种基于RefineNet的端到端语音增强方法

Info

Publication number: CN110246510A
Application number: CN201910549850.XA
Authority: CN
Inventors: 蓝天; 彭川; 李森; 刘峤; 钱宇欣; 叶文政; 李萌; 惠国强; 吕忆蓝
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-09-17
Anticipated expiration: 2039-06-24
Also published as: CN110246510B

Abstract

本发明公开了一种基于RefineNet的端到端语音增强方法，首先构建一个时频分析网络对语音信号编码分析，然后利用RefineNet网络学习含噪语音到纯净语音的特征映射，最后解码生成增强的语音信号。在此基础上，我们提出将评价指标与训练损失函数相融合的改进方法以及将STOI与SDR同时作为优化目标的多目标融合学习策略。在不同噪声环境和不同信噪比下的测试中，本发明提出的方法在STOI、PESQ以及SDR方面的指标显著优于具有代表性的传统方法、非端到端和端到端的深度学习方法，能更好地提高语音的清晰度和可懂度；得到更好的语音增强效果。

Description

一种基于RefineNet的端到端语音增强方法

技术领域

本发明属于语音信号处理技术领域，具体设计一种基于RefineNet的端到端语音增强方法。

背景技术

语音信号增强的主要目标是从带噪语音中提取原始语音信号，通过抑制或分离噪声来提升语音感知质量与可懂度，在语音信号通信、安全监听、助听器和自动语音识别等领域有着广泛的应用。进过几十年的发展，众多语音增强算法相继被提出，经典的语音增强技术主要包括谱减法、维纳滤波法、基于统计模型的方法等，这些方法往往基于噪声平稳的假设，在高度非平稳的噪声情况下增强效果会急剧恶化。

深度学习的兴起以及在图像分类、语音识别以及自然语音处理等领域的成功应用，为解决复杂环境下的语音增强提供了思路，神经网络模型开始被广泛应用到了语音增强任务中。根据网络学习的目标不同，基于神经网络的语音增强主要分为基于时频掩蔽、基于特征映射的方法以及两者结合的信号近似方法。基于时频掩蔽的方法将纯净语音与噪声之间的相互关系作为学习目标，将得到的时频掩蔽估计作用于带噪语音上，并经由逆变换技术合成增强语音的时域波形；基于特征映射的方法利用神经网络学习带噪语音和纯净语音之间的复杂映射关系。这两类方法通常需要将时域波形变换到时频域处理信号的幅度谱或功率谱，往往会忽略掉语音信号中的相位信息。

发明内容

针对现有技术中的上述不足，本发明提供的基于RefineNet的端到端的语音增强方法解决了现有的语音增强方法会会忽略掉相位信息，增强语音清晰度和可懂度不足的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于RefineNet的端到端语音增强方法，包括以下步骤：

S1、通过TFANet时频分析网络将原始带噪语音信号变换成含有时频信息的特征图，并输入到RefineNet网络中；

S2、通过RefineNet网络对特征图进行分析，确定原始带噪语音信号到纯净语音信号的特征映射对应的特征图；

S3、根据特征图，通过TFANet时频分析网络重构出增强后的语音信号，实现语音增强。

进一步地，所述TFANet时频分析网络包括STFT卷积层、取特征图层、解卷积层和语音信号重构层；

所述STFT卷积层的输出端与取特征图层连接，所述取特征图层的输出端分别与RefineNet网络的输入端和解卷积层的输出端连接；

所述解卷积层的输入端与RefineNet网络的输出端连接，所述解卷积层的输出端与语音信号重构层连接。

进一步地，所述步骤S1具体为：

S11、通过STFT卷积层对原始带噪语音信号进行短时傅里叶变换，得到原始带噪语音信号的时域信息；

其中，短时傅里叶变换的公式为：

式中，x_t[f]为原始语音信号在第t帧第f频点的STFT结果；

N为每帧的采样点个数；

H为相邻帧间的位移；

k_f[i]＝w[i]·b_f[i]，k_f[i]为对应的卷积核系数，b_f[i]是对应的STFT变换系数，w[i]是对应的窗函数系数；

S12、通过取特征图层将时域信息中的幅度信息X取绝对值作为原始带噪语音信号的模拟幅度|X|；

同时，根据X和|X|确定原始带噪语音信号的模拟相位，并输入到语音信号重构层中；

其中，模拟相位P为：

S13、将原始带噪语音信号的模拟幅度|X|作为特征图输入到RefineNet网络中。

进一步地，所述RefineNet网络包括输入单元、ResBlock单元组、RefineBlock单元组和输出单元；

所述ResBlock单元组包括第一ResBlock单元、第二ResBlock单元、第三ResBlock单元和第四ResBlock单元；

所述RefineBlock单元组包括第一RefineBlock单元、第二RefineBlock单元、第三RefineBlock单元和第四RefineBlock单元；

所述输入单元、第一ResBlock单元、第二ResBlock单元、第三ResBlock单元和第四ResBlock单元依次连接；

所述第四RefineBlock单元、第三RefineBlock单元、第二RefineBlock单元和第一RefineBlock单元和输出单元依次连接；

所述第一ResBlock单元还与第一RefineBlock单元连接，所述第二ResBlock单元还与第二RefineBlock单元连接，所述第三ResBlock单元还与第三RefineBlock单元连接，所述第四ResBlock单元还与第四RefineBlock单元连接。

进一步地，所述输入单元包括依次连接的7×7的卷积层和池化层，所述池化层与第一ResBlock单元连接；

所述7×7的卷积层的步长为2；

所述池化层的步长为2；

所述第一ResBlock单元、第二ResBlock单元、第三ResBlock单元和第四ResBlock单元均包括第一卷积组、第二卷积组、第一残差连接和第二残差连接；

所述第一卷积组包括依次连接的第一1×1的卷积层、第一3×3的卷积层和第二1×1的卷积层；

所述第二卷积组包括依次连接的第三1×1的卷积层、第二3×3的卷积层和第四1×1的卷积层；

所述第一1×1的卷积层的输入端还与第五1×1的卷积层的输入端连接；

所述第二1×1的卷积层的输出端和第五1×1的卷积层的输出端与第一残差连接的输入端连接，所述第一残差连接的输出端分别与第三1×1的卷积层的输入端和第二残差连接的输入端连接，所述第二残差连接的输入端还与第四1×1的卷积层的输出端连接，所述第二残差连接的输出端作为一个ResBlock单元的输出端；

所述第一ResBlock单元的输出通道的个数为256；其中，各个卷积层的步长均为1；

所述第二ResBlock单元的输出通道的个数为512；其中，第一3×3的卷积层、第二3×3的卷积层和第五1×1的卷积层的步长均为2，第一1×1的卷积层、第二1×1的卷积层、第三1×1的卷积层和第四1×1的卷积层的步长均为1；

所述第三ResBlock单元的输出通道的个数为1024；其中，第一3×3的卷积层、第二3×3的卷积层和第五1×1的卷积层的步长均为2，第一1×1的卷积层、第二1×1的卷积层、第三1×1的卷积层和第四1×1的卷积层的步长均为1；

所述第四ResBlock单元的输出通道的个数为2048；其中，第一3×3的卷积层、第二3×3的卷积层和第五1×1的卷积层的步长均为2，所述第一1×1的卷积层、第二1×1的卷积层、第三1×1的卷积层和第四1×1的卷积层的步长均为1。

进一步地，所述第一RefineBlock单元、第二RefineBlock单元、第三RefineBlock单元和第四RefineBlock单元均包括依次连接的RCU层组、多分辨率融合层组、链式残差池化层组和输出卷积层组；

其中，第一RefineBlock单元、第二RefineBlock单元和第三RefineBlock单元均包括两个并列设置的RCU层组和两个并列设置的多分辨率融合层组；第四RefineBlock单元包括一个RCU层组和多分辨率融合层组；

每个所述RCU层组的输入端分别与对应的ResBlock单元的输出端和RefineBlock单元的输出端连接；

两个所述RCU层组并列设置，每个RCU层组均包括依次连接的第三3×3的卷积层、第四3×3的卷积层和第三残差连接；

所述第三3×3的卷积层和第四3×3的卷积层中的输入端均设置有RELU激活函数；

所述RCU层组的输入端还与第三残差连接的输入端连接，所述第三残差连接的输出端作为RCU层组的输出端与多分辨率融合层组的输入端连接；

每个所述多分辨率融合层组均包括依次连接的第五3×3的卷积层和特征图上采样层，所述特征图上采样层采用双线性差值对特征图上采样，并通过第四残差连接与链式差池化层组连接；

所述链式残差池化层组包括依次连接的第一3×3的池化层、第六3×3的卷积层、第二3×3的池化层和第七3×3的卷积层；

所述第四残差连接的输出端通过一个RELU激活函数分别与第一3×3的池化层的输入端和第五残差连接的输入端连接，所述第五残差连接的输入端还与第六3×3的卷积层的输出端连接；

所述第五残差连接的输出端与第六残差连接的输入端连接，所述第六残差连接的输入端还与第七3×3的卷积层的输出端连接，所述第六残差连接的输出作为链式残差池化层组的输出端与输出卷积层组连接；

所述输出卷积层组包括依次连接的第八3×3的卷积层、第九3×3的卷积层和第七残差连接；

所述第八3×3的卷积层和第九3×3的卷积层的输入端设置有RELU激活函数；

所述输出卷积层组的输入端还与第七残差连接的输入端连接，所述第七残差连接的输出端作为输出卷积层组的输出端与下一RefineBlock单元或输出单元连接。

进一步地，所述步骤S2具体为：

S21、通过各个ResBlock单元对输入单元输入的特征图进行处理，得到具有高层次的全局和上下文信息的特征图，并输入到对应RefineBlock单元；

S22、通过RefineBlock单元对输入的不同大小的特征图进行融合，获得特征图的高层抽象特征和底层精细特征；

S23、通过输出单元对具有高层抽象特征和底层精细特征的特征图进行微调，获得原始带噪语音信号到纯净语音信号的特征映射对应的特征图。

进一步地，所述步骤S3具体为：

S31、通过解卷积层将RefineNet网络输出的特征图放大，得到去噪后的模拟幅度；

其中，放大的特征图与输入RefineNet的特征图大小相等；

S32、将去噪后的模拟幅度与模拟相位相乘，生成模拟语谱图；；

S33、通过语音信号重构层对模拟生成语谱图进行重构，模拟短时傅里叶变换过程得到增强后的语音信号。

进一步地，所述TFANet时频分析网络和RefineNet网络的优化目标包括SDR、STOI和RMSE；

其中，SDR为增强语音信号中纯净语音分量与其它分量的能量比值；

STOI为纯净语音信号y和增强语音信号中所有频段和帧的可懂度的平均值；

RMSE为时域的增强语音信号与纯净语音信号y的均方误差；

其中，SDR为：

STOI为：

式中，d_j,m为两个时间包络之间的相关系数；

M为每条原始语音信号的采样点数；

RMSE为：

式中，M为每条原始语音信号的采样点数；

N为每条原始语音信号的语音总数；

为增强后语音信号；

y为纯净语音信号。

进一步地，所述TFANet时频分析网络和RefineNet网络的优化目标函数为：

式中，min(·)为求最小值；

M为每条原始语音信号的采样点数；

N为每条原始语音信号的语音总数；

为增强后语音信号；

y为纯净语音信号；

α为均方误差的权重系数；

β为STOI的权重系数；

λ为SDR的权重系数；

为SDR函数；

为STOI函数。

本发明的有益效果为：

本发明提供的基于RefineNet的端到端语音增强方法，首先构建一个时频分析网络对语音信号编码分析，然后利用RefineNet网络学习含噪语音到纯净语音的特征映射，最后解码生成增强的语音信号。在此基础上，我们提出将评价指标与训练损失函数相融合的改进方法以及将STOI与SDR同时作为优化目标的多目标学习策略。在不同噪声环境和不同信噪比下的测试中，本发明提出的方法在STOI、PESQ以及SDR方面的指标显著优于具有代表性的传统方法、非端到端和端到端的深度学习方法，能更好地提高语音的清晰度和可懂度；得到更好的语音增强效果。

附图说明

图1为本发明提供的基于RefineNet的端到端的语音增强方法流程图。

图2为本发明提供的语音增强模型(RNSE模型结构图)。

图3为本发明提供的ResNet单元组结构图。

图4为本发明提供的RefineBlock单元结构图。

图5为本发明提供的实施例中不同噪声不同信噪比下实验结果图。

图6为本发明提供的实施例中0dB的Babble噪声下语音增强语谱图示例。

图7为本发明提供的实施例中基于不同目标函数的测试结果。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于RefineNet的端到端语音增强方法，包括以下步骤：

图2中展示本发明中的TFANet时频分析网络与RefineNet网络的连接示意，TFANet时频分析网络与RefineNet网络组成本发明中的语音增强模型(RNSE)；

图2中的TFANet时频分析网络是一个用于模拟短时傅里叶变换及其逆变换过程的时频分析神经网络，它作为语音增强的前端，用于将一维时域的语音信号映射为时频空间的高频表示，得到二维的特征图；同时也作为语音增强的后端，将RefineNet网络输出的增强后的特征图重构成一维时域语音信号；RefineNet网络作为语音增强过程中的主体部分，用于对特征图进行精炼分析，并与TFANet时频分析网络结合，实现从时域的含噪语音信号到时域的纯净语音信号的直接映射。

图2中的TFANet时频分析网络包含编码分析阶段和解码生成阶段，在编码分析阶段将原始带噪语音信号表示为二维的时频空间特征图并输入到RefineNet网络，在解码生成阶段将RefineNet网络输出的增强语音信号的特征图重构成一维语音信号。

该TFANet时频分析网络包括STFT卷积层、取特征图层、解卷积层和语音信号重构层；

STFT卷积层的输出端与取特征图层连接，取特征图层的输出端分别与RefineNet网络的输入端和解卷积层的输出端连接；

解卷积层的输入端与RefineNet网络的输出端连接，解卷积层的输出端与语音信号重构层连接。

因此，上述步骤S1具体为：

假设带噪语音信号为s[n]，那么STFT计算可以表示为：

式中，x_t[f]为原始语音信号在第t帧第f频点的STFT结果，最终组成一个T帧F个频点的矩阵；

N是每帧的采样点个数；

H为相邻帧间的位移；

H是窗函数系数；

b_f[i]是对应的STFT变换系数；

令k＝w·b，可以将式(1)变换成卷积形式：

式中，k_f[i]＝w[i]·b_f[i]，k_f[i]为对应的卷积核系数，b_f[i]是对应的STFT变换系数，w[i]是对应的窗函数系数；

其中，模拟相位P为：

在上述步骤S12-步骤S13中，STFT在复数域变换语音信号的计算较为复杂，一般为了简化处理，往往是直接处理信号时频域表示的幅度，而忽略了相位；本发明中通过对语音信号卷积后的高维表示进行处理，在避免复数运算的复杂性的同时，对时频空间中隐藏的相位信息加以利用。如图2所示，我们通过对幅度信息X取绝对值|X|来模拟STFT的幅度谱，然后将|X|作为特征图输入到RefineNet中学习语音的增强过程；这里RNSE模型保留了X的极性P作为对原始信号的模拟相位，用于后续增强语音的重构。通过这种保留极性的方式模拟原始信号的相位，实现对语音信号中的信息充分利用。

RefineNet网络的总体结构如图2所示，第四ResBlock单元的特征图输入到第四RefineBlock单元中，经过微调输入第三RefineBlock单元，与第三ResBlock的特征图融合，再依次通过第二RefineBlock、第一RefineBlock与第二ResBlock单元、第一RefineBlock单元的特征图融合，最后经过输出单元做最后的微调。

图2中的RefineNet网络包括输入单元、ResBlock单元组、RefineBlock单元组和输出单元；

ResBlock单元组包括第一ResBlock单元、第二ResBlock单元、第三ResBlock单元和第四ResBlock单元；

RefineBlock单元组包括第一RefineBlock单元、第二RefineBlock单元、第三RefineBlock单元和第四RefineBlock单元；

输入单元、第一ResBlock单元、第二ResBlock单元、第三ResBlock单元和第四ResBlock单元依次连接；

第四RefineBlock单元、第三RefineBlock单元、第二RefineBlock单元和第一RefineBlock单元和输出单元依次连接；

第一ResBlock单元还与第一RefineBlock单元连接，所述第二ResBlock单元还与第二RefineBlock单元连接，所述第三ResBlock单元还与第三RefineBlock单元连接，所述第四ResBlock单元还与第四RefineBlock单元连接。

本发明中的RefineNet网络是在ResNet框架上的改进，为了在增加神经网络的深度的同时不影响网络的训练，ResNet中采用了残差连接，将一层或多层叠加的隐含层F(X)与输入X相加，作为最终输出：

F(X)+X (4)

本发明中的RefineNet网络中的ResBlock单元组的结构如图3所示，输入单元包括依次连接的7×7的卷积层和池化层，池化层与第一ResBlock单元连接；

7×7的卷积层的步长为2；

池化层的步长为2；

第一ResBlock单元、第二ResBlock单元、第三ResBlock单元和第四ResBlock单元均包括第一卷积组、第二卷积组、第一残差连接和第二残差连接；

第一卷积组包括依次连接的第一1×1的卷积层、第一3×3的卷积层和第二1×1的卷积层；

第二卷积组包括依次连接的第三1×1的卷积层、第二3×3的卷积层和第四1×1的卷积层；

第一1×1的卷积层的输入端还与第五1×1的卷积层的输入端连接；

第二1×1的卷积层的输出端和第五1×1的卷积层的输出端与第一残差连接的输入端连接，第一残差连接的输出端分别与第三1×1的卷积层的输入端和第二残差连接的输入端连接，第二残差连接的输入端还与第四1×1的卷积层的输出端连接，第二残差连接的输出端作为一个ResBlock单元的输出端；

其余三个ResBlock单元的结构与上述结构类似，再次不再赘述，需要说明的是上述第一ResBlock单元的输出通道的个数为256，其中各个卷积层的步长为1；

第二ResBlock单元的输出通道的个数为512；其中，第一3×3的卷积层、第二3×3的卷积层和第五1×1的卷积层的步长为2，所述第一1×1的卷积层、第二1×1的卷积层、第三1×1的卷积层和第四1×1的卷积层的步长为1；

第三ResBlock单元的输出通道的个数为1024；其中，第一3×3的卷积层、第二3×3的卷积层和第五1×1的卷积层的步长为2，所述第一1×1的卷积层、第二1×1的卷积层、第三1×1的卷积层和第四1×1的卷积层的步长为1；

第四ResBlock单元的输出通道的个数为2048；其中，第一3×3的卷积层、第二3×3的卷积层和第五1×1的卷积层的步长为2，所述第一1×1的卷积层、第二1×1的卷积层、第三1×1的卷积层和第四1×1的卷积层的步长为1。

经过上述ResBlock单元后输出的特征图逐块缩小，感受也变化，特征更加抽象，从而能捕获更高层次的全局和上下文信息，但随着计算量随之减少，精细特征也会逐渐丢失。因此需要将其输出特征图输入到RefineBlock单元组中，RefineBlock是一种神经网络块，可以把不同大小的特征图融合，从而利用高层的抽象特征和底层的精细特征，其结构如图4所示；

第一RefineBlock单元、第二RefineBlock单元、第三RefineBlock单元和第四RefineBlock单元均包括依次连接的两个RCU层组、两个多分辨率融合层组、链式残差池化层组和输出卷积层组；

每个RCU层组的输入端分别与对应的ResBlock单元的输出端和RefineBlock单元的输出端连接；两个RCU层组并列设置，每个RCU层组均包括依次连接的第三3×3的卷积层、第四3×3的卷积层和第三残差连接；第三3×3的卷积层和第四3×3的卷积层中的输入端均设置有RELU激活函数；RCU层组的输入端还与第三残差连接的输入端连接，第三残差连接的输出端作为RCU层组的输出端与多分辨率融合层组的输入端连接；上述RCU层组用于对输入的特征图在融合前进行微调。

每个多分辨率融合层组均包括依次连接的第五3×3的卷积层和特征图上采样层，所述特征图上采样层采用双线性差值对特征图上采样，并通过第四残差连接与链式差池化层组连接；上述多分辨率融合层组用于将不同分辨率的特征图融合成一张图，该过程为：首先通过一层卷积层对特征图进行融合前的微调，然后以分辨率最高的特征图为基准，对所有分辨率较低的新特征图进行上采样，最后直接相加，得到一张高分辨率的特征图。

链式残差池化层组包括依次连接的第一3×3的池化层、第六3×3的卷积层、第二3×3的池化层和第七3×3的卷积层；第四残差连接的输出端通过一个RELU激活函数分别与第一3×3的池化层的输入端和第五残差连接的输入端连接，第五残差连接的输入端还与第六3×3的卷积层的输出端连接；第五残差连接的输出端与第六残差连接的输入端连接，第六残差连接的输入端还与第七3×3的卷积层的输出端连接，第六残差连接的输出作为链式残差池化层组的输出端与输出卷积层组连接；上述链式残差池化层组使用更大的感受视野从输入特征图中提取抽象特征；该过程为：特征图首先经过RELU激活函数，池化压缩图大小，提取主要特征，再通过卷积层微调，得到的新特征图在进行下一次的池化和卷积的同时，通过残差连接与原特征图融合，形成链式的残差池化结构。

输出卷积层组包括依次连接的第八3×3的卷积层、第九3×3的卷积层和第七残差连接；第八3×3的卷积层和第九3×3的卷积层的输入端设置有RELU激活函数；输出卷积层组的输入端还与第七残差连接的输入端连接，第六1×1的卷积层的输出端作为输出卷积层组的输出端与下一RefineBlock单元或输出单元连接。上述输出卷积层组的结构与RCU结构相似，用于对输出特征进行最后的微调。

因此，上述步骤S2具体为：

上述，步骤S3具体为：

其中，放大的特征图与输入RefineNet的特征图大小相等；

S33、通过语音信号重构层对模拟生成语谱图进行重构，模拟短时傅里叶变换过程得到增强后的语音信号；

其中，语音信号重构层实际上是一个解卷积层。

由于RefineNet的输出特征图的长和宽是其输入的1/4，在TFANet时频分析网络的解码生成阶段，使用步长为4的解卷积层将特征图恢复为原大小，同时微调特征图。接着将特征图与编码分析阶段保留的相位幅值|p|相乘，输入到语音信号重构层，模拟语音重构过程的短时傅里叶逆变换，最终得到对时域纯净语音y的估计。

在本发明中，TFANet时频分析网络和RefineNet网络的优化目标包括SDR、STOI和RMSE；

RMSE为时域的增强语音信号与纯净语音信号y的均方误差；

基于深度学习的语音增强模型常用均方误差(MSE)作为优化目的，在时域内可表示为：

式中，M为每条原始语音信号的采样点数；

N为每条原始语音信号的语音总数；

为增强后语音信号；

y为纯净语音信号；

虽然MSE模型在大量模型里得到应用，但不能保证得到最优的模型训练结果，其值越小不等同于语音可懂度和语音质量越高，而提升可懂度和质量是语音增强算法的目标。STOI是常用的客观语音可懂度评估指标，SDR则计算了语音信号与失真信号的比率，与语音质量高度相关。本发明将STOI与SDR两个评估指标共同融合到MSE中进行联合优化的策略，通过直接优化评价指标来提升语音增强模型的性能，缓解目标函数与评价指标之间的不匹配问题。因此，本发明将STOI与SDR作为优化目标；

SDR是增强语音信号中纯净语音分量与其它分量的能量比值，是y在上的投影，计算公式为：

因此，SDR的计算公式为：

将式(5)代入式(6)得到：

优化目标STOI用于评估语音的可理解性，输入是纯净语音y和增强语音其首先去除对语音可懂度无贡献的无声区域，然后对信号做SFTF变化，对两个信号进行时频分解，通过将两个信号分割为50％重叠的带汉宁窗的帧，得到与听觉系统中语音表征性质相似的特征，接着进行1/3倍频带分析，划出共15个1/3倍频带，其中频带中心频率范围为4.3kHz至150Hz，纯净语音的短时时间包络z_j,m表示为：

z_j,m＝[Y_j(m-L+1),Y_j(m-L+2),...Y_j(m)]^T (9)

式中，Y_j(·)为由纯净语音得到的1/3倍频带；

m为纯净语音帧的索引；

L为短时时间包络包含的语音帧数量；

T为转置操作符；

之后对语音信号进行归一化与剪裁，归一化用来补偿全局差异，这种差异不应该对语音的可懂度产生影响；剪裁确保了严重退化语音上STOI评估的上界。退化语音信号的归一化和剪裁时间包络表示为

可懂度的测量被定义为两个时间包络之间的相关系数d_j,m；

式中，为纯净语音的短时时间包络的均值向量；

||·||为求范数；

为含噪失真语音的短时时间包络的均值向量；

因此，STOI为所有波段和帧的中间可懂度的平均值；

式中，d_j,m为两个时间包络之间的相关系数；

M为每条原始语音信号的采样点数。

根据上述设定的优化目标，本发明中的TFANet时频分析网络和RefineNet网络的优化目标函数为：

式中，min(·)为求最小值；

M为每条原始语音信号的采样点数；

N为每条原始语音信号的语音总数；

为增强后语音信号；

y为纯净语音信号；

α为均放误差的权重系数；

β为STOI的权重系数；

λ为SDR的权重系数；

为SDR函数；

为STOI函数。

其中，对公式(11)中SDR优化目标做替换以简化计算：

在上式的最后一步中，丢弃了因为它对于网络的输出来说是一个大于0的常数，不影响网络的训练。

在本发明的一个实施例中，提供了通过本发明方法进行语音增强的实验过程：

实验中使用的语音数据来自于TIMIT数据集，噪声数据集采用ESC-50作为训练集，为了验证本发明提出的网络结构的泛化性能，我们也将Noisex92噪声数据集用于测试。TIMIT数据集总共包含6300条语音，由630人每人录制10个句子得到，男女比率为7:3。其中，每人录制的句子中有7个是重复的，为了去除重复句子对模型训练与测试的影响，本实验只取句子均不相同的1890条语音。将其中约80％的语音作为训练集，另外20％作为测试语音，且男女比例与TIMIT总体分布相同。ESC-50数据集包含2000条带标签的环境录音集合，共分为5个主要类别：动物、自然音景与水声、非语音人声、室内声音、城区声音。Noisex92是常用于语音增强测试的数据集，本文使用Babble、Factory1、White、HFChannel四种常见噪声进行不同噪声环境的测试，用所有15种Noisex92噪声做不可见噪声测试，用所有ESC-50噪声做可见噪声测试。

本实施例选择4个经典算法对比：(a)Log-MMSE，是一种常用的基于统计模型的语音增强方法；(b)BNMF，采用有监督贝叶斯和非负矩阵分解模型，是基于机器学习模型的语音增强算法；(c)DRNN-SE，采用循环连接层和多全连接层的神经网络模型，并且结合时频掩蔽，是典型的非端到端深度学习方法；(d)WaveNet-SE，采用新型卷积神经网络的WaveNet模型，是一种端到端的深度学习方法。

本发明中采用的评估指标为STOI、PESQ及SDR，其中STOI是短时客观可懂度，用于衡量语音可懂度，得分范围0～1，分值越高表明可懂度越高；PESQ用于语音质量感知评估，它是ITU-T(国际滇西联盟电信标准化部)推荐的语音质量评估指标，其得分范围为-0.5到4.5，值越大表明质量越好。SDR测试增强语音中纯净语音的分量与其它分量的参量比值，范围理论上为整个实数域，值越大表明增强效果越好。

本实施例评估了RNSE与其他非端到端方法的性能差异，包括Log-MMSE、BNMF及DRNN-SE。图5展示了在几种常见噪声条件下各模型的指标对比，我们可以看出在不同噪声环境和不同信噪比条件下，RNSE方法相比于时频域方法有显著的性能提升，在每种评估指标下均取得了最佳结果。我们还注意到，即使在-10dB的极限信噪比下，RNSE方法仍然可以取得比部分基线方法在-5dB下相当或更好的性能，这意味着RNSE更适合于在低信噪条件下的复杂环境中挖掘语音信号的信息。在图5中，从第一行到第三行评价指标分别为PESQ、STOI与SDR，图(a)～(c)、图(b)～(f)、图(g)～(i)、图(j)～(l)分别为Babble,Factory1,White,HFChannel噪声下的结果；-10,-5,0,5对应不同的信噪比条件；每簇信噪比中的柱状图从左至右依次对应Log-MMSE,BNMF,DRNN以及RNSE。

我们通过在可见和不可见噪声下做测试，进一步验证RNSE模型的泛化性，表1和表2分别给出了已知噪声和未知噪声下的客观评价指标；同时我们添加WaveNet-SE作为端到端的语音增强基线算法；由表1和表2可以看出，RNSE在已知噪声环境和未知噪声环境下均取得了最佳的结果，而且远优于端到端方法WaveNet-SE，同时，我们注意到相比于其他基线方法，DRNN-SE取得了较高的客观评价指标。为了更加直观的比较各种算法的增强效果，我们对各个网络增强后语音的语谱图进行了比较分析，图6为0dB的Babble噪声下各算法对语音增强后的语谱图，横轴表示时间T，纵轴表示语音信号频率F。从语谱图中可以看出，各种算法都一定程度上对含噪语音进行了有效的处理，然而WaveNet-SE方法在已知或未知噪声环境下的增强效果比较微弱，其增强后的语音在去除了大量的噪声之后保留了更少的语音成分。这表明WaveNet-SE很难挖掘时域语音信号的特征，导致其在增强的过程中无法较为准确地辨识语音和噪声。RNSE利用TFANet将时域信号映射到时频空间，避免了这个问题。通过在各种噪声和信噪比环境下的测试表明RNSE模型在复杂环境下具有较强的鲁棒性。在RNSE模型训练阶段，我们把评估指标融入到损失函数中，为了比较融入的评价指标对语音增强性能的影响，我们比较了不同组合的损失函数下的增强效果。图6中，(a)为含噪语音；(b)为纯净语音；(c)为Log-MMSE；(d)为BNMF；(e)为DRNN-SE；(f)为RNSE。

图7给出了不同损失函数配置在不同信噪比下的语音增强效果，从图中可以看出，MSE与STOI或SDR的单独结合要比单纯的使用MSE要取得更好的性能指标，并且会显著提升所融合的对应评估指标。当我们将MSE同时结合STOI与SDR作为优化目标时，取得了比单独结合STOI或SDR更好的增强效果，沿着这个思路，我们将STOI和SDR与MSE按照一定的权重组合起来联合训练优化，图中STOI+SDR+MSE组合对应于式(5)中的超参数α＝10、β＝1、λ＝5×10³。由此，我们从实验直观地证明了损失函数与评价指标的不匹配会导致语音增强性能无法达到最佳，我们通过将评估指标与损失函数按照一定的权重比例组合并输入到神经网络中联合训练，显著提高了语音增强的性能，表明损失函数与评估指标的结合可以有效地提高语音增强的性能，而且本发明提出的将评估指标融合到损失函数中联合训练的思想并不是只适用于语音增强领域，还可以普适性的应用到其他各领域。

表1：可见噪声的测试结果

注：(a)Log-MMSE,(b)BNMF,(c)DRNN-SE,(d)WaveNet-SE,(e)RNSE

表2：不可见噪声的测试结果

注：(a)Log-MMSE,(b)BNMF,(c)DRNN-SE,(d)WaveNet-SE,(e)RNSE

本发明的有益效果为：

Claims

1.一种基于RefineNet的端到端语音增强方法，其特征在于，包括以下步骤：

2.根据权利要求1的所述基于RefineNet的端到端的语音增强方法，其特征在于，所述TFANet时频分析网络包括STFT卷积层、取特征图层、解卷积层和语音信号重构层；

3.根据权利要求2所述的基于RefineNet的端到端的语音增强方法，其特征在于，所述步骤S1具体为：

其中，短时傅里叶变换的公式为：

式中，x_t[f]为原始语音信号在第t帧第f频点的STFT结果；

N为每帧的采样点个数；

H为相邻帧间的位移；

其中，模拟相位P为：

4.根据权利要求1所述的基于RefineNet的端到端的语音增强方法，其特征在于，所述RefineNet网络包括输入单元、ResBlock单元组、RefineBlock单元组和输出单元；

5.根据权利要求4所述的基于RefineNet的端到端的语音增强方法，其特征在于，所述输入单元包括依次连接的7×7的卷积层和池化层，所述池化层与第一ResBlock单元连接；

所述7×7的卷积层的步长为2；

所述池化层的步长为2；

6.根据权利要求5所述的基于RefineNet的端到端的语音增强方法，其特征在于，所述第一RefineBlock单元、第二RefineBlock单元、第三RefineBlock单元和第四RefineBlock单元均包括依次连接的RCU层组、多分辨率融合层组、链式残差池化层组和输出卷积层组；

7.根据权利要求6所述的基于RefineNet的端到端的语音增强方法，其特征在于，所述步骤S2具体为：

8.根据权利要求2所述的基于RefineNet的端到端的语音增强方法，其特征在于，所述步骤S3具体为：

其中，放大的特征图与输入RefineNet的特征图大小相等；

9.根据权利要求1所述的基于RefineNet的端到端的语音增强方法，其特征在于，所述TFANet时频分析网络和RefineNet网络的优化目标包括SDR、STOI和RMSE；

RMSE为时域的增强语音信号与纯净语音信号y的均方误差；

其中，SDR为：

STOI为：

式中，d_j,m为两个时间包络之间的相关系数；

M为每条原始语音信号的采样点数；

RMSE为：

式中，M为每条原始语音信号的采样点数；

N为每条原始语音信号的语音总数；

为增强后语音信号；

y为纯净语音信号。

10.根据权利要求9所述的基于RefineNet的端到端的语音增强方法，其特征在于，所述TFANet时频分析网络和RefineNet网络的优化目标函数为：

式中，min(·)为求最小值；

M为每条原始语音信号的采样点数；

N为每条原始语音信号的语音总数；

为增强后语音信号；

y为纯净语音信号；

α为均方误差的权重系数；

β为STOI的权重系数；

λ为SDR的权重系数；

为SDR函数；

为STOI函数。