CN112331224A

CN112331224A - 轻量级时域卷积网络语音增强方法与系统

Info

Publication number: CN112331224A
Application number: CN202011329491.6A
Authority: CN
Inventors: 刘明; 周彦兵; 王贝; 孙冲武; 赵学华
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-05

Abstract

本发明提供了一种轻量级时域卷积网络语音增强方法，首先，将带噪语音信号进行分帧加窗处理，然后进行短时傅里叶变换，得到带噪语音信号的幅度谱和相位谱，随后将带噪语音信号的幅度谱送入时域卷积网络模型，进行先验信噪比的估计，紧接着利用估计的先验信噪比进行增益函数的估计，最后在幅度域进行滤波降噪，并利用带噪语音信号的相位谱作为增强后的相位，进行语音信号的重构。本发明还提供了一种轻量级时域卷积网络语音增强系统。本发明的有益效果是：算法的神经网络部分只进行先验信噪比的估计，减小了任务难度，实现了更轻量级的神经网络架构，内存占用量小，运算复杂度低，使其可以较好的在一些低运算量平台的嵌入式设备上使用。

Description

轻量级时域卷积网络语音增强方法与系统

技术领域

本发明涉及语音增强方法，尤其涉及一种轻量级时域卷积网络语音增强方法与系统。

背景技术

目前，市面上的语音交互产品，如智能手机、服务机器人、录音笔、翻译机等，都会内置语音增强算法，用来消除环境中的背景噪声，从而达到提高噪声环境中用户使用体验的目的。最新的研究表明，深度神经网络在语音增强方面表现出了十分优秀的效果。但是，基于深度神经网络的降噪方法也存在着内存占用量大，运算复杂度高等缺点，使其难以在一些低运算量平台的嵌入式设备上使用。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法与系统。

本发明提供了一种轻量级时域卷积网络语音增强方法，首先，将带噪语音信号进行分帧加窗处理，然后进行短时傅里叶变换，得到带噪语音信号的幅度谱和相位谱，随后将带噪语音信号的幅度谱送入时域卷积网络模型，进行先验信噪比的估计，紧接着利用估计的先验信噪比进行增益函数的估计，最后在幅度域进行滤波降噪，并利用带噪语音信号的相位谱作为增强后的相位，进行语音信号的重构。

语音信号的重构包括反傅里叶变换和重叠相加。

作为本发明的进一步改进，所述时域卷积网络模型的构建过程如下：

首先，根据先验信噪比的定义，其取值范围为大于零的任意数，如式子 (1)所示：

其中，|X_clean(n,k)|和|N_noise(n,k)|分别代表纯净语音和噪声信号的幅度谱，n 和k分别为帧索引和频率索引，为了降低时域卷积网络模型的学习难度，对其进行值域范围进行压缩，通过对先验信噪比的统计研究发现，其对数变换形式，如式(2)所示，是服从高斯分布的，因此利用一种累积分布函数，对其进行压缩，如式子(3)所示：

ξ_dB(n,k)＝10·log₁₀(ξ(n,k)) (2)

其中，ξ_dB(n,k)为对数压缩后的先验信噪比，而

则是通过累积分布函数压缩后的先验信噪比，其取值范围为[0,1]，erf(·)代表的是累积分布函数，μ_k和σ_k分别为在不同频点上，通过统计分析得到的ξ_dB(n,k)所对应的均值和方差；

接下来，考虑到语音信号之间的时序依赖性，利用空洞卷积设计了一种轻量级的时域卷积网络模型，来学习带噪语音幅度谱|X_noisy(n,k)|和先验信噪比

之间的映射关系。

作为本发明的进一步改进，所述时间卷积网络模型训练时的损失函数用交叉熵来计算，计算式如式子(4)所示，其中y_i和

分别为理想的先验信噪比和神经网络输出层预测的先验信噪比结果：

作为本发明的进一步改进，对进行降噪滤波的增益函数进行估计，采用的是以贝叶斯理论和最小均方误差准则推导出的增益函数表达形式，如下式子(5)所示：

其中，G(n,k)为估计的增益函数，ξ(n,k)为先验信噪比的估计值，也是积分的下限，但是由于时间卷积网络输出的先验信噪比是压缩变换后的值，因此，还需要对其进行反变换，才能得到式子(5)中所需要的先验信噪比，而反变换的过程如式子(6)和(7)所示：

将反变换后的先验信噪比代入到式子(5)中的增益函数表达式中，便可以得到每一帧带噪语音幅度谱在每个频点上的增益值，与每个频点进行点乘就得到了增强后的语音幅度值，最后利用带噪语音的相位谱便可以合成最终的增强语音信号。

作为本发明的进一步改进，所述时域卷积网络模型由两层全连接层和N个残差模块构成，输入的特征为带噪语音的幅度谱特征。

作为本发明的进一步改进，对输入的特征进行归一化处理，然后重塑成[句子数，句子长度，1，257]的张量形式进行模型的训练或推断，其中，张量第四维的257对应着所提取的每一帧语音数据所对应的幅度谱特征，随后，经过一层256-维的全连接层得到了变换后的输入特征，为了更好地对输入特征进行表示，这里采用非线性整流单元(ReLU)进行非线性激活，接下来，考虑到语音信号之间的时序依赖关系，通过堆叠带有空洞卷积的残差模块来捕获不同帧之间的信息，利用过去帧中的上下文信息来实现对当前帧先验信噪比的估计，在残差模块的设计方面，每个残差模块由三层卷积层构成，为了降低其参数量和运算量，采用了瓶颈结构的设计方式，三层卷积层的输出通道维度分别为128，128，256维，其对应的张量尺寸分别为[句子数，句子长度，1，128]、[句子数，句子长度，1，128]和[句子数，句子长度，1，256]，为了进一步降低模型的参数量和运算复杂度，对第一层和第三层卷积层自左至右进行分组，这里分组数量设置为8，通过分组操作之后，每个组的通道维数为16，然后利用1×1的卷积来串联每组中的各通道信息，为了保证组与组之间的信息交互，对第一层分组卷积的输出进行通道混合，每个组中将同一索引所对应的通道自左至右排列在一起，然后再在每个通道上进行卷积核为1×3的空洞卷积操作，空洞率以1， 2，4，8，16的循环方式对不同的残差模块进行配置，而最后一层卷积层则执行与第一层卷积相同的分组卷积操作，然后通过跳连的方式将残差模块的输入和输出特征相加，整个时域卷积网络模型的最后采用了一层257-维的全连接层实现对先验信噪比的估计，当然为了保证其输出的范围在[0,1] 之间，采用了sigmoid函数作为全连接层的激活函数。

本发明还提供了一种轻量级时域卷积网络语音增强系统，包括可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。

本发明的有益效果是：算法的神经网络部分只进行先验信噪比的估计，减小了任务难度，实现了更轻量级的神经网络架构，内存占用量小，运算复杂度低，使其可以较好的在一些低运算量平台的嵌入式设备上使用。

附图说明

图1是本发明一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法的流程框图。

图2是本发明一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法的轻量级时间卷积神经网络模型结构图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法，旨在将深度神经网络和基于统计模型的最小均方误差语音估计器相结合，既利用了神经网络的大数据学习能力，又结合了最小均方误差估计器的统计思路，可以更好地应对不同的噪声场景，提高算法的泛化性能。

整个算法框架主要由两部分构成，一个是基于最小均方误差准则的语音增强部分，另一个是先验信噪比的估计部分，如图1所示。

图1是本发明所设计的语音增强系统的整体框图，主要有两个关键技术，一个是先验信噪比的估计，另一个是用于频域滤波的增益函数估计。带噪语音信号首先进行分帧加窗处理，然后进行短时傅里叶变换，得到带噪语音信号的幅度谱和相位谱，随后将带噪语音的幅度谱送入时域卷积网络模型，进行先验信噪比的估计，紧接着利用估计的先验信噪比进行增益函数的估计，最后在幅度域进行滤波降噪，并利用带噪语音相位作为增强后的相位，进行语音信号的重构。

整个算法系统的核心部分在于时域卷积网络的设计和增益函数的估计两个部分，下面将分别进行详细的介绍。

首先，根据先验信噪比的定义，其取值范围为大于零的任意数，如式子(1)所示。

其中，|X_clean(n,k)|和|N_noise(n,k)|分别代表纯净语音和噪声信号的幅度谱，n和k分别为帧索引和频率索引。为了降低神经网络模型的学习难度，这里对其进行值域范围进行压缩。我们通过对先验信噪比的统计研究发现，其对数变换形式，如式(2)所示，是服从高斯分布的，因此这里利用一种累积分布函数，对其进行压缩，如式子(3)所示。

ξ_dB(n,k)＝10·log₁₀(ξ(n,k)) (2)

其中，ξ_dB(n,k)为对数压缩后的先验信噪比，而

则是通过累积分布函数压缩后的先验信噪比，其取值范围为[0,1]。erf(·)代表的是累积分布函数，μ_k和σ_k分别为在不同频点上，通过统计分析得到的ξ_dB(n,k)所对应的均值和方差。

接下来，考虑到语音信号之间的时序依赖性，我们利用空洞卷积设计了一种轻量级的时间卷积网络模型，来学习带噪语音幅度谱|X_noisy(n,k)|和先验信噪比

之间的映射关系。

本发明所设计的轻量级时间卷积网络结构如图2所示，整个网络结构是由两层全连接层和N个残差模块构成，输入的特征为带噪语音的幅度谱特征，为了保证更稳定地收敛过程，对输入特征进行归一化处理，然后重塑成[句子数，句子长度，1，257]的张量形式进行模型的训练或推断，其中，张量第四维的257对应着所提取的每一帧语音数据所对应的幅度谱特征。随后，经过一层256-维的全连接层得到了变换后的输入特征，为了更好地对输入特征进行表示，这里采用非线性整流单元(ReLU)进行非线性激活。接下来，考虑到语音信号之间的时序依赖关系，本发明通过堆叠带有空洞卷积的残差模块来捕获不同帧之间的信息，利用过去帧中的上下文信息来实现对当前帧先验信噪比的估计。在残差模块的设计方面，每个残差模块由三层卷积层构成，为了降低其参数量和运算量，本发明采用了瓶颈结构的设计方式，三层卷积层的输出通道维度分别为128，128，256维，其对应的张量尺寸分别为[句子数，句子长度，1，128]、[句子数，句子长度，1，128]和[句子数，句子长度，1，256]。为了进一步降低模型的参数量和运算复杂度，本发明对第一层和第三层卷积层自左至右进行分组，这里分组数量设置为8，通过分组操作之后，每个组的通道维数为16，然后利用1×1的卷积来串联每组中的各通道信息。为了保证组与组之间的信息交互，我们对第一层分组卷积的输出进行通道混合，每个组中将同一索引所对应的通道自左至右排列在一起，然后再在每个通道上进行卷积核为 1×3的空洞卷积操作，空洞率以1，2，4，8，16的循环方式对不同的残差模块进行配置。而最后一层卷积层则执行与第一层卷积相同的分组卷积操作，然后通过跳连的方式将残差模块的输入和输出特征相加。整个神经网络架构的最后采用了一层257-维的全连接层实现对先验信噪比的估计，当然为了保证其输出的范围在[0,1]之间，采用了sigmoid函数作为全连接层的激活函数。我们通过实验发现，当残差模块的数量N为20时，所设计的时间卷积网络就具备了优秀的降噪能力，而整个神经网络模型的参数只有332K，浮点运算次数为670K，完全可以满足大多数嵌入式平台的算力限制。

另外，时间卷积神经网络模型构建完成后，还需要对其进行大量数据的训练，才能使其具备映射先验信噪比的能力。

要训练模型，首先需要准备足够多对的带噪语音幅度值和理想的先验信噪比作为训练数据集，所以我们挑选了TIMIT数据集^[1]中4620句话作为训练集的纯净语音数据，然后利用NOISEX-92^[2]噪声库中的12种噪声，包括了餐厅噪声、2种战斗机噪声、2种驱逐舰噪声、工厂噪声、坦克噪声、 Volvo汽车噪声、高频信道噪声、白噪声、豹式战车噪声和机枪噪声，作为噪声数据与纯净语音进行随机混合，混合的信噪比在[-5,15]之间，服从均匀分布，总共获得时长约为38个小时的带噪训练数据。为了对模型的参数进行调优，需要设置验证集，同样从TMIT数据集中另外挑选出280句话作为验证集纯净语音数据，并与训练集中的12种噪声进行信噪比为-5到15dB 的均匀混合。

时间卷积网络模型训练时的损失函数用交叉熵来计算，计算式如式子 (4)所示，其中y_i和

为了改善模型的过拟合问题，每层神经网络都采用20％的神经元随机失活率和批归一化的正则化方法，训练时，利用Adam优化算法进行反向传播，以0.001的学习率迭代40次，然后再以0.0001的学习率迭代10次，便可以得到一个具备映射先验信噪比能力的时间卷积网络模型。

通过神经网络模块得到先验信噪比以后，接下来需要对进行降噪滤波的增益函数进行估计。这部分，主要采用的是以贝叶斯理论和最小均方误差准则推导出的增益函数表达形式^[3]，如下式子(5)所示。

其中，G(n,k)为估计的增益函数，ξ(n,k)为先验信噪比的估计值，也是积分的下限，但是由于时间卷积网络输出的先验信噪比是压缩变换后的值，因此，还需要对其进行反变换，才能得到式子(5)中所需要的先验信噪比，而反变换的过程如式子(6)和(7)所示。

我们也通过实验验证了本发明所提出方法的降噪效果，为了评价降噪后语音的质量、可懂度以及失真情况，我们采用了PESQ(Perceptual evaluation of speechquality)、STOI(Short-Time Objective Intelligibility)和SDR(Signal to DistortionRatio)指标来评测降噪后的语音。如表1所示，所有的降噪效果和指标都是在测试集上测得，指标越高代表性能越好。所用的测试集是从TIMIT数据集中挑选出的与训练集和验证集不重复的另外320句话，并分别与NOISEX-92中12种训练过的噪声和3种未训练过的噪声(未训练过的战斗机噪声、未训练过的工厂噪声以及粉红噪声)混合成-5dB，0dB， 5dB，10dB和15dB五种噪声污染程度。

表一的实验结果表明，本发明所提出的方法不仅可以在训练过的噪声场景中具备很好的降噪效果，而且可以良好地泛化到未训练过的噪声场景中，具备了不错的降噪鲁棒性。另外，我们进行主观听音时发现，该方法处理过的语音可懂度和质量都很好，听起来也十分舒适，并且工厂里的机器敲打声、机枪声等瞬时噪声也都被抑制地很好，甚至在一些低信噪比的噪声环境下，残留的噪声也很少。

表1不同噪声环境下的PESQ、STOI和SDR指标评测结果

本发明提供的一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法，利用深层神经网络强大的数据建模能力，从大量语音数据中学习出更精确的语音先验信噪比估计模型，将其与基于贝叶斯理论的最小均方误差语音估计器相结合，实现一种轻量级的高性能降噪算法。该算法的主要优点如下：

(1)算法实现了神经网络和统计模型的优势互补，提高了算法在不同噪声环境下的鲁棒性；

(2)算法的神经网络部分只进行先验信噪比的估计，减小了任务难度，实现了更轻量级的神经网络架构；

(3)算法可以有效地抑制瞬时噪声；

(4)算法可以在低信噪比环境下实现更好的降噪效果。

参考文献：

[1]J.S.Garofolo,“Getting started with the DARPA TIMIT CD ROM:Anacoustic phonetic continuous speech database NIST Tech Report,”1988。

[2]Andrew Varga,Herman J.M.,Steeneken,“Assessment for automaticspeech recognition:II.NOISEX-92:A database and an experiment to study theeffect of additive noise on speech recognition systems,”Speech Communication,vol.12, no.3,1993。

[3]Y.Ephraim and D.Malah,“Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,”IEEE/ACM Transactions onAudio,Speech and Language Processing,vol.33,no.2,pp.443–445,1985。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种轻量级时域卷积网络语音增强方法，其特征在于：首先，将带噪语音信号进行分帧加窗处理，然后进行短时傅里叶变换，得到带噪语音信号的幅度谱和相位谱，随后将带噪语音信号的幅度谱送入时域卷积网络模型，进行先验信噪比的估计，紧接着利用估计的先验信噪比进行增益函数的估计，最后在幅度域进行滤波降噪，并利用带噪语音信号的相位谱作为增强后的相位，进行语音信号的重构。

2.根据权利要求1所述的轻量级时域卷积网络语音增强方法，其特征在于：语音信号的重构包括反傅里叶变换和重叠相加。

3.根据权利要求1所述的轻量级时域卷积网络语音增强方法，其特征在于：所述时域卷积网络模型的构建过程如下：

1)，根据先验信噪比的定义，其取值范围为大于零的任意数，如式子(1)所示：

其中，|X_clean(n,k)|和|N_noise(n,k)|分别代表纯净语音和噪声信号的幅度谱，n和k分别为帧索引和频率索引，为了降低时域卷积网络模型的学习难度，对其进行值域范围进行压缩，通过对先验信噪比的统计研究发现，其对数变换形式，如式(2)所示，是服从高斯分布的，因此利用一种累积分布函数，对其进行压缩，如式子(3)所示：

ξ_dB(n,k)＝10·log₁₀(ξ(n,k)) (2)

其中，ξ_dB(n,k)为对数压缩后的先验信噪比，而

2)，考虑到语音信号之间的时序依赖性，利用空洞卷积设计了一种轻量级的时域卷积网络模型，来学习带噪语音幅度谱|X_noisy(n,k)|和先验信噪比

之间的映射关系。

4.根据权利要求3所述的轻量级时域卷积网络语音增强方法，其特征在于：所述时间卷积网络模型训练时的损失函数用交叉熵来计算，计算式如式子(4)所示，其中y_i和

5.根据权利要求4所述的轻量级时域卷积网络语音增强方法，其特征在于：对进行降噪滤波的增益函数进行估计，采用的是以贝叶斯理论和最小均方误差准则推导出的增益函数表达形式，如下式子(5)所示：

6.根据权利要求1所述的轻量级时域卷积网络语音增强方法，其特征在于：所述时域卷积网络模型由两层全连接层和N个残差模块构成，输入的特征为带噪语音的幅度谱特征。

7.根据权利要求6所述的轻量级时域卷积网络语音增强方法，其特征在于：对输入的特征进行归一化处理，然后重塑成[句子数，句子长度，1，257]的张量形式进行模型的训练或推断，其中，张量第四维的257对应着所提取的每一帧语音数据所对应的幅度谱特征，随后，经过一层256-维的全连接层得到了变换后的输入特征，为了更好地对输入特征进行表示，这里采用非线性整流单元(ReLU)进行非线性激活，接下来，考虑到语音信号之间的时序依赖关系，通过堆叠带有空洞卷积的残差模块来捕获不同帧之间的信息，利用过去帧中的上下文信息来实现对当前帧先验信噪比的估计，在残差模块的设计方面，每个残差模块由三层卷积层构成，为了降低其参数量和运算量，采用了瓶颈结构的设计方式，三层卷积层的输出通道维度分别为128，128，256维，其对应的张量尺寸分别为[句子数，句子长度，1，128]、[句子数，句子长度，1，128]和[句子数，句子长度，1，256]，为了进一步降低模型的参数量和运算复杂度，对第一层和第三层卷积层自左至右进行分组，这里分组数量设置为8，通过分组操作之后，每个组的通道维数为16，然后利用1×1的卷积来串联每组中的各通道信息，为了保证组与组之间的信息交互，对第一层分组卷积的输出进行通道混合，每个组中将同一索引所对应的通道自左至右排列在一起，然后再在每个通道上进行卷积核为1×3的空洞卷积操作，空洞率以1，2，4，8，16的循环方式对不同的残差模块进行配置，而最后一层卷积层则执行与第一层卷积相同的分组卷积操作，然后通过跳连的方式将残差模块的输入和输出特征相加，整个时域卷积网络模型的最后采用了一层257-维的全连接层实现对先验信噪比的估计，当然为了保证其输出的范围在[0,1]之间，采用了sigmoid函数作为全连接层的激活函数。

8.一种轻量级时域卷积网络语音增强系统，其特征在于：包括可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。