CN112992121A

CN112992121A - 基于注意力残差学习的语音增强方法

Info

Publication number: CN112992121A
Application number: CN202110224862.2A
Authority: CN
Inventors: 李学生; 李晨; 朱麒宇
Original assignee: Delu Power Technology Chengdu Co Ltd
Current assignee: Delu Power Technology Chengdu Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-18
Anticipated expiration: 2041-03-01
Also published as: CN112992121B

Abstract

本发明涉及基于注意力残差学习的语音增强方法，包括：S1，模型训练：S1.1，收集噪声数据；S1.2，对数据进行特征提取；S1.3，用提取的音频特征对残差注意力卷积神经网络进行训练，获得训练好的残差神经网络；S2，语音增强：S2.1，对目标语音数据进行特征提取；S2.2，将提取的音频特征输入训练好的残差注意力卷积神经网络；S2.3，语音波形重构：将预测得到的语音特征转换成语音波形，得到非噪音语音。本发明引入残差网络的方法解决了层数特别大的CNN或者DNN模型的梯度消失的问题，引入注意力机制去使得残差模型可以更加注重能表达非噪声的特征上，使用监督学习来训练神经网络可以从带噪语音中估计出干净语音，让网络直接去预测语音增强的目标，语音增强性能优异。

Description

基于注意力残差学习的语音增强方法

技术领域

本发明涉及语音识别技术领域，尤其涉及基于注意力残差学习的语音增强方法。

背景技术

现有的四足机器人在语音识别过程中，远场语音识别系统能很大程度受到周围环境的影响，特别是家庭陪伴狗使用场景中，语音交互是更加方便，快捷的交流方式。然而在实际环境中，语音在传输的过程里，背景噪声和人声干扰会对语音造成很大的影响，会对语音信号造成严重的影响，这样在后续的交互过程中，语音识别的准确率会严重下降。所以在实际的应用环境，语音信号预处理是非常重要的环节，而语音信号预处理分为对噪声的抑制也就是语音增强，还有就是处理人声干扰的语音分离。

传统的语音增强技术多是无监督的，需要对语音信号和噪声信号做出一定的假设，传统的语音增强算法在处理平稳噪声中表现优异，但是难以处理非平稳噪声。

在含有不稳定噪声的实际环境中，如果仅使用单一或者过少的特征，会严重导致识别率过低；但是采用复杂特征的模型中，深层的CNN网络模型会有潜在的梯度消失问题。

发明内容

本发明为了解决上述技术问题提供基于注意力残差学习的语音增强方法。

本发明通过下述技术方案实现：

基于注意力残差学习的语音增强方法，包括以下步骤：

S1，模型训练：

S1.1，收集噪声数据；

S1.2，对数据进行特征提取；

S1.3，用S1.2提取的音频特征对残差注意力卷积神经网络进行训练，获得训练好的残差神经网络；

S2，语音增强：

S2.1，对目标语音数据进行特征提取；

S2.2，将S2.1提取的音频特征输入训练好的残差注意力卷积神经网络，得到预测的语音特征；

S2.3，语音波形重构：将S2.2预测得到的语音特征转换成语音波形，得到非噪音语音。

进一步的，所述残差注意力卷积神经网络包括依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5；所述Block1的输出通过跳跃连接单元连接所述第二Block2的输入，所述第二Block2的输入通过跳跃连接单元连接第一Block4的输入；

所述第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5中均引入了混合注意力机制。

进一步的，所述Block1包括用于实现2倍下采样的二维卷积层；

所述第一Block4、第二Block4、第三Block4均包括第三Block2和第四Block2；所述第三Block2与第四Block2串联；

所述第一Block2、第二Block2、第三Block2和第四Block2均包括两个二维卷积层，其第二个二维卷积层后方引入了混合注意力机制；

所述Block5包括两个二维卷积层和sigmoid层，其第一个二维卷积层的前方引入了混合注意力机制。

进一步的，所述第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接；

所述Block3包括两个并行的二维池化层和用于将所述两个二维池化层的输出在最后一个张量维度上进行组合并输出的Concatenate层。

进一步的，第三Block4中所包含的block3中的二维池化层的池化区域用来实现2倍下采样，padding用来使得输入图像面积和输入图像面积相等，concatenate层用于将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。

进一步的，所述混合注意力机制的公式为：

S＝σ((F_up(F_res(F_res(F_dn(U))+F_up(F_res(F_res(F_dn(F_res(F_dn(U))))))))*

W₁+b₁)*W₂+b₂ (1)

式(1)中，F_dn表示最大池化，F_up表示双线值插值，S为得到的注意力机制权重，F_res表示残差机制计算流程，σ表示sigmoid函数；w₁、w₂为卷积核权重；b₁、b₂为卷积核偏差。

优选地，所述S1.2提取的音频特征包括短时过零率、短时平均能量、短时平均幅度、能量熵、频谱质心、谱熵、频谱通量、梅尔频率倒谱系数、色谱图中的至少一种。

与现有技术相比，本发明具有以下有益效果：

本发明引入残差网络的方法解决了层数特别大的CNN或者DNN模型的梯度消失的问题，引入注意力机制去使得残差模型可以更加注重能表达非噪声的特征上，使用有监督学习来训练神经网络可以从带噪语音中估计出干净语音，让网络直接去预测语音增强的目标；本发明提优于传统语音增强的性能表现。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

图1是模型训练的流程图；

图2是语音增强的流程图；

图3是音频数据加噪前的数据图像；

图4是音频数据加噪后的数据图像；

图5是残差块的原理图；

图6是基于注意力机制的残差神经网络的结构图；

图7是Block1的结构图；

图8是Block2的结构图；

图9是Block3的结构图；

图10是Block5的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

如图1所示，本发明公开的基于注意力残差学习的语音增强方法，包括以下步骤：

S1，模型训练：

S1.1，收集噪声数据；

S1.2，对数据进行特征提取；

S2，语音增强：

S2.1，对目标语音数据进行特征提取；

S2.2，将S2.1提取的音频特征输入S1.3训练好的残差注意力卷积神经网络，得到预测的语音特征；

基于上述方法，本发明公开一实施例。

实施例1

如图1所示，本实施例中模型训练包括以下步骤：

步骤1，收集噪声数据样本。

本实施例中数据集来源主要有两个：

(1)从Free ST Chinese Mandarin Corpus数据集上收集了102653条人声朗读数据；

(2)从UrbanSound8k中选取常见室内噪声。

Free ST Chinese Mandarin Corpus数据是由855人用手机在室内安静的环境中录制的音频数据，可以认为是去噪语音。

从UrbanSound8K中选取了家庭室内常见的室内环境噪声，例如空调声音等，由于需要模仿实际生活环境中的现实状况，本实施例选取极低的信噪比对干净语音进行随机选取噪声语音进行加噪，最终选择信噪比为5dB进行加噪。

信噪比指一段语音信号中有用语音信号和信号掺杂的噪声信号功率的比值。可采用公式(1)计算信噪比：

式(1)中，s(n)为语音信号，r(n)为噪声信号。

本实施例最终有102653条加噪语音。其中一条音频数据加噪前的频率图如图3(a)所示，加噪前的波形图如图3(b)所示；该条音频数据加噪后的频率图如图4(a)所示，加噪前的波形图如图4(b)所示。

步骤2，对数据进行特征提取与特征组合。

虽然神经网络具备自信提取数据中所含信息的能力，但是对原始的音频信号直接进行处理是非常困难的，所以特征工程是非常必须的，良好的特征提取可以大大提升神经网络的识别性能，提高训练准确度与效率，语音的特征提取是非常成熟的，常用的声音特征有以下几种：

1，短时过零率：定义在单位时间内信号过零的次数为过零率，短时过零率可以直观对应到信号波形穿过时间轴的次数。

2，短时平均能量：短时平均能量这一特征参数可以辅助区分清音和浊音，在信噪比较高，信号较为纯净、所含噪声成分少的情况下，短时平均能量还可以用于划分有声和无声片段，从而将静默片段剪除。

短时平均能量的数学定义为一帧之内信号幅值的加权平方和，其数学表示为：

式(7)中，X(m)代表声音信号，w(.)代表窗函数。

3，短时平均幅度：短时平均能量需要计算信号采样值的平方和，平方计算对信号平直过于敏感，在具体计算时如果遇到有高电平，短时平均能量很容易急剧增大，甚至产生溢出。为克服这一缺陷，短时平均幅度用绝对值之和代替了平方和，同样可以衡量声音强度的变化。其数学表示为：

式(8)中，X(m)代表声音信号，w(.)代表窗函数。

4，能量熵：能量熵可以描述音频信号在时间变化程度，可作为音频特征。如果信号的能量包络中存在突然变化，则该特征具有较高的值。

5，频谱质心：频谱质心代表声音能量集中在哪一频率段。频谱质心的值越高，表示信号的能量越集中在更高的频率内。低频成分较多的声音听感较为低沉压抑，频谱质心相对较低，高频成分较多的声音听感较为高亢欢快，频谱质心相对较高。

6，谱熵：谱熵可以检测音频信号所含有的复杂性，复杂性越大，谱熵越大。其数学表示为：

式(9)中，f(w)为一帧信号内的谱密度函数。

7，频谱通量：频谱通量可以量化频谱随时间产生的变化，频谱稳定或接近恒定的信号具有低的频谱通量，例如高斯白噪声，而具有突变的频谱变化，则有高的频谱通量。

8，梅尔频率倒谱系数：梅尔频率倒谱系数是语音处理中非常重要的特征，是信号的对数功率在非线性梅尔频率刻度上进行线性余弦变化，梅尔频率倒谱系数又称MFCC，MFCC可以反映人耳听觉频率的非线性特征。其数学表示为：

式(10)中，f是线性频率，单位是HZ。

9，色谱图：色谱图是将整个频谱划分到12个频段上，对应音乐八度的音节，可以根据不同的色度进行划分。

本实施例最终选取MFCC作为特征，以及目标特征也是采用干净噪音的MFCC。

步骤3，设计基于注意力机制的残差神经网络，并对该残差神经网络进行训练。

卷积神经网络的性能表现是与网络深度强相关的，越深的网络结构可以使得识别效果提高，然而在实践中，当卷积网络深度到达一定深度之后，模型表现会不再提高，甚至表现会变得更差，这种现象被称作梯度消失。在卷积网络中加入残差块，而残差单元可以跳层连接，使得在深度卷积网络中，可以将某些层的输出跨越中间层直接传递到后面的层。

如图5所示，残差块通过函数R(x)将输入传递到输出，并与输出F(x)相加，此时网络的学习目标也随之改变，不再是整体输出H(x),变为输出与输入的差异。

本实施例设计了如图6所示的基于注意力机制的残差神经网络，其包括：依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5。

Block1的输出通过跳跃连接单元连接第二Block2的输入，第二Block2的输入通过跳跃连接单元连接第一Block4的输入；所述第一Block4、第二Block4、第三Block4均包括第三Block2、第四Block2和Block3。所述第三Block2与第四Block2串联，第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接。

如图7所示，Block1包括Batch Normalization层和为了实现2倍下采样的二维卷积层(Conv2D)。二维卷积层卷积核大小为3×3，个数为24，步幅为(1,2)，实现2倍的下采样。

如图8所示，Block2包括两个二维卷积层，其第二个二维卷积层后方引入了混合注意力机制(Interpolated-attn)。混合注意力机制的公式为：

S＝σ((F_up(F_res(F_res(F_dn(U))+F_up(F_res(F_res(F_dn(F_res(F_dn(U))))))))*

W₁+b₁)*W₂+b₂ (11)

式(11)中，F_dn表示最大池化，F_up表示双线值插值，S为得到的注意力机制权重，F_res表示残差机制计算流程，σ表示sigmoid函数；w₁、w₂为卷积核权重；b₁、b₂为卷积核偏差。

这里引入混合注意力机制，通道数目从输入到输出的网络各层不变，该模块利用下采样对空间维度进行缩小维度，以此增加卷积提取特征的感受野，这样能够更有效的推断输入图像中高频特征所在的区域，然后利用插值进行上采样，这样在扩大维度的同时，更好的定位特征区域。

如图9所示，Block3包括两个并行的二维池化层和用于将两个二维池化层的输出在最后一个张量维度上进行组合并输出的Concatenate层。

第三block4中所包含的block3中，maxpooling2d的池化区域用来实现2倍下采样，padding用来使得输入图像面积和输入图像面积相等，concatenate将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。

如图10所示，Block5包括两个二维卷积层和sigmoid层，其第一个二维卷积层的前方也引入了混合注意力机制，其公式如式(11)所示。

预设所有的干净语音和噪声被重采样到16kHz。帧长和帧移分布被设置成32ms和16ms，257维的MFCC特征被用来作为训练网络模型的输入，为了评价语音增强的网络性能，采用了感知语音质量谱评估(PESQ)，最后模型的结果如表1所示：

表1：本发明与不使用注意力机制的残差网络的对比表

模型(5dB)	PESQ
		不带attention机制的ResNet	1.918
带attention机制的ResNet	2.012

从表1可知，本发明加入注意力机制之后，残差网络表现的更加出色，同时残差网络本身也解决CNN深度过深可能导致的梯度消失问题，同时实施例的网络框架性能也表现极其优越。

本实施例采用相同的特征提取方法对目标语音数据进行特征提取，具体参见步骤2。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于注意力残差学习的语音增强方法，其特征在于：包括以下步骤：

S1，模型训练：

S1.1，收集噪声数据；

S1.2，对数据进行特征提取；

S2，语音增强：

S2.1，对目标语音数据进行特征提取；

S2.2，将S2.1提取的音频特征输入S1.3中训练好的残差注意力卷积神经网络，得到预测的语音特征；

2.根据权利要求1所述的基于注意力残差学习的语音增强方法，其特征在于：所述残差注意力卷积神经网络包括依次串联的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5；所述Block1的输出通过跳跃连接单元连接所述第二Block2的输入，所述第二Block2的输入通过跳跃连接单元连接第一Block4的输入；

3.根据权利要求2所述的基于注意力残差学习的语音增强方法，其特征在于：所述Block1包括用于实现2倍下采样的二维卷积层；

4.根据权利要求2所述的基于注意力残差学习的语音增强方法，其特征在于：所述第三Block2的输入通过包含Block3的跳跃连接单元与第四Block2的输入连接；

5.根据权利要求4所述的基于注意力残差学习的语音增强方法，其特征在于：第三Block4中所包含的block3中的二维池化层的池化区域用来实现2倍下采样，padding用来使得输入图像面积和输入图像面积相等，concatenate层用于将两个并行的二维池化层的输出在最后一个张量维度上进行组合并输出。

6.根据权利要求2、3、4或5所述的基于注意力残差学习的语音增强方法，其特征在于：所述混合注意力机制的公式为：