CN115497496B

CN115497496B - 一种基于FirePS卷积神经网络的语音增强方法

Info

Publication number: CN115497496B
Application number: CN202211155820.9A
Authority: CN
Inventors: 王启瑞; 周琳; 程云苓; 邓宇汐; 王天仪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-11-14
Anticipated expiration: 2042-09-22
Also published as: CN115497496A

Abstract

本发明公布了一种基于FirePS卷积神经网络的语音增强方法。本发明对含噪单通道语音信号进行短时傅里叶变换，提取对数幅度谱图，作为FirePS卷积神经网络的输入特征进行语音增强。训练阶段，使用训练集语音数据的对数幅度谱图训练FirePS卷积网络，输出增强语音的对数幅度谱图，将训练语音对应的纯净对数幅度谱图作为标签，训练得到基于卷积神经网络的语音增强模型。FirePS卷积神经网络由Fire块、空洞卷积网络块、像素重排块和残差连接构成。测试阶段，FirePS卷积神经网络将测试含噪语音的对数幅度谱图映射为降噪后的对数幅度谱图，结合原测试语音的相位谱，得到增强后的语音时域信号。

Description

一种基于FirePS卷积神经网络的语音增强方法

技术领域

本发明属于语音信号降噪领域，尤其涉及一种基于FirePS卷积神经网络的语音增强方法。

背景技术

用于提高感知质量的实时语音增强(SpeechEnhancement：SE)是一个具有数十年历史的经典问题，近年来基于学习(LearningBased)的方法获得了远超传统方法的突出结果。根据其训练目标的不同，语音增强分为三类算法：基于掩膜(masking-based)的时频域算法、基于映射(Mapping-based)的时频域算法、基于时域波形的端到端(endtoend)算法。

神经网络是一种近年来十分活跃且效果优异的统计学习方法。大量的神经网络结构，如卷积神经网络(CNN)、循环神经网络(RNN)、注意力(attention)网络等已经应用于语音增强领域。传统的CNN、RNN模型的感受野不足，限制了模型对时序信号的建模能力。注意力网络的建模能力很强，但参数量大、计算量大，限制了其使用范围。因此，语音增强这一研究领域依然需要开展大量、深入的研究工作，从而满足日益增长的高质量语音应用需求。本发明旨在增大传统卷积神经网络的感受野，减少神经网络的参数量，以解决现有技术中对语音信号这一时序信号的建模能力不足的问题，同时减少计算量、缩短模型所须的计算时间。

发明内容

本发明目的在于提供一种基于FirePS卷积神经网络的语音增强方法,旨在解决现有技术中对语音信号这一时序信号的建模能力不足的问题，同时减少计算量、缩短模型推理所须的计算时间。为解决上述技术问题，本发明的具体技术方案如下：

一种基于FirePS卷积神经网络的语音增强方法，包括以下步骤：

步骤1、将待训练的单通道语音信号与各种加性噪声按不同信噪比混合，得到含噪语音，并与纯净语音一起构成训练数据集；

步骤2、将步骤1得到的训练数据集中的含噪语音和纯净语音，分别通过分帧、加窗、短时傅里叶变换和对数运算，得到含噪语音、纯净语音对应的对数幅度谱图；

步骤3、将步骤2的含噪语音、纯净语音的对数幅度谱图，分别作为FirePS卷积神经网络的输入特征和标签，基于前向传播和反向传播算法，训练FirePS卷积神经网络；

步骤4、将待测试的单通道信号与各种加性噪声按不同信噪比混合，得到测试数据集，并通过分帧、加窗、短时傅里叶变换和对数运算，得到测试语音的对数幅度谱图和相位谱图；

步骤5、取步骤4得到测试语音对数幅度谱图，作为FirePS卷积神经网络的输入特征，映射得到增强后语音的对数幅度谱图，转换为幅度谱，根据步骤4得到测试信号的相位谱图，得到增强后语音信号的频谱，通过短时傅里叶逆变换和重叠相法得到时域波形，实现语音增强。

进一步的，FirePS卷积神经网络的结构由实现下采样编码的Fire块、提取特征的空洞卷积网络块、实现上采样的像素重排块组成，同时在对应的下采样编码的Fire块和实现上采样的像素重排块之间使用残差连接。

进一步的，FirePS卷积神经网络使用Fire块实现下采样编码，Fire块由一个卷积核为1*1尺寸的压缩卷积层、两个并联的卷积核尺寸分别为1*1和3*3的膨胀卷积层串联而成。

进一步的，FirePS卷积神经网络使用的混合空洞卷积块由三个卷积核尺寸相同、膨胀率分别为1、2、3的卷积层串联而成，并采用ReLU激活函数。

进一步的，FirePS卷积神经网络使用像素重排PS块实现上采样；像素重排PS块通过多通道间的重组，将每个像素点位置上的r个通道上的r个像素，重排成一个通道上的一个r×r的像素块，r为像素重排PS块的上采样倍数，从而将低分辨率、高通道数的特征图，映射为高分辨率、低通道数的特征图。

进一步的，FirePS卷积神经网络使用了对数平方损失和能量误差平均值线性组合的损失函数，其公式为：

loss＝loss_log-MSE+λloss_energy，

其中，loss表示FirePS卷积神经网络的损失函数，由两部分组成，分别为对数幅度谱的均方误差loss_log-MSE和幅度谱的能量误差平均值loss_energy；为含噪语音经过FirePS卷积神经网络后的增强对数幅度谱，X_LPS(f,k)为纯净语音的对数幅度谱，/>X(f,k)分别为对数幅度谱/>X_LPS(f,k)对应的频谱，/>表示在t帧内进行平均处理，(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值，λ为调节参数。

本发明的一种基于FirePS卷积神经网络的语音增强方法，具有以下优点：本发明提取含噪语音信号的对数幅度谱图，为输入特征，利用合适的损失函数，对FirePS卷积神经网络进行训练，得到基于频谱映射的卷积神经网络语音增强算法。利用该网络对含噪测试语音进行增强，在不同声学环境下的实验结果表明，本发明提出的基于FirePS卷积网络的语音增强方法，在低信噪比下显著提升了分离效果，具有很好的鲁棒性。

附图说明

图1为本发明语音增强系统流程图；

图2为本发明卷积神经网络的整体结构图；

图3为本发明神经网络中Fire模块的结构图；

图4为本发明神经网络中空洞卷积模块的结构图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于FirePS卷积神经网络的语音增强方法做进一步详细的描述。

如图1所示，本实施例提供的基于FirePS卷积网络的语音增强方法包括以下步骤：

步骤一、将待训练的单通道语音与各种加性噪声按不同信噪比混合。本发明全部使用开源的语音数据库训练网络。其中，纯净语音来源于TIMIT(TheDARPATIMIT Acoustic-PhoneticContinuousSpeechCorpus)，是由德州仪器、麻省理工学院和SRI International合作构建的音素连续语音语料库，噪声信号来自于NOISEX-92噪声集，由英国感知技术研究院的语音研究部门测量得到。

步骤二、对步骤一得到的含噪语音与对应的纯净语音进行分帧、加窗、短时傅里叶变换和对数运算，得到含噪语音与纯净语音对应的对数幅度谱。其中，在语音采样频率为16kHz，帧长为16ms，帧移为8ms，FFT点数为512(与帧长有相同的样本点)窗函数选用汉明窗，为

分帧、加窗操作，用公式表达为

x(k,n)＝x(n-kL)w_H(n)

y(k,n)＝y(n-kL)w_H(n)

其中，x(n)、y(n)分别表示纯净、含噪语音，w_H(n)为窗长为N的汉明窗(这里N取512)，L是帧移的样本点数(这里为256)；x(k,n)、y(k,n)是经分帧、加窗操作后的第k帧纯净语音、含噪语音。

短时傅里叶变换为：

其中，X(f,k)、Y(f,k)分别为第k帧纯净语音、含噪语音的频谱，f表示频点。

对数幅度谱定义为幅度谱的对数值：

X_LPS(f,k)＝10log₁₀[|X(f,k)|²]

Y_LPS(f,k)＝10log₁₀[|Y(f,k)|²]

其中Y_LPS(f,k)、X_LPS(f,k)分别表示含噪语音、纯净语音的对数幅度谱。

将含噪语音、纯净语音的对数幅度谱按照帧顺序、频点顺序进行排列，分别分割成若干段有固定帧长的对数幅度谱矩阵，即为对应的对数幅度谱图，本发明中，将含噪语音、纯净语音的对数幅度谱分别分割为256*256大小的矩阵，其维度分别表示时间帧和频点，得到的即为对数幅度谱图。

由于人耳对语音信号的短时相位变化并不敏感，因此这里只取幅度。又由于人耳对语音信号的幅度感知呈对数变化，因此采用对数幅度谱。

步骤三、将步骤二得到的含噪语音对数幅度谱图作为FirePS卷积神经网络的输入特征，纯净语音的对数幅度谱图作为训练目标。

本发明提出的FirePS卷积网络的结构如图2所示。实际上，本发明提出的FirePS卷积神经网络的结构不限制于此实施例的网络结构，细微之处的改动也属于FirePS卷积神经网络的覆盖范围。

FirePS卷积神经网络的骨干使用了类似于U-net的编码器-解码器结构。

编码器首先将输入特征送入若干个实现下采样编码的Fire块，如图3所示。Fire块通过大于1的卷积步长、以2为倍数增长的输出通道数，实现2倍下采样，降低特征图的尺寸、增加特征图的通道。每个Fire块由一个卷积核为1*1尺寸的压缩卷积层和两个并联的卷积核尺寸分别为1*1和3*3的膨胀卷积层串联而成。其中压缩层采用1*1卷积调整特征图数目，扩展层采用两种不同大小的卷积核实现对特征的感知。同时Fire块使用两种卷积核进行通道扩充，可以保证特征图的数量足够多，相比只使用大卷积核又能节约相当一部分参数空间。每次卷积操作后接ReLU函数作为激活函数。Fire块使用卷积核尺寸为1*1的squeeze层压缩通道数、降低参数量，又使用两路expand层还原通道数，两路expand层不同的卷积核尺寸有利于捕捉不同尺度上的特征。

编码器的深度(即Fire块的个数)与下文解码器的深度(即像素重排块的个数)相同，随模型大小不同，可设置为3、4、5等等。

空洞卷积块由空洞卷积层串联而成，其结构如图4所示。由于相同的膨胀率会导致棋盘效应，故使用由三个卷积核尺寸相同、膨胀率分别为1、2、3的卷积层串联。

解码器由若干上采样倍数r＝2的像素重排(PixelShuffle)块串联组成，同时对应的上/下采样层间使用残差连接。像素重排PS通过多通道间的重组，将每个像素点位置上的r个通道上的r个像素，重排成一个通道上的一个r×r的像素块，r为PS块的上采样倍数。从而将低分辨率、高通道数的特征图，映射为高分辨率、低通道数的特征图；

损失函数为对数平方损失和能量误差的线性组合，其公式为

loss＝loss_log-MSE+λloss_energy，

其中，loss表示FirePS卷积神经网络的损失函数，由两部分组成，分别为对数幅度谱的均方误差loss_log-MSE和幅度谱的能量误差平均值loss_energy。为含噪语音经过FirePS卷积神经网络后的增强对数幅度谱，X_LPS(f,k)为纯净语音的对数幅度谱，/>X(f,k)分别为对数幅度谱/>X_LPS(f,k)对应的频谱，/>表示在t帧内进行平均处理，(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值，λ为调节参数。

步骤四、在测试阶段，对于测试的含噪语音，按照步骤二的方法，经过分帧、加窗、短时傅里叶变换和对数运算，得到测试含噪语音的对数幅度谱图和相位谱图。

步骤五、将步骤四的测试含噪语音对数幅度谱作为步骤三训练得到的FirePS卷积神经网络的输入特征，映射得到增强后的语音对数幅度谱图，转换为幅度谱图，根据步骤四短时傅里叶变换的相位谱，得到增强语音的频谱，经过短时傅里叶逆变换，再通过重叠相加法变换为时域波形。

这一步的公式如下：

其中，ISTFT表示短时傅里叶逆变换，为经过FirePS卷积神经网络得到的第k帧增强语音的频谱，f表示频点，L为帧移样本点数，w(m)为窗函数，/>为重建语音。

使用各种评判语音质量、可懂度的客观评价指标来评价增强语音的效果，本发明使用了PESQ评价语音质量，STOI评价语音可懂度。

对以上方法进行仿真验证，最终的性能评估如下：

(1)在匹配声学条件下的指标

使用信噪比为-5、0、5、10dB，噪声为babble、pink、white、factory的噪声条件生成训练集，而测试数据使用同样的声学指标。与全连接神经网络(DNN)、空洞卷积神经网络(HDCN)作对比，使用PESQ和STOI指标评估质量。

其中，语音质量感知评价(Perceptualevaluationofspeechquality,PESQ)得分基于ITU-TP.862标准，是一种客观语音质量评估方法，使用原始信号作为参考，衡量劣化信号的好坏，返回区间为-0.5～4.5的得分。短时客观可懂度(ShortTimeObjectiveIntelligibilty,STOI)得分是衡量人类的听觉感知系统对语音可懂度的客观评价方法，得分介于0～1之间，使用原始信号作为参考，衡量劣化信号的可懂度。

表一在匹配声学条件下的PESQ指标

SNR	noisy	DNN	HDCN	FirePS
					-5dB	1.026	1.246	1.382	1.610
0dB	1.347	1.548	1.851	1.990
					5dB	1.706	1.897	2.287	2.358
10dB	2.087	2.172	2.660	2.696

表二在匹配声学条件下的STOI指标

SNR	noisy	DNN	HDCN	FirePS
					-5dB	53.2	48.4	60.5	62.8
0dB	66.1	59.3	73.0	75.2
					5dB	78.6	65.5	82.5	83.9
10dB	88.2	66.1	88.3	89.7

(2)在非匹配声学条件下的指标

使用信噪比为-5、0、5、10dB，噪声为babble、pink、white、factory的噪声条件生成训练集，而测试数据使用信噪比为-7.5、-2.5、2.5、7.5、12.5dB，噪声为f16、hfchannel、machinegun的噪声条件。与全连接神经网络(DNN)、空洞卷积神经网络(HDCN)作对比，PESQ和STOI的指标如下表所示。

表三在非匹配声学条件下的PESQ指标

SNR	noisy	DNN	HDCN	FirePS
					-7.5dB	1.136	1.168	1.192	1.485
-2.5dB	1.418	1.452	1.588	1.754
					2.5dB	1.771	1.820	2.017	2.067
7.5dB	2.135	2.202	2.403	2.449
					12.5dB	2.490	2.574	2.737	2.811

表四在非匹配声学条件下的STOI指标

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于FirePS卷积神经网络的语音增强方法，其特征在于，所述FirePS卷积神经网络的结构由实现下采样编码的Fire块、提取特征的空洞卷积网络块、实现上采样的像素重排块组成，同时在对应的下采样编码的Fire块和实现上采样的像素重排块之间使用残差连接；

FirePS卷积神经网络的骨干使用了编码器-解码器结构；编码器首先将输入特征送入若干个实现下采样编码的Fire块；解码器由若干上采样倍数r＝2的像素重排块串联组成；

所述语音增强方法包括以下步骤：

2.根据权利要求1所述的基于FirePS卷积神经网络的语音增强方法，其特征在于，FirePS卷积神经网络使用Fire块实现下采样编码，Fire块由一个卷积核为1*1尺寸的压缩卷积层、两个并联的卷积核尺寸分别为1*1和3*3的膨胀卷积层串联而成。

3.根据权利要求2所述的基于FirePS卷积神经网络的语音增强方法，其特征在于，FirePS卷积神经网络使用的混合空洞卷积块由三个卷积核尺寸相同、膨胀率分别为1、2、3的卷积层串联而成，并采用ReLU激活函数。

4.根据权利要求3所述的基于FirePS卷积神经网络的语音增强方法，其特征在于，FirePS卷积神经网络使用像素重排PS块实现上采样；像素重排PS块通过多通道间的重组，将每个像素点位置上的r个通道上的r个像素，重排成一个通道上的一个r×r的像素块，r为像素重排PS块的上采样倍数，从而将低分辨率、高通道数的特征图，映射为高分辨率、低通道数的特征图。

5.根据权利要求4所述的基于FirePS卷积神经网络的语音增强方法，其特征在于，FirePS卷积神经网络使用了对数平方损失和能量误差平均值线性组合的损失函数，其公式为：

loss＝loss_log-MSE+λloss_energy，