CN114842863B

CN114842863B - 一种基于多分支-动态合并网络的信号增强方法

Info

Publication number: CN114842863B
Application number: CN202210408899.5A
Authority: CN
Inventors: 刘翠婷; 陈延涛; 郑小莲; 何坤阳; 董彬虹
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-06-02
Anticipated expiration: 2042-04-19
Also published as: CN114842863A

Abstract

本发明公开了一种基于多分支‑动态合并神经网络的信号增强方法，属于信号处理方法。针对背景技术的缺陷，借鉴前沿的注意力机制，以及由深度分离卷积网络所获得的灵感，提出了多分支‑动态合并结构，将该结构引入到经典的门控卷积循环网络(Gated Convolutional Recurrent Networks,GCRN)中，提出了一种新型的多分支‑动态合并神经网络语音增强方法。本发明将原始GCRN中的主支路卷积层全部换成了多分支‑动态合并结构，一方面降低了计算量和参数量，另一方面使得相应卷积层的卷积参数根据输入自适应地进行调整，具有更强的特征提取能力，性能得到了显著提升，同时在反卷积层采用先进的亚像素卷积算法，克服了反卷积网络的“棋盘伪影”问题。

Description

一种基于多分支-动态合并网络的信号增强方法

技术领域

本发明属于人工智能领域，涉及一种基于神经网络的语音增强方法。

背景技术

语音增强是语音信号处理中的重要环节，其主要任务是从带噪语音中将目标语音分离出来，尽可能移除或削弱噪声语音信号中的背景噪声，以提高语音信号的质量和客观可懂度；在实际应用中，往往需要先将语音尽可能和背景噪声分离开来，后续的语音处理过程才会取得较好的效果。早期的语音增强算法主要依赖于人工假设的数学模型，以非监督算法为主，基于统计信号模型设计算法，这类算法往往与实际条件有一定的偏差，因此性能始终有限。近年来，随着硬件计算能力的快速进步和深度学习理论的快速发展，基于深度学习的语音增强方法被大量提出，且迅速成为语音增强的主要发展方向。现有的深度学习语音增强方法主要结合卷积神经网络和循环神经网络，以卷积层作为网络模型的主要组成部分，完成对语音信号的局部特征提取；以循环神经网络层作为辅助部分，提取语音信号的时序信息。尽管卷积神经网络具有结构简单以及强大的特征提取能力，但由于卷积网络的滤波器是空间不变的，并且其参数在网络训练结束后不会发生改变，因此理论上空间不变的滤波器在面对内容不同的输入时，其特征提取能力是次优的；其次随着卷积网络的宽度和深度不断增大，网络的表达能力增强，但其网络运算量也成倍增加，因而进一步限制了网络的性能。

发明内容

本发明针对背景技术的缺陷，借鉴前沿的注意力机制(Attention)，以及由深度分离卷积网络所获得的灵感，提出了多分支-动态合并结构，将该结构引入到经典的门控卷积循环网络(Gated Convolutional Recurrent Networks,GCRN)中，提出了一种新型的多分支-动态合并神经网络信号增强方法。本发明将原始GCRN中的主支路卷积层全部换成了多分支-动态合并结构，一方面降低了计算量和参数量，另一方面使得相应卷积层的卷积参数根据输入自适应地进行调整，具有更强的特征提取能力，性能得到了显著提升，同时在反卷积层采用先进的亚像素卷积算法，克服了反卷积网络的“棋盘伪影”问题。

本发明技术方案为一种基于多分支-动态合并神经网络的信号增强方法，该方法包括：

步骤1：由纯净信号数据集x^train构造含噪信号数据集

其中，x^train表示纯净信号数据集，n^train为指定信噪比的加性噪声；将纯净信号数据集x^train和含噪信号数据集

经过短时傅里叶变换进行特征提取，获得相应信号的STFT谱数据集：训练输入/>

和训练目标输出X^train；

步骤2：采用的信号增强网络为将门控卷积循环网络(GCRN)改进为多分支-动态合并结构，改进为多分支-动态合并结构的方法为：将门控卷积循环网络网络编码器(Encoder)模块中的卷积网络结构门控线性单元(GLU)中的常规卷积网络ConvK×1用K个卷积层Conv1×1来代替，输入数据分别经过K个卷积层Conv1×1得到K个输出结果，再将这K个输出结果按照通道维度进行拼接得到多分支处理结果；

步骤3：将步骤2中多分支处理结果输入注意力机制模块，获得每个通道的加权系数w；将多分支处理结果按通道维度与加权系数w相乘，得到空间维度动态分配结果；

步骤4：将步骤3得到的空间动态分配结果按照卷积运算的方式进行错位相加，得到输出结果；将步骤1的

作为输入信号，X^train作为目标，使用如下所示的损失函数进行信号增强网络训练；

其中，L为网络损失函数，L_mag为幅度谱分支的损失函数，L_cpl为复数谱分支的损失函数，M为训练目标的幅度谱，

为降噪信号的幅度谱，/>

和/>

分别为信号增强网络实际输出复数谱的实部和虚部，S_r和S_i为训练目标的实部和虚部，其由复数谱计算可得，N为输入信号的帧数，α为比例因子，直到训练完毕；

步骤5：采用训练好的信号增强网络对实际信号进行增强处理。

进一步地，所述GCRN网络中多分支-动态合并结构中卷积核大小均设为(3,1)，所述信号增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层，称为门控卷积模块和门控反卷积模块；对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整，门控分支的设置与卷积层一致，但使用Sigmoid作为激活函数，注意力机制两个全连接层根据输入参数的大小设置输入特征，使用ReLU作为激活函数；同时，反卷积层采用亚像素卷积算法，克服反卷积算法带来的棋盘伪影问题；此外，前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小，即每过一个卷积层，输入的长度减小一半，而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍；所有卷积层和反卷积层的通道数均设置为64；长短时记忆的输入特征数和隐藏神经元数均为320，所有激活函数均使用PReLU。进行STFT时，将信号使用汉明窗进行分帧，每帧帧长256，相邻两帧重叠50％的采样点，逐帧进行傅里叶变换即可得到信号语谱图；由于信号是实信号，其频谱是共轭对称的，因此仅取半边谱，即每帧129长度送入信号增强网络。

本发明的主要特点在于：创新性地提出将空间注意力机制和多分支结构结合应用于深度学信号增强方法中，令神经网络的输出数据根据输入数据而进行动态调整，这一做法克服了卷积网络完成训练之后内容不可知的特性，即网络参数不再随着输入而变化从而导致特征提取能力次优的问题，使得神经网络能够更好地提取特征，同时多分支结构减少了卷积网络带来的计算量，使得网络模型的资源消耗减小；本发明使用了空间注意力机制结合多分支的方法，并将其嵌入到先进的神经网络结构GCRN中，重新设计了相应的门控卷积模块和门控反卷积模块，在参数量没有增加的情况下取得了显著优于原始GCRN的性能。

附图说明

图1为本发明适用的多分支-动态合并网络的简化框图；

图2为本发明使用的语音增强网络网络结构图；

图3为本发明方法中语音增强网络中的门控卷积模块结构图，门控反卷积模块与之相似，将门控分支(Gate Branch)中的卷积层换为亚像素卷积。

具体实施方式

下面结合附图和实施例，详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明使用多分支-动态合并结构替代了图2所示的语音信号增强网络结构中各个模块中的卷积层以及反卷积层。每个门控卷积模块和门控反卷积模块中多分支-动态合并结构的具体位置如图3所示，由于门控卷积模块与门控反卷积模块结构类似，仅将门控分支(Gate branch)中的卷积层换成了亚像素卷积层。值得注意的是，在门控卷积模块中，多分支动态合并分支和门控分支中均通过调整步长为2压缩输入的频率维度大小至原来的二分之一，而在门控反卷积模块中的多分支-动态合并分支通过亚像素卷积的方式来将输入的频率维度(第二个维度)大小扩大两倍：假设门控反卷积模块的输入为X∈R^C×H×T，则通过该模块后的输出为Y′∈R^2C×H×T，将Y′中一半的通道维度分离出来填充到频率维度中，即：

其中1≤i≤H,1≤j≤T。由于亚像素操作是比较基础的深度学习处理手段，此处不再赘述。而门控反卷积模块中的门控分支使用反卷积层完成频率维度扩增的操作；经过以上修改，得到本发明提出的语音增强网络。

数据集和仿真参数设置如下：

本发明实施例采用TIMIT数据集对语音增强网络进行训练和测试，该数据集包含了由630名发音人员构成的6300条音频(70％为男性)。选择其中的4620条音频作为训练数据x^train，另外1680条作为测试数据x^test。

训练数据x^train添加的噪声类型为短波噪声，指定噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB，每个SNR下的音频数目为1500，即总共9000条音频用于训练。

测试数据x^test所选噪声类型为短波噪声，指定噪声SNR为0dB。

所有音频数据采样率为8kHz，使用汉明窗进行加窗分帧操作，帧长为256样本，帧移为128样本。

卷积神经网络使用adam优化器以1e-3的初始学习率对模型进行训练，每一个怕批次(mini-batch)的大小为4，每5个训练周期(epoch)减小一半学习率。

评价指标：语音质量感知指标(Perceptual evaluation of speech quality，PESQ)，该指标的量化区间为-0.5～4.5，分数越高，表示语音质量越好。短时客观可懂度(Short-Time Objective Intelligibility,STOI)，该指标的量化区间为0～1，可使用百分比的形式表示，分数越高代表语音质量越好。

具体实施例包括以下步骤：

步骤1：由纯净语音数据集x^train构造含噪语音数据集

其中n^train为指定信噪比的加性噪声，从而获得9000条语音数据集x^train和含噪语音数据集

将这两个处理后的数据集与纯净语音数据集经过短时傅里叶变换(Shorttime Fourier transform，STFT)进行特征提取，获得相应语音信号的STFT谱数据集获得相应语音信号的语谱图数据集X^train和/>

转入步骤2.

步骤2：根据GCRN网络Encoder模块中的卷积网络结构GLU，将GLU结构中的常规卷积网络ConvK×1用K个卷积层Conv1×1来代替，输入数据分别经过K个卷积层Conv1×1得到K个输出结果，再将这K个输出结果按照通道维度进行拼接得到多分支处理结果，将其输入注意力机制模块，获得每个通道的加权系数w；将多分支处理结果与加权系数w相乘，得到空间动态分配结果，将该结果按照卷积运算的方式进行错位相加，得到输出结果转入步骤3.

步骤3：训练步骤2构造的神经网络语音增强网络，将步骤2所得的语音语谱图数据集

作为输入信号，将纯净语音语谱图数据集X^train作为目标，使用上述所提损失函数进行卷积神经网络训练，最终获得具有噪声抑制能力的神经网络模型，转入步骤4.

步骤4：将步骤3获得的神经网络模型语音增强网络用于实际信号的语音增强。首先对待增强信号y^test进行STFT得到语谱图Y^test，将Y^test送入语音增强网络得到输出

对

进行逆STFT，得到增强后的信号/>

由此完成本发明的短波语音增强。

与本发明的方法对比的有：短波语音不经过增强处理(unprocessed)，使用原始GCRN算法，以及本发明所用方法语音增强网络。如下表1所示为0dB下不同方法在不同噪声上对于PESQ指标和STOI指标的测试结果。

表1

质量指标	PESQ	STOI(％)
			unprocessed	1.4836	69.0589
GCRN	2.8867	89.0552
			本发明语音增强网络	3.0665	90.8344

实验对比结果表示，本发明相比原始的GCRN语音增强算法，显著提高了增强语音质量。

Claims

1.一种基于多分支-动态合并神经网络的语音增强方法，该方法包括：

步骤1：由纯净语音数据集x^train构造含噪语音数据集

其中，x^train表示纯净语音数据集，n^train为指定信噪比的加性噪声；将纯净语音数据集x^train和含噪语音数据集

经过短时傅里叶变换进行特征提取，获得相应语音信号的STFT谱数据集：训练输入/>

和训练目标输出X^train；

步骤2：采用的语音增强网络为将门控卷积循环网络改进为多分支-动态合并结构，改进为多分支-动态合并结构的方法为：将门控卷积循环网络网络编码器模块中的卷积网络结构门控线性单元中的常规卷积网络ConvK×1用K个卷积层Conv1×1来代替，输入数据分别经过K个卷积层Conv1×1得到K个输出结果，再将这K个输出结果按照通道维度进行拼接得到多分支处理结果；

作为输入信号，X^train作为目标，使用如下所示的损失函数进行语音增强网络训练；

为降噪语音的幅度谱，/>

和/>

分别为语音增强网络实际输出复数谱的实部和虚部，S_r和S_i为训练目标的实部和虚部，其由复数谱计算可得，N为输入语音的帧数，α为比例因子，直到训练完毕；

步骤5：采用训练好的语音增强网络对实际语音进行增强处理。

2.如权利要求1所述的一种基于多分支-动态合并神经网络的语音增强方法，其特征在于，所述GCRN网络中多分支-动态合并结构中卷积核大小均设为(3,1)，所述语音增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层，称为门控卷积模块和门控反卷积模块；对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整，门控分支的设置与卷积层一致，但使用Sigmoid作为激活函数，注意力机制两个全连接层根据输入参数的大小设置输入特征，使用ReLU作为激活函数；同时，反卷积层采用亚像素卷积算法，克服反卷积算法带来的棋盘伪影问题；此外，前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小，即每过一个卷积层，输入的长度减小一半，而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍；所有卷积层和反卷积层的通道数均设置为64；长短时记忆的输入特征数和隐藏神经元数均为320，所有激活函数均使用PReLU；进行STFT时，将语音信号使用汉明窗进行分帧，每帧帧长256，相邻两帧重叠50％的采样点，逐帧进行傅里叶变换即可得到信号语谱图；由于语音是实信号，其频谱是共轭对称的，因此仅取半边谱，即每帧129长度送入语音增强网络。