CN114283829B

CN114283829B - 一种基于动态门控卷积循环网络的语音增强方法

Info

Publication number: CN114283829B
Application number: CN202111520056.6A
Authority: CN
Inventors: 陈延涛; 刘欣悦; 董彬虹; 唐文岐
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-06-16
Anticipated expiration: 2041-12-13
Also published as: CN114283829A

Abstract

该发明公开了一种基于动态门控卷积循环网络的语音增强方法，属于人工智能领域。本发明提出将动态卷积应用于语音增强，并改进了门控卷积循环网络的门控卷积模块和门控反卷积模块，使动态卷积模块，即动态解耦滤波器能够很好地与现有结构融合。在本发明中，在信号通过每一个动态卷积模块或者动态反卷积模块时，根据输入从通道和空间两个方向生成用于卷积的滤波器参数，这使得传统网络的卷积层内容不可知的缺陷被弥补，实验表明本发明能够显著提高低信噪比下的语音质量，实际性能优于现有深度学习语音增强方法。

Description

一种基于动态门控卷积循环网络的语音增强方法

技术领域

本发明属于人工智能领域，涉及一种基于神经网络的语音增强方法。

背景技术

话音增强的目标是从噪声环境中将目标语音分离出来，在许多研究中也称为语音分离。语音分离是语音信号处理的基本方法和任务，在许多应用中，只有将语音尽可能地与背景干扰和噪声分隔开，后续处理过程才会取得良好的效果。早期的语音增强算法主要以非监督学习算法为主，基于统计信号模型设计算法。但这些算法依赖人工假设的数学模型，往往与实际条件有一定的偏差，因此性能始终有限。近年来，随着硬件计算能力的快速进步和深度学习理论的快速发展，基于深度学习的语音增强方法被大量提出并迅速成为语音增强的主要发展方向。现有深度学习语音增强方法绝大多数以卷积层作为主要网络组成部分，提取语音的局部信息；以循环神经网络(Recurrent Neural Network,RNN)作为辅助模块，提取语音的时间信息。然而，尽管卷积运算由于其简单的结构和强大的特征提取能力而成为神经网络的基本组成单元，但目前一些研究认为常规的卷积存在两个缺陷需要解决：第一个缺陷是卷积运算的内容无关性，即卷积网络的滤波器是空间不变的，并且其参数在训练完成后面对不同的输出将不会再改变，故而理论上空间不变性的滤波器在面对内容各异的输入时，其特征提取能力是次优的；第二个缺陷是卷积运算的计算复杂度会随着滤波器的大小和通道数目的增加而急剧增加，这就导致了滤波器的尺寸往往被限制在较小的数值(3×3，5×5或者7×7)，因而导致感受野较小从而进一步限制了网络的性能。

发明内容

本发明针对背景技术的缺陷，将前沿的动态解耦滤波器(Decoupled DynamicFilter,DDF)引入到经典的门控卷积循环网络(Gated Convolutional RecurrentNetworks,GCRN)中，提出了一种新型的动态门控卷积循环网络(语音增强网络)语音增强方法。本发明将原始GCRN中的主支路卷积层全部换成了动态滤波器DDF，一方面降低了计算量和参数量，另一方面使得相应卷积层的卷积参数根据输入自适应地进行调整，具有更强的特征提取能力，性能得到了显著提升。

本发明技术方案为一种基于动态卷积门控卷积循环网络的语音增强方法，该方法包括：

步骤1：建立语音增强网络；

步骤1.1：构造DDF空间参数

输入的语音X有C_i个通道，其频率方向大小为H,时间方向大小为T，输入表示为X∈R^C×H×T；将期望生成的滤波器沿着频率方向的长度设置为K，沿着时间方向的长度设置为L，即期望使用大小为K×L的滤波器处理输入特征，则应用一个输入通道为C_i，输出通道为KL的1×1卷积层

对其进行处理，/>

得到空间上参数z^(SP)∈R^KL×H×W，即

然后对z^(SP)的每个空间位置上长度为KL×1×1的向量进行归一化，即

其中，E[·]和Std[·]分别表示取均值和标准差，而α和γ是可学习的参数；

最后将

沿着通道第一个维度复制C_i份得到/>

规整后的形式为

步骤1.2：构造DDF通道参数

首先对X的每个通道取均值得到X_GAP∈R^C×1×1，再连续使用两个1×1卷积对X_GAP进行处理，最终得到通道分支参数

所述的两个卷积分别表示为/>

和

并且σ是取值范围为(0,1)区间内的常数，即：

其中，φ表示线性整流激活函数，将z^(CH)沿着第2个维度复制H次，再沿着第3个维度复制T次得到

规整后的形式为/>

步骤1.3：融合空间参数

和通道参数/>

将得到的

和/>

逐点对应相乘得到/>

再将/>

的第一个维度拆解成大小为C_i、K和T的三个新的维度得到最终的/>

得到通过步骤1.1～1.2构造的卷积层滤波器，由于该滤波器是根据输入动态生成并被用于与输入信号进行卷积，故而称为动态卷积核，对于输入的每个通道和每个时间、频率位置，/>

都具有对应的大小为K×L的滤波器参数；

步骤1.4：应用

处理输入X，将得到的输出结果记为Y∈R^C×H×T；

其中，

表示/>

在通道为c，频率位置为i，时间位置为j上大小为K×L的滤波器中位置为(k,l)处的滤波器参数，X[c,i-k,j-l]通道为c，频率位置为i-k，时间位置为j-l的输入样本点；

步骤2：由纯净语音数据集x^train构造含噪语音数据集

其中，x^train表示纯净语音数据集，n^train为指定信噪比的加性噪声；将纯净语音数据集x^train和含噪语音数据集

经过短时傅里叶变换进行特征提取，获得相应语音信号的STFT谱数据集：训练输入/>

和训练目标输出X^train；

步骤3：训练步骤1得到的语音增强网络；

将步骤2所得的

作为输入信号，X^train作为目标，使用如下所示的MSE作为损失函数进行卷积神经网络训练，

其中，

为步骤1得到的语音增强网络的实际输出，/>

和/>

分别表示对信号取实部和虚部，直到训练完毕；

步骤4：采用训练好的语音增强网络对实际语音进行增强处理。

进一步地，所述语音增强网络中通过构造空间参数

和通道参数/>

生成的卷积核大小均设为(K,L)＝(3,1)，所述语音增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层，称为门控卷积模块和门控反卷积模块，即对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整，门控分支的设置与卷积层一致，但使用Sigmoid作为激活函数；卷积层和反卷积层的滤波器系数使用步骤1.3得到的/>

中为卷积层和反卷积层提供相应的系数；此外，前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小，即每过一个卷积层，输入的长度减小一半，而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍；所有卷积层和反卷积层的通道数均设置为64；长短时记忆(Long-short-time-memory,LSTM)的输入特征数和隐藏神经元数均为320，所有激活函数均使用PReLU。进行STFT时，将语音信号使用汉明窗进行分帧，每帧帧长256，相邻两帧重叠50％的采样点，逐帧进行傅里叶变换即可得到信号语谱图；由于语音是实信号，其频谱是共轭对称的，因此仅取半边谱，即每帧129长度送入语音增强网络。

本发明的主要特点在于：创新性地提出将动态卷积应用于深度学习语音增强方法中，令神经网络的参数随着输入的变化而动态调整，这一做法克服了卷积网络完成训练之后内容不可知的特性，即网络参数不再随着输入而变化从而导致特征提取能力次优的问题，使得神经网络能够更好地提取特征；本发明使用了前沿的DDF动态卷积方法，并将其嵌入到先进的神经网络结构GCRN中，重新设计了相应的门控卷积模块和门控反卷积模块，在参数量没有增加的情况下取得了显著优于原始GCRN的性能。

附图说明

图1为本发明适用的DDF的简化框图；

图2为本发明使用的语音增强网络网络结构图；

图3为本发明方法中语音增强网络中的门控卷积模块结构图，门控反卷积模块与之相似，仅仅将门控分支(Gate Branch)中的卷积层换为反卷积。

具体实施方式

下面结合附图和实施例，详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

DDF被提出后已经被证明能够取得比常规的卷积层更好的特征提取能力。本发明使用DDF替代了图2所示的语音增强网络结构中各个模块中的卷积层以及反卷积层。每个门控卷积模块和门控反卷积模块中DDF的具体位置如图3所示，由于门控卷积模块与门控反卷积模块结构类似，仅将门控分支(Gate branch)中的卷积层换成了反卷积层，因此不再给出冗余图示。值得注意的是，在门控卷积模块中，DDF分支和门控分支中均通过调整步长为2压缩输入的频率维度大小至原来的二分之一，而在门控反卷积模块中的DDF分支通过子像素卷积的方式来将输入的频率维度(第二个维度)大小扩大两倍：假设门控反卷积模块的输入为X∈R^C×H×T，则通过该模块的DDF后的输出为Y′∈R^2C×H×T，将Y′中一半的通道维度分离出来填充到频率维度中，即：

其中1≤i≤H,1≤j≤T。由于子像素操作是比较基础的深度学习处理手段，此处不再赘述。而门控反卷积模块中的门控分支使用反卷积层完成频率维度扩增的操作；经过以上修改，得到本发明提出的语音增强网络。

数据集和仿真参数设置如下：

本发明实施例采用TIMIT数据集对语音增强网络进行训练和测试，该数据集包含了由630名发音人员构成的6300条音频(70％为男性)。选择其中的4620条音频作为训练数据x^train，另外1680条作为测试数据x^test。

训练数据x^train添加的噪声类型为短波噪声，指定噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB，每个SNR下的音频数目为1500，即总共9000条音频用于训练。

测试数据x^test所选噪声类型为短波噪声，指定噪声SNR为0dB。

所有音频数据采样率为8kHz，使用汉明窗进行加窗分帧操作，帧长为256样本，帧移为128样本。

卷积神经网络使用adam优化器以1e-3的初始学习率对模型进行训练，每一个怕批次(mini-batch)的大小为4，每5个训练周期(epoch)减小一半学习率。

评价指标：语音质量感知指标(Perceptual evaluation of speech quality，PESQ)，该指标的量化区间为-0.5～4.5，分数越高，表示语音质量越好。短时客观可懂度(Short-Time Objective Intelligibility,STOI)，该指标的量化区间为0～1，可使用百分比的形式表示，分数越高代表语音质量越好。

具体实施例包括以下步骤：

步骤1：根据图1的DDF简化框图构建DDL模块，并将其插入到图3所示的门控卷积模块或者门控反卷积模块结构中，再使用图3所示的门控卷积模块和门控反卷积模块构建图2所示的GCRN结构，得到语音增强网络网络。

步骤2：由将上述TIMIT语音训练数据集x^train构造含噪语音数据集

其中n^train为指定信噪比的加性噪声，从而获得9000条语音数据集x^train和含噪语音数据集

将这两个处理后的数据集与纯净语音数据集经过短时傅里叶变换(Shorttime Fourier transform，STFT)进行特征提取，获得相应语音信号的STFT谱数据集获得相应语音信号的语谱图数据集X^train和/>

转入步骤3.

步骤3：训练步骤1构造的神经网络语音增强网络，将步骤2所得的语音语谱图数据集

作为输入信号，将纯净语音语谱图数据集X^train作为目标，使用MSE作为损失函数进行卷积神经网络训练，最终获得具有噪声抑制能力的神经网络模型，转入步骤4.

步骤4：将步骤3获得的神经网络模型语音增强网络用于实际信号的语音增强。首先对待增强信号y^test进行STFT得到语谱图Y^test，将Y^test送入语音增强网络得到输出

对

进行逆STFT，得到增强后的信号/>

由此完成本发明的短波语音增强。

与本发明的方法对比的有：短波语音不经过增强处理(unprocessed)，使用原始GCRN算法，以及本发明所用方法语音增强网络。如下表1所示为0dB下不同方法在不同噪声上对于PESQ指标和STOI指标的测试结果。

表1

质量指标	PESQ	STOI(％)
			unprocessed	1.4836	69.0589
GCRN	2.7249	86.7464
			本发明语音增强网络	2.8818	88.9105

实验对比结果表示，本发明相比原始的GCRN语音增强算法，显著提高了增强语音质量。

Claims

1.一种基于动态卷积门控卷积循环网络的语音增强方法，该方法包括：

步骤1：建立语音增强网络；

步骤1.1：构造DDF空间参数

输入的语音X有C_i个通道，其频率方向大小为H,时间方向大小为T，输入表示为X∈R^C ^×H×T；将期望生成的滤波器沿着频率方向的长度设置为K，沿着时间方向的长度设置为L，即期望使用大小为K×L的滤波器处理输入特征，则应用一个输入通道为C_i，输出通道为KL的1×1卷积层

对其进行处理，/>

得到空间上参数z^(SP)∈R^KL×H×W，即

最后将

沿着通道第一个维度复制C_i份得到/>

规整后的形式为/>

步骤1.2：构造DDF通道参数

所述的两个卷积分别表示为/>

和

并且σ是取值范围为(0,1)区间内的常数，即：

规整后的形式为/>

步骤1.3：融合空间参数

和通道参数/>

将得到的

和/>

逐点对应相乘得到/>

再将/>

都具有对应的大小为K×L的滤波器参数；

步骤1.4：应用

处理输入X，将得到的输出结果记为Y∈R^C×H×T；

其中，

表示/>

步骤2：由纯净语音数据集x^train构造含噪语音数据集

和训练目标输出X^train；

步骤3：训练步骤1得到的语音增强网络；

将步骤2所得的

其中，

为步骤1得到的语音增强网络的实际输出，/>

和/>

分别表示对信号取实部和虚部，直到训练完毕；

2.如权利要求1所述的一种基于动态卷积门控卷积循环网络的语音增强方法，其特征在于，所述语音增强网络中通过构造空间参数

和通道参数/>

中为卷积层和反卷积层提供相应的系数；此外，前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小，即每过一个卷积层，输入的长度减小一半，而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍；所有卷积层和反卷积层的通道数均设置为64；长短时记忆的输入特征数和隐藏神经元数均为320，所有激活函数均使用PReLU；进行STFT时，将语音信号使用汉明窗进行分帧，每帧帧长256，相邻两帧重叠50％的采样点，逐帧进行傅里叶变换即可得到信号语谱图；由于语音是实信号，其频谱是共轭对称的，因此仅取半边谱，即每帧129长度送入语音增强网络。