CN113936680B

CN113936680B - 基于多尺度信息感知卷积神经网络的单通道语音增强方法

Info

Publication number: CN113936680B
Application number: CN202111171118.7A
Authority: CN
Inventors: 蓝天; 刘峤; 吴祖峰; 李佳佳; 台文鑫; 王钇翔; 陈聪; 冯雨佳; 康宏博
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-08-08
Anticipated expiration: 2041-10-08
Also published as: CN113936680A

Abstract

本发明提供了一种基于多尺度信息感知卷积神经网络的单通道语音增强方法，包括编码步骤、非局部信息提取步骤、跳跃连接步骤和解码步骤；在编码和解码步骤中采用一种基于不同感受野的多尺度特征选择卷积模块，在编码过程中根据邻近甚至全局信息提取特征，克服了固定感受野的特征提取局限性，显著提升了模型性能，为单通道语音增强提供了一种新思路。本发明通过膨胀卷积大尺度感受野提取相邻信息来实现局部特征的有效编码，并通过全局信息缓解了语音失真和加强了语音增强效果。将膨胀卷积和全局信息提取应用在编码步骤与解码步骤，合理的利用感受野编码临近信息和全局信息，克服了传统卷积模块固定感受野带来的特征提取的局限性问题。

Description

基于多尺度信息感知卷积神经网络的单通道语音增强方法

技术领域

本发明属于语音增强技术领域，具体提供了一种基于多尺度信息感知卷积神经网络的单通道语音增强方法，涉及到一种多尺度信息融合的特征提取方法。

背景技术

语音增强旨在从噪声信号中去除背景噪声，以提高语音可懂度和质量，在自动语音识别、语音通信和助听器等许多应用中用作预处理器。

近些年得益于深度学习的进步，业界内有关语音增强的研究显著增加。大量基于深度学习的方法实现了干净语音与噪声有效分离。深度神经网络(DNN)被用于从带噪对数功率谱到干净语音的非线性映射来对语音进行增强。有学者将全连接卷积神经网络(FCN)和长短期记忆网络(LSTM)结合起来用于实时语音增强，取得了不错的效果。这些实验的结果证明了深度神经网络在语音增强任务上的有效性。

对于基于映射的语音增强任务来说，上下文信息对于恢复有效语音信息非常重要。尽管基于CNN的模型能够根据感受野内上下文信息提取局部特征，但是仍存在固定感受野的局限性，每个卷积层的强大特征提取能力尚未得到充分开发。和普通卷积模块相比，多支路卷积模块能够提取多尺度的上下文信息，并支持感受野的指数级扩展，而不会减小特征的分辨率，能够根据不同卷积核的视野同时提取更为准确有效的信息。

在语音语谱图上，全局性的关系如基音与泛音的关系、噪声的低频与高频的关系很难被卷积核捕捉到，全局性的关系对去除语音噪声、防止语音失真和提升语音可懂度非常重要。本发明是基于结合了全局信息和局部特征构建多尺度信息感知网络的语音增强方法。多支路感知局部特征模块包括编码邻近信息的更大感受野的膨胀卷积模块和普通2维卷积，经过两个模块提取特征的融合，可以自适应地根据邻近信息编码特征，以实现特征的自适应提炼。本发明还扩展了全局信息编码模块，提取全局信息抑制噪声部分和编码语音有效信号。全局信息编码模块通过在通道维度和频率维度对特征图每个像素与全局像素的相似度计算来编码全局信息，最后将通道维度和频率维度特征的拼接经过非线性拟合得到全局编码信息。

发明内容

本发明所要解决的技术问题是，针对现有基于CNN的语音增强模型由于一般卷积神经网络的感受野固定的特性而导致的泛化能力差的问题，而提供一种实现噪声环境下的语音增强的方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于多尺度信息感知卷积神经网络的单通道语音增强方法，包括以下步骤：

包括以下步骤：

预处理步骤：使用短时傅立叶变换对原始音频进行处理得到原始语谱图；原始语谱图作为训练完成的语音增强神经网络的输入；语音增强神经网络的处理包括编码步骤、非局部信息提取步骤、跳跃连接步骤和解码步骤；

编码步骤：对原始语谱图进行局部语音特征提取；

非局部信息提取步骤：对局部语音特征进行全局信息特征提取；

跳跃连接步骤：与非局部信息提取步骤同时进行，对局部语音特征通过全局注意力机制去除噪声成分；

解码步骤：解码器接收来自全局信息特征与去除噪声成分后的局部语音特征，并输出增强后的语音语谱图；增强后的语音语谱图作为语音增强神经网络的输出；

语音变换步骤：增强后的语音语谱图经过反傅里叶变换得到增强后的语音信号；

其中，编码步骤与解码步骤均由多个多支路感知卷积模块串联完成，每个多支路感知卷积模块均对输入特征进行两支路的并行卷积处理后再将两路卷积特征相加得到融合特征，其中一条支路对输入特征进行膨胀率为4，卷积核为5×5的二维膨胀卷积处理；另一条支路对输入特征进行3层卷积核为3×3，步长为1的二维卷积处理。

进一步的，非局部信息提取步骤由多个非局部信息提取NonLocal模块串联完成，每个NonLocal模块的处理过程为：

1)对于输入的特征信号X进行卷积核为1×1的二维卷积后得到高维特征X₁；

2)将高维特征X₁在通道和时间上合成一维，再分别经过两个卷积核为3×3的二维卷积后再进行点乘操作，点乘结果经过Softmax函数后得到通道信息同时将高维特征X₁在频率和时间维度合成一维，再分别经过两个卷积核为3×3的二维卷积后再进行点乘操作，点乘结果经过Softmax函数后得到频率信息/>

3)将高维特征X₁经过卷积核为3×3的二维卷积后，再与通道信息进行点乘操作得到通道全局信息Φ；同时将高维特征X₁经过卷积核为3×3的二维卷积后，再与频率信息/>进行点乘操作得到频率全局信息Θ；

4)将通道全局信息Φ和频率全局信息Θ拼接起来，拼接结果经过卷积核为1×1的二维卷积之后与高维特征X₁残差连接得到该NonLocal模块输出的全局信息Y。

进一步的，跳跃连接步骤通过与实现解码步骤的每一个多支路感知卷积模块对应相连的注意力机制模块实现，每个注意力机制模块的处理过程为：

1)接收来自解码步骤中上一层级的多支路感知卷积模块输出的特征信息X_dec以及编码步骤中对应层级的多支路感知卷积模块输出的特征信息X_enc作为注意力机制模块的输入；X_dec通过全局平均池化得到通道-频率维度的特征图X_c,f；

2)特征图X_c,f经过3层1维卷积得到变换后的通道-频率全局特征

3)将与编码步骤中对应层级的多支路感知卷积模块输出的特征信息X_enc进行特征对应点乘，得到过滤后的特征信息；

4)将过滤后的特征信息与对应层级的多支路感知卷积模块输出的特征信息X_dec进行信息拼接，拼接得到特征信息作为该注意力机制模块的输出，输出至解码步骤中对应层级的多支路感知卷积模块；对于对应于解码步骤中第一层级的多支路感知卷积模块的注意力机制模块，该注意力机制模块接收非局部信息提取步骤的输出作为来自解码步骤中上一层级的多支路感知卷积模块输出的特征信息X_dec。

本发明将全局信息如全频段噪声信息和局部特征如不同音节在幅度谱上的纹理特征结合起来，进而实现语音信号特征的适应提取，实现噪声环境下的语音增强。

本发明的有益效果是，通过膨胀卷积大尺度感受野提取相邻信息来实现局部特征的有效编码，并通过全局信息缓解了语音失真和加强了语音增强效果，有效控制了参数的大小并提升了泛化性能。将膨胀卷积和全局信息提取应用在编码步骤与解码步骤，合理的利用感受野编码临近信息和全局信息，克服了传统卷积模块固定感受野带来的特征提取的局限性问题，通过通道和频率全局关系编码语音有效成分，挖掘最优内在关系，在特征编码过程中不受限于固定感受野，提升了模型的泛化性和鲁棒性。

附图说明

图1为语音增强框架图；

图2为多尺度特征感知模块；

图3为非局部信息提取模块；

图4为作用在跳跃连接的全局注意力机制。

具体实施方式

下面结合附图和具体实施案例对本发明进行详细描述，以便于本技术领域的技术人员理解本发明，但以下叙述不能用于限制本发明的范围，一切利用本发明构思的发明创造均在保护之列。

基于多尺度信息感知卷积神经网络的单通道语音增强方法，主要用于噪声环境下的语音增强问题。网络框架包括编码解码器结构、介于编码解码器之间的瓶颈层结构、用于补足解码器信息的跳跃连接结构以及作用在跳跃连接上的全局注意力机制。本发明的具体模型框架如图1所示。单声道语音增强模型包括多尺度局部语音特征编码器、堆叠全局信息提取单元和多尺度语音特征解码器串联。

多尺度语音特征编码器由4个多支路特征提取模块MPM(Multi-scale PerceptualModule)串联构成，依次为第一至第四多支路特征提取模块；其中，第一多支路特征提取模块的输入通道数为1、输出通道数为8，第二至第四多支路特征提取模块的输出通道数依次为16、32、64，输入至多尺度语音特征编码器的信号为预处理后的语音语谱图NosiyMagnitude。

堆叠全局信息提取单元由多个NonLocal模块串联构成。

多尺度语音特征解码器由4个MPM串联构成，依次为第一至第四多支路特征提取模块，每个卷积模块的输入是由前一卷积的输出和来自编码器经过跳跃连接的信息经过全局注意力GA(Global Attention)机制拼接而成；其中，第一多支路特征提取模块的输入通道数为128、输出通道数为32，第二至第四多支路特征提取模块的输出通道数依次为64、32、16，最终输出增强后的语音信号Enhanced Magnitude。

通过构建多支路特征提取模块来组成编码、解码器结构。构件Nonlocal模块构建瓶颈层，根据不同尺度的信息流来在不同噪声环境提取特征，提升增强语音的质量和可懂度。

单通道语音增强模型训练集选择声学-音素连续语音语料库TIMIT数据集3696个语句，测试集选择TIMIT数据集192个语句，所有干净语音采样率均为8kHz，噪声均来自Noisex92数据集包括六种不同环境噪声，将语音使用短时傅立叶变换(STFT)将语音信号转换为具有32ms帧长和16ms帧重叠和汉宁窗的语谱图，并分别在-10db、-5db、0db、5db、10db信噪比下进行测试，实验的评估指标选用短时客观清晰度STOI和语音质量感知评估PESQ。模型一共训练了60轮，使用Adam优化器作为参数优化训练，使用平均绝对误差函数MAE作为损失函数，学习率设置为0.0002。

语音信号x通过短时傅里叶变换S(·)得到语音复数谱M_t,f，其中实数谱和虚数谱/>通过平方求和开方得到语谱图/>语音语谱图/>作为模型的输入NosiyMagnitude：

M_t,f＝S(x)

经过基于多尺度信息感知卷积神经网络i(·)后，得到映射的干净语音幅度谱作为过基于多尺度信息感知卷积神经网络的输出Enhanced Magnitude，从/>再经过反傅里叶变换/>得到信号Signal作为增强后的语音信号。

构建多支路特征提取模块MPM：由于不同发声音节在幅度谱上的纹理特征表现不一，使用固定的卷积核受到视野的限制难以提取更为准确的语音特征。一种局部更优的特征编码模块，通过多路卷积来自适应提取模块特征。多支路特征提取模块如图2所示，一条支路为3个卷积核为3×3的2维卷积，采用激活函数PReLU，这种级联卷积的方式能够减少模型的参数，同时提取更高级和高分辨率的特征；另一条支路为1个卷积核为5×5，膨胀率dilation为4的2维膨胀卷积，用于提取更广范围内的低分辨率信息，帮助第一条支路更好的提取局部特征信息，两条支路相加的到最后的特征信息。

构建瓶颈层的全局信息编码模块：灵感来自于图像领域中非局部信息提取，经过多个串联Non-Local模块提取全局特征，得到处理过的语音特征内在关系交由下一阶段再处理。Non-Local是在捕捉长距离特征之间依赖关系的基础上提出了一种现有的非局部信息统计的注意力机制。如图3所示，首个Non-Local模块接受混合语音信号经过编码器的高维特征X：

表示输入为/>参数为θ的编码器网络；

对X进行(1×1)卷积升维得到X₁，将X₁在通道C和时间T上合成一维X_1-CT分别经过两个(3×3)卷积在进行点乘操作，经过Softmax得到通道信息将X₁在频率F和时间T维度合成一维X_1-FT分别经过两个(3×3)卷积在进行点乘操作，经过Softmax得到频率信息/>

X₁＝f_conv(X)

将高维特征X₁经过3×3卷积后于通道信息进行点乘操作得到通道全局信息Φ，同理可得频率全局信息Θ，

将通道全局信息Φ和频率全局信息Θ拼接起来，经过(1×1)卷积降维之后与高维特征X₁残差连接后得到全局信息Y，

Y＝X₁+f_conv(f_conc(Φ,Θ))

f_conv(·)表示二维卷积，f_conc(·)表示拼接操作。

构建全局注意力机制GA：在编码解码器结构中，跳跃连接通常被使用从编码器传输信息到解码器用于补足卷积过程中丢失的信息，由于来自编码器部分的信息是包含噪声信息的粗糙特征，所以此处设置一种基于全局注意力机制GA模块，来过滤跳跃连接中的噪声成分，补充有效信息，帮助提升语音增强效果。

步骤1：语音特征经过编码器通过跳跃连接被传递到解码器，上一个层级的解码器信息X_dec先通过全局平均池化GAP(Global Average Pooling)压缩得到通道-频率维度的特征图X_c,f；

X_c,f＝f_GAP(X_dec)

X_c,f表示压缩至通道-频率维度的特征图，f_GAP(·)表示全局平均池化操作，X_enc表示来自编码器对应层MPM的特征信息；

步骤2：将提取的通道-频率维度特征图X_c,f经过3层1维卷积得到变换后的通道-频率全局特征

步骤3：将变换后的通道-频率全局特征与来自编码器的特征信息X_enc相乘，得到过滤后的特征信息，与对应等级的解码器的信息拼接作为下一层解码器的输入。

其中，X_dec表示来自解码器对应层MPM的特征信息的特征，⊙表示特征对应点乘；其中，对于与解码器相连的第一个GA来说，X_enc为编码器中第4个MPM的输出，X_dec为瓶颈层最后一个Non-Local模块的输出；与解码器相连的第2个GA，其X_enc为编码器中第3个MPM的输出，X_dec为解码器中第1个MPM的输出；与解码器相连的第3个GA，其X_enc为编码器中第2个MPM的输出，X_dec为解码器中第2个MPM的输出；与解码器相连的第4个GA，其X_enc为编码器中第1个MPM的输出，X_dec为解码器中第3个MPM的输出。解码器中第4个MPM的输出为

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度信息感知卷积神经网络的单通道语音增强方法，包括以下步骤：

编码步骤：对原始语谱图进行局部语音特征提取；

其特征在于，

编码步骤与解码步骤均由多个多支路感知卷积模块串联完成，每个多支路感知卷积模块均对输入特征进行两支路的并行卷积处理后再将两路卷积特征相加得到融合特征，其中一条支路对输入特征进行膨胀率为4，卷积核为5×5的二维膨胀卷积处理；另一条支路对输入特征进行3层卷积核为3×3，步长为1的二维卷积处理。

2.如权利要求1所述方法，其特征在于，非局部信息提取步骤由多个非局部信息提取NonLocal模块串联完成，每个NonLocal模块的处理过程为：

3.如权利要求1所述方法，其特征在于，跳跃连接步骤通过与实现解码步骤的每一个多支路感知卷积模块对应相连的注意力机制模块实现，每个注意力机制模块的处理过程为：

2)特征图X_c,f经过3层1维卷积得到变换后的通道-频率全局特征

4.如权利要求1所述方法，其特征在于，编码步骤与解码步骤均由4个多支路感知卷积模块串联完成；

编码步骤中的第一多支路特征提取模块的输入通道数为1、输出通道数为8，第二至第四多支路特征提取模块的输出通道数依次为16、32、64；

解码步骤中的第一多支路特征提取模块的输入通道数为128、输出通道数为32，第二至第四多支路特征提取模块的输出通道数依次为64、32、16。