CN115295002B

CN115295002B - 一种基于交互性时频注意力机制的单通道语音增强方法

Info

Publication number: CN115295002B
Application number: CN202210885819.5A
Authority: CN
Inventors: 叶中付; 于润祥; 赵紫微
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2024-05-14
Anticipated expiration: 2042-07-26
Also published as: CN115295002A

Abstract

本发明涉及一种基于交互性时频注意力机制的单通道语音增强方法，采用复数形式的Transformer模型分别在时域、频域、通道域捕捉语音信号中长期的上下文关系，这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足，又通过频域注意力机制捕捉不同频带之间的相互关系，还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强；在时域注意力机制模块与频域注意力机制模块之间引入交互模块，从时域或者频域注意力分支中提取相关信息添加到另一分支中，弥补两个分支学习后的特征图的缺失；本发明既可以在没有特征缺失的情况下建模不同通道之间的相关性，又在两级Transformer模块之间引入残差连接，减小了训练过程中的梯度消失问题。

Description

一种基于交互性时频注意力机制的单通道语音增强方法

技术领域

本发明涉及语音增强领域，尤其涉及一种基于交互性时频注意力机制的单通道语音增强方法。

背景技术

单通道语音增强是指在单个麦克风的条件下，消除或抑制背景噪声以获得更高的语音质量和可懂度。近年来，基于深度学习的语音增强方法在这方面取得了优秀的结果，尤其是在处理非平稳噪声以及低信噪比条件等这种具有挑战性的场景下，深度学习方法要显著优于传统的单通道语音增强算法。卷积神经网络和循环神经网络是两种被广泛用于语音增强的方法。2020年，[1]提出了复数卷积神经网络与LSTM神经网络相结合的一种深度复数神经网络，获得了2020年DNS(Deep Noise Suppression)挑战赛实时降噪赛道(Real-TimeTrack，RT)的第一名。

由于自然语言处理领域的飞速发展，近年来许多用于解决时间序列的神经网络层出不穷。2017年，Google机器翻译团队利用注意力机制，完全摒弃了卷积神经网络与循环神经网络提出了Transformer[2]模型进行机器翻译任务，取得了很好的成果。而[3]中提出的深度复数Transformer模型将传统的Transformer模型扩展到了复数域中。如今，Transformer模型以及它的各种变体已经被广泛用于自然语言处理甚至图像处理的任务中，使得深度神经网络的发展进入了一个新的阶段。但是，传统的基于卷积循环神经网络的方法只对时域的序列模型进行建模而忽略的频带之间的相互关系，并且缺乏对整个时间域上相关性的建模，因此模型的性能还有很大的提升空间。

本发明提出了一种基于交互性时频注意力机制的深度复数神经网络进行单通道语音增强，采用复数形式的Transformer模型分别在时域、频域、通道域捕捉语音信号中长期的上下文关系，这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足，又通过频域注意力机制捕捉不同频带之间的相互关系，还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强。同时，在时域注意力机制模块与频域注意力机制模块之间引入交互模块，从时域或者频域注意力分支中提取相关信息添加到另一分支中，弥补了两个分支学习后的特征图的缺失。而改进的通道注意力模块既可以在没有特征缺失的情况下建模不同通道之间的相关性，又在两级Transformer模块之间引入残差连接，减小了训练过程中的梯度消失问题。在实时语音增强效果上，本方法中模型的参数是[1]中方法的59％，PESQ值相比[1]中方法提升了9％，本发明要优于[1]中提出的方法。

[1]Y.Hu,Y.Liu,S.Lv,M.Xing,and L.Xie,“Dccrn:Deep complex convolutionrecurrent network for phase-aware speech enhancement,”in Proc.Interspeech,2020,pp.2472–2476.

[2]Vaswani,Ashish,et al.“Attention is all you need.”Advances inNeural Information Processing Systems,2017.

[3]Yang,M.,Ma,M.Q.,Li,D.,Tsai,Y.-H.H.,Salakhutdinov,R.,“Complextransformer:Aframework for modeling complex-valued sequence.”In:ICASSP 2020-2020IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020,pp.4232–4236

发明内容

基于现有技术存在模型复杂度高，语音增强效果有限的问题，本发明提供一种基于交互性时频注意力机制的单通道语音增强方法，在增强效果和上比一般的语音增强神经网络有明显的优势，能够解决平稳或非平稳噪声干扰下的语音降噪问题。

本发明的目的是通过以下技术方案实现的：一种基于交互性时频注意力机制的单通道语音增强方法，包括：

步骤1：将带噪语音信号进行短时傅里叶变换STFT，得到带噪语音信号频谱中每一帧的实部和虚部，输入作为编码器的复数形式的深度卷积神经网络中，得到经过深度卷积神经网络特征压缩后的特征图；

步骤2：将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中；时域复数变换模块和频域复数变换模块并行学习时域和频域的信息；在时域复数变换模块和频域复数变换模块之间引入交互模块，交互模块对时域注意力和频域注意力输出的特征图起到互补作用，交互模块对时域注意力的输出添加额外的频域信息，为频域注意力添加额外的时域信息；时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性，该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系；再将交互模块的输出进行加权，得到输出后的特征图；改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权，最终得到深度卷积神经网络中每一层加权后的特征图；

步骤3：将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中，深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连，构成编码器-解码器结构，得到复理想比率掩码cIRM，并利用复理想比率掩码cIRM重构增强之后的语音信号的频谱，对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。

进一步，所述步骤1中，短时傅里叶变换STFT包括：

对带噪语音进行降采样，使得所有音频信号的采样率均为16KHz，经过帧长为400，帧移为200，窗函数选择汉宁窗的短时傅里叶变换后，得到带噪语音信号频谱中每一帧的实部和虚部，如下所示：

Y(t,f)＝S(t,f)+N(t,f) (1)

式中，

Y＝Y_r+jY_i

S＝S_r+jS_i

其中，Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱，t表示时间维度，f表示频率维度；S(t,f)和N(t,f)代表干净语音和背景噪声，Y和S表示Y(t,f)和S(t,f)的频谱，下标r和i分别代表频谱的实部和虚部，短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。

进一步，所述步骤1中，复数形式的深度卷积神经网络包括：

作为对带噪语音频谱进行特征提取的编码器，编码器中由有六个卷积块堆叠而成，每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成；复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到，设复数形式的滤波器矩阵W＝W_r+jW_i，复数形式的输入向量X＝X_r+jX_i，其中，W_r和W_i是实数张量滤波器矩阵，X_r和X_i是实数输入张量，实值部分用来模拟复数运算，则复数卷积运算的输出表示为：

F_out＝(X_r*W_r-X_i*W_i)+j(X_r*W_i+X_i*W_r) (2)

式中，F_out是复数形式卷积层的输出；同理，也有复数形式的GRU层和复数形式的全连接层，输出F_gru与F_linear分别为：

F_gru＝(F_rr-F_ii)+j(F_ri+F_ir)

F_rr＝GRU_r(X_r) F_ir＝GRU_r(X_i)

F_ri＝GRU_i(X_r) F_ii＝GRU_i(X_i) (3)

F_linear＝(F_rr-F_ii)+j(F_ri+F_ir)

F_rr＝Linwar_r(X_r) F_ir＝Linwar_r(X_i)

F_ri＝Linear_i(X_r) F_ii＝Linear_i(X_i) (4)

式中，GRU和Linear分别表示GRU神经网络和全连接神经网络，下标r和i分别表示对应网络的实部和虚部。

进一步，所述步骤2具体实现如下：

步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层连接组合而成；

多头复数注意力机制模块中，复数形式的输入信号X＝A+jB，查询矩阵Q＝Q_r+jQ_i，密钥矩阵K＝K_r+jK_i，价值矩阵V＝V_r+jV_i的计算方法如下，

Q＝XW_Q (5)

K＝XW_K (6)

V＝XW_V (7)

式中，W_Q,W_K,W_V均是有待学习的复数形式的系数矩阵，Q_r，K_r，V_r分别表示Q，K，V三个矩阵的实部，Q_i，K_i，V_i分别表示Q，K，V三个矩阵的虚部；多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得；

单头复数注意力机制模块的输出：

其中QK^TV为单头复数注意力机制模块的矩阵，其公式为：

Softmax表示Softmax激活函数，d_k表示尺度因子，是Q和K的特征维数，而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间，通过降低每一组特征矩阵的维度来减少计算复杂度，最终通过一个投影矩阵得到多头复数注意力机制模块的输出，公式如下：

式中，Concat表示将不同特征空间的注意力机制的输出进行拼接，n表示多头注意力的数目，W_O表示投影矩阵；

当多头复数注意力机制模块中的Q＝K＝V时，多头复数注意力机制模块则退化为多头复数自注意力机制模块(是Q＝K＝V时的情况下，多头复数注意力机制模块退化为了多头复数自注意力机制模块)；

最终多头复数自注意力机制模块的输出表示为：

ComplexAttention(X)＝[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)] (11)；

(8)式是多头复数自注意力机制模块的输出，(7)式是多头复数注意力机制模块的输出，(8)式是当(Q＝K＝V)时把X＝A+jB代入(7)式后的化简结果。

给定输入特征图X，时域复数变换模块首先将输入特征图进行层归一化层处理，再输入多头复数注意力机制模块，输出一个时域注意力的得分，再将这个得分依次输入层归一化层、ReLU激活函数，复数形式的全连接层、层归一化层之中，最终得到时域复数变换模块的输出特征图；

步骤(22)频域复数变换模块与时域变换模块相同，也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层组合而成，对输入特征图的维数按照频域优先的方式进行重新组合，再输入到频域变换模块中；

步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的S激活函数Sigmoid层组成，设输入特征图的复数形式为U＝U_r+jU_i，其中U_r,U_i分别是输入特征图的实部和虚部，改进的复数形式的通道注意力模块的计算过程如下：分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中，实部和虚部平均池化层的结果作为复数形式的平均池化层的输出，实部和虚部最大池化层的结果作为复数形式的最大池化层的输出，这两个池化层获得每一个通道的实部和虚部的全局时频信息。然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中，再经过S激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果；

步骤(24)交互模块是由一个复数形式的卷积层，一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块，设输入复数形式的特征图为则交互模块的输出表达式为：

式中，表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络，/>表示元素对应相乘。

进一步，所述步骤3包括：

步骤(31)复数形式的深度反卷积神经网络作为解码器部分，对降采样后的特征图进行连续的上采样，恢复到原始的时频图的维度；

步骤(32)复理想比率掩码cIRM作为训练目标重构待增强语音的时频图，是一种复数域中定义的理想掩码，设待增强语音的复数谱为Y，纯净语音信号的复数谱为S，则cIRM的计算公式如下：

cIRM＝M_r+jM_i (14)

式中，

式中，r和i分别代表复数谱的实部和虚部；cIRM的极坐标形式如下：

式中，和/>分别表示被估计值cIRM的实部和虚部，/>和/>分别表示被估计值cIRM的幅度谱和相位谱；最终输出的cIRM与带噪语音频谱相乘，得到增强之后的语音信号的频谱，对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号：

式中，和/>分别代表增强语音的幅度和相位，/>和/>分别代表原始增强语音的幅值和相位。

本发明采用目前新兴的神经网络序列模型，公开了一种基于交互性时频注意力机制的单通道语音增强方法。基于人类特有的大脑信号处理机制，人类会在嘈杂环境中自动分辨出所需的语音信号并忽略环境中的噪声的特性，提出了一种深度复数神经网络来进行单通道语音增强。创新点如下：

(1)本发明采用复数形式的时域变换模块与频域变换模块以及改进的复数通道注意力模块分别在时域、频域、通道域捕捉语音信号中长期的上下文关系，这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足，又通过频域注意力机制捕捉不同频带之间的相互关系，还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强。

(2)本发明在时域变换模块与频域变换模块之间引入交互模块，从时域或者频域注意力分支中提取相关信息添加到另一分支中，弥补了两个分支学习后的特征图的缺失。交互模块作为全新设计的模块，可以更好地促进时域变换模块与频域变换模块之间的信息交互。

(3)本发明中一种改进的通道注意力模块，既可以在没有特征缺失的情况下建模不同通道之间的相关性，又在编码器-解码器之间引入残差连接，减小了训练过程中的梯度消失问题。这种通道注意力模块相比于现有的通道注意力模块来说，参数量更小，特征提取更加完整。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图和附表作简单的介绍，显而易见地，下面描述中的附图和表仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明的整体网络结构；

图2为本发明中时域复数变换模块和频域复数变换模块的具体结构；

图3为本发明中改进的复数形式的通道注意力模块的具体结构；

图4为本发明中的时域复数变换模块与频域复数变换模块之间的交互模块的具体结构。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明实施例提供的一种基于交互性时频注意力机制的单通道语音增强方法，该方法主要包括如下步骤：

上述短时傅里叶变换STFT包括：

Y(t,f)＝S(t,f)+N(t,f) (1)

式中，

Y＝Y_r+jY_i

S＝S_r+jS_i

上述复数形式的深度卷积神经网络包括：

F_out＝(X_r*W_r-X_i*W_i)+j(X_r*W_i+X_i*W_r) (2)

F_gru＝(F_rr-F_ii)+j(F_ri+F_ir)

F_rr＝GRU_r(X_r) F_ir＝GRU_r(X_i)

F_ri＝GRU_i(X_r) F_ii＝GRU_i(X_i) (3)

F_linear＝(F_rr-F_ii)+j(F_ri+F_ir)

F_rr＝Linear_r(X_r) F_ir＝Linear_r(X_i)

F_ri＝Linear_i(X_r) F_ii＝Linear_i(X_i) (4)

如图2所示，本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块的具体结构，包括如下步骤(21)：

Q＝XW_Q (5)

K＝XW_K (6)

V＝XW_V (7)

单头复数注意力机制模块的输出

其中，QK^TV为单头复数注意力机制模块的矩阵，其公式为：

当多头复数注意力机制模块中的Q＝K＝V时，多头复数注意力机制模块则退化为多头复数自注意力机制模块；

最终多头复数自注意力机制模块的输出表示为：

如图3所示，本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的改进的复数形式的通道注意力模块，包括如下步骤(23)：

如图4所示，本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块之间的交互模块，包括如下步骤(24)：

上述步骤3实现具体为：

cIRM＝M_r+jM_i (14)

式中，

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于交互性时频注意力机制的单通道语音增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法，其特征在于：所述步骤1中，短时傅里叶变换STFT包括：

Y(t,f)＝S(t,f)+N(t,f) (1)

式中，

Y＝Y_r+jY_i

S＝S_r+jS_i

其中，Y(t，f)表示经过短时傅里叶变换后的单通道待增强语音频谱，t表示时间维度，f表示频率维度；S(t，f)和N(t，f)代表干净语音和背景噪声，Y和S表示Y(t，f)和S(t，f)的频谱，下标r和i分别代表频谱的实部和虚部，短时傅里叶变换点数为512，变换后的257维对应着频率范围从0到8000Hz。

3.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法，其特征在于：所述步骤1中，复数形式的深度卷积神经网络包括：

F_out＝(X_r*W_r-X_i*W_i)+j(X_r*W_i+X_i*W_r) (2)

F_gru＝(F_rr-F_ii)+j(F_ri+F_ir)

F_rr＝GRU_r(X_r) F_ir＝GRU_r(X_i)

F_ri＝GRU_i(X_r) F_ii＝GRU_i(X_i) (3)

F_linear＝(F_rr-F_ii)+j(F_ri+F_ir)

F_rr＝Linear_r(X_r) F_ir＝Linear_r(X_i)

F_ri＝Linear_i(X_r) F_ii＝Linear_i(X_i) (4}

4.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法，其特征在于，所述步骤2具体实现如下：

Q＝XW_Q (5)

K＝XW_K (6)

V＝XW_V (7)

式中，W_Q，W_K，W_V均是有待学习的复数形式的系数矩阵，Q_r，K_r，V_r分别表示Q，K，V三个矩阵的实部，Q_i，K_i，V_i分别表示Q，K，V三个矩阵的虚部；多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得；

单头复数注意力机制模块的输出：

其中，QK^TV为单头复数注意力机制模块的矩阵，其公式为：

最终多头复数自注意力机制模块的输出表示为：

ComplexAttention(X)＝[MultiHeadAttention(A，A，A)-MultiHeadAttention(A，B，B)-MultiHeadAttention(B，A，B)-MultiHeadAttention(B，B，A)]+j[MultiHeadAttention(A，A，B)+MultiHeadAttention(A，B，A)+MultiHeadAttention(B，A，A)-MultiHeadAttention(B，B，B)](11)；

步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的S激活函数Sigmoid层组成，设输入特征图的复数形式为U＝U_r+jU_i，其中U_r，U_i分别是输入特征图的实部和虚部，改进的复数形式的通道注意力模块的计算过程如下：分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中，实部和虚部平均池化层的结果作为复数形式的平均池化层的输出，实部和虚部最大池化层的结果作为复数形式的最大池化层的输出，这两个池化层获得每一个通道的实部和虚部的全局时频信息；然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中，再经过S激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果；

5.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法，其特征在于，所述步骤3包括：

cIRM＝M_r+jM_i (14)

式中，