CN115295002B - 一种基于交互性时频注意力机制的单通道语音增强方法 - Google Patents
一种基于交互性时频注意力机制的单通道语音增强方法 Download PDFInfo
- Publication number
- CN115295002B CN115295002B CN202210885819.5A CN202210885819A CN115295002B CN 115295002 B CN115295002 B CN 115295002B CN 202210885819 A CN202210885819 A CN 202210885819A CN 115295002 B CN115295002 B CN 115295002B
- Authority
- CN
- China
- Prior art keywords
- complex
- layer
- module
- attention mechanism
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims abstract description 19
- 230000007774 longterm Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims description 51
- 238000001228 spectrum Methods 0.000 claims description 48
- 238000011176 pooling Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于交互性时频注意力机制的单通道语音增强方法,采用复数形式的Transformer模型分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强;在时域注意力机制模块与频域注意力机制模块之间引入交互模块,从时域或者频域注意力分支中提取相关信息添加到另一分支中,弥补两个分支学习后的特征图的缺失;本发明既可以在没有特征缺失的情况下建模不同通道之间的相关性,又在两级Transformer模块之间引入残差连接,减小了训练过程中的梯度消失问题。
Description
技术领域
本发明涉及语音增强领域,尤其涉及一种基于交互性时频注意力机制的单通道语音增强方法。
背景技术
单通道语音增强是指在单个麦克风的条件下,消除或抑制背景噪声以获得更高的语音质量和可懂度。近年来,基于深度学习的语音增强方法在这方面取得了优秀的结果,尤其是在处理非平稳噪声以及低信噪比条件等这种具有挑战性的场景下,深度学习方法要显著优于传统的单通道语音增强算法。卷积神经网络和循环神经网络是两种被广泛用于语音增强的方法。2020年,[1]提出了复数卷积神经网络与LSTM神经网络相结合的一种深度复数神经网络,获得了2020年DNS(Deep Noise Suppression)挑战赛实时降噪赛道(Real-TimeTrack,RT)的第一名。
由于自然语言处理领域的飞速发展,近年来许多用于解决时间序列的神经网络层出不穷。2017年,Google机器翻译团队利用注意力机制,完全摒弃了卷积神经网络与循环神经网络提出了Transformer[2]模型进行机器翻译任务,取得了很好的成果。而[3]中提出的深度复数Transformer模型将传统的Transformer模型扩展到了复数域中。如今,Transformer模型以及它的各种变体已经被广泛用于自然语言处理甚至图像处理的任务中,使得深度神经网络的发展进入了一个新的阶段。但是,传统的基于卷积循环神经网络的方法只对时域的序列模型进行建模而忽略的频带之间的相互关系,并且缺乏对整个时间域上相关性的建模,因此模型的性能还有很大的提升空间。
本发明提出了一种基于交互性时频注意力机制的深度复数神经网络进行单通道语音增强,采用复数形式的Transformer模型分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强。同时,在时域注意力机制模块与频域注意力机制模块之间引入交互模块,从时域或者频域注意力分支中提取相关信息添加到另一分支中,弥补了两个分支学习后的特征图的缺失。而改进的通道注意力模块既可以在没有特征缺失的情况下建模不同通道之间的相关性,又在两级Transformer模块之间引入残差连接,减小了训练过程中的梯度消失问题。在实时语音增强效果上,本方法中模型的参数是[1]中方法的59%,PESQ值相比[1]中方法提升了9%,本发明要优于[1]中提出的方法。
[1]Y.Hu,Y.Liu,S.Lv,M.Xing,and L.Xie,“Dccrn:Deep complex convolutionrecurrent network for phase-aware speech enhancement,”in Proc.Interspeech,2020,pp.2472–2476.
[2]Vaswani,Ashish,et al.“Attention is all you need.”Advances inNeural Information Processing Systems,2017.
[3]Yang,M.,Ma,M.Q.,Li,D.,Tsai,Y.-H.H.,Salakhutdinov,R.,“Complextransformer:Aframework for modeling complex-valued sequence.”In:ICASSP 2020-2020IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020,pp.4232–4236
发明内容
基于现有技术存在模型复杂度高,语音增强效果有限的问题,本发明提供一种基于交互性时频注意力机制的单通道语音增强方法,在增强效果和上比一般的语音增强神经网络有明显的优势,能够解决平稳或非平稳噪声干扰下的语音降噪问题。
本发明的目的是通过以下技术方案实现的:一种基于交互性时频注意力机制的单通道语音增强方法,包括:
步骤1:将带噪语音信号进行短时傅里叶变换STFT,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;
步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;
步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cIRM,并利用复理想比率掩码cIRM重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
进一步,所述步骤1中,短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
进一步,所述步骤1中,复数形式的深度卷积神经网络包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linwarr(Xr) Fir=Linwarr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4)
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
进一步,所述步骤2具体实现如下:
步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层连接组合而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,V三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出:
其中QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,WO表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块(是Q=K=V时的情况下,多头复数注意力机制模块退化为了多头复数自注意力机制模块);
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)] (11);
(8)式是多头复数自注意力机制模块的输出,(7)式是多头复数注意力机制模块的输出,(8)式是当(Q=K=V)时把X=A+jB代入(7)式后的化简结果。
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;
步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的S激活函数Sigmoid层组成,设输入特征图的复数形式为U=Ur+jUi,其中Ur,Ui分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息。然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中,再经过S激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;
步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,设输入复数形式的特征图为 则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
进一步,所述步骤3包括:
步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;
步骤(32)复理想比率掩码cIRM作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为Y,纯净语音信号的复数谱为S,则cIRM的计算公式如下:
cIRM=Mr+jMi (14)
式中,
式中,r和i分别代表复数谱的实部和虚部;cIRM的极坐标形式如下:
式中,和/>分别表示被估计值cIRM的实部和虚部,/>和/>分别表示被估计值cIRM的幅度谱和相位谱;最终输出的cIRM与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:
式中,和/>分别代表增强语音的幅度和相位,/>和/>分别代表原始增强语音的幅值和相位。
本发明采用目前新兴的神经网络序列模型,公开了一种基于交互性时频注意力机制的单通道语音增强方法。基于人类特有的大脑信号处理机制,人类会在嘈杂环境中自动分辨出所需的语音信号并忽略环境中的噪声的特性,提出了一种深度复数神经网络来进行单通道语音增强。创新点如下:
(1)本发明采用复数形式的时域变换模块与频域变换模块以及改进的复数通道注意力模块分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强。
(2)本发明在时域变换模块与频域变换模块之间引入交互模块,从时域或者频域注意力分支中提取相关信息添加到另一分支中,弥补了两个分支学习后的特征图的缺失。交互模块作为全新设计的模块,可以更好地促进时域变换模块与频域变换模块之间的信息交互。
(3)本发明中一种改进的通道注意力模块,既可以在没有特征缺失的情况下建模不同通道之间的相关性,又在编码器-解码器之间引入残差连接,减小了训练过程中的梯度消失问题。这种通道注意力模块相比于现有的通道注意力模块来说,参数量更小,特征提取更加完整。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图和附表作简单的介绍,显而易见地,下面描述中的附图和表仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明的整体网络结构;
图2为本发明中时域复数变换模块和频域复数变换模块的具体结构;
图3为本发明中改进的复数形式的通道注意力模块的具体结构;
图4为本发明中的时域复数变换模块与频域复数变换模块之间的交互模块的具体结构。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明实施例提供的一种基于交互性时频注意力机制的单通道语音增强方法,该方法主要包括如下步骤:
步骤1:将带噪语音信号进行短时傅里叶变换STFT,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;
上述短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
上述复数形式的深度卷积神经网络包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr) Fir=Linearr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4)
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;
如图2所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块的具体结构,包括如下步骤(21):
步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层连接组合而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,V三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出
其中,QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,WO表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块;
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)] (11);
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;
如图3所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的改进的复数形式的通道注意力模块,包括如下步骤(23):
步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的S激活函数Sigmoid层组成,设输入特征图的复数形式为U=Ur+jUi,其中Ur,Ui分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息。然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中,再经过S激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;
如图4所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块之间的交互模块,包括如下步骤(24):
步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,设输入复数形式的特征图为 则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cIRM,并利用复理想比率掩码cIRM重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
上述步骤3实现具体为:
步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;
步骤(32)复理想比率掩码cIRM作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为Y,纯净语音信号的复数谱为S,则cIRM的计算公式如下:
cIRM=Mr+jMi (14)
式中,
式中,r和i分别代表复数谱的实部和虚部;cIRM的极坐标形式如下:
式中,和/>分别表示被估计值cIRM的实部和虚部,/>和/>分别表示被估计值cIRM的幅度谱和相位谱;最终输出的cIRM与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:
式中,和/>分别代表增强语音的幅度和相位,/>和/>分别代表原始增强语音的幅值和相位。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种基于交互性时频注意力机制的单通道语音增强方法,其特征在于,包括以下步骤:
步骤1:将带噪语音信号进行短时傅里叶变换STFT,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;
步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;
步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cIRM,并利用复理想比率掩码cIRM重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
2.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于:所述步骤1中,短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
3.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于:所述步骤1中,复数形式的深度卷积神经网络包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr) Fir=Linearr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4}
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
4.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于,所述步骤2具体实现如下:
步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层连接组合而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,V三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出:
其中,QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,WO表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块;
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)](11);
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;
步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的S激活函数Sigmoid层组成,设输入特征图的复数形式为U=Ur+jUi,其中Ur,Ui分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息;然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中,再经过S激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;
步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,设输入复数形式的特征图为 则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
5.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于,所述步骤3包括:
步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;
步骤(32)复理想比率掩码cIRM作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为Y,纯净语音信号的复数谱为S,则cIRM的计算公式如下:
cIRM=Mr+jMi (14)
式中,
式中,r和i分别代表复数谱的实部和虚部;cIRM的极坐标形式如下:
式中,和/>分别表示被估计值cIRM的实部和虚部,/>和/>分别表示被估计值cIRM的幅度谱和相位谱;最终输出的cIRM与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:
式中,和/>分别代表增强语音的幅度和相位,/>和/>分别代表原始增强语音的幅值和相位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210885819.5A CN115295002B (zh) | 2022-07-26 | 2022-07-26 | 一种基于交互性时频注意力机制的单通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210885819.5A CN115295002B (zh) | 2022-07-26 | 2022-07-26 | 一种基于交互性时频注意力机制的单通道语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115295002A CN115295002A (zh) | 2022-11-04 |
CN115295002B true CN115295002B (zh) | 2024-05-14 |
Family
ID=83824885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210885819.5A Active CN115295002B (zh) | 2022-07-26 | 2022-07-26 | 一种基于交互性时频注意力机制的单通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115295002B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351983B (zh) * | 2023-12-06 | 2024-04-19 | 深圳市龙芯威半导体科技有限公司 | 一种基于Transformer的语音降噪方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151059A (zh) * | 2020-09-25 | 2020-12-29 | 南京工程学院 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
WO2021075709A1 (ko) * | 2019-10-14 | 2021-04-22 | 고려대학교 산학협력단 | 잡음 환경에 강인한 동물 종 식별 장치 및 방법 |
CN113611323A (zh) * | 2021-05-07 | 2021-11-05 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11133011B2 (en) * | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
-
2022
- 2022-07-26 CN CN202210885819.5A patent/CN115295002B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021075709A1 (ko) * | 2019-10-14 | 2021-04-22 | 고려대학교 산학협력단 | 잡음 환경에 강인한 동물 종 식별 장치 및 방법 |
CN112151059A (zh) * | 2020-09-25 | 2020-12-29 | 南京工程学院 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
CN113611323A (zh) * | 2021-05-07 | 2021-11-05 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
Non-Patent Citations (1)
Title |
---|
结合深度卷积循环网络和时频注意力机制的单通道语音增强算法;闫昭宇;王晶;;信号处理;20200625(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115295002A (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
CN112151059A (zh) | 面向麦克风阵列的通道注意力加权的语音增强方法 | |
CN108847244A (zh) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 | |
CN109215674A (zh) | 实时语音增强方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN115295001B (zh) | 一种基于渐进式融合校正网络的单通道语音增强方法 | |
CN115602152B (zh) | 一种基于多阶段注意力网络的语音增强方法 | |
Strauss et al. | A flow-based neural network for time domain speech enhancement | |
CN113823308A (zh) | 一种使用单个带噪语音样本进行语音去噪的方法 | |
CN115295002B (zh) | 一种基于交互性时频注意力机制的单通道语音增强方法 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
Lim et al. | Harmonic and percussive source separation using a convolutional auto encoder | |
CN114566176A (zh) | 基于深度神经网络的残余回声消除方法及系统 | |
CN113035217A (zh) | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 | |
Xu et al. | U-former: Improving monaural speech enhancement with multi-head self and cross attention | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
Watcharasupat et al. | End-to-end complex-valued multidilated convolutional neural network for joint acoustic echo cancellation and noise suppression | |
CN114360571A (zh) | 基于参考的语音增强方法 | |
CN116682444A (zh) | 一种基于波形频谱融合网络的单通道语音增强方法 | |
Wei et al. | IIFC-Net: A Monaural Speech Enhancement Network With High-Order Information Interaction and Feature Calibration | |
CN113936680B (zh) | 基于多尺度信息感知卷积神经网络的单通道语音增强方法 | |
CN113345427A (zh) | 一种基于残差网络的环境声音识别系统及方法 | |
Kar et al. | Convolutional Neural Network for Removal of Environmental Noises from Acoustic Signal | |
Zhou et al. | Noise-Aware Subband Attention Network for Underwater Acoustic Signal Denoising | |
Wan et al. | Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |