CN115295002B - 一种基于交互性时频注意力机制的单通道语音增强方法 - Google Patents

一种基于交互性时频注意力机制的单通道语音增强方法 Download PDF

Info

Publication number
CN115295002B
CN115295002B CN202210885819.5A CN202210885819A CN115295002B CN 115295002 B CN115295002 B CN 115295002B CN 202210885819 A CN202210885819 A CN 202210885819A CN 115295002 B CN115295002 B CN 115295002B
Authority
CN
China
Prior art keywords
complex
layer
module
attention mechanism
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210885819.5A
Other languages
English (en)
Other versions
CN115295002A (zh
Inventor
叶中付
于润祥
赵紫微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210885819.5A priority Critical patent/CN115295002B/zh
Publication of CN115295002A publication Critical patent/CN115295002A/zh
Application granted granted Critical
Publication of CN115295002B publication Critical patent/CN115295002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于交互性时频注意力机制的单通道语音增强方法,采用复数形式的Transformer模型分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强;在时域注意力机制模块与频域注意力机制模块之间引入交互模块,从时域或者频域注意力分支中提取相关信息添加到另一分支中,弥补两个分支学习后的特征图的缺失;本发明既可以在没有特征缺失的情况下建模不同通道之间的相关性,又在两级Transformer模块之间引入残差连接,减小了训练过程中的梯度消失问题。

Description

一种基于交互性时频注意力机制的单通道语音增强方法
技术领域
本发明涉及语音增强领域,尤其涉及一种基于交互性时频注意力机制的单通道语音增强方法。
背景技术
单通道语音增强是指在单个麦克风的条件下,消除或抑制背景噪声以获得更高的语音质量和可懂度。近年来,基于深度学习的语音增强方法在这方面取得了优秀的结果,尤其是在处理非平稳噪声以及低信噪比条件等这种具有挑战性的场景下,深度学习方法要显著优于传统的单通道语音增强算法。卷积神经网络和循环神经网络是两种被广泛用于语音增强的方法。2020年,[1]提出了复数卷积神经网络与LSTM神经网络相结合的一种深度复数神经网络,获得了2020年DNS(Deep Noise Suppression)挑战赛实时降噪赛道(Real-TimeTrack,RT)的第一名。
由于自然语言处理领域的飞速发展,近年来许多用于解决时间序列的神经网络层出不穷。2017年,Google机器翻译团队利用注意力机制,完全摒弃了卷积神经网络与循环神经网络提出了Transformer[2]模型进行机器翻译任务,取得了很好的成果。而[3]中提出的深度复数Transformer模型将传统的Transformer模型扩展到了复数域中。如今,Transformer模型以及它的各种变体已经被广泛用于自然语言处理甚至图像处理的任务中,使得深度神经网络的发展进入了一个新的阶段。但是,传统的基于卷积循环神经网络的方法只对时域的序列模型进行建模而忽略的频带之间的相互关系,并且缺乏对整个时间域上相关性的建模,因此模型的性能还有很大的提升空间。
本发明提出了一种基于交互性时频注意力机制的深度复数神经网络进行单通道语音增强,采用复数形式的Transformer模型分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强。同时,在时域注意力机制模块与频域注意力机制模块之间引入交互模块,从时域或者频域注意力分支中提取相关信息添加到另一分支中,弥补了两个分支学习后的特征图的缺失。而改进的通道注意力模块既可以在没有特征缺失的情况下建模不同通道之间的相关性,又在两级Transformer模块之间引入残差连接,减小了训练过程中的梯度消失问题。在实时语音增强效果上,本方法中模型的参数是[1]中方法的59%,PESQ值相比[1]中方法提升了9%,本发明要优于[1]中提出的方法。
[1]Y.Hu,Y.Liu,S.Lv,M.Xing,and L.Xie,“Dccrn:Deep complex convolutionrecurrent network for phase-aware speech enhancement,”in Proc.Interspeech,2020,pp.2472–2476.
[2]Vaswani,Ashish,et al.“Attention is all you need.”Advances inNeural Information Processing Systems,2017.
[3]Yang,M.,Ma,M.Q.,Li,D.,Tsai,Y.-H.H.,Salakhutdinov,R.,“Complextransformer:Aframework for modeling complex-valued sequence.”In:ICASSP 2020-2020IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020,pp.4232–4236
发明内容
基于现有技术存在模型复杂度高,语音增强效果有限的问题,本发明提供一种基于交互性时频注意力机制的单通道语音增强方法,在增强效果和上比一般的语音增强神经网络有明显的优势,能够解决平稳或非平稳噪声干扰下的语音降噪问题。
本发明的目的是通过以下技术方案实现的:一种基于交互性时频注意力机制的单通道语音增强方法,包括:
步骤1:将带噪语音信号进行短时傅里叶变换STFT,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;
步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;
步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cIRM,并利用复理想比率掩码cIRM重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
进一步,所述步骤1中,短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
进一步,所述步骤1中,复数形式的深度卷积神经网络包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linwarr(Xr) Fir=Linwarr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4)
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
进一步,所述步骤2具体实现如下:
步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层连接组合而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,V三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出:
其中QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,WO表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块(是Q=K=V时的情况下,多头复数注意力机制模块退化为了多头复数自注意力机制模块);
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)] (11);
(8)式是多头复数自注意力机制模块的输出,(7)式是多头复数注意力机制模块的输出,(8)式是当(Q=K=V)时把X=A+jB代入(7)式后的化简结果。
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;
步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的S激活函数Sigmoid层组成,设输入特征图的复数形式为U=Ur+jUi,其中Ur,Ui分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息。然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中,再经过S激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;
步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,设输入复数形式的特征图为 则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
进一步,所述步骤3包括:
步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;
步骤(32)复理想比率掩码cIRM作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为Y,纯净语音信号的复数谱为S,则cIRM的计算公式如下:
cIRM=Mr+jMi (14)
式中,
式中,r和i分别代表复数谱的实部和虚部;cIRM的极坐标形式如下:
式中,和/>分别表示被估计值cIRM的实部和虚部,/>和/>分别表示被估计值cIRM的幅度谱和相位谱;最终输出的cIRM与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:
式中,和/>分别代表增强语音的幅度和相位,/>和/>分别代表原始增强语音的幅值和相位。
本发明采用目前新兴的神经网络序列模型,公开了一种基于交互性时频注意力机制的单通道语音增强方法。基于人类特有的大脑信号处理机制,人类会在嘈杂环境中自动分辨出所需的语音信号并忽略环境中的噪声的特性,提出了一种深度复数神经网络来进行单通道语音增强。创新点如下:
(1)本发明采用复数形式的时域变换模块与频域变换模块以及改进的复数通道注意力模块分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强。
(2)本发明在时域变换模块与频域变换模块之间引入交互模块,从时域或者频域注意力分支中提取相关信息添加到另一分支中,弥补了两个分支学习后的特征图的缺失。交互模块作为全新设计的模块,可以更好地促进时域变换模块与频域变换模块之间的信息交互。
(3)本发明中一种改进的通道注意力模块,既可以在没有特征缺失的情况下建模不同通道之间的相关性,又在编码器-解码器之间引入残差连接,减小了训练过程中的梯度消失问题。这种通道注意力模块相比于现有的通道注意力模块来说,参数量更小,特征提取更加完整。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图和附表作简单的介绍,显而易见地,下面描述中的附图和表仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明的整体网络结构;
图2为本发明中时域复数变换模块和频域复数变换模块的具体结构;
图3为本发明中改进的复数形式的通道注意力模块的具体结构;
图4为本发明中的时域复数变换模块与频域复数变换模块之间的交互模块的具体结构。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明实施例提供的一种基于交互性时频注意力机制的单通道语音增强方法,该方法主要包括如下步骤:
步骤1:将带噪语音信号进行短时傅里叶变换STFT,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;
上述短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
上述复数形式的深度卷积神经网络包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr) Fir=Linearr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4)
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;
如图2所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块的具体结构,包括如下步骤(21):
步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层连接组合而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,V三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出
其中,QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,WO表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块;
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)] (11);
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;
如图3所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的改进的复数形式的通道注意力模块,包括如下步骤(23):
步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的S激活函数Sigmoid层组成,设输入特征图的复数形式为U=Ur+jUi,其中Ur,Ui分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息。然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中,再经过S激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;
如图4所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块之间的交互模块,包括如下步骤(24):
步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,设输入复数形式的特征图为 则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cIRM,并利用复理想比率掩码cIRM重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
上述步骤3实现具体为:
步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;
步骤(32)复理想比率掩码cIRM作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为Y,纯净语音信号的复数谱为S,则cIRM的计算公式如下:
cIRM=Mr+jMi (14)
式中,
式中,r和i分别代表复数谱的实部和虚部;cIRM的极坐标形式如下:
式中,和/>分别表示被估计值cIRM的实部和虚部,/>和/>分别表示被估计值cIRM的幅度谱和相位谱;最终输出的cIRM与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:
式中,和/>分别代表增强语音的幅度和相位,/>和/>分别代表原始增强语音的幅值和相位。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于交互性时频注意力机制的单通道语音增强方法,其特征在于,包括以下步骤:
步骤1:将带噪语音信号进行短时傅里叶变换STFT,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;
步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;
步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cIRM,并利用复理想比率掩码cIRM重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
2.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于:所述步骤1中,短时傅里叶变换STFT包括:
对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
3.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于:所述步骤1中,复数形式的深度卷积神经网络包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的GRU层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=GRUr(Xr) Fir=GRUr(Xi)
Fri=GRUi(Xr) Fii=GRUi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr) Fir=Linearr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4}
式中,GRU和Linear分别表示GRU神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
4.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于,所述步骤2具体实现如下:
步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层连接组合而成;
多头复数注意力机制模块中,复数形式的输入信号X=A+jB,查询矩阵Q=Qr+jQi,密钥矩阵K=Kr+jKi,价值矩阵V=Vr+jVi的计算方法如下,
Q=XWQ (5)
K=XWK (6)
V=XWV (7)
式中,WQ,WK,WV均是有待学习的复数形式的系数矩阵,Qr,Kr,Vr分别表示Q,K,V三个矩阵的实部,Qi,Ki,Vi分别表示Q,K,V三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
单头复数注意力机制模块的输出:
其中,QKTV为单头复数注意力机制模块的矩阵,其公式为:
Softmax表示Softmax激活函数,dk表示尺度因子,是Q和K的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
式中,Concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,WO表示投影矩阵;
当多头复数注意力机制模块中的Q=K=V时,多头复数注意力机制模块则退化为多头复数自注意力机制模块;
最终多头复数自注意力机制模块的输出表示为:
ComplexAttention(X)=[MultiHeadAttention(A,A,A)-MultiHeadAttention(A,B,B)-MultiHeadAttention(B,A,B)-MultiHeadAttention(B,B,A)]+j[MultiHeadAttention(A,A,B)+MultiHeadAttention(A,B,A)+MultiHeadAttention(B,A,A)-MultiHeadAttention(B,B,B)](11);
给定输入特征图X,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、ReLU激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的GRU层、复数形式的全连接层、复数形式的LayerNorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;
步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的S激活函数Sigmoid层组成,设输入特征图的复数形式为U=Ur+jUi,其中Ur,Ui分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息;然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中,再经过S激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;
步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的Sigmoid层组成的一个卷积块,设输入复数形式的特征图为 则交互模块的输出表达式为:
式中,表示级联、复数卷积层、复数层归一化层与复数Sigmoid层组成的网络,/>表示元素对应相乘。
5.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于,所述步骤3包括:
步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;
步骤(32)复理想比率掩码cIRM作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为Y,纯净语音信号的复数谱为S,则cIRM的计算公式如下:
cIRM=Mr+jMi (14)
式中,
式中,r和i分别代表复数谱的实部和虚部;cIRM的极坐标形式如下:
式中,和/>分别表示被估计值cIRM的实部和虚部,/>和/>分别表示被估计值cIRM的幅度谱和相位谱;最终输出的cIRM与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:
式中,和/>分别代表增强语音的幅度和相位,/>和/>分别代表原始增强语音的幅值和相位。
CN202210885819.5A 2022-07-26 2022-07-26 一种基于交互性时频注意力机制的单通道语音增强方法 Active CN115295002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210885819.5A CN115295002B (zh) 2022-07-26 2022-07-26 一种基于交互性时频注意力机制的单通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210885819.5A CN115295002B (zh) 2022-07-26 2022-07-26 一种基于交互性时频注意力机制的单通道语音增强方法

Publications (2)

Publication Number Publication Date
CN115295002A CN115295002A (zh) 2022-11-04
CN115295002B true CN115295002B (zh) 2024-05-14

Family

ID=83824885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210885819.5A Active CN115295002B (zh) 2022-07-26 2022-07-26 一种基于交互性时频注意力机制的单通道语音增强方法

Country Status (1)

Country Link
CN (1) CN115295002B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351983B (zh) * 2023-12-06 2024-04-19 深圳市龙芯威半导体科技有限公司 一种基于Transformer的语音降噪方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151059A (zh) * 2020-09-25 2020-12-29 南京工程学院 面向麦克风阵列的通道注意力加权的语音增强方法
WO2021075709A1 (ko) * 2019-10-14 2021-04-22 고려대학교 산학협력단 잡음 환경에 강인한 동물 종 식별 장치 및 방법
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021075709A1 (ko) * 2019-10-14 2021-04-22 고려대학교 산학협력단 잡음 환경에 강인한 동물 종 식별 장치 및 방법
CN112151059A (zh) * 2020-09-25 2020-12-29 南京工程学院 面向麦克风阵列的通道注意力加权的语音增强方法
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合深度卷积循环网络和时频注意力机制的单通道语音增强算法;闫昭宇;王晶;;信号处理;20200625(第06期);全文 *

Also Published As

Publication number Publication date
CN115295002A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
CN108847244A (zh) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN109215674A (zh) 实时语音增强方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN115295001B (zh) 一种基于渐进式融合校正网络的单通道语音增强方法
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
Strauss et al. A flow-based neural network for time domain speech enhancement
CN113823308A (zh) 一种使用单个带噪语音样本进行语音去噪的方法
CN115295002B (zh) 一种基于交互性时频注意力机制的单通道语音增强方法
Geng et al. End-to-end speech enhancement based on discrete cosine transform
Lim et al. Harmonic and percussive source separation using a convolutional auto encoder
CN114566176A (zh) 基于深度神经网络的残余回声消除方法及系统
CN113035217A (zh) 一种基于声纹嵌入的低信噪比条件下的语音增强方法
Xu et al. U-former: Improving monaural speech enhancement with multi-head self and cross attention
CN113782044B (zh) 一种语音增强方法及装置
Watcharasupat et al. End-to-end complex-valued multidilated convolutional neural network for joint acoustic echo cancellation and noise suppression
CN114360571A (zh) 基于参考的语音增强方法
CN116682444A (zh) 一种基于波形频谱融合网络的单通道语音增强方法
Wei et al. IIFC-Net: A Monaural Speech Enhancement Network With High-Order Information Interaction and Feature Calibration
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN113345427A (zh) 一种基于残差网络的环境声音识别系统及方法
Kar et al. Convolutional Neural Network for Removal of Environmental Noises from Acoustic Signal
Zhou et al. Noise-Aware Subband Attention Network for Underwater Acoustic Signal Denoising
Wan et al. Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant