CN116682444A - 一种基于波形频谱融合网络的单通道语音增强方法 - Google Patents
一种基于波形频谱融合网络的单通道语音增强方法 Download PDFInfo
- Publication number
- CN116682444A CN116682444A CN202310798343.6A CN202310798343A CN116682444A CN 116682444 A CN116682444 A CN 116682444A CN 202310798343 A CN202310798343 A CN 202310798343A CN 116682444 A CN116682444 A CN 116682444A
- Authority
- CN
- China
- Prior art keywords
- complex
- waveform
- spectrum
- branch
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000004927 fusion Effects 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 58
- 230000002776 aggregation Effects 0.000 claims abstract description 25
- 238000004220 aggregation Methods 0.000 claims abstract description 25
- 230000001364 causal effect Effects 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 81
- 230000000306 recurrent effect Effects 0.000 claims description 69
- 238000003062 neural network model Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 8
- 230000001105 regulatory effect Effects 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 abstract description 2
- 125000004122 cyclic group Chemical group 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 101000659995 Homo sapiens Ribosomal L1 domain-containing protein 1 Proteins 0.000 description 2
- 102100035066 Ribosomal L1 domain-containing protein 1 Human genes 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于波形频谱融合网络的单通道语音增强方法,用来弥补频域目标解耦方法缺乏对于波形表示的利用,使得神经网络无法学习时域和频域之间的互补优势的问题。为了充分利用波形域和频域这两个域的信息,本发明提出了轻量级语义聚合模块融合了两条支路的跨域特征,并通过因果形式的互注意力机制生成层级掩码张量。同时,本发明提出了双路径循环神经网络结构嵌入到神经网络中,以建模波形域帧间的长程上下文相关性和频域帧内的长程上下文相关性。本发明在语音质量和可理解性方面优于目前最先进的目标解耦型语音增强方法和以往的先进系统。
Description
技术领域
本发明涉及语音增强领域,尤其涉及一种基于波形频谱融合网络的单通道语音增强方法。
背景技术
单通道语音增强是指在单个麦克风的条件下,消除或抑制背景噪声以获得更高的语音质量和可懂度。近年来,基于深度学习的语音增强方法在这方面取得了优秀的结果,尤其是在处理非平稳噪声以及低信噪比条件等这种具有挑战性的场景下,深度学习方法要显著优于传统的单通道语音增强算法。然而,单支路语音增强系统无法有效消除幅度谱与相位谱之间的补偿问题。
为了缓解幅度和相位之间的补偿问题,人们提出了目标解耦策略,将原始优化目标分解为多个相互关联的子目标。为此,研究人员在时频域中设计了两种有效的网络架构,即多级神经网络和双支路神经网络。对于前者,神经网络联合优化每个阶段的输出,以逐步提高增强语音的质量。对于后者,网络的两条路径并行优化每条路径的相应目标,并协同恢复最终频谱。同时,时域方法可以直接估计信号波形,避免了复域中幅度和相位之间的耦合效应。然而,上述每种方法都有其缺点。一方面,对语音信号实施短时傅立叶变换可能会产生一部分信息浪费,这使得时频域中的目标解耦方法无法充分利用原始语音信号中的信息。另一方面,由于时域方法忽略了对语音质量起重要作用的谐波信息,因此仅通过设计不同的网络拓扑或训练目标,时域方法的性能瓶颈是无法克服的。
由于这时域和时频域的方法都有独特的优势,一些方法采用交互学习的策略,提出了跨领域方法。例如,TFT-Net直接将复频谱映射到相应的波形,这不仅有效地利用了复频谱中的谐波信息,而且避免了无效的短时傅立叶变换问题。WMPNet利用多阶段学习策略,构建三阶段网络提高语音增强性能。然而,这些方法并没有很好地探索不同语义特征图之间的深层对应关系,最终的重新合成方案也没有显示出目标解耦策略的特征,这在很大程度上限制了性能。
CN202210885817.6一种基于渐进式融合校正网络的单通道语音增强方法,只利用了时频域的幅度谱特征和复数谱特征进行语音增强,同时不能保证因果性,计算复杂度大,模型参数量大,很难部署于实际的终端系统中,相比于上述方法,本发明是因果形式的模型,可以用于实际的终端中进行部署,在语音增强效果相当的情况下,计算复杂度更低,模型参数量更少,实用性更强。
CN202210885819.5一种基于交互性时频注意力机制的单通道语音增强方法,仅仅利用了时频域的复数谱特征,不能有效地解决幅度和相位之间的补偿问题;相比于上述方法,本发明同时利用了波形特征和复数谱特征两种特征,更加充分地利用了语音信号中的潜在信息,语音增强效果得到了明显的改进。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于波形频谱融合网络的单通道语音增强方法,在语音增强性能相当的情况下,可以部署于实际的终端应用中,计算复杂度和模型参数显著减少,实用性更强;同时在增强效果和上比普通的频域目标解耦型语音增强神经网络有明显的优势,能够更好的解决平稳或非平稳噪声干扰下的语音降噪问题。
本发明的目的是通过以下技术方案实现的:
第一方面,本发明提供一种基于波形频谱融合网络的单通道语音增强方法,包括以下内容:
步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧的复数谱,同时提取出每一帧的波形;
步骤2:所述复数谱输入双支路网络中的复数谱支路,对输入的带噪语音信号的复数谱进行深度特征提取,得到一个具有深度特征信息的特征图,通过调节所述特征图,恢复增强后的带噪语音信号的复数谱,初步恢复增强后的语音信号;
所述波形输入双支路网络中的波形支路,对输入的带噪语音信号的波形进行深度特征提取,得到深度特征信息的特征图,并调节所述特征图,生成对复数谱的补偿掩蔽;
在所述波形支路和复数谱支路之间引入语义聚合模块,语义聚合模块融合了两条支路的跨域特征,并通过因果形式的互注意力机制生成层级掩码张量,利用了波形支路和复数谱支路之间的隐含相关性;
所述语义聚合模块分为三个阶段,即特征提取阶段,特征处理阶段和特征融合阶段;特征提取阶段中,采用双支路神经网络,由并联的复数谱支路和波形支路构成;复数谱特征提取路径由复数卷积编码器级联而成,波形特征提取路径由波形卷积编码器级联而成。复数谱支路中的复数谱卷积编码器对复数谱支路进行深层特征提取,得到复数谱卷积编码器的特征图;波形支路中的波形卷积编码器对波形支路进行深层特征提取,得到波形卷积编码器的特征图;特征提取阶段分别对复数谱卷积编码器的输出和波形卷积编码器的输出进行因果形式的预处理,由并联的复数谱特征提取路径和波形特征提取路径构成,分别级联在复数谱卷积编码器和波形卷积编码器后面;特征融合阶段对复数谱特征提取路径的特征图和波形特征提取路径的特征图进行融合,得到一个融合张量,融合张量作为掩蔽作用于复数谱支路的特征上,波形支路的输出作为新的特征进行传递;
在波形支路与复数谱支路之间插入多个语义聚合模块后,根据每一个经过语义聚合模块之后的特征图对带噪语音信号进行渐进增强;最终,复数谱支路的最后一个输出特征图表示估计出的复数理想比例掩模,最后一个语义聚合模块输出的最后一个输出特征图表示估计出的复数理想比例掩模的补偿掩模;
步骤3:将步骤1的输出的理想比例掩模和理想比例掩模的补偿掩模结合,用以重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
可选地,所述步骤2中,波形支路包括实数卷积编码器、实数双支路递归神经网络模型及实数卷积解码器;实数卷积编码器对输入的带噪语音信号的波形进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数双支路递归神经网络模型中用以捕捉时域上帧间和帧内的长程相关性,得到经过实数双支路递归神经网络模型调节后的特征图;再经过实数卷积解码器生成对复数谱的补偿掩蔽,以重构增强后的语音信号;
所述复数谱支路包括复数卷积编码器、复数双支路递归神经网络模型及复数卷积解码器;所述复数卷积编码器对输入的带噪语音信号的复数谱进行深度特征提取,得到一个具有深度特征信息的特征图,把所述具有深度特征信息的特征图输入至所述复数双支路递归神经网络模型中捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过复数双支路递归神经网络模型调节后特征图,再经过复数卷积解码器恢复增强后的带噪语音信号的复数谱,初步恢复增强后的语音信号。
可选地,所述实数双支路递归神经网络模型由实数形式的帧间递归神经网络和实数形式的帧内递归神经网络串联连接组成,实数形式的帧间递归神经网络用于在实数域捕捉时域帧间上的长程相关性,复数形式的帧内递归神经网络用于在实数域获得时域帧内上的跨频带相关性;
所述复数双支路递归神经网络模型由复数形式的帧间递归神经网络和复数形式的帧内递归神经网络串联连接组成,复数形式的帧间递归神经网络用于在复数域捕捉时域上的长程相关性,复数形式的帧内递归神经网络用于在复数域获得频域上的跨频带相关性。
可选地,所述复数形式的帧间递归神经网络模型由复数形式的LSTM层、复数形式的全连接层与复数形式的层归一化层串联连接而成;
设复数双支路递归神经网络模型的输入是Uin,则复数形式的帧间递归神经网络模型的输出为:
Umid=CLN(CFC(CLSTM(Uin)))+Uin (5)
式中,CLN(·),CFC(·),CLSTM(·)分别表示复数形式的层归一化层,复数形式的全连接层,复数形式的LSTM层,Umid表示复数形式的帧间递归神经网络模型的输出,Umid经过特征维度的变换后再输入复数形式的帧内递归神经网络中;
复数形式的帧内递归神经网络模型的结构与复数形式的帧间递归神经网络模型的结构相同,复数形式的帧内递归神经网络的输出Uout为:
Uout=CLN(CFC(CLSTM(Umid)))+Umid (6)
实数双支路递归神经网络模型是复数双支路递归神经网络模型的实数表达形式。
可选地,所述复数卷积编码器包括:
作为对带噪语音频谱进行特征提取的复数卷积编码器由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;
所述复数形式的卷积层由四个实数形式的卷积层按照复数乘法的运算规则进行模拟得到的,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用于模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的LSTM层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=LSTMr(Xr)Fir=LSTMr(Xi)
Fri=LSTMi(Xr)Fii=LSTMi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(xr)Fir=Linearr(Xi)
Fri=Lineari(Xr)Fii=Lineari(Xi) (4)
式中,LSTM和Linear分别表示LSTM神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
可选地,所述步骤2中,语义聚合模块具体实现如下:
在特征提取阶段,设复数谱特征提取路径和波形特征提取路径的输入分别为Y和y,Y包含C个通道、T个时间帧,F个频率窗;y包含C个通道、T个时间帧,帧内点数为N,fs(·)和fv(·)分别是复数谱特征提取路径和波形特征提取路径所代表的映射函数;复数谱特征提取路径的映射函数fs(·)由复数形式的二维卷积层,复数形式的批归一化层和复数形式的激活函数依次连接而成,波形特征提取路径的映射函数fv(·)由实数形式的门控卷积层,实属形式的批归一化层和实数形式的激活函数依次连接而成;特征提取阶段输出的幅度谱隐式特征A和波形隐式特征a表示为:
A=fs(Y) (7)
a=fv(y) (8)
特征处理阶段的输入分别为特征提取阶段输出的幅度谱隐式特征A和波形隐式特征a,复数谱特征处理阶段利用一个T×T维的上三角函数对幅度谱隐式特征A进行因果形式的处理,得到复数谱特征处理阶段的输出特征图Q表示为:
Q=AK (9)
式中,K为上三角函数,具体第p行第q列的值Kpq表示为:
波形特征处理路径由一个均值池化层和一个广播层对波形隐式特征a进行维数重构,波形特征处理阶段的输出为:
W=Broadcast(AvgPool(y)) (11)
式中,AvgPool(·),Broadcast(·)分别表示均值池化层和广播层,W表示波形特征处理阶段的输出;
特征融合阶段通过因果形式的注意力机制对复数谱特征处理路径的输出Q和波形特征处理路径的输出W进行特征融合,特征融合阶段的输出表示为:
M=Q⊙W (12)
式中,⊙表示对应元素相乘。特征融合阶段的输出再与复数谱特征提取路径的输入Y结合,得到最终复数谱支路的输出,最终复数谱支路的输出Y'表示为:
Y'=M⊙Y (13)
可选地,所述步骤3中,输出的理想比例掩模和理想比例掩模的补偿掩模结合,用以重构增强之后的语音信号的频谱,包括:
给定复数谱支路的复数理想比例掩模的预测输出与波形支路的理想比例掩模的补偿掩模/>最终的频谱重构方式如下:
式中,表示增强后语音信号的复数谱,X为待增强语音信号的复数谱,这样的重构策略有效地同时利用了语音信号的波形信息和语音信号的频谱信息。解决了幅度和相位之间的补偿问题。
第二方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述一种基于波形频谱融合网络的单通道语音增强方法。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述一种基于波形频谱融合网络的单通道语音增强方法。
本发明与现有技术相比的优点在于:
(1)本发明涉及一种基于波形频谱融合网络的单通道语音增强方法,用来弥补频域目标解耦方法缺乏对于波形表示的利用,使得神经网络无法学习时域和频域之间的互补优势的问题。为了充分利用波形域和频域这两个域的信息,本发明提出了轻量级语义聚合模块融合了两条支路的跨域特征,并通过因果形式的互注意力机制生成层级掩码张量。同时,本发明提出了双路径循环神经网络结构嵌入到神经网络中,以建模波形域帧间的长程上下文相关性和频域帧内的长程上下文相关性。本发明在语音质量和可理解性方面优于目前最先进的目标解耦型语音增强方法和以往的先进系统。
(2)本发明采用复数形式的双支路递归神经网络与实数形式的双支路递归神经网络分别在时频域捕捉语音信号中长期的上下文关系,这既弥补了以往实数神经网络在时域捕捉长期上下文信息能力的不足,又通过频域的递归神经网络模拟了不同频带之间的相互关系,最终增强了降噪能力。相比于一种基于渐进式融合校正网络的单通道语音增强方法,该方法是因果形式的模型,可以用于实际的终端中进行部署,在语音增强效果相当的情况下,本专利方法的计算复杂度更低,模型参数量更少,实用性更强。相比于一种基于交互性时频注意力机制的单通道语音增强方法,改方法同时利用了波形特征和复数谱特征两种特征,更加充分地利用了语音信号中的潜在信息,语音增强效果得到了明显的改进。
(3)本发明在波形支路与复数谱支路中引入语义聚合模块嵌入到两个分支中,完全利用了波形支路和复数谱支路之间每层的隐含相关性。语义聚合模块融合了波形支路和复数谱支路的跨域特征,并通过因果形式的互注意力机制生成层级掩码张量,以补偿复数谱支路中的幅度特征信息,在语音增强效果相当的情况下,减少了计算复杂度和模型的参数量。
(4)本发明中提出了一种新的时频谱重构方式用以解决传统神经网络幅度谱与相位谱在训练过程中的补偿问题。首先通过复数谱支路预测复数理想比例掩模,再通过波形支路对相位谱和幅度谱同时进行调整,可以有效缓解引入相位估计对幅度估计带来的影响,最终提高了模型的语音增强性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图和附表作简单的介绍,显而易见地,下面描述中的附图和表仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明的整体网络结构;
图2为本发明中语义聚合模块的具体结构;
图3为本发明中复数双支路递归神经网络的具体结构。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明实施例提供的基于波形频谱融合网络的单通道语音增强方法,包括如下步骤:
步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧的复数谱,同时提取出每一帧的波形。复数谱输入双支路网络中的复数谱支路,波形输入双支路网络中的波形支路;
短时傅里叶变换STFT包括:对带噪语音进行降采样,使得所有音频信号的采样率均为16KHz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
Y(t,f)=S(t,f)+N(t,f) (1)
式中,
Y=Yr+jYi
S=Sr+jSi
其中,Y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000Hz。
波形支路由实数卷积编码器、实数双支路递归神经网络模型及实数卷积解码器组成;实数卷积编码器对输入的带噪语音信号的波形输入进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数双支路递归神经网络模型中用以捕捉时域上帧间和帧内的长程相关性,得到经过实数双支路递归神经网络模型调节后的特征图;再经过实数卷积解码器生成对复数谱的补偿掩蔽,用以重构增强后的语音信号;实数形式的帧间递归神经网络和实数形式的帧内递归神经网络组成,实数形式的帧间递归神经网络用于在实数域捕捉时域帧间上的长程相关性,复数形式的帧内递归神经网络用于在实数域获得时域帧内上的跨频带相关性。
复数谱支路由复数卷积编码器、复数双支路递归神经网络模型及复数卷积解码器组成;复数卷积编码器对输入的带噪语音信号的复数谱输入进行深度特征提取,得到一个具有深度特征信息的特征图,把这个特征图输入复数双支路递归神经网络模型中用以捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过复数双支路递归神经网络模型调节后特征图,再经过复数卷积解码器恢复增强后的带噪语音信号的复数谱,用以初步恢复增强后的语音信号;复数双支路递归神经网络模型由复数形式的帧间递归神经网络和复数形式的帧内递归神经网络组成,复数形式的帧间递归神经网络用于在复数域捕捉时域上的长程相关性,复数形式的帧内递归神经网络用于在复数域获得频域上的跨频带相关性。
在波形和复数谱支路之间引入因果形式的语义聚合模块,分别得到波形支路和复数谱支路经过语义聚合模块之后的特征图,具体实现为:三个阶段,即特征提取阶段,特征处理阶段和特征融合阶段;特征提取阶段的复数谱特征提取路径对复数谱支路进行深层特征提取,得到复数谱特征提取路径的特征图;波形特征提取路径对波形支路进行深层特征提取,得到波形特征提取路径的特征图;特征处理阶段分别对复数谱特征提取路径的输出和波形特征提取路径的输出进行因果形式的预处理;特征融合阶段对幅度谱特征提取路径的特征图和波形特征提取路径的特征图进行融合,得到一个融合张量,融合张量作为掩蔽作用于复数谱支路的特征上;波形支路的输出作为新的特征进行传递。
在波形支路与复数谱支路之间插入多个语义聚合模块后,模型根据每一个经过语义聚合模块之后的特征图对带噪语音信号进行渐进增强,最终,复数谱支路的最后一个输出特征图表示估计出的复数理想比例掩模。波形支路输出的最后一个输出特征图表示估计出的复数理想比例掩模的补偿掩模。
复数卷积编码器包括:
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个实数形式的卷积层按照复数乘法的运算规则进行模拟得到的,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的LSTM层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=LSTMr(Xr)Fir=LSTMr(Xi)
Fri=LSTMi(Xr)Fii=LSTMi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr)Fir=Linearr(Xi)
Fri=Lineari(Xr)Fii=Lineari(Xi) (4)
式中,LSTM和Linear分别表示LSTM神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
如图2所示,语义聚合模块包括:
步骤(11)如图3所示,复数双支路递归神经网络模型由复数形式的帧间递归神经网络和复数形式的帧内递归神经网络组成,复数形式的帧间递归神经网络用于在复数域捕捉时域上的长程相关性,复数形式的帧内递归神经网络用于在复数域获得频域上的跨频带相关性。复数帧间递归神经网络模型由复数形式的LSTM层,复数形式的全连接层与复数形式的层归一化层结合而成,复数形式的帧内递归神经网络模型的结构与复数形式的帧间递归神经网络模型的结构相同。设复数双支路递归神经网络模型的输入是Uin,则复数形式的帧间递归神经网络模型的输出为:
Umid=CLN(CFC(CLSTM(Uin)))+Uin (5)
式中,CLN(·),CFC(·),CLSTM(·)分别表示复数形式的层归一化层,复数形式的全连接层,复数形式的LSTM层,Umid表示复数形式的帧间递归神经网络模型的输出。Umid经过特征维度的变换后再输入复数形式的帧内递归神经网络中,复数帧内递归神经网络的输出为:
Uout=CLN(CFC(CLSTM(Umid)))+Umid (6)
式中,Uout表示复数形式的帧内递归神经网络的输出。实数双支路递归神经网络模型是复数双支路递归神经网络模型的实数表达形式。
步骤(12)在特征提取阶段,为双支路神经网络,由并联的复数谱特征提取路径和波形特征提取路径构成;为了对复数谱的幅度进行补偿,复数谱特征提取路径提取出需要补偿的复数谱的幅度特征信息,波形特征提取路径提取出用于补偿的波形特征信息;
设复数谱特征提取路径和波形特征提取路径的输入分别为Y和y,Y包含C个通道、T个时间帧,F个频率窗;y包含C个通道、T个时间帧,帧内点数为N,fs(·)和fv(·)分别是复数谱特征提取路径和波形特征提取路径所代表的映射函数;复数谱特征提取路径的映射函数fs(·)由复数形式的二维卷积层,复数形式的批归一化层和复数形式的激活函数依次连接而成,波形特征提取路径的映射函数fv(·)由实数形式的门控卷积层,实属形式的批归一化层和实数形式的激活函数依次连接而成。特征提取阶段输出的幅度谱隐式特征A和波形隐式特征a表示为:
A=fs(Y) (7)
a=fv(y) (8)
步骤(13)特征处理阶段分别对复数谱特征提取路径的输出和波形特征提取路径的输出进行因果形式的预处理,由并联的复数谱特征处理路径和波形特征处理路径构成,分别级联在复数谱特征提取路径和波形特征提取路径后面。特征处理阶段的输入分别为特征提取阶段输出的幅度谱隐式特征A和波形隐式特征a。复数谱特征处理阶段利用一个T×T维的上三角函数对幅度谱隐式特征A进行因果形式的处理,得到复数谱特征处理阶段的输出特征图Q可以表示为:
Q=AK (9)
式中,K为上三角函数,具体第p行第q列的值Kpq可以表示为:
波形特征处理路径由一个均值池化层和一个广播层对波形隐式特征a进行维数重构,波形特征处理阶段的输出为:
W=Broadcast(AvgPool(y)) (11)
式中,AvgPool(·),Broadcast(·)分别表示均值池化层和广播层,W表示波形特征处理阶段的输出。
步骤(14)特征融合阶段通过因果形式的注意力机制对复数谱特征处理路径的输出Q和波形特征处理路径的输出W进行特征融合,特征融合阶段的输出可以表示为:
M=Q⊙W (12)
式中,⊙表示对应元素相乘。特征融合阶段的输出再与复数谱特征提取路径的输入Y结合,得到最终复数谱支路的输出。最终复数谱支路的输出Y'可以表示为:
Y'=M⊙Y (13)
步骤2:将步骤1的输出的理想比例掩模和理想比例掩模的补偿掩模结合起来,用以重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
给定复数谱支路的复数理想比例掩模的预测输出与波形支路的理想比例掩模的补偿掩模/>最终的频谱重构方式如下:
式中,表示增强后语音信号的复数谱,X为待增强语音信号的复数谱,这样的重构策略有效地同时利用了语音信号的波形信息和语音信号的频谱信息。
复数理想比例掩模cIRM如下:
复数理想比例掩模cIRM作为训练目标重构待增强语音的时频图,是一种定义的理想掩码,X为待增强语音的复数谱,S为纯净语音信号的复数谱。
下表为本发明在开源语音增强数据集Voicebank+Demand的实验结果。
Metrics:不同的语音增强方法
Feature:使用到的特征
Waveform:波形特征
Mag:幅度谱特征
Phase:相位谱特征
RI:复数谱特征
Par.(M):参数量,单位百万
PESQ:感知语音质量评价
STOI:短时客观可懂度
CSIG:主观意见分数,度量信号失真
CBAK:主观意见分数,度量背景噪声质量
COVL:主观意见分数,度量整体音频质量
PESQ,STOI,CSIG,CBAK,COVL五个指标取值越高,代表语音的听感越好。
本发明为上表中的WSFNet方法。
同时,与一种基于渐进融合校正网络的单通道语音增强方法相比,由于语义聚合模块的优越性能以及波形域与时频域的联合使用,使得参数量减少了251万,乘加累积操作数减少了36.47亿次,实时率提高了1.39。由此可见,本发明在计算复杂度和参数量相比于一种基于渐进融合校正网络的单通道语音增强方法大大减少的情况下,保持了相当的性能。
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围。
Claims (9)
1.一种基于波形频谱融合网络的单通道语音增强方法,其特征在于,包括以下步骤:
步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧的复数谱,同时提取出每一帧的波形;
步骤2:所述复数谱输入双支路网络中的复数谱支路,对输入的带噪语音信号的复数谱进行深度特征提取,得到一个具有深度特征信息的特征图,通过调节所述特征图,恢复增强后的带噪语音信号的复数谱,初步恢复增强后的语音信号;
所述波形输入双支路网络中的波形支路,对输入的带噪语音信号的波形进行深度特征提取,得到深度特征信息的特征图,并调节所述特征图,生成对复数谱的补偿掩蔽;
在所述波形支路和复数谱支路之间引入语义聚合模块,语义聚合模块融合了两条支路的跨域特征,并通过因果形式的互注意力机制生成层级掩码张量,利用波形支路和复数谱支路之间的隐含相关性;
所述语义聚合模块分为三个阶段,即特征提取阶段,特征处理阶段和特征融合阶段;特征提取阶段中,采用双支路神经网络,由并联的复数谱支路和波形支路构成;复数谱特征提取路径由复数卷积编码器级联而成,波形特征提取路径由波形卷积编码器级联而成;复数谱支路中的复数谱卷积编码器对复数谱支路进行深层特征提取,得到复数谱卷积编码器的特征图;波形支路中的波形卷积编码器对波形支路进行深层特征提取,得到波形卷积编码器的特征图;特征提取阶段分别对复数谱卷积编码器的输出和波形卷积编码器的输出进行因果形式的预处理,由并联的复数谱特征提取路径和波形特征提取路径构成,分别级联在复数谱卷积编码器和波形卷积编码器后面;特征融合阶段对复数谱特征提取路径的特征图和波形特征提取路径的特征图进行融合,得到一个融合张量,融合张量作为掩蔽作用于复数谱支路的特征上,波形支路的输出作为新的特征进行传递;
在波形支路与复数谱支路之间插入多个语义聚合模块后,根据每一个经过语义聚合模块之后的特征图对带噪语音信号进行渐进增强;最终,复数谱支路的最后一个输出特征图表示估计出的复数理想比例掩模,最后一个语义聚合模块输出的最后一个输出特征图表示估计出的复数理想比例掩模的补偿掩模;
步骤3:将步骤1的输出的理想比例掩模和理想比例掩模的补偿掩模结合,用以重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
2.根据权利要求1所述的基于波形频谱融合网络的单通道语音增强方法,其特征在于:所述步骤2中,波形支路包括实数卷积编码器、实数双支路递归神经网络模型及实数卷积解码器;实数卷积编码器对输入的带噪语音信号的波形进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数双支路递归神经网络模型中用以捕捉时域上帧间和帧内的长程相关性,得到经过实数双支路递归神经网络模型调节后的特征图;再经过实数卷积解码器生成对复数谱的补偿掩蔽,以重构增强后的语音信号;
所述复数谱支路包括复数卷积编码器、复数双支路递归神经网络模型及复数卷积解码器;所述复数卷积编码器对输入的带噪语音信号的复数谱进行深度特征提取,得到一个具有深度特征信息的特征图,把所述具有深度特征信息的特征图输入至所述复数双支路递归神经网络模型中捕捉时域上的长程相关性与频域上的跨频带相关性,得到经过复数双支路递归神经网络模型调节后特征图,再经过复数卷积解码器恢复增强后的带噪语音信号的复数谱,初步恢复增强后的语音信号。
3.根据权利要求2所述的基于波形频谱融合网络的单通道语音增强方法,其特征在于:所述实数双支路递归神经网络模型由实数形式的帧间递归神经网络和实数形式的帧内递归神经网络串联连接组成,实数形式的帧间递归神经网络用于在实数域捕捉时域帧间上的长程相关性,复数形式的帧内递归神经网络用于在实数域获得时域帧内上的跨频带相关性;
所述复数双支路递归神经网络模型由复数形式的帧间递归神经网络和复数形式的帧内递归神经网络串联连接组成,复数形式的帧间递归神经网络用于在复数域捕捉时域上的长程相关性,复数形式的帧内递归神经网络用于在复数域获得频域上的跨频带相关性。
4.根据权利要求3所述的基于波形频谱融合网络的单通道语音增强方法,其特征在于:所述复数形式的帧间递归神经网络模型由复数形式的LSTM层、复数形式的全连接层与复数形式的层归一化层串联连接而成;
设复数双支路递归神经网络模型的输入是Uin,则复数形式的帧间递归神经网络模型的输出为:
Umid=CLN(CFC(CLSTM(Uin)))+Uin (5)
式中,CLN(·),CFC(·),CLSTM(·)分别表示复数形式的层归一化层,复数形式的全连接层,复数形式的LSTM层,Umid表示复数形式的帧间递归神经网络模型的输出,Umid经过特征维度的变换后再输入复数形式的帧内递归神经网络中;
复数形式的帧内递归神经网络模型的结构与复数形式的帧间递归神经网络模型的结构相同,复数形式的帧内递归神经网络的输出Uout为:
Uout=CLN(CFC(CLSTM(Umid)))+Umid (6)
实数双支路递归神经网络模型是复数双支路递归神经网络模型的实数表达形式。
5.根据权利要求2所述的基于波形频谱融合网络的单通道语音增强方法,其特征在于:所述复数卷积编码器包括:
作为对带噪语音频谱进行特征提取的复数卷积编码器由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成;
所述复数形式的卷积层由四个实数形式的卷积层按照复数乘法的运算规则进行模拟得到的,设复数形式的滤波器矩阵W=Wr+jWi,复数形式的输入向量X=Xr+jXi,其中,Wr和Wi是实数张量滤波器矩阵,Xr和Xi是实数输入张量,实值部分用于模拟复数运算,则复数卷积运算的输出表示为:
Fout=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr) (2)
式中,Fout是复数形式卷积层的输出;同理,也有复数形式的LSTM层和复数形式的全连接层,输出Fgru与Flinear分别为:
Fgru=(Frr-Fii)+j(Fri+Fir)
Frr=LSTMr(Xr) Fir=LSTMr(Xi)
Fri=LSTMi(Xr) Fii=LSTMi(Xi) (3)
Flinear=(Frr-Fii)+j(Fri+Fir)
Frr=Linearr(Xr) Fir=Linearr(Xi)
Fri=Lineari(Xr) Fii=Lineari(Xi) (4)
式中,LSTM和Linear分别表示LSTM神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
6.根据权利要求1所述的基于波形频谱融合网络的单通道语音增强方法,其特征在于:所述步骤2中,语义聚合模块具体实现如下:
在特征提取阶段,设复数谱特征提取路径和波形特征提取路径的输入分别为Y和y,Y包含C个通道、T个时间帧,F个频率窗;y包含C个通道、T个时间帧,帧内点数为N,fs(·)和fv(·)分别是复数谱特征提取路径和波形特征提取路径所代表的映射函数;复数谱特征提取路径的映射函数fs(·)由复数形式的二维卷积层,复数形式的批归一化层和复数形式的激活函数依次连接而成,波形特征提取路径的映射函数fv(·)由实数形式的门控卷积层,实属形式的批归一化层和实数形式的激活函数依次连接而成;特征提取阶段输出的幅度谱隐式特征A和波形隐式特征a表示为:
A=fs(Y) (7)
a=fv(y) (8)
特征处理阶段的输入分别为特征提取阶段输出的幅度谱隐式特征A和波形隐式特征a,复数谱特征处理阶段利用一个T×T维的上三角函数对幅度谱隐式特征A进行因果形式的处理,得到复数谱特征处理阶段的输出特征图Q表示为:
Q=AK (9)
式中,K为上三角函数,具体第p行第q列的值Kpq表示为:
波形特征处理路径由一个均值池化层和一个广播层对波形隐式特征a进行维数重构,波形特征处理阶段的输出为:
W=Broadcast(AvgPool(y)) (11)
式中,AvgPool(·),Broadcast(·)分别表示均值池化层和广播层,W表示波形特征处理阶段的输出;
特征融合阶段通过因果形式的注意力机制对复数谱特征处理路径的输出Q和波形特征处理路径的输出W进行特征融合,特征融合阶段的输出表示为:
M=Q⊙W (12)
式中,⊙表示对应元素相乘,特征融合阶段的输出再与复数谱特征提取路径的输入Y结合,得到最终复数谱支路的输出,最终复数谱支路的输出Y'表示为:
Y'=M⊙Y (13)。
7.根据权利要求1所述的基于波形频谱融合网络的单通道语音增强方法,其特征在于:所述步骤3中,输出的理想比例掩模和理想比例掩模的补偿掩模结合,用以重构增强之后的语音信号的频谱,包括:
给定复数谱支路的复数理想比例掩模的预测输出与波形支路的理想比例掩模的补偿掩模/>最终的频谱重构方式如下:
式中,表示增强后语音信号的复数谱,X为待增强语音信号的复数谱,这样的重构策略有效地同时利用了语音信号的波形信息和语音信号的频谱信息,解决了幅度和相位之间的补偿问题。
8.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任意之一所述方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意之一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798343.6A CN116682444A (zh) | 2023-07-03 | 2023-07-03 | 一种基于波形频谱融合网络的单通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798343.6A CN116682444A (zh) | 2023-07-03 | 2023-07-03 | 一种基于波形频谱融合网络的单通道语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116682444A true CN116682444A (zh) | 2023-09-01 |
Family
ID=87790940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310798343.6A Pending CN116682444A (zh) | 2023-07-03 | 2023-07-03 | 一种基于波形频谱融合网络的单通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682444A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116289A (zh) * | 2023-10-24 | 2023-11-24 | 吉林大学 | 病区医护对讲管理系统及其方法 |
-
2023
- 2023-07-03 CN CN202310798343.6A patent/CN116682444A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116289A (zh) * | 2023-10-24 | 2023-11-24 | 吉林大学 | 病区医护对讲管理系统及其方法 |
CN117116289B (zh) * | 2023-10-24 | 2023-12-26 | 吉林大学 | 病区医护对讲管理系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
Tang et al. | Joint time-frequency and time domain learning for speech enhancement | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
CN107845389A (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN113808602A (zh) | 语音增强方法、模型训练方法以及相关设备 | |
CN115295001B (zh) | 一种基于渐进式融合校正网络的单通道语音增强方法 | |
CN116682444A (zh) | 一种基于波形频谱融合网络的单通道语音增强方法 | |
CN113823308A (zh) | 一种使用单个带噪语音样本进行语音去噪的方法 | |
Min et al. | Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
Watcharasupat et al. | End-to-end complex-valued multidilated convolutional neural network for joint acoustic echo cancellation and noise suppression | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
Xu et al. | U-former: Improving monaural speech enhancement with multi-head self and cross attention | |
Fan et al. | CompNet: Complementary network for single-channel speech enhancement | |
Dang et al. | First coarse, fine afterward: A lightweight two-stage complex approach for monaural speech enhancement | |
CN115295002B (zh) | 一种基于交互性时频注意力机制的单通道语音增强方法 | |
Jannu et al. | Multi-stage progressive learning-based speech enhancement using time–frequency attentive squeezed temporal convolutional networks | |
Xu et al. | Selector-enhancer: learning dynamic selection of local and non-local attention operation for speech enhancement | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
Nossier et al. | Two-stage deep learning approach for speech enhancement and reconstruction in the frequency and time domains | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Xie et al. | Speech enhancement using group complementary joint sparse representations in modulation domain | |
CN116913303A (zh) | 一种基于逐级幅度补偿网络的单通道语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |