CN110739002A - 基于生成对抗网络的复数域语音增强方法、系统及介质 - Google Patents

基于生成对抗网络的复数域语音增强方法、系统及介质 Download PDF

Info

Publication number
CN110739002A
CN110739002A CN201910984076.5A CN201910984076A CN110739002A CN 110739002 A CN110739002 A CN 110739002A CN 201910984076 A CN201910984076 A CN 201910984076A CN 110739002 A CN110739002 A CN 110739002A
Authority
CN
China
Prior art keywords
network
number spectrum
voice
self
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910984076.5A
Other languages
English (en)
Other versions
CN110739002B (zh
Inventor
刘刚
陈志广
肖侬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910984076.5A priority Critical patent/CN110739002B/zh
Publication of CN110739002A publication Critical patent/CN110739002A/zh
Application granted granted Critical
Publication of CN110739002B publication Critical patent/CN110739002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于生成对抗网络的复数域语音增强方法、系统及介质,本发明复数域语音增强方法的实施步骤包括:获取带噪声的语音;将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱和虚数谱;将带噪声的实数谱和虚数谱输入预先完成训练的生成对抗网络的生成器,得到去除噪声后的纯净语音的实数谱和虚数谱;将纯净语音的实数谱和虚数谱基于逆傅里叶变换生成干净的语音。本发明能够从语音信号中更好地剔除噪声、生成干净的语音,有效解决相位难以预测的问题,能够有效提高增强后语音的听觉效果,可有效提高语音识别系统在噪声环境下的语音识别准确率。

Description

基于生成对抗网络的复数域语音增强方法、系统及介质
技术领域
本发明涉及基于生成对抗网络的语音降噪增强技术,具体涉及一种基于生成对抗网络的复数域语音增强方法、系统及介质,可利用语音信号傅里叶变换后的实数谱和虚数谱对语音信号进行增强,从而促进语音识别等相关下游任务的研究。
背景技术
语音增强(Speech Enhancement,SE)指从带噪声的语音y中去除噪声z,从而分离出纯净语音x,即x=y-z。从混合的语音信号中去除噪声是语音信号处理中最具挑战的任务之一,传统的语音增强算法包括谱减法、子空间法和维纳滤波法。近年来,基于深度学习的语音增强技术极大地提高了去噪后语音的质量。
在一般的语音信号处理方法中,语音首先通过短时傅里叶变换得到语音的时频(Time-Frequency,TF)表示,从而获取幅度谱和相位谱。在之前的语音增强方法中认为相位不包含重要的信息,因此只对幅度增强,在后面利用逆傅里叶变换对增强后的语音进行重构时往往利用的是带噪声语音的相位,因此会出现相位不匹配的问题。近年来,研究者发现相位对增强后的语音的听觉效果有很大的作用,特别是在信噪比比较小的情况下,因此许多研究者致力于相位估计算法的研究。由于相位的值域为[-π,π],所以整个相位谱看起来非常随机,并没有清晰的结构,基于深度学习的方法估计相位谱是非常困难的。
近年来,生成对抗网络(Generative Adversarial Networks,GAN)在生成任务上取得极大成功,一些研究者也开始着手用生成对抗网络来进行语音增强。生成对抗网络包含两部分:生成器(Generator,G)和判别器(Discriminator,D),生成器将带噪声的样本映射到感兴趣分布的样本,D作为一个二元分类器判定真实的样本为真而将生成器生成的样本为假。生成器和判别器对抗地训练,生成器生成的样本尽量服从真实分布来迷惑判别器以使判别器判断其为真,而判别器尽量将真实的样本和生成的样本分开,在这不断的博弈过程中直至达到纳什均衡,此时生成器生成的样本已经非常接近真实的样本,判别器无法判断生成的样本是真实的还是生成的。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于生成对抗网络的复数域语音增强方法、系统及介质,本发明能够从语音信号中更好地剔除噪声、生成干净的语音,有效解决相位难以预测的问题,能够有效提高增强后语音的听觉效果,促进语音识别,声纹识别等任务的研究。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于生成对抗网络的复数域语音增强方法,实施步骤包括:
1)获取带噪声的语音;
2)将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I;
3)将带噪声的实数谱R和虚数谱I输入预先完成训练的生成对抗网络的生成器,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR;高语义特征EncoderIR经过生成器的自注意力机制层self-attention输出具有全局信息的特征SIR;通过生成器的解码器Decoder将特征SIR解码得到增强后纯净语音的实数谱和虚数谱IR′;
4)将增强后纯净语音的实数谱和虚数谱IR′基于逆傅里叶变换生成干净的语音。
可选地,所述生成对抗网络的生成器为由编码器Encoder、用于提取时序特征的长短时记忆网络LSTM、用于获取全局信息的自注意力机制层self-attention和解码器Decoder构成的U型网络,所述编码器Encoder包括依次相连的用于提取局部和空间上的特征的特征提取主干网络,所述长短时记忆网络LSTM将特征提取主干网络输出的特征图提取时序特征并输出至自注意力机制层self-attention,所述自注意力机制层self-attention输出具有全局信息的特征至解码器Decoder,所述解码器Decoder由多层反卷积网络层构成。
可选地,所述特征提取主干网络为采用稠密连接网络DenseNet,所述稠密连接网络DenseNet由多个稠密块及其对应的下采样模块组成,多个稠密块依次串行连接且每一个稠密块对应的下采样模块位于稠密块的输出端,每一个稠密块包含多个卷积操作且激活函数采用修正线性单元ReLU,每个卷积操作把之前所有得到的特征图拼接起来作为其输入,且当前稠密块的第l层的输出为Xl,第l-1,l-2层,第0层的输出Xl-1,Xl-2,…,X0满足:Xl=Hl([Xl-1,Xl-2,...,X0]),其中Hl表示第l层的卷积操作,[·]表示拼接操作。
可选地,所述长短时记忆网络LSTM输入的特征图为M∈RT×(F×C),该特征图M∈RT ×(F×C)为特征提取主干网络输出的特征图M∈RT×F×C经过频率维度和通道维度合并得到,所述长短时记忆网络LSTM的单元为F×C以保证输出的维度不变,所述长短时记忆网络LSTM的输出为L∈RT×(F×C),其中T表示时间维度,F表示频率维度,C表示特征图的通道数。
可选地,所述自注意力机制层self-attention包括三个1×1卷积模块,三个1×1卷积模块针对长短时记忆网络LSTM的输出L∈RT×(F×C)分别进行三次1×1卷积得到Q∈RT ×(F×C),K∈RT×(F×C)和V∈RT×(F×C),且所述自注意力机制层self-attention的输出为S=Q×KT×V,其中KT表示K的转置,T表示时间维度,F表示频率维度,C表示特征图的通道数。
可选地,所述解码器的多层反卷积网络层的输入为所述自注意力机制层self-attention的输出S=Q×KT×V重构得到的S∈RT×F×C,所述解码器的多层反卷积网络层将输入的S∈RT×F×C经过多次反卷积且在每次反卷积前输入都需要和编码器对应的下采样的输出进行特征融合以防止信息的丢失以及避免梯度消失的问题,最终输出纯净语音的实数谱和虚数谱。
可选地,步骤3)之前还包括训练生成对抗网络的步骤,详细步骤包括:
S1)获取带噪声的语音样本,并将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I构成训练集;
S2)从训练集中选取一个语音样本的实数谱R和虚数谱I,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR
S3)高语义特征EncoderIR经过自注意力机制层self-attention输出具有全局信息的特征SIR
S4)通过解码器Decoder将特征SIR解码得到增强后语音的实数谱和虚数谱IR′;
S5)将纯净语音的实数谱虚数谱IRC和IR′分别划分由大到小的指定的三个粒度的实数谱和虚数谱:
Figure BDA0002236149680000031
和IR′0
Figure BDA0002236149680000032
和IR′1
Figure BDA0002236149680000033
和IR′2
S6)通过多粒度的判别器D0,D1,D2将每个粒度的
Figure BDA0002236149680000034
判定为真,IR′i为假,其中i=0,1,2;
S7)计算总的损失函数的值,依据反向传播跟新模型所有需要训练的参数;
S8)判断是否满足预设的结束训练条件,如果满足预设的结束训练条件则判定训练结束并退出;否则,跳转执行步骤S2)继续进行训练。
可选地,步骤S5)中指定的三个粒度分别为随机取1/20时间段的语音、1/22时间段的语音、1/24时间段的语音这三种不同粒度。
此外,本发明还提供一种基于生成对抗网络的复数域语音增强系统,包括计算机设备,该计算机设备被编程或配置以执行所述基于生成对抗网络的复数域语音增强方法的步骤,或者该计算机设备的存储介质上存储有被编程或配置以执行所述基于生成对抗网络的复数域语音增强方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述基于生成对抗网络的复数域语音增强方法的计算机程序。
和现有技术相比,本发明具有下述优点:本发明语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I;将带噪声的实数谱R和虚数谱I输入预先完成训练的生成对抗网络的生成器,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR;高语义特征EncoderIR经过生成器的自注意力机制层self-attention输出具有全局信息的特征SIR;通过生成器的解码器Decoder将特征SIR解码得到增强后纯净语音的实数谱和虚数谱IR′;将增强后纯净语音的实数谱和虚数谱IR′基于逆傅里叶变换生成干净的语音。由于基于复数域的实数谱和虚数谱,利用生成对抗网络对带噪声的语音增强,有效地解决之前方法存在的相位不匹配的问题,从而提高增强后语音的听觉效果,可有效提高语音识别系统在噪声环境下的语音识别准确率。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例生成对抗网络的生成器示意图。
图3为本发明实施例生成对抗网络的训练流程示意图。
图4为本发明实施例判别器的结构示意图。
图5为本发明实施例判别器的稠密块结构示意图。
具体实施方式
如图1所示,本实施例基于生成对抗网络的复数域语音增强方法的实施步骤包括:
1)获取带噪声的语音;
2)将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I;
3)将带噪声的实数谱R和虚数谱I输入预先完成训练的生成对抗网络的生成器,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR;高语义特征EncoderIR经过生成器的自注意力机制层self-attention输出具有全局信息的特征SIR;通过生成器的解码器Decoder将特征SIR解码得到增强后纯净语音的实数谱和虚数谱IR′;
4)将增强后纯净语音的实数谱和虚数谱IR′基于逆傅里叶变换生成干净的语音。
一般在进行语音增强时语音采用的是傅里叶变换的极坐标表示:
Figure BDA0002236149680000041
上式中,|St,f|表示在时刻t和频率f下语音St,f的幅度,表示在时刻t和频率f下语音St,f的相位。
由于相位的随机性我们无法基于深度神经网络去预测它,事实上对于傅里叶变换的结果本实施例采用笛卡尔坐标表示:
Figure BDA0002236149680000043
Figure BDA0002236149680000044
Figure BDA0002236149680000045
上式中,R(St,f)表示在时刻t和频率f下语音St,f的实数谱,简称R;I(St,f)表示下在时刻t和频率f下语音St,f的虚数谱,简称I;因此可以得到实数谱和虚数谱,实数谱和虚数谱与幅度谱类似都具有比较明显的结构与轮廓,因此适合基于深度神经网络的方法进行估计。另外,采用笛卡尔坐标表示后,语音的幅度跟相位还可以依据实部跟虚部计算得出:
Figure BDA0002236149680000051
Figure BDA0002236149680000052
因此,估计出纯净语音的实数谱和虚数谱意味着我们已经间接地预测出它的幅度和相位。基于此,本实施例中采用带噪声的语音实数谱和虚数谱作为生成器的输入,从而生成纯净语音的实数谱和虚数谱,最后基于逆傅里叶变换生成干净的语音。
如图2所示,本实施例中生成对抗网络的生成器为由编码器Encoder、用于提取时序特征的长短时记忆网络LSTM、用于获取全局信息的自注意力机制层self-attention和解码器Decoder构成的U型网络,编码器Encoder包括依次相连的用于提取局部和空间上的特征的特征提取主干网络,长短时记忆网络LSTM将特征提取主干网络输出的特征图提取时序特征并输出至自注意力机制层self-attention,自注意力机制层self-attention输出具有全局信息的特征至解码器Decoder,解码器Decoder由多层反卷积网络层构成。
本实施例中,特征提取主干网络为采用稠密连接网络DenseNet。相比于ResNet和一般的卷积神经网络CNN而言,稠密连接网络DenseNet利用旁路加强了特征的重用,从而缓解了梯度消失的问题,网络也更容易训练。
本实施例中,稠密连接网络DenseNet由多个稠密块(Dense Block)及其对应的下采样模块组成,多个稠密块依次串行连接且每一个稠密块对应的下采样模块位于稠密块的输出端,每一个稠密块包含多个卷积操作且激活函数采用修正线性单元ReLU,每个卷积操作把之前所有得到的特征图拼接起来作为其输入,且当前稠密块的第l层的输出为Xl,第l-1,l-2层,第0层的输出(即当前Block的输入)Xl-1,Xl-2,...,X0满足:Xl=Hl([Xl-1,Xl-2,...,X0]),其中Hl表示第l层的卷积操作,[·]表示拼接操作。
如图2所示,本实施例中稠密连接网络DenseNet由5个稠密块(Dense Block1~Dense Block5)及其对应的下采样模块(Conv_1/s=2~Conv_5/s=2)组成,稠密块并不改变特征图的维度大小,因此本实施例中采用一个步长为2的卷积做一次下采样(s=2表示卷积的步长为2),下采样后的特征图分辨率降低一倍,但语义程度提高。整个编码器我们采用5个稠密块以及5次下采样,每个稠密块包含5次卷积,激活函数采用修正线性单元(Rectified Linear Unit,ReLU)。
如图2所示,卷积过程往往提取的是一些局部和空间上的特征,时序和全局的信息我们还并没有利用上,因此在卷积之后我们加入长短时记忆网络LSTM来提取时序的特征,利用自注意力机制(自注意力机制层self-attention)来获取全局的信息。本实施例中,长短时记忆网络LSTM输入的特征图为M∈RT×(F×C),该特征图M∈RT×(F×C)为特征提取主干网络输出的特征图M∈RT×F×C经过频率维度和通道维度合并得到,所述长短时记忆网络LSTM的单元Units为F×C以保证输出的维度不变,长短时记忆网络LSTM的输出为L∈RT×(F×C),其中T表示时间维度,F表示频率维度,C表示特征图的通道数。自注意力机制层self-attention能有效地捕捉一些全局的信息,在自然语言处理和语义分割等任务上取得了不错的效果。本实施例中,自注意力机制层self-attention包括三个1×1卷积模块,三个1×1卷积模块针对长短时记忆网络LSTM的输出L∈RT×(F×C)分别进行三次1×1卷积得到Q∈RT×(F×C),K∈RT×(F×C)和V∈RT×(F×C),且所述自注意力机制层self-attention的输出为S=Q×KT×V,其中KT表示K的转置,T表示时间维度,F表示频率维度,C表示特征图的通道数。
本实施例中,解码器的多层反卷积网络层的输入为所述自注意力机制层self-attention的输出S=Q×KT×V重构得到的S∈RT×F×C,所述解码器的多层反卷积网络层将输入的S∈RT×F×C经过多次反卷积且在每次反卷积前输入都需要和编码器对应的下采样的输出进行特征融合以防止信息的丢失以及避免梯度消失的问题,最终输出纯净语音的实数谱和虚数谱。本实施例中,解码器首先将自注意力机制层self-attention的输出S∈RT×(F×C)重构为S∈RT×F×C,然后经过五次反卷积(Transpose convolution),在每次反卷积前输入都需要和编码器对应的下采样的输出进行特征融合,一是防止信息的丢失,而是一定程度上避免梯度消失的问题。经过五次反卷积之后就输出对应的纯净语音的实数谱和虚数谱。
如图3所示,步骤3)之前还包括训练生成对抗网络的步骤,详细步骤包括:
S1)获取带噪声的语音样本,并将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I构成训练集;
S2)从训练集中选取一个语音样本的实数谱R和虚数谱I,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR
S3)高语义特征EncoderIR经过自注意力机制层self-attention输出具有全局信息的特征SIR
S4)通过解码器Decoder将特征SIR解码得到增强后语音的实数谱和虚数谱IR′;
S5)将纯净语音的实数谱虚数谱IRC和IR′分别划分由大到小的指定的三个粒度的实数谱和虚数谱:
Figure BDA0002236149680000061
和IR′0
Figure BDA0002236149680000062
和IR′1
Figure BDA0002236149680000063
和IR′2
S6)通过多粒度的判别器D0,D1,D2将每个粒度的
Figure BDA0002236149680000064
判定为真,IR′i为假,其中i=0,1,2;
S7)计算总的损失函数的值,依据反向传播跟新模型所有需要训练的参数;
S8)判断是否满足预设的结束训练条件,如果满足预设的结束训练条件则判定训练结束并退出;否则,跳转执行步骤S2)继续进行训练。
本实施例中,步骤S5)中指定的三个粒度分别为随机取1/20时间段的语音、1/22时间段的语音、1/24时间段的语音这三种不同粒度。在这个过程中,我们希望生成器尽量生成干净的语音,因此采用判别器来对抗地引导生成器的参数更新方向。此外,考虑到语音信号的不平稳性,我们采用多粒度判别器对生成的语音的不同细节进行针对性去除噪声。多粒度判别器会引导生成器生成更加干净的语音。一般情况下我们只用一个判别器来判定语音是生成的语音还是本身就是干净的语音,但是噪声是一种不平稳的信号,意味着一段语音中某些地方有噪音,某些地方没噪声,有的噪声持续时间长,有的噪声持续短。基于这些特性,我们提出基于多粒度判别器的解决方案。对于生成器生成出来的语音和干净的语音,我们分别对应从其中随机取
Figure BDA0002236149680000071
时间段的语音、
Figure BDA0002236149680000072
时间段的语音、
Figure BDA0002236149680000073
时间段的语音这三种不同粒度的语音。为此,我们设计三个不同的判别器,每个判别器分别判断不同粒度的语音是生成的还是本身就是干净的语音。如图4和图5所示,最大粒度的判别采用和生成器的编码器基本相同的结构,即五个Dense Block以及五次下采样后在接一个全连接层concat,最后接一个sigmoid层输出为判定为干净语音的概率,其他粒度的判别器任然采用五个稠密块(Dense Block),但分别少一次下采样,两次下采样,少的下采样用步长为1的卷积(s=1)代替。
上面的整个训练过程可用符号及公式表示如下:
EncoderIR=Encoder(IR)
SIR=SA(EncoderIR)
IR′=Decoder(SIR)
Figure BDA0002236149680000074
IR′i=Slicei(IR′)
y′i=Di(IR′i)
yi=Di(IRi)
上述各式中,IR、IR′和IRC分别表示带噪声语音的实数谱和虚数谱、增强后语音的实数谱和虚数谱以及纯净语音的实数谱和虚数谱。Encoder、SA、Decoder、Slicei和Di生成器的编码器,自注意力层、解码器,对语音进行不同粒度的切片操作以及不同粒度对应的判别器判别器。EncoderIR、SIR、IR′、
Figure BDA0002236149680000075
IR′i、y′i、yi分别表示编码器输出的特征,自注意力层输出的特征,解码器输出的降噪后的语音、纯净语音的第i个粒度的语音,降噪语音的第i个粒度的语音、第i个粒度判别器判定纯净语音的第i个粒度的语音为真的概率和第i个粒度判别器判定降噪后语音的第i个粒度的语音为真的概率。
损失函数(loss)的设计在训练过程中控制着模型参数的更新方向及大小,直接关系到语音降噪的效果。作为一种可选的实施方式,本实施例中损失函数的设计如下:
①鉴别器损失:
Figure BDA0002236149680000076
上式中,y′i、yi分别表示降噪语音的第i个粒度的语音、第i个粒度判别器判定纯净语音的第i个粒度的语音为真的概率和第i个粒度判别器判定降噪后语音的第i个粒度的语音为真的概率。总的判别器损失函数由三个不同粒度的判别器损失组成,对于每个粒度的干净语音和降噪后的语音,相应粒度的判别器分别输出一个在区间[0,1]的值,表示判别器将语音判别为纯净语音的概率。对于每个判别器我们希望将纯净语音判定为真,即输出的值尽量的靠近1,对于增强的语音判别器将其判定为假,即输出的值尽量靠近0。
②生成器损失:
lossG=lossadv_D+lossL
Figure BDA0002236149680000081
Figure BDA0002236149680000088
Figure BDA0002236149680000082
Figure BDA0002236149680000083
上述各式中,IR′、
Figure BDA0002236149680000084
IR′i、y′i、yi分别表示解码器输出的降噪后的语音、纯净语音的第i个粒度的语音,降噪语音的第i个粒度的语音、第i个粒度判别器判定纯净语音的第i个粒度的语音为真的概率。生成器由两部分损失组成,一是来自判别器的对抗损失lossadv_D,另一个是增强的语音与纯净语音的余弦距离损失lossL。对于对抗损失lossadv_D,它也是由多个粒度的对抗损失
Figure BDA0002236149680000085
组成,对于生成器生成的每个粒度的语音,我们希望它尽可能的去除噪声,也就是希望判别器将其判别为真,即希望判别器输出的值尽可能的靠近为1。对于余弦距离损失lossL,它是干净和增强的每个粒度的语音的余弦距离
Figure BDA0002236149680000086
组成。值得注意的是,余弦距离
Figure BDA0002236149680000087
并不是唯一的距离损失的选择,我们也可以考虑L1/L2等欧式距离或者其他类似的距离。
综上所述,本实施例基于生成对抗网络的复数域语音增强方法有以下创新:(1)首次基于复数域的实数谱和虚数谱,利用生成对抗网络对带噪声的语音增强,有效地解决之前方法存在的相位不匹配的问题,从而提高增强后语音的听觉效果,进一步提高语音识别系统在噪声环境下的语音识别准确率。(2)在对语音和噪声的特性分析之后,本实施例进一步提出多粒度判别器来对语音的不同细节来进行针对性的增强,从而更有效地提升语音降噪的效果。
此外,本实施例还提供一种基于生成对抗网络的复数域语音增强系统,包括计算机设备,该计算机设备被编程或配置以执行本实施例前述基于生成对抗网络的复数域语音增强方法的步骤,或者该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述基于生成对抗网络的复数域语音增强方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行本实施例前述基于生成对抗网络的复数域语音增强方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于生成对抗网络的复数域语音增强方法,其特征在于实施步骤包括:
1)获取带噪声的语音;
2)将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I;
3)将带噪声的实数谱R和虚数谱I输入预先完成训练的生成对抗网络的生成器,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR;高语义特征EncoderIR经过生成器的自注意力机制层self-attention输出具有全局信息的特征SIR;通过生成器的解码器Decoder将特征SIR解码得到增强后纯净语音的实数谱和虚数谱IR′;
4)将增强后纯净语音的实数谱和虚数谱IR′基于逆傅里叶变换生成干净的语音。
2.根据权利要求1所述的基于生成对抗网络的复数域语音增强方法,其特征在于,所述生成对抗网络的生成器为由编码器Encoder、用于提取时序特征的长短时记忆网络LSTM、用于获取全局信息的自注意力机制层self-attention和解码器Decoder构成的U型网络,所述编码器Encoder包括依次相连的用于提取局部和空间上的特征的特征提取主干网络,所述长短时记忆网络LSTM将特征提取主干网络输出的特征图提取时序特征并输出至自注意力机制层self-attention,所述自注意力机制层self-attention输出具有全局信息的特征至解码器Decoder,所述解码器Decoder由多层反卷积网络层构成。
3.根据权利要求2所述的基于生成对抗网络的复数域语音增强方法,其特征在于,所述特征提取主干网络为采用稠密连接网络DenseNet,所述稠密连接网络DenseNet由多个稠密块及其对应的下采样模块组成,多个稠密块依次串行连接且每一个稠密块对应的下采样模块位于稠密块的输出端,每一个稠密块包含多个卷积操作且激活函数采用修正线性单元ReLU,每个卷积操作把之前所有得到的特征图拼接起来作为其输入,且当前稠密块的第l层的输出为Xl,第l-1,l-2层,第0层的输出。Xl-1,Xl-2,...,X0满足:Xl=Hl([Xl-1,Xl-2,...,X0]),其中Hl表示第l层的卷积操作,[·]表示拼接操作。
4.根据权利要求2所述的基于生成对抗网络的复数域语音增强方法,其特征在于,所述长短时记忆网络LSTM输入的特征图为M∈RT×(F×C),该特征图M∈RT×(F×C)为特征提取主干网络输出的特征图M∈RT×F×C经过频率维度和通道维度合并得到,其中T表示时间维度,F表示频率维度,C表示特征图的通道数,所述长短时记忆网络LSTM的单元为F×C以保证输出的维度不变,所述长短时记忆网络LSTM的输出为L∈RT×(F×C)
5.根据权利要求4所述的基于生成对抗网络的复数域语音增强方法,其特征在于,所述自注意力机制层self-attention包括三个1×1卷积模块,三个1×1卷积模块针对长短时记忆网络LSTM的输出L∈RT×(F×C)分别进行三次1×1卷积得到Q∈RT×(F×C),K∈RT×(F×C)和V∈RT ×(F×C),且所述自注意力机制层self-attention的输出为S=Q×KT×V,其中KT表示K的转置,T表示时间维度,F表示频率维度,C表示特征图的通道数。
6.根据权利要求5所述的基于生成对抗网络的复数域语音增强方法,其特征在于,所述解码器的多层反卷积网络层的输入为所述自注意力机制层self-attention的输出S=Q×KT×V重构得到的S∈RT×F×C,所述解码器的多层反卷积网络层将输入的S∈RT×F×C经过多次反卷积且在每次反卷积前输入都需要和编码器对应的下采样的输出进行特征融合以防止信息的丢失以及避免梯度消失的问题,最终输出纯净语音的实数谱和虚数谱。
7.根据权利要求2所述的基于生成对抗网络的复数域语音增强方法,其特征在于,步骤3)之前还包括训练生成对抗网络的步骤,详细步骤包括:
S1)获取带噪声的语音样本,并将语音采用傅里叶变换后再采用笛卡尔坐标表示得到带噪声的实数谱R和虚数谱I构成训练集;
S2)从训练集中选取一个语音样本的实数谱R和虚数谱I,通过生成器的编码器Encoder将实数谱R和虚数谱I组成的输入IR编码为高语义特征EncoderIR
S3)高语义特征EncoderIR经过自注意力机制层self-attention输出具有全局信息的特征SIR
S4)通过解码器Decoder将特征SIR解码得到增强后语音的实数谱和虚数谱IR′;
S5)将纯净语音的实数谱虚数谱IRC和IR′分别划分由大到小的指定的三个粒度的实数谱和虚数谱:
Figure FDA0002236149670000021
和IR′0
Figure FDA0002236149670000022
和IR′1
Figure FDA0002236149670000023
和IR′2
S6)通过多粒度的判别器D0,D1,D2将每个粒度的判定为真,IR′i为假,其中i=0,1,2;
S7)计算总的损失函数的值,依据反向传播跟新模型所有需要训练的参数;
S8)判断是否满足预设的结束训练条件,如果满足预设的结束训练条件则判定训练结束并退出;否则,跳转执行步骤S2)继续进行训练。
8.根据权利要求7所述的基于生成对抗网络的复数域语音增强方法,其特征在于,步骤S5)中指定的三个粒度分别为随机取1/20时间段的语音、1/22时间段的语音、1/24时间段的语音这三种不同粒度。
9.一种基于生成对抗网络的复数域语音增强系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~8中任意一项所述基于生成对抗网络的复数域语音增强方法的步骤,或者该计算机设备的存储介质上存储有被编程或配置以执行权利要求1~8中任意一项所述基于生成对抗网络的复数域语音增强方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~8中任意一项所述基于生成对抗网络的复数域语音增强方法的计算机程序。
CN201910984076.5A 2019-10-16 2019-10-16 基于生成对抗网络的复数域语音增强方法、系统及介质 Active CN110739002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910984076.5A CN110739002B (zh) 2019-10-16 2019-10-16 基于生成对抗网络的复数域语音增强方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910984076.5A CN110739002B (zh) 2019-10-16 2019-10-16 基于生成对抗网络的复数域语音增强方法、系统及介质

Publications (2)

Publication Number Publication Date
CN110739002A true CN110739002A (zh) 2020-01-31
CN110739002B CN110739002B (zh) 2022-02-22

Family

ID=69269155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910984076.5A Active CN110739002B (zh) 2019-10-16 2019-10-16 基于生成对抗网络的复数域语音增强方法、系统及介质

Country Status (1)

Country Link
CN (1) CN110739002B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179972A (zh) * 2019-12-12 2020-05-19 中山大学 一种基于深度学习的人声检测算法
CN111862413A (zh) * 2020-07-28 2020-10-30 公安部第三研究所 实现抗疫情非接触多维身份快速识别的方法及其系统
CN111968669A (zh) * 2020-07-28 2020-11-20 安徽大学 一种多元混合声信号分离方法及装置
CN112037760A (zh) * 2020-08-24 2020-12-04 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
CN112201272A (zh) * 2020-09-29 2021-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据降噪的方法、装置、设备及存储介质
CN112259068A (zh) * 2020-10-21 2021-01-22 上海协格空调工程有限公司 一种主动降噪空调系统及其降噪控制方法
CN112967730A (zh) * 2021-01-29 2021-06-15 北京达佳互联信息技术有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN113223552A (zh) * 2021-04-28 2021-08-06 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113343924A (zh) * 2021-07-01 2021-09-03 齐鲁工业大学 一种基于多尺度循环谱特征和自注意力生成对抗网络的调制信号识别方法
CN113380270A (zh) * 2021-05-07 2021-09-10 普联国际有限公司 一种音频音源分离方法、装置、存储介质及电子设备
CN113470685A (zh) * 2021-07-13 2021-10-01 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113469269A (zh) * 2021-07-16 2021-10-01 上海电力大学 基于多通道融合的残差卷积自编码风光荷场景生成方法
CN113705411A (zh) * 2021-08-20 2021-11-26 珠海格力电器股份有限公司 波形信号的降噪方法、装置、电子设备和存储介质
CN113889132A (zh) * 2021-11-10 2022-01-04 清华大学苏州汽车研究院(相城) 一种语音增强方法、装置、设备及存储介质
CN114495958A (zh) * 2022-04-14 2022-05-13 齐鲁工业大学 一种基于时间建模生成对抗网络的语音增强系统
CN114822582A (zh) * 2021-01-28 2022-07-29 中国科学院声学研究所 一种采用级联掩蔽估计的语音分离方法
CN114842863A (zh) * 2022-04-19 2022-08-02 电子科技大学 一种基于多分支-动态合并网络的信号增强方法
CN115376501A (zh) * 2022-10-26 2022-11-22 深圳市北科瑞讯信息技术有限公司 语音增强方法及装置、存储介质、电子设备
CN115588437A (zh) * 2022-12-13 2023-01-10 南方电网数字电网研究院有限公司 语音增强方法、装置、设备和存储介质
CN115668366A (zh) * 2020-10-15 2023-01-31 北京嘀嘀无限科技发展有限公司 一种声学回声消除方法和系统
WO2023045779A1 (zh) * 2021-09-24 2023-03-30 北京字跳网络技术有限公司 一种音频降噪方法、装置、设备及存储介质
CN116092501A (zh) * 2023-03-14 2023-05-09 澳克多普有限公司 语音增强方法、语音识别方法、说话人识别方法和系统
WO2023207665A1 (zh) * 2022-04-29 2023-11-02 华为技术有限公司 一种数据处理方法及相关设备
CN118015284A (zh) * 2024-04-09 2024-05-10 中国空气动力研究与发展中心低速空气动力研究所 基于生成对抗网络的点云分割方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010034600A1 (en) * 1996-11-07 2001-10-25 Matsushita Electric Industrial Co., Ltd. Excitation vector generator, speech coder and speech decoder
US20090164213A1 (en) * 2000-11-13 2009-06-25 Lennington John W Digital Media Recognition Apparatus and Methods
US20130157729A1 (en) * 2011-12-16 2013-06-20 Joseph Akwo Tabe Energy harvesting computer device in association with a communication device configured with apparatus for boosting signal reception
WO2016146301A1 (en) * 2015-03-16 2016-09-22 Qualcomm Technologies International, Ltd. Correlation-based two microphone algorithm for noise reduction in reverberation
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109116279A (zh) * 2018-08-21 2019-01-01 上海交通大学 一种基于核磁共振谱洛伦兹曲线数学性质的小波去噪方法
CN109147810A (zh) * 2018-09-30 2019-01-04 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010034600A1 (en) * 1996-11-07 2001-10-25 Matsushita Electric Industrial Co., Ltd. Excitation vector generator, speech coder and speech decoder
US20090164213A1 (en) * 2000-11-13 2009-06-25 Lennington John W Digital Media Recognition Apparatus and Methods
US20130157729A1 (en) * 2011-12-16 2013-06-20 Joseph Akwo Tabe Energy harvesting computer device in association with a communication device configured with apparatus for boosting signal reception
WO2016146301A1 (en) * 2015-03-16 2016-09-22 Qualcomm Technologies International, Ltd. Correlation-based two microphone algorithm for noise reduction in reverberation
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
CN109116279A (zh) * 2018-08-21 2019-01-01 上海交通大学 一种基于核磁共振谱洛伦兹曲线数学性质的小波去噪方法
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109147810A (zh) * 2018-09-30 2019-01-04 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONALD S. WILLIAMSON ET AL.: "Complex_Ratio_Masking_for_Monaural_Speech_Separation", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
KE TAN ET AL.: "Complex_Spectral_Mapping_with_a_Convolutional_Recurrent_Network_for_Monaural_Speech_Enhancement", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
赵海臣: "FFT与IFFT频域信号处理研究", 《贵州 大学学报( 自然科学版)》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179972A (zh) * 2019-12-12 2020-05-19 中山大学 一种基于深度学习的人声检测算法
CN111968669B (zh) * 2020-07-28 2024-02-20 安徽大学 一种多元混合声信号分离方法及装置
CN111862413A (zh) * 2020-07-28 2020-10-30 公安部第三研究所 实现抗疫情非接触多维身份快速识别的方法及其系统
CN111968669A (zh) * 2020-07-28 2020-11-20 安徽大学 一种多元混合声信号分离方法及装置
CN112037760A (zh) * 2020-08-24 2020-12-04 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
US11488578B2 (en) 2020-08-24 2022-11-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training speech spectrum generation model, and electronic device
CN112201272A (zh) * 2020-09-29 2021-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据降噪的方法、装置、设备及存储介质
CN115668366A (zh) * 2020-10-15 2023-01-31 北京嘀嘀无限科技发展有限公司 一种声学回声消除方法和系统
CN112259068A (zh) * 2020-10-21 2021-01-22 上海协格空调工程有限公司 一种主动降噪空调系统及其降噪控制方法
CN114822582A (zh) * 2021-01-28 2022-07-29 中国科学院声学研究所 一种采用级联掩蔽估计的语音分离方法
CN114822582B (zh) * 2021-01-28 2024-10-18 中国科学院声学研究所 一种采用级联掩蔽估计的语音分离方法
CN112967730A (zh) * 2021-01-29 2021-06-15 北京达佳互联信息技术有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN113223552A (zh) * 2021-04-28 2021-08-06 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113380270B (zh) * 2021-05-07 2024-03-29 普联国际有限公司 一种音频音源分离方法、装置、存储介质及电子设备
CN113380270A (zh) * 2021-05-07 2021-09-10 普联国际有限公司 一种音频音源分离方法、装置、存储介质及电子设备
CN113343924A (zh) * 2021-07-01 2021-09-03 齐鲁工业大学 一种基于多尺度循环谱特征和自注意力生成对抗网络的调制信号识别方法
CN113470685B (zh) * 2021-07-13 2024-03-12 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113470685A (zh) * 2021-07-13 2021-10-01 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113469269A (zh) * 2021-07-16 2021-10-01 上海电力大学 基于多通道融合的残差卷积自编码风光荷场景生成方法
CN113705411A (zh) * 2021-08-20 2021-11-26 珠海格力电器股份有限公司 波形信号的降噪方法、装置、电子设备和存储介质
WO2023045779A1 (zh) * 2021-09-24 2023-03-30 北京字跳网络技术有限公司 一种音频降噪方法、装置、设备及存储介质
CN113889132A (zh) * 2021-11-10 2022-01-04 清华大学苏州汽车研究院(相城) 一种语音增强方法、装置、设备及存储介质
CN114495958A (zh) * 2022-04-14 2022-05-13 齐鲁工业大学 一种基于时间建模生成对抗网络的语音增强系统
CN114495958B (zh) * 2022-04-14 2022-07-05 齐鲁工业大学 一种基于时间建模生成对抗网络的语音增强系统
CN114842863A (zh) * 2022-04-19 2022-08-02 电子科技大学 一种基于多分支-动态合并网络的信号增强方法
CN114842863B (zh) * 2022-04-19 2023-06-02 电子科技大学 一种基于多分支-动态合并网络的信号增强方法
WO2023207665A1 (zh) * 2022-04-29 2023-11-02 华为技术有限公司 一种数据处理方法及相关设备
CN115376501A (zh) * 2022-10-26 2022-11-22 深圳市北科瑞讯信息技术有限公司 语音增强方法及装置、存储介质、电子设备
CN115376501B (zh) * 2022-10-26 2023-02-14 深圳市北科瑞讯信息技术有限公司 语音增强方法及装置、存储介质、电子设备
CN115588437A (zh) * 2022-12-13 2023-01-10 南方电网数字电网研究院有限公司 语音增强方法、装置、设备和存储介质
CN116092501B (zh) * 2023-03-14 2023-07-25 深圳市玮欧科技有限公司 语音增强方法、语音识别方法、说话人识别方法和系统
CN116092501A (zh) * 2023-03-14 2023-05-09 澳克多普有限公司 语音增强方法、语音识别方法、说话人识别方法和系统
CN118015284A (zh) * 2024-04-09 2024-05-10 中国空气动力研究与发展中心低速空气动力研究所 基于生成对抗网络的点云分割方法及系统

Also Published As

Publication number Publication date
CN110739002B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN110739002A (zh) 基于生成对抗网络的复数域语音增强方法、系统及介质
CN111971743B (zh) 用于改进的实时音频处理的系统、方法和计算机可读介质
KR102605736B1 (ko) 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치
Shah et al. Time-frequency mask-based speech enhancement using convolutional generative adversarial network
CN114341979A (zh) 用于基于卷积神经网络的语音源分离的方法和装置
Zhang et al. Birdsoundsdenoising: Deep visual audio denoising for bird sounds
CN112767959B (zh) 语音增强方法、装置、设备及介质
Harvilla et al. Least squares signal declipping for robust speech recognition
Sun et al. Ai-synthesized voice detection using neural vocoder artifacts
CN110968845A (zh) 基于卷积神经网络生成的针对lsb隐写的检测方法
CN113593590A (zh) 一种语音中瞬态噪声的抑制方法
Abdulatif et al. Investigating cross-domain losses for speech enhancement
CN111916060B (zh) 一种基于谱减的深度学习语音端点检测方法和系统
WO2023093029A1 (zh) 唤醒词能量计算方法、系统、语音唤醒系统及存储介质
CN116580694A (zh) 音频对抗样本生成方法、装置、设备及存储介质
Lan et al. Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network
CN115938346A (zh) 音准评估方法、系统、设备及存储介质
Ali et al. Enhancing Embeddings for Speech Classification in Noisy Conditions.
TWI749547B (zh) 應用深度學習的語音增強系統
CN112652321B (zh) 一种基于深度学习相位更加友好的语音降噪系统及方法
Rai et al. Recalling-Enhanced Recurrent Neural Network optimized with Chimp Optimization Algorithm based speech enhancement for hearing aids
Jannu et al. DCT based densely connected convolutional GRU for real-time speech enhancement
Tang et al. Speech Recognition in High Noise Environment.
Funaki Sparse Time-Varying Complex AR (TV-CAR) speech analysis based on Adaptive LASSO
Skariah et al. CycleGAN based Speech Enhancement Using Time Frequency Masking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Gang

Inventor after: Chen Zhiguang

Inventor before: Liu Gang

Inventor before: Chen Zhiguang

Inventor before: Xiao Nong

GR01 Patent grant
GR01 Patent grant