CN112802491A - 一种基于时频域生成对抗网络的语音增强方法 - Google Patents
一种基于时频域生成对抗网络的语音增强方法 Download PDFInfo
- Publication number
- CN112802491A CN112802491A CN202110167844.5A CN202110167844A CN112802491A CN 112802491 A CN112802491 A CN 112802491A CN 202110167844 A CN202110167844 A CN 202110167844A CN 112802491 A CN112802491 A CN 112802491A
- Authority
- CN
- China
- Prior art keywords
- layer
- frequency domain
- output
- input
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000001228 spectrum Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 230000003042 antagnostic effect Effects 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种基于时频域生成对抗网络的语音增强方法,在传统的基于时频域生成对抗网络的语音增强方法的基础上,通过增加一个频域鉴别器,使语音增强模型能够同时学习到输入语音的时域特征和频域特征,以提高模型的性能。其中,时域鉴别器直接判别生成器输出的增强语音;频域鉴别器则对增强语音做短时傅里叶变换后得到频域特征进行判别。模型训练时,时域和频域鉴别器同时监督生成器,使生成器能够同时学习到语音和噪声的时域和频域特征。并且,为了保留原始语音的底层信息和防止生成器产生过拟合,在模型的损失函数中加入频域约束项。本发明方法增强性能更好,且其能处理的噪声种类更多、适用的场景更广。
Description
技术领域
本发明涉及语音增强技术,特别涉及一种基于时频域生成对抗网络的语音增强方法。
背景技术
语音增强是指通过一定方法抑制和降低语音中噪声的技术,其主要目的是提高语音的质量和可懂度。语音增强技术发展于上个世纪70年代,至今已有约50年的历史。从最早的谱减法,到后来的基于统计模型的方法,再到基于深度学习的方法,语音增强技术发展迅速。
基于深度学习的语音增强方法主要包括:基于深度神经网络(Deep NeuralNetworks,DNN)的语音增强方法、基于卷积神经网络(Convolutional Neural Networks,CNN)的语音增强方法、基于循环神经网络(Recurrent Neural Network,,RNN)的语音增强方法和基于生成对抗网络(Generative Adversarial Networks,GAN)的语音增强方法。其中,基于GAN的语音增强方法性能良好。使用该方法增强过的语音失真小,清晰度和可懂度高。但是,传统的基于GAN的语音增强方法(SEGAN)仅在时域上将带噪语音映射为干净语音,忽略了语音和噪声的频域特性。
发明内容
传统的基于GAN的语音增强方法使用语音信号的时域特征进行模型训练,旨在学习时域上带噪语音和干净语音的映射关系。虽然该方法训练出的模型能够较好地拟合语音和噪声的时域特性,但是其完全忽略了语音和噪声的频域特性。这就导致其对多噪声源的声学场景适应度低,以及对某些特定噪声的抑制效果很差。
鉴于传统的基于GAN的语音增强方法的局限性,本发明提出了基于时频域生成对抗网络的语音增强方法(TF-SEGAN)。本发明通过在SEGAN模型中增加一个频域鉴别器,来使语音增强模型能够同时学习到语音和噪声的时域和频域特性,从而提高性能和泛化性。
本发明的方案为一种基于时频域生成对抗网络的语音增强方法,包括以下步骤:
步骤1:构建生成器网络;
步骤2,构建鉴别器网络;
步骤3,构建生成对抗网络训练集;
步骤4,训练生成对抗网络模型;
作为优选,步骤1所述生成器网络由编码器、解码器级联组成:
所述编码器由输入层,隐藏层和输出层组成;
所述编码器输入层采用全连接神经网络层(DNN),其输入为带噪语音xc,输出为ein维的带噪语音时域特征向量yc。
所述编码器隐藏层由n0层一维跨步卷积层依次级联构成,整个隐藏层的输入为ein维的带噪语音时域特征向量yc,输出为en0维的特征向量ye。
所述编码器隐藏层,从第1层到第n0层的输出维度分别为:e1、e2、e3…en0。
其中,所有一维跨步卷积层的卷积核大小均为k0,卷积步长均为s0,输入通道数均为c0;
每一层一维跨步卷积层采用的神经网络激活函数为带参整流线性单元:
其中,yi为第i个神经元的值,αi为参数。
编码器输出层采用上述一维跨步卷积层,其输入为en0维的特征向量ye,输出为lc维的隐藏向量c。
所述解码器由输入层,隐藏层和输出层级联组成,所述解码器与所述编码器在结构上呈镜像对称;
所述解码器输入层采用一维反卷积层,其输入为lc维的隐藏向量c,输出为d1维的特征向量y1。
所述解码器隐藏层由n0层一维反卷积层依次级联构成,整个隐藏层的输入为d1维的带噪语音时域特征向量y1,输出为dn0维的特征向量ye。
所述解码器隐藏层(从第1层到第n0层)的输出维度分别为:d1、d2、d3…dn0。
其中,所有反卷积层的卷积核大小都为k,卷积步长都为s,输入通道数都为c,激活函数采用带参整流线性单元;
所述解码器输出层采用全连接神经网络层(DNN),其输入为dn0维的特征向量ye,输出为增强语音xe。
将所述编码器的每一层与所述解码器对应的层链接起来,具体为:
所述编码器中第k层一维跨步卷积层与所述解码器中第k层反卷积层连接;
作为优选,步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成;
所述时域鉴别器由输入层,隐藏层和输出层组成;
所述时域鉴别器输入层采用全连接神经网络层(DNN),其输入为干净语音x和生成器输出的增强语音xe,输出为ein维的干净语音时域特征y和生成器输出语音时域特征ye。
所述时域鉴别器的隐藏层由n1层一维跨步卷积层级联构成;
其中,前n1-1层隐藏层的卷积核大小均为k1,卷积步长均为s1,输入通道数均为c1。每一层一维卷积层的激活函数都采用LeakyReLU,具体如下:
其中,参数αi为泄露参数,设置为0.3;xi为第i个神经元的值;yi为第i个神经元的输出。
第n1层隐藏层的卷积核为k2,卷积步长均为s2,输入通道数均为c2的一维卷积层,其输入为Tn维的特征向量,输出为Tn+1维的特征向量。
所述时域鉴别器的输出层采用softmax分类层,实现鉴别器的分类与判别功能,其输入为Tn+1维的特征向量,输出为概率PT;
其中,分类层采用softmax分类器,将特征提取网络的输出表征为不同类别之间的相对概率,进行最终的类别预测,如下所示:
其中,i表示第i个类别,N表示类别总数,Vi表示第i个类别的概率值,Si表示经softmax处理之后第i个类别的概率值;
为了防止网络训练时出现训练不稳定或不收敛的情况,所述频域鉴别器与所述时域鉴别器的网络结构完全相同。不同的是,频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换得到的频域幅度谱X和Xe,输出为0到1之间的分类概率PF;
作为优选,步骤3所述构建生成对抗网络训练集为:
使用kaldi中的工具包wav-reverberate将Noise92噪声集和aishell中文语音训练集进行合成,得到信噪比为0-5DB和5-10DB的带噪语音训练集。
所述步骤4具体为:
步骤4.1,将训练集的语音,训练集的语音包括干净原始语音和带噪原始语音,训练集的语音经分帧、采样得到干净语音x和带噪语音xc。其中,分帧的帧长为N、帧移为Mms,采样率为S;
步骤4.2,将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和Xc。其中,STFT采用的窗函数为汉明窗,窗长为N,采样率为S。标准的短时傅里叶变换,具体如下:
其中,n为时间,x(n)为时域信号,w(n)为窗函数;Xn(ejw)为x(n)对应的频域幅度谱。
步骤4.3,预训练鉴别器网络;
进一步的,具体的实施方案如下:
步骤4.3.1,预训练时域鉴别器D1,将干净语音x和带噪语音xc输入时域鉴别器,使用公式5所示的损失函数和RMSProp优化器来训练网络模型。
其中,x为干净语音,xc为带噪语音;D1(x)为输入为x时,时域鉴别器的输出;D1(xc)为输入为xc时,时域鉴别器的输出。
步骤4.3.2,预训练频域鉴别器D2,将干净语音和带噪语音的频域幅度谱X和Xc输入频域鉴别器,使用如下所示的损失函数和RMSProp优化器来训练网络模型。
其中,X为干净语音的频域幅度谱,Xc为带噪语音的频域幅度谱;D2(X)为输入为X时,频域鉴别器的输出;D2(Xc)为输入为Xc时,频域鉴别器的输出。
步骤4.4,训练生成器网络G,将带噪语音xc、带噪语音频域幅度谱Xc和随机噪声z输入生成器,利用预训练好的两个鉴别器监督训练生成器。生成器使用公式7所示的损失函数和RMSProp优化器来训练网络模型。
其中,z为随机噪声,xc为带噪语音,Xc为带噪语音频域幅度谱;G(z,xc)为生成器的输出;D1(G(z,xc))为时域鉴别器的输出,D2(G(z,xc))为频域鉴别器的输出;a和b为时频域平衡参数,设置为1;λ为时域范数系数,设置为100;μ为频域范数系数,设置为100。
步骤4.5,训练鉴别器
进一步的,具体的实施方案如下:
步骤4.5.1,训练时域鉴别器D1,将干净语音和生成器输出的增强语音x和xe输入时域鉴别器,使用公式8所示的损失函数和RMSProp优化器来训练网络模型。
其中,x为干净语音,xe为增强语音;D1(x)为输入为x时,时域鉴别器的输出;D1(xe)为输入为xe时,时域鉴别器的输出。
步骤4.5.2,训练频域鉴别器D2,将干净语音的频域幅度谱特征X和生成器输出的语音做STFT得到的频域幅度谱特征Xe输入频域鉴别器,使用公式9所示的损失函数和RMSProp优化器来训练网络模型。
其中,X为干净语音的频域幅度谱,Xe为增强语音的频域幅度谱;D2(X)为输入为X时,频域鉴别器的输出;D2(Xe)为输入为Xc时,频域鉴别器的输出。
与现有技术相比,本发明具有以下优点和有益效果:TF-SEGAN模型能够同时学习到语音和噪声的时域特性和频域特性,相比于传统语音增强方法,其性能和对多噪声源的声学场景的适应性都更好。
附图说明
图1为本发明中TF-SEGAN的整体模型结构图。
图2为本发明中生成器的网络结构图。
图3为本发明中鉴别器的网络结构图。
图4为本发明实施的工作流程图。
具体实施方式
下面结合图1至图4介绍本发明的具体实施方式。
本发明第一实施例为一种基于时频域生成对抗网络的语音增强方法,具体步骤如下:
步骤1:构建生成器网络;
所述生成器网络由编码器、解码器级联组成:
所述编码器由输入层,隐藏层和输出层组成;
所述编码器输入层采用全连接神经网络层(DNN),其输入为带噪语音xc,输出为ein维的带噪语音时域特征向量yc。
所述编码器隐藏层由n0=11层一维跨步卷积层依次级联构成,整个隐藏层的输入为e0=16384×1维的带噪语音时域特征向量yc,输出为en0=16×512维的特征向量ye。
所述编码器隐藏层,从第1层到第n0层的输出维度分别为:e1=16384×1、e2=8192×16、e3=4096×32,e4=2048×32,e5=1024×64,e6=512×64,e7=256×128,e8=128×128,e9=64×256,e10=32×256,e11=16×512。
其中,所有一维跨步卷积层的卷积核大小均为k0=31,卷积步长均为s0=2,输入通道数均为c0=1;
每一层一维跨步卷积层采用的神经网络激活函数为带参整流线性单元:
其中,yi为第i个神经元的值,αi为参数。
编码器输出层采用上述一维跨步卷积层,其输入为en0维的特征向量ye,输出为lc=8×1024维的隐藏向量c。
所述解码器由输入层,隐藏层和输出层级联组成,所述解码器与所述编码器在结构上呈镜像对称;
所述解码器输入层采用一维反卷积层,其输入为lc维的隐藏向量c,输出为d1=16×512维的特征向量y1。
所述解码器隐藏层由n0层一维反卷积层依次级联构成,整个隐藏层的输入为d1=16×512维的带噪语音时域特征向量y1,输出为dn0=16384×1维的特征向量ye。
所述解码器隐藏层,从第1层到第n0层的输出维度分别为:d1、d2=32×256、d3=64×256、d3=64×256、d4=128×128、d5=256×128、d6=512×64、d7=1024×64、d8=2048×32、d9=4096×32、d10=8192×16、d11=16384×1。
其中,所有反卷积层的卷积核大小都为k0,卷积步长都为s0,输入通道数都为c0,激活函数采用带参整流线性单元;
所述解码器输出层采用全连接神经网络层(DNN),其输入为dn0维的特征向量ye,输出为增强语音xe。
将所述编码器的每一层与所述解码器对应的层链接起来,具体为:
所述编码器中第k层隐藏层与所述解码器中第k层隐藏连接;
步骤2,构建鉴别器网络;
步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成;
所述时域鉴别器由输入层,隐藏层和输出层组成;
所述时域鉴别器输入层采用全连接神经网络层(DNN),其输入为干净语音x和生成器输出的增强语音xe,输出为ein维的干净语音时域特征y和增强语音时域特征ye。
所述时域鉴别器的隐藏层由n1=11层一维跨步卷积层级联构成;
其中,前n1-1=10层隐藏层的卷积核大小均为k1=31,卷积步长均为s1=2,输入通道数均为c1=2。每一层一维卷积层的激活函数都采用LeakyReLU,具体如下:
其中,参数αi为泄露参数,设置为0.3;xi为第i个神经元的值;yi为第i个神经元的输出。
第n1层隐藏层的卷积核为k2=1,卷积步长均为s2=2,输入通道数均为c2=2的一维卷积层,其输入为tn维的特征向量,输出为tn+1维的特征向量。
所述时域鉴别器的输出层采用softmax分类层,实现鉴别器的分类与判别功能,其输入为Tn+1维的特征向量,输出为概率PT;
其中,分类层采用softmax分类器,将特征提取网络的输出表征为不同类别之间的相对概率,进行最终的类别预测,如下所示:
其中,i表示第i个类别,N表示类别总数,Vi表示第i个类别的概率值,Si表示经softmax处理之后第i个类别的概率值;
为了防止网络训练时出现训练不稳定或不收敛的情况,所述频域鉴别器与所述时域鉴别器的网络结构完全相同。不同的是,频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换(STFT)得到的频域幅度谱X和Xe,输出为0到1之间的分类概率PF;
步骤3,构建生成对抗网络训练集;
使用kaldi中的工具包wav-reverberate将Noise92噪声集和aishell中文语音训练集进行合成,得到信噪比为0-5DB和5-10DB的带噪语音训练集。
步骤4,训练生成对抗网络模型;
进一步的,具体的实施方案如下:
生成对抗网络的训练是一个交叉训练的过程,分为:
步骤4.1,将训练集的语音,训练集的语音包括干净原始语音和带噪原始语音,训练集的语音经分帧、采样得到干净语音x和带噪语音xc。其中,分帧的帧长为N=16384、帧移为M=10ms,采样率为S=16kHz;
步骤4.2,将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和Xc。其中,STFT采用的窗函数为汉明窗,窗长为N,采样率为S。标准的短时傅里叶变换如公式4所示。
其中,n为时间,x(n)为时域信号,w(n)为窗函数;Xn(ejw)为x(n)对应的频域幅度谱。
步骤4.3,预训练鉴别器网络;
进一步的,具体的实施方案如下:
步骤4.3.1,预训练时域鉴别器D1,将干净语音x和带噪语音xc输入时域鉴别器,使用公式5所示的损失函数和RMSProp优化器来训练网络模型。
其中,x为干净语音,xc为带噪语音;D1(x)为输入为x时,时域鉴别器的输出;D1(xc)为输入为xc时,时域鉴别器的输出。
步骤4.3.2,预训练频域鉴别器D2,将干净语音和带噪语音的频域幅度谱X和Xc输入频域鉴别器,使用公式6所示的损失函数和RMSProp优化器来训练网络模型。
其中,X为干净语音的频域幅度谱,Xc为带噪语音的频域幅度谱;D2(X)为输入为X时,频域鉴别器的输出;D2(Xc)为输入为Xc时,频域鉴别器的输出。
步骤4.4,训练生成器网络G,将带噪语音xc、带噪语音频域幅度谱Xc和随机噪声z输入生成器,利用预训练好的两个鉴别器监督训练生成器。生成器使用公式7所示的损失函数和RMSProp优化器来训练网络模型。
其中,z为随机噪声,xc为带噪语音,Xc为带噪语音频域幅度谱;G(z,xc)为生成器的输出;D1(G(z,xc))为时域鉴别器的输出,D2(G(z,xc))为频域鉴别器的输出;a和b为时频域平衡参数,设置为1;λ为时域范数系数,设置为100;μ为频域范数系数,设置为100。
步骤4.5,训练鉴别器
进一步的,具体的实施方案如下:
步骤4.5.1,训练时域鉴别器D1,将干净语音和生成器输出的增强语音x和xe输入时域鉴别器,使用公式8所示的损失函数和RMSProp优化器来训练网络模型。
其中,x为干净语音,xe为增强语音;D1(x)为输入为x时,时域鉴别器的输出;D1(xe)为输入为xe时,时域鉴别器的输出。
步骤4.5.2,训练频域鉴别器D2,将干净语音的频域幅度谱特征X和生成器输出的语音做STFT得到的频域幅度谱特征Xe输入频域鉴别器,使用公式9所示的损失函数和RMSProp优化器来训练网络模型。
其中,X为干净语音的频域幅度谱,Xe为增强语音的频域幅度谱;D2(X)为输入为X时,频域鉴别器的输出;D2(Xe)为输入为Xc时,频域鉴别器的输出。
本发明第二实施例用于实现基于aishell语音集与Noise92噪声集的训练和测试。
如图1所示,本实施例基于时频域双鉴别器生成对抗网络的语音增强模型(TF-SEGAN),通过增加一个频域鉴别器和损失函数中的频域约束项来提高模型性能。
具体模型训练流程包括以下步骤:
步骤1,数据准备,下载aishell语音集和Noise92噪声集;
步骤2,合成带噪语音、收集复杂声学场景下真实带噪语音;
步骤3,对带噪语音和干净语音进行分帧、采样得到时域特征。对带噪语音和干净语音进行短时傅里叶变换得到频域幅度谱特征;
步骤4,搭建TF-SEGAN网络模型,整体模型结构如图1所示。其中,生成器的具体网络结构如图2所示,鉴别器的网络结构如图3所示;
步骤5,网络训练,将步骤3中得到的原始时域特征和频域幅度谱特征输入到步骤4的网络模型中,开始神经网络训练。
具体模型测试流程包括以下步骤:
步骤1,采集真实场景下的带噪语音,提取其原始时域特征;
步骤2,将带噪语音输入训练好的TF-SEGAN的生成器,得到增强后的语音;
步骤3,计算增强后的语音的PESQ、MOS和SSNR值,评估模型的增强性能。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (3)
1.一种基于时频域生成对抗网络的语音增强方法,其特征在于,包括以下步骤:
步骤1:构建生成器网络;
步骤2,构建鉴别器网络;
步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成;
所述时域鉴别器由输入层,隐藏层和输出层组成;
所述时域鉴别器输入层采用全连接神经网络层(DNN),其输入为干净语音x和生成器输出的增强语音xe,输出为ein维的干净语音时域特征y和生成器输出语音时域特征ye;
所述时域鉴别器的隐藏层由n1层一维跨步卷积层级联构成;
其中,前n1-1层隐藏层的卷积核大小均为k1,卷积步长均为s1,输入通道数均为c1;每一层一维卷积层的激活函数都采用LeakyReLU,具体如下:
其中,参数αi为泄露参数,设置为0.3;xi为第i个神经元的值;yi为第i个神经元的输出;
第n1层隐藏层的卷积核为k2,卷积步长均为s2,输入通道数均为c2的一维卷积层,其输入为Tn维的特征向量,输出为Tn+1维的特征向量;
所述时域鉴别器的输出层采用softmax分类层,实现鉴别器的分类与判别功能,其输入为Tn+1维的特征向量,输出为概率PT;
其中,分类层采用softmax分类器,将特征提取网络的输出表征为不同类别之间的相对概率,进行最终的类别预测,如下所示:
其中,i表示第i个类别,N表示类别总数,表示第i个类别的概率值,表示经softmax处理之后第i个类别的概率值;
为了防止网络训练时出现训练不稳定或不收敛的情况,所述频域鉴别器与所述时域鉴别器的网络结构完全相同;不同的是,频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换得到的频域幅度谱X和Xe,输出为0到1之间的分类概率PF;
步骤3,构建生成对抗网络训练集;
所述步骤4具体为:
步骤4.1,将训练集的语音,训练集的语音包括干净原始语音和带噪原始语音,训练集的语音经分帧、采样得到干净语音x和带噪语音xc;其中,分帧的帧长为N、帧移为Mms,采样率为S;
步骤4.2,将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和Xc;其中,STFT采用的窗函数为汉明窗,窗长为N,采样率为S;标准的短时傅里叶变换,具体如下:
其中,n为时间,x(n)为时域信号,w(n)为窗函数;Xn(ejw)为x(n)对应的频域幅度谱;
步骤4.3,预训练鉴别器网络;
进一步的,具体的实施方案如下:
步骤4.3.1,预训练时域鉴别器D1,将干净语音x和带噪语音xc输入时域鉴别器,使用公式5所示的损失函数和RMSProp优化器来训练网络模型;
其中,x为干净语音,xc为带噪语音;D1(x)为输入为x时,时域鉴别器的输出;D1(xc)为输入为xc时,时域鉴别器的输出;
步骤4.3.2,预训练频域鉴别器D2,将干净语音和带噪语音的频域幅度谱X和Xc输入频域鉴别器,使用如下所示的损失函数和RMSProp优化器来训练网络模型;
其中,X为干净语音的频域幅度谱,Xc为带噪语音的频域幅度谱;D2(X)为输入为X时,频域鉴别器的输出;D2(Xc)为输入为Xc时,频域鉴别器的输出;
步骤4.4,训练生成器网络G,将带噪语音xc、带噪语音频域幅度谱Xc和随机噪声z输入生成器,利用预训练好的两个鉴别器监督训练生成器;生成器使用公式7所示的损失函数和RMSProp优化器来训练网络模型;
其中,z为随机噪声,xc为带噪语音,Xc为带噪语音频域幅度谱;G(z,xc)为生成器的输出;D1(G(z,xc))为时域鉴别器的输出,D2(G(z,xc))为频域鉴别器的输出;a和b为时频域平衡参数,设置为1;λ为时域范数系数,设置为100;μ为频域范数系数,设置为100;
步骤4.5,训练鉴别器
进一步的,具体的实施方案如下:
步骤4.5.1,训练时域鉴别器D1,将干净语音和生成器输出的增强语音x和xe输入时域鉴别器,使用公式8所示的损失函数和RMSProp优化器来训练网络模型;
其中,x为干净语音,xe为增强语音;D1(x)为输入为x时,时域鉴别器的输出;D1(xe)为输入为xe时,时域鉴别器的输出;
步骤4.5.2,训练频域鉴别器D2,将干净语音的频域幅度谱特征X和生成器输出的语音做STFT得到的频域幅度谱特征Xe输入频域鉴别器,使用公式9所示的损失函数和RMSProp优化器来训练网络模型;
其中,X为干净语音的频域幅度谱,Xe为增强语音的频域幅度谱;D2(X)为输入为X时,频域鉴别器的输出;D2(Xe)为输入为Xc时,频域鉴别器的输出;
步骤4,训练生成对抗网络模型。
2.根据权利要求1所述的基于时频域生成对抗网络的语音增强方法,其特征在于,
步骤1所述生成器网络由编码器、解码器级联组成:
所述编码器由输入层,隐藏层和输出层组成;
所述编码器输入层采用全连接神经网络层(DNN),其输入为带噪语音xc,输出为ein维的带噪语音时域特征向量yc;
所述编码器隐藏层由n0层一维跨步卷积层依次级联构成,整个隐藏层的输入为ein维的带噪语音时域特征向量yc,输出为en0维的特征向量ye;
所述编码器隐藏层,从第1层到第n0层的输出维度分别为:e1、e2、e3…en0;
其中,所有一维跨步卷积层的卷积核大小均为k0,卷积步长均为s0,输入通道数均为c0;
每一层一维跨步卷积层采用的神经网络激活函数为带参整流线性单元:
其中,yi为第i个神经元的值,αi为参数;
编码器输出层采用上述一维跨步卷积层,其输入为en0维的特征向量ye,输出为lc维的隐藏向量c;
所述解码器由输入层,隐藏层和输出层级联组成,所述解码器与所述编码器在结构上呈镜像对称;
所述解码器输入层采用一维反卷积层,其输入为lc维的隐藏向量c,输出为d1维的特征向量y1;
所述解码器隐藏层由n0层一维反卷积层依次级联构成,整个隐藏层的输入为d1维的带噪语音时域特征向量y1,输出为dn0维的特征向量ye;
所述解码器隐藏层(从第1层到第n0层)的输出维度分别为:d1、d2、d3…dn0;
其中,所有反卷积层的卷积核大小都为k,卷积步长都为s,输入通道数都为c,激活函数采用带参整流线性单元;
所述解码器输出层采用全连接神经网络层(DNN),其输入为dn0维的特征向量ye,输出为增强语音xe;
将所述编码器的每一层与所述解码器对应的层链接起来,具体为:
所述编码器中第k层一维跨步卷积层与所述解码器中第k层反卷积层连接。
3.根据权利要求1所述的基于时频域生成对抗网络的语音增强方法,其特征在于,
步骤3所述构建生成对抗网络训练集为:
使用kaldi中的工具包wav-reverberate将Noise92噪声集和aishell中文语音训练集进行合成,得到信噪比为0-5DB和5-10DB的带噪语音训练集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110167844.5A CN112802491B (zh) | 2021-02-07 | 2021-02-07 | 一种基于时频域生成对抗网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110167844.5A CN112802491B (zh) | 2021-02-07 | 2021-02-07 | 一种基于时频域生成对抗网络的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112802491A true CN112802491A (zh) | 2021-05-14 |
CN112802491B CN112802491B (zh) | 2022-06-14 |
Family
ID=75814727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110167844.5A Active CN112802491B (zh) | 2021-02-07 | 2021-02-07 | 一种基于时频域生成对抗网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802491B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823296A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113823298A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN114495958A (zh) * | 2022-04-14 | 2022-05-13 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
CN115050379A (zh) * | 2022-04-24 | 2022-09-13 | 华侨大学 | 一种基于fhgan的高保真语音增强模型及其应用 |
CN115588436A (zh) * | 2022-09-29 | 2023-01-10 | 沈阳新松机器人自动化股份有限公司 | 基于变分自编码器生成对抗网络的语音增强方法 |
CN116663655A (zh) * | 2023-07-26 | 2023-08-29 | 浙江大华技术股份有限公司 | 一种对抗攻击的防御方法及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
US20190130903A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
US20200019842A1 (en) * | 2019-07-05 | 2020-01-16 | Lg Electronics Inc. | System, method and apparatus for machine learning |
CN110853663A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111653275A (zh) * | 2020-04-02 | 2020-09-11 | 武汉大学 | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 |
US20200335086A1 (en) * | 2019-04-19 | 2020-10-22 | Behavioral Signal Technologies, Inc. | Speech data augmentation |
CN111968666A (zh) * | 2020-08-20 | 2020-11-20 | 南京工程学院 | 基于深度域自适应网络的助听器语音增强方法 |
-
2021
- 2021-02-07 CN CN202110167844.5A patent/CN112802491B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130903A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
CN109741736A (zh) * | 2017-10-27 | 2019-05-10 | 百度(美国)有限责任公司 | 使用生成对抗网络进行鲁棒语音识别的系统和方法 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
US20200335086A1 (en) * | 2019-04-19 | 2020-10-22 | Behavioral Signal Technologies, Inc. | Speech data augmentation |
US20200019842A1 (en) * | 2019-07-05 | 2020-01-16 | Lg Electronics Inc. | System, method and apparatus for machine learning |
CN110853663A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111653275A (zh) * | 2020-04-02 | 2020-09-11 | 武汉大学 | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 |
CN111968666A (zh) * | 2020-08-20 | 2020-11-20 | 南京工程学院 | 基于深度域自适应网络的助听器语音增强方法 |
Non-Patent Citations (1)
Title |
---|
卢庆林等: "面向SAR图像处理的生成式对抗网络应用综述", 《电讯技术》, no. 01, 31 December 2020 (2020-12-31) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823296A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113823298A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113823298B (zh) * | 2021-06-15 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN114495958A (zh) * | 2022-04-14 | 2022-05-13 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
CN114495958B (zh) * | 2022-04-14 | 2022-07-05 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
CN115050379A (zh) * | 2022-04-24 | 2022-09-13 | 华侨大学 | 一种基于fhgan的高保真语音增强模型及其应用 |
CN115588436A (zh) * | 2022-09-29 | 2023-01-10 | 沈阳新松机器人自动化股份有限公司 | 基于变分自编码器生成对抗网络的语音增强方法 |
CN116663655A (zh) * | 2023-07-26 | 2023-08-29 | 浙江大华技术股份有限公司 | 一种对抗攻击的防御方法及电子设备 |
CN116663655B (zh) * | 2023-07-26 | 2023-10-13 | 浙江大华技术股份有限公司 | 一种对抗攻击的防御方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112802491B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112802491B (zh) | 一种基于时频域生成对抗网络的语音增强方法 | |
Tu et al. | Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Xiang et al. | A nested u-net with self-attention and dense connectivity for monaural speech enhancement | |
CN109215674A (zh) | 实时语音增强方法 | |
Su et al. | Bandwidth extension is all you need | |
Shi et al. | Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation. | |
Tu et al. | A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition | |
CN113823308B (zh) | 一种使用单个带噪语音样本进行语音去噪的方法 | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
CN112927709B (zh) | 一种基于时频域联合损失函数的语音增强方法 | |
Abdulatif et al. | Aegan: Time-frequency speech denoising via generative adversarial networks | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
Tu et al. | A multi-target SNR-progressive learning approach to regression based speech enhancement | |
Zhu et al. | FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
CN114360571A (zh) | 基于参考的语音增强方法 | |
CN110675888A (zh) | 一种基于RefineNet和评价损失的语音增强方法 | |
Yang et al. | RS-CAE-based AR-Wiener filtering and harmonic recovery for speech enhancement | |
CN114283829A (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
Hepsiba et al. | Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN | |
Nossier et al. | Two-stage deep learning approach for speech enhancement and reconstruction in the frequency and time domains | |
CN115410591A (zh) | 面向vr直播场景的双重自适应智能语音识别方法 | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |