CN110718232A - 一种基于二维语谱图和条件生成对抗网络的语音增强方法 - Google Patents

一种基于二维语谱图和条件生成对抗网络的语音增强方法 Download PDF

Info

Publication number
CN110718232A
CN110718232A CN201910896903.5A CN201910896903A CN110718232A CN 110718232 A CN110718232 A CN 110718232A CN 201910896903 A CN201910896903 A CN 201910896903A CN 110718232 A CN110718232 A CN 110718232A
Authority
CN
China
Prior art keywords
spectrogram
speech
noise
voice
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910896903.5A
Other languages
English (en)
Other versions
CN110718232B (zh
Inventor
周琳
钟秋月
陆思源
李楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910896903.5A priority Critical patent/CN110718232B/zh
Publication of CN110718232A publication Critical patent/CN110718232A/zh
Application granted granted Critical
Publication of CN110718232B publication Critical patent/CN110718232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于二维语谱图和条件生成对抗网络的语音增强方法,将语音信号经过短时傅里叶变换后的若干帧频谱组成二维语谱图,将其作为条件生成对抗网络的输入特征,通过生成网络G和判别网络D的互相对抗训练生成网络G。测试过程中,提取含噪语音的二维语谱图,训练阶段得到的G网络直接将含噪语谱图映射为增强语谱图,从而实现语音增强。本专利基于语谱图和条件生成对抗网络的语音增强算法大幅提高了增强后语音的感知质量,且算法的泛化性能好,具有较强的鲁棒性。

Description

一种基于二维语谱图和条件生成对抗网络的语音增强方法
技术领域
本发明涉及一种基于二维语谱图和条件生成对抗网络的语音增强方法,属于语音增强技术领域。
背景技术
语音增强是指语音信号受到噪声干扰或抑制,从背景噪声中提取有效信号的技术,其目的是尽可能消除噪声与干扰的影响,提高信噪比和语音可懂度,提升语音质量。语音增强技术可以提高语音信号处理系统的整体性能。
当前语音增强算法种类繁多,根据不同的分类标准可以对其进行归类。根据传感器或麦克风的数量,可以分为单通道(单麦克风)语音增强和阵列(多麦克风)语音增强。单通道语音增强算法可以根据训练是否含有标签分为无监督语音增强方法(传统语音增强方法)和有监督语音增强方法。传统的非监督语音增强方法包括谱减法、维纳滤波方法、基于最小均方误差的语音增强、基于子空间的语音增强算法等。传统语音增强方法存在许多不足,如对非平稳噪声抑制效果不明显,泛化性能较差等。监督语音增强方法主要包括基于隐马尔可夫模型的语音增强、基于稀疏表示类算法和基于深度学习类算法等。基于半监督的生成对抗网络GAN(Generative Adversarial Nets)的语音增强实现了端到端的语音增强,且提升了算法的泛化性能,但GAN网络属于半监督学习的,没有指定对应的标签,导致生成网络G比较自由,在处理较大数据时具有不可控性。
发明内容
为解决上述问题,本发明公开了一种基于二维语谱图和条件生成对抗网络cGAN(Conditional Generative Adversarial Nets)的语音增强方法,将语音的二维语谱图作为指定标签,充分考虑相邻帧之间的关联性,提出基于条件生成对抗网络的含噪语谱图到增强语谱图的映射算法。条件生成对抗网络借鉴了相互对抗的博弈思想,采用原始含噪语音作为条件与随机噪声一起输入到G网络中,即编码器-解码器结构进行训练,在上采样层和下采样层之间添加跳跃连接,保证了浅层特征在整个网络中的流通性。测试过程中将语谱图作为二维特征参数,利用训练好的G网络对语音信号进行增强。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种基于二维语谱图和条件生成对抗网络的语音增强方法,包括以下步骤:
(1)在训练语音信号中加入不同类型、不同信噪比的噪声,得到含噪训练语音信号;
(2)对步骤(1)得到的含噪训练语音信号进行预处理,得到分帧后的含噪训练语音信号,所述预处理包括依次进行的归一化、分帧和加窗;
(3)对于步骤(2)得到的分帧后的含噪训练语音信号进行短时傅里叶变换,并将短时傅里叶变换得到的若干帧含噪训练语音频谱组成含噪训练语音的二维语谱图;
(4)将步骤(3)得到的含噪训练语音的二维语谱图作为条件生成对抗网络的输入特征,通过条件生成对抗网络G和判别网络D的相互对抗来训练条件生成对抗网络G;
(5)对不同声学环境下的含噪测试语音信号进行预处理,得到分帧的含噪测试语音信号,所述预处理包括依次进行的归一化、分帧和加窗;
(6)对于步骤(5)得到的分帧后的含噪测试语音信号进行短时傅里叶变换,并将短时傅里叶变换得到的若干帧含噪测试语音频谱组成含噪测试语音的二维语谱图;
(7)将步骤(6)得到的含噪测试语音的二维语谱图作为步骤(4)训练得到的条件生成对抗网络G的输入特征,输出增强后的语谱图;
(8)将步骤(7)得到的增强后的语谱图,结合步骤(6)中短时傅里叶变换后的相位信息进行短时逆傅里叶变换,得到增强后的时域语音信号。
2.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(1)中语音信号加入噪声的计算公式为:
d(n)=s(n)+v(n)
其中,d(n)表示含噪语音信号,s(n)为单声道语音信号,v(n)表示指定信噪比下的某一类型噪声信号,n表示样本点序号。
3.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(2)和步骤(5)中的预处理具体包括:
归一化方法为:
Figure BDA0002210422960000021
其中,d(n)为含噪语音信号,dmax为d(n)绝对值的最大值,x(n)为归一化后的语音信号;
分帧方法为:采用预设分帧长度和帧移,将x(n)划分为多个单帧信号x(k·N/2+m),0≤k<K,0≤m<N,其中,k为帧序号,K为总帧数,m表示一帧内采样序号,N为帧长,帧移取N的一半;
加窗方法为:
x(k,m)=w(m)x(k·N/2+m)
其中x(k,m)为预处理后第k帧的语音信号,w(m)为窗函数。
4.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(3)和步骤(6)中的二维语谱图即语音的幅度谱图,由若干帧语音频谱按照帧顺序排列组成,其横坐标表示帧序号,纵坐标表示频率;
预处理后第k帧的语音信号x(k,m)的短时傅里叶变换的表达式为:
Figure BDA0002210422960000031
其中,i表示傅里叶变换的第i个频谱,N为帧长;
对X(k,i)取其幅值得到|X(k,i)|,根据其频谱的对称性,选择前N/2个频点的幅度谱,同时选择N/2帧,将这N/2帧每一帧中前N/2个频点的幅度谱按照帧的前后顺序拼接在一起,得到二维语谱图S,其构成形式为:
Figure BDA0002210422960000032
5.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(4)中的条件生成对抗网络模型的总体损失函数为:
Figure BDA0002210422960000033
其中,λ表示正则化系数,LL1表示正则化项,LL1(G)=E[||P-G(S)||1],LcGAN表示不带正则化项的损失函数,LcGAN(G,D)=E[log D(S,P)]+E[log(1-D(S,G(S))],S表示含噪训练语音的二维语谱图,P表示含噪训练语音对应的纯净训练语音的语谱图,G(·)表示G的输出,D(·)表示D的输出,E[·]表示期望运算,||·||1表示L1范数。
6.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(4)中的条件生成对抗网络训练阶段具体包括以下子步骤:
(4-1)以卷积神经网络为基础搭建条件生成对抗网络G和判别网络D,并初始化参数;
(4-2)对G输入含噪训练语音的二维语谱图S,得到S的增强语谱图G(S);
(4-3)固定D的参数,计算S和G(S)的损失,对G进行优化,其优化损失函数为:
Figure BDA0002210422960000034
其中,S表示含噪训练语音的语谱图,P表示含噪训练语音对应的纯净训练语音的语谱图,λ表示正则化系数,G(·)表示G的输出,D(·)表示D的输出,E[·]表示期望运算,||·||1表示L1范数。
(4-4)将S和G(S)输入D,输出第一个判决结果,若判决结果为真,则输出1,反之,输出0;
(4-5)将S和P输入D,输出第二个判决结果,若判决结果为真,则输出1,反之,输出0;
(4-6)综合步骤(4-4)和(4-5)中的判决结果对D进行优化,所使用的损失函数为:
Figure BDA0002210422960000041
(4-7)重复步骤(4-2)和(4-3)优化G,重复步骤(4-4)至(4-6)优化D,直至网络收敛,条件生成网络训练过程结束。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:在多种噪声和不同信噪比环境下进行仿真实验后,结果表明利用本发明方法增强后的语音感知质量PESQ(Perceptual Evaluation of Speech Quality)分值得到较大幅度的提升,尤其是对混合人声环境下的PESQ有明显提升效果,且该算法泛化性能较好,具有较强的鲁棒性。
附图说明
图1为本发明整体算法流程图;
图2为二维语谱图示例;
图3为本发明基于二维语谱图和条件生成对抗网络的语音增强算法训练流程图;
图4为采用本方法在不同噪声种类、信噪比情况下处理前后的PESQ变化;
图5为采用本方法在不同信噪比下PESQ增幅变化。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本实施例提供的基于二维语谱图和条件生成对抗网络的语音增强方法包括以下步骤:
步骤一、在训练和测试语音信号中加入不同类型、不同信噪比的噪声,得到含噪训练和测试语音信号,计算公式为:
d(n)=s(n)+v(n)
其中,d(n)表示加入噪声后的语音信号,s(n)为单声道语音信号,v(n)表示指定信噪比下的某一类型噪声信号,n表示样本点序号。
本例中采用NOISEX-92噪声库的数据,主要包含pink噪声,white噪声,来自餐厅的babble噪声以及来自工厂的factory噪声。纯净语音为来自CHAINS Speech Corpus语音库单通道男声和女声的语音信号,分别是male1、male2、female1、female2,语音段为speech2、speech3、speech4;将以上四个说话人和四种不同的噪声叠加,分别生成信噪比SNR为0dB、5dB、10dB、15dB、20dB的含噪语音,共240段语音。取male1、male2、female1、female2的speech2和speech3作为训练语音集,共160段,平均时长均为30s;取female1的speech4作为测试语音集,共80段,平均时长为40s。
步骤二、对步骤(1)中得到的训练单通道语音信号进行归一化、分帧和加窗,得到分帧加窗后的训练信号,具体包括以下子步骤:
(1)归一化方法:
Figure BDA0002210422960000051
其中,d(n)为含噪语音信号,dmax为d(n)绝对值的最大值,x(n)为归一化后的语音信号。
(2)分帧:采用预设分帧长度和帧移,将处理后的语音信号x(n)划分为多个单帧信号x(k·N/2+m),0≤k<K,0≤m<N,其中,k为帧序号,K为总帧数,m表示一帧内采样序号,N为帧长,帧移取其一半。
本例输入的语音信号的频率为16kHz,为了使特征参数平滑过渡,取帧长为32ms(512点),即N=512,帧移为16ms(256点)。
(3)加窗:
x(k,m)=w(m)x(k·N/2+m)
其中x(k,m)为预处理后第k帧的语音信号,本例的w(m)选取汉明窗,其函数表达式为:
Figure BDA0002210422960000052
步骤三、对分帧加窗后的语音信号进行短时傅里叶变换,从而得到语谱图。每一帧语音信号x(k,m)的短时傅里叶变换的表达式为:
Figure BDA0002210422960000053
其中,i表示傅里叶变换的第i个频谱,k为帧序号。对X(k,i)取其幅值得到|X(k,i)|,根据其频谱的对称性,选择前N/2个的幅度谱,同时选择N/2帧,将其按帧顺序拼接在一起得到语谱图S,其构成形式为:
Figure BDA0002210422960000061
在本例中,N/2=256,则以256帧为单位,选择其前256维的幅度谱,从而得到256*256维的语谱图,将其作为条件生成对抗网络的输入。图2为语谱图示例,|X(k,i)|的值越大,其对应点的颜色越深。
步骤四、对于步骤三得到的含噪训练语谱图,将其作为条件生成对抗网络的输入,输出则是相等大小的增强语谱图,通过生成网络G网络和判别网络D网络的相互对抗进而完成G网络的训练。
下面给出本实施例的条件生成对抗网络cGAN。事实上,本发明的cGAN网络结构不限制于此实施例的网络结构。
本例中,cGAN模型其总体损失函数为:
Figure BDA0002210422960000062
其中,λ表示正则化系数,LL1表示正则化项,LcGAN表示不带正则化项的损失函数,分别有以下公式:
LcGAN(G,D)=E[log D(S,P)]+E[log(1-D(S,G(S))]
LL1(G)=E[||P-G(S)||1]
其中,S表示含噪训练语音的语谱图,P表示对应的纯净训练语音的语谱图,G(·)表示G网络输出,D(·)表示D网络输出,E[·]表示期望运算,||·||1表示L1范数。
如图3所示,cGAN的训练阶段为两个部分,分别是对判别网络D的训练和生成网络G的训练。其中G网络的训练过程为:输入含噪语谱图,输出增强语谱图,并通过计算含噪语谱图和增强语谱图的损失进行优化。而D网络的训练过程可以分为两个部分:第一部分是将G网络输出的增强语谱图和原始含噪语谱图一起输入D网络,输出判断结果。第二部分是将含噪语谱图和纯净语谱图输入D网络,输出判断结果,最终将两部分的损失相加作为D网络的总体损失进行网络优化。而cGAN的测试阶段只需通过G网络得到增强后的语谱图即可。
G网络为卷积神经网络,主要由五部分构成,分别是输入层、卷积层、降采样层、分类器和输出层,卷积神经网络的输入为二维矩阵,输入矩阵进入卷积层,卷积层后面是子采样层,也称为池化层,其后是全连接层,最后输出层使用Softmax实现多分类功能。
在训练阶段需要优化与G网络相关的损失函数,因此需要在优化G网络时,固定D网络的参数,也即优化损失函数:
Figure BDA0002210422960000071
其中,S表示含噪训练语音的语谱图,P表示对应的纯净训练语音的语谱图,λ表示正则化系数,G(·)表示G网络输出,D(·)表示D网络输出,E[·]表示期望运算,||·||1表示L1范数。
判别网络D是一个任务为分类的卷积神经网络。输入语谱图经过卷积层,而后进行展平的操作后输入全连接层,最后通过sigmoid函数得到一个(0,1)之间的数值表示真假样本的概率,0表示为假样本,1表示真样本。
其损失函数如下:
Figure BDA0002210422960000072
其中,S表示含噪训练语音的语谱图,P表示对应的纯净训练语音的语谱图,G(·)表示G网络输出,D(·)表示D网络输出,E[·]表示期望运算。
生成网络G和判别网络D交替进行优化过程,最终使得生成器输出的增强语谱能够很好的拟合纯净语谱的分布。
本例中条件生成对抗网络网络结构中卷积层的卷积核大小为5x5;激活层使用LeaklyReLU激活函数;在每轮优化过程中,更新两次生成网络G,更新一次判别网络D,防止生成器收敛太快;使用自适应距估计Adam优化器对GAN进行优化,并且设置Adam的动量参数为0.5;dropout概率为0.5。网络训练参数在经过多组实验验证后,选择了以下最优参数:训练迭代轮数为10,批处理大小为1,学习率初始化为0.003,L1正则化系数设置为100,网络的权重初始化满足均值为0、方差为0.02的正态分布。当然,本专利并没有限制网络的相关设置参数。
步骤五、对不同声学环境下的含噪测试语音信号进行预处理,包括归一化、分帧和加窗,得到分帧后的含噪测试语音信号。
其中,预处理过程与步骤二相同。
步骤六、对于步骤(5)得到的分帧含噪测试语音信号进行短时傅里叶变换,并将若干帧语音信号的傅里叶变换频谱组成二维的语谱图。
其中,短时傅里叶变换、语谱图的计算与步骤三相同。
步骤七、将测试语音的含噪语谱图作为步骤四训练后得到的G网络的输入特征,输出增强的语谱图。
步骤八、将步骤七得到的增强语谱图,结合步骤六傅里叶变换后的相位信息进行短时逆傅里叶变换,得到最终增强后的时域语音信号。
对以上方法进行仿真验证,最终的性能评估如下:
本例采用PESQ分值来评估语音信号的感知质量,不同噪声类型、不同信噪比下的语音增强前后PESQ结果如表所示。PESQ的分值范围为[0,5],分值越接近5代表语音质量越好。
表1白噪声环境下cGAN增强前后PESQ均值比较
SNR(dB) 处理前 增强后 增幅
0 1.605 1.712 0.107
5 1.888 2.077 0.189
10 2.202 2.411 0.209
15 2.528 2.698 0.170
20 2.862 2.906 0.044
表2 pink噪声环境下cGAN增强前后PESQ均值比较
SNR(dB) 处理前 增强后 增幅
0 1.485 1.714 0.229
5 1.798 2.092 0.294
10 2.129 2.426 0.297
15 2.458 2.695 0.237
20 2.783 2.926 0.143
表3 babble噪声环境下cGAN增强前后PESQ均值比较
SNR(dB) 处理前 增强后 增幅
0 1.575 1.653 0.078
5 1.795 2.026 0.231
10 2.097 2.350 0.253
15 2.416 2.640 0.224
20 2.734 2.887 0.153
表4 factory噪声环境下cGAN增强前后PESQ均值比较
SNR(dB) 处理前 增强后 增幅
0 1.462 1.634 0.172
5 1.709 1.975 0.266
10 2.029 2.317 0.288
15 2.358 2.621 0.263
20 2.682 2.869 0.187
从表1至表4可以看出,在四种不同类型噪声情况下,pink噪声和factory噪声的PESQ增幅较大,平均增幅分别为0.240和0.235,而white噪声和babble噪声平均增幅相对较少,分别为0.144和0.188,说明该算法对pink、factory类噪声特性增强效果较为明显,而对white、babble类噪声增强效果相对较小。将上述结果汇总为条形图如图4所示。
结合表1至表4数据和图4可以看出,在同一类噪声不同信噪比情况下,PESQ增幅数值大小随着信噪比的增加先上升后下降,即在信噪比为10dB时PESQ增幅最大,pink噪声和factory噪声增幅分别为0.294和0.288,white和babble噪声增幅分别为0.209和0.253。表5列出所有噪声在不同信噪比情况下的增幅变化情况:
表5不同信噪比下含噪语音cGAN增强前后PESQ均值
SNR(dB) 处理前 增强后 增幅
0 1.531 1.678 0.147
5 1.798 2.042 0.244
10 2.114 2.376 0.262
15 2.441 2.664 0.223
20 2.766 2.897 0.131
将表5中的PESQ增幅数据由折线图表示如图5所示。由图5可以清晰看出,随着信噪比的增加,语音增强结果PESQ的增幅先上升后下降,说明在信噪比为10dB左右时语音增强效果最好,而在20dB时PESQ提升效果相对较小,原因是当信噪比为20dB时,原始语音PESQ值本身就较高,均值为2.766,此时语音质量已经较好,可提升幅度范围较小。而在低信噪比0dB时,PESQ的提升程度也会由于原始语音本身质量较差而受限制。
综上,在复杂的声学环境下,例如在混合人声环境下,基于条件生成对抗网络的语音增强方法在提升客观评价指标PESQ上效果很好,且该算法较为稳定,对于未经过训练的语音泛化性能较好。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,包括以下步骤:
(1)在训练语音信号中加入不同类型、不同信噪比的噪声,得到含噪训练语音信号;
(2)对步骤(1)得到的含噪训练语音信号进行预处理,得到分帧后的含噪训练语音信号,所述预处理包括依次进行的归一化、分帧和加窗;
(3)对于步骤(2)得到的分帧后的含噪训练语音信号进行短时傅里叶变换,并将短时傅里叶变换得到的若干帧含噪训练语音频谱组成含噪训练语音的二维语谱图;
(4)将步骤(3)得到的含噪训练语音的二维语谱图作为条件生成对抗网络的输入特征,通过条件生成对抗网络G和判别网络D的相互对抗来训练条件生成对抗网络G;
(5)对不同声学环境下的含噪测试语音信号进行预处理,得到分帧的含噪测试语音信号,所述预处理包括依次进行的归一化、分帧和加窗;
(6)对于步骤(5)得到的分帧后的含噪测试语音信号进行短时傅里叶变换,并将短时傅里叶变换得到的若干帧含噪测试语音频谱组成含噪测试语音的二维语谱图;
(7)将步骤(6)得到的含噪测试语音的二维语谱图作为步骤(4)训练得到的条件生成对抗网络G的输入特征,输出增强后的语谱图;
(8)将步骤(7)得到的增强后的语谱图,结合步骤(6)中短时傅里叶变换后的相位信息进行短时逆傅里叶变换,得到增强后的时域语音信号。
2.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(1)中语音信号加入噪声的计算公式为:
d(n)=s(n)+v(n)
其中,d(n)表示含噪语音信号,s(n)为单声道语音信号,v(n)表示指定信噪比下的某一类型噪声信号,n表示样本点序号。
3.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(2)和步骤(5)中的预处理具体包括:
归一化方法为:
Figure FDA0002210422950000011
其中,d(n)为含噪语音信号,dmax为d(n)绝对值的最大值,x(n)为归一化后的语音信号;
分帧方法为:采用预设分帧长度和帧移,将x(n)划分为多个单帧信号x(k·N/2+m),0≤k<K,0≤m<N,其中,k为帧序号,K为总帧数,m表示一帧内采样序号,N为帧长,帧移取N的一半;
加窗方法为:
x(k,m)=w(m)x(k·N/2+m)
其中x(k,m)为预处理后第k帧的语音信号,w(m)为窗函数。
4.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(3)和步骤(6)中的二维语谱图即语音的幅度谱图,由若干帧语音频谱按照帧顺序排列组成,其横坐标表示帧序号,纵坐标表示频率;
预处理后第k帧的语音信号x(k,m)的短时傅里叶变换的表达式为:
Figure FDA0002210422950000021
其中,i表示傅里叶变换的第i个频谱,N为帧长;
对X(k,i)取其幅值得到|X(k,i)|,根据其频谱的对称性,选择前N/2个频点的幅度谱,同时选择N/2帧,将这N/2帧每一帧中前N/2个频点的幅度谱按照帧的前后顺序拼接在一起,得到二维语谱图S,其构成形式为:
Figure FDA0002210422950000022
5.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(4)中的条件生成对抗网络模型的总体损失函数为:
Figure FDA0002210422950000023
其中,λ表示正则化系数,LL1表示正则化项,LL1(G)=E[||P-G(S)||1],LcGAN表示不带正则化项的损失函数,LcGAN(G,D)=E[log D(S,P)]+E[log(1-D(S,G(S))],S表示含噪训练语音的二维语谱图,P表示含噪训练语音对应的纯净训练语音的语谱图,G(·)表示G的输出,D(·)表示D的输出,E[·]表示期望运算,||·||1表示L1范数。
6.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(4)中的条件生成对抗网络训练阶段具体包括以下子步骤:
(4-1)以卷积神经网络为基础搭建条件生成对抗网络G和判别网络D,并初始化参数;
(4-2)对G输入含噪训练语音的二维语谱图S,得到S的增强语谱图G(S);
(4-3)固定D的参数,计算S和G(S)的损失,对G进行优化,其优化损失函数为:
Figure FDA0002210422950000031
其中,S表示含噪训练语音的语谱图,P表示含噪训练语音对应的纯净训练语音的语谱图,λ表示正则化系数,G(·)表示G的输出,D(·)表示D的输出,E[·]表示期望运算,||·||1表示L1范数。
(4-4)将S和G(S)输入D,输出第一个判决结果,若判决结果为真,则输出1,反之,输出0;
(4-5)将S和P输入D,输出第二个判决结果,若判决结果为真,则输出1,反之,输出0;
(4-6)综合步骤(4-4)和(4-5)中的判决结果对D进行优化,所使用的损失函数为:
Figure FDA0002210422950000032
(4-7)重复步骤(4-2)和(4-3)优化G,重复步骤(4-4)至(4-6)优化D,直至网络收敛,条件生成网络训练过程结束。
CN201910896903.5A 2019-09-23 2019-09-23 一种基于二维语谱图和条件生成对抗网络的语音增强方法 Active CN110718232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910896903.5A CN110718232B (zh) 2019-09-23 2019-09-23 一种基于二维语谱图和条件生成对抗网络的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910896903.5A CN110718232B (zh) 2019-09-23 2019-09-23 一种基于二维语谱图和条件生成对抗网络的语音增强方法

Publications (2)

Publication Number Publication Date
CN110718232A true CN110718232A (zh) 2020-01-21
CN110718232B CN110718232B (zh) 2020-08-18

Family

ID=69210655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910896903.5A Active CN110718232B (zh) 2019-09-23 2019-09-23 一种基于二维语谱图和条件生成对抗网络的语音增强方法

Country Status (1)

Country Link
CN (1) CN110718232B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524520A (zh) * 2020-04-22 2020-08-11 星际(重庆)智能装备技术研究院有限公司 一种基于误差逆向传播神经网络的声纹识别方法
CN112331232A (zh) * 2020-11-06 2021-02-05 杭州电子科技大学 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN112562647A (zh) * 2020-11-24 2021-03-26 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法
CN113160839A (zh) * 2021-04-16 2021-07-23 电子科技大学 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法
CN113299300A (zh) * 2021-05-18 2021-08-24 广州大学 一种语音增强方法、装置及存储介质
CN113409377A (zh) * 2021-06-23 2021-09-17 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法
CN113646833A (zh) * 2021-07-14 2021-11-12 东莞理工学院 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN113642714A (zh) * 2021-08-27 2021-11-12 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN113936681A (zh) * 2021-10-13 2022-01-14 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
KR101936302B1 (ko) * 2018-06-29 2019-01-08 이채영 딥러닝 네트워크에 기반한 퇴행성 신경질환 진단 방법 및 진단 장치
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110008846A (zh) * 2019-03-13 2019-07-12 南京邮电大学 一种图像处理方法
CN110084121A (zh) * 2019-03-27 2019-08-02 南京邮电大学 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
KR101936302B1 (ko) * 2018-06-29 2019-01-08 이채영 딥러닝 네트워크에 기반한 퇴행성 신경질환 진단 방법 및 진단 장치
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110008846A (zh) * 2019-03-13 2019-07-12 南京邮电大学 一种图像处理方法
CN110084121A (zh) * 2019-03-27 2019-08-02 南京邮电大学 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DANIEL MICHELSANTI ET AL.: "Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification", 《ARXIV》 *
MEET H. SONI ET AL.: "Time-frequency masking-based speech enhancement using generative adversarial network", 《ICASSP》 *
MEHDI MIRZA ET AL.: "Conditional generative adversarial nets", 《ARXIV》 *
TAKUHIRO KANEKO ET AL.: "Generative Adversarial Network-Based Postfilter for STFT Spectrograms", 《INTERSPEECH》 *
张敬敏 等: "高噪声环境下的生成对抗网络人机语音增强技术", 《移动通信》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524520A (zh) * 2020-04-22 2020-08-11 星际(重庆)智能装备技术研究院有限公司 一种基于误差逆向传播神经网络的声纹识别方法
CN112331232B (zh) * 2020-11-06 2022-08-12 杭州电子科技大学 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN112331232A (zh) * 2020-11-06 2021-02-05 杭州电子科技大学 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN112562647A (zh) * 2020-11-24 2021-03-26 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN112562647B (zh) * 2020-11-24 2022-09-06 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法
CN113160839A (zh) * 2021-04-16 2021-07-23 电子科技大学 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法
CN113299300A (zh) * 2021-05-18 2021-08-24 广州大学 一种语音增强方法、装置及存储介质
CN113299300B (zh) * 2021-05-18 2023-09-26 广州大学 一种语音增强方法、装置及存储介质
CN113409377B (zh) * 2021-06-23 2022-09-27 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法
CN113409377A (zh) * 2021-06-23 2021-09-17 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法
CN113646833A (zh) * 2021-07-14 2021-11-12 东莞理工学院 语音对抗样本检测方法、装置、设备及计算机可读存储介质
WO2023283823A1 (zh) * 2021-07-14 2023-01-19 东莞理工学院 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN113642714A (zh) * 2021-08-27 2021-11-12 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN113642714B (zh) * 2021-08-27 2024-02-09 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN113936681A (zh) * 2021-10-13 2022-01-14 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN113936681B (zh) * 2021-10-13 2024-04-09 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法

Also Published As

Publication number Publication date
CN110718232B (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN110718232B (zh) 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN105611477B (zh) 数字助听器中深度和广度神经网络相结合的语音增强算法
CN111653288B (zh) 基于条件变分自编码器的目标人语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN109887489B (zh) 基于生成对抗网络的深度特征的语音去混响方法
Pandey et al. Self-attending RNN for speech enhancement to improve cross-corpus generalization
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
CN112133322A (zh) 一种基于噪声分类优化imcra算法的语音增强方法
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
CN114446314A (zh) 一种深度生成对抗网络的语音增强方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN111724806B (zh) 一种基于深度神经网络的双视角单通道语音分离方法
Li et al. A si-sdr loss function based monaural source separation
Tu et al. DNN training based on classic gain function for single-channel speech enhancement and recognition
CN111916060B (zh) 一种基于谱减的深度学习语音端点检测方法和系统
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Hepsiba et al. Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN
Xu et al. Selector-enhancer: learning dynamic selection of local and non-local attention operation for speech enhancement
CN114283835A (zh) 一种适用于实际通信条件下的语音增强与检测方法
CN107393553A (zh) 用于语音活动检测的听觉特征提取方法
Nuthakki et al. Speech Enhancement based on Deep Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant