CN112331232A - 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 - Google Patents
一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 Download PDFInfo
- Publication number
- CN112331232A CN112331232A CN202011228473.9A CN202011228473A CN112331232A CN 112331232 A CN112331232 A CN 112331232A CN 202011228473 A CN202011228473 A CN 202011228473A CN 112331232 A CN112331232 A CN 112331232A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- denoising
- voice
- scale
- clean
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002146 bilateral effect Effects 0.000 title claims abstract description 30
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 238000013145 classification model Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 8
- 241001270131 Agaricus moelleri Species 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,包括:S1、获取干净语谱图以及加噪语谱图;S2、将干净语谱图和加噪语谱图输入基于矩阵距离的条件生成对抗网络进行训练,得到去噪模型;S3、利用去噪模型对加噪语谱图进行去噪处理,分别进行两个不同尺度的双边滤波,得到低、高尺度滤波图,低、高尺度滤波图相差再乘以增强系数,然后与低尺度滤波图相加,得到细节增强的语谱图;S4、将细节增强的语谱图输入卷积神经网络模型中进行分类,得到分类模型;S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到的细节增强的语谱图输入分类模型,得到语音情感分类结果。本发明有效实现语音情感的识别。
Description
技术领域
本发明属于语音识别领域,主要涉及人机交互领域,具体来说,即一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法。
背景技术
将语音情感识别应用于人机交互系统,一方面能够使机器人像人类一样具有“情感”,通过听觉察觉到对方的情感变化,和人类进行更加自然的、智能的交流互动,将人性化、自然化、智能化相融合的交互方式赋予新型人机交互系统。另一方面,基于语音情感的系别系统,能为医疗、机械、教育、服务型提供更新颖的发展思路,将进一步丰富人们的日常生活,成为人类的帮手,高效率的帮助人们解决实际问题,有效提高人们的工作、学习效率,提高人们的生活质量和幸福感。
语音在实际应用中,往往伴随着各种噪声,而噪声的存在会对语音情感识别造成一系列的影响,使得语音的质量和情感信息下降。因此对语音去噪对情感识别是一个重要的研究方向。
当前语音情感特征主要包括韵律特征、频域特征、音质特征。语音信号频域和时域中信号间的相关性在语音情感识别中起到了重要作用。但针对语音信号间相关性的研究,往往仅集中在频域或时域中,语谱图是一种语音能量时频分布的可视化表达方式,其横轴代表时间,纵轴代表频率,连通了时频两域,将语谱图的频率点建模为图像的像素点,便可利用图像特征探讨相邻频点间的联系,为研究时频两域相关性提供了一种新的思路。
原始生成对抗网络(Generative Adversarial Nets,GAN)是由生成器(Generator,G)和判决器(Discriminator,D)组成的训练生成式模型,它将随机噪声和真实图像输入GAN中,通过生成器和判决器不断的对抗学习,从而生成近似真实数据的图像。在对抗训练中,生成器通过不断的迭代学习生成图像,企图“欺骗”判决器;判决器通过不断学习,希望尽可能的“不受欺骗”,判决器和生成器通过不断的对抗训练,寻求最优解。
双边滤波是一种非线性滤波器,它可以达到保持边缘、降噪平滑的效果。和其他滤波原理一样,双边滤波也是采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素的强度,所用的加权平均基于高斯分布。最重要的是,双边滤波的权重不仅考虑了像素的欧氏距离,还考虑了像素范围域中的辐射差异,在计算中心像素的时候同时考虑这两个权重,这样就保证了边缘附近像素值的保存,有利于语谱图纹理细节的增强。
发明内容
针对现有技术中存在的上述问题,本发明提供一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,通过将语音信号转换为语谱图,然后使用基于矩阵距离的生成对抗网络MD-CGAN对语谱图去噪,并使用不同尺度的双边滤波增强语谱图的细节信息,最后将增强后的语谱图放入迁移的卷积神经网络中进行情感分类。
本发明采取如下技术方案:
一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,包括以下步骤:
S1、采集语音情感数据集,获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集;
S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;
S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图;
S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。
作为优选方案,所述步骤S1,包括:
对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):
其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;
再以对数振幅描述来生成语谱图:
S(k,t)=20×log10|Xt(k)|
其中,X(k)为t时刻的频谱;
对语谱图按照情感类别设置相应的情感标签。
作为优选方案,所述步骤S2,包括:
对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,pdata(x)表示干净语谱图的概率分布;z表示加噪语谱图,pz(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
去噪模型的训练过程,包括以下步骤:
(1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;
(2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;
基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:
其中,Ig表示生成器的输出,即去噪语谱图;Ix表示干净语谱图,pG(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;
(3)返回步骤(1)直到训练达到最优值,得到去噪模型。
作为优选方案,所述步骤S3中,所述双边滤波的算法如下:
||Sp-Sq||2=(xp-xq)2+(yp-yq)2
其中,(xp,yp)为当前位置,(xq,yq)为中心点的位置,σs为空间域标准差,σs越小,对图片的模糊度越小;
||Vp-Vq||2=(gray(xp,yp)-gray(xq,yq))2
其中,V代表值域信息,gray(xp,yp)为当前灰度值,gray(xq,yq)为中心点灰度值,σr为值域标准差,σr越小,权重越小;离中心点位置越近,权重越大;
双边滤波图像输出计算:
通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图,将σs、σr都小的滤波图设为P1,并将其作为基底图像;将σs、σr都大的滤波图设为P2,P1与P2相减作为语谱图的纹理细节图,再乘以增强系数η,然后与P1相加,得到细节增强的语谱图的计算如下:
Z=P1+η(P1-P2)。
作为优选方案,所述卷积神经网络采用ResNet网络结构。
作为优选方案,所述卷积神经网络包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层,H为大于2的整数。
作为优选方案,所述第二卷积层至第H卷积层均配置残差单元。
作为优选方案,所述第二卷积层至第H卷积层的卷积核大小均为3×3。
作为优选方案,所述第二卷积层至第H卷积层的通道数依次增大。
作为优选方案,所述第一卷积层的卷积核大小为7×7、通道数为64。
本发明与现有技术相比有如下优点:
1.本发明对噪声环境下的语谱图去噪,解决了经典语音去噪算法对语谱图像素间的相关性无法较好恢复的问题。
2.本发明通过对语谱图进行双边滤波,可以平衡语谱图的微小细节和强边缘增强效果,充分发挥语谱图的频域和时域特征。
附图说明
图1是本发明实施例的语音情感识别方法的流程图;
图2是本发明实施例的语谱图;
图3是本发明实施例的环境噪声为白噪声,信噪比为0dB时不同阶段的语谱图;
图4是本发明实施例的不同尺度滤波后的语谱图和细节增强后的语谱图;
图5是本发明实施例的ResNet结构图。
具体实施方式
以下通过具体实施例对本发明的技术方案作进一步解释说明。
如图1所示,本发明实施例的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,包括以下步骤:
S1、采集语音情感数据集,并对语音情感数据集进行预处理,获取干净语音的语谱图数据集;还对语音进行加噪,得到干净语音加噪后的加噪语谱图数据集,即噪声环境下的语谱图数据集;
具体地,对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):
其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;
再以对数振幅描述来生成语谱图:
S(k,t)=20×log10|Xt(k)|
其中,X(k)为t时刻的频谱;
对语谱图按照情感类别设置相应的情感标签Y。
S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;
具体地,条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN),它在生成器G和判决器D的模型中都引入了约束条件y,y可以是类别标签,也可以是不同模态的数据,通过约束条件能够指导生成器生成正确的数据。因此,CGAN可以看作是将无监督的模型转换为有监督的模型。
对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,pdata(x)表示干净语谱图的概率分布;z表示加噪语谱图,pz(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
去噪模型的训练过程,包括以下步骤:
(1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;当输入干净的语谱图时,D(x|y)输出的概率值较大;当输入去噪之后的语谱图G(z|y)时,D(G(z|y))输出的概率值较小,则1-D(G(z|y))的值较大,则V(D,G)取得最大值。
(2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;此时D(x|y)输出的概率值较小;当输入去噪之后的语谱图G(z|y)时,D(G(z|y))输出的概率值较大,则1-D(G(z|y))的值较小,则V(D,G)取得最小值。
由于噪声环境下提取的语谱图与对应干净语谱图的矩阵距离差异过大,通过原始生成器的损失函数很难完全学习到两幅图像间的映射关系。针对语谱图差异性过大的问题,本发明实施例基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:
其中,Ig表示生成器的输出,即去噪语谱图;Ix表示干净语谱图,pG(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;该损失方程利用欧式距离防止过分拟合造成语谱图去噪之后质量下降问题,使得去噪之后的语谱图质量得到提升。
(3)返回步骤(1)直到训练达到最优值,得到去噪模型。
S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图。
经过MD-CGAN模型去噪后,虽然对噪声覆盖区域的情感特征进行了较好地还原,但经过去噪模型映射得到的图像较干净的谱图,纹理细节清晰度存在差异性。故本发明实施例提出了基于双边滤波的纹理细节增强模型,以增强谱图的情感特征细节信息。
具体地,双边滤波是一种非线性的滤波方法,是结合图像的空间邻近度和像素值相似度的一种折中处理,同时考虑空域信息和灰度相似性,达到保边去噪的目的。
根据下面算法实现双边滤波:
||Sp-Sq||2=(xp-xq)2+(yp-yq)2
其中,(xp,yp)为当前位置,(xq,yq)为中心点的位置,σs为空间域标准差,σs越小,对图片的模糊度越小;
||Vp-Vq||2=(gray(xp,yp)-gray(xq,yq))2
其中,V代表值域信息,gray(xp,yp)为当前灰度值,gray(xq,yq)为中心点灰度值,σr为值域标准差,σr越小,权重越小;离中心点位置越近,权重越大;
双边滤波图像输出计算:
经过去噪模型后的语谱图信息特征存在一定的模糊,所以需要进行细节增强。通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图,将σs、σr都小的滤波图设为P1,保留了更多的细节信息,将其作为基底图像;将σs、σr都大的滤波图设为P2,P2的模糊程度大,纹理细节消失的较多,图片较为光滑。P1与P2相减作为语谱图的纹理细节图,这幅图像包含了语谱图更多的纹理细节,再乘以增强系数η,更加凸显纹理细节,然后与P1相加,得到细节增强的语谱图的计算如下:
Z=P1+η(P1-P2)。
S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
通过参数迁移的方法获取ResNet网络结构。深度神经网络的识别性能对数据量要求较高,参数迁移能够利用网络模型在大规模数据集上预先训练好的具有强大学习能力的参数来初始化训练小型数据集的网络模型的参数,从而加快网络训练速度,并减弱在小数据集上训练时过拟合现象的影响。
ResNet主要的优点如下:
使得训练超级深的神经网络成为可能,避免了不断加深神经网络,提高准确率。输入可以直接连接到输出,使得整个网络只需要学习残差,简化学习目标和难度。ResNet是一个推广性非常好的网络结构,容易和其他网络结合。将增强后的语谱图输入ResNet网络中进行语音情感分类。用该预测结果就可以与样本的真实响应值比较,从而得到预测误差。
S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,即经过去噪处理以及得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。
当前公开的较为完整的语音情感数据集有CASIA汉语语音情感数据库。CASIA汉语情感语料库由中国科学院自动化所录制,共包括四个专业发音人,六种情绪:生气、高兴、害怕、悲伤、惊讶和中性,共9600句不同发音,包括300句相同文本和100句不同文本。
Noise-92数据库是由荷兰的语音研究所测量的噪声数据库。其中包含了100种不同的噪声,样本采样率为19.98KHz,16bit量化。本论文种选取其中的4种常见的噪声,即白噪声,餐厅噪声,工厂噪声和马路上的噪声。
将语音信号进行预处理,然后将语音信号转换为语谱图,并为得到的语谱图数据集中的图片打上相应的所属情感类别的标签。语谱图实例,如图2所示。
在干净和噪声环境下生成的语谱图以及经过MD-CGAN去噪之后的语谱图如图3所示。
将语谱图经过两种不同尺度的滤波器进行双边滤波,得到两种图片,小尺度滤波和大尺度滤波,以及经过低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图,如图4所示。
卷积神经网络采用ResNet网络模型,通过迁移ResNet网络在ImageNet数据集预训练过的参数来训练语谱图。将每个音频对应的语谱图输入ResNet模型中,进行语音识别训练测试,ResNet结构图如图5所示,ResNet网络结构包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层,H为大于2的整数,其中,第二卷积层至第H卷积层均配置残差单元,第二卷积层至第H卷积层的卷积核大小均为3×3,且第二卷积层至第H卷积层的通道数依次增大,例如:64、128、256、512等。另外,第一卷积层的卷积核大小为7×7、通道数为64。
本发明公开的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,涉及人机交互领域,使人类与机器交流更加便捷。其实现过程是:将噪声和干净环境下的语音信号转换为语谱图,经过MD-CGAN对语谱图去噪,然后通过多尺度滤波获取两种模糊的语谱图,低尺度的语谱图作为滤波基图,将低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图,将增强后语谱图输入到卷积神经中网络中分类,最终达到语音情感识别的目的。有效提高了语音情感识别的准确性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (10)
1.一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,包括以下步骤:
S1、采集语音情感数据集,获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集;
S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;
S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图;
S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。
3.如权利要求2所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述步骤S2,包括:
对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,pdata(x)表示干净语谱图的概率分布;z表示加噪语谱图,pz(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
去噪模型的训练过程,包括以下步骤:
(1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;
(2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;
基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:
其中,Ig表示生成器的输出,即去噪语谱图;Ix表示干净语谱图,pG(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;
(3)返回步骤(1)直到训练达到最优值,得到去噪模型。
4.如权利要求3所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述步骤S3中,所述双边滤波的算法如下:
||Sp-Sq||2=(xp-xq)2+(yp-yq)2
其中,(xp,yp)为当前位置,(xq,yq)为中心点的位置,σs为空间域标准差,σs越小,对图片的模糊度越小;
||Vp-Vq||2=(gray(xp,yp)-gray(xq,yq))2
其中,V代表值域信息,gray(xp,yp)为当前灰度值,gray(xq,yq)为中心点灰度值,σr为值域标准差,σr越小,权重越小;离中心点位置越近,权重越大;
双边滤波图像输出计算:
通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图,将σs、σr都小的滤波图设为P1,并将其作为基底图像;将σs、σr都大的滤波图设为P2,P1与P2相减作为语谱图的纹理细节图,再乘以增强系数η,然后与P1相加,得到细节增强的语谱图的计算如下:
Z=P1+η(P1-P2)。
5.如权利要求1-4任一项所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述卷积神经网络采用ResNet网络结构。
6.如权利要求5所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述卷积神经网络包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层,H为大于2的整数。
7.如权利要求6所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层均配置残差单元。
8.如权利要求6或7所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层的卷积核大小均为3×3。
9.如权利要求8所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层的通道数依次增大。
10.如权利要求6所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述第一卷积层的卷积核大小为7×7、通道数为64。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011228473.9A CN112331232B (zh) | 2020-11-06 | 2020-11-06 | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011228473.9A CN112331232B (zh) | 2020-11-06 | 2020-11-06 | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112331232A true CN112331232A (zh) | 2021-02-05 |
CN112331232B CN112331232B (zh) | 2022-08-12 |
Family
ID=74316943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011228473.9A Active CN112331232B (zh) | 2020-11-06 | 2020-11-06 | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331232B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113114399A (zh) * | 2021-03-30 | 2021-07-13 | 南京航空航天大学 | 基于生成对抗网络的三维频谱态势补全方法和装置 |
CN115206297A (zh) * | 2022-05-19 | 2022-10-18 | 重庆邮电大学 | 基于时空多重融合网络的变长语音情感识别方法 |
CN115470507A (zh) * | 2022-10-31 | 2022-12-13 | 青岛他坦科技服务有限公司 | 一种中小企业研发项目数据管理方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847294A (zh) * | 2017-01-17 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 基于人工智能的音频处理方法和装置 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN108986835A (zh) * | 2018-08-28 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 基于改进gan网络的语音去噪方法、装置、设备及介质 |
CN109065021A (zh) * | 2018-10-18 | 2018-12-21 | 江苏师范大学 | 基于条件深度卷积生成对抗网络的端到端方言辨识方法 |
KR20190111278A (ko) * | 2018-03-22 | 2019-10-02 | 삼성전자주식회사 | 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법 |
CN110718232A (zh) * | 2019-09-23 | 2020-01-21 | 东南大学 | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 |
CN111429947A (zh) * | 2020-03-26 | 2020-07-17 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
US20200293875A1 (en) * | 2019-03-12 | 2020-09-17 | International Business Machines Corporation | Generative Adversarial Network Based Audio Restoration |
-
2020
- 2020-11-06 CN CN202011228473.9A patent/CN112331232B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847294A (zh) * | 2017-01-17 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 基于人工智能的音频处理方法和装置 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
KR20190111278A (ko) * | 2018-03-22 | 2019-10-02 | 삼성전자주식회사 | 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법 |
CN108986835A (zh) * | 2018-08-28 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 基于改进gan网络的语音去噪方法、装置、设备及介质 |
CN109065021A (zh) * | 2018-10-18 | 2018-12-21 | 江苏师范大学 | 基于条件深度卷积生成对抗网络的端到端方言辨识方法 |
US20200293875A1 (en) * | 2019-03-12 | 2020-09-17 | International Business Machines Corporation | Generative Adversarial Network Based Audio Restoration |
CN110718232A (zh) * | 2019-09-23 | 2020-01-21 | 东南大学 | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 |
CN111429947A (zh) * | 2020-03-26 | 2020-07-17 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
Non-Patent Citations (4)
Title |
---|
YUKI SAITO ET AL.: "Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
余琳等: "基于Gammatone滤波器的混合特征语音情感识别", 《光电技术应用》 * |
张雄等: "基于卷积特征提取与融合的语音情感识别研究", 《电子测量技术》 * |
时文华等: "联合稀疏非负矩阵分解和神经网络的语音增强", 《计算机研究与发展》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113114399A (zh) * | 2021-03-30 | 2021-07-13 | 南京航空航天大学 | 基于生成对抗网络的三维频谱态势补全方法和装置 |
CN115206297A (zh) * | 2022-05-19 | 2022-10-18 | 重庆邮电大学 | 基于时空多重融合网络的变长语音情感识别方法 |
CN115206297B (zh) * | 2022-05-19 | 2024-10-01 | 重庆邮电大学 | 基于时空多重融合网络的变长语音情感识别方法 |
CN115470507A (zh) * | 2022-10-31 | 2022-12-13 | 青岛他坦科技服务有限公司 | 一种中小企业研发项目数据管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112331232B (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN110390950B (zh) | 一种基于生成对抗网络的端到端语音增强方法 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN111445905B (zh) | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
Lu et al. | Speech enhancement based on deep denoising autoencoder. | |
US20180061439A1 (en) | Automatic audio captioning | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN112101241A (zh) | 一种基于深度学习的轻量级表情识别方法 | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN111968666B (zh) | 基于深度域自适应网络的助听器语音增强方法 | |
Zhang et al. | Birdsoundsdenoising: Deep visual audio denoising for bird sounds | |
CN114863938B (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN112767927A (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CN113488060A (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN113035217A (zh) | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 | |
Ram et al. | Speech enhancement through improvised conditional generative adversarial networks | |
Li et al. | Deeplabv3+ vision transformer for visual bird sound denoising | |
CN112530449B (zh) | 基于仿生小波变换的语音增强方法 | |
CN113902095A (zh) | 一种无线通信自动调制识别方法、装置与系统 | |
CN113782044A (zh) | 一种语音增强方法及装置 | |
CN112259086A (zh) | 一种基于语谱图合成的语音转换方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |