CN112331232B - 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 - Google Patents

一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 Download PDF

Info

Publication number
CN112331232B
CN112331232B CN202011228473.9A CN202011228473A CN112331232B CN 112331232 B CN112331232 B CN 112331232B CN 202011228473 A CN202011228473 A CN 202011228473A CN 112331232 B CN112331232 B CN 112331232B
Authority
CN
China
Prior art keywords
spectrogram
denoising
voice
scale
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011228473.9A
Other languages
English (en)
Other versions
CN112331232A (zh
Inventor
应娜
李怡菲
郭春生
杨萌
杨鹏
方昕
郭凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011228473.9A priority Critical patent/CN112331232B/zh
Publication of CN112331232A publication Critical patent/CN112331232A/zh
Application granted granted Critical
Publication of CN112331232B publication Critical patent/CN112331232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,包括:S1、获取干净语谱图以及加噪语谱图;S2、将干净语谱图和加噪语谱图输入基于矩阵距离的条件生成对抗网络进行训练,得到去噪模型;S3、利用去噪模型对加噪语谱图进行去噪处理,分别进行两个不同尺度的双边滤波,得到低、高尺度滤波图,低、高尺度滤波图相差再乘以增强系数,然后与低尺度滤波图相加,得到细节增强的语谱图;S4、将细节增强的语谱图输入卷积神经网络模型中进行分类,得到分类模型;S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到的细节增强的语谱图输入分类模型,得到语音情感分类结果。本发明有效实现语音情感的识别。

Description

一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别 方法
技术领域
本发明属于语音识别领域,主要涉及人机交互领域,具体来说,即一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法。
背景技术
将语音情感识别应用于人机交互系统,一方面能够使机器人像人类一样具有“情感”,通过听觉察觉到对方的情感变化,和人类进行更加自然的、智能的交流互动,将人性化、自然化、智能化相融合的交互方式赋予新型人机交互系统。另一方面,基于语音情感的系别系统,能为医疗、机械、教育、服务型提供更新颖的发展思路,将进一步丰富人们的日常生活,成为人类的帮手,高效率的帮助人们解决实际问题,有效提高人们的工作、学习效率,提高人们的生活质量和幸福感。
语音在实际应用中,往往伴随着各种噪声,而噪声的存在会对语音情感识别造成一系列的影响,使得语音的质量和情感信息下降。因此对语音去噪对情感识别是一个重要的研究方向。
当前语音情感特征主要包括韵律特征、频域特征、音质特征。语音信号频域和时域中信号间的相关性在语音情感识别中起到了重要作用。但针对语音信号间相关性的研究,往往仅集中在频域或时域中,语谱图是一种语音能量时频分布的可视化表达方式,其横轴代表时间,纵轴代表频率,连通了时频两域,将语谱图的频率点建模为图像的像素点,便可利用图像特征探讨相邻频点间的联系,为研究时频两域相关性提供了一种新的思路。
原始生成对抗网络(Generative Adversarial Nets,GAN)是由生成器(Generator,G)和判决器(Discriminator,D)组成的训练生成式模型,它将随机噪声和真实图像输入GAN中,通过生成器和判决器不断的对抗学习,从而生成近似真实数据的图像。在对抗训练中,生成器通过不断的迭代学习生成图像,企图“欺骗”判决器;判决器通过不断学习,希望尽可能的“不受欺骗”,判决器和生成器通过不断的对抗训练,寻求最优解。
双边滤波是一种非线性滤波器,它可以达到保持边缘、降噪平滑的效果。和其他滤波原理一样,双边滤波也是采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素的强度,所用的加权平均基于高斯分布。最重要的是,双边滤波的权重不仅考虑了像素的欧氏距离,还考虑了像素范围域中的辐射差异,在计算中心像素的时候同时考虑这两个权重,这样就保证了边缘附近像素值的保存,有利于语谱图纹理细节的增强。
发明内容
针对现有技术中存在的上述问题,本发明提供一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,通过将语音信号转换为语谱图,然后使用基于矩阵距离的生成对抗网络MD-CGAN对语谱图去噪,并使用不同尺度的双边滤波增强语谱图的细节信息,最后将增强后的语谱图放入迁移的卷积神经网络中进行情感分类。
本发明采取如下技术方案:
一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,包括以下步骤:
S1、采集语音情感数据集,获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集;
S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;
S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图;
S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。
作为优选方案,所述步骤S1,包括:
对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):
Figure BDA0002764388660000031
其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;
再以对数振幅描述来生成语谱图:
S(k,t)=20×log10|Xt(k)|
其中,X(k)为t时刻的频谱;
对语谱图按照情感类别设置相应的情感标签。
作为优选方案,所述步骤S2,包括:
对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
Figure BDA0002764388660000032
其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,pdata(x)表示干净语谱图的概率分布;z表示加噪语谱图,pz(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
去噪模型的训练过程,包括以下步骤:
(1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;
(2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;
基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:
Figure BDA0002764388660000041
Figure BDA0002764388660000042
其中,Ig表示生成器的输出,即去噪语谱图;Ix表示干净语谱图,pG(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;
(3)返回步骤(1)直到训练达到最优值,得到去噪模型。
作为优选方案,所述步骤S3中,所述双边滤波的算法如下:
基于空间距离的权重因子生成,通过当前点与中心点的空间距离并使用如下公式计算滤波输出
Figure BDA0002764388660000043
Figure BDA0002764388660000044
||Sp-Sq||2=(xp-xq)2+(yp-yq)2
其中,(xp,yp)为当前位置,(xq,yq)为中心点的位置,σs为空间域标准差,σs越小,对图片的模糊度越小;
基于灰度距离的权重因子的生成,主要通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成,主要通过两个当前灰度与中心点灰度的灰度距离计算
Figure BDA00027643886600000411
Figure BDA0002764388660000046
||Vp-Vq||2=(gray(xp,yp)-gray(xq,yq))2
其中,V代表值域信息,gray(xp,yp)为当前灰度值,gray(xq,yq)为中心点灰度值,σr为值域标准差,σr越小,权重越小;离中心点位置越近,权重越大;
双边滤波图像输出计算:
Figure BDA0002764388660000047
Figure BDA0002764388660000048
其中,S表示空间域,
Figure BDA0002764388660000049
表示归一化因子,
Figure BDA00027643886600000410
表示像素q在邻域M内的所有像素的加权平均;σs和σr的取值范围为[0,1];
通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图,将σs、σr都小的滤波图设为P1,并将其作为基底图像;将σs、σr都大的滤波图设为P2,P1与P2相减作为语谱图的纹理细节图,再乘以增强系数η,然后与P1相加,得到细节增强的语谱图的计算如下:
Z=P1+η(P1-P2)。
作为优选方案,所述卷积神经网络采用ResNet网络结构。
作为优选方案,所述卷积神经网络包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层,H为大于2的整数。
作为优选方案,所述第二卷积层至第H卷积层均配置残差单元。
作为优选方案,所述第二卷积层至第H卷积层的卷积核大小均为3×3。
作为优选方案,所述第二卷积层至第H卷积层的通道数依次增大。
作为优选方案,所述第一卷积层的卷积核大小为7×7、通道数为64。
本发明与现有技术相比有如下优点:
1.本发明对噪声环境下的语谱图去噪,解决了经典语音去噪算法对语谱图像素间的相关性无法较好恢复的问题。
2.本发明通过对语谱图进行双边滤波,可以平衡语谱图的微小细节和强边缘增强效果,充分发挥语谱图的频域和时域特征。
附图说明
图1是本发明实施例的语音情感识别方法的流程图;
图2是本发明实施例的语谱图;
图3是本发明实施例的环境噪声为白噪声,信噪比为0dB时不同阶段的语谱图;
图4是本发明实施例的不同尺度滤波后的语谱图和细节增强后的语谱图;
图5是本发明实施例的ResNet结构图。
具体实施方式
以下通过具体实施例对本发明的技术方案作进一步解释说明。
如图1所示,本发明实施例的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,包括以下步骤:
S1、采集语音情感数据集,并对语音情感数据集进行预处理,获取干净语音的语谱图数据集;还对语音进行加噪,得到干净语音加噪后的加噪语谱图数据集,即噪声环境下的语谱图数据集;
具体地,对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):
Figure BDA0002764388660000061
其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;
再以对数振幅描述来生成语谱图:
S(k,t)=20×log10|Xt(k)|
其中,X(k)为t时刻的频谱;
对语谱图按照情感类别设置相应的情感标签Y。
S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;
具体地,条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN),它在生成器G和判决器D的模型中都引入了约束条件y,y可以是类别标签,也可以是不同模态的数据,通过约束条件能够指导生成器生成正确的数据。因此,CGAN可以看作是将无监督的模型转换为有监督的模型。
对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
Figure BDA0002764388660000062
其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,pdata(x)表示干净语谱图的概率分布;z表示加噪语谱图,pz(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
去噪模型的训练过程,包括以下步骤:
(1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;当输入干净的语谱图时,D(x|y)输出的概率值较大;当输入去噪之后的语谱图G(z|y)时,D(G(z|y))输出的概率值较小,则1-D(G(z|y))的值较大,则V(D,G)取得最大值。
(2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;此时D(x|y)输出的概率值较小;当输入去噪之后的语谱图G(z|y)时,D(G(z|y))输出的概率值较大,则1-D(G(z|y))的值较小,则V(D,G)取得最小值。
由于噪声环境下提取的语谱图与对应干净语谱图的矩阵距离差异过大,通过原始生成器的损失函数很难完全学习到两幅图像间的映射关系。针对语谱图差异性过大的问题,本发明实施例基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:
Figure BDA0002764388660000071
Figure BDA0002764388660000072
其中,Ig表示生成器的输出,即去噪语谱图;Ix表示干净语谱图,pG(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;该损失方程利用欧式距离防止过分拟合造成语谱图去噪之后质量下降问题,使得去噪之后的语谱图质量得到提升。
(3)返回步骤(1)直到训练达到最优值,得到去噪模型。
S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图。
经过MD-CGAN模型去噪后,虽然对噪声覆盖区域的情感特征进行了较好地还原,但经过去噪模型映射得到的图像较干净的谱图,纹理细节清晰度存在差异性。故本发明实施例提出了基于双边滤波的纹理细节增强模型,以增强谱图的情感特征细节信息。
具体地,双边滤波是一种非线性的滤波方法,是结合图像的空间邻近度和像素值相似度的一种折中处理,同时考虑空域信息和灰度相似性,达到保边去噪的目的。
根据下面算法实现双边滤波:
基于空间距离的权重因子生成,通过当前点与中心点的空间距离并使用如下公式计算滤波输出
Figure BDA0002764388660000081
Figure BDA0002764388660000082
||Sp-Sq||2=(xp-xq)2+(yp-yq)2
其中,(xp,yp)为当前位置,(xq,yq)为中心点的位置,σs为空间域标准差,σs越小,对图片的模糊度越小;
基于灰度距离的权重因子的生成,通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成,通过两个当前灰度与中心点灰度的灰度距离计算
Figure BDA0002764388660000089
Figure BDA0002764388660000084
||Vp-Vq||2=(gray(xp,yp)-gray(xq,yq))2
其中,V代表值域信息,gray(xp,yp)为当前灰度值,gray(xq,yq)为中心点灰度值,σr为值域标准差,σr越小,权重越小;离中心点位置越近,权重越大;
双边滤波图像输出计算:
Figure BDA0002764388660000085
Figure BDA0002764388660000086
其中,S表示空间域,
Figure BDA0002764388660000087
表示归一化因子,
Figure BDA0002764388660000088
表示像素q在邻域M内的所有像素的加权平均;σs和σr的取值范围为[0,1];
经过去噪模型后的语谱图信息特征存在一定的模糊,所以需要进行细节增强。通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图,将σs、σr都小的滤波图设为P1,保留了更多的细节信息,将其作为基底图像;将σs、σr都大的滤波图设为P2,P2的模糊程度大,纹理细节消失的较多,图片较为光滑。P1与P2相减作为语谱图的纹理细节图,这幅图像包含了语谱图更多的纹理细节,再乘以增强系数η,更加凸显纹理细节,然后与P1相加,得到细节增强的语谱图的计算如下:
Z=P1+η(P1-P2)。
S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
通过参数迁移的方法获取ResNet网络结构。深度神经网络的识别性能对数据量要求较高,参数迁移能够利用网络模型在大规模数据集上预先训练好的具有强大学习能力的参数来初始化训练小型数据集的网络模型的参数,从而加快网络训练速度,并减弱在小数据集上训练时过拟合现象的影响。
ResNet主要的优点如下:
使得训练超级深的神经网络成为可能,避免了不断加深神经网络,提高准确率。输入可以直接连接到输出,使得整个网络只需要学习残差,简化学习目标和难度。ResNet是一个推广性非常好的网络结构,容易和其他网络结合。将增强后的语谱图输入ResNet网络中进行语音情感分类。用该预测结果就可以与样本的真实响应值比较,从而得到预测误差。
S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,即经过去噪处理以及得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。
当前公开的较为完整的语音情感数据集有CASIA汉语语音情感数据库。CASIA汉语情感语料库由中国科学院自动化所录制,共包括四个专业发音人,六种情绪:生气、高兴、害怕、悲伤、惊讶和中性,共9600句不同发音,包括300句相同文本和100句不同文本。
Noise-92数据库是由荷兰的语音研究所测量的噪声数据库。其中包含了100种不同的噪声,样本采样率为19.98KHz,16bit量化。本论文种选取其中的4种常见的噪声,即白噪声,餐厅噪声,工厂噪声和马路上的噪声。
将语音信号进行预处理,然后将语音信号转换为语谱图,并为得到的语谱图数据集中的图片打上相应的所属情感类别的标签。语谱图实例,如图2所示。
在干净和噪声环境下生成的语谱图以及经过MD-CGAN去噪之后的语谱图如图3所示。
将语谱图经过两种不同尺度的滤波器进行双边滤波,得到两种图片,小尺度滤波和大尺度滤波,以及经过低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图,如图4所示。
卷积神经网络采用ResNet网络模型,通过迁移ResNet网络在ImageNet数据集预训练过的参数来训练语谱图。将每个音频对应的语谱图输入ResNet模型中,进行语音识别训练测试,ResNet结构图如图5所示,ResNet网络结构包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层,H为大于2的整数,其中,第二卷积层至第H卷积层均配置残差单元,第二卷积层至第H卷积层的卷积核大小均为3×3,且第二卷积层至第H卷积层的通道数依次增大,例如:64、128、256、512等。另外,第一卷积层的卷积核大小为7×7、通道数为64。
本发明公开的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,涉及人机交互领域,使人类与机器交流更加便捷。其实现过程是:将噪声和干净环境下的语音信号转换为语谱图,经过MD-CGAN对语谱图去噪,然后通过多尺度滤波获取两种模糊的语谱图,低尺度的语谱图作为滤波基图,将低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图,将增强后语谱图输入到卷积神经中网络中分类,最终达到语音情感识别的目的。有效提高了语音情感识别的准确性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (9)

1.一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,包括以下步骤:
S1、采集语音情感数据集,获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集;
S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;
S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图;
S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果;
所述步骤S2,包括:
对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
Figure FDA0003644813050000011
其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,pdata(x)表示干净语谱图的概率分布;z表示加噪语谱图,pz(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
去噪模型的训练过程,包括以下步骤:
(1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;
(2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;
基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:
Figure FDA0003644813050000021
Figure FDA0003644813050000022
其中,Ig表示生成器的输出,即去噪语谱图;Ix表示干净语谱图,pG(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;
(3)返回步骤(1)直到训练达到最优值,得到去噪模型。
2.如权利要求1所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述步骤S1,包括:
对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):
Figure FDA0003644813050000023
其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;
再以对数振幅描述来生成语谱图:
S(k,t)=20×log10|Xt(k)|
其中,Xt(k)为t时刻的频谱;
对语谱图按照情感类别设置相应的情感标签。
3.如权利要求1所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述步骤S3中,所述双边滤波的算法如下:
基于空间距离的权重因子生成,通过当前点与中心点的空间距离并使用如下公式计算滤波输出
Figure FDA0003644813050000024
Figure FDA0003644813050000031
||Sp-Sq||2=(xp-xq)2+(yp-yq)2
其中,(xp,yp)为当前位置,(xq,yq)为中心点的位置,σs为空间域标准差,σs越小,对图片的模糊度越小;
基于灰度距离的权重因子的生成,主要通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成,主要通过两个当前灰度与中心点灰度的灰度距离计算
Figure FDA0003644813050000032
Figure FDA0003644813050000033
||Vp-Vq||2=(gray(xp,yp)-gray(xq,yq))2
其中,V代表值域信息,gray(xp,yp)为当前灰度值,gray(xq,yq)为中心点灰度值,σr为值域标准差,σr越小,权重越小;离中心点位置越近,权重越大;
双边滤波图像输出计算:
Figure FDA0003644813050000034
Figure FDA0003644813050000035
其中,S表示空间域,
Figure FDA0003644813050000036
表示归一化因子,
Figure FDA0003644813050000037
表示像素q在邻域M内的所有像素的加权平均;σs和σr的取值范围为[0,1];
通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图,将σs、σr都小的滤波图设为P1,并将其作为基底图像;将σs、σr都大的滤波图设为P2,P1与P2相减作为语谱图的纹理细节图,再乘以增强系数η,然后与P1相加,得到细节增强的语谱图的计算如下:
Z=P1+η(P1-P2)。
4.如权利要求1-3任一项所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述卷积神经网络采用ResNet网络结构。
5.如权利要求4所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述卷积神经网络包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层,H为大于2的整数。
6.如权利要求5所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层均配置残差单元。
7.如权利要求5或6所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层的卷积核大小均为3×3。
8.如权利要求7所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述第二卷积层至第H卷积层的通道数依次增大。
9.如权利要求5所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述第一卷积层的卷积核大小为7×7、通道数为64。
CN202011228473.9A 2020-11-06 2020-11-06 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 Active CN112331232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011228473.9A CN112331232B (zh) 2020-11-06 2020-11-06 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011228473.9A CN112331232B (zh) 2020-11-06 2020-11-06 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN112331232A CN112331232A (zh) 2021-02-05
CN112331232B true CN112331232B (zh) 2022-08-12

Family

ID=74316943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011228473.9A Active CN112331232B (zh) 2020-11-06 2020-11-06 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN112331232B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114399B (zh) * 2021-03-30 2022-02-01 南京航空航天大学 基于生成对抗网络的三维频谱态势补全方法和装置
CN115470507B (zh) * 2022-10-31 2023-02-07 青岛他坦科技服务有限公司 一种中小企业研发项目数据管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
KR20190111278A (ko) * 2018-03-22 2019-10-02 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
CN110718232A (zh) * 2019-09-23 2020-01-21 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
KR20190111278A (ko) * 2018-03-22 2019-10-02 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN110718232A (zh) * 2019-09-23 2020-01-21 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks;Yuki Saito et al.;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20180131;全文 *
基于Gammatone滤波器的混合特征语音情感识别;余琳等;《光电技术应用》;20200611(第03期);全文 *
基于卷积特征提取与融合的语音情感识别研究;张雄等;《电子测量技术》;20180823(第16期);全文 *
联合稀疏非负矩阵分解和神经网络的语音增强;时文华等;《计算机研究与发展》;20181115(第11期);全文 *

Also Published As

Publication number Publication date
CN112331232A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN110491407B (zh) 语音降噪的方法、装置、电子设备及存储介质
CN110390950B (zh) 一种基于生成对抗网络的端到端语音增强方法
CN111445905B (zh) 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN108172238A (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
US20180061439A1 (en) Automatic audio captioning
CN109637522B (zh) 一种基于语谱图提取深度空间注意特征的语音情感识别方法
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN112101241A (zh) 一种基于深度学习的轻量级表情识别方法
CN111968666B (zh) 基于深度域自适应网络的助听器语音增强方法
CN112331232B (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN109147763A (zh) 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
Do et al. Speech source separation using variational autoencoder and bandpass filter
CN112767927A (zh) 一种提取语音特征的方法、装置、终端及存储介质
Zhang et al. Birdsoundsdenoising: Deep visual audio denoising for bird sounds
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
Ram et al. Speech enhancement through improvised conditional generative adversarial networks
CN112530449B (zh) 基于仿生小波变换的语音增强方法
Li et al. Deeplabv3+ vision transformer for visual bird sound denoising
CN113782044A (zh) 一种语音增强方法及装置
Hepsiba et al. Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN
CN116347723A (zh) 一种可调灯光样色的声控型墙壁开关的控制系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant