CN112331232A

CN112331232A - 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法

Info

Publication number: CN112331232A
Application number: CN202011228473.9A
Authority: CN
Inventors: 应娜; 李怡菲; 郭春生; 杨萌; 杨鹏; 方昕; 郭凡
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-05
Anticipated expiration: 2040-11-06
Also published as: CN112331232B

Abstract

本发明公开了一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，包括：S1、获取干净语谱图以及加噪语谱图；S2、将干净语谱图和加噪语谱图输入基于矩阵距离的条件生成对抗网络进行训练，得到去噪模型；S3、利用去噪模型对加噪语谱图进行去噪处理，分别进行两个不同尺度的双边滤波，得到低、高尺度滤波图，低、高尺度滤波图相差再乘以增强系数，然后与低尺度滤波图相加，得到细节增强的语谱图；S4、将细节增强的语谱图输入卷积神经网络模型中进行分类，得到分类模型；S5、待识别语音的语谱图经过步骤S3中对语谱图的处理，得到的细节增强的语谱图输入分类模型，得到语音情感分类结果。本发明有效实现语音情感的识别。

Description

一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法

技术领域

本发明属于语音识别领域，主要涉及人机交互领域，具体来说，即一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法。

背景技术

将语音情感识别应用于人机交互系统，一方面能够使机器人像人类一样具有“情感”，通过听觉察觉到对方的情感变化，和人类进行更加自然的、智能的交流互动，将人性化、自然化、智能化相融合的交互方式赋予新型人机交互系统。另一方面，基于语音情感的系别系统，能为医疗、机械、教育、服务型提供更新颖的发展思路，将进一步丰富人们的日常生活，成为人类的帮手，高效率的帮助人们解决实际问题，有效提高人们的工作、学习效率，提高人们的生活质量和幸福感。

语音在实际应用中，往往伴随着各种噪声，而噪声的存在会对语音情感识别造成一系列的影响，使得语音的质量和情感信息下降。因此对语音去噪对情感识别是一个重要的研究方向。

当前语音情感特征主要包括韵律特征、频域特征、音质特征。语音信号频域和时域中信号间的相关性在语音情感识别中起到了重要作用。但针对语音信号间相关性的研究，往往仅集中在频域或时域中，语谱图是一种语音能量时频分布的可视化表达方式，其横轴代表时间，纵轴代表频率，连通了时频两域，将语谱图的频率点建模为图像的像素点，便可利用图像特征探讨相邻频点间的联系，为研究时频两域相关性提供了一种新的思路。

原始生成对抗网络(Generative Adversarial Nets，GAN)是由生成器(Generator,G)和判决器(Discriminator,D)组成的训练生成式模型，它将随机噪声和真实图像输入GAN中，通过生成器和判决器不断的对抗学习，从而生成近似真实数据的图像。在对抗训练中，生成器通过不断的迭代学习生成图像，企图“欺骗”判决器；判决器通过不断学习，希望尽可能的“不受欺骗”，判决器和生成器通过不断的对抗训练，寻求最优解。

双边滤波是一种非线性滤波器，它可以达到保持边缘、降噪平滑的效果。和其他滤波原理一样，双边滤波也是采用加权平均的方法，用周边像素亮度值的加权平均代表某个像素的强度，所用的加权平均基于高斯分布。最重要的是，双边滤波的权重不仅考虑了像素的欧氏距离，还考虑了像素范围域中的辐射差异，在计算中心像素的时候同时考虑这两个权重，这样就保证了边缘附近像素值的保存，有利于语谱图纹理细节的增强。

发明内容

针对现有技术中存在的上述问题，本发明提供一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，通过将语音信号转换为语谱图，然后使用基于矩阵距离的生成对抗网络MD-CGAN对语谱图去噪，并使用不同尺度的双边滤波增强语谱图的细节信息，最后将增强后的语谱图放入迁移的卷积神经网络中进行情感分类。

本发明采取如下技术方案：

一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，包括以下步骤：

S1、采集语音情感数据集，获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集；

S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练，得到去噪模型；

S3、利用去噪模型对加噪语谱图进行去噪处理，得到去噪语谱图；对去噪语谱图分别进行两个不同尺度的双边滤波，得到低尺度滤波图和高尺度滤波图，低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计，然后与低尺度滤波图相加，得到细节增强的语谱图；

S4、引入卷积神经网络并迁移其预训练的卷积层权重参数，接着将细节增强的语谱图输入卷积神经网络中进行分类，得到分类模型；

S5、待识别语音的语谱图经过步骤S3中对语谱图的处理，得到待识别语音对应的细节增强的语谱图，并将其输入分类模型，得到语音情感分类结果。

作为优选方案，所述步骤S1，包括：

对语音情感数据集中的每个语音信号进行分帧、加窗的预处理，然后进行短时离散傅里叶变化，得到频谱X(k)：

其中，N为窗长，x(n)为语音信号，w(n)为汉明窗函数，k为语音的频率，i是虚函数单位，n为时序采样点；

再以对数振幅描述来生成语谱图：

S(k,t)＝20×log₁₀|X_t(k)|

其中，X(k)为t时刻的频谱；

对语谱图按照情感类别设置相应的情感标签。

作为优选方案，所述步骤S2，包括：

对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下：

其中，D代表判决器，G表示生成器，V(D,G)表示去噪语谱图和干净的语谱图的差异程度；E为数学期望，x表示干净语谱图，p_data(x)表示干净语谱图的概率分布；z表示加噪语谱图，p_z(z)为加噪语谱图的概率分布；y表示语音的情感标签，D(x|y)表示输入x和y时，判决器判定其为干净的语谱图的概率；

去噪模型的训练过程，包括以下步骤：

(1)给定生成器模型，优化判决器，判决器为一个二分类模型，用于判定输入的语谱图是干净语谱图还是加噪语谱图；

(2)在判决器取得优的情况下，训练生成器；生成器的训练目标是将输出的去噪语谱图能混淆判定器，使得判定器将去噪语谱图判定为1，即干净语谱图；

基于矩阵距离的条件生成对抗网络MD-CGAN，通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束；

所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到，将语谱图损失和对抗损失结合起来共同作为损失方程，得到改进后的损失方程如下：

其中，I_g表示生成器的输出，即去噪语谱图；I_x表示干净语谱图，p_G(x)表示通过生成器去噪之后的语谱图的概率分布，w、h、c分别指语谱图的宽、高和通道数；

(3)返回步骤(1)直到训练达到最优值，得到去噪模型。

作为优选方案，所述步骤S3中，所述双边滤波的算法如下：

基于空间距离的权重因子生成，通过当前点与中心点的空间距离并使用如下公式计算滤波输出

||S_p-S_q||²＝(x_p-x_q)²+(y_p-y_q)²

其中，(x_p，y_p)为当前位置，(x_q，y_q)为中心点的位置，σ_s为空间域标准差，σ_s越小，对图片的模糊度越小；

基于灰度距离的权重因子的生成，主要通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成，主要通过两个当前灰度与中心点灰度的灰度距离计算

||V_p-V_q||²＝(gray(x_p,y_p)-gray(x_q,y_q))²

其中，V代表值域信息，gray(x_p,y_p)为当前灰度值，gray(x_q,y_q)为中心点灰度值，σ_r为值域标准差，σ_r越小，权重越小；离中心点位置越近，权重越大；

双边滤波图像输出计算：

其中，S表示空间域，

表示归一化因子，

表示像素q在邻域M内的所有像素的加权平均；σ_s和σ_r的取值范围为[0，1]；

通过不同尺度空间域标准差σ_s、值域标准差σ_r获取低尺度滤波图和高尺度滤波图，将σ_s、σ_r都小的滤波图设为P1，并将其作为基底图像；将σ_s、σ_r都大的滤波图设为P2，P1与P2相减作为语谱图的纹理细节图，再乘以增强系数η，然后与P1相加，得到细节增强的语谱图的计算如下：

Z＝P1+η(P1-P2)。

作为优选方案，所述卷积神经网络采用ResNet网络结构。

作为优选方案，所述卷积神经网络包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层，H为大于2的整数。

作为优选方案，所述第二卷积层至第H卷积层均配置残差单元。

作为优选方案，所述第二卷积层至第H卷积层的卷积核大小均为3×3。

作为优选方案，所述第二卷积层至第H卷积层的通道数依次增大。

作为优选方案，所述第一卷积层的卷积核大小为7×7、通道数为64。

本发明与现有技术相比有如下优点：

1.本发明对噪声环境下的语谱图去噪，解决了经典语音去噪算法对语谱图像素间的相关性无法较好恢复的问题。

2.本发明通过对语谱图进行双边滤波，可以平衡语谱图的微小细节和强边缘增强效果，充分发挥语谱图的频域和时域特征。

附图说明

图1是本发明实施例的语音情感识别方法的流程图；

图2是本发明实施例的语谱图；

图3是本发明实施例的环境噪声为白噪声，信噪比为0dB时不同阶段的语谱图；

图4是本发明实施例的不同尺度滤波后的语谱图和细节增强后的语谱图；

图5是本发明实施例的ResNet结构图。

具体实施方式

以下通过具体实施例对本发明的技术方案作进一步解释说明。

如图1所示，本发明实施例的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，包括以下步骤：

S1、采集语音情感数据集，并对语音情感数据集进行预处理，获取干净语音的语谱图数据集；还对语音进行加噪，得到干净语音加噪后的加噪语谱图数据集，即噪声环境下的语谱图数据集；

具体地，对语音情感数据集中的每个语音信号进行分帧、加窗的预处理，然后进行短时离散傅里叶变化，得到频谱X(k)：

再以对数振幅描述来生成语谱图：

S(k,t)＝20×log₁₀|X_t(k)|

其中，X(k)为t时刻的频谱；

对语谱图按照情感类别设置相应的情感标签Y。

具体地，条件生成对抗网络(Conditional Generative Adversarial Networks，CGAN)，它在生成器G和判决器D的模型中都引入了约束条件y，y可以是类别标签，也可以是不同模态的数据，通过约束条件能够指导生成器生成正确的数据。因此，CGAN可以看作是将无监督的模型转换为有监督的模型。

对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下：

去噪模型的训练过程，包括以下步骤：

(1)给定生成器模型，优化判决器，判决器为一个二分类模型，用于判定输入的语谱图是干净语谱图还是加噪语谱图；当输入干净的语谱图时，D(x|y)输出的概率值较大；当输入去噪之后的语谱图G(z|y)时，D(G(z|y))输出的概率值较小，则1-D(G(z|y))的值较大，则V(D,G)取得最大值。

(2)在判决器取得优的情况下，训练生成器；生成器的训练目标是将输出的去噪语谱图能混淆判定器，使得判定器将去噪语谱图判定为1，即干净语谱图；此时D(x|y)输出的概率值较小；当输入去噪之后的语谱图G(z|y)时，D(G(z|y))输出的概率值较大，则1-D(G(z|y))的值较小，则V(D,G)取得最小值。

由于噪声环境下提取的语谱图与对应干净语谱图的矩阵距离差异过大，通过原始生成器的损失函数很难完全学习到两幅图像间的映射关系。针对语谱图差异性过大的问题，本发明实施例基于矩阵距离的条件生成对抗网络MD-CGAN，通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束；

其中，I_g表示生成器的输出，即去噪语谱图；I_x表示干净语谱图，p_G(x)表示通过生成器去噪之后的语谱图的概率分布，w、h、c分别指语谱图的宽、高和通道数；该损失方程利用欧式距离防止过分拟合造成语谱图去噪之后质量下降问题，使得去噪之后的语谱图质量得到提升。

(3)返回步骤(1)直到训练达到最优值，得到去噪模型。

S3、利用去噪模型对加噪语谱图进行去噪处理，得到去噪语谱图；对去噪语谱图分别进行两个不同尺度的双边滤波，得到低尺度滤波图和高尺度滤波图，低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计，然后与低尺度滤波图相加，得到细节增强的语谱图。

经过MD-CGAN模型去噪后，虽然对噪声覆盖区域的情感特征进行了较好地还原，但经过去噪模型映射得到的图像较干净的谱图，纹理细节清晰度存在差异性。故本发明实施例提出了基于双边滤波的纹理细节增强模型，以增强谱图的情感特征细节信息。

具体地，双边滤波是一种非线性的滤波方法，是结合图像的空间邻近度和像素值相似度的一种折中处理，同时考虑空域信息和灰度相似性，达到保边去噪的目的。

根据下面算法实现双边滤波：

||S_p-S_q||²＝(x_p-x_q)²+(y_p-y_q)²

基于灰度距离的权重因子的生成，通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成，通过两个当前灰度与中心点灰度的灰度距离计算

||V_p-V_q||²＝(gray(x_p,y_p)-gray(x_q,y_q))²

双边滤波图像输出计算：

其中，S表示空间域，

表示归一化因子，

经过去噪模型后的语谱图信息特征存在一定的模糊，所以需要进行细节增强。通过不同尺度空间域标准差σ_s、值域标准差σ_r获取低尺度滤波图和高尺度滤波图，将σ_s、σ_r都小的滤波图设为P1，保留了更多的细节信息，将其作为基底图像；将σ_s、σ_r都大的滤波图设为P2，P2的模糊程度大，纹理细节消失的较多，图片较为光滑。P1与P2相减作为语谱图的纹理细节图，这幅图像包含了语谱图更多的纹理细节，再乘以增强系数η，更加凸显纹理细节，然后与P1相加，得到细节增强的语谱图的计算如下：

Z＝P1+η(P1-P2)。

通过参数迁移的方法获取ResNet网络结构。深度神经网络的识别性能对数据量要求较高，参数迁移能够利用网络模型在大规模数据集上预先训练好的具有强大学习能力的参数来初始化训练小型数据集的网络模型的参数，从而加快网络训练速度，并减弱在小数据集上训练时过拟合现象的影响。

ResNet主要的优点如下：

使得训练超级深的神经网络成为可能，避免了不断加深神经网络，提高准确率。输入可以直接连接到输出，使得整个网络只需要学习残差，简化学习目标和难度。ResNet是一个推广性非常好的网络结构，容易和其他网络结合。将增强后的语谱图输入ResNet网络中进行语音情感分类。用该预测结果就可以与样本的真实响应值比较，从而得到预测误差。

S5、待识别语音的语谱图经过步骤S3中对语谱图的处理，即经过去噪处理以及得到待识别语音对应的细节增强的语谱图，并将其输入分类模型，得到语音情感分类结果。

当前公开的较为完整的语音情感数据集有CASIA汉语语音情感数据库。CASIA汉语情感语料库由中国科学院自动化所录制，共包括四个专业发音人，六种情绪：生气、高兴、害怕、悲伤、惊讶和中性，共9600句不同发音，包括300句相同文本和100句不同文本。

Noise-92数据库是由荷兰的语音研究所测量的噪声数据库。其中包含了100种不同的噪声，样本采样率为19.98KHz，16bit量化。本论文种选取其中的4种常见的噪声，即白噪声，餐厅噪声，工厂噪声和马路上的噪声。

将语音信号进行预处理，然后将语音信号转换为语谱图，并为得到的语谱图数据集中的图片打上相应的所属情感类别的标签。语谱图实例，如图2所示。

在干净和噪声环境下生成的语谱图以及经过MD-CGAN去噪之后的语谱图如图3所示。

将语谱图经过两种不同尺度的滤波器进行双边滤波，得到两种图片，小尺度滤波和大尺度滤波，以及经过低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图，如图4所示。

卷积神经网络采用ResNet网络模型，通过迁移ResNet网络在ImageNet数据集预训练过的参数来训练语谱图。将每个音频对应的语谱图输入ResNet模型中，进行语音识别训练测试，ResNet结构图如图5所示，ResNet网络结构包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层，H为大于2的整数，其中，第二卷积层至第H卷积层均配置残差单元，第二卷积层至第H卷积层的卷积核大小均为3×3，且第二卷积层至第H卷积层的通道数依次增大，例如：64、128、256、512等。另外，第一卷积层的卷积核大小为7×7、通道数为64。

本发明公开的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，涉及人机交互领域，使人类与机器交流更加便捷。其实现过程是：将噪声和干净环境下的语音信号转换为语谱图，经过MD-CGAN对语谱图去噪，然后通过多尺度滤波获取两种模糊的语谱图，低尺度的语谱图作为滤波基图，将低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图，将增强后语谱图输入到卷积神经中网络中分类，最终达到语音情感识别的目的。有效提高了语音情感识别的准确性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。