CN109637522B

CN109637522B - 一种基于语谱图提取深度空间注意特征的语音情感识别方法

Info

Publication number: CN109637522B
Application number: CN201811599907.9A
Authority: CN
Inventors: 王金华; 应娜; 朱辰都
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2022-12-09
Anticipated expiration: 2038-12-26
Also published as: CN109637522A

Abstract

本发明公开了一种基于语谱图提取深度空间注意特征的语音情感识别方法，采用以下步骤完成：步骤a：对已标注指定情感标签的标准情感数据库中的语音进行预处理，生成语谱图；步骤b：将所述语谱图送入AItti模型提取SEF特征；步骤c：将所述语谱图送入语音情感模型提取浅层特征；步骤d：将所述SEF特征和所述浅层特征作为输入，送到CSWNet中，生成标定权重特征；步骤e：将所述标定权重特征送入CRNN之后的网络层，提取深度情感特征，通过Softmax分类器进行情感分类，生成最终分类结果。本发明所述方法相比于传统模型，在少量增加模型复杂度的前提下，平均识别率提升了8.43％，非同类情感区分效果明显，兼具良好的泛化性。

Description

一种基于语谱图提取深度空间注意特征的语音情感识别方法

技术领域

本发明属于人工智能情感识别领域，特别涉及一种基于语谱图提取深度空间注意特征的语音情绪识别方法。

背景技术

随着人工智能技术和机器人产业的迅速发展，人们不断对人工智能的交互化提出了更高的要求。然而，迄今大多数人工智能系统都不能识别人类的各种情感并做出相应的反应。目前，对于人机交互的研究主要集中在图像情感识别和语音情感识别(SpeechEmotion Recognition，SER)上，而图像情感识别主要针对的是人类面部表情识别，人类面部表情存在变化幅度小、种类多和速度快等问题，这导致技术上精准实现受限，同时图像情感识别对硬件要求较高很难被广泛应用或普及。而语音作为兼具语义和声音的一维时域信号，可以满足对情感识别的要求，同时硬件要求相对较小。

对于语音的情感识别需要克服提取情感信息面临的困难，主要包括：多样性(说话人的多样性，环境的多样性等)和情感特征等。对于多样性的问题，深度学习的迅速发展给SER带来了更大的突破，例如：卷积神经网络(Convolutional Neural Network，CNN)，能够捕获具有全局感受域的分层模式作为强大的图像描述，同时由于其局部连接和权重共享的特点，使得其具有很好的平移不变性。将卷积神经网络的思想应用到语音情感识别的声学建模中，则可以克服语音信号本身的多样性；更深的研究发现随着层数的增加，可以建立从低层声学特征到高层抽样特征(情感、语义)的映射，继而获得数据的更有效信息。

在语音情感识别情感特征的研究上，许多学者做了很多尝试，比如传统特征的选取，选取指定的特征仿真识别效果；选取经过处理后的特征(如一阶差分等)仿真识别效果，但这些序列特征存在一定的局限性，即取这样的频域特征注重频率维度忽略了时间维度的影响，相反的选取时域特征的则会忽略频率维度的影响，同时使得时频域间隐藏的潜在性质(关联性等)被忽略。随后有学者尝试将语谱图和图像处理的网络相结合，即克服了传统特征的缺点，又做到了模型和输入的互补，一定程度上对语音的情感识别起到一定的推动作用，但如何选取合适的情感相关特征一直是研究的重点。

发明内容

针对目前现有技术中存在的上述缺陷，本发明提出一种基于语谱图提取深度空间注意特征的语音情绪识别方法，通过建立新模型提高语音情感识别效率，具有良好的泛化性。

为实现上述技术目的，本发明采用以下技术方案：

一种基于语谱图提取深度空间注意特征的语音情感识别方法，包括以下步骤：

步骤a：对已标注指定情感标签的标准情感数据库中的语音进行预处理，生成语谱图；

步骤b：将所述语谱图送入AItti(Attention Itti)模型提取情感相关特征(Strong Emotion Feature，SEF)；

步骤c：将所述语谱图送入语音情感模型提取浅层特征。

步骤d：将所述SEF特征和所述浅层特征作为输入，送到约束型空间权重网络(Constrained Space Weight Networks，CSWNet)中，生成标定权重特征；

步骤e：将所述标定权重特征送入混合神经网络之后的网络层，提取深度情感特征，通过Softmax分类器进行情感分类，生成最终分类结果。

传统的Itti视觉模型为了弥补金字塔采样过程不停的使用邻近插值，造成边缘信息丢失，从而导致显著图的分辨率降低这一问题，本发明通过增加由LBP算法提取纹理特征来弥补这一缺陷。

同时，传统的Itti视觉模型中采用均值求和方法获得最终显著图，而研究表明，通过这种方法提取的显著区域会存在较多噪声，影响图像的清晰度和完整度，对最终情感识别有一定影响。据此，本发明提出情感敏感度权重方法来改进信息融合，以获得信息相对完整的显著图。对于情感信息的处理过程，通常先利用包含情感信息的局部帧，先获取主要音素位置；再获得相关帧附近的频率、频率间的相关梯度等特征，最后根据本文提出情感敏感度权重方法求显著图，即SEF特征。综上，基于两种改进方法最终形成AItti模型。

CSWNet是SENet的改进模型，选取SENet作为基础结构，主要考虑到其良好的空间关联性及语音情感识别的实际情况。CSWNet目的是从全局特征中甄选出与SEF特征相近的特征，解决这个特征约束问题可以通过闸值公式来实现。CSWNet一方面继承了SENet的空间“注意力”特性；另一方面在保留全局特征又不破坏特征空间关联性前提下，能够提高SEF特征比重，从而提高情感特征的利用率，达到更好的分类效果。

在整个情感识别系统中，将CSWNet模型置于两层卷积模块之后主要出于以下考虑：浅层网络提取的是低阶特征，比如：边、角、纹理、细节和边缘等特征，神经网络模型的浅层包含更多特征，也具备提取关键特征的能力。如此不断累积网络层数可以检测更加复杂的特征，即高层次特征，比如：抽象特征、语义特征等，相对而言，层数越深，提取的特征越具有代表性，鉴于CSWNet模型在AItti模型提取SEF特征的过程中选取的四种注意特征图属于初级特征类别，所以将其放在浅层网络之后，目的是为了更好的甄选出与其相近的特征。

优选地，步骤a中：

所述预处理生成语谱图的具体公式为：

x(n)为有序长语音时域信号，n为时序采样点信号，窗长为M，w(n)为汉宁窗，函数公式如下：

所述已标注指定情感标签，包括中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。

优选地，步骤b具体包括以下步骤：

设训练语音

其中，

为第i条训练语音，train表示为训练数据；

先将语音转化成语谱图

再经高斯滤波后输出图

(1)获取特征图

对于输入的语谱图

第j层图像计算公式为：

其中w(m,n)为下采样高斯核函数，采用

的平滑滤波器，经过8次高斯滤波下采，形成9层高斯金字塔结构；

第j层颜色特征图包括如下两组红绿和黄蓝通道，其中r,g,b分别表示图像的红色、绿色和蓝色通道，具体表达式如下：

第j层亮度通道特征图为r，g，b的均值，具体表达式如下：

第j层纹理通道特征图处理过程为，将语谱图

灰度化，经过局部二值算法得到

再经梯度采样获得纹理通道特征，具体表达式如下：

其中

(x_c,y_c)代表3×3邻域的中心元素，像素为i_c，邻域像素值为i_p，s(x)是符号函数，定义如下：

第j层方向通道特征图为图像经过二维Gabor方向滤波器提取所得，具体表达式如下：

(2)经中央周边差和归一化运算得到颜色、亮度、方向和纹理的显著图，分别表示为

根据听觉敏感度和情感信息处理过程，本文提出听觉敏感权重调整方法来改进信息融合的方法，颜色对应着语音中的能量信息，高能量和共振峰特征恰恰是区分不同音素的关键特征，亮度和方向对应着频率和相邻频率间的相关梯度特征，结合视觉理论研究和人耳听觉敏感度，以获得信息相对完整的显著图，其中，wc、wi、wo和wt的比例为3:2:1:4。

优选地，步骤c具体为：将语谱图数据

放入微调的混合神经网络的前两层，提取出浅层特征图

记为待标定特征，其中第i个待标定权重的特征图为

步骤c中微调的混合神经网络(Fine-tuned Convolutional Neural Network，F_CRNN)的优化主要基于以下：

(1)数据处理

对语音进行语音增强，获取增强语音作为原始语料，其中语音增强方法采用经典的基于短时谱估计的算法，然后再对增强语音进行语谱图提取。模型采用有监督训练，有监督类算法对于非平稳噪声往往能得到更好的降噪效果。

(2)引入范数

为了提高模型的泛化能力，引入范数为正则化目标函数，范数可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择，通过惩罚项极大值能够降低模型的非线性，防止过拟合的产生。

(3)ReLU激活函数

本文选取的是ReLU激活函数，经过该函数后会形成“稀疏表征”的特征，解决神经网络稀疏性不足的问题。与其他激活函数相比，像Sigmoid激活函数会存在倒数缩减和饱和缩放问题，不断经过反向传播可能会产生梯度衰减，而ReLU求导后激活函数梯度为1，只有负值端饱和，有效减少了梯度下降问题。

(4)归一化层

归一化也可以理解为一个正则化项。研究证明将批量标准化应用到目前复杂的图像分类模型上，批标准化在取得相同的精度的情况下，有实验证明能够减少了14倍的训练步骤，并以显著的差距优于了原始模型。

优选地，步骤d具体包括以下子步骤：

(1)将步骤c中获得的待标定特征

和步骤b中获得的目标情感特征

分别经过全局池化进行数据压缩得到对应的特征数据，分别记为

和

具体公式如下：

(2)将特征维度降低到输入的1/16，经过ReLu函数激活，通过一个FC层升回到原来的维度，具体公式如下：

其中δ是指ReLU函数，

和

降维的比例系数为γ；

通过闸值公式选出与SEF特征相近的特征，获得最终标定权重特征，具体公式如下：

如果

在

以α为邻域的半径内，取

的最大值，即提高与SEF特征具有强相关性特征的权重；如果

在

以α为邻域的半径外，

值不变，即相对抑制与SEF特征相关性小的特征权重；

(3)将待标定权重矩阵

与全局特征送入加权操作，获取标定权重特征

与现有技术相比本发明的优点在于：

(1)建立一种基于注意力机制的约束型空间权重结构，相比于传统模型，本模型在少量增加模型复杂度的前提下，平均识别率提升了8.43％。

(2)相比于传统特征提取方法和单一深度特征提取方法，本模型兼顾传统特征和深度特征；同时根据情感识别的实际情况，采用权重调节机制甄选情感强相关特征。实验结果显示非同类情感区分效果明显，兼具良好的泛化性。

附图说明

图1为应用场景示意图

图2为语音情感模型示意图

图3为AItti模型示意图

图4为CSWNet算法框架示意图

图5为实验1中ISENet_CRNN算法的混淆矩阵

具体实施方式

下面结合具体实施例，并结合附图对本发明实施例做详细说明。

在描述本发明的具体技术方案前，先对部分缩写及符号进行定义和系统模型介绍：实验的基本设置为，学习率I为0.001，输入批次B为400个epochs。对于网络的层数，在最优性能下确定，卷积部分以VGGNet为基础经过多次试验形成具体层设置，具体参见表1，F_CRNN网络结构，对于模型权重及偏置的初始化采用随机初始话，为了方便起见，以下的混合神经网络(CRNN)均为经过优化的网络。算法均采用有监督训练，数据的类别标签只在训练时使用，实验结果以识别率的形式呈现(识别率保留百分号前小数点后两位)。

表1

传统特征参数集采用Opensmile软件来提取，Opensmile作为一款提取情感特征的经典工具箱已广泛被学者认可。对于特征的选取主要参考了interspeech2010语音情感识别竞赛中使用的特征集标准，本实验的特征集包括：1582维特征，其中有38个底层描述及其一阶差分，这里采用差值算法将其扩展成固定尺寸输入到网络中。

参见图1，为本发明应用场景的示意图。将本发明运用到语音情感识别中主要步骤包括：

1)语音情感数据库中随机选取80％为训练集，剩下20％作为测试集；

2)参看图2，为本发明的语音情感模型示意图。将训练数据送入语音情感模型进行训练，直至模型收敛，保存训练好的模型参数；

3)获得训练好的语音情感模型；

4)将测试样本送入训练好的语音情感模型中进行测试数据分类；

5)输出测试结果。

考虑到训练数据处理和测试数据处理过程类似，以下以训练数据为例进行说明。算法均采用有监督训练，数据的类别标签只在训练时使用，实验结果以识别率的形式呈现(识别率保留百分号前小数点后两位)。

本发明所述基于语谱图提取深度空间注意特征的语音情感识别方法，包括以下几个步骤：

步骤a：对已标注情感标签的标准情感数据库中的语音数据

进行预处理生成语谱图

这里train均表示训练数据，以第i个数据为例。

这里带标签的标准情感数据库为：自然情感数据库(FAU-AEC)和柏林德语数据库(EMO-DB)，其中选取的自然情感数据库(FAU-AEC)的情感类别标签为：愤怒(敏锐、谴责)、强调、中性、高兴(母语、快乐)和其他，对于泛化实验中选取柏林情感分类，情感类别标签为：中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。

步骤b：参见图3，本发明AItti模型示意图。将步骤a中生成的语谱图

送入改进的Itti模型提取SEF特征

步骤c：参见图4，本发明CSWNet算法框架示意图。将步骤a生成的语谱图送入语音情感模型提取浅层特征

步骤d：步骤b中生成的SEF特征和步骤c中生成的浅层特征作为输入，送到CSWNet结构中，生成标定权重特征

步骤f：将步骤d中产生的标定权重特征送入语音情感模型之后的网络层提取出深度情感特征，通过Softmax分类器进行情感分类，生成最终分类结果。

为了进一步说明本发明，本发明设计了三组实验。

第一组实验模型分别是：基准模型(F_CRNN)、基于改进的SENet的混合模型(CSWNet_CRNN)和基于改进的Itti和改进的SENet的混合模型(ISENet_CRNN)；选取的数据库为FAU-AEC，目的是证明本模型的有用性，即在基线模型的基础上本算法的改进对识别率的提升效果。参见表2，本发明实验1结果示意图，本发明平均识别率为73.83％，相比于基准算法提高了8.43％，相比于CSWNet_CRNN算法提升了2.43％。更近一步从混淆矩阵可以看出，本发明对唤醒度接近的情感区分度较高。参见图5，本发明ISENet_CRNN算法的混淆矩阵示意图。这里定义：愤怒(A)、强调(E)、中性(N)、高兴(P)和其他(R)，对于混淆度较高的情感，其中愤怒和强调、其他和强调混效度较高，因为本数据库采用的是自然情感数据库，强调发音特性与愤怒和其他较相似，导致模型误判率升高，可以看出总体上本模型对于情感特征区分性较明显。

表2

第二组实验模型分别为：基线模型F_CRNNI模型，输入为传统特征；基线模型F_CRNNII，输入为语谱图；ISENet_CRNN模型，输入为语谱图；选取的数据库为FAU-AEC，目的是证明本模型在少量增加模型复杂度的前提下，能够提取出更具有区分力的特征从而提高了整体识别率。参见表3，本发明实验2结果示意图，本发明识别率优于语谱图加基准模型10.81％，优于传统特征加基准模型20.68。参见表4，时间复杂度ISENet_CRNN>F_CRNNII>F_CRNNI，其中F_CRNNII算法训练和测试的平均时间与F_CRNNI算法相比增加了约0.5毫秒；ISENet_CRNN算法相比F_CRNNII算法训练平均时间增加了3.1092毫秒，测试平均时间增加了0.7954毫秒，该部分时间复杂度主要由于ISENet_CRNN算法中的空间权重结构，理论上该结构出入通道参数量不变，模型精度损失为0，额外计算量(<1％)，但本次试验训练时间增长16.9263％，测试时间增长4.9795％，GPU平均时间增长小于17％，一方面由于结构本身增加的复杂度，另一方面可能由于实验采用GPU(GTX750TI)质量较差，影响了实验结果。

表3

表4

第三组实验模型为ISENet_CRNN算法，更换数据集为EMO-DB，目的是验证本发明的泛化效果。参见表5，本发明实验4结果示意图，在EMO-DB数据集下平均识别率为79.97％，相较于FAU-AEC数据集提升了6.14％，这一方面得益于本模型良好的泛化效果，两一方面得益于EMO-DB中包含的语音由专业演员所录制，相较于自然情感数据库可能存在情感放大效果，所以对识别效果具有良性影响。

表5

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。