CN110084266A

CN110084266A - 一种基于视听特征深度融合的动态情感识别方法

Info

Publication number: CN110084266A
Application number: CN201910180539.2A
Authority: CN
Inventors: 吴敏; 陈略峰; 苏婉娟; 维托尔德·佩德里茨; 王亚午
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-08-02
Anticipated expiration: 2039-03-11
Also published as: CN110084266B

Abstract

本发明提供了一种基于视听特征深度融合的动态情感识别方法，首先对动态情感数据进行预处理，再分别采用三个正交平面的局部二进制模式算法和语谱图提取面部表情模态数据的低层动态情感特征和语音模态数据的低层动态情感特征；然后根据构建的深度卷积神经网络提取面部表情模态数据和语音模态数据的高层动态情感特征；再基于典型相关分析算法将面部表情模态数据和语音模态数据的高层动态情感特征进行融合，得到情感融合特征；最后采用Softmax回归模型对情感融合特征进行识别，得到动态情感类别。本发明的有益效果是：提高动态情感类别的识别率。

Description

一种基于视听特征深度融合的动态情感识别方法

技术领域

本发明涉及模式识别领域，尤其涉及一种基于视听特征深度融合的动态情感识别方法。

背景技术

情感是人们在沟通交流的过程中传递的重要信息，情感状态的变化影响着人们的感知和决策，而且情感表达是一个动态的过程。目前，依靠表情、语音、行为姿态等单一模态的情感识别方法较为成熟，但情感的表达并不仅仅可以通过单种模态，还可以通过多种模态情感信息融合的方式进行表达，不同方式在表达情感时存在一定的互补作用。因为单模态情感识别有一定的局限性，所以基于多种情感表达方式的情感识别更加完整，也更加符合智能人机交互的应用需求。

在人类表达情感的各种方式中，表情和语音是最为直接和明显的表达方式。不同模态的情感信息具有不同的特性，如何充分考虑面部表情和语音信息的特点，研究各模态特征提取与融合方法，提取各模态数据中的关键情感特征，实现多模态特征信息的互补，是获得准确情感状态的关键。

发明内容

为了解决上述问题，本发明充分考虑了情感的动态特征，提供了一种基于视听特征深度融合的动态情感识别方法；对于面部表情模态数据，采用三个正交平面的局部二进制模式(Local Binary Patterns from Three Orthogonal Planes,LBP-TOP)算法提取面部表情变化过程的动态纹理特征；对于语音模态数据，将其转换为语谱图，提取语音频谱随时间变化的特征数据。之后，根据面部表情模态特征和语言模态特征的特性，设计相应的深度卷积神经网络结构，以提取数据的高层语义特征。典型相关性分析可发现不同模态之间的内在联系，不仅能够捕获面部表情和语音数据的空间关系，还能捕获面部表情和语音的复杂时序关系。本发明基于典型相关算法对面部表情和语音数据这两个模态的高层语义情感特征进行融合，能够有效地去除特征之间的冗余，发现面部表情和语音模态之间的内在联系，得到具有较好鉴别力的情感融合特征。该方法主要包括以下步骤：

S1：从实际动态人脸情感数据中获取多个人脸视频构成动态情感数据，对所述动态情感数据进行预处理，得到面部表情图像帧和语音数据；所述动态情感数据包括面部表情模态数据和语音模态数据；

S2：采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态数据的低层动态情感特征，从语音数据转化为的语谱图中提取语音模态数据的低层动态情感特征；

S3：根据面部表情模态数据和语音模态数据的低层动态情感特征，构建深度卷积神经网络，并通过深度卷积神经网络提取面部表情模态数据和语音模态数据的高层动态情感特征；

S4：基于典型相关分析算法将面部表情模态数据和语音模态数据的高层动态情感特征进行融合，得到情感融合特征；

S5：采用Softmax回归模型对情感融合特征进行识别，输出动态情感类别，即完成了对动态情感的识别。

进一步地，步骤S1中，对所述动态情感数据进行预处理的过程如下：

S1-1：对面部表情模态数据进行预处理的具体过程如下：

S1-1-1：对某一个总帧数为的人脸视频，按照等帧距提取多帧图像；为大于零的正整数；

S1-1-2：基于Viola-Jones算法提取所述多帧图像中每帧图像的人脸关键区域；

S1-1-3：将所有标识人脸关键区域的图像都归一化为统一尺寸并转化为灰度图像，得到一组灰度图像序列；

S1-1-4：将所述灰度图像序列中的每一帧灰度图像平分为块，得到一组面部表情图像帧；为大于零的正整数；

S1-1-5：按照步骤S1-1-1～S1-1-4的操作处理动态情感数据中所有的人脸视频，得到多组面部表情图像帧；

S1-2：对语音模态数据进行预处理，具体过程如下：

S1-2-1：从动态情感数据中获取步骤S1-1中所述的人脸视频对应的总时长为M秒的语音数据；M为大于零的正整数；

S1-2-2：截取从(M-1)/2秒到(M-1)/2+1秒间的语音数据；

S1-2-3：按照步骤S1-2-1～S1-2-2的操作处理所有人脸视频中总时长为M秒的语音数据，得到统一长度的语音数据。

进一步地，步骤S2中，提取低层动态情感特征的具体过程如下：

S2-1：采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态的低层动态情感特征，具体过程如下：

S2-1-1：设定步骤S1-1中得到的每组面部表情图像帧中每一图像块的序列为(X,Y,T)，其中，所述图像块的分辨率为X*Y，所述图像块的序列帧长度为T，XY平面上包含每一图像块的纹理信息，XT和YT平面上包含每一图像块在时间和空间上的变化；

S2-1-2：分别从XY、XT和YT平面上提取LBP-TOP直方图特征；

S2-1-3：将得到的LBP_TOP直方图特征进行归一化处理，得到面部表情模态的低层动态情感特征；

S2-2：从语音模态数据转化为的语谱图中提取语音模态数据的低层动态情感特征，具体过程如下：

S2-2-1：对步骤S1-2中得到的语音数据进行分帧处理，得到语音序列y_d(n)，d表示第d帧语音数据，d＝1,...,D，D表示总帧数，d和D均为正整数，n表示每帧语音数据的长度；

S2-2-2：使用哈宁窗对分帧后的语音序列y_d(n)进行加窗处理，利用公式(1)得到加窗分帧处理后的语音信号y_d,w(n)：

y_d,w(n)＝y_d(n)*w(n) (1)

其中，w(n)为哈宁窗函数，N为大于1的正整数，表示哈宁函数长度；

S2-2-3：计算语音信号y_d,w(n)的快速傅里叶变换，得到FFT系数Y_d(k)；k表示FFT的变换区间中的数值，0≤k≤N₁-1，N₁为大于1的正整数，表示FFT的变换区间长度；

S2-2-4：根据FFT系数Y_d(k)，采用log函数生成语谱图，得到语音模态数据的低层动态情感特征。

进一步地，步骤S3中，提取高层动态情感特征的具体过程如下：

S3-1：将步骤S2-1中提取到的面部表情模态数据的低层动态情感特征输入到一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络，提取面部表情模态数据的高层动态情感特征，具体包括以下步骤：

S3-1-1：采用自适应矩估计对构建的深度卷积神经网络进行优化；

S3-1-2：低层动态情感特征依次经过由45个大小为3×3卷积滤波器构成的卷积层，卷积层沿着输入的低层动态情感特征的垂直和水平方向移动卷积滤波器，计算得到卷积滤波器的权值和输入的低层动态情感特征的点积，然后添加偏置项得到卷积特征；

S3-1-3：将卷积特征输入到最大池化层，最大池化层通过大小为3×3的池化滤波器将输入的卷积特征划分为大小为3×3的矩形池区域，并计算每个矩形池区域的最大值，得到池化特征；

S3-1-4：将池化特征输入到Dropout层，得到特征数据；

S3-1-5：将所述特征数据输入到全连接层，全连接层将所述特征数据全部结合起来，得到面部表情模态数据的高层动态情感特征R_h；

S3-2：将步骤S2-2中提取到的语音模态数据的低层动态情感特征输入一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络，提取语音模态数据的高层动态情感特征，具体包括以下步骤：

采用Adam算法对构建的深度卷积神经网络进行优化，低层动态情感特征依次通过由45个大小为3×3卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层1、由90个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层2、由135个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层3，由180个大小为3×3的卷积滤波器构成的卷积层、由215个大小为3×3的卷积滤波器构成的卷积层、由大小为1×13的池化滤波器构成的最大池化层、Dropout层和全连接层组成的深度卷积神经网络，得到语音模态数据的高层动态情感特征J_h。

进一步地，步骤S4中，情感特征进行融合的具体步骤如下：

S4-1：采用主成分分析法分别对面部表情模态数据和语音模态数据的高层动态情感特征R_h和J_h进行降维，得到降维后的面部表情模态R_p和语音模态特征J_p；

S4-2：采用典型相关算法对所述面部表情模态特征R_p和语音模态特征J_p进行典型相关分析，得到同类样本特征之间相关性最大的两组新的面部表情模态特征R_c和语音模态特征J_c；

S4-3：将得到的新的面部表情模态特征R_c和语音模态特征J_c进行串联，得到融合后的特征C＝[R_c,J_c]。

进一步地，步骤S5中，使用所述Softmax回归模型对情感融合特征进行识别的具体过程如下：

S5-1：采用梯度下降算法使所述Softmax回归模型的代价函数J(θ)的导数最小化，对所述Softmax回归模型进行优化；其中，代价函数J(θ)为：(c₁,c₂,…,c_m)为情感融合特征，(z₁,z₂,…,z_m)为输入情感融合特征时对应的标签值，m为情感融合特征总数，t为情感类别总数，i表示i个情感融合特征，j表示第j类情感类别，1{z_i＝j}为示性函数，为Softmax回归模型的参数值；为权重衰减项；

S5-2：采用设定函数h_θ(c_i)计算输入的情感融合特征c_i属于每一种情感类别j的概率值p(z＝j|c)；当输入的情感融合特征c_i对应于情感类别j的概率值在t个概率值中最大时，则判定输入的情感融合特征c_i属于情感类别j；h_θ(c_i)的计算公式为：其中，t为情感类别总数，p(z_i＝j|c_i；θ)为输入的情感融合特征c_i属于情感类别j的概率值，{p(z_i＝1|c_i；θ),p(z_i＝2|c_i；θ),...,p(z_i＝t|c_i；θ)}的和为1。

本发明提供的技术方案带来的有益效果是：提高动态情感的识别速度以及动态情感类别的识别率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中一种基于视听特征深度融合的动态情感识别方法的流程图；

图2是本发明实施例中一种基于视听特征深度融合的动态情感识别方法的框架图；

图3是本发明实施例中面部表情模态数据预处理示意图；

图4是本发明实施例中LBP-TOP空间转换示意图；

图5是本发明实施例中语音模态数据转化为的语谱图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于视听特征深度融合的动态情感识别方法。

请参考图1和图2，图1是本发明实施例中一种基于视听特征深度融合的动态情感识别方法的流程图；图2是本发明实施例中一种基于视听特征深度融合的动态情感识别方法的框架图；基于视听特征深度融合的动态情感识别方法主要可分为五部分，即动态情感数据预处理、低层动态情感特征提取、高层动态情感特征提取、低层动态情感特征与高层动态情感特征融合和情感融合特征识别；具体步骤如下：

S1：从实际动态人脸情感数据中获取多个人脸视频构成动态情感数据，对所述动态情感数据进行预处理，得到面部表情图像帧和语音数据；所述动态情感数据包括面部表情模态数据和语音模态数据；对所述动态情感数据进行预处理的过程如下：

S1-1：如图3所示，对面部表情模态数据进行预处理的具体过程如下：

S1-1-1：对某一个总帧数为的人脸视频，按照等帧距提取多帧图像；为大于零的正整数；本实施例中，采用每间隔帧获取一帧图像，得到30帧图像；

S1-1-2：基于Viola-Jones算法提取所述30帧图像中的每一帧图像的人脸关键区域；

S1-1-3：将所有标识人脸关键区域的图像都归一化为统一尺寸并转化为灰度图像，得到一组灰度图像序列；本实施例中的统一尺寸为：像素点为128×128；

S1-1-4：将所述灰度图像序列中的每一帧灰度图像平分为块，得到一组面部表情图像帧；为大于零的正整数；在本实施例中，

S1-1-5：按照步骤S1-1-1～S1-1-4的操作处理动态情感数据中所有的人脸视频，得到多组面部表情图像帧x₁；

S1-2：对语音模态数据进行预处理，具体过程如下：

S1-2-1：从动态情感数据中获取步骤S1-1中所述的人脸视频对应的总时长为M秒的语音数据；M为大于零的正整数；一段语音数据对应于一个人脸视频；

S1-2-2：截取从(M-1)/2秒到(M-1)/2+1秒间的语音数据，即提取每个语音数据的中间1秒语音数据；

S1-2-3：按照步骤S1-2-1～S1-2-2的操作处理所有人脸视频中总时长为M秒的语音数据，得到统一长度的语音数据y₁；

例如，共有两个人脸视频，对应了两段语音数据A1和A2，A1的时长为3秒，A2的时长为5秒，则截取的语音数据分别为A1的第2秒语音数据和A2的第3秒语音数据，即得到语音数据y₁；

S2：采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态数据的低层动态情感特征，从语音数据转化为的语谱图中提取语音模态数据的低层动态情感特征；提取低层动态情感特征的具体过程如下：

S2-1：采用三个正交平面的局部二进制模式(LBP-TOP)算法从面部表情模态数据中提取面部表情模态的低层动态情感特征，具体过程如下：

S2-1-1：如图4所示，设定步骤S1-1中得到的每组面部表情图像帧中每一图像块的序列为(X,Y,T)，其中，所述图像块的分辨率为X*Y，所述图像块的序列帧长度为T，XY平面上包含每一图像块的纹理信息，XT和YT平面上包含每一图像块在时间和空间上的变化；

S2-1-2：采用公式(1)分别从XY、XT和YT平面上提取LBP-TOP直方图特征H_i′,j′：

H_i′,j′＝∑_{x′,y′,t′}I{f_i′(x′,y′,t′)＝i′} (1)

其中，i′＝0,...,n_j′-1，j′＝0,1,2分别表示XY、XT和YT平面，n_j′是LBP算子在第j′个平面上产生的二进制模式的数量；f_i′(x′,y′,t′)是第j′个平面的中心像素点(x′,y′,t′)的LBP特征值；函数I{B}的代表意义为：

S2-1-3：采用公式(2)将得到的LBP_TOP直方图特征进行归一化处理，得到LBP_TOP特征R_i′,j′，即面部表情模态的低层动态情感特征；

其中，k′＝0,...,n_j′-1，j′＝0,1,2分别表示XY、XT和YT平面，n_j′是LBP算子在第j′个平面上产生的二进制模式的数量；

S2-2-1：对步骤S1-2中得到的语音数据y₁进行分帧处理，得到语音序列y_d(n)，d表示第d帧语音数据，d＝1,...,D，D表示总帧数，d和D均为正整数，n表示每帧语音数据的长度；

S2-2-2：使用如公式(3)所示的哈宁窗对分帧后的语音序列y_d(n)进行加窗处理，得到加窗分帧处理后的语音信号y_d,w(n)；

y_d,w(n)＝y_d(n)*w(n) (3)

S2-2-3：使用公式(4)计算语音信号y_d,w(n)的快速傅里叶变换(FastFourierTransformation,FFT)，得到FFT系数Y_d(k)：

其中，y_d,w(n)为步骤S2-2-2得到的语音信号，k表示FFT的变换区间中的数值，0≤k≤N₁-1，N₁为大于1的正整数，表示FFT的变换区间长度；

S2-2-4：为了获得具有更平滑分布的数据，根据FFT系数Y_d(k)，采用如公式(5)所示的log函数生成如图5所示的语谱图J：

J＝log₁₀(Y_d(k)+ε) (5)

其中，ε为正则化系数，Y_d(k)为FFT系数；

S2-2-5：根据语谱图J，提取语音模态数据的低层动态情感特征；

S3：根据面部表情模态数据和语音模态数据的低层动态情感特征的各自特征属性，构建深度卷积神经网络，并通过深度卷积神经网络提取面部表情模态数据和语音模态数据的高层动态情感特征；提取高层动态情感特征的具体过程如下：

S3-1-1：采用自适应矩估计(Adaptive Moment Estimation,Adam)对构建的深度卷积神经网络进行优化；

采用公式(6)对深度卷积神经网络的权值进行优化：

其中，为深度卷积神经网络进行第t₁-1次迭代后获得的深度卷积神经网络的权值，为深度卷积神经网络进行第t₁次迭代后获得的深度卷积神经网络的权值，ε为正则化系数，为学习率，和分别为修正后的偏差一阶矩估计和修正后的偏差二阶矩估计，和分别由式(7)和(8)进行修正

其中，和分别控制和的指数衰减率，和分别为深度卷积神经网络进行第t₁次迭代时偏差一阶矩估计和偏差二阶矩估计，和分别由式(9)和(10)进行更新：

其中，m_t-1和v_t-1分别为深度卷积神经网络进行第t₁-1次迭代时偏差一阶矩估计和偏差二阶矩估计，m₀＝0，v₀＝0，和分别表示深度卷积神经网络中层与层之间的梯度和梯度的平方；

S3-1-2：低层动态情感特征首先经过由45个大小为3×3卷积滤波器构成的卷积层，该卷积层沿着输入的低层动态情感特征的垂直和水平方向移动卷积滤波器，计算得到卷积滤波器的权值和输入的低层动态情感特征的点积，然后添加偏置项，通过公式(11)得到卷积特征；

其中，为第r层的第d个低层动态情感特征，为第r+1层的第e个卷积滤波器的权值，为第r+1层的第e个卷积滤波器对应的偏置项，为第r+1层的第e个卷积滤波器在第r层的第d个低层动态情感特征进行卷积操作得到的卷积特征，e和r均为正整数，且1≤e≤45；*表示卷积操作，Relu型激活函数f(a)的代表意义为：

S3-1-3：将卷积特征输入到最大池化层，最大池化层通过大小为3×3的池化滤波器将输入的卷积特征划分为大小为3×3的矩形池区域，并通过公式(12)计算得到每个矩形池区域的最大值，即池化特征：

其中，为池化特征，为最大池化层的第层的第g个卷积特征被大小为的池化滤波器覆盖的对应区域，和均为正整数，函数max()为取最大值函数；

S3-1-4：将池化特征输入到Dropout层，通过公式(13)得到特征数据；

其中，(a2)^z表示从Dropout层的第z层输入到第z+1层的特征数据，表示以设定概率将输入到Dropout层的特征数据(a2)^z中的隐含节点设为0，(a2)^z+1为Dropout层的第z+1层输出的特征数据；

在对深度卷积神经网络进行训练的过程中，每次对深度卷积神经网络的权值进行更新时，Dropout层都会根据设定概率将该层的隐含节点设为零；这样一来，深度卷积神经网络的权值的更新就不再依赖于有固定关系隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况；在对深度卷积神经网络进行测试时，使用均值网络，利用公式得到Dropout层的输出；利用Dropout层可以减少深度卷积神经网络发生过拟合现象；

采用Adam算法对构建的深度卷积神经网络进行优化，低层动态情感特征依次通过由45个大小为3×3卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层1、由90个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层2、由135个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层3，由180个大小为3×3的卷积滤波器构成的卷积层、由215个大小为3×3的卷积滤波器构成的卷积层、由大小为1×13的池化滤波器构成的最大池化层、Dropout层和全连接层组成的深度卷积神经网络，得到语音模态数据的高层动态情感特征J_h；

对于输入的一个数据，一个卷积核会产生一张卷积特征；提取面部表情模态数据的高层动态情感特征时，一个数据经过卷积层会产生45张卷积特征，再经过池化层生成45张池化特征；提取语音模态数据的高层动态情感特征时，一个数据经过45个大小为3×3卷积滤波器构成的卷积层会产生45张卷积特征，再经过由大小为3×3的池化滤波器构成的最大池化层1生成45张池化特征；再经过由90个大小为3×3的卷积滤波器构成的卷积层，其对于每张池化特征会产生90张卷积特征，即这层会产生90*45张卷积特征；再经过由大小为3×3的池化滤波器构成的最大池化层2，产生90*45张池化特征，以此类推；

S4：基于典型相关分析算法将面部表情模态数据和语音模态数据的高层动态情感特征进行融合，得到情感融合特征；情感特征进行融合的具体步骤如下：

S4-1：采用主成分分析法分别对面部表情模态数据和语音模态数据的高层动态情感特征R_h和J_h进行降维，得到降维后的面部表情模态特征R_p和语音模态特征J_p；具体包括以下步骤：

(4-1-1)特征数据A＝(a⁽¹⁾,a⁽²⁾,...,a^(s))，特征数据A表示面部表情模态特征R_p或语音模态特征J_p，s为特征数据的维数，采用公式(14)对特征数据进行零均值化处理：

(4-1-2)针对零均值化处理过的特征数据，采用公式(15)计算特征数据的协方差矩阵，将协方差矩阵进行分解得到特征向量U，其中U＝(u₁,u₂,...,u_s)，为特征向量分量对应的特征值，u₁,u₂,…,u_s按照对应特征值大小进行降序排列；

其中，i₁为大于零的正整数，1≤i₁≤s，s为大于1的正整数，表示特征数据A的维数；

(4-1-3)采用公式(16)选取最大的m′个特征值，得到新的特征向量U′＝(u₁,u₂,...,u_m′)

其中，为特征向量分量对应的特征值，j₁为大于零的正整数，1≤j₁≤m′，m′为大于1的正整数；

(4-1-4)根据新的特征向量，采用公式(17)得到降维后的特征数据A′＝(b⁽¹⁾,b⁽²⁾,...,b^(s))，A′表示面部表情模态特征R_p或语音模态特征J_p；

其中，i₁为大于零的正整数，1≤i₁≤s，s为大于1的正整数，表示特征数据A′的维数；

特征数据A表示面部表情模态特征R_p时，A′表示面部表情模态特征R_p；A表示语音模态特征J_p时，A′表示语音模态特征J_p；

S4-2：采用典型相关算法对所述面部表情模态特征R_p和语音模态特征J_p进行典型相关分析，得到同类样本特征之间相关性最大的两组新的面部表情模态特征R_c和语音模态特征J_c，具体包括以下步骤：

(4-2-1)面部表情模态特征和语音模态特征的维数分别为p和q，两组特征具有相同的特征数量c；典型相关分析算法通过寻找两组数据的投影向量α和β，使α^TR_p和β^TJ_p之间的相关性最大；采用公式(18)所示的准则函数，求得α和β：

其中，S_RR和S_JJ分别表示所述面部表情模态特征R_p和语音模态特征J_p的协方差矩阵，S_RJ表示所述面部表情模态特征R_p和语音模态特征J_p的互协方差矩阵；

(4-2-2)为了保证公式(19)解的唯一性，令α^TS_RRα＝1，βS_JJβ^T＝1，并利用拉格朗日乘子法将问题转化为如下两个广义方程的问题：

(4-2-3)令则可将公式(19)转化为公式(20)：

(4-2-4)求解公式(20)的特征值，取前对最大特征值对应的特征向量得到投影向量和然后采用公式(21)得到典型相关分析变换后的面部表情模态特征R_c和语音模态特征J_c：

S5：采用Softmax回归模型对情感融合特征进行识别，输出动态情感类别，即完成了对动态情感的识别。使用所述Softmax回归模型对情感融合特征进行识别的具体过程如下：

S5-1：采用梯度下降算法使所述Softmax回归模型的代价函数J(θ)的导数最小化，对Softmax回归模型进行优化；其中，代价函数J(θ)为：

代价函数J(θ)的导数的表达式为：

其中，(c₁,c₂,…,c_m)为情感融合特征，(z₁,z₂,…,z_m)为输入情感融合特征时对应的标签值，m为情感融合特征总数，t为情感类别总数，i表示i个情感融合特征，j表示第j类情感类别，1{z_i＝j}为示性函数，为Softmax回归模型的参数值，T表示向量转置；为权重衰减项，λ为权值衰减因子；p(z_i＝j|c_i；θ)为输入的情感融合特征c_i属于情感类别j的概率值；

利用上述方法进行实验，所用面部表情-语音双模态情感数据库为SAVEE数据库。该情感数据库从4位平均年龄30岁的英语母语者录入。情感类别包括七种基本情感，即生气、厌恶、恐惧、开心、中性、悲伤和惊讶。数据库的文本材料选自标准TIMIT数据库，除中性情感外，每种情感包含15个句子，中性情感包含30个句子。数据库总共包含面部表情数据和语音数据各480组，面部表情视频采样率是60fps，语音数据采样率是44.1kHz。

采用五折交叉验证法在SAVEE数据库上进行实验，即每次实验时选取数据库的80％为训练样本，20％为测试样本，得到的实验结果如表1所示。在表1中，面部表情和语音数据的单模态实验结果，是在本发明构建的深度卷积神经网络后连接Softmax回归模型得到的识别结果。由表1可得，利用本发明所提出的方法在SAVEE数据库的面部表情模态数据上得到的平均识别率为91.8％，在语音模态数据上得到的平均识别率为61.0％，在面部表情-语音双模态数据上得到的平均识别率为94.82％，由此可见，所提出的方法能提取有效的情感特征信息，可发现面部表情和语音模态之间的最大相关性，实现面部表情和语音模态信息互补。

表1基于视听特征深度融合的动态情感识别实验结果

为了进一步验证本发明提出方法的有效性，将利用其它方法得到的实验结果与利用本发明所提出的方法得到的实验结果进行对比，对比结果如表2和表3所示。表2比较了直接采用Softmax回归对提取的低层动态情感特征进行识别得到的识别结果与本发明中所建立的深度卷积神经网络后连接Softmax回归模型得到的识别结果。由表2可知，本发明所提出的所提出的方法获得的情感识别率高于直接采用Softmax回归模型取得的情感识别率，因此，所建立的网络能够提取有效的高层语义情感特征，可提高情感的识别性能。表3比较了基于典型相关分析的特征融合识别结果与基于特征串联的特征融合识别结果，即两种方法除了在融合方式有区别外，其余均与本发明所提出的方法设置相同。由表3可知，基于视听特征深度融合效果比传统的基于视听特征串联的特征融合更好，因此，典型相关分析可发现面部表情和语音模态之间的内在联系，实现双模态信息的有效融合，得到具有较好鉴别力的情感融合特征。

表2单模态情感识别结果对比

表3特征融合情感识别结果对比

本发明的有益效果是：通过得到面部表情和语音模态之间的最大相关性，进行基于视听特征的情感特征融合，提高了动态情感类别的识别率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视听特征深度融合的动态情感识别方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于视听特征深度融合的动态情感识别方法，其特征在于：步骤S1中，对所述动态情感数据进行预处理的过程如下：

S1-1：对面部表情模态数据进行预处理的具体过程如下：

S1-2：对语音模态数据进行预处理，具体过程如下：

S1-2-1：从动态情感数据中获取步骤S1-1中所述的某一个人脸视频对应的总时长为M秒的语音数据；M为大于零的正整数；

S1-2-2：截取从(M-1)/2秒到(M-1)/2+1秒间的语音数据；

3.如权利要求2所述的基于视听特征深度融合的动态情感识别方法，其特征在于：步骤S2中，提取低层动态情感特征的具体过程如下：

S2-1-2：分别从XY、XT和YT平面上提取LBP-TOP直方图特征；

y_d,w(n)＝y_d(n)*w(n) (1)

4.如权利要求4所述的基于视听特征深度融合的动态情感识别方法，其特征在于：步骤S3中，提取高层动态情感特征的具体过程如下：

S3-1-3：将卷积特征输入到最大池化层，最大池化层通过大小为3×3的池化滤波器将输入的卷积特征划分为大小为3×3的矩形池区域，并计算得到每个矩形池区域的最大值，即得到池化特征；

S3-1-4：将池化特征输入到Dropout层，得到特征数据；

5.如权利要求1所述的基于视听特征深度融合的动态情感识别方法，其特征在于：步骤S4中，情感特征进行融合的具体步骤如下：

6.如权利要求1所述的基于视听特征深度融合的动态情感识别方法，其特征在于：步骤S5中，使用所述Softmax回归模型对情感融合特征进行识别的具体过程如下：