CN110084266A - 一种基于视听特征深度融合的动态情感识别方法 - Google Patents

一种基于视听特征深度融合的动态情感识别方法 Download PDF

Info

Publication number
CN110084266A
CN110084266A CN201910180539.2A CN201910180539A CN110084266A CN 110084266 A CN110084266 A CN 110084266A CN 201910180539 A CN201910180539 A CN 201910180539A CN 110084266 A CN110084266 A CN 110084266A
Authority
CN
China
Prior art keywords
data
emotion
dynamic
facial expression
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910180539.2A
Other languages
English (en)
Other versions
CN110084266B (zh
Inventor
吴敏
陈略峰
苏婉娟
维托尔德·佩德里茨
王亚午
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910180539.2A priority Critical patent/CN110084266B/zh
Publication of CN110084266A publication Critical patent/CN110084266A/zh
Application granted granted Critical
Publication of CN110084266B publication Critical patent/CN110084266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于视听特征深度融合的动态情感识别方法,首先对动态情感数据进行预处理,再分别采用三个正交平面的局部二进制模式算法和语谱图提取面部表情模态数据的低层动态情感特征和语音模态数据的低层动态情感特征;然后根据构建的深度卷积神经网络提取面部表情模态数据和语音模态数据的高层动态情感特征;再基于典型相关分析算法将面部表情模态数据和语音模态数据的高层动态情感特征进行融合,得到情感融合特征;最后采用Softmax回归模型对情感融合特征进行识别,得到动态情感类别。本发明的有益效果是:提高动态情感类别的识别率。

Description

一种基于视听特征深度融合的动态情感识别方法
技术领域
本发明涉及模式识别领域,尤其涉及一种基于视听特征深度融合的动态情感识别方法。
背景技术
情感是人们在沟通交流的过程中传递的重要信息,情感状态的变化影响着人们的感知和决策,而且情感表达是一个动态的过程。目前,依靠表情、语音、行为姿态等单一模态的情感识别方法较为成熟,但情感的表达并不仅仅可以通过单种模态,还可以通过多种模态情感信息融合的方式进行表达,不同方式在表达情感时存在一定的互补作用。因为单模态情感识别有一定的局限性,所以基于多种情感表达方式的情感识别更加完整,也更加符合智能人机交互的应用需求。
在人类表达情感的各种方式中,表情和语音是最为直接和明显的表达方式。不同模态的情感信息具有不同的特性,如何充分考虑面部表情和语音信息的特点,研究各模态特征提取与融合方法,提取各模态数据中的关键情感特征,实现多模态特征信息的互补,是获得准确情感状态的关键。
发明内容
为了解决上述问题,本发明充分考虑了情感的动态特征,提供了一种基于视听特征深度融合的动态情感识别方法;对于面部表情模态数据,采用三个正交平面的局部二进制模式(Local Binary Patterns from Three Orthogonal Planes,LBP-TOP)算法提取面部表情变化过程的动态纹理特征;对于语音模态数据,将其转换为语谱图,提取语音频谱随时间变化的特征数据。之后,根据面部表情模态特征和语言模态特征的特性,设计相应的深度卷积神经网络结构,以提取数据的高层语义特征。典型相关性分析可发现不同模态之间的内在联系,不仅能够捕获面部表情和语音数据的空间关系,还能捕获面部表情和语音的复杂时序关系。本发明基于典型相关算法对面部表情和语音数据这两个模态的高层语义情感特征进行融合,能够有效地去除特征之间的冗余,发现面部表情和语音模态之间的内在联系,得到具有较好鉴别力的情感融合特征。该方法主要包括以下步骤:
S1:从实际动态人脸情感数据中获取多个人脸视频构成动态情感数据,对所述动态情感数据进行预处理,得到面部表情图像帧和语音数据;所述动态情感数据包括面部表情模态数据和语音模态数据;
S2:采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态数据的低层动态情感特征,从语音数据转化为的语谱图中提取语音模态数据的低层动态情感特征;
S3:根据面部表情模态数据和语音模态数据的低层动态情感特征,构建深度卷积神经网络,并通过深度卷积神经网络提取面部表情模态数据和语音模态数据的高层动态情感特征;
S4:基于典型相关分析算法将面部表情模态数据和语音模态数据的高层动态情感特征进行融合,得到情感融合特征;
S5:采用Softmax回归模型对情感融合特征进行识别,输出动态情感类别,即完成了对动态情感的识别。
进一步地,步骤S1中,对所述动态情感数据进行预处理的过程如下:
S1-1:对面部表情模态数据进行预处理的具体过程如下:
S1-1-1:对某一个总帧数为的人脸视频,按照等帧距提取多帧图像;为大于零的正整数;
S1-1-2:基于Viola-Jones算法提取所述多帧图像中每帧图像的人脸关键区域;
S1-1-3:将所有标识人脸关键区域的图像都归一化为统一尺寸并转化为灰度图像,得到一组灰度图像序列;
S1-1-4:将所述灰度图像序列中的每一帧灰度图像平分为块,得到一组面部表情图像帧;为大于零的正整数;
S1-1-5:按照步骤S1-1-1~S1-1-4的操作处理动态情感数据中所有的人脸视频,得到多组面部表情图像帧;
S1-2:对语音模态数据进行预处理,具体过程如下:
S1-2-1:从动态情感数据中获取步骤S1-1中所述的人脸视频对应的总时长为M秒的语音数据;M为大于零的正整数;
S1-2-2:截取从(M-1)/2秒到(M-1)/2+1秒间的语音数据;
S1-2-3:按照步骤S1-2-1~S1-2-2的操作处理所有人脸视频中总时长为M秒的语音数据,得到统一长度的语音数据。
进一步地,步骤S2中,提取低层动态情感特征的具体过程如下:
S2-1:采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态的低层动态情感特征,具体过程如下:
S2-1-1:设定步骤S1-1中得到的每组面部表情图像帧中每一图像块的序列为(X,Y,T),其中,所述图像块的分辨率为X*Y,所述图像块的序列帧长度为T,XY平面上包含每一图像块的纹理信息,XT和YT平面上包含每一图像块在时间和空间上的变化;
S2-1-2:分别从XY、XT和YT平面上提取LBP-TOP直方图特征;
S2-1-3:将得到的LBP_TOP直方图特征进行归一化处理,得到面部表情模态的低层动态情感特征;
S2-2:从语音模态数据转化为的语谱图中提取语音模态数据的低层动态情感特征,具体过程如下:
S2-2-1:对步骤S1-2中得到的语音数据进行分帧处理,得到语音序列yd(n),d表示第d帧语音数据,d=1,...,D,D表示总帧数,d和D均为正整数,n表示每帧语音数据的长度;
S2-2-2:使用哈宁窗对分帧后的语音序列yd(n)进行加窗处理,利用公式(1)得到加窗分帧处理后的语音信号yd,w(n):
yd,w(n)=yd(n)*w(n) (1)
其中,w(n)为哈宁窗函数,N为大于1的正整数,表示哈宁函数长度;
S2-2-3:计算语音信号yd,w(n)的快速傅里叶变换,得到FFT系数Yd(k);k表示FFT的变换区间中的数值,0≤k≤N1-1,N1为大于1的正整数,表示FFT的变换区间长度;
S2-2-4:根据FFT系数Yd(k),采用log函数生成语谱图,得到语音模态数据的低层动态情感特征。
进一步地,步骤S3中,提取高层动态情感特征的具体过程如下:
S3-1:将步骤S2-1中提取到的面部表情模态数据的低层动态情感特征输入到一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络,提取面部表情模态数据的高层动态情感特征,具体包括以下步骤:
S3-1-1:采用自适应矩估计对构建的深度卷积神经网络进行优化;
S3-1-2:低层动态情感特征依次经过由45个大小为3×3卷积滤波器构成的卷积层,卷积层沿着输入的低层动态情感特征的垂直和水平方向移动卷积滤波器,计算得到卷积滤波器的权值和输入的低层动态情感特征的点积,然后添加偏置项得到卷积特征;
S3-1-3:将卷积特征输入到最大池化层,最大池化层通过大小为3×3的池化滤波器将输入的卷积特征划分为大小为3×3的矩形池区域,并计算每个矩形池区域的最大值,得到池化特征;
S3-1-4:将池化特征输入到Dropout层,得到特征数据;
S3-1-5:将所述特征数据输入到全连接层,全连接层将所述特征数据全部结合起来,得到面部表情模态数据的高层动态情感特征Rh
S3-2:将步骤S2-2中提取到的语音模态数据的低层动态情感特征输入一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络,提取语音模态数据的高层动态情感特征,具体包括以下步骤:
采用Adam算法对构建的深度卷积神经网络进行优化,低层动态情感特征依次通过由45个大小为3×3卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层1、由90个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层2、由135个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层3,由180个大小为3×3的卷积滤波器构成的卷积层、由215个大小为3×3的卷积滤波器构成的卷积层、由大小为1×13的池化滤波器构成的最大池化层、Dropout层和全连接层组成的深度卷积神经网络,得到语音模态数据的高层动态情感特征Jh
进一步地,步骤S4中,情感特征进行融合的具体步骤如下:
S4-1:采用主成分分析法分别对面部表情模态数据和语音模态数据的高层动态情感特征Rh和Jh进行降维,得到降维后的面部表情模态Rp和语音模态特征Jp
S4-2:采用典型相关算法对所述面部表情模态特征Rp和语音模态特征Jp进行典型相关分析,得到同类样本特征之间相关性最大的两组新的面部表情模态特征Rc和语音模态特征Jc
S4-3:将得到的新的面部表情模态特征Rc和语音模态特征Jc进行串联,得到融合后的特征C=[Rc,Jc]。
进一步地,步骤S5中,使用所述Softmax回归模型对情感融合特征进行识别的具体过程如下:
S5-1:采用梯度下降算法使所述Softmax回归模型的代价函数J(θ)的导数最小化,对所述Softmax回归模型进行优化;其中,代价函数J(θ)为:(c1,c2,…,cm)为情感融合特征,(z1,z2,…,zm)为输入情感融合特征时对应的标签值,m为情感融合特征总数,t为情感类别总数,i表示i个情感融合特征,j表示第j类情感类别,1{zi=j}为示性函数,为Softmax回归模型的参数值;为权重衰减项;
S5-2:采用设定函数hθ(ci)计算输入的情感融合特征ci属于每一种情感类别j的概率值p(z=j|c);当输入的情感融合特征ci对应于情感类别j的概率值在t个概率值中最大时,则判定输入的情感融合特征ci属于情感类别j;hθ(ci)的计算公式为:其中,t为情感类别总数,p(zi=j|ci;θ)为输入的情感融合特征ci属于情感类别j的概率值,{p(zi=1|ci;θ),p(zi=2|ci;θ),...,p(zi=t|ci;θ)}的和为1。
本发明提供的技术方案带来的有益效果是:提高动态情感的识别速度以及动态情感类别的识别率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种基于视听特征深度融合的动态情感识别方法的流程图;
图2是本发明实施例中一种基于视听特征深度融合的动态情感识别方法的框架图;
图3是本发明实施例中面部表情模态数据预处理示意图;
图4是本发明实施例中LBP-TOP空间转换示意图;
图5是本发明实施例中语音模态数据转化为的语谱图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于视听特征深度融合的动态情感识别方法。
请参考图1和图2,图1是本发明实施例中一种基于视听特征深度融合的动态情感识别方法的流程图;图2是本发明实施例中一种基于视听特征深度融合的动态情感识别方法的框架图;基于视听特征深度融合的动态情感识别方法主要可分为五部分,即动态情感数据预处理、低层动态情感特征提取、高层动态情感特征提取、低层动态情感特征与高层动态情感特征融合和情感融合特征识别;具体步骤如下:
S1:从实际动态人脸情感数据中获取多个人脸视频构成动态情感数据,对所述动态情感数据进行预处理,得到面部表情图像帧和语音数据;所述动态情感数据包括面部表情模态数据和语音模态数据;对所述动态情感数据进行预处理的过程如下:
S1-1:如图3所示,对面部表情模态数据进行预处理的具体过程如下:
S1-1-1:对某一个总帧数为的人脸视频,按照等帧距提取多帧图像;为大于零的正整数;本实施例中,采用每间隔帧获取一帧图像,得到30帧图像;
S1-1-2:基于Viola-Jones算法提取所述30帧图像中的每一帧图像的人脸关键区域;
S1-1-3:将所有标识人脸关键区域的图像都归一化为统一尺寸并转化为灰度图像,得到一组灰度图像序列;本实施例中的统一尺寸为:像素点为128×128;
S1-1-4:将所述灰度图像序列中的每一帧灰度图像平分为块,得到一组面部表情图像帧;为大于零的正整数;在本实施例中,
S1-1-5:按照步骤S1-1-1~S1-1-4的操作处理动态情感数据中所有的人脸视频,得到多组面部表情图像帧x1
S1-2:对语音模态数据进行预处理,具体过程如下:
S1-2-1:从动态情感数据中获取步骤S1-1中所述的人脸视频对应的总时长为M秒的语音数据;M为大于零的正整数;一段语音数据对应于一个人脸视频;
S1-2-2:截取从(M-1)/2秒到(M-1)/2+1秒间的语音数据,即提取每个语音数据的中间1秒语音数据;
S1-2-3:按照步骤S1-2-1~S1-2-2的操作处理所有人脸视频中总时长为M秒的语音数据,得到统一长度的语音数据y1
例如,共有两个人脸视频,对应了两段语音数据A1和A2,A1的时长为3秒,A2的时长为5秒,则截取的语音数据分别为A1的第2秒语音数据和A2的第3秒语音数据,即得到语音数据y1
S2:采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态数据的低层动态情感特征,从语音数据转化为的语谱图中提取语音模态数据的低层动态情感特征;提取低层动态情感特征的具体过程如下:
S2-1:采用三个正交平面的局部二进制模式(LBP-TOP)算法从面部表情模态数据中提取面部表情模态的低层动态情感特征,具体过程如下:
S2-1-1:如图4所示,设定步骤S1-1中得到的每组面部表情图像帧中每一图像块的序列为(X,Y,T),其中,所述图像块的分辨率为X*Y,所述图像块的序列帧长度为T,XY平面上包含每一图像块的纹理信息,XT和YT平面上包含每一图像块在时间和空间上的变化;
S2-1-2:采用公式(1)分别从XY、XT和YT平面上提取LBP-TOP直方图特征Hi′,j′
Hi′,j′=∑x′,y′,t′I{fi′(x′,y′,t′)=i′} (1)
其中,i′=0,...,nj′-1,j′=0,1,2分别表示XY、XT和YT平面,nj′是LBP算子在第j′个平面上产生的二进制模式的数量;fi′(x′,y′,t′)是第j′个平面的中心像素点(x′,y′,t′)的LBP特征值;函数I{B}的代表意义为:
S2-1-3:采用公式(2)将得到的LBP_TOP直方图特征进行归一化处理,得到LBP_TOP特征Ri′,j′,即面部表情模态的低层动态情感特征;
其中,k′=0,...,nj′-1,j′=0,1,2分别表示XY、XT和YT平面,nj′是LBP算子在第j′个平面上产生的二进制模式的数量;
S2-2:从语音模态数据转化为的语谱图中提取语音模态数据的低层动态情感特征,具体过程如下:
S2-2-1:对步骤S1-2中得到的语音数据y1进行分帧处理,得到语音序列yd(n),d表示第d帧语音数据,d=1,...,D,D表示总帧数,d和D均为正整数,n表示每帧语音数据的长度;
S2-2-2:使用如公式(3)所示的哈宁窗对分帧后的语音序列yd(n)进行加窗处理,得到加窗分帧处理后的语音信号yd,w(n);
yd,w(n)=yd(n)*w(n) (3)
其中,w(n)为哈宁窗函数,N为大于1的正整数,表示哈宁函数长度;
S2-2-3:使用公式(4)计算语音信号yd,w(n)的快速傅里叶变换(FastFourierTransformation,FFT),得到FFT系数Yd(k):
其中,yd,w(n)为步骤S2-2-2得到的语音信号,k表示FFT的变换区间中的数值,0≤k≤N1-1,N1为大于1的正整数,表示FFT的变换区间长度;
S2-2-4:为了获得具有更平滑分布的数据,根据FFT系数Yd(k),采用如公式(5)所示的log函数生成如图5所示的语谱图J:
J=log10(Yd(k)+ε) (5)
其中,ε为正则化系数,Yd(k)为FFT系数;
S2-2-5:根据语谱图J,提取语音模态数据的低层动态情感特征;
S3:根据面部表情模态数据和语音模态数据的低层动态情感特征的各自特征属性,构建深度卷积神经网络,并通过深度卷积神经网络提取面部表情模态数据和语音模态数据的高层动态情感特征;提取高层动态情感特征的具体过程如下:
S3-1:将步骤S2-1中提取到的面部表情模态数据的低层动态情感特征输入到一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络,提取面部表情模态数据的高层动态情感特征,具体包括以下步骤:
S3-1-1:采用自适应矩估计(Adaptive Moment Estimation,Adam)对构建的深度卷积神经网络进行优化;
采用公式(6)对深度卷积神经网络的权值进行优化:
其中,为深度卷积神经网络进行第t1-1次迭代后获得的深度卷积神经网络的权值,为深度卷积神经网络进行第t1次迭代后获得的深度卷积神经网络的权值,ε为正则化系数,为学习率,分别为修正后的偏差一阶矩估计和修正后的偏差二阶矩估计,分别由式(7)和(8)进行修正
其中,分别控制的指数衰减率,分别为深度卷积神经网络进行第t1次迭代时偏差一阶矩估计和偏差二阶矩估计,分别由式(9)和(10)进行更新:
其中,mt-1和vt-1分别为深度卷积神经网络进行第t1-1次迭代时偏差一阶矩估计和偏差二阶矩估计,m0=0,v0=0,分别表示深度卷积神经网络中层与层之间的梯度和梯度的平方;
S3-1-2:低层动态情感特征首先经过由45个大小为3×3卷积滤波器构成的卷积层,该卷积层沿着输入的低层动态情感特征的垂直和水平方向移动卷积滤波器,计算得到卷积滤波器的权值和输入的低层动态情感特征的点积,然后添加偏置项,通过公式(11)得到卷积特征;
其中,为第r层的第d个低层动态情感特征,为第r+1层的第e个卷积滤波器的权值,为第r+1层的第e个卷积滤波器对应的偏置项,为第r+1层的第e个卷积滤波器在第r层的第d个低层动态情感特征进行卷积操作得到的卷积特征,e和r均为正整数,且1≤e≤45;*表示卷积操作,Relu型激活函数f(a)的代表意义为:
S3-1-3:将卷积特征输入到最大池化层,最大池化层通过大小为3×3的池化滤波器将输入的卷积特征划分为大小为3×3的矩形池区域,并通过公式(12)计算得到每个矩形池区域的最大值,即池化特征:
其中,为池化特征,为最大池化层的第层的第g个卷积特征被大小为的池化滤波器覆盖的对应区域,均为正整数,函数max()为取最大值函数;
S3-1-4:将池化特征输入到Dropout层,通过公式(13)得到特征数据;
其中,(a2)z表示从Dropout层的第z层输入到第z+1层的特征数据,表示以设定概率将输入到Dropout层的特征数据(a2)z中的隐含节点设为0,(a2)z+1为Dropout层的第z+1层输出的特征数据;
在对深度卷积神经网络进行训练的过程中,每次对深度卷积神经网络的权值进行更新时,Dropout层都会根据设定概率将该层的隐含节点设为零;这样一来,深度卷积神经网络的权值的更新就不再依赖于有固定关系隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况;在对深度卷积神经网络进行测试时,使用均值网络,利用公式得到Dropout层的输出;利用Dropout层可以减少深度卷积神经网络发生过拟合现象;
S3-1-5:将所述特征数据输入到全连接层,全连接层将所述特征数据全部结合起来,得到面部表情模态数据的高层动态情感特征Rh
S3-2:将步骤S2-2中提取到的语音模态数据的低层动态情感特征输入一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络,提取语音模态数据的高层动态情感特征,具体包括以下步骤:
采用Adam算法对构建的深度卷积神经网络进行优化,低层动态情感特征依次通过由45个大小为3×3卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层1、由90个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层2、由135个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层3,由180个大小为3×3的卷积滤波器构成的卷积层、由215个大小为3×3的卷积滤波器构成的卷积层、由大小为1×13的池化滤波器构成的最大池化层、Dropout层和全连接层组成的深度卷积神经网络,得到语音模态数据的高层动态情感特征Jh
对于输入的一个数据,一个卷积核会产生一张卷积特征;提取面部表情模态数据的高层动态情感特征时,一个数据经过卷积层会产生45张卷积特征,再经过池化层生成45张池化特征;提取语音模态数据的高层动态情感特征时,一个数据经过45个大小为3×3卷积滤波器构成的卷积层会产生45张卷积特征,再经过由大小为3×3的池化滤波器构成的最大池化层1生成45张池化特征;再经过由90个大小为3×3的卷积滤波器构成的卷积层,其对于每张池化特征会产生90张卷积特征,即这层会产生90*45张卷积特征;再经过由大小为3×3的池化滤波器构成的最大池化层2,产生90*45张池化特征,以此类推;
S4:基于典型相关分析算法将面部表情模态数据和语音模态数据的高层动态情感特征进行融合,得到情感融合特征;情感特征进行融合的具体步骤如下:
S4-1:采用主成分分析法分别对面部表情模态数据和语音模态数据的高层动态情感特征Rh和Jh进行降维,得到降维后的面部表情模态特征Rp和语音模态特征Jp;具体包括以下步骤:
(4-1-1)特征数据A=(a(1),a(2),...,a(s)),特征数据A表示面部表情模态特征Rp或语音模态特征Jps为特征数据的维数,采用公式(14)对特征数据进行零均值化处理:
(4-1-2)针对零均值化处理过的特征数据,采用公式(15)计算特征数据的协方差矩阵,将协方差矩阵进行分解得到特征向量U,其中U=(u1,u2,...,us),为特征向量分量对应的特征值,u1,u2,…,us按照对应特征值大小进行降序排列;
其中,i1为大于零的正整数,1≤i1≤s,s为大于1的正整数,表示特征数据A的维数;
(4-1-3)采用公式(16)选取最大的m′个特征值,得到新的特征向量U′=(u1,u2,...,um′)
其中,为特征向量分量对应的特征值,j1为大于零的正整数,1≤j1≤m′,m′为大于1的正整数;
(4-1-4)根据新的特征向量,采用公式(17)得到降维后的特征数据A′=(b(1),b(2),...,b(s)),A′表示面部表情模态特征Rp或语音模态特征Jp
其中,i1为大于零的正整数,1≤i1≤s,s为大于1的正整数,表示特征数据A′的维数;
特征数据A表示面部表情模态特征Rp时,A′表示面部表情模态特征Rp;A表示语音模态特征Jp时,A′表示语音模态特征Jp
S4-2:采用典型相关算法对所述面部表情模态特征Rp和语音模态特征Jp进行典型相关分析,得到同类样本特征之间相关性最大的两组新的面部表情模态特征Rc和语音模态特征Jc,具体包括以下步骤:
(4-2-1)面部表情模态特征和语音模态特征的维数分别为p和q,两组特征具有相同的特征数量c;典型相关分析算法通过寻找两组数据的投影向量α和β,使αTRp和βTJp之间的相关性最大;采用公式(18)所示的准则函数,求得α和β:
其中,SRR和SJJ分别表示所述面部表情模态特征Rp和语音模态特征Jp的协方差矩阵,SRJ表示所述面部表情模态特征Rp和语音模态特征Jp的互协方差矩阵;
(4-2-2)为了保证公式(19)解的唯一性,令αTSRRα=1,βSJJβT=1,并利用拉格朗日乘子法将问题转化为如下两个广义方程的问题:
(4-2-3)令则可将公式(19)转化为公式(20):
(4-2-4)求解公式(20)的特征值,取前对最大特征值对应的特征向量得到投影向量然后采用公式(21)得到典型相关分析变换后的面部表情模态特征Rc和语音模态特征Jc
S4-3:将得到的新的面部表情模态特征Rc和语音模态特征Jc进行串联,得到融合后的特征C=[Rc,Jc]。
S5:采用Softmax回归模型对情感融合特征进行识别,输出动态情感类别,即完成了对动态情感的识别。使用所述Softmax回归模型对情感融合特征进行识别的具体过程如下:
S5-1:采用梯度下降算法使所述Softmax回归模型的代价函数J(θ)的导数最小化,对Softmax回归模型进行优化;其中,代价函数J(θ)为:
代价函数J(θ)的导数的表达式为:
其中,(c1,c2,…,cm)为情感融合特征,(z1,z2,…,zm)为输入情感融合特征时对应的标签值,m为情感融合特征总数,t为情感类别总数,i表示i个情感融合特征,j表示第j类情感类别,1{zi=j}为示性函数,为Softmax回归模型的参数值,T表示向量转置;为权重衰减项,λ为权值衰减因子;p(zi=j|ci;θ)为输入的情感融合特征ci属于情感类别j的概率值;
S5-2:采用设定函数hθ(ci)计算输入的情感融合特征ci属于每一种情感类别j的概率值p(z=j|c);当输入的情感融合特征ci对应于情感类别j的概率值在t个概率值中最大时,则判定输入的情感融合特征ci属于情感类别j;hθ(ci)的计算公式为:其中,t为情感类别总数,p(zi=j|ci;θ)为输入的情感融合特征ci属于情感类别j的概率值,{p(zi=1|ci;θ),p(zi=2|ci;θ),...,p(zi=t|ci;θ)}的和为1。
利用上述方法进行实验,所用面部表情-语音双模态情感数据库为SAVEE数据库。该情感数据库从4位平均年龄30岁的英语母语者录入。情感类别包括七种基本情感,即生气、厌恶、恐惧、开心、中性、悲伤和惊讶。数据库的文本材料选自标准TIMIT数据库,除中性情感外,每种情感包含15个句子,中性情感包含30个句子。数据库总共包含面部表情数据和语音数据各480组,面部表情视频采样率是60fps,语音数据采样率是44.1kHz。
采用五折交叉验证法在SAVEE数据库上进行实验,即每次实验时选取数据库的80%为训练样本,20%为测试样本,得到的实验结果如表1所示。在表1中,面部表情和语音数据的单模态实验结果,是在本发明构建的深度卷积神经网络后连接Softmax回归模型得到的识别结果。由表1可得,利用本发明所提出的方法在SAVEE数据库的面部表情模态数据上得到的平均识别率为91.8%,在语音模态数据上得到的平均识别率为61.0%,在面部表情-语音双模态数据上得到的平均识别率为94.82%,由此可见,所提出的方法能提取有效的情感特征信息,可发现面部表情和语音模态之间的最大相关性,实现面部表情和语音模态信息互补。
表1基于视听特征深度融合的动态情感识别实验结果
为了进一步验证本发明提出方法的有效性,将利用其它方法得到的实验结果与利用本发明所提出的方法得到的实验结果进行对比,对比结果如表2和表3所示。表2比较了直接采用Softmax回归对提取的低层动态情感特征进行识别得到的识别结果与本发明中所建立的深度卷积神经网络后连接Softmax回归模型得到的识别结果。由表2可知,本发明所提出的所提出的方法获得的情感识别率高于直接采用Softmax回归模型取得的情感识别率,因此,所建立的网络能够提取有效的高层语义情感特征,可提高情感的识别性能。表3比较了基于典型相关分析的特征融合识别结果与基于特征串联的特征融合识别结果,即两种方法除了在融合方式有区别外,其余均与本发明所提出的方法设置相同。由表3可知,基于视听特征深度融合效果比传统的基于视听特征串联的特征融合更好,因此,典型相关分析可发现面部表情和语音模态之间的内在联系,实现双模态信息的有效融合,得到具有较好鉴别力的情感融合特征。
表2单模态情感识别结果对比
表3特征融合情感识别结果对比
本发明的有益效果是:通过得到面部表情和语音模态之间的最大相关性,进行基于视听特征的情感特征融合,提高了动态情感类别的识别率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于视听特征深度融合的动态情感识别方法,其特征在于:包括以下步骤:
S1:从实际动态人脸情感数据中获取多个人脸视频构成动态情感数据,对所述动态情感数据进行预处理,得到面部表情图像帧和语音数据;所述动态情感数据包括面部表情模态数据和语音模态数据;
S2:采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态数据的低层动态情感特征,从语音数据转化为的语谱图中提取语音模态数据的低层动态情感特征;
S3:根据面部表情模态数据和语音模态数据的低层动态情感特征,构建深度卷积神经网络,并通过深度卷积神经网络提取面部表情模态数据和语音模态数据的高层动态情感特征;
S4:基于典型相关分析算法将面部表情模态数据和语音模态数据的高层动态情感特征进行融合,得到情感融合特征;
S5:采用Softmax回归模型对情感融合特征进行识别,输出动态情感类别,即完成了对动态情感的识别。
2.如权利要求1所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S1中,对所述动态情感数据进行预处理的过程如下:
S1-1:对面部表情模态数据进行预处理的具体过程如下:
S1-1-1:对某一个总帧数为的人脸视频,按照等帧距提取多帧图像;为大于零的正整数;
S1-1-2:基于Viola-Jones算法提取所述多帧图像中每帧图像的人脸关键区域;
S1-1-3:将所有标识人脸关键区域的图像都归一化为统一尺寸并转化为灰度图像,得到一组灰度图像序列;
S1-1-4:将所述灰度图像序列中的每一帧灰度图像平分为块,得到一组面部表情图像帧;为大于零的正整数;
S1-1-5:按照步骤S1-1-1~S1-1-4的操作处理动态情感数据中所有的人脸视频,得到多组面部表情图像帧;
S1-2:对语音模态数据进行预处理,具体过程如下:
S1-2-1:从动态情感数据中获取步骤S1-1中所述的某一个人脸视频对应的总时长为M秒的语音数据;M为大于零的正整数;
S1-2-2:截取从(M-1)/2秒到(M-1)/2+1秒间的语音数据;
S1-2-3:按照步骤S1-2-1~S1-2-2的操作处理所有人脸视频中总时长为M秒的语音数据,得到统一长度的语音数据。
3.如权利要求2所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S2中,提取低层动态情感特征的具体过程如下:
S2-1:采用三个正交平面的局部二进制模式算法从面部表情图像帧中提取面部表情模态的低层动态情感特征,具体过程如下:
S2-1-1:设定步骤S1-1中得到的每组面部表情图像帧中每一图像块的序列为(X,Y,T),其中,所述图像块的分辨率为X*Y,所述图像块的序列帧长度为T,XY平面上包含每一图像块的纹理信息,XT和YT平面上包含每一图像块在时间和空间上的变化;
S2-1-2:分别从XY、XT和YT平面上提取LBP-TOP直方图特征;
S2-1-3:将得到的LBP_TOP直方图特征进行归一化处理,得到面部表情模态的低层动态情感特征;
S2-2:从语音模态数据转化为的语谱图中提取语音模态数据的低层动态情感特征,具体过程如下:
S2-2-1:对步骤S1-2中得到的语音数据进行分帧处理,得到语音序列yd(n),d表示第d帧语音数据,d=1,...,D,D表示总帧数,d和D均为正整数,n表示每帧语音数据的长度;
S2-2-2:使用哈宁窗对分帧后的语音序列yd(n)进行加窗处理,利用公式(1)得到加窗分帧处理后的语音信号yd,w(n):
yd,w(n)=yd(n)*w(n) (1)
其中,w(n)为哈宁窗函数,N为大于1的正整数,表示哈宁函数长度;
S2-2-3:计算语音信号yd,w(n)的快速傅里叶变换,得到FFT系数Yd(k);k表示FFT的变换区间中的数值,0≤k≤N1-1,N1为大于1的正整数,表示FFT的变换区间长度;
S2-2-4:根据FFT系数Yd(k),采用log函数生成语谱图,得到语音模态数据的低层动态情感特征。
4.如权利要求4所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S3中,提取高层动态情感特征的具体过程如下:
S3-1:将步骤S2-1中提取到的面部表情模态数据的低层动态情感特征输入到一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络,提取面部表情模态数据的高层动态情感特征,具体包括以下步骤:
S3-1-1:采用自适应矩估计对构建的深度卷积神经网络进行优化;
S3-1-2:低层动态情感特征依次经过由45个大小为3×3卷积滤波器构成的卷积层,卷积层沿着输入的低层动态情感特征的垂直和水平方向移动卷积滤波器,计算得到卷积滤波器的权值和输入的低层动态情感特征的点积,然后添加偏置项得到卷积特征;
S3-1-3:将卷积特征输入到最大池化层,最大池化层通过大小为3×3的池化滤波器将输入的卷积特征划分为大小为3×3的矩形池区域,并计算得到每个矩形池区域的最大值,即得到池化特征;
S3-1-4:将池化特征输入到Dropout层,得到特征数据;
S3-1-5:将所述特征数据输入到全连接层,全连接层将所述特征数据全部结合起来,得到面部表情模态数据的高层动态情感特征Rh
S3-2:将步骤S2-2中提取到的语音模态数据的低层动态情感特征输入一个由卷积层、最大池化层、Dropout层和全连接层构成的深度卷积神经网络,提取语音模态数据的高层动态情感特征,具体包括以下步骤:
采用Adam算法对构建的深度卷积神经网络进行优化,低层动态情感特征依次通过由45个大小为3×3卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层1、由90个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层2、由135个大小为3×3的卷积滤波器构成的卷积层、由大小为3×3的池化滤波器构成的最大池化层3,由180个大小为3×3的卷积滤波器构成的卷积层、由215个大小为3×3的卷积滤波器构成的卷积层、由大小为1×13的池化滤波器构成的最大池化层、Dropout层和全连接层组成的深度卷积神经网络,得到语音模态数据的高层动态情感特征Jh
5.如权利要求1所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S4中,情感特征进行融合的具体步骤如下:
S4-1:采用主成分分析法分别对面部表情模态数据和语音模态数据的高层动态情感特征Rh和Jh进行降维,得到降维后的面部表情模态Rp和语音模态特征Jp
S4-2:采用典型相关算法对所述面部表情模态特征Rp和语音模态特征Jp进行典型相关分析,得到同类样本特征之间相关性最大的两组新的面部表情模态特征Rc和语音模态特征Jc
S4-3:将得到的新的面部表情模态特征Rc和语音模态特征Jc进行串联,得到融合后的特征C=[Rc,Jc]。
6.如权利要求1所述的基于视听特征深度融合的动态情感识别方法,其特征在于:步骤S5中,使用所述Softmax回归模型对情感融合特征进行识别的具体过程如下:
S5-1:采用梯度下降算法使所述Softmax回归模型的代价函数J(θ)的导数最小化,对所述Softmax回归模型进行优化;其中,代价函数J(θ)为:(c1,c2,…,cm)为情感融合特征,(z1,z2,…,zm)为输入情感融合特征时对应的标签值,m为情感融合特征总数,t为情感类别总数,i表示i个情感融合特征,j表示第j类情感类别,1{zi=j}为示性函数,为Softmax回归模型的参数值;为权重衰减项;
S5-2:采用设定函数hθ(ci)计算输入的情感融合特征ci属于每一种情感类别j的概率值p(z=j|c);当输入的情感融合特征ci对应于情感类别j的概率值在t个概率值中最大时,则判定输入的情感融合特征ci属于情感类别j;hθ(ci)的计算公式为:其中,t为情感类别总数,p(zi=j|ci;θ)为输入的情感融合特征ci属于情感类别j的概率值,{p(zi=1|ci;θ),p(zi=2|ci;θ),...,p(zi=t|ci;θ)}的和为1。
CN201910180539.2A 2019-03-11 2019-03-11 一种基于视听特征深度融合的动态情感识别方法 Active CN110084266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910180539.2A CN110084266B (zh) 2019-03-11 2019-03-11 一种基于视听特征深度融合的动态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910180539.2A CN110084266B (zh) 2019-03-11 2019-03-11 一种基于视听特征深度融合的动态情感识别方法

Publications (2)

Publication Number Publication Date
CN110084266A true CN110084266A (zh) 2019-08-02
CN110084266B CN110084266B (zh) 2023-01-03

Family

ID=67412403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910180539.2A Active CN110084266B (zh) 2019-03-11 2019-03-11 一种基于视听特征深度融合的动态情感识别方法

Country Status (1)

Country Link
CN (1) CN110084266B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532911A (zh) * 2019-08-19 2019-12-03 南京邮电大学 协方差度量驱动小样本gif短视频情感识别方法及系统
CN111242155A (zh) * 2019-10-08 2020-06-05 台州学院 一种基于多模深度学习的双模态情感识别方法
CN111274440A (zh) * 2020-01-19 2020-06-12 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN111274955A (zh) * 2020-01-20 2020-06-12 中国地质大学(武汉) 一种基于视听特征相关性融合的情感识别方法及系统
CN111339913A (zh) * 2020-02-24 2020-06-26 湖南快乐阳光互动娱乐传媒有限公司 一种视频中的人物情绪识别方法及装置
CN111401268A (zh) * 2020-03-19 2020-07-10 内蒙古工业大学 一种面向开放环境的多模态情感识别方法及装置
CN112101462A (zh) * 2020-09-16 2020-12-18 北京邮电大学 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法
CN113208593A (zh) * 2021-04-08 2021-08-06 杭州电子科技大学 基于相关性动态融合的多模态生理信号情绪分类方法
CN113470617A (zh) * 2021-06-28 2021-10-01 科大讯飞股份有限公司 语音识别方法以及电子设备、存储装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016110005A1 (zh) * 2015-01-07 2016-07-14 深圳市唯特视科技有限公司 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
US20190012599A1 (en) * 2010-06-07 2019-01-10 Affectiva, Inc. Multimodal machine learning for emotion metrics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012599A1 (en) * 2010-06-07 2019-01-10 Affectiva, Inc. Multimodal machine learning for emotion metrics
WO2016110005A1 (zh) * 2015-01-07 2016-07-14 深圳市唯特视科技有限公司 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532911A (zh) * 2019-08-19 2019-12-03 南京邮电大学 协方差度量驱动小样本gif短视频情感识别方法及系统
CN111242155A (zh) * 2019-10-08 2020-06-05 台州学院 一种基于多模深度学习的双模态情感识别方法
CN111274440B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN111274440A (zh) * 2020-01-19 2020-06-12 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN111274955A (zh) * 2020-01-20 2020-06-12 中国地质大学(武汉) 一种基于视听特征相关性融合的情感识别方法及系统
CN111339913A (zh) * 2020-02-24 2020-06-26 湖南快乐阳光互动娱乐传媒有限公司 一种视频中的人物情绪识别方法及装置
CN111401268A (zh) * 2020-03-19 2020-07-10 内蒙古工业大学 一种面向开放环境的多模态情感识别方法及装置
CN111401268B (zh) * 2020-03-19 2022-11-15 内蒙古工业大学 一种面向开放环境的多模态情感识别方法及装置
CN112101462A (zh) * 2020-09-16 2020-12-18 北京邮电大学 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法
CN112101462B (zh) * 2020-09-16 2022-04-19 北京邮电大学 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法
CN113208593A (zh) * 2021-04-08 2021-08-06 杭州电子科技大学 基于相关性动态融合的多模态生理信号情绪分类方法
CN113470617A (zh) * 2021-06-28 2021-10-01 科大讯飞股份有限公司 语音识别方法以及电子设备、存储装置
CN113470617B (zh) * 2021-06-28 2024-05-31 科大讯飞股份有限公司 语音识别方法以及电子设备、存储装置

Also Published As

Publication number Publication date
CN110084266B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN110084266B (zh) 一种基于视听特征深度融合的动态情感识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
Dong et al. Automatic age estimation based on deep learning algorithm
CN105139039B (zh) 视频序列中人脸微表情的识别方法
CN111339847B (zh) 一种基于图卷积神经网络的人脸情绪识别方法
CN108304823B (zh) 一种基于双卷积cnn和长短时记忆网络的表情识别方法
CN113496217A (zh) 视频图像序列中人脸微表情识别方法
CN108830237B (zh) 一种人脸表情的识别方法
CN112084891B (zh) 基于多模态特征与对抗学习的跨域人体动作识别方法
CN113343860A (zh) 一种基于视频图像和语音的双模态融合情感识别方法
CN111274955A (zh) 一种基于视听特征相关性融合的情感识别方法及系统
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN111523367B (zh) 基于人脸属性分析的智能化人脸表情识别方法与系统
CN110909680A (zh) 人脸图像的表情识别方法、装置、电子设备及存储介质
KR101676101B1 (ko) 동적보상퍼지신경네트워크(dcfnn)를 기반으로 한 얼굴인식 알고리즘
CN110135244A (zh) 一种基于脑-机协同智能的表情识别方法
CN110458235A (zh) 一种视频中运动姿势相似度比对方法
Zhiyan et al. Speech emotion recognition based on deep learning and kernel nonlinear PSVM
Garg et al. Facial expression recognition & classification using hybridization of ICA, GA, and neural network for human-computer interaction
CN112529638A (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
Atkar et al. Speech emotion recognition using dialogue emotion decoder and CNN Classifier
CN116935465B (zh) 基于三维残差卷积神经网络与光流法的微表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant