CN102930297A - 基于增强耦合hmm的语音-视觉融合的情感识别方法 - Google Patents

基于增强耦合hmm的语音-视觉融合的情感识别方法 Download PDF

Info

Publication number
CN102930297A
CN102930297A CN2012104359461A CN201210435946A CN102930297A CN 102930297 A CN102930297 A CN 102930297A CN 2012104359461 A CN2012104359461 A CN 2012104359461A CN 201210435946 A CN201210435946 A CN 201210435946A CN 102930297 A CN102930297 A CN 102930297A
Authority
CN
China
Prior art keywords
hmm
expression
components
continuous type
coupling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104359461A
Other languages
English (en)
Other versions
CN102930297B (zh
Inventor
吕坤
张欣
贾云得
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201210435946.1A priority Critical patent/CN102930297B/zh
Publication of CN102930297A publication Critical patent/CN102930297A/zh
Application granted granted Critical
Publication of CN102930297B publication Critical patent/CN102930297B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出的一种基于增强耦合HMM的语音-视觉融合的情感识别方法,属于自动情感识别领域。本发明方法融合了脸部表情和语音两种特征流,使用改进的EM算法训练连续型二分量耦合HMM,训练时考虑并不断更新各样本的权重,使得训练过程偏重于难于识别的样本。本发明方法与已有识别方法相比明显提高了分类的准确度。

Description

基于增强耦合HMM的语音-视觉融合的情感识别方法
技术领域
本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种增强耦合HMM(Hidden Markov Model,隐马尔科夫模型)的语音-视觉融合的情感识别方法,属于自动情感识别领域。
背景技术
各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。
融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类:特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition ThroughMultistream Fused HMM》(IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June 2008)中提出了一种多流融合HMM(MFHMM)方法,根据最大熵和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream FusedHidden Markov Model for Audio-Visual Affect Recognition》(Proc.14th ACM Int’lConf.Multimedia(Multimedia’06),pp.65-68,2006.)中扩展了该框架,采用训练组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》(IEEEInt’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.)中使用神经网络来合并语音-视觉通道的信息。这些方法的缺点是:这些方法在使用某个模态的特征流训练分类器时,没有对用其它模态的特征难于识别的样本进行重点训练,在使用同一模态的样本进行训练时,也未对同一模态的样本中难于识别的样本进行重点训练,从而造成识别率不高。
本发明中涉及到的重要已有技术有:耦合HMM;AdaBoost方法。
(1)耦合HMM:
HMM是一种有效的描述存在于离散时间段上的具有关联关系的数据序列的统计学方法。
HMM的理论基础是在1970年前后由Baum等人建立起来的,随后有CMU的Baker和IBM的Jelinek等人将其应用到语音识别之中,由于Bell实验室Rabiner等人在80年代中期对HMM的深入浅出的介绍,才逐渐使隐马尔科夫模型为世界各国从事语音处理的研究员所了解和熟悉,进而成为公认的一个研究热点。
HMM是在Markov链(一种有限状态机)的基础上发展起来的。首先介绍两个概念:状态集合和观察序列。状态集合指隐马尔科夫模型所具有的全部状态{S1,...,Si,...,SN},其中N为状态数;观察序列是一个具有上下文关联性的数据序列,用v1,...,vt′,...,vT表示,v1,...,vt′,...,vT为一个观测序列,其中vt′=cb,表示该序列中时刻t′的元素的取值为cb,1≤b≤B,B表示每个状态可输出的元素(值)的总数。
由于实际问题比Markov链模型所描述的更为复杂,观察到的观察序列中的元素并不是与Markov链中的状态一一对应,而是通过一组概率分布相联系。这样,站在观察者的角度,只能看到观察值,不像Markov链模型中的观察值和状态一一对应。因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,这就是所谓的“隐”Markov模型,即Hidden Markov Model(HMM)。
隐马尔科夫模型的三个基本问题是:评估问题、解码问题及学习问题。其中,学习问题是使模型参数最优化,及调整模型参数,以使模型能最好的描述一个给定观测序列,最好的说明这个观测序列就是最优化模型产生出来的,用来解决分类问题。
耦合HMM整合了2个以上分量HMM。它允许分量HMM的隐节点之间进行交互,同时各个分量HMM的隐节点具有独立的观察变量。在某一时刻,某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。耦合HMM适合于需要对不同模态的异步性进行建模,并捕获它们在时间域中关联的许多任务。常用的二分量耦合HMM结构如图1所示,圆圈代表可见节点,或称为观察节点,方块代表隐节点;相邻采样时间点上的隐节点互联。图1显示的耦合HMM中的两条分量HMM的采样率一样,即在同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应。
(2)AdaBoost方法:
AdaBoost(adaptive boosting,自适应增强)方法是“Boosting”方法中的一种。该方法允许设计者不断的加入新的“弱分类器”,直到达到某个预定的足够小的误差率。在AdaBoost方法中,每一个训练样本都被赋予一个权重,表明它被某个分量分类器选入训练集的概率;相反,如果某个样本点没有被正确分类,那么它的权重就得到提高。通过这样的方式,AdaBoost方法能够“聚焦于”那些较困难识别的样本上。
发明内容
本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种增强耦合HMM的语音-视觉融合的情感识别方法。
本发明的目的是通过下述技术方案实现的。
一种增强耦合HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶等;所述情感视频是指包含人脸表情和语音的视频数据,并且每段情感视频都开始于中性表情。所述增强耦合HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理。
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;该训练样本集中的第r个训练样本用xr表示,1≤r≤R。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这2种特征数据流用符号Xv表示,
Figure BDA00002355311100041
v∈{a,f},a表示音频,f表示表情;
Figure BDA00002355311100042
表示v特征数据流的第r个观察向量序列。
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹(Hz),p=vb×ta,ta为情感视频的时间长度。
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4。
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC);线谱对参数(Line Spectrum Pair,LSP);Mel频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC);感知线性预测倒谱系数(Perceptual Linear PredictionCepstral Coefficients,PLPCC)。
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用
Figure BDA00002355311100044
表示;
步骤c.3:用
Figure BDA00002355311100045
对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F1′表示,
Figure BDA00002355311100046
Figure BDA00002355311100047
对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,
Figure BDA00002355311100048
以此类推,用
Figure BDA00002355311100049
对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
Figure BDA000023553111000410
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹(Hz),m=va×ta,va=vb/η,η=1,2,3。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5。
所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值。
步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列;所述待处理图像为当前等待做归一化处理的图像。
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有表情图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用
Figure BDA00002355311100072
表示;
第3.3步:用
Figure BDA00002355311100073
对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,
Figure BDA00002355311100074
Figure BDA00002355311100075
对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,
Figure BDA00002355311100076
以此类推,用
Figure BDA00002355311100077
对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
第4步:获得每个表情图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m。一个表情图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,f]T,fq1为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,f为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ
第5步:对于一个情感视频,其表情图像序列中各帧图像的表情观察向量V1至Vm组成该情感视频的原始表情观察向量序列,用矩阵M″来表示,M″=[V1,V2,……,Vm]∈Rθ×m
第6步:在每个情感视频的原始表情观察向量序列M″中的表情观察向量V′q和V′q+1之间通过线性插值法插入(η-1)个表情观察向量,并在表情观察向量Vm后,增加(η-1)个Vm,得到该情感视频的表情观察向量序列,用M表示,M=[V1,V2,……,Vp]∈Rθ×p,1≤q′<m。
步骤二、建立增强耦合HMM分类器。
在步骤一操作的基础上,建立增强耦合HMM分类器。所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM;同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应;在某一时刻,某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。。
用Nv表示连续型二分量耦合HMM的v通道的分量HMM的隐状态个数,v∈{a,f};用
Figure BDA00002355311100079
表示连续型二分量耦合HMM的v通道分量HMM的隐状态集合;用N表示连续型二分量耦合HMM的隐状态个数,N=Na×Nf;用S表示连续型二分量耦合HMM的隐状态集合,则 S = { ( S a , S f ) | S a ∈ { S 1 a , . . . , S N a a } , S f ∈ { S 1 f , . . . , S N f f } } .
所述连续型二分量耦合HMM的参数由公式(1)至公式(3)表示。
π ( i ) = Π v π v ( i v ) = Π v P ( q 1 v = i v ) - - - ( 1 ) 其中,π(i)表示连续型二分量耦合HMM的初始隐状态概率分布;i表示连续型二分量耦合HMM的隐状态,i∈S;πv(iv)表示连续型二分量耦合HMM的v通道分量HMM的初始隐状态概率分布;iv表示连续型二分量耦合HMM的v通道分量HMM的隐状态,iv∈Sv;
Figure BDA00002355311100083
表示连续型二分量耦合HMM的v通道分量HMM在初始时刻的隐状态取值。
a ( i | j ) = Π v a v ( i v | j ) = Π v P ( q t 1 v = i v | q t 1 - 1 = j ) - - - ( 2 )
其中,a(i|j)表示连续型二分量耦合HMM从(t1-1)时刻的隐状态j到t1时刻隐状态i的转移概率,i,j∈S,2≤t1≤p;av(iv|j)表示从(t1-1)时刻连续型二分量耦合HMM的隐状态j到t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态iv的转移概率;
Figure BDA00002355311100085
表示t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值;
Figure BDA00002355311100086
表示连续型二分量耦合HMM在(t1-1)时刻的隐状态取值。
b t ( i ) = Π v [ b t v ( i v ) ] λ v = Π v [ P ( O t v | q t v = i v ) ] λ v = Π v [ Σ m = 1 M i v v w i v , m v N ( O t v , μ i v , m v , U i v , m v ) ] λ v - - - ( 3 )
其中,bt(i)是连续型二分量耦合HMM中隐状态i的观察概率密度函数,其形式是混合高斯密度函数;
Figure BDA00002355311100088
是连续型二分量耦合HMM的v通道分量HMM中隐状态iv的观察概率密度函数,其形式是混合高斯密度函数;λv是连续型二分量耦合HMM的v通道分量HMM对应的指数,λv∈[0.5,1];
Figure BDA00002355311100089
表示连续型二分量耦合HMM的v通道分量HMM在t时刻的观察向量,1≤t≤p;
Figure BDA000023553111000810
表示连续型二分量耦合HMM的v通道分量HMM在t时刻的隐状态取值;
Figure BDA000023553111000811
表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态iv的混合高斯密度函数的混合数;
Figure BDA000023553111000812
分别表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态iv的第m个高斯密度函数的混合权重、均值向量和对角协方差矩阵, 1 ≤ m ≤ M i v v .
步骤三、初始化增强耦合HMM分类器。
在步骤二操作的基础上,同时初始化C个增强耦合HMM分类器,C表示情感类别的数量;即:对应每一种情感,初始化一个增强耦合HMM分类器。用φc表示第c种情感对应的增强耦合HMM分类器,1≤c≤C。
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行初始化的过程为:
步骤3.1:第c种情感的训练样本集经过步骤一的操作后,得到音频特征数据流Xa和表情特征数据流Xf;将特征数据流Xv中的观察向量序列
Figure BDA00002355311100091
表示为
Figure BDA00002355311100092
Figure BDA00002355311100093
表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量,1≤t≤p;然后根据特征数据流Xv对应的v通道分量HMM的隐状态数Nv,依次将特征数据流Xv中的每个观察向量序列
Figure BDA00002355311100094
平均分为Nv段,1≤r≤R;对每个观察向量序列
Figure BDA00002355311100095
中的第i′段对应的隐节点状态赋初值为i′,1≤i′≤Nv,从而可得每个观察向量序列
Figure BDA00002355311100096
的初始隐节点状态序列,用
Figure BDA00002355311100097
表示。
步骤3.2:使用K-means聚类算法,依次对每个观察向量序列
Figure BDA00002355311100098
中每个隐状态i′所对应的观察向量聚类为
Figure BDA00002355311100099
个类别,分别用
Figure BDA000023553111000910
表示;用表示观察向量序列
Figure BDA000023553111000912
在t时刻的隐状态对应的混合高斯密度函数的混合分量;根据观察向量序列
Figure BDA000023553111000913
中隐状态i′所对应的观察向量的聚类结果,得到观察向量序列
Figure BDA000023553111000914
的混合分量序列 c r , t v ∈ { 1,2 , · · · , M i v v } , 1≤t≤p。
步骤3.3:将特征数据流Xv输入到增强耦合HMM分类器φc中的某一连续型二分量耦合HMM中,用符号
Figure BDA000023553111000917
表示增强耦合HMM分类器φc中的第k′个连续型二分量耦合HMM,1≤k′≤K。
步骤3.4:利用公式(4)至公式(9)重估连续型二分量耦合HMM
Figure BDA000023553111000918
的参数。
μ i v , m v = Σ r , t γ r , t v ( i v , m ) O r , t v Σ r , t γ r , t v ( i v , m ) - - - ( 4 )
其中,
Figure BDA000023553111000920
的值通过公式(5)确定。
Figure BDA000023553111000921
其中,表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的隐状态取值。
U i v , m v = Σ r , t γ r , t v ( i v , m ) ( O r , t v - μ i v , m v ) ( O r , t v - μ i v , m v ) T Σ r , t γ r , t v ( i v , m ) - - - ( 6 )
w i v , m v = Σ r , t γ r , t v ( i v , m ) Σ r , t Σ m ′ γ r , t v ( i v , m ′ ) - - - ( 7 )
其中, 1 ≤ m ′ ≤ M i v v .
a v ( i v | j ) = Σ r , t ϵ r , t 1 v ( i v , j ) Σ r , t Σ j ϵ r , t 1 v ( i v , j ) - - - ( 8 )
其中,
Figure BDA00002355311100106
的值通过公式(9)确定;j∈S。
Figure BDA00002355311100107
步骤3.5:使用基于耦合HMM的Viterbi算法对各观察向量序列
Figure BDA00002355311100108
的初始隐节点状态序列
Figure BDA00002355311100109
进行优化,具体操作步骤为:
步骤3.5.1:将步骤3.4得到的连续型二分量耦合HMM
Figure BDA000023553111001010
的参数
Figure BDA000023553111001011
Figure BDA000023553111001012
和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i)。
步骤3.5.2:令变量t1的初始值为2,通过公式(10)和公式(11)迭代计算
Figure BDA000023553111001013
Figure BDA000023553111001014
2≤t1≤p。
δ t 1 ( i ) = max j { δ t 1 - 1 ( j ) a ( i | j ) } b t 1 ( i ) - - - ( 10 )
其中,
Figure BDA000023553111001016
表示连续型二分量耦合HMM在t1时刻为状态i的最大概率与bt(i)的乘积;δ1(i)=π(i)b1(i)。
ψ t 1 ( i ) = arg max j { δ t 1 - 1 ( j ) a ( i | j ) } - - - ( 11 )
其中,
Figure BDA000023553111001019
表示连续型二分量耦合HMM
Figure BDA000023553111001020
在t1时刻为状态i的最大概率的路径的前一状态;
Figure BDA000023553111001021
表示使得
Figure BDA000023553111001022
最大时,j的取值;ψ1(i)=0。
步骤3.5.3:通过公式(12)计算训练样本xr在当前二分量耦合HMM
Figure BDA000023553111001023
模型下的概率,用符号P表示;通过公式(13)计算训练样本xr在当前二分量耦合HMM
Figure BDA000023553111001024
模型下的概率P对应的p时刻的隐节点状态,用符号qp表示。
P = max i { δ p ( i ) } = max q 1 , · · · , q p P ( O 1 , · · · , O p | q 1 , · · · , q p ) - - - ( 12 )
其中, O t = ( O t a , O t f ) .
q p = arg max i { δ p ( i ) } - - - ( 13 )
其中,
Figure BDA00002355311100114
表示使得δp(i)最大时,i的取值。
步骤3.5.4:使用变量t2,令t2的初始值为(p-1),通过公式(14)回溯得到
Figure BDA00002355311100115
1≤t2≤p-1。
q t 2 = ψ t 2 + 1 ( q t 2 + 1 ) - - - ( 14 )
其中,
Figure BDA00002355311100117
表示训练样本xr在当前二分量耦合HMM
Figure BDA00002355311100118
模型下的概率P对应的t2时刻的隐节点状态。
通过步骤3.5.1至步骤3.5.4的操作,得到各训练样本xr在当前二分量耦合HMM
Figure BDA00002355311100119
模型下的优化隐节点状态序列(q1,q2,...,qp);即得到各观察向量序列
Figure BDA000023553111001110
在当前二分量耦合HMM
Figure BDA000023553111001111
的v通道分量HMM的优化隐节点状态序列
Figure BDA000023553111001112
步骤3.6:通过公式(15)对各观察向量序列的混合分量序列
Figure BDA000023553111001114
进行优化。
c r , t v = arg max m P ( O r , t v | q r , t v = i v , c r , t v = m ) - - - ( 15 )
其中, arg max m P ( O r , t v | q r , t v = i v , c r , t v = m ) 表示使得 P ( O r , t v | q r , t v = i v , c r , t v = m ) 最大时,m的取值。
步骤3.7:判断各训练样本xr在当前二分量耦合HMM
Figure BDA000023553111001118
模型下的概率P是否均收敛;如果不均收敛,利用公式(4)至公式(9)重估连续型二分量耦合HMM
Figure BDA000023553111001119
的参数,然后回到步骤3.5;如果均收敛,则将重估得到的参数
Figure BDA000023553111001120
Figure BDA000023553111001121
和av(iv|j)作为增强耦合HMM分类器φc中各连续型二分量耦合HMM的模型初始参数。
经过步骤3.1至步骤3.7的操作,即完成对增强耦合HMM分类器φc的初始化操作。
步骤四、训练增强耦合HMM分类器。
在步骤三对增强耦合HMM分类器初始化的基础上,同时训练C个增强耦合HMM分类器φc,1≤c≤C。
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行训练的过程为:
步骤4.1:用Kc表示增强耦合HMM分类器φc中包含的连续型二分量耦合HMM的个数,并设定Kc的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4.2至步骤4.8的操作。
步骤4.2:用表示增强耦合HMM分类器φc中的第k个连续型二分量耦合HMM。用wk(r)表示输入到连续型二分量耦合HMM
Figure BDA00002355311100122
的特征数据流Xv中的第r个观察向量序列
Figure BDA00002355311100123
的权重,1≤r≤R;当k=1时,wk(r)=1/R。将带有权重wk(r)的音频特征数据流Xa输入到连续型二分量耦合HMM
Figure BDA00002355311100124
的音频通道分量HMM;将带有权重wk(r)的表情特征数据流Xf输入到连续型二分量耦合HMM
Figure BDA00002355311100125
的表情通道分量HMM。
步骤4.3:使用改进的EM算法迭代调整步骤4.2中所述连续型二分量耦合HMM
Figure BDA00002355311100126
的模型参数,得到连续型二分量耦合HMM
Figure BDA00002355311100127
的最优模型参数,具体操作步骤为:
步骤4.3.1:将步骤三得到的连续型二分量耦合HMM
Figure BDA00002355311100128
的模型初始参数和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i)。
步骤4.3.2:通过公式(16)计算所述连续型二分量耦合HMM
Figure BDA000023553111001210
中各训练样本的观察序列的前向概率,用
Figure BDA000023553111001211
表示,1≤r≤R。
α r , t 1 ( i ) = b t 1 ( i ) Σ j a ( i | j ) α r , t 1 - 1 ( j ) - - - ( 16 )
其中,αr,1(i)=π(i)b1(i);2≤t1≤p。
步骤4.3.3:通过公式(17)计算所述连续型二分量耦合HMM
Figure BDA000023553111001213
中各训练样本的观察序列的后向概率,用
Figure BDA000023553111001214
表示。
β r , t 2 ( j ) = Σ i b t 2 + 1 ( i ) a ( i | j ) β r , t 2 + 1 ( i ) - - - ( 17 )
其中,βr,p(i)=1;1≤t2≤p-1。
步骤4.3.4:通过公式(18)计算所述连续型二分量耦合HMM
Figure BDA000023553111001216
中各训练样本的观察序列的概率(用符号Pr表示)。
Pr=αr,p(qp)=βr,1(q1)               (18)
步骤4.3.5:使用公式(19)至公式(23),利用各训练样本在步骤4.3.2中得到的前向概率    步骤4.3.3中得到的后向概率
Figure BDA000023553111001218
和步骤4.3.4得到的观察序列的概率Pr重估连续型二分量耦合HMM
Figure BDA00002355311100131
的模型参数
Figure BDA00002355311100132
和av(iv|j)。
μ i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) O r , t v Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) - - - ( 19 )
其中,
Figure BDA00002355311100134
可通过公式(20)计算得到。
ξ r , t v ( i v , m ) = Σ Is . t . I v = i v α r , t ( I ) β r , t ( I ) Σ I α r , t ( I ) β r , t ( I ) × w i v , m v N ( O r , t v , μ i v , m v , U i v , m v ) Σ m ′ w i v , m ′ v N ( O r , t v , μ i v , m ′ v , U i v , m ′ v ) - - - ( 20 )
其中,I∈S;Iv∈Sv;Is.t.Iv=iv表示连续型二分量耦合HMM
Figure BDA00002355311100136
的隐状态I在v通道分量HMM的隐状态Iv等于iv
U i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) ( O r , t v - μ i v , m v ) ( O r , t v - μ i v , m v ) T Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) - - - ( 21 )
w i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) Σ r ( w k ( r ) / P r ) Σ t Σ m ′ ξ r , t v ( i v , m ′ ) - - - ( 22 )
a v ( i v | j ) = Σ r ( w k ( r ) / P r ) Σ Is . t . I v = i v Σ t 2 α r , t 2 ( j ) a ( I | j ) b t 2 + 1 ( I ) β r , t 2 + 1 ( I ) Σ r ( w k ( r ) / P r ) Σ t 2 α r , t 2 ( j ) β r , t 2 ( j ) - - - ( 23 )
步骤4.3.6:判断连续型二分量耦合HMM
Figure BDA000023553111001310
的模型参数
Figure BDA000023553111001311
和av(iv|j)是否均收敛;如非均收敛,则将步骤4.3.5得到的和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i),然后返回到步骤4.3.2;否则,则将步骤4.3.5得到的
Figure BDA000023553111001313
和av(iv|j)作为连续型二分量耦合HMM
Figure BDA000023553111001314
的最优模型参数。
步骤4.4:使用步骤4.2中所述输入到连续型二分量耦合HMM
Figure BDA000023553111001315
的特征数据流Xv验证步骤4.3得到的连续型二分量耦合HMM
Figure BDA000023553111001316
具体验证方法为:用
Figure BDA000023553111001317
表示训练样本xr是否被连续型二分量耦合HMM
Figure BDA000023553111001318
正确分类,如果观察向量序列xr被正确分类,设定
Figure BDA000023553111001319
否则,设定所述判断某一训练样本xr是否被连续型二分量耦合HMM
Figure BDA000023553111001321
正确分类的方法为:
步骤4.4.1:首先取出增强耦合HMM分类器φc中的连续型二分量耦合HMM
Figure BDA000023553111001322
然后对其它并行训练的(C-1)个增强耦合HMM分类器分别进行如下操作:如果k≤Kc′,c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},Kc′表示第c′个增强耦合HMM分类器φ′c中包含的连续型二分量耦合HMM的个数,则取出第c′个增强耦合HMM分类器φ′c中的连续型二分量耦合HMM否则,取出第c′个增强耦合HMM分类器φ′c中的连续型二分量耦合HMM
Figure BDA00002355311100142
步骤4.4.2:分别计算各训练样本在步骤4.4.1取出的C个连续型二分量耦合HMM下的概率。如果训练样本xr属于第c个情感类别,且训练样本xr在连续型二分量耦合HMM
Figure BDA00002355311100143
下的概率最大,则认为训练样本xr被正确分类;否则,认为训练样本xr未被正确分类。
步骤4.5:通过公式(24)计算连续型二分量耦合HMM
Figure BDA00002355311100144
的训练误差,用
Figure BDA00002355311100145
表示。
E k c = Σ h k c ( x r ) = - 1 w k ( r ) - - - ( 24 )
步骤4.6:使用临时变量k″,并设定k″=k+1。
步骤4.7:通过公式(25)依次计算输入到第k″个连续型二分量耦合HMM
Figure BDA00002355311100147
的训练样本xr的权重,用wk″(r)表示,1≤r≤R。
w k ′ ′ ( r ) = w k ( r ) Z k ′ ′ × e - h k c ( x r ) × δ k - - - ( 25 )
其中,Zk″是归一化因子, Z k ′ ′ = Σ r ( w k ( r ) × e - h k c ( x r ) × δ k ) , δ k = ln [ ( 1 - E k c ) / E k c ] 2 .
步骤4.8:如果此时k≠K,并且
Figure BDA000023553111001411
的值不大于某一预先设定值(用符号σ表示,0<σ≤0.5),则令k=k″,wk(r)=wk″(r),然后返回到步骤4.2;否则,得到增强耦合HMM分类器φc,令Kc=k。
经过上述步骤的操作,即完成对增强耦合HMM分类器φc的训练。
所述识别过程的具体实施步骤如下:
步骤五、对待识别情感视频(用x表示)进行预处理,得到待识别情感视频的表情观察向量序列(用xf表示)和音频观察向量序列(用xa表示)。
所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致。
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。
步骤六、判断待识别情感视频的情感类别,具体过程为:
步骤6.1:将待识别情感视频的音频观察向量序列xa作为每一种情感的增强耦合HMM分类器φc中的连续型二分量耦合HMM的音频通道分量HMM的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的增强耦合HMM分类器φc中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列。
步骤6.2:通过公式(26)计算待识别情感视频x,在增强耦合HMM分类器φc下的概率(用Pc表示)。
P c = P ( x | φ c ) = Σ k = 1 K c δ k P ( x | θ k c ) K c - - - ( 26 )
步骤6.3:从步骤6.2得到的概率Pc中找到最大值,得到该最大值的增强耦合HMM分类器对应的情感即为待识别情感视频所属的情感类别。
有益效果
本发明提出的基于增强耦合HMM的语音-视觉融合的情感识别方法,融合了脸部表情和语音两种特征流,使用改进的EM算法训练连续型二分量耦合HMM,训练时考虑并不断更新各样本的权重,使得训练过程偏重于难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。
附图说明
图1为已有技术中二分量耦合HMM结构示意图;
图2为本发明实施例中每个图像序列中的第一帧图像中20个脸部特征点的具体位置。
具体实施方式
下面结合附图和具体实施例对本发明方法的实施方式做详细说明。
本实施例中,5个实验者(2男3女)在引导式(Wizard of Oz)场景下朗读带有7种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性)的句子,摄像机从正面同步录下脸部表情图像和声音数据。场景脚本中,每一种情感有3个不同的句子,每个人将每句话重复5遍。随机选择四个人的情感视频数据作为训练数据,将剩下那个人的视频数据作为测试集合,整个识别过程是独立于实验者的。然后,将实验数据使用activation-evaluation空间粗分类方法进行了再次标注,即沿着activation轴将样本划分为积极和消极类别,沿着evaluation轴将样本划分为正和负类别。随机选择四个人的情感数据作为训练集合,将剩下那个人的情感数据作为测试集合,整个识别过程是独立于实验者的。实验中执行5重交叉验证。
实验中使用了两种情感类别集合分别进行情感识别实验。其一是7种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性),其二是activation-evaluation空间的粗分类。
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理。
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;该训练样本集中的第r个训练样本用xr表示,1≤r≤R。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这2种特征数据流用符号Xv表示,
Figure BDA00002355311100161
v∈{a,f},a表示音频,f表示表情;
Figure BDA00002355311100162
表示v特征数据流的第r个观察向量序列。
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb=50赫兹(Hz),p=vb×ta,ta为3~6秒。
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α=14,包括:信号强度;基音频率;12个Mel频率倒谱系数。
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用
Figure BDA00002355311100164
表示;
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,
Figure BDA00002355311100172
Figure BDA00002355311100173
对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,以此类推,用
Figure BDA00002355311100175
对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
Figure BDA00002355311100176
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′P]∈R14×p
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va=25赫兹(Hz),m=va×ta,η=2。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ=10。所述脸部表情特征值为脸部几何特征值。具体操作步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个脸部特征点的方法为使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,因此在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列;所述待处理图像为当前等待做归一化处理的图像。
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有表情图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用
Figure BDA00002355311100192
表示;
第3.3步:用
Figure BDA00002355311100193
对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,
Figure BDA00002355311100194
Figure BDA00002355311100195
对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
Figure BDA00002355311100198
第4步:获得每个表情图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m。一个表情图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,f]T,fq1为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,f为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ
第5步:对于一个情感视频,其表情图像序列中各帧图像的表情观察向量V1至Vm组成该情感视频的原始表情观察向量序列,用矩阵M″来表示,M″=[V1,V2,……,Vm]∈R10×m
第6步:在每个情感视频的原始表情观察向量序列M″中的表情观察向量Vq′和V′q+1之间通过线性插值法插入1个表情观察向量,并在表情观察向量Vm后,增加1个Vm,得到该情感视频的表情观察向量序列,用M表示,M=[V1,V2,……,Vp]∈R10×p,1≤q′<m。
步骤二、建立增强耦合HMM分类器。
在步骤一操作的基础上,建立增强耦合HMM分类器。所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成,1≤K′≤K,K=6;连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM;同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应;在某一时刻,某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。。
Na=Nf=5; S a = { S 1 a , S 2 a , · · · · · · , S 5 a } , S f = { S 1 f , S 2 f , · · · · · · , S 5 f }; N表示连续型二分量耦合HMM的隐状态个数,N=Na×Nf;用S表示连续型二分量耦合HMM的隐状态集合,则 S = { ( S a , S f ) | S a ∈ { S 1 a , . . . , S 5 a } , S f ∈ { S 1 f , . . . , S 5 f } } .
所述连续型二分量耦合HMM的参数由公式(1)至公式(3)表示。
π ( i ) = Π v π v ( i v ) = Π v P ( q 1 v = i v ) - - - ( 1 )
其中,π(i)表示连续型二分量耦合HMM的初始隐状态概率分布;i表示连续型二分量耦合HMM的隐状态,i∈S;πv(iv)表示连续型二分量耦合HMM的v通道分量HMM的初始隐状态概率分布;iv表示连续型二分量耦合HMM的v通道分量HMM的隐状态,iv∈Sv
Figure BDA00002355311100203
表示连续型二分量耦合HMM的v通道分量HMM在初始时刻的隐状态取值。
a ( i | j ) = Π v a v ( i v | j ) = Π v P ( q t 1 v = i v | q t 1 - 1 = j ) - - - ( 2 )
其中,a(i|j)表示连续型二分量耦合HMM从(t1-1)时刻的隐状态j到t1时刻隐状态i的转移概率,i,j∈S,2≤t1≤p;av(iv|j)表示从(t1-1)时刻连续型二分量耦合HMM的隐状态j到t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态iv的转移概率;
Figure BDA00002355311100205
表示t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值;
Figure BDA00002355311100206
表示连续型二分量耦合HMM在(t1-1)时刻的隐状态取值。
b t ( i ) = Π v [ b t v ( i v ) ] λ v = Π v [ P ( O t v | q t v = i v ) ] λ v = Π v [ Σ m = 1 M i v v w i v , m v N ( O t v , μ i v , m v , U i v , m v ) ] λ v - - - ( 3 ) 其中,bt(i)是连续型二分量耦合HMM中隐状态i的观察概率密度函数,其形式是混合高斯密度函数;
Figure BDA00002355311100208
是连续型二分量耦合HMM的v通道分量HMM中隐状态iv的观察概率密度函数,其形式是混合高斯密度函数;λv是连续型二分量耦合HMM的v通道分量HMM对应的指数,λv=1;
Figure BDA00002355311100209
表示连续型二分量耦合HMM的v通道分量HMM在t时刻的观察向量,1≤t≤p;
Figure BDA000023553111002010
表示连续型二分量耦合HMM的v通道分量HMM在t时刻的隐状态取值;
Figure BDA000023553111002011
表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态iv的混合高斯密度函数的混合数,
Figure BDA000023553111002012
Figure BDA000023553111002013
分别表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态iv的第m个高斯密度函数的混合权重、均值向量和对角协方差矩阵, 1 ≤ m ≤ M i v v .
步骤三、初始化增强耦合HMM分类器。
在步骤二操作的基础上,同时初始化C=7个增强耦合HMM分类器,C表示情感类别的数量;即:对应每一种情感,初始化一个增强耦合HMM分类器。用φc表示第c种情感对应的增强耦合HMM分类器,1≤c≤C。
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行初始化的过程为:
步骤3.1:第c种情感的训练样本集经过步骤一的操作后,得到音频特征数据流Xa和表情特征数据流Xf;将特征数据流Xv中的观察向量序列
Figure BDA00002355311100211
表示为
Figure BDA00002355311100212
Figure BDA00002355311100213
表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量,1≤t≤p;然后根据特征数据流Xv对应的v通道分量HMM的隐状态数Nv,依次将特征数据流Xv中的每个观察向量序列平均分为Nv段,1≤r≤R;对每个观察向量序列
Figure BDA00002355311100215
中的第i′段对应的隐节点状态赋初值为i′,1≤i′≤Nv,从而可得每个观察向量序列
Figure BDA00002355311100216
的初始隐节点状态序列,用
Figure BDA00002355311100217
表示。
步骤3.2:使用K-means聚类算法,依次对每个观察向量序列
Figure BDA00002355311100218
中每个隐状态i′所对应的观察向量聚类为
Figure BDA00002355311100219
个类别,分别用
Figure BDA000023553111002110
表示;用
Figure BDA000023553111002111
表示观察向量序列
Figure BDA000023553111002112
在t时刻的隐状态对应的混合高斯密度函数的混合分量;根据观察向量序列中隐状态i′所对应的观察向量的聚类结果,得到观察向量序列
Figure BDA000023553111002114
的混合分量序列
Figure BDA000023553111002115
c r , t v ∈ { 1,2 , · · · , M i v v } , 1≤t≤p。
步骤3.3:将特征数据流Xv输入到增强耦合HMM分类器φc中的某一连续型二分量耦合HMM中,用符号表示增强耦合HMM分类器φc中的第k′个连续型二分量耦合HMM,1≤k′≤K。
步骤3.4:利用公式(4)至公式(9)重估连续型二分量耦合HMM的参数。
μ i v , m v = Σ r , t γ r , t v ( i v , m ) O r , t v Σ r , t γ r , t v ( i v , m ) - - - ( 4 )
其中,
Figure BDA000023553111002120
的值通过公式(5)确定。
Figure BDA000023553111002121
其中,表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的隐状态取值。
U i v , m v = Σ r , t γ r , t v ( i v , m ) ( O r , t v - μ i v , m v ) ( O r , t v - μ i v , m v ) T Σ r , t γ r , t v ( i v , m ) - - - ( 6 )
w i v , m v = Σ r , t γ r , t v ( i v , m ) Σ r , t Σ m ′ γ r , t v ( i v , m ′ ) - - - ( 7 )
其中, 1 ≤ m ′ ≤ M i v v .
a v ( i v | j ) = Σ r , t ϵ r , t 1 v ( i v , j ) Σ r , t Σ j ϵ r , t 1 v ( i v , j ) - - - ( 8 )
其中,
Figure BDA00002355311100226
的值通过公式(9)确定;j∈S。
Figure BDA00002355311100227
步骤3.5:使用基于耦合HMM的Viterbi算法对各观察向量序列
Figure BDA00002355311100228
的初始隐节点状态序列
Figure BDA00002355311100229
进行优化,具体操作步骤为:
步骤3.5.1:将步骤3.4得到的连续型二分量耦合HMM的参数
Figure BDA000023553111002211
Figure BDA000023553111002212
和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i)。
步骤3.5.2:令变量t1的初始值为2,通过公式(10)和公式(11)迭代计算
Figure BDA000023553111002213
Figure BDA000023553111002214
2≤t1≤p。
δ t 1 ( i ) = max j { δ t 1 - 1 ( j ) a ( i | j ) } b t 1 ( i ) - - - ( 10 )
其中,
Figure BDA000023553111002216
表示连续型二分量耦合HMM
Figure BDA000023553111002217
在t1时刻为状态i的最大概率与bt(i)的乘积;δ1(i)=π(i)b1(i)。
ψ t 1 ( i ) = arg max j { δ t 1 - 1 ( j ) a ( i | j ) } - - - ( 11 )
其中,
Figure BDA000023553111002219
表示连续型二分量耦合HMM
Figure BDA000023553111002220
在t1时刻为状态i的最大概率的路径的前一状态;
Figure BDA000023553111002221
表示使得最大时,j的取值;ψ1(i)=0。
步骤3.5.3:通过公式(12)计算训练样本xr在当前二分量耦合HMM
Figure BDA000023553111002223
模型下的概率,用符号P表示;通过公式(13)计算训练样本xr在当前二分量耦合HMM
Figure BDA000023553111002224
模型下的概率P对应的p时刻的隐节点状态,用符号qp表示。
P = max i { δ p ( i ) } = max q 1 , · · · , q p P ( O 1 , · · · , O p | q 1 , · · · , q p ) - - - ( 12 )
其中, O t = ( O t a , O t f ) .
q p = arg max i { δ p ( i ) } - - - ( 13 )
其中,
Figure BDA00002355311100234
表示使得δp(i)最大时,i的取值。
步骤3.5.4:使用变量t2,令t2的初始值为(p-1),通过公式(14)回溯得到
Figure BDA00002355311100235
1≤t2≤p-1。
q t 2 = ψ t 2 + 1 ( q t 2 + 1 ) - - - ( 14 )
其中,
Figure BDA00002355311100237
表示训练样本xr在当前二分量耦合HMM
Figure BDA00002355311100238
模型下的概率P对应的t2时刻的隐节点状态。
通过步骤3.5.1至步骤3.5.4的操作,得到各训练样本xr在当前二分量耦合HMM
Figure BDA00002355311100239
模型下的优化隐节点状态序列(q1,q2,...,qp);即得到各观察向量序列
Figure BDA000023553111002310
在当前二分量耦合HMM
Figure BDA000023553111002311
的v通道分量HMM的优化隐节点状态序列
Figure BDA000023553111002312
步骤3.6:通过公式(15)对各观察向量序列
Figure BDA000023553111002313
的混合分量序列
Figure BDA000023553111002314
进行优化。
c r , t v = arg max m P ( O r , t v | q r , t v = i v , c r , t v = m ) - - - ( 15 )
其中, arg max m P ( O r , t v | q r , t v = i v , c r , t v = m ) 表示使得 P ( O r , t v | q r , t v = i v , c r , t v = m ) 最大时,m的取值。
步骤3.7:判断各训练样本xr在当前二分量耦合HMM
Figure BDA000023553111002318
模型下的概率P是否均收敛;如果不均收敛,利用公式(4)至公式(9)重估连续型二分量耦合HMM
Figure BDA000023553111002319
的参数,然后回到步骤3.5;如果均收敛,则将重估得到的参数
Figure BDA000023553111002320
Figure BDA000023553111002321
和av(iv|j)作为增强耦合HMM分类器φc中各连续型二分量耦合HMM的模型初始参数。
经过步骤3.1至步骤3.7的操作,即完成对增强耦合HMM分类器φc的初始化操作。
步骤四、训练增强耦合HMM分类器。
在步骤三对增强耦合HMM分类器初始化的基础上,同时训练C个增强耦合HMM分类器φc,1≤c≤C。
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行训练的过程为:
步骤4.1:用Kc表示增强耦合HMM分类器φc中包含的连续型二分量耦合HMM的个数,并设定Kc的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4.2至步骤4.8的操作。
步骤4.2:用
Figure BDA00002355311100241
表示增强耦合HMM分类器φc中的第k个连续型二分量耦合HMM。用wk(r)表示输入到连续型二分量耦合HMM
Figure BDA00002355311100242
的特征数据流Xv中的第r个观察向量序列
Figure BDA00002355311100243
的权重,1≤r≤R;当k=1时,wk(r)=1/R。将带有权重wk(r)的音频特征数据流Xa输入到连续型二分量耦合HMM
Figure BDA00002355311100244
的音频通道分量HMM;将带有权重wk(r)的表情特征数据流Xf输入到连续型二分量耦合HMM
Figure BDA00002355311100245
的表情通道分量HMM。
步骤4.3:使用改进的EM算法迭代调整步骤4.2中所述连续型二分量耦合HMM
Figure BDA00002355311100246
的模型参数,得到连续型二分量耦合HMM
Figure BDA00002355311100247
的最优模型参数,具体操作步骤为:
步骤4.3.1:将步骤三得到的连续型二分量耦合HMM
Figure BDA00002355311100248
的模型初始参数
Figure BDA00002355311100249
和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i)。
步骤4.3.2:通过公式(16)计算所述连续型二分量耦合HMM
Figure BDA000023553111002410
中各训练样本的观察序列的前向概率,用表示,1≤r≤R。
α r , t 1 ( i ) = b t 1 ( i ) Σ j a ( i | j ) α r , t 1 - 1 ( j ) - - - ( 16 )
其中,αr,1(i)=π(i)b1(i);2≤t1≤p。
步骤4.3.3:通过公式(17)计算所述连续型二分量耦合HMM
Figure BDA000023553111002413
中各训练样本的观察序列的后向概率,用
Figure BDA000023553111002414
表示。
β r , t 2 ( j ) = Σ i b t 2 + 1 ( i ) a ( i | j ) β r , t 2 + 1 ( i ) - - - ( 17 )
其中,βr,p(i)=1;1≤t2≤p-1。
步骤4.3.4:通过公式(18)计算所述连续型二分量耦合HMM
Figure BDA000023553111002416
中各训练样本的观察序列的概率(用符号Pr表示)。
Pr=αr,p(qp)=βr,1(q1)                (18)
步骤4.3.5:使用公式(19)至公式(23),利用各训练样本在步骤4.3.2中得到的前向概率
Figure BDA000023553111002417
    步骤4.3.3中得到的后向概率
Figure BDA000023553111002418
和步骤4.3.4得到的观察序列的概率Pr重估连续型二分量耦合HMM
Figure BDA000023553111002419
的模型参数
Figure BDA000023553111002420
和av(iv|j)。
μ i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) O r , t v Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) - - - ( 19 )
其中,可通过公式(20)计算得到。
ξ r , t v ( i v , m ) = Σ Is . t . I v = i v α r , t ( I ) β r , t ( I ) Σ I α r , t ( I ) β r , t ( I ) × w i v , m v N ( O r , t v , μ i v , m v , U i v , m v ) Σ m ′ w i v , m ′ v N ( O r , t v , μ i v , m ′ v , U i v , m ′ v ) - - - ( 20 )
其中,I∈S;Iv∈Sv;Is.t.Iv=iv表示连续型二分量耦合HMM
Figure BDA00002355311100254
的隐状态I在v通道分量HMM的隐状态Iv等于iv
U i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) ( O r , t v - μ i v , m v ) ( O r , t v - μ i v , m v ) T Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) - - - ( 21 )
w i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) Σ r ( w k ( r ) / P r ) Σ t Σ m ′ ξ r , t v ( i v , m ′ ) - - - ( 22 )
a v ( i v | j ) = Σ r ( w k ( r ) / P r ) Σ Is . t . I v = i v Σ t 2 α r , t 2 ( j ) a ( I | j ) b t 2 + 1 ( I ) β r , t 2 + 1 ( I ) Σ r ( w k ( r ) / P r ) Σ t 2 α r , t 2 ( j ) β r , t 2 ( j ) - - - ( 23 )
步骤4.3.7:判断连续型二分量耦合HMM
Figure BDA00002355311100258
的模型参数
Figure BDA00002355311100259
和av(iv|j)是否均收敛;如非均收敛,则将步骤4.3.6得到的
Figure BDA000023553111002510
和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i),然后返回到步骤4.3.2;否则,则将步骤4.3.6得到的
Figure BDA000023553111002511
和av(iv|j)作为连续型二分量耦合HMM
Figure BDA000023553111002512
的最优模型参数。
步骤4.4:使用步骤4.2中所述输入到连续型二分量耦合HMM
Figure BDA000023553111002513
的特征数据流Xv验证步骤4.3得到的连续型二分量耦合HMM
Figure BDA000023553111002514
具体验证方法为:用
Figure BDA000023553111002515
表示训练样本xr是否被连续型二分量耦合HMM
Figure BDA000023553111002516
正确分类,如果观察向量序列xr被正确分类,设定否则,设定
Figure BDA000023553111002518
所述判断某一训练样本xr是否被连续型二分量耦合HMM
Figure BDA000023553111002519
正确分类的方法为:
步骤4.4.1:首先取出增强耦合HMM分类器φc中的连续型二分量耦合HMM
Figure BDA000023553111002520
然后对其它并行训练的(C-1)个增强耦合HMM分类器分别进行如下操作:如果k≤Kc′,c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},Kc′表示第c′个增强耦合HMM分类器φ′c中包含的连续型二分量耦合HMM的个数,则取出第c′个增强耦合HMM分类器φ′c中的连续型二分量耦合HMM否则,取出第c′个增强耦合HMM分类器φ′c中的连续型二分量耦合HMM
Figure BDA00002355311100261
步骤4.4.2:分别计算各训练样本在步骤4.4.1取出的C个连续型二分量耦合HMM下的概率。如果训练样本xr属于第c个情感类别,且训练样本xr在连续型二分量耦合HMM
Figure BDA00002355311100262
下的概率最大,则认为训练样本xr被正确分类;否则,认为训练样本xr未被正确分类。
步骤4.5:通过公式(24)计算连续型二分量耦合HMM
Figure BDA00002355311100263
的训练误差,用
Figure BDA00002355311100264
表示。
E k c = Σ h k c ( x r ) = - 1 w k ( r ) - - - ( 24 )
步骤4.6:使用临时变量k″,并设定k″=k+1。
步骤4.7:通过公式(25)依次计算输入到第k″个连续型二分量耦合HMM
Figure BDA00002355311100266
的训练样本xr的权重,用wk″(r)表示,1≤r≤R。
w k ′ ′ ( r ) = w k ( r ) Z k ′ ′ × e - h k c ( x r ) × δ k - - - ( 25 )
其中,Zk″是归一化因子, Z k ′ ′ = Σ r ( w k ( r ) × e - h k c ( x r ) × δ k ) , δ k = ln [ ( 1 - E k c ) / E k c ] 2 .
步骤4.8:如果此时k≠K,并且的值不大于某一预先设定值(用符号σ表示,0<σ≤0.5),则令k=k″,wk(r)=wk″(r),然后返回到步骤4.2;否则,得到增强耦合HMM分类器φc,令Kc=k。
经过上述步骤的操作,即完成对增强耦合HMM分类器φc的训练。
所述识别过程的具体实施步骤如下:
步骤五、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xf和音频观察向量序列xa
所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致。
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。
步骤六、判断待识别情感视频的情感类别,具体过程为:
步骤6.1:将待识别情感视频的音频观察向量序列xa作为每一种情感的增强耦合HMM分类器φc中的连续型二分量耦合HMM的音频通道分量HMM的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的增强耦合HMM分类器φc中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列。
步骤6.2:通过公式(26)计算待识别情感视频x,在增强耦合HMM分类器φc下的概率Pc
P c = P ( x | φ c ) = Σ k = 1 K c δ k P ( x | θ k c ) K c - - - ( 26 )
步骤6.3:从步骤6.2得到的概率Pc中找到最大值,得到该最大值的增强耦合HMM分类器对应的情感即为待识别情感视频所属的情感类别。
经过上述步骤的操作,得到的7种基本情感的平均准确率结果如表1第2行第5列所示;使用本发明提出方法进行实验,得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行第5列所示。
表1不同方法的识别准确率对比表
Audio HMM Facial HMM CHMM 增强耦合HMM
7种基本情感 75.5% 60.8% 86.1% 91.6%
Activation-evaluation空间 76.0% 62.2% 85.8% 91.1%
为了对比本发明提出方法的有效性,使用相同的训练数据和测试数据,分别采用以下4种方法进行识别:(1)单一特征(Audio)HMM分类器;(2)单一特征(Facial)HMM分类器;(3)常规的3-链耦合HMM(CHMM)分类器,得到的7种表情的平均准确率结果如表1第2行至第1列至第3列所示;得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行至第1列至第3列所示。
通过对比,可以看到CHMM分类器的识别准确率大大高于单模态的HMM方法,因为耦合HMM可以有效利用两个通道的互补信息。而本发明提出的方法使用脸部表情和语音两种特征流,训练时考虑并不断更新各样本的权重,明显提高了分类的准确度。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种增强耦合HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶等;所述情感视频是指包含人脸表情和语音的视频数据,并且每段情感视频都开始于中性表情;其特征在于:所述增强耦合HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程;
所述训练过程的具体实施步骤包括步骤一至步骤六,具体为:
步骤一、对训练数据中的情感视频数据进行预处理;
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;该训练样本集中的第r个训练样本用xr表示,1≤r≤R;分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和音频观察向量序列;一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这2种特征数据流用符号Xv表示,
Figure FDA00002355311000011
v∈{a,f},a表示音频,f表示表情;
Figure FDA00002355311000012
表示v特征数据流的第r个观察向量序列;
所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的操作步骤包括步骤a至步骤f,具体为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹,p=vb×ta,ta为情感视频的时间长度;
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4;
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数;线谱对参数;Mel频率倒谱系数;感知线性预测倒谱系数;
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,操作过程为步骤c.1至c.3,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧;
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用
Figure FDA00002355311000013
Figure FDA00002355311000014
表示;
步骤c.3:用
Figure FDA00002355311000021
对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,
Figure FDA00002355311000022
Figure FDA00002355311000023
对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,
Figure FDA00002355311000024
以此类推,用
Figure FDA00002355311000025
对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
Figure FDA00002355311000026
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p;一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′P]∈Rα×p
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列的操作步骤包括第1步至第6步,具体为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹,m=va×ta,va=vb/η,η=1,2,3;由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像;
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5;所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值;
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列;所述待处理图像为当前等待做归一化处理的图像;
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有表情图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用
Figure FDA00002355311000027
Figure FDA00002355311000028
表示;
第3.3步:用
Figure FDA00002355311000029
对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,
Figure FDA00002355311000031
对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,
Figure FDA00002355311000033
以此类推,用
Figure FDA00002355311000034
对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
Figure FDA00002355311000035
第4步:获得每个表情图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m;一个表情图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,f]T,fq1为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,f为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值t′θ
第5步:对于一个情感视频,其表情图像序列中各帧图像的表情观察向量V1至Vm组成该情感视频的原始表情观察向量序列,用矩阵M″来表示,M″=[V1,V2,……,Vm]∈Rθ×m
第6步:在每个情感视频的原始表情观察向量序列M″中的表情观察向量Vq′和Vq′+1之间通过线性插值法插入(η-1)个表情观察向量,并在表情观察向量Vm后,增加(η-1)个Vm,得到该情感视频的表情观察向量序列,用M表示,M=[V1,V2,……,VN]∈Rθ×p,1≤q′<m;
步骤二、建立增强耦合HMM分类器;
在步骤一操作的基础上,建立增强耦合HMM分类器;所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM;同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应;
用Nv表示连续型二分量耦合HMM的v通道的分量HMM的隐状态个数,v∈{a,f};用Sv表示连续型二分量耦合HMM的v通道分量HMM的隐状态集合,
Figure FDA00002355311000036
用N表示连续型二分量耦合HMM的隐状态个数,N=Na×Nf;用S表示连续型二分量耦合HMM的隐状态集合,则 S = { ( S a , S f ) | S a ∈ { S 1 a , . . . , S N a a } , S f ∈ { S 1 f , . . . , S N f f } } ;
所述连续型二分量耦合HMM的参数由公式(1)至公式(3)表示;
π ( i ) = Π v π v ( i v ) = Π v P ( q 1 v = i v ) - - - ( 1 )
其中,π(i)表示连续型二分量耦合HMM的初始隐状态概率分布;i表示连续型二分量耦合HMM的隐状态,i∈S;πv(iv)表示连续型二分量耦合HMM的v通道分量HMM的初始隐状态概率分布;iv表示连续型二分量耦合HMM的v通道分量HMM的隐状态,iv∈Sv
Figure FDA00002355311000042
表示连续型二分量耦合HMM的v通道分量HMM在初始时刻的隐状态取值;
a ( i | j ) = Π v a v ( i v | j ) = Π v P ( q t 1 v = i v | q t 1 - 1 = j ) - - - ( 2 )
其中,a(i|j)表示连续型二分量耦合HMM从(t1-1)时刻的隐状态j到t1时刻隐状态i的转移概率,i,j∈S,2≤t1≤p;av(iv|j)表示从(t1-1)时刻连续型二分量耦合HMM的隐状态j到t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态iv的转移概率;
Figure FDA00002355311000044
表示t1时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值;表示连续型二分量耦合HMM在(t1-1)时刻的隐状态取值;
b t ( i ) = Π v [ b t v ( i v ) ] λ v = Π v [ P ( O t v | q t v = i v ) ] λ v = Π v [ Σ m = 1 M i v v w i v , m v N ( O t v , μ i v , m v , U i v , m v ) ] λ v - - - ( 3 ) 其中,bt(i)是连续型二分量耦合HMM中隐状态i的观察概率密度函数,其形式是混合高斯密度函数;
Figure FDA00002355311000047
是连续型二分量耦合HMM的v通道分量HMM中隐状态iv的观察概率密度函数,其形式是混合高斯密度函数;λv是连续型二分量耦合HMM的v通道分量HMM对应的指数,λv∈[0.5,1];表示连续型二分量耦合HMM的v通道分量HMM在t时刻的观察向量,1≤t≤p;
Figure FDA00002355311000049
表示连续型二分量耦合HMM的v通道分量HMM在t时刻的隐状态取值;表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态iv的混合高斯密度函数的混合数;
Figure FDA000023553110000411
分别表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态iv的第m个高斯密度函数的混合权重、均值向量和对角协方差矩阵, 1 ≤ m ≤ M i v v .
步骤三、初始化增强耦合HMM分类器;
在步骤二操作的基础上,同时初始化C个增强耦合HMM分类器,C表示情感类别的数量;即:对应每一种情感,初始化一个增强耦合HMM分类器;用φc表示第c种情感对应的增强耦合HMM分类器,1≤c≤C;
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行初始化的过程包括步骤3.1至步骤3.7,具体为:
步骤3.1:第c种情感的训练样本集经过步骤一的操作后,得到音频特征数据流Xa和表情特征数据流Xf;将特征数据流Xv中的观察向量序列
Figure FDA00002355311000051
表示为
Figure FDA00002355311000052
Figure FDA00002355311000053
表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量,1≤t≤p;然后根据特征数据流Xv对应的v通道分量HMM的隐状态数Nv,依次将特征数据流Xv中的每个观察向量序列平均分为Nv段,1≤r≤R;对每个观察向量序列
Figure FDA00002355311000055
中的第i′段对应的隐节点状态赋初值为i′,1≤i′≤Nv,从而可得每个观察向量序列的初始隐节点状态序列,用
Figure FDA00002355311000057
表示;
步骤3.2:使用K-means聚类算法,依次对每个观察向量序列
Figure FDA00002355311000058
中每个隐状态i′所对应的观察向量聚类为
Figure FDA00002355311000059
个类别,分别用
Figure FDA000023553110000510
表示;用
Figure FDA000023553110000511
表示观察向量序列
Figure FDA000023553110000512
在t时刻的隐状态对应的混合高斯密度函数的混合分量;根据观察向量序列
Figure FDA000023553110000513
中隐状态i′所对应的观察向量的聚类结果,得到观察向量序列的混合分量序列
Figure FDA000023553110000515
c r , t v ∈ { 1,2 , · · · , M i v v } , 1≤t≤p;
步骤3.3:将特征数据流Xv输入到增强耦合HMM分类器φc中的某一连续型二分量耦合HMM中,用符号
Figure FDA000023553110000517
表示增强耦合HMM分类器φc中的第k′个连续型二分量耦合HMM,1≤k′≤K;
步骤3.4:利用公式(4)至公式(9)重估连续型二分量耦合HMM
Figure FDA000023553110000518
的参数;
μ i v , m v = Σ r , t γ r , t v ( i v , m ) O r , t v Σ r , t γ r , t v ( i v , m ) - - - ( 4 )
其中,
Figure FDA000023553110000520
的值通过公式(5)确定;
Figure FDA000023553110000521
其中,
Figure FDA000023553110000522
表示第r个训练样本xr在连续型二分量耦合HMM的v通道分量HMM中的t时刻的隐状态取值;
U i v , m v = Σ r , t γ r , t v ( i v , m ) ( O r , t v - μ i v , m v ) ( O r , t v - μ i v , m v ) T Σ r , t γ r , t v ( i v , m ) - - - ( 6 )
w i v , m v = Σ r , t γ r , t v ( i v , m ) Σ r , t Σ m ′ γ r , t v ( i v , m ′ ) - - - ( 7 )
其中, 1 ≤ m ′ ≤ M i v v .
a v ( i v | j ) = Σ r , t ϵ r , t 1 v ( i v , j ) Σ r , t Σ j ϵ r , t 1 v ( i v , j ) - - - ( 8 )
其中,
Figure FDA00002355311000065
的值通过公式(9)确定;j∈S;
Figure FDA00002355311000066
步骤3.5:使用基于耦合HMM的Viterbi算法对各观察向量序列
Figure FDA00002355311000067
的初始隐节点状态序列进行优化,操作步骤包括步骤3.5.1至步骤3.5.4,具体为:
步骤3.5.1:将步骤3.4得到的连续型二分量耦合HMM
Figure FDA00002355311000069
的参数
Figure FDA000023553110000610
Figure FDA000023553110000611
和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i);
步骤3.5.2:令变量t1的初始值为2,通过公式(10)和公式(11)迭代计算
Figure FDA000023553110000612
Figure FDA000023553110000613
2≤t1≤p;
δ t 1 ( i ) = max j { δ t 1 - 1 ( j ) a ( i | j ) } b t 1 ( i ) - - - ( 10 )
其中,
Figure FDA000023553110000615
表示连续型二分量耦合HMM
Figure FDA000023553110000616
在t1时刻为状态i的最大概率与bt(i)的乘积;δ1(i)=π(i)b1(i);
ψ t 1 ( i ) = arg max j { δ t 1 - 1 ( j ) a ( i | j ) } - - - ( 11 )
其中,
Figure FDA000023553110000618
表示连续型二分量耦合HMM
Figure FDA000023553110000619
在t1时刻为状态i的最大概率的路径的前一状态;
Figure FDA000023553110000620
表示使得
Figure FDA000023553110000621
最大时,j的取值;ψ1(i)=0;
步骤3.5.3:通过公式(12)计算训练样本xr在当前二分量耦合HMM
Figure FDA000023553110000622
模型下的概率,用符号P表示;通过公式(13)计算训练样本xr在当前二分量耦合HMM模型下的概率P对应的p时刻的隐节点状态,用符号qp表示;
P = max i { δ p ( i ) } = max q 1 , · · · , q p P ( O 1 , · · · , O p | q 1 , · · · , q p ) - - - ( 12 )
其中, O t = ( O t a , O t f ) ;
q p = arg max i { δ p ( i ) } - - - ( 13 )
其中,
Figure FDA00002355311000073
表示使得δp(i)最大时,i的取值;
步骤3.5.4:使用变量t2,令t2的初始值为(p-1),通过公式(14)回溯得到
Figure FDA00002355311000074
1≤t2≤p-1;
q t 2 = ψ t 2 + 1 ( q t 2 + 1 ) - - - ( 14 )
其中,
Figure FDA00002355311000076
表示训练样本xr在当前二分量耦合HMM
Figure FDA00002355311000077
模型下的概率P对应的t2时刻的隐节点状态;
通过步骤3.5.1至步骤3.5.4的操作,得到各训练样本xr在当前二分量耦合HMM
Figure FDA00002355311000078
模型下的优化隐节点状态序列(q1,q2,...,qp);即得到各观察向量序列
Figure FDA00002355311000079
在当前二分量耦合HMM的v通道分量HMM的优化隐节点状态序列
Figure FDA000023553110000711
步骤3.6:通过公式(15)对各观察向量序列
Figure FDA000023553110000712
的混合分量序列
Figure FDA000023553110000713
进行优化;
c r , t v = arg max m P ( O r , t v | q r , t v = i v , c r , t v = m ) - - - ( 15 )
其中, arg max m P ( O r , t v | q r , t v = i v , c r , t v = m ) 表示使得 P ( O r , t v | q r , t v = i v , c r , t v = m ) 最大时,m的取值;
步骤3.7:判断各训练样本xr在当前二分量耦合HMM
Figure FDA000023553110000717
模型下的概率P是否均收敛;如果不均收敛,利用公式(4)至公式(9)重估连续型二分量耦合HMM的参数,然后回到步骤3.5;如果均收敛,则将重估得到的参数
Figure FDA000023553110000719
Figure FDA000023553110000720
和av(iv|j)作为增强耦合HMM分类器φc中各连续型二分量耦合HMM的模型初始参数;
经过步骤3.1至步骤3.7的操作,即完成对增强耦合HMM分类器φc的初始化操作;
步骤四、训练增强耦合HMM分类器;
在步骤三对增强耦合HMM分类器初始化的基础上,同时训练C个增强耦合HMM分类器φc,1≤c≤C;
使用第c种情感的训练样本集对增强耦合HMM分类器φc进行训练的过程包括步骤4.1至步骤4.8,具体为:
步骤4.1:用Kc表示增强耦合HMM分类器φc中包含的连续型二分量耦合HMM的个数,并设定Kc的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4.2至步骤4.8的操作;
步骤4.2:用表示增强耦合HMM分类器φc中的第k个连续型二分量耦合HMM;用wk(r)表示输入到连续型二分量耦合HMM的特征数据流Xv中的第r个观察向量序列
Figure FDA00002355311000083
的权重,1≤r≤R;当k=1时,wk(r)=1/R;将带有权重wk(r)的音频特征数据流Xa输入到连续型二分量耦合HMM
Figure FDA00002355311000084
的音频通道分量HMM;将带有权重wk(r)的表情特征数据流Xf输入到连续型二分量耦合HMM
Figure FDA00002355311000085
的表情通道分量HMM;
步骤4.3:使用改进的EM算法迭代调整步骤4.2中所述连续型二分量耦合HMM
Figure FDA00002355311000086
的模型参数,得到连续型二分量耦合HMM
Figure FDA00002355311000087
的最优模型参数,操作步骤包括步骤4.3.1至步骤4.3.6,具体为:
步骤4.3.1:将步骤三得到的连续型二分量耦合HMM
Figure FDA00002355311000088
的模型初始参数和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i);
步骤4.3.2:通过公式(16)计算所述连续型二分量耦合HMM
Figure FDA000023553110000810
中各训练样本的观察序列的前向概率,用
Figure FDA000023553110000811
表示,1≤r≤R;
α r , t 1 ( i ) = b t 1 ( i ) Σ j a ( i | j ) α r , t 1 - 1 ( j ) - - - ( 16 )
其中,αr,1(i)=π(i)b1(i);2≤t1≤p;
步骤4.3.3:通过公式(17)计算所述连续型二分量耦合HMM
Figure FDA000023553110000813
中各训练样本的观察序列的后向概率,用
Figure FDA000023553110000814
表示;
β r , t 2 ( j ) = Σ i b t 2 + 1 ( i ) a ( i | j ) β r , t 2 + 1 ( i ) - - - ( 17 )
其中,βr,p(i)=1;1≤t2≤p-1;
步骤4.3.4:通过公式(18)计算所述连续型二分量耦合HMM
Figure FDA000023553110000816
中各训练样本的观察序列的概率Pr
Pr=αr,p(qp)=βr,1(q1)                          (18)
步骤4.3.5:使用公式(19)至公式(23),利用各训练样本在步骤4.3.2中得到的前向概率
Figure FDA000023553110000817
    步骤4.3.3中得到的后向概率和步骤4.3.4得到的观察序列的概率Pr重估连续型二分量耦合HMM
Figure FDA000023553110000819
的模型参数
Figure FDA000023553110000820
和av(iv|j);
μ i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) O r , t v Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) - - - ( 19 )
其中,
Figure FDA00002355311000092
可通过公式(20)计算得到;
ξ r , t v ( i v , m ) = Σ Is . t . I v = i v α r , t ( I ) β r , t ( I ) Σ I α r , t ( I ) β r , t ( I ) × w i v , m v N ( O r , t v , μ i v , m v , U i v , m v ) Σ m ′ w i v , m ′ v N ( O r , t v , μ i v , m ′ v , U i v , m ′ v ) - - - ( 20 )
其中,I∈S;Iv∈Sv;Is.t.Iv=iv表示连续型二分量耦合HMM
Figure FDA00002355311000094
的隐状态I在v通道分量HMM的隐状态Iv等于iv
U i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) ( O r , t v - μ i v , m v ) ( O r , t v - μ i v , m v ) T Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) - - - ( 21 )
w i v , m v = Σ r ( w k ( r ) / P r ) Σ t ξ r , t v ( i v , m ) Σ r ( w k ( r ) / P r ) Σ t Σ m ′ ξ r , t v ( i v , m ′ ) - - - ( 22 )
a v ( i v | j ) = Σ r ( w k ( r ) / P r ) Σ Is . t . I v = i v Σ t 2 α r , t 2 ( j ) a ( I | j ) b t 2 + 1 ( I ) β r , t 2 + 1 ( I ) Σ r ( w k ( r ) / P r ) Σ t 2 α r , t 2 ( j ) β r , t 2 ( j ) - - - ( 23 )
步骤4.3.6:判断连续型二分量耦合HMM
Figure FDA00002355311000098
的模型参数和av(iv|j)是否均收敛;如非均收敛,则将步骤4.3.5得到的
Figure FDA000023553110000910
和av(iv|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和bt(i),然后返回到步骤4.3.2;否则,则将步骤4.3.5得到的
Figure FDA000023553110000911
和av(iv|j)作为连续型二分量耦合HMM
Figure FDA000023553110000912
的最优模型参数;
步骤4.4:使用步骤4.2中所述输入到连续型二分量耦合HMM
Figure FDA000023553110000913
的特征数据流Xv验证步骤4.3得到的连续型二分量耦合HMM
Figure FDA000023553110000914
具体验证方法为:用
Figure FDA000023553110000915
表示训练样本xr是否被连续型二分量耦合HMM
Figure FDA000023553110000916
正确分类,如果观察向量序列xr被正确分类,设定
Figure FDA000023553110000917
否则,设定
Figure FDA000023553110000918
步骤4.5:通过公式(24)计算连续型二分量耦合HMM
Figure FDA000023553110000919
的训练误差,用表示;
E k c = Σ h k c ( x r ) = - 1 w k ( r ) - - - ( 24 )
步骤4.6:使用临时变量k″,并设定k″=k+1;
步骤4.7:通过公式(25)依次计算输入到第k″个连续型二分量耦合HMM
Figure FDA000023553110000922
的训练样本xr的权重,用wk″(r)表示,1≤r≤R;
w k ′ ′ ( r ) = w k ( r ) Z k ′ ′ × e - h k c ( x r ) × δ k - - - ( 25 )
其中,Zk″是归一化因子, Z k ′ ′ = Σ r ( w k ( r ) × e - h k c ( x r ) × δ k ) , δ k = ln [ ( 1 - E k c ) / E k c ] 2 ;
步骤4.8:如果此时k≠K,并且
Figure FDA00002355311000104
的值不大于某一预先设定值σ,0<σ≤0.5,则令k=k″,wk(r)=wk″(r),然后返回到步骤4.2;否则,得到增强耦合HMM分类器φc,令Kc=k;
经过上述步骤的操作,即完成对增强耦合HMM分类器φc的训练;
所述识别过程的具体实施步骤如下:
步骤五、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xf表示和音频观察向量序列xa
所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致;
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致;
步骤六、判断待识别情感视频的情感类别,操作过程包括步骤6.1至步骤6.3,具体为:
步骤6.1:将待识别情感视频的音频观察向量序列xa作为每一种情感的增强耦合HMM分类器φc中的连续型二分量耦合HMM的音频通道分量HMM的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的增强耦合HMM分类器φc中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列;
步骤6.2:通过公式(26)计算待识别情感视频x,在增强耦合HMM分类器φc下的概率Pc
P c = P ( x | φ c ) = Σ k = 1 K c δ k P ( x | θ k c ) K c - - - ( 26 )
步骤6.3:从步骤6.2得到的概率Pc中找到最大值,得到该最大值的增强耦合HMM分类器对应的情感即为待识别情感视频所属的情感类别。
2.如权利要求1所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其操作步骤包括第2.1步至第2.3步,具体为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示;
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
3.如权利要求2所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.1步中所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
4.如权利要求2或3所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
5.如权利要求2至4之一所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
6.如权利要求1至5之一所述的一种增强耦合HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一步骤4.4中所述判断某一训练样本xr是否被连续型二分量耦合HMM
Figure FDA00002355311000121
正确分类的方法的操作过程包括步骤4.4.1至步骤4.4.2,具体为:
步骤4.4.1:首先取出增强耦合HMM分类器φc中的连续型二分量耦合HMM
Figure FDA00002355311000122
然后对其它并行训练的(C-1)个增强耦合HMM分类器分别进行如下操作:如果k≤Kc′,c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},Kc′表示第c′个增强耦合HMM分类器φc′中包含的连续型二分量耦合HMM的个数,则取出第c′个增强耦合HMM分类器φc′中的连续型二分量耦合HMM否则,取出第c′个增强耦合HMM分类器φc′中的连续型二分量耦合HMM
步骤4.4.2:分别计算各训练样本在步骤4.4.1取出的C个连续型二分量耦合HMM下的概率;如果训练样本xr属于第c个情感类别,且训练样本xr在连续型二分量耦合HMM下的概率最大,则认为训练样本xr被正确分类;否则,认为训练样本xr未被正确分类。
CN201210435946.1A 2012-11-05 2012-11-05 基于增强耦合hmm的语音-视觉融合的情感识别方法 Expired - Fee Related CN102930297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210435946.1A CN102930297B (zh) 2012-11-05 2012-11-05 基于增强耦合hmm的语音-视觉融合的情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210435946.1A CN102930297B (zh) 2012-11-05 2012-11-05 基于增强耦合hmm的语音-视觉融合的情感识别方法

Publications (2)

Publication Number Publication Date
CN102930297A true CN102930297A (zh) 2013-02-13
CN102930297B CN102930297B (zh) 2015-04-29

Family

ID=47645094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210435946.1A Expired - Fee Related CN102930297B (zh) 2012-11-05 2012-11-05 基于增强耦合hmm的语音-视觉融合的情感识别方法

Country Status (1)

Country Link
CN (1) CN102930297B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400145A (zh) * 2013-07-19 2013-11-20 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN104637480A (zh) * 2015-01-27 2015-05-20 广东欧珀移动通信有限公司 一种控制语音识别方法、装置以及系统
CN105575388A (zh) * 2014-07-28 2016-05-11 索尼电脑娱乐公司 情感语音处理
CN106227836A (zh) * 2016-07-26 2016-12-14 上海交通大学 基于图像与文字的无监督联合视觉概念学习系统及方法
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN107919137A (zh) * 2017-10-25 2018-04-17 平安普惠企业管理有限公司 远程审批方法、装置、设备及可读存储介质
CN108351968A (zh) * 2017-12-28 2018-07-31 深圳市锐明技术股份有限公司 一种针对犯罪活动的告警方法、装置、存储介质及服务器
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN112633263A (zh) * 2021-03-09 2021-04-09 中国科学院自动化研究所 海量音视频情感识别系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754681A (en) * 1994-10-05 1998-05-19 Atr Interpreting Telecommunications Research Laboratories Signal pattern recognition apparatus comprising parameter training controller for training feature conversion parameters and discriminant functions
CN101464950A (zh) * 2009-01-16 2009-06-24 北京航空航天大学 基于在线学习和贝叶斯推理的视频人脸识别与检索方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754681A (en) * 1994-10-05 1998-05-19 Atr Interpreting Telecommunications Research Laboratories Signal pattern recognition apparatus comprising parameter training controller for training feature conversion parameters and discriminant functions
CN101464950A (zh) * 2009-01-16 2009-06-24 北京航空航天大学 基于在线学习和贝叶斯推理的视频人脸识别与检索方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PETRIDIS等: ""audiovisual discrimination between laughter and speech"", 《IEEEINT"1 CONF.ACOUSTICS,SPEECH,AND SIGNAL PROCESSING(ICASSP)》 *
黄永明,章国宝,刘海彬,达飞鹏: ""基于新双模融合算法的情感检测系统"", 《天津大学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400145A (zh) * 2013-07-19 2013-11-20 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN103400145B (zh) * 2013-07-19 2016-08-10 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN105575388A (zh) * 2014-07-28 2016-05-11 索尼电脑娱乐公司 情感语音处理
CN105575388B (zh) * 2014-07-28 2021-06-01 索尼电脑娱乐公司 情感语音处理
CN104637480A (zh) * 2015-01-27 2015-05-20 广东欧珀移动通信有限公司 一种控制语音识别方法、装置以及系统
CN106227836B (zh) * 2016-07-26 2020-07-14 上海交通大学 基于图像与文字的无监督联合视觉概念学习系统及方法
CN106227836A (zh) * 2016-07-26 2016-12-14 上海交通大学 基于图像与文字的无监督联合视觉概念学习系统及方法
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN107919137A (zh) * 2017-10-25 2018-04-17 平安普惠企业管理有限公司 远程审批方法、装置、设备及可读存储介质
CN108351968A (zh) * 2017-12-28 2018-07-31 深圳市锐明技术股份有限公司 一种针对犯罪活动的告警方法、装置、存储介质及服务器
CN108351968B (zh) * 2017-12-28 2022-04-22 深圳市锐明技术股份有限公司 一种针对犯罪活动的告警方法、装置、存储介质及服务器
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109522818B (zh) * 2018-10-29 2021-03-30 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN112633263A (zh) * 2021-03-09 2021-04-09 中国科学院自动化研究所 海量音视频情感识别系统
CN112633263B (zh) * 2021-03-09 2021-06-08 中国科学院自动化研究所 海量音视频情感识别系统

Also Published As

Publication number Publication date
CN102930297B (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN102930298B (zh) 基于多层增强hmm的语音-视觉融合的情感识别方法
CN102930297B (zh) 基于增强耦合hmm的语音-视觉融合的情感识别方法
CN102819744B (zh) 一种双通道信息融合的情感识别方法
CN103400145B (zh) 基于线索神经网络的语音-视觉融合情感识别方法
CN109409296B (zh) 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN109508669B (zh) 一种基于生成式对抗网络的人脸表情识别方法
CN106250855B (zh) 一种基于多核学习的多模态情感识别方法
Guanghui et al. Multi-modal emotion recognition by fusing correlation features of speech-visual
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN109978034B (zh) 一种基于数据增强的声场景辨识方法
CN110853680A (zh) 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN105160299A (zh) 基于贝叶斯融合稀疏表示分类器的人脸情感识别方法
Datcu et al. Emotion recognition using bimodal data fusion
CN111292765A (zh) 一种融合多个深度学习模型的双模态情感识别方法
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN108597501A (zh) 一种基于残差网络和双向门控循环单元的视听语音模型
CN108256307A (zh) 一种智能商务旅居房车的混合增强智能认知方法
CN111242155A (zh) 一种基于多模深度学习的双模态情感识别方法
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Petridis et al. Static vs. dynamic modeling of human nonverbal behavior from multiple cues and modalities
Sahu et al. Modeling feature representations for affective speech using generative adversarial networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Zhang Xin

Inventor after: Lv Kun

Inventor after: Jia Yunde

Inventor before: Lv Kun

Inventor before: Zhang Xin

Inventor before: Jia Yunde

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: LV KUN ZHANG XIN JIA YUNDE TO: ZHANG XIN LV KUN JIA YUNDE

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150429

Termination date: 20181105