CN102930298B - 基于多层增强hmm的语音-视觉融合的情感识别方法 - Google Patents
基于多层增强hmm的语音-视觉融合的情感识别方法 Download PDFInfo
- Publication number
- CN102930298B CN102930298B CN201210459172.6A CN201210459172A CN102930298B CN 102930298 B CN102930298 B CN 102930298B CN 201210459172 A CN201210459172 A CN 201210459172A CN 102930298 B CN102930298 B CN 102930298B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- msubsup
- msup
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 27
- 230000000007 visual effect Effects 0.000 title abstract description 3
- 230000008451 emotion Effects 0.000 claims abstract description 118
- 230000008921 facial expression Effects 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims description 215
- 238000010606 normalization Methods 0.000 claims description 88
- 238000012549 training Methods 0.000 claims description 84
- 238000012545 processing Methods 0.000 claims description 83
- 230000014509 gene expression Effects 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 34
- 230000004927 fusion Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 25
- 210000004709 eyebrow Anatomy 0.000 claims description 24
- 230000001815 facial effect Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 23
- 238000006073 displacement reaction Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000007935 neutral effect Effects 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 210000000887 face Anatomy 0.000 claims description 6
- 239000002245 particle Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 206010063659 Aversion Diseases 0.000 claims description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims 1
- 239000004576 sand Substances 0.000 claims 1
- 238000011156 evaluation Methods 0.000 description 8
- 230000002996 emotional effect Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出的一种基于多层增强HMM(MBHMM)的语音-视觉融合的情感识别方法,属于自动情感识别领域。本发明方法中提出的MBHMM分类器包括3层整体分类器,每层整体分类器由从左向右的多个连续型HMM分量分类器组合而成。使用情绪视频中的语音、脸部表情、肩部运动三种特征流分别作为3层整体分类器的输入,在训练整体分类器时通过AdaBoost方法不断更新各样本的权重,同时通过AdaBoost方法确保在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。
Description
技术领域
本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种多层增强HMM(Multilayer Boosted HMM,HMM)的语音-视觉融合的情感识别方法,属于自动情感识别领域。
背景技术
各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。
融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类:特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition ThroughMultistream Fused HMM》(IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June 2008)中提出了一种多流融合HMM(MFHMM)方法,根据最大熵和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream FusedHidden Markov Model for Audio-Visual Affect Recognition》(Proc.14th ACM Int’lConf.Multimedia(Multimedia’06),pp.65-68,2006.)中扩展了该框架,采用训练组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》(IEEEInt’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.)中使用神经网络来合并语音-视觉通道的信息。这些方法的缺点是:这些方法在使用某个模态的特征流训练分类器时,没有对用其它模态的特征难于识别的样本进行重点训练,在使用同一模态的样本进行训练时,也未对同一模态的样本中难于识别的样本进行重点训练,从而造成识别率不高。
本发明中涉及到的重要已有技术有:隐马尔可夫模型;AdaBoost方法。
(1)隐马尔可夫模型:
隐马尔可夫模型是一种有效的描述存在于离散时间段上的具有关联关系的数据序列的统计学方法。
隐马尔科夫模型的理论基础是在1970年前后由Baum等人建立起来的,随后有CMU的Baker和IBM的Jelinek等人将其应用到语音识别之中,由于Bell实验室Rabiner等人在80年代中期对隐马尔科夫模型的深入浅出的介绍,才逐渐使隐马尔科夫模型为世界各国从事语音处理的研究员所了解和熟悉,进而成为公认的一个研究热点。
隐马尔科夫模型是在Markov链(一种有限状态机)的基础上发展起来的。首先介绍两个概念:状态集合和观察序列。状态集合指隐马尔科夫模型所具有的全部状态{S1,...,Si,...,SN},其中N为状态数;观察序列是一个具有上下文关联性的数据序列,用v1,...,vt,...,vT表示,v1,...,vt,...,vT为一个观测序列,其中vt=cb,表示该序列中时刻t的元素的取值为cb,1≤b≤B,B表示每个状态可输出的元素(值)的总数。
由于实际问题比Markov链模型所描述的更为复杂,观察到的观察序列中的元素并不是与Markov链中的状态一一对应,而是通过一组概率分布相联系。这样,站在观察者的角度,只能看到观察值,不像Markov链模型中的观察值和状态一一对应。因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,这就是所谓的“隐”Markov模型,即Hidden Markov Model(HMM)。
隐马尔科夫模型的三个基本问题是:评估问题、解码问题及学习问题。其中,学习问题是使模型参数最优化,及调整模型参数,以使模型能最好的描述一个给定观测序列,最好的说明这个观测序列就是最优化模型产生出来的,用来解决分类问题。
(2)AdaBoost方法:
AdaBoost(adaptive boosting,自适应增强)方法是“Boosting”方法中的一种。该方法允许设计者不断的加入新的“弱分类器”,直到达到某个预定的足够小的误差率。在AdaBoost方法中,每一个训练样本都被赋予一个权重,表明它被某个分量分类器选入训练集的概率;相反,如果某个样本点没有被正确分类,那么它的权重就得到提高。通过这样的方式,AdaBoost方法能够“聚焦于”那些较困难识别的样本上。
发明内容
本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种多层增强HMM的语音-视觉融合的情感识别方法。
本发明的目的是通过下述技术方案实现的。
一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情。所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理。
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这三种特征数据流用符号Xv表示,v∈{a,f,s};其中,a表示音频,f表示表情,s表示肩部;表示v特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列;1≤r≤R。
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹(Hz),m=va×ta,ta为情感视频的时间长度。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5。
所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值。
步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用至表示;
第3.3步:用对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,用对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,……;以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
第4步:获得每个图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m。一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,fqθ]T,fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,fqθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ。
第5步:对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M=[V1,V2,……,Vm]∈Rθ×m。
第6步:依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Lδ表示,δ≥5。
步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,δ=10,其具体步骤为:
第6.1步:依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(x′1,y′1)、(x′2,y′2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(x′3,y′3)、(x′4,y′4)表示;第5肩部运动特征点位于喉咙位置,用(x′5,y′5)表示。
所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括:人工手动标识。
第6.2步:根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪。
第6.3步:根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至L10,具体为:将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用L10表示。
第7步:为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响,对所有图像的肩部运动特征值L1至Lδ进行归一化处理,具体为:
第7.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。
第7.2步:分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值,分别用至表示。
第7.3步:用对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L′1表示,用对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L′2表示,……;以此类推,用对待处理图像的肩部运动特征值Lδ进行归一化处理,归一化处理后的肩部运动特征值Lδ用符号L′δ表示,
第8步:获得每个图像序列中各帧图像的肩部观察向量,用V″q表示,1≤q≤m。一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运动特征值组成,V″q=[f″q1,f″q2,……,f″qδ]T,f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1,f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2,……,以此类推,f″qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ。
第9步:对于一个情感视频,使用矩阵M″来表示其肩部观察向量序列,M″=[V″1,V″2,……,V″m]∈Rδ×m。
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹(Hz),p=vb×ta。
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4。
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC);线谱对参数(Line Spectrum Pair,LSP);Mel频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC);感知线性预测倒谱系数(Perceptual Linear PredictionCepstral Coefficients,PLPCC)。
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用至表示;
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,用对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,……;以此类推,用对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′tα]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α。
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p。
步骤二、建立MBHMM分类器。
在步骤一操作的基础上,建立MBHMM分类器。所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器。每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,wi,d,μi,d,Ui,d,π};其中,N表示模型的状态数;π表示状态初始概率;A为状态转移概率矩阵,A={ai,j},1≤i,j≤N,ai,j表示从状态Si转移到状态Sj的概率。
用S={S1,S2,……,SN}表示状态集合,Si=i。
观察概率密度函数为混合高斯密度函数,如公式(1)所示。
其中,bt′(i)表示t′时刻状态为Si时的观察概率密度函数;Ot′是t′时刻的观察向量,即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量;N(Ot′,μi,d,Ui,d)表示状态Si的第d个高斯概率密度函数,1≤d≤D,D为混合高斯密度函数的混合数,2≤D≤5;wi,d,μi,d,Ui,d分别表示状态Si的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵。
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5;第3层整体分类器中的连续型HMM分量分类器的状态数N=3。
当N=5时,设定π为[1 0 0 0 0],同时设定状态转移概率矩阵A的初值为:
当N=3时,设定π为[1 0 0],同时设定状态转移概率矩阵A的初值为:
设定高斯概率密度函数的混合权重wi,d的初始值为高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵:
当观察向量Ot′是表情观察向量时,P=θ;当观察向量Ot′是肩部观察向量时,P=δ;当观察向量Ot′是音频观察向量时,P=α。
高斯概率密度函数的均值向量μi,d的初始值产生方法为:将输入观察序列分成N段,然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值。
步骤三、训练MBHMM分类器。
在步骤二操作的基础上,同时训练C个MBHMM分类器,C表示情感类别的数量;即:对应每一种情感,训练一个MBHMM分类器。用φc表示第c种情感对应的MBHMM分类器,1≤c≤C。
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为:
步骤1:使用变量L,并设定变量L的初始值为1,然后执行步骤2至步骤11的操作。
步骤2:用表示MBHMM分类器φc中第L层整体分类器,用WL(r)表示输入到整体分类器的特征数据流Xv中的第r个观察向量序列的权重。当L=1时,将带有权重WL(r)的音频特征数据流Xa输入到整体分类器WL(r)=1/R;当L=2时,将带有权重WL(r)的表情特征数据流Xf输入到整体分类器当L=3时,将带有权重WL(r)的肩部特征数据流Xs输入到整体分类器
步骤3:用表示整体分类器中包含的连续型HMM分量分类器的个数,并设定的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4至步骤10的操作。
步骤4:用表示整体分类器中的第k个连续型HMM分量分类器。将步骤2中所述输入到整体分类器中的特征数据流Xv输入到连续型HMM分量分类器中,该特征数据流中的第r个观察向量序列的权重为wk(r),1≤r≤R;当k=1时,wk(r)=WL(r)。
步骤5:使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数,得到连续型HMM分量分类器的最优模型参数,其具体操作为:
步骤5.1:通过公式(2)计算所述连续型HMM分量分类器中各观察向量序列的前向概率,1≤r≤R。
其中,表示连续型HMM分量分类器在t1时刻处于状态Si,并且从第1时刻到t1时刻出现Or,1,Or,2,…,的概率,也称为前向概率;2≤t1≤Tr;当L=1时,Tr=p;当L=2或3时,Tr=m;αr,1(i)=π(i)b1(i);Or,1,Or,2,…,表示第r个样本在第1时刻至t1时刻的观察向量。
步骤5.2:通过公式(3)计算所述连续型HMM分量分类器中各观察向量序列的后向概率。
其中,表示连续型HMM分量分类器在t2时刻处于状态Sj,并且从(t2+1)时刻到Tr时刻出现的概率,也称为后向概率;1≤t2≤Tr-1;当L=1时,Tr=p;当L=2或3时,Tr=m; 表示第r个样本在第(t2+1)时刻至Tr时刻的观察向量。
步骤5.3:通过公式(4)计算所述连续型HMM分量分类器中各观察向量序列的概率(用符号Pr表示)。
其中,表示连续型HMM分量分类器在Tr时刻的状态取值;当L=1时,Tr=p;当L=2或3时,Tr=m;表示连续型HMM分量分类器在初始时刻的状态取值。
步骤5.4:使用公式(5)至公式(9),利用各观察向量序列在步骤5.1中得到的前向概率步骤5.2中得到的后向概率和步骤5.3得到的观察向量序列的概率Pr重估连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d。
其中,ξr,t′(i,d)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d个高斯密度函数下的概率。
其中,ξr,t′(i,d′)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d′个高斯密度函数下的概率。
其中,当L=1时,Tr=p;当L=2或3时,Tr=m;
步骤5.5:判断连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d是否均收敛;如非均收敛,返回到步骤5.1;否则,则将步骤5.4得到的A、wi,d、μi,d和Ui,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器的最优模型参数。
步骤5的操作还可以是:使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数,得到最优模型参数,其操作步骤与使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数的操作步骤之间的区别仅在于步骤5.4步中的公式(6)至公式(9)分别用公式(10)至公式(13)替换。
改进EM算法使得迭代求解HMM分量分类器模型参数的过程中考虑到各样本的权重,使得训练着重于难于识别的样本。
步骤6:使用步骤4中所述输入到连续型HMM分量分类器的特征数据流Xv验证步骤5得到的连续型HMM分量分类器具体验证方法为:用表示观察向量序列是否被连续型HMM分量分类器正确分类,如果观察向量序列被正确分类,设定否则,设定
所述判断某一观察向量序列是否被连续型HMM分量分类器正确分类的方法为:
步骤6.1:首先取出MBHMM分类器φc中的连续型HMM分量分类器然后对其它并行训练的(C-1)个MBHMM分类器分别进行如下操作:如果c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},表示整体分类器中包含的连续型HMM分量分类器的个数,则取出第c′个MBHMM分类器中的连续型HMM分量分类器否则,取出第c′个MBHMM分类器中的连续型HMM分量分类器
步骤6.2:分别计算观察向量序列在步骤6.1取出的C个连续型HMM分量分类器下的概率。如果观察向量序列属于第c个情感类别,且观察向量序列在连续型HMM分量分类器下的概率最大,则认为观察向量序列被正确分类;否则,认为观察向量序列未被正确分类。
步骤7:通过公式(14)计算连续型HMM分量分类器的训练误差,用表示。
步骤8:使用变量k′,并设定k′=k+1。
步骤9:通过公式(15)依次计算输入到第k′个连续型HMM分量分类器的观察向量序列的权重,用wk′(r)表示,1≤r≤R。
其中,Zk′是归一化因子,
步骤10:如果此时k≠K,并且的值不大于某一预先设定值(用符号σ表示,0<σ≤0.5),则令k=k′,wk(r)=wk′(r),然后返回到步骤4;否则,得到整体分类器令然后执行步骤11。
步骤11:判断变量L的值是否小于3,如果L<3,则执行步骤12至步骤16;如果L≥3,则得到MBHMM分类器φc,结束操作。
步骤12:使用步骤2中所述输入到第L层整体分类器的特征数据流Xv验证步骤10得到的整体分类器具体验证方法为:用表示观察向量序列是否被整体分类器正确分类,如果观察向量序列被正确分类,设定 否则,设定
所述判断某一观察向量序列是否被整体分类器正确分类的方法为:
首先取出第c个MBHMM分类器φc中的第L层整体分类器然后分别取出其它并行训练的(C-1)个MBHMM分类器φc′中的第L层整体分类器通过公式(16)分别计算观察向量序列在这C个整体分类器下的概率,用符号表示。如果观察向量序列属于第c类情感类别,且观察向量序列在整体分类器下的概率最大,则认为观察向量序列被正确分类;否则,认为观察向量序列未被正确分类。
步骤13:通过公式(17)计算整体分类器的训练误差,用表示。
步骤14:使用变量L′,并设定L′=L+1。
步骤15:通过公式(18)依次计算输入到整体分类器的特征数据流中的第r个(1≤r≤R)观察向量序列的权重,用WL′(r)表示。
其中,Z′L′是归一化因子,
步骤16:令L=L′,WL(r)=WL′(r),然后返回到步骤2。
所述识别过程的具体实施步骤如下:
步骤四、对待识别情感视频(用x表示)进行预处理,得到待识别情感视频的表情观察向量序列(用xa表示)、肩部观察向量序列(用xf表示)和音频观察向量序列(用xs表示)。
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致。
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。
步骤五、判断待识别情感视频的情感类别,具体过程为:
第a步:将待识别情感视频的音频观察向量序列xa作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的肩部观察向量序列xs作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列。
第b步:分别计算待识别情感视频x的观察向量序列xa、xf和xs在MBHMM分类器φc中对应连续型HMM分量分类器下的概率
第c步:通过公式(19)计算待识别情感视频x的观察向量序列xa、xf和xs,在MBHMM分类器φc中对应整体分类器下的概率
第d步:通过公式(20)计算待识别情感视频x,在MBHMM分类器φc下的概率Pc。
第e步:从第d步得到的概率Pc中找到最大值,得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
有益效果
本发明提出的基于多层增强HMM的语音-视觉融合的情感识别方法,使用脸部表情、语音、肩部运动三种特征流,训练时考虑并不断更新各样本的权重,且在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。
附图说明
图1为本发明实施例中每个图像序列中的第一帧图像中20个脸部特征点的具体位置;
图2为本发明实施例中每个图像序列中的第一帧图像中5个肩部运动特征点的具体位置;
图3为本发明实施例中MBHMM分类器的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明方法的实施方式做详细说明。
本实施例中,5个实验者(2男3女)在引导式(Wizard of Oz)场景下朗读带有7种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性)的句子,摄像机从正面同步录下脸部表情图像和声音数据。场景脚本中,每一种情感有3个不同的句子,每个人将每句话重复5遍。随机选择四个人的情感视频数据作为训练数据,将剩下那个人的视频数据作为测试集合,整个识别过程是独立于实验者的。然后,将实验数据使用activation-evaluation空间粗分类方法进行了再次标注,即沿着activation轴将样本划分为积极和消极类别,沿着evaluation轴将样本划分为正和负类别。随机选择四个人的情感数据作为训练集合,将剩下那个人的情感数据作为测试集合,整个识别过程是独立于实验者的。实验中执行5重交叉验证。
实验中使用了两种情感类别集合分别进行情感识别实验。其一是7种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性),其二是activation-evaluation空间的粗分类。
所述双通道信息融合的情感识别方法包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理。
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R=60。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列。
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va=25Hz,m=va×ta,ta为情感视频的时间长度。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,分别用T1至Tθ表示,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用至表示;
第3.3步:用对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,用对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,……;以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
第4步:获得每个图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m。一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,fqθ]T,fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,fqθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ。
第5步:对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M=[V1,V2,……,Vm]∈Rθ×m。
第6步:依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Lδ表示,δ=10,其具体步骤为:
第6.1步:依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(x′1,y′1)、(x′2,y′2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(x′3,y′3)、(x′4,y′4)表示;第5肩部运动特征点位于喉咙位置,用(x′5,y′5)表示。
所述标识5个肩部运动特征点的方法包括:人工手动标识。
第6.2步:根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪。
第6.3步:根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至L10,具体为:将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用L10表示。
第7步:为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响,对所有图像的肩部运动特征值L1至Lδ进行归一化处理,具体为:
第7.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。
第7.2步:分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值,分别用至表示。
第7.3步:用对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L′1表示,用对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L′2表示,……;以此类推,用对待处理图像的肩部运动特征值Lδ进行归一化处理,归一化处理后的肩部运动特征值Lδ用符号L′δ表示,
第8步:获得每个图像序列中各帧图像的肩部观察向量,用V″q表示,1≤q≤m。一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运动特征值组成,V″q=[f″q1,f″q2,……,f″qδ]T,f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1,f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2,……,以此类推,f″qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ。
第9步:对于一个情感视频,使用矩阵M″来表示其肩部观察向量序列,M″=[V″1,V″2,……,V″m]∈Rδ×m。
对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb=50Hz,p=vb×ta。
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α=14,分别为信号强度、基音频率和12个Mel频率倒谱系数。
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用至表示;
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,用对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,……;以此类推,用对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′tα]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α。
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p。
步骤二、建立MBHMM分类器。
在步骤一操作的基础上,建立MBHMM分类器。所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器。每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成,1≤K′≤K,K的值由人为预先设定,K=6;三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,wi,d,μi,d,Ui,d,π};其中,N表示模型的状态数;π表示状态初始概率;A为状态转移概率矩阵,A={ai,j},1≤i,j≤N,ai,j表示从状态Si转移到状态Sj的概率。
用S={S1,S2,……,SN}表示状态集合,Si=i。
观察概率密度函数为混合高斯密度函数,如公式(1)所示,其中D=3。
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5;第3层整体分类器中的连续型HMM分量分类器的状态数N=3。
当N=5时,设定π为[1 0 0 0 0],同时设定状态转移概率矩阵A的初值为:
当N=3时,设定π为[1 0 0],同时设定状态转移概率矩阵A的初值为:
设定高斯概率密度函数的混合权重wi,d的初始值为高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵:
当观察向量Ot′是表情观察向量时,P=θ;当观察向量Ot′是肩部观察向量时,P=δ;当观察向量Ot′是音频观察向量时,P=α。
高斯概率密度函数的均值向量μi,d的初始值产生方法为:将输入观察序列分成N段,然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值。
步骤三、训练MBHMM分类器。
在步骤二操作的基础上,同时训练C个MBHMM分类器,C=7。
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为:
步骤1:使用变量L,并设定变量L的初始值为1,然后执行步骤2至步骤11的操作。
步骤2:用表示MBHMM分类器φc中第L层整体分类器,用WL(r)表示输入到整体分类器的特征数据流Xv中的第r个观察向量序列的权重。当L=1时,将带有权重WL(r)的音频特征数据流Xa输入到整体分类器WL(r)=1/R;当L=2时,将带有权重WL(r)的表情特征数据流Xf输入到整体分类器当L=3时,将带有权重WL(r)的肩部特征数据流Xs输入到整体分类器
步骤3:用表示整体分类器中包含的连续型HMM分量分类器的个数,并设定的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4至步骤10的操作。
步骤4:用表示整体分类器中的第k个连续型HMM分量分类器。将步骤2中所述输入到整体分类器中的特征数据流Xv输入到连续型HMM分量分类器中,该特征数据流中的第r个观察向量序列的权重为wk(r),1≤r≤R;当k=1时,wk(r)=WL(r)。
步骤5:使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数,得到连续型HMM分量分类器的最优模型参数,其具体操作为:
步骤5.1:通过公式(2)计算所述连续型HMM分量分类器中各观察向量序列的前向概率。
步骤5.2:通过公式(3)计算所述连续型HMM分量分类器中各观察向量序列的后向概率。
步骤5.3:通过公式(4)计算所述连续型HMM分量分类器中各观察向量序列的概率Pr。
步骤5.4:使用公式(5)以及公式(10)至公式(13),利用各观察向量序列在步骤5.1中得到的前向概率步骤5.2中得到的后向概率和步骤5.3得到的观察向量序列的概率Pr重估连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d。
步骤5.5:判断连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d是否均收敛;如非均收敛,返回到步骤5.1;否则,则将步骤5.4得到的A、wi,d、μi,d和Ui,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器的最优模型参数。
步骤6:使用步骤4中所述输入到连续型HMM分量分类器的特征数据流Xv验证步骤5得到的连续型HMM分量分类器具体验证方法为:用表示观察向量序列是否被连续型HMM分量分类器正确分类,如果观察向量序列被正确分类,设定否则,设定所述判断某一观察向量序列是否被连续型HMM分量分类器正确分类的方法为:
步骤6.1:首先取出MBHMM分类器φc中的连续型HMM分量分类器然后对其它并行训练的(C-1)个MBHMM分类器分别进行如下操作:如果c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},表示整体分类器中包含的连续型HMM分量分类器的个数,则取出第c′个MBHMM分类器中的连续型HMM分量分类器否则,取出第c′个MBHMM分类器中的连续型HMM分量分类器
步骤6.2:分别计算观察向量序列在步骤6.1取出的C个连续型HMM分量分类器下的概率。如果观察向量序列属于第c个情感类别,且观察向量序列在连续型HMM分量分类器下的概率最大,则认为观察向量序列被正确分类;否则,认为观察向量序列未被正确分类。
步骤7:通过公式(14)计算连续型HMM分量分类器的训练误差,用表示。
步骤8:使用变量k′,并设定k′=k+1。
步骤9:通过公式(15)依次计算输入到第k′个连续型HMM分量分类器的观察向量序列的权重wk′(r)。
步骤10:如果此时k≠K,并且的值不大于某一预先设定值σ=0.5,则令k=k′,wk(r)=wk′(r),然后返回到步骤4;否则,得到整体分类器令然后执行步骤11。
步骤11:判断变量L的值是否小于3,如果L<3,则执行步骤12至步骤16;如果L≥3,则得到MBHMM分类器φc,结束操作。
步骤12:使用步骤2中所述输入到第L层整体分类器的特征数据流Xv验证步骤10得到的整体分类器具体验证方法为:用表示观察向量序列是否被整体分类器正确分类,如果观察向量序列被正确分类,设定 否则,设定
所述判断某一观察向量序列是否被整体分类器正确分类的方法为:
首先取出第c个MBHMM分类器φc中的第L层整体分类器然后分别取出其它并行训练的(C-1)个MBHMM分类器φc′中的第L层整体分类器通过公式(16)分别计算观察向量序列在这C个整体分类器下的概率如果观察向量序列属于第c类情感类别,且观察向量序列在整体分类器下的概率最大,则认为观察向量序列被正确分类;否则,认为观察向量序列未被正确分类。
步骤13:通过公式(17)计算整体分类器的训练误差
步骤14:使用变量L′,并设定L′=L+1。
步骤15:通过公式(18)依次计算输入到整体分类器的特征数据流中的第r个观察向量序列的权重WL′(r)。
步骤16:令L=L′,WL(r)=WL′(r),然后返回到步骤2。
所述识别过程的具体实施步骤如下:
步骤四、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xa、肩部观察向量序列xf和音频观察向量序列xs。
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致。
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。步骤五、判断待识别情感视频的情感类别,具体过程为:
第a步:将待识别情感视频的音频观察向量序列xa作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的肩部观察向量序列xs作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列。
第b步:分别计算待识别情感视频x的观察向量序列xa、xf和xs在MBHMM分类器φc中对应连续型HMM分量分类器下的概率
第c步:通过公式(19)计算待识别情感视频x的观察向量序列xa、xf和xs,在MBHMM分类器φc中对应整体分类器下的概率
第d步:通过公式(20)计算待识别情感视频x,在MBHMM分类器φc下的概率Pc。
第e步:从第d步得到的概率Pc中找到最大值,得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
经过上述步骤的操作,得到的7种基本情感的平均准确率结果如表1第2行第6列所示,得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行第6列所示。
表1不同方法的识别准确率对比表
为了对比本发明提出方法的有效性,使用相同的训练数据和测试数据,分别采用以下4种方法进行识别:(1)单一特征(Audio)HMM分类器;(2)单一特征(Facial)HMM分类器;(3)单一特征(Shoulder)HMM分类器;(4)常规的3-链耦合HMM(CHMM)分类器,得到的7种表情的平均准确率结果如表1第2行至第1列至第4列所示;得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行至第1列至第4列所示。
通过对比,可以看到CHMM分类器的识别准确率大大高于单模态的HMM方法,因为耦合HMM可以有效利用两个通道的互补信息。而本发明提出的方法使用脸部表情、语音、肩部运动三种特征流,训练时考虑并不断更新各样本的权重,且在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本,明显提高了分类的准确度。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情;其特征在于:所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程;
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理;
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列;一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这三种特征数据流用符号Xv表示,v∈{a,f,s};其中,a表示音频,f表示表情,s表示肩部;表示v特征数据流中的第r个音频观察向量序列、表情观察向量序列和肩部观察向量序列,即:表示音频特征数据流中第r个音频特征观察序列,表示表情特征数据流中第r个表情特征观察序列,表示肩部特征数据流中第r个肩部运动特征观察序列1≤r≤R;
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹,m=va×ta,ta为情感视频的时间长度;
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5;
所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值;
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像;
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用至表示;
第3.3步:用T1对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,用对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,……;以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
第4步:获得每个图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m;一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,fqθ]T,fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,fqθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ;
第5步:对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M=[V1,V2,……,Vm]∈Rθ×m;
第6步:依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Lδ表示,δ≥5;
第7步:为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响,对所有图像的肩部运动特征值L1至Lδ进行归一化处理,具体为:
第7.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像;
第7.2步:分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值,分别用至表示;
第7.3步:用对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L′1表示,用对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L′2表示,……;以此类推,用对待处理图像的肩部运动特征值Lδ进行归一化处理,归一化处理后的肩部运动特征值Lδ用符号L′δ表示,
第8步:获得每个图像序列中各帧图像的肩部观察向量,用V″q表示,1≤q≤m;一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运动特征值组成,V″q=[f″q1,f″q2,……,f″qδ]T,f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1,f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2,……,以此类推,f″qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ;
第9步:对于一个情感视频,使用矩阵M″来表示其肩部观察向量序列,M″=[V″1,V″2,……,V″m]∈Rδ×m;
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹,p=vb×ta;
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4;
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数;线谱对参数;Mel频率倒谱系数;感知线性预测倒谱系数;
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧;
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用至表示;
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,用对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,……;以此类推,用对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p;一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′tα]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α;
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p;
步骤二、建立MBHMM分类器;
在步骤一操作的基础上,建立MBHMM分类器;所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器;每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,wi,d,μi,d,Ui,d,π};其中,N表示模型的状态数;π表示状态初始概率;A为状态转移概率矩阵,A={ai,j},1≤i,j≤N,ai,j表示从状态Si转移到状态Sj的概率;
用S={S1,S2,……,SN}表示状态集合,Si=i;
观察概率密度函数为混合高斯密度函数,如公式(1)所示;
其中,bt′(i)表示t′时刻状态为Si时的观察概率密度函数;Ot′是t′时刻的观察向量,即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量;N(Ot′,μi,d,Ui,d)表示状态Si的第d个高斯概率密度函数,1≤d≤D,D为混合高斯密度函数的混合数,2≤D≤5;wi,d,μi,d,Ui,d分别表示状态Si的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵;
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5;第3层整体分类器中的连续型HMM分量分类器的状态数N=3;
当N=5时,设定π为[1 0 0 0 0],同时设定状态转移概率矩阵A的初值为:
当N=3时,设定π为[1 0 0],同时设定状态转移概率矩阵A的初值为:
设定高斯概率密度函数的混合权重wi,d的初始值为高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵:
当观察向量Ot′是表情观察向量时,P=θ;当观察向量Ot′是肩部观察向量时,P=δ;当观察向量Ot′是音频观察向量时,P=α;
高斯概率密度函数的均值向量μi,d的初始值产生方法为:将输入观察序列分成N段,然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值;
步骤三、训练MBHMM分类器;
在步骤二操作的基础上,同时训练C个MBHMM分类器,C表示情感类别的数量;即:对应每一种情感,训练一个MBHMM分类器;用φc表示第c种情感对应的MBHMM分类器,1≤c≤C;
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为:
步骤1:使用变量L,并设定变量L的初始值为1,然后执行步骤2至步骤11的操作;
步骤2:用表示MBHMM分类器φc中第L层整体分类器,用WL(r)表示输入到整体分类器的特征数据流Xv中的第r个观察向量序列的权重;当L=1时,将带有权重WL(r)的音频特征数据流Xa输入到整体分类器WL(r)=1/R;当L=2时,将带有权重WL(r)的表情特征数据流Xf输入到整体分类器当L=3时,将带有权重WL(r)的肩部特征数据流Xs输入到整体分类器
步骤3:用表示整体分类器中包含的连续型HMM分量分类器的个数,并设定的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4至步骤10的操作;
步骤4:用表示整体分类器中的第k个连续型HMM分量分类器;将步骤2中所述输入到整体分类器中的特征数据流Xv输入到连续型HMM分量分类器中,该特征数据流中的第r个观察向量序列的权重为wk(r),1≤r≤R;当k=1时,wk(r)=WL(r);
步骤5:使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数,得到连续型HMM分量分类器的最优模型参数,其具体操作为:
步骤5.1:通过公式(2)计算所述连续型HMM分量分类器中各观察向量序列的前向概率,1≤r≤R;
其中,表示连续型HMM分量分类器在t1时刻处于状态Si,并且从第1时刻到t1时刻出现的概率,也称为前向概率;2≤t1≤Tr;当L=1时,Tr=p;当L=2或3时,Tr=m;αr,1(i)=πb1(i);表示第r个样本在第1时刻至t1时刻的观察向量;
步骤5.2:通过公式(3)计算所述连续型HMM分量分类器中各观察向量序列的后向概率;
其中,表示连续型HMM分量分类器在t2时刻处于状态Sj,并且从(t2+1)时刻到Tr时刻出现的概率,也称为后向概率;1≤t2≤Tr-1;当L=1时,Tr=p;当L=2或3时,Tr=m; 表示第r个样本在第(t2+1)时刻至Tr时刻的观察向量;
步骤5.3:通过公式(4)计算所述连续型HMM分量分类器中各观察向量序列的概率Pr;
其中,表示连续型HMM分量分类器在Tr时刻的状态取值;当L=1时,Tr=p;当L=2或3时,Tr=m;表示连续型HMM分量分类器在初始时刻的状态取值;
步骤5.4:使用公式(5)至公式(9),利用各观察向量序列在步骤5.1中得到的前向概率步骤5.2中得到的后向概率和步骤5.3得到的观察向量序列的概率Pr重估连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d;
其中,ξr,t′(i,d)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d个高斯密度函数下的概率;
其中,ξr,t′(i,d′)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d′个高斯密度函数下的概率;
其中,当L=1时,Tr=p;当L=2或3时,Tr=m;
步骤5.5:判断连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d是否均收敛;如非均收敛,返回到步骤5.1;否则,则将步骤5.4得到的A、wi,d、μi,d和Ui,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器的最优模型参数;
步骤6:使用步骤4中所述输入到连续型HMM分量分类器的特征数据流Xv验证步骤5得到的连续型HMM分量分类器具体验证方法为:用表示观察向量序列是否被连续型HMM分量分类器正确分类,如果观察向量序列被正确分类,设定否则,设定
步骤7:通过公式(14)计算连续型HMM分量分类器的训练误差,用表示;
步骤8:使用变量k′,并设定k′=k+1;
步骤9:通过公式(15)依次计算输入到第k′个连续型HMM分量分类器的观察向量序列的权重,用wk′(r)表示,1≤r≤R;
其中,Zk′是归一化因子,
步骤10:如果此时k≠K,并且的值不大于某一预先设定值σ,0<σ≤0.5,则令k=k′,wk(r)=wk′(r),然后返回到步骤4;否则,得到整体分类器令然后执行步骤11;
步骤11:判断变量L的值是否小于3,如果L<3,则执行步骤12至步骤16;如果L≥3,则得到MBHMM分类器φc,结束操作;
步骤12:使用步骤2中所述输入到第L层整体分类器的特征数据流Xv验证步骤10得到的整体分类器具体验证方法为:用表示观察向量序列是否被整体分类器正确分类,如果观察向量序列被正确分类,设定 否则,设定
步骤13:通过公式(17)计算整体分类器的训练误差,用表示;
步骤14:使用变量L′,并设定L′=L+1;
步骤15:通过公式(18)依次计算输入到整体分类器的特征数据流中的第r个观察向量序列的权重,用WL′(r)表示;
其中,Z′L′是归一化因子,
步骤16:令L=L′,WL(r)=WL′(r),然后返回到步骤2;
所述识别过程的具体实施步骤如下:
步骤四、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xf、肩部观察向量序列xs和音频观察向量序列xa;
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致;
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致;
步骤五、判断待识别情感视频的情感类别,具体过程为:
第a步:将待识别情感视频的音频观察向量序列xa作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的肩部观察向量序列xs作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列;
第b步:分别计算待识别情感视频x的观察向量序列xa、xf和xs在MBHMM分类器φc中对应连续型HMM分量分类器下的概率
第c步:通过公式(19)计算待识别情感视频x的观察向量序列xa、xf和xs,在MBHMM分类器φc中对应整体分类器下的概率
第d步:通过公式(20)计算待识别情感视频x,在MBHMM分类器φc下的概率Pc;
第e步:从第d步得到的概率Pc中找到最大值,得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
2.如权利要求1所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示;
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
3.如权利要求2所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.1步中所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
4.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
5.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
6.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,δ=10,其具体步骤为:
第6.1步:依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(x′1,y′1)、(x′2,y′2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(x′3,y′3)、(x′4,y′4)表示;第5肩部运动特征点位于喉咙位置,用(x′5,y′5)表示;
所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括:人工手动标识;
第6.2步:根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪;
第6.3步:根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至L10,具体为:将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用L10表示。
7.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤5的操作还可以是:使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数,得到最优模型参数,其操作步骤与使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数的操作步骤之间的区别仅在于步骤54步中的公式(6)至公式(9)分别用公式(10)至公式(13)替换;
改进EM算法使得迭代求解HMM分量分类器模型参数的过程中考虑到各样本的权重,使得训练着重于难于识别的样本。
8.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤6中所述判断某一特征观察序列是否被连续型HMM分量分类器正确分类的方法为:
步骤6.1:首先取出MBHMM分类器φc中的连续型HMM分量分类器然后对其它并行训练的(C-1)个MBHMM分类器分别进行如下操作:如果c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},表示整体分类器中包含的连续型HMM分量分类器的个数,则取出第c′个MBHMM分类器中的连续型HMM分量分类器否则,取出第c′个MBHMM分类器中的连续型HMM分量分类器
步骤6.2:分别计算观察向量序列在步骤6.1取出的C个连续型HMM分量分类器下的概率;如果观察向量序列属于第c个情感类别,且观察向量序列在连续型HMM分量分类器下的概率最大,则认为观察向量序列被正确分类;否则,认为观察向量序列未被正确分类。
9.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤12中所述判断某一特征观察序列是否被整体分类器正确分类的方法为:
首先取出第c个MBHMM分类器φc中的第L层整体分类器然后分别取出其它并行训练的(C-1)个MBHMM分类器φc′中的第L层整体分类器通过公式(16)分别计算观察向量序列在这C个整体分类器下的概率,用符号表示;如果观察向量序列属于第c类情感类别,且观察向量序列在整体分类器下的概率最大,则认为观察向量序列被正确分类;否则,认为观察向量序列未被正确分类;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210459172.6A CN102930298B (zh) | 2012-09-02 | 2012-11-15 | 基于多层增强hmm的语音-视觉融合的情感识别方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210361246 | 2012-09-02 | ||
CN201210361246.2 | 2012-09-02 | ||
CN201210459172.6A CN102930298B (zh) | 2012-09-02 | 2012-11-15 | 基于多层增强hmm的语音-视觉融合的情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102930298A CN102930298A (zh) | 2013-02-13 |
CN102930298B true CN102930298B (zh) | 2015-04-29 |
Family
ID=47645095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210459172.6A Expired - Fee Related CN102930298B (zh) | 2012-09-02 | 2012-11-15 | 基于多层增强hmm的语音-视觉融合的情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102930298B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
CN103400145B (zh) * | 2013-07-19 | 2016-08-10 | 北京理工大学 | 基于线索神经网络的语音-视觉融合情感识别方法 |
US10127927B2 (en) * | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
US9576190B2 (en) * | 2015-03-18 | 2017-02-21 | Snap Inc. | Emotion recognition in video conferencing |
CN105469065B (zh) * | 2015-12-07 | 2019-04-23 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN105559804A (zh) * | 2015-12-23 | 2016-05-11 | 上海矽昌通信技术有限公司 | 一种基于多种监控的心情管家系统 |
CN107293292A (zh) * | 2016-03-31 | 2017-10-24 | 深圳光启合众科技有限公司 | 基于云端的设备及其操作方法 |
CN105938565A (zh) * | 2016-06-27 | 2016-09-14 | 西北工业大学 | 基于多层分类器和互联网图像辅助训练的彩色图像情感分类方法 |
CN106205624B (zh) * | 2016-07-15 | 2019-10-15 | 河海大学 | 一种基于dbscan算法的声纹识别方法 |
CN106845510B (zh) * | 2016-11-07 | 2020-04-07 | 中国传媒大学 | 基于深度层级特征融合的中国传统视觉文化符号识别方法 |
CN107085717A (zh) * | 2017-05-24 | 2017-08-22 | 努比亚技术有限公司 | 一种家庭监控方法、服务端及计算机可读存储介质 |
CN107609572B (zh) * | 2017-08-15 | 2021-04-02 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
CN108735201B (zh) * | 2018-06-29 | 2020-11-17 | 广州视源电子科技股份有限公司 | 连续语音识别方法、装置、设备和存储介质 |
CN108985358B (zh) * | 2018-06-29 | 2021-03-02 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN109522818B (zh) * | 2018-10-29 | 2021-03-30 | 中国科学院深圳先进技术研究院 | 一种表情识别的方法、装置、终端设备及存储介质 |
CN109948569B (zh) * | 2019-03-26 | 2022-04-22 | 重庆理工大学 | 一种利用粒子滤波框架的三维混合表情识别方法 |
CN110516593A (zh) * | 2019-08-27 | 2019-11-29 | 京东方科技集团股份有限公司 | 一种情绪预测装置、情绪预测方法及显示装置 |
CN111898476B (zh) * | 2020-07-12 | 2022-04-26 | 西北工业大学 | 一种耦合随机共振的自适应线谱增强方法 |
CN112733994B (zh) * | 2020-12-10 | 2024-07-12 | 中国科学院深圳先进技术研究院 | 机器人的自主情感生成方法、系统及应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662922A (zh) * | 2002-06-27 | 2005-08-31 | 皇家飞利浦电子股份有限公司 | 通过视觉和语音识别测量内容分级 |
CN101201980A (zh) * | 2007-12-19 | 2008-06-18 | 北京交通大学 | 一种基于语音情感识别的远程汉语教学系统 |
CN101685634A (zh) * | 2008-09-27 | 2010-03-31 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7249263B2 (en) * | 2003-07-25 | 2007-07-24 | International Business Machines Corporation | Method and system for user authentication and identification using behavioral and emotional association consistency |
US7607097B2 (en) * | 2003-09-25 | 2009-10-20 | International Business Machines Corporation | Translating emotion to braille, emoticons and other special symbols |
-
2012
- 2012-11-15 CN CN201210459172.6A patent/CN102930298B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662922A (zh) * | 2002-06-27 | 2005-08-31 | 皇家飞利浦电子股份有限公司 | 通过视觉和语音识别测量内容分级 |
CN101201980A (zh) * | 2007-12-19 | 2008-06-18 | 北京交通大学 | 一种基于语音情感识别的远程汉语教学系统 |
CN101685634A (zh) * | 2008-09-27 | 2010-03-31 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102930298A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102930298B (zh) | 基于多层增强hmm的语音-视觉融合的情感识别方法 | |
CN103400145B (zh) | 基于线索神经网络的语音-视觉融合情感识别方法 | |
CN102930297B (zh) | 基于增强耦合hmm的语音-视觉融合的情感识别方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN109409296B (zh) | 将人脸表情识别和语音情感识别融合的视频情感识别方法 | |
CN108899050B (zh) | 基于多模态情绪识别系统的语音信号分析子系统 | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
Schuller et al. | Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture | |
Petridis et al. | End-to-end audiovisual fusion with LSTMs | |
CN112348075A (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN102819744B (zh) | 一种双通道信息融合的情感识别方法 | |
Jiang et al. | Audio visual emotion recognition based on triple-stream dynamic bayesian network models | |
CN111583964A (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN110956953A (zh) | 基于音频分析与深度学习的争吵识别方法 | |
Sarkar et al. | Time-contrastive learning based deep bottleneck features for text-dependent speaker verification | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
Egas López et al. | Assessing Parkinson’s disease from speech using fisher vectors | |
Padi et al. | Multi-window data augmentation approach for speech emotion recognition | |
Sahu et al. | Modeling feature representations for affective speech using generative adversarial networks | |
Köse et al. | Multimodal representations for synchronized speech and real-time MRI video processing | |
Nanduri et al. | A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data | |
Gade et al. | A comprehensive study on automatic speaker recognition by using deep learning techniques | |
Paul et al. | A 2D convolution neural network based method for human emotion classification from speech signal | |
Nguyen | Multimodal emotion recognition using deep learning techniques | |
Fu et al. | An adversarial training based speech emotion classifier with isolated gaussian regularization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150429 Termination date: 20181115 |
|
CF01 | Termination of patent right due to non-payment of annual fee |