CN102930298A - 基于多层增强hmm的语音-视觉融合的情感识别方法 - Google Patents

基于多层增强hmm的语音-视觉融合的情感识别方法 Download PDF

Info

Publication number
CN102930298A
CN102930298A CN2012104591726A CN201210459172A CN102930298A CN 102930298 A CN102930298 A CN 102930298A CN 2012104591726 A CN2012104591726 A CN 2012104591726A CN 201210459172 A CN201210459172 A CN 201210459172A CN 102930298 A CN102930298 A CN 102930298A
Authority
CN
China
Prior art keywords
classifier
sequence
image
prime
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104591726A
Other languages
English (en)
Other versions
CN102930298B (zh
Inventor
吕坤
贾云得
邹文泽
张欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201210459172.6A priority Critical patent/CN102930298B/zh
Publication of CN102930298A publication Critical patent/CN102930298A/zh
Application granted granted Critical
Publication of CN102930298B publication Critical patent/CN102930298B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出的一种基于多层增强HMM(MBHMM)的语音-视觉融合的情感识别方法,属于自动情感识别领域。本发明方法中提出的MBHMM分类器包括3层整体分类器,每层整体分类器由从左向右的多个连续型HMM分量分类器组合而成。使用情绪视频中的语音、脸部表情、肩部运动三种特征流分别作为3层整体分类器的输入,在训练整体分类器时通过AdaBoost方法不断更新各样本的权重,同时通过AdaBoost方法确保在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。

Description

基于多层增强HMM的语音-视觉融合的情感识别方法
技术领域
本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种多层增强HMM(Multilayer Boosted HMM,HMM)的语音-视觉融合的情感识别方法,属于自动情感识别领域。
背景技术
各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。
融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类:特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition ThroughMultistream Fused HMM》(IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June 2008)中提出了一种多流融合HMM(MFHMM)方法,根据最大熵和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream FusedHidden Markov Model for Audio-Visual Affect Recognition》(Proc.14th ACM Int’lConf.Multimedia(Multimedia’06),pp.65-68,2006.)中扩展了该框架,采用训练组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》(IEEEInt’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.)中使用神经网络来合并语音-视觉通道的信息。这些方法的缺点是:这些方法在使用某个模态的特征流训练分类器时,没有对用其它模态的特征难于识别的样本进行重点训练,在使用同一模态的样本进行训练时,也未对同一模态的样本中难于识别的样本进行重点训练,从而造成识别率不高。
本发明中涉及到的重要已有技术有:隐马尔可夫模型;AdaBoost方法。
(1)隐马尔可夫模型:
隐马尔可夫模型是一种有效的描述存在于离散时间段上的具有关联关系的数据序列的统计学方法。
隐马尔科夫模型的理论基础是在1970年前后由Baum等人建立起来的,随后有CMU的Baker和IBM的Jelinek等人将其应用到语音识别之中,由于Bell实验室Rabiner等人在80年代中期对隐马尔科夫模型的深入浅出的介绍,才逐渐使隐马尔科夫模型为世界各国从事语音处理的研究员所了解和熟悉,进而成为公认的一个研究热点。
隐马尔科夫模型是在Markov链(一种有限状态机)的基础上发展起来的。首先介绍两个概念:状态集合和观察序列。状态集合指隐马尔科夫模型所具有的全部状态{S1,...,Si,...,SN},其中N为状态数;观察序列是一个具有上下文关联性的数据序列,用v1,...,vt,...,vT表示,v1,...,vt,...,vT为一个观测序列,其中vt=cb,表示该序列中时刻t的元素的取值为cb,1≤b≤B,B表示每个状态可输出的元素(值)的总数。
由于实际问题比Markov链模型所描述的更为复杂,观察到的观察序列中的元素并不是与Markov链中的状态一一对应,而是通过一组概率分布相联系。这样,站在观察者的角度,只能看到观察值,不像Markov链模型中的观察值和状态一一对应。因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,这就是所谓的“隐”Markov模型,即Hidden Markov Model(HMM)。
隐马尔科夫模型的三个基本问题是:评估问题、解码问题及学习问题。其中,学习问题是使模型参数最优化,及调整模型参数,以使模型能最好的描述一个给定观测序列,最好的说明这个观测序列就是最优化模型产生出来的,用来解决分类问题。
(2)AdaBoost方法:
AdaBoost(adaptive boosting,自适应增强)方法是“Boosting”方法中的一种。该方法允许设计者不断的加入新的“弱分类器”,直到达到某个预定的足够小的误差率。在AdaBoost方法中,每一个训练样本都被赋予一个权重,表明它被某个分量分类器选入训练集的概率;相反,如果某个样本点没有被正确分类,那么它的权重就得到提高。通过这样的方式,AdaBoost方法能够“聚焦于”那些较困难识别的样本上。
发明内容
本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种多层增强HMM的语音-视觉融合的情感识别方法。
本发明的目的是通过下述技术方案实现的。
一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情。所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理。
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这三种特征数据流用符号Xv表示,
Figure BDA00002407319200031
v∈{a,f,s};其中,a表示音频,f表示表情,s表示肩部;
Figure BDA00002407319200032
表示v特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列;1≤r≤R。
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹(Hz),m=va×ta,ta为情感视频的时间长度。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5。
所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值。
步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用
Figure BDA00002407319200051
Figure BDA00002407319200052
表示;
第3.3步:用对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,
Figure BDA00002407319200054
Figure BDA00002407319200055
对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,
Figure BDA00002407319200056
……;以此类推,用
Figure BDA00002407319200057
对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
Figure BDA00002407319200058
第4步:获得每个图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m。一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,f]T,fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,f为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ
第5步:对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M=[V1,V2,……,Vm]∈Rθ×m
第6步:依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Lδ表示,δ≥5。
步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,δ=10,其具体步骤为:
第6.1步:依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(x′1,y′1)、(x′2,y′2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(x′3,y′3)、(x′4,y′4)表示;第5肩部运动特征点位于喉咙位置,用(x′5,y′5)表示。
所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括:人工手动标识。
第6.2步:根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪。
第6.3步:根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至L10,具体为:将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用L10表示。
第7步:为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响,对所有图像的肩部运动特征值L1至Lδ进行归一化处理,具体为:
第7.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。
第7.2步:分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值,分别用
Figure BDA00002407319200071
表示。
第7.3步:用对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L′1表示,
Figure BDA00002407319200074
Figure BDA00002407319200075
对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L′2表示,……;以此类推,用对待处理图像的肩部运动特征值Lδ进行归一化处理,归一化处理后的肩部运动特征值Lδ用符号L′δ表示,
第8步:获得每个图像序列中各帧图像的肩部观察向量,用V″q表示,1≤q≤m。一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运动特征值组成,V″q=[f″q1,f″q2,……,f″]T,f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1,f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2,……,以此类推,f″为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ
第9步:对于一个情感视频,使用矩阵M″来表示其肩部观察向量序列,M″=[V″1,V″2,……,V″m]∈Rδ×m
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹(Hz),p=vb×ta
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4。
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC);线谱对参数(Line Spectrum Pair,LSP);Mel频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC);感知线性预测倒谱系数(Perceptual Linear PredictionCepstral Coefficients,PLPCC)。
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用
Figure BDA00002407319200081
Figure BDA00002407319200082
表示;
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,
Figure BDA00002407319200084
Figure BDA00002407319200085
对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,……;以此类推,用
Figure BDA00002407319200087
对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
Figure BDA00002407319200088
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p
步骤二、建立MBHMM分类器。
在步骤一操作的基础上,建立MBHMM分类器。所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器。每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,wi,di,d,Ui,d,π};其中,N表示模型的状态数;π表示状态初始概率;A为状态转移概率矩阵,A={ai,j},1≤i,j≤N,ai,j表示从状态Si转移到状态Sj的概率。
用S={S1,S2,……,SN}表示状态集合,Si=i。
观察概率密度函数为混合高斯密度函数,如公式(1)所示。
b t &prime; ( i ) = &Sigma; d = 1 D w i , d N ( O t &prime; , &mu; i , d , U i , d ) - - - ( 1 )
其中,bt′(i)表示t′时刻状态为Si时的观察概率密度函数;Ot′是t′时刻的观察向量,即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量;N(Ot′i,d,Ui,d)表示状态Si的第d个高斯概率密度函数,1≤d≤D,D为混合高斯密度函数的混合数,2≤D≤5;wi,di,d,Ui,d分别表示状态Si的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵。
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5;第3层整体分类器中的连续型HMM分量分类器的状态数N=3。
当N=5时,设定π为[1 0 0 0 0],同时设定状态转移概率矩阵A的初值为: 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 1 ;
当N=3时,设定π为[1 0 0],同时设定状态转移概率矩阵A的初值为:
0.5 0.5 0 0 0.5 0.5 0 0 1 .
设定高斯概率密度函数的混合权重wi,d的初始值为高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵:
0.25 0 0 . . . 0 0 0.25 0 . . . 0 0 0 0.25 . . . 0 . . . . . . . . . . . . . . 0 0 0 . . . 0.25 .
当观察向量Ot′是表情观察向量时,P=θ;当观察向量Ot′是肩部观察向量时,P=δ;当观察向量Ot′是音频观察向量时,P=α。
高斯概率密度函数的均值向量μi,d的初始值产生方法为:将输入观察序列分成N段,然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值。
步骤三、训练MBHMM分类器。
在步骤二操作的基础上,同时训练C个MBHMM分类器,C表示情感类别的数量;即:对应每一种情感,训练一个MBHMM分类器。用φc表示第c种情感对应的MBHMM分类器,1≤c≤C。
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为:
步骤1:使用变量L,并设定变量L的初始值为1,然后执行步骤2至步骤11的操作。
步骤2:用
Figure BDA00002407319200104
表示MBHMM分类器φc中第L层整体分类器,用WL(r)表示输入到整体分类器
Figure BDA00002407319200105
的特征数据流Xv中的第r个观察向量序列
Figure BDA00002407319200106
的权重。当L=1时,将带有权重WL(r)的音频特征数据流Xa输入到整体分类器
Figure BDA00002407319200107
WL(r)=1/R;当L=2时,将带有权重WL(r)的表情特征数据流Xf输入到整体分类器当L=3时,将带有权重WL(r)的肩部特征数据流Xs输入到整体分类器
Figure BDA00002407319200109
步骤3:用
Figure BDA000024073192001010
表示整体分类器
Figure BDA000024073192001011
中包含的连续型HMM分量分类器的个数,并设定
Figure BDA000024073192001012
的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4至步骤10的操作。
步骤4:用
Figure BDA00002407319200111
表示整体分类器中的第k个连续型HMM分量分类器。将步骤2中所述输入到整体分类器
Figure BDA00002407319200113
中的特征数据流Xv输入到连续型HMM分量分类器
Figure BDA00002407319200114
中,该特征数据流中的第r个观察向量序列的权重为wk(r),1≤r≤R;当k=1时,wk(r)=WL(r)。
步骤5:使用EM算法迭代调整步骤4中所述连续型HMM分量分类器
Figure BDA00002407319200116
的模型参数,得到连续型HMM分量分类器
Figure BDA00002407319200117
的最优模型参数,其具体操作为:
步骤5.1:通过公式(2)计算所述连续型HMM分量分类器
Figure BDA00002407319200118
中各观察向量序列
Figure BDA00002407319200119
的前向概率,1≤r≤R。
&alpha; r , t 1 ( i ) = b t 1 ( i ) &Sigma; j a j , i &alpha; r , t 1 - 1 ( j ) - - - ( 2 )
其中,
Figure BDA000024073192001111
表示连续型HMM分量分类器
Figure BDA000024073192001112
在t1时刻处于状态Si,并且从第1时刻到t1时刻出现Or,1,Or,2,…,
Figure BDA000024073192001113
的概率,也称为前向概率;2≤t1≤Tr;当L=1时,Tr=p;当L=2或3时,Tr=m;αr,1(i)=π(i)b1(i);Or,1,Or,2,…,
Figure BDA000024073192001114
表示第r个样本在第1时刻至t1时刻的观察向量。
步骤5.2:通过公式(3)计算所述连续型HMM分量分类器
Figure BDA000024073192001115
中各观察向量序列
Figure BDA000024073192001116
的后向概率。
&beta; r , t 2 ( j ) = &Sigma; i b t 2 + 1 ( i ) a j , i &beta; r , t 2 + 1 ( i ) - - - ( 3 )
其中,
Figure BDA000024073192001118
表示连续型HMM分量分类器
Figure BDA000024073192001119
在t2时刻处于状态Sj,并且从(t2+1)时刻到Tr时刻出现
Figure BDA000024073192001120
的概率,也称为后向概率;1≤t2≤Tr-1;当L=1时,Tr=p;当L=2或3时,Tr=m;
Figure BDA000024073192001121
Figure BDA000024073192001122
表示第r个样本在第(t2+1)时刻至Tr时刻的观察向量。
步骤5.3:通过公式(4)计算所述连续型HMM分量分类器
Figure BDA000024073192001123
中各观察向量序列
Figure BDA000024073192001124
的概率(用符号Pr表示)。
P r = &alpha; r , p ( q T r L ) = &beta; r , 1 ( q 1 L ) - - - ( 4 )
其中,
Figure BDA000024073192001126
表示连续型HMM分量分类器
Figure BDA000024073192001127
在Tr时刻的状态取值;当L=1时,Tr=p;当L=2或3时,Tr=m;
Figure BDA000024073192001128
表示连续型HMM分量分类器
Figure BDA000024073192001129
在初始时刻的状态取值。
步骤5.4:使用公式(5)至公式(9),利用各观察向量序列
Figure BDA000024073192001130
在步骤5.1中得到的前向概率步骤5.2中得到的后向概率和步骤5.3得到的观察向量序列的概率Pr重估连续型HMM分量分类器
Figure BDA000024073192001133
的模型参数A、wi,d、μi,d和Ui,d
&xi; r , t &prime; ( i , d ) = &alpha; r , t &prime; ( i ) &beta; r , t &prime; ( i ) &Sigma; i &alpha; r , t &prime; ( i ) &beta; r , t &prime; ( i ) &times; w i , d N ( O r , t &prime; , &mu; i , d U i , d ) &Sigma; d &prime; = 1 D w i , d &prime; N ( O r , t &prime; , &mu; i , d &prime; , U i , d &prime; ) - - - ( 5 )
其中,ξr,t′(i,d)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器
Figure BDA00002407319200122
的状态Si的第d个高斯密度函数下的概率。
w i , d = &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &Sigma; d &prime; = 1 D &xi; r , t &prime; ( i , d &prime; ) ] - - - ( 6 )
其中,ξr,t′(i,d′)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器
Figure BDA00002407319200124
的状态Si的第d′个高斯密度函数下的概率。
&mu; i , d = &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) O r , t &prime; ] &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] - - - ( 7 )
U i , d = &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ( O r , t &prime; - &mu; i , d ) ( O r , t &prime; - &mu; i , d ) T ] &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] - - - ( 8 )
a j , i = &Sigma; r ( 1 / P r ) &Sigma; t 2 = 1 T r - 1 &alpha; r , t 2 ( j ) a j , i b t 2 + 1 ( i ) &beta; r , t 2 + 1 ( i ) &Sigma; r ( 1 / P r ) &Sigma; t 2 = 1 T r - 1 &alpha; r , t 2 ( j ) &beta; r , t 2 ( j ) - - - ( 9 )
其中,当L=1时,Tr=p;当L=2或3时,Tr=m;
步骤5.5:判断连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d是否均收敛;如非均收敛,返回到步骤5.1;否则,则将步骤5.4得到的A、wi,d、μi,d和Ui,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器的最优模型参数。
步骤5的操作还可以是:使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器
Figure BDA000024073192001210
的模型参数,得到最优模型参数,其操作步骤与使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数的操作步骤之间的区别仅在于步骤5.4步中的公式(6)至公式(9)分别用公式(10)至公式(13)替换。
w i , d = &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &Sigma; d &prime; = 1 D &xi; r , t &prime; ( i , d &prime; ) ] - - - ( 10 )
&mu; i , d = &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) O r , t &prime; ] &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] - - - ( 11 )
U i , d = &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ( O r , t &prime; - &mu; i , d ) ( O r , t &prime; - &mu; i , d ) T ] &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] - - - ( 12 )
a j , i = &Sigma; r ( w k ( r ) / P r ) &Sigma; t 2 = 1 T r - 1 &alpha; r , t 2 ( j ) a j , i b t 2 + 1 ( i ) &beta; r , t 2 + 1 ( i ) &Sigma; r ( w k ( r ) / P r ) &Sigma; t 2 = 1 T r - 1 &alpha; r , t 2 ( j ) &beta; r , t 2 ( j ) - - - ( 13 )
改进EM算法使得迭代求解HMM分量分类器模型参数的过程中考虑到各样本的权重,使得训练着重于难于识别的样本。
步骤6:使用步骤4中所述输入到连续型HMM分量分类器
Figure BDA00002407319200135
的特征数据流Xv验证步骤5得到的连续型HMM分量分类器
Figure BDA00002407319200136
具体验证方法为:用
Figure BDA00002407319200137
表示观察向量序列
Figure BDA00002407319200138
是否被连续型HMM分量分类器
Figure BDA00002407319200139
正确分类,如果观察向量序列
Figure BDA000024073192001310
被正确分类,设定
Figure BDA000024073192001311
否则,设定
Figure BDA000024073192001312
所述判断某一观察向量序列
Figure BDA000024073192001313
是否被连续型HMM分量分类器
Figure BDA000024073192001314
正确分类的方法为:
步骤6.1:首先取出MBHMM分类器φc中的连续型HMM分量分类器
Figure BDA000024073192001315
然后对其它并行训练的(C-1)个MBHMM分类器分别进行如下操作:如果
Figure BDA000024073192001316
c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},
Figure BDA000024073192001317
表示整体分类器
Figure BDA000024073192001318
中包含的连续型HMM分量分类器的个数,则取出第c′个MBHMM分类器中的连续型HMM分量分类器
Figure BDA000024073192001319
否则,取出第c′个MBHMM分类器中的连续型HMM分量分类器
步骤6.2:分别计算观察向量序列
Figure BDA000024073192001321
在步骤6.1取出的C个连续型HMM分量分类器下的概率。如果观察向量序列
Figure BDA000024073192001322
属于第c个情感类别,且观察向量序列
Figure BDA00002407319200141
在连续型HMM分量分类器
Figure BDA00002407319200142
下的概率最大,则认为观察向量序列
Figure BDA00002407319200143
被正确分类;否则,认为观察向量序列
Figure BDA00002407319200144
未被正确分类。
步骤7:通过公式(14)计算连续型HMM分量分类器
Figure BDA00002407319200145
的训练误差,用
Figure BDA00002407319200146
表示。
E k c , L = &Sigma; h k c , L ( x r v ) = - 1 w k ( r ) - - - ( 14 )
步骤8:使用变量k′,并设定k′=k+1。
步骤9:通过公式(15)依次计算输入到第k′个连续型HMM分量分类器
Figure BDA00002407319200148
的观察向量序列
Figure BDA00002407319200149
的权重,用wk′(r)表示,1≤r≤R。
w k &prime; ( r ) = w k ( r ) Z k &prime; &times; e - h k c , L ( x r v ) &times; &delta; k - - - ( 15 )
其中,Zk′是归一化因子, Z k &prime; = &Sigma; r ( w k ( r ) &times; e - h k c , L ( x r v ) &times; &delta; k ) , &delta; k = ln [ ( 1 - E k c , L ) / E k c , L ] 2 .
步骤10:如果此时k≠K,并且
Figure BDA000024073192001413
的值不大于某一预先设定值(用符号σ表示,0<σ≤0.5),则令k=k′,wk(r)=wk′(r),然后返回到步骤4;否则,得到整体分类器
Figure BDA000024073192001414
Figure BDA000024073192001415
然后执行步骤11。
步骤11:判断变量L的值是否小于3,如果L<3,则执行步骤12至步骤16;如果L≥3,则得到MBHMM分类器φc,结束操作。
步骤12:使用步骤2中所述输入到第L层整体分类器
Figure BDA000024073192001416
的特征数据流Xv验证步骤10得到的整体分类器具体验证方法为:用
Figure BDA000024073192001418
表示观察向量序列
Figure BDA000024073192001419
是否被整体分类器
Figure BDA000024073192001420
正确分类,如果观察向量序列
Figure BDA000024073192001421
被正确分类,设定 H L c ( x r v ) = 1 ; 否则,设定 H L c ( x r v ) = - 1 .
所述判断某一观察向量序列是否被整体分类器
Figure BDA000024073192001425
正确分类的方法为:
首先取出第c个MBHMM分类器φc中的第L层整体分类器
Figure BDA000024073192001426
然后分别取出其它并行训练的(C-1)个MBHMM分类器φc′中的第L层整体分类器
Figure BDA000024073192001427
通过公式(16)分别计算观察向量序列
Figure BDA000024073192001428
在这C个整体分类器下的概率,用符号表示。如果观察向量序列
Figure BDA000024073192001430
属于第c类情感类别,且观察向量序列
Figure BDA000024073192001431
在整体分类器
Figure BDA000024073192001432
下的概率最大,则认为观察向量序列
Figure BDA000024073192001433
被正确分类;否则,认为观察向量序列
Figure BDA000024073192001434
未被正确分类。
P L c = P ( x r v | &psi; c L ) = &Sigma; k = 1 K c L &delta; k P ( x r v | &theta; k c , L ) K c L - - - ( 16 )
步骤13:通过公式(17)计算整体分类器
Figure BDA00002407319200152
的训练误差,用
Figure BDA00002407319200153
表示。
E L c = &Sigma; H L c ( x r v ) = - 1 W L ( r ) - - - ( 17 )
步骤14:使用变量L′,并设定L′=L+1。
步骤15:通过公式(18)依次计算输入到整体分类器
Figure BDA00002407319200155
的特征数据流中的第r个(1≤r≤R)观察向量序列
Figure BDA00002407319200156
的权重,用WL′(r)表示。
W L &prime; ( r ) = W L ( r ) Z L &prime; &prime; &times; e - H L c ( x r v ) &times; &delta; L &prime; - - - ( 18 )
其中,Z′L′是归一化因子, Z L &prime; &prime; = &Sigma; r ( W L ( r ) &times; e - H L c ( v r v ) &times; &delta; L &prime; ) , &delta; L &prime; = ln [ ( 1 - E L c ) / E L c ] 2 .
步骤16:令L=L′,WL(r)=WL′(r),然后返回到步骤2。
所述识别过程的具体实施步骤如下:
步骤四、对待识别情感视频(用x表示)进行预处理,得到待识别情感视频的表情观察向量序列(用xa表示)、肩部观察向量序列(用xf表示)和音频观察向量序列(用xs表示)。
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致。
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。
步骤五、判断待识别情感视频的情感类别,具体过程为:
第a步:将待识别情感视频的音频观察向量序列xa作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的肩部观察向量序列xs作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列。
第b步:分别计算待识别情感视频x的观察向量序列xa、xf和xs在MBHMM分类器φc中对应连续型HMM分量分类器
Figure BDA00002407319200161
下的概率
Figure BDA00002407319200162
第c步:通过公式(19)计算待识别情感视频x的观察向量序列xa、xf和xs,在MBHMM分类器φc中对应整体分类器
Figure BDA00002407319200163
下的概率
Figure BDA00002407319200164
P ( x v | &psi; c L ) = &Sigma; k = 1 K c L &delta; k P ( x v | &theta; k c , L ) K c L - - - ( 19 )
第d步:通过公式(20)计算待识别情感视频x,在MBHMM分类器φc下的概率Pc
P c = P ( x | &phi; c ) = ( &Sigma; L &delta; L &prime; P ( x v | &psi; c L ) ) / 3 - - - ( 20 )
第e步:从第d步得到的概率Pc中找到最大值,得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
有益效果
本发明提出的基于多层增强HMM的语音-视觉融合的情感识别方法,使用脸部表情、语音、肩部运动三种特征流,训练时考虑并不断更新各样本的权重,且在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。
附图说明
图1为本发明实施例中每个图像序列中的第一帧图像中20个脸部特征点的具体位置;
图2为本发明实施例中每个图像序列中的第一帧图像中5个肩部运动特征点的具体位置;
图3为本发明实施例中MBHMM分类器的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明方法的实施方式做详细说明。
本实施例中,5个实验者(2男3女)在引导式(Wizard of Oz)场景下朗读带有7种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性)的句子,摄像机从正面同步录下脸部表情图像和声音数据。场景脚本中,每一种情感有3个不同的句子,每个人将每句话重复5遍。随机选择四个人的情感视频数据作为训练数据,将剩下那个人的视频数据作为测试集合,整个识别过程是独立于实验者的。然后,将实验数据使用activation-evaluation空间粗分类方法进行了再次标注,即沿着activation轴将样本划分为积极和消极类别,沿着evaluation轴将样本划分为正和负类别。随机选择四个人的情感数据作为训练集合,将剩下那个人的情感数据作为测试集合,整个识别过程是独立于实验者的。实验中执行5重交叉验证。
实验中使用了两种情感类别集合分别进行情感识别实验。其一是7种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性),其二是activation-evaluation空间的粗分类。
所述双通道信息融合的情感识别方法包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理。
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R=60。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列。
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va=25Hz,m=va×ta,ta为情感视频的时间长度。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,分别用T1至Tθ表示,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用
Figure BDA00002407319200191
Figure BDA00002407319200192
表示;
第3.3步:用
Figure BDA00002407319200193
对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,
Figure BDA00002407319200195
对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,
Figure BDA00002407319200196
……;以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
Figure BDA00002407319200198
第4步:获得每个图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m。一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,f]T,fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,f为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ
第5步:对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M=[V1,V2,……,Vm]∈Rθ×m
第6步:依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Lδ表示,δ=10,其具体步骤为:
第6.1步:依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(x′1,y′1)、(x′2,y′2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(x′3,y′3)、(x′4,y′4)表示;第5肩部运动特征点位于喉咙位置,用(x′5,y′5)表示。
所述标识5个肩部运动特征点的方法包括:人工手动标识。
第6.2步:根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪。
第6.3步:根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至L10,具体为:将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用L10表示。
第7步:为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响,对所有图像的肩部运动特征值L1至Lδ进行归一化处理,具体为:
第7.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。
第7.2步:分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值,分别用
Figure BDA00002407319200201
Figure BDA00002407319200202
表示。
第7.3步:用
Figure BDA00002407319200211
对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L′1表示,
Figure BDA00002407319200213
对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L′2表示,
Figure BDA00002407319200214
……;以此类推,用
Figure BDA00002407319200215
对待处理图像的肩部运动特征值Lδ进行归一化处理,归一化处理后的肩部运动特征值Lδ用符号L′δ表示,
第8步:获得每个图像序列中各帧图像的肩部观察向量,用V″q表示,1≤q≤m。一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运动特征值组成,V″q=[f″q1,f″q2,……,f″]T,f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1,f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2,……,以此类推,f″为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ
第9步:对于一个情感视频,使用矩阵M″来表示其肩部观察向量序列,M″=[V″1,V″2,……,V″m]∈Rδ×m
对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb=50Hz,p=vb×ta
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α=14,分别为信号强度、基音频率和12个Mel频率倒谱系数。
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用
Figure BDA00002407319200217
Figure BDA00002407319200218
表示;
步骤c.3:用
Figure BDA00002407319200219
对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,
Figure BDA000024073192002110
对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,
Figure BDA000024073192002112
……;以此类推,用
Figure BDA000024073192002113
对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
Figure BDA00002407319200221
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p
步骤二、建立MBHMM分类器。
在步骤一操作的基础上,建立MBHMM分类器。所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器。每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成,1≤K′≤K,K的值由人为预先设定,K=6;三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,wi,di,d,Ui,d,π};其中,N表示模型的状态数;π表示状态初始概率;A为状态转移概率矩阵,A={ai,j},1≤i,j≤N,ai,j表示从状态Si转移到状态Sj的概率。
用S={S1,S2,……,SN}表示状态集合,Si=i。
观察概率密度函数为混合高斯密度函数,如公式(1)所示,其中D=3。
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5;第3层整体分类器中的连续型HMM分量分类器的状态数N=3。
当N=5时,设定π为[1 0 0 0 0],同时设定状态转移概率矩阵A的初值为: 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 1 ;
当N=3时,设定π为[1 0 0],同时设定状态转移概率矩阵A的初值为:
0.5 0.5 0 0 0.5 0.5 0 0 1 .
设定高斯概率密度函数的混合权重wi,d的初始值为
Figure BDA00002407319200232
高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵:
0.25 0 0 . . . 0 0 0.25 0 . . . 0 0 0 0.25 . . . 0 . . . . . . . . . . . . . . 0 0 0 . . . 0.25 .
当观察向量Ot′是表情观察向量时,P=θ;当观察向量Ot′是肩部观察向量时,P=δ;当观察向量Ot′是音频观察向量时,P=α。
高斯概率密度函数的均值向量μi,d的初始值产生方法为:将输入观察序列分成N段,然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值。
步骤三、训练MBHMM分类器。
在步骤二操作的基础上,同时训练C个MBHMM分类器,C=7。
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为:
步骤1:使用变量L,并设定变量L的初始值为1,然后执行步骤2至步骤11的操作。
步骤2:用
Figure BDA00002407319200234
表示MBHMM分类器φc中第L层整体分类器,用WL(r)表示输入到整体分类器
Figure BDA00002407319200235
的特征数据流Xv中的第r个观察向量序列
Figure BDA00002407319200236
的权重。当L=1时,将带有权重WL(r)的音频特征数据流Xa输入到整体分类器WL(r)=1/R;当L=2时,将带有权重WL(r)的表情特征数据流Xf输入到整体分类器
Figure BDA00002407319200238
当L=3时,将带有权重WL(r)的肩部特征数据流Xs输入到整体分类器
Figure BDA00002407319200239
步骤3:用
Figure BDA000024073192002310
表示整体分类器
Figure BDA000024073192002311
中包含的连续型HMM分量分类器的个数,并设定
Figure BDA000024073192002312
的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4至步骤10的操作。
步骤4:用
Figure BDA000024073192002313
表示整体分类器
Figure BDA000024073192002314
中的第k个连续型HMM分量分类器。将步骤2中所述输入到整体分类器
Figure BDA00002407319200241
中的特征数据流Xv输入到连续型HMM分量分类器
Figure BDA00002407319200242
中,该特征数据流中的第r个观察向量序列
Figure BDA00002407319200243
的权重为wk(r),1≤r≤R;当k=1时,wk(r)=WL(r)。
步骤5:使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器
Figure BDA00002407319200244
的模型参数,得到连续型HMM分量分类器
Figure BDA00002407319200245
的最优模型参数,其具体操作为:
步骤5.1:通过公式(2)计算所述连续型HMM分量分类器
Figure BDA00002407319200246
中各观察向量序列
Figure BDA00002407319200247
的前向概率。
步骤5.2:通过公式(3)计算所述连续型HMM分量分类器
Figure BDA00002407319200248
中各观察向量序列
Figure BDA00002407319200249
的后向概率。
步骤5.3:通过公式(4)计算所述连续型HMM分量分类器中各观察向量序列的概率Pr
步骤5.4:使用公式(5)以及公式(10)至公式(13),利用各观察向量序列
Figure BDA000024073192002412
在步骤5.1中得到的前向概率步骤5.2中得到的后向概率
Figure BDA000024073192002414
和步骤5.3得到的观察向量序列的概率Pr重估连续型HMM分量分类器
Figure BDA000024073192002415
的模型参数A、wi,d、μi,d和Ui,d
步骤5.5:判断连续型HMM分量分类器
Figure BDA000024073192002416
的模型参数A、wi,d、μi,d和Ui,d是否均收敛;如非均收敛,返回到步骤5.1;否则,则将步骤5.4得到的A、wi,d、μi,d和Ui,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器
Figure BDA000024073192002417
的最优模型参数。
步骤6:使用步骤4中所述输入到连续型HMM分量分类器
Figure BDA000024073192002418
的特征数据流Xv验证步骤5得到的连续型HMM分量分类器具体验证方法为:用
Figure BDA000024073192002420
表示观察向量序列
Figure BDA000024073192002421
是否被连续型HMM分量分类器
Figure BDA000024073192002422
正确分类,如果观察向量序列
Figure BDA000024073192002423
被正确分类,设定
Figure BDA000024073192002424
否则,设定
Figure BDA000024073192002425
所述判断某一观察向量序列
Figure BDA000024073192002426
是否被连续型HMM分量分类器
Figure BDA000024073192002427
正确分类的方法为:
步骤6.1:首先取出MBHMM分类器φc中的连续型HMM分量分类器
Figure BDA000024073192002428
然后对其它并行训练的(C-1)个MBHMM分类器分别进行如下操作:如果
Figure BDA000024073192002429
c′∈{1,2,……,c-1}∪{c+1,c+2,……,C},
Figure BDA000024073192002430
表示整体分类器
Figure BDA000024073192002431
中包含的连续型HMM分量分类器的个数,则取出第c′个MBHMM分类器中的连续型HMM分量分类器
Figure BDA00002407319200251
否则,取出第c′个MBHMM分类器中的连续型HMM分量分类器
Figure BDA00002407319200252
步骤6.2:分别计算观察向量序列
Figure BDA00002407319200253
在步骤6.1取出的C个连续型HMM分量分类器下的概率。如果观察向量序列
Figure BDA00002407319200254
属于第c个情感类别,且观察向量序列在连续型HMM分量分类器下的概率最大,则认为观察向量序列
Figure BDA00002407319200257
被正确分类;否则,认为观察向量序列
Figure BDA00002407319200258
未被正确分类。
步骤7:通过公式(14)计算连续型HMM分量分类器
Figure BDA00002407319200259
的训练误差,用
Figure BDA000024073192002510
表示。
步骤8:使用变量k′,并设定k′=k+1。
步骤9:通过公式(15)依次计算输入到第k′个连续型HMM分量分类器
Figure BDA000024073192002511
的观察向量序列
Figure BDA000024073192002512
的权重wk′(r)。
步骤10:如果此时k≠K,并且
Figure BDA000024073192002513
的值不大于某一预先设定值σ=0.5,则令k=k′,wk(r)=wk′(r),然后返回到步骤4;否则,得到整体分类器
Figure BDA000024073192002514
Figure BDA000024073192002515
然后执行步骤11。
步骤11:判断变量L的值是否小于3,如果L<3,则执行步骤12至步骤16;如果L≥3,则得到MBHMM分类器φc,结束操作。
步骤12:使用步骤2中所述输入到第L层整体分类器的特征数据流Xv验证步骤10得到的整体分类器具体验证方法为:用
Figure BDA000024073192002518
表示观察向量序列
Figure BDA000024073192002519
是否被整体分类器
Figure BDA000024073192002520
正确分类,如果观察向量序列被正确分类,设定 H L c ( x r v ) = 1 ; 否则,设定 H L c ( x r v ) = - 1 .
所述判断某一观察向量序列
Figure BDA000024073192002524
是否被整体分类器
Figure BDA000024073192002525
正确分类的方法为:
首先取出第c个MBHMM分类器φc中的第L层整体分类器然后分别取出其它并行训练的(C-1)个MBHMM分类器φc′中的第L层整体分类器
Figure BDA000024073192002527
通过公式(16)分别计算观察向量序列
Figure BDA000024073192002528
在这C个整体分类器下的概率如果观察向量序列
Figure BDA000024073192002530
属于第c类情感类别,且观察向量序列
Figure BDA000024073192002531
在整体分类器下的概率最大,则认为观察向量序列
Figure BDA000024073192002533
被正确分类;否则,认为观察向量序列
Figure BDA000024073192002534
未被正确分类。
步骤13:通过公式(17)计算整体分类器
Figure BDA000024073192002535
的训练误差
Figure BDA000024073192002536
步骤14:使用变量L′,并设定L′=L+1。
步骤15:通过公式(18)依次计算输入到整体分类器
Figure BDA00002407319200261
的特征数据流中的第r个观察向量序列
Figure BDA00002407319200262
的权重WL′(r)。
步骤16:令L=L′,WL(r)=WL′(r),然后返回到步骤2。
所述识别过程的具体实施步骤如下:
步骤四、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xa、肩部观察向量序列xf和音频观察向量序列xs
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致。
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。步骤五、判断待识别情感视频的情感类别,具体过程为:
第a步:将待识别情感视频的音频观察向量序列xa作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的肩部观察向量序列xs作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列。
第b步:分别计算待识别情感视频x的观察向量序列xa、xf和xs在MBHMM分类器φc中对应连续型HMM分量分类器下的概率
第c步:通过公式(19)计算待识别情感视频x的观察向量序列xa、xf和xs,在MBHMM分类器φc中对应整体分类器
Figure BDA00002407319200265
下的概率
Figure BDA00002407319200266
第d步:通过公式(20)计算待识别情感视频x,在MBHMM分类器φc下的概率Pc
第e步:从第d步得到的概率Pc中找到最大值,得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
经过上述步骤的操作,得到的7种基本情感的平均准确率结果如表1第2行第6列所示,得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行第6列所示。
表1不同方法的识别准确率对比表
Figure BDA00002407319200271
为了对比本发明提出方法的有效性,使用相同的训练数据和测试数据,分别采用以下4种方法进行识别:(1)单一特征(Audio)HMM分类器;(2)单一特征(Facial)HMM分类器;(3)单一特征(Shoulder)HMM分类器;(4)常规的3-链耦合HMM(CHMM)分类器,得到的7种表情的平均准确率结果如表1第2行至第1列至第4列所示;得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行至第1列至第4列所示。
通过对比,可以看到CHMM分类器的识别准确率大大高于单模态的HMM方法,因为耦合HMM可以有效利用两个通道的互补信息。而本发明提出的方法使用脸部表情、语音、肩部运动三种特征流,训练时考虑并不断更新各样本的权重,且在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本,明显提高了分类的准确度。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情;其特征在于:所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程;
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理;
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列;一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这三种特征数据流用符号Xv表示,v∈{a,f,s};其中,a表示音频,f表示表情,s表示肩部;
Figure FDA00002407319100012
表示v特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列;1≤r≤R;
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹,m=va×ta,ta为情感视频的时间长度;
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5;
所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值;
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像;
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用
Figure FDA00002407319100021
Figure FDA00002407319100022
表示;
第3.3步:用
Figure FDA00002407319100023
对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,
Figure FDA00002407319100024
Figure FDA00002407319100025
对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,……;以此类推,用
Figure FDA00002407319100027
对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
Figure FDA00002407319100028
第4步:获得每个图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m;一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,f]T,fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,f为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ
第5步:对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M=[V1,V2,……,Vm]∈Rθ×m
第6步:依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Lδ表示,δ≥5;
第7步:为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响,对所有图像的肩部运动特征值L1至Lδ进行归一化处理,具体为:
第7.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像;
第7.2步:分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值,分别用
Figure FDA00002407319100029
Figure FDA000024073191000210
表示;
第7.3步:用对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L′1表示,
Figure FDA000024073191000212
Figure FDA000024073191000213
对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L′2表示,
Figure FDA000024073191000214
……;以此类推,用
Figure FDA000024073191000215
对待处理图像的肩部运动特征值Lδ进行归一化处理,归一化处理后的肩部运动特征值Lδ用符号L′δ表示,
第8步:获得每个图像序列中各帧图像的肩部观察向量,用V″q表示,1≤q≤m;一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运动特征值组成,V″q=[f″q1,f″q2,……,f″]T,f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1,f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2,……,以此类推,f″为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ
第9步:对于一个情感视频,使用矩阵M″来表示其肩部观察向量序列,M″=[V″1,V″2,……,V″m]∈Rδ×m
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹,p=vb×ta
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4;
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数;线谱对参数;Mel频率倒谱系数;感知线性预测倒谱系数;
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧;
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用
Figure FDA00002407319100031
Figure FDA00002407319100032
表示;
步骤c.3:用
Figure FDA00002407319100033
对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,
Figure FDA00002407319100035
对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,
Figure FDA00002407319100036
……;以此类推,用
Figure FDA00002407319100037
对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p;一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p
步骤二、建立MBHMM分类器;
在步骤一操作的基础上,建立MBHMM分类器;所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器;每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,wi,di,d,Ui,d,π};其中,N表示模型的状态数;π表示状态初始概率;A为状态转移概率矩阵,A={ai,j},1≤i,j≤N,ai,j表示从状态Si转移到状态Sj的概率;
用S={S1,S2,……,SN}表示状态集合,Si=i;
观察概率密度函数为混合高斯密度函数,如公式(1)所示;
b t &prime; ( i ) = &Sigma; d = 1 D w i , d N ( O t &prime; , &mu; i , d , U i , d ) - - - ( 1 )
其中,bt′(i)表示t′时刻状态为Si时的观察概率密度函数;Ot′是t′时刻的观察向量,即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量;N(Ot′i,d,Ui,d)表示状态Si的第d个高斯概率密度函数,1≤d≤D,D为混合高斯密度函数的混合数,2≤D≤5;wi,di,d,Ui,d分别表示状态Si的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵;
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5;第3层整体分类器中的连续型HMM分量分类器的状态数N=3;
当N=5时,设定π为[1 0 0 0 0],同时设定状态转移概率矩阵A的初值为: 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 0.5 0.5 0 0 0 0 1 ;
当N=3时,设定π为[1 0 0],同时设定状态转移概率矩阵A的初值为:
0.5 0.5 0 0 0.5 0.5 0 0 1 ;
设定高斯概率密度函数的混合权重wi,d的初始值为
Figure FDA00002407319100053
高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵:
0.25 0 0 . . . 0 0 0.25 0 . . . 0 0 0 0.25 . . . 0 . . . . . . . . . . . . . . 0 0 0 . . . 0.25 ;
当观察向量Ot′是表情观察向量时,P=θ;当观察向量Ot′是肩部观察向量时,P=δ;当观察向量Ot′是音频观察向量时,P=α;
高斯概率密度函数的均值向量μi,d的初始值产生方法为:将输入观察序列分成N段,然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值;
步骤三、训练MBHMM分类器;
在步骤二操作的基础上,同时训练C个MBHMM分类器,C表示情感类别的数量;即:对应每一种情感,训练一个MBHMM分类器;用φc表示第c种情感对应的MBHMM分类器,1≤c≤C;
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为:
步骤1:使用变量L,并设定变量L的初始值为1,然后执行步骤2至步骤11的操作;
步骤2:用
Figure FDA00002407319100055
表示MBHMM分类器φc中第L层整体分类器,用WL(r)表示输入到整体分类器的特征数据流Xv中的第r个观察向量序列
Figure FDA00002407319100062
的权重;当L=1时,将带有权重WL(r)的音频特征数据流Xa输入到整体分类器
Figure FDA00002407319100063
WL(r)=1/R;当L=2时,将带有权重WL(r)的表情特征数据流Xf输入到整体分类器
Figure FDA00002407319100064
当L=3时,将带有权重WL(r)的肩部特征数据流Xs输入到整体分类器
Figure FDA00002407319100065
步骤3:用表示整体分类器中包含的连续型HMM分量分类器的个数,并设定的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4至步骤10的操作;
步骤4:用
Figure FDA00002407319100069
表示整体分类器
Figure FDA000024073191000610
中的第k个连续型HMM分量分类器;将步骤2中所述输入到整体分类器
Figure FDA000024073191000611
中的特征数据流Xv输入到连续型HMM分量分类器
Figure FDA000024073191000612
中,该特征数据流中的第r个观察向量序列
Figure FDA000024073191000613
的权重为wk(r),1≤r≤R;当k=1时,wk(r)=WL(r);
步骤5:使用EM算法迭代调整步骤4中所述连续型HMM分量分类器
Figure FDA000024073191000614
的模型参数,得到连续型HMM分量分类器
Figure FDA000024073191000615
的最优模型参数,其具体操作为:
步骤5.1:通过公式(2)计算所述连续型HMM分量分类器中各观察向量序列的前向概率,1≤r≤R;
&alpha; r , t 1 ( i ) = b t 1 ( i ) &Sigma; j a j , i &alpha; r , t 1 - 1 ( j ) - - - ( 2 )
其中,
Figure FDA000024073191000619
表示连续型HMM分量分类器
Figure FDA000024073191000620
在t1时刻处于状态Si,并且从第1时刻到t1时刻出现Or,1,Or,2,…,
Figure FDA000024073191000621
的概率,也称为前向概率;2≤t1≤Tr;当L=1时,Tr=p;当L=2或3时,Tr=m;αr,1(i)=π(i)b1(i);Or,1,Or,2,…,
Figure FDA000024073191000622
表示第r个样本在第1时刻至t1时刻的观察向量;
步骤5.2:通过公式(3)计算所述连续型HMM分量分类器
Figure FDA000024073191000623
中各观察向量序列
Figure FDA000024073191000624
的后向概率;
&beta; r , t 2 ( j ) = &Sigma; i b t 2 + 1 ( i ) a j , i &beta; r , t 2 + 1 ( i ) - - - ( 3 )
其中,表示连续型HMM分量分类器
Figure FDA000024073191000627
在t2时刻处于状态Sj,并且从(t2+1)时刻到Tr时刻出现
Figure FDA000024073191000628
的概率,也称为后向概率;1≤t2≤Tr-1;当L=1时,Tr=p;当L=2或3时,Tr=m;
Figure FDA000024073191000629
Figure FDA000024073191000630
表示第r个样本在第(t2+1)时刻至Tr时刻的观察向量;
步骤5.3:通过公式(4)计算所述连续型HMM分量分类器
Figure FDA000024073191000631
中各观察向量序列
Figure FDA000024073191000632
的概率Pr
P r = &alpha; r , p ( q T r L ) = &beta; r , 1 ( q 1 L ) - - - ( 4 )
其中,
Figure FDA00002407319100071
表示连续型HMM分量分类器
Figure FDA00002407319100072
在Tr时刻的状态取值;当L=1时,Tr=p;当L=2或3时,Tr=m;
Figure FDA00002407319100073
表示连续型HMM分量分类器
Figure FDA00002407319100074
在初始时刻的状态取值;
步骤5.4:使用公式(5)至公式(9),利用各观察向量序列
Figure FDA00002407319100075
在步骤5.1中得到的前向概率
Figure FDA00002407319100076
步骤5.2中得到的后向概率
Figure FDA00002407319100077
和步骤5.3得到的观察向量序列的概率Pr重估连续型HMM分量分类器
Figure FDA00002407319100078
的模型参数A、wi,d、μi,d和Ui,d
&xi; r , t &prime; ( i , d ) = &alpha; r , t &prime; ( i ) &beta; r , t &prime; ( i ) &Sigma; i &alpha; r , t &prime; ( i ) &beta; r , t &prime; ( i ) &times; w i , d N ( O r , t &prime; , &mu; i , d U i , d ) &Sigma; d &prime; = 1 D w i , d &prime; N ( O r , t &prime; , &mu; i , d &prime; , U i , d &prime; ) - - - ( 5 )
其中,ξr,t′(i,d)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d个高斯密度函数下的概率;
w i , d = &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &Sigma; d &prime; = 1 D &xi; r , t &prime; ( i , d &prime; ) ] - - - ( 6 )
其中,ξr,t′(i,d′)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器
Figure FDA000024073191000712
的状态Si的第d′个高斯密度函数下的概率;
&mu; i , d = &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) O r , t &prime; ] &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] - - - ( 7 )
U i , d = &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ( O r , t &prime; - &mu; i , d ) ( O r , t &prime; - &mu; i , d ) T ] &Sigma; r [ ( 1 / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] - - - ( 8 )
a j , i = &Sigma; r ( 1 / P r ) &Sigma; t 2 = 1 T r - 1 &alpha; r , t 2 ( j ) a j , i b t 2 + 1 ( i ) &beta; r , t 2 + 1 ( i ) &Sigma; r ( 1 / P r ) &Sigma; t 2 = 1 T r - 1 &alpha; r , t 2 ( j ) &beta; r , t 2 ( j ) - - - ( 9 )
其中,当L=1时,Tr=p;当L=2或3时,Tr=m;
步骤5.5:判断连续型HMM分量分类器
Figure FDA000024073191000716
的模型参数A、wi,d、μi,d和Ui,d是否均收敛;如非均收敛,返回到步骤5.1;否则,则将步骤5.4得到的A、wi,d、μi,d和Ui,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器
Figure FDA00002407319100081
的最优模型参数;
步骤6:使用步骤4中所述输入到连续型HMM分量分类器
Figure FDA00002407319100082
的特征数据流Xv验证步骤5得到的连续型HMM分量分类器
Figure FDA00002407319100083
具体验证方法为:用
Figure FDA00002407319100084
表示观察向量序列
Figure FDA00002407319100085
是否被连续型HMM分量分类器
Figure FDA00002407319100086
正确分类,如果观察向量序列被正确分类,设定
Figure FDA00002407319100088
否则,设定
Figure FDA00002407319100089
步骤7:通过公式(14)计算连续型HMM分量分类器
Figure FDA000024073191000810
的训练误差,用
Figure FDA000024073191000811
表示;
E k c , L = &Sigma; h k c , L ( x r v ) = - 1 w k ( r ) - - - ( 14 )
步骤8:使用变量k′,并设定k′=k+1;
步骤9:通过公式(15)依次计算输入到第k′个连续型HMM分量分类器
Figure FDA000024073191000813
的观察向量序列
Figure FDA000024073191000814
的权重,用wk′(r)表示,1≤r≤R;
w k &prime; ( r ) = w k ( r ) Z k &prime; &times; e - h k c , L ( x r v ) &times; &delta; k - - - ( 15 )
其中,Zk′是归一化因子, Z k &prime; = &Sigma; r ( w k ( r ) &times; e - h k c , L ( x r v ) &times; &delta; k ) , &delta; k = ln [ ( 1 - E k c , L ) / E k c , L ] 2 ;
步骤10:如果此时k≠K,并且
Figure FDA000024073191000818
的值不大于某一预先设定值σ,0<σ≤0.5,则令k=k′,wk(r)=wk′(r),然后返回到步骤4;否则,得到整体分类器
Figure FDA000024073191000819
Figure FDA000024073191000820
然后执行步骤11;
步骤11:判断变量L的值是否小于3,如果L<3,则执行步骤12至步骤16;如果L≥3,则得到MBHMM分类器φc,结束操作;
步骤12:使用步骤2中所述输入到第L层整体分类器
Figure FDA000024073191000821
的特征数据流Xv验证步骤10得到的整体分类器
Figure FDA000024073191000822
具体验证方法为:用
Figure FDA000024073191000823
表示观察向量序列
Figure FDA000024073191000824
是否被整体分类器正确分类,如果观察向量序列
Figure FDA000024073191000826
被正确分类,设定 H L c ( x r v ) = 1 ; 否则,设定 H L c ( x r v ) = - 1 ;
步骤13:通过公式(17)计算整体分类器
Figure FDA000024073191000829
的训练误差,用表示;
E L c = &Sigma; H L c ( x r v ) = - 1 W L ( r ) - - - ( 17 )
步骤14:使用变量L′,并设定L′=L+1;
步骤15:通过公式(18)依次计算输入到整体分类器
Figure FDA00002407319100091
的特征数据流中的第r个观察向量序列
Figure FDA00002407319100092
的权重,用WL′(r)表示;
W L &prime; ( r ) = W L ( r ) Z L &prime; &prime; &times; e - H L c ( x r v ) &times; &delta; L &prime; - - - ( 18 )
其中,Z′L′是归一化因子, Z L &prime; &prime; = &Sigma; r ( W L ( r ) &times; e - H L c ( v r v ) &times; &delta; L &prime; ) , &delta; L &prime; = ln [ ( 1 - E L c ) / E L c ] 2 ;
步骤16:令L=L′,WL(r)=WL′(r),然后返回到步骤2;
所述识别过程的具体实施步骤如下:
步骤四、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xa、肩部观察向量序列xf和音频观察向量序列xs
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致;
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致;
步骤五、判断待识别情感视频的情感类别,具体过程为:
第a步:将待识别情感视频的音频观察向量序列xa作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的肩部观察向量序列xs作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列;
第b步:分别计算待识别情感视频x的观察向量序列xa、xf和xs在MBHMM分类器φc中对应连续型HMM分量分类器下的概率
Figure FDA00002407319100097
第c步:通过公式(19)计算待识别情感视频x的观察向量序列xa、xf和xs,在MBHMM分类器φc中对应整体分类器
Figure FDA00002407319100098
下的概率
Figure FDA00002407319100099
P ( x v | &psi; c L ) = &Sigma; k = 1 K c L &delta; k P ( x v | &theta; k c , L ) K c L - - - ( 19 )
第d步:通过公式(20)计算待识别情感视频x,在MBHMM分类器φc下的概率Pc
P c = P ( x | &phi; c ) = ( &Sigma; L &delta; L &prime; P ( x v | &psi; c L ) ) / 3 - - - ( 20 )
第e步:从第d步得到的概率Pc中找到最大值,得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
2.如权利要求1所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示;
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
3.如权利要求2所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.1步中所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
4.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
5.如权利要求2至4之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
6.如权利要求1至5之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,δ=10,其具体步骤为:
第6.1步:依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(x′1,y′1)、(x′2,y′2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(x′3,y′3)、(x′4,y′4)表示;第5肩部运动特征点位于喉咙位置,用(x′5,y′5)表示;
所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括:人工手动标识;
第6.2步:根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪;
第6.3步:根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至L10,具体为:将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用L10表示。
7.如权利要求1至6之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤5的操作还可以是:使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器
Figure FDA00002407319100121
的模型参数,得到最优模型参数,其操作步骤与使用EM算法迭代调整步骤4中所述连续型HMM分量分类器
Figure FDA00002407319100131
的模型参数的操作步骤之间的区别仅在于步骤5.4步中的公式(6)至公式(9)分别用公式(10)至公式(13)替换;
w i , d = &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &Sigma; d &prime; = 1 D &xi; r , t &prime; ( i , d &prime; ) ] - - - ( 10 )
&mu; i , d = &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) O r , t &prime; ] &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] - - - ( 11 )
U i , d = &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ( O r , t &prime; - &mu; i , d ) ( O r , t &prime; - &mu; i , d ) T ] &Sigma; r [ ( w k ( r ) / P ( x r v | &theta; k c , L ) ) &Sigma; t &prime; &xi; r , t &prime; ( i , d ) ] - - - ( 12 )
a j , i = &Sigma; r ( w k ( r ) / P r ) &Sigma; t 2 = 1 T r - 1 &alpha; r , t 2 ( j ) a j , i b t 2 + 1 ( i ) &beta; r , t 2 + 1 ( i ) &Sigma; r ( w k ( r ) / P r ) &Sigma; t 2 = 1 T r - 1 &alpha; r , t 2 ( j ) &beta; r , t 2 ( j ) - - - ( 13 )
改进EM算法使得迭代求解HMM分量分类器模型参数的过程中考虑到各样本的权重,使得训练着重于难于识别的样本。
8.如权利要求1至7之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤6中所述判断某一特征观察序列
Figure FDA00002407319100136
是否被连续型HMM分量分类器
Figure FDA00002407319100137
正确分类的方法为:
步骤6.1:首先取出MBHMM分类器φc中的连续型HMM分量分类器
Figure FDA00002407319100138
然后对其它并行训练的(C-1)个MBHMM分类器分别进行如下操作:如果
Figure FDA00002407319100139
c′∈{1,2,……,c-1}∪{c+1,c+2,……,C),
Figure FDA000024073191001310
表示整体分类器
Figure FDA000024073191001311
中包含的连续型HMM分量分类器的个数,则取出第c′个MBHMM分类器中的连续型HMM分量分类器
Figure FDA000024073191001312
否则,取出第c′个MBHMM分类器中的连续型HMM分量分类器
步骤6.2:分别计算观察向量序列
Figure FDA000024073191001314
在步骤6.1取出的C个连续型HMM分量分类器下的概率;如果观察向量序列
Figure FDA000024073191001315
属于第c个情感类别,且观察向量序列在连续型HMM分量分类器
Figure FDA000024073191001317
下的概率最大,则认为观察向量序列
Figure FDA000024073191001318
被正确分类;否则,认为观察向量序列
Figure FDA000024073191001319
未被正确分类。
9.如权利要求1至8之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤12中所述判断某一特征观察序列是否被整体分类器
Figure FDA00002407319100142
正确分类的方法为:
首先取出第c个MBHMM分类器φc中的第L层整体分类器
Figure FDA00002407319100143
然后分别取出其它并行训练的(C-1)个MBHMM分类器φc′中的第L层整体分类器
Figure FDA00002407319100144
通过公式(16)分别计算观察向量序列
Figure FDA00002407319100145
在这C个整体分类器下的概率,用符号
Figure FDA00002407319100146
表示;如果观察向量序列属于第c类情感类别,且观察向量序列
Figure FDA00002407319100148
在整体分类器
Figure FDA00002407319100149
下的概率最大,则认为观察向量序列
Figure FDA000024073191001410
被正确分类;否则,认为观察向量序列
Figure FDA000024073191001411
未被正确分类;
P L c = P ( x r v | &psi; c L ) = &Sigma; k = 1 K c L &delta; k P ( x r v | &theta; k c , L ) K c L . - - - ( 16 )
CN201210459172.6A 2012-09-02 2012-11-15 基于多层增强hmm的语音-视觉融合的情感识别方法 Expired - Fee Related CN102930298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210459172.6A CN102930298B (zh) 2012-09-02 2012-11-15 基于多层增强hmm的语音-视觉融合的情感识别方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210361246 2012-09-02
CN201210361246.2 2012-09-02
CN201210459172.6A CN102930298B (zh) 2012-09-02 2012-11-15 基于多层增强hmm的语音-视觉融合的情感识别方法

Publications (2)

Publication Number Publication Date
CN102930298A true CN102930298A (zh) 2013-02-13
CN102930298B CN102930298B (zh) 2015-04-29

Family

ID=47645095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210459172.6A Expired - Fee Related CN102930298B (zh) 2012-09-02 2012-11-15 基于多层增强hmm的语音-视觉融合的情感识别方法

Country Status (1)

Country Link
CN (1) CN102930298B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400145A (zh) * 2013-07-19 2013-11-20 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN104240720A (zh) * 2013-06-24 2014-12-24 北京大学深圳研究生院 一种基于多重分形和信息融合的语音情感识别方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105575388A (zh) * 2014-07-28 2016-05-11 索尼电脑娱乐公司 情感语音处理
CN105559804A (zh) * 2015-12-23 2016-05-11 上海矽昌通信技术有限公司 一种基于多种监控的心情管家系统
CN105938565A (zh) * 2016-06-27 2016-09-14 西北工业大学 基于多层分类器和互联网图像辅助训练的彩色图像情感分类方法
CN106205624A (zh) * 2016-07-15 2016-12-07 河海大学 一种基于dbscan算法的声纹识别方法
CN106845510A (zh) * 2016-11-07 2017-06-13 中国传媒大学 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN107085717A (zh) * 2017-05-24 2017-08-22 努比亚技术有限公司 一种家庭监控方法、服务端及计算机可读存储介质
WO2017166994A1 (zh) * 2016-03-31 2017-10-05 深圳光启合众科技有限公司 基于云端的设备及其操作方法
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN107636684A (zh) * 2015-03-18 2018-01-26 阿凡达合并第二附属有限责任公司 视频会议中的情绪识别
CN108735201A (zh) * 2018-06-29 2018-11-02 广州视源电子科技股份有限公司 连续语音识别方法、装置、设备和存储介质
CN108985358A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 情绪识别方法、装置、设备及存储介质
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109948569A (zh) * 2019-03-26 2019-06-28 重庆理工大学 一种利用粒子滤波框架的三维混合表情识别方法
CN110516593A (zh) * 2019-08-27 2019-11-29 京东方科技集团股份有限公司 一种情绪预测装置、情绪预测方法及显示装置
CN111898476A (zh) * 2020-07-12 2020-11-06 西北工业大学 一种耦合随机共振的自适应线谱增强方法
CN112733994A (zh) * 2020-12-10 2021-04-30 中国科学院深圳先进技术研究院 机器人的自主情感生成方法、系统及应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050022034A1 (en) * 2003-07-25 2005-01-27 International Business Machines Corporation Method and system for user authentication and identification using behavioral and emotional association consistency
US20050069852A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation Translating emotion to braille, emoticons and other special symbols
CN1662922A (zh) * 2002-06-27 2005-08-31 皇家飞利浦电子股份有限公司 通过视觉和语音识别测量内容分级
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662922A (zh) * 2002-06-27 2005-08-31 皇家飞利浦电子股份有限公司 通过视觉和语音识别测量内容分级
US20050022034A1 (en) * 2003-07-25 2005-01-27 International Business Machines Corporation Method and system for user authentication and identification using behavioral and emotional association consistency
US20050069852A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation Translating emotion to braille, emoticons and other special symbols
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240720A (zh) * 2013-06-24 2014-12-24 北京大学深圳研究生院 一种基于多重分形和信息融合的语音情感识别方法
CN103400145B (zh) * 2013-07-19 2016-08-10 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN103400145A (zh) * 2013-07-19 2013-11-20 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN105575388B (zh) * 2014-07-28 2021-06-01 索尼电脑娱乐公司 情感语音处理
CN105575388A (zh) * 2014-07-28 2016-05-11 索尼电脑娱乐公司 情感语音处理
CN107636684A (zh) * 2015-03-18 2018-01-26 阿凡达合并第二附属有限责任公司 视频会议中的情绪识别
US10949655B2 (en) 2015-03-18 2021-03-16 Snap Inc. Emotion recognition in video conferencing
US11652956B2 (en) 2015-03-18 2023-05-16 Snap Inc. Emotion recognition in video conferencing
CN105469065B (zh) * 2015-12-07 2019-04-23 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105559804A (zh) * 2015-12-23 2016-05-11 上海矽昌通信技术有限公司 一种基于多种监控的心情管家系统
WO2017166994A1 (zh) * 2016-03-31 2017-10-05 深圳光启合众科技有限公司 基于云端的设备及其操作方法
CN105938565A (zh) * 2016-06-27 2016-09-14 西北工业大学 基于多层分类器和互联网图像辅助训练的彩色图像情感分类方法
CN106205624A (zh) * 2016-07-15 2016-12-07 河海大学 一种基于dbscan算法的声纹识别方法
CN106205624B (zh) * 2016-07-15 2019-10-15 河海大学 一种基于dbscan算法的声纹识别方法
CN106845510A (zh) * 2016-11-07 2017-06-13 中国传媒大学 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN106845510B (zh) * 2016-11-07 2020-04-07 中国传媒大学 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN107085717A (zh) * 2017-05-24 2017-08-22 努比亚技术有限公司 一种家庭监控方法、服务端及计算机可读存储介质
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN107609572B (zh) * 2017-08-15 2021-04-02 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN108985358A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 情绪识别方法、装置、设备及存储介质
CN108735201A (zh) * 2018-06-29 2018-11-02 广州视源电子科技股份有限公司 连续语音识别方法、装置、设备和存储介质
CN109522818B (zh) * 2018-10-29 2021-03-30 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109948569A (zh) * 2019-03-26 2019-06-28 重庆理工大学 一种利用粒子滤波框架的三维混合表情识别方法
CN109948569B (zh) * 2019-03-26 2022-04-22 重庆理工大学 一种利用粒子滤波框架的三维混合表情识别方法
CN110516593A (zh) * 2019-08-27 2019-11-29 京东方科技集团股份有限公司 一种情绪预测装置、情绪预测方法及显示装置
CN111898476A (zh) * 2020-07-12 2020-11-06 西北工业大学 一种耦合随机共振的自适应线谱增强方法
CN112733994A (zh) * 2020-12-10 2021-04-30 中国科学院深圳先进技术研究院 机器人的自主情感生成方法、系统及应用

Also Published As

Publication number Publication date
CN102930298B (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN102930298B (zh) 基于多层增强hmm的语音-视觉融合的情感识别方法
CN103400145B (zh) 基于线索神经网络的语音-视觉融合情感识别方法
CN102930297B (zh) 基于增强耦合hmm的语音-视觉融合的情感识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN109409296B (zh) 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
Schuller et al. Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
Neti et al. Audio visual speech recognition
Petridis et al. End-to-end audiovisual fusion with LSTMs
CN102819744B (zh) 一种双通道信息融合的情感识别方法
CN111583964A (zh) 一种基于多模深度特征学习的自然语音情感识别方法
Sarkar et al. Time-contrastive learning based deep bottleneck features for text-dependent speaker verification
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Egas López et al. Assessing Parkinson’s disease from speech using fisher vectors
Padi et al. Multi-window data augmentation approach for speech emotion recognition
Sahu et al. Modeling feature representations for affective speech using generative adversarial networks
Vakhshiteh et al. Lip-reading via deep neural networks using hybrid visual features
Nanduri et al. A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data
Gade et al. A comprehensive study on automatic speaker recognition by using deep learning techniques
Paul et al. A 2D convolution neural network based method for human emotion classification from speech signal
Nguyen Multimodal emotion recognition using deep learning techniques
Patel et al. Speech emotion recognition system using Gaussian mixture model and improvement proposed via boosted GMM
Fu et al. An adversarial training based speech emotion classifier with isolated gaussian regularization
Lu et al. Audio-visual emotion recognition using boltzmann zippers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150429

Termination date: 20181115