CN102930298A

CN102930298A - 基于多层增强hmm的语音-视觉融合的情感识别方法

Info

Publication number: CN102930298A
Application number: CN2012104591726A
Authority: CN
Inventors: 吕坤; 贾云得; 邹文泽; 张欣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-09-02
Filing date: 2012-11-15
Publication date: 2013-02-13
Anticipated expiration: 2032-11-15
Also published as: CN102930298B

Abstract

本发明提出的一种基于多层增强HMM（MBHMM）的语音-视觉融合的情感识别方法，属于自动情感识别领域。本发明方法中提出的MBHMM分类器包括3层整体分类器，每层整体分类器由从左向右的多个连续型HMM分量分类器组合而成。使用情绪视频中的语音、脸部表情、肩部运动三种特征流分别作为3层整体分类器的输入，在训练整体分类器时通过AdaBoost方法不断更新各样本的权重，同时通过AdaBoost方法确保在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。

Description

基于多层增强HMM的语音-视觉融合的情感识别方法

技术领域

本发明涉及一种多通道信息融合的情感识别方法，特别涉及一种多层增强HMM（Multilayer Boosted HMM，HMM）的语音-视觉融合的情感识别方法，属于自动情感识别领域。

背景技术

各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示（如Ekman提出的6种基本情感类别），或者使用连续维度方法表示（如activation-evaluation空间方法），或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。

融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类：特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息，可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition ThroughMultistream Fused HMM》（IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June 2008）中提出了一种多流融合HMM（MFHMM）方法，根据最大熵和最大相互信息准则，建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream FusedHidden Markov Model for Audio-Visual Affect Recognition》（Proc.14th ACM Int’lConf.Multimedia(Multimedia’06),pp.65-68,2006.）中扩展了该框架，采用训练组合策略，使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》（IEEEInt’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.）中使用神经网络来合并语音-视觉通道的信息。这些方法的缺点是：这些方法在使用某个模态的特征流训练分类器时，没有对用其它模态的特征难于识别的样本进行重点训练，在使用同一模态的样本进行训练时，也未对同一模态的样本中难于识别的样本进行重点训练，从而造成识别率不高。

本发明中涉及到的重要已有技术有：隐马尔可夫模型；AdaBoost方法。

（1）隐马尔可夫模型：

隐马尔可夫模型是一种有效的描述存在于离散时间段上的具有关联关系的数据序列的统计学方法。

隐马尔科夫模型的理论基础是在1970年前后由Baum等人建立起来的，随后有CMU的Baker和IBM的Jelinek等人将其应用到语音识别之中，由于Bell实验室Rabiner等人在80年代中期对隐马尔科夫模型的深入浅出的介绍，才逐渐使隐马尔科夫模型为世界各国从事语音处理的研究员所了解和熟悉，进而成为公认的一个研究热点。

隐马尔科夫模型是在Markov链(一种有限状态机)的基础上发展起来的。首先介绍两个概念：状态集合和观察序列。状态集合指隐马尔科夫模型所具有的全部状态{S₁，...,S_i,...,S_N}，其中N为状态数；观察序列是一个具有上下文关联性的数据序列，用v₁,...,v_t，...,v_T表示，v₁，...,v_t,...,v_T为一个观测序列，其中v_t=c_b，表示该序列中时刻t的元素的取值为c_b，1≤b≤B，B表示每个状态可输出的元素（值）的总数。

由于实际问题比Markov链模型所描述的更为复杂，观察到的观察序列中的元素并不是与Markov链中的状态一一对应，而是通过一组概率分布相联系。这样，站在观察者的角度，只能看到观察值，不像Markov链模型中的观察值和状态一一对应。因此，不能直接看到状态，而是通过一个随机过程去感知状态的存在及其特性，这就是所谓的“隐”Markov模型，即Hidden Markov Model（HMM）。

隐马尔科夫模型的三个基本问题是：评估问题、解码问题及学习问题。其中，学习问题是使模型参数最优化，及调整模型参数，以使模型能最好的描述一个给定观测序列，最好的说明这个观测序列就是最优化模型产生出来的，用来解决分类问题。

（2）AdaBoost方法：

AdaBoost（adaptive boosting，自适应增强）方法是“Boosting”方法中的一种。该方法允许设计者不断的加入新的“弱分类器”，直到达到某个预定的足够小的误差率。在AdaBoost方法中，每一个训练样本都被赋予一个权重，表明它被某个分量分类器选入训练集的概率；相反，如果某个样本点没有被正确分类，那么它的权重就得到提高。通过这样的方式，AdaBoost方法能够“聚焦于”那些较困难识别的样本上。

发明内容

本发明的目的是为了解决已有技术存在的识别率不高的问题，提出一种多层增强HMM的语音-视觉融合的情感识别方法。

本发明的目的是通过下述技术方案实现的。

一种多层增强HMM的语音-视觉融合的情感识别方法，用于识别情感视频中的人的情感，所述情感包括：中性、高兴、生气、惊讶、恐惧、悲伤、厌恶；所述情感视频是指包含人脸表情、肩部运动和语音的视频数据，并且每段情感视频都开始于中性表情。所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分：训练过程和识别过程。

所述训练过程的具体实施步骤如下：

步骤一、对训练数据中的情感视频数据进行预处理。

将每一种情感的训练数据称为一个训练样本集；一个训练样本集中的训练样本数量用R表示，R≥20。分别对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列、肩部观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后，得到的表情观察向量序列的集合称为表情特征数据流，得到的肩部观察向量序列的集合称为肩部特征数据流，得到的音频观察向量序列的集合称为音频特征数据流，这三种特征数据流用符号X^v表示，

v∈{a,f,s}；其中，a表示音频，f表示表情，s表示肩部；

表示v特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列；1≤r≤R。

所述对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列和肩部观察向量序列的具体步骤为：

第1步：从每个情感视频中以v_a的采样率提取m帧图像组成一个图像序列，v_a≥5赫兹（Hz），m=v_a×t_a，t_a为情感视频的时间长度。由于每段情感视频都开始于中性表情，因此每个图像序列中的第一帧图像为中性表情图像。

第2步：依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值，分别用T₁至T_θ表示，θ≥5。

所述脸部表情特征值包括：脸部几何特征值；脸部纹理特征值。

步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值，θ=10，其具体步骤为：

第2.1步：依次在每个图像序列中的第一帧图像中标识出20个脸部特征点；其中，第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置，分别用(x₁,y₁)、(x₂,y₂)表示；第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置，分别用(x₃,y₃)、(x₄,y₄)表示；第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置，分别用(x₅,y₅)、(x₆,y₆)表示；第7、8特征点分别位于右边眼睛和左边眼睛的最低点，分别用(x₇,y₇)、(x₈,y₈)表示；第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置，分别用(x₉,y₉)、(x₁₀,y₁₀)表示；第11、12特征点分别位于右边眼睛和左边眼睛的最高点，分别用(x₁₁,y₁₁)、(x₁₂,y₁₂)表示；第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置，分别用(x₁₃,y₁₃)、(x₁₄,y₁₄)表示；第15特征点位于鼻尖位置，用(x₁₅,y₁₅)表示；第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置，分别用(x₁₆,y₁₆)、(x₁₇,y₁₇)表示；第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点，分别用(x₁₈,y₁₈)、(x₁₉,y₁₉)表示；第20特征点位于脸部中心线与脸部轮廓线相交的最低点，用(x₂₀,y₂₀)表示。

所述标识20个脸部特征点的方法包括：①人工手动标识；②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。

第2.2步：根据每个图像序列中的第一帧图像中的20个特征点的位置，定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点；

所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。

第2.3步：根据各图像中的20个特征点的位置，分别计算每个图像序列中的各帧图像的10个脸部表情特征值T₁至T₁₀，具体为：(1)两眼宽度的平均值，用T₁表示，T₁=(|x₉-x₅|+|x₁₀-x₆|)/2；(2)两眼高度的平均值，用T₂表示，T₂=(|y₁₁-y₇|+|y₁₂-y₈|)/2；(3)两支眉毛宽度的平均值，用T₃表示，T₃=(|x₃-x₁|+|x₄-x₂|)/2；(4)两支眉毛高度的平均值，用T₄表示，T₄=(|y₃-y₁|+|y₄-y₂|)／2；(5)内眼角和眉头之间垂直距离的均值,用T₅表示，T₅=(|y₅-y₁|+|y₆-y₂|)／2；(6)鼻尖和左右嘴角的垂直距离均值,用T₆表示，T₆=(|y₁₆-y₁₅|+|y₁₇-y₁₅|)／2；(7)嘴角和外眼角垂直距离的均值，用T₇表示，T₇=(|y₁₆-y₉|+|y₁₇-y₁₀|)/2；(8)嘴张开宽度，用T₈表示，T₈=|x₁₇-x₁₆|；(9)嘴张开高度，用T₉表示，T₉=|y₁₈-y₁₉|；(10)鼻尖和下巴的距离，用T₁₀表示，T₁₀=|y₁₅-y₂₀|。

由于口型更容易受到说话内容的影响，因此为了减小说话内容对于脸部表情特征值T₈至T₁₀的影响，第2.3步中所述计算脸部表情特征值T₈至T₁₀的优选方法是：在第2.3步操作的基础上，在每个图像序列中的第n帧图像中，1<n<m，将T₈至T₁₀这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

第3步：为了解决因不同人脸型不同造成的对脸部表情特征值T₁至T_θ的影响，对所有图像的脸部表情特征值T₁至T_θ进行归一化处理，具体为：

第3.1步：从全部图像序列中找出包含待处理图像中人脸的所有图像序列；所述待处理图像为当前等待做归一化处理的图像。

第3.2步：分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T₁的均值、T₂的均值、……、T_θ的均值，分别用

至

表示；

第3.3步：用对待处理图像的脸部表情特征值T₁进行归一化处理，归一化处理后的脸部表情特征值T₁用符号T′₁表示，

用

对待处理图像的脸部表情特征值T₂进行归一化处理，归一化处理后的脸部表情特征值T₂用符号T′₂表示，

……；以此类推，用

对待处理图像的脸部表情特征值T_θ进行归一化处理，归一化处理后的脸部表情特征值T_θ用符号T′_θ表示，

第4步：获得每个图像序列中各帧图像的表情观察向量，用V_q表示，1≤q≤m。一个图像序列中第q帧图像的表情观察向量V_q由经过第3步归一化处理后的θ个特征值组成，V_q=[f_q1,f_q2,……,f_qθ]^T，f_q1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′₁，f_q2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′₂，……，以此类推，f_qθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′_θ。

第5步：对于一个情感视频，使用矩阵M来表示其表情观察向量序列,M=[V₁,V₂,……,V_m]∈R^θ×m。

第6步：依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值，分别用L₁至L_δ表示，δ≥5。

步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值，δ=10，其具体步骤为：

第6.1步：依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点；其中，第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置，分别用(x′₁,y′₁)、(x′₂,y′₂)；第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置，分别用(x′₃,y′₃)、(x′₄,y′₄)表示；第5肩部运动特征点位于喉咙位置，用(x′₅,y′₅)表示。

所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括：人工手动标识。

第6.2步：根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置，定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点；

所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪。

第6.3步：根据各图像中的5个肩部运动特征点的位置，分别计算每个图像序列中的各帧图像的10个肩部运动特征值L₁至L₁₀，具体为：将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值，用L₁表示；将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值，用L₂表示；以此类推，将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值，用L₅表示；将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值，用L₆表示；将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值，用L₇表示；以此类推，将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值，用L₁₀表示。

第7步：为了解决因不同人体型不同造成的对肩部运动特征值L₁至L_δ的影响，对所有图像的肩部运动特征值L₁至L_δ进行归一化处理，具体为：

第7.1步：从全部图像序列中找出包含待处理图像中人脸的所有图像序列；所述待处理图像为当前等待做归一化处理的图像。

第7.2步：分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L₁的均值、L₂的均值、……、L_δ的均值，分别用

至表示。

第7.3步：用对待处理图像的肩部运动特征值L₁进行归一化处理，归一化处理后的肩部运动特征值L₁用符号L′₁表示，

用

对待处理图像的肩部运动特征值L₂进行归一化处理，归一化处理后的肩部运动特征值L₂用符号L′₂表示，……；以此类推，用对待处理图像的肩部运动特征值L_δ进行归一化处理，归一化处理后的肩部运动特征值L_δ用符号L′_δ表示，

第8步：获得每个图像序列中各帧图像的肩部观察向量，用V″_q表示，1≤q≤m。一个图像序列中第q帧图像的肩部观察向量V″_q由经过第7步归一化处理后的δ个肩部运动特征值组成，V″_q=[f″_q1,f″_q2,……,f″_qδ]^T，f″_q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′₁，f″_q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′₂，……，以此类推，f″_qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′_δ。

第9步：对于一个情感视频，使用矩阵M″来表示其肩部观察向量序列,M″=[V″₁，V″₂，……,V″_m]∈R^δ×m。

步骤一中所述对每个训练样本集中的每个情感视频数据做预处理，得到音频观察向量序列的具体步骤为：

步骤a：从每个情感视频中以v_b的采样率提取p个音频帧组成一条音频序列，v_b≥5赫兹（Hz），p=v_b×t_a。

步骤b：依次从每条音频序列的各音频帧中提取α个音频特征值，分别用F₁~F_α表示，α≥4。

所述音频特征值包括：信号强度；短时过零率；基音频率；共振峰频率；线性预测倒谱系数（Linear Prediction Cepstral Coefficients，LPCC）；线谱对参数（Line Spectrum Pair，LSP）；Mel频率倒谱系数（Mel Frequency CepstralCoefficients，MFCC）；感知线性预测倒谱系数（Perceptual Linear PredictionCepstral Coefficients，PLPCC）。

步骤c：对所有音频帧的音频特征值F₁~F_α进行归一化处理，具体为：

步骤c.1：找出与待处理音频帧为同一发声人物的所有中性情感的音频序列；所述待处理音频帧为当前等待做归一化处理的音频帧。

步骤c.2：分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F₁的均值、F₂的均值、……、F_α的均值，分别用

至

表示；

步骤c.3：用对待处理音频帧的音频特征值F₁进行归一化处理，归一化处理后的音频特征值F₁用符号F′₁表示，

用

对待处理音频帧的音频特征值F₂进行归一化处理，归一化处理后的音频特征值F₂用符号F′₂表示，……；以此类推，用

对待处理音频帧的音频特征值F_α进行归一化处理，归一化处理后的音频特征值F_α用符号F′_α表示，

步骤d：获得每个音频序列中各音频帧的音频观察向量，用V′_t表示，1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′_t由经过归一化处理后的α个特征值组成，V′_t=[f′_t1,f′_t2,……,f′_tα]^T，f′_t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′₁，f′_t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′₂，……，以此类推，f′_tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′_α。

步骤f：对于一个情感视频，使用矩阵M′来表示其音频观察向量序列，M′=[V′₁，V′₂,……,V′_p]∈R^α×p。

步骤二、建立MBHMM分类器。

在步骤一操作的基础上，建立MBHMM分类器。所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器。每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成，1≤K′≤K，K的值由人为预先设定，4≤K≤10；三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,w_i,d,μ_i,d,U_i,d,π}；其中，N表示模型的状态数；π表示状态初始概率；A为状态转移概率矩阵，A={a_i,j}，1≤i,j≤N，a_i，j表示从状态S_i转移到状态S_j的概率。

用S={S₁,S₂,……,S_N}表示状态集合，S_i=i。

观察概率密度函数为混合高斯密度函数，如公式（1）所示。

b_{t^{'}} (i) = Σ_{d = 1}^{D} w_{i, d} N (O_{t^{'}}, μ_{i, d}, U_{i, d}) - - - (1)

其中，b_t′(i)表示t′时刻状态为S_i时的观察概率密度函数；O_t′是t′时刻的观察向量，即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量；N(O_t′,μ_i,d,U_i,d)表示状态S_i的第d个高斯概率密度函数，1≤d≤D，D为混合高斯密度函数的混合数，2≤D≤5；w_i,d,μ_i,d,U_i,d分别表示状态S_i的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵。

第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5；第3层整体分类器中的连续型HMM分量分类器的状态数N=3。

当N=5时，设定π为[1 0 0 0 0]，同时设定状态转移概率矩阵A的初值为：

[\begin{matrix} 0.5 & 0.5 & 0 & 0 & 0 \\ 0 & 0.5 & 0.5 & 0 & 0 \\ 0 & 0 & 0.5 & 0.5 & 0 \\ 0 & 0 & 0 & 0.5 & 0.5 \\ 0 & 0 & 0 & 0 & 1 \end{matrix}];

当N=3时，设定π为[1 0 0]，同时设定状态转移概率矩阵A的初值为：

[\begin{matrix} 0.5 & 0.5 & 0 \\ 0 & 0.5 & 0.5 \\ 0 & 0 & 1 \end{matrix}] .

设定高斯概率密度函数的混合权重w_i,d的初始值为高斯概率密度函数的协方差矩阵U_i,d的初始值是一个行数和列数均为P的对角协方差矩阵：

[\begin{matrix} 0.25 & 0 & 0 & . . . & 0 \\ 0 & 0.25 & 0 & . . . & 0 \\ 0 & 0 & 0.25 & . . . & 0 \\ . . & . . . & . . . & . . . & . . . \\ 0 & 0 & 0 & . . . & 0.25 \end{matrix}] .

当观察向量O_t′是表情观察向量时，P=θ；当观察向量O_t′是肩部观察向量时，P=δ；当观察向量O_t′是音频观察向量时，P=α。

高斯概率密度函数的均值向量μ_i,d的初始值产生方法为：将输入观察序列分成N段，然后用K均值聚类算法产生高斯概率密度函数的均值向量μ_i,d的初始值。

步骤三、训练MBHMM分类器。

在步骤二操作的基础上，同时训练C个MBHMM分类器，C表示情感类别的数量；即：对应每一种情感，训练一个MBHMM分类器。用φ_c表示第c种情感对应的MBHMM分类器，1≤c≤C。

使用第c种情感的训练样本集对MBHMM分类器φ_c进行训练的过程为：

步骤1：使用变量L，并设定变量L的初始值为1，然后执行步骤2至步骤11的操作。

步骤2：用

表示MBHMM分类器φ_c中第L层整体分类器，用W_L(r)表示输入到整体分类器

的特征数据流X^v中的第r个观察向量序列

的权重。当L=1时，将带有权重W_L(r)的音频特征数据流X^a输入到整体分类器

W_L(r)=1/R；当L=2时，将带有权重W_L(r)的表情特征数据流X^f输入到整体分类器当L=3时，将带有权重W_L(r)的肩部特征数据流X^s输入到整体分类器

步骤3：用

表示整体分类器

中包含的连续型HMM分量分类器的个数，并设定

的初始值为K；使用变量k，并设定变量k的初始值为1；然后执行步骤4至步骤10的操作。

步骤4：用

表示整体分类器中的第k个连续型HMM分量分类器。将步骤2中所述输入到整体分类器

中的特征数据流X^v输入到连续型HMM分量分类器

中，该特征数据流中的第r个观察向量序列的权重为w_k(r)，1≤r≤R；当k=1时，w_k(r)=W_L(r)。

步骤5：使用EM算法迭代调整步骤4中所述连续型HMM分量分类器

的模型参数，得到连续型HMM分量分类器

的最优模型参数，其具体操作为：

步骤5.1：通过公式（2）计算所述连续型HMM分量分类器

中各观察向量序列

的前向概率，1≤r≤R。

α_{r, t_{1}} (i) = b_{t_{1}} (i) Σ_{j} a_{j, i} α_{r, t_{1} - 1} (j) - - - (2)

其中，

表示连续型HMM分量分类器

在t₁时刻处于状态S_i，并且从第1时刻到t₁时刻出现O_r，1，O_r，2，…,

的概率，也称为前向概率；2≤t₁≤T_r；当L=1时，T_r=p；当L=2或3时，T_r=m；α_r,1(i)=π(i)b₁(i)；O_r，1，O_r，2，…,

表示第r个样本在第1时刻至t₁时刻的观察向量。

步骤5.2：通过公式（3）计算所述连续型HMM分量分类器

中各观察向量序列

的后向概率。

β_{r, t_{2}} (j) = Σ_{i} b_{t_{2} + 1} (i) a_{j, i} β_{r, t_{2} + 1} (i) - - - (3)

其中，

表示连续型HMM分量分类器

在t₂时刻处于状态S_j，并且从(t₂+1)时刻到T_r时刻出现

的概率，也称为后向概率；1≤t₂≤T_r-1；当L=1时，T_r=p；当L=2或3时，T_r=m；

表示第r个样本在第(t₂+1)时刻至T_r时刻的观察向量。

步骤5.3：通过公式（4）计算所述连续型HMM分量分类器

中各观察向量序列

的概率（用符号P_r表示）。

P_{r} = α_{r, p} (q_{T_{r}}^{L}) = β_{r, 1} (q_{1}^{L}) - - - (4)

其中，

表示连续型HMM分量分类器

在T_r时刻的状态取值；当L=1时，T_r=p；当L=2或3时，T_r=m；

表示连续型HMM分量分类器

在初始时刻的状态取值。

步骤5.4：使用公式（5）至公式（9），利用各观察向量序列

在步骤5.1中得到的前向概率步骤5.2中得到的后向概率和步骤5.3得到的观察向量序列的概率P_r重估连续型HMM分量分类器

的模型参数A、w_i,d、μ_i,d和U_i,d。

ξ_{r, t^{'}} (i, d) = \frac{α_{r, t^{'}} (i) β_{r, t^{'}} (i)}{Σ_{i} α_{r, t^{'}} (i) β_{r, t^{'}} (i)} \times \frac{w_{i, d} N (O_{r, t^{'}}, μ_{i, d} U_{i, d})}{Σ_{d^{'} = 1}^{D} w_{i, d^{'}} N (O_{r, t^{'}}, μ_{i, d^{'}}, U_{i, d^{'}})} - - - (5)

其中，ξ_r，t′(i,d)表示第r个样本在t′时刻的观察向量O_r，t′在连续型HMM分量分类器

的状态S_i的第d个高斯密度函数下的概率。

w_{i, d} = \frac{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]}{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} Σ_{d^{'} = 1}^{D} ξ_{r, t^{'}} (i, d^{'})]} - - - (6)

其中，ξ_r，t′(i,d′)表示第r个样本在t′时刻的观察向量O_r，t′在连续型HMM分量分类器

的状态S_i的第d′个高斯密度函数下的概率。

μ_{i, d} = \frac{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d) O_{r, t^{'}}]}{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]} - - - (7)

U_{i, d} = \frac{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d) (O_{r, t^{'}} - μ_{i, d}) {(O_{r, t^{'}} - μ_{i, d})}^{T}]}{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]} - - - (8)

a_{j, i} = \frac{Σ_{r} (1 / P_{r}) Σ_{t_{2} = 1}^{T_{r} - 1} α_{r, t_{2}} (j) a_{j, i} b_{t_{2} + 1} (i) β_{r, t_{2} + 1} (i)}{Σ_{r} (1 / P_{r}) Σ_{t_{2} = 1}^{T_{r} - 1} α_{r, t_{2}} (j) β_{r, t_{2}} (j)} - - - (9)

其中，当L=1时，T_r=p；当L=2或3时，T_r=m；

步骤5.5：判断连续型HMM分量分类器的模型参数A、w_i,d、μ_i,d和U_i,d是否均收敛；如非均收敛，返回到步骤5.1；否则，则将步骤5.4得到的A、w_i,d、μ_i,d和U_i,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器的最优模型参数。

步骤5的操作还可以是：使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器

的模型参数，得到最优模型参数，其操作步骤与使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数的操作步骤之间的区别仅在于步骤5.4步中的公式（6）至公式（9）分别用公式（10）至公式(13)替换。

w_{i, d} = \frac{\underset{r}{Σ} [{(w}_{k} (r) / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]}{\underset{r}{Σ} [{(w}_{k} (r) / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} Σ_{d^{'} = 1}^{D} ξ_{r, t^{'}} (i, d^{'})]} - - - (10)

μ_{i, d} = \frac{\underset{r}{Σ} [(w_{k} (r) / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d) O_{r, t^{'}}]}{\underset{r}{Σ} [(w_{k} (r) / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]} - - - (11)

U_{i, d} = \frac{\underset{r}{Σ} [{(w}_{k} (r) / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d) (O_{r, t^{'}} - μ_{i, d}) {(O_{r, t^{'}} - μ_{i, d})}^{T}]}{\underset{r}{Σ} [{(w}_{k} (r) / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]} - - - (12)

a_{j, i} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t_{2} = 1}^{T_{r} - 1} α_{r, t_{2}} (j) a_{j, i} b_{t_{2} + 1} (i) β_{r, t_{2} + 1} (i)}{Σ_{r} {(w}_{k} (r) / P_{r}) Σ_{t_{2} = 1}^{T_{r} - 1} α_{r, t_{2}} (j) β_{r, t_{2}} (j)} - - - (13)

改进EM算法使得迭代求解HMM分量分类器模型参数的过程中考虑到各样本的权重，使得训练着重于难于识别的样本。

步骤6：使用步骤4中所述输入到连续型HMM分量分类器

的特征数据流X^v验证步骤5得到的连续型HMM分量分类器

具体验证方法为：用

表示观察向量序列

是否被连续型HMM分量分类器

正确分类，如果观察向量序列

被正确分类，设定

否则，设定

所述判断某一观察向量序列

是否被连续型HMM分量分类器

正确分类的方法为：

步骤6.1：首先取出MBHMM分类器φ_c中的连续型HMM分量分类器

然后对其它并行训练的(C-1)个MBHMM分类器分别进行如下操作：如果

c′∈{1，2，……，c-1}∪{c+1，c+2，……，C}，

表示整体分类器

中包含的连续型HMM分量分类器的个数，则取出第c′个MBHMM分类器中的连续型HMM分量分类器

否则，取出第c′个MBHMM分类器中的连续型HMM分量分类器

步骤6.2：分别计算观察向量序列

在步骤6.1取出的C个连续型HMM分量分类器下的概率。如果观察向量序列

属于第c个情感类别，且观察向量序列

在连续型HMM分量分类器

下的概率最大，则认为观察向量序列

被正确分类；否则，认为观察向量序列

未被正确分类。

步骤7：通过公式（14）计算连续型HMM分量分类器

的训练误差，用

表示。

E_{k}^{c, L} = \underset{h_{k}^{c, L} (x_{r}^{v}) = - 1}{Σ} w_{k} (r) - - - (14)

步骤8：使用变量k′，并设定k′=k+1。

步骤9：通过公式（15）依次计算输入到第k′个连续型HMM分量分类器

的观察向量序列

的权重，用w_k′(r)表示，1≤r≤R。

w_{k^{'}} (r) = \frac{w_{k} (r)}{Z_{k^{'}}} \times e^{- h_{k}^{c, L} (x_{r}^{v}) \times δ_{k}} - - - (15)

其中，Z_k′是归一化因子，

Z_{k^{'}} = \underset{r}{Σ} (w_{k} (r) \times e^{- h_{k}^{c, L} (x_{r}^{v}) \times δ_{k}}),

δ_{k} = \frac{\ln [(1 - E_{k}^{c, L}) / E_{k}^{c, L}]}{2} .

步骤10：如果此时k≠K，并且

的值不大于某一预先设定值（用符号σ表示，0<σ≤0.5），则令k=k′，w_k(r)=w_k′(r)，然后返回到步骤4；否则，得到整体分类器

令

然后执行步骤11。

步骤11：判断变量L的值是否小于3，如果L<3，则执行步骤12至步骤16；如果L≥3，则得到MBHMM分类器φ_c，结束操作。

步骤12：使用步骤2中所述输入到第L层整体分类器

的特征数据流X^v验证步骤10得到的整体分类器具体验证方法为：用

表示观察向量序列

是否被整体分类器

正确分类，如果观察向量序列

被正确分类，设定

H_{L}^{c} (x_{r}^{v}) = 1;

否则，设定

H_{L}^{c} (x_{r}^{v}) = - 1 .

所述判断某一观察向量序列是否被整体分类器

正确分类的方法为：

首先取出第c个MBHMM分类器φ_c中的第L层整体分类器

然后分别取出其它并行训练的(C-1)个MBHMM分类器φ_c′中的第L层整体分类器

通过公式（16）分别计算观察向量序列

在这C个整体分类器下的概率，用符号表示。如果观察向量序列

属于第c类情感类别，且观察向量序列

在整体分类器

下的概率最大，则认为观察向量序列

被正确分类；否则，认为观察向量序列

未被正确分类。

P_{L}^{c} = P (x_{r}^{v} | ψ_{c}^{L}) = \frac{Σ_{k = 1}^{K_{c}^{L}} δ_{k} P (x_{r}^{v} | θ_{k}^{c, L})}{K_{c}^{L}} - - - (16)

步骤13：通过公式（17）计算整体分类器

的训练误差，用

表示。

E_{L}^{c} = \underset{H_{L}^{c} (x_{r}^{v}) = - 1}{Σ} W_{L} (r) - - - (17)

步骤14：使用变量L′，并设定L′=L+1。

步骤15：通过公式（18）依次计算输入到整体分类器

的特征数据流中的第r个（1≤r≤R）观察向量序列

的权重，用W_L′(r)表示。

W_{L^{'}} (r) = \frac{W_{L} (r)}{Z_{L^{'}}^{'}} \times e^{- H_{L}^{c} (x_{r}^{v}) \times δ_{L}^{'}} - - - (18)

其中，Z′_L′是归一化因子，

Z_{L^{'}}^{'} = \underset{r}{Σ} (W_{L} (r) \times e^{- H_{L}^{c} (v_{r}^{v}) \times δ_{L}^{'}}),

δ_{L}^{'} = \frac{\ln [(1 - E_{L}^{c}) / E_{L}^{c}]}{2} .

步骤16：令L=L′，W_L(r)=W_L′(r)，然后返回到步骤2。

所述识别过程的具体实施步骤如下：

步骤四、对待识别情感视频（用x表示）进行预处理，得到待识别情感视频的表情观察向量序列（用x^a表示）、肩部观察向量序列（用x^f表示）和音频观察向量序列（用x^s表示）。

所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致。

所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。

步骤五、判断待识别情感视频的情感类别，具体过程为：

第a步：将待识别情感视频的音频观察向量序列x^a作为每一种情感的MBHMM分类器φ_c的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列；将待识别情感视频的表情观察向量序列x^f作为每一种情感的MBHMM分类器φ_c的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列；将待识别情感视频的肩部观察向量序列x^s作为每一种情感的MBHMM分类器φ_c的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列。

第b步：分别计算待识别情感视频x的观察向量序列x^a、x^f和x^s在MBHMM分类器φ_c中对应连续型HMM分量分类器

下的概率

第c步：通过公式（19）计算待识别情感视频x的观察向量序列x^a、x^f和x^s，在MBHMM分类器φ_c中对应整体分类器

下的概率

P (x^{v} | ψ_{c}^{L}) = \frac{Σ_{k = 1}^{K_{c}^{L}} δ_{k} P (x^{v} | θ_{k}^{c, L})}{K_{c}^{L}} - - - (19)

第d步：通过公式（20）计算待识别情感视频x，在MBHMM分类器φ_c下的概率P_c。

P_{c} = P (x | φ_{c}) = (\underset{L}{Σ} δ_{L}^{'} P (x^{v} | ψ_{c}^{L})) / 3 - - - (20)

第e步：从第d步得到的概率P_c中找到最大值，得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。

有益效果

本发明提出的基于多层增强HMM的语音-视觉融合的情感识别方法，使用脸部表情、语音、肩部运动三种特征流，训练时考虑并不断更新各样本的权重，且在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。

附图说明

图1为本发明实施例中每个图像序列中的第一帧图像中20个脸部特征点的具体位置；

图2为本发明实施例中每个图像序列中的第一帧图像中5个肩部运动特征点的具体位置；

图3为本发明实施例中MBHMM分类器的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明方法的实施方式做详细说明。

本实施例中，5个实验者（2男3女）在引导式（Wizard of Oz）场景下朗读带有7种基本情感（高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性）的句子，摄像机从正面同步录下脸部表情图像和声音数据。场景脚本中，每一种情感有3个不同的句子，每个人将每句话重复5遍。随机选择四个人的情感视频数据作为训练数据，将剩下那个人的视频数据作为测试集合，整个识别过程是独立于实验者的。然后，将实验数据使用activation-evaluation空间粗分类方法进行了再次标注，即沿着activation轴将样本划分为积极和消极类别，沿着evaluation轴将样本划分为正和负类别。随机选择四个人的情感数据作为训练集合，将剩下那个人的情感数据作为测试集合，整个识别过程是独立于实验者的。实验中执行5重交叉验证。

实验中使用了两种情感类别集合分别进行情感识别实验。其一是7种基本情感（高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性），其二是activation-evaluation空间的粗分类。

所述双通道信息融合的情感识别方法包括2部分：训练过程和识别过程。

所述训练过程的具体实施步骤如下：

步骤一、对训练数据中的情感视频数据进行预处理。

将每一种情感的训练数据称为一个训练样本集；一个训练样本集中的训练样本数量用R表示，R=60。分别对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列、肩部观察向量序列和音频观察向量序列。

第1步：从每个情感视频中以v_a的采样率提取m帧图像组成一个图像序列，v_a=25Hz，m=v_a×t_a，t_a为情感视频的时间长度。由于每段情感视频都开始于中性表情，因此每个图像序列中的第一帧图像为中性表情图像。

第2步：依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值，分别用T₁至T_θ表示，θ=10，其具体步骤为：

第2.3步：根据各图像中的20个特征点的位置，分别计算每个图像序列中的各帧图像的10个脸部表情特征值T₁至T₁₀，具体为：(1)两眼宽度的平均值，用T₁表示，T₁=(|x₉-x₅|+|x₁₀-x₆|)／2；(2)两眼高度的平均值，用T₂表示，T₂=(|y₁₁-y₇|+|y₁₂-y₈|)／2；(3)两支眉毛宽度的平均值，用T₃表示，T₃=(|x₃-x₁|+|x₄-x₂|)／2；(4)两支眉毛高度的平均值，用T₄表示，T₄=(|y₃-y₁|+|y₄-y₂|)／2；(5)内眼角和眉头之间垂直距离的均值,用T₅表示，T₅=(|y₅-y₁|+|y₆-y₂|)／2；(6)鼻尖和左右嘴角的垂直距离均值,用T₆表示，T₆=(|y₁₆-y₁₅|+|y₁₇-y₁₅|)／2；(7)嘴角和外眼角垂直距离的均值，用T₇表示，T₇=(|y₁₆-y₉|+|y₁₇-y₁₀|)／2；(8)嘴张开宽度，用T₈表示，T₈=|x₁₇-x₁₆|；(9)嘴张开高度，用T₉表示，T₉=|y₁₈-y₁₉|；(10)鼻尖和下巴的距离，用T₁₀表示，T₁₀=|y₁₅-y₂₀|。

由于口型更容易受到说话内容的影响，因此为了减小说话内容对于脸部表情特征值T₈至T₁₀的影响，在第2.3步操作的基础上，在每个图像序列中的第n帧图像中，1<n<m，将T₈至T₁₀这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

至

表示；

第3.3步：用

对待处理图像的脸部表情特征值T₁进行归一化处理，归一化处理后的脸部表情特征值T₁用符号T′₁表示，用

……；以此类推，用对待处理图像的脸部表情特征值T_θ进行归一化处理，归一化处理后的脸部表情特征值T_θ用符号T′_θ表示，

第6步：依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值，分别用L₁至L_δ表示，δ=10，其具体步骤为：

所述标识5个肩部运动特征点的方法包括：人工手动标识。

至

表示。

第7.3步：用

对待处理图像的肩部运动特征值L₁进行归一化处理，归一化处理后的肩部运动特征值L₁用符号L′₁表示，用

对待处理图像的肩部运动特征值L₂进行归一化处理，归一化处理后的肩部运动特征值L₂用符号L′₂表示，

……；以此类推，用

对待处理图像的肩部运动特征值L_δ进行归一化处理，归一化处理后的肩部运动特征值L_δ用符号L′_δ表示，

第9步：对于一个情感视频，使用矩阵M″来表示其肩部观察向量序列,M″=[V″₁，V″₂,……,V″_m]∈R^δ×m。

对每个训练样本集中的每个情感视频数据做预处理，得到音频观察向量序列的具体步骤为：

步骤a：从每个情感视频中以v_b的采样率提取p个音频帧组成一条音频序列，v_b=50Hz，p=v_b×t_a。

步骤b：依次从每条音频序列的各音频帧中提取α个音频特征值，分别用F₁~F_α表示，α=14，分别为信号强度、基音频率和12个Mel频率倒谱系数。

至

表示；

步骤c.3：用

对待处理音频帧的音频特征值F₁进行归一化处理，归一化处理后的音频特征值F₁用符号F′₁表示，

用对待处理音频帧的音频特征值F₂进行归一化处理，归一化处理后的音频特征值F₂用符号F′₂表示，

……；以此类推，用

步骤二、建立MBHMM分类器。

在步骤一操作的基础上，建立MBHMM分类器。所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器。每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成，1≤K′≤K，K的值由人为预先设定，K=6；三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,w_i,d,μ_i,d,U_i,d,π}；其中，N表示模型的状态数；π表示状态初始概率；A为状态转移概率矩阵，A={a_i,j}，1≤i,j≤N，a_i，j表示从状态S_i转移到状态S_j的概率。

用S={S₁,S₂,……,S_N}表示状态集合，S_i=i。

观察概率密度函数为混合高斯密度函数，如公式（1）所示，其中D=3。

[\begin{matrix} 0.5 & 0.5 & 0 & 0 & 0 \\ 0 & 0.5 & 0.5 & 0 & 0 \\ 0 & 0 & 0.5 & 0.5 & 0 \\ 0 & 0 & 0 & 0.5 & 0.5 \\ 0 & 0 & 0 & 0 & 1 \end{matrix}];

[\begin{matrix} 0.5 & 0.5 & 0 \\ 0 & 0.5 & 0.5 \\ 0 & 0 & 1 \end{matrix}] .

设定高斯概率密度函数的混合权重w_i,d的初始值为

高斯概率密度函数的协方差矩阵U_i,d的初始值是一个行数和列数均为P的对角协方差矩阵：

[\begin{matrix} 0.25 & 0 & 0 & . . . & 0 \\ 0 & 0.25 & 0 & . . . & 0 \\ 0 & 0 & 0.25 & . . . & 0 \\ . . & . . . & . . . & . . . & . . . \\ 0 & 0 & 0 & . . . & 0.25 \end{matrix}] .

步骤三、训练MBHMM分类器。

在步骤二操作的基础上，同时训练C个MBHMM分类器，C=7。

步骤2：用

的特征数据流X^v中的第r个观察向量序列

的权重。当L=1时，将带有权重W_L(r)的音频特征数据流X^a输入到整体分类器W_L(r)=1/R；当L=2时，将带有权重W_L(r)的表情特征数据流X^f输入到整体分类器

当L=3时，将带有权重W_L(r)的肩部特征数据流X^s输入到整体分类器

步骤3：用

表示整体分类器

中包含的连续型HMM分量分类器的个数，并设定

步骤4：用

表示整体分类器

中的第k个连续型HMM分量分类器。将步骤2中所述输入到整体分类器

中的特征数据流X^v输入到连续型HMM分量分类器

中，该特征数据流中的第r个观察向量序列

的权重为w_k(r)，1≤r≤R；当k＝1时，w_k(r)＝W_L(r)。

步骤5：使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器

的模型参数，得到连续型HMM分量分类器

的最优模型参数，其具体操作为：

步骤5.1：通过公式(2)计算所述连续型HMM分量分类器

中各观察向量序列

的前向概率。

步骤5.2：通过公式(3)计算所述连续型HMM分量分类器

中各观察向量序列

的后向概率。

步骤5.3：通过公式(4)计算所述连续型HMM分量分类器中各观察向量序列的概率P_r。

步骤5.4：使用公式(5)以及公式(10)至公式(13)，利用各观察向量序列

在步骤5.1中得到的前向概率步骤5.2中得到的后向概率

和步骤5.3得到的观察向量序列的概率P_r重估连续型HMM分量分类器

的模型参数A、w_i，d、μ_i，d和U_i，d。

步骤5.5：判断连续型HMM分量分类器

的模型参数A、w_i，d、μ_i，d和U_i，d是否均收敛；如非均收敛，返回到步骤5.1；否则，则将步骤5.4得到的A、w_i，d、μ_i，d和U_i，d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器

的最优模型参数。

步骤6：使用步骤4中所述输入到连续型HMM分量分类器

的特征数据流X^v验证步骤5得到的连续型HMM分量分类器具体验证方法为：用

表示观察向量序列

是否被连续型HMM分量分类器

正确分类，如果观察向量序列

被正确分类，设定

否则，设定

所述判断某一观察向量序列

是否被连续型HMM分量分类器

正确分类的方法为：

步骤6.1：首先取出MBHMM分类器φ_c中的连续型HMM分量分类器

c′∈{1，2，……，c-1}∪{c+1，c+2，……，C}，

表示整体分类器

否则，取出第c′个MBHMM分类器中的连续型HMM分量分类器

步骤6.2：分别计算观察向量序列

属于第c个情感类别，且观察向量序列在连续型HMM分量分类器下的概率最大，则认为观察向量序列

被正确分类；否则，认为观察向量序列

未被正确分类。

步骤7：通过公式（14）计算连续型HMM分量分类器

的训练误差，用

表示。

步骤8：使用变量k′，并设定k′=k+1。

的观察向量序列

的权重w_k′(r)。

步骤10：如果此时k≠K，并且

的值不大于某一预先设定值σ=0.5，则令k=k′，w_k(r)=w_k′(r)，然后返回到步骤4；否则，得到整体分类器

令

然后执行步骤11。

步骤12：使用步骤2中所述输入到第L层整体分类器的特征数据流X^v验证步骤10得到的整体分类器具体验证方法为：用

表示观察向量序列

是否被整体分类器

正确分类，如果观察向量序列被正确分类，设定

H_{L}^{c} (x_{r}^{v}) = 1;

否则，设定

H_{L}^{c} (x_{r}^{v}) = - 1 .

所述判断某一观察向量序列

是否被整体分类器

正确分类的方法为：

首先取出第c个MBHMM分类器φ_c中的第L层整体分类器然后分别取出其它并行训练的(C-1)个MBHMM分类器φ_c′中的第L层整体分类器

通过公式（16）分别计算观察向量序列

在这C个整体分类器下的概率如果观察向量序列

属于第c类情感类别，且观察向量序列

在整体分类器下的概率最大，则认为观察向量序列

被正确分类；否则，认为观察向量序列

未被正确分类。

步骤13：通过公式（17）计算整体分类器

的训练误差

步骤14：使用变量L′，并设定L′=L+1。

步骤15：通过公式（18）依次计算输入到整体分类器

的特征数据流中的第r个观察向量序列

的权重W_L′(r)。

步骤16：令L=L′，W_L(r)=W_L′(r)，然后返回到步骤2。

所述识别过程的具体实施步骤如下：

步骤四、对待识别情感视频x进行预处理，得到待识别情感视频的表情观察向量序列x^a、肩部观察向量序列x^f和音频观察向量序列x^s。

所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。步骤五、判断待识别情感视频的情感类别，具体过程为：

第b步：分别计算待识别情感视频x的观察向量序列x^a、x^f和x^s在MBHMM分类器φ_c中对应连续型HMM分量分类器下的概率

下的概率

经过上述步骤的操作，得到的7种基本情感的平均准确率结果如表1第2行第6列所示，得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行第6列所示。

表1不同方法的识别准确率对比表

为了对比本发明提出方法的有效性，使用相同的训练数据和测试数据，分别采用以下4种方法进行识别：（1）单一特征（Audio）HMM分类器；（2）单一特征（Facial）HMM分类器；（3）单一特征（Shoulder）HMM分类器；（4）常规的3-链耦合HMM(CHMM)分类器，得到的7种表情的平均准确率结果如表1第2行至第1列至第4列所示；得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行至第1列至第4列所示。

通过对比，可以看到CHMM分类器的识别准确率大大高于单模态的HMM方法，因为耦合HMM可以有效利用两个通道的互补信息。而本发明提出的方法使用脸部表情、语音、肩部运动三种特征流，训练时考虑并不断更新各样本的权重，且在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本，明显提高了分类的准确度。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多层增强HMM的语音-视觉融合的情感识别方法，用于识别情感视频中的人的情感，所述情感包括：中性、高兴、生气、惊讶、恐惧、悲伤、厌恶；所述情感视频是指包含人脸表情、肩部运动和语音的视频数据，并且每段情感视频都开始于中性表情；其特征在于：所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分：训练过程和识别过程；

所述训练过程的具体实施步骤如下：

步骤一、对训练数据中的情感视频数据进行预处理；

将每一种情感的训练数据称为一个训练样本集；一个训练样本集中的训练样本数量用R表示，R≥20；分别对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列、肩部观察向量序列和音频观察向量序列；一个训练样本集中的全部情感视频数据在预处理后，得到的表情观察向量序列的集合称为表情特征数据流，得到的肩部观察向量序列的集合称为肩部特征数据流，得到的音频观察向量序列的集合称为音频特征数据流，这三种特征数据流用符号X^v表示，v∈{a,f,s}；其中，a表示音频，f表示表情，s表示肩部；

表示v特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列；1≤r≤R；

第1步：从每个情感视频中以v_a的采样率提取m帧图像组成一个图像序列，v_a≥5赫兹，m=v_a×t_a，t_a为情感视频的时间长度；

第2步：依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值，分别用T₁至T_θ表示，θ≥5；

所述脸部表情特征值包括：脸部几何特征值；脸部纹理特征值；

第3.1步：从全部图像序列中找出包含待处理图像中人脸的所有图像序列；所述待处理图像为当前等待做归一化处理的图像；

至

表示；

第3.3步：用

对待处理图像的脸部表情特征值T₁进行归一化处理，归一化处理后的脸部表情特征值T₁用符号T′₁表示，

用

对待处理图像的脸部表情特征值T₂进行归一化处理，归一化处理后的脸部表情特征值T₂用符号T′₂表示，……；以此类推，用

第4步：获得每个图像序列中各帧图像的表情观察向量，用V_q表示，1≤q≤m；一个图像序列中第q帧图像的表情观察向量V_q由经过第3步归一化处理后的θ个特征值组成，V_q=[f_q1,f_q2,……,f_qθ]^T，f_q1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′₁，f_q2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′₂，……，以此类推，f_qθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′_θ；

第5步：对于一个情感视频，使用矩阵M来表示其表情观察向量序列,M=[V₁,V₂,……,V_m]∈R^θ×m；

第6步：依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值，分别用L₁至L_δ表示，δ≥5；

第7.1步：从全部图像序列中找出包含待处理图像中人脸的所有图像序列；所述待处理图像为当前等待做归一化处理的图像；

至

表示；

用

……；以此类推，用

第8步：获得每个图像序列中各帧图像的肩部观察向量，用V″_q表示，1≤q≤m；一个图像序列中第q帧图像的肩部观察向量V″_q由经过第7步归一化处理后的δ个肩部运动特征值组成，V″_q=[f″_q1,f″_q2,……,f″_qδ]^T，f″_q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′₁，f″_q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′₂，……，以此类推，f″_qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′_δ；

第9步：对于一个情感视频，使用矩阵M″来表示其肩部观察向量序列,M″=[V″₁，V″₂，……,V″_m]∈R^δ×m；

步骤a：从每个情感视频中以v_b的采样率提取p个音频帧组成一条音频序列，v_b≥5赫兹，p=v_b×t_a；

步骤b：依次从每条音频序列的各音频帧中提取α个音频特征值，分别用F₁~F_α表示，α≥4；

所述音频特征值包括：信号强度；短时过零率；基音频率；共振峰频率；线性预测倒谱系数；线谱对参数；Mel频率倒谱系数；感知线性预测倒谱系数；

步骤c.1：找出与待处理音频帧为同一发声人物的所有中性情感的音频序列；所述待处理音频帧为当前等待做归一化处理的音频帧；

至

表示；

步骤c.3：用

对待处理音频帧的音频特征值F₁进行归一化处理，归一化处理后的音频特征值F₁用符号F′₁表示，用

对待处理音频帧的音频特征值F₂进行归一化处理，归一化处理后的音频特征值F₂用符号F′₂表示，

……；以此类推，用

步骤d：获得每个音频序列中各音频帧的音频观察向量，用V′_t表示，1≤t≤p；一个音频序列中的第t帧音频帧的音频观察向量V′_t由经过归一化处理后的α个特征值组成，V′_t=[f′_t1,f′_t2,……,f′_tα]^T，f′_t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′₁，f′_t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′₂，……，以此类推，f′_tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′_α；

步骤f：对于一个情感视频，使用矩阵M′来表示其音频观察向量序列，M′=[V′₁，V′₂,……,V′_p]∈R^α×p；

步骤二、建立MBHMM分类器；

在步骤一操作的基础上，建立MBHMM分类器；所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器；每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成，1≤K′≤K，K的值由人为预先设定，4≤K≤10；三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,w_i,d,μ_i,d,U_i,d,π}；其中，N表示模型的状态数；π表示状态初始概率；A为状态转移概率矩阵，A={a_i,j}，1≤i,j≤N，a_i，j表示从状态S_i转移到状态S_j的概率；

用S={S₁,S₂,……,S_N}表示状态集合，S_i=i；

观察概率密度函数为混合高斯密度函数，如公式（1）所示；

b_{t^{'}} (i) = Σ_{d = 1}^{D} w_{i, d} N (O_{t^{'}}, μ_{i, d}, U_{i, d}) - - - (1)

其中，b_t′(i)表示t′时刻状态为S_i时的观察概率密度函数；O_t′是t′时刻的观察向量，即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量；N(O_t′,μ_i,d,U_i,d)表示状态S_i的第d个高斯概率密度函数，1≤d≤D，D为混合高斯密度函数的混合数，2≤D≤5；w_i,d,μ_i,d,U_i,d分别表示状态S_i的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵；

第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5；第3层整体分类器中的连续型HMM分量分类器的状态数N=3；

[\begin{matrix} 0.5 & 0.5 & 0 & 0 & 0 \\ 0 & 0.5 & 0.5 & 0 & 0 \\ 0 & 0 & 0.5 & 0.5 & 0 \\ 0 & 0 & 0 & 0.5 & 0.5 \\ 0 & 0 & 0 & 0 & 1 \end{matrix}];

[\begin{matrix} 0.5 & 0.5 & 0 \\ 0 & 0.5 & 0.5 \\ 0 & 0 & 1 \end{matrix}];

设定高斯概率密度函数的混合权重w_i,d的初始值为

[\begin{matrix} 0.25 & 0 & 0 & . . . & 0 \\ 0 & 0.25 & 0 & . . . & 0 \\ 0 & 0 & 0.25 & . . . & 0 \\ . . & . . . & . . . & . . . & . . . \\ 0 & 0 & 0 & . . . & 0.25 \end{matrix}];

当观察向量O_t′是表情观察向量时，P=θ；当观察向量O_t′是肩部观察向量时，P=δ；当观察向量O_t′是音频观察向量时，P=α；

高斯概率密度函数的均值向量μ_i,d的初始值产生方法为：将输入观察序列分成N段，然后用K均值聚类算法产生高斯概率密度函数的均值向量μ_i,d的初始值；

步骤三、训练MBHMM分类器；

在步骤二操作的基础上，同时训练C个MBHMM分类器，C表示情感类别的数量；即：对应每一种情感，训练一个MBHMM分类器；用φ_c表示第c种情感对应的MBHMM分类器，1≤c≤C；

步骤1：使用变量L，并设定变量L的初始值为1，然后执行步骤2至步骤11的操作；

步骤2：用

表示MBHMM分类器φ_c中第L层整体分类器，用W_L(r)表示输入到整体分类器的特征数据流X^v中的第r个观察向量序列

的权重；当L=1时，将带有权重W_L(r)的音频特征数据流X^a输入到整体分类器

W_L(r)=1/R；当L=2时，将带有权重W_L(r)的表情特征数据流X^f输入到整体分类器

步骤3：用表示整体分类器中包含的连续型HMM分量分类器的个数，并设定的初始值为K；使用变量k，并设定变量k的初始值为1；然后执行步骤4至步骤10的操作；

步骤4：用

表示整体分类器

中的第k个连续型HMM分量分类器；将步骤2中所述输入到整体分类器

中的特征数据流X^v输入到连续型HMM分量分类器

中，该特征数据流中的第r个观察向量序列

的权重为w_k(r)，1≤r≤R；当k=1时，w_k(r)=W_L(r)；

步骤5：使用EM算法迭代调整步骤4中所述连续型HMM分量分类器

的模型参数，得到连续型HMM分量分类器

的最优模型参数，其具体操作为：

步骤5.1：通过公式（2）计算所述连续型HMM分量分类器中各观察向量序列的前向概率，1≤r≤R；

α_{r, t_{1}} (i) = b_{t_{1}} (i) Σ_{j} a_{j, i} α_{r, t_{1} - 1} (j) - - - (2)

其中，

表示连续型HMM分量分类器

表示第r个样本在第1时刻至t₁时刻的观察向量；

步骤5.2：通过公式（3）计算所述连续型HMM分量分类器

中各观察向量序列

的后向概率；

β_{r, t_{2}} (j) = Σ_{i} b_{t_{2} + 1} (i) a_{j, i} β_{r, t_{2} + 1} (i) - - - (3)

其中，表示连续型HMM分量分类器

在t₂时刻处于状态S_j，并且从(t₂+1)时刻到T_r时刻出现

表示第r个样本在第(t₂+1)时刻至T_r时刻的观察向量；

步骤5.3：通过公式（4）计算所述连续型HMM分量分类器

中各观察向量序列

的概率P_r；

P_{r} = α_{r, p} (q_{T_{r}}^{L}) = β_{r, 1} (q_{1}^{L}) - - - (4)

其中，

表示连续型HMM分量分类器

在T_r时刻的状态取值；当L=1时，T_r=p；当L=2或3时，T_r=m；

表示连续型HMM分量分类器

在初始时刻的状态取值；

步骤5.4：使用公式（5）至公式（9），利用各观察向量序列

在步骤5.1中得到的前向概率

步骤5.2中得到的后向概率

的模型参数A、w_i,d、μ_i,d和U_i,d；

ξ_{r, t^{'}} (i, d) = \frac{α_{r, t^{'}} (i) β_{r, t^{'}} (i)}{Σ_{i} α_{r, t^{'}} (i) β_{r, t^{'}} (i)} \times \frac{w_{i, d} N (O_{r, t^{'}}, μ_{i, d} U_{i, d})}{Σ_{d^{'} = 1}^{D} w_{i, d^{'}} N (O_{r, t^{'}}, μ_{i, d^{'}}, U_{i, d^{'}})} - - - (5)

其中，ξ_r，t′(i,d)表示第r个样本在t′时刻的观察向量O_r，t′在连续型HMM分量分类器的状态S_i的第d个高斯密度函数下的概率；

w_{i, d} = \frac{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]}{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} Σ_{d^{'} = 1}^{D} ξ_{r, t^{'}} (i, d^{'})]} - - - (6)

的状态S_i的第d′个高斯密度函数下的概率；

μ_{i, d} = \frac{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d) O_{r, t^{'}}]}{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]} - - - (7)

U_{i, d} = \frac{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d) (O_{r, t^{'}} - μ_{i, d}) {(O_{r, t^{'}} - μ_{i, d})}^{T}]}{\underset{r}{Σ} [(1 / P (x_{r}^{v} | θ_{k}^{c, L})) \underset{t^{'}}{Σ} ξ_{r, t^{'}} (i, d)]} - - - (8)

a_{j, i} = \frac{Σ_{r} (1 / P_{r}) Σ_{t_{2} = 1}^{T_{r} - 1} α_{r, t_{2}} (j) a_{j, i} b_{t_{2} + 1} (i) β_{r, t_{2} + 1} (i)}{Σ_{r} (1 / P_{r}) Σ_{t_{2} = 1}^{T_{r} - 1} α_{r, t_{2}} (j) β_{r, t_{2}} (j)} - - - (9)

其中，当L=1时，T_r=p；当L=2或3时，T_r=m；

步骤5.5：判断连续型HMM分量分类器

的模型参数A、w_i,d、μ_i,d和U_i,d是否均收敛；如非均收敛，返回到步骤5.1；否则，则将步骤5.4得到的A、w_i,d、μ_i,d和U_i,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器

的最优模型参数；

步骤6：使用步骤4中所述输入到连续型HMM分量分类器

的特征数据流X^v验证步骤5得到的连续型HMM分量分类器

具体验证方法为：用

表示观察向量序列

是否被连续型HMM分量分类器

正确分类，如果观察向量序列被正确分类，设定

否则，设定

步骤7：通过公式（14）计算连续型HMM分量分类器

的训练误差，用

表示；

E_{k}^{c, L} = \underset{h_{k}^{c, L} (x_{r}^{v}) = - 1}{Σ} w_{k} (r) - - - (14)

步骤8：使用变量k′，并设定k′=k+1；

的观察向量序列

的权重，用w_k′(r)表示，1≤r≤R；

w_{k^{'}} (r) = \frac{w_{k} (r)}{Z_{k^{'}}} \times e^{- h_{k}^{c, L} (x_{r}^{v}) \times δ_{k}} - - - (15)

其中，Z_k′是归一化因子，

Z_{k^{'}} = \underset{r}{Σ} (w_{k} (r) \times e^{- h_{k}^{c, L} (x_{r}^{v}) \times δ_{k}}),

δ_{k} = \frac{\ln [(1 - E_{k}^{c, L}) / E_{k}^{c, L}]}{2};

步骤10：如果此时k≠K，并且

的值不大于某一预先设定值σ，0<σ≤0.5，则令k=k′，w_k(r)=w_k′(r)，然后返回到步骤4；否则，得到整体分类器

令

然后执行步骤11；

步骤11：判断变量L的值是否小于3，如果L<3，则执行步骤12至步骤16；如果L≥3，则得到MBHMM分类器φ_c，结束操作；

步骤12：使用步骤2中所述输入到第L层整体分类器

的特征数据流X^v验证步骤10得到的整体分类器

具体验证方法为：用

表示观察向量序列

是否被整体分类器正确分类，如果观察向量序列

被正确分类，设定

H_{L}^{c} (x_{r}^{v}) = 1;

否则，设定

H_{L}^{c} (x_{r}^{v}) = - 1;

步骤13：通过公式（17）计算整体分类器

的训练误差，用表示；

E_{L}^{c} = \underset{H_{L}^{c} (x_{r}^{v}) = - 1}{Σ} W_{L} (r) - - - (17)

步骤14：使用变量L′，并设定L′=L+1；

步骤15：通过公式（18）依次计算输入到整体分类器

的特征数据流中的第r个观察向量序列

的权重，用W_L′(r)表示；

W_{L^{'}} (r) = \frac{W_{L} (r)}{Z_{L^{'}}^{'}} \times e^{- H_{L}^{c} (x_{r}^{v}) \times δ_{L}^{'}} - - - (18)

其中，Z′_L′是归一化因子，

Z_{L^{'}}^{'} = \underset{r}{Σ} (W_{L} (r) \times e^{- H_{L}^{c} (v_{r}^{v}) \times δ_{L}^{'}}),

δ_{L}^{'} = \frac{\ln [(1 - E_{L}^{c}) / E_{L}^{c}]}{2};

步骤16：令L=L′，W_L(r)=W_L′(r)，然后返回到步骤2；

所述识别过程的具体实施步骤如下：

步骤四、对待识别情感视频x进行预处理，得到待识别情感视频的表情观察向量序列x^a、肩部观察向量序列x^f和音频观察向量序列x^s；

所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致；

所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致；

步骤五、判断待识别情感视频的情感类别，具体过程为：

第a步：将待识别情感视频的音频观察向量序列x^a作为每一种情感的MBHMM分类器φ_c的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列；将待识别情感视频的表情观察向量序列x^f作为每一种情感的MBHMM分类器φ_c的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列；将待识别情感视频的肩部观察向量序列x^s作为每一种情感的MBHMM分类器φ_c的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列；

下的概率

P (x^{v} | ψ_{c}^{L}) = \frac{Σ_{k = 1}^{K_{c}^{L}} δ_{k} P (x^{v} | θ_{k}^{c, L})}{K_{c}^{L}} - - - (19)

第d步：通过公式（20）计算待识别情感视频x，在MBHMM分类器φ_c下的概率P_c；

P_{c} = P (x | φ_{c}) = (\underset{L}{Σ} δ_{L}^{'} P (x^{v} | ψ_{c}^{L})) / 3 - - - (20)

2.如权利要求1所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值，θ=10，其具体步骤为：

第2.1步：依次在每个图像序列中的第一帧图像中标识出20个脸部特征点；其中，第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置，分别用(x₁,y₁)、(x₂,y₂)表示；第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置，分别用(x₃,y₃)、(x₄,y₄)表示；第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置，分别用(x₅,y₅)、(x₆,y₆)表示；第7、8特征点分别位于右边眼睛和左边眼睛的最低点，分别用(x₇,y₇)、(x₈,y₈)表示；第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置，分别用(x₉,y₉)、(x₁₀,y₁₀)表示；第11、12特征点分别位于右边眼睛和左边眼睛的最高点，分别用(x₁₁,y₁₁)、(x₁₂,y₁₂)表示；第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置，分别用(x₁₃,y₁₃)、(x₁₄,y₁₄)表示；第15特征点位于鼻尖位置，用(x₁₅,y₁₅)表示；第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置，分别用(x₁₆,y₁₆)、(x₁₇,y₁₇)表示；第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点，分别用(x₁₈,y₁₈)、(x₁₉,y₁₉)表示；第20特征点位于脸部中心线与脸部轮廓线相交的最低点，用(x₂₀,y₂₀)表示；

第2.3步：根据各图像中的20个特征点的位置，分别计算每个图像序列中的各帧图像的10个脸部表情特征值T₁至T₁₀，具体为：(1)两眼宽度的平均值，用T₁表示，T₁=(|x₉-x₅|+|x₁₀-x₆|)/2；(2)两眼高度的平均值，用T₂表示，T₂=(|y₁₁-y₇|+|y₁₂-y₈|)／2；(3)两支眉毛宽度的平均值，用T₃表示，T₃=(|x₃-x₁|+|x₄-x₂|)／2；(4)两支眉毛高度的平均值，用T₄表示，T₄=(|y₃-y₁|+|y₄-y₂|)／2；(5)内眼角和眉头之间垂直距离的均值,用T₅表示，T₅=(|y₅-y₁|+|y₆-y₂|)／2；(6)鼻尖和左右嘴角的垂直距离均值,用T₆表示，T₆=(|y₁₆-y₁₅|+|y₁₇-y₁₅|)/2；(7)嘴角和外眼角垂直距离的均值，用T₇表示，T₇=(|y₁₆-y₉|+|y₁₇-y₁₀|)/2；(8)嘴张开宽度，用T₈表示，T₈=|x₁₇-x₁₆|；(9)嘴张开高度，用T₉表示，T₉=|y₁₈-y₁₉|；(10)鼻尖和下巴的距离，用T₁₀表示，T₁₀=|y₁₅-y₂₀|。

3.如权利要求2所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.1步中所述标识20个脸部特征点的方法包括：①人工手动标识；②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。

4.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。

5.如权利要求2至4之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.3步中所述计算脸部表情特征值T₈至T₁₀的优选方法是：在第2.3步操作的基础上，在每个图像序列中的第n帧图像中，1<n<m，将T₈至T₁₀这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

6.如权利要求1至5之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值，δ=10，其具体步骤为：

第6.1步：依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点；其中，第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置，分别用(x′₁,y′₁)、(x′₂,y′₂)；第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置，分别用(x′₃,y′₃)、(x′₄,y′₄)表示；第5肩部运动特征点位于喉咙位置，用(x′₅,y′₅)表示；

所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括：人工手动标识；

所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪；