CN102930297A

CN102930297A - 基于增强耦合hmm的语音-视觉融合的情感识别方法

Info

Publication number: CN102930297A
Application number: CN2012104359461A
Authority: CN
Inventors: 吕坤; 张欣; 贾云得
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-11-05
Filing date: 2012-11-05
Publication date: 2013-02-13
Anticipated expiration: 2032-11-05
Also published as: CN102930297B

Abstract

本发明提出的一种基于增强耦合HMM的语音-视觉融合的情感识别方法，属于自动情感识别领域。本发明方法融合了脸部表情和语音两种特征流，使用改进的EM算法训练连续型二分量耦合HMM，训练时考虑并不断更新各样本的权重，使得训练过程偏重于难于识别的样本。本发明方法与已有识别方法相比明显提高了分类的准确度。

Description

基于增强耦合HMM的语音-视觉融合的情感识别方法

技术领域

本发明涉及一种多通道信息融合的情感识别方法，特别涉及一种增强耦合HMM（Hidden Markov Model，隐马尔科夫模型）的语音-视觉融合的情感识别方法，属于自动情感识别领域。

背景技术

各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示（如Ekman提出的6种基本情感类别），或者使用连续维度方法表示（如activation-evaluation空间方法），或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。

融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类：特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息，可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition ThroughMultistream Fused HMM》（IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June 2008）中提出了一种多流融合HMM（MFHMM）方法，根据最大熵和最大相互信息准则，建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream FusedHidden Markov Model for Audio-Visual Affect Recognition》（Proc.14th ACM Int’lConf.Multimedia(Multimedia’06),pp.65-68,2006.）中扩展了该框架，采用训练组合策略，使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》（IEEEInt’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.）中使用神经网络来合并语音-视觉通道的信息。这些方法的缺点是：这些方法在使用某个模态的特征流训练分类器时，没有对用其它模态的特征难于识别的样本进行重点训练，在使用同一模态的样本进行训练时，也未对同一模态的样本中难于识别的样本进行重点训练，从而造成识别率不高。

本发明中涉及到的重要已有技术有：耦合HMM；AdaBoost方法。

（1）耦合HMM：

HMM是一种有效的描述存在于离散时间段上的具有关联关系的数据序列的统计学方法。

HMM的理论基础是在1970年前后由Baum等人建立起来的，随后有CMU的Baker和IBM的Jelinek等人将其应用到语音识别之中，由于Bell实验室Rabiner等人在80年代中期对HMM的深入浅出的介绍，才逐渐使隐马尔科夫模型为世界各国从事语音处理的研究员所了解和熟悉，进而成为公认的一个研究热点。

HMM是在Markov链(一种有限状态机)的基础上发展起来的。首先介绍两个概念：状态集合和观察序列。状态集合指隐马尔科夫模型所具有的全部状态{S₁,...,S_i,...,S_N}，其中N为状态数；观察序列是一个具有上下文关联性的数据序列，用v₁,...,v_t′，...,v_T表示，v₁,...,v_t′，...,v_T为一个观测序列，其中v_t′＝c_b，表示该序列中时刻t′的元素的取值为c_b，1≤b≤B，B表示每个状态可输出的元素（值）的总数。

由于实际问题比Markov链模型所描述的更为复杂，观察到的观察序列中的元素并不是与Markov链中的状态一一对应，而是通过一组概率分布相联系。这样，站在观察者的角度，只能看到观察值，不像Markov链模型中的观察值和状态一一对应。因此，不能直接看到状态，而是通过一个随机过程去感知状态的存在及其特性，这就是所谓的“隐”Markov模型，即Hidden Markov Model（HMM）。

隐马尔科夫模型的三个基本问题是：评估问题、解码问题及学习问题。其中，学习问题是使模型参数最优化，及调整模型参数，以使模型能最好的描述一个给定观测序列，最好的说明这个观测序列就是最优化模型产生出来的，用来解决分类问题。

耦合HMM整合了2个以上分量HMM。它允许分量HMM的隐节点之间进行交互，同时各个分量HMM的隐节点具有独立的观察变量。在某一时刻，某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。耦合HMM适合于需要对不同模态的异步性进行建模，并捕获它们在时间域中关联的许多任务。常用的二分量耦合HMM结构如图1所示，圆圈代表可见节点，或称为观察节点，方块代表隐节点；相邻采样时间点上的隐节点互联。图1显示的耦合HMM中的两条分量HMM的采样率一样，即在同一采样时间点上，每条分量HMM均有1个可见节点和1个隐节点相对应。

（2）AdaBoost方法：

AdaBoost（adaptive boosting，自适应增强）方法是“Boosting”方法中的一种。该方法允许设计者不断的加入新的“弱分类器”，直到达到某个预定的足够小的误差率。在AdaBoost方法中，每一个训练样本都被赋予一个权重，表明它被某个分量分类器选入训练集的概率；相反，如果某个样本点没有被正确分类，那么它的权重就得到提高。通过这样的方式，AdaBoost方法能够“聚焦于”那些较困难识别的样本上。

发明内容

本发明的目的是为了解决已有技术存在的识别率不高的问题，提出一种增强耦合HMM的语音-视觉融合的情感识别方法。

本发明的目的是通过下述技术方案实现的。

一种增强耦合HMM的语音-视觉融合的情感识别方法，用于识别情感视频中的人的情感，所述情感包括：中性、高兴、生气、惊讶、恐惧、悲伤、厌恶等；所述情感视频是指包含人脸表情和语音的视频数据，并且每段情感视频都开始于中性表情。所述增强耦合HMM的语音-视觉融合的情感识别方法包括2部分：训练过程和识别过程。

所述训练过程的具体实施步骤如下：

步骤一、对训练数据中的情感视频数据进行预处理。

将每一种情感的训练数据称为一个训练样本集；一个训练样本集中的训练样本数量用R表示，R≥20；该训练样本集中的第r个训练样本用x_r表示，1≤r≤R。分别对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后，得到的表情观察向量序列的集合称为表情特征数据流，得到的音频观察向量序列的集合称为音频特征数据流，这2种特征数据流用符号X^v表示，

v∈{a,f}，a表示音频，f表示表情；

表示v特征数据流的第r个观察向量序列。

步骤一中所述对每个训练样本集中的每个情感视频数据做预处理，得到音频观察向量序列的具体步骤为：

步骤a：从每个情感视频中以v_b的采样率提取p个音频帧组成一条音频序列，v_b≥5赫兹（Hz），p=v_b×t_a，t_a为情感视频的时间长度。

步骤b：依次从每条音频序列的各音频帧中提取α个音频特征值，分别用F₁~F_α表示，α≥4。

所述音频特征值包括：信号强度；短时过零率；基音频率；共振峰频率；线性预测倒谱系数（Linear Prediction Cepstral Coefficients，LPCC）；线谱对参数（Line Spectrum Pair，LSP）；Mel频率倒谱系数（Mel Frequency CepstralCoefficients，MFCC）；感知线性预测倒谱系数（Perceptual Linear PredictionCepstral Coefficients，PLPCC）。

步骤c：对所有音频帧的音频特征值F₁~F_α进行归一化处理，具体为：

步骤c.1：找出与待处理音频帧为同一发声人物的所有中性情感的音频序列；所述待处理音频帧为当前等待做归一化处理的音频帧。

步骤c.2：分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F₁的均值、F₂的均值、……、F_α的均值，分别用至

表示；

步骤c.3：用

对待处理音频帧的音频特征值F₁进行归一化处理，归一化处理后的音频特征值F₁用符号F₁′表示，

用

对待处理音频帧的音频特征值F₂进行归一化处理，归一化处理后的音频特征值F₂用符号F′₂表示，

以此类推，用

对待处理音频帧的音频特征值F_α进行归一化处理，归一化处理后的音频特征值F_α用符号F′_α表示，

步骤d：获得每个音频序列中各音频帧的音频观察向量，用V′_t表示，1≤t≤_p。一个音频序列中的第t帧音频帧的音频观察向量V′_t由经过归一化处理后的α个特征值组成，V′_t＝[f′_t1,f′_t2,……,f′_tα]^T，f′_t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′₁，f′_t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′₂，……，以此类推，f′_tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′_α。

步骤f：对于一个情感视频，使用矩阵M′来表示其音频观察向量序列，M′＝[V′₁，V′₂,……,V′_p]∈R^α×p。

步骤一中所述对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列的具体步骤为：

第1步：从每个情感视频中以v_a的采样率提取m帧图像组成一个图像序列，v_a≥5赫兹（Hz），m=v_a×t_a，v_a＝v_b/η，η＝1,2,3。由于每段情感视频都开始于中性表情，因此每个图像序列中的第一帧图像为中性表情图像。

第2步：依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值，分别用T₁至T_θ表示，θ≥5。

所述脸部表情特征值包括：脸部几何特征值；脸部纹理特征值。

步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值，θ＝10，其具体步骤为：

第2.1步：依次在每个图像序列中的第一帧图像中标识出20个脸部特征点；其中，第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置，分别用(x₁,y₁)、(x₂,y₂)表示；第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置，分别用(x₃,y₃)、(x₄,y₄)表示；第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置，分别用(x₅,y₅)、(x₆,y₆)表示；第7、8特征点分别位于右边眼睛和左边眼睛的最低点，分别用(x₇,y₇)、(x₈,y₈)表示；第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置，分别用(x₉,y₉)、(x₁₀,y₁₀)表示；第11、12特征点分别位于右边眼睛和左边眼睛的最高点，分别用(x₁₁,y₁₁)、(x₁₂,y₁₂)表示；第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置，分别用(x₁₃,y₁₃)、(x₁₄,y₁₄)表示；第15特征点位于鼻尖位置，用(x₁₅,y₁₅)表示；第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置，分别用(x₁₆,y₁₆)、(x₁₇,y₁₇)表示；第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点，分别用(x₁₈,y₁₈)、(x₁₉,y₁₉)表示；第20特征点位于脸部中心线与脸部轮廓线相交的最低点，用(x_20,y₂₀)表示。

所述标识20个脸部特征点的方法包括：①人工手动标识；②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。

第2.2步：根据每个图像序列中的第一帧图像中的20个特征点的位置，定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点；

所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。

第2.3步：根据各图像中的20个特征点的位置，分别计算每个图像序列中的各帧图像的10个脸部表情特征值_T1至T₁₀，具体为：(1)两眼宽度的平均值，用T₁表示，T₁＝(|x₉-x₅|+|x₁₀-x₆|)/2；(2)两眼高度的平均值，用T₂表示，T₂＝(|y₁₁-y₇|+_|y₁₂-y₈|)/2；(3)两支眉毛宽度的平均值，用T₃表示，T₃＝(|x₃-x₁|+|x₄-x₂|)/2；(4)两支眉毛高度的平均值，用T₄表示，T₄＝(|y₃-y1_|+|y₄-y₂|)/2；(5)内眼角和眉头之间垂直距离的均值,用T₅表示，T₅＝(|y₅-y₁|+|y₆-y₂|)/2；(6)鼻尖和左右嘴角的垂直距离均值,用T₆表示，T₆＝(|y₁₆-y₁₅|+|y₁₇-y₁₅|)/2；(7)嘴角和外眼角垂直距离的均值，用T₇表示，T₇＝(|y₁₆-y₉|+|y₁₇-y₁₀|)/2；(8)嘴张开宽度，用T₈表示，T₈＝|x₁₇-x₁₆|；(9)嘴张开高度，用T₉表示，T₉＝|y₁₈-y₁₉|；(10)鼻尖和下巴的距离，用T₁₀表示，T₁₀＝|y₁₅-y₂₀|。

由于口型更容易受到说话内容的影响，因此为了减小说话内容对于脸部表情特征值T₈至T₁₀的影响，第2.3步中所述计算脸部表情特征值T₈至T₁₀的优选方法是：在第2.3步操作的基础上，在每个图像序列中的第n帧图像中，1＜n＜m，将T₈至T1₀这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

第3步：为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响，对所有图像的脸部表情特征值T₁至T_θ进行归一化处理，具体为：

第3.1步：从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列；所述待处理图像为当前等待做归一化处理的图像。

第3.2步：分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有表情图像序列的第一帧图像中脸部表情特征值T₁的均值、T₂的均值、……、T_θ的均值，分别用至

表示；

第3.3步：用

对待处理图像的脸部表情特征值T₁进行归一化处理，归一化处理后的脸部表情特征值T₁用符号T′₁表示，

用

对待处理图像的脸部表情特征值T₂进行归一化处理，归一化处理后的脸部表情特征值T₂用符号T′₂表示，

以此类推，用

对待处理图像的脸部表情特征值T_θ进行归一化处理，归一化处理后的脸部表情特征值T_θ用符号T′_θ表示，

第4步：获得每个表情图像序列中各帧图像的表情观察向量，用V_q表示，1≤q≤m。一个表情图像序列中第q帧图像的表情观察向量V_q由经过第3步归一化处理后的θ个特征值组成，V_q＝[f_q1,f_q2,……,f_qθ]^T，f_q1为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′₁，f_q2为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′₂，……，以此类推，f_qθ为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′_θ。

第5步：对于一个情感视频，其表情图像序列中各帧图像的表情观察向量V₁至V_m组成该情感视频的原始表情观察向量序列，用矩阵M″来表示，M″＝[V₁,V₂,……,V_m]∈R^θ×m；

第6步：在每个情感视频的原始表情观察向量序列M″中的表情观察向量V_′q和V_′q+1之间通过线性插值法插入(η-1)个表情观察向量，并在表情观察向量V_m后，增加(η-1)个V_m，得到该情感视频的表情观察向量序列，用M表示，M＝[V₁,V₂,……,V_p]∈R^θ×p，1≤q′＜m。

步骤二、建立增强耦合HMM分类器。

在步骤一操作的基础上，建立增强耦合HMM分类器。所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成，1≤K′≤K，K的值由人为预先设定，4≤K≤10；连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM；同一采样时间点上，每条分量HMM均有1个可见节点和1个隐节点相对应；在某一时刻，某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。。

用N_v表示连续型二分量耦合HMM的v通道的分量HMM的隐状态个数，v∈{a,f}；用

表示连续型二分量耦合HMM的v通道分量HMM的隐状态集合；用N表示连续型二分量耦合HMM的隐状态个数，N＝N_a×N_f；用S表示连续型二分量耦合HMM的隐状态集合，则

S = {(S^{a}, S^{f}) | S^{a} &Element; {S_{1}^{a}, . . ., S_{N_{a}}^{a}}, S^{f} &Element; {S_{1}^{f}, . . ., S_{N_{f}}^{f}}} .

所述连续型二分量耦合HMM的参数由公式（1）至公式（3）表示。

π (i) = \underset{v}{Π} π^{v} (i_{v}) = \underset{v}{Π} P (q_{1}^{v} = i_{v}) - - - (1)

其中，π(i)表示连续型二分量耦合HMM的初始隐状态概率分布；i表示连续型二分量耦合HMM的隐状态，i∈S；π^v(i_v)表示连续型二分量耦合HMM的v通道分量HMM的初始隐状态概率分布；i_v表示连续型二分量耦合HMM的v通道分量HMM的隐状态，i_v∈Sv；

表示连续型二分量耦合HMM的v通道分量HMM在初始时刻的隐状态取值。

a (i | j) = \underset{v}{Π} a^{v} (i_{v} | j) = \underset{v}{Π} P (q_{t_{1}}^{v} = i_{v} | q_{t_{1} - 1} = j) - - - (2)

其中，a(i|j)表示连续型二分量耦合HMM从(t₁-1)时刻的隐状态j到t₁时刻隐状态i的转移概率，i,j∈S，2≤t₁≤p；a^v(i_v|j)表示从(t₁-1)时刻连续型二分量耦合HMM的隐状态j到t₁时刻连续型二分量耦合HMM的v通道分量HMM的隐状态i_v的转移概率；

表示t₁时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值；

表示连续型二分量耦合HMM在(t₁-1)时刻的隐状态取值。

b_{t} (i) = \underset{v}{Π} {[b_{t}^{v} (i_{v})]}^{λ_{v}} = \underset{v}{Π} {[P (O_{t}^{v} | q_{t}^{v} = i_{v})]}^{λ_{v}} = \underset{v}{Π} {[Σ_{m = 1}^{M_{i_{v}}^{v}} w_{i_{v}, m}^{v} N (O_{t}^{v}, μ_{i_{v}, m}^{v}, U_{i_{v}, m}^{v})]}^{λ_{v}} - - - (3)

其中，b_t(i)是连续型二分量耦合HMM中隐状态i的观察概率密度函数，其形式是混合高斯密度函数；

是连续型二分量耦合HMM的v通道分量HMM中隐状态i_v的观察概率密度函数，其形式是混合高斯密度函数；λ_v是连续型二分量耦合HMM的v通道分量HMM对应的指数，λ_v∈[0.5,1]；

表示连续型二分量耦合HMM的v通道分量HMM在t时刻的观察向量，1≤t≤p；

表示连续型二分量耦合HMM的v通道分量HMM在t时刻的隐状态取值；

表示在连续型二分量耦合HMM的v通道分量HMM中，隐状态i_v的混合高斯密度函数的混合数；

分别表示在连续型二分量耦合HMM的v通道分量HMM中，隐状态i_v的第m个高斯密度函数的混合权重、均值向量和对角协方差矩阵，

1 \leq m \leq M_{i_{v}}^{v} .

步骤三、初始化增强耦合HMM分类器。

在步骤二操作的基础上，同时初始化C个增强耦合HMM分类器，C表示情感类别的数量；即：对应每一种情感，初始化一个增强耦合HMM分类器。用φ_c表示第c种情感对应的增强耦合HMM分类器，1≤c≤C。

使用第c种情感的训练样本集对增强耦合HMM分类器φ_c进行初始化的过程为：

步骤3.1：第c种情感的训练样本集经过步骤一的操作后，得到音频特征数据流X^a和表情特征数据流X^f；将特征数据流X^v中的观察向量序列

表示为

表示第r个训练样本x_r在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量，1≤t≤p；然后根据特征数据流X^v对应的v通道分量HMM的隐状态数N_v，依次将特征数据流X^v中的每个观察向量序列

平均分为N_v段，1≤r≤R；对每个观察向量序列

中的第i′段对应的隐节点状态赋初值为i′，1≤i′≤N_v，从而可得每个观察向量序列

的初始隐节点状态序列，用

表示。

步骤3.2：使用K-means聚类算法，依次对每个观察向量序列

中每个隐状态i′所对应的观察向量聚类为

个类别，分别用

表示；用表示观察向量序列

在t时刻的隐状态对应的混合高斯密度函数的混合分量；根据观察向量序列

中隐状态i′所对应的观察向量的聚类结果，得到观察向量序列

的混合分量序列

c_{r, t}^{v} &Element; {1,2, \cdot \cdot \cdot, M_{i_{v}}^{v}},

1≤t≤p。

步骤3.3：将特征数据流X^v输入到增强耦合HMM分类器φ_c中的某一连续型二分量耦合HMM中，用符号

表示增强耦合HMM分类器φ_c中的第k′个连续型二分量耦合HMM，1≤k′≤K。

步骤3.4：利用公式（4）至公式（9）重估连续型二分量耦合HMM

的参数。

μ_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m) O_{r, t}^{v}}{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)} - - - (4)

其中，

的值通过公式（5）确定。

其中，表示第r个训练样本x_r在连续型二分量耦合HMM的v通道分量HMM中的t时刻的隐状态取值。

U_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m) (O_{r, t}^{v} - μ_{i_{v}, m}^{v}) {(O_{r, t}^{v} - μ_{i_{v}, m}^{v})}^{T}}{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)} - - - (6)

w_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)}{Σ_{r, t} Σ_{m^{'}} γ_{r, t}^{v} (i_{v}, m^{'})} - - - (7)

其中，

1 \leq m^{'} \leq M_{i_{v}}^{v} .

a^{v} (i_{v} | j) = \frac{Σ_{r, t} ϵ_{r, t_{1}}^{v} (i_{v}, j)}{Σ_{r, t} Σ_{j} ϵ_{r, t_{1}}^{v} (i_{v}, j)} - - - (8)

其中，

的值通过公式（9）确定；j∈S。

步骤3.5：使用基于耦合HMM的Viterbi算法对各观察向量序列

的初始隐节点状态序列

进行优化，具体操作步骤为：

步骤3.5.1：将步骤3.4得到的连续型二分量耦合HMM

的参数

和a^v(i_v|j)代入到公式（1）至公式（3），计算得到π(i)、a(i|j)和b_t(i)。

步骤3.5.2：令变量t₁的初始值为2，通过公式（10）和公式（11）迭代计算

和

2≤t₁≤p。

δ_{t_{1}} (i) = \max_{j} {δ_{t_{1} - 1} (j) a (i | j)} b_{t_{1}} (i) - - - (10)

其中，

表示连续型二分量耦合HMM在t₁时刻为状态i的最大概率与b_t(i)的乘积；δ₁(i)＝π(i)b₁(i)。

ψ_{t_{1}} (i) = \arg \max_{j} {δ_{t_{1} - 1} (j) a (i | j)} - - - (11)

其中，

表示连续型二分量耦合HMM

在t₁时刻为状态i的最大概率的路径的前一状态；

表示使得

最大时，j的取值；ψ₁(i)＝0。

步骤3.5.3：通过公式（12）计算训练样本x_r在当前二分量耦合HMM

模型下的概率，用符号P表示；通过公式（13）计算训练样本x_r在当前二分量耦合HMM

模型下的概率P对应的p时刻的隐节点状态，用符号q_p表示。

P = \max_{i} {δ_{p} (i)} = \max_{q_{1}, \cdot \cdot \cdot, q_{p}} P (O_{1}, \cdot \cdot \cdot, O_{p} | q_{1}, \cdot \cdot \cdot, q_{p}) - - - (12)

其中，

O_{t} = (O_{t}^{a}, O_{t}^{f}) .

q_{p} = \arg \max_{i} {δ_{p} (i)} - - - (13)

其中，

表示使得δ_p(i)最大时，i的取值。

步骤3.5.4：使用变量t₂，令t₂的初始值为(p-1)，通过公式（14）回溯得到

1≤t₂≤p-1。

q_{t_{2}} = ψ_{t_{2} + 1} (q_{t_{2} + 1}) - - - (14)

其中，

表示训练样本x_r在当前二分量耦合HMM

模型下的概率P对应的t₂时刻的隐节点状态。

通过步骤3.5.1至步骤3.5.4的操作，得到各训练样本x_r在当前二分量耦合HMM

模型下的优化隐节点状态序列(q₁,q₂,...,q_p)；即得到各观察向量序列

在当前二分量耦合HMM

的v通道分量HMM的优化隐节点状态序列

步骤3.6：通过公式（15）对各观察向量序列的混合分量序列

进行优化。

c_{r, t}^{v} = \arg \max_{m} P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m) - - - (15)

其中，

\arg \max_{m} P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m)

表示使得

P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m)

最大时，m的取值。

步骤3.7：判断各训练样本x_r在当前二分量耦合HMM

模型下的概率P是否均收敛；如果不均收敛，利用公式（4）至公式（9）重估连续型二分量耦合HMM

的参数，然后回到步骤3.5；如果均收敛，则将重估得到的参数

和a^v(i_v|j)作为增强耦合HMM分类器φ_c中各连续型二分量耦合HMM的模型初始参数。

经过步骤3.1至步骤3.7的操作，即完成对增强耦合HMM分类器φ_c的初始化操作。

步骤四、训练增强耦合HMM分类器。

在步骤三对增强耦合HMM分类器初始化的基础上，同时训练C个增强耦合HMM分类器φ_c，1≤c≤C。

使用第c种情感的训练样本集对增强耦合HMM分类器φ_c进行训练的过程为：

步骤4.1：用K_c表示增强耦合HMM分类器φ_c中包含的连续型二分量耦合HMM的个数，并设定K_c的初始值为K；使用变量k，并设定变量k的初始值为1；然后执行步骤4.2至步骤4.8的操作。

步骤4.2：用表示增强耦合HMM分类器φ_c中的第k个连续型二分量耦合HMM。用w_k(r)表示输入到连续型二分量耦合HMM

的特征数据流X^v中的第r个观察向量序列

的权重，1≤r≤R；当k＝1时，w_k(r)＝1/R。将带有权重w_k(r)的音频特征数据流X^a输入到连续型二分量耦合HMM

的音频通道分量HMM；将带有权重w_k(r)的表情特征数据流X^f输入到连续型二分量耦合HMM

的表情通道分量HMM。

步骤4.3：使用改进的EM算法迭代调整步骤4.2中所述连续型二分量耦合HMM

的模型参数，得到连续型二分量耦合HMM

的最优模型参数，具体操作步骤为：

步骤4.3.1：将步骤三得到的连续型二分量耦合HMM

的模型初始参数和a^v(i_v|j)代入到公式（1）至公式（3），计算得到π(i)、a(i|j)和b_t(i)。

步骤4.3.2：通过公式（16）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的前向概率，用

表示，1≤r≤R。

α_{r, t_{1}} (i) = b_{t_{1}} (i) Σ_{j} a (i | j) α_{r, t_{1} - 1} (j) - - - (16)

其中，α_r，1(i)＝π(i)b₁(i)；2≤t₁≤p。

步骤4.3.3：通过公式（17）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的后向概率，用

表示。

β_{r, t_{2}} (j) = Σ_{i} b_{t_{2} + 1} (i) a (i | j) β_{r, t_{2} + 1} (i) - - - (17)

其中，β_r,p(i)＝1；1≤t₂≤p-1。

步骤4.3.4：通过公式（18）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的概率（用符号P_r表示）。

P_r＝α_r，p(q_p)＝β_r,1(q₁) （18）

步骤4.3.5：使用公式（19）至公式（23），利用各训练样本在步骤4.3.2中得到的前向概率步骤4.3.3中得到的后向概率

和步骤4.3.4得到的观察序列的概率P_r重估连续型二分量耦合HMM

的模型参数

和a^v(i_v|j)。

μ_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m) O_{r, t}^{v}}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)} - - - (19)

其中，

可通过公式（20）计算得到。

ξ_{r, t}^{v} (i_{v}, m) = \frac{Σ_{Is . t . I_{v} = i_{v}} α_{r, t} (I) β_{r, t} (I)}{Σ_{I} α_{r, t} (I) β_{r, t} (I)} \times \frac{w_{i_{v}, m}^{v} N (O_{r, t}^{v}, μ_{i_{v}, m}^{v}, U_{i_{v}, m}^{v})}{Σ_{m^{'}} w_{i_{v}, m^{'}}^{v} N (O_{r, t}^{v}, μ_{i_{v}, m^{'}}^{v}, U_{i_{v}, m^{'}}^{v})} - - - (20)

其中，I∈S；I_v∈S^v；Is.t.I_v＝i_v表示连续型二分量耦合HMM

的隐状态I在v通道分量HMM的隐状态I_v等于i_v。

U_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m) (O_{r, t}^{v} - μ_{i_{v}, m}^{v}) {(O_{r, t}^{v} - μ_{i_{v}, m}^{v})}^{T}}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)} - - - (21)

w_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} Σ_{m^{'}} ξ_{r, t}^{v} (i_{v}, m^{'})} - - - (22)

a^{v} (i_{v} | j) = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{Is . t . I_{v} = i_{v}} Σ_{t_{2}} α_{r, t_{2}} (j) a (I | j) b_{t_{2} + 1} (I) β_{r, t_{2} + 1} (I)}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t_{2}} α_{r, t_{2}} (j) β_{r, t_{2}} (j)} - - - (23)

步骤4.3.6：判断连续型二分量耦合HMM

的模型参数

和a^v(i_v|j)是否均收敛；如非均收敛，则将步骤4.3.5得到的和a^v(i_v|j)代入到公式（1）至公式（3），计算得到π(i)、a(i|j)和b_t(i)，然后返回到步骤4.3.2；否则，则将步骤4.3.5得到的

和a^v(i_v|j)作为连续型二分量耦合HMM

的最优模型参数。

步骤4.4：使用步骤4.2中所述输入到连续型二分量耦合HMM

的特征数据流X^v验证步骤4.3得到的连续型二分量耦合HMM

具体验证方法为：用

表示训练样本x_r是否被连续型二分量耦合HMM

正确分类，如果观察向量序列x_r被正确分类，设定

否则，设定所述判断某一训练样本x_r是否被连续型二分量耦合HMM

正确分类的方法为：

步骤4.4.1：首先取出增强耦合HMM分类器φ_c中的连续型二分量耦合HMM

然后对其它并行训练的(C-1)个增强耦合HMM分类器分别进行如下操作：如果k≤K_c′，c′∈{1,2,……,c-1}∪{c+1,c+2,……,C}，K_c′表示第c′个增强耦合HMM分类器φ_′c中包含的连续型二分量耦合HMM的个数，则取出第c′个增强耦合HMM分类器φ_′c中的连续型二分量耦合HMM否则，取出第c′个增强耦合HMM分类器φ_′c中的连续型二分量耦合HMM

步骤4.4.2：分别计算各训练样本在步骤4.4.1取出的C个连续型二分量耦合HMM下的概率。如果训练样本x_r属于第c个情感类别，且训练样本x_r在连续型二分量耦合HMM

下的概率最大，则认为训练样本x_r被正确分类；否则，认为训练样本x_r未被正确分类。

步骤4.5：通过公式（24）计算连续型二分量耦合HMM

的训练误差，用

表示。

E_{k}^{c} = \underset{h_{k}^{c} (x_{r}) = - 1}{Σ} w_{k} (r) - - - (24)

步骤4.6：使用临时变量k″，并设定k″＝k+1。

步骤4.7：通过公式（25）依次计算输入到第k″个连续型二分量耦合HMM

的训练样本x_r的权重，用w_k″(r)表示，1≤r≤R。

w_{k^{''}} (r) = \frac{w_{k} (r)}{Z_{k^{''}}} \times e^{- h_{k}^{c} (x_{r}) \times δ_{k}} - - - (25)

其中，Z_k″是归一化因子，

Z_{k^{''}} = \underset{r}{Σ} (w_{k} (r) \times e^{- h_{k}^{c} (x_{r}) \times δ_{k}}),

δ_{k} = \frac{\ln [(1 - E_{k}^{c}) / E_{k}^{c}]}{2} .

步骤4.8：如果此时k≠K，并且

的值不大于某一预先设定值（用符号σ表示，0＜σ≤0.5），则令k＝k″，w_k(r)＝w_k″(r)，然后返回到步骤4.2；否则，得到增强耦合HMM分类器φ_c，令K_c＝k。

经过上述步骤的操作，即完成对增强耦合HMM分类器φ_c的训练。

所述识别过程的具体实施步骤如下：

步骤五、对待识别情感视频（用x表示）进行预处理，得到待识别情感视频的表情观察向量序列（用x^f表示）和音频观察向量序列（用x^a表示）。

所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致。

所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致。

步骤六、判断待识别情感视频的情感类别，具体过程为：

步骤6.1：将待识别情感视频的音频观察向量序列x^a作为每一种情感的增强耦合HMM分类器φ_c中的连续型二分量耦合HMM的音频通道分量HMM的观察序列；将待识别情感视频的表情观察向量序列x^f作为每一种情感的增强耦合HMM分类器φ_c中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列。

步骤6.2：通过公式（26）计算待识别情感视频x，在增强耦合HMM分类器φ_c下的概率（用P_c表示）。

P_{c} = P (x | φ_{c}) = \frac{Σ_{k = 1}^{K_{c}} δ_{k} P (x | θ_{k}^{c})}{K_{c}} - - - (26)

步骤6.3：从步骤6.2得到的概率P_c中找到最大值，得到该最大值的增强耦合HMM分类器对应的情感即为待识别情感视频所属的情感类别。

有益效果

本发明提出的基于增强耦合HMM的语音-视觉融合的情感识别方法，融合了脸部表情和语音两种特征流，使用改进的EM算法训练连续型二分量耦合HMM，训练时考虑并不断更新各样本的权重，使得训练过程偏重于难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。

附图说明

图1为已有技术中二分量耦合HMM结构示意图；

图2为本发明实施例中每个图像序列中的第一帧图像中20个脸部特征点的具体位置。

具体实施方式

下面结合附图和具体实施例对本发明方法的实施方式做详细说明。

本实施例中，5个实验者（2男3女）在引导式（Wizard of Oz）场景下朗读带有7种基本情感（高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性）的句子，摄像机从正面同步录下脸部表情图像和声音数据。场景脚本中，每一种情感有3个不同的句子，每个人将每句话重复5遍。随机选择四个人的情感视频数据作为训练数据，将剩下那个人的视频数据作为测试集合，整个识别过程是独立于实验者的。然后，将实验数据使用activation-evaluation空间粗分类方法进行了再次标注，即沿着activation轴将样本划分为积极和消极类别，沿着evaluation轴将样本划分为正和负类别。随机选择四个人的情感数据作为训练集合，将剩下那个人的情感数据作为测试集合，整个识别过程是独立于实验者的。实验中执行5重交叉验证。

实验中使用了两种情感类别集合分别进行情感识别实验。其一是7种基本情感（高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性），其二是activation-evaluation空间的粗分类。

所述训练过程的具体实施步骤如下：

步骤一、对训练数据中的情感视频数据进行预处理。

v∈{a,f}，a表示音频，f表示表情；

表示v特征数据流的第r个观察向量序列。

步骤a：从每个情感视频中以v_b的采样率提取p个音频帧组成一条音频序列，v_b＝50赫兹（Hz），p=v_b×t_a，t_a为3~6秒。

步骤b：依次从每条音频序列的各音频帧中提取α个音频特征值，分别用F₁~F_α表示，α＝14，包括：信号强度；基音频率；12个Mel频率倒谱系数。

表示；

步骤c.3：用对待处理音频帧的音频特征值F₁进行归一化处理，归一化处理后的音频特征值F₁用符号F′₁表示，

用

对待处理音频帧的音频特征值F₂进行归一化处理，归一化处理后的音频特征值F₂用符号F′₂表示，以此类推，用

步骤d：获得每个音频序列中各音频帧的音频观察向量，用V′_t表示，1≤t≤p。一个音频序列中的第t帧音频帧的音频观察向量V′_t由经过归一化处理后的α个特征值组成，V′_t＝[f′_t1,f′_t2,……,f′_tα]T，f′_t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′₁，f′_t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′₂，……，以此类推，f′_tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′_α。

步骤f：对于一个情感视频，使用矩阵M′来表示其音频观察向量序列，M′＝[V′₁，V′₂,……,V′_P]∈R^14×p。

第1步：从每个情感视频中以v_a的采样率提取m帧图像组成一个图像序列，v_a＝25赫兹（Hz），m=v_a×t_a，η＝2。由于每段情感视频都开始于中性表情，因此每个图像序列中的第一帧图像为中性表情图像。

第2步：依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值，分别用T₁至T_θ表示，θ＝10。所述脸部表情特征值为脸部几何特征值。具体操作步骤为：

第2.1步：依次在每个图像序列中的第一帧图像中标识出20个脸部特征点；其中，第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置，分别用(x₁,y₁)、(x₂,y₂)表示；第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置，分别用(x₃,y₃)、(x₄,y₄)表示；第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置，分别用(x₅,y₅)、(x₆,y₆)表示；第7、8特征点分别位于右边眼睛和左边眼睛的最低点，分别用(x₇,y₇)、(x₈,y₈)表示；第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置，分别用(x₉,y₉)、(x₁₀,y₁₀)表示；第11、12特征点分别位于右边眼睛和左边眼睛的最高点，分别用(x₁₁,y₁₁)、(x₁₂,y₁₂)表示；第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置，分别用(x₁₃,y₁₃)、(x₁₄,y₁₄)表示；第15特征点位于鼻尖位置，用(x₁₅,y₁₅)表示；第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置，分别用(x₁₆,_y16)、(x₁₇,y₁₇)表示；第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点，分别用(x₁₈,y₁₈)、(x₁₉,y₁₉)表示；第20特征点位于脸部中心线与脸部轮廓线相交的最低点，用(x₂₀,y₂₀)表示。

所述标识20个脸部特征点的方法为使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。

第2.2步：根据每个图像序列中的第一帧图像中的20个特征点的位置，定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点；使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。

第2.3步：根据各图像中的20个特征点的位置，分别计算每个图像序列中的各帧图像的10个脸部表情特征值T₁至T₁₀，具体为：(1)两眼宽度的平均值，用T₁表示，T₁＝(|x₉-x₅|+|x₁₀-x₆|)/2；(2)两眼高度的平均值，用T₂表示，T₂＝(|y₁₁-y₇|+|y₁₂-y₈|)/2；(3)两支眉毛宽度的平均值，用T₃表示，T₃＝(|x₃-x₁|+|x₄-x₂|)/2；(4)两支眉毛高度的平均值，用T₄表示，T₄＝(|y₃-y₁|+|y₄-y₂|)/2；(5)内眼角和眉头之间垂直距离的均值,用T₅表示，T₅＝(|y₅-y₁|+|y₆-y₂|)/2；(6)鼻尖和左右嘴角的垂直距离均值,用T₆表示，T₆＝(|y₁₆-y₁₅|+|y₁₇-y₁₅|)/2；(7)嘴角和外眼角垂直距离的均值，用T₇表示，T₇＝(|y₁₆-y₉|+|y₁₇-y₁₀|)/2；(8)嘴张开宽度，用T₈表示，T₈＝|x₁₇-x₁₆|；(9)嘴张开高度，用T₉表示，T₉＝|y₁₈-y₁₉|；(10)鼻尖和下巴的距离，用T₁₀表示，T₁₀＝|y₁₅-y₂₀|。

由于口型更容易受到说话内容的影响，因此为了减小说话内容对于脸部表情特征值T₈至T₁₀的影响，因此在第2.3步操作的基础上，在每个图像序列中的第n帧图像中，1＜n＜m，将T₈至T1₀这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

第3步：为了解决因不同人脸型不同造成的对脸部表情特征值T₁至T_θ的影响，对所有图像的脸部表情特征值T₁至T_θ进行归一化处理，具体为：

表示；

第3.3步：用

对待处理图像的脸部表情特征值T1进行归一化处理，归一化处理后的脸部表情特征值T₁用符号T′₁表示，

用

对待处理图像的脸部表情特征值T₂进行归一化处理，归一化处理后的脸部表情特征值T₂用符号T′₂表示，以此类推，用对待处理图像的脸部表情特征值T_θ进行归一化处理，归一化处理后的脸部表情特征值T_θ用符号T′_θ表示，

第5步：对于一个情感视频，其表情图像序列中各帧图像的表情观察向量V₁至V_m组成该情感视频的原始表情观察向量序列，用矩阵M″来表示，M″＝[V₁,V₂,……,V_m]∈R^10×m；

第6步：在每个情感视频的原始表情观察向量序列M″中的表情观察向量V_q′和V′_q+1之间通过线性插值法插入1个表情观察向量，并在表情观察向量V_m后，增加1个V_m，得到该情感视频的表情观察向量序列，用M表示，M＝[V₁,V₂,……,V_p]∈R^10×p，1≤q′＜m。

步骤二、建立增强耦合HMM分类器。

在步骤一操作的基础上，建立增强耦合HMM分类器。所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成，1≤K′≤K，K＝6；连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM；同一采样时间点上，每条分量HMM均有1个可见节点和1个隐节点相对应；在某一时刻，某个分量HMM的隐节点状态依赖于所有相关的分量HMM在前一时刻的隐节点状态。。

N_a＝N_f＝5；

S^{a} = {S_{1}^{a}, S_{2}^{a}, \cdot \cdot \cdot \cdot \cdot \cdot, S_{5}^{a}},

S^{f} = {S_{1}^{f}, S_{2}^{f}, \cdot \cdot \cdot \cdot \cdot \cdot, S_{5}^{f}};

N表示连续型二分量耦合HMM的隐状态个数，N＝N_a×N_f；用S表示连续型二分量耦合HMM的隐状态集合，则

S = {(S^{a}, S^{f}) | S^{a} &Element; {S_{1}^{a}, . . ., S_{5}^{a}}, S^{f} &Element; {S_{1}^{f}, . . ., S_{5}^{f}}} .

π (i) = \underset{v}{Π} π^{v} (i_{v}) = \underset{v}{Π} P (q_{1}^{v} = i_{v}) - - - (1)

其中，π(i)表示连续型二分量耦合HMM的初始隐状态概率分布；i表示连续型二分量耦合HMM的隐状态，i∈S；π^v(i_v)表示连续型二分量耦合HMM的v通道分量HMM的初始隐状态概率分布；i_v表示连续型二分量耦合HMM的v通道分量HMM的隐状态，i_v∈S^v；

a (i | j) = \underset{v}{Π} a^{v} (i_{v} | j) = \underset{v}{Π} P (q_{t_{1}}^{v} = i_{v} | q_{t_{1} - 1} = j) - - - (2)

表示连续型二分量耦合HMM在(t₁-1)时刻的隐状态取值。

b_{t} (i) = \underset{v}{Π} {[b_{t}^{v} (i_{v})]}^{λ_{v}} = \underset{v}{Π} {[P (O_{t}^{v} | q_{t}^{v} = i_{v})]}^{λ_{v}} = \underset{v}{Π} {[Σ_{m = 1}^{M_{i_{v}}^{v}} w_{i_{v}, m}^{v} N (O_{t}^{v}, μ_{i_{v}, m}^{v}, U_{i_{v}, m}^{v})]}^{λ_{v}} - - - (3)

是连续型二分量耦合HMM的v通道分量HMM中隐状态i_v的观察概率密度函数，其形式是混合高斯密度函数；λ_v是连续型二分量耦合HMM的v通道分量HMM对应的指数，λ_v＝1；

表示在连续型二分量耦合HMM的v通道分量HMM中，隐状态i_v的混合高斯密度函数的混合数，

1 \leq m \leq M_{i_{v}}^{v} .

步骤三、初始化增强耦合HMM分类器。

在步骤二操作的基础上，同时初始化C＝7个增强耦合HMM分类器，C表示情感类别的数量；即：对应每一种情感，初始化一个增强耦合HMM分类器。用φ_c表示第c种情感对应的增强耦合HMM分类器，1≤c≤C。

表示为

表示第r个训练样本x_r在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量，1≤t≤p；然后根据特征数据流X^v对应的v通道分量HMM的隐状态数N_v，依次将特征数据流X^v中的每个观察向量序列平均分为N_v段，1≤r≤R；对每个观察向量序列

的初始隐节点状态序列，用

表示。

步骤3.2：使用K-means聚类算法，依次对每个观察向量序列

中每个隐状态i′所对应的观察向量聚类为

个类别，分别用

表示；用

表示观察向量序列

在t时刻的隐状态对应的混合高斯密度函数的混合分量；根据观察向量序列中隐状态i′所对应的观察向量的聚类结果，得到观察向量序列

的混合分量序列

c_{r, t}^{v} &Element; {1,2, \cdot \cdot \cdot, M_{i_{v}}^{v}},

1≤t≤p。

步骤3.3：将特征数据流X^v输入到增强耦合HMM分类器φ_c中的某一连续型二分量耦合HMM中，用符号表示增强耦合HMM分类器φ_c中的第k′个连续型二分量耦合HMM，1≤k′≤K。

步骤3.4：利用公式（4）至公式（9）重估连续型二分量耦合HMM的参数。

μ_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m) O_{r, t}^{v}}{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)} - - - (4)

其中，

的值通过公式（5）确定。

U_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m) (O_{r, t}^{v} - μ_{i_{v}, m}^{v}) {(O_{r, t}^{v} - μ_{i_{v}, m}^{v})}^{T}}{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)} - - - (6)

w_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)}{Σ_{r, t} Σ_{m^{'}} γ_{r, t}^{v} (i_{v}, m^{'})} - - - (7)

其中，

1 \leq m^{'} \leq M_{i_{v}}^{v} .

a^{v} (i_{v} | j) = \frac{Σ_{r, t} ϵ_{r, t_{1}}^{v} (i_{v}, j)}{Σ_{r, t} Σ_{j} ϵ_{r, t_{1}}^{v} (i_{v}, j)} - - - (8)

其中，

的值通过公式（9）确定；j∈S。

步骤3.5：使用基于耦合HMM的Viterbi算法对各观察向量序列

的初始隐节点状态序列

进行优化，具体操作步骤为：

步骤3.5.1：将步骤3.4得到的连续型二分量耦合HMM的参数

和

2≤t₁≤p。

δ_{t_{1}} (i) = \max_{j} {δ_{t_{1} - 1} (j) a (i | j)} b_{t_{1}} (i) - - - (10)

其中，

表示连续型二分量耦合HMM

在t₁时刻为状态i的最大概率与b_t(i)的乘积；δ₁(i)＝π(i)b₁(i)。

ψ_{t_{1}} (i) = \arg \max_{j} {δ_{t_{1} - 1} (j) a (i | j)} - - - (11)

其中，

表示连续型二分量耦合HMM

在t₁时刻为状态i的最大概率的路径的前一状态；

表示使得最大时，j的取值；ψ₁(i)＝0。

模型下的概率P对应的p时刻的隐节点状态，用符号q_p表示。

P = \max_{i} {δ_{p} (i)} = \max_{q_{1}, \cdot \cdot \cdot, q_{p}} P (O_{1}, \cdot \cdot \cdot, O_{p} | q_{1}, \cdot \cdot \cdot, q_{p}) - - - (12)

其中，

O_{t} = (O_{t}^{a}, O_{t}^{f}) .

q_{p} = \arg \max_{i} {δ_{p} (i)} - - - (13)

其中，

表示使得δ_p(i)最大时，i的取值。

1≤t₂≤p-1。

q_{t_{2}} = ψ_{t_{2} + 1} (q_{t_{2} + 1}) - - - (14)

其中，

表示训练样本x_r在当前二分量耦合HMM

模型下的概率P对应的t₂时刻的隐节点状态。

在当前二分量耦合HMM

的v通道分量HMM的优化隐节点状态序列

步骤3.6：通过公式（15）对各观察向量序列

的混合分量序列

进行优化。

c_{r, t}^{v} = \arg \max_{m} P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m) - - - (15)

其中，

\arg \max_{m} P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m)

表示使得

P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m)

最大时，m的取值。

步骤3.7：判断各训练样本x_r在当前二分量耦合HMM

步骤四、训练增强耦合HMM分类器。

步骤4.2：用

表示增强耦合HMM分类器φ_c中的第k个连续型二分量耦合HMM。用w_k(r)表示输入到连续型二分量耦合HMM

的特征数据流X^v中的第r个观察向量序列

的表情通道分量HMM。

的模型参数，得到连续型二分量耦合HMM

的最优模型参数，具体操作步骤为：

步骤4.3.1：将步骤三得到的连续型二分量耦合HMM

的模型初始参数

步骤4.3.2：通过公式（16）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的前向概率，用表示，1≤r≤R。

α_{r, t_{1}} (i) = b_{t_{1}} (i) Σ_{j} a (i | j) α_{r, t_{1} - 1} (j) - - - (16)

其中，α_r，1(i)＝π(i)b₁(i)；2≤t₁≤p。

步骤4.3.3：通过公式（17）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的后向概率，用

表示。

β_{r, t_{2}} (j) = Σ_{i} b_{t_{2} + 1} (i) a (i | j) β_{r, t_{2} + 1} (i) - - - (17)

其中，β_r,p(i)＝1；1≤t₂≤p-1。

步骤4.3.4：通过公式（18）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的概率（用符号P_r表示）。

P_r＝α_r，p(q_p)＝β_r,1(q₁) （18）

步骤4.3.5：使用公式（19）至公式（23），利用各训练样本在步骤4.3.2中得到的前向概率

步骤4.3.3中得到的后向概率

的模型参数

和a^v(i_v|j)。

μ_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m) O_{r, t}^{v}}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)} - - - (19)

其中，可通过公式（20）计算得到。

ξ_{r, t}^{v} (i_{v}, m) = \frac{Σ_{Is . t . I_{v} = i_{v}} α_{r, t} (I) β_{r, t} (I)}{Σ_{I} α_{r, t} (I) β_{r, t} (I)} \times \frac{w_{i_{v}, m}^{v} N (O_{r, t}^{v}, μ_{i_{v}, m}^{v}, U_{i_{v}, m}^{v})}{Σ_{m^{'}} w_{i_{v}, m^{'}}^{v} N (O_{r, t}^{v}, μ_{i_{v}, m^{'}}^{v}, U_{i_{v}, m^{'}}^{v})} - - - (20)

其中，I∈S；I_v∈S^v；Is.t.I_v＝i_v表示连续型二分量耦合HMM

的隐状态I在v通道分量HMM的隐状态I_v等于i_v。

U_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m) (O_{r, t}^{v} - μ_{i_{v}, m}^{v}) {(O_{r, t}^{v} - μ_{i_{v}, m}^{v})}^{T}}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)} - - - (21)

w_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} Σ_{m^{'}} ξ_{r, t}^{v} (i_{v}, m^{'})} - - - (22)

a^{v} (i_{v} | j) = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{Is . t . I_{v} = i_{v}} Σ_{t_{2}} α_{r, t_{2}} (j) a (I | j) b_{t_{2} + 1} (I) β_{r, t_{2} + 1} (I)}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t_{2}} α_{r, t_{2}} (j) β_{r, t_{2}} (j)} - - - (23)

步骤4.3.7：判断连续型二分量耦合HMM

的模型参数

和a^v(i_v|j)是否均收敛；如非均收敛，则将步骤4.3.6得到的

和a^v(i_v|j)代入到公式（1）至公式（3），计算得到π(i)、a(i|j)和b_t(i)，然后返回到步骤4.3.2；否则，则将步骤4.3.6得到的

和a^v(i_v|j)作为连续型二分量耦合HMM

的最优模型参数。

步骤4.4：使用步骤4.2中所述输入到连续型二分量耦合HMM

的特征数据流X^v验证步骤4.3得到的连续型二分量耦合HMM

具体验证方法为：用

表示训练样本x_r是否被连续型二分量耦合HMM

正确分类，如果观察向量序列x_r被正确分类，设定否则，设定

所述判断某一训练样本x_r是否被连续型二分量耦合HMM

正确分类的方法为：

步骤4.5：通过公式（24）计算连续型二分量耦合HMM

的训练误差，用

表示。

E_{k}^{c} = \underset{h_{k}^{c} (x_{r}) = - 1}{Σ} w_{k} (r) - - - (24)

步骤4.6：使用临时变量k″，并设定k″＝k+1。

的训练样本x_r的权重，用w_k″(r)表示，1≤r≤R。

w_{k^{''}} (r) = \frac{w_{k} (r)}{Z_{k^{''}}} \times e^{- h_{k}^{c} (x_{r}) \times δ_{k}} - - - (25)

其中，Z_k″是归一化因子，

Z_{k^{''}} = \underset{r}{Σ} (w_{k} (r) \times e^{- h_{k}^{c} (x_{r}) \times δ_{k}}),

δ_{k} = \frac{\ln [(1 - E_{k}^{c}) / E_{k}^{c}]}{2} .

步骤4.8：如果此时k≠K，并且的值不大于某一预先设定值（用符号σ表示，0＜σ≤0.5），则令k＝k″，w_k(r)＝w_k″(r)，然后返回到步骤4.2；否则，得到增强耦合HMM分类器φ_c，令K_c＝k。

所述识别过程的具体实施步骤如下：

步骤五、对待识别情感视频x进行预处理，得到待识别情感视频的表情观察向量序列x^f和音频观察向量序列x^a。

步骤六、判断待识别情感视频的情感类别，具体过程为：

步骤6.2：通过公式（26）计算待识别情感视频x，在增强耦合HMM分类器φ_c下的概率P_c。

P_{c} = P (x | φ_{c}) = \frac{Σ_{k = 1}^{K_{c}} δ_{k} P (x | θ_{k}^{c})}{K_{c}} - - - (26)

经过上述步骤的操作，得到的7种基本情感的平均准确率结果如表1第2行第5列所示；使用本发明提出方法进行实验，得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行第5列所示。

表1不同方法的识别准确率对比表

	Audio HMM	Facial HMM	CHMM	增强耦合HMM
					7种基本情感	75.5%	60.8%	86.1%	91.6%
Activation-evaluation空间	76.0%	62.2%	85.8%	91.1%

为了对比本发明提出方法的有效性，使用相同的训练数据和测试数据，分别采用以下4种方法进行识别：（1）单一特征（Audio）HMM分类器；（2）单一特征（Facial）HMM分类器；（3）常规的3-链耦合HMM(CHMM)分类器，得到的7种表情的平均准确率结果如表1第2行至第1列至第3列所示；得到的activation-evaluation空间的粗分类的平均准确率结果如表1第3行至第1列至第3列所示。

通过对比，可以看到CHMM分类器的识别准确率大大高于单模态的HMM方法，因为耦合HMM可以有效利用两个通道的互补信息。而本发明提出的方法使用脸部表情和语音两种特征流，训练时考虑并不断更新各样本的权重，明显提高了分类的准确度。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增强耦合HMM的语音-视觉融合的情感识别方法，用于识别情感视频中的人的情感，所述情感包括：中性、高兴、生气、惊讶、恐惧、悲伤、厌恶等；所述情感视频是指包含人脸表情和语音的视频数据，并且每段情感视频都开始于中性表情；其特征在于：所述增强耦合HMM的语音-视觉融合的情感识别方法包括2部分：训练过程和识别过程；

所述训练过程的具体实施步骤包括步骤一至步骤六，具体为：

步骤一、对训练数据中的情感视频数据进行预处理；

将每一种情感的训练数据称为一个训练样本集；一个训练样本集中的训练样本数量用R表示，R≥20；该训练样本集中的第r个训练样本用x_r表示，1≤r≤R；分别对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列和音频观察向量序列；一个训练样本集中的全部情感视频数据在预处理后，得到的表情观察向量序列的集合称为表情特征数据流，得到的音频观察向量序列的集合称为音频特征数据流，这2种特征数据流用符号X^v表示，

v∈{a,f}，a表示音频，f表示表情；

表示v特征数据流的第r个观察向量序列；

所述对每个训练样本集中的每个情感视频数据做预处理，得到音频观察向量序列的操作步骤包括步骤a至步骤f，具体为：

步骤a：从每个情感视频中以v_b的采样率提取p个音频帧组成一条音频序列，v_b≥5赫兹，p=v_b×t_a，t_a为情感视频的时间长度；

步骤b：依次从每条音频序列的各音频帧中提取α个音频特征值，分别用F₁~F_α表示，α≥4；

所述音频特征值包括：信号强度；短时过零率；基音频率；共振峰频率；线性预测倒谱系数；线谱对参数；Mel频率倒谱系数；感知线性预测倒谱系数；

步骤c：对所有音频帧的音频特征值F₁~F_α进行归一化处理，操作过程为步骤c.1至c.3，具体为：

步骤c.1：找出与待处理音频帧为同一发声人物的所有中性情感的音频序列；所述待处理音频帧为当前等待做归一化处理的音频帧；

步骤c.2：分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F₁的均值、F₂的均值、……、F_α的均值，分别用

至

表示；

步骤c.3：用

对待处理音频帧的音频特征值F₁进行归一化处理，归一化处理后的音频特征值F₁用符号F′₁表示，

用

以此类推，用

步骤d：获得每个音频序列中各音频帧的音频观察向量，用V′_t表示，1≤t≤p；一个音频序列中的第t帧音频帧的音频观察向量V′_t由经过归一化处理后的α个特征值组成，V′_t＝[f′_t1,f′_t2,……,f′_tα]^T，f′_t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′₁，f′_t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′₂，……，以此类推，f′_tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′_α；

步骤f：对于一个情感视频，使用矩阵M′来表示其音频观察向量序列，M′＝[V′₁，V′₂,……,V′_P]∈R^α×p；

所述对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列的操作步骤包括第1步至第6步，具体为：

第1步：从每个情感视频中以v_a的采样率提取m帧图像组成一个图像序列，v_a≥5赫兹，m=v_a×t_a，v_a＝v_b/η，η＝1,2,3；由于每段情感视频都开始于中性表情，因此每个图像序列中的第一帧图像为中性表情图像；

第2步：依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值，分别用T₁至T_θ表示，θ≥5；所述脸部表情特征值包括：脸部几何特征值；脸部纹理特征值；

第3.1步：从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列；所述待处理图像为当前等待做归一化处理的图像；

第3.2步：分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有表情图像序列的第一帧图像中脸部表情特征值T₁的均值、T₂的均值、……、T_θ的均值，分别用

至

表示；

第3.3步：用

用对待处理图像的脸部表情特征值T₂进行归一化处理，归一化处理后的脸部表情特征值T₂用符号T′₂表示，

以此类推，用

第4步：获得每个表情图像序列中各帧图像的表情观察向量，用V_q表示，1≤q≤m；一个表情图像序列中第q帧图像的表情观察向量V_q由经过第3步归一化处理后的θ个特征值组成，V_q＝[f_q1,f_q2,……,f_qθ]^T，f_q1为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′₁，f_q2为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′₂，……，以此类推，f_qθ为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值t′_θ；

第6步：在每个情感视频的原始表情观察向量序列M″中的表情观察向量V_q′和V_q′+1之间通过线性插值法插入(η-1)个表情观察向量，并在表情观察向量V_m后，增加(η-1)个V_m，得到该情感视频的表情观察向量序列，用M表示，M＝[V₁,V₂,……,V_N]∈R^θ×p，1≤q′＜m；

步骤二、建立增强耦合HMM分类器；

在步骤一操作的基础上，建立增强耦合HMM分类器；所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成，1≤K′≤K，K的值由人为预先设定，4≤K≤10；连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM；同一采样时间点上，每条分量HMM均有1个可见节点和1个隐节点相对应；

用N_v表示连续型二分量耦合HMM的v通道的分量HMM的隐状态个数，v∈{a,f}；用S^v表示连续型二分量耦合HMM的v通道分量HMM的隐状态集合，

用N表示连续型二分量耦合HMM的隐状态个数，N＝N_a×N_f；用S表示连续型二分量耦合HMM的隐状态集合，则

S = {(S^{a}, S^{f}) | S^{a} &Element; {S_{1}^{a}, . . ., S_{N_{a}}^{a}}, S^{f} &Element; {S_{1}^{f}, . . ., S_{N_{f}}^{f}}};

所述连续型二分量耦合HMM的参数由公式（1）至公式（3）表示；

π (i) = \underset{v}{Π} π^{v} (i_{v}) = \underset{v}{Π} P (q_{1}^{v} = i_{v}) - - - (1)

表示连续型二分量耦合HMM的v通道分量HMM在初始时刻的隐状态取值；

a (i | j) = \underset{v}{Π} a^{v} (i_{v} | j) = \underset{v}{Π} P (q_{t_{1}}^{v} = i_{v} | q_{t_{1} - 1} = j) - - - (2)

表示t₁时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值；表示连续型二分量耦合HMM在(t₁-1)时刻的隐状态取值；

b_{t} (i) = \underset{v}{Π} {[b_{t}^{v} (i_{v})]}^{λ_{v}} = \underset{v}{Π} {[P (O_{t}^{v} | q_{t}^{v} = i_{v})]}^{λ_{v}} = \underset{v}{Π} {[Σ_{m = 1}^{M_{i_{v}}^{v}} w_{i_{v}, m}^{v} N (O_{t}^{v}, μ_{i_{v}, m}^{v}, U_{i_{v}, m}^{v})]}^{λ_{v}} - - - (3)

是连续型二分量耦合HMM的v通道分量HMM中隐状态i_v的观察概率密度函数，其形式是混合高斯密度函数；λ_v是连续型二分量耦合HMM的v通道分量HMM对应的指数，λ_v∈[0.5,1]；表示连续型二分量耦合HMM的v通道分量HMM在t时刻的观察向量，1≤t≤p；

表示连续型二分量耦合HMM的v通道分量HMM在t时刻的隐状态取值；表示在连续型二分量耦合HMM的v通道分量HMM中，隐状态i_v的混合高斯密度函数的混合数；

1 \leq m \leq M_{i_{v}}^{v} .

步骤三、初始化增强耦合HMM分类器；

在步骤二操作的基础上，同时初始化C个增强耦合HMM分类器，C表示情感类别的数量；即：对应每一种情感，初始化一个增强耦合HMM分类器；用φ_c表示第c种情感对应的增强耦合HMM分类器，1≤c≤C；

使用第c种情感的训练样本集对增强耦合HMM分类器φ_c进行初始化的过程包括步骤3.1至步骤3.7，具体为：

表示为

中的第i′段对应的隐节点状态赋初值为i′，1≤i′≤N_v，从而可得每个观察向量序列的初始隐节点状态序列，用

表示；

步骤3.2：使用K-means聚类算法，依次对每个观察向量序列

中每个隐状态i′所对应的观察向量聚类为

个类别，分别用

表示；用

表示观察向量序列

中隐状态i′所对应的观察向量的聚类结果，得到观察向量序列的混合分量序列

c_{r, t}^{v} &Element; {1,2, \cdot \cdot \cdot, M_{i_{v}}^{v}},

1≤t≤p；

表示增强耦合HMM分类器φ_c中的第k′个连续型二分量耦合HMM，1≤k′≤K；

的参数；

μ_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m) O_{r, t}^{v}}{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)} - - - (4)

其中，

的值通过公式（5）确定；

其中，

表示第r个训练样本x_r在连续型二分量耦合HMM的v通道分量HMM中的t时刻的隐状态取值；

U_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m) (O_{r, t}^{v} - μ_{i_{v}, m}^{v}) {(O_{r, t}^{v} - μ_{i_{v}, m}^{v})}^{T}}{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)} - - - (6)

w_{i_{v}, m}^{v} = \frac{Σ_{r, t} γ_{r, t}^{v} (i_{v}, m)}{Σ_{r, t} Σ_{m^{'}} γ_{r, t}^{v} (i_{v}, m^{'})} - - - (7)

其中，

1 \leq m^{'} \leq M_{i_{v}}^{v} .

a^{v} (i_{v} | j) = \frac{Σ_{r, t} ϵ_{r, t_{1}}^{v} (i_{v}, j)}{Σ_{r, t} Σ_{j} ϵ_{r, t_{1}}^{v} (i_{v}, j)} - - - (8)

其中，

的值通过公式（9）确定；j∈S；

步骤3.5：使用基于耦合HMM的Viterbi算法对各观察向量序列

的初始隐节点状态序列进行优化，操作步骤包括步骤3.5.1至步骤3.5.4，具体为：

步骤3.5.1：将步骤3.4得到的连续型二分量耦合HMM

的参数

和a^v(i_v|j)代入到公式（1）至公式（3），计算得到π(i)、a(i|j)和b_t(i)；

和

2≤t₁≤p；

δ_{t_{1}} (i) = \max_{j} {δ_{t_{1} - 1} (j) a (i | j)} b_{t_{1}} (i) - - - (10)

其中，

表示连续型二分量耦合HMM

在t₁时刻为状态i的最大概率与b_t(i)的乘积；δ₁(i)＝π(i)b₁(i)；

ψ_{t_{1}} (i) = \arg \max_{j} {δ_{t_{1} - 1} (j) a (i | j)} - - - (11)

其中，

表示连续型二分量耦合HMM

在t₁时刻为状态i的最大概率的路径的前一状态；

表示使得

最大时，j的取值；ψ₁(i)＝0；

模型下的概率，用符号P表示；通过公式（13）计算训练样本x_r在当前二分量耦合HMM模型下的概率P对应的p时刻的隐节点状态，用符号q_p表示；

P = \max_{i} {δ_{p} (i)} = \max_{q_{1}, \cdot \cdot \cdot, q_{p}} P (O_{1}, \cdot \cdot \cdot, O_{p} | q_{1}, \cdot \cdot \cdot, q_{p}) - - - (12)

其中，

O_{t} = (O_{t}^{a}, O_{t}^{f});

q_{p} = \arg \max_{i} {δ_{p} (i)} - - - (13)

其中，

表示使得δ_p(i)最大时，i的取值；

1≤t₂≤p-1；

q_{t_{2}} = ψ_{t_{2} + 1} (q_{t_{2} + 1}) - - - (14)

其中，

表示训练样本x_r在当前二分量耦合HMM

模型下的概率P对应的t₂时刻的隐节点状态；

在当前二分量耦合HMM的v通道分量HMM的优化隐节点状态序列

步骤3.6：通过公式（15）对各观察向量序列

的混合分量序列

进行优化；

c_{r, t}^{v} = \arg \max_{m} P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m) - - - (15)

其中，

\arg \max_{m} P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m)

表示使得

P (O_{r, t}^{v} | q_{r, t}^{v} = i_{v}, c_{r, t}^{v} = m)

最大时，m的取值；

步骤3.7：判断各训练样本x_r在当前二分量耦合HMM

模型下的概率P是否均收敛；如果不均收敛，利用公式（4）至公式（9）重估连续型二分量耦合HMM的参数，然后回到步骤3.5；如果均收敛，则将重估得到的参数

和a^v(i_v|j)作为增强耦合HMM分类器φ_c中各连续型二分量耦合HMM的模型初始参数；

经过步骤3.1至步骤3.7的操作，即完成对增强耦合HMM分类器φ_c的初始化操作；

步骤四、训练增强耦合HMM分类器；

在步骤三对增强耦合HMM分类器初始化的基础上，同时训练C个增强耦合HMM分类器φ_c，1≤c≤C；

使用第c种情感的训练样本集对增强耦合HMM分类器φ_c进行训练的过程包括步骤4.1至步骤4.8，具体为：

步骤4.1：用K_c表示增强耦合HMM分类器φ_c中包含的连续型二分量耦合HMM的个数，并设定K_c的初始值为K；使用变量k，并设定变量k的初始值为1；然后执行步骤4.2至步骤4.8的操作；

步骤4.2：用表示增强耦合HMM分类器φ_c中的第k个连续型二分量耦合HMM；用w_k(r)表示输入到连续型二分量耦合HMM的特征数据流X^v中的第r个观察向量序列

的权重，1≤r≤R；当k＝1时，w_k(r)＝1/R；将带有权重w_k(r)的音频特征数据流X^a输入到连续型二分量耦合HMM

的表情通道分量HMM；

的模型参数，得到连续型二分量耦合HMM

的最优模型参数，操作步骤包括步骤4.3.1至步骤4.3.6，具体为：

步骤4.3.1：将步骤三得到的连续型二分量耦合HMM

的模型初始参数和a^v(i_v|j)代入到公式（1）至公式（3），计算得到π(i)、a(i|j)和b_t(i)；

步骤4.3.2：通过公式（16）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的前向概率，用

表示，1≤r≤R；

α_{r, t_{1}} (i) = b_{t_{1}} (i) Σ_{j} a (i | j) α_{r, t_{1} - 1} (j) - - - (16)

其中，α_r，1(i)＝π(i)b₁(i)；2≤t₁≤p；

步骤4.3.3：通过公式（17）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的后向概率，用

表示；

β_{r, t_{2}} (j) = Σ_{i} b_{t_{2} + 1} (i) a (i | j) β_{r, t_{2} + 1} (i) - - - (17)

其中，β_r,p(i)＝1；1≤t₂≤p-1；

步骤4.3.4：通过公式（18）计算所述连续型二分量耦合HMM

中各训练样本的观察序列的概率P_r；

P_r＝α_r，p(q_p)＝β_r,1(q₁) （18）

步骤4.3.3中得到的后向概率和步骤4.3.4得到的观察序列的概率P_r重估连续型二分量耦合HMM

的模型参数

和a^v(i_v|j)；

μ_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m) O_{r, t}^{v}}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)} - - - (19)

其中，

可通过公式（20）计算得到；

ξ_{r, t}^{v} (i_{v}, m) = \frac{Σ_{Is . t . I_{v} = i_{v}} α_{r, t} (I) β_{r, t} (I)}{Σ_{I} α_{r, t} (I) β_{r, t} (I)} \times \frac{w_{i_{v}, m}^{v} N (O_{r, t}^{v}, μ_{i_{v}, m}^{v}, U_{i_{v}, m}^{v})}{Σ_{m^{'}} w_{i_{v}, m^{'}}^{v} N (O_{r, t}^{v}, μ_{i_{v}, m^{'}}^{v}, U_{i_{v}, m^{'}}^{v})} - - - (20)

其中，I∈S；I_v∈S^v；Is.t.I_v＝i_v表示连续型二分量耦合HMM

的隐状态I在v通道分量HMM的隐状态I_v等于i_v；

U_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m) (O_{r, t}^{v} - μ_{i_{v}, m}^{v}) {(O_{r, t}^{v} - μ_{i_{v}, m}^{v})}^{T}}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)} - - - (21)

w_{i_{v}, m}^{v} = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} ξ_{r, t}^{v} (i_{v}, m)}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t} Σ_{m^{'}} ξ_{r, t}^{v} (i_{v}, m^{'})} - - - (22)

a^{v} (i_{v} | j) = \frac{Σ_{r} (w_{k} (r) / P_{r}) Σ_{Is . t . I_{v} = i_{v}} Σ_{t_{2}} α_{r, t_{2}} (j) a (I | j) b_{t_{2} + 1} (I) β_{r, t_{2} + 1} (I)}{Σ_{r} (w_{k} (r) / P_{r}) Σ_{t_{2}} α_{r, t_{2}} (j) β_{r, t_{2}} (j)} - - - (23)

步骤4.3.6：判断连续型二分量耦合HMM

的模型参数和a^v(i_v|j)是否均收敛；如非均收敛，则将步骤4.3.5得到的

和a^v(i_v|j)代入到公式（1）至公式（3），计算得到π(i)、a(i|j)和b_t(i)，然后返回到步骤4.3.2；否则，则将步骤4.3.5得到的

和a^v(i_v|j)作为连续型二分量耦合HMM

的最优模型参数；

步骤4.4：使用步骤4.2中所述输入到连续型二分量耦合HMM

的特征数据流X^v验证步骤4.3得到的连续型二分量耦合HMM

具体验证方法为：用

表示训练样本x_r是否被连续型二分量耦合HMM

正确分类，如果观察向量序列x_r被正确分类，设定

否则，设定

步骤4.5：通过公式（24）计算连续型二分量耦合HMM

的训练误差，用表示；

E_{k}^{c} = \underset{h_{k}^{c} (x_{r}) = - 1}{Σ} w_{k} (r) - - - (24)

步骤4.6：使用临时变量k″，并设定k″＝k+1；

的训练样本x_r的权重，用w_k″(r)表示，1≤r≤R；

w_{k^{''}} (r) = \frac{w_{k} (r)}{Z_{k^{''}}} \times e^{- h_{k}^{c} (x_{r}) \times δ_{k}} - - - (25)

其中，Z_k″是归一化因子，

Z_{k^{''}} = \underset{r}{Σ} (w_{k} (r) \times e^{- h_{k}^{c} (x_{r}) \times δ_{k}}),

δ_{k} = \frac{\ln [(1 - E_{k}^{c}) / E_{k}^{c}]}{2};

步骤4.8：如果此时k≠K，并且

的值不大于某一预先设定值σ，0＜σ≤0.5，则令k＝k″，w_k(r)＝w_k″(r)，然后返回到步骤4.2；否则，得到增强耦合HMM分类器φ_c，令K_c＝k；

经过上述步骤的操作，即完成对增强耦合HMM分类器φ_c的训练；

所述识别过程的具体实施步骤如下：

步骤五、对待识别情感视频x进行预处理，得到待识别情感视频的表情观察向量序列x^f表示和音频观察向量序列x^a；

所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致；

所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致；

步骤六、判断待识别情感视频的情感类别，操作过程包括步骤6.1至步骤6.3，具体为：

步骤6.1：将待识别情感视频的音频观察向量序列x^a作为每一种情感的增强耦合HMM分类器φ_c中的连续型二分量耦合HMM的音频通道分量HMM的观察序列；将待识别情感视频的表情观察向量序列x^f作为每一种情感的增强耦合HMM分类器φ_c中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列；

步骤6.2：通过公式（26）计算待识别情感视频x，在增强耦合HMM分类器φ_c下的概率P_c；

P_{c} = P (x | φ_{c}) = \frac{Σ_{k = 1}^{K_{c}} δ_{k} P (x | θ_{k}^{c})}{K_{c}} - - - (26)

2.如权利要求1所述的一种增强耦合HMM的语音-视觉融合的情感识别方法，其特征在于：步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值，θ＝10，其操作步骤包括第2.1步至第2.3步，具体为：

第2.1步：依次在每个图像序列中的第一帧图像中标识出20个脸部特征点；其中，第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置，分别用(x₁,y₁)、(x₂,y₂)表示；第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置，分别用(x₃,y₃)、(x₄,y₄)表示；第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置，分别用(x₅,y₅)、(x₆,y₆)表示；第7、8特征点分别位于右边眼睛和左边眼睛的最低点，分别用(x₇,y₇)、(x₈,y₈)表示；第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置，分别用(x₉,y₉)、(x₁₀,y₁₀)表示；第11、12特征点分别位于右边眼睛和左边眼睛的最高点，分别用(x₁₁,y₁₁)、(x₁₂,y₁₂)表示；第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置，分别用(x₁₃,y₁₃)、(x₁₄,y₁₄)表示；第15特征点位于鼻尖位置，用(x₁₅,y₁₅)表示；第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置，分别用(x₁₆,y₁₆)、(x₁₇,y₁₇)表示；第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点，分别用(x₁₈,y₁₈)、(x₁₉,y₁₉)表示；第20特征点位于脸部中心线与脸部轮廓线相交的最低点，用(x₂₀,y₂₀)表示；

3.如权利要求2所述的一种增强耦合HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.1步中所述标识20个脸部特征点的方法包括：①人工手动标识；②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。

4.如权利要求2或3所述的一种增强耦合HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。

5.如权利要求2至4之一所述的一种增强耦合HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.3步中所述计算脸部表情特征值T₈至T₁₀的优选方法是：在第2.3步操作的基础上，在每个图像序列中的第n帧图像中，1＜n＜m，将T₈至T₁₀这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

6.如权利要求1至5之一所述的一种增强耦合HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一步骤4.4中所述判断某一训练样本x_r是否被连续型二分量耦合HMM

正确分类的方法的操作过程包括步骤4.4.1至步骤4.4.2，具体为：

然后对其它并行训练的(C-1)个增强耦合HMM分类器分别进行如下操作：如果k≤K_c′，c′∈{1,2,……,c-1}∪{c+1,c+2,……,C}，K_c′表示第c′个增强耦合HMM分类器φ_c′中包含的连续型二分量耦合HMM的个数，则取出第c′个增强耦合HMM分类器φ_c′中的连续型二分量耦合HMM否则，取出第c′个增强耦合HMM分类器φ_c′中的连续型二分量耦合HMM

步骤4.4.2：分别计算各训练样本在步骤4.4.1取出的C个连续型二分量耦合HMM下的概率；如果训练样本x_r属于第c个情感类别，且训练样本x_r在连续型二分量耦合HMM下的概率最大，则认为训练样本xr被正确分类；否则，认为训练样本x_r未被正确分类。