CN104732203B

CN104732203B - 一种基于视频信息的情绪识别与跟踪方法

Info

Publication number: CN104732203B
Application number: CN201510098126.1A
Authority: CN
Inventors: 王宏安; 李江东; 陈辉; 张凤军
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2015-03-05
Filing date: 2015-03-05
Publication date: 2019-03-26
Anticipated expiration: 2035-03-05
Also published as: CN104732203A

Abstract

本发明涉及一种基于视频信息的情绪识别与跟踪方法，其步骤为：1)获取图像并对其进行三维头部建模；2)借助生成的三维头部模型进行图像融合，形成连续情感表达以及与人无关的情感表达；3)使用生成的融合图像、三维头部模型以及其情绪值构造训练样本；4)使用构建的训练样本训练情绪识别模型；5)如有必要，在测试步骤执行之前进行一系列预处理操作，然后使用训练好的情绪识别模型，进行三维头部关键点的跟踪以及情绪的识别直至完成全部情绪识别任务。本发明不仅适用于离散情绪的识别，也适用于连续情感空间表达下的情绪识别，可以用于桌面场景与移动交互场景，不受视觉信息采集设备的限制，能够提升自然人机交互的质量。

Description

一种基于视频信息的情绪识别与跟踪方法

技术领域

本发明属于人机交互领域，具体涉及一种通用的基于视频信息的情绪识别与跟踪方法。

背景技术

随着人机交互技术的发展，传统的人机交互技术已经逐渐向着智能交互和自然交互等方向转变。人机交互关注的重点也从定义交互方式，设计交互语义等发展为关注用户内心情感，进而挖掘用户隐式需求等。实现自然人机交互的主要任务之一在于使计算机能够在与用户交互的过程中自然地感知用户的情感，追踪其情感变化，进而更主观地与其进行思想上的交流及互动，或者推测用户内心的基本意愿等。由此可以看出，情绪识别在自然人机交互中具有十分重要的意义。

研究表明，使用视觉信息进行情感识别与分析比使用音频或者其他输入信息更加准确，稳定。并且随着网络摄像头的普及以及当前处理器对于图像处理能力的增强，基于视觉信息进行准确的情感识别已经变得可行。目前，已经有很多基于计算机视觉通道的自然情绪识别方法。这些方法中的大部分致力于将情绪按类别进行描述(如喜悦，悲伤，轻蔑等)，并取得了较高的准确率，但是这些分类方法却很难在连续情绪空间(如PAD情感空间等)中对情绪进行准确的分析与跟踪。除此之外，很多现有的方法可以在实验室中采集的人工表演的表情数据上取得较高的识别效果，然而对于人机交互过程中的自然表情数据，这些方法却很难达到与人工表演的表情数据相等同的识别精度。因此，有必要设计一个基于视频信息的情绪识别与跟踪方法，使其能够同时适应离散情绪识别与连续情绪识别的要求，并且使其能够在处理自然表情时具有和处理人工表演的表情时相同的情感分析能力。

基于视觉信息的情绪识别方法主要依靠的是从二维图像中提取出来的视觉特征。在日常交互过程中，用户常常会出现头部大幅度刚体变换，面外翻转，面部局部遮挡，以及外部光照变化等情况。对于这些情况，二维图像特征具有较弱的鲁棒性，常常会造成情绪识别的错误。为了解决上述问题，部分方法采用深度摄像机进行图像采样，并使用获得的三维视觉特征进行情绪识别。这种方式增强了方法的稳定性和准确性，但是三维摄像机价格昂贵而且体积较大，会对交互操作增加一定限制，大大降低用户的使用体验。除此之外，相比于已经在各类终端完全普及的二维网络摄像头，三维摄像机并没有完全普及，这也在一定程度上限制了使用深度图像特征提取设备的方法的普及与发展。因此，如何确定一种方式，使其可以通过二维图像恢复其对应的三维特征，进而使用恢复的三维特征对情绪进行更加鲁棒的识别，同时不受到视频采集设备的限制，也是当前情绪识别领域亟待解决的问题。

发明内容

本发明针对上述问题，提出一种基于视频信息的情绪识别与跟踪方法。该方法使用普通二维摄像头或者三维摄像头对图像信息进行采集，借助三维头部数据库恢复个性化的三维头部模型，并使用机器学习模型同时对三维头部关键点的位置以及用户情绪进行实时估计与跟踪。其特点在于，在同时不受到任何设备的制约的前提下，将三维信息引入到情绪的识别与计算之中。该方法在离散情绪表达与连续情绪表达的场景下都有较好的识别效果，同时可以很好地克服头部大角度快速运动，头部面外翻转，以及外部光照变化等情况，识别效果较为稳定，并且可以在各种终端，各类场景中通用，甚至在移动终端的交互场景中也可以正常工作。

本发明采用的技术方案如下：

一种基于视频信息的情绪识别与跟踪方法，该方法包括情绪识别模型的训练与在线情绪估计与跟踪两部分，其中情绪识别模型的训练可以分为三维头部建模，图像融合情感表达，以及情绪识别模型构建等内容。下面进行具体说明。

1.三维头部建模

该步骤对获取的二维或三维训练图像进行个性化三维头部建模，具体步骤包括：

1)对所选训练图像的面部关键点进行标定；

2)针对标定后的图像选择三维头部基本表情模型；

3)在所选的三维头部基本表情模型的辅助下，重建训练样本的三维头部模型。

进一步地，用于构建情绪识别模型的图像应该能够覆盖大部分的情绪状态，包含大角度的头部刚体运动以及面外翻转情况，以及包含光照变化，部分面部遮挡等情况。

2.图像融合情感表达

为了充分排除其他特殊因素对于情绪的影响，该步骤使用合成的三维头部模型作为辅助，进行图像的融合，进而获取相应情绪的动态视觉特征。针对融合对象以及融合目的的不同，融合的结果可以分为连续情感表达(Continuous Emotion Presentation，CEP)以及与人无关的情感表达(User Independent Emotion Presentation，UIEP)两种。其中，连续情感表达旨在包含情绪在时序上的上下文信息，与人无关的情感表达旨在构造与用户个性化特征无关的情绪特征。图像融合的具体步骤包括：

1)恢复每幅图像的三维头部模型；

2)将恢复的三维头部模型置于三维相机坐标系的正交位置，并将位于正交位置的头部模型的三维关键点投影至摄像机的二维成像面坐标系；

3)计算投影后的关键点与原来图像关键点对之间的单应变换矩阵；

4)通过计算得到的单应变换矩阵，将训练样本中的每幅二维图像与其相邻帧的头部区域变换至面部区域坐标系的正交位置，这里的面部区域坐标系以鼻尖点为坐标原点。随后对得到的图像进行叠加，构成融合情绪图像。

进一步地，上述操作中图像的叠加操作即为将不同图像相同位置的图像特征值叠加，并取均值。对于头部面外翻转的情况，其进行单应性变化之后可能会对应至原图像中不存在的区域，此时将对应区域的图像特征统一设定为某一定值。

3.情绪识别模型构建

借助于重构的三维头部模型以及通过图像融合得到的动态视觉特征，一个可以同时执行三维关键点位置估计以及自然情绪估计的情绪识别模型得以被设计并实现，其构建步骤为：

1)对三维头部模型进行平移、旋转等刚体变换，用以模拟其前后时刻可能出现的位置区域，同时扩充训练样本的数量，进而构建出数量足够的训练样本集合；

2)提取训练情绪识别模型所需的视觉特征；

3)使用步骤1)生成的训练样本集合以及步骤2)中提取的视觉特征训练情绪识别模型。

进一步地，步骤2)中对应的视觉特征不局限于融合图像上的特征，也包括恢复的三维头部模型中对应的一系列高维特征，如深度信息，三维头部曲面参数等。

进一步地，步骤3)中对应的情绪识别模型采用机器学习中的回归模型。模型采用多重回归模式，在运行过程中同时对三维头部关键点的位置以及用户情绪进行估计和跟踪。为保证机器学习模型的准确性与健壮性，随机选取全部训练样本中的一部分对情绪识别模型进行构建以避免过拟合现象的发生。

4.在线情绪估计与跟踪

基于构造的情绪识别模型，用户在交互行为中的情绪可以以一种回归的方式被在线地计算出来，即可实现在线情绪的识别与跟踪。其步骤为：

1)必要时，进行测试前的一系列预处理操作，如生成三维头部模型恢复集，情绪恢复集以及计算第一帧对应的三维头部模型及其情绪值等；

2)结合当前输入帧图像与其前面若干帧图像及其对应的三维头部模型，计算当前时刻的连续情感表达图像(CEP)；

3)在当前时刻的连续情感表达图像上提取测试特征；

4)将测试特征置于回归模型中，得到备选结果；

5)将所有备选结果进行筛选，排除不符合备选条件的结果。如果存在可以接受的结果，则使用符合条件的所有备选结果计算三维关键点位置回归量以及平均情绪回归量，否则执行恢复操作；

6)使用步骤5)计算得到的三维关键点位置回归量以及情绪回归量计算当前时刻的三维头部模型以及当前时刻的情绪值。将得到的当前时刻的三维头部模型以及情绪值作为下一时刻的输入，如此循环计算每一时刻的三维头部模型及情绪值。

进一步地，步骤5)中筛选备选结果的目的在于抛弃对结果会产生负面影响的错误估计结果，只保留相对正确的备选结果。其中，可能出现没有符合条件的备选结果或者出现相邻两个时刻的情绪相差较大的情况，此时将会被认为是跟踪失败。对于跟踪失败的情况，需要执行恢复操作，重新矫正当前图像对应的三维头部模型并使用校正后的三维模型估算其情绪值。

进一步地，对于不同的应用场景，步骤6)中的情绪结果可以有不同的处理方式。如果当前只是为了将情绪分为离散的几类，其识别结果可以通过某种映射方式映射至某一种情绪类型。如果当前目的是为了在连续情感空间中估计情绪值，那么其结果可以直接作为当前的情绪估计值。

进一步地，第一帧的三维头部模型使用前文提到的三维头部建模的方式生成；其对应的情绪值的计算方法与恢复操作时的情绪计算方法相同，即取得对应的情绪特征，并和情绪恢复集中的情绪特征比较，得到第一帧的情绪值。

与现有技术相比，本发明的有益效果如下：

本发明在情感识别领域引入了三维视觉特征，提出了一种基于三维头部模型的高效图像融合方式，并提出了一种可以在桌面场景、移动交互场景等多种交互环境中的多种终端通用的基于视频信息的情绪识别方法。本方法可以鲁棒，高效，精准地进行情绪的识别与跟踪，不仅可以于离散情绪分类，也适用于连续情感空间表达下的情绪识别等多种交互场景。本发明可以使用三维视频采集设备(三维摄像头)和普通二维摄像头作为图像采集工具，不受视觉信息采集设备的限制。本方法可以有效地克服交互过程中出现的头部大角度旋转，快速刚体变换，面部局部遮挡以及光照变化等问题。本方法实时性强，准确性高，有助于计算机对用户情绪做出更为智能的交互反馈，进而提升自然人机交互的质量。

附图说明

图1为系统的桌面模式操作场景示意图。

图2为系统的移动模式操作场景示意图。

图3为基于视觉信息的情绪识别与跟踪方法的算法流程图。

图4为图像融合生成动态特征示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明，以下结合实例和附图进一步详细描述本发明，但不构成对本发明的限制。

图1和图2分别为本发明的桌面模式操作场景和移动模式操作场景。本发明虽然使用了三维视觉特征，但是只需要二维摄像头采集的视频图像即可完成情绪识别的工作，并不受深度信息采集设备的限制。因此可以广泛适用于桌面交互场景以及移动交互场景。

图3为本发明的基于视频信息的通用情绪识别与跟踪方法的算法流程图。算法主要分为模型的训练与在线情绪估计与跟踪两部分。其中，模型的训练步骤在先，对于情绪的识别与跟踪操作在训练好的情绪识别模型之上执行。模型的训练过程主要包含三维头部建模，图像融合情感表达，训练样本构造以及模型构建四个部分，他们分别为：

1.三维头部建模

这部分的工作是恢复二维图像中头部的三维信息，供后面多项步骤使用。其主要的实现方法为：

(1)在二维图像中对面部关键点进行自动标定；

(2)从三维头部数据库中计算出与当前训练样本最为相似的一组三维头部基表情；

(3)对于每一幅训练图像，使用步骤(2)中选取的三维头部基表情进行融合操作，合成对应的三维头部模型。以线性插值为例，对于每个基表情，赋予其线性插值参数，通过算法求解对于当前二维图像的最优线性插值参数，并使用最优的插值参数对基表情进行融合叠加，构成当前图像的三维头部模型。

2.图像融合情感表达

这部分的工作的目的在于尽可能地排除用户个性化信息或者外部环境信息对于情绪特征的影响，使用多幅图像融合的方式构造能够更好地代表情绪的动态视觉特征。根据目的不同，图像融合情感表达可以分为连续情感表达(CEP)以及与人无关的情感表达(UIEP)两种。前者旨在保存在一段时间内的动态视觉特征；后者旨在排除用户个性化信息的影响，保留情绪本身固有的非个性化视觉特征。图4展示了图像融合情感表达算法的流程：

(1)对输入的二维图像，进行二维面部自动识别与关键点标定，记录标定的关键点的坐标，并对标定好的图像进行三维头部建模；

(2)将建模之后的三维头部模型移动到三维空间坐标系的正交位置。这里，具体的变换方法为：

i.在空间坐标系中标定若干定点，分别代表位于空间正交位置的头部模型的某些对应位置。

ii.在三维头部模型中找到对应的位置；

iii.计算步骤i与步骤ii中的空间点之间的刚体变换矩阵；

iv.使用步骤iii中得到的变换矩阵，对三维头部模型进行旋转平移变化，将其变换至三维空间坐标系的正交位置。

(3)对移动至正交位置的三维头部模型上的关键点进行投影变换，得到对应的一组二维坐标，并计算步骤(1)中保存的关键点坐标集合与当前二维坐标集合之间的单应性变换矩阵；

(4)使用步骤(3)中计算得到的单应性矩阵，将原二维图像中的头部部分变换至二维面部区域坐标系的正交位置；

(5)将所有变换到正交位置的图像进行叠加，获得融合图像。

3.训练样本构造

这部分的工作主要是为了构造情绪识别模型所需的训练样本。由于本发明中，三维关键点的跟踪以及情绪的估计以一种多重回归的方式同时进行，因此涉及到回归量的设计与计算。训练样本构成的具体方法为：

(1)挑选用于训练的图像，并使用步骤2中的方法生成每幅训练图像的连续情感表达(CEP)；

(2)对重建的三维头部进行扩充操作(这里包括但不限于平移，旋转等操作)，并记录扩充后三维头部模型到原三维头部模型的变换矩阵，得到扩充之后的三维头部模型集合；

(3)用于训练情绪识别模型的样本的生成，具体步骤为：

i.对于扩充之后的样本集合中的每个三维头部模型，通过相应变换矩阵变换到对应的原三维头部的位置；

ii.在变换之后的三维头部模型上随机选取若干个位于面部的网格顶点，并将其投影至对应的连续情感表达(CEP)图像上；

iii.记录步骤ii中投影点对应的视觉特征值，作为当前训练样本的特征向量；

iv.计算当前头部模型与其对应的原三维头部之间各个三维关键点的位置差以及当前模型与原模型之间的情绪差，并和步骤iii)中生成的特征向量一起，形成一个完整的训练样本。

为了保证训练样本的一致性，对于每一个三维头部模型，其随机选取的网格顶点数都是一致的。按照上述步骤为每一个三维头部模型生成若干训练样本，即形成最终的训练样本集合，用于情绪识别模型的构造。

4.情绪识别模型的构建

这部分的工作主要是为了构建可以同时进行三维关键点跟踪以及情绪估计的回归模型。本发明可以使用多种机器学习回归模型加以实现，包含但不仅限于随机森林模型。这里以随机森林模型为例，其实现方法为：

(1)对于随机森林中每一棵分类回归树(CART)，随机在总样本中选取一部分的样本作为当前的训练样本；样本从根节点开始，以向左右节点分裂的模式向叶子节点分裂传递。对于某节点，若满足成为叶子节点的条件，则将其当作叶子节点，否则将其作为非叶子节点；

(2)对于每一个非叶子节点，生成若干组随机分裂参数，并使用生成的随机分裂参数对当前节点的样本进行模拟分裂；

(3)对于步骤(3)中的模拟分裂，在所有分裂参数中确定最优分裂参数，并将最优分裂参数记录在当前节点中；

(4)对于每个叶子节点，不再进行分裂。而是保存落在当前叶子节点中的三维关键点位置回归量以及情绪回归量。

图3的下半部分对于自然情绪的跟踪与识别步骤进行了描述。基于训练好的情绪识别模型，用户的三维头部关键点可以较好地被实时跟踪，同时其情绪及情绪的变化趋势也能较好地被估计出来。由于本发明中，情绪以一种回归的方式被识别与跟踪。因此在估计情绪之前，需要生成三维头部恢复集与情绪恢复集以防止出现跟丢的情况。另外，第一帧的三维头部与情感值也需要提前被计算出来作为初始输入。

1)进行测试前的一系列预处理操作；

在进行情绪估计之前，需要进行一些预处理操作以保证情绪估计的顺利进行。例如生成第一帧的三维头部模型和情绪值作为起始输入等。

2)在线情绪估计

计算出第一帧的三维头部模型以及对应的情绪值，第二帧及剩余帧的三维头部模型以及对应的情绪值可以以一种回归的方式被计算和估计。这里以随机森林模型为例。其步骤为：

(1)结合当前输入图像与其相邻的若干图像及三维头部模型，计算当前时刻的连续情感表达图像(CEP)；

(2)在前一时刻的三维头部模型上随机选取若干顶点，并将他们投影至步骤(1)计算得到的连续情感表达图像上，构成一个测试特征；

(3)将测试特征置于随机森林中。在每个非叶子节点按照最优分裂条件进行路径选择，最终到达某叶子节点，进而得到叶子节点集合；

(4)将叶子集合中的所有备选结果进行筛选，排除不符合条件的结果。对于进行筛选之后与的结果，有两种可能：

i.如果存在可以接受的结果，则计算符合条件的所有备选结果的平均三维关键点位置回归量以及平均情绪回归量；

ii.如果不存在可以接受的结果，则恢复当前时刻的三维头部模型以及其对应的情绪值，并跳转至步骤(3)。

(5)将步骤(4)计算得到的三维关键点位置回归量以及情绪回归量分别叠加到前一时刻的三维头部模型以及前一时刻的情绪值上，得到当前时刻的三维头部模型以及当前时刻的情绪值；

(6)将当前得到的情绪值与前一帧情绪值对比，如果二者之差较大，则认为当前情绪估计有误。此时，进行情绪的恢复操作，重新生成测试特征，并跳转至步骤(3)。

(7)使用得到的当前时刻的三维头部模型以及情绪值作为下一时刻的输入，如此循环计算每一时刻的三维头部模型及情绪值。

至此，完成了整个情绪识别与跟踪的流程。

为了更好地描述算法，下面给出情绪识别的一个具体实例。本实例连续视频流情况下，对连续情感空间Arousal维度的对应情绪值进行识别：

1)使用当前视频帧及其相邻帧图像I_t-n，I_t-n+1，...，I_t以及这些图像对应的三维头部模型计算当前时刻对应的连续情感表达图像CEP_t；其中t为当前时刻，n为选取的相邻帧的数目；

2)使用当前时刻对应的连续情感表达图像CEP_t以及前一帧对应的三维头部模型S_t-1和Arousal维度情绪值A_t-1作为情绪识别模型的输入；

3)以随机森林模型为例，对于当前输入，将会得到一系列包含预测结果的叶子节点。对结果进行筛选；本例以三维位置回归量以及情绪值回归量的方差为筛选条件；如果某叶子节点的三维位置回归量或者情绪值回归量的方差大于设定阈值，则抛弃当前节点，否则认为该节点符合条件；

4)对符合条件的叶子节点集合中的三维位置回归量以及情绪值回归量计算均值，得到当前的三维位置回归估计量R_t以及情绪值回归估计量R_A；

5)将当前的情绪值回归估计量R_A与前一帧的Arousal维度情绪值A_t-1相加，获得当前时刻Arousal维度情绪值A_t。将当前的三维位置回归估计量R_t与前一帧对应的三维头部模型S_t-1相加，获得当前帧对应的三维头部模型S_t；

6)使用计算得到的Arousal维度情绪值A_t以及三维头部模型S_t作为下一时刻模型的输入，以回归的方式对每一时刻的情绪值进行估计。

本方法在业界广泛使用的情感数据库AVEC2012上进行了相关实验与可行性测试。实验结果以及与其他优秀方法运行结果的对比如下：

在Arousal与Valence维度上进行连续情感估计，其结果用皮尔逊相关系数进行估计。下方表格展示了本方法的运行结果以及与业界其他优秀方法之间的结果对比。从结果中可以看出，本方法在不同情感维度上都有着较出色的表现。

上述表格中，SVR为支持向量回归的英文缩写，Multiscale Dynamic Cues为多尺度动态特征，CFER为动态面部表情表达的英文缩写，CCRF为连续条件随机场的缩写。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于视频信息的情绪跟踪与识别方法，其步骤包括：

1)获取二维或三维训练图像，并对其进行个性化三维头部建模；进行三维头部建模的方法是：

a)在训练图像中对面部关键点进行标定；

b)从三维头部数据库中计算出与当前训练样本最为相似的一组三维头部基表情；

c)对于每一幅训练图像，使用选取的三维头部基表情进行融合操作，合成对应的三维头部模型；

2)借助生成的三维头部模型进行图像融合，形成包含时间上下文信息以及与用户无关的情绪特征的动态视觉特征；

3)使用生成的融合图像、三维头部模型以及其情绪值构造训练样本；所述情绪值的计算方法为：计算出第一帧的三维头部模型以及对应的情绪值，第二帧及剩余帧的三维头部模型以及对应的情绪值以回归的方式被计算和估计；第一帧的情绪值的计算方法为：取得对应的情绪特征，并和情绪恢复集中的情绪特征比较，得到第一帧的情绪值；

4)使用构建的训练样本训练情绪识别模型；

5)使用训练好的情绪识别模型，进行三维头部关键点的跟踪以及情绪的识别，直至完成全部情绪识别任务。

2.如权利要求1所述的方法，其特征在于，步骤2)进行图像融合的方法是：

a)恢复每幅图像的三维头部模型；

b)将恢复的三维头部模型置于三维相机坐标系的正交位置，并将位于正交位置的头部模型的三维关键点投影至摄像机的二维成像面坐标系；

c)计算投影后的关键点与原来图像关键点对之间的单应变换矩阵；

d)通过计算得到的单应变换矩阵，将训练样本中的每幅二维图像与其相邻帧的头部区域变换至面部区域坐标系的正交位置，随后对得到的图像进行叠加，构成融合情绪图像。

3.如权利要求1所述的方法，其特征在于，步骤3)对三维头部模型进行刚体变换，包括平移、旋转，用以模拟其前后时刻可能出现的位置区域，同时扩充训练样本的数量，进而构建出数量足够的训练样本集合。

4.如权利要求3所述的方法，其特征在于，步骤4)中训练情绪识别模型所需的视觉特征不局限于融合图像上的特征，也包括恢复的三维头部模型中对应的一系列高维特征，包括深度信息，三维头部曲面参数。

5.如权利要求1所述的方法，其特征在于，步骤4)中的情绪识别模型采用机器学习中的回归模型，在训练过程中同时考虑三维头部姿态跟踪以及情绪跟踪的准确性，并且在进行识别的过程中同时进行头部姿态的跟踪以及自然情绪的识别。

6.如权利要求1所述的方法，其特征在于：步骤5)在情绪识别之前进行一系列必要的预处理操作，以保证情绪估计的顺利进行；所述预处理操作包括生成三维头部模型恢复集，情绪恢复集，以及生成第一帧的三维头部模型和情绪值作为起始输入。

7.如权利要求1所述的方法，其特征在于，根据不同的应用场景，对步骤5)得到的情绪识别结果进行不同处理：如果当前目的只是为了将情绪分为离散的多种类别，其识别结果通过某种映射方式映射至某一种情绪类型；如果当前目的是为了在连续情感空间中估计情绪值，那么其识别结果直接作为当前的情绪估计值。

8.如权利要求1所述的方法，其特征在于：步骤5)中，三维头部模型以及对应的情绪值以一种回归的方式被计算和估计，其流程为：

(1)结合当前输入帧图像与其前面的若干帧图像及三维头部模型，计算当前时刻的连续情感表达图像；

(2)在前一时刻的三维头部模型的正面面部部分上随机选取若干顶点，并将他们投影至步骤(1)计算得到的连续情感表达图像上，构成一个测试特征；

(3)将测试特征置入回归模型，得到备选结果集合，将所有备选结果进行筛选，对于不符合条件的备选结果，直接将其排除；

(4)如果不存在合适的结果，则执行恢复操作，重新生成测试特征，并跳转至步骤(3)；

(5)将符合条件的备选结果的三维关键点位置回归量以及情绪回归量分别叠加到前一时刻的三维头部模型以及前一时刻的情绪值上，形成当前时刻的三维头部模型以及当前时刻的情绪值；

(6)将当前得到的情绪值与前一帧情绪值对比，如果二者之差大于情绪阈值，则进行情绪的恢复操作，重新生成测试特征，并跳转至步骤(3)；