CN109214279A

CN109214279A - 基于视频的在线人脸表情预检测方法及装置

Info

Publication number: CN109214279A
Application number: CN201810844152.8A
Authority: CN
Inventors: 谢利萍; 魏海坤; 张金霞; 张侃健
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-01-15

Abstract

本发明涉及一种基于视频的在线人脸表情预检测方法及装置，该方法包括：对表情视频预处理，并抽取LBP纹理特征；从原始视频提取长度不同的视频片断，构建片断与检测值的映射关系；基于多示例学习，获取每个视频片断的函数表示，并将每两个视频片断构建一个约束对；根据每个训练样本的约束对，通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异，采用拉格朗日乘数法对模型进行优化，从而更新模型，获得各个时刻的线性表情预检测函数。对于测试样本，将每帧图像特征依次输入预检测器，实时获取每帧图像的检测值，最终根据输出值是否达到预设的阈值判断是否检测到该表情事件。本发明解决了传统表情识别方法不能实现的实时检测问题，并首次提出了在线预检测模型，提高了识别的正确性和及时性。

Description

基于视频的在线人脸表情预检测方法及装置

技术领域

本发明涉及一种人脸表情预检测方法及装置，属于人脸表情识别与事件预检测技术领域。

背景技术

人脸表情识别是计算机视觉、人机交互和模式识别等领域均涉及的一个重要研究方向，受到国内外研究者们的广泛关注。由于基于图像的识别方法包含的表情信息有限，容易受到外界环境和个体差异性等因素的影响，而且随着近年来，计算机技术的快速发展，基于视频的人脸表情识别获得了更多的关注。由于表情的产生和消失都有过程，基于视频的表情识别更能反映一个完整表情的运动过程，包含更多的面部运动和时间信息。但是传统的基于视频的表情识别是一个离线的过程，表情特征提取和识别分类是针对整个完整的表情视频，无法在一个表情视频开始之后、结束之前尽早地检测到该表情事件。如果只采用传统方法进行分析，无法实现真正的实时人机交互。

相对于传统的对整个视频提取特征后进行分类识别的方法，表情预检测需要对不完整的表情片断进行检测，因此在模型训练阶段，需要对训练样本进行扩展，提取不同长度的视频片断，并给这些片断设定一个期望值，使得信息量越大的视频片断对应的函数值越大。视频片断的有效表示会直接影响到预检测的有效性，而传统的表情特征提取方法(Max-Margin Early Event Detectors，MMED)无法充分挖掘片断中的有效信息；此外，视频片断的提取会使训练样本的数量大大增加，在模型训练阶段对计算机内存的消耗会大大增加，增加运行成本。

发明内容

本发明所要解决的技术问题是：针对如何及时有效地检测到视频中的人脸表情这一实际问题，提出了在线人脸表情预检测方法OMEFD(online multi-instance learningfor early facial expression detection)，使得基于视频的人脸表情识别系统更具实用性。

本发明为了解决以上技术问题，所采用的技术方案如下：

本发明提出一种基于视频的在线人脸表情预检测方法，包括：

步骤1)、针对训练样本集，对表情视频预处理，通过面部关键点检测及人脸对齐方法，分割出人脸面部区域，并使整个视频中的脸部图像像素位置一致；

步骤2)、提取每个样本视频中每帧图像的面部表情特征；

步骤3)、将训练样本进行扩展，提取多个长度不同的视频片断构造约束对，并进行排序，使得信息量越大的片断对应的函数值越大；

步骤4)、将每个视频的约束对作为模型当前时刻的训练数据，通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异，采用拉格朗日乘数法对模型进行优化，从而更新模型，获得各个时刻的线性表情预检测函数；

步骤5)、针对测试样本，依次采用步骤1)至步骤2)处理，然后根据预检测函数，逐帧读取数据，输出每帧图像对应的检测值，最终根据预设的阈值实现表情预检测。

进一步，本发明所提出的方法，步骤1)中的面部关键点提取，是基于深度卷积神经网络的人脸检测方法，提取复杂背景图像中人脸面部区域的5个关键点位置：两个眼睛中心点，鼻尖点和嘴角两个点。

进一步，本发明所提出的方法，步骤1)中的人脸对齐方法，是采用三对点法将训练样本和测试样本集中的人脸图像序列进行人脸关键点对齐。所述三对点法是指：固定两个眼睛中心点和鼻尖点这三个点的坐标位置，求取相应的仿射变换，通过变换将这三个关键点对齐到标准模板的坐标位置。

进一步，本发明所提出的方法，步骤2)所述面部表情特征，包括LBP纹理特征和SIFT特征。

进一步，本发明所提出的方法，步骤3)具体包括：

步骤3.1、生成训练数据：

对原始的训练样本进行扩展，从原始表情视频中提取多个不同长度的视频片断，每个视频片断对应一个检测期望值，用两个不同期望值的片断构建成一个约束对，将约束对的函数表示作为模型训练的训练数据；

步骤3.2、基于多示例学习的视频片断表示：

将每个视频片断看作一个包，包中的一个示例表示该片断的一个子集；示例的特征表示用首尾帧图像对应的特征表示相减得到，一个包的函数值是其所有示例的函数值的平均值。

进一步，本发明所提出的方法，步骤3)中，在时刻i，预检测模型如下：

s.t.c1＝Iⁱ∩[1，t]，

其中，{w_i，b_i}代表在时刻i，模型需要求解的参数；γ表示平衡参数；Cⁱ为训练样本Vⁱ中提取出的约束对的个数，每个约束对包含两个包，c1和c2分别表示第c个约束对的两个包；代表模型中损失函数；表示训练样本Vⁱ中抽取的约束对c中的两个视频片断的包，其中表示视频片段中已发生的表情片断占整个视频片断的比例；是一个尺度变量，权衡输入因子的重要性；为模型边界；表示片断包B的检测值由其包含的示例输出值决定，其中f是一个线性函数，定义如下：

其中，表示视频片断V_I的特征向量；对于一个训练集中的视频序列Vⁱ，i＝1，2，...，n，用Iⁱ＝[sⁱ，eⁱ]来表示其标签信息，两个数字sⁱ和eⁱ分别标明在第i个视频中，表情事件在该视频中开始和结束时对应的帧数，n对应所有视频序列的个数，Lⁱ表示视频序列Vⁱ的总长度，即总的帧数；在每个时刻t＝1，2，...Lⁱ，定义已经发生的部分表情用进行表示；在时刻t，表示一个视频从第1帧到第t帧所包含的片断子集：空集表示没有任何事件发生，表示一个视频序列中所有可能的片断集合，对于任意一个片断V_I表示视频序列V中从第s帧到第e帧的片断。

进一步，本发明所提出的方法，在步骤4)中，对于一个给定的含有Cⁱ个约束对的视频序列，求得的权重向量的更新准则如下：

进一步，本发明所提出的方法中，约束对的选取遵从如下两个准则：

A、约束对中两个视频片断的重叠率不超过0.7：

假定两个视频片断分别为V₁和V₂，s和e分别表示视频的起始和结束，两个视频片断的重叠率计算方法如下：

B、约束对对于模型是有效的：

根据当前的预检测函数，计算每个约束对的损失函数值，如果损失小于0，则约束对无效，反之，则为有效。

进一步，本发明所提出的方法中，对待测试样本进行表情预检测过程如下：

对于一个待识别的视频样本，逐帧读取样本数据，并根据历史数据输出每帧图像对应的检测值；假定初始时刻为t₀，在时刻t，检测的输出值为：

其中，对计算过程的数据进行保存，便于下一时刻t+1的运算，因为：

当输出值大于某个阈值，即认为当前时刻检测到该表情事件，同样地，可以判断该表情事件何时结束，当检测到该表情事件结束时，清空历史数据，重新开始下一事件的检测。

本发明还提出一种表情预检测装置，包括：

预处理单元，用于对训练样本和测试样本中的表情视频进行预处理，得到对齐后的只包含人脸面部区域的视频；

特征抽取单元，用于对预处理后表情视频中的每帧图像数据进行特征抽取，得到所有图像的特征表示；

训练数据生成单元，用于提取表情视频中不同长度的表情片断构造约束对，用于模型训练；并基于多示例学习，把每个视频片断看作一个包，通过多样的示例构造和整合方式，得到视频片断的函数表示；

OMEFD模型优化单元，根据逐个送入的训练样本，通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异对预检测模型实现在线更新，获得各个时刻的模型参数；

预检测函数生成单元，根据OMEFD模型优化单元得到预检测函数；

测试样本读取单元，逐帧读取测试样本并送入表情预检测单元；

表情预检测单元，用于根据预检测函数对待测试样本进行表情预检测。

本发明采用以上技术方案，与现有技术相比具有以下技术效果：

1、本发明解决了传统人脸表情识别方法只能对完整的表情视频进行分类识别的问题，实现了在一个表情开始之后、结束之前尽早检测该事件，从而完成了人脸表情的实时检测，为实时的人机交互提供了可能。

2、本发明解决了表情预检测模型对计算机内存需求过大的问题，通过在线学习方法，模型的每次更新仅针对一个训练样本，大大降低了模型的训练时间。

3、本发明解决了不同视频片断之间进行排序的问题，通过构造约束对，使得任一表情片断的检测值大于其所包含的子集的输出值，从而使信息量越大的视频片断对应的函数值越大。

4、本发明解决了对不完整表情视频检测识别的问题，提高了表情识别的及时性。

附图说明

图1为本发明实施例的在线人脸表情预检测装置的组成图。

图2为CK+数据库下不同方法在多次实验下的ROC曲线均值对比图。

图3为CK+数据库下不同方法在多次实验下的AMOC曲线均值对比图。

图4为CK+数据库下不同方法在多次实验下的训练时间对比图。

图5为CK+数据库下不同方法归一化的预检测时间对比样例示意图。

具体实施方式

下面结合具体实施例和说明附图对本发明作进一步说明，本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。此处所描述的优先实施例仅用于说明和解释本发明，并不用于限定本发明。

为了解决传统的基于视频的人脸表情识别方法的技术问题，本发明提出了一种在线人脸表情预检测方法。相较于传统的表情识别方法，表情预检测模型需要检测不完整的表情片断，对不同长度的视频片断赋予不同的函数值，使得信息量越大的视频对应的函数值越大。因此，本发明提出的基于视频的在线人脸表情预检测模型，会包含视频片断之间排序关系，使得任一表情片断的检测值大于其所包含的子集的输出值。另外，在线更新模型大大降低了算法对计算机内存的需求，使得本发明更具实用性。

本发明所提出的基于视频的在线人脸表情预检测方法，实现了表情的预检测。传统的表情识别方法在抽取特征阶段，针对的是整个表情视频，也就是一个完整的表情视频对应一个特征向量，然后利用支持向量机等方法对该特征向量实现分类识别，而所述预检测模型能够对不完整的表情片断进行检测，在一个视频中表情开始之后、结束之前尽早进行识别，为实现真正的实时人机互动提供了技术可能。

本发明提出一种基于视频的在线人脸表情预检测方法，该方法在对数据预处理，并提取LBP特征后，首先对训练样本进行了扩展，提取出每个视频的不同长度的视频片断，并按视频对应的期望值大小构建模型的约束对，使得任一表情片断的检测值大于其所包含的子集的输出值；然后将训练样本逐个送入，通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异，采用拉格朗日乘数法对模型进行优化，从而更新模型，获得各个时刻的线性表情预检测函数；最后通过逐帧读取测试样本，输出每张图像对应的函数值，实现表情的预检测。实验结果证明了算法的有效性，最终达到了较高的识别准备性和及时性。

以下对本发明的具体步骤做进一步详细说明：

步骤1、数据初始化：

步骤1.1、面部关键点提取：

人脸表情识别的重要步骤是提取人脸的表情特征，但是视频中图像的背景、人物的头发等非表情因素会对识别造成干扰，因此需要提取出表情视频中的面部区域。本发明采用基于面部关键点的人脸检测方法。“Deep Convolutional Network Cascade forFacial Point Detection”是汤小鸥课题组在CVPR13提出的基于深度卷积神经网络(DeepConvolutional Network Cascade)的人脸检测方法，能够提取复杂背景图像中人脸面部区域的5个关键点位置:两个眼睛中心点，鼻尖点和嘴角两个点。

步骤1.2、人脸对齐：

基于步骤1.1，采用三对点法将训练样本和测试样本集中的人脸图像序列进行人脸关键点对齐。由于两个眼睛中心点和鼻尖点在不同的表情状态下位置比较稳定，因此固定这三个点的坐标位置，求取相应的仿射变换，通过变换将这三个关键点对齐到标准模板的坐标位置。

步骤1.3、面部区域提取：

基于步骤1.2，对对齐后的人脸图像序列进行裁剪，提取出人脸面部区域，尽可能消除外界环境和个体差异对表情识别任务的影响。

步骤2、特征提取：

对步骤1中得到的所有表情视频(包括训练样本和测试样本)抽取面部表情特征(LBP，SIFT等)，得到视频中每帧图像的特征表示。

步骤3、采用基于视频的在线人脸表情预检测算法获得表情预检测函数，该步骤是本发明的创新点，以下主要分为三部分：生成训练数据，基于多示例学习的视频片断表示和表情预检测模型优化。

步骤3.1、生成训练数据：

表情预检测的实现不仅需要算法能够识别完整的表情视频，更需对不完整的表情片断进行检测。本发明通过模型求解得到一个表情预检测函数f，不同的表情片断对应不同大小的函数值。因而，算法需要对原始的训练样本进行扩展，从原始表情视频中提取多个不同长度的视频片断，每个视频片断对应一个检测期望值，两个不同期望值的片断构建成一个约束对，约束对的函数表示就是最后用于模型训练的训练数据。

步骤3.2、基于多示例学习的视频片断表示：

视频片断中有限表情信息的充分挖掘在预检测中起着至关重要的作用，将直接影响到算法的有效性。本发明基于多示例学习，将每个视频片断看作一个包，包中的一个示例表示该片断的一个子集。示例的特征表示用传统的首尾帧图像对应的特征表示相减得到，一个包的函数值是其所有示例的函数值的集成，本发明中取平均值。通过不同的示例生成和整合策略，能够更灵活充分地挖掘视频片断中的有效信息。

步骤3.3表情预检测模型优化：

在时刻i，模型OMEFD只需用第i个视频生成的训练数据对模型进行更新，训练时间大大减少。

步骤4、采用步骤3中计算得到的各个时刻的预检测函数，对测试样本实现表情预检测。

预检测器逐帧读取待测试样本，输出每帧图像对应的检测值，并保存历史数据和检测结果，当输出值大于某个阈值，即认为检测到该表情事件。

以下结合具体实例对上述步骤做进一步介绍：

本发明选取CK+(the Extended Cohn-Kanade dataset)表情视频数据库为实验数据。该库是国际上研究人脸表情识别的代表性视频库，包含“愤怒”，“厌恶”，“恐惧”，“高兴”，“悲伤”和“惊讶”六种基本表情。本发明的预检测算法的任务是识别出消极情绪：“愤怒”，“厌恶”，“恐惧”和“悲伤”。本发明随机选取100个积极表情和消极表情视频作为训练样本，剩余127个视频作为测试样本。

本发明在保证了表情识别率的情况下实现了表情的预检测，并大大减少了模型训练时间，效果优于其他预检测算法。

在该实例步骤1.1中，人脸面部关键点提取方法如下：

本发明采用香港中文大学汤小鸥教授课题组在CVPR13上提出的级联深度卷积神经网络DCNN实现面部关键点定位，获取面部5个关键点位置坐标：两个眼睛中心点，鼻尖点和嘴角左右两个点。DCNN属于级联形状回归模型，采用3级深度模型-卷积神经网络来实现。第一级使用人脸图像的三块不同区域(整张人脸，眼睛和鼻子区域，鼻子额嘴唇区域)作为输入，分别训练3个卷积神经网络来预测关键点的位置，后面两级网络在每个关键点附近抽取特征，针对每个关键点单独训练一个卷积神经网络来修正定位的结果。该方法在LFPW数据集上取得了当时最后好的定位结果。

在该实例步骤1.2中，人脸对齐实现方法如下：

人脸对齐是指通过对图像按比例缩放、旋转、平移或剪切等仿射变换，将不同大小、形状、姿态的人脸图像对齐到一个“标准人脸”的过程。相关研究表明鼻尖点和两个眼睛中心点的位置不易受面部表情的影响，因此本发明固定提取出的这三个点的位置坐标，通过仿射变换来实现人脸对齐。假定(x，y)为变换后人脸图像上某个关键点位置，(x′，y′)是对应的变换前的坐标位置，a，b，c，d，s，θ是仿射变换系数，那么变换前后的关键点位置间关系如下：

3个关键点仿射变换前位置为：左侧眼睛(x_l，y_l)，右侧眼睛(x_r，y_r)，鼻尖点(x_c，y_c)，通过变换式(1)可以得到

利用最小二乘法求解该线性方程的解，假定待求解变量为h＝[a，b，c，d]^T，h左侧矩阵用符号K表示，等式右边的向量用U表示，则方程的解为：

h＝(K^TK)^-1(K^TU) (3)

通过仿射变换h即可实现不同大小、形状、姿态下的人脸图像关键点的对齐，方便后续的特征抽取。

在该实例步骤2中，本发明采用CK+数据库的CAPP特征，具体方法如下：

CK+(the Extended Cohn-Kanade dataset)表情视频数据库是国际上研究人脸表情识别的代表性视频库。完整的CK+数据库的介绍可参见论文“The Extended Cohn-KanadeDataset(CK+)：A complete dataset for action unit and emotion-specifiedexpression”。为了便于比较，本发明采用与该论文相同的图像特征，即提取CK+数据集的CAPP特征(canonical normalized appearance feature)。CAPP特征抽取方法如下：首先基于AAM模型，定位图像中的人脸区域，并估计出人脸形状和外貌特征；然后把人脸作归一化处理，通过分段的仿射变换，去除人脸形状在个体差异性上的影响，获得标准的人脸图像；CAPP特征即为处理后图像的向量表示。

在该实例步骤3.1中，训练数据生成包括：约束对表示和约束对选取准则，具体过程如下：

1、约束对表示

首先，给出表情预检测的一些相关符号定义：对于一个训练集中的视频序列Vⁱ，i＝1，2，...，n，用Iⁱ＝[sⁱ，eⁱ]来表示其标签信息，两个数字sⁱ和eⁱ分别标明在第i个视频中，表情事件在该视频中开始和结束时对应的帧数，n对应所有视频序列的个数。另外，用Lⁱ表示视频序列Vⁱ的总长度，即总的帧数。在每个时刻t＝1，2，...Lⁱ，定义已经发生的部分表情用进行表示。在时刻t，表示一个视频从第1帧到第t帧所包含的片断子集：

空集表示没有任何事件发生。表示一个视频序列中所有可能的片断集合。对于任意一个片断V_I表示视频序列V中从第s帧到第e帧的片断。

预检测函数f是一个线性函数，定义如下：

其中，表示视频片断V_I的特征向量。为了简化表示，用f(V_I)来表示f(V_I，w，b)。

从训练样本Vⁱ中提取不同长度的视频片断，每个视频片断给定一个检测期望值，两个不同期望值的片断构建成一个约束对，用于模型训练：

其中上式约束对使得任一表情片断的检测值大于其所包含的子集的输出值。

2、约束对选取准则：

在本发明中，每个训练样本提取15个约束对用于模型训练，选取准则如下：

1)、约束对中两个视频片断的重叠率不超过0.7。假定两个视频分别为V₁和V₂，s和e分别表示视频的起始和结束，两个视频片断的重叠率计算方法如下：

2)、约束对对于模型是有效的。根据当前的预检测函数，计算每个约束对的损失函数值，如果损失小于0，则约束对无效，反之，则为有效。根据值的大小，将所有约束对按有效性从高到低进行排序，选取前15个约束对用于模型训练更新。

在该实例步骤3.2中，基于多示例学习的视频片断表示具体方法如下：

把整个视频片断看作一个包i＝1，…，n，包中的一个示例表示该片断的一个子集，也就是其中，包对应第i个视频序列中的片断I，表示包中示例的个数，每个示例对应包中一个更短的视频片断。对于一个长度为n的视频片断，本发明采取的示例生成方法为：[1，n]，[2，n-1]，[3，n-2]，...，其中[i，j]表示第i帧到第j帧的子集，示例的特征表示通过首尾两帧图像特征向量相减得到，对于每个示例用表示其输出值。任意一个包含示例的包B，其预测值是其包含的所有示例的输出值的集合，也就是本发明中取平均值。

在该实例步骤3.3中，模型优化过程如下：

模型OMEFD每次更新只处理一个表情视频样本，基于步骤3.1生成的训练数据，在时刻i，0MEFD模型如下：

s.t.c1＝Iⁱ∩[1，t]，

其中，Cⁱ是视频序列Vⁱ中用来比较的约束对的个数，每个约束包含两个包，c1和c2分别表示第c个约束的两个包。模型中损失函数为：其中表示中已发生的表情片断占整个视频片断的比例。为了简化分析，用来表示

用拉格朗日乘数法(the Lagrange multiplier method)对问题(8)进行求解。首先，考虑(8)只包含一个约束时的情况，并把问题重新写成如下形式：

c1＝Iⁱ∩[1，t]，

由于所以把特征向量增加一个维度1，可把参数b并入到权重向量w的优化过程中。

接下来，通过拉格朗日乘数法将问题转换为如下形式：

其中和是拉格朗日参数，考虑到定义包的特征向量为将拉格朗日式子(10)对w求偏微分，并设置为0，得到：

定义那么

接下来，再将(10)对参数ξⁱ求偏导数，并设为0，可以有：

由于所以结合上式，可得：

对式子(14)求取参数的偏导数，并设为0，获得：

所以：

结合上述结果可得：

综上所述，模型OMEFD的优化算法可总结如下：

对于一个给定的含有Cⁱ个约束对的视频序列，可以通过下式更新权重向量：

其中，可通过式子(17)得到，学习率可以直接求取，所以该在线算法更有效。

在该实例步骤3.4中，对待测试样本的预检测过程如下：

对于一个待识别的视频样本，检测器逐帧读取样本数据，并根据历史数据输出每帧图像对应的检测值。假定初始时刻为t₀，在时刻t，检测器的输出值为：

当输出值大于某个阈值，即认为当前时刻检测到该表情事件，同样地，可以判断该表情事件何时结束，当检测到该表情事件结束时，清空历史数据，重新开始检测下一个事件。重复以上过程，可以对一个包含多个表情事件的视频进行识别。

为了验证所提方法的有效性，本发明分别与其他三个方法进行了比较，分别是：FrmPeak，FrmAll和MMED。所有结果取5次实验的平均值。

1)FrmPeak：基于部分帧的支持向量机(SVM)，所有训练样本只取峰值状态的图像作为训练数据，得到的SVM模型对测试样本的每帧图像进行分类识别，同样地，当判别值大于设定的阈值时，即认为检测到表情事件；

2)FrmAll：基于所有帧的支持向量机(SVM)，与FrmPeak方法类似，但在训练阶段，数据取所有帧的图像数据；

3)MMED：论文“Max-Margin Early Event Detectors”提出的边缘最大化预检测算法(Max-Margin Early Event Detection，MMED)，该论文获得了CVPR12的最佳论文。MMED是第一个提出的，也是最经典的应用于事件预检测的模型，在表情预检测中也取得了非常好的效果。目前，这也是唯一的能够用于表情预检测的算法。

表1和图2展示了不同方法的AUC值，AUC值越大，说明识别率越高；图3比较了不同方法的AMOC值，AMOC的值越小，说明表情的检测越及时；图4给出了不同方法所需的训练时间；图5是不同方法检测到表情事件的归一化时间的示意图，值越小，说明识别越及时。实验结果表明，所提方法的识别正确率和及时性都有显著提高，相比MMED，训练时间大大地减少，提高了算法的实用性。

表1.本发明方法与其他方法的对比实验结果

	FrmPeak	FrmAll	MMED	OMEFD
					AUC	0.8187±0.0091	0.8356±0.0069	0.9623±0.0069	0.9660±0.0103

如图1所示，本发明还提出一种表情预检测装置，包括：

OMEFD模型优化单元，根据逐个送入的训练样本，通过最小化所有片断在当前时刻的损失函数和函数参数与上一时刻的差异对预检测模型实现在线更新，优化计算各个时刻的模型输出值；

综上所述，本发明的预检测方法和装置能够对不完整的表情视频进行检测：

训练阶段：首先对训练样本进行扩展，提取出每个样本视频中不同长度的视频片断，构建约束对；然后给每个视频片断一个期望值，使得信息量越大的片断对应的函数值越大，而且任一表情片段的检测值大于其所包含的子集的输出值。

测试阶段：经过预处理后的测试样本，逐帧送入预检测器，检测器输出每帧图像对应的函数值，并保存数据，当输出值大于设定的阈值，即认为当前时刻检测到该表情事件，当输出值大于另一设定的阈值，即认为该表情事件结束，输出结果并清楚历史记录；然后重复上述步骤，检测下一个表情事件。

同时，本发明的预检测方法实现了预检测模型的在线更新：样本扩展后的训练数据集规模更大，在线预检测模型缓解了训练样本增大对计算机内存需求增大的问题。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于视频的在线人脸表情预检测方法，其特征在于，包括：

步骤2)、提取每个样本视频中每帧图像的面部表情特征；

2.根据权利要求1所述的方法，其特征在于，步骤1)中的面部关键点提取，是基于深度卷积神经网络的人脸检测方法，提取复杂背景图像中人脸面部区域的5个关键点位置：两个眼睛中心点，鼻尖点和嘴角两个点。

3.根据权利要求1所述的方法，其特征在于，步骤1)中的人脸对齐方法，是采用三对点法将训练样本和测试样本集中的人脸图像序列进行人脸关键点对齐；所述三对点法是指：固定两个眼睛中心点和鼻尖点这三个点的坐标位置，求取相应的仿射变换，通过变换将这三个关键点对齐到标准模板的坐标位置。

4.根据权利要求1所述的方法，其特征在于，步骤2)所述面部表情特征，包括LBP纹理特征和SIFT特征。

5.根据权利要求1所述的方法，其特征在于，步骤3)具体包括：

步骤3.1、生成训练数据：

步骤3.2、基于多示例学习的视频片断表示：

6.根据权利要求1或5任一所述的方法，其特征在于，步骤4)中，在时刻i，在线预检测更新模型如下：

s.t.c1＝Iⁱ∩[1，t]，

7.根据权利要求6所述的方法，其特征在于，步骤4)中，对于一个给定的含有Cⁱ个约束对的视频序列，求得的权重向量的更新准则如下：

8.根据权利要求1所述的方法，其特征在于，约束对的选取遵从如下两个准则：

A、约束对中两个视频片断的重叠率不超过0.7：

B、约束对对于模型是有效的：

9.根据权利要求6所述的方法，其特征在于，对待测试样本进行表情预检测过程如下：

10.一种基于视频的在线人脸表情预检测装置，其特征在于，包括：