CN109299650A

CN109299650A - 基于视频的非线性在线表情预检测方法及装置

Info

Publication number: CN109299650A
Application number: CN201810842645.8A
Authority: CN
Inventors: 谢利萍; 魏海坤; 张侃健
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-02-01
Anticipated expiration: 2038-07-27
Also published as: CN109299650B

Abstract

本发明公开了一种基于视频的非线性在线表情预检测方法及装置，该方法包括：对视频数据进行预处理，提取每帧图像的特征信息；从训练样本中抽取不同长度的视频片断，构建片断与检测函数值的非线性映射；片断的表示基于多示例学习，充分挖掘有效的表情信息，并将每两个视频片段根据映射值的大小构建一个约束对，得到训练数据；在每个时刻，用当前样本的所有约束对更新模型OKMEFD，通过最小化在当前训练数据集上的经验损失和模型复杂度，采用随机梯度下降算法对模型进行优化，获得模型的在线更新准则，进一步获得各个时刻的非线性表情预检测函数。预检测方法为：对测试样本逐帧读取数据并输出相应的检测值，当该值大于设定的阈值时，即认为预检测到该表情事件。本发明实现了在表情视频结束之前的预检测；有效提高了表情识别的及时性。

Description

基于视频的非线性在线表情预检测方法及装置

技术领域

本发明涉及一种表情预检测方法及装置，属于人脸表情识别、视频处理与事件预检测等交叉学科技术领域。

背景技术

进入21世纪后，随着人工智能技术，计算机技术及相关学科的迅猛发展，人类对人机交互的需求也日趋强烈，面对相关研究的深入和巨大的应用前景，基于视频的人脸表情识别在近十几年已经成为当前人工智能和机器学习领域的一个研究热点，并得到了长足的发展。尽管相关的算法层出不穷，但许多理论还不完善，成熟的商业成果也几乎没有。表情的产生和消失都有一个过程，传统的识别方法是在对一个完整视频提取特征后进行分类判别，只能识别完整的表情视频，无法满足识别的及时性要求。目前，表情预检测还是相对比较新的，尽管其实用性相较传统的人脸表情识别方法更强，相关研究仍然十分鲜少，仅有的一些算法也是线性模型，这种数据间线性结构关系只是一种理想情形，真实数据更多呈现的是一种非线性结构，是更具挑战的一个研究方向。

CVPR12的最佳论文“Max-Margin Early Event Detectors”提出的边缘最大化预检测算法(Max-Margin Early Event Detection，MMED)是第一个提出的，也是最经典的应用于事件预检测的模型，MMED在表情预检测中也取得了非常好的效果。在现有算法中，MMED仍是唯一的表情预检测算法，但是仍然存在着很多不足：

1)MMED是一个线性模型，这种数据间线性关系结构只是一种理想情形，真实数据更多呈现的是一种非线性结构。

2)大量的训练样本使得扩展后的训练数据急剧增加，导致模型训练时间过长，对计算机的内存需求也更大，普通的计算机很难满足要求。

发明内容

本发明要解决的技术问题是针对表情预检测问题的复杂性，本发明提出了一种基于视频的非线性在线表情预检测方法OKMEFD(online kernel multi-instance learningfor early facial expression detection)，进一步提升预检测的有效性。本发明实现对不完整的表情片断进行检测，在读取表情视频中每帧图像信息的同时，给出每帧图像的检测值，实现了在一个视频表情开始之后、结束之前尽早地进行检测，以提高识别的及时性。

本发明为解决以上技术问题，采用以下技术手段：

本发明提出一种基于视频的非线性在线表情预检测方法，包括：

步骤(1)、对所有训练样本进行预处理，通过面部关键点检测及人脸对齐方法，分割出人脸面部区域；

步骤(2)、提取每个样本视频中每帧图像的面部表情特征，得到视频中每帧图像的特征表示；

步骤(3)、对训练样本进行扩展，把训练样本看作一个完整的表情视频，抽取视频中不同长度的视频片断，构建片断与检测函数值的非线性映射，使得包含检测事件的有用信息越多的片断对应的函数值越大；片断的表示基于多示例学习，并将每两个视频片段根据映射值的大小进行排序，构建一个约束对，将约束对作为模型的训练数据；通过最小化在当前训练数据集上的经验损失和模型复杂度，采用随机梯度下降算法进行优化，获得模型的在线更新准则，进一步获得各个时刻的非线性表情预检测函数；

步骤(4)、表情预检测：对测试样本预处理并提取每帧图像特征后，逐帧读取数据并根据表情预检测函数输出相应的预检测值，当该值大于设定的阈值时，即认为预检测到该表情事件。

进一步的，本方法所提出的方法，步骤1)中的面部关键点提取，是基于深度卷积神经网络的人脸检测方法，提取复杂背景图像中人脸面部区域的5个关键点位置：两个眼睛中心点，鼻尖点和嘴角两个点。

进一步的，本方法所提出的方法，步骤1)中的人脸对齐方法，是采用三对点法将训练样本和测试样本集中的人脸图像序列进行人脸关键点对齐；所述三对点法是指：固定两个眼睛中心点和鼻尖点这三个点的坐标位置，求取相应的仿射变换，通过变换将这三个关键点对齐到标准模板的坐标位置。

进一步的，本方法所提出的方法，步骤2)所述面部表情特征，包括LBP纹理特征和SIFT特征。

进一步的，本方法所提出的方法，步骤(3)基于多示例学习是指：将每个视频片断看作一个包，包中的一个示例表示该片断的一个子集，示例的特征表示用首尾帧图像对应的特征表示相减得到，一个包的函数值是其所有示例的函数值的平均值。

进一步的，本方法所提出的方法，在时刻i，针对第i个训练样本，模型如下：

s.t.c1＝Iⁱ∩[1，t]，

其中损失函数为：

γ表示平衡参数；Cⁱ为训练样本Vⁱ中提取出的约束对的个数，每个约束对包含两个包，c1和c2分别表示第c个约束对的两个包；表示训练样本Vⁱ中抽取的约束对c中的两个视频片断的包，表示视频片断中已发生的表情视频所占的比例，用来表示μ(·)表示松弛变量，为模型边界；表示片断包B的检测值由其包含的示例输出值决定，其中f是一个非线性函数，定义如下：

其中，V为视频片断，ψ和Φ(V)分别表示希尔伯特高维空间的权重向量和片断V的高维表示；对于一个训练集中的视频序列Vⁱ，i＝1，2，...，n，用Iⁱ＝[sⁱ，eⁱ]来表示其标签信息，两个数字sⁱ和eⁱ分别标明在第i个视频中，表情事件在该视频中开始和结束时对应的帧数，n对应所有视频序列的个数，Lⁱ表示视频序列Vⁱ的总长度，即总的帧数；在每个时刻t＝1，2，...Lⁱ，定义已经发生的部分表情用进行表示；在时刻t，表示一个视频从第1帧到第t帧所包含的片断子集：空集表示没有任何事件发生，表示一个视频序列中所有可能的片断集合，对于任意一个片断V_I表示视频序列V中从第s帧到第e帧的片断。

进一步的，本方法所提出的方法，步骤(3)采用随机梯度下降算法对模型进行优化，更新准则如下：

其中，是偏微分的缩写，η_t＞0是学习率，采用常量，即η_t＝η。

进一步的，本方法所提出的方法，约束对的选取遵从如下两个准则：

A、约束对中两个视频片断的重叠率不超过0.7：

假定两个视频片断分别为V₁和V₂，s和e分别表示视频的起始和结束，两个视频片断的重叠率计算方法如下：

B、约束对对于模型是有效的：

根据当前的预检测函数，计算每个约束对的损失函数值，如果损失小于0，则约束对无效，反之，则为有效。

进一步的，本方法所提出的方法，步骤(4)中，对待测试样本进行表情预检测过程如下：

对于一个待识别的视频样本，检测器逐帧读取样本数据，并根据历史数据输出每帧图像对应的检测值；假定初始时刻为t₀，在时刻t，检测器的输出值为：

其中，对计算过程的数据进行保存，便于下一时刻t+1的运算，因为：

当输出值大于某个阈值，即认为当前时刻检测到该表情事件，同样地，可以判断该表情事件何时结束，当检测到该表情事件结束时，清空历史数据，重新开始下一事件的检测。

本发明还提出一种基于视频的非线性在线表情预检测装置，包括：

视频数据预处理单元，用于对表情视频进行预处理，得到对齐并裁剪后的只包含人脸面部区域的视频，包括：

1)人脸关键点获取单元：用于提取每帧图像中人脸的五个关键点位置；

2)人脸对齐单元：通过归一化，将人脸对齐到标准模板位置；

3)面部裁剪单元：提取每帧图像的人脸面部区域；

特征生成单元，用于对预处理后表情视频中的每帧图像进行特征抽取，得到所有图像的特征表示；

模型训练单元，对模型进行在线更新，每次更新针对一个训练样本；该单元模块包括：

1)约束对生成单元：用于提取视频中不同长度的片断，每两个片断根据对应的函数值大小构建一个约束对，每个视频抽取15个约束对；

2)基于MIL的示例生成单元：基于多示例学习，把视频片断看作一个包，通过提取片段的子集构建包的示例集；

3)训练数据生成单元：基于约束对生成单元和基于MIL的示例生成单元，用于生成每个约束对的函数表示，直接用来训练模型；

4)OKMEFD模型优化单元：根据当前训练样本生成的训练数据，对OKMEFD模型实现在线更新；

预检测函数生成单元：根据模型优化得到的参数值，获得预检测函数的具体表达；

测试数据读取单元：对测试样本进行读取并输出至表情预检测单元；

表情预检测单元：用于根据预检测函数对测试样本进行表情预检测。

本发明采用以上技术方案，与现有技术相比，具有以下技术效果：

1、本发明在模型训练之前，对训练样本抽取不同的表情片断，给设定对应的期望值，使得不同的视频片断对应不同的函数值，而且信息量越大的表情片断对应的函数值越大，解决了传统人脸表情识别方法只给定一个完整的表情视频一个类别标签的局限性。

2、本发明能够对各个不同的表情片断进行检测，在测试阶段，在逐帧读取图像的同时能够给出每帧图像对应的检测值，从而实现了人脸表情的预检测，解决了传统人脸表情识别方法的时效性问题。

3、本发明提出的基于多示例学习的视频片断表示方法能够更有效灵活地提取片断中的有用信息，并去除冗余，提升了算法的性能。

4、本发明在两个不同的视频片断构建一个约束对，并根据函数值的大小进行排序；训练样本的扩展使得模型的训练时间加长，消耗的计算机内存也随之增大，为了解决这个问题，并获得动态的适应性更强的模型，本发明每次模型的优化更新只针对一个训练样本，能够随时根据新来的样本数据进行更新，一个样本所用的训练时间更少，而且效率高。

5、本发明提出的是一个非线性表情预检测模型，能够更有效地展示特征表示与检测值之间的非线性映射关系，从而更有效的服务于实际应用的问题。

附图说明

图1为传统的人脸表情识别方法与表情预检测方法的对比说明图。

图2为本发明实施例的非线性在线表情预检测装置的组成图。

图3为CK+数据库下不同方法在多次实验下的ROC曲线均值对比图。

图4为CK+数据库下不同方法在多次实验下的AMOC曲线均值对比图。

图5为CK+数据库下不同方法在多次实验下的训练时间对比图。

图6为CK+数据库下不同方法归一化的预检测时间对比样例示意图。

具体实施方式

下面结合具体实施例和说明附图对本发明作进一步说明，本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。此处所描述的优先实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，图1中的(a)所示传统的识别方法，是在对一个完整视频提取特征后进行分类判别，只能识别完整的表情视频，无法满足识别的及时性要求。如图1中的(b)所示，相对于传统的表情识别方法，表情预检测需要对不同的表情片断进行检测，从而在表情开始之后、结束之前，尽早地实现表情检测。表情预检测有两个最大的不同：首先，在训练阶段，需要对训练样本进行扩展，从每个完整的表情视频中提取若干不同长度的视频片断，并设定一个检测期望值，使得越完整的表情片断对应的检测值越大；另外，在测试阶段，预检测器需要及时地对不完整表情事件进行检测识别，当测试样本的数据逐帧输入时，能够实时输出每帧图像对应的输出值，当输出值大于设定的阈值时，即认为检测到该表情事件。

本发明提出一种基于视频的非线性在线表情预检测方法，包括：对视频数据进行预处理，提取每帧图像的特征信息；从训练样本中抽取不同长度的视频片断，构建片断与检测函数的非线性映射；片断的表示基于多示例学习，充分挖掘有效的表情信息，并将每两个视频片段根据映射值的大小构建一个约束对，得到训练数据；在每个时刻，用当前样本的所有约束对更新模型OKMEFD，通过最小化在当前训练数据集上的经验损失和模型复杂度，采用随机梯度下降算法对模型进行优化，获得模型的在线更新准则，进一步获得各个时刻的非线性表情预检测函数。预检测方法为：对测试样本逐帧读取数据并输出相应的检测值，当该值大于设定的阈值时，即认为预检测到该表情事件。实验结果证明了算法的有效性，最终达到了较高的识别准确性和及时性。

下面结合具体步骤对本发明的技术方案做进一步详细说明：

步骤1、视频数据预处理：

步骤1.1、人脸关键点定位；

人脸表情识别过程受到很多因素的干扰，准确地定位人脸关键点位置是有效提取人脸特征的关键，在表情识别的各类方法中，对基本特征如眼睛、鼻子和嘴巴等的定位是必不可少的步骤。本发明采用论文“Deep Convolutional Network Cascade for FacialPoint Detection”中的人脸检测方法。这是汤小鸥课题组在CVPR13提出的基于深度卷积神经网络(Deep Convolutional Network Cascade)的人脸检测方法，能够提取复杂背景图像中人脸面部区域的5个关键点位置：两个眼睛中心点，鼻尖点和嘴角两个点。

步骤1.2、人脸对齐；

将人脸关键点位置坐标对齐到标准模板，可以消除个体差异性，不同姿态等造成的对表情的影响。本发明采用基于仿射变换的人脸对齐方法。由于两个眼睛中心点和鼻尖点在不同的表情状态下位置比较稳定，本发明采用基于这三对点的人脸对齐，求取相应的放射变换。

步骤1.3、面部裁剪；

去除背景是人脸表情识别预处理的重要一步，根据步骤1.1和1.2将人脸对齐后，裁剪出人脸面部区域，便于下一步骤的特征提取。

步骤2、特征提取：

对步骤1中得到的所有表情视频(包括训练样本和测试样本)抽取面部表情特征(LBP，SIFT等)，得到视频中每帧图像的特征表示。

步骤3、OKMEFD模型训练：

对本发明提出的OKMEFD算法进行训练以获取非线性在线的表情预检测函数，该步骤是本发明的创新点，分为以下四个部分：约束对生成，基于MIL的示例生成，训练数据生成和模型优化。

步骤3.1、约束对生成；

用于对训练样本进行扩展，把训练样本看作一个完整的表情视频，从中提取各个长度不同的视频片断，并赋予不同的函数检测值；然后将两个不同的视频片断根据对应的函数值大小进行排序，构成一个约束对。本发明中，固定每个训练样本提取的约束对个数为15。

步骤3.2、基于MIL的示例生成；

表情片断包含不完整的表情信息，如何充分挖掘片断中的有限信息在预检测中显得尤为重要。本发明基于多示例学习，将每个视频片断看作一个包，包中的一个示例表示该片断的一个子集。示例的特征表示用传统的首尾帧图像对应的特征表示相减得到，一个包的函数值是其所有示例的函数值的集成，本发明中取平均值。通过不同的示例生成和整合策略，基于MIL的方法能够更灵活充分地挖掘视频片断中的有效信息。

步骤3.3、训练数据生成；

基于多示例学习表示的两个片断构成的约束对，即是最终用于模型训练的最终数据。

步骤3.4、模型优化；

在时刻i，用第i个训练样本生成的15对训练数据对模型OKMEFD进行更新，得到新的预检测函数。

步骤4、表情预检测实现：

预检测器逐帧读取待测试样本，输出每帧图像对应的检测值，并保存历史数据和检测结果，当输出值大于某个阈值，即认为当前时刻检测到该表情事件。

以下结合具体实例对本发明的上述步骤做进一步的详细介绍：

本发明选取CK+(the Extended Cohn-Kanade dataset)表情视频数据库为实验数据。该库是国际上研究人脸表情识别的代表性视频库，包含“愤怒”，“厌恶”，“恐惧”，“高兴”，“悲伤”和“惊讶”六种基本表情。本发明的任务是识别出消极情绪：“愤怒”，“厌恶”，“恐惧”和“悲伤”。实验中，随机选取100个积极表情和消极表情视频作为训练样本，剩余127个视频作为测试样本。

本发明在保证了表情识别率的情况下实现了表情的预检测，并大大减少了模型训练时间，效果优于所有预检测算法。

在该实例步骤1.1中，人脸面部关键点提取方法如下：

本发明采用香港中文大学汤小鸥教授课题组在CVPR13上提出的级联深度卷积神经网络DCNN实现面部关键点定位，获取面部5个关键点位置坐标：两个眼睛中心点，鼻尖点和嘴角左右两个点。DCNN属于级联形状回归模型，采用3级深度模型-卷积神经网络来实现。第一级使用人脸图像的三块不同区域(整张人脸，眼睛和鼻子区域，鼻子额嘴唇区域)作为输入，分别训练3个卷积神经网络来预测关键点的位置，后面两级网络在每个关键点附近抽取特征，针对每个关键点单独训练一个卷积神经网络来修正定位的结果。该方法在LFPW数据集上取得了当时最好的定位结果。

在该实例步骤1.2中，人脸对齐实现方法如下：

人脸对齐是指通过对图像按比例缩放、旋转、平移或剪切等仿射变换，将不同大小、形状、姿态的人脸图像对齐到一个“标准人脸”的过程。相关研究表明鼻尖点和两个眼睛中心点的位置不易受面部表情的影响，因此本发明固定提取出的这三个点的位置坐标，通过仿射变换来实现人脸对齐。假定(x，y)为变换后人脸图像上某个关键点位置，(x′，y′)是对应的变换前的坐标位置，a，b，c，d，s，θ是仿射变换系数，那么变换前后的关键点位置间关系如下：

3个关键点仿射变换前位置为：左侧眼睛(x_l，y_l)，右侧眼睛(x_r，y_r)，鼻尖点(x_c，y_c)，通过变换式(1)可以得到：

利用最小二乘法求解该线性方程的解，假定待求解变量为h＝[a，b，c，d]^T，h左侧矩阵用符号K表示，等式右边的向量用U表示，则方程的解为：

h＝(K^TK)^-1(K^TU) (3)

通过仿射变换h即可实现不同大小、形状、姿态下的人脸图像关键点的对齐，方便后续的特征提取。

在该实例步骤2中，本发明采用CK+数据库的CAPP特征，具体方法如下：

CK+(the Extended Cohn-Kanade dataset)表情视频数据库是国际上研究人脸表情识别的代表性视频库。完整的CK+数据库的介绍可参见论文“The Extended Cohn-KanadeDataset(CK+)：A complete dataset for action unit and emotion-specifiedexpression”。为了便于比较，本发明采用该论文使用的特征抽取方法，即提取CK+数据集的CAPP特征(canonical normalized appearance feature)。CAPP特征抽取方法如下：首先基于AAM模型，定位图像中的人脸区域，并估计出人脸形状和外貌特征；然后把人脸作归一化处理，通过分段的仿射变换，去除人脸形状在个体差异性上的影响，获得标准的人脸图像；CAPP特征即为处理后图像的向量表示。

在该实例步骤3.1中，约束对生成的具体过程如下：

在给出具体过程之前，首先给出本发明的一些符号定义：对于一个训练集中的视频序列Vⁱ，i＝1，2，...，n，我们用Iⁱ＝[sⁱ，eⁱ]来表示其标签信息，两个数字sⁱ和eⁱ分别标明在第i个视频中，表情事件在该视频中开始和结束时对应的帧数，n对应训练样本的个数。另外，我们用Lⁱ表示视频序列Vⁱ的总长度，即总的帧数。在每个时刻t＝1，2，...Lⁱ，我们定义已经发生的表情片断用进行表示。在时刻t，表示一个视频从第1帧到第t帧所包含的片断子集：

空集表示没有任何事件发生。所以，即表示一个视频序列中所有可能的片断集合。对于任意一个片断V_I表示视频序列V中从第s帧到第e帧的片断。

从训练样本中抽取不同长度的表情片断得到约束对表示如下：

下标表示片断I中已经发生的表情片断，根据定义，对应的视频片断包含的有效信息更多，所以对应的函数值更大。为了保证训练数据之间的互补性，约束对的选取遵从如下两个准则：

1)约束对中两个视频片断的重叠率不超过0.7

2)约束对对于模型是有效的

根据当前的预检测函数，计算每个约束对的损失函数值，如果损失小于0，则约束对无效，反之，则为有效。根据值的大小，将所有约束对按有效性从高到低进行排序，选取前15个约束对用于模型训练更新。

在该实例步骤3.2中，基于多示例学习的示例生成的具体过程如下：

首先定义非线性的预检测函数如下：

其中，V为视频片断，ψ和Φ(V)分别表示希尔伯特高维空间的权重向量和片断V的高维表示。

把视频片断V看作一个包B，n为包B的帧长，示例生成的具体过程如下：

1)构建包B的示例：

每个示例对应包中一个更短的视频片断，用V_j，j＝1...，n_B表示，其中n_B表示包B包含的示例个数。本发明采取的示例生成方法为：[1，n]，[2，n-1]，[3，n-2]，...，其中[i，j]表示第i帧到第j帧的片段。

2)得到示例的特征表示：

为了便于比较，本发明采用与MMED方法类似的方法，用片断的首尾两帧图像特征向量相减表示示例的特征；

3)根据预检测函数，求取示例的函数值：

f(V_j)＝ψ^TΦ(V_j)。 (8)

在该实例步骤3.3中，训练数据生成的具体过程如下：

1)基于步骤3.2，将示例函数值进行整合，得到视频包的输出值，本发明中取均值：

其中，表示包B的特征。

2)对函数值不同的两个视频片断进行排序，得到最终用于训练的表达式：

其中，和表示第i个训练样本生成的第c个约束对应的两个视频片断，式(10)表示包对应的期望函数值比大。

在该实例步骤3.4中，OKMEFD模型优化过程如下：

OKMEFD是一个在线模型，在时刻i，只针对第i个训练样本，OKMEFD模型如下：

其中损失函数为

Cⁱ表示从第i个训练样本中提取约束对的个数，表示视频片断中已发生的表情视频所占的比例。为了简化分析，我们用来表示μ(·)表松弛变量，Δ(·)表示边缘值。

本发明采用随机梯度下降算法对模型进行优化，首先，得到更新准则如下：

其中，是偏微分的缩写，η_t＞0是学习率，本发明采用常量，即η_t＝η，由于损失函数为：

所以式(13)中的偏微分为：

其中，是一个指标，如果则反之，那么，得到新的更新准则为：

其中，η＜1。

对于一个包含n_b个示例的包B，可以得到表达式如下：

其中：

对函数g，初始化为零，即g₁＝0，为了便于后续计算，将g_i进行核展开，得到：

根据式子(17)和(19)，得到时刻i的系数更新如下：

通过以上式子可发现：在时刻i，检测函数会增加新的项，其系数为而每次迭代后，先前的函数项会以下降因子1-η衰减。为了对模型进行加速，本发明采用截断参数τ来控制模型大小，设置迭代步骤为τ的窗口，对于窗口以外的函数项，当下降到一个阈值后，即可扔掉。另外，本发明在优化过程中，采用支持包的概念，根据函数中各项的系数大小，选出对模型影响最大的支持包，实验验证了该加速方法的有效性。

在该实例步骤4中，对待测试样本进行表情预检测过程如下：

对于一个待识别的视频样本，检测器逐帧读取样本数据，并根据历史数据输出每帧图像对应的检测值。假定初始时刻为t₀，在时刻t，检测器的输出值为：

当输出值大于某个阈值，即认为当前时刻检测到该表情事件，同样地，可以判断该表情事件何时结束，当检测到该表情事件结束时，清空历史数据，重新开始下一事件的检测。重复以上过程，可以对一个包含多个表情事件的视频进行识别。

表1.本发明方法与其他方法的对比实验结果

	FrmPeak	FrmAll	MMED	OKMEFD
					AUC	0.8187±0.0091	0.8356±0.0069	0.9623±0.0069	0.9770±0.0121

表1展示了不同方法在CK+数据集上的AUC对比结果，验证了本发明的有效性。FrmPeak和FrmAll为基准方法，MMED和OKMEFD为预检测算法。图3，图4和图5分别展示了这4种算法的识别准确性，及时性和训练时间。观察可发现，在训练样本达到200个时，本发明不仅识别的准确性比MMED高，及时性也更好，而且训练时间大大减少。图6展示了不同算法检测到表情事件的归一化时间展示图。

参考图2所示，本发明还提出一种基于视频的非线性在线表情预检测装置，包括：

3)面部裁剪单元：提取每帧图像的人脸面部区域；

1)约束对生成单元：用于提取视频中不同长度的片断，每两个片断根据对应的函数值大小构建一个约束对，每个视频抽取15个约束对；约束对由两个不同的视频片断构成，并给出两者的排序关系，选取策略是使得任一局部事件的检测值大于其所包含的子集的输出值。

3)训练数据生成单元：基于1)和2)，用于生成每个约束对的函数表示，直接用来训练模型；提取出多个不同长度的视频片断，并赋予相应的函数值：完整的表情视频对应的函数值最大，当片断中的有效信息量逐渐降低时，对应的函数值也不断减小；同样地，视频中与表情不相关的无用信息越多，对应的函数值也越小。

4)OKMEFD模型优化单元：根据当前训练样本生成的训练数据，对OKMEFD模型实现在线更新。

测试数据读取单元：对测试样本进行读取；

表情预检测单元：用于对测试样本进行表情预检测。

综上所述，本发明基于多示例学习(multi-instance learning，MIL)，充分挖掘了视频片断中的有效信息。约束对之间的排序关系直接决定了模型的有效性，如何挖掘片断中有限的表情信息起着至关重要的作用。本发明把每个视频片断看作一个包，包中的示例集对应片断的视频子集，包的检测值为所有示例的输出值的整合，通过不同的融合方法，能够提高表情预检测的有效性。

本发明同时实现了模型的在线非线性更新。表情预检测算法需要对训练样本进行扩展，相比传统的表情识别方法，预检测模型的训练时间更长，在线能够有效缓解算法对计算机内存需求增大的问题。另外，非线性模型的应用大大提高了预检测的识别率。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于视频的非线性在线表情预检测方法，其特征在于，包括：

步骤(3)、对训练样本进行扩展，把训练样本看作一个完整的表情视频，抽取视频中不同长度的视频片断，构建片断与检测函数值的非线性映射，使得包含检测事件的有用信息越多的片断对应的函数值越大；片断的表示基于多示例学习，并将每两个视频片段根据映射值的大小进行排序，构建一个约束对，将约束对作为模型的训练数据；通过最小化在当前训练数据集上的经验损失和模型复杂度，采用随机梯度下降算法对模型进行优化，获得模型的在线更新准则，进一步获得各个时刻的非线性表情预检测函数；

2.根据权利要求1所述的方法，其特征在于，步骤1)中的面部关键点提取，是基于深度卷积神经网络的人脸检测方法，提取复杂背景图像中人脸面部区域的5个关键点位置：两个眼睛中心点，鼻尖点和嘴角两个点。

3.根据权利要求1所述的方法，其特征在于，步骤1)中的人脸对齐方法，是采用三对点法将训练样本和测试样本集中的人脸图像序列进行人脸关键点对齐；所述三对点法是指：固定两个眼睛中心点和鼻尖点这三个点的坐标位置，求取相应的仿射变换，通过变换将这三个关键点对齐到标准模板的坐标位置。

4.根据权利要求1所述的方法，其特征在于，步骤2)所述面部表情特征，包括LBP纹理特征和SIFT特征。

5.根据权利要求1所述的方法，其特征在于，步骤(3)基于多示例学习是指：将每个视频片断看作一个包，包中的一个示例表示该片断的一个子集，示例的特征表示用首尾帧图像对应的特征表示相减得到，一个包的函数值是其所有示例的函数值的平均值。

6.根据权利要求1所述的方法，其特征在于，在时刻i，针对第i个训练样本，模型如下：

s.t.c1＝Iⁱ∩[1，t]，

其中损失函数为：

γ表示平衡参数；Cⁱ为训练样本Vⁱ中提取出的约束对的个数，每个约束对包含两个包，c1和c2分别表示第c个约束对的两个包；表示训练样本Vⁱ中抽取的约束对c中的两个视频片断的包，表示视频片断中己发生的表情视频所占的比例，用来表示μ(·)表示松弛变量，为模型边界；表示片断包B的检测值由其包含的示例输出值决定，其中f是一个非线性函数，定义如下：

其中，V为视频片断，ψ和Φ(V)分别表示希尔伯特高维空间的权重向量和片断V的高维表示；对于一个训练集中的视频序列Vⁱ，i＝1，2，...，n，用Iⁱ＝[sⁱ，eⁱ]来表示其标签信息，两个数字sⁱ和eⁱ分别标明在第i个视频中，表情事件在该视频中开始和结束时对应的帧数，n对应所有视频序列的个数，Lⁱ表示视频序列Vⁱ的总长度，即总的帧数；在每个时刻t＝1，2，...Lⁱ，定义己经发生的部分表情用进行表示；在时刻t，表示一个视频从第1帧到第t帧所包含的片断子集：空集表示没有任何事件发生，表示一个视频序列中所有可能的片断集合，对于任意一个片断V_I表示视频序列V中从第s帧到第e帧的片断。

7.根据权利要求6所述的方法，其特征在于，步骤(3)采用随机梯度下降算法对模型进行优化，更新准则如下：

8.根据权利要求6所述的方法，其特征在于，约束对的选取遵从如下两个准则：

A、约束对中两个视频片断的重叠率不超过0.7：

B、约束对对于模型是有效的：

9.根据权利要求8所述的方法，其特征在于，步骤(4)中，对待测试样本进行表情预检测过程如下：

10.一种基于视频的非线性在线表情预检测装置，其特征在于，包括：

3)面部裁剪单元：提取每帧图像的人脸面部区域；