CN102831382A

CN102831382A - 人脸跟踪设备和方法

Info

Publication number: CN102831382A
Application number: CN201110166523XA
Authority: CN
Inventors: 沈晓璐; 冯雪涛; 金亭培; 张辉
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2011-06-15
Filing date: 2011-06-15
Publication date: 2012-12-19
Also published as: KR20120138627A; US20120322938A1

Abstract

本发明提供一种人脸跟踪设备和方法，所述人脸跟踪设备包括：图像采集单元，用于接收视频图像，并将接收的视频图像中的当前帧图像输出到预测单元；预测单元，用于基于由人脸拟合单元得出的前一帧图像中人脸的二维特性和三维特性，预测出由图像采集单元输出的当前帧图像中人脸的关键点的二维位置，并将预测的关键点的二维位置输出到人脸拟合单元；以及人脸拟合单元，用于在一个或多个约束条件下，基于由预测单元预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型，从而得到人脸的二维特性和三维特性。

Description

人脸跟踪设备和方法

技术领域

本发明涉及视频图像中的对象跟踪技术，尤其涉及一种用于在视频图像中持续跟踪人脸的二维(2D)特性和三维(3D)特性的设备和方法。

背景技术

随着信息处理技术(特别是视频图像技术)的发展，越来越多的系统和设备需要从视频图像中对某种特定的对象(例如，人脸)进行跟踪识别。例如，在很多摄像监视系统中，往往需要对连续的视频图像中的人脸进行跟踪，从而实现对现场情况的识别和分析。另外，由于跟踪到的人脸的二维信息和三维信息可指示出人物的表情或姿态，因此，在一些人机交互的系统中，可从连续跟踪到的人脸特性识别出用户的某种情绪，该情绪可对应于用户输入的操作指示，从而实现更加友好和智能的交互操作。此外，跟踪到的人脸特性还可被用于进行面部动画生成、焦点检测和自动监控等。

为了实现对人脸的跟踪，现有技术中往往需要利用结构光投影仪器、变化方向的频闪光源、粘贴标识等额外手段来为被跟踪人脸添加易于辨识的空间信息，而后在视频中捕捉此类信息以实现跟踪分析。例如，在第200610085748号中国专利申请《基于结构光的人脸定位的方法》中，就利用了结构光产生装置对人脸主动投射，用视频系统中的图像摄取装置来提取结构光条纹，由此确定人脸的中心位置。上述方式前期准备时间长，且要求用户进行一定的配合，这使得应用的场所受到限制(例如，上述方式不适用于普通的家用设备，也不适用于在监控系统中跟踪随机出现的人脸)。

此外，现有技术中普遍采用的另一种方式以图像特征(例如，颜色、灰度直方图、边缘形状等)作为跟踪依据，使用一定的搜索策略在图像中定位人脸或人脸器官的位置。例如，在第200910080962号中国专利申请《一种识别定位人脸器官的方法、装置和视频处理芯片》中，利用灰度统计模型对被识别图像中的人脸器官进行初步定位，用人脸边缘信息搜索方法确定并调整下巴上的轮廓点，将被识别图像的颜色空间由红绿蓝模式转换为色相饱和模式，用色度值搜索方法确定并调整嘴唇上的轮廓点，基于被识别图像中人脸器官的轮廓点，确定人脸器官的位置。上述方式的缺点是对光照、姿态变换的适应性较差，计算复杂且不适用于对全局的跟踪。

此外，现有技术中还存在基于人脸模型来进行人脸图像定位的方法。例如，在第200910143325号中国专利申请《一种二维人脸图像定位的方法》中，通过利用预设的数据库建立二维人脸形状模型和二维人脸局部纹理模型，实现对二维人脸图像进行精确定位。然而，上述方式不能得出关于三维位置或姿态的信息，而且对数据库之外的样本处理能力较弱，不适用于表情或姿态变化幅度较大的情况。

综上所述，可以看出，在现有技术中，为了在视频图像中实现对人脸的跟踪，往往需要额外的设备(例如，结构光投影仪器)或者附加在人脸的粘贴标识，这使得跟踪设备的成本增加，且需要构建非常复杂的跟踪系统，限制了人脸跟踪的应用环境。

另外，为了实现对人脸的精确跟踪，往往需要进行大量的计算，而复杂的计算将导致无法满足实时跟踪的需要。

此外，目前的跟踪方法多偏重于获取人脸的二维特性，往往无法同时有效地得到相应的三维特性，这使得对跟踪结果的应用受到一定的限制，即，无法同时有效地获得人脸的二维特性和三维特性。

而且，当跟踪的人脸较为陌生，即，输入人脸与训练库中的人脸之间的差距较大时，现有的跟踪方法往往无法在变化角度大、表情强烈或不对称、光照不均匀、背景复杂或运动速度很快的情况下获得有效的跟踪结果。

发明内容

本发明的目的在于提供一种人脸跟踪设备和方法，在所述人脸跟踪设备和方法中，首先对视频图像中的人脸部分进行预测，基于预测的结果在一个或多个约束条件下拟合预定的人脸二维模型和三维模型，从而得到跟踪的人脸的二维特性和三维特性。

根据本发明的示例性实施例，提供一种用于在视频图像中跟踪人脸的设备，所述设备包括：图像采集单元，用于接收视频图像，并将接收的视频图像中的当前帧图像输出到预测单元；预测单元，用于基于由人脸拟合单元得出的前一帧图像中人脸的二维特性和三维特性，预测出由图像采集单元输出的当前帧图像中人脸的关键点的二维位置，并将预测的关键点的二维位置输出到人脸拟合单元；以及人脸拟合单元，用于在一个或多个约束条件下，基于由预测单元预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型，从而得到人脸的二维特性和三维特性。

二维特性包括二维形状，三维特性包括三维结构。

人脸拟合单元以预测单元所预测出的关键点作为初始值，在一个或多个约束条件下，拟合预定的人脸二维模型和三维模型。

预测单元在从图像采集单元输出的当前帧图像中提取人脸区域的特征点，将提取的特征点与前一帧图像的特征点进行匹配，基于由人脸拟合单元得到的前一帧图像中人脸的关键点的二维位置和三维结构，计算出前一帧图像中人脸的三维姿态，基于提取的前一帧图像中的特征点的二维位置、由人脸拟合单元得到的前一帧图像中人脸的关键点的三维结构以及前一帧图像中人脸的三维姿态，计算出三维结构上所述特征点的位置，基于当前帧图像中的人脸的匹配的特征点的二维位置以及三维结构上所述特征点的位置，计算出当前帧图像中人脸的三维姿态，基于由人脸拟合单元得到的前一帧图像中人脸的关键点的三维结构以及计算出的当前帧图像中人脸的三维姿态，计算出当前帧图像中人脸的关键点的二维位置，并将所述关键点的二维位置输出到人脸拟合单元。

对于第一帧图像，预测单元使用人脸检测方法来直接估计关键点的二维位置，作为预测的关键点的二维位置。

预测单元在从图像采集单元输出的当前帧图像中提取人脸区域的特征点时，将判断是否为特征点的门限值设置为根据实际情况变化的自适应门限值。

预测单元将提取的特征点与前一帧图像的特征点进行匹配时，通过使用RANSAC方法并设置距离门限来去除异常配对。

人脸拟合单元在包括二维外观约束条件和三维结构约束条件的多个约束条件下，基于由预测单元预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型。

人脸拟合单元还在以下约束条件的至少一个下来拟合预定的人脸二维模型和三维模型：二维形变约束条件、特征点约束条件、肤色约束条件、个性纹理约束条件。

二维形状表示为S(p，q)＝T(S(p)，q)，其中，S(p)表示二维柔性形状：

S₀表示二维模型中的平均形状，S_i表示二维模型中的一系列形状基S₁，S₂，S₃，...，每一个形状基表示二维形状的一种变化方式，p＝[p₁，p₂，p₃，...]为二维柔性形状参数，其表示各个形状基的变化强度，q＝[q₁，q₂，q₃，q₄]表示二维刚性形状参数，其中，q₁和q₂表示人脸的二维形状在平面内的位移，q₃和q₄表示人脸的二维形状在平面内的旋转和缩放，T表示基于上述位移、旋转和缩放对二维形状的刚性形变。

三维结构表示为其中，

表示三维柔性结构：

表示三维模型中的平均结构，

表示三维模型中的一系列结构基每一个结构基表示三维结构的一种变化方式，

为三维柔性结构参数，其表示各个结构基的变化强度，

表示三维刚性结构参数设置，其中，O_x，O_y，O_z表示人脸的三维结构在空间中绕x轴、y轴和z轴旋转的角度，θ_x，θ_y，θ_z表示人脸的三维结构在空间内的平移，

表示基于上述旋转和平移对三维结构的刚性形变。

人脸拟合单元将二维形变约束条件设置为||p||²，其中，与二维柔性形状参数相应的形变程度||p||²越小，表示人脸模型拟合得到的二维结构越理想。

人脸拟合单元将特征点约束条件设置为||U(S(p)-V)||²，其中，U(S(p))表示当前帧图像中检测到的匹配的特征点向平均形状S₀形变所得到的特征点位置，V表示前一帧图像中匹配的特征点形变后的位置，其中，相邻两帧图像中匹配的特征点之间的差异||U(S(p)-V)||²越小，表示人脸模型拟合得到的二维结构越理想。

人脸拟合单元将肤色约束条件设置为||C(S(p，q))||²，其中，C(x)表示当前帧图像中位置为x的点与肤色的差异程度，其中，二维形状S(p，q)中的各个关键点与肤色的差异||C(S(p，q))||²越小，表示人脸模型拟合得到的二维结构越理想。

人脸拟合单元通过视频图像中的关键帧来确定函数C(x)，其中，关键帧是指代表视频图像的一帧图像。

人脸拟合单元首先将第一帧图像作为关键帧，此后，当检测到更具代表性的图像帧时，用该更具代表性的图像帧来更新之前的关键帧。

人脸拟合单元将个性纹理约束条件设置为||I(S(p，q))-W||²，其中，W表示被跟踪人脸的个性纹理，I(S(p，q))表示当前帧图像向平均形状S₀形变所得到的二维纹理，其中，通过形变处理得到的二维纹理I(S(p，q))与被跟踪人脸的个性纹理W之间的差异||I(S(p，q))-W||²越小，表示人脸模型拟合得到的二维形状越理想。

采用分段仿射变换方式来进行所述形变。

人脸拟合单元通过视频图像中的关键帧来确定人脸的个性纹理W，其中，关键帧是指代表视频图像的一帧图像。

所述一个或多个约束条件按照以下等式来构成代价函数：

E (p, q, \overset{&OverBar;}{p}, \overset{&OverBar;}{q}) = {| | I (S (p, q)) - A | |}^{2} + k_{3 D} {| | P (\overset{&OverBar;}{S} (\overset{&OverBar;}{p}, \overset{&OverBar;}{q})) - S (p, q) | |}^{2}

+ \frac{k_{d}}{N} {| | p | |}^{2} + \frac{k_{f}}{m} {| | U (S (p) - V) | |}^{2} + k_{s} {| | C (S (p, q)) | |}^{2} + k_{t} {| | I (S (p, q)) - W | |}^{2}

其中，N表示二维柔性形状参数的个数，m表示匹配的特征点个数，k_3D表示三维结构约束条件的权重，k_d表示二维形变约束条件的权重，k_f表示特征点约束条件的权重，k_s表示肤色约束条件的权重，k_t表示个性纹理约束条件的权重，人脸拟合单元以预测单元所预测出的关键点作为初始值，求取上述代价函数取最小值时对应的参数p，q，

以确定被跟踪人脸的二维形状和三维结构。

人脸拟合单元根据实际需要或跟踪的视频图像特点为所述约束条件设置不同的权重。

根据本发明的另一方面，提供一种用于在视频图像中跟踪人脸的方法，所述方法包括：由图像采集单元接收视频图像，并将接收的当前帧图像输出到预测单元；由预测单元基于由人脸拟合单元得出的前一帧图像中人脸的二维特性和三维特性，预测出由图像采集单元输出的当前帧图像中人脸的关键点的二维位置，并将预测的关键点的二维位置输出到人脸拟合单元；以及由人脸拟合单元在一个或多个约束条件下，基于由预测单元预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型，从而得到人脸的二维特性和三维特性。

由预测单元预测出由图像采集单元输出的当前帧图像中人脸的关键点的二维位置的步骤包括：从图像采集单元输出的当前帧图像中提取人脸区域的特征点，将提取的特征点与前一帧图像的特征点进行匹配，基于由人脸拟合单元得到的前一帧图像中人脸的关键点的二维位置和三维结构，计算出前一帧图像中人脸的三维姿态，基于提取的前一帧图像中的特征点的二维位置、由人脸拟合单元得到的前一帧图像中人脸的关键点的三维结构以及前一帧图像中人脸的三维姿态，计算出三维结构上所述特征点的位置，基于当前帧图像中的人脸的匹配的特征点的二维位置以及三维结构上所述特征点的位置，计算出当前帧图像中人脸的三维姿态，基于由人脸拟合单元得到的前一帧图像中人脸的关键点的三维结构以及计算出的当前帧图像中人脸的三维姿态，计算出当前帧图像中人脸的关键点的二维位置。

根据本发明，可通过依靠运动预测来首先得出被跟踪人脸的关键点位置，从而提高人脸跟踪处理的速度，而且这种方式仅需要单一的视频图像输入源，不需要额外设置任何涉及空间信息的拍摄装置或感测装置，从而在普通的设备环境中均能够得到应用。

此外，根据本发明的示例性实施例，利用了多种新颖的约束条件，针对全局进行校正，从而明显提高了跟踪方案的稳定性，使得其能够使用陌生相貌、非均匀光照、大角度、剧烈/非对称表情等多样的自然输入情况。

附图说明

通过下面结合附图进行的对实施例的描述，本发明的上述和/或其它目的和优点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的人脸跟踪设备的框图；

图2是示出根据本发明示例性实施例的人脸跟踪方法的流程图；

图3是示出根据本发明示例性实施例由预测单元执行运动预测的方法的流程图；

图4是示出根据本发明示例性实施例的运动预测方法的示图；

图5是示出根据本发明示例性实施例的二维外观形变处理的示例；以及

图6示出根据本发明示例性实施例的人脸跟踪方案与现有技术相比在性能方面的改进。

具体实施方式

现将详细描述本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

图1是示出根据本发明示例性实施例的人脸跟踪设备的框图。如图1所示，根据本发明示例性实施例的人脸跟踪设备包括：图像采集单元10、预测单元20和人脸拟合单元30，其中，图像采集单元10用于接收视频图像，并将接收的当前帧图像输出到预测单元20；预测单元20用于基于由人脸拟合单元30得出的前一帧图像中人脸的二维特性和三维特性，预测出由图像采集单元10输出的当前帧图像中人脸的关键点的二维位置，并将预测的关键点的二维位置输出到人脸拟合单元30；人脸拟合单元30用于在一个或多个约束条件下，基于由预测单元20预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型，从而得到人脸的二维特性和三维特性。作为示例，根据本发明示例性实施例的二维特性可指人脸的二维形状，三维特性可指人脸的三维结构。

在根据本发明示例性实施例的人脸跟踪设备中，由于进行人脸拟合的基础是由预测单元20预测出的当前帧图像中人脸的关键点的二维位置，因此，其能够大大提高跟踪算法的速度，满足实时性的要求。同时，为了执行预测，仅需要将视频图像中的当前帧图像和已经拟合出的前一帧图像中的人脸特性输入到预测单元20，也就是说，在根据本发明示例性实施例的人脸跟踪设备中，仅需要使用单一的视频图像源，而不需要设置额外的拍摄装置或采用额外的图像信息拾取手段。

此外，为了能够从预测的结果中得到比较准确的人脸特性，需要在一定的约束条件下，由人脸拟合单元30基于预测到的关键点的二维位置来拟合预定的人脸二维模型和三维模型。

在根据本发明示例性实施例的人脸跟踪设备中，通过在一个或多个约束条件下，基于视频图像中的运动预测结果来拟合预定的人脸二维模型和三维模型，从而同时得到人脸的二维特性和三维特性，并基于得到的所述二维特性和三维特性对下一帧的视频图像进行预测。由此可见，本发明的构思并不受限于特定的预测方式或拟合方式，除了本发明提出的关于运动预测和拟合过程的示例性实施方式之外，对于本领域已知的各种预测方式和拟合方式而言，只要其能够实现对相应内容的预测和拟合，就能够应用于本发明的构思以解决人脸跟踪的技术问题。

以下将参照图2来描述利用图1所示的人脸跟踪设备来实现根据本发明的人脸跟踪方法的示例。

图2是示出根据本发明示例性实施例的人脸跟踪方法的流程图。参照图2，在步骤S100，由图像采集单元10接收视频图像，并将接收的当前帧图像输出到预测单元20，作为示例，这里所述的视频图像可以是由普通摄像机拍摄的视频图像。在步骤S200，由预测单元20基于由人脸拟合单元30得出的前一帧图像中人脸的二维特性和三维特性，预测出由图像采集单元10在步骤S100输出的当前帧图像中人脸的关键点的二维位置，并将预测的关键点的二维位置输出到人脸拟合单元30。在步骤S300，由人脸拟合单元30在一个或多个约束条件下，基于由预测单元20在步骤S200预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型，从而得到人脸的二维特性和三维特性。

如上所述，在根据本发明示例性实施例的人脸跟踪方法中，通过在一个或多个约束条件下，基于视频图像中的运动预测结果来拟合预定的人脸二维模型和三维模型，从而同时得到人脸的二维特性和三维特性，并基于得到的所述二维特性和三维特性对下一帧的视频图像进行预测。由此可见，本发明的构思并不受限于特定的预测方法或拟合方法，除了本发明提出的关于运动预测和拟合过程的示例性实施方式之外，对于本领域已知的各种预测方法和拟合方法而言，只要其能够实现对相应内容的预测和拟合，就能够应用于本发明的构思以解决人脸跟踪的技术问题。

以下，首先描述在步骤S200，由预测单元20执行运动预测的处理。图3是示出根据本发明示例性实施例由预测单元20执行运动预测的方法的流程图。参照图3，在步骤S210，预测单元20在从图像采集单元10输出的当前帧(例如，第t帧)图像中提取人脸区域的二维特征点，作为示例，预测单元20可利用多尺度SURF和FAST算子提取人脸区域内的特征点(这里的特征点是指图像中具有特殊位置或特殊外观的点)。作为优选方式，在提取特征点的过程中，可将判断是否为特征点的门限值设置为根据实际情况变化的自适应门限值，例如，在低对比度或因运动而变得模糊的视频图像中，可调整自适应门限值的取值，使得相应的特征点在上述情况下也能够被提取出来。应注意，提取人脸区域内的特征点的方式并不受限于使用多尺度SURF和FAST算子的方式，也不必然需要设置自适应变化的门限值。

然后，在步骤S220，预测单元20将在步骤S210提取的当前帧(第t帧)的特征点与之前提取的前一帧(第(t-1)帧)的特征点进行匹配。例如，预测单元20可基于提取特征点时获得的特征点类别，将两帧图像中属于同样类别的特征点进行匹配。作为示例，预测单元20可使用RANSAC方法，设置距离门限，由此去除异常配对，得到稳定的全局匹配的特征点。应注意，对相邻两帧图像中人脸区域的特征点进行匹配的方式并不受限于上述示例性实施方式。本领域已知的任何特征提取和匹配方式均可应用于本发明以解决其技术问题。

然后，在步骤S230，预测单元20基于由人脸拟合单元30得到的第(t-1)帧图像中人脸的关键点的二维位置和三维结构，计算出第(t-1)帧图像中人脸的三维姿态。作为示例，预测单元20可使用POSIT算法来实现上述操作。应理解：本发明并不受限于POSIT算法，任何能够从第(t-1)帧图像中人脸的关键点的二维位置和三维结构计算出第(t-1)帧图像中人脸的三维姿态的已知方式或其它方式均可应用于本发明以解决其技术问题。

接着，在步骤S240，预测单元20基于提取的第(t-1)帧图像中的人脸的匹配特征点的二维位置、由人脸拟合单元30得到的第(t-1)帧图像中人脸的关键点的三维结构以及在步骤S230计算出的第(t-1)帧图像中人脸的三维姿态，计算出三维结构上所述特征点的位置。

由于通常情况下，在相邻的两帧图像之间，特征点在三维结构上的位置变动非常小，因此，可将在步骤S240得到的特征点在三维结构上的位置用作在第t帧图像中人脸的特征点的三维信息。相应地，在步骤S250，由预测单元20基于在步骤S210提取的第t帧图像中的人脸的匹配特征点的二维位置以及在步骤S240得到的特征点在三维结构上的位置，计算出第t帧图像中人脸的三维姿态。作为示例，预测单元20可使用POSIT算法来实现上述操作。

然后，在步骤S260，预测单元20基于由人脸拟合单元30得到的第(t-1)帧图像中人脸的关键点的三维结构以及在步骤S250计算出的第t帧图像中人脸的三维姿态，计算出第t帧图像中人脸的关键点的二维位置，并将所述关键点的二维位置输出到人脸拟合单元30。这里所述的关键点是指人脸中位于某些特定位置(例如，嘴角、嘴唇中间、眼角、眉梢等)的点，关键点所在的位置具有典型的结构意义。同时，这里的关键点相应于预定的人脸的二维模型和三维模型中所包含的关键点，这将在以下进一步详细描述。

以上参照图3描述了由预测单元20执行运动预测的示例性方式。本领域技术人员应理解：按照上述顺序描述的各个步骤S210到S260在具体执行时并不受限于所描述的顺序。具体说来，如图4所示，根据本发明示例性实施例的运动预测方式只要能够完成图4所示的运动预测流程，即能够解决本发明的技术问题，图4中的POSIT仅作为示例，并不构成对本发明的限制。

此外，应注意，以上描述了预测单元20在接收到第t帧图像之后，如何基于第(t-1)帧图像中人脸的二维特性和三维特性，预测出第t帧图像中人脸的关键点的二维位置，而对于第一帧图像而言，由于并不存在之前的帧作为预测依据，因此，作为可选方式，在根据本发明示例性实施例的运动预测中，预测单元20可在步骤S220使用人脸检测方法(例如，检测人脸所在的矩形区域)来直接估计关键点的二维位置，并将估计出的关键点的二维位置作为预测到的关键点的二维位置，提供给人脸拟合单元30。应注意，本领域技术人员所知晓的常用人脸检测方法均可应用于本发明以解决其技术问题，由于人脸检测方法和相应的关键点估计技术本身不是本发明的主题，将不对此进行详细描述。

以上描述了由预测单元20执行运动预测的示例，以下，将描述人脸拟合单元30如何在一个或多个约束条件下，基于由预测单元20预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型，从而得到人脸的二维特性和三维特性。

根据本发明的示例性实施例，由预测单元20通过执行运动预测得到的关键点的二维位置被人脸拟合单元30用来对预定的人脸二维模型和三维模型进行拟合，即，将二维和三维模型中各个关键点匹配到视频图像中的关键点，得到符合实际的人脸的二维特性和三维特性。

作为示例，可按照如下方式来构建根据本发明示例性实施例的人脸模型。

首先，将介绍根据本发明示例性实施例的人脸模型中使用的术语：

二维形状S：表示人脸上一系列预先定义好的预定数量的二维关键点的位置，例如，嘴角、嘴唇中间、眼角、眉梢等位置。

二维外观A：表示人脸范围内的外观信息，例如，人脸区域内图像的灰度值、梯度等信息。

三维结构

表示人脸上一系列预先定义好的预定数量的三维关键点的位置，例如，嘴角、嘴唇中间、眼角、眉梢等位置。

在此基础上，可如下定义人脸的二维形状模型、二维外观模型和三维结构模型的组成。

二维形状模型：由平均形状S₀以及一系列形状基S₁，S₂，S₃，...组成。这里，每一个形状基S_i表示二维形状的一种变化方式，例如，人脸中的张嘴变化或者扬眉变化。

二维外观模型：由平均外观A₀以及一系列外观基A₁，A₂，A₃，...组成。这里，每一个外观基A_i表示二维外观的一种变化方式，例如，人脸中的左侧变暗、右侧变亮。

三维结构模型：由平均结构以及一系列结构基

组成。这里，类似于二维形状模型，每一个结构基

表示三维结构的一种变化方式，例如，人脸中的张嘴变化或者扬眉变化。

作为示例，本发明可采用与现有技术中的主动外观模型类似的方式来表示计算出的人脸的二维形状和三维结构。

将二维柔性形状参数设置为p＝[p₁，p₂，p₃，...]，其表示各个形状基的变化强度，由此，任意的二维柔性形状可表示为：

将二维刚性形状参数设置为q＝[q₁，q₂，q₃，q₄]，其中，q₁和q₂表示人脸的二维形状在平面内的位移，q₃和q₄表示人脸的二维形状在平面内的旋转和缩放。上述位移、旋转和缩放统称为对二维形状的刚性形变T，刚性形变在柔性形变之后施加，从而获得二维形状S(p，q)＝T(S(p)，q)。

将三维柔性结构参数设置为

其表示各个结构基的变化强度，由此，任意的三维柔性结构可表示为：

将三维刚性结构参数设置为

其中，O_x，O_y，O_z表示人脸的三维结构在空间中绕x轴、y轴和z轴旋转的角度，θ_x，θ_y，θ_z表示人脸的三维结构在空间内的平移。上述旋转和平移统称为对三维结构的刚性形变

刚性形变在柔性形变之后施加，从而获得三维结构

这里，二维外观A可通过主动外观模型中的相应算法获得，由于不涉及本发明的主题内容，因此不对其做详尽描述。

如上所述，在预定的人脸的二维形状模型和三维结构模型的基础上，可通过上述参数p，q，

的具体取值来得出任意二维形状和三维结构，其中，参数p，q用于确定二维形状，参数用于确定三维结构。

因此，作为示例，根据本发明示例性实施例的人脸拟合单元30将在一个或多个约束条件下，基于由预测单元20预测的关键点的二维位置来拟合人脸的上述二维形状模型和三维结构模型，从而得到人脸的二维特性和三维特性，即，所跟踪人脸的二维形状和三维结构。

根据本发明的示例性实施例，人脸拟合单元30的目的在于以预测单元20所预测出的关键点作为初始值，在一个或多个约束条件下，求取匹配代价最小的拟合结果。所述约束条件是为了对预测结果进行相应的校正，因此，以下所示出的约束条件仅作为示例，并不构成对本发明的限制。任何能够对预测结果进行校正的约束条件均可应用于本发明以解决其技术问题，而更为有效的约束效果仅仅是对本发明技术效果的进一步改进。

作为示例，人脸拟合单元30可在二维外观约束和三维结构约束下拟合人脸的二维模型和三维模型。

二维外观约束条件可被设置为||I(S(p，q))-A||²，这里，A表示二维外观，S(p，q)表示二维形状，I(S(p，q))表示输入图像I向目标形状(即，平均形状)S₀形变所得到的二维纹理，作为示例，所述形变步骤可采用分段仿射变换(piece-wise warping)方式。图5是示出根据本发明示例性实施例的二维外观形变处理的示例，参照图5，人脸拟合单元30可接收由图像采集单元10接收的视频图像I，基于由预测单元20预测的关键点的二维位置以及预定的二维模型中的平均形状S₀，通过诸如分段仿射变换的形变处理，得到二维形状S(p，q)对应的二维纹理I(S(p，q))。作为示例，根据主动外观模型算法，以上得到的二维纹理I(S(p，q))与二维外观A之间的差异||I(S(p，q))-A||²越小，表示人脸模型拟合得到的二维形状越理想。

三维结构约束条件可被设置为

这里，S(p，q)表示二维形状，

表示三维结构，

表示三维结构

在二维平面上的投影。以上得到的二维投影

与二维形状S(p，q)之间的差异

越小，表示人脸模型拟合得到的三维结构越理想。

除上述约束条件之外，为了对预测的结果进行更有效的校正，本发明的示例性实施例还可设置额外的全局约束条件以进一步提高预测结果在人脸发生较大动作或面部表情夸张等情况下的稳定性。

作为示例，人脸拟合单元30还可在以下约束条件中的一个或多个约束条件下拟合人脸的二维模型和三维模型。

根据本发明示例性实施例的二维形变约束条件可被设置为||p||²，这里，p表示二维柔性形状参数。通过设置这一约束条件，可进一步求取二维形变程度相对较小的拟合结果，这有助于保持人脸跟踪的稳定性。也就是说，与二维柔性形状参数相应的形变程度||p||²越小，表示人脸模型拟合得到的二维结构越理想。

根据本发明示例性实施例的特征点约束条件可被设置为||U(S(p)-V)||²，这里，S(p)表示二维柔性形状，U(S(p))表示输入图像I中检测到的匹配的特征点向平均形状S₀形变所得到的特征点位置，V表示前一帧图像中匹配的特征点形变后的位置。在这种情况下，人脸拟合单元30可接收由预测单元20检测的匹配的特征点，通过形变处理，得到二维柔性形状S(p)对应的特征点位置U(S(p))，此外，人脸拟合单元30还保存有前一帧图像中匹配的特征点形变后的位置V。相邻两帧图像中匹配的特征点之间的差异||U(S(p)-V)||²能够反映出预测单元20关于特征点的检测是否一致，该差异越小，表示人脸模型拟合得到的二维结构越理想。

根据本发明示例性实施例的肤色约束条件可被设置为||C(S(p，q))||²，这里，S(p，q)表示二维形状，C(x)表示输入图像中位置为x的点与肤色的差异程度，当位置为x的点与肤色接近(例如，位于皮肤区域内或靠近皮肤区域时)，C(x)取值较小，否则，C(x)取值较大。作为示例，可通过跟踪的视频图像中的关键帧来确定函数C(x)，这里的关键帧是指能够代表视频图像的一帧图像，关键帧中的肤色区域可被用于确定函数C(x)。本领域技术人员可采用各种方式来获取一段视频图像中具有代表性的关键帧。作为示例，当执行根据本发明示例性实施例的人脸跟踪方案时，可首先将第一帧图像作为关键帧，此后，当检测到更具代表性的图像帧时，用该更具代表性的图像帧来更新之前的关键帧，以作为新的肤色检测模板。将二维形状S(p，q)中的各个关键点是否位于皮肤区域作为约束条件能够进一步提高人脸跟踪的稳定性和可靠性。也就是说，二维形状S(p，q)中的各个关键点与肤色的差异||C(S(p，q))||²越小，表示人脸模型拟合得到的二维结构越理想。

根据本发明示例性实施例的个性纹理约束条件可被设置为||I(S(p，q))-W||²，这里，W表示被跟踪人脸的个性纹理，S(p，q)表示二维形状，I(S(p，q))表示输入图像I向目标形状(即，平均形状)S₀形变所得到的二维纹理，作为示例，所述形变步骤可采用分段仿射变换(piece-wise warping)方式。可按照图5所示的方式来获得I(S(p，q))。作为示例，可通过跟踪的视频图像中的关键帧来确定人脸的个性纹理W，这里的关键帧是指能够代表视频图像的一帧图像，关键帧中的纹理特征可被用作W。本领域技术人员可采用各种方式来获取一段视频图像中具有代表性的关键帧。作为示例，当执行根据本发明示例性实施例的人脸跟踪方案时，可首先将第一帧图像作为关键帧，此后，当检测到更具代表性的图像帧时，用该更具代表性的图像帧来更新之前的关键帧，以作为新的纹理模板。通过形变处理得到的二维纹理I(S(p，q))与被跟踪人脸的个性纹理W之间的差异||I(S(p，q))-W||²越小，表示人脸模型拟合得到的二维形状越理想。

以上作为示例描述了根据本发明示例性实施例的各种约束条件，上述约束条件在应用到本发明时，人脸拟合单元30可应用其中的一个约束条件或多个约束条件的不同组合，也可将上述全部约束条件组合在一起，来拟合预定的人脸二维模型和三维模型。此外，虽然以上描述给出了各个约束条件的具体数学表达式，但是本领域技术人员应理解：本发明并不受限于具体的数学表达式，任何以二维形变、特征点一致性、关键点是否处于肤色区域、个性纹理是否匹配等为约束条件的数学表示均可应用于本发明中。

例如，当人脸拟合单元30在全部约束条件的组合下，基于由预测单元20预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型时，所述人脸拟合单元30可根据实际需要或跟踪的视频图像特点为不同的约束条件设置不同的权重，以得到更符合应用需要的拟合结果。

可将组合的多个约束条件表示为以下的代价函数：

E (p, q, \overset{&OverBar;}{p}, \overset{&OverBar;}{q}) = {| | I (S (p, q)) - A | |}^{2} + k_{3 D} {| | P (\overset{&OverBar;}{S} (\overset{&OverBar;}{p}, \overset{&OverBar;}{q})) - S (p, q) | |}^{2}

+ \frac{k_{d}}{N} {| | p | |}^{2} + \frac{k_{f}}{m} {| | U (S (p) - V) | |}^{2} + k_{s} {| | C (S (p, q)) | |}^{2} + k_{t} {| | I (S (p, q)) - W | |}^{2}

其中，N表示二维柔性形状参数的个数，m表示匹配的特征点个数，k_3D表示三维结构约束条件的权重，k_d表示二维形变约束条件的权重，k_f表示特征点约束条件的权重，k_s表示肤色约束条件的权重，k_t表示个性纹理约束条件的权重。人脸拟合单元30以预测单元20所预测出的关键点作为初始值，求取上述代价函数取最小值时对应的参数p，q，

从而确定跟踪人脸的二维形状和三维结构。

各个约束条件可分别由设置在人脸拟合单元30中的相应约束模块来实现，也可由人脸拟合单元30来统一实现。此外，由于对于第一帧图像而言，并不存在之前输入的图像或预测的结果，因此，某些约束条件会无法进行(例如，特征点约束条件、肤色约束条件、个性纹理约束条件)。在这种情况下，可对第一帧图像进行拟合时，忽略上述约束条件，从第二帧图像开始再应用上述约束条件。

根据本发明的示例性实施例，可通过依靠运动预测来首先得出被跟踪人脸的关键点位置，从而提高人脸跟踪处理的速度，而且这种方式仅需要单一的视频图像输入源，不需要额外设置任何涉及空间信息的拍摄装置或感测装置，从而在普通的设备环境中均能够得到应用。

图6示出根据本发明示例性实施例的人脸跟踪方案与现有技术相比在性能方面的改进。参照图6，图6中的(a)示出没有采用运动预测(上图)与采用了运动预测(下图)的跟踪效果对比，可以看出采用了运动预测之后，跟踪的稳定性有所提高。图6中的(b)示出没有采用个性纹理约束(上图)与采用了个性纹理约束(下图)的跟踪效果对比，可以看出采用了个性纹理约束之后，跟踪的稳定性有所提高。图6中的(c)示出没有采用二维形变约束(上图)与采用了二维形变约束(下图)的跟踪效果对比，可以看出采用了二维形变约束之后，跟踪的准确性有所提高。

根据本发明示例性实施例的人脸跟踪方法和设备可被包括在用于自动监控、动画生成、焦点检测或智能影音的系统中。在上述系统中，除了根据本发明示例性实施例的人脸跟踪设备之外，还包括相应的数据输入单元、数据分析单元、内容产生单元或内容显示单元，由于这些单元均属于本发明以外的现有技术，因此，为了避免对本发明的主题造成混淆，在此不进行详细说明。

本发明的以上各个实施例仅仅是示例性的，而本发明并不受限于此。本领域技术人员应该理解：任何分别涉及利用运动预测产生关键点，并基于关键点来对预定的人脸模型进行拟合的方式均落入本发明的范围之中。在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，其中，本发明的范围在权利要求及其等同物中限定。

Claims

1.一种用于在视频图像中跟踪人脸的设备，所述设备包括：

图像采集单元，用于接收视频图像，并将接收的视频图像中的当前帧图像输出到预测单元；

预测单元，用于基于由人脸拟合单元得出的前一帧图像中人脸的二维特性和三维特性，预测出由图像采集单元输出的当前帧图像中人脸的关键点的二维位置，并将预测的关键点的二维位置输出到人脸拟合单元；以及

人脸拟合单元，用于在一个或多个约束条件下，基于由预测单元预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型，从而得到人脸的二维特性和三维特性。

2.如权利要求1所述的设备，其中，预测单元在从图像采集单元输出的当前帧图像中提取人脸区域的特征点，将提取的特征点与前一帧图像的特征点进行匹配，基于由人脸拟合单元得到的前一帧图像中人脸的关键点的二维位置和三维结构，计算出前一帧图像中人脸的三维姿态，基于提取的前一帧图像中的特征点的二维位置、由人脸拟合单元得到的前一帧图像中人脸的关键点的三维结构以及前一帧图像中人脸的三维姿态，计算出三维结构上所述特征点的位置，基于当前帧图像中的人脸的匹配的特征点的二维位置以及三维结构上所述特征点的位置，计算出当前帧图像中人脸的三维姿态，基于由人脸拟合单元得到的前一帧图像中人脸的关键点的三维结构以及计算出的当前帧图像中人脸的三维姿态，计算出当前帧图像中人脸的关键点的二维位置，并将所述关键点的二维位置输出到人脸拟合单元。

3.如权利要求2所述的设备，其中，对于第一帧图像，预测单元使用人脸检测方法来直接估计关键点的二维位置，作为预测的关键点的二维位置。

4.如权利要求2所述的设备，其中，预测单元在从图像采集单元输出的当前帧图像中提取人脸区域的特征点时，将判断是否为特征点的门限值设置为根据实际情况变化的自适应门限值。

5.如权利要求4所述的设备，其中，预测单元将提取的特征点与前一帧图像的特征点进行匹配时，通过使用RANSAC方法并设置距离门限来去除异常配对。

6.如权利要求3所述的设备，其中，人脸拟合单元在包括二维外观约束条件和三维结构约束条件的多个约束条件下，基于由预测单元预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型。

7.如权利要求6所述的设备，其中，二维形状表示为S(p，q)＝T(S(p)，q)，其中，S(p)表示二维柔性形状：

S₀表示二维模型中的平均形状，S_i表示二维模型中的一系列形状基S₁，S₂，S₃，...，每一个形状基表示二维形状的一种变化方式，p＝[p₁，p₂，p₃，...]为二维柔性形状参数，其表示各个形状基的变化强度，q＝[q₁，q₂，q₃，q₄]表示二维刚性形状参数，其中，q₁和q₂表示人脸的二维形状在平面内的位移，q₃和q₄表示人脸的二维形状在平面内的旋转和缩放，T表示基于上述位移、旋转和缩放对二维形状的刚性形变，三维结构表示为

其中，表示三维柔性结构：

表示三维模型中的平均结构，

表示三维模型中的一系列结构基

每一个结构基表示三维结构的一种变化方式，

为三维柔性结构参数，其表示各个结构基的变化强度，

表示基于上述旋转和平移对三维结构的刚性形变。

8.如权利要求7所述的设备，其中，人脸拟合单元还在以下约束条件的至少一个下来拟合预定的人脸二维模型和三维模型：二维形变约束条件、特征点约束条件、肤色约束条件、个性纹理约束条件。

9.如权利要求7所述的设备，其中，人脸拟合单元将二维外观约束条件设置为||I(S(p，q))-A||²，这里，A表示二维外观，S(p，q)表示二维形状，I(S(p，q))表示当前帧图像向平均形状S₀形变所得到的二维纹理。

10.如权利要求7所述的设备，其中，人脸拟合单元将三维结构约束条件设置为

这里，S(p，q)表示二维形状，

表示三维结构，

表示三维结构

在二维平面上的投影。

11.如权利要求8所述的设备，其中，人脸拟合单元将二维形变约束条件设置为||p||²，其中，与二维柔性形状参数相应的形变程度||p||²越小，表示人脸模型拟合得到的二维结构越理想。

12.如权利要求11所述的设备，其中，人脸拟合单元将特征点约束条件设置为||U(S(p)-V)||²，其中，U(S(p))表示当前帧图像中检测到的匹配的特征点向平均形状S₀形变所得到的特征点位置，V表示前一帧图像中匹配的特征点形变后的位置，其中，相邻两帧图像中匹配的特征点之间的差异||U(S(p)-V)||²越小，表示人脸模型拟合得到的二维结构越理想。

13.如权利要求12所述的设备，其中，人脸拟合单元将肤色约束条件设置为||C(S(p，q))||²，其中，C(x)表示当前帧图像中位置为x的点与肤色的差异程度，其中，二维形状S(p，q)中的各个关键点与肤色的差异||C(S(p，q))||²越小，表示人脸模型拟合得到的二维结构越理想。

14.如权利要求13所述的设备，其中，人脸拟合单元将个性纹理约束条件设置为||I(S(p，q))-W||²，其中，W表示被跟踪人脸的个性纹理，I(S(p，q))表示当前帧图像向平均形状S₀形变所得到的二维纹理，其中，通过形变处理得到的二维纹理I(S(p，q))与被跟踪人脸的个性纹理W之间的差异||I(S(p，q))-W||²越小，表示人脸模型拟合得到的二维形状越理想。

15.如权利要求14所述的设备，其中，所述一个或多个约束条件按照以下等式来构成代价函数：

E (p, q, \overset{&OverBar;}{p}, \overset{&OverBar;}{q}) = {| | I (S (p, q)) - A | |}^{2} + k_{3 D} {| | P (\overset{&OverBar;}{S} (\overset{&OverBar;}{p}, \overset{&OverBar;}{q})) - S (p, q) | |}^{2}

+ \frac{k_{d}}{N} {| | p | |}^{2} + \frac{k_{f}}{m} {| | U (S (p) - V) | |}^{2} + k_{s} {| | C (S (p, q)) | |}^{2} + k_{t} {| | I (S (p, q)) - W | |}^{2}

以确定被跟踪人脸的二维形状和三维结构。

16.一种用于在视频图像中跟踪人脸的方法，所述方法包括：

由图像采集单元接收视频图像，并将接收的当前帧图像输出到预测单元；

由预测单元基于由人脸拟合单元得出的前一帧图像中人脸的二维特性和三维特性，预测出由图像采集单元输出的当前帧图像中人脸的关键点的二维位置，并将预测的关键点的二维位置输出到人脸拟合单元；以及

由人脸拟合单元在一个或多个约束条件下，基于由预测单元预测的关键点的二维位置来拟合预定的人脸二维模型和三维模型，从而得到人脸的二维特性和三维特性。

17.如权利要求16所述的方法，其中，由预测单元预测出由图像采集单元输出的当前帧图像中人脸的关键点的二维位置的步骤包括：从图像采集单元输出的当前帧图像中提取人脸区域的特征点，将提取的特征点与前一帧图像的特征点进行匹配，基于由人脸拟合单元得到的前一帧图像中人脸的关键点的二维位置和三维结构，计算出前一帧图像中人脸的三维姿态，基于提取的前一帧图像中的特征点的二维位置、由人脸拟合单元得到的前一帧图像中人脸的关键点的三维结构以及前一帧图像中人脸的三维姿态，计算出三维结构上所述特征点的位置，基于当前帧图像中的人脸的匹配的特征点的二维位置以及三维结构上所述特征点的位置，计算出当前帧图像中人脸的三维姿态，基于由人脸拟合单元得到的前一帧图像中人脸的关键点的三维结构以及计算出的当前帧图像中人脸的三维姿态，计算出当前帧图像中人脸的关键点的二维位置。

18.如权利要求17所述的方法，其中，人脸拟合单元还在以下约束条件的至少一个下来拟合预定的人脸二维模型和三维模型：二维形变约束条件、特征点约束条件、肤色约束条件、个性纹理约束条件。