CN104573614B

CN104573614B - 用于跟踪人脸的设备和方法

Info

Publication number: CN104573614B
Application number: CN201310499586.6A
Authority: CN
Inventors: 冯雪涛; 沈晓璐; 张辉; 金亭培; 金智渊
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2013-10-22
Filing date: 2013-10-22
Publication date: 2020-01-03
Anticipated expiration: 2033-10-22
Also published as: KR20150046724A; KR101877711B1; KR20150046718A; CN104573614A

Abstract

提供一种用于跟踪人脸的设备和方法，所述设备包括：人脸位置确定单元，用于从当前帧图像确定人脸位置；分割单元，用于将人脸位置的图像分割成组成人脸的各部分图像；遮挡估计单元，用于基于遮挡概率模型来估计分割后的各部分图像被遮挡的概率，并基于所述各部分图像被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率；关键点获取单元，用于通过最小化与每个像素被遮挡的概率有关的匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而获取当前帧图像上人脸关键点的位置，以完成对人脸的跟踪。

Description

用于跟踪人脸的设备和方法

技术领域

本发明涉及针对人脸以及人脸上关键点进行跟踪的设备和方法。

背景技术

对图像或视频中的人脸以及人脸上关键点的位置进行跟踪，在很多以人脸图像或视频作为输入的应用中具有十分重要的作用，这里，所述关键点可以是诸如眼睛、鼻子、眉毛、嘴等处于人脸关键位置的点。例如，在基于视频的人脸识别系统中，需要使用每帧图像上的人脸关键点位置对待匹配的人脸图像进行几何归一化。在面部动作和表情捕捉系统中，需要根据人脸关键点的位置分析面部器官的形状和运动。在一些三维人脸建模系统中，也需要根据人脸关键点的位置信息对不同姿态的人脸图像进行配准和融合。

对于一般物体的跟踪，常常使用基于特征点或特征区域匹配的技术。首先，从当前帧图像中选择或者检测到若干特征点或者特征区域，记录特征点周围或者特征区域内的像素颜色值，对这些像素颜色值进行变换来得到用于表示特征点或特征区域的特征向量。然后，从下一帧图像中以同样的方法选择或者检测特征点或者特征区域并计算特征向量。最后，根据特征向量间的相似性对来自两帧图像的特征点或者特征区域进行匹配，从而估计出物体在视频中的运动。或者，在对当前帧中的特征点或特征区域提取特征向量之后，直接在下一帧图像的感兴趣区域内搜索具有最相似特征向量的特征点或特征区域，从而实现运动跟踪。或者，用于表示特征点或特征区域的特征向量不是从当前帧图像中获得，而是从手工标定的样本图像中获得。

人脸关键点跟踪与一般物体跟踪存在两点明显的区别。第一，人脸是一个非刚性物体，除了具有在空间中运动时产生的平移、旋转等六个自由度外，还会由于表情的变化产生各种复杂的变形。第二，人脸具有相似性，也就是说，所有自动人脸跟踪系统所需要处理的人脸对象都具有相似但不完全一样的形状和纹理。基于以上两点，大部分人脸跟踪系统都会使用可以描述人脸相似性，同时可以适应不同人脸个性的模型，这些模型可以表示为一组感兴趣的关键点。例如，在基于主动表观模型的跟踪方法中，需要对人脸的形状和面部纹理建立参数模型，人脸形状用一系列关键点的坐标组成的向量表示，面部纹理用将模型覆盖的人脸像素映射到平均形状模版后的纹理向量表示。当设置不同的参数时，可以产生不同的人脸形状和面部纹理。通过改变参数，使得产生的人脸形状和纹理与输入的当前帧图像中人脸形状和纹理相同，就可以得到当前帧图像中人脸和人脸上关键点的坐标。

人脸跟踪技术需要处理很多方面的困难。例如，当被跟踪的人脸发生剧烈的运动或姿态变化时，相邻两帧图像中的人脸距离较远或存在较大的外观差异，这时有些方法会跟踪失败。当人脸处于强烈的非均匀光照环境中时，由于阴影的存在，随着姿态、表情的变化，不同帧图像上人脸区域的外观会产生巨大的变化，从而导致跟踪失败。

而且，人脸区域上经常存在遮挡，例如墨镜、头发、口罩等，这会给跟踪带来困难。尤其当遮挡面积较大，以及遮挡的位置随时间会发生变化时，现有的技术难以提供稳定可靠的跟踪结果。通常，在现有技术中，为了解决遮挡条件下的跟踪问题，需要首先根据不同帧图像之间的差别，或者根据人脸模型给出的人脸外观与实际图像中人脸区域外观的差别，估计出可能的遮挡发生的区域，然后将这些遮挡区域排除在跟踪时使用的特征区域范围之外。然而，如何准确地估计出遮挡区域，从而使人脸跟踪得以准确进行，仍然是一个难以解决的问题。

发明内容

本发明的目的在于提供一种能够在人脸存在遮挡的情况下有效地进行人脸跟踪的设备和方法。

根据本发明的一方面，提供一种用于跟踪人脸的设备，包括：人脸位置确定单元，用于从当前帧图像确定人脸位置；分割单元，用于将人脸位置的图像分割成组成人脸的各部分图像；遮挡估计单元，用于基于遮挡概率模型来估计分割后的各部分图像被遮挡的概率，并基于所述各部分图像被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率；关键点获取单元，用于通过最小化与每个像素被遮挡的概率有关的匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而获取当前帧图像上人脸关键点的位置，以完成对人脸的跟踪。

所述设备可还包括：跟踪效果确定器，用于利用分类器来确定对人脸的跟踪是否成功。

在所述设备中，分割单元可使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，并且，遮挡估计单元可基于图像片遮挡概率模型来估计每个图像片被遮挡的概率，并基于每个图像片被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

在所述设备中，分割单元可将人脸位置的图像分割成与各个人脸器官对应的至少一个图像区域，并且，遮挡估计单元可基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率，并基于每个图像区域被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

在所述设备中，分割单元可将人脸位置的图像分割成至少一个图像片和至少一个图像区域，并且，遮挡估计单元基于遮挡概率模型来分别估计每个图像片和每个图像区域被遮挡的概率，并基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

在所述设备中，分割单元可使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，并按照预先定义的人脸器官，将所述至少一个图像片中对应于相同人脸器官的图像片合并为图像区域。

在所述设备中，人脸位置确定单元可在当前帧图像中检测人脸特征点，在关键帧数据库中选择与人脸特征点在特征向量方面匹配的对应特征点，然后通过使对应特征点在当前帧图像上的投影与人脸特征点之间的距离度量最小，来计算一种人脸三维形状模型的三维位置和旋转参数，使用此三维位置和旋转参数计算人脸二维形状模型的关键点在图像中的位置，从而确定当前帧图像中人脸的位置，其中，关键帧数据库包括与之前成功跟踪到的人脸对应的人脸关键帧，在跟踪开始时建立，在成功跟踪每一帧图像后更新，其中，所述人脸关键帧中保存有所述之前成功跟踪到的人脸上被成功匹配的特征点的三维位置坐标和特征向量。

在所述设备中，人脸位置确定单元可基于人脸特征点与计算出的所述一种人脸三维形状模型中的对应特征点在当前帧图像上的投影之间的距离是否小于预定阈值来确定所述人脸特征点是否为被成功匹配的特征点。

在所述设备中，遮挡估计单元可包括：图像片遮挡估计单元，用于基于图像片遮挡概率模型来估计每个图像片被遮挡的概率；图像区域遮挡估计单元，用于基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率；综合估计单元，用于基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

在所述设备中，如果跟踪效果确定器确定对人脸的跟踪成功，则图像片遮挡估计单元可在当前帧没有被遮挡的情况下利用相应的图像片来更新图像片遮挡概率模型，图像区域遮挡估计单元可在当前帧没有被遮挡的情况下利用相应的图像区域来更新图像区域遮挡概率模型。

在所述设备中，在所述匹配误差函数中，基于每个像素被遮挡的概率来调整人脸表观模型与人脸形状无关纹理图像的表观向量之间的差异。

在所述设备中，所述匹配误差函数还可包括人脸二维形状模型与人脸三维形状模型的二维投影之间的偏差项。

根据本发明的另一方面，提供一种用于跟踪人脸的方法，包括：从当前帧图像确定人脸位置；将人脸位置的图像分割成组成人脸的各部分图像；基于遮挡概率模型来估计分割后的各部分图像被遮挡的概率，并基于所述各部分图像被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率；通过最小化与每个像素被遮挡的概率有关的匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而获取当前帧图像上人脸关键点的位置，以完成对人脸的跟踪。

所述方法可还包括：利用分类器来确定对人脸的跟踪是否成功。

在所述方法中，分割图像的步骤可包括：使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片；并且，估计人脸位置的图像中每个像素被遮挡的概率的步骤可包括：基于每个图像片被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

在所述方法中，分割图像的步骤可包括：将人脸位置的图像分割成与各个人脸器官对应的至少一个图像区域；并且，估计人脸位置的图像中每个像素被遮挡的概率的步骤可包括：基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率，并基于每个图像区域被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

在所述方法中，分割图像的步骤可包括：将人脸位置的图像分割成至少一个图像片和至少一个图像区域；并且，估计人脸位置的图像中每个像素被遮挡的概率的步骤可包括：基于遮挡概率模型来分别估计每个图像片和每个图像区域被遮挡的概率，并基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

在所述方法中，分割图像的步骤可包括：使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，并按照预先定义的人脸器官，将所述至少一个图像片中对应于相同人脸器官的图像片合并为图像区域。

在所述的方法中，从当前帧图像确定人脸位置的步骤可包括：在当前帧图像中检测人脸特征点，在关键帧数据库中选择与人脸特征点在特征向量方面匹配的对应特征点，然后通过使对应特征点在当前帧图像上的投影与人脸特征点之间的距离度量最小，来计算一种人脸三维形状模型的三维位置和旋转参数，使用此三维位置和旋转参数计算人脸二维形状模型的关键点在图像中的位置，从而确定当前帧图像中人脸的位置，其中，关键帧数据库包括与之前成功跟踪到的人脸对应的人脸关键帧，在跟踪开始时建立，在成功跟踪每一帧图像后更新，其中，所述人脸关键帧中保存有所述之前成功跟踪到的人脸上被成功匹配的特征点的三维位置坐标和特征向量。

在所述方法中，基于人脸特征点与计算出的所述一种人脸三维形状模型中的对应特征点在当前帧图像上的投影之间的距离是否小于预定阈值来确定所述人脸特征点是否为被成功匹配的特征点。

在所述方法中，估计人脸位置的图像中每个像素被遮挡的概率的步骤可包括：基于图像片遮挡概率模型来估计每个图像片被遮挡的概率；基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率；基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

在所述方法中，如果确定对人脸的跟踪成功，则可在当前帧没有被遮挡的情况下利用相应的图像片来更新图像片遮挡概率模型，并利用相应的图像区域来更新图像区域遮挡概率模型。

在所述方法中，在所述匹配误差函数中，可基于每个像素被遮挡的概率来调整人脸表观模型与人脸形状无关纹理图像的表观向量之间的差异。

在所述方法中，所述匹配误差函数可还包括人脸二维形状模型与人脸三维形状模型的二维投影之间的偏差项。

根据本发明示例性实施例的人脸跟踪设备和方法，可基于划分出的各部分图像被遮挡的概率来估计每个像素被遮挡的概率，并基于每个像素被遮挡的概率来构建匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而在人脸被遮挡的情况下有效地跟踪关键点。此外，还采取了有效的人脸位置估计技术，并采取了特定的遮挡概率估计方法和匹配误差函数，这些有助于提高人脸跟踪的效果。

附图说明

通过下面结合附图进行的对实施例的描述，本发明的上述和/或其它目的和优点将会变得更加清楚，其中：

图1示出根据本发明示例性实施例的用于跟踪人脸的设备的框图；

图2示出根据本发明示例性实施例的遮挡估计单元的结构；

图3示出根据本发明示例性实施例的人脸像素遮挡概率示意图；

图4示出根据本发明示例性实施例的用于跟踪人脸的方法的流程图；

图5示出根据本发明示例性实施例的确定人脸位置的方法的流程图；以及

图6示出根据本发明示例性实施例的估计遮挡概率的方法的流程图。

具体实施方式

现将详细参照本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。

首先，根据本发明的示例性实施例，为了进行人脸跟踪并在跟踪过程中处理遮挡，本文中使用了人脸的二维形状模型、三维形状模型和表观模型。

二维形状模型用来表达面部关键点在二维图像上的几何位置，可以表示为：

其中，向量s为人脸的二维形状向量，由所有关键点的二维位置坐标组成，向量p为二维形状参数，向量q为二维相似变换参数，s₀为二维平均形状，s_i为二维形状基，p_i为二维形状参数的分量，N表示对人脸二维形状进行二维相似变换。通过改变二维形状参数p，使用等式（1）可以产生出各种不同姿态和表情的二维人脸形状。通过改变二维相似变换参数q，使用等式（1）可以得到经过旋转、平移、缩放后的人脸二维形状。

三维形状模型用来表达面部关键点在三维空间中的几何位置，可以表示为：

其中，向量s'为人脸的三维形状向量，由所有关键点的三维位置坐标组成，向量p'为三维形状参数，向量q'为三维位置和旋转参数，s'₀为三维平均形状，s'_i为三维形状基，p'_i为三维形状参数的分量，N'表示对人脸三维形状进行三维平移和旋转变换。通过改变三维形状参数p'，使用等式（2）可以产生出各种不同的三维人脸形状。通过改变三维位置和旋转参数q'，使用等式（2）可以使三维形状在三维空间摄像机坐标系中的位置和姿态发生改变。所有三维关键点同时也是一个由三角形面片组成的三维表面的顶点。

表观模型用来表达人脸纹理的样子，可以表示为：

其中，向量a为人脸的表观向量，向量b为表观参数，向量a₀为平均表观，a_i为表观基，b_i为表观参数的分量。通过改变表观参数b，使用等式（3）可以得到不同的人脸表观向量。

从一幅人脸样本图像中提取表观向量的过程是：首先，设置等式（1）中的二维形状参数为0，二维相似变换参数为适当的值，使得得到的人脸形状的所有关键点都落到一幅适当大小的图像I内。然后，建立对所有关键点的三角形划分，也就是说，这些关键点成为一个个三角形的顶点，这些三角形通过公共边或公共顶点相互邻接但不重叠。对于图像I上任意一个被三角形覆盖的像素X_k（k是序号），可以根据三角形三个顶点的坐标计算出它在三角形内的重心坐标。然后，对于一幅标定了所有关键点坐标的人脸样本图像，可以根据三角形重心坐标和顶点坐标计算出X_k在样本人脸图像中的对应点的坐标值，使用坐标值可以用最近临的方式或者线性插值的方式从人脸样本图像中提取颜色值。将这些颜色值赋值给I中的像素X_k，图像I就称为形状无关纹理图像。最后，对形状无关纹理图像中的像素进行变换，例如灰度归一化，梯度变换等，并将得到的结果连接成一个向量，就得到了这幅人脸样本图像的表观向量，其表示为A(p,q)。在上述提取表观向量的过程中，形状无关纹理图像上的每一点在输入的人脸样本图像中的人脸上都有一个对应的点，反之，根据输入的人脸样本图像中的人脸上一个像素的坐标，也可以用同样的方法唯一地计算出它在形状无关纹理图像上对应的一个位置，这个位置的坐标称为人脸上某个像素的二维模型坐标。

以下将通过参照附图来说明所述实施例，以便解释本发明。

图1示出根据本发明示例性实施例的用于跟踪人脸的设备的框图。参照图1，根据本发明示例性实施例的人脸跟踪设备可用于在视频流中的各个图像帧之间跟踪人脸，其包括人脸位置确定单元10、分割单元20、遮挡估计单元30和关键点获取单元40。上述各个单元可以通过专门的硬件器件来实现，也可以通过通用的硬件编程器件来实现，还可以通过软件编程来实现。

具体说来，人脸位置确定单元10用于从当前帧图像确定人脸位置；分割单元20用于将人脸位置的图像分割成组成人脸的各部分图像；遮挡估计单元30用于基于遮挡概率模型来估计分割后的各部分图像被遮挡的概率，并基于所述各部分图像被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率；关键点获取单元40用于通过最小化与每个像素被遮挡的概率有关的匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而获取当前帧图像上人脸关键点的位置，以完成对人脸的跟踪。作为附加部件，所述人脸跟踪设备还可包括跟踪效果确定器（未示出），用于利用分类器来确定对人脸的跟踪是否成功。

根据图1所示的人脸跟踪设备，可基于划分出的各部分图像被遮挡的概率来估计每个像素被遮挡的概率，并基于每个像素被遮挡的概率来构建匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而在人脸被遮挡的情况下有效地跟踪关键点。

根据本发明的示例性实施例，人脸位置确定单元10对于视频跟踪过程中的某一帧，可通过执行人脸估计来确定人脸位置。例如，人脸位置确定单元10可在当前帧图像中检测人脸特征点，在关键帧数据库中选择与检测到的人脸特征点在特征向量方面匹配的对应特征点，然后计算一种人脸三维形状模型的三维位置和旋转参数，使对应特征点在当前帧图像上的投影与人脸特征点之间的距离度量最小，三维位置和旋转参数其中，关键帧数据库包括与之前成功跟踪到的人脸对应的人脸关键帧，在跟踪开始时建立，在成功跟踪每一帧图像后更新，其中，所述人脸关键帧中保存有所述之前成功跟踪到的人脸上被成功匹配的特征点的三维位置坐标和特征向量。

此外，如果当前帧为视频的第一帧或者跟踪失败后重新开始跟踪过程的第一帧，则人脸位置确定单元10需要执行人脸检测来获取人脸所在的位置（例如，矩形区域）。在这种情况下，可假设检测到的人脸中不存在遮挡，并基于二维形状模型中的二维平均形状s₀来最小化匹配误差函数。

以下将详细说明由人脸位置确定单元10执行人脸估计，并相应地获取当前帧图像上的成功匹配特征点以及人脸关键点的处理。

首先，人脸位置确定单元10从当前帧图像的感兴趣区域中检测人脸特征点（例如，现有技术中的SIFT特征点、SURF特征点或者FAST特征点）。这里，当前帧图像的感兴趣区域是由前一帧图像中的人脸位置确定的，表示当前帧中人脸可能出现的范围，由于人脸的运动速度有限，所以感兴趣区域可以从前一帧图像中的人脸所在的矩形向四周扩大一定范围得到。

关键帧数据库中保存了大量人脸关键帧，因此，关键帧数据库使用三维姿态参数来索引人脸关键帧。关键帧数据库在跟踪过程开始时建立，在成功跟踪每一帧图像后进行更新。具体说来，每个人脸关键帧中保存着之前成功跟踪到的人脸上被成功匹配的特征点的三维位置坐标和特征向量（例如，纹理特征向量）。这里，三维位置坐标是指，人脸的三维形状模型与图像中的人脸对齐后，根据从图像中检测到的特征点的二维坐标，使用几何方法计算出这些特征点在三维形状模型上的位置坐标。具体说来，所述特征点位于三维形状模型的三角形面片上，它们的三维位置坐标用三角形面片的顶点编号和在三角形中的重心坐标表示。特征向量是指，根据图像中特征点周围区域像素颜色的值计算出来的用来表示特征点周围区域纹理特征的向量，例如颜色直方图，SIFT直方图等。

在这种情况下，作为示例，人脸位置确定单元10可从关键帧数据库中选择若干人脸关键帧，并计算从当前帧图像中检测到的人脸特征点与选择的所述若干人脸关键帧中的各个特征点之间的匹配关系。具体来说，对于每一个当前帧图像中的人脸特征点，计算它的特征向量与所有（选择的）人脸关键帧中的各个特征点的特征向量之间的距离，从中选择出距离最小的人脸关键帧特征点，作为与所述当前帧图像中的人脸特征点匹配的对应特征点。

在找到特征点对应关系后，人脸位置确定单元10就可以计算一个适当的人脸三维形状模型的三维位置和旋转参数，使得人脸关键帧中的对应特征点使用此参数进行三维位置和姿态变换并投影到人脸图像上后，得到的二维坐标位置与它们在当前帧中匹配的特征点的位置之间的距离度量最小。例如，距离量度可以取为如下形式：

其中，i是相互匹配的特征点对的编号，vi和ui是相互匹配的当前帧特征点和人脸关键帧中的对应特征点，Proj(·)表示将摄像机坐标系中的某个三维点投影到二维图像平面上，N'，q'的含义与等式（2）中的相同，ρ是一个鲁棒误差函数。鲁棒误差函数是指当输入小于某个阈值前，输出随输入增加；当输入大于某个阈值后，输出随输入增加而增加的速度变慢或者不再增加的函数。使用鲁棒误差函数的目的是减少特征点匹配中的错误结果对三维位置和旋转参数跟踪的结果产生的干扰。

估计出当前帧人脸的三维位置和旋转参数后，人脸位置确定单元10可基于检测到的人脸特征点与人脸三维形状模型中的对应特征点在当前帧图像上的投影之间的距离来确定所述检测到的人脸特征点是否为被成功匹配的特征点。具体说来，当前帧上检测到的特征点被分为两类。对于一个当前帧特征点，如果其与将匹配的对应特征点使用所述三维位置和旋转参数进行三维位置和姿态变换并投影到当前帧图像上后得到的二维坐标位置之间的距离小于预定阈值，则将所述当前帧特征点分为第一类，否则将其分为第二类。所有第一类特征点作为被成功匹配的特征点，被保存下来。

最后，根据上述三维位置和旋转参数，人脸位置确定单元10可计算人脸的二维形状模型上的关键点在当前帧图像中的位置。计算方法是使用梯度下降算法最小化如下形式的代价函数：

||s(p,q)-Proj(s′)||²

其中，Proj(s′)表示将三维顶点投影到二维图像平面上。实际上，组成二维形状模型的关键点和组成三维形状模型的关键点并不一定是一一对应的，这时只需要对互相对应的关键点进行距离求和即可。

经过上述步骤，可获取当前帧图像上的成功匹配特征点的个数，并估计出了人脸关键点的位置，所述位置可以用二维形状模型的关键点坐标来表示。

在本发明中，跟踪可能存在遮挡的人脸时，需要解决的最重要的问题就是正确估计出哪些人脸区域是被遮挡的。为了实现这一目标，由分割单元20首先将人脸所在位置的图像分割成组成人脸的各部分图像，然后由遮挡估计单元30根据相应的遮挡概率模型，估计所述各部分图像被遮挡的概率，并基于各部分图像被遮挡的概率来估计人脸所在位置的图像上每个像素被遮挡的概率。这里，为了估计各部分图像被遮挡的概率，遮挡估计单元30可使用相应的遮挡概率模型。所述遮挡概率模型在跟踪开始时建立，并在跟踪过程中被不断更新。

具体说来，分割单元20可根据需要按照不同的方式来分割图像。例如，分割单元20可使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，相应地，遮挡估计单元30可基于图像片遮挡概率模型来估计每个图像片被遮挡的概率，并基于每个图像片被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

作为另一示例，分割单元20可将人脸位置的图像分割成与各个人脸器官对应的至少一个图像区域，相应地，遮挡估计单元30可基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率，并基于每个图像区域被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。这里，分割单元20可采用适当的方式分割出与人脸器官对应的图像区域。作为示例，为了分割成各个图像区域，分割单元20可首先使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，然后按照预先定义的人脸器官，将所述至少一个图像片中对应于相同人脸器官的图像片合并为图像区域。

本领域技术人员应清楚，图像片或图像区域仅作为划分单位的示例，并不构成对本发明的限制。

此外，为了进一步估计出准确的像素遮挡概率，作为优选方式，分割单元20可基于不同的划分单位来分割人脸图像，以获得不同精度的各部分图像（例如，图像片和图像区域），在此基础上，遮挡估计单元30可综合考虑两种精度下的各部分图像被遮挡的概率，以确定每个像素被遮挡的概率，从而基于每个像素被遮挡的概率来构建匹配误差函数，通过这种方式，能够在人脸被遮挡的情况下有效地跟踪关键点。

以下将详细描述分别将人脸图像划分为图像片和图像区域这两种精度的部分图像，并综合考虑两种精度下的遮挡概率来实现关键点跟踪的优选方式。

首先，分割单元20可使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，并按照预先定义的人脸器官，将所述至少一个图像片中对应于相同人脸器官的图像片合并为图像区域。

具体说来，在分割单元20将人脸所在位置的图像分割成图像片时，使用了基于颜色和位置坐标的像素聚类算法。具体来说，每个像素用它的二维位置坐标和三维颜色向量连接后组成的五维向量表示。由于图像坐标值和颜色值的数值范围不同，所以需要将其中之一乘以一个预定的系数后再连接成五维向量。在进行聚类时，首先按照二维位置坐标将人脸所在位置的图像均匀分为若干正方形图像片，然后使用作为示例的K均值聚类算法迭代地更新每个像素五维坐标所属的聚类，直到达到停止条件。这时，每个类别的像素就成为一个图像片。按照这种方式进行图像分割后，人脸上不同颜色的部分会被划分到不同的图像片中。如果存在遮挡，被遮挡的部分与未被遮挡的部分也会被划分的不同的图像片中。接下来，按照每个预先定义的人脸器官，将对应于相同人脸器官的图像片合并为图像区域。每个图像区域对应于一个人脸器官，如眼睛、眉毛、鼻子、嘴。合并的方法是，首先在形状无关纹理图像上指定哪些像素属于某个人脸器官，然后计算每个图像片重心的二维模型坐标，所有二维模型坐标在形状无关纹理图像上对应于某个人脸器官的图像片，就被合并为一个图像区域。

为了估计每个图像片和每个图像区域被遮挡的概率，遮挡估计单元30使用了一系列遮挡概率模型。这些模型都是在跟踪开始时建立，在跟踪过程中不断更新的概率模型。

对于图像区域来说，每个图像区域对应一个遮挡概率模型。该模型使用的特征是人脸位置确定单元10在此图像区域内检测到的被成功匹配的特征点的个数。可以使用高斯模型来实现针对每个图像区域的遮挡概率模型。在每帧图像跟踪过程中，计算每个图像区域R_i中被成功匹配的特征点个数，用这个个数计算此图像区域被遮挡的概率O(R_i)。如果跟踪效果确定器在后续处理中确定跟踪成功且当前帧没有被遮挡，则用这个被成功匹配的特征点个数更新此图像区域的遮挡概率模型。

对于图像片来说，它们的遮挡概率模型对应于形状无关纹理图像上的若干位置。例如，在尺寸为100*100的形状无关纹理图像上定义100个图像片遮挡概率模型，各个模型均匀分布，每个模型对应于10*10的像素范围。通过计算某个图像片重心的二维模型坐标寻找对应于此图像片的遮挡概率模型。实际上，每个图像片P_i也可以对应于多个遮挡概率模型，即距离它的重心的二维模型坐标最近的预定个数个遮挡概率模型都被看作与这个图像片对应。每个图像片遮挡概率模型描述图像片的某些统计特征，例如颜色直方图、均值、方差。图像片遮挡概率模型可以用混合高斯模型，或者基于随机森林的高斯概率模型实现。在每帧图像跟踪过程中，计算每个图像片的P_i统计特征，计算出此图像片被遮挡的概率

其中O_j(P_i)是用对应于图像片P_i的第j个遮挡概率模型计算出来的P_i被遮挡的概率。如果跟踪效果确定器在后续处理中确定跟踪成功且当前帧没有被遮挡，则用图像片的统计特征更新此图像片对应的所有遮挡概率模型。

得到图像片被遮挡的概率和图像区域被遮挡的概率后，用它们计算出当前帧图像中的人脸位置上的每个像素X_k被遮挡的概率O(X_k)。计算某个像素被遮挡的概率时，同时考虑到这个像素所属的图像片被遮挡的概率和这个像素所属的图像区域被遮挡的概率。例如，可以取O(X_k)=max(O(R_i),O(P_j))，其中R_i是X_k所属的图像区域，P_j是X_k所属的图像片。根据前面提到过的计算提取人脸表观向量的方法，可以得到与表观向量中每个元素对应的像素遮挡概率，用向量O_a表示。

作为示例，可采用图2所示的结构来实现遮挡估计单元30。如图2所示，所述遮挡估计单元30包括：图像片遮挡估计单元31，用于基于图像片遮挡概率模型来估计每个图像片被遮挡的概率；图像区域遮挡估计单元32，用于基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率；综合估计单元33，用于基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。这里，作为优选方式，图像片遮挡概率模型表示每个图像片基于图像片的统计特征而被遮挡的概率，图像区域遮挡概率模型表示每个图像区域基于其中被成功匹配的特征点的个数而被遮挡的概率。通过上述特定遮挡概率模型，可以有效地估计出每个像素被遮挡的概率。

图3示出了一些存在遮挡的人脸像素遮挡概率的示意图，其中，浅部表示被遮挡的概率较大，深部表示被遮挡的概率较小。

以上描述了针对不同的图像分割方式来估计像素遮挡概率的各个示例，在遮挡估计单元30估计人脸位置的图像中每个像素被遮挡的概率之后，关键点获取单元40可通过最小化与每个像素被遮挡的概率有关的匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而获取当前帧图像上人脸关键点的位置，以完成对人脸的跟踪。

具体说来，为了获得当前帧图像上人脸关键点的位置，可以使用等式（1）中的二维形状模型针对人脸形状进行匹配，具体来说，模型匹配是通过最小化跟每个像素被遮挡概率有关的匹配误差函数实现的。作为示例，在所述匹配误差函数中，可基于每个像素被遮挡的概率来调整人脸表观模型与人脸形状无关纹理图像的表观向量之间的差异。例如，匹配误差函数可以定义为：

E(p,q,b)=||(1-O_a)·(a(b)-A(p,q))||²

其中，A(p,q)表示从当前帧图像中按照当前参数p，q的值而提取出的人脸表观向量，其初始值可基于由人脸位置确定单元10估计到的人脸关键点来确定。在此基础上，可以使用梯度下降算法，通过改变p，q，b来最小化上述匹配误差函数。

可以看出，如果某个像素被遮挡的概率较大，那么它在模型匹配中获得的权重就较小，从而减小遮挡对人脸跟踪的影响。当求出适当的p，q后，将它们带入等式（1），就可以得到当前帧中人脸关键点的位置，从而实现对人脸的跟踪。

应注意，上述误差匹配函数仅作为示例，实际上，也可以使用不完全等同与上式的匹配误差函数，例如，所述匹配误差函数还可以包括人脸二维形状模型与人脸三维形状模型的二维投影之间的偏差项，例如，||s(p,q)-Proj(s′(p′,q′))||²。

为了实现上述跟踪过程，还可在跟踪过程中不断更新关键帧数据库和遮挡概率模型。在更新关键帧数据库和遮挡概率模型前，首先需要确定跟踪是否成功。

作为示例，跟踪效果确定器可利用分类器来对跟踪是否成功进行分类。该分类器在跟踪开始前使用大量成功跟踪的样本数据和失败跟踪的样本数据训练得到。具体说来，如果某帧的跟踪结果与手工标定的人脸关键点位置一致，则作为成功跟踪的样本数据；此外，对图像帧和跟踪结果手工添加扰动，使得跟踪结果与手工标定的人脸关键点位置不一致，从而获得失败跟踪的样本数据。在建立起这个分类器前，为了收集训练样本，可使用手工方式判断跟踪是否成功。收集的数据，也就是做出分类所依据的特征包括但不限于跟踪结果中p，q，p'，q'的值，||(1-O_a)·(a(b)-A(p,q))||²的值以及||s(p,q)-Proj(s′(p′,q′))||²的值等。分类器可以采用常见的支持向量机、随机森林等两类分类器实现。

如果跟踪成功，则更新关键帧数据库。每个被保存在关键帧数据库中的人脸关键帧都应该具有不完全相同的三维头部姿态。如果当前帧跟踪结果的三维头部姿态与关键帧数据库中的所有人脸关键帧对应的三维头部姿态的差别都大于某个预定阈值，则将当前帧作为人脸关键帧加入关键帧数据库。反之，如果当前帧与关键帧数据库中的某个人脸关键帧K的三维头部姿态差别小于预定阈值，那么只有在当前帧的跟踪效果好于人脸关键帧K时，当前帧才被加入关键帧数据库中，同时将人脸关键帧K从关键帧数据库中移除。比较两帧的跟踪效果可以通过比较匹配误差函数的值||(1-O_a)·(a(b)-A(p,q))||²实现。

如果跟踪成功，且当前帧不存在遮挡，则更新各图像部分（例如，图像片或图像区域）对应的概率遮挡模型。判断当前帧是否存在遮挡可以通过对像素遮挡概率向量O_a进行计算或对所有各部分图像的遮挡概率进行计算得到。例如，如果O_a中的每个元素都小于某个预定阈值，则判定当前帧不存在遮挡。

以下将参照图4到图6来描述根据本发明示例性实施例的人脸跟踪方法，所述方法可通过图1所示的设备来实现，也可通过计算机程序来实现。

图4示出根据本发明示例性实施例的用于跟踪人脸的方法的流程图。

如图4所示，在步骤S10，从当前帧图像确定人脸位置。作为示例，可采用图5所示的方法来确定人脸的位置。具体说来，在步骤S11，在当前帧图像中检测人脸特征点；在步骤S12，在关键帧数据库中选择与检测到的人脸特征点在特征向量方面匹配的对应特征点；在步骤S13，计算一种人脸三维模型的三维位置和旋转参数，使对应特征点在当前帧图像上的投影与人脸特征点之间的距离度量最小，其中，关键帧数据库包括与之前成功跟踪到的人脸对应的人脸关键帧，在跟踪开始时建立，在成功跟踪每一帧图像后更新，其中，所述人脸关键帧中保存有所述之前成功跟踪到的人脸上被成功匹配的特征点的三维位置坐标和特征向量；在步骤S14，三维位置和旋转参数基于检测到的人脸特征点与计算出的所述一种人脸三维形状模型中的对应特征点在当前帧图像上的投影之间的距离是否小于预定阈值来确定所述检测到的人脸特征点是否为被成功匹配的特征点。

参照回图4，在步骤S20，将人脸位置的图像分割成组成人脸的各部分图像。可根据需要按照不同的方式来分割图像。例如，可使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，在这种情况下，可基于图像片遮挡概率模型来估计每个图像片被遮挡的概率，并基于每个图像片被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

作为另一示例，可将人脸位置的图像分割成与各个人脸器官对应的至少一个图像区域，在这种情况下，可基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率，并基于每个图像区域被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。这里，可采用适当的方式分割出与人脸器官对应的图像区域。作为示例，为了分割成各个图像区域，可首先使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，然后按照预先定义的人脸器官，将所述至少一个图像片中对应于相同人脸器官的图像片合并为图像区域。

此外，为了进一步估计出准确的像素遮挡概率，作为优选方式，可基于不同的划分单位来分割人脸图像，以获得不同精度的各部分图像（例如，图像片和图像区域）。具体说来，可使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，并按照预先定义的人脸器官，将所述至少一个图像片中对应于相同人脸器官的图像片合并为图像区域。

接下来，在步骤S30，基于遮挡概率模型来估计分割后的各部分图像被遮挡的概率，并基于所述各部分图像被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。这里，遮挡概率模型可被设置为对应于分割出的各部分图像。例如，当人脸图像被分割为图像片时，遮挡概率模型可以是图像片遮挡概率模型；当人脸图像被分割为图像区域时，遮挡概率模型可以是图像区域遮挡概率模型。这些遮挡概率模型可在跟踪开始时建立，并在跟踪过程中被不断更新。

作为优选示例，当在步骤S20中将人脸位置的图像分割成至少一个图像片和至少一个图像区域时，可采用图6所示的方法来估计遮挡的概率。具体说来，在步骤S31，基于图像片遮挡概率模型来估计每个图像片被遮挡的概率；在步骤S32，基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率；在步骤S33，基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

参照回图4，在步骤S40，通过最小化与每个像素被遮挡的概率有关的匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而获取当前帧图像上人脸关键点的位置，以完成对人脸的跟踪。

作为附加步骤，图4所示的方法还包括：在完成对人脸的跟踪之后，利用分类器来确定对人脸的跟踪是否成功。

此外，如果确定对人脸的跟踪成功，则在当前帧没有被遮挡的情况下利用相应的图像部分来更新对应的概率遮挡模型，例如，利用当前帧无遮挡情况下的图像片或图像区域来更新相应的图像片或图像区域遮挡概率模型。作为优选方式，图像片遮挡概率模型表示每个图像片基于图像片的统计特征而被遮挡的概率，图像区域遮挡概率模型表示每个图像区域基于其中被成功匹配的特征点的个数而被遮挡的概率。

由此可见，在根据本发明示例性实施例的人脸跟踪设备和方法中，可基于划分出的各部分图像被遮挡的概率来估计每个像素被遮挡的概率，并基于每个像素被遮挡的概率来构建匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而在人脸被遮挡的情况下有效地跟踪关键点。在此基础上，还可基于不同的划分单位（即，图像片和图像区域）来估计每个像素被遮挡的概率，以进一步提高估计结果的准确性，从而得到良好的跟踪效果。此外，本发明的示例性实施例还采取了有效的人脸位置估计技术，并采取了特定的遮挡概率估计方法和匹配误差函数，这些有助于提高人脸跟踪的效果。

本发明的以上各个实施例仅仅是示例性的，而本发明并不受限于此。本领域技术人员应该理解：在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，其中，本发明的范围在权利要求及其等同物中限定。

Claims

1.一种用于跟踪人脸的设备，包括：

人脸位置确定单元，用于从当前帧图像确定人脸位置；

分割单元，用于将人脸位置的图像分割成组成人脸的各部分图像；

遮挡估计单元，用于基于遮挡概率模型来估计分割后的各部分图像被遮挡的概率，并基于所述各部分图像被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率；

关键点获取单元，用于通过最小化与每个像素被遮挡的概率有关的匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而获取当前帧图像上人脸关键点的位置，以完成对人脸的跟踪，

其中，在所述匹配误差函数中，基于每个像素被遮挡的概率来调整人脸表观模型与人脸形状无关纹理图像的表观向量之间的差异。

2.如权利要求1所述的设备，还包括：

跟踪效果确定器，用于利用分类器来确定对人脸的跟踪是否成功。

3.如权利要求1或2所述的设备，其中，分割单元使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，并且，遮挡估计单元基于图像片遮挡概率模型来估计每个图像片被遮挡的概率，并基于每个图像片被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

4.如权利要求1或2所述的设备，其中，分割单元将人脸位置的图像分割成与各个人脸器官对应的至少一个图像区域，并且，遮挡估计单元基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率，并基于每个图像区域被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

5.如权利要求1所述的设备，其中，分割单元将人脸位置的图像分割成至少一个图像片和至少一个图像区域，并且，遮挡估计单元基于遮挡概率模型来分别估计每个图像片和每个图像区域被遮挡的概率，并基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

6.如权利要求5所述的设备，其中，分割单元使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，并按照预先定义的人脸器官，将所述至少一个图像片中对应于相同人脸器官的图像片合并为图像区域。

7.如权利要求1、2或5所述的设备，其中，人脸位置确定单元在当前帧图像中检测人脸特征点，在关键帧数据库中选择与人脸特征点在特征向量方面匹配的对应特征点，然后通过使对应特征点在当前帧图像上的投影与人脸特征点之间的距离度量最小，来计算一种人脸三维形状模型的三维位置和旋转参数，使用此三维位置和旋转参数计算人脸二维形状模型的关键点在图像中的位置，从而确定当前帧图像中人脸的位置，

其中，关键帧数据库包括与之前成功跟踪到的人脸对应的人脸关键帧，在跟踪开始时建立，在成功跟踪每一帧图像后更新，其中，所述人脸关键帧中保存有所述之前成功跟踪到的人脸上被成功匹配的特征点的三维位置坐标和特征向量。

8.如权利要求7所述的设备，其中，人脸位置确定单元基于人脸特征点与计算出的所述一种人脸三维形状模型中的对应特征点在当前帧图像上的投影之间的距离是否小于预定阈值来确定所述人脸特征点是否为被成功匹配的特征点。

9.如权利要求5或6所述的设备，其中，遮挡估计单元包括：

图像片遮挡估计单元，用于基于图像片遮挡概率模型来估计每个图像片被遮挡的概率；

图像区域遮挡估计单元，用于基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率；

综合估计单元，用于基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

10.如权利要求9所述的设备，其中，如果跟踪效果确定器确定对人脸的跟踪成功，则图像片遮挡估计单元在当前帧没有被遮挡的情况下利用相应的图像片来更新图像片遮挡概率模型，图像区域遮挡估计单元在当前帧没有被遮挡的情况下利用相应的图像区域来更新图像区域遮挡概率模型。

11.如权利要求1、2或5所述的设备，其中，所述匹配误差函数还包括人脸二维形状模型与人脸三维形状模型的二维投影之间的偏差项。

12.一种用于跟踪人脸的方法，包括：

从当前帧图像确定人脸位置；

将人脸位置的图像分割成组成人脸的各部分图像；

基于遮挡概率模型来估计分割后的各部分图像被遮挡的概率，并基于所述各部分图像被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率；

通过最小化与每个像素被遮挡的概率有关的匹配误差函数，使人脸的二维形状模型相对于人脸形状进行匹配，从而获取当前帧图像上人脸关键点的位置，以完成对人脸的跟踪，

13.如权利要求12所述的方法，还包括：

利用分类器来确定对人脸的跟踪是否成功。

14.如权利要求12或13所述的方法，其中，分割图像的步骤包括：使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片；并且，估计人脸位置的图像中每个像素被遮挡的概率的步骤包括：基于每个图像片被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

15.如权利要求12或13所述的方法，其中，分割图像的步骤包括：将人脸位置的图像分割成与各个人脸器官对应的至少一个图像区域；并且，估计人脸位置的图像中每个像素被遮挡的概率的步骤包括：基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率，并基于每个图像区域被遮挡的概率来估计人脸位置的图像中每个像素被遮挡的概率。

16.如权利要求12所述的方法，其中，分割图像的步骤包括：将人脸位置的图像分割成至少一个图像片和至少一个图像区域；并且，估计人脸位置的图像中每个像素被遮挡的概率的步骤包括：基于遮挡概率模型来分别估计每个图像片和每个图像区域被遮挡的概率，并基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

17.如权利要求16所述的方法，其中，分割图像的步骤包括：使用基于颜色和位置坐标的像素聚类算法将人脸位置的图像分割成至少一个图像片，并按照预先定义的人脸器官，将所述至少一个图像片中对应于相同人脸器官的图像片合并为图像区域。

18.如权利要求12、13或16所述的方法，其中，从当前帧图像确定人脸位置的步骤包括：在当前帧图像中检测人脸特征点，在关键帧数据库中选择与人脸特征点在特征向量方面匹配的对应特征点，然后通过使对应特征点在当前帧图像上的投影与人脸特征点之间的距离度量最小，来计算一种人脸三维形状模型的三维位置和旋转参数，使用此三维位置和旋转参数计算人脸二维形状模型的关键点在图像中的位置，从而确定当前帧图像中人脸的位置，

19.如权利要求18所述的方法，其中，基于人脸特征点与计算出的所述一种人脸三维形状模型中的对应特征点在当前帧图像上的投影之间的距离是否小于预定阈值来确定所述人脸特征点是否为被成功匹配的特征点。

20.如权利要求16或17所述的方法，其中，估计人脸位置的图像中每个像素被遮挡的概率的步骤包括：基于图像片遮挡概率模型来估计每个图像片被遮挡的概率；基于图像区域遮挡概率模型来估计每个图像区域被遮挡的概率；基于每个图像片和每个图像区域被遮挡的概率，估计人脸位置的图像中每个像素被遮挡的概率。

21.如权利要求20所述的方法，其中，如果确定对人脸的跟踪成功，则在当前帧没有被遮挡的情况下利用相应的图像片来更新图像片遮挡概率模型，并利用相应的图像区域来更新图像区域遮挡概率模型。

22.如权利要求12、13或16所述的方法，其中，所述匹配误差函数还包括人脸二维形状模型与人脸三维形状模型的二维投影之间的偏差项。