CN101930611A

CN101930611A - 多视图面部追踪

Info

Publication number: CN101930611A
Application number: CN2010102702528A
Authority: CN
Inventors: G·斯瓦米纳桑; S·J·贝德罗斯; U·S·亚胡南丹; J·特罗贾诺瓦
Original assignee: Honeywell International Inc
Current assignee: Honeywell International Inc
Priority date: 2009-06-10
Filing date: 2010-06-09
Publication date: 2010-12-29
Anticipated expiration: 2030-06-09
Also published as: US20100316298A1; GB2471013A; US8731238B2; CN101930611B; GB201009566D0; GB2471013B

Abstract

本发明涉及多视图面部追踪。一种追踪移动通过视频序列的多个帧(图14)中面部的系统和方法，获得面部在视频帧中的预测位置(310，510)。执行搜索以确定被检测面部的外观模型的相似值(320，525，530)。获得被检测面部的动作和外观概率(910，920，930)；以及根据联合概率数据关联滤波器将所述视频帧中的面部与追踪(330，940)相关联。

Description

多视图面部追踪

背景技术

在视频序列中追踪面部(face)是自动视频监视的重要方面。它是很多应用的前驱，这些应用诸如基于面部识别的视频、面部的追踪和标记、关联、挖掘和多镜头(multi-camera)索引。使用诸如皮肤颜色和基于边缘的面部结构特征之类的多个特征在视频中进行面部追踪，是一个已研究了很久的问题。当与追踪其他目标(如人、车或者其他感兴趣的目标)相比时，追踪面部呈现出一些独特的问题。

就面部的颜色来说，面部基本上是统一的，这使得追踪方案有可能使用颜色作为外观模型。很多研究者已使用从面部皮肤颜色得到的特征(如颜色柱状图)来进行面部追踪。使用面部颜色作为外观模型来进行追踪为不同头部姿势变化提供了不变性。然而，当背景是相似的颜色或者在环境光照变化的场合时，使用颜色进行面部追踪的问题就变得有挑战。使用面部边缘信息作为面部追踪的外观模型被证实对于光照变化具有鲁棒性。然而，平面外的面部姿势的变化使2D边缘模型的匹配变得糟糕。还使用了一种推广的追踪算法，该算法使用高斯混合来模仿外观(apperance)。也可使用它来追踪具有姿势变化的面部，典型地平面内姿势变化。其他可以使用外观模型并且将追踪嵌入到粒子滤波器框架中。

视频中的面部追踪使用两种主要方法。在一种方法中，检测(或者手动标记)面部的局部特征，并且随着时间的推移追踪这些特征。如果需要计算面部的定向连同面部位置(就像用于人机交互应用那样)，则这种方法是有用的。另一种方法利用把面部从背景中辨别出来的面部的全局特征，如颜色柱状图。

在监视视频中，需要追踪多个面部，面部大小和24×24像素一样小，这使得难以识别和追踪局部特征。这些面部可以经历光照变化(因为阴影和室内照明)，可以具有部分遮挡、不完全检测，并且可以具有大的姿势变化。背景也有可能杂乱无章，这取决于设置。

附图说明

图1A和1B是图示根据实例实施例的高斯差分(DOG)滤波器模型的图表。

图2A、2B和2C图示根据实例实施例用于面部的图1A和1B的滤波器的输出。

图3是根据实例实施例的面部检测和追踪的伪代码表示。

图4是图示根据实例实施例的更新粒子滤波器的方法的带有伪代码的流程图。

图5是根据实例实施例使用多个模型来追踪面部的方法的流程图表示。

图6是根据实例实施例的预测的位置的框图表示。

图7是根据实例实施例来自监视视频中的一系列帧，其图示所述帧之间在改变光照条件下的面部追踪。

图8是根据实例实施例面部与追踪的关联以及场景中的同时追踪的示图。

图9是图示根据实例实施例对经过检测的面部的追踪选择的流程图。

图10是图示根据实例实施例最佳假设的选择的流程图。

图11是图示根据实例实施例最佳假设的选择的图表。

图12是图示根据实例实施例减小面部的预测区域中的检测阈值的流程图。

图13图示根据实例实施例具有反馈以及没有反馈的面部检测。

图14是图示根据实例实施例回溯以在在先帧中识别面部的一系列帧。

图15是用于实施根据实例实施例的方法的典型计算机系统的框图。

具体实施方式

在下面的描述中，参照形成其一部分的附图，并且其中通过可以实现的阐述性特定实施例的方式示出。足够详细的描述这些实施例以使本领域技术人员能够实现本发明，并且应该理解可以利用其他的实施例并且做出结构的、逻辑的、和电气的改变而没有脱离本发明的范围。因此，下列实例实施例的描述不应该以限制性的意义来理解，且本发明的范围由所附权利要求来限定。

在一个实施例中，本文所描述的功能或算法可以由软件来实施，也可以由软件、硬件和人实施的过程的组合来实施。软件可以包括存储在诸如存储器或其他类型的存储设备之类的计算机可读介质上的计算机可执行指令。更进一步地，这些功能对应于模块，所述模块是软件、硬件、固件或它们的任意组合。多个功能可以如所期望的在一个或多个模块中执行，所描述的实施例仅仅是示例。软件可以在数字信号处理器、ASIC、微处理器或者在计算机系统(如个人计算机、服务器或者其他计算机系统)上操作的其他类型的处理器上运行。

提供了一种用于追踪移动通过多个视频帧的面部的系统和方法。获得面部在视频帧中的预测位置。对预测位置周围限定的搜索区域中的每个位置执行颜色模型和边缘模型的局部搜索来得到相似的值，其被表示为相关值。然后组合所述相关值来确定最佳位置匹配以在视频中追踪面部。

在该描述中，首先描述了用于面部表示的多个独立的外观模型，然后描述预测面部的位置的方法。JPDAF(联合概率数据关联滤波器)被用于关联面部并为图像追踪选择最佳的模型假设。还描述了组合模型结果来追踪面部的方法。

在一个实施例中，将来自面部外观模型的边缘表示和颜色表示的表示组合起来以追踪面部。在一个实施例中，颜色表示是输入图像的YCbCr色彩空间。在一个实施例中，边缘表示是灰阶输入图像上的高斯差分(DOG)滤波器的输出。在一个实施例中，这两个模型是独立的，并且可以用来表示面部的外观，并通过视频的多个帧追踪面部。在一个实施例中，每个模型都提供相关值，所述相关值可以以相乘的形式组合以提供最终的相关矩阵，该相关矩阵也可以用于追踪。

面部检测和追踪系统可以接收视频帧或者图像的序列(视频文件，在线流)。在一个实施例中，序列中的图像是位图格式，但是任何任意的格式都可以很容易地转化成这种格式。在一个实施例中，该系统对帧速率并没有特殊要求，就如同对单个帧进行操作那样。一些用于追踪的参数可以基于帧速率调谐。参数默认设置以8-25fps操作良好。

DOG滤波器如在图1A和1B中图示的那样。图1A图示中心导通周围截止滤波器(on-center，off surround filter)的响应，图1B图示周围导通中心截止滤波器(off-center，on surround filter)的响应。DOG滤波器在图像边缘周围(即在存在强度变化的地方)有高的响应，并且在均匀区域有低(或者为零)的响应。在一个实施例中，DOG滤波器可被当作基于边缘的模型或者面部略图(sketch)。虽然对边缘进行响应，DOG滤波器是非定向的滤波器，因此对定向不敏感。具有这种特性的单元(cell)已经在人体视频系统的外侧膝状体(lateral geniculate nucleus，LGN)层中发现，这是视频处理的第一阶段。这种滤波器具有对比规一化(contrast normalization)特性(其有助于处理光照变化)。还示出DOG滤波器可以用于面部识别。DOG滤波器可以提供良好的识别率并且可以应对轻微的姿势变化。

对基于边缘的模型而言，使用灰度级面部图像的高斯差分(DOG)输出。存在两种类型的滤波器，即中心导通周围截止滤波器和中心截止周围导通滤波器。虽然，一个滤波器的输出足以获得另一个滤波器的输出(基本上中心截止的输出是中心导通输出的负数)，还是使用两个滤波器以使得外观模型的表示是正的。当刺激处于中心时，中心导通周围截止滤波器进行响应，而当刺激处于周围时中心截止周围导通滤波器进行响应。尤其是，眼睛区域比面部的其他区域更黑，因此在这些区域中，中心截止周围导通滤波器响应超过中心导通周围截止滤波器。除了符号变化之外，中心截止周围导通滤波器的响应同中心导通周围导通滤波器的响应是相似的。尽管它们是相似的，但还是使用两个滤波器，因为正负部分的分别表示比单个数字表示更有效。滤波器被定义为：

ON (x, y) = \frac{1}{2 π σ_{c}^{2}} e^{- \frac{x^{2} + y^{2}}{2 σ_{c}^{2}}} - \frac{1}{\sqrt{2 π σ_{s}}} e^{- \frac{(x^{2} + y^{2})}{2 σ_{s}^{2}}} - - - (1)

OFF (x, y) = \frac{1}{2 π σ_{s}} e^{- \frac{x^{2} + y^{2}}{2 σ_{s}^{2}}} - \frac{1}{\sqrt{2 π σ_{c}}} e^{- \frac{(x^{2} + y^{2})}{2 σ_{c}^{2}}} - - - (2)

其中，σ_c是中心高斯的标准偏差，σ_s是周围高斯的。在一个实施例中，σ_c＝3和σ_s＝1.6*σ_c。σ_s＝Kσ_c被用于周围高斯，其中K是常量。滤波器可以被归一化以使得正值之和等于1并且负值之和等于1。这导致对于均匀区域的零响应。使用中心周围滤波器导致两组特征：

ONOUT＝ON*I (3)

OFFOUT＝OFF*I (4)

其中I是输入图像，*是卷积运算符。ONOUT和OFFOUT表示相应滤波器的输出。在一个实施例中，该表示用作外观模型。在一个实施例中，可以通过改变滤波器参数σ_c或者方差(variance)来获得一组高斯差分模型以获得一族边缘模型。

图2A、2B和2C图示DOG滤波器的输出。图2A是输入图像。图2B是ON滤波器的输出，且图2C是OFF滤波器的输出。

色彩模板外观模型基本上是目标在适当的色彩空间里的快照。在一个实施例中，使用YCbCr色彩空间来表示面部。YCbCr色彩空间对于皮肤和非皮肤像素之间的辨别力比其他色彩空间可以更好。可以通过使用不同的转换函数将RGB空间转换为YCbCr空间来创建YCbCr空间。在这样的空间中表示面部可以提供面部像素和非面部像素之间的最大分离，并因此更好地帮助追踪面部。在一个实施例中，可以通过组合来自DOG和色彩模板外观模型的结果来处理光照和姿势的变化。使用这两个模型并组合它们便于在头部姿势和周围光的光照发生变化时，在监视视频中可以可靠地进行面部追踪。

图3以伪代码的形式图示了用于追踪面部的整个计算机实施的方法300。面部追踪方法300使用来自面部检测器的检测并且随着时间的推移对面部进行追踪。方法300的输入是一组来自视频的特定帧的每个模型的检测。

面部检测部分包括如下内容：

1、将帧转化成所需的格式

2、计算快速处理的结构(积分图像(integral image))

3、对图像进行不同规模的扫描(随意适应)——对每个扫描窗口执行如下操作：

1、由“全部姿势”面部检测器处理

2、由5-平面外姿势检测器处理

4、产生的检测的后处理：

1、使用聚集(grouping)技术的非最大抑制和误报(false alarm)降低

2、使用5-姿势SVM分类器的进一步误报降低

面部追踪部分包括如下内容：

1、使用JPDAF机制的检测和现有追踪的关联

2、对于剩余的追踪

1、从粒子滤波器获得预测

2、使用外观模型搜索预测点周围以找到最佳匹配

3、更新最佳匹配位置以作为当前帧中的追踪位置

3、对于任何剩余检测

1、为该检测启动新的追踪

2、为该追踪构造预测和外观模型

如伪代码表示300中所示的那样，对于如在305处所指示的每一个视频追踪，在310处获得面部的预测位置。如果预测位置在帧之外，则可以在315处删除该追踪。在320处，就将找到该预测位置周围的最佳匹配。

在325处，基于最佳匹配位置同检测位置之间的重叠，将检测与追踪相关联。如果在330处多于一个追踪与检测相关联，则除了有最佳重叠的关联之外，移除其余的关联。在另一实施例中，使用JPDAF框架进行关联，这将在下面进一步描述。

在335处，对于每个没有与追踪相关联的检测，对该检测启动新的追踪。如果追踪没有与检测相关联而且该追踪持续不足两帧，则它将在340处被删除。

在一个实施例中，使用粒子滤波器随着时间的推移提供对追踪位置的预测。可以在另一些实施例中使用其他滤波器。在一个实施例中，面部的四个状态可以被追踪。它们是左上位置(x，y)和速度(vx，vy)。还保持每个粒子的权重。对每个追踪而言，保持以下变量：

1、P_i ^x(t)-t时刻粒子i的左上x位置

2、P_i ^y(t)-t时刻粒子i的左上y位置

3、P_i ^xv(t)-t时刻粒子i在x方向上的速度

4、P_i ^yv(t)-t时刻粒子i在y方向上的速度

5、wt_i(t)-t时刻粒子i的权重

当检测器检测到面部时，就创建新的追踪，并且相应的粒子也被初始化。用1000个粒子(初始恒定速度为1)的组将每个追踪初始化，并且粒子的位置分布在被检测面部的左上位置周围。在一个实施例中，1000个粒子被提供为具有围绕被检测面部的左上角周围的初始位置，并且初始权重被设置为常量：

p_{i}^{x} (1) = {obs}^{x} + σ^{*} G (i)

p_{i}^{y} (1) = {obs}^{y} + σ^{*} G (i)

p_{i}^{xv} (1) = X_{VEL} + σ^{*} G (i)

p_{i}^{yv} (1) = Y_{VEL} + σ^{*} G (i)

{wt}_{i} = \frac{1}{N}

其中，obs^x(t)，obs^y(t)是$t$时刻追踪的观察(x，y)位置(来自面部检测器)。X_VEL，Y_VEL是初始速度，G(i)是高斯随机数，σ(西格马)是变量，且N是粒子数。粒子围绕检测位置的分布依赖于σ。在追踪器的一个实施例中，σ被设置为2。

对任何时刻t，按照如下内容获得来自粒子滤波器的位置的预测：

\hat{x} = \frac{1}{N} \underset{i}{Σ} p_{i}^{x}

\hat{y} = \frac{1}{N} \underset{i}{Σ} p_{i}^{y}

如图4中的400所示，粒子滤波器也在不同时间被更新。假设被观察的位置(来自检测的位置或者通过搜索而获得的位置)为obs^x(t)，obs^y(t)。可以在405处通过下式获得速度估计：

{obs}_{v}^{x} (t) = {obs}^{x} (t) - {obs}^{x} (t - 1)

和

{obs}_{v}^{y} (t) = {obs}^{y} (t) - {obs}^{y} (t - 1)

下面的步骤用于更新粒子滤波器：在410处基于观察重新计算粒子的权重：

{wt}_{i} = \exp (- 0.5 * (\frac{{(p_{i}^{x} - {obs}^{x})}^{2} + {(p_{i}^{y} - {obs}^{y})}^{2}}{σ_{d}} + \frac{{(p_{i}^{xv} - {obs}^{xv})}^{2} + {(p_{i}^{xv} - {obs}^{xv})}^{2}}{σ_{dv}}))

其中，σ_d和σ_dv分别对位置和速度。这确定了不同粒子的权重值分布。

在415处，基于权重重新采样粒子。通过基于原始粒子的权重重新采样原始粒子组来生成大约(50+P)％的新粒子，其中P的范围为从0到50。采用替换算法的采样可以被用于重新采样粒子。

可以在445处使用观察来构造(populate)剩余(50-P)％的粒子。这些粒子可能使得它们的状态分布于观察的周围，就像在初始化中那样。然后在450处更新粒子的状态。在一个实施例中，使用下式来更新粒子的状态：

p_{i}^{x} (t + 1) = p_{i}^{x} (t) + p_{i}^{xv} (t) + σ * G (i)

p_{i}^{y} (t + 1) = p_{i}^{y} (t) + p_{i}^{yv} (t) + σ * G (i)

p_{i}^{xv} (t + 1) = p_{i}^{xv} (t) + σ * G (i)

p_{i}^{yv} (t + 1) = p_{i}^{yv} (t) + σ * G (i)

{wt}_{i} = \frac{1}{N}

其中，σ为常量。

如图5中500所示，可以执行搜索以找到最佳匹配。在一个实施例中，为了找到当前帧的追踪位置，完成使用预测位置周围的外观模型的搜索以便找到最佳匹配，这个最佳匹配然后被用来更新外观模型。

在一个实施例中，可以建立基于多尺度特征的外观模型。接着可以基于面部检测器所检测到的面部的尺度选择外观模型的尺度。对单个面部而言，不同尺度的多个外观模型可以被保持并且被相应地进行更新。在另一些实施例中，外观模型也可以基于面部的姿势。如果姿势信息改变，则外观模型被较快地更新，而如果同样的姿势信息被保持，则被较慢地更新。

粒子滤波器可以用来捕获动作信息并且预测随着时间的推移被追踪面部的位置。粒子滤波器可以比卡尔曼(Kalman)滤波器更高效，这归咎于他们处理非线性和非高斯特性的追踪。通过状态方程和观察模型来定义粒子滤波器。状态转换方程被定义为：

θ_t＝F(θ_t-1，U_t) (5)

其中θ_t表示t时刻的滤波器状态，F(.)是状态转换函数，U_t是系统噪声。观察模型被定义为：

Y_t＝G(θ_t，V_t) (6)

其中Y_t定义给定状态θ_t的观察，G(.)是观察模型函数，V_t是过程噪声。粒子滤波器通过经过加权的粒子组接近后验分布(posterior distribution)。对预测值的估计可以通过最小均方误差估计来获得：

{\hat{θ}}_{t} = Σ_{i = 1}^{N} W_{t}^{i} θ_{t}^{i} - - - (7)

在510处，从粒子滤波器获得预测位置(x，y)。对面部的位置(x，y)和速度(v^x，v^y)建模。这些形成状态变量。状态转换被表示为固定的恒定速度模型，其中γ_t是随机的高斯噪声。在一个实施例中，1000个粒子被用来对分布建模。通过下式给出变量的估计：

x_{t + 1} = x_{t} + v_{t}^{x} + γ_{t}

y_{t + 1} = y_{t} + v_{t}^{y} + &upsi; γ_{t}

v_{t + 1}^{x} = v_{t}^{x} + γ_{t}

v_{t + 1}^{y} = v_{t}^{y} + γ_{t}

X_{t} = \frac{1}{N} \underset{i}{Σ} x_{t}^{i} W_{t}^{i} - - - (8)

Y_{t} = \frac{1}{N} \underset{i}{Σ} y_{t}^{i} W_{t}^{i} - - - (9)

其中，(X_t，Y_t)是t时刻位置的预测，

是与粒子相关的权重，且如先前所定义那样γ_t是高斯随机噪声。基于以下等式来估计每个粒子的权重：

w_{t + 1}^{i} = \exp (\frac{D (t)}{2} + \frac{V (t)}{2}) - - - (10)

D (t) = \frac{{(X_{t} - {OX}_{t})}^{2} + {(Y_{t} - {OY}_{t})}^{2}}{σ_{xy}^{2}} - - - (11)

V (t) = \frac{{(v_{t}^{x} - ({OX}_{t} - {OX}_{t - 1}))}^{2} + {(v_{t}^{y} - ({OY}_{t} - {OY}_{t - 1}))}^{2}}{σ_{v}^{2}} - - - (12)

其中，

是粒子i在t时刻的权重，(OX_t，OY_t)是t时刻位置的观察结果(基于搜索的最佳估计)，σ_xy＝10且σ_v＝20。每次迭代之后，为下次迭代选择最佳粒子。这通过重新采样策略完成。在一个实施例中，使用具有替换算法的选择来进行重新采样。这保证粒子始终一致地表示追踪位置。与这个一起，观察可以被用来替换具有最低权重的粒子。当前的观察被用来散播(seed)粒子的状态。

在面部检测和追踪系统的一个实施例中，如下使用粒子滤波器算法：

·使用1000个粒子初始化粒子滤波器。使用第一次观察来初始化粒子的状态。这从面部检测器获得。

·使用式(10)传播(propagate)粒子的状态

·使用具有替换算法的选择重新采样70％的粒子。这保证下次迭代时选择具有高权重的粒子

·用当前的观察替换剩余的30％的粒子

·使用式8和9预测下个位置

在510处，从粒子滤波器获得预测位置(x，y)。在515处，搜索区域被固定为(x₁，y₁，x₂，y₂)，其中：

x₁＝x-appModelWidth

y₁＝y-appModelWidth

x₂＝x+appModelHeight

y₂＝y+appModelHeight

也就是说，搜索区域是外观模型尺寸的两倍。

对于尺度＝0.95，1，1.05，外观模型可以在525处被重新调整尺寸以匹配该尺度。在525中处，[^C]＝相关值，对于色彩模板外观模型，可以通过搜索区域内的模板匹配获得该相关值。[^D]＝相关值，对于DOG外观模型，可以在530处通过搜索区域内的模板匹配获得该相关值。然后在540处使这些相关值相乘，[^F]＝[^C]*[^D]，其中，[^F]是最终的相关值矩阵。同样在540处，尺度s的最佳位置是相关值为V_S的

在545处基于最大的相关值从三个位置选择最好的一个：

(x_b，y_b)＝argmaxsVs

图6是在600搜索最佳匹配的图形表示。610处的x，y指示预测位置。实线615指示帧，虚线620指示搜索区域，而点线625指示外观模型的尺寸。

将使用两种外观模型搜索所获得的相关值相乘以得到最终的相关矩阵，正如上面540处那样。然后在545处使用最终的相关矩阵寻找最佳的匹配位置。相乘保证了最终的最佳位置对两个外观模型都具有高相关值。这种方式的一个令人感兴趣的方面在于对每个外观模型，相关值的范围是不同的。例如，在一个实施例中，色彩模板外观模型的范围是从0.96到1，而DOG外观模型的范围是从0.3到1。因为范围的不同，最终的位置估计有可能被DOG外观模型严重影响。在一个实施例中，在相乘之前归一化相关值。在其他实施例中，相关值被加权，以使得与检测的视频条件匹配的模型的相关值有更高的权重。

来自粒子滤波器的预测的位置给出了追踪的近似定位。从外观模型来获得面部的维度(宽度，高度)。当面部被检测时，由面部检测器提供的宽度和高度可以用来构造外观模型。在这之后，在尺度空间搜索该面部来确定适当的宽度和高度。根据预测位置，构造搜索区域。

如果追踪器丢失了面部，则难以使该追踪器重新获取面部，因为所估计的位置严重影响预测位置(由于最新的观察已经被合并到框架中)。于是在一个实施例中，粒子滤波器框架保持粒子的多个分布。在一个实施例中，提升的(boosted)粒子滤波器使用AdaBoost(自适应提升-修改分类器以有利于前面的分类器错误分类的情形)检测来形成一部分所建议的分布。特别地，基于参数，一些粒子可以基于AdaBoost检测根据所提议的分布进行采样，而一些基于状态估计而进行采样。这有助于追踪器依赖状态估计和AdaBoost检测，从而互相补充。尽管一些粒子基于错误的估计而被分布，但其他一些仍然基于检测(假设是正确的)而被分布，并且因此追踪器将能够重新获取追踪。

图7示出用来图示处理光照变化的几个帧。在帧15和帧17之间，光照从亮显著地变化到暗。在这样的光照变化下，单独使用色彩模板外观模型将会丢失追踪。然而，色彩模板加上DOG外观模型的组合模型执行的更好。这个人被标记，并且从帧5到帧18都被追踪。随着光的改变，追踪仍然被保持。

JPDAF可以用于关联和选择最好的假设。当在帧中存在多个检测时，可以使用JPDAF机制将检测与合适的追踪关联起来。可以为追踪生成多个假设(对于追踪的位置)，并且最好的假设可以基于动作和外观的联合概率进行选择，这也使用JPDAF。基于联合概率的数据关联框架(JPDAF)是这样的数据关联框架，其基于联合概率(关于动作和外观)为追踪计算最佳的关联。

在典型的情况下，在场景中同时存在多个追踪，因为在该场景中，存在与每个所检测的面部相关联的追踪。追踪器的输入是面部检测器连同输入图像的输出。面部检测器的输出通常包括对单个帧的多个检测。问题是检测与对应追踪的关联。例如，图8示出检测器的输出，其包含三个检测(由每个面部周围的方框所指示)，其中的两个彼此非常靠近。由于在该场景中存在三个追踪(每个人一个)，所以问题是将两个彼此非常靠近的面部追踪与它们对应的检测关联。

存在可以完成这个任务的很多方法，比如最近邻关联。在最近邻关联中，将最接近追踪的预测位置的检测与追踪关联起来。这种方法的主要问题是，如果存在两个邻近的面部(由此追踪)，并且仅它们中的一个具有检测，则追踪就会与错误的检测关联。

在图9的流程图中以900图示的一个实施例中，为了将检测与追踪相关联，两种概率被考虑。它们是动作概率和外观概率。动作概率表示检测同预测位置的接近程度，而外观概率表示检测外观同追踪的外观模型的匹配程度。基于这些概率来确定关联。

在一个实施例中，使用JPDAF框架进行数据关联。如上面在910处所描述的那样计算动作概率。基于粒子滤波器的预测位置和检测的坐标被用来计算动作概率。在920处基于检测的图像区域和外观模型之间的相关匹配来计算外观概率。在一个实施例中，为了使检测与追踪相关联，在930处为具有所有追踪的检测都计算动作和外观概率。然后，在940处，将具有最高概率的追踪选择为检测的关联追踪。

如图10中1000所图示的那样，JPDAF也被用于为追踪选择最佳的假设。对于追踪，如果检测同追踪匹配得不是很好，或者如果不存在与该追踪相关联的检测，就会生成多个假设。在这种情况下，基于外观模型的搜索被使用来生成额外的假设。添加的多个假设为：

·基于色彩模板模型搜索的假设

·基于DOG模型搜索的假设

·基于色彩模板和DOG模型的融合(fusion)的假设

·基于来自粒子滤波器的预测的假设

如图11所图示的那样，在1020处将这四个假设添加到每个追踪的图形1100。如果在假设的预测位置存在重叠，则仅将一个结点添加到图形中。例如，在905处追踪2基于(1)利用DOG外观模型进行的搜索1110，(2)来自面部检测器的检测1115，(3)基于色彩模板外观模型的搜索1120，以及(4)基于DOG和色彩模板的融合结果的假设1125，有添加到图形中的四个假设。概率指示在结点之间的图形边缘上。在1030处从这四个中选择最佳的假设。这个假设由基于色彩模板的搜索1120返回。这基于具有该假设的追踪的动作和外观概率进行计算。

在1040处所指示的下一帧中，过程继续。同样的追踪有三个假设，(1)搜索1130-由于三个搜索结果(色彩，DOG和融合)返回类似的假设，所以他们被融合为一个假设，(2)检测1135和(3)来自粒子滤波器的预测1140。这时，基于动作和外观概率，检测假设1135被选择为最佳假设。

一旦建立追踪，在1040处将在下一帧中追踪的预测位置传递到检测器。该信息被检测器用来改进检测，如图12中的1200所示的那样。在1210处，依据面部的MBR(最小外包矩形(minimum bounding rectangle))，追踪器获得下一帧的所有追踪的估计位置。在1220处，当搜索区域落在MBR之内时，于是检测器将阈值降低到检测的较低阈值。检测器阈值的设定值可以基于可接受的误报预先设定。通过降低阈值，MBR区域的检测率被增强。MBR区域通常覆盖单个面部，在该区域中的多个检测(如果有的话)可聚集到一起以形成单个检测。如果存在多个检测，则JPDAF相关算法负责将检测与对应追踪关联起来。基于追踪反馈的可变阈值的使用使得模块的检测(和追踪)得到改善，如在图13中所图示的两帧所示出的那样，在此处第一帧图示没有反馈的检测，其中前景中的面部上被检测；并且第二帧表示具有反馈的检测，在此处两个面部都被检测。一般来说，低的阈值将导致误中(false hit)，而高的阈值导致追踪中的面部丢失。通过动态调整期望面部所在区域的阈值，面部丢失和误中可以降到最低。

在典型的监视视频中，当面部第一次出现在场景中时可能并没有被检测到。这可能归咎于面部图像的质量，诸如面部的尺寸(小于可被检测到的最小尺寸)或者光照条件。于是，面部可以在场景中的一些帧之后才被检测到。为了建立面部的完全追踪，追踪器从被检测到的帧开始并且在时间上返回到可以被可靠追踪的点，来追溯(trace back)面部。使用回溯(backtracking)能力，即使仅在面部移动经过帧之后才跟踪(trace)追踪，随后信息被用来更好的描述人在哪里。

回溯系统也可以用来结合(merge)两个离线追踪。如果对于多个帧，追踪的回溯位置同另一个追踪的前进位置在空间和时间二者上都有重叠，则我们就可以假设追踪是类似的并把他们结合在一起。

在典型的视频中，追踪匹配过程可能导致追踪的漂移。在这样的情形中，追踪将依赖于背景并且通常在几帧之后被删除。这种方法的问题在于，追踪可以延续(1inger)的帧数是预先限定的，因而导致追踪分离。代替的是，多个帧的追踪可以被隐藏，并且之后仅在其于特定的时间内与检测关联的时候才示出。如果它与检测相关联，则所隐藏的追踪部分被重新跟踪并且连同追踪信息一起被存储。否则就删除该追踪。

在图14中的视频的几个帧中图示出具有多个行走的人和复杂背景的真实监视视频的实例。最初，视频中的面部通过面部检测器标记(检测)，然后被标记的面部被追踪。对图14的几个帧示出了追踪器的输出。在这个视频图像序列中，两个面部被追踪。面部被围绕他们绘制的方框识别。其他属性也可用来识别面部，如高亮。帧13中穿深色衬衣的人连同在帧20中贴近他的左边的一个人一起被指示出来。正如在后续帧中看到的那样，追踪器能够始终如一地追踪这两个人，尽管有各种姿势变化，包括他们到达楼梯的底部和转弯时一直发生的快速变化，就像帧100中穿深色衬衫的人转动他的头部。注意，当他们朝摄像机走来时，尺度也发生变化。

图15示出了执行用于进行上述算法和方法的程序(包括追踪器和检测器模块)的计算机系统的框图。以计算机1510形式的通用计算设备，可以包括处理单元1502、存储器1504、可移动存储设备1512、和不可移动存储设备1514。存储器1504可以包括易失性存储器1506和非易失性存储器1508。计算机1510可以包括多种计算机可读介质，或者能够访问包括多种计算机可读介质的计算环境，所述计算机可读介质例如易失性存储器1506和非易失性存储器1508、可移动存储设备1512、和不可移动存储设备1514。计算机存储设备包含随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)&电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、压缩盘只读存储器(CD ROM)、数字多功能光盘(DVD)或其他光学盘存储设备、磁盒、磁带、磁盘存储设备或者其他磁性存储设备，或者能够存储计算机可读指令的任何其他介质，以及包括视频帧的数据。计算机1510可以包括或访问计算环境，其包括输入1516、输出1518和通信连接1520。计算机可以使用连接一个或多个远程计算机的通信连接来在网络化环境中操作。远程计算机可以包括个人计算机(PC)、服务器、路由器、网络PC、对等设备(peer device)或者其他公共网络节点，等等。该通信连接可以包括局域网(LAN)，广域网(WAN)或其他网络。

存储在计算机可读介质上的计算机可读指令能够由计算机1510的处理单元1502执行。硬驱动(hard drive)、CD-ROM和RAM是包括计算机可读介质的物品的一些实例。

给出在变化的光照和头部姿势变化的情况下追踪面部的鲁棒性面部追踪系统。这个系统可以通过结合多个外观模型来处理光照改变。也可以可靠地处理平面内和平面外的姿势变化。使用DOG滤波器生成面部的外观模型。这个外观模型同色彩外观模型结合以获得通过光照、姿势、尺度变化的鲁棒性面部追踪。使用JDPAF框架来关联被检测面部以进行追踪并且从多个外观模型中选择最佳假设。多尺度特征也被使用以更有效地追踪在不同帧之间尺寸显著变化的面部。检测阈值也基于反馈在面部预期所在的矩形内变化来优化检测。更进一步地，可以基于面部的不同姿势来更新多个外观模型。

提供符合37C.F.R.§1.72(b)的摘要，但须理解它不是用于解释或限制权利要求的范围或含义。

Claims

1.一种追踪移动通过视频序列的多个帧(图14)的面部的计算机实施的方法，该方法包括：

获得面部在视频帧中的预测位置(310，510)；

执行搜索以确定被检测面部的外观模型的相似值(320，525，530)；

获得被检测面部的动作和外观概率(910，920，930)；以及

根据联合概率数据关联滤波器将所述视频帧中的面部与追踪(330，940)相关联。

2.如权利要求1所述的方法，其中，粒子滤波器(510，910)被用来获得面部在视频帧中的预测位置。

3.如权利要求1所述的方法，其中，所述外观模型包括边缘模型(530)，该边缘模型包括一组高斯差分(DOG)模型，或者包括一组高斯拉普拉斯(LOG)模型。

4.如权利要求3所述的方法，其中，通过改变滤波器参数西格马或方差来获得该组高斯差分模型。

5.如权利要求1所述的方法，并且其还包括反向追踪面部直到两个追踪可以合并为止。

6.如权利要求1所述的方法，并且其还包括降低在面部被预测的视频帧中的区域中的面部检测阈值(1220)。

7.如权利要求1所述的方法，并且其还包括：为追踪生成多个假设(1010)，以及根据联合概率数据关联滤波器识别追踪的最佳假设。

8.一种计算机可读存储设备，其具有用于在计算机上运行的指令以执行一种追踪移动通过视频的多个帧的面部的方法，该方法包括：

获得面部在视频帧中的预测位置(310，510)；

获得被检测面部的动作和外观概率(910，920，930)；以及

9.一种用于追踪监视视频帧中的面部的系统(1510)，该系统包括：

位置预测器(310，510)，其提供面部在视频帧中的预测位置；

外观模型(320，525，530)，其提供面部的预测位置周围的色彩和边缘的相似值；以及

用于根据联合概率数据关联滤波器将所述视频帧中的面部与追踪相关联的装置(330，940)。

10.如权利要求9所述的系统，其中，用于将所述视频帧中的面部与追踪相关联的装置通过将色彩模型相似值与边缘模型(530)值相乘来组合外观模型中的边缘模型相似值和色彩模型相似值(525，530)，其中，所述边缘模型包括具有DOG滤波器的高斯差分(DOG)模型，DOG滤波器在图像边缘周围具有高的响应，该系统还包括：

用于为追踪生成多个假设(1010)以及为追踪识别最佳假设(1030)以提供给用于关联视频帧中的面部的装置(330，940)的装置。