CN101051385A

CN101051385A - 特定被摄体跟踪方法和装置以及特征部跟踪方法和装置

Info

Publication number: CN101051385A
Application number: CN 200610072568
Authority: CN
Inventors: 艾海舟; 李源; 黄畅; 劳世红
Original assignee: Tsinghua University; Omron Corp
Current assignee: Tsinghua University; Omron Corp
Priority date: 2006-04-07
Filing date: 2006-04-07
Publication date: 2007-10-10
Anticipated expiration: 2026-04-07
Also published as: CN101051385B

Abstract

本发明提供了基于特征部检测的特定被摄体跟踪方法和装置以及特征部跟踪方法和装置。基于特征部检测的特定被摄体跟踪方法使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特定被摄体的位置和大小，所述特征部是特定被摄体的一部分，其特征在于，所述粒子滤波器的观测模型包括特征部观测模型，该特征部观测模型用于确定图像被子窗口划分出的子图像是特征部的似然度。

Description

特定被摄体跟踪方法和装置以及特征部跟踪方法和装置

技术领域

本发明涉及基于特征部检测的特定被摄体的跟踪方法和装置，以及特征部跟踪方法和装置。更具体地，本发明涉及基于人脸检测的头部跟踪方法和装置，以及人脸跟踪方法和装置。

背景技术

物体(如人脸、头部、其他人体部位、汽车、行人等)跟踪是计算机视觉领域普遍关注的研究课题，而头部跟踪作为其子问题之一，应用前景尤其广阔，在视觉监视、人体运动分析、摄像机自动对焦、智能导播和人机交互中都发挥着重要作用。

由于跟踪问题本身的复杂性，在计算机视觉领域，存在着大量的文献从各种角度研究各种不同形式的跟踪问题。不仅应用环境千变万化，跟踪对象各不相同，而且由于实际应用系统的需要和视频跟踪问题本质上的复杂性，不同的研究工作会对问题做出不同的假设、提出不同的目标。人脸、头部跟踪也是如此。已有的人脸、头部跟踪方法根据其视觉线索的特定化程度大致可以分为两类，一类主要使用色彩、角点、边缘、背景差分等比较通用的视觉线索(文献[4][11][12][13])，另一类则采用比较精细且复杂的几何及纹理模型(文献[14][15][16])。前一类方法事实上可以用于人脸/头部之外的绝大多数其他跟踪目标，虽然这些视觉线索的通用性使这类方法对目标和场景的变化有比较好的适应性，但是由于缺乏对特定跟踪目标的知识，在比较差的跟踪环境中往往缺乏对目标和背景噪声的区分力。第二类方法主要用于人脸跟踪或者脸部特征点的跟踪。它们一般要求跟踪目标比较清晰，不包含大小、位姿、光照，以及背景的剧烈变化。

相对于跟踪问题，检测问题与之长期处于相对独立的位置。其部分原因在于，一方面，跟踪面对的是视频序列，一旦被跟踪目标初始化以后，有大量的帧间相似性信息可以利用，而并不要求对人脸这个特殊的模式有所理解；相对而言，人脸检测问题就要复杂得多，其利用的特征都是经过对大量样本的学习得到的，用于检测的分类器也相当复杂。另一方面，跟踪问题一般要求实时性，即对速度的要求比较高，因此检测一般只作为跟踪过程的初始化。而且，特别的，对于头部跟踪问题，必然要求人脸检测器是覆盖多视角的。尽管人脸检测问题已被研究多年(文献([10][9][7][8][2])，但是满足上述要求的检测器却问世不久。继2001年P.Viola和M.Jones提出了基于Haar型特征和AdaBoost算法的层叠分类器方法(文献[7])并将其应用于正面人脸检测，达到了实时效果，其后出现了一大批关于人脸检测的研究(包括一些高速的多视角人脸检测系统(文献[8][2]))。这些进展使得将人脸检测用于视频成为可能。

将检测器应用于跟踪问题的尝试目前还很少(文献[18][5][6])。其中文献[18]采用的方法和本文将要探讨的方法差异较大(先采用背景差分的方法在每一帧图像中检测出行人，然后通过图搜索的方式建立已检测目标之间的时序关系从而实现跟踪)，其他两篇文献从不同角度尝试了将检测程序引入基于粒子滤波器的跟踪算法，其中文献[5]将检测器作为观测模型实现人脸跟踪，而文献[6]用检测结果作来预测目标状态，实现对人体的跟踪。文献[5]是与本发明的方法比较接近的一篇文献，但是文献[5]使用文献[9]的检测器进行人脸跟踪，其主要缺陷在于处理速度比较慢(26s每帧(352×288像素))。

发明内容

因而，本发明鉴于现有技术的上述问题而提出，用以克服上述现有技术的一个或更多个缺点，并提供至少一种有益的选择。

具体地，本发明的一个目的在于，提供一种基于特征部(如人脸)检测的特定被摄体(如头部)跟踪方法和装置，用于从视频序列中确定目标特定被摄体的位置和大小，并且要适应尽可能多的场景和目标变化，以应用于摄像和摄影设备的自动对焦等。为了获得鲁棒的跟踪性能，本发明将特征部检测器融入跟踪过程中。

本发明的另一目的在于，提供一种特征部(如人脸)跟踪方法和装置，用于从视频序列中确定目标特征部的位置和大小，并且要适应尽可能多的场景和目标变化，以应用于摄像和摄影设备的自动对焦等。

为了实现本发明的目的，根据本发明的一个方面，提供了一种基于特征部检测的特定被摄体跟踪方法，其使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特定被摄体的位置和大小，所述特征部是特定被摄体的一部分，其特征在于，所述粒子滤波器的观测模型包括特征部观测模型，该特征部观测模型用于确定图像被子窗口划分出的子图像是特征部的似然度。

为了实现本发明的目的，根据本发明的又一方面，提供了一种基于特征部检测的特定被摄体跟踪装置，其使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特定被摄体的位置和大小，所述特征部是特定被摄体的一部分，其特征在于，所述粒子滤波器的观测模型包括特征部观测模型，该特征部观测模型用于确定图像被子窗口划分出的子图像是特征部的似然度。

为了实现本发明的目的，根据本发明的另一方面，提供了一种特征部跟踪方法，其使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特征部的位置和大小，其特征在于，所述粒子滤波器的观测模型包括特征部观测模型，该特征部观测模型用于确定图像被子窗口划分出的子图像是特征部的似然度。

为了实现本发明的目的，根据本发明的再一方面，提供了一种特征部跟踪装置，其使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特定被摄体的位置和大小，所述特征部是特定被摄体的一部分，其特征在于，所述粒子滤波器的观测模型包括特征部观测模型，该特征部观测模型用于确定图像被子窗口划分出的子图像是特征部的似然度。

附图说明

图1是示出人脸状态量的图；

图2示出了使用层分类器来获得置信度的过程；

图3示出了样本分别为正例和反例的分布图；

图4示出了样本为正例和反例的先验概率之比；

图5是示出头部状态量的图；

图6是示出头部的梯度信息的图；

图7是色彩观测模型的彩色直方图；

图8是色彩观测模型输出的似然度图；

图9是不同姿态下的头部彩色直方图；

图10示出了不同姿态下头部轮廓和人脸的关系；

图11示出了根据本发明实施例的基于人脸检测的头部跟踪过程的流程图；

图12示出了各种测试视频的跟踪结果示例；

图13示出了本发明方法与传统方法的测试结果对比；

图14示出了根据本发明实施例的人脸跟踪过程的流程图；

图15示出了根据本发明一个实施例的基于人脸检测的头部跟踪装置的示意框图；

图16示出了根据本发明另一实施例的基于人脸检测的头部跟踪装置的示意框图；

图17示出了根据本发明又一实施例的基于人脸检测的头部跟踪装置的示意框图；以及

图18示出了根据本发明一个实施例的人脸跟踪装置的示意框图。

具体实施方式

下面，参照附图，分别以人脸和头部作为具体的检测和跟踪对象，对本发明的优选实施例进行详细说明。

1、跟踪方法的一般原理

所谓头部跟踪是指，针对输入的图像序列，通过在每一帧图像中得到头部的状态(大小和位置)及其与上一帧中的头部状态的对应关系，确定图像序列中的头部的运动轨迹的过程。在本发明所采用的算法中，用一个加权样本集来描述目标状态可能的分布。每个样本对应一个特定大小和位置的图像子窗口，其权重代表这个子窗口是目标头部的概率(权重越大，这个子窗口越有可能是目标)，通过人脸检测器和其他视觉线索给出。每输入一帧图像时，首先根据一定运动预测模型改变上一帧的样本的位置和大小(起到预测当前目标状态的作用)；然后利用当前帧的图像信息，对每个新样本子窗口进行分析(使用人脸检测器和色彩、梯度等线索)，得到它是目标头部的概率，更新样本权重；最后利用新的样本权重对每个样本的大小和位置进行加权平均，所得的平均大小和位置作为对当前帧中目标状态的估计，输出作为跟踪结果。

本发明所提出的跟踪方法，以粒子滤波器作为跟踪算法框架。一方面，利用人脸检测器弥补了传统跟踪线索缺乏对跟踪目标的先验知识的缺陷；另一方面，扩展了传统粒子滤波器的采样过程，实现了人脸检测信息和其他视觉线索的数据融合。

粒子滤波器作为一种广泛采用的跟踪算法，基于贝叶斯概率建立了跟踪问题的数学模型并使用采样的方法来实现贝叶斯推测的过程。以下将首先简单介绍粒子滤波器的概念，并明确一些符号和提法的意义。

在跟踪问题中，首先用一组参数描述目标在某一时刻的状态，这组参数即是状态向量，记为x_t(t为表示时刻的下标，下同)，而X_t＝{x₁，...，x_t}表示到t时刻为止目标物体的运动序列。另一方面，观测值是由图像序列中的每一帧提取得到的特征和信息，用一个特征向量y_t表示，称为观测向量，同时称Y_t＝{y₁，...，y_t}为到t时刻为止的观测量。

观测量是可以从输入图像序列直接得到的，状态量不能直接得到，是隐含的。运动跟踪的问题就是从观测空间的随机序列推测状态空间中的一个轨迹。理想的状况是，在每一时刻t，求得分布p(x_t|Y_t)，一旦该分布已知，就可以估计出一个最优的状态量作为跟踪结果。最常用的有最小均方误差估计(MMSE)，可求得状态量的最佳估计为

{\hat{x}}_{t} = {&Integral; x}_{t} p (x_{t} | Y_{t}) {dx}_{t};

也可以采用最大后验概率估计(MAP)，求得

{\hat{x}}_{t} = \arg m {ax}_{x_{t}} p (x_{t} | Y_{t}),

等等。而求解该目标分布p(x_t|Y_t)的方法包括两步：预测和更新。预测的过程就是根据过去时刻的观测值预测当前状态值可能的分布：p(x_t|Y_t-1)。预测的计算方法是：

p(x_t|Y_t-1)＝∫p(x_t|x_t-1)p(x_t-1|Y_t-1)dx_t-1 (1)

注意到预测过程并没有用到t时刻(当前时刻)的观测信息，那么，在得到了当前状态的观测值之后，可以根据该观测值对预测的结果进行更新，得到对当前状态新的估计p(x_t|Y_t)，这就是更新。更新的计算公式为：

p(x_t|Y_t)∝p(y_t|x_t)p(x_t|Y_t-1) (2)

在给定状态转移模型p(x_t|x_t-1)和观测模型p(y_t|x_t)之后，反复进行预测和更新的操作就可以按在线的方式对目标物体的运动状态进行跟踪。其中状态转移模型就是在前一时刻目标状态的基础上推测当前时刻目标的可能分布；观测模型则负责根据当前时刻的图像信息对任何一个可能的目标状态给出其可能性。

由于解析计算的困难，在算法实现中，用加权样本(粒子)来模拟概率分布(CONDENSATION算法[1])。算法首先根据初始分布p(x₀)取样得到初始样本集

其中

π_{0}^{(i)} = \frac{1}{N_{p}},

这里N_p表示样本的个数。随后，在每一时刻，首先对上一时刻的样本集进行重采样，获得一个等权重的样本集，重采样并没有改变样本集表示的状态分布(P(x_t-1|Y_t-1))，但减少了无效样本(即权重很小的样本)，防止样本退化。在预测步骤中，根据状态转移模型对样本进行更新，更新后的样本集表示的是P(x_t|Y_t-1)。在校正步骤中，根据当前时刻的观测量给出样本权重，使得样本集表示的分布变为P(x_t|Y_t)。

粒子滤波器(CONDENSATION)采用加权采样的方法对于跟踪问题给出了一个一般的解决方法，然而，若要将这种方法应用于实际的视觉跟踪问题，必然需要对其中的抽象概念根据问题进行具体化，例如状态量和观测量等，尤其是关系到跟踪性能的观测模型p(y_t|x_t)。以下分别描述由人脸检测器构建的人脸观测模型以及由颜色和梯度信息构建的头部观测模型，最后再对传统的粒子滤波器进行扩充以融合以上观测模型。

2、人脸观测模型

根据人脸跟踪问题所关注的目标，可以定义状态向量为：x^f＝(x^f，y^f，s)。其中(x^f，y^f)表示目标人脸在图像中的坐标，s表示人脸的大小(参见图1)。由于观测模型是人脸检测器，所以观测量y即对应人脸。以下针对人脸跟踪问题建立观测模型p(y^face|x^f)。

在人脸跟踪问题中，观测模型p(y^face|x^f)的含义为，对于给定的状态向量x^f＝(x^f，y^f，s)，与其所表示的位置和大小相对应的图像子窗口是人脸的似然度(likelihood)的大小。设与状态向量x^f对应的图像子窗口为I_x，那么该似然度可以表示为p(人脸|I_x)。

虽然本发明采用的树状人脸检测器(文献[2])会对每个通过检测的子窗口给出一个，但仅仅对通过检测的子窗口给出置信度是不够的，作为一个观测模型，需要对任意一个子窗口给出一个似然度。因此，另一个直观的想法是，对输入的子窗口，输出它通过的最后一个层分类器(文献[2])给出的置信度。但是在实验中很容易发现，不同的层分类器(尤其是处于不同层的层分类器)输出的置信度对于不同的子窗口不具有可比性。

层分类器所输出的置信度的这一特点，是由分类器的训练过程所决定的。我们知道，向量推进算法(Vector Boost)(文献[2])的学习过程是基于大量已标定样本数据，用多个弱分类器的线性组合构成一个强分类器。因而强分类器的输出置信度是其包含的弱分类器输出的置信度的组合。

参照图2，每个弱分类器输出的置信度是这样得到的：对于当前样本集合中的每个样本，计算该弱分类器对应的Haar型特征值，根据这个特征值将样本投入查找表的不同槽中。而每个槽对应的置信度，是由落入该槽中的正例样本(即，是人脸的样本)和反例样本(即，不是人脸的样本)的统计关系确定的。也就是说，分类器输出的置信度仅由特征值落入同一个槽中的样本决定，而不是一个整体性的度量，这也从一个侧面说明了为何不能简单地用分类器输出的置信度来比较子窗口类似人脸的程度。

因此，采用如下方法从整体上把握正例和反例的分布情况。

首先，要求的似然度p(人脸|I_x)可以展开如下：

其中

为人脸和非人脸的先验概率之比。要计算似然度p(人脸|I_x)，我们要分别计算p(人脸|I_x)、p(非人脸|I_x)和r。

在训练完一个层分类器时，假设正例和反例在当前分类器的输出置信度空间中分别服从单高斯分布，将正、反例样本按照该层分类器输出的置信度进行统计，可以得到两个高斯分布的均值和方差(参见图3)。这两个高斯分布可以分别用来近似p(人脸|I_x)和p(非人脸|I_x)。

另一方面，在整个树状分类器的训练过程中，用于训练每个强分类器的样本也有所不同，已经被父结点分类器所排斥的样本将不再参加子结点分类器的训练(图4)，因而每个层分类器面对的样本中，正、反例样本的先验概率也是不同的，即r也不同。因为每个层分类器排斥正例和反例的比率都是在训练过程中设定的，若假定人脸和非人脸模式的原始先验概率之比为一个常数r₀(例如1∶10⁶)，就可以计算出任意一个层分类器所面对的人脸和非人脸模式的先验概率(参见图4)。假定当前要计算层分类器v对应的人脸和非人脸的先验概率比为r_v，设在从树状检测器的根节点层分类器v₀到v的路径上经过的层分类器依次为v₀，v₁，...，v_l，并且v_i对应的正例通过率和反例排斥率分别为α_i和β_i，i＝1...l。那么层分类器v对应的人脸和非人脸的先验概率比r_v为：

r_{v} = r_{0} Π_{i = 0}^{l} \frac{α_{i}}{1 - β_{i}} - - - (4)

综合以上几点，对任意一个输入的图像子窗口I_x，假设其在检测过程中通过的层数最大的层分类器为v，我们可以获得人脸和非人脸模式在该层分类器特征空间中的大致分布p_v(人脸|I_x)和p_v(非人脸|I_x)，以及人脸和非人脸模式的先验概率之比r_v。则所求的I_x是人脸的似然度可计算如下：

而之所以选择I_x通过的层数最大的层分类器来估计似然度，是因为在树状分类器中，层数越深，分类器对样本空间的划分却细，对人脸和非人脸模式的分类也越精确。

至此，我们已将人脸检测器的输出转化为一个观测模型的输出，可以直接用于比较各个输入子窗口类似人脸的程度。

3、头部跟踪中使用的其他视觉线索

为了在人脸不可见的情况下继续跟踪目标，需要加入新的不依赖人脸的观测模型，作为人脸检测器的补充。我们选择了两种视觉线索分别建立观测模型，其一是头部轮廓的梯度线索(文献[11])，其二是轮廓内部的色彩线索(文献[12][4])。这两种图像线索在其他有关跟踪技术的现有技术文献中已有提及，因此此处只做简要描述。

3-1、轮廓梯度信息

对某个椭圆轮廓样本(参见图5)，在圆周均匀选取度量线，即垂直于轮廓曲线的法向线段(固定长度L)。观测时，在轮廓曲线上每隔一段距离取一条度量线，只考察这些度量线上的梯度情况。图6是有关头部的轮廓梯度信息的图。在图6中，(a)示出了原图像和椭圆轮廓样本，(b)示出了水平方向梯度强度，(c)示出了垂直方向梯度强度，而(d)示出了度量线上的采样点梯度强度(梯度方向为轮廓法线方向)，其中的灰色线段为一条度量线。

对每条度量线l_j，假定其单位方向向量为 (即轮廓的法向)，用Sobel算子可以计算出l_j上一点z处的水平、垂直方向的梯度值分别为g_x(z)和g_y(z)，则该点处沿

的梯度大小为

g (z) = (g_{x} (z), g_{y} (z)) \cdot {\hat{n}}_{j} .

求出l_j上所有观测点中梯度最大值：

g_{\max} (l_{j}) = \max_{z &Element; l_{j}} {g (z)} .

则对所有度量线，整个椭圆轮廓的梯度累加和为：

G = \underset{j}{Σ} g_{\max} (l_{j}) .

为了构成梯度观测模型的输出，使用一个类似正态分布的函数将这个累加和作一定的变换，使得它的取值平滑并且范围一定，适合用于对样本进行加权：

p (y^{grad ient} | x^{h}) &Proportional; \exp - \frac{{(G_{\max} - G)}^{2}}{2 σ_{G}^{2}} - - - (6)

其中，取

σ_{G} = \frac{G_{\max} - G_{\min}}{3},

G_max和G_min分别是所有不同轮廓的梯度累加和中的最大值和最小值。

3-2、颜色信息

对色彩信息的利用，我们采用彩色直方图的形式。直方图的构成如下：色彩空间为(B-G，G-R，R+G+B)，三维互相独立，分别离散化为16个槽，因此一个直方图包含48个槽，记为：H＝(h₁，h₂，...，h₄₈)，其中h_i表示落入第i个槽中的像素数占目标区域总像素数的比例。具体地，参照图7，其中(a)示出了原始图像和轮廓，而(b)示出了轮廓内部图像的彩色直方图。

为了基于颜色信息对状态量x^h＝(x^h，y^h，a，b)进行观测(即获取p(y^color|x^h))，需要将x^h确定的直方图和参考直方图进行对比(越接近参考直方图，则p(y^color|x^h)应越大)。为此，定义直方图之间的距离度量如下(记参考直方图为H_ref＝(h_ref，1，h_ref，2，...，h_ref，48)，x对应的直方图为H_x＝(h_x，1，h_x，2，...，h_x，48))：

Bhattacharyya系数：

ρ (H_{ref}, H_{x}) = Σ_{i = 1}^{48} \sqrt{H_{ref, i} H_{x, i}} - - - (7)

直方图距离：

D (H_{ref}, H_{x}) = \sqrt{1 - ρ (H_{ref}, H_{x})} - - - (8)

观测似然度：

p (y^{color} | x^{h}) = \frac{1}{\sqrt{2 π} σ_{col}} \exp (\frac{D^{2} (H_{ref}, H_{x})}{2 σ_{col}^{2}}) - - - (9)

其中，σ_col通过实验选取为0.1。图8表示色彩观测模型输出的似然度，其中(a)为原始图像，而(b)示出了色彩观测模型输出的似然度，图中每点的亮度正比于以该点为中心的椭圆轮廓的似然度(大小均为左侧人物的头部大小)，参考直方图从左侧人物获得。可以看出由于两个人物头部颜色相近，因此都获得了比较高的似然度。

参考直方图是在跟踪开始时，通过人脸检测器自动初始化或者通过手工初始化来确定的，因此比较准确。然而在跟踪过程中，由于光照、姿态的变化，目标的颜色可能发生很大的改变，所以在跟踪初始建立的单个参考直方图很可能不够理想。人脸检测器提供的姿态信息可以帮助改善这一状况，算法中我们建立三种不同的参考直方图(参照图9，示出了正面(Frontal)、侧面((Half)profile)、人脸不可见((Half)rear)这三种不同姿态下的头部彩色直方图)，分别在目标第一次出现相应姿态时初始化。使用色彩观测模型时，假定目标在两帧之间没有明显的姿态变化，根据上一帧的姿态来选择最邻近的参考直方图，与之进行比较，计算色彩似然度。

4、扩展的粒子滤波器

梯度、色彩，以及人脸检测器三个观测模型中，前两者的观测对象是头部，后者的观测对象为人脸。同前文，记头部状态量为x^h＝(x^h，y^h，a，b)(上标h表示头部(head))，人脸状态量为x^f＝(x^f，y^f，s)(上标f表示人脸(face))。

此时，不仅要处理不同的视觉线索之间的关系，还要处理不同的状态量之间的关系，因为粒子滤波器只能对应一个状态向量(直接决定了对什么进行采样)。对于多个状态向量的问题，文献[4]有所提及，但是[4]中的不同状态量都是包含和被包含的关系，例如针对谈话人脸部颜色观测量的状态向量可能是(x，y，s)，含有位置和大小的信息；而针对谈话人声音观测量的状态向量是(x，y)，除了不含有大小信息，位置信息和前面一个状态向量是完全一致的，因此不会对采样过程有大的影响。但在我们的问题里，人脸的状态量和头部的状态量不论是位置还是大小都存在一种比较复杂的关系(受姿态、人的样貌的影响)。以下介绍本发明所采用的算法。

考虑到头部是跟踪的最终目标，并且头部可见是脸部可见的必要条件，因此定义粒子滤波器的状态向量x＝x^h＝(x^h，y^h，a，b)，脸部状态量x^f＝(x^f，y^f，s)作为辅助状态量。

首先推导滤波器的观测模型。基于头部状态量的观测量包含色彩观测量和梯度观测量两种：y^color和y^gradient；而基于人脸状态量的观测量为y^face。

假定头部观测量和脸部观测量彼此独立，则有：

p(y|x)＝p(y^color|x^h)p(y^gradient|x^h)p(y^face|x^h) (10)

其中，p(y^color|x^h)由色彩观测给出，p(y^gradient|x^h)由梯度模型给出。但是p(y^face|x^h)不能由人脸检测器直接给出。若以p(x^f|x^h)表示人的头部状态x^h＝(x^h，y^h，a，b)和脸部状态x^f＝(x^f，y^f，s)的关系，则有：

p(y^face|x^h)＝∫p(y^face|x^f)p(x^f|x^h)dx^f (11)

其中，p(y^face|x^f)由人脸检测器直接给出。

因此，粒子滤波器的观测模型为：

对于任意给出的一个样本x^h＝(x^h，y^h，a，b)，对∫p(y^face|x^f)p(x^f|x^h)dx^f的计算可以借鉴粒子滤波器的基本思想——采样。即用x^f的样本集{x^f，(i)}来模拟p(x^f|x^h)的分布，对每个x^f，(i)计算p(y^face|x^f，(i))，得到：

p (y^{face} | x^{h}) \overset{\cdot}{=} \underset{i}{Σ} p (y^{face} | x^{f, (i)}) .

其中，头部状态和人脸状态的关系p(x^f|x^h)可以用单高斯分布近似，即假设对给定的椭圆模型的头部状态x^c＝(x^c，y^c，a，b)((x^c，y^c)表示椭圆的中心，a、b分别表示椭圆的短轴和长轴，参见图5)，其相应的人脸状态x^f＝(x^f，y^f，s)满足：人脸中心横坐标相对于头部中心横坐标x^c的偏移量和头部横轴长度的比值服从高斯分布。纵坐标依此类推。人脸大小和头部横轴长度的比值服从高斯分布：

d_{x} = (\frac{x^{f} + \frac{s}{2} - x^{c}}{a}) - N (μ_{x}, σ_{x}) - - - (13)

d_{y} = (\frac{y^{f} + \frac{s}{2} - y^{c}}{b}) - N (μ_{y}, σ_{y}) - - - (14)

λ = (\frac{s}{a}) - N (μ_{s}, σ_{s}) - - - (15)

高斯分布的参数通过实际数据统计得到，数据中的人脸位置由检测器确定，头部位置通过手工来标定。参照图10，示出了不同姿态下头部轮廓和人脸的关系，其中(a)示出了正面(Frontal)、半侧面(Half profile)以及全侧面(Full profile)这三种不同姿态下的示例，而(b)示出了约2000个真实数据中的人脸中心相对于头部的位置(头部中心在原点，大小规范到[-1，1]x[-1，1])。由此注意到，对于不同姿态，人脸和头部的相对位置分布不同，鉴于人脸检测器可以提供目标的姿态信息(包含五种：左全侧面、左半侧面、正面、右半侧面，以及右全侧面)，本发明对五种姿态分别建立上述高斯模型来近似p(x^f|x^h)。

5、基于人脸检测的头部跟踪方法

5-1、跟踪方法的流程

下面参照图11的流程图对根据本发明的基于人脸检测的头部跟踪方法的过程进行描述。

首先，在步骤S100处，进行初始化处理。具体地，对输入的视频序列的第一帧进行人脸检测，在检测到的目标周围作高斯随机采样作为初始样本集

每个样本x₀ ⁽ⁱ⁾的形式为(x^c，y^c，a，b)，其中N_p为样本数。

接下来，随时间变化对视频序列中的每一帧图像按以下流程进行处理。

假定在时刻t-1样本集为{x_t-1 ⁽ⁱ⁾，π_t-1 ⁽ⁱ⁾}₁ ^Np，则对于时刻t的图像帧顺序执行以下处理。

在步骤S110处，对{x_t-1 ⁽ⁱ⁾，π_t-1 ⁽ⁱ⁾}₁ ^Np进行重采样，使得每个样本的权重相等，即

在步骤S120处，根据运动模型预测头部样本的位置和大小。即，根据状态转移模型从p(x_t|x_t-1 ⁽ⁱ⁾)采样得到x_t ⁽ⁱ⁾，形成t时刻的样本集

接下来，对于样本集

中的每个样本x_t ⁽ⁱ⁾进行更新处理。具体地，在步骤130处，利用头部观测量(颜色和梯度)来计算头部似然度，使得样本

π_{t}^{h, (i)} &Proportional; p (y^{grad ient} | x_{t}^{(i)}) p (y^{color} | x_{t}^{(i)}) .

随后，在步骤S140处，对于每个头部样本，根据人脸和头部的位置大小关系模型p(x^f|x_t ⁽ⁱ⁾)随机采样获得M个人脸样本构成的人脸样本集{x^f，(j)}₁ ^M。接着，在步骤S150处，利用人脸检测器来计算样本集{x^f，(j)}₁ ^M中的每个人脸样本的人脸似然度，并对计算结果进行累加，使得

π_{t}^{f, (i)} &Proportional; Σ_{j = 1}^{M} p (y^{f} | x^{f, (j)}) .

接下来，在步骤S160处，通过确定总的人脸似然度是否大于设定的阈值，来判断目标人脸是否可见。具体地，在步骤S160处，若判断前面计算出的总的人脸似然度

Σ_{i = 1}^{N_{p}} π_{t}^{f, (i)} > Γ,

则认为人脸可见，处理流程相应地转向步骤S180，在此将样本x_t ⁽ⁱ⁾的权重更新为

π_{t}^{(i)} {&Proportional; π}_{t}^{h, (i)} π_{t}^{f, (i)};

相反，若判断前面计算出的总的人脸似然度

Σ_{i = 1}^{N_{p}} π_{t}^{f, (i)} < Γ,

则认为人脸不可见，从而处理流程转向步骤S170，在此将样本x_t ⁽ⁱ⁾的权重更新为

π_{t}^{(i)} &Proportional; π_{t}^{h, (i)} .

接下来，在步骤S190处，利用最小均方误差

{\hat{x}}_{t} = Σ_{i = 1}^{N_{p}} x_{t}^{(i)} \cdot π_{t}^{(i)}

来估计跟踪目标的状态，并将其输出作为目标在当前帧的位置和大小。

其中，之所以要在步骤S160处判断总的人脸似然度是否大于阈值，是因为当人脸不可见时，观察模型(12)中的p(y^face|x^c)是没有意义的(可能很小，因为检测器检测不到人脸)。当人脸似然度之和很小时，认为人脸不可见，不将p(y^face|x^h)计入p(y|x)。

5-2、测试结果

针对上面描述的头部跟踪方法，使用来自电影剪辑的视频序列进行了测试。具体地，使用了家用数字摄像机和网络摄像头拍摄的视频片断，以及一些其他相关文献中使用过的视频序列。其内容涵盖了各种不同大小、位置、姿态的人脸/头部，包括很多具有挑战性的情况，例如光照变化、低亮度或低对比度、模糊、遮挡等等。图12示出了其中一些示例，其中，(a)示出了不同姿态及嘈杂背景下的测试结果，(b)示出了不均衡光照和快速运动下的测试结果，(c)示出了存在遮挡的情况下的测试结果，而(d)示出了拥挤场景下的测试结果。

我们把测试视频分为三个不同类别测试集，第一个为电影视频片断(共50个片断，11424帧)，第二个为摄像头摄制的工作台前使用者的视频以及文献[11]使用的测试视频(共10个片断，3156帧)，第三个为家用数字摄像机摄制的录像(共23个片断，17916帧)。测试了两种跟踪方法，一种是只使用颜色直方图和轮廓梯度的标准粒子滤波器算法，而另一种是本发明所述的算法。表1记录了两种方法分别针对三个测试集的跟踪成功率。测试时，每隔12帧选取一帧判断在该帧处是否正确跟踪，而正确跟踪的标注就是跟踪结果的包围矩形和真实目标的包围矩形的面积比在[0.5，1.5]之间，而跟踪结果的中心位置不超出真实目标的包围矩形边界。成功率为正确跟踪的帧数占所有测试帧数的百分比。图13示出了不同方法之间的对比，其中，(a)表示对第一帧的目标进行自动初始化，以及用Sobel算子得到的梯度强度图(可见梯度噪音较大，头部轮廓梯度不明显)，(b)是出了逐帧对人脸进行检测的结果，(c)表示只使用颜色和梯度模型进行跟踪的结果，而(d)表示利用本发明的方法进行跟踪的结果。

表1不同测试集的结果对比

算法	电影数据集	Webcam数据集	家用数字摄像机数据集
算法	电影数据集	Webcam数据集	家用数字摄像机数据集	本发明	87.18％	91.63％	83.39％
色彩和梯度	69.64％	68.44％	46.54％	本发明	87.18％	91.63％	83.39％

对于320×240像素的视频，跟踪速度可达到每秒15帧左右(在一台配置Pentium M740(1.73MHz)CPU和512M RAM的笔记本电脑上，包括获得视频(读视频文件)和播放跟踪结果)。而在跟踪算法中采用的人脸检测器的检测速度在每秒10帧左右(对每帧做全检测)。可见将人脸检测器改变为粒子滤波器的观测模型后，对时序信息的利用使跟踪时用于人脸检测的计算量大为减少。

6、基于人脸检测的头部跟踪方法的其他实施方式

在上面描述的跟踪方法中，使用了涉及人脸、梯度、色彩这三个观测量在内的改进粒子滤波器。但是，本领域技术人员很容易想到，也可以将人脸观测量与梯度观测量或色彩观测量相组合而构成另选的改进粒子滤波器，显然，基于此所实现的头部跟踪方法，由于减少了对头部观测模型的计算量，可以取得进一步提高跟踪速度的效果。

基于人脸观测量、梯度观测量以及色彩观测量相互独立的假设，参照上面的公式(9)所示的改进的粒子滤波器的计算模型，很容易以下的粒子滤波器模型：

将人脸观测量与梯度观测量相组合：

p(y|x)＝p(y^gradient|x^h)∫p(y^face|x^f)p(x^f|x^h)dx^f (16)

将人脸观测量与色彩观测量相组合：

p(y|x)＝p(y^color|x^h)∫p(y^face|x^f)p(x^f|x^h)dx^f (17)

基于上述的改进粒子滤波器的头部跟踪方法的处理流程与参照图11所述的流程类似，这里不再详述。

本领域技术人员还应当明白，还可以将人脸观测模型与其他头部观测模型相结合，来实现其他的基于人脸检测的头部跟踪方法，但其精神实质显然都落在本发明的范围之内。

7、基于人脸检测器的人脸跟踪方法

根据第2节所导出的人脸观测模型，也很容易实现一种人脸跟踪方法。下面参照图14的流程图来对本发明的人脸跟踪方法进行描述。

对于人脸跟踪，不涉及头部状态量。因此以下的所有状态量(包括样本)x均指人脸状态量x^F＝(x^F，y^F，s)。

首先，在步骤S200处，进行初始化处理。具体地，对输入的视频序列的第一帧进行人脸检测，在检测到的目标周围作高斯随机采样作为初始样本集

假定在时刻t-1样本集为{x_t-1 ⁽ⁱ⁾，π_t-1 ⁽ⁱ⁾}₁ ^Np，则对时刻t的图像帧执行如下处理。

在步骤S210，对{x_t-1 ⁽ⁱ⁾，π_t-1 ⁽ⁱ⁾}₁ ^Np进行重采样，使得每个样本的权重相等，即

接下来，在步骤S220，根据运动模型来预测人脸样本的位置和大小。即，根据状态转移模型从p(x_t|x_t-1 ⁽ⁱ⁾)采样得到x_t ⁽ⁱ⁾，形成t时刻的样本集

接着，在步骤S230，对每个样本x_t ⁽ⁱ⁾，利用人脸检测器来计算其人脸似然度，作为样本权重，即，使样本

π_{t}^{(i)} &Proportional; p (y^{F} | x_{t}^{(i)}) .

在步骤S240处，利用加权平均(即，期望估计)

{\hat{x}}_{t} = Σ_{i = 1}^{N_{p}} x_{t}^{(i)} \cdot π_{t}^{(i)}

来估计跟踪目标的状态，并将其输出，作为目标在当前帧的位置和大小。

由此，实现了对于视频序列中的人脸的跟踪。

8、关于目标的初始化以及目标的“丢弃”

在多目标跟踪中，为了能在跟踪过程中发现新出现的目标，需要不时地对视频帧进行人脸检测。但是并不需要对每一帧都进行全检测(指检测所有位置以及大小的图像子窗口)，否则就退化成逐帧检测，耗费大量时间，而且事实上也不需要在一个目标出现的第一帧就检测出来。因此实际采用的方式是将一次全检测分配到连续的若干帧中进行，在每一帧只对局部的或特定大小范围的子窗口进行检测。

这种初始化新目标的方式对人脸或者头部跟踪都适用。对人脸跟踪，对检测到的人脸的位置、大小做高斯扰动获得初始的样本集。对头部跟踪，发现人脸后，利用人脸和头部的先验位置、大小关系来初始化头部状态的样本集。

如果一个目标在“更新”步骤(S170、S180、S230)中获得的总样本权重低于一定阈值，且持续若干帧，则丢弃该目标。

9、基于人脸检测的头部跟踪装置

基于上面所述的头部跟踪方法，结合现有的信息处理装置，还可以实现基于人脸检测的头部跟踪装置。下面，分别参照图15-17对根据本发明的基于人脸检测的头部跟踪装置进行描述。

图15示出了根据第一实施例的基于人脸检测的头部跟踪装置100。

头部跟踪装置100包括初始化单元110、重采样单元120、样本预测单元130、第一头部似然度计算单元140、人脸似然度计算单元150、第一样本权重更新单元160、以及状态估计与更新单元170。

首先，在初始化单元110处，进行初始化处理。具体地，对输入的视频序列的第一帧进行人脸检测，在检测到的目标周围作高斯随机采样作为初始样本集

接下来，分别在头部跟踪装置100的其他各组成单元处对视频序列中的每一帧图像进行相应的处理。

在重采样单元120处，对{x_t-1 ⁽ⁱ⁾，π_t-1 ⁽ⁱ⁾}₁ ^Np进行重采样，使得每个样本的权重相等，即

接着，在样本预测单元130处，根据运动模型预测头部样本的位置和大小。即，根据状态转移模型从p(x_t|x_t-1 ⁽ⁱ⁾)采样得到x_t ⁽ⁱ⁾，形成t时刻的样本集

接下来，在头部似然度计算单元140处，利用头部观测量(颜色和梯度)来计算头部似然度，使得样本

π_{t}^{h, (i)} &Proportional; p (y^{grad ient} | x_{t}^{(i)}) p (y^{color} | x_{t}^{(i)}) .

随后，在人脸似然度计算单元150处，对于每个头部样本，根据人脸和头部的位置大小关系模型p(x^f|x_t ⁽ⁱ⁾)随机采样获得M个人脸样本构成的人脸样本集{x^f，(j)}₁ ^M，利用人脸检测器来计算样本集{x^f，(j)}₁ ^M中的每个人脸样本的人脸似然度，并对计算结果进行累加，使得

π_{t}^{f, (i)} &Proportional; Σ_{j = 1}^{M} p (y^{f} | x^{f, (j)}) .

接下来，在第一样本权重更新单元160处，通过确定总的人脸似然度是否大于设定的阈值，来判断目标人脸是否可见。具体地，若判断前面计算出的总的人脸似然度

Σ_{i = 1}^{N_{p}} π_{i}^{f, (i)} > Γ,

则认为人脸可见，从而将样本x_t ⁽ⁱ⁾的权重更新为

π_{t}^{(i)} &Proportional; π_{t}^{h, (i)} π_{t}^{f, (i)};

相反，若判断前面计算出的总的人脸似然度

Σ_{i = 1}^{N_{p}} π_{t}^{f, (i)} < Γ,

则认为人脸不可见，从而将样本x_t ⁽ⁱ⁾的权重更新为

π_{t}^{(i)} &Proportional; π_{t}^{h, (i)} .

接下来，在状态估计与输出单元170处，利用最小均方误差

{\hat{x}}_{t} = Σ_{i = 1}^{N_{p}} x_{t}^{(i)} \cdot π_{t}^{(i)}

图16示出了根据第二实施例的基于人脸检测的头部跟踪装置200。头部跟踪装置200与头部跟踪装置100的不同之处在于，由第二头部似然度计算单元240代替了第一头部似然度计算单元140。下面仅对第二头部似然度计算单元240的操作进行描述，而略去对其他相同单元的描述。

在第二头部似然度计算单元240处，与第一头部似然度计算单元140所不同的是，仅利用梯度观测量来计算头部似然度，使得样本

π_{t}^{h, (i)} &Proportional; p (y^{grad ient} | x_{t}^{(i)}) .

图17示出了根据第三实施例的基于人脸检测的头部跟踪装置300。头部跟踪装置300与头部跟踪装置100的不同之处在于，由第三头部似然度计算单元340代替了第一头部似然度计算单元140。下面仅对第三头部似然度计算单元340的操作进行描述，而略去对其他相同单元的描述。

在第三头部似然度计算单元340处，与第一头部似然度计算单元140所不同的是，仅利用色彩观测量来计算头部似然度，使得样本

π_{t}^{h, (i)} &Proportional; p (y^{color} | x_{t}^{(i)}) .

在各实施例的头部跟踪装置中，各单元可以一体地实现在具有实现上述功能的计算机程序的计算机或单片机设备中，也可以各由分立的信息处理装置构成。

10、人脸跟踪装置

基于上面所述的人脸跟踪方法，结合现有的信息处理装置，还可以实现人脸跟踪装置。下面，参照图18对根据本发明的人脸跟踪装置400进行描述。

如图18所示，人脸跟踪装置400包括初始化单元405、重采样单元410、样本预测单元420、人脸似然度计算单元430、以及状态估计与输出单元440。

首先，在初始化单元405处，进行初始化处理。具体地，对输入的视频序列的第一帧进行人脸检测，在检测到的目标周围作高斯随机采样作为初始样本集

假定在时刻t-1样本集为{x_t-1 ⁽ⁱ⁾，π_t-1 ⁽ⁱ⁾}₁ ^Np，则对时刻t的图像帧分别在各单元处进行相应的处理。

具体地，在重采样单元410处，对{x_t-1 ⁽ⁱ⁾，π_t-1 ⁽ⁱ⁾}₁ ^Np进行重采样，使得每个样本的权重相等，即

接下来，在样本预测单元420处，根据运动模型来预测人脸样本的位置和大小。即，根据状态转移模型从p(x_t|x_t-1 ⁽ⁱ⁾)采样得到x_t ⁽ⁱ⁾，形成t时刻的样本集

接着，在人脸似然度计算单元430处，对于每个样本x_t ⁽ⁱ⁾，利用人脸检测器来计算其人脸似然度，作为样本权重，即，使样本

π_{t}^{(i)} &Proportional; p (y^{F} | x_{t}^{(i)}) .

最后，在状态估计与输出单元440处，利用加权平均(即，期望估计)

{\hat{x}}_{t} = Σ_{i = 1}^{N_{p}} x_{t}^{(i)} \cdot π_{t}^{(i)}

上述单元可以一体地实现在具有实现所述功能的计算机程序的计算机或单片机设备中，也可以各由分立的信息处理装置构成。

虽然，在上面的示例中，本发明所提供的方法都是针对人脸和头部进行的，但本发明不限于人脸和头部，而也可以应用于其它物体(如人体的其它部位、汽车、行人等)。

进一步，根据本发明的实施例，本发明的目的还可以通过使计算机或单片机等执行上述操作的计算机程序来实现。

另外，应当明白，在各个实施例中，可以通过专门的电路或线路(例如，互连以执行专门功能的离散逻辑门)、通过由一个或更多个处理器执行的程序指令，或者通过两者的组合来执行所述各个动作。因此，可以通过多种不同的形式来实施上述多个方面，并且所有这些形式都被认为处于所描述内容的范围内。对于上述多个方面中的每一个，任何这种形式的实施例在此都可以指“被构造用来执行所述动作的逻辑”，或者另选地，是指“执行或者能够执行所述动作的逻辑”。

进一步，根据本发明的实施例，本发明的目的还可以由计算机可读介质来实现，所述介质存储上述的程序。计算机可读介质可以是能够包含、存储、传达、传播或传送程序，以由执行系统、设备或装置使用的或与指令执行系统、设备或装置相结合的任何装置。该计算机可读介质例如可以是，但不限于，电子、磁、光、电磁、红外或半导体系统、设备、装置或传播介质。该计算机可读介质的更具体的示例(非穷尽列举)可以包括：具有一根或更多根导线的电连接、便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤，以及便携式光盘只读存储器(CDROM)。

本发明实施例的上述说明仅用于例示和说明的目的，而非旨在穷尽本发明或将其限于所公开的具体形式。本领域技术人员应当明白，所选择并描述的实施例仅是为了最佳地解释本发明的原理及其实际应用，以适于特定的预期应用，而在不脱离由权利要求及其等同物所限定的发明范围的情况下，可以对本发明进行各种修改和变型。

参考文献

1.Isard，M.，Blake，A.：Condensation-conditional density propagation for visualtracking.IJCV 28(1)(1998)5-28

2.Huang，C.，Ai，H.，Li，Y.，Lao，S.：Vector boosting for rotation invariant multi-viewface detection.In：ICCV.(2005)

3.Birchfield，S.，Rangarajan，S.：Spatiograms versus histograms for region-basedtracking.In：CVPR.(2005)

4.Perez，P.，Vermaak，J.，Blake，A.：Data fusion for visual tracking with particles.Proceedings of IEEE(issue on State Estimation)(2004)

5.Verma，R.C.，Schmid，C.，Mikolajczyk，K.：Face detection and tracking in a videoby propagating detection probabilities.PAMI 25(10)(2003)1215-1228

6.Okuma，K.，Taleghani，A.，D.，F.，Little，J.J.，Lowe，D.G.：A boosted particle filter：Multitarget detection and tracking.In：ECCV.(2004)

7.Viola，P.，Jones，M.：Robust real-time object detection.In：IEEE Workshop onStatistical and Theories of Computer Vision.(2001)

8.Wu，B.，Ai，H.，Huang，C.，Lao，S.：Fast rotation invariant multi-view face detectionbased on real adaboost.In：Intl.Conf.on Automatic Face and Gesture Recognition.(2004)

9.Schneiderman，H.，Kanade，T.：A statistical to 3d object detection applied to facesand cars.In：CVPR.(2000)

10.Rowley，H.A.：Neural Network-based Human Face Detection.PhD thesis，Carnegie Mellon University(1999)

11.Birchfield，S.：Elliptical head tracking using intensity gradients and colorhistograms.In：CVPR.(1998)

12.Comaniciu，D.，Ramesh，V.，Meer，P.：Real-time tracking of non-rigid objectsusing mean shift.In：CVPR.(2000)

13.Perez，P.，Hue，C.，Vermaak，J.，Gangnet，M.：Color-based probabilistic tracking.In：ECCV.(2002)

14.Matthews，I.，Baker，S.：Active appearance models revisited.Technical ReportCMU-RI-TR-03-02，The Robotics Institute，Carnegie Mellon University(2002)

15.Cootes，T.F.，Edwards，G.J.，Taylor，C.J.：Active appearance models.PAMI 23(6)(2001)681-684

16.Cascia，M.L.，Sclaroff，S.，Athitsos，V.：Fast，reliable head tracking under varyingillumination：An approach based on registration of texture-mapped 3d models.PAMI 22(4)(2000)322-336

17.Vermaak，J.，Doucet，A.，Perez，P.：Maintaining multi-modality through mixturetracking.In：ICCV.(2003)

18.M.Han，A.Sethiy，W.Hua，Y.Gong，A Detection-Based Multiple ObjectTracking Method，ICIP 2004，pp.3605-3608

Claims

1、一种基于特征部检测的特定被摄体跟踪方法，其使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特定被摄体的位置和大小，所述特征部是特定被摄体的一部分，

其特征在于，所述粒子滤波器的观测模型包括特征部观测模型，该特征部观测模型用于确定图像被子窗口划分出的子图像是特征部的似然度。

2、根据权利要求1所述的特定被摄体跟踪方法，其特征在于，所述特征部观测模型是包括多层分类器的树状检测器，所述多层分类器对子图像是特征部的似然度进行计算。

3、根据权利要求2所述的特定被摄体跟踪方法，其特征在于，所述多层分类器采用以下观测模型来计算子图像是特征部的似然度：

p (y^{F} | x^{F}) = p (F | I_{x}) = \frac{r_{v} \cdot p_{v} (F | I_{x})}{r_{v} \cdot p_{v} (F | I_{x}) + p_{v} (NF | I_{x})},

其中，x^F是表示特征部的状态向量，y^F表示观测量，F表示特征部，I_x表示子窗口划分出的对应于状态向量x^F的子图像，NF表示非特征部，v表示多层分类器的层数，r_v表示与第v层分类器相对应的F和NF模式的先验概率比，p_v(F|I_x)和p_v(NF|I_x)分别表示在第v层分类器下子图像I_x是特征部的概率和子图像I_x是NF的概率，p(y^F|x^F)和p(F|I_x)表示最终计算出的子图像是特征部的似然度。

4、根据权利要求3所述的特定被摄体跟踪方法，其特征在于，所述状态向量x^F具体为(x^F，y^F，s)，其中，(x^F，y^F)表示特征部在图像中的位置坐标，而s表示特征部的大小。

5、根据权利要求1-4中的任何一项所述的特定被摄体跟踪方法，其特征在于，所述粒子滤波器的观测模型还包括特定被摄体观测模型。

6、根据权利要求5所述的特定被摄体跟踪方法，其特征在于，所述特征部观测模型与特定被摄体观测模型相互独立。

7、根据权利要求5所述的特定被摄体跟踪方法，其特征在于，所述特定被摄体观测模型涉及梯度观测量和色彩观测量中的任一个或全部两个。

8、根据权利要求7所述的特定被摄体跟踪方法，其特征在于，所述粒子滤波器的观测模型具体地为以下公式中的任何一个：

p(y|x)＝p(y^gradient|x^H)∫p(y^F|x^F)p(x^F|x^H)dx^F，以及

p(y|x)＝p(y^color|x^H)∫p(y^F|x^F)p(x^F|x^H)dx^F，

其中，F表示特征部，H表示特定被摄体，x表示状态向量，y表示观测量，x^H表示特定被摄体的状态向量，x^F表示特征部的状态向量，y^F表示特征部的观测量，y^color和y^gradient分别表示颜色观测量和梯度观测量，p(y|x)、p(y^color|x^H)、p(y^gradient|x^H)、p(y^F|x^F)、p(x^F|x^H)分别表示x状态向量下y的概率、x^H状态向量下y^color的概率、x^H状态向量下y^gradient的概率、x^F状态向量下y^F的概率，以及x^H状态向量下x^F的概率。

9、根据权利要求8所述的特定被摄体跟踪方法，其特征在于，状态向量x^H由椭圆模型来表示，其具体地为(x^H，y^H，a，b)，其中，(x^H，y^H)表示椭圆的中心在图像中的坐标，a，b分别表示椭圆的短轴和长轴。

10、根据权利要求9所述的特定被摄体跟踪方法，其特征在于，p(x^F|x^H)可以近似为单高斯分布。

11、根据权利要求7-10中的任何一项所述的特定被摄体跟踪方法，其特征在于，包括以下步骤：

初始化步骤，对输入的视频序列的第一帧作特征部检测，在检测到的特征部周围进行高斯随机采样，获得初始样本集；

重采样步骤，对于时刻t-1时的样本集进行重采样，使得每个样本的权重相等，其中t表示当前时刻；

样本预测步骤，根据状态转移模型从t-1时刻的状态量获得t时刻的状态量，从而形成t时刻的样本集；

权重更新步骤，对每个样本的权重首先使用特定被摄体的颜色观测模型和梯度观测模型中的任一个或全部两个进行更新，再使用特征部观测模型进行更新；

状态估计与输出步骤，根据预测步骤获得的样本与更新步骤获得的更新后的权重，对所跟踪的特定被摄体的状态进行估计，并输出估计出的状态。

12、根据权利要求11所述的特定被摄体跟踪方法，其特征在于，所述权重更新步骤，使用特征部观测模型对权重进行更新并累加特征部的似然度，若整个样本空间上的总似然度大于阈值时，判断特征部可见，并利用所述总似然度对权重进行更新；否则，若整个样本空间上的总的似然度不大于所述阈值，则不利用所述总似然度对权重进行更新。

13、根据任一前述权利要求所述的特定被摄体跟踪方法，其特征在于，所述特定被摄体具体地为人的头部，而所述特征部具体地为人脸。

14、一种基于特征部检测的特定被摄体跟踪装置，其使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特定被摄体的位置和大小，所述特征部是特定被摄体的一部分，

15、根据权利要求14所述的特定被摄体跟踪装置，其特征在于，所述特征部观测模型是包括多层分类器的树状检测器，所述多层分类器对子图像是特征部的似然度进行计算。

16、根据权利要求15所述的特定被摄体跟踪装置，其特征在于，所述多层分类器采用以下观测模型来计算子图像是特征部的似然度：

p (y^{F} | x^{F}) = p (F | I_{x}) = \frac{r_{v} \cdot p_{v} (F | I_{x})}{r_{v} \cdot p_{v} (F | I_{x}) + p_{v} (NF | I_{x})},

其中，x^F是表示特征部的状态向量，y^F表示观测量，F表示特征部，I_x表示子窗口划分出对应于状态向量x^F的子图像，NF表示非特征部，v表示多层分类器的层数，r_v表示与第v层分类器相对应的F和NF模式的先验概率比，p_v(F|I_x)和p_v(NF|I_x)分别表示在第v层分类器下子图像I_x是特征部的概率和子图像I_x是NF的概率，p(y^F|x^F)和p(F|I_x)表示最终计算出的子图像是特征部的似然度。

17、根据权利要求16所述的特定被摄体跟踪装置，其特征在于，所述状态向量x^F具体为(x^F，y^F，s)，其中，(x^F，y^F)表示特征部在图像中的位置坐标，而s表示特征部的大小。

18、根据权利要求14-17中的任何一项所述的特定被摄体跟踪装置，其特征在于，所述粒子滤波器的观测模型还包括特定被摄体观测模型。

19、根据权利要求18所述的特定被摄体跟踪装置，其特征在于，所述特征部观测模型与特定被摄体观测模型相互独立。

20、根据权利要求18所述的特定被摄体跟踪装置，其特征在于，所述特定被摄体观测模型涉及梯度观测量和色彩观测量中的任一个或全部两个。

21、根据权利要求20所述的特定被摄体跟踪装置，其特征在于，所述粒子滤波器的观测模型具体地为以下公式中的任何一个：

p(y|x＝p(y^gradient|x^H)∫p(y^F|x^F)p(x^F|x^H)dx^F，以及

p(y|x)＝p(y^color|x^H)∫p(y^F|x^F)p(x^F|x^H)dx^F，

22、根据权利要求21所述的特定被摄体跟踪装置，其特征在于，状态向量x^H由椭圆模型来表示，其具体地为(x^H，y^H，a，b)，其中，(x^H，y^H)表示椭圆的中心在图像中的坐标，a，b分别表示椭圆的短轴和长轴。

23、根据权利要求22所述的特定被摄体跟踪方法，其特征在于，p(x^F|x^H)可以近似为单高斯分布。

24、根据权利要求20-23中的任何一项所述的特定被摄体跟踪装置，其特征在于，还包括以下单元：

初始化单元，对输入的视频序列的第一帧作特征部检测，在检测到的特征部周围进行高斯随机采样，获得初始样本集；

重采样单元，对于时刻t-1时的样本集进行重采样，使得每个样本的权重相等；

样本预测单元，根据状态转移模型从t-1时刻的状态量获得t时刻的状态量，从而形成t时刻的样本集；

特定被摄体似然度计算单元，使用特定被摄体观测模型来计算特定被摄体似然度；

特征部似然度计算单元，使用特征部观测模型来计算特征部的似然度；

样本权重更新单元，对每个样本的权重首先使用特定被摄体的颜色观测模型和梯度观测模型中的任一个或全部两个进行更新；并且，在特征部似然度计算单元所计算出的特征部的似然度在样本空间上求和后的总似然度大于阈值时，利用总似然度对权重进行更新，否则，不利用所述总似然度对权重进行更新；

状态估计与输出单元，根据样本预测单元获得的样本与样本权重更新单元获得的更新后的权重，对所跟踪的特定被摄体的状态进行估计，并输出估计出的状态。

25、根据权利要求14-24中的任何一项所述的特定被摄体跟踪装置，其特征在于，所述特定被摄体具体地为人的头部，而所述特征部具体地为人脸。

26、一种特征部跟踪方法，其使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特征部的位置和大小，

其特征在于，所述粒子滤波器的观测模型为特征部观测模型，该特征部观测模型用于确定图像被子窗口划分出的子图像是特征部的似然度。

27、根据权利要求26所述的特征部跟踪方法，其特征在于，所述特征部观测模型是包括多层分类器的树状检测器，所述多层分类器对子图像是特征部的似然度进行计算。

28、根据权利要求27所述的特征部跟踪方法，其特征在于，所述多层分类器采用以下观测模型来计算子图像是特征部的似然度：

p (y^{F} | x^{F}) = p (F | I_{x}) = \frac{r_{v} \cdot p_{v} (F | I_{x})}{r_{v} {\cdot p}_{v} (F | I_{x}) + p_{v} (NF | I_{x})},

29、根据权利要求28所述的特征部跟踪方法，其特征在于，所述状态向量x^F具体为(x^F，y^F，s)，其中，(x^F，y^F)表示特征部在图像中的位置坐标，而s表示特征部的大小。

30、根据权利要求29所述的特征部跟踪方法，其特征在于，包括以下步骤：

重采样步骤，对于时刻t-1时的样本集进行重采样，使得每个样本的权重相等；

权重更新步骤，对每个样本的权重使用特征部观测模型进行更新；

31、根据权利要求26-29中的任何一项所述的特征部跟踪方法，其特征在于，所述特征部具体地为人脸。

32、一种特征部跟踪装置，其使用粒子滤波器对视频序列的多帧图像逐帧地以子窗口划分进行计算处理，以确定特征部的位置和大小，

33、根据权利要求32所述的特征部跟踪装置，其特征在于，所述特征部观测模型是包括多层分类器的树状检测器，所述多层分类器对子图像是特征部的似然度进行计算。

34、根据权利要求33所述的特征部跟踪装置，其特征在于，所述多层分类器采用以下观测模型来计算子图像是特征部的似然度：

p (y^{F} | x^{F}) = p (F | I_{x}) = \frac{r_{v} \cdot p_{v} (F | I_{x})}{r_{v} {\cdot p}_{v} (F | I_{x}) + p_{v} (NF | I_{x})},

35、根据权利要求34所述的特征部跟踪装置，其特征在于，所述状态向量x^F具体为(x^F，y^F，s)，其中，(x^F，y^F)表示特征部在图像中的位置坐标，而s表示特征部的大小。

36、根据权利要求35所述的特征部跟踪装置，其特征在于，包括以下单元：

权重更新单元，对每个样本的权重使用特征部观测模型进行更新；

状态估计与输出单元，根据样本预测单元获得的样本与权重更新单元获得的更新后的权重，对所跟踪的特定被摄体的状态进行估计，并输出估计出的状态。

37、根据权利要求32-36中的任何一项所述的特定部跟踪装置，其特征在于，所述特征部具体地为人脸。