CN102216957B

CN102216957B - 图像中对象的视觉跟踪以及图像分割

Info

Publication number: CN102216957B
Application number: CN200980146343.6A
Authority: CN
Inventors: 查尔斯·科林·比拜; 伊恩·大卫·里德
Original assignee: Oxford University Innovation Ltd
Current assignee: Oxford University Innovation Ltd
Priority date: 2008-10-09
Filing date: 2009-10-09
Publication date: 2014-07-16
Anticipated expiration: 2029-10-09
Also published as: EP2359333A1; CN102216957A; GB0818561D0; US20110254950A1; EP2359333B1; WO2010041034A1; US8810648B2

Abstract

一种跟踪一系列n维图像(102)中的对象的方法，图像(102)中的对象(106、108)出现在背景(110、112)中，所述方法包括：使用在图像中对象的表观的概率模型和背景的表观的概率模型，并且使用图像(102)中的具体像素是对象(106、108)的一部分还是背景(110、112)的一部分的估算，所述估算包括确定具体像素(x)或像素群属于对象或属于背景的后验模型概率，并且所述方法进一步包括：对这些对象/背景隶属概率边缘化，以产生对象的姿势参数的函数，此处至少对象/背景隶属被判断为多余参数并且被边缘化。

Description

图像中对象的视觉跟踪以及图像分割

本发明涉及捕获的数字图像中对象的视觉跟踪以及图像分割，以及这种跟踪的用途，包括(但不限于)当对象和/或摄像机移动时控制摄像机跟踪对象。

在一系列捕获的2维图像(例如，来自数字摄像机的图像或从模拟摄像机产生的数字化图像)中跟踪对象或目标就其本身来说是已知的技术领域。此外，许多其它领域使用这种能力来根据给定的可获得的东西来跟踪移动的图像。例如，在监控摄像机的面部识别区域中，很多人简单地假设能够根据输入到识别算法的相关图像数据在帧与帧之间跟踪人脸。但是，自动跟踪图像中在帧与帧之间移动的目标不是那么容易的。一个已知的问题是在帧与帧之间确定每个图像帧中的哪些像素是对象/目标(有时被称为前景)的一部分，哪些是背景(即“非目标”)。

一些方法建立了分离每一帧中目标与背景的边界。然后一些方法使用该边界来限定形状并跟踪形状的中心。

然而，对象/目标中心可相对于获取图像的摄像机改变方向，和/或摄像机可相对于目标移动。相对于摄像机，目标可更加接近或进一步远离，并且它可以改变姿势或方向。因此，捕获的图像中通过目标边界判定的目标有时看起来有很大的差别。因此，对于目标边界形状，不期望具有固定、单一、预测的形状。有人曾尝试使用具有从一个捕获的帧到另一个捕获的帧的随时间演变的边界的模型，以使目标被如此识别且被跟踪。

快速且可靠的视觉跟踪是计算机视觉中大量应用的前提。虽然在过去二十年它已经是强烈努力的课题，但是由于多种原因它仍然是个难题。特别地，当以前跟踪看不见的对象时，为其它跟踪系统提供可靠性的许多限制-如关于形状、表观或运动的强大的先验信息-是不可用的。相当有希望在统一的框架内执行跟踪和分割的一种技术是使用隐含的轮廓、或水平集(level set)来表示目标的边界。除了无缝地处理拓扑变化之外，使用水平集的跟踪可由相当标准的概率公式表达，因此可借助贝叶斯方法的力量。

一个技术难点是在图像中寻找对象所在的位置。第二个技术难点是处理由对象和获取图像的摄像机的相对位置和方向的改变而引起的对象表观形状的改变。

过去的解决方案包括在美国第6394557号专利(Leroi)和美国第6590999号专利(Comaniciu)中所讨论的内容。还有参考文献[4](见参考文献列表)。由此本专利的读者可阅读这三个文件。我们认为这将有助于理解本发明。我们不认为这三个文件是十分需要的。

根据第一方面，本发明包括跟踪一系列n维图像中的对象的方法，图像中的对象出现在背景中，所述方法包括：使用在图像中对象的表观和背景的表观的概率模型，并且使用图像中的具体像素是对象的一部分或还是背景的一部分的估算，所述估算包括确定具体像素属于对象或属于背景的后验模型概率，并且所述方法进一步包括：在这些对象/背景隶属概率上边缘化以产生对象的姿势参数的函数，此处至少对象/背景隶属被判断为多余参数并且被边缘化。

已经发现这种方法提供更可靠的能力来跟踪对象。与其它方法相比，被求解的目标函数具有较少的虚假局部极小/极大值，并且这导致更少的、跟踪器系统丢失对象的情况。

根据第二方面，本发明包括分割一系列n维图像中的对象的方法，图像中的对象出现在背景中，所述方法包括：使用在图像中对象的表观和背景的表观的概率模型，并且使用图像中的具体像素是对象的一部分还是背景的一部分的估算，所述估算包括确定具体像素属于对象或属于背景的后验模型概率，并且所述方法进一步包括：在这些对象/背景隶属概率上边缘化，以产生对象的形状的函数，此处至少对象/背景隶属被判断为多余的参数并且被边缘化。

本发明的概念可用于分割图像以及跟踪。由于改进的目标函数，所以分割方法是更好的，因此与很多已知方法相比它犯更少的错误。

根据第三方面，本发明包括跟踪和分割一系列n维图像中的对象的方法，图像中的对象出现在背景中，所述方法包括：使用在图像中对象的表观和背景的表观的概率模型，并且使用图像中的具体像素是对象的一部分还是背景的一部分的估算，所述估算包括确定具体像素属于对象或属于背景的后验模型概率，并且所述方法进一步包括：在这些对象/背景隶属概率上边缘化，以产生对象的形状和姿势参数的函数，此处至少对象/背景隶属被判断为多余的参数并且被边缘化。

本发明的概念可用于同时跟踪和分割图像。这是优选的解决方案，因为跟踪解决(account for)图像之间的刚性/投影运动，而分割解决任何残余的形状变形。目标函数改进的质量意味着结果是产生能够跟踪以前在现有技术条件下看不见的目标的鲁棒性、实时跟踪系统。

在许多实施方式中，多个对象或一个对象的表观的模型、和/或背景的表观的模型将或者可以随时间演变。

在本发明的一些实施方式中，我们使用了图像中特定像素是对象的一部分还是背景的一部分的像素方面(pixel-wise)的估算。在其它实施方式中，我们没有这样做。像素方面的估算是单独估算图像中的每个像素。可以设想非像素方面的后验估算(只是像素后验估算：对每个像素进行估算，但不一定单独估算每个像素)。例如，可以对像素对、或像素群进行估算，而不是单独独立地估算每个像素。

也应该理解的是，在许多实施例中，为了产生对象的形状和姿势参数的函数而在对象/背景隶属概率上的边缘化具有从对象坐标系变换到图像坐标系的“姿势”，如对象的图像位置、或位置旋转和缩放。在以上实施例中，跟踪和分割过程是通过最小化或最大化这个函数以找出最佳姿势和形状参数而完成的。

优选地，所述方法(上述方法中的任意一个)在进行等式(3)的估算后进行等式(4)的估算，其中：

等式(3)是：

P (M_{j} | y) = \frac{P (y | M_{j}) P (M_{j})}{Σ_{{i = f, b}} P (y | M_{i}) P (M_{i})}

j＝{f，b}

等式(4)是：

P (Φ, p | x, y) = \frac{1}{P (x)} \underset{{i = f, b}}{Σ} {P (x | Φ, p, M_{i}) P (M_{i} | y)} P (Φ) P (p)

并且

·i可以是前景f或背景b。

·P(M_i)是模型M_i的先验概率，例如，在不考虑任何额外信息的情况下看到前景像素的机会。

·P(y|M_i)是给定模型M_i的情况下看见像素值y的似然性，例如，在我们知道它来自前景模型的情况下看到红色像素的概率。

·P(M_i|y)是给定所述像素值y的情况下模型M_i的后验，例如，给定它是红色的情况下像素来自前景模型的机会。

·P(x|Φ，p，M_i)是给定形状Φ、姿势p和模型M_i的情况下像素位置x的似然性，例如，形状像汽车并且位于图像中央的前景对象在图像的左上角生成像素的概率(不可能性)。

·P(Φ)是形状Φ的先验概率，例如，如果我们事先知道，我们正试图追踪汽车，那么看起来像圆形的东西是不可能的；反之，矩形的东西比较有可能性。

·P(p)是姿势p的先验概率，例如，对象在图像左上方的可能性有多大。

·P(x)是像素位置x的概率，例如，每个可能的像素位置是同等可能的。

·P(Φ，p|x，y)是给定像素位置x和像素值y的情况下，形状Φ和姿势p的后验概率，例如，给定在右上角中存在绿色像素的情况下，位于图像的右上角中的形状像汽车的可能性有多大。

这种图像处理技术使我们能够从图像处理计算中平均出不需要参数的影响，这使得后续计算更容易实现并产生改进的结果。

优选地，图像使用像素包模型进行建模。这减少了对对象或背景的先验知识的需要，使图像处理更能够处理未知情况(尤其是视野的变化)。

对于图像值，我们优选使用非参数分布。这能够更好地处理一些情况，因为使用非参数分布更容易表示一般的概率分布。非参数分布可包括：

(i)出现在对象中的具体颜色的颜色直方图或其它相关概率，和/或

(ii)出现在背景中的具体颜色的颜色直方图或其它相关概率。

所述方法可包括使用不同图像之间对象的可逆参数配准，可能可逆线性变换(如刚性、仿射或透视变换)，随后从背景分割对象以解决对象边界的非刚性形状变形。

刚性3维对象的边界投影在图像中表现为非刚性的，即使基本的(underlying)对象可具有刚性形状。我们考虑边界形状的变化，而不是基本的形状。

该方法可包括使用不同图像之间对象的刚性配准，随后从背景分割对象以解决对象的非刚性形状变形。

该方法可包括确定第一图像中对象的姿势，并且使用从第一图像得到的姿势或其姿势的演变而确定第二图像中对象的姿势。在一些实施方式中，使用对象的姿势的估计是我们如何跟踪对象。

嵌入函数的水平集可用于表示对象形状，并且先验条件可被施加到嵌入函数中以将嵌入函数限制为近似的有符号距离函数。我们发现，这很有助于条件优化。

根据本发明的另一方案，本发明包括：

图像跟踪系统，其包括：

(i)处理器，适于运行图像跟踪算法；

(ii)处理器的输入，其适于接收表示一系列具有目标和背景的图像的像素的数字像素数据信号；

(iii)处理器的输出，其适于输出已处理的信号，该已处理的信号是通过用跟踪算法对输入信号进行运算而得到的；其中，

跟踪算法使用具体像素是对象像素或背景像素的后验概率的概率估算，并且跟踪算法适于在已处理的像素数据上从对象的表观的模型边缘化至少一个多余的参数，

或者

图像分割系统，其包括：

(i)处理器，适于运行图像分割算法；

(iii)处理器的输出，其适于输出已处理的信号，该已处理的信号是通过用图像分割算法对输入信号的操作而得到的；其中，

图像分割算法使用具体像素是对象像素或背景像素的后验概率的概率估算，并且图像分割算法适于在已处理的像素数据上从对象的表观的模型边缘化至少一个多余的参数。

该系统可包括摄像机，摄像机具有偏转、或俯仰、或变焦能力的一个或多个，并且处理器的输出可被摄像机控制机制使用以在没有人为干涉的情况下，响应于处理器跟踪图像中的对象而自动地控制摄像机的偏转、或俯仰、或缩放中的一个或多个。这使我们具有自动追踪对象以将其保持在视野中的摄像机。

根据本发明的另一方面，本发明包括实时跟踪一系列图像中的非刚性前景对象的方法，该图像的前景对象位于背景中，该方法包括通过能够随时间演变的概率表观模型(例如，颜色或纹理(texture)分布)来表示前景对象，以及通过能够随时间演变的概率表观模型(例如，颜色或纹理分布)来表示背景，跟踪方法使用了优化，该优化通过找到图像中对象的最佳姿势(即从对象坐标系到图像坐标系变换，如对象的图像位置，或位置、旋转和缩放)来最大化前景与背景之间的区别，从而找到图像中的前景对象区域，并且在每帧中，优化的结果是前景与背景之间的概率边界(例如，2维中的轮廓或多个轮廓)、边界相对于对象坐标系的姿势参数、以及前景对象和背景的表观模型。

该方法可进一步包括：找到通过姿势变换未解决的局部形状变形，和/或更新前景对象和背景的表观模型。

根据另一方面，本发明包括实时跟踪图像序列中非刚性前景对象的方法，包括：(i)在图像序列的第一图像中，识别由前景对象覆盖的图像区域以及在对象以外的背景区域，并且为前景对象区域和背景区域开发概率表观模型；(ii)对于图像序列中的下一图像，在给定像素值y的情况下，为图像中的每个像素“i”计算它是前景还是背景像素(变量“M”)的概率，即P(M|y(i))；这些值代表了在没有任何姿势或形状信息的情况下每个像素的后验前景/背景隶属；(iii)使用对象姿势的预测，关于姿势参数p最大化概率分布P(p，Φ|x，y)，这个分布表示在给定像素位置x和像素值y的情况下，前景对象的姿势p及其形状Φ的确定，概率分布P(p，Φ|x，y)的最大化是通过在图像中每个像素的后验前景/背景隶属概率上边缘化而计算得到的。

该方法可进一步包括：步骤(iv)，相对于Φ优化P(p，Φ|x，y)，以确定新的对象形状；和/或步骤(v)，通过将预先存在的前景和背景表观分布与当前图像的表观分布相融合来更新表观模型，和/或：对序列中的随后图像重复步骤(ii)至(v)。

如果对象和初始对象位置、背景是通过考虑用户限定的区域以外的区域获取的，那么我们可通过用户限定的前景区域来初始化对象位置以限定表观模型，用户限定的前景区域可选地是如环形或椭圆区域等闭环，并且步骤(iv)和(v)被迭代以提取通过最大化P(p，Φ|x，y)确定的最佳分离背景与前景的形状。对象位置可通过自动检测/识别模块(例如，面部检测器)来初始化。

随后图像帧中的对象位置可基于其先前位置及其预期的运动模型进行预测。

姿势p的优化步骤可通过使用Newton-Raphson技术实现，和/或形状Φ的优化步骤可通过使用变分学实现。

在一些实施方式中，只有在将对象与背景分离的预测的边界轮廓周围的窄带中的那些像素被考虑。这减少了处理的负担。

姿势参数可通过使用闭环控制进行调节，以通过解决由形状变化引起的漂移来上对象在它的原始坐标系中保持居中。表观模型可通过先前模型和当前表观的加权移动平均而更新。所述方法可包括使用最佳位置参数p来建立控制信号以控制机器人设备的姿势参数。机器人设备可以是偏转-俯仰-缩放摄像机设备，并且控制信号的目的可在于将对象保持在摄像机的视野中。

最佳姿势参数p可用于将控制信号提供给虚拟世界或增强的现实子系统，和/或最佳姿势参数p可用于提取前景对象的稳定视野。

图像可以是3维图像，如MRI或CT，并且背景与前景之间以概率方式确定的边界可以是表面。例如，在医疗成像领域，该方法可用于对身体结构(如器官)成像，并且对象/背景可以是器官/结构的边界——例如患者的对象的生理结构的内表面或外表面。边界可划定一些感兴趣对象的内部和外部。

根据另一方面，本发明包括跟踪一系列图像中的非刚性前景对象的方法，图像中的前景对象位于背景中，跟踪方法包括通过找到图像中对象的最佳姿势(即从对象坐标系到图像坐标系变换，如对象的图像位置，或位置、旋转和缩放)来最大化前景与背景之间的区别，从而找到图像中的前景对象区域，并且在每帧中，优化的结果是前景与背景之间的概率边界(例如，2维中的轮廓或多个轮廓)、相对于对象坐标系的边界的姿势参数、以及前景对象和背景的表观模型。

概率出现模型可通过以下给出：

(i)参数颜色或纹理分布；或者

(ii)直方图。

根据另一方面，本发明包括用于跟踪一系列图像中前景对象的视觉跟踪系统，其使用图像像素的前景/背景隶属的后验概率以在前景/背景分割上边缘化，并且优化对象的姿势参数。

根据另一方面，本发明包括一种编码在计算机可读数据载体上的计算机程序，当计算机程序运行在计算机处理器上时，其执行任一前述方法权利要求所述的方法。

下面将仅参照附图通过实施例来描述本发明的实施方式，在附图中：

图1A是包括偏转/俯仰/变焦摄像机和图像跟踪处理器的图像跟踪摄像机系统的示意图；

图1B是通过图1A的系统获取的图像的示意图，其中对该图像应用了一些图像处理；

图1C和图1D是由图1A的系统执行的操作的流程图；

图1E是对象轮廓的示意图；

图1F示出了由摄像机获得的图像的像素包生成模型；

图2A至图2D示出了来自一系列数字视频帧的帧，一系列数字视频帧示出了利用安装在一艘移动的船上的摄像机对另一艘移动的船的跟踪；

图2E至图2H示出了跟踪不同图像帧中人的头部；

图2I至图2L示出了跟踪在视频的不同帧中的人手；

图3示出了对通过本发明产生的视频帧的选择；

图4A至图4D示出了为了跟踪图像中的手，从实时视频数据的20,000帧中产生的代价函数中极值的对数概率分布；以及

图5示出了示出本发明的具体实施方式的方法的另一流程图。第1节：概述

我们如何至少执行从背景划定对象的工作的技术细节相比于现有技术具有重大的进步，并且在现有技术的技术问题之上提供了技术优点，这将有助于设置本发明的场景。接下来讨论方法和设备的总体目标。

在本发明的多个实施方式/本发明的实际应用中，总体目标是使用图像处理的输出来控制或修改某事物。“某事物”可以是控制摄像机的移动来跟踪摄像机的视野中的对象。“某事物”可以是控制或修改数字视频或图像信号以使对象在图像中居中(或以其它方式控制其在图像中的位置)。“某事物”可以是稳定数字视频或一系列图像以减少摄像机抖动或待观察的对象与摄像机之间的其它相对运动对图像的影响。这些领域的示例包括从行驶的车辆上的摄像机(或手持摄像机)获取图像、或者面部/人跟踪、或雷达或声纳图像，以去除不希望的杂波，或者摄像机可以移动或目标可以移动的(如跳动的心脏的一部分)医学影像领域。

根据本发明获得的经过处理的图像(或图像数据)本身可进行进一步图像处理——例如对象识别可用于增强/改善捕获的图像。

图1A示意性地示出了获取场景104的数字图像102的数字摄像机100，视图中的场景104具有第一船106、第二船108、一些山/海岸线110、以及一些波浪112。

目的是当船106动来动去时、当其它船阻挡船106时、当波浪部分地遮挡目标船时、以及当目标船相对于摄像机改变方向或姿势时，跟踪视频图像中的船106。摄像机100本身安装在另一艘船114上。摄像机100的输出信号116被送到具有显示屏120和输入设备(如鼠标)122的图像处理器118。

图像102显示在屏幕120上。图像处理器118的用户使用输入设备122识别图像102中待跟踪的对象。在这个实施例中，这是通过在船106的周围限定对象参考框架124来实现的。例如，通过点击鼠标并且拖动滑鼠来限定矩形的相对对角线(见图1B)，它们可产生围绕船的矩形框架，矩形的对象参考框架显示为虚线126。

然后，处理器118确定什么是待跟踪的对象或目标以及什么是背景。对于处理器118，用户还可以输入一些额外信息，或者可以输入/可以存在更多额外信息。例如，目标可以是(几乎肯定是)不同于背景的颜色，或者具有主色调。这个颜色可以被输入或从色板中选择例如作为“目标”，并且处理器118使用先验信息来限定目标/对象106与背景之间的边界128。边界128可以在显示屏120上(或在处理的图像其它地方)显示，或者它可以不显示。其在图1B中显示为虚线128。

实际上，我们认为，选择单一颜色作为模型参数不是最佳方法。我们更喜欢使用更复杂、更常规的使用颜色直方图作为前景/目标/对象模型的一部分(也常常称为背景模型中的颜色直方图)的方法。颜色直方图记录了前景/对象区域中每个颜色出现的频率。在颜色直方图方法中，用户不必输入颜色信息。用户(人)或处理器可以输入/选择目标的颜色。

处理器118通过假设边界128是圆形或椭圆形开始并且迭代地修改边界，直到其变得足够准确时处理器停止迭代。从背景划定目标所用的技术包含在本发明改进的技术领域内。

由于图像102的不同摄像机/视频帧被获取并且由处理器118处理，所以如果不进行校正，那么获取的图像102中的对象的2维位置移动或者将倾向于移动。处理器可随时间预测对象可能已经在何处从一个待处理的捕获图像移动到下一个待处理的捕获图像。(图像处理器可以处理每个捕获的图像，但是如果不是必要的，它可以只处理具有一些以时间间隔的图像，例如每个第4个图像。这取决于图像移动得多快/要求什么样的校正级别)。

图像处理器在概念上将确定的边界128的开始位置移动到新捕获的图像中对象的预测的新位置，并且再次迭代从背景划定图像的程序。这可能会导致新的边界形状，其用于下一个待处理的图像。

对于帧中的目标/对象边界128的每次或某些次确定，处理器118更新存储在快速存取存储器中的对象的表观(appearance)模型和存储在快速存取存储器中的背景的表观模型。因此，为每个新帧和每个处理的图像帧之间更新用于确定任何靠近边界的具体像素是对象还是背景的对象模型。在非最佳图像处理系统中，我们可以不对图像捕获器捕获的每一帧进行图像处理。

处理器118可以以与摄像机100的帧速率一样的速度处理图像。使用廉价的处理器，我们可以以至少50至100Hz的帧速率处理而没有明显的困难。

处理器118还输出控制信号130，控制信号130是通过处理捕获的图像得到的，并且可用于通过控制摄像机100的移动而使对象在捕获的图像中居中。或者它可用于生成可在捕获的图像中居中的对象的稳定图像，用于显示或储存、或用于后续处理。通过从图像到参考框架的变换，可容易地生成控制信号。存在多种实现控制的方法，所有这些方法都能被本领域技术人员很好的理解。究竟如何生成控制信号将取决于使用何种形式的控制。通常，对于偏转-俯仰(pan-tilt)装置的控制，我们将得到对象到图像中心的距离，并且调整摄像机的位置以使对象重新居中，或者替代地基于到图像中心的距离来设置摄像机的速度。

使用视觉输入的机器人控制的一般领域被称为视觉伺服，并且是已建立的技术领域。

对象参考框架124限定了前景/目标对象的方向、规模和位置。如果对象停留在同一位置但旋转，那么参考框架将旋转。这种已知的旋转可用于稳定图像(通过应用反转)。通常，参考框架限定了对象的姿势，并且通过坐标变换实现。这种坐标变换通常是群的元素(member)，这意味着它具有以其它方式变换回来的逆变换，以及特定的其它有用的属性。在我们的实现中，我们目前处理的最一般的群变换是单应性，这是具有8个自由度的线性变换，并且可用3x3的齐次矩阵表示。然而，在我们的大多数实验中，我们使用了相似变换，这是一种允许进行平移(位置改变)、旋转和缩放(scale)的变换。它也可以由3x3的矩阵表示，但是具有受限制的形式：

(\begin{matrix} s \times \cos (θ) & - s \times \sin (θ) & x \\ s \times \sin (θ) & s \times \cos (θ) & y \\ 0 & 0 & 1 \end{matrix})

其中，θ是旋转，x-y是平移，s是缩放。

通过比较，在美国6 590 999中，姿势是图像中简单的x-y位置。当然在这种情况下，参考框架似乎是不相关的。存在很多应用，在其中，重要的是不但要知道对象的位置，而且要知道对象的姿态和姿势。美国6 590 999既找不到旋转，也找不到我们可在3×3可逆线性变换中编码的任何其它参数。

转向更详细地从背景划定对象/目标的工作，我们的方法和装置可以处理同时跟踪一个以上区域(可以设置多个目标，例如通过设置多个目标配准(registration)框架(frame))。在跟踪之前，我们需要最少的目标先验知识，或者甚至不需要目标先验知识。

跟踪器的一个实施方式是出于根据视频或红外数据跟踪海洋环境中的船只或其它目标的目的、或出于在监控范围内跟踪CCTV中的人(身体或面部)的目的，为了实时控制机器人偏转-俯仰-变焦(zoom)装置而开发的。然而，本发明具有许多其它潜在的应用。

根据本发明的一个方面，我们提供了鲁棒性实时视觉跟踪系统，该系统使用像素前景/背景隶属(membership)后验概率来跟踪一系列图像中的目标。

我们可以得到用于鲁棒性、实时、视觉跟踪来自移动摄像机的以前看不见的对象的概率框架。通过对象/背景的像素包(bag-of-pixel)表达来处理跟踪图像中对象的问题。在一些实施方式中，该方法包括框架之间的刚性配准、从背景识别目标的图像分割、以及联机(online)表观学习。框架之间的配准可用于补偿刚性运动。对象模型的分割可用于对任何残余的形状变形建模。联机表观学习提供了对象表观模型和背景表观模型的不断完善。我们的方法成功的关键是在对象/背景的概率模型中使用像素的后验，而不是使用似然性(如现有技术所使用的)。通过将代价函数(cost function)统计与视觉跟踪文献中通常使用的那些统计相比较，我们已经证实我们跟踪器的优越性能。我们的比较方法提供了一种通过来自各种不同序列的大量数据总结跟踪性能的方式。

我们具有将跟踪与分割相结合的新颖的系统和方法，该系统和方法除了获得基于水平集的跟踪的期望属性以外，是非常可靠的并且在许多实施方式中在标准硬件上运行几毫秒。我们的方法基于将图像表示为像素包的图像形成的生成模型。这种模型的优势-与其它比较简单的基于密度的表示(如颜色直方图)相同-是其赋予视点不变性的程度。我们推导出概率性的、基于区域的水平集框架，该框架包括最佳刚性配准，在刚性配准之后进行分割以重新分割对象并且解决非刚性变形。除了速度的问题(在[4]中未解决)，在[4]与我们的工作之间还有许多差异，这些差异中的一些源自于我们对图像数据所使用的生成模型(见第2节)。首先，我们的推导给出了在大多数基于区域的水平集方法[7.4]中使用的希维赛德(Heaviside)阶跃函数的概率性解释。第二，考虑到这种解释，相对于似然性，我们提出了像素后验项，这使我们能够在像素级边缘化模型参数。如我们在第2节所示，这从我们的生成模型自然地导出，这是细微的但是是我们的方法与其它方法例如[4，2，3]之间绝对关键的区别，如在第7节示出的我们的结论。第三，与[7，4]相反并且与[8，9]相似，对于图像值，相对于单一的高斯分布(针对整个区域)，我们假设非参数(non-parametric)分布。最后，我们引入嵌入函数的先验，嵌入函数将其约束为近似的有符号距离函数。我们表明，这对[10]提出的概念给出了清楚的概率解释并且避免了在大多数基于水平集的方法中必要的重新初始化嵌入函数的需要。事后，我们的工作还承担了与[11]有些相似的工作，[11]寻求通过巴氏系数使固定的形状核与图像数据最佳对准的刚性变换。本工作将这种类型的开创性工作[12，13]扩展为处理平移+缩放+旋转，而不只是平移或平移+缩放。然而，与[11]相反，我们允许形状联机改变，并提出一种使用像素后验的新型框架，该框架去除了建立经验分布和使用巴氏系数测试它的代价。这具有的第二潜在的好处，因为它避免了根据给定的有限数据建立“良好的”经验分布的需要；在实践中我们发现，相比于[12，13，11]，这给出了显著的改善。不同于[4]，对于图像数据，[8，9]使用非参数分布。他们基于KL-发散和巴氏系数得到轮廓流。虽然他们证明，KL-发散和巴氏系数对于跟踪都是有效的，但是他们没有明确地对刚性变换参数建模：他们必须在每一次迭代重新计算其非参数分布，而且(如我们在第7节所示)，基于巴氏系数的结果不如我们所使用的。最后，值得一提的是基于模板的跟踪方法(见很好总结过去工作的[14])。在我们的比较结果中(第7节)，我们包括了理想的SSD代价，其在每一帧使用了正确的模板。虽然这不公平地有利于SSD方法(因为在现实中绝不可能获得准确的模板)，但是它建议，在未来可以从考虑如何能够合并空间信息中受益。

模板跟踪的一个问题是如何使模板适应时间变化。在我们的框架内(以及其它类似的工作)，因为分割被快速地且可靠地联机执行，所以对象的表观模型和形状模型可随时间更新，而不受漂移这个困扰其它算法的重大问题的影响。我们的框架一般足以扩展至各种类型的先验信息和各种成像模式，但是对于现在我们讨论的例子，我们将其限制为普通彩色视频中的二维或三维对象的二维投影的跟踪问题。

总之，本方法的主要优点是：(i)可扩展的概率框架；(ii)鲁棒性——由像素后验和边缘化提供；(iii)实时性能；(iv)极好的代价函数特征；(v)不需要计算每帧的经验分布，(vi)联机学习(即表观和形状特征的适应)；(vii)灵活地跟踪不同类型的对象；以及(viii)对于视野和表观变化的高度不变性。

下面，第2节描述了正被跟踪对象的表达，并且从简单的生成模型推导出概率框架；第3节描述了水平集分割；第4节示出了配准过程；第5节描述了处理漂移的方法；第6节概述了联机学习过程；第7节示出了我们的结果；以及第8节以总结和讨论结束。

第2节生成模型

下面的详细讨论是针对本领域技术人员——它完全是数学的，所以针对本领域技术人员。

图1E示出了对象的表示，其示出：对象的轮廓C，一组前景像素Ω_f，一组背景像素Ω_b，对前景建模的前景模型P(y|M_f)，对背景建模的背景模型P(y|M_b)和扭曲(warp)W(x，p)(对象的位置)。

图1F是将图像表示为像素包的我们的生成模型的图示。

我们用对象的形状C、在2维图像中的位置W(x，p)以及两个基础的表观模型(一个用于前景P(y|M_f)，一个用于背景P(y|M_b))来表示正在跟踪的对象。图1E使用单一实施例示出了这些内容。

形状：由嵌入函数Φ(x)[1，5]的零水平集C＝{x|Φ(x)＝0}表示。对象框架中的像素Ω被分割成两个区域：一个用于前景M_f，一个用于背景M_b。

位置：由扭曲W(x，p)描述，其获得对象框架中的像素位置x并且根据参数p将像素位置x扭曲到图像帧中。这种扭曲必须形成群[14]；然而，这是可以接受的，因为计算机视觉中许多常见有用的变换都形成群：平移、平移+缩放、相似变换、仿射变换以及单应性。

前景表观模型和背景表观模型：P(y|M_f)和P(y|M_b)由使用每个通道32bins(柱)的YUV直方图表示。直方图根据检测模块或用户输入的初始边界框初始化。边界框内的像素用来建立前景模型，来自张大的边界框的像素用来建立背景模型。然后，两个初始分布用于产生试验性分割，试验性分割然后用于重建模型。迭代这个过程直至形状收敛(类似于[15])。一旦开始跟踪，表观模型和形状C被联机(online)估计(适应)，如第6节所述。总的来说，我们使用下面的符号：

-x：对象坐标系中的像素位置。

-y：像素值(在我们的实验中，这是YUV值)。

-I：图像。

-W(x，p)：用参数p扭曲。

-M＝{M_f，M_b}：前景或背景的模型参数。

-P(y|M_f)：像素值y上的前景模型。

-P(y|M_b)：像素值y上的背景模型。

-C：分割前景与背景的轮廓。

-Φ(x)：形状核(在我们的示例中，水平集嵌入函数)。

-Ω＝{Ω_f，Ω_b}：对象框架[{x₀，y₀}，...，{x_N，y_N}]中的像素，该像素被分入到前景像素Ω_f和背景像素Ω_b中。

-H_E(z)：平滑的希维赛德阶跃函数。

-δ_E(z)：平滑的狄拉克函数。

图1F示出了我们用于表示图像形成过程的简单生成模型。这个模型将图像作为像素包[6]处理，并且能够在给定模型M、形状Φ和位置p的情况下用于采样像素{x，y}。虽然产生的图像对人来说不像真正的前景/背景图像(像素将是混乱的)，但是与前景区域Ω_f//背景区域Ω_b相对应的颜色分布将与模型P(y|M_f)和P(y|M_b)相匹配。简单的说，对于视点给出了更多的不变性，并允许鲁棒性地跟踪3维对象，而不需要对其具体的三维结构建模。由图1F中模型给出的单一像素的联合分布是：

P(x，y，Φ，p，M)＝P(x|Φ，p，M)P(y|M)P(M)P(Φ)P(p). (1)

下面，我们用(1)除以P(y)＝∑_MP(y|M)P(M)，得到：

P(x，Φ，p，M|y)＝P(x|Φ，p，M)P(M|y)P(Φ)P(p)， (2)

其中，项P(M|y)是给定像素值y的情况下模型M的像素后验：

P (M_{j} | y) = \frac{P (y | M_{j}) P (M_{j})}{Σ_{{i = f, b}} P (y | M_{i}) P (M_{i})}

j＝{f，b}. (3)

使用这个后验相当于对每个单独的像素应用贝叶斯模型选择。我们现在在模型M上边缘化，在给定像素{x，y}的情况下产生形状Φ和位置p的后验概率：

P (Φ, p | x, y) = \frac{1}{P (x)} \underset{{i = f, b}}{Σ} {P (x | Φ, p, M_{i}) P (M_{i} | y)} P (Φ) P (p) . - - - (4)

注意的是，像素后验和边缘化是细微的(subtle)，但是明显不同于[4]中的工作，[4]中的工作缺乏边缘化步骤并且使用像素方面的似然性P(y|M)。我们在第7节中示出了我们的公式产生了更好的表现结果(objective)。我们考虑两种融合像素后验的可能方法：(i)对数意见池(LogOP)：

P (Φ, p | Ω) = Π_{i = 1}^{N} {\underset{M}{Σ} {P (x_{i} | Φ, p, M) P (M | y_{i})}} P (Φ) P (p) - - - (5)

以及(ii)线性意见池(LinOP)：

P (Φ, p | Ω) = Σ_{i = 1}^{N} {\underset{M}{Σ} {P (x_{i} | Φ, p, M) P (M | y_{i})}} P (Φ) P (p) . - - - (6)

对数意见池通常是优选的选择，并且最类似于以前的工作[4，5]；而线性意见池相当于在像素位置上边缘化——这是允许的，因为我们的像素包生成模型将像素位置作为随机变量处理。为了清晰起见我们假设对数意见池来继续我们的推导，而且为了完整性还包括使用线性意见池的结果。注意的是，项已被去掉，因为对于所有像素位置来说它是不变的，我们只寻求使P(Φ，p|Ω)最大化。

第3节分割

基于区域的分割方法的典型方法是在像素位置xi上获得像素方面似然函数的乘积，以获得总的似然性P(I|M)。然后，这可以通过取对数表示为和并且通过变化的水平集[1，5]优化。相比于这些方法，我们的推导导致像素后验和边缘化(5)，细微但重要的区别。

对于本节的其余部分，为了简化我们的表达式(在不失一般性的情况下)，我们假设配准是正确的，并且因此x_i＝W(x_i，p)。我们现在规定(5)中的项P(x_i|Φ，p，M)和(3)中的项P(M)：

P (x_{i} | Φ, p, M_{f}) = \frac{H_{&Element;} (Φ (x_{i}))}{η_{f}}

P (x_{i} | Φ, p, M_{b}) = \frac{1 - H_{&Element;} (Φ (x_{i}))}{η_{b}} - - - (7)

P (M_{f}) = \frac{η_{f}}{η}

P (M_{b}) = \frac{η_{b}}{η}, - - - (8)

其中

η＝η_f+η_b，

η_{f} = Σ_{i = 1}^{N} H_{&Element;} (Φ (x_{i})),

η_{b} = Σ_{i = 1}^{N} 1 - H_{&Element;} (Φ (x_{i})) . - - - (9)

等式(7)表示典型的基于区域的水平集方法中使用的模糊希维赛德(Heaviside)阶跃函数的归一化版本，并且现在可以以概率方式解释为像素位置x的模型特定空间先验。等式(8)表示模型先验，其由模型特定区域的面积与两个模型的总面积的比值给出。等式(9)包含归一化常量(注意，η＝N)。

我们现在规定Φ的几何先验，其回报有符号的距离函数：

P (Φ) = Π_{i = 1}^{N} \frac{1}{σ \sqrt{2 π}} \exp - \frac{{(| &dtri; Φ (x_{i}) | - 1)}^{2}}{2 σ^{2}}, - - - (10)

其中，σ指定了先验的相对权重(weight)。这给出了[10]中工作的概率解释。将(7)、(8)、(9)和(10)代入(5)，并取对数，则给出对数后验的以下表达式：

\log (P (Φ, p | Ω)) &Proportional; Σ_{i = 1}^{N} {\log (P (x_{i} | Φ, p, y_{i})) - \frac{{(| &dtri; Φ (x_{i}) | - 1)}^{2}}{2 σ^{2}}} +

N \log (\frac{1}{σ (2 π)}) + \log (P (p)), - - - (11)

其中

P(x_i|Φ，p，y_i)＝H_∈(Φ(x_i))P_f+(1-H_∈(Φ(x_i)))P_b

以及

P_{f} = \frac{P (y_{i} | M_{f})}{η_{f} P (y_{i} | M_{f}) + η_{b} P (y_{i} | M_{b})}

P_{b} = \frac{P (y_{i} | M_{b})}{η_{f} P (y_{i} | M_{f}) + η_{b} P (y_{i} | M_{b})}

考虑到我们即将关于Φ进行优化，我们可以去掉(11)中的最后两项，并且通过变分法(calculus of variations)[16]将函数的第一变量(加托导数)表示为：

\frac{&PartialD; P (Φ, p | Ω)}{&PartialD; Φ} = \frac{δ_{&Element;} (Φ) (P_{f} - P_{b})}{P (x | Φ, p, y)} - \frac{1}{σ^{2}} [{&dtri;}^{2} Φ - div (\frac{&dtri; Φ}{| &dtri; Φ |})], - - - (12)

其中是拉普拉斯算子以及δ_∈(Φ)是模糊希维赛德阶跃函数(即模糊狄拉克函数)的导数。有趣的是，δ_∈(Φ)现在可以被理解为一种表示轮廓C的不确定性的方式。如果我们对轮廓使用高斯不确定性，那么基于区域的不确定性将用erf(Φ)代替H_E(Φ)表示。通过使用下面的梯度(gradient)流实现最速上升，我们寻求

\frac{&PartialD; P (Φ, p | Ω)}{&PartialD; t} = \frac{&PartialD; P (Φ, p | Ω)}{&PartialD; Φ} . - - - (13)

实际上，这是通过使用离散网格上的简单数值方案实现的。所有空间导数采用中心差分计算，并且拉普拉斯使用3×3空间核。我们为所有实验使用和时步(timestep)T＝1。为了稳定性，必须满足＜0.25(详见[10])。

第4节跟踪

可以直接在分割框架[8]中提出跟踪问题。相反，像[4]一样，通过使对象框架具有水平集并且将扭曲W(x，p)代入(11)，我们明确地对帧到帧配准建模。这种方法的主要好处是：(i)控制配准(跟踪)与分割(局部形状变形)之间的相互作用；(ii)首先通过配准嵌入函数，需要较少的迭代来考虑形状变化(事实上，我们发现对于我们的序列，每帧一次迭代就足够了。对于其它应用，我们可以选择两次或三次、或者更多次的迭代。)。准备微分时，我们现在去掉(11)中任何不是p的函数的项：

\log (P (Φ, p | Ω)) &Proportional; Σ_{i = 1}^{N} {\log (P (x_{i} | Φ, p, y_{i}))} + \log (P (p)) + ocm . st . - - - (14)

将扭曲W(x_i，Δp)代入(14)，并且为了简化而去掉先验项(我们在第5节重新讨论该项)：

\log (P (Φ, p | Ω)) &Proportional; Σ_{i = 1}^{N} {\log (P (W (x_{i}, Δp) | Φ, p, y_{i}))}, - - - (15)

其中，Δp表示形状核的增量扭曲。这个表达式可以以多种方式优化，最类似的工作使用简单的梯度上升[4]。与此相反，我们利用这个事实：所有单独项都是概率并因此绝对是正的。这允许我们将某些项写为平方根的平方并且对每个平方根用一阶泰勒级数近似来代替，例如：

{[\sqrt{H_{&Element;} (Φ (W (x_{i}, Δp))}]}^{2} \approx {[\sqrt{H_{&Element;} (Φ (x_{i}))} + \frac{1}{2 \sqrt{H_{&Element;} (Φ (x_{i}))}} JΔp]}^{2}, - - - (16)

其中：

J = \frac{&PartialD; H_{&Element;}}{&PartialD; Φ} \frac{&PartialD; Φ}{&PartialD; x} \frac{&PartialD; W}{&PartialD; Δp} = δ_{&Element;} (Φ (x_{i})) &dtri; Φ (x_{i}) \frac{&PartialD; W}{&PartialD; Δp} .

同样，我们对(1-H_∈(Φ(W(x_i，Δp)))应用相似展开，然后允许我们使用高斯牛顿进行优化。(如果H_E(Φ(x_i))＝0，那么泰勒展开条件很苛刻；实践中不会发生这种情况，因为项绝对不会等于零)。这具有的优势是：海塞(Hessian)本身不是必须的，而是使用海塞的一阶近似。因此它是快速的，并且在我们的实验中，显示出快速且可靠收敛于我们的问题域。这也避免了[17]中强调的为梯度上升选择合适步长的问题。为了简洁，我们得到了不包括全部细节的Δp的表达式：

Δp = {[Σ_{i = 1}^{N} \frac{1}{2 P (x_{i} | Φ, p, y_{i})} (\frac{P_{f}}{H (Φ (x_{i}))} + \frac{P_{b}}{(1 - H (Φ (x_{i})))}) J^{T} J]}^{- 1} \times

Σ_{i = 1}^{N} \frac{(P_{f} - P_{b}) J^{T}}{P (x_{i} | Φ, p, y_{i})} . - - - (17)

然后等式(17)用于通过用W(x_i，Δp)^-1组成W(x_i，p)来更新参数p，类似于反向合成跟踪[14]。

第5节：漂移校正

通过使对象的位置p和形状Φ表示的对象不发生模糊，其中，可以用p或Φ解释形状的刚性变换(transformation)。理想的情况下，任何刚性运动将完全由p解释，但是，形状Φ随着时间慢慢地并入刚性变换。我们定义了位置的先验P(p)，其进行小的校正以使左/右和上/下边框保持均衡(轮廓与前景框的相应边之间的最小距离)，并且最小边界距离等于四个像素(在这个例子中，但是它可以是更少或更多的像素)。这是通过使用比例控制器实现的，比例控制器获取四个边界距离作为它的输入并且输出先验P(p)。

6联机学习

一旦完成配准和分割，前景模型和背景模型适于自动地实时联机。这是通过使用具有可变学习速率α_i，i＝{f.b}的线性意见池实现的：

P_t(y|M_i)＝(1-α_i)P_t-1(y|M_i)+α_iP_t(y|M_i)，i＝{f，b}. (18)

在所有实验中α_f＝0.02且α_b＝0.025。对于形状适应，我们使用时步T控制水平集的演变速率。理想地，这三个参数会在整个序列中动态地改变以在防止混乱时间内或者在对象丢失的情况下发生学习；我们打算在今后的工作中这样做。

图5示出了提供跟踪对象的一个优选方法的流程图。根据图像处理操作的以前的图像存在对象的初始位置、形状和表观(称为510)，或者选择初始位置、形状和表观。系统(图5中未示出)获取表示一系列帧中另一帧的数据，并且在步骤512确定对象的位置是否发生了变化。如果没有发生变化，则系统处理器进入步骤520。如果发生了变化，则处理器通过使用对象移动的以往经验来预测对象在新的图像帧中的位置(步骤514)，然后在步骤516在概率上通过使用像素后验概率以及边缘化不需要的参数的技术(称为PWP)来优化对象的位置。然后进入步骤520。

步骤520评估对象的形状是否发生了变化。如果没有发生变化，则处理器进入步骤530。如果发生了变化，则处理器通过使用对象形状模型来预测新的形状(步骤524)，并且使用PWP优化形状(步骤526)。

步骤530确定对象的表观是否发生了变化。如果没有发生变化，则处理器进入步骤540。如果发生了变化，则处理器使用概率表观模型来预测新的表观(步骤534)，并且在步骤536将现有表观模型与新的预测的表观模型融合以创建更新的表观模型。然后，这将用于跟踪处理的下一次迭代。在步骤536之后，处理器开始执行步骤540。

步骤540确定对象是否发生了漂移。如果没有发生漂移，则处理器进入步骤550。如果发生了漂移，则处理器执行步骤542——漂移校正，然后进入步骤550。

步骤550确定是否需要将对象的姿势输出到外部模块/外界。如果不需要，则处理器进入步骤560。如果需要，然后在步骤552，执行将姿势输出到外界，然后处理器进入步骤560。

步骤560评估图像是否需要稳定(这取决于应用)。如果不需要，则处理器返回步骤512并且评估在获取的下一个图像帧中对象是否改变了位置。如果需要，则处理器执行步骤562，其稳定图像并且将稳定的图象输出到外部模块或设备或输出线。然后处理器返回步骤512并且评估下一个获取的图像帧，以确定在新获取的图像中对象的位置是否发生了改变。

对于待进行图像处理的连续图像帧，重复这个循环。

第7节结论

我们已经广泛地针对现场视频以及各种记录序列(内部且机密地)测试了我们的系统，各种记录序列包括展示了快速且灵活的运动并且伴有明显运动模糊、变化的光照、移动的摄像机、混乱且不断变化的背景的对象。图2A至2L示出我们的方法对三个序列的定量评估。第一(如图2A至图2D所示)是正处于180°平面外旋转的快艇——注意形状是如何联机适应的。第二(如图2E至图2H所示)是跳来跳去的人——注意运动模糊和形状适应。最后，第三(如图2I至图2L所示)是由安装在头部的摄像机跟踪的手经过与对象的表观相似的具有挑战性的背景。

为了执行定量评估，针对一组预先录制的视频序列，我们已经分析了我们技术的基本的代价函数的特点，并且将其与竞争的可选方案进行了比较。图3示出了从这些序列的子集的中间序列获取的静像，最小长度是400帧并且帧的总数超过20,000。为便于结果的可视化，我们使用2维刚性变换+缩放，分别考虑四维中的每一维。考虑的竞争代价函数对应于以下可选的跟踪方法：基于似然性的水平集方法[4，2]，均值漂移[12，13，11]，反向合成[14]以及基于分布的跟踪[8，9]。

好的代价函数在真实位置处具有单个极值。不好的代价函数具有多个极值，并且任何位置优化技术可能落入这些极值中的一个，实践中这往往是跟踪失败的开始。对于每个视频帧和每个维度(X和Y平移、旋转和缩放)，我们在以真实状态为中心间隔的40个均匀间隔的点处计算竞争的代价函数的结果。然后，我们从这些结果提取所有局部极值，研究它们是如何在间隔上分布的。为了归纳这些信息，我们使用超过20,000帧的集合来计算每个维度和每个代价函数的分布。理想分布将是以真实状态为中心的狄拉克函数；而好的分布在真实状态周围有峰，并且在需要收敛的区域内具有局部极值的概率很低。坏的分布相对平，在整个空间上具有局部极值的概率很高。我们考虑的具体代价函数是：

·LogPWP：使用对数意见池融合的像素方面的后验。

·LinPWP：使用线性意见池融合的像素方面的后验。

·LogLike：在大多数水平集工作[5，4，2]中使用的对数似然性。

·BhattF：巴氏(Bhattacharyya)系数：

由[12，13，11]使用。

·BhattF：具有背景模型的巴氏系数：

B (Ω_{f}, Ω_{b}) = Σ_{j = 1}^{V} \sqrt{P (y_{j} | M_{f}) p (y_{j} | Ω_{f})} + Σ_{j = 1}^{V} \sqrt{P (y_{j} | M_{b}) P (y_{j} | Ω_{b})} .

·BhattFBM：背景不匹配的巴氏系数：

由[9]提出。

·理想SSD：平方的像素的总和通过使用理想模板而不同，理想模板即为在当前位置p提取的模板。如果你具有在包括噪声的每个像素位置处给出真实像素值的完美生成模型，那么你将得到什么是至关重要的。当然这是永远不会实现的，但已被包括作为有用的基准，并给出了并入纹理(texture)可具有什么样的效果的指示。

注意：V是像素值的数量，即32×32×32；P(y|Ω_i)i＝{f，b}是根据像素Ω_i构建的经验密度，并且当计算巴氏系数时，我们根据我们的形状核对每个像素的分布加权，这与Yilmaz的工作[11]相同。

图4示出了由超过20,000真实视频帧生成的分布：x平移(translation)，y平移，缩放和旋转。

·x和y平移：与除了理想SSD以外的所有方法相比，我们的方法在真实状态附近具有较窄的分布，并且明显比[4]所使用的对数似然更好。与其它方法不同，我们的方法在±5像素区域以外几乎不显示任何极值——这意味着我们的方法将从我们已经估算的±20像素空间内的任何地方收敛到真实状态的±5像素内。

·缩放：巴氏方法和背景不匹配的巴氏方法在缩放方面都具有很差的局部化，这与许多作者的研究结果是一致的。与基于我们的基于后验的方法相比，对数似然对局部化缩放也很差。

·旋转：所有巴氏方法和对数似然在正确地局部化旋转方面是很差的。例如，直巴氏系数具有超过1％的以30Hz帧速率在旋转空间中的任何地方显示极值的机会，这相当于约每3秒视频中的1帧。值得注意的是，由我们方法和理想SSD显示的旁瓣(约25°)是由于与手序列中手指相对应的自相似性而产生的。

其它一些人，例如[4，5，2]，使用单高斯参数模型。这隐式地加强联合似然的平滑、单峰分布。非参数表达式(如我们在这个实施方式中的选择)不具有这些特性；然而，在描述复杂分布时它们是更好的并因此是可取的。我们的方法可以处理这些分布的原因是由于(3)中的归一化分母和(4)中的边缘化步骤。这两个步骤防止单个像素主导代价函数，因此使其更平滑且表现良好。

[8]的工作及其后续改进[9]使用分布匹配技术以将非参数分布合并到水平集框架中。与基于巴氏的方法类似，这些方法包括在优化的每次迭代时计算经验密度，而我们的方法避免这个额外的代价。我们的方法不仅在代价函数方面优于这些方法(参见图4)，而且由于它不需要经验分布，所以它对估算而言计算速度更快/更便宜。这是重要的益处，因为它不仅减少了每次迭代的计算代价，而且避免了必须建立“良好”分布的问题。这些方法与我们方法之间性能差异的解释是，很难实时建立“良好”的经验分布，并且大多数方法依赖于简单的直方图。

7.1时序

(17)中的所有项包括δ_∈(Φ(x_i))(模糊狄拉克δ函数)。这意味着单个像素对优化的贡献进一步削弱了轮廓的贡献。因此，高效的实现认识到这一点。我们的实现忽略窄带以外的像素，并且对于180×180像素的对象尺寸，以500μs运行在P43.6GHz的机器上。平均来说，系统以85Hz的帧速率运行完整的算法，如果形状和表观学习关闭(即，只有刚性配准)，那么它平均为230Hz。

当我们提到我们的实时操作方法和系统时，我们指的是图像处理发生的足够快以致于在帧之间完成。

优势：

(i)如此前公开的，至少本发明的一些实施方式需要最少的与目标形状/表观有关的先验知识，但是如果可用，那么在相同框架内，可并入一些附加信息(如形状或表观限制)；这与基于模型的跟踪器相反，在某些情况下，基于模型的跟踪器满足以下的(ii)至(v)，但需要关于目标的强大的几何知识。

(ii)跟踪是鲁棒性的，因为它可以处理大的帧间位移；这与大多数模板或基于相关性的跟踪器相反，大多数鲁棒性跟踪是通过重复的检测实现的，但是现在这需要非常强大的表观模型或者是巨大的计算花费，或两者兼而有之。

(iii)跟踪器分离对象的n维刚性(或投影)运动与形状的局部变形；因此它可以用于局部化(即，解决目标位置的刚性自由度)表观随时间变化的目标；例如跳动的心脏(无论是二维图像或三维图像)、展开的手指、或经历三维刚性运动并且因此其二维投影依赖于姿势的目标。基于类似理论的大多数工作没有单独解决刚性姿势参数，因此可以倾向于使形状随时间漂移。

(iv)跟踪器能够一次局部化多个目标，正确地解决遮挡和同一帧内目标的相对深度排序。

(v)一些实施方式中通过实时实现(C++)获得支持，并且因此可用于视觉伺服或机器人控制(如，偏转俯仰)装置，或需要直接结果的任何其它应用。存在各种实时跟踪方法，但是目前没有一个满足上述(i)至(iv)。

(vi)跟踪器了基于像素是背景或前景的后验概率优化联合概率。这与其它方法相反，其它方法考虑背景模型或前景模型中像素值的似然性。这使得它能够用非参数分布工作，比现有技术更好。

(vii)在许多实施方式中，跟踪器将像素位置和模型参数作为“多余(nuisance)”变量处理并且将它们边缘化。与假设像素独立并且对像素值似然性取乘积的所有其它相似的方法相反，这导致了对后验求和。

(viii)在视觉跟踪方面，据我们所知，跟踪器是首次使用将嵌入函数直接约束为(而不是作为单独步骤)有符号距离函数的概念，并且跟踪器首次给出这种约束的概率解释。

(ix)在许多实施方式中，跟踪器提供了新颖方法以使用闭环反馈来防止目标远离自己坐标系的中心漂移。

总结

我们已经开发了新的概率框架，用于鲁棒性、实时、视觉跟踪以前从移动的摄像机看不见的对象。我们方法的主要贡献以及与其它方法相比具有优越性能的原因是使用像素后验，而不是使用像素似然性的乘积。这使我们能够边缘化前景和/或背景模型上不需要的参数。像素后验给出边缘化的“平均”处理中的相对权重。其他人没有对模型参数M(是像素背景或前景)边缘化。相对于其它方法[4，5]，我们使用Gauss Newton(高斯牛顿)解决了配准，Gauss Newton具有显著的实际益处，即(i)去除与步长选择相关的困难，并且(ii)可靠且快速的收敛。通过使用超过20,000视频帧进行的像素后验与其它竞争方法的完整分析，我们已经定性和定量地证明了本方法的益处。我们的研究结果表明，当将非参数分布并入基于区域的水平集时，使用像素后验具有优异的性能。它不仅具有优越的代价函数，而且避免了计算经验分布[12，8，9，11]的需要，因此速度更快。

在给定的实施例中，跟踪器工作为寻找n维图像中背景与前景之间的最大分离，其中，前景与背景之间的边界由嵌入函数的n+1自由度的零水平集限定。这种分离被分解为两部分：目标从自己的坐标系刚性变换到图像帧的刚性变换，以及局部形状变形(如有必要)。此外，嵌入函数自动调整为有符号的距离函数。此外，通过闭环反馈自动调整形状和/或姿势参数，以防止目标远离目标坐标系原点漂移。通过概率分布(例如，如颜色直方图等非参数分布，或者如高斯混合等参数分布)表示背景和前景，其随时间联机被调节。被最大化的目标函数(objective function)是在概率上得到的并且是对前景和邻近背景中所有像素上的概率(其包括表示像素是前景还是背景的后验概率的项)求和。这与大多数相似方法相反，大多数相似方法采用似然性而不是后验，并且是在所有像素上取乘积。当存在多个目标时，该方法在可能的深度排序上计算后验概率分布。

对象的视觉跟踪在监控(无论航空、陆地或海上)方面具有广泛应用，用于军事目的(如目标)的跟踪、在医疗成像应用中的器官跟踪：如在本发明中目标定位可用于驱动偏转-俯仰-缩放设备来稳定目标，或用于视觉伺服，如移动机器人以跟随目标，或用于设备的对接、对准或定向等。

其它意见

回到有关使用捕获的图像的对象区域和背景区域的颜色直方图(或至少颜色直方图)这一点，我们注意到，Comaniciu的美国6 590999发明使用了相同表达。然后他试图最大化图像中的位置，其中最大化到达新的目标位置。因此，虽然他的目标表示与我们的相似，但是他的目标定位方法是不同的，无论是他最大化的目标函数的方面，还是他完成最大化的方式。

与此相反，Cremers(见参考文献4)具有与我们非常类似的框架。他将轮廓表示为水平集，寻求轮廓与图像的最佳对齐，然后允许形状变形。他做了三件不同于我们的事情(i)他使用像素似然性而不是我们的像素后验；(ii)他没有边缘化模型参数；(iii)他的表示通常是单一颜色分布(即，集中在主色调/灰度级的高斯pdf)。

应该理解的是，在我们描述的方法中，从背景划定目标对象的初始边界具有圆形形状，这仅仅是使用最少信息量开始处理。一旦边界轮廓已经收敛到特定形状(背景/前景分割)，那么假设形状的彻底改变不会快速发生的情况下，边界轮廓就是这个被传播到下一帧的形状。

使方法能够工作在所描述的详细的实施方式中所必须的信息是对前景对象的颜色直方图的估计，以及对背景区域的颜色直方图的估计。我们使用最少信息量作为图像处理方法正常运行所必须的信息。作为边界开始形状的初始椭圆形边界还确定了对象的参考坐标系：X和Y轴与椭圆的X和Y轴对齐，并且旋转由图像X轴和椭圆X轴之间的角度给出。在我们的实施例中，最初的比例取为(任意地)1。

注意的是，通常可以用“表观模型”取代“颜色直方图”，作为更一般的陈述。例如，我们可以使用单一颜色模型，也许使用以这个单一颜色为中心的高斯pdf，或替代地我们可以使用例如纹理的局部测量(如图像数据的频谱)。初始边界椭圆形提供了用户希望主要包含前景像素的区域。这个区域外部(实际上椭圆形周围的缓冲区的外部)取为背景。然后，水平集分割算法被迭代几次以定位边界，然后根据现在哪些被认为是前景/背景来更新颜色直方图。

作为椭圆初始化的可选方案，我们可以应用面部检测器，并且取检测器所在的区域的内部作为前景且根据这个数据建立颜色模型，并且取面部以外的区域来表示背景且根据这个区域中的像素数据建立背景颜色模型。我们还具有支持这种初始化方法的实现。

第三可选方案是执行自动对象识别，并且使用由对象识别模块(例如，船或行人检测器)识别的区域以及对象外部的区域来初始化表观模型。

第四可选方案是用户通过用户输入(例如，鼠标手势)来标识前景和背景的一个或多个部分。这种方法是流行的分割方法，已经在如photoshop等产品中出现。

当我们通过最大化等式(5)或(6)划定对象/背景边界时，或者更具体地在图像中所有像素上用公式表示用于形状的等式(11)的最大化和用于姿势的等式(15)的最大化。然而，远离边界的像素的贡献是微乎其微的。因此，我们只考虑在当前轮廓周围窄带中的像素，因为这些是在每次迭代时对姿势/形状有重大影响的像素。因此，本方法的速度随轮廓的长度改变而不随图像的大小改变。这种方法被称为窄带法。这是水平集文献中公知的(即就其本身而言，它不是我们发明的新颖部分)。对窄带方法以及水平集的大体的良好简单的介绍可在http://math.berkeley.edu/～sethian/2006/Semiconductors/ieee_level_set_ex plain.html网站中找到。

我们可以以多种方式处理多个对象。在一种情况下，所有对象进行相同的动作(即，它们的动作可以由单一共同变换描述，例如如果我们从移动摄像机的视角跟踪固定在平面表面上的平面水滴)。在此情况下，边界轮廓只是比简单的闭合曲线更复杂。这是使用水平集公式的主要好处，因为有对边界轮廓的拓扑存在很少限制。可选地，我们可以实例化全部独立运作的多个跟踪器。如果对象彼此从未遮挡，那么这个效果很好。

应该理解的是，在边缘化步骤期间，当我们估算每个像素的后验概率时，我们得到像素是前景的概率以及相同像素是背景的概率。它们的总和是1(P(前景|y)和P(背景|y)，其中，y是像素值，总和等于1)。

虽然我们谈论图像，并且虽然在很多实施例中被处理的图像是2维图像，但是它们可以是n维图像。例如，MRI或CT扫描被称为“图像”，虽然它们涉及三个空间维度而不是二维(通常但并不总是，由多个平行切片组成，其中每一个是2维图像)。

目前为止讨论的图像值的一个非参数分布是颜色直方图，其中，直方图中的每个“bin”表示具体颜色出现在对象中的相对概率(也是该颜色出现在背景中的概率之一)。这是表示概率的数值、或非参数方法。可选的参数表示可以使用某些参数的函数来表示概率分布。例如，如果前景颜色是“c”，那么高斯分布(即钟形曲线)将获取具有“c”或接近“c”的所有颜色的表观模型，通过参数σ控制“c”周围的展开。参数分布尤其是高斯分布往往会导致好的目标函数，但在以降低表象功率(representational power)为代价。单一高斯分布不能充分表示一半红、一半蓝的对象的外观。

应该理解的是，任何给定像素的前景/背景隶属都不能肯定地确定。为了只获得p(姿势)和Φ(形状)的分布，在M上边缘化像素隶属的处理利用P(M)给出的权重来计算条件分布P(Φ，p|M，I)的加权平均。因此边缘化“平均”M中的不确定性。

相似方法将确定个人寿命的概率分布。寿命受生活方式选择的影响，从而给定某种生活方式选择的寿命分布可能会非常不同。例如，P(寿命|生活方式选择＝吸烟者)与P(寿命|生活方式选择＝非吸烟者)有很大的不同。

在缺乏关于生活方式选择的固定知识的情况下，P(寿命)(无条件或边缘分布)给出了“平均”分布。这是利用由广大居民的每个生活方式的相对概率给出的权重，通过条件分布的加权平均获得的：

P(寿命)＝P(寿命|生活方式选择)乘以P(生活方式选择)的生活方式选择的总和。

我们已经称之为“像素包”模式。下面将讨论这种方法。

应该理解的是，在将模型的一个或多个多余参数边缘化的情况下，每个数学符号是参数：形状、姿势、像素位置(图像中的位置)、像素值(例如，RGB颜色)，当然还有模型选择参数(前景/背景)。刚好我们感兴趣的是形状和姿势而不是模型选择参数，因此它们是多余的。正是由于这个原因，我们将它们平均/边缘化掉-因为我们真的不希望去担心它们。

可能的是，不同的问题会具有不同的多余参数。例如，我们要跟踪对象并且我们知道它是静止或移动的(取决于哪个是真的，这影响我们预测该对象在下一帧中位置的方法)。在这个实施例中，我们并不真正关心它是静止还是移动：我们只想知道它在每一帧中的什么位置，由此我们可以同样地边缘化/平均指示对象移动或静止的参数。

更一般地，在任何估算问题中，我们的目标是在给定某些参数相关的测量的情况下为这些参数推断最佳值。在非常简单的情况下，我们可以直接测量未知参数。但在大多数情况下，我们将测量的参数是通过一些数学函数间接地与期望参数相关的，其中数学函数对测量和参数值之间的关系建模。此外，通常的情况是，明显的函数关系还包含其它一些未知参数。如果我们知道这些“多余”或“潜在”或“隐藏”参数的值，那么估计问题会更容易些，但是通常我们是不知道的。一种方法是根据测量估计多余或潜在的参数，然后利用这些估计来算出我们需要的参数值。但是这需要接受潜在变量的特定值。相反，如果我们具有与每个潜在/隐藏/多余的变量的可能值相关联的相对概率，那么我们可以通过取加权平均(利用由相对概率给定的权重)来边缘化潜在变量。

在我们之前给出的一个实施例中，参照附图，我们真正要的参数是姿势P和形状Phi。在这种情况下，指示像素是前景还是背景的分割参数M是多余参数。我们为每个像素估计概率P(M|y)，并且使用这些概率来边缘化像素分割参数M，产生P(Phi，p|x，y)。(Phi，p|x，y)的等式在给定特定像素及其颜色的情况下，为每个像素获取特定形状/姿势概率的关系。

针对很多计算机视觉问题的标准方法是在给定情况下制定图像形成过程的模型，然后在给定的特定图像的情况下尽量使模型的一个或多个参数的概率最大化。例如，假设我们确定图像形成过程包括将已知尺寸、形状、表观和方向的前景对象“粘贴”到已知背景中，其中图像处于未知位置。然后，这是简单的生成模型(虽然不是很强大的模型，因为它针对特定背景，只建模一个特定的前景对象)。通过考虑所有可能参数值(其中，参数是已经粘贴有前景对象的x-y位置)理论上可以产生本模型下的所有可能图像集。可以为任何(每个)参数值估算已经由该模型生成的任何给定图像的概率，并且目的是找出使这个概率最大化的参数(例如，图像中前景对象的位置)。

生成模型的不同选择会导致不同的目标函数，其中一些可能较容易或较难优化——甚至可能难以优化。生成模型的不同选择还将导致更多或更少的表象功率。好的方法在生成模型足够一般的情况下导致在可能的输入条件下获得大的差异，但是好的方法仍然导致“表现良好”且难以优化的目标函数。

图像形成过程的像素包模型是不同的：也就是说，我们随机选择背景(bg)或前景(fg)作为我们的模型M，并根据相关的bg或fg直方图随机选择颜色y。然后，我们选择(根据bg和fg以及当前形状，但其它是随机的)图像中的像素并且用值y对该像素进行着色。如果存在相当好的图形/背景分离，那么该模型给出正确参数(姿势和形状)的高概率。对于前景中所有像素都错杂并且背景中所有像素都错杂的图像来说，它给也给出相同的高概率——但是我们并不真正关心这个。我们关心的是，像素包模型(i)具有足够的表象功率以允许良好的图像/背景分割；(ii)对如局部变形等内部对象表观变化赋予高度不变性(例如，面部表情的变化不影响轮廓，但影响内部表观模型——像素包模型对面部表情变化几乎是不变的)以及(iii)导致整洁、易处理的目标函数。

应该理解的是，对于一些实施方案，我们可以使用“像素单元”取代权利要求中的“像素”，其中，“像素单元”是图像中的两个或两个以上实际像素群，可对像素单元应用技术，好像它们是像素一样。例如，如果图像具有分组为像素单元的像素，那么它们也可以是像素，只要和像素处理技术相关。

参考文献

1.Osher，S.，Paragios，N.：Geometric Level Set Methods in Imaging，Vision and Graphics(成像、视觉与图形中的几何水平集)，Springer-Verlag New York(纽约施普林格出版社)，美国，新泽西，斯考克斯市(2003)

2.Paragios，N.，Deriche，R.：Geodesic active contours and level setsfor the detection and tracking of moving objects(检测并跟踪移动的对象的测地学主动轮廓和水平集)，IEEE Transactions on Pattern Analysisand Machine Intelligence(IEEE模式分析与机器智能汇刊)，22(3)(2000.03)266-280

3.Goldenberg，R.，Kimmel，R.，Rivlin，E.，Rudzsky，M.：Fastgeodesic active contours(快速测地学主动轮廓)，IEEE Trans.on ImageProcessing(IEEE图像处理汇刊)10(10)(2001.10)1467-75

4.Cremers，D.：Dynamical statistical shape priors for level set basedtracking(基于水平集的跟踪的动态统计形状先验)，IEEE Transactionson Pattern Analysis and Machine Intelligence(IEEE模式分析与机器智能汇刊)28(8)(2006.08)1262-1273

5.Cremers，D.，Rousson，M.，Deriche，R.：A review of statisticalapproaches to level set segmentation：Integrating color，texture，motionand shape(水平集分割的统计方法回顾：整合颜色、纹理、动作和形状)，International Journal of Computer Vision(国际计算机视觉杂志)V72(2)(2007.04)195-215

6.Jebara，T.：Images as bags of pixels(作为像素包的图像)，In：Proc.9th Int′l Conf. on Computer Vision(计算机视觉第九届国际会议)，尼斯(2003)

7.Chan，T.，Vese，L.：Active contours without edges(没有边缘的主动轮廓)，IEEE Trans.Image Processing(IEEE图像处理汇刊)10(2)(2001)266-277

8.Freedman，D.，Zhang，T.：Active contours for trackingdistributions(用于跟踪分布的主动轮廓)，IEEE Transactions on ImageProcessing(IEEE图像处理汇刊)13(4)(2004.04)518-526

9.Zhang，T.，Freedman，D.：Improving performance of distributiontracking through background matching(通过背景匹配改进分布跟踪的性能)，IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE模式分析与机器智能汇刊)27(2)(2005.02)282-287

10.Li，C，Xu，C，Gui，C，Fox，M.D.：Level set evolution withoutre-initialization：A new variational formulation(无重新初始化的水平集演变：新的变分公式)，In：Proc.22nd IEEE Conf.on Computer Visionand Pattern Recognition(计算机视觉和模式识别第22届IEEE国际会议)，San Diego，California.Volume 1.，IEEE Computer Society(IEEE计算机科学)(2005)430-436

11.Yilmaz，A.：Object tracking by asymmetric kernel mean shift withautomatic scale and orientation selection(通过具有自动缩放和方向选择的不对称核均值漂移进行对象跟踪)，In：Proc.IEEE Conf.on ComputerVision and Pattern Recognition(计算机视觉和模式识别IEEE国际会议)，明尼阿波里斯市，明尼苏达州(2007)

12.Comaniciu，D.，Ramesh，V.，Meer，P.：Real-time tracking ofnon-rigid objects using mean shift(使用均值漂移实时跟踪非刚性对象)，In：Proc.19th IEEE Conf. on Computer Vision and PatternRecognition(计算机视觉和模式识别第19届IEEE会议)，希尔顿·海德岛.，卷2.(2000)142-149

13.Collins，R.T.：Mean-shift blob tracking through scale space(通过缩放空间的均值漂移斑点跟踪)，In：IEEE Conference on ComputerVision and Pattern Recognition(计算机视觉和模式识别IEEE会议)，卷2.(2003)234-240

14.Baker，S.，Matthews，I.：Lukas-kanade 20 years on：A unifiyingframework(Lukas-kanade 20年：统一框架)，International Journal ofComputer Vision(国际计算机视觉杂志)，69(3)(2004)221-255

15.Rother，C，Kolmogorov，V.，Blake，A.：Grabcut：Interactiveforeground extraction using iterated graph cuts(Grabcut：使用迭代的图形切割进行互动前景提取)，In：ACM Transactions on Graphics(图形的ACM变换)(SIGGRAPH′04).(2004)

16.Evans，L.C.：Partial Differential Equations(偏微分方程)，AMS(2002)

17.Cremers，D.，Osher，S.J.，Soatto，S.：Kernel density estimationand intrinsic alignment for shape priors in level set segmentation(水平集分割中形状先验的核密度估计以及内在对齐)，International Journal ofComputer Vision(国际计算机视觉杂志)，69(3)(2006.09)335-351

18.Fisher，R.：CAVIAR Test Case Scenarios(CAVIAR测试案例场景)，EC Funded IST 2001 37540.Online Book(欧共体资助的IST 200137540在线书籍)，(2004.10)

19.Kadir，T.，Brady，M.：Estimating statistics in arbitrary regions ofinterest(任意感兴趣区域的估算统计)，In：Proc.16th British MachineVision Conf.(第16届英国机械视觉会议)，牛津.(2005)

Claims

1.一种实时跟踪和/或分割一系列图像中非刚性前景对象的方法，所述方法包括：

(i)在所述一系列图像的第一图像中，识别由所述前景对象覆盖的图像区域以及在所述对象以外的背景区域，并且为所述前景对象区域和所述背景区域开发概率表观模型；

(ii)对于所述一系列图像中的下一图像，在给定像素值y的情况下，为所述图像中的每个像素“i”计算它是前景对象像素或背景区域像素的后验概率，所述前景对象像素或背景区域像素由M表示，后验概率P(M|y(i))代表了在没有任何姿势或形状信息的情况下每个像素的前景/背景隶属的后验概率；

(iii)使用所述对象姿势的预测，关于姿势参数p最大化概率分布P(p，Φ|Ω)，这个分布表示在给定所有像素Ω的集合且每个像素包括像素位置x和像素值y的情况下对所述前景对象的姿势p及其形状Φ的确定，概率分布P(p，Φ|Ω)的最大化是通过在所述图像中每个像素的后验前景/背景隶属概率上边缘化而计算得到的。

2.如权利要求1所述的方法，其中，所述后验概率P(M|y(i))通过等式(3)估算，所述概率分布P(p，Φ|Ω)通过等式(4)估算，其中：

等式(3)是：

P (M_{j} | y) = \frac{P (y | M_{j}) P (M_{j})}{Σ_{{i = f, b}} P (y | M_{i}) P (M_{i})}, j = {f, b}

等式(4)是：

P (Φ, p | x, y) = \frac{1}{P (x)} \underset{{i = f, b}}{Σ} {P (x | Φ, p, M_{i}) P (M_{i} | y)} P (Φ) P (p)

并且

·i能够是前景f或背景b；

·P(M_i)是模型M_i的先验概率；

·P(y|M_i)是给定所述模型M_i的情况下，看到像素值y的似然性；

·P(M_i|y)是给定所述像素值y的情况下，所述模型M_i的后验概率；

·P(x|Φ，p，M_i)是给定所述形状Φ、所述姿势p和所述模型M_i的情况下，像素位置x的似然性；

·P(Φ)是所述形状Φ的先验概率；

·P(p)是所述姿势p的先验概率；

·P(x)是像素位置x的概率；

·P(Φ，p|x，y)是给定所述像素位置x和所述像素值y的情况下，所述形状Φ和所述姿势p的后验概率。

3.如权利要求1所述的方法，进一步包括步骤(iv)：关于Φ优化P(p，Φ|Ω)，以确定新的前景对象形状。

4.如权利要求3所述的方法，进一步包括步骤(v)：通过将预先存在的前景对象和背景区域表观分布与当前图像的表观分布相融合来更新所述表观模型。

5.如权利要求4所述的方法，进一步包括：对所述一系列图像中的后续图像重复步骤(ii)至(v)。

6.如权利要求4所述的方法，其中，前景对象位置通过用户限定的区域来初始化，以限定所述前景对象的表观模型，所述前景对象、所述背景区域的初始位置通过考虑用户限定的区域以外的区域获取，并且

步骤(iv)和(v)被迭代以提取通过最大化P(p，Φ|Ω)确定的最佳分离所述背景区域与所述前景对象的形状，和/或所述前景对象的位置通过自动机检测/识别模块来初始化。

7.如权利要求6所述的方法，其中，所述用户限定的区域是环形或椭圆区域。

8.如权利要求1所述的方法，其中，随后图像帧中的对象位置是基于其先前位置及其预期运动的模型进行预测的。

9.如权利要求2所述的方法，其中，所述姿势p的优化步骤是使用Newton-Raphson技术实现的，或者所述形状Φ的优化步骤是使用变分学实现的。

10.如权利要求1所述的方法，其中，所述图像是使用像素包模型建模的，和/或使用图像值的概率表观模型，所述概率表观模型包括：

(i)出现在所述对象中的具体颜色的颜色直方图或其它相关概率，和/或

(ii)出现在所述背景中的具体颜色的颜色直方图或其它相关概率。

11.如权利要求1所述的方法，包括使用不同图像之间的所述前景对象的可逆参数配准，随后从所述背景区域分割所述前景对象，以解决所述前景对象边界的非刚性形状变形。

12.如权利要求11所述的方法，其中所述可逆参数配准是可逆线性变换。

13.如权利要求1所述的方法，进一步包括：更新前景对象和背景区域的表观模型的步骤。

14.如权利要求1所述的方法，其中，只有在分离所述前景对象与所述背景区域的预测的边界轮廓周围的窄带中的那些像素被考虑，和/或姿势参数通过使用闭环控制进行调节，以通过解决由形状变化引起的漂移以使所述前景对象在其原始坐标系中保持居中。

15.如权利要求1所述的方法，进一步包括使用使P(p，Φ|Ω)最大化的姿势参数p开发控制信号以控制机器人设备的姿势参数，并且任选地，所述机器人设备是偏转-俯仰-变焦摄像机设备，所述控制信号旨在将所述前景对象保持在所述摄像机的视野中。

16.如权利要求15所述的方法，其中，所述使P(p，Φ|Ω)最大化的姿势参数p用于(i)将控制信号提供给虚拟世界或增强的现实子系统；或(ii)用于提取所述前景对象的稳定视野。

17.如权利要求1所述的方法，其中，所述图像是3维的，并且所述背景区域与所述前景对象之间以概率方式确定的边界是表面，和/或所述边界划定了感兴趣对象的内部和外部。

18.一种实时跟踪和/或分割一系列图像中非刚性前景对象的系统，包括：

识别单元，被配置为在一系列图像的第一图像中，识别由所述前景对象覆盖的图像区域以及在所述对象以外的背景区域，并且为所述前景对象区域和所述背景区域开发概率表观模型；

计算单元，被配置为对于所述一系列图像中的下一图像，在给定像素值y的情况下，为所述图像中的每个像素“i”计算它是前景对象像素或背景区域像素的后验概率，所述前景对象像素或背景区域像素由M表示，后验概率P(M|y(i))代表了在没有任何姿势或形状信息的情况下每个像素的前景/背景隶属的后验概率；

最大化单元，被配置为使用所述对象姿势的预测，关于姿势参数p最大化概率分布P(p，Φ|Ω)，这个分布表示在给定所有像素Ω的集合且每个像素包括像素位置x和像素值y的情况下对所述前景对象的姿势p及其形状Φ的确定，概率分布P(p，Φ|Ω)的最大化是通过在所述图像中每个像素的后验前景/背景隶属概率上边缘化而计算得到的。