CN101142593A

CN101142593A - 跟踪视频序列中的目标的方法

Info

Publication number: CN101142593A
Application number: CNA2006800083900A
Authority: CN
Inventors: 许利群; 佩雷·普伊赫·福尔奇
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2005-03-17
Filing date: 2006-03-01
Publication date: 2008-03-12
Anticipated expiration: 2026-03-01
Also published as: JP4741650B2; US20080166045A1; US8073197B2; DE602006017812D1; CN101142593B; EP1859410B1; ATE486332T1; WO2006097680A1; EP1859410A1; JP2008533892A

Abstract

本发明提供了一种跟踪视频序列中的多个目标的方法。一视频监视系统(10)包括照相机(25)、个人计算机(PC 27)和视频监视器(29)。在PC(27)的硬盘驱动器上提供视频处理软件。提供该软件来对从照相机接收的视频数据执行多个处理操作，该视频数据表示捕捉到的视频的单个帧。具体地讲，提供该软件来识别当前帧中的一个或多个前景域，从而当接收到多个帧时，将该域或者每个域与在一个或多个前面的帧中识别到的目标进行匹配，并且跟踪该目标或者每个目标的运动。为了在遮挡事件期间保持对目标的识别，对彼此靠近的与根据图像位置产生外观模型。一旦发生遮挡，则结合表示被遮挡的目标的深度级别的深度因子使用对应的外观模型，从而将得到的组域分割为区域，所述区域被分类为表示结合的目标中的一个或者另一个。

Description

跟踪视频序列中的目标的方法

技术领域

本发明涉及一种跟踪视频序列中的目标的方法，更具体地，但不是排他地，本发明涉及一种由从照相机或其他视频源接收视频帧的数字视频处理装置执行的方法。

背景技术

数字视频处理被广泛地应用。例如，现代视频监视系统通常采用数字处理技术来提供与视频中的移动目标有关的信息。这种系统通常包括视频照相机，所述视频照相机经由直接的连接或网络链接连接到计算机系统。该计算机系统运行设置的软件来处理和分析从所述照相机提供的视频数据。

图1是示出了已知监视系统的软件-层次步骤的框图。监视系统包括三个主块，即，目标分割块1、鲁棒跟踪块(robust tracking block)3和目标分类块5。

在目标分割块1的第一步7中，从视频数据的起始段学习背景模型。背景模型通常包括表示相对静态的背景内容的统计信息。关于这一点，应该理解，与前景中的目标相比，背景画面将保持相对的静止。在第二步9中，对每个输入的视频帧执行背景提取。将当前帧与背景模型进行比较，来估计当前帧中的哪些像素表示前景区域以及哪些像素表示背景。背景模型中的微小变化也被更新。因为由此获得的前景像素可能是由于噪声或者照相机抖动而被错误检测出来的，所以在第三步11中，执行错误前景抑制。这里，对于各最初被分类为前景像素的像素，检查与其连接的8个相邻像素中的每一个，以确定该像素是否应该被重新分类为背景像素。在第四步13中，采用进一步的检测来查找可能投射阴影或者高亮的区域。阴影和高亮的存在会导致检测到的前景区域的形状失真。在第五步15中，执行连通域分析(CCA)，以将假定属于单个目标的所有像素分到对应的域(blob)中。这些域被传送到鲁棒跟踪块3，在鲁棒跟踪块3中，将这些域与前一帧中识别到的目标进行比较，以在其间建立对应关系。

在鲁棒跟踪块3中，第一步17涉及为各接收到的域提取模型，该模型通常包括永久特性特征(例如域的速度、形状和颜色)的时间模板(temporal template)。在第二步19中，利用来自各接收到的域的特征和在以前的帧中识别出的目标来执行匹配处理。更具体地讲，对域和目标的各组合计算成本函数(cost function)，从而确定匹配。当存在匹配时，更新表示目标运动的轨迹数据库。如果需要，可以使用存储在该数据库中的信息在显示屏上显示跟踪线，跟踪线示出了目标的积累路径(cumulative path)。在第三步21中，匹配处理的结果被用来识别已经被遮挡(occlude)、刚刚进入或者已经从画面中消失的目标。

在目标分类块5中，根据目标与真实世界目标的共同之处将目标分类，例如，人或者交通工具。随后，也可以采用高级应用软件根据目标的外观和运动对目标进行智能分析。

在2004年7月的英国通信技术杂志(British Telecommunication(BT)Technology Journal)第22卷第3期的题目为“分割和跟踪用于智能视频分析的多个运动目标”(Segmentation and tracking of multiple movingobjects for intelligent video analysis)中，L-Q Xu，J L Landabaso，B Lei给出了对上述视频监视系统的详细描述。

在真实视频的情况下，同时跟踪多个运动目标会引起系统的多种问题。画面经常混乱，出现的目标不断运动，照明条件会发生变化，会出现自身阴影区域等。或许，任何自动或者智能的视频系统所面对的最具挑战性的问题都是如何可靠地处理遮挡，所述遮挡局部或者完全地阻挡了从照相机的视线观看目标。遮挡可以由固定的背景结构(例如大厦或者树木)引起，或者可以由经过感兴趣的目标或者与感兴趣的目标互相影响的其他移动目标引起。在许多情况下，遮挡事件将包括静态遮挡和动态遮挡两者。作为遮挡的结果，跟踪块3在对新结合的域和已经被跟踪的目标进行匹配方面会存在困难，从而将丢失对前面跟踪的目标的识别。这在任何自动视频系统中都是不期望的，在上述自动视频系统中，用户会想要获得与正在观察的目标的运动或者行为有关的信息。

已经对遮挡问题进行了许多研究。在匹配处理中，与使用时间模板相对，许多最近提出的方法基于所谓的外观模型的使用。外观模型包括一组表示各域的外观的统计特性。在2003年9月，巴塞罗那，的“Proceedings of International Conference on Image Processing”，ICIP’03上，Balcells等人在“针对人和目标跟踪的基于外观的方法”(An appearancebased approach for human and object tracking)中，外观模型包括一起对各域的外观进行建模的颜色直方图和相关联的颜色相关图。相关图表示颜色的局部空间相关。接着，使用所述模型来对输入帧中的新检测到的域和已经被跟踪的目标进行匹配。当检测到动态遮挡或者目标分组时，使用单独的外观模型来将所述组分割为属于单独目标的区域，从而保持对它们的跟踪识别。不利地是，相关图的产生和使用涉及很高的复杂性和计算成本。

另外，在目标的外观突然发生变化的情况下(例如，如果人走到桌子后面，则只能看到他或她的身体的上部)，这将明显地降低基于外观跟踪的效果。实际上，在这种情况下，基于外观的跟踪通常完全失败。

发明内容

根据本发明的一方面，提供了一种跟踪视频序列中的目标的方法，所述视频序列包括多个帧，各目标由多个像素限定，所述方法包括以下步骤：(a)在第一帧中识别第一目标和第二目标；(b)提供分别表示所述第一目标和所述第二目标的第一外观模型和第二外观模型；(c)在随后的第二帧中对通过将所述第一目标和所述第二目标结合而得到的组目标进行识别；(d)将所述组目标中的各像素分类为表示所述第一目标或者所述第二目标，所述分类包括：(i)，计算表示所述像素的外观与所述第一外观模型之间的对应关系的第一似然参数(likelihood parameter)和表示所述像素的外观与所述第二外观模型之间的对应关系的第二似然参数；(ii)向对应的似然参数施加第一权重因子和第二权重因子，所述第一权重因子和第二权重因子分别表示所述第一目标和所述第二目标的深度级别；以及(iii)，根据加权的第一似然参数和加权的第二似然参数识别所述像素表示第一目标和第二目标中的哪一个。

术语“外观模型”意图表示与具体候选目标有关的外观特征的分布。在优选实施例中，使用经正规化的颜色直方图来对候选目标的外观进行建模。与意图通过使用高成本的相关图引入局部空间相关信息的其他类型的外观模型相比，可以发现这种类型的外观模型简单而有效。

为了清晰起见，应该理解，在步骤(c)中，对组候选目标的识别指对这样的候选目标的识别，所述候选目标的外观得自于检测到的步骤(a)中识别出的所述第一候选目标和所述第二候选目标表示的真实目标的结合。

所述第一权重因子和所述第二权重因子可以从多个预定值中选择，所述选择取决于在所述第一帧中所述第一目标和所述第二目标中哪一个占据较高级别以及哪一个占据较低级别。可以根据在所述第一帧中所述第一目标和所述第二目标中的哪一个更靠近基准位置来确定深度级别，最靠近基准位置的目标被分配较高级别，另一个目标被分配较低级别。例如，根据所述第一目标和所述第二目标中的哪一个更靠近延伸穿过所述第一帧的基线来确定深度级别，最靠近基线的目标被分配较高级别，另一个目标被分配较低级别。

另选地或者附加地，根据在所述第二帧之前产生的多个帧中限定对应的第一目标和第二目标的像素数量的变化来确定深度级别，像素数量变化最大的目标分配较低级别，另一个目标被分配较高级别。

可以通过分析在所述第二帧之前产生的多个帧中限定对应的第一目标和第二目标的像素数量的变化来核实所述深度级别，如果限定所述目标的像素的数量在像素数量方面变化最大，则被分配较高级别的目标被重新分配较低级别。

所述第一外观模型和所述第二外观模型可以表示所述第一候选目标和所述第二候选目标的对应的颜色分布。另选地，所述第一外观模型和所述第二外观模型可以表示所述第一候选目标和所述第二候选目标的对应的(a)颜色分布和(b)边缘密度信息的组合。所述边缘密度信息可以通过对所述候选目标执行Sobel边缘检测操作来获得。

步骤(c)可以包括识别新的候选目标，所述新的候选目标的帧位置与在步骤(a)中识别的所述第一候选目标和所述第二候选目标的对应的帧位置部分交叠。另外，步骤(c)可以包括识别在所述第二帧中候选目标的数量小于在所述第一帧中候选目标的数量，并且识别新的候选目标，所述新的候选目标的帧位置与在步骤(a)中识别的所述第一候选目标和所述第二候选目标的对应的帧位置部分交叠。

根据本发明的第二方面，提供了一种分割视频序列的帧中的前景目标的方法，所述前景目标由多个前景像素限定，所述方法包括以下步骤：(a)在第一帧中识别第一前景目标和第二前景目标；(b)在随后的帧中识别所述第一目标和所述第二目标结合而形成的第三前景目标；(c)根据表示所述像素最可能与所述第一前景目标或者所述第二前景目标中的哪一个对应的对应量度，将所述第三目标中的各像素分类为表示所述第一前景目标或者表示所述第二前景目标，所述对应量度取决于所述第一前景目标和所述第二前景目标的外观特征以及与所述第一前景目标和所述第二前景目标有关的对应的权重因子，所述权重因子至少表示与该权重因子相关的所述前景目标的深度级别。

根据本发明的第三方面，提供了一种存储在计算机可读介质上的计算机程序，所述计算机程序包括这样的指令，当在处理器上执行该指令时，执行以下步骤：(a)在第一帧中识别第一前景目标和第二前景目标；(b)在随后的帧中识别所述第一目标和所述第二目标结合而形成的第三前景目标；(c)根据表示所述像素最可能与所述第一前景目标或者所述第二前景目标中的哪一个对应的对应量度，将所述第三目标中的每个像素分类为表示所述第一前景目标或者所述第二前景目标，所述对应量度取决于所述第一前景目标和所述第二前景目标的外观特征以及与所述第一前景目标和所述第二前景目标有关的对应的权重因子，所述权重因子至少表示与该权重因子相关的所述前景目标的深度级别。

根据本发明的第四方面，提供了一种图像处理系统，所述系统包括：接收装置，被设置为从视频源接收一系列的帧；以及处理装置，被设置为(i)在第一帧中识别第一前景目标和第二前景目标；(ii)在随后的帧中识别所述第一目标和所述第二目标结合而形成的第三前景目标；(iii)根据表示所述像素最可能与所述第一前景目标或者所述第二前景目标中的哪一个对应的对应量度，将所述第三目标中的每个像素分类为表示所述第一前景目标或者所述第二前景目标，所述对应量度取决于所述第一前景目标和所述第二前景目标的外观特征以及与所述第一前景目标和所述第二前景目标有关的对应的权重因子，所述权重因子至少表示与所述权重因子相关的所述前景目标的深度级别。

附图说明

现在，将参照附图以示例的方式描述本发明，在附图中：

图1是示出了已知的智能视频系统的功能元件的框图；

图2是示意性地示出了形成智能视频监视系统的一部分的硬件的框图；

图3是示出了根据本发明实施例的鲁棒跟踪块的功能元件的框图；

图4a至图4d示出了表示在不同时隙第一目标和第二目标的相对位置的四个连续的视频帧；

图5a示出了遮挡事件之前的多个目标的第一视频帧；图5b示出了在遮挡事件期间这些目标的第二视频帧；

图6a和图6b示出了用于理解在本发明实施例中使用的域跟踪步骤的第一和第二连续视频帧；

图7、图8和图9示出了这样的视频帧，该视频帧的外观用于理解在本发明实施例中使用的组目标分割步骤(group object segmentationstage)；

图10a-图10d示出了表示遮挡事件前、遮挡事件期间和遮挡事件后与第一目标和第二目标有关的各个似然函数的曲线图；

图11是用于理解在遮挡事件期间估计多个目标的深度级别(depthorder)的第一方法的示意图；

图12a示出了所捕捉到的包括多个前景目标的视频帧，图12b示出了表示视频帧的视场(view field)的水平线；以及

图13a至图13d示出了表示各个视频帧的视场的不同的水平线方向。

具体实施方式

参照图2，智能视频监视系统10包括照相机25、个人计算机(PC)27和视频监视器29。包括键盘31和鼠标33的传统的数据输入装置与PC27相连接。照相机25是数字照相机，并且例如可以为网络摄像机，如Logitec^TM Pro 4000彩色网络摄像机。可以使用任何一种能够输出数字图像数据的照相机，例如，数字便携式摄像机或者具有模数转换装置(例如，帧接收器)的模拟照相机。然后，利用标准视频编码器(例如运动JPEG、H.264等)对捕获的视频进行编码。照相机25经过网络35与PC27进行通信，其中，网路35可以为任何网络，例如局域网(LAN)、广域网(WAN)或者互联网。照相机25和PC 27经过各自的网络连接37、39(例如，数字用户线路(DSL)调制解调器)连接到网络35。另选地，网络照相机11可以通过PC的通用串行总线(USB)端口直接连接到PC27。PC 27可以包括任何标准的计算机，例如，具有2.6 GHz处理器、512兆字节的随机存取存储器(RAM)和40G字节的硬盘驱动器的台式计算机。视频监视器29是通过标准视频连接器连接到PC 27的17”的薄膜晶体管(TFT)监视器。

在PC 27的硬盘驱动器上提供视频处理软件。提供该软件来对从照相机25接收的视频数据执行许多处理操作。视频数据表示捕获的视频的各个帧，各帧由多个图像元素或者像素组成。在该实施例中，照相机25以每秒25帧的速率输出显示格式为640像素(宽度)×480像素(高度)的视频帧。为了有效地运行，需要例如以每秒10帧320×240像素在空间和时间上对该视频序列进行二次抽样。由于照相机25是彩色照相机，所以各像素由这样的数据表示，该数据包括像素在帧中的位置和用于确定显示颜色的三个颜色分量(即，红色分量、绿色分量和蓝色分量)。

上述视频处理软件最初可以提供在便携式存储介质例如软盘或者CD上。此后，将该视频处理软件安装在PC 27上，在安装期间，操作的文件和数据被转移到PC的硬盘驱动器上。另选地，视频处理软件可以从软件商的计算机(未示出)经过网络链接35传送到PC 27上。

提供视频处理软件来执行在图1中示出的处理步骤，但如后面所述的，鲁棒跟踪块3的操作是以不同的方式执行的。因此，虽然详细的描述仅针对鲁棒跟踪块3，但首先还是概略地描述一下目标分割块1。

目标分割块1

视频处理软件开始运行背景学习步骤7。该步骤7的目的是根据视频数据的起始段建立背景模型。尽管可以根据有关的监视画面和视频取样速率而改变，但是该视频段通常将包括一百帧。由于任何图像的背景画面都很可能保持为相对静止，所以与前景目标相比，这一步建立了背景模型，在该背景模型中，理想地是，不应该看到前景目标。

背景学习步骤7之后，背景提取步骤9分析当前帧的各像素。将各像素与占据着背景模型中的相应位置的像素进行比较，来估计当前帧的像素表示前景区域的一部分还是表示背景。另外，动态地更新背景模型中的缓慢变化，而在变化更加剧烈或突然时，可能需要进行重新学习的操作。

用于执行背景学习和背景提取的各种方法在本领域中是已知的。执行背景学习和背景提取的具体有效的方法是所谓的“高斯混合(MoG)方法”，在“图像分析和机器智能的IEEE学报”(IEEE Transactions onPattern Analysis and Machine Intelligence)的2000年8月第8期第22卷第747-757页中，Stauffer和Grimson在“利用实时跟踪学习行为的模式”(Learning Patterns of Activity Using Real-Time Tracking)中详细描述了该方法。这种方法也被Javed和Shan，M(在Tracking and object classificationfor automated surveillance，Proc.of ECCV’2002 Copenhagen，Denmark，pp.343-357，May-June 2002)中采用。

总之，在各像素位置，采用高斯混合模型(GMM)来对图像画面中的时间颜色的变化进行建模。用各输入帧来更新该高斯分布。然后，使用所述模型来确定输入的像素是由背景处理产生的还是由前景移动目标产生的。该模型允许适当表示的背景画面经历缓慢而平滑的照明变化。

背景提取步骤9之后，错误前景抑制步骤11企图减少由噪声和照相机抖动引起的错误检测问题。对于被分类为前景像素的各像素，检查与其连接的八个相邻像素的GMM。如果这些像素中的大多数(大于五个)表明该像素为背景像素，则该像素被认为是被错误检测了并从前景中去除该像素。

在下一步骤15中，对前景区域使用阴影/高亮去除操作。应该理解，在视频帧中存在阴影和/或高亮会使背景提取步骤9中出现错误。这是因为表示阴影的像素的亮度很可能比占据背景模型19中的相应位置的像素的亮度更暗。因此，实际上表示背景的一部分的像素会被错误地分类为前景像素。高亮的存在会引起相似的问题。

许多去除阴影/高亮的方法是已知的。例如，在Xu，Landabaso和Lei(参见背景技术部分)中，采用后随有条件形态学膨胀的贪婪阈值(greedythresholding)的技术。贪婪阈值去除所有阴影，不可避免地导致去除真实的前景像素。有条件形态学膨胀的目的在于仅恢复那些限制在原始的前景蒙罩(foreground mask)内的已经删除的正确的前景像素。

目标分割块1的最后一步包括连通域分析步骤(CCA)15。CCA步骤15将假定属于单个目标的所有像素分为各个域。如后面将详细描述的，利用鲁棒跟踪块3对画面内的整个域的运动进行时间跟踪。

根据本发明的优选实施例，用新的匹配处理步骤41来代替图1中的鲁棒跟踪块3。在图3中示意性地示出了该匹配处理步骤41的处理元素。应注意，在整个说明书中，使用术语“目标”和“域”。术语“域”表示输入的帧中的新检测到的前景区域，术语“目标”表示被跟踪的目标。

参照图3，对于各输入帧，通过注意管理器(attention manager)步骤43从目标分割块1接收候选域。提供注意管理器步骤43来分析这些域并且根据一组预定规则向各域分配四种可能的“注意级别”(attention level)中的一种。由分配给域的注意级别来确定对域执行的后续处理步骤。

在最初的检验中，计算不同的域之间的距离，以确定在两个或更多个域之间是否存在交叠。对于那些不交叠并且与最邻近的域之间的距离超过预定阈值的域，分配注意等级1。在图4a中示出了这种情况。应注意，在该检验中，被静态结构或背景结构遮挡的域不受影响。可以根据域边界之间的矢量距离计算该距离，另选地，可以使用距离度量(distance metric)。

在计算出的某两个域之间的距离小于预定阈值的情况下，相关的域被分配“注意等级2”的状态。该检验的目的是识别刚好在遮挡/结合事件之前的域。图4b中示出了这种情况。

在满足一组条件中的各条件的情况下，相关的域被分配“注意等级3”状态。注意等级3表示由于两个或两个以上的域结合而正在发生遮挡，如图4c中所示。为了检测遮挡，对当前帧中的域的状态和已经被跟踪的目标的对应状态之间进行比较是必要的。所述一组条件如下：

A.输入的帧中域的数量小于当前的被跟踪目标的数量；

B.一个域与当前被跟踪的两个或两个以上的目标交叠；以及

C.在B中识别出的被跟踪目标不是“新的”，即，被跟踪目标被确认为是已经被跟踪了预定数量的帧的目标。

参照图5a和图5b来解释这个过程，图5a示出了在帧t中被跟踪的四个目标81、83、85和87；图5b示出了在当前帧t+1中的三个域89、91和93。应该注意到，在帧t中被跟踪的两个目标85和87以这样的方式运动，即，在帧t+1中出现了组域93。清楚的是，由于与被跟踪的四个目标相比，存在三个域，所以满足条件A。在帧t中，组域93与两个目标85和87(组域93来自于它们)交叠，所以满足条件B。因此，假设两个被跟踪的目标85和87已经被跟踪器分类为“真”(real)(与“新”相反)，则组域93被分配为“注意等级3”。后文将针对基于域的跟踪器步骤来进一步解释作为“新”或“真”的目标分类。

最后，在满足一组不同的条件的情况下，相关的域被分配“注意等级4”状态，其中，该组不同的条件表示组分裂情况。注意等级4表示先前在遮挡事件中涉及的目标现在已经运动散开，如图4d中所示。为了检测分裂，检测下面的条件：

A.当前帧中域的数量大于被跟踪的目标的数量；

B.存在至少一个已知的组目标；以及

C.B中的组目标与至少两个域交叠。

已经解释了向域分配四个注意等级中的一个，现在将描述因而向各域应用的处理步骤。

注意等级1的处理

在这种情况下，由基于域的空间跟踪器45对帧中的该域或者各个域进行处理。基于域的跟踪包括利用所谓的时间模板对域的运动进行逐帧的时间跟踪。现在，对基于域的跟踪的详细描述如下。

图6示出了这样的一个示例，在该示例中，已经对用1表示的三个目标跟踪到了帧t，在后续的帧t+1中，跟踪器寻找新检测到的候选域(用k表示)与之的匹配。四个候选域中的一个(靠近右边界的域)刚好进入画面，由于在步骤51中不存在匹配，所以在随后的步骤59中为该候选域产生新的模板。通过包括多个永久特性特征的时间模板来对帧t中的三个目标中的每个目标进行建模。将这三个目标的标识和他们各自的时间模板存储在目标队列中。尽管在本实施例中，模板包括一组描述各目标的速度、形状和颜色的一组五个特征，但是可以采用特性特征的不同组合。本实施例中的特征在下面的表1中示出。

特征	描述
特征	描述	v＝(v_x，v_y)	目标在其质心(p_x，p_y)处的速度
S	目标中包含的像素的尺寸或者数量	v＝(v_x，v_y)	目标在其质心(p_x，p_y)处的速度
S	目标中包含的像素的尺寸或者数量	R	最适合于该目标的椭圆的长轴和短轴之比-与目标的边界框相比，对目标姿势提供了更好的描述符
θ	所述椭圆形的长轴的方向	R	最适合于该目标的椭圆的长轴和短轴之比-与目标的边界框相比，对目标姿势提供了更好的描述符
θ	所述椭圆形的长轴的方向	c	主要颜色，被计算作为目标内像素的颜色协方差矩阵的主要特征向量

表1-在基于域的跟踪中使用的特征组的示例

因此，在时间t，对中心为(p_Ix，p_Iy)的每个目标I具有特征模板M₁(t)＝(v₁，s₁，r₁，θ₁，c₁)。首先需要说明两点。第一，在帧t+1中将I的模板与候选域k进行匹配之前，使用卡尔曼滤波器通过分别预测M₁(t+1)中的新的速度、尺寸、长宽比和方向来更新模板M₁(t)，其中，候选域k的中心在(p_kx′，p_ky′)，并且具有模板B_k(t+1)＝(v_k′，s_k′，r_k′θ_k′，c_k′)。根据v_k′＝(p_kx′，p_ky′)^T-(p_lx，p_ly)^T来计算候选域k的速度。模板1的主要颜色和候选域k的主要颜色之间的差如下定义：

d_{lk} = (c_{l}^{'}, c_{k}^{'}) = 1 - \frac{c_{l} \cdot c_{k}}{| | c_{l} | | \cdot | | c_{k} | |} - - - (1)

当发现候选域k匹配时，更新模板1的矢量的平均

和方差V₁(t)。利用轨迹上最近的L(例如L＝50)个域，或者基于L帧的时间窗口，来计算这些值。通过对其提供匹配的域的对应的特征值来更新一组卡尔曼滤波器，KF₁(t)。分析各模板特征的方差，并将该方差记入后文要描述的匹配处理中，从而得到鲁棒跟踪结果。

在基于域的跟踪中采用的下一步是对成对的目标l和域k的各组合计算表示各对应对之间的匹配程度的距离度量。例如，可以采用已知的马氏距离度量，或者另选地可采用如下表示的经缩放的欧几里德距离度量：

D (l, k) = \sqrt{Σ_{i = 1}^{N} \frac{{(x_{li} - y_{ki})}^{2}}{σ_{li}^{2}}} - - - (2)

其中，下标i运算过模板的所有N＝5个特征，σ_li ²是方差矢量V₁(t)的相应分量。应注意，主要颜色特征可以看作x_li-y_ki＝d_lk(c_l，c_k′)。V₁(t)的所有分量的初始值设置为相对大的值或者从相邻目标得到。

已经定义了合适的距离量度，后面将更详细地描述用图3中的步骤51表示的匹配处理。

如上所述，对于到目前为止跟踪的每个目标1，我们已经在目标序列中存储了下面的参数：

M_l(t) 特征模板

平均和方差矢量

KF_l(t) 卡尔曼滤波器的相关设置

TK(t)＝n 被跟踪帧的计数器，即，当前跟踪长度

MS(t)＝0 丢失帧的计数器

卡尔曼预测的t+1中的期望值

在匹配步骤51中，对于每个新的帧t+1，通过模板预测、

方差矢量V_l(t)和B_k(t+1)的方式，利用上面的等式(2)将所有的有效候选域{k}与所有存在的轨迹{l}进行匹配。接着，通过按照成本将匹配对从低到高排序，对各目标l建立排名列表。具有最低成本值D(l，k)的匹配对被识别为匹配对，其中，最低成本值D(l，k)也低于阈值THR，在这种情况下，阈值为例如10。

如果在步骤51中存在匹配，则将轨迹长度TK(t+1)增加1，并且在随后的步骤57中对匹配目标l执行上述更新。具体地讲，我们得到M_l(t+1)＝B_k(t+1)，以及平均值

和方差V₁(t+1)，相应地得到卡尔曼滤波器KF₁(t+1)。

如果在帧t+1中根本没有发现与目标I的匹配(假定是因为不存在遮挡)，则随后将目标的模板的平均值保持为相同，或者

{\overset{&OverBar;}{M}}_{I} (t + 1) = {\overset{&OverBar;}{M}}_{I} (t) .

增加丢失计数器MS(t+1)，并且将目标I遗留到下一帧。下面的规则用于这种情况：

-如果目标1已经丢失了一定数量的帧，或者MS(t+1)≥MAX_LOST(例如，10帧)，则从画面中删除该目标；可能的解释包括目标已变为静态(并入了背景中)、目标进入建筑物/汽车中、或者简单地离开了照相机的视野；

-否则，利用表达式

σ_{i}^{2} (t + 1) = (1 + δ) σ^{2} (t)

来调节V_I(t+1)，其中，δ＝0.05；由于对各特征没有可以利用的观测，所以使用最近的模板平均矢量来进行预测，该预测表示为

M_{I} (t + 1) = M_{I} (t) + {\overset{&OverBar;}{M}}_{I} (t) .

对于在帧t+1中未匹配的各候选域k，根据B_k(t+1)产生新的目标模板

该步骤在图3中用标号59表示。初始方差矢量V_k(t+1)的选择需要一些考虑：它可以从已经在画面中的非常相似的目标复制，或者可以从由前面对跟踪目标的统计分析得到的典型值复制，然而，不能判定为“真”，除非已经跟踪了多个帧，或者TK(t+1)＞＝MIN_SEEN，例如，10帧，从而减少任何短瞬间的目标运动。在此之前，被跟踪的目标被分类为“新”。如果在目标达到“真”之前就丢失了目标，则简单地将目标删除。

利用将目标分为“新”或“真”来确定是否将目标的位置数据记录在轨迹数据库中。在目标达到“真”状态之前不信任该目标。此时，记录目标的运动历史，如果期望，则显示轨迹线，示出目标经过的路径。

上述跟踪步骤之后，对下一输入帧t+2等中的该域或各个域重复从注意管理器步骤43开始的处理。

通常可发现基于域的跟踪在处理目标外观的突然变化方面是特别有效的，其中，所述目标外观的突然变化可以由例如目标被静态目标遮挡引起的(例如，人走过并坐在桌子后面，仅可以看到一小部分上面的身体)。当发生这种大的外观变化时，其他跟踪方法(例如基于外观的跟踪方法)通常不能保持匹配。

注意等级2的处理

如上所述，“注意等级2”状态被分配给将要被遮挡的两个或更多个域。在这种情况下，利用基于域的跟踪步骤(在图3中用标号47表示)继续跟踪相关的域。然而，在这种情况下，在匹配确定步骤53之后，根据是否匹配而针对相关的域产生或更新外观模型。用于具体域的外观模型包括颜色直方图，所述颜色直方图表示域内出现各种颜色等级的频率(即，像素的数量)。为了增加直方图，也可以针对各域产生边缘密度映射。下面详细限定了外观模型。

首先，我们令I为在输入帧中检测到的域。I中的颜色被量化为m种颜色c₁，...，c_m。我们还令I(p)表示像素p＝(x，y)∈I的颜色，并且I_c≡{p|I(p)＝c}。因此，p∈I_c意味着p∈I，I(p)＝c。我们用[n]表示组1，2，...，n。对i∈[m]定义I的正规化了的颜色直方图h，从而h_I(c_i)对I中的任何像素给出像素的颜色为c_i的概率。给出计数，H_I(c_i)≡|{p∈I_ci}|，它遵循下式

h_{I} (c_{i}) = \frac{H_{I} (c_{i})}{| I |} - - - (3)

按照相似的方式，我们对同一域定义边缘密度映射g_I(e_j)，从而补偿颜色直方图。首先，对亮度图像采用边缘监测器(该边缘监测器可以是已知的水平或者竖直苏贝尔(Sobel)算子)。接着，在过滤掉噪声之后，得到的像素的水平和竖直边缘被分别量化为16个盒子(bin)。这将产生N＝32个盒子的一维直方图。

如图3中所示，如果在步骤63中产生新的外观模型，则在步骤59中产生新的目标模板。类似地，如果在步骤61中将存在的外观模型更新，则在步骤57中对域的时间模板进行更新(与前面相同)。在注意管理器步骤43中，对下一输入帧再次重复该处理。

注意等级3的处理

在两个或者两个以上的域交叠或者结合的情况下，执行下面四个任务。

首先，通过基于域的跟踪器步骤49，结合的域被考虑用来表示单个“组域”。开始，可能在步骤55中不存在匹配，所以在步骤67中将产生新的组域。这包括对被分类为“新”的组域产生新的时间模板，而不管结合之前的对应的单个域的轨迹长度如何。如果在步骤55中存在匹配，则在步骤65中更新与其匹配的组目标的时间模板。在步骤65和67之后，在步骤69中对组域执行组分割。

执行组分割(或者如有时所称的，对像素进行重新分类)，从而在整个遮挡期间保持对形成组域的单个域的识别。为了实现这个目的，在注意等级2中针对各个域产生的上述外观模型与最大似然决定准则一起使用。在组分割期间，不更新外观模型。

在非常复杂的遮挡情况下，分割操作可能失败。例如，如果发生局部遮挡事件并且保持相对长的时间段(例如，如果视频捕获到两个人很近地站在一起并且进行会话)，则分割可能会失败，如果根据他们的外观，单个目标不清楚，则分割尤其可能会失败。为了在这种复杂情况期间保持跟踪，在上述域跟踪器和附加的基于外观的跟踪器之间存在内部播放器(inter-play)。更具体地讲，当出现遮挡时，组中的目标之一被识别为：

(i)，具有最高的深度级别，即，该目标被估计为距离照相机最远；(ii)，用像素数目表示，所述像素数目随着时间的流逝减少。识别完这个目标之后，利用卡尔曼滤波器更新该目标的时间模板。这里，目的是使卡尔曼滤波器在整个遮挡事件过程中预测被识别出的目标的特征，当被遮挡的目标分裂时，各目标可以被正确地匹配。后文将针对分割操作来描述识别具体目标的深度级别的方法。

注意等级4的处理

在组目标已分裂的情况下，通过基于外观的跟踪来恢复对单个目标的识别。返回参照图3，将看到采用基于外观的跟踪器48，基于外观的跟踪器48对相关目标的各种颜色外观模型执行操作。

如现有技术中所知的，颜色外观模型可以用于匹配和跟踪目的。这些行为意味着在输入的帧中新检测到的前景区域将与被跟踪的模型进行比较。使用如下定义的正规化了的L₁距离。

D_{h} (I, I^{'}) &equiv; \frac{\underset{&ForAll; i &Element; [m]}{Σ} | h_{I} (c_{i}) - h_{I^{'}} (c_{i}) |}{\underset{&ForAll; j &Element; [m]}{Σ} [h_{I} (c_{j}) + h_{I^{'}} (c_{j})]}

其中，I和I′分别表示模型和候选域。根据该经正规化的距离执行匹配，距离越小表示越匹配。

在动态可视画面中，照明条件以及目标的姿势、大小和感觉到的颜色通常随着时间变化。为了适应这些影响，在块71和72中分别更新各目标的时间模板和外观模型。在外观模型的情况下，我们使用一阶更新处理：

h_{I} (c_{i}, t) = α \cdot h_{I} (c_{i}, t - 1) + (1 - α) \cdot h_{I}^{new} (c_{i}, t)

其中，h_i ^new(c_i，t)是在时间t针对匹配的目标获得的直方图，h_I(c_i，t-1)是在时间t-1的存储模型，h_I(c_i，t)是在时间t的更新模型，α是确定更新处理速度的常数((0＜α＜1))。α的值确定新信息合并到模型中的速度：该值越小，合并越快。在该实施例中，使用α＝0.9的值。然而，应注意，仅当目标被其他运动目标遮挡时，才出现更新，而被固定目标遮挡是可以接受的。

组分割步骤69

如上所述，对注意等级3的分组的域执行组分割。用于执行组分割的已知的方法基于1999年的International Journal of Computer Vision，35(3)中的Huang等人的“空间颜色索引和应用”(Spatial colour indexingand applications)。下面是对在本实施例中采用的分割方法的描述。为了概括该方法，对于组域中的各个像素，我们计算像素属于形成组域的一部分的单个域的似然性。似然性计算基于对注意等级2中的单个域产生的外观模型。对形成组域的一部分的各个域重复该处理。此后，像素被分类为返回了最高似然性值的单个域。图7a至图7c中示出了组分割步骤69的目的，其中，图7a示出了原始视频帧，图7b示出了得到的组域，图7c示出了理想的分割结果。分割完组域之后，可以在遮挡期间保持对两个成员组域的目标的识别，当这两个目标分裂时，不需要额外处理来重新学习两个目标的识别。

现在，详细考虑组分割步骤69。

给出一组目标M_i，i∈S和检测到的组域G，该组域G由两个或更多个目标的结合而得到，假设所有模型具有相等的先验概率(priorprobability)，则当且仅当：

m = \underset{i &Element; S}{\arg \max} Π_{p} (G | M_{i}) - - - (4)

时，颜色为c_p的像素p∈G被分类为属于模型M_m，其中，∏_p(G|M_i)是像素p∈G属于模型M_i的似然性。假设w(p)是中心为p的小窗口，为了平滑的目的，我们可以定义，

Π_{p} (G | M_{i}) &equiv; \underset{q &Element; w (p)}{Σ} π_{c_{q}, h} (G | M_{i}) - - - (5)

其中，

π_{c_{q}, h} (G | M_{i}) &equiv; \min {\frac{H_{M_{i}} (c_{q})}{H_{G} (c_{q})}, 1} - - - (6)

是颜色直方图对域G内的颜色为c_q的像素q属于模型M_i的似然性的贡献。类似地，可以使用有助于边缘强度为e_q的像素q的基于边缘密度的直方图来增大该似然性函数。

由于颜色直方图不包括局部空间相关信息，所以引入了新的参数，即，空间-深度亲和力度量(SDAM)。具体地讲，提供上述似然性函数等式的改进版本∏′，表示为：

{Π^{'}}_{p} (G | M_{i}) = Γ_{p} (M_{i}) O_{p} (M_{i}) Π_{p} (G | M_{i}) - - - (7)

其中，

Γ_{p} (M_{i}) = \frac{1}{1 + λ \cdot d (x, G_{M_{i}}^{x})}

并且O_p(M_i)＝β，Г_p(M_i)O_p(M_i)是新定义的SDAM，它包括两部分。在第一部分中，Г_p(M_i)考虑将属于外观模型M_i的非遮蔽像素的空间亲和力作为d(x，C_Mi ^x)的函数：L_i是像素的x轴和目标的当前预测质心的x轴之间的距离。λ是接近于1的常量值(例如，λ＝0.99)。Г_p(M_i)也被称作空间亲和力度量(SAM)。在第二部分中，O_p(M_i)＝β，β解释了像素p与模型M_i的深度亲和力，其为离散的权值，并且是模型的深度级别的函数。

现在，考虑SAM和SDAM对初始似然性函数的影响。

首先，我们通过设置β＝1来考虑SAM的影响。新的似然性函数∏′允许对仅通过颜色外观度量判断而被分类为属于目标(称作目标A)、但与其他的像素相比，远离目标A的预测的中心轴的那些像素进行误差校正。这样，显著改进了分割结果。图8a至图8c中示出了示例，其中，图8a示出了输入视频帧，图8b示出了在似然函数中没有采用SAM的目标分割结果，图8c示出了在似然函数中采用SAM的目标分割结果。在图8c中，应注意到，几乎完全去除了在相似颜色区域中的误差。

为了对目标进行分割的目的而使用SAM方面存在一个主要的缺点。在其中两个运动目标交换位置的组结合情况下，例如，当两个人沿着相反的方向彼此经过时，SAM带来了不期望的效果：与前面的质心位置对应的区域出现垂直方向错误检测区。在图9a至图9c中逐步示出了这种效果。

为了补偿这种缺陷，组中的各像素的SAM应该具有不同的权重。出于这个原因，我们使用SDAM，SDAM考虑了权重参数β，β对各目标不同，从而反应层叠的画面情况。该β变量可以通过研究组内的各目标的相对的“深度级别”来获得：目标的相对深度及其对似然函数的影响之间的关系可以被定义为“目标越靠近照相机，越有助于似然函数”。实际上发现，如果根据目标的相对深度将β值减小0.1，则似然函数工作良好。例如，顶级目标(未被遮挡)将具有β＝1，被认为较远的目标将具有β＝0.9等。

假设在大多数情况下，目标将如图9a至图9d所示结合随后分裂，则图10a至图10d示出了像素的似然函数的期望变化，其中，图10a示出了结合前的像素(a)的似然函数，图10b和图10c示出了在结合期间的似然函数，图10d示出了结合之后的似然函数。标为A的曲线表示具有较大深度的目标的似然函数。

现在，我们考虑这样一种方法，通过该方法，选择β的值，从而反应单个目标的相对深度级别。

深度级别估计

已经提出了几种方法来自动估计深度级别。McKenna等人在2000年10月的“Computer Vision and Image Understanding，80(1)中的“对人进行分组跟踪”(Tracking groups of people)中定义了“可见度指数”，可见度指数为遮挡期间表示各目标的可视像素的数量与该目标被隔离时像素的期望数量之间的比率。使用该可见度指数来衡量深度。高可见度指数表示目标(在这种情况下为人)在顶级，即，最接近照相机。尽管这种方法可以用于估计深度级别，但是在两个以上的目标结合的情况下难以实现。在2002年7月的Proc.IEEE，90(7)中，Elgamal等人在“Background and foreground modelling using nonparametric Kernal densityestimation for visual surveillance”中公开了这样一种方法，即，根据分割结果对组中的每个人分配相对深度来对遮挡进行建模的方法。在这种情况下，该方法可以推广到N个目标的情况。分割结果的使用导致对目标布置的不同假设的估计。

在本实施例中，我们考虑用于获取组目标的深度级别信息的两种方法。第一种方法是基于分割的方法，该方法涉及对所谓的“交叠区域”的检测和推理。第二种方法与附加的确认处理一起使用与画面几何(scenegeometry)有关的信息，如果必要，检查被重新分类为属于各成员目标的像素的数量的趋势(经过连续帧)。

方法1-交叠区域

当检测到两个或者两个以上的目标之间的结合时，可以采用一阶模型来预测各目标的质心位置。各目标的纹理外观与质心位置的结合图像相关联，以寻找最佳配合。假设最佳配合位置，然后，可以使用形状概率蒙罩来确定“有争议像素”，即，在一个以上的目标概率蒙罩中具有非零值的那些像素。这组像素被称作“交叠区域”。图9中示意性地示出了交叠区域的示图。一旦确定了交叠区域，则将目标排序，从而那些被分配了较少的“有争议像素”的目标被给予较大的深度。该方法本身是已知的，Senior等人于2001年12月在Proc.Of PETS’01，Hawaii，USA中的“遮蔽处理的外观模型”(Appearance models for occlusion handling)中公开了该方法。

在我们的组分割步骤69中，由于不存在基于形状的概率蒙罩，所以我们可以改为使用从最近时间获取的目标的“轮廓”来近似该目标的范围。另外，为了在目标形成组时适当地查找成员目标(constituent object)的轮廓，可以使用Haritaoglu等人在2000年8月的“图像分析和机器智能的IEEE学报”(IEEE Transactions on Pattern Analysis and MachineIntelligence)的第22卷第8期中的“W4：对人及其行为进行实时监视”(W4：Realtime surveillance of people and their activities)中介绍的方法。该方法通过将二元前景区域投影到与域的主轴垂直的轴上来计算组轮廓的一维水平“投影直方图”。当假设竖直位置时，可以从轮廓的投影中容易地识别与域的主轴的x位置对应的两个峰(或者在该参考文献中的头部)。通过将目标的轮廓转移到目标的对应的新的x位置，定义了交叠区域。根据交叠区域内的“有争议像素”，执行对像素的重新分类，确定深度级别。

尽管在不能检测到人，以及由此不能检测到人的头部的场景中会存在问题，但是该方法在大多数情况下工作良好。另外，照相机的透视投影通常导致这样的情况：利用直方图投影技术几乎不可能检测到头部。另外，分类仅基于颜色外观，而颜色外观可能会导致错误。因此，在本实施例中，提出了计算深度级别的另选方法，以改进组分割步骤69，从而确保鲁棒的目标跟踪。

方法2-画面几何

在估计目标的深度级别的该优选方法中，根据画面几何进行所谓的“自顶向下”和“自底向上”的方法。具体地讲，首先利用自顶向下方法来提供对目标的深度级别的估计，此后，利用自底向上的方法来确认。根据这些步骤，我们获得了最终的深度级别，该深度级别用来确定在等式(7)的似然函数中被分配给各像素的β值。

在自顶向下的方法中，可观察到在室内监视的情况下，视频帧通常示出地面上的监视画面的正面斜视图。因此，这样的假设是合理的：目标的相对深度与其在地上的接触点的位置有关。目标的接触点越靠下，目标距离照相机越近。图12a示出了一个示例。图12a示出了办公室画面中的三个目标，每个目标用各自的具有用x表示的基点(base point)的适合的椭圆表征。通过识别基点从图像的底部起的顺序，可以估计深度级别。图10b示出了与画面的透视的水平线平行并且表示画面的透视水平线的图像内的“视线”。

在照相机不提供正面斜视图的情况下，可以通过手动输入透视水平线来使用该方法，如图13a中所示。在这种情况下，通过比较各目标的基点与水平线的距离来获得深度级别。图13b到图11d示出了一些示例性室内序列的透视画面几何。在各情况下，用穿过位于图像的左下角的坐标原点的线性方程y＝mx来表示水平线。使用各目标的接触点距该水平线的垂直距离来确定目标的相对深度级别。

虽然自顶向下的方法简单有效，但假设了成员目标的接触点在图像中是可视的。在看不到地平面上的目标的接触点的情况下，例如，因为目标的接触点被静态或者运动目标部分地遮挡，或者简单地不在照相机的范围内，这种估计是不够的。因此，优选地，由自底向上的方法针对深度级别对自顶向下的方法进行核实，自底向上的方法使用根据多个前面接收到的帧上得到的像素等级分割结果中、被分配给各个成员目标的像素的数量。通过分析在该时间段期间被分配给各种模型的像素的数量变化，可以验证或者质疑由自顶向下方法提供的初始的深度级别，其中，对那些具有较深的目标，在遮挡期间，像素的数量趋于减少(因为这些目标变得更加遮挡)。

概括起来，已经描述了智能视频监视系统10，智能视频监视系统10包括能够对一定程度的复杂情节进行鲁棒跟踪的新的匹配处理步骤41。具体地讲，该匹配处理步骤41来检测遮挡事件的开端，并且对所得的组域执行组分割，从而保持对被跟踪的单个目标的识别。按照这种方式，在遮挡事件前、遮挡事件过程中和遮挡事件后，可以连续跟踪目标。基于域的跟踪确保了目标外观中的任何突然变化都不会影响匹配处理，同时在计算上也是高效的。与考虑了各个像素的空间位置和像素所属目标的相对深度的新定义的SDAM参数一起，利用针对组域中的单个域预先产生的外观模型执行分割。可以利用多种方法获得相对深度信息，优选地为利用具有自底向上核实步骤的自顶向下画面几何方法。

Claims

1.一种跟踪视频序列中的目标的方法，所述视频序列包括多个帧，各目标由多个像素限定，所述方法包括以下步骤：

(a)在第一帧中识别第一目标和第二目标；

(b)提供表示所述第一目标的第一外观模型和表示所述第二目标的第二外观模型；

(c)在随后的第二帧中识别由所述第一目标和所述第二目标的结合而得到的组目标；

(d)将所述组目标中的各像素分类为表示所述第一目标或者表示所述第二目标，所述分类包括：(i)计算表示所述像素的外观和所述第一外观模型之间的对应关系的第一似然参数、和表示所述像素的外观和所述第二外观模型之间的对应关系的第二似然参数；(ii)向对应的似然参数施加第一权重因子和第二权重因子，所述第一权重因子和第二权重因子分别表示所述第一目标和所述第二目标的深度级别；以及(iii)，根据加权的第一似然参数和加权的第二似然参数识别所述像素表示所述第一目标和第二目标中的哪一个。

2.根据权利要求1所述的方法，其中，所述第一权重因子和所述第二权重因子从多个预定值中选择，所述选择取决于在所述第一帧中所述第一目标和所述第二目标中哪一个占据较高级别以及哪一个占据较低级别。

3.根据权利要求2所述的方法，其中，根据在所述帧中所述第一目标和所述第二目标中的哪一个更靠近基准位置来确定所述深度级别，最靠近所述基准位置的目标被分配所述较高级别，另一个目标被分配所述较低级别。

4.根据权利要求2所述的方法，其中，根据所述第一目标和所述第二目标中的哪一个更靠近延伸穿过所述帧的基线来确定深度级别，最靠近所述基线的目标被分配所述较高级别，另一个目标被分配所述较低级别。

5.根据权利要求2所述的方法，其中，根据在所述第二帧之前产生的多个帧中限定了对应的第一目标和第二目标的像素的数量的变化来确定深度级别，像素数量变化最大的目标被分配所述较低级别，另一个目标被分配所述较高级别。

6.根据权利要求3或权利要求4所述的方法，其中，通过分析在所述第二帧之前产生的多个帧中限定了对应的第一目标和第二目标的像素的数量的变化来核实所述深度级别，如果限定了所述目标的像素的数量在像素数量方面变化最大，则被分配所述较高级别的所述目标被重新分配至所述较低级别。

7.根据前面的任一项权利要求所述的方法，其中，所述第一外观模型和所述第二外观模型表示所述第一候选目标和所述第二候选目标的各自的颜色分布。

8.根据权利要求1至6中的任一项所述的方法，其中，所述第一外观模型和所述第二外观模型表示所述第一候选目标和所述第二候选目标的各自的(a)颜色分布和(b)边缘密度信息的组合。

9.根据权利要求8所述的方法，其中，所述边缘密度信息来源于对所述候选目标执行的Sobel边缘检测操作。

10.根据前面的任一项权利要求所述的方法，其中，步骤(c)包括识别新的候选目标，所述新的候选目标的帧位置与在步骤(a)中识别出的所述第一候选目标和所述第二候选目标的对应的帧位置部分交叠。

11.根据权利要求1至权利要求9中的任一项所述的方法，其中，步骤(c)包括识别在所述第二帧中候选目标的数量小于在所述第一帧中候选目标的数量，并且识别新的候选目标，所述新的候选目标的帧位置与在步骤(a)中识别出的所述第一候选目标和所述第二候选目标的对应的帧位置部分交叠。

12.一种分割视频序列的帧中的前景目标的方法，所述前景目标由多个前景像素限定，所述方法包括以下步骤：

(a)在第一帧中识别第一前景目标和第二前景目标；

(b)在随后的帧中识别由所述第一目标和所述第二目标结合而形成的第三前景目标；

(c)根据表示所述像素最可能与所述第一前景目标或者所述第二前景目标中的哪一个对应的对应量度，将所述第三目标中的各像素分类为表示所述第一前景目标或者表示所述第二前景目标，所述对应量度取决于所述第一前景目标和所述第二前景目标的外观特征以及与所述第一前景目标和所述第二前景目标有关的对应的权重因子，所述权重因子至少表示与其有关的所述前景目标的深度级别。

13.一种存储在计算机可读介质上的计算机程序，所述计算机程序包括命令，所述指令被设计为在被处理器执行时，执行前面的任何一项权利要求所述的步骤。

14.一种图像处理系统，所述系统包括：

接收装置，所述接收装置被设计为从视频源接收一系列的帧；以及

处理装置，所述处理装置被设计为(i)在第一帧中识别第一前景目标和第二前景目标；(ii)在随后的帧中识别由所述第一目标和所述第二目标结合而形成的第三前景目标；(iii)根据表示所述像素最可能与所述第一前景目标或者所述第二前景目标中的哪一个对应的对应量度，将所述第三目标中的各像素分类为表示所述第一前景目标或者表示所述第二前景目标，所述对应量度取决于所述第一前景目标和所述第二前景目标的外观特征以及与所述第一前景目标和所述第二前景目标有关的对应的权重因子，所述权重因子至少表示与其相关的所述前景目标的深度级别。

15.一种视频监视系统，所述系统包括产生视频序列的帧的视频源和根据权利要求14所述的图像处理系统。