CN1875379A

CN1875379A - 视频图像中的对象跟踪

Info

Publication number: CN1875379A
Application number: CNA2004800327094A
Authority: CN
Inventors: 许利群; 乔斯·洛伊丝·兰达瓦索
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2003-11-12
Filing date: 2004-11-08
Publication date: 2006-12-06
Also published as: WO2005048196A3; EP1683108A2; GB0326375D0; CA2543978A1; WO2005048196A2; JP2007510994A

Abstract

本发明提供了一种考虑了各匹配特征的范围和方差的对视频帧中的对象进行跟踪的对象跟踪方法和系统。这提供了在选择匹配特征中的某种自由，同时保证尽可能多的匹配特征能被用于确定对象间的匹配，因而，提高了这样确定的匹配的准确性。使用平行匹配方法，并且使用试探规则来解决对象间的遮蔽。

Description

视频图像中的对象跟踪

技术领域

本发明涉及一种用于逐帧跟踪视频图像中检测出的对象的方法和系统。

背景技术

自动视频跟踪应用在本领域中是公知的。通常，这种应用接收视频帧作为输入，并通常使用背景减除技术(backgroundsubtraction technique)来检测图像内例如移动对象等的感兴趣对象。如果在单个输入帧内检测到了对象，则该应用还利用所检测出对象的特性特征(characteristic feature)逐帧跟踪被检测出的对象。通过检测后来的输入帧中的对象并确定所检测出的对象的特性特征，通过匹配所确定的特性特征，可以进行后来被检测出的对象与先前被检测出的对象的匹配，而进行跟踪。例如，在Zhou Q.等人的“Tracking andClassifying Moving Objects from Video”，Procs 2^nd IEEE Int.Workshopon PETS，Kaual，Hawaii，USA，2001中说明了上面说明的典型现有技术跟踪应用的示例。

但是，由于对象的一些特征是比较稳定的，而其它的特征较易受噪声的干扰，因而使用特性特征的匹配存在一些问题。此外，不同的特征通常具有范围不同方差各异的值。欧几里得几何距离匹配量度没有考虑这些因素，它允许具有较大缩放比例和方差的尺寸来统治距离量度(distance measure)。

发明内容

通过提供了一种考虑了各匹配特征的范围和方差的跟踪视频帧中的对象的对象跟踪方法和系统，本发明解决了上述的问题。本发明提供了在选择匹配特征过程中的某种自由，同时保证尽可能多的匹配特征能被用于确定对象间的匹配，因而，提高了这样确定的匹配的准确性。

考虑到以上的内容，根据本发明的第一方面，提供了一种跟踪一系列视频图像中的对象的方法，包括如下步骤：

存储一个或更多个与所述系列中前面的视频图像中检测出的对象有关的对象模型，该对象模型包括所检测出的对象的特性特征的值和这些值的方差；

接收所述系列的要被处理的另外的视频图像；

检测所接收的视频图像中的一个或更多个对象；

确定检测出的对象的特性特征；

基于各自的特性特征，利用至少考虑了所述特性特征的方差的距离函数来计算各检测出的对象和各对象模型之间的距离量度；

基于所计算出的距离量度将检测出的对象与对象模型相匹配；以及

使用与所述对象模型匹配的各检测出的对象的特性特征来更新所述对象模型，以进行对象的跟踪。

在缩放比例和方差较大的一些匹配特性特征与其他特性特征比较时，考虑了特性特征方差的距离函数的使用可对所述缩放比例和方差进行补偿，因此在特征选择上提供了一定程度的灵活性，也提供了利用可使用的那样多的不同匹配特征来执行匹配的能力。

在优选实施例中，距离量度是经缩放的欧几里得几何距离。这提供了这样的优点：能用计算量较少的处理来处理高维数据，从而适合于实时运算。优选地，距离函数为如下的形式：

D (1, k) = \sqrt{Σ_{i = 1}^{N} \frac{{(x_{li} - y_{ki})}^{2}}{{σ_{li}}^{2}}}

其中，l为对象模型，k为检测出的对象，索引i遍历对象模型的全部N个特征，σ_li ²是各特征的方差的对应分量。

在另选的实施例中，距离量度是马氏距离(Mahalanobis distance)，其不但考虑了特征的缩放比例和方差，而且考虑了基于协方差矩阵的其他特征的方差。因此，如果有相关联的特征，它们的作用就被适当地加权。

优选地，还包括针对所接收的帧来预测所存储的对象模型的特性特征的值的步骤；其中，所述计算步骤使用所述特性特征的预测值作为来自对象模型的特征值。通过进行预测来预测与当前输入帧使用的各对象模型的特性特征的值，能够提高对象模型与所检测出的对象的匹配准确度。

在优选实施例中，如果对象模型不与所检测出的对象相匹配，那么就增加该对象的特性特征的值的方差。这提供了这样的优点：帮助跟踪者找回可能因突然或意外的运动而丢失的对象。

优选地，如果对象模型不与所接收的图像中的被检测出的对象相匹配，那么更新步骤包括：用在预定数量的先前图像中为相同对象找到的各该值的平均值更新特性特征的值。通过改变预测模型来方便重新获取对象，这提供了预测错误的情况下的补偿。

此外，优选地，如果对象模型不与已接收的图像中的被检测出的对象相匹配，那么就执行检查来确定该对象是否与其它对象交叠，并且如果检测到交叠，就认为对象被遮蔽。这在对象跟踪中提供了某些灵活性：不是开始最终会导致对象被确认为丢失的例程，而是如果对象被遮蔽，则跟踪技术照样将其识别，并不立即取消对象的跟踪。

此外，优选地，该方法还包括计算对各对象进行了跟踪的连续视频图像的数量，并且如果对象被跟踪了预定数量的连续帧，就输出指示已发生了跟踪的跟踪信号。这使得可以不理会短的瞬时的对象运动。

另外，优选地，如果对象模型不与接收的图像中的被检测出的对象相匹配，那么就增加对对象模型未被匹配的连续帧数的计数，该方法还包括如果计数超过预定数，就删除对象模型的步骤。对已与背景结合在一起的静止对象和已离开视野的对象，通过修剪与这些对象相关的被存储的对象模型，允许不理会这些对象。因此保持了本技术的计算效率，并有助于实时的能力。

最后，优选地，如果被检测出的对象未与对象模型相匹配，那么就与所检测出的对象相对应地存储新对象模型。这允许新对象进入图像捕获装置的视野区域，并随后被跟踪。

根据本发明的第二方面，还提供了用于跟踪一系列视频图像中的对象的系统，包括：

存储装置，用于存储一个或更多个与所述系列中前面的视频图像中检测出的对象有关的对象模型，该对象模型包括所检测出的对象的特性特征的值和这些值的方差；

用于接收要被处理的所述系列的另外的视频图像的装置；以及

处理装置，被设计为用于：

检测所接收的视频图像中的一个或更多个对象；

确定检测出的对象的特性特征；

使用与所存储的对象模型匹配的各检测出的对象的特性特征来更新所述对象模型，以进行对象的跟踪。

在第二方面中，可获得与先前第一方面中说明的同样优点和相同的另外的特征和优点。

根据第三方面，本发明还提供了计算机程序或程序组，该程序或程序组被设计为当在计算机系统上被执行时使计算机系统执行所述第一方面的方法。而且，根据另外的方面，还提供了存储依据第三方面的计算机程序或程序组的计算机可读存储介质。该计算机可读存储介质可以是现有技术已知的任何适当的数据存储装置或介质，作为非限制性的例子，例如可以是磁盘、DVD、固态存储器、光盘、磁光盘等中任一种。

附图说明

参照附图，通过后文对本发明的仅作为示例提出的实施例的说明，本发明的另外的特征和优点将变得显而易见，在附图中：

图1是示出了依据本发明的计算机系统的系统方块图；

图2(a)和(b)是示出了本发明实施例的跟踪方法和系统的操作的流程图；

图3是示出了在本发明实施例中使用的与所检测出的对象色团匹配的对象模板的概念的图；

图4是示出了本发明实施例执行的跟踪的视频帧系列；

图5是包括图4的帧的视频系列的后来帧，并再次示出了本发明执行的对象的跟踪。

具体实施方式

现将参照附图说明本发明的实施例，并给出实施例的操作示例。

图1示出了提供了本发明的实施例的示例系统结构。更具体地，由于本发明一般地涉及用于跟踪输入图像中的对象的图像处理技术，因而，本发明首先被具体实现为在计算机上运行的软件。因而，本发明的系统结构包括本领域公知的通用计算机16。计算机16配有显示器20，可在其上将由计算机生成的输出图像显示给用户，计算机16还配有各种用户输入装置18，例如键盘、鼠标等。通用计算机16还配有数据存储介质22，例如硬盘、内存、光盘等，其上存储有程序和本发明实施例生成的数据。计算机16还提供输出接口40，与计算机跟踪的图像中的对象相关的跟踪数据可从此接口输出到其它利用该数据的装置。

数据存储介质22上存储有：与存储的对象模型(模板)相应的数据24、与输入图像相应的数据28、和与工作数据相应的数据30，工作数据例如是图像数据、计算结果和用作本发明操作期间的中间存储器的其它数据结构或变量等。另外，数据存储介质22上还存储有程序形式的可执行程序代码，例如控制程序31、特征提取程序32、匹配距离计算程序36、对象检测程序26，对象模型更新程序34，和预过滤程序38。这些程序中每一程序的操作将在后面依次说明。

为了方便实施例的操作，计算机16被设计为接收来自图像捕获装置12(如照相机等)的图像。图像捕获装置12可以直接连接到计算机16，或另选地经网络14(如因特网)逻辑地连接到计算机16。图像捕获装置12被设计为提供场景的顺序的视频图像(图像中的对象被检测和跟踪)，所述视频图像由取特定值以具有特定亮度和色度特性的图像元素(像素)组成。用于从图像捕获装置12输出的像素的颜色模型可以是本领域中已知的任何模型，如RGB、YUV等。

在操作中，通用计算机16经网络或直接地接收来自图像捕获装置12的图像，并在控制程序31的总体控制下运行存储在数据存储介质22上的各种程序，从而处理所接收的输入图像，以跟踪其中的对象。现将参照图2和图3更详细地说明本实施例的操作。

参照图2，在步骤2.2，接收来自图像捕获装置12的新的视频图像，该新的视频图像形成了从该装置接收的视频序列的一部分。为了说明的目的，我们假设先前的图像已经被接收，其中的对象已经在先被检测和跟踪；后文给出当接收到序列的第一个图像时的启动操作的简要说明。

在步骤2.2之后，首先被执行的处理是通常被称为“分割(segmentation)”的处理，即，需要在输入图像中检测感兴趣的对象(主要是移动的对象)。可以使用本领域已知的任何分割过程，例如，由McKenna等人在“Tracking Groups of People”Computer Vision and ImageUnderstanding，80，42-56，2000或由Horpraset等人在“A StatisticalApproach for Real-time Robust Background Subtraction and ShadowDetection”IEEE ICCV’99FRAME_RATE workshop中说明的那些技术。然而，另选并优选地，也可使用在与本申请同时递交的本申请人的、要求英国申请0326374.4的优先权的共同未决国际专利申请中说明的对象检测技术。无论使用哪种技术，在步骤2.4中，都由对象检测程序26执行对象检测，以将所有推测属于独立对象的像素连接进各自的色团。

随后步骤的目的就是通过将所检测出的对象的特征矢量与临时模板(对象模型)相比较，对代表对象的各色团在场景中的移动进行暂时的跟踪。下面讨论对象模板的内容。

在本实施例中，使用一组五个重要的特征来说明各所检测出的对象(候选色团)的速度、形状和颜色，即：

其质心(p_x，p_y)的速度v＝(v_x，v_y)；

包含的尺寸或像素数量(s)；

最适合色团的椭圆主轴与辅轴的比(r)，该椭圆比较之椭圆的限定框(bounding box)的纵横比更好地描述了对象；

椭圆主轴的倾角(θ)；和

主要颜色表示法(c_p)，其使用被聚集的像素的色团颜色协方差矩阵的主特征向量。

在步骤2.6，如上面所略述的，特征提取程序32检测对象匹配特性特征，即，对帧t+1中的以(p_kx′，p_ky′)为中心的候选色团k，检测特征向量B_k(t+1)＝(v_k′，s_k′，r_k′，θ_k′，c_p′)。注意，为当前输入帧t+1中的每个被检测出的对象确定各自的特征向量。候选色团k的速度被计算为：

v_k′＝(p_kx′，p_ky′)^T-(p_lx，p_ly)^T。

可以如Fitzgibbon，A.W.和Fisher，R.B.“A buyer’s guide toconic fitting”，proc.5^th British Machine Vision Conference，Birmingham，pp.513-522(1995)中所描述的那样执行确定r和θ的椭圆拟合。确定c的方法的说明见Zhou Q.和Aggarwal，j.k.，“Traching andclassifying moving objects from video”，proc.2^nd IEEE intl.Workshopon Performance Evaluation of Tracking and Surveillance(PETS’2001)，Kaual，Hawaii，U.S.A.(December 2001)。

计算出所检测出的对象的特征向量后，可开始把被检测出的对象与存储的对象模板代表的被跟踪对象进行匹配。更具体地，如图3所示，用稳定的特性特征的临时模板对由输入图像代表的场景中已经被在先跟踪的每一个感兴趣对象进行建模。在任何时间t，对每一中心位于(p_lx，p_ly)的被跟踪对象l，我们都具有特征模板M_l(t)＝(v_l，s_l，r_l，θ_l，c_p)。

这些对象模型(或模板)被存储在数据存储介质22的对象模型区24中。

在将模板M_l与帧t+1中的中心位于(p_kx′，p_ky′)、具有特征向量B_k(t+1)＝(v_k′，s_k′，r_k′，θ_k′，c_p′)的候选色团k匹配之前，通过分别预测中新的速度、尺寸、纵横比、倾角，使用Kalman过滤器来更新该模板。这里假设

已被预测和存储。另外，被存储的对象模型还包括平均M_l(t+1)和方差v_l(t)向量；在帧t+1中发现与模板相匹配的候选色团k时更新这些值。因此，在步骤2.8开始匹配距离计算程序36，其开始FOR处理循环(针对输入图像中的每个所检测出的对象的每个存储的对象模板生成匹配距离的有序列表)。更具体地，在步骤2.8的第一级迭代时，选择第一个存储的对象模板，检索它的特征向量。然后，在步骤2.10，开始被嵌套的次级FOR处理循环，其逐步遍历每个所检测出的对象的特征向量，按照步骤2.12处理每一个集合。在步骤2.12，通过比较各自的匹配特征来确定当前对象模板和当前正被处理的所检测出的对象之间的匹配距离，计算当前对象模板和当前正被处理的所检测出的对象之间的匹配距离。接下来详细给出在步骤2.12中应用的匹配函数。

显然地，在对象中一些特征是比较稳定的，而其它的特征可能较易受噪声干扰。同样，不同的特征通常具有范围不同、方差各异的值。欧几里得几何距离未考虑这些因素，其允许较大缩放比例和方差的大小来支配距离量度。

解决该问题的一条途径是采用马氏距离度量，其不仅考虑了特征的缩放比例和方差，而且考虑了基于协方差矩阵的其它特征的方差。因此如果有相关联的特征，它们的作用就被适当地加权。在另选的实施例中可采用这种距离度量。

但是，对高维数据，协方差矩阵变得不可逆。而且，矩阵求逆是计算量很大的处理，不适于实时操作。所以，在本实施例中，如等式(2)所示，在模板和候选色团k之间采用经缩放的欧几里得几何距离。对于不同类的数据集，这是合理的距离定义。

D (l, k) = \sqrt{Σ_{t = 1}^{N} \frac{{(x_{1 i} - y_{ki})}^{2}}{{σ_{li}}^{2}}} . . . (2)

其中，x_li和y_ki分别是模板和特征向量B_k的放大因子，σ_li ²是方差向量v_l(t)的相应分量，索引i遍历所有模板特征。注意，等式(2)在特征之间没有关系的情况下与马氏距离所给出的结果相同。因此协方差矩阵是对角矩阵。因而等式(2)代表了假设特征不互相关联时的简化。此公式的一个例外是颜色，这通过计算颜色距离来处理：

d_{lk} (c_{l}, c_{k}^{'}) = 1 - \frac{c_{l} \cdot c_{k}^{'}}{| | c_{l} | | \cdot | | c_{k}^{'} | |}

并使用其替换(x_li-y_ki)。相应的方差δ_li是方差

\frac{c_{l} \cdot c_{k}^{'}}{| | c_{l} | | \cdot | | c_{k}^{'} | |} .

紧随步骤2.12，在步骤2.14执行评测，以确定是否所有的被检测出的对象都已与当前正被处理的对象模板进行了匹配，即，是否内部FOR循环已经结束。如果没有，则选择下一被检测出的对象，重复内部FOR循环。如果已结束，处理就进行到步骤2.16。

在步骤2.16，当前的处理状态是已经取得了每个被检测出的对象与当前正被处理的存储对象模板相匹配的匹配距离的列表，但是该列表没有被排序，也没有对它进行检查以确定距离量度值是否合理。有鉴于此，在步骤2.16中，对列表中的距离值应用阈值，并从列表中去除大于阈值的那些值。为10的THR值被证明是实际可行的，但其他的值也是有效的。在阈值操作之后，在步骤2.18，使用标准的排序程序，以匹配距离值对所得的经阈值操作过的列表进行排序。

接下来，步骤2.20检查是否所有的存储对象模板都已经被处理，即，是否外部FOR循环已经结束。如果没有，则选择下一对象模板，重复外部和内部FOR循环。如果已结束，处理就进行到步骤2.22。

在处理的这个阶段中，我们已将匹配距离的各经排序的列表存储在工作数据区30中，一个列表用于一个存储的对象模型。利用这些有序列表，随后可以将检测出的对象与存储对象模型相匹配，并且这接下来被执行。

更具体地，在步骤2.22，开始第二FOR处理循环，同样其用于依次对各存储的对象模板执行处理步骤。具体地，首先在步骤2.24中执行评测，以确定正被处理的对象模型是否有可用的匹配。进行与给出了当前对象模型的有序列表中的最低匹配距离值的所检测出的对象的匹配。如果由于先前执行的施加阈值的步骤，在当前对象模型的有序列表中没有匹配距离值，则没有可用的匹配。

如果步骤2.24的评测返回“真”，即，通过模板预测

方差矢量v_l(t)和B_k(t+1)，当前对象l被帧t+1中的候选色团k匹配，则处理进行到步骤2.26，并执行对当前对象模型I的更新。具体地，对象模型更新程序34更新当前对象的对象模板，来获取M_l(t+1)＝B_k(t+1)，以及平均和方差( M_l(t+1)，(V_l(T+1))。用对象已匹配的最新的相应L个色团或L(例如，L＝50)帧的临时窗口计算这些向量。用于各被跟踪的对象的模板有一组相关的Kalman过滤器，其为下一帧中的各特征(除支配颜色外)预测期望的值。在步骤2.28中，使用预测过滤程序38，通过输入被匹配的所检测出的对象的值，对象模型的Kalman过滤器KF_l(t)也被更新，并确定和存储用于与下一输入帧一起使用的对象模型的特征的预测值另外，在步骤2.30，代表对象已被跟踪的帧的数量的‘TK_counts’计数器值被增加1，并且‘MS_counts’计数器(如果在先前的几帧中暂时失去了对象的跟踪，则其可能已经被设置)在步骤2.32中被设置为零。然后根据是否所有的存储对象模板都已被处理的评测，FOR循环结束，并且如果是这样，处理进行到步骤2.56(以后说明)。如果并非所有的存储对象模板都已被处理，则开始步骤2.22的FOR循环，处理下一存储对象模板。

返回步骤2.24，现在考虑是否存在可用的匹配的评测返回负值的情况。在该情况下，如上面所解释的，由于阈值被应用到对象模板的距离量度列表，而在列表中没有匹配距离，即，在阈值距离内没有检测出与对象模板相匹配的对象。在这种情况下，处理首先进行步骤2.36的评测，在该步骤，用于当前对象模板的TK_counts计数器被评定，确定它是否小于预定值MIN_SEEN(其可以取20等值)。如果TK_counts小于MIN_SEEN，则处理进行到步骤2.54，在该步骤从对象模型库24中删除当前对象模板。处理随后进行到步骤2.34，在图中显示为独立步骤，而实际上与先前说明的是一致的。对MIN_SEEN阀值的这种利用被用来忽略短暂的对象运动和(可以被临时分割出来但实际上不与被跟踪的正确对象相对应的)假色团。

如果步骤2.36的评测表明TK_counts计数器大于MIN_SEEN阈值，则在步骤2.38接着执行遮挡检查。在本实施例中，与对象进入/退出场景的区域相关的任何特殊的试探法都没有用。对象可能刚在图像的中部出现或消失，因此位置规则不是必需的。因此为了处理遮挡，试探法的使用是必须的。结果，在本实施例中，每次对象不能找到与所检测出的对象的匹配时，就在步骤2.38执行遮挡检查。此处，如果如在步骤2.40评测中所确定的，当前对象的限定框与一些其他对象的限定框交叠，那么在步骤2.42，这两个对象都被标识为“被遮蔽”。处理然后进行到步骤2.48，其将在下面说明。

返回到步骤2.40，如果遮挡检查表明没有与其它模板交叠，即，当前对象没被遮蔽，那么推断出已失去了对对象的跟踪。所以，处理进行到步骤2.48，在该步骤增加MS_counts计数器，以保持未成功跟踪特定对象模型的输入帧数量的计数。在步骤2.50，将该计数与阈值MAX_LOST(其可取例如5等值)相比较，如果该评测表明计数器大于或等于该阈值，那么得出结论：对象的跟踪已是不可挽回的丢失，因此处理进行到步骤2.54，在该步骤，如前所述地删除当前对象模型。

但是，如果步骤2.50的评测表明计数器小于MAX_LOST，那么处理进行到步骤2.52，在该步骤按照等式(3)调整对象模型的方差值

σ_l ²(t+1)＝(1+δ)σ_l ²(t) (3)

其中δ＝0.05是个好选择。方差的这种增加可帮助跟踪者恢复遭受意外或突然的运动而丢失的对象。

在步骤2.52之后，处理进行到步骤2.44。还应注意，也能从步骤2.42(在该步骤，当前对象模型被标记为被遮蔽)到达步骤2.44。由于可简单地因预测错误而出现匹配中的错误，因而，在步骤2.44中改变预测模型，以便于恢复丢失的跟踪。因此，在MAX_LOST期间内，不用Kalman过滤器来更新特征模板，而是在步骤2.44，对每一个特征，使用最近的50个正确预测的平均值，其被描述为M_l(t+1)＝M_l(t)+ M_l(t)。此外，如果对象被标记为被遮蔽，则执行同样的更新。这是因为由于最后几帧中小的无规律的运动被滤掉，所以使用被平均的模板预测能更好地跟踪被遮蔽的对象。位置预测被限制在遮蔽色团中。

在步骤2.44之后，处理进行到步骤2.34的评测，其已经被说明。

一旦步骤2.34的评测表明按照步骤2.22开始的处理循环已经处理了每个对象模板，则当前的处理状态是每个存储对象模型与被标记为遮蔽的检测出的对象(未被匹配，但在MAX_LOST期间内)相匹配，或被从对象模型库24中删除(由于在MIN_SEEN期间内没有发现匹配，或由于已经超过MAX_LOST期间而没有重新获得该对象)。但是在图像中仍会有未与存储的对象模板相匹配的检测出的对象，这通常是因为它们是当前帧中第一次在图像场景中刚出现的新对象(例如，从旁边走进图像视野区域的人)。为了考虑这些未被匹配的所检测出的对象，新对象模型必须被例示，并被存储在对象模型库中。

为实现这一点，紧随步骤2.34(一旦它指示已经按照在步骤2.22开始的处理循环处理了每个对象模板)，处理进行到步骤2.56，在该步骤，开始另一FOR处理循环，这次处理检测出的对象。在该处理循环内，被执行的第一步是步骤2.58的评测：检查当前正被处理的所检测出的对象是否已与对象模型相匹配。如果是这种情况，即，当前对象已经被匹配，就没必要去为所检测出的对象创建新的对象模型，因此处理进行到步骤2.62。步骤2.62确定是否所有的所检测出的对象都已被开始于步骤2.56的FOR循环处理，如果不是，则处理就返回到步骤2.56以处理下一所检测出的对象，或如果所有的所检测出的对象都已经被处理就结束FOR循环。

但是，如果当前被检测出的对象未与存储的对象模型相匹配，则在步骤2.60中，新对象模型必须被例示并被存储，取所检测出的对象的特征值作为它的初始值，即，对帧t+1中的当前所检测出的对象k，根据B_k(t+1)创建新的对象模板M_k(t+1)。为新的对象选择初始方差向量V_k(t+1)需要考虑一些因素，但可从已经在场景中的非常类似的对象拷贝合适的值，或作为设计选择，从而前面对被正确跟踪的对象的统计分析获得的典型值中取出合适的值。新的对象模型被存储在对象模型库24中，并因此可用于在接收下一输入图像时被匹配。

在步骤2.60之后，如前所述，执行步骤2.62的循环评测，一旦所有的所检测出的对象已被该循环处理，则处理就进行到步骤2.64。在这一阶段，在该处理中，所有存储的对象模型都被匹配到所检测出的对象(在MAX_LOST期间内被标记为遮蔽或被丢失)，或被删除，并且所有的所检测出的对象被匹配到存储的对象模型，或者被创建了关于它的新的对象模型。因此可在此时输出表明发现了所检测出的对象和存储的对象模型之间的匹配的跟踪数据，并指出所检测出的对象在图像中的位置。因此，在步骤2.64，提供跟踪输出，其指出为每一个被存储的对象模板找到的匹配(TK_counts计数器大于MIN_SEEN阈值)。如前面提到的，MIN_SEEN阈值的使用允许忽略任何短的瞬时的对象运动，并可补偿不对应真实对象的被临时分割出的假色团。此外，如我们所见，如果在MIN_SEEN期间内，与对象模型相关的对象丢失(即，对象模型未被匹配)，则删除该对象模型。当然，在开始时，没有被存储的模板。所以最初被检测出的所有对象都是新的对象，并按照图2(b)被处理，以创建新模板。

在该实施例内，输出跟踪信息被用于处理图像以在图像中各所检测出的对象的周围放置可见的限定框，如图4和图5所示。图4和图5是临时分割的大约40帧的视频系列中的两帧(图5是较后的帧)。在这些图像中，可以看出，配有对象参考数字的限定框已被设置在所跟踪的对象的周围，通过比较图4和图5，可以看出，当场景中的对象在场景中移动时，他们被跟踪(由具有相同标号的各对象周围的限定框指出)。此外，图5示出了本实施例处理遮蔽的能力，当作为对象787的被跟踪的货车遮蔽了作为对象956的被跟踪的人群时，仍可成功地跟踪每一个对象。

通过在图像上提供视觉输出来简单地表明对象已被跟踪，同样，由该实施例提供的跟踪信息可以被用在进一步的应用(例如，对象分类应用等)中。此外，可通过计算机16的跟踪输出40(见图1)将跟踪信息输出到可利用该追踪信息的其它系统。例如，跟踪信息可以被用作装置指示系统的输入，该系统用于控制装置(例如，照相机)或武器，以确保当图像中的特定对象移动时，该装置保持对该对象的指向。对本领域的技术人员来说，跟踪信息的其它应用是显而易见的。

除非上下文清楚地要求，否则在整个说明书和权利要求书中，词“包括”、“包含”和类似词应解释为与排他或独占的意思相反的包括，也就是说，含义为“包括，但不限于”。

Claims

1、一种跟踪一系列视频图像中的对象的方法，包括如下步骤：

存储与所述系列中前面的视频图像中检测出的对象有关的对象模型，该对象模型包括所检测出的对象的特性特征的值和这些值的方差；

接收所述系列的要被处理的另外的视频图像；

检测所接收的视频图像中的对象；

确定检测出的对象的特性特征；

使用与所述对象模型匹配的各检测出的对象的特性特征来更新所述对象模型。

2、根据权利要求1所述的方法，其中，所述距离量度是经缩放的欧几里得几何距离。

3、根据权利要求2所述的方法，其中，所述距离函数为如下的形式：

D (l, k) = \sqrt{Σ_{i = 1}^{N} \frac{{(x_{li} - y_{kl})}^{2}}{{σ_{li}}^{2}}}

其中，l为对象模型，k为检测出的对象，x_li和y_ki分别是所存储的对象模型和所检测出的对象的特性特征值，σ_li ²是各特征的方差的对应分量，索引i遍历对象模型的全部N个特征。

4、根据权利要求1所述的方法，其中，所述距离量度是马氏距离。

5、根据前述权利要求任一项所述的方法，还包括针对所接收的帧来预测所存储的对象模型的特性特征的值的步骤；其中，所述计算步骤使用所述特性特征的预测值作为来自所述对象模型的特征值。

6、根据前述权利要求任一项所述的方法，其中，如果对象模型与所检测出的对象不匹配，则增加该对象的特性特征的值的方差。

7、根据前述权利要求任一项所述的方法，其中，如果对象模型与所接收的图像中的被检测出的对象不匹配，那么更新步骤包括：用预定数量的先前图像中为相同对象找到的各该值的平均值来更新所述特性特征的值。

8、根据前述权利要求任一项所述的方法，其中，如果对象模型与已接收的图像中的被检测出的对象不匹配，那么执行检查来确定该对象是否与其它对象交叠，并且如果检测到交叠，就认为所述对象被遮蔽。

9、根据前述权利要求任一项所述的方法，还包括计算对各对象进行了跟踪的连续视频图像的数量，并且如果对象被跟踪了预定数量的连续帧，就输出指示已发生了跟踪的跟踪信号。

10、根据前述权利要求任一项所述的方法，其中，如果对象模型与接收的图像中的被检测出的对象不匹配，那么就增加对对象模型未被匹配的连续帧数的计数，该方法还包括如果计数超过预定数，就删除对象模型的步骤。

11、根据前述权利要求任一项所述的方法，其中，如果被检测出的对象与对象模型不匹配，那么就存储与所检测出的对象相对应的新对象模型。

12、一种计算机程序或程序组，该程序或程序组被设计为当在计算机上被执行时，它/它们使计算机依据前述权利要求任一项操作。

13、一种计算机可读存储介质，存储根据权利要求12所述的计算机程序或计算机程序组中至少一个计算机程序。

14、一种用于跟踪一系列视频图像中的对象的系统，包括：

存储装置，用于存储与所述系列中前面的视频图像中检测出的对象有关的对象模型，该对象模型包括所检测出的对象的特性特征的值和这些值的方差；

用于接收所述系列的要被处理的另外的视频图像的装置；以及

处理装置，所述处理装置被设计为用于：

检测所接收的视频图像中的一个或更多个对象；

确定检测出的对象的特性特征；

使用与所存储的对象模型匹配的各检测出的对象的特性特征更新所述对象模型。

15、根据权利要求14所述的系统，其中，距离量度是经缩放的欧几里得几何距离。

16、根据权利要求15所述的系统，其中，距离函数为如下的形式：

D (l, k) = \sqrt{Σ_{i = 1}^{N} \frac{{(x_{li} - y_{kl})}^{2}}{{σ_{li}}^{2}}}

其中，l为对象模型，k为检测出的对象，x_li和y_ki分别是所存储的对象模型和所检测出的对象的特性特征值，σ_li ²是各特征方差的对应分量，索引i遍历对象模型的全部N个特征。

17、根据权利要求14所述的系统，其中，所述距离量度是马氏距离。

18、根据权利要求14到17任一项所述的系统，还包括用于针对所接收的帧来预测所存储对象模型的特性特征值的装置；其中，在距离度量计算中，所述处理装置使用被预测的特性特征值作为来自所述对象模型的特征值。

19、根据权利要求14到18任一项所述的系统，其中，如果对象模型与所检测出的对象不匹配，则增加该对象的特性特征的值的方差。

20、根据权利要求14到19任一项所述的系统，其中，如果对象模型与所接收的图像中的被检测出的对象不匹配，那么更新步骤包括：用预定数量的先前图像中为相同对象找到的各该值的平均值来更新特性特征的值。

21、根据权利要求14到20任一项所述的系统，其中，如果对象模型与已接收的图像中的被检测出的对象不匹配，那么执行检查来确定该对象是否与其他对象交叠，并且如果检测到交叠，就认为该对象被遮蔽。

22、根据权利要求14到21任一项所述的系统，还包括：用于计算对各对象进行了跟踪的连续视频图像的数量的装置，以及，如果对象被跟踪了预定数量的连续帧，就输出指示已发生了跟踪的跟踪信号的装置。

23、根据权利要求14到22任一项所述的系统，其中，如果对象模型与接收的图像中的被检测出的对象不匹配，则增加对对象模型未被匹配的连续帧数的计数，该系统还包括如果计数超过预定数，就删除对象模型的装置。

24、根据权利要求14到23任一项所述的系统，其中，如果被检测出的对象与对象模型不匹配，那么就存储与所检测出的对象相对应的新对象模型。