CN1965332A

CN1965332A - 利用鲁棒信息融合来基于多模组成部分地跟踪对象的方法和系统

Info

Publication number: CN1965332A
Application number: CN 200580012428
Authority: CN
Inventors: B·乔治斯库; X·S·周; D·科马尼丘; R·B·劳
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens Corporate Research Inc
Priority date: 2004-02-20
Filing date: 2005-02-18
Publication date: 2007-05-16

Abstract

所公开的是一种用于跟踪对象的系统和方法。接收包括多个图像帧的视频序列。维持基于样本的对象外形分布的表达。将对象划分成一个或多个组成部分。针对每个组成部分，估计其相对于基于样本的表达的位置和不确定性。将基于可变带宽密度的融合(VBDF)用于每个组成部分，以确定最主要的运动。利用所述运动估计来确定该对象的轨迹。

Description

利用鲁棒信息融合来基于多模组成部分地跟踪对象的方法和系统

相关应用的交叉引用

本申请要求于2004年2月20日提交的序列号为60/546,232的美国临时申请的权益，该申请全文引入作为参考。

发明领域

本发明涉及一种用于跟踪对象运动的系统和方法，并且更特别地涉及一种用于利用鲁棒(robust)信息融合来基于多模组成部分地跟踪对象的系统和方法。

发明背景

在视觉上跟踪对象中遇到的一个问题是维持表达目标外形的能力，这种表达目标外形必须足够稳定以处理由于目标移动和/或摄像机移动所引起的固有变化。基于模板匹配的方法必须适配模型模板，以便成功地跟踪目标。在没有适配的情况下，当所述外形没发生明显改变时，跟踪只在非常短的时期内是可靠的。

但是，在大多数应用中，由于观察点、照明或障碍的变化，所述目标外形在长时间内经历结构方面的显著变化。基于运动跟踪的方法能处理这种外形变化，在该方法中，所述模型适于先前帧。但是，所累积的运动误差和快速视觉变化会使所述模型漂离所跟踪的目标。通过强加对象特定的子空间约束条件或维持所述模型的统计学表达能改善跟踪性能。这种表达能事先确定或在线计算。所述外形的可变性能被建模为概率分布函数，理想的是在线学习这种概率分布函数。

基于视觉的跟踪的本征特性在于，跟踪目标的外形和背景虽然是逐渐地但仍是不可避免地变化。由于用于鲁棒跟踪的一般不变特征很难发现，所以大多数现有方法需要处理跟踪目标的外形变化和/或背景。即使不明确说明，每个跟踪方案也包括所述对象的二维(2D)图像外形的某种表达。

一种公知的利用生成模型(generative model)的方法包括三个组成部分：稳定的组成部分、漂移的组成部分和障碍组成部分。所述稳定的组成部分标识运动估计的最可靠的结构，而漂移的组成部分表示所述外形的变化。二者均被示为高斯分布。是离群数据(dataoutlier)的原因的所述障碍组成部分在可能的强度水平上均匀分布。该方法将这种可操纵小波系数的相位部分用作特征。

对象跟踪有许多应用，诸如：监视应用或生产线应用。对象跟踪还在医学应用中被用于分析心脏的心肌壁运动。对左心室的心肌壁运动的准确分析对于心脏功能的评价至关重要。由于心脏肌肉的快速运动和呼吸的干扰，这项任务是困难的。当使用超声图像序列时甚至更糟。

已经提出了几种用于心肌壁跟踪的方法。基于模型的可变形模板、马尔可夫(Markov)随机场、光流法和这些方法的组合已经被用于根据二维图像序列来跟踪左心室。通常的做法是在形状跟踪框架中强加模型约束条件。在多数情况下，由于捕获主要形状变化的模式的数量有限且通常比用于描述该形状的特征组成部分的初始数量少得多，所以子空间模型适用于形状跟踪。直接的处理方法是将所跟踪的形状投影到主成分分析(PCA)子空间中。但是，这种方法不能利用所述测量结果的不确定性，并且因此是不完整的。在许多实例中，测量噪声本身就是异方差的(即：既各向异性又不均匀)。需要一种能够融合来自多个外形模型的运动估计的对象跟踪法，且这种方法能有效地考虑不确定性。

发明内容

本发明涉及一种用于跟踪对象的系统和方法。接收包括多个图像帧的视频序列。维持基于样本的对象外形分布的表达。对象被划分为一个或多个组成部分。对于每个组成部分，其相对于所述基于样本的表达的位置和不确定性被估计。将基于可变带宽密度的融合(VBDF，Variable-Bandwidth Density Based Fusion)用于每个组成部分，以确定最主要的运动。该运动估计被用于确定该对象的轨迹。

本发明还涉及一种用于在包括多个图像帧的医学视频序列中跟踪候选对象的方法。所述对象通过多个被标记的控制点来表示。估计出每个控制点的位置和不确定性。维持多个外形模型。将每个控制点与一个或多个模型进行比较。VBDF估计器被用来确定每个控制点的最有可能的当前位置。对于所有这些控制点，坐标被连接在一起。该控制点的集合与最类似于该控制点集合的模型进行融合。

附图简述

以下将参照附图更详细地描述本发明的优选实施方案，其中相同的参考编号表示相同的元件：

图1是根据本发明的用于跟踪对象运动的系统的系统框图；

图2图解说明根据本发明的用于利用基于多模型组成部分的跟踪器来跟踪对象的方法；

图3是阐述根据本发明的用于跟踪对象的方法的流程图；

图4示出其中根据本发明的方法来跟踪人脸的图像帧序列；

图5图解说明示出图4的人脸跟踪图像的中值残差的曲线图；

图6示出其中根据本发明正在跟踪人体的图像帧序列；

图7图解说明示出图6的身体跟踪图像的中值残差的曲线图；

图8图解说明应用根据本发明的测量和滤波处理的鲁棒跟踪器的框图；

图9图解说明论证应用单个模型与多个模型跟踪方法的结果的多个图像帧；

图10是图解说明本发明的融合方法与正交投影方法的比较结果的一系列图像帧；

图11图解说明示例应用根据本发明的融合方法所得到的两组图像序列的一系列图像帧；以及

图12是图解说明根据本发明的所跟踪的点和标准分割图像(ground truth)之间的平均距离的曲线图。

详细描述

本发明涉及一种用于跟踪对象运动的系统和方法。图1图解说明了根据本发明的用于利用鲁棒信息融合来基于多模型组成部分地跟踪对象的系统的示例性高级框图。例如，这种系统可被用于诸如跟踪人或脸部特征的移动的监视应用。本发明还能被用于跟踪装配线上的对象。还能创建用于为了医学应用而跟踪人体器官的其它应用。本领域的技术人员应理解，本发明也可被用于其它环境。

本发明使用一台或多台摄像机102、104来获得图像帧的视频序列。每台摄像机被放置在不同的位置，以获得来自不同透视的图像以最大化目标区域的覆盖。目标对象被识别且其属性被存储在与处理器106相关联的数据库110中。例如，如果目标(例如人)直接面向摄像机102，那么此人将以正面视图出现。但是，摄像机104所拍到的同一个人的图像可能以侧面视图出现。这个数据能被进一步分析，以确定是否需要采取进一步动作。所述数据库110可以包括与该目标相关联的组成部分的实例，以帮助跟踪该对象的运动。处理器106可采用诸如加速(boosting)的学习技术来构建能从反例中分辨出正例的分类器。

根据本发明的一个实施方案，通过随着时间变化维持几个模型来对外形可变性进行建模。通过随着时间变化监控像素的强度能完成外形建模。对象的外形(例如其强度)随着时间发生变化。这些强度的变化能被用于跟踪控制点，诸如跟踪与心肌壁相关联的控制点。这提供了一种表征所述对象外形的概率密度函数的非参数表达。

所使用的基于组成部分的方法是将所述目标对象化分成几个区域，这些区域独立地被处理。通过从每个模型中独立地获得运动估计和其通过光流的不确定性来执行跟踪。被称为可变带宽密度融合(VBDF)的鲁棒融合技术被用来计算每个组成部分的最终估计。当考虑其不确定性时，VBDF计算出最重要的模式的所述位移密度函数。

所述VBDF方法管理运动估计中的多个数据源和离群点。在这个框架中，通过大残差的估计不确定性来自然地处理障碍。所述对准误差被用于计算所述估计的协方差矩阵的标度(scale)，因此降低不可靠位移的影响。

图2图解说明了根据本发明的用于利用基于多模型组成部分的跟踪器来跟踪对象的方法。为了对跟踪期间的变化进行建模，随着时间变化维持对象外形的几个样本。每个图像中的每个像素的强度被维持，这等价于所述外形分布的非参数表达。

图2中的顶行图解说明了所述模型集合中的当前样本208、210、212，每个样本都有一组重叠组成部分。基于组成部分的方法比整体表达更稳定，对照明变化和姿势更不敏感。另一个优点是通过分析匹配似然在组成部分级别处能处理部分障碍。

每个组成部分独立地被处理；在当前图像中相对于所有模型模板估计出其位置和协方差矩阵。例如，在I_新中示出组成部分之一202，该组成部分如通过图像帧202的灰色矩形以及其相对于每个模型的位置和不确定性来图解说明。所述VBDF鲁棒融合过程被用于利用相关联的不确定性来确定最主要的运动(即：模式)，如在矩形204中所示出的那样。注意由于障碍或外形变化而引起的每个组成部分的所估计的位置中的变化。这些组成部分在当前帧206中的位置进一步受整体参数运动模型的约束。利用每个组成部分位置的置信分数来对相似变换模型和其参数进行估计。因此，这些可靠的组成部分更有助于所述整体运动估计。

如果所述参考外形的残差相对低，则将所述当前帧206添加到模型集合208、210、212。选择阈值，以致不添加具有明显障碍的图像。所述模型中的模板数量是固定的，因此最老的模板被去掉。但本领域的技术人员应理解，其他方案也能被用来确定在该模型集合中要保留哪些图像。

所述VBDF估计器基于具有自适应核带宽的非参数性密度估计。因为当探测其不确定性时初始数据分布的非参数性估计，所以在存在输入数据的离群点的情况下，所述VBDF估计器工作良好。该VBDF估计器按照所述密度函数的最重要模式的位置来限定。该模式计算是基于在多种标度优化框架中应用可变带宽平均移位技术。

假设x_i∈R^d(i＝1...n)是可得到的d-维估计值，每个估计值具有由所述协方差矩阵C_i给出的相关联的不确定性。所述密度函数的最重要的模式以多种标度的形式迭代地确定出。带宽矩阵H_i＝C_i+α²I与每个点x_i相关联，其中I是密度矩阵，而参数α确定分析的标度。位置x处的所述样本点密度估计器由下式来确定：

\hat{f} (x) = \frac{1}{n {(2 π)}^{d / 2}} Σ_{i = 1}^{n} \exp (- \frac{1}{2} D^{2} (x_{1} x_{i - 1} H_{i})) - - - (1)

其中D代表x和x_i之间的马哈兰诺比斯(Mahalanobis)距离

D^{2} (x_{1} x_{i - 1} H_{i}) = {(x - x_{i})}^{T} H_{i}^{- 1} (x - x_{i}) - - - (2)

位置x处的所述可变带宽平均移位向量由下式给出：

m (x) = H_{h} (x) Σ_{i = 1}^{n} ω_{i} (x) H_{i}^{- 1} x_{i} - x - - - (3)

其中H_η代表由数据相关权重ω_i(x)加权的带宽矩阵的调和平均值

H_{h} (x) = {({&Sum;}_{i = 1}^{n} ω_{i} (x) H_{i}^{- 1})}^{- 1} . - - - (4)

在所述当前位置x处计算出的数据相关权重具有以下表达式：

ω_{i} (x) = \frac{\frac{1}{| H_{i} |^{1 / 2}} \exp (- \frac{1}{2} D^{2} (x, x_{i} {, H}_{i}),)}{Σ_{i = 1}^{n} \frac{1}{{| H_{i} |}^{1 / 2}} \exp (- \frac{1}{2} D^{2} (x, x_{i} {, H}_{i}))} - - - (5)

并且注意该式满足

{&Sum;}_{i = 1}^{n} ω_{t} (x) = 1 .

能够证明，对应于点x+m(x)的密度总大于或等于对应于x的那个密度。因此，利用所述平均移位向量对当前位置进行迭代更新便产生爬山过程，该过程收敛于所述基本密度的平稳点。

通过以几种标度迭代地应用所述自适应平均移位过程，所述VBDF估计器找出最重要的模式。通过选择相对于所述点x_i的展开大的参数α来从大标度开始。在这种情况下，该密度表面是单模的，因此，所确定的模式将对应于在整体上最密集的区域。当将所述参数α的值减小以及从以先前标度所确定的模式开始所述平均移位迭代时，重复该过程。对于最后的步骤，与每个点相关联的所述带宽矩阵等于所述协方差矩阵，即：H_i＝C_i。

所述VBDF估计器是具有处理多个源模型的能力的信息融合的有力工具。由于局部临近的点可以呈现多种运动，所以这对运动估计是重要的。所述最重要的模式对应于最相关的运动。

根据本发明，所述多个组成部分模型同时被跟踪。现在将描述如何跟踪这种多个组成部分模型的实例。假设有n个模型M₀、M₁、...、M_n。对于每个图像，维持c组成部分的位置，这些位置由x_i，j表示，i＝1...c，j＝1...n。当新图像可得到时，估计出每个组成部分和每个模型的位置和不确定性。利用几种技术能完成该步骤，这些技术诸如：根据图像相关、空间梯度或时空能量正则化的技术。根据本发明，使用鲁棒光流技术，该鲁棒光流技术在D.Comaniciu的“Nonparametricinformation fusion for motion estimation(用于运动估计的非参数化信息融合)”(CVPR 2003，第一卷第59-66页)中被描述，该文献被引入作为参考。

结果是每个组成部分的运动估计x_i，j和其不确定性c_i，j。因此，x_i，j代表组成部分j相对于模型i的位置估计。所述协方差矩阵的标度也根据该匹配残差估计得出。当相应的组成部分受到阻碍时，会增加所述协方差矩阵的大小；因此在所述组成部分级别，障碍会得到处理。

所述VBDF鲁棒融合技术被用于确定出当前帧中的组成部分j的最相关的位置x_j。这种跨越多种标度的模式跟踪的结果是：

\hat{x_{j}} = C (\hat{x_{j}}) {&Sum;}_{i - 1}^{n} ω_{i} ({\hat{x}}_{j}) {\hat{C}}_{ij}^{- 1} {\hat{x}}_{ij}

C ({\hat{x}}_{j}) = {(Σ_{i = 1}^{n} ω_{i} ({\hat{x}}_{j}) {\hat{C}}_{ij}^{- 1})}^{- 1} . - - - (6)

其中，权重ω_i如在(5)中被定义。

在每个组成部分的位置计算之后，利用由所估计的协方差矩阵给出的权重来执行加权的矩形拟合。假设，所述图像补丁通过由四个参数所限定的相似变换T相关联。所述动态组成部分位置x的这种相似变换的特征在于以下等式：

T (x) = (\begin{matrix} a & - b \\ b & a \end{matrix}) x + (\begin{matrix} t_{x} \\ t_{y} \end{matrix}) - - - (7)

其中，t_x、t_y是平移参数，而a、b对2D旋转和缩放进行参数化。

所述最小化判据是参考位置x⁰ _j和所估计的位置x_j(当前帧中的第j个组成部分位置)之间的马哈兰诺比斯距离之和。

J = Σ_{j = 1}^{n} {({\hat{x}}_{j} - T (x_{j}^{0}))}^{T} C {({\hat{x}}_{j})}^{- 1} ({\hat{x}}_{j} - T (x_{j}^{0})) . - - - (8)

最小化通过标准加权最小二乘法来完成。因为使用了每个组成部分的所述协方差矩阵，所以降低了具有高不确定性的那些点的影响。

在所述矩形被拟合到所跟踪的组成部分之后，在该矩形内对所述动态组成部分候选者均匀地进行重采样。假设，每个组成部分相对于该矩形的相对位置没有多大变化。如果所述重采样位置和通过某一组成部分的所述光流所计算出的轨迹位置之间的距离大于可容忍的阈值，则该轨迹位置被认为是离群点且用所述重采样的点来代替。如果有足够的组成部分具有低残差，则将该当前图像添加到所述模型集合。所述模型和当前帧之间的中值残差与预定的阈值T_h进行比较。

现在将参考图3概括说明这种用于对象跟踪的方法。如上所述，针对新图像I_f获得组成部分i的模型集合M₀、M₁、...、M_n(步骤302)。组成部分i处在图像帧j中的位置x_i，j中。针对新图像I_f，在图像帧j中的位置x_i，j ^(f)处使用光流技术计算出组成部分i的位置。计算从x_j ^(f-1)开始，该x_j ^(f-1)是在先前帧中所估计出的组成部分i的位置(步骤304)。针对图像帧序列(j＝1...n)，组成部分i的位置x_j ^(f)用所述VBDF估计器估计得出(步骤306)。使用通过最小化等式(8)计算出的所述变换，对该组成部分位置进行约束(步骤308)。如果其中值残差小于所述预定阈值T_h，那么将这个新外形添加到所述模型集合(步骤310)。

本发明的这种多模板框架能直接被用于形状跟踪的环境中。如果所跟踪的点代表通过样条所建模的形状的控制点，那么使用多个位置估计的鲁棒融合将提高所述形状的位置估计的可靠性。当所述形状空间受到所学习的子空间约束条件的限制时，这还会产生更小的校正。如果所述轮廓是可得到的，那么被用于跟踪的这些模型能够根据形状之间的距离从所述模型集合中在线地选择。

应用本发明的方法的实例现在将参考图4进行描述。图4示出了多个图像帧上的脸部跟踪结果，其中存在着明显的杂波和障碍。在本实例中，使用了20个模型模板，且这些组成部分至少间隔5个像素，其数量c由所述边界矩形来确定。将被添加到所述模型集合的新图像的阈值T_h是所述强度范围的八分之一。从该数据中学习到该值，以致检测到障碍。

正如从图4中的图像帧所能看到的那样，通过几张脸的存在而有显著杂波。另外，还存在多个障碍(例如纸张)，这些障碍截取了被跟踪的区域。图5示出了表示被用于模型更新的随时间变化的中值残差的曲线图。该曲线图中的峰值对应于其中所述目标被完全阻挡的那些图像帧。当所述误差穿过由该水平线所表示的阈值T_h＝32时，对所述模型进行更新。

图6示出了根据本发明的被用来跟踪人体的多个图像帧。本发明能处理诸如人手臂移动的外形变化，且在被树阻挡后能恢复该跟踪目标(即：身体)。图7是示出了随时间变化的中值残差的曲线图。尖峰702对应于所述身体被树挡住的时候，而尖峰704表示所述身体转动且其图像大小相对于固定的组成部分尺寸变得更小的时候。

本发明的这种方法还能被用于医学应用，诸如用于在一系列图像帧中跟踪心肌壁的运动。图8图解说明了如何跟踪心肌壁。本发明的这种方法在以下两个方面是稳定的：在测量过程中，VBDF融合被用于组合多个外形模型的匹配结果；且在滤波过程中，当利用噪声的异方差特性时，在所述形状空间中执行融合，以根据测量结果、现有技术和模型来组合信息。

为了在跟踪期间对所述变化进行建模，随时间变化维持对象外形的几个样本，这等效于所述外形分布的非参数性表达。图8图解说明了所述外形模型，即：所述模型集合中的当前样本，每个样本都相关联地有一组重叠的组成部分。诸如心肌壁的形状的一些形状用控制或标志点(即：组成部分)来表式。这些点在向用户显示前用样条进行拟合。基于组成部分的方法比整体表达更稳定，对结构变化更不敏感，因此能处理非刚性形状变形。

每个组成部分独立地被处理，在相对于所有的模型模板的当前图像中估计出其位置和协方差矩阵。例如，所述组成部分之一由矩形810来示出，并且其相对于每个模型的位置以及不确定性在运动估计阶段中被示为回路812和814。所述VBDF鲁棒融合过程被用于确定具有相关联的不确定性的最重要的运动(模式)。

通过强加使用预训练的形状模型的子空间形状约束条件来对所述组成部分在当前帧中的位置作进一步调整。通过最优地解析所述系统动态性的不确定性、异方差测量噪声和子空间形状模型来实现鲁棒形状跟踪。通过在每个组成部分位置中使用所估计的置信度，可靠的组成部分对所述整体形状运动估计贡献更多。如果所述参考外形的残差相对低，那么就将所述当前帧添加到所述模型集合。

图9示出了使用多个外形模型的优点。具有相关联的轮廓的初始帧在图9a中示出。使用单个模型产生不正确的跟踪结果(图9b)，以及所述多个模型方法正确地解决了所述外形变化(图9c)。

所述滤波过程基于通过将图像中所有控制点坐标连在一起所形成的矢量。典型的跟踪框架将来自动态过程所限定的预测和来自噪声测量的信息进行融合。对于形状跟踪，附加的整体约束条件对在可行范围内稳定所述整体形状是必要的。

对于心内膜跟踪，需要当前心脏的统计学形状模型而不是一般的心脏。通过假设所述PCA模型和初始的轮廓联合地表示当前情况的变化，应用强适配的主控制分析(SA-PCA)模型。利用SA-PCA，所述框架并入了四种信息源：所述系统动态、测量、子空间模型和初始轮廓。

在图10中示出了本发明的这种融合方法和正交投影法之间的比较的实例。所述融合法并不完全校正所述误差，但因为该校正步骤是累积的，所以在长序列中对最近图像帧的总体影响可能非常明显。

以下将描述被用于利用非常杂乱的超声心动描记数据来跟踪心脏轮廓的本发明的实例。在本实例中所使用的数据代表正常的心肌病以及变化类型的心肌病，其中，序列在长度上从18帧变化到90帧。用于训练和测试的两或四腔室顶视图(具有17个控制点的开放轮廓)和胸骨旁短轴视图(具有18个控制点的闭合轮廓)均被使用。执行了PCA，并且34和36的最初维度分别被降至7和8。对于这些外形模型，维持了20个模板，以捕获所述外形变化性。对于系统评价，除了用于测试的训练数据之外的一组32个超声心动图序列(其中有18个胸骨旁短轴视图和14个两或四腔室顶视图)，所有这些都具有专门的带注释的标准分割图像轮廓。

图11示出了两个被跟踪序列的瞬态图。能够看出，心内膜不总是在最强壮的边缘。有时，该心内膜只表现为模糊的一条线；有时完全看不见或被强噪声所掩盖；有时又会在其中不存在边缘的乳头肌的根部穿过。为了比较不同方法的性能，使用了平方距离的平均和(MSSD)和平均绝对距离(MAD)。本发明的方法与不带形状约束的跟踪算法(被称为流)和具有正交PCA形状空间约束条件的跟踪算法(被称为流形状空间)进行比较。图12示出了使用这两种距离测量的比较结果。本发明明显优于其它两种方法，本发明具有更小的平均距离且对于这个距离具有更小的标准偏差。

已说明了用于使用鲁棒信息融合来跟踪对象的方法的实施方案，应注意，本领域的技术人员能根据上述教导做出修改和改变。因此，应理解能在本发明的特定实施方案中做出改变，这些改变均在如所附的权利要求所限定的本发明的范围和精神内。因此，已详细描述了本发明并且特别是按专利法要求描述了本发明，所要求保护且需要受到专利证书保护的内容在所附的权利要求中阐述。

Claims

1.一种用于跟踪对象的方法，该方法包括以下步骤：

接收包括多个图像帧的视频序列；

维持基于样本的对象外形分布的表达；

将对象划分成一个或多个组成部分；

针对每个组成部分，估计其相对于基于样本的表达的位置和不确定性；

将基于可变带宽密度的融合(VBDF)用于每个组成部分，以确定最主要的运动；以及

利用所述运动估计来确定该对象的轨迹。

2.如权利要求1所述的方法，其中，在包含所述对象的每个子序列图像帧上执行所述对象的跟踪。

3.如权利要求1所述的方法，其中，所述组成部分的相对位置能够用整体参数运动来约束。

4.如权利要求1所述的方法，其中，相对于模型模板来测量与所述组成部分位置相关联的残差。

5.如权利要求4所述的方法，其中，如果所述残差低于预定阈值，则将该当前帧添加到所述模型模板。

6.如权利要求5所述的方法，其中，高残差表示，所述对象至少部分地被阻挡。

7.如权利要求5所述的方法，其中，高残差表示，所述对象受到照明条件变化的影响。

8.如权利要求1所述的方法，其中，被跟踪的对象是脸部。

9.如权利要求1所述的方法，其中，被跟踪的对象是人体。

10.如权利要求1所述的方法，其中，所述基于样本的对象外形分布的表达包括从所述图像帧离线获得的模型模板。

11.如权利要求1所述的方法，其中，所述基于样本的对象外形分布的表达包括从所述图像帧在线获得的模型模板。

12.如权利要求1所述的方法，其中，所述组成部分的相对位置能够用形状模型来约束。

13.一种用于在包括多个图像帧的医学视频序列中跟踪候选对象的方法，所述对象用多个被标记的控制点来表示，该方法包括以下步骤：

估计出每个控制点的位置和不确定性；

维持多个外形模型；

将每个控制点与一个或多个模型进行比较；

利用VBDF估计器来确定每个控制点的最可能的当前位置；

将所有所述控制点的坐标连接在一起；以及

将所述控制点的集合与最类似于该控制点的集合的模型进行融合。

14.如权利要求13所述的方法，其中，所述控制点与心肌壁的轮廓相关联。

15.如权利要求14所述的方法，其中，所述方法跟踪所述心肌壁的变形运动。

16.一种用于跟踪对象的系统，其包括：

至少一台摄像机，用于捕获图像帧的视频序列；

与所述至少一台摄像机相关联的处理器，该处理器执行以下步骤：

i)维持基于样本的对象外形分布的表达；

ii)将对象划分成一个或多个组成部分；

iii)针对每个组成部分，估计其相对于基于样本的表达的位置和不确定性；

iv)将基于可变带宽密度的融合(VBDF)用于每个组成部分，以确定最主要的运动；以及

v)利用所述运动估计来确定该对象的轨迹。

17.如权利要求16所述的系统，其中，在包含所述对象的每个子序列图像帧上执行所述对象的跟踪。

18.如权利要求16所述的系统，其中，所述组成部分的相对位置能够用整体参数运动来约束。

19.如权利要求16所述的系统，其中，相对于模型模板来测量与所述组成部分位置相关联的残差。

20.如权利要求19所述的系统，其中，如果所述残差低于预定阈值，则将所述当前帧添加到所述模型模板。

21.如权利要求20所述的系统，其中，高残差表示，所述对象至少部分地被阻挡。

22.如权利要求20所述的系统，其中，高残差表示，所述对象受到照明条件变化的影响。

23.如权利要求16所述的系统，其中，被跟踪的对象是脸部。

24.如权利要求16所述的系统，其中，被跟踪的对象是人体。

25.如权利要求16所述的系统，其中，所述基于样本的对象外形分布的表达包括从所述图像帧离线获得的模型模板。

26.如权利要求16所述的系统，其中，所述基于样本的对象外形分布的表达包括从所述图像帧在线获得的模型模板。

27.如权利要求16所述的系统，其中，所述组成部分的相对位置能够用形状模型来约束。