CN104574379B

CN104574379B - 一种基于目标多部件学习的视频分割方法

Info

Publication number: CN104574379B
Application number: CN201410818534.5A
Authority: CN
Inventors: 雷震; 文珑银; 李子青
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2017-08-25
Anticipated expiration: 2034-12-24
Also published as: CN104574379A

Abstract

本发明提出了一种基于目标多部件学习的视频分割方法，即是将多部件的跟踪和分割信息统一到了一个能量函数中。其中在线目标多部件跟踪为分割提供了有效的时序运动和结构约束信息，同时目标多部件分割产生精确的局部表象外观和位置信息来提升目标多部件跟踪精度。进而我们使用RANSAC‑style算法对目标多部件跟踪和目标多部件分割步骤进行迭代优化，获得准确的视频分割结果。

Description

一种基于目标多部件学习的视频分割方法

技术领域

本发明涉及图像处理，模式识别领域以及计算机视觉领域，特别涉及一种基于多部件联合分割跟踪的视频分割方法。

背景技术

最近视觉跟踪领域关注精确的将目标的边缘从背景中分割出来，这样能够有很多后续的高层应用，例如，行为识别，场景理解以及深度和遮挡推理等等。但是要设计出一个相对鲁棒的视频分割器仍然是比较困难的，因为多种内在的与外在的影响因素，例如目标自身形变，周围复杂环境的影响，遮挡等等，都会导致分割器不能准确的将目标分割出来。

一般来说，目前大部分的视频分割方式是采用离线批处理的方式从背景中精确地提取出目标边缘。但是这种离线处理方式对于需要在线处理的应用时就不能使用了，例如视频监控，动作识别和人机交互等。因此一些在线视频分割技术被顺势提出。在已有的方法里，算法一般建立全局的表象模型而并没有加以局部约束，因此可能导致不准确的分割结果，尤其是在复杂背景或剧烈运动的场景中。因此，为了更加有效地提高视频分割算法的分割准确性，研究如何利用目标局部变化信息对分割结果的改善是很有意义的。

发明内容

为了解决上述问题，本发明提出了一种基于目标多部件学习的视频分割方法，主要通过将图像分割与目标跟踪两个任务的信息在同一个目标函数中考虑来提供视频分割效果，图像分割主要是基于空间域上的某些特征(例如颜色，强度或纹理)对像素进行分割，而目标跟踪则是基于时间域上的一致性对像素进行划分。因此在同一个框架中优化，二者具有相互促进作用，获得准确的视频分割结果。

本发明提出的一种基于目标多部件学习的视频分割方法，用联合目标多部件分割与目标多部件跟踪来完成视频分割任务，其通过将目标多部件分割和目标多部件跟踪的信息集成到一个统一的目标函数中，并通过RANSAC-style算法来优化得到精确的视频分割结果，具体包括如下步骤：

步骤1：在第一帧输入需要分割的目标框，采用交互式分割算法从背景中提取出需要分割的目标；

步骤2：使用SLIC算法生成初始目标多部件模型M⁰＝{M₁,...,M_k}，k为目标部件数，第i个目标部件模型为M_i＝(A_i,P_i,Θ_i)，A_i为模型的HSV直方图，P_i为模型的中心位置，Θ_i为隶属于该模型的像素点位置集合；

步骤3：依据上一帧的目标多部件模型通过使用结构图匹配算法计算得出当前图像中目标预测位置U；

步骤4：对当前图像中目标预测位置U附近的像素予以标签赋值，进行视频分割问题建模

其中，为上一帧的目标多部件模型，M^*和f^*分别为计算得到的当前帧最优目标多部件模型和像素标签，M和f分别为当前帧的目标多部件模型和像素标签，由分割步骤的统一能量函数得到；

使用RANSAC-style算法分别迭代优化目标多部件分割和目标多部件跟踪，使得两者相互促进，进而获得精确的视频分割结果；

步骤5：更新当前帧的目标多部件模型，输出目标多部件分割结果。

优选的，步骤4中的视频分割问题建模公式可省略和U，并对目标函数取负对数，从而进行公式简化，得到目标函数，

其中D(f,M)为基于当前标签f和目标多部件模型M的数据项，V_p,q(f_p,f_q)为描述相邻像素间相互作用的平滑项，h_f(M)为防止D(f,M)中像素标签赋值过拟合的正规项；

数据项D(f,M)计算公式为

其中D_p(l_i,M_i)为像素p的能量，S为分割区域中的像素集，α₁和α₂是权值，φ_a(ρ_p；A_i)和φ_l(l_p；P_i)分别是表象和位置能量项；φ_a(ρ_p；A_i)的值取决于像素p隶属于部件模型M_i的概率大小，通过HSV直方图A_i中的索引值计算得到；φ_l(l_p；P_i)的值取决于像素p与中心位置P_i的距离大小，由x和y方向上的单高斯位置模型计算得到。

平滑项V_p,q(f_p,f_q)计算公式为

V_p，q(f_p，f_q)＝Ι(f_p≠f_q)·(α₃·Δ_c(p，q)+α₄·Δ_f(p，q))

其中Ι(·)为真时返回1，否则返回0；Δ_c(p,q)和Δ_f(p,q)分别表示相邻像素p和q在RGB颜色空间和光流场的欧式距离；α₃和α₄表示权值参数。

正则项h_f(M)的计算公式为

其中为真时返回1，否则返回0，和分别表示所属区域模型中区域、轮廓、复杂度的正则项，α₅，α₆和α₇为对应权值；

其中

Θ_j表示模型M_j区域中像素数目；P_i和C_i分别表示模型M_i的区域位置中心和被标记为l_i的像素区域的位置中心；Δ_p(·,·)用于计算二维图像平面中两点之间的欧氏距离；l_p为像素p的位置，B_i表示标记为l_i的像素区域的边界像素集合；var(·)为方差函数。

优化过程中目标函数采用RANSAC-style算法对M和f求最优，实现目标多部件跟踪和分割，具体方法为：初始目标多部件模型M⁰从上一帧最优模型中继承；在目标多部件分割过程中，像素标签f⁰由带正则项的α-expansion算法求得；在目标多部件跟踪过程中，通过重估计HSV 直方图和位置模型得到更加精确的模型，然后基于当前像素标签生成候选生成模型，扩展目标多部件模型M¹；重复上两步，得到标签f⁰,f¹,f²…和块集合M⁰,M¹,M²...直至目标函数中的能量不再减小，如此便可得到最优标签f^*和多部件模型M^*。

使用动态结构图匹配算法计算目标预测位置U的方法为：使用SLIC算法产生当前帧的多个候选部件，然后通过谱匹配算法在上一帧目标模型中寻找匹配项，而目标的粗略估计位置根据匹配的部件的位置投票得出；最后以该估计位置为目标中心点，尺寸为前一帧目标大小η倍的边界框为分割区域。

η的一般取值范围为[0.1,2.0]。

本发明提出了一种基于目标多部件跟踪和分割同时优化的视频分割方法，即是将多部件的跟踪和分割信息统一到了一个能量函数中。其中在线目标多部件跟踪为分割提供了有效的时序运动和结构约束信息，同时目标多部件分割产生精确的局部表象外观和位置信息来提升目标多部件跟踪精度。进而我们使用RANSAC-style算法对目标多部件跟踪(部件状态估计)和分割(部件精确分割)阶段进行迭代优化，获得准确的视频分割结果。

附图说明

图1是本发明方法流程图。

具体实施方式

以下通过具体实施例详细描述本发明，并不作为对本发明的限制。本发明的整个流程为，首先在第一帧输入需要分割的目标框，进而采用交互式分割方法从背景中提取出需要分割的目标。然后使用SLIC算法生成初始目标多部件模型。令M⁰＝{M₁,...,M_k}为目标的k个部件，对应标签为{l₁,...,l_k}，M_i＝(A_i,P_i,Θ_i)为第i个模型，其中A_i为模型的HSV直方图，P_i为模型的中心位置，Θ_i为隶属于模型的像素点位置集合。同时建立背景模型M₀＝{M_0,1,...,M_0,n}来描述复杂背景，即相对于前景目标的异常点，其中标签为l₀，n为背景模型中部件数目，M_0,i＝(A_0,i,P_0,i,Θ_0,i)为第i个部件，A_0,i为相应的HSV直方图，P_0,i为模型中心位置，Θ_0,i是属于该模型的像素点位置集合。本发明提出将视频分割问题建模为将目标多部件跟踪和目标多部件分割放到一个统一框架中，同时优化像素标签f和目标的多部件模型M。对于图像中的每个像素p，我们用标签f_p∈{l₀}∪{l₁,...,l_k}来表示其所属部件，而不是像以前方法仅仅标记其是否属于前景或背景；并优化当前图像中的目标多部件模型M。获得每个像素的标签即完成了对每帧图像的视频分割。

为降低运算复杂度，只对当前图像中目标预测位置U附近的像素予以标签赋值，其中U由上一帧的多部件模型通过使用结构图匹配的方式来确定。视频分割问题可建模为

其中由分割步骤的统一能量函数得到，M^*和f^*分别为计算得到的当前帧最优目标多部件模型和像素标签。为求解式(1)，首先使用动态结构图匹配算法计算目标预测位置U。具体地，使用SLIC 算法产生当前帧的多个候选部件，然后通过谱匹配算法(spectral matching)在上一帧目标模型中寻找匹配项，而目标的粗略估计位置根据匹配的部件的位置投票得出。最后我们以该估计位置为目标中心点，尺寸为前一帧目标大小η倍的边界框(bounding box)为分割区域。η的一般取值范围为[0.1,2.0]。

在分割区域中，通过最大化计算得到当前帧的最优标签f^*和多部件模型M^*。使用类RANSAC算法求解步骤如下：1.通过α-expansion算法根据当前估计模型为像素赋予标签；2.根据像素表象似然值和运动一致性进行目标的目标多部件跟踪。这两步将不断迭代直到达到目标函数的最小能量，以满足目标多部件跟踪和分割之间的相互促进作用。在完成迭代优化过程后，我们更新当前帧的多部件模型。

联合在线分割跟踪

为简化式(1)的表达，我们在下面的公式中省略和U，并对目标函数取负对数，得到能量方程如下，

其中D(f,M)为基于当前标签f和多部件模型M的数据项，V_p,q(f_p,f_q)为描述相邻像素间相互作用的平滑项，h_f(M)为防止D(f,M)中像素标签赋值过拟合的正规项。

数据项

目标表象和位置的时空连续性为在线视频分割提供了有效信息。如果像素p被标记为l_i，表示该像素在部件模型M_i的表象和位置上具有较小的能量。因此数据项可表示为

其中D_p(l_i,M_i)为像素p的能量，S为分割区域中的像素集，α₁和α₂是权值，φ_a(ρ_p；A_i)和φ_l(l_p；P_i)分别是表象和位置能量项。在式(3)中，φ_a(ρ_p；A_i)的值取决于像素p隶属于部件模型M_i的概率大小，可以通过HSV直方图A_i中的索引值计算得到。而φ_l(l_p；P_i)的值取决于像素p与中心位置P_i的距离大小，可由x和y方向上的单高斯位置模型计算得到。

同样的，数据项也可以通过表象和位置信息来表示像素隶属于背景的可能性。在本文中定义为所有背景子模型的最小能量值，即D_p(f_p,M₀)＝min_jD_p(f_p,M_0,j)。

平滑项

一般的，如果两相邻像素具有相似表象，则会被以较小能量分配相同标签。另一方面，目标运动相对于背景是可区分的，特别是在物体边界处，即运动的不连续性。以上两方面就为分割目标和背景像素提供有力支持，则式(2)中的平滑项V_p,q(f_p,f_q)可定义为：

V_p，q(f_p，f_q)＝Ι(f_p≠f_q)·(α₃·Δ_c(p，q)+α₄·Δ_f(p，q)) (4)

其中Ι(·)为真时返回1，否则返回0。Δ_c(p,q)和Δ_f(p,q)分别表示相邻像素p和q在RGB颜色空间和光流场(optical flow field)的欧式距离。α₃和α₄表示权值参数。

正则项

规范化数据项可以有效防止过拟合。其中正则项由三部分构成：1.区域(Area)要求使用的模型具有相似尺寸大小；2.轮廓(Profile)惩罚不规则区域的模型使用；3.复杂度(Complexity)限制使用的模型数量。

其中为真时返回1，否则返回0，和分别表示所属区域模型中区域、轮廓、复杂度的正则项，α₅，α₆和α₇为对应权值。对于所有的背景子模型，我们设定h_f(M_0,i)＝0,i＝1,...,n。正则项可以描述如下：

区域正则项：区域大的模型不能很好处理目标的运动变形，而区域小的模型易受背景噪声的影响。区域正则项定义如下

其中Θ_j表示模型M_j区域中像素数目。

轮廓正则项：当大的运动形变发生时，一些目标区域可能会蔽塞，致使对象的范围和中心位置可能无法准确估计。为产生新模型并控制模型的不准确性，定义轮廓正则项为

其中P_i和C_i分别表示模型M_i的区域位置中心和被标记为l_i的像素区域的位置中心。Δ_p(·,·)用于计算二维图像平面中两点之间的欧氏距离。另外，为像素p的位置，B_i表示标记为l_i的像素区域的边界像素集合，var(·)为方差函数。

复杂度正则项：我们使用常数正则项来限制标签赋值数量，即

能量最小化

式(2)中目标函数包含两个变量M和f，求其最小值很困难。我们采用类似算法对M和f求最优，实现目标多部件跟踪和分割。

目标能量最小化

初始多部件模型M⁰从上一帧最优模型中继承，显然M⁰中可能包含不正确的部件模型。在目标多部件分割过程中，像素标签f⁰由带正则项的α-expansion算法求得，即从多部件模型M⁰中的选择一些可靠模型来标记。在目标多部件跟踪过程中，通过重估计HSV直方图和位置模型得到更加精确的模型，然后基于当前像素标签生成候选生成模型集合(hypothesized part models)，从而扩展多部件模型集合M¹。重复上两步，可以得到标签f⁰,f¹,f²…和模型集合M⁰,M¹,M²…直至目标函数中的能量不再减小，如此便可得到最优标签f^*和多部件模型M^*。

本发明设计能量函数E(M,f)非负，并在迭代优化过程中不断减少来保证收敛。

为从背景中分割出多个目标部件，指定{l₀,l₁,...,l_k}为分割区域中像素p的标签，而不是简单将其分为前景和背景。则像素标记问题转换为能量最小化的马尔可夫场，

其中S为分割区域的像素集，数据项D_p(l_i,M_i)为根据部件模型M_i将像素p标记为l_i的能量。平滑项V_p,q(f_p,f_q)表征相邻像素的相互影响，N表示S的四邻域像素关系。由于能量函数满足子模条件(sub-modular)，优化问题可采用带图割(graph cut)的α-expansion算法解决。

求出分割区域中的像素标签f后，通过最小化能量E(M,f)来重估计多部件模型M＝{M₁,...,M_k}。对于给定的当前像素标签f，(2)式中的平滑项是确定的，多块跟踪问题可化为

其中S为分割区域的标签集，当f_p＝l_i时返回1，否则返回0。由于在多部件模型M中正则项难以最小化，求解式(9)很困难。因此我们先忽略正则项，然后使用最大似然估计算法(MLE)最小化式(9)的第一项求得最优模型M^*，即对于f的第i个模型M_i，根据当前标签为l_i的像素估计其HSV直方图中心位置和像素位置集合如果式(8)中总能量减小，则用替换M_i，否则保持M_i不变。

本文是基于以下两方面提出的优化方案：1.保持总能量不增加情况下，近似的方式来求能量最小化(去掉正则项)能通过最大似然估计方法有效解决。2.近似的方式来求能量最小化对整体能量最小化影响不大。如果当前解接近最小值，即满足了正则项中的相关约束，因此正则项梯度值很小；若该梯度值较大，则说明在该约束下存在更好的部件模型没有被筛选进来，则需要通过接下来的候选部件模型集合扩展步骤来添加新模型。

更新当前帧的多部件模型集合

产生初始估计模型：第一帧中使用SLIC算法在初始目标区域中产生多部件候选集合，若生成部件和用户指定目标区域的重合率大于θ₁(设为0.5)，则将其添加到初始多部件模型中，否则判定其为背景。

扩展候选模型：为从已知模型中获得更好的部件模型用于分割，我们采用两种方式来聚合和分裂区域：1.随机选择具有相似表象且位置相邻的小区域来聚合产生新模型，其中小区域是指其像素数目小于当前多部件模型集合中所有模型的平均像素数目的区域。2.找到大于当前所用模型区域平均像素数目两倍的区域，使用SLIC分割算法进行分裂。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于目标多部件学习的视频分割方法，其特征在于，用联合目标多部件分割与目标多部件跟踪来完成视频分割任务，其通过将目标多部件分割和目标多部件跟踪的信息集成到一个统一的目标函数中，并通过RANSAC-style算法来优化得到精确的视频分割结果，包括如下步骤：

<mrow> <mo>{</mo> <msup> <mi>M</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>f</mi> <mo>*</mo> </msup> <mo>}</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>M</mi> <mo>,</mo> <mi>f</mi> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>,</mo> <mi>f</mi> <mo>|</mo> <mi>U</mi> <mo>,</mo> <mover> <mi>M</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow>

2.根据权利要求1所述的方法，其特征在于，步骤4中的视频分割问题建模公式可省略和U，并对目标函数取负对数，从而进行公式简化，得到目标函数，

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>{</mo> <msup> <mi>M</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>f</mi> <mo>*</mo> </msup> <mo>}</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>M</mi> <mo>,</mo> <mi>f</mi> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>,</mo> <mi>f</mi> <mo>)</mo> </mrow> <mover> <mo>=</mo> <mi>&Delta;</mi> </mover> <mi>arg</mi> <munder> <mi>min</mi> <mrow> <mi>M</mi> <mo>,</mo> <mi>f</mi> </mrow> </munder> <mi>E</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>,</mo> <mi>f</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mi>arg</mi> <munder> <mi>min</mi> <mrow> <mi>M</mi> <mo>,</mo> <mi>f</mi> </mrow> </munder> <mo>{</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> <mo>&Element;</mo> <mi>N</mi> </mrow> </munder> <msub> <mi>V</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>h</mi> <mi>f</mi> </msub> <mrow> <mo>(</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中D(f,M)为基于当前标签f和目标多部件模型M的数据项，V_p,q(f_p,f_q)为描述相邻像素间相互作用的平滑项，h_f(M)为防止D(f,M)中像素标签赋值过拟合的正规项。

3.根据权利要求2所述的方法，其特征在于，数据项D(f,M)计算公式为

<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <msub> <mi>D</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <msub> <mi>&phi;</mi> <mi>a</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>&rho;</mi> <mi>p</mi> </msub> <mo>;</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>&alpha;</mi> <mn>2</mn> </msub> <mo>&CenterDot;</mo> <msub> <mi>&phi;</mi> <mi>l</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>l</mi> <mi>p</mi> </msub> <mo>;</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

4.根据权利要求2所述的方法，其特征在于，平滑项V_p,q(f_p,f_q)计算公式为

V_p,q(f_p,f_q)＝Ι(f_p≠f_q)·(α₃·Δ_c(p,q)+α₄·Δ_f(p,q))

5.根据权利要求2所述的方法，其特征在于，正则项h_f(M)的计算公式为

其中

<mrow> <msubsup> <mi>h</mi> <mi>f</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>&Theta;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mo>|</mo> <msub> <mi>&Theta;</mi> <mi>j</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow>

<mrow> <msubsup> <mi>h</mi> <mi>f</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Delta;</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <munder> <mi>var</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> </munder> <msub> <mi>&Delta;</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

6.根据权利要求2-5中任一项所述的方法，其特征在于，目标函数采用类似算法对M和f求最优，实现目标多部件跟踪和分割，具体方法为：初始目标多部件模型M⁰从上一帧最优模型中继承；在目标多部件分割过程中，像素标签f⁰由带正则项的α-expansion算法求得；在目标多部件跟踪过程中，通过重估计HSV直方图和位置模型得到更加精确的模型，然后基于当前像素标签生成候选生成模型，扩展目标多部件模型M¹；重复上两步，得到标签f⁰,f¹,f²…和块集合M⁰,M¹,M²…直至目标函数中的能量不再减小，如此便可得到最优标签f^*和多部件模型M^*。

7.根据权利要求6所述的方法，其特征在于，使用动态结构图匹配算法计算目标预测位置U的方法为：使用SLIC算法产生当前帧的多个候选部件，然后通过谱匹配算法在上一帧目标模型中寻找匹配项，而目标的粗略估计位置根据匹配的部件的位置投票得出；最后以该估计位置为目标中心点，尺寸为前一帧目标大小的一定倍数的矩形框作为分割区域。