CN104574379B - 一种基于目标多部件学习的视频分割方法 - Google Patents

一种基于目标多部件学习的视频分割方法 Download PDF

Info

Publication number
CN104574379B
CN104574379B CN201410818534.5A CN201410818534A CN104574379B CN 104574379 B CN104574379 B CN 104574379B CN 201410818534 A CN201410818534 A CN 201410818534A CN 104574379 B CN104574379 B CN 104574379B
Authority
CN
China
Prior art keywords
mrow
msub
model
target
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410818534.5A
Other languages
English (en)
Other versions
CN104574379A (zh
Inventor
雷震
文珑银
李子青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410818534.5A priority Critical patent/CN104574379B/zh
Publication of CN104574379A publication Critical patent/CN104574379A/zh
Application granted granted Critical
Publication of CN104574379B publication Critical patent/CN104574379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于目标多部件学习的视频分割方法,即是将多部件的跟踪和分割信息统一到了一个能量函数中。其中在线目标多部件跟踪为分割提供了有效的时序运动和结构约束信息,同时目标多部件分割产生精确的局部表象外观和位置信息来提升目标多部件跟踪精度。进而我们使用RANSAC‑style算法对目标多部件跟踪和目标多部件分割步骤进行迭代优化,获得准确的视频分割结果。

Description

一种基于目标多部件学习的视频分割方法
技术领域
本发明涉及图像处理,模式识别领域以及计算机视觉领域,特别涉及一种基于多部件联合分割跟踪的视频分割方法。
背景技术
最近视觉跟踪领域关注精确的将目标的边缘从背景中分割出来,这样能够有很多后续的高层应用,例如,行为识别,场景理解以及深度和遮挡推理等等。但是要设计出一个相对鲁棒的视频分割器仍然是比较困难的,因为多种内在的与外在的影响因素,例如目标自身形变,周围复杂环境的影响,遮挡等等,都会导致分割器不能准确的将目标分割出来。
一般来说,目前大部分的视频分割方式是采用离线批处理的方式从背景中精确地提取出目标边缘。但是这种离线处理方式对于需要在线处理的应用时就不能使用了,例如视频监控,动作识别和人机交互等。因此一些在线视频分割技术被顺势提出。在已有的方法里,算法一般建立全局的表象模型而并没有加以局部约束,因此可能导致不准确的分割结果,尤其是在复杂背景或剧烈运动的场景中。因此,为了更加有效地提高视频分割算法的分割准确性,研究如何利用目标局部变化信息对分割结果的改善是很有意义的。
发明内容
为了解决上述问题,本发明提出了一种基于目标多部件学习的视频分割方法,主要通过将图像分割与目标跟踪两个任务的信息在同一个目标函数中考虑来提供视频分割效果,图像分割主要是基于空间域上的某些特征(例如颜色,强度或纹理)对像素进行分割,而目标跟踪则是基于时间域上的一致性对像素进行划分。因此在同一个框架中优化,二者具有相互促进作用,获得准确的视频分割结果。
本发明提出的一种基于目标多部件学习的视频分割方法,用联合目标多部件分割与目标多部件跟踪来完成视频分割任务,其通过将目标多部件分割和目标多部件跟踪的信息集成到一个统一的目标函数中,并通过RANSAC-style算法来优化得到精确的视频分割结果,具体包括如下步骤:
步骤1:在第一帧输入需要分割的目标框,采用交互式分割算法从背景中提取出需要分割的目标;
步骤2:使用SLIC算法生成初始目标多部件模型M0={M1,...,Mk},k为目标部件数,第i个目标部件模型为Mi=(Ai,Pii),Ai为模型的HSV直方图,Pi为模型的中心位置,Θi为隶属于该模型的像素点位置集合;
步骤3:依据上一帧的目标多部件模型通过使用结构图匹配算法计算得出当前图像中目标预测位置U;
步骤4:对当前图像中目标预测位置U附近的像素予以标签赋值,进行视频分割问题建模
其中,为上一帧的目标多部件模型,M*和f*分别为计算得到的当前帧最优目标多部件模型和像素标签,M和f分别为当前帧的目标多部件模型和像素标签,由分割步骤的统一能量函数得到;
使用RANSAC-style算法分别迭代优化目标多部件分割和目标多部件跟踪,使得两者相互促进,进而获得精确的视频分割结果;
步骤5:更新当前帧的目标多部件模型,输出目标多部件分割结果。
优选的,步骤4中的视频分割问题建模公式可省略和U,并对目标函数取负对数,从而进行公式简化,得到目标函数,
其中D(f,M)为基于当前标签f和目标多部件模型M的数据项,Vp,q(fp,fq)为描述相邻像素间相互作用的平滑项,hf(M)为防止D(f,M)中像素标签赋值过拟合的正规项;
数据项D(f,M)计算公式为
其中Dp(li,Mi)为像素p的能量,S为分割区域中的像素集,α1和α2是权值,φap;Ai)和φl(lp;Pi)分别是表象和位置能量项;φap;Ai)的值取决于像素p隶属于部件模型Mi的概率大小,通过HSV直方图Ai中的索引值计算得到;φl(lp;Pi)的值取决于像素p与中心位置Pi的距离大小,由x和y方向上的单高斯位置模型计算得到。
平滑项Vp,q(fp,fq)计算公式为
Vp,q(fp,fq)=Ι(fp≠fq)·(α3·Δc(p,q)+α4·Δf(p,q))
其中Ι(·)为真时返回1,否则返回0;Δc(p,q)和Δf(p,q)分别表示相邻像素p和q在RGB颜色空间和光流场的欧式距离;α3和α4表示权值参数。
正则项hf(M)的计算公式为
其中为真时返回1,否则返回0,分别表示所属区域模型中区域、轮廓、复杂度的正则项,α5,α6和α7为对应权值;
其中
Θj表示模型Mj区域中像素数目;Pi和Ci分别表示模型Mi的区域位置中心和被标记为li的像素区域的位置中心;Δp(·,·)用于计算二维图像平面中两点之间的欧氏距离;lp为像素p的位置,Bi表示标记为li的像素区域的边界像素集合;var(·)为方差函数。
优化过程中目标函数采用RANSAC-style算法对M和f求最优,实现目标多部件跟踪和分割,具体方法为:初始目标多部件模型M0从上一帧最优模型中继承;在目标多部件分割过程中,像素标签f0由带正则项的α-expansion算法求得;在目标多部件跟踪过程中,通过重估计HSV 直方图和位置模型得到更加精确的模型,然后基于当前像素标签生成候选生成模型,扩展目标多部件模型M1;重复上两步,得到标签f0,f1,f2…和块集合M0,M1,M2...直至目标函数中的能量不再减小,如此便可得到最优标签f*和多部件模型M*
使用动态结构图匹配算法计算目标预测位置U的方法为:使用SLIC算法产生当前帧的多个候选部件,然后通过谱匹配算法在上一帧目标模型中寻找匹配项,而目标的粗略估计位置根据匹配的部件的位置投票得出;最后以该估计位置为目标中心点,尺寸为前一帧目标大小η倍的边界框为分割区域。
η的一般取值范围为[0.1,2.0]。
本发明提出了一种基于目标多部件跟踪和分割同时优化的视频分割方法,即是将多部件的跟踪和分割信息统一到了一个能量函数中。其中在线目标多部件跟踪为分割提供了有效的时序运动和结构约束信息,同时目标多部件分割产生精确的局部表象外观和位置信息来提升目标多部件跟踪精度。进而我们使用RANSAC-style算法对目标多部件跟踪(部件状态估计)和分割(部件精确分割)阶段进行迭代优化,获得准确的视频分割结果。
附图说明
图1是本发明方法流程图。
具体实施方式
以下通过具体实施例详细描述本发明,并不作为对本发明的限制。本发明的整个流程为,首先在第一帧输入需要分割的目标框,进而采用交互式分割方法从背景中提取出需要分割的目标。然后使用SLIC算法生成初始目标多部件模型。令M0={M1,...,Mk}为目标的k个部件,对应标签为{l1,...,lk},Mi=(Ai,Pii)为第i个模型,其中Ai为模型的HSV直方图,Pi为模型的中心位置,Θi为隶属于模型的像素点位置集合。同时建立背景模型M0={M0,1,...,M0,n}来描述复杂背景,即相对于前景目标的异常点,其中标签为l0,n为背景模型中部件数目,M0,i=(A0,i,P0,i0,i)为第i个部件,A0,i为相应的HSV直方图,P0,i为模型中心位置,Θ0,i是属于该模型的像素点位置集合。本发明提出将视频分割问题建模为将目标多部件跟踪和目标多部件分割放到一个统一框架中,同时优化像素标签f和目标的多部件模型M。对于图像中的每个像素p,我们用标签fp∈{l0}∪{l1,...,lk}来表示其所属部件,而不是像以前方法仅仅标记其是否属于前景或背景;并优化当前图像中的目标多部件模型M。获得每个像素的标签即完成了对每帧图像的视频分割。
为降低运算复杂度,只对当前图像中目标预测位置U附近的像素予以标签赋值,其中U由上一帧的多部件模型通过使用结构图匹配的方式来确定。视频分割问题可建模为
其中由分割步骤的统一能量函数得到,M*和f*分别为计算得到的当前帧最优目标多部件模型和像素标签。为求解式(1),首先使用动态结构图匹配算法计算目标预测位置U。具体地,使用SLIC 算法产生当前帧的多个候选部件,然后通过谱匹配算法(spectral matching)在上一帧目标模型中寻找匹配项,而目标的粗略估计位置根据匹配的部件的位置投票得出。最后我们以该估计位置为目标中心点,尺寸为前一帧目标大小η倍的边界框(bounding box)为分割区域。η的一般取值范围为[0.1,2.0]。
在分割区域中,通过最大化计算得到当前帧的最优标签f*和多部件模型M*。使用类RANSAC算法求解步骤如下:1.通过α-expansion算法根据当前估计模型为像素赋予标签;2.根据像素表象似然值和运动一致性进行目标的目标多部件跟踪。这两步将不断迭代直到达到目标函数的最小能量,以满足目标多部件跟踪和分割之间的相互促进作用。在完成迭代优化过程后,我们更新当前帧的多部件模型。
联合在线分割跟踪
为简化式(1)的表达,我们在下面的公式中省略和U,并对目标函数取负对数,得到能量方程如下,
其中D(f,M)为基于当前标签f和多部件模型M的数据项,Vp,q(fp,fq)为描述相邻像素间相互作用的平滑项,hf(M)为防止D(f,M)中像素标签赋值过拟合的正规项。
数据项
目标表象和位置的时空连续性为在线视频分割提供了有效信息。如果像素p被标记为li,表示该像素在部件模型Mi的表象和位置上具有较小的能量。因此数据项可表示为
其中Dp(li,Mi)为像素p的能量,S为分割区域中的像素集,α1和α2是权值,φap;Ai)和φl(lp;Pi)分别是表象和位置能量项。在式(3)中,φap;Ai)的值取决于像素p隶属于部件模型Mi的概率大小,可以通过HSV直方图Ai中的索引值计算得到。而φl(lp;Pi)的值取决于像素p与中心位置Pi的距离大小,可由x和y方向上的单高斯位置模型计算得到。
同样的,数据项也可以通过表象和位置信息来表示像素隶属于背景的可能性。在本文中定义为所有背景子模型的最小能量值,即Dp(fp,M0)=minjDp(fp,M0,j)。
平滑项
一般的,如果两相邻像素具有相似表象,则会被以较小能量分配相同标签。另一方面,目标运动相对于背景是可区分的,特别是在物体边界处,即运动的不连续性。以上两方面就为分割目标和背景像素提供有力支持,则式(2)中的平滑项Vp,q(fp,fq)可定义为:
Vp,q(fp,fq)=Ι(fp≠fq)·(α3·Δc(p,q)+α4·Δf(p,q)) (4)
其中Ι(·)为真时返回1,否则返回0。Δc(p,q)和Δf(p,q)分别表示相邻像素p和q在RGB颜色空间和光流场(optical flow field)的欧式距离。α3和α4表示权值参数。
正则项
规范化数据项可以有效防止过拟合。其中正则项由三部分构成:1.区域(Area)要求使用的模型具有相似尺寸大小;2.轮廓(Profile)惩罚不规则区域的模型使用;3.复杂度(Complexity)限制使用的模型数量。
其中为真时返回1,否则返回0,分别表示所属区域模型中区域、轮廓、复杂度的正则项,α5,α6和α7为对应权值。对于所有的背景子模型,我们设定hf(M0,i)=0,i=1,...,n。正则项可以描述如下:
区域正则项:区域大的模型不能很好处理目标的运动变形,而区域小的模型易受背景噪声的影响。区域正则项定义如下
其中Θj表示模型Mj区域中像素数目。
轮廓正则项:当大的运动形变发生时,一些目标区域可能会蔽塞,致使对象的范围和中心位置可能无法准确估计。为产生新模型并控制模型的不准确性,定义轮廓正则项为
其中Pi和Ci分别表示模型Mi的区域位置中心和被标记为li的像素区域的位置中心。Δp(·,·)用于计算二维图像平面中两点之间的欧氏距离。另外,为像素p的位置,Bi表示标记为li的像素区域的边界像素集合,var(·)为方差函数。
复杂度正则项:我们使用常数正则项来限制标签赋值数量,即
能量最小化
式(2)中目标函数包含两个变量M和f,求其最小值很困难。我们采用类似算法对M和f求最优,实现目标多部件跟踪和分割。
目标能量最小化
初始多部件模型M0从上一帧最优模型中继承,显然M0中可能包含不正确的部件模型。在目标多部件分割过程中,像素标签f0由带正则项的α-expansion算法求得,即从多部件模型M0中的选择一些可靠模型来标记。在目标多部件跟踪过程中,通过重估计HSV直方图和位置模型得到更加精确的模型,然后基于当前像素标签生成候选生成模型集合(hypothesized part models),从而扩展多部件模型集合M1。重复上两步,可以得到标签f0,f1,f2…和模型集合M0,M1,M2…直至目标函数中的能量不再减小,如此便可得到最优标签f*和多部件模型M*
本发明设计能量函数E(M,f)非负,并在迭代优化过程中不断减少来保证收敛。
为从背景中分割出多个目标部件,指定{l0,l1,...,lk}为分割区域中像素p的标签,而不是简单将其分为前景和背景。则像素标记问题转换为能量最小化的马尔可夫场,
其中S为分割区域的像素集,数据项Dp(li,Mi)为根据部件模型Mi将像素p标记为li的能量。平滑项Vp,q(fp,fq)表征相邻像素的相互影响,N表示S的四邻域像素关系。由于能量函数满足子模条件(sub-modular),优化问题可采用带图割(graph cut)的α-expansion算法解决。
求出分割区域中的像素标签f后,通过最小化能量E(M,f)来重估计多部件模型M={M1,...,Mk}。对于给定的当前像素标签f,(2)式中的平滑项是确定的,多块跟踪问题可化为
其中S为分割区域的标签集,当fp=li返回1,否则返回0。由于在多部件模型M中正则项难以最小化,求解式(9)很困难。因此我们先忽略正则项,然后使用最大似然估计算法(MLE)最小化式(9)的第一项求得最优模型M*,即对于f的第i个模型Mi,根据当前标签为li的像素估计其HSV直方图中心位置和像素位置集合如果式(8)中总能量减小,则用替换Mi,否则保持Mi不变。
本文是基于以下两方面提出的优化方案:1.保持总能量不增加情况下,近似的方式来求能量最小化(去掉正则项)能通过最大似然估计方法有效解决。2.近似的方式来求能量最小化对整体能量最小化影响不大。如果当前解接近最小值,即满足了正则项中的相关约束,因此正则项梯度值很小;若该梯度值较大,则说明在该约束下存在更好的部件模型没有被筛选进来,则需要通过接下来的候选部件模型集合扩展步骤来添加新模型。
更新当前帧的多部件模型集合
产生初始估计模型:第一帧中使用SLIC算法在初始目标区域中产生多部件候选集合,若生成部件和用户指定目标区域的重合率大于θ1(设为0.5),则将其添加到初始多部件模型中,否则判定其为背景。
扩展候选模型:为从已知模型中获得更好的部件模型用于分割,我们采用两种方式来聚合和分裂区域:1.随机选择具有相似表象且位置相邻的小区域来聚合产生新模型,其中小区域是指其像素数目小于当前多部件模型集合中所有模型的平均像素数目的区域。2.找到大于当前所用模型区域平均像素数目两倍的区域,使用SLIC分割算法进行分裂。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于目标多部件学习的视频分割方法,其特征在于,用联合目标多部件分割与目标多部件跟踪来完成视频分割任务,其通过将目标多部件分割和目标多部件跟踪的信息集成到一个统一的目标函数中,并通过RANSAC-style算法来优化得到精确的视频分割结果,包括如下步骤:
步骤1:在第一帧输入需要分割的目标框,采用交互式分割算法从背景中提取出需要分割的目标;
步骤2:使用SLIC算法生成初始目标多部件模型M0={M1,...,Mk},k为目标部件数,第i个目标部件模型为Mi=(Ai,Pii),Ai为模型的HSV直方图,Pi为模型的中心位置,Θi为隶属于该模型的像素点位置集合;
步骤3:依据上一帧的目标多部件模型通过使用结构图匹配算法计算得出当前图像中目标预测位置U;
步骤4:对当前图像中目标预测位置U附近的像素予以标签赋值,进行视频分割问题建模
<mrow> <mo>{</mo> <msup> <mi>M</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>f</mi> <mo>*</mo> </msup> <mo>}</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>M</mi> <mo>,</mo> <mi>f</mi> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>,</mo> <mi>f</mi> <mo>|</mo> <mi>U</mi> <mo>,</mo> <mover> <mi>M</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow>
其中,为上一帧的目标多部件模型,M*和f*分别为计算得到的当前帧最优目标多部件模型和像素标签,M和f分别为当前帧的目标多部件模型和像素标签,由分割步骤的统一能量函数得到;
使用RANSAC-style算法分别迭代优化目标多部件分割和目标多部件跟踪,使得两者相互促进,进而获得精确的视频分割结果;
步骤5:更新当前帧的目标多部件模型,输出目标多部件分割结果。
2.根据权利要求1所述的方法,其特征在于,步骤4中的视频分割问题建模公式可省略和U,并对目标函数取负对数,从而进行公式简化,得到目标函数,
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>{</mo> <msup> <mi>M</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>f</mi> <mo>*</mo> </msup> <mo>}</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>M</mi> <mo>,</mo> <mi>f</mi> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>,</mo> <mi>f</mi> <mo>)</mo> </mrow> <mover> <mo>=</mo> <mi>&amp;Delta;</mi> </mover> <mi>arg</mi> <munder> <mi>min</mi> <mrow> <mi>M</mi> <mo>,</mo> <mi>f</mi> </mrow> </munder> <mi>E</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>,</mo> <mi>f</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mi>arg</mi> <munder> <mi>min</mi> <mrow> <mi>M</mi> <mo>,</mo> <mi>f</mi> </mrow> </munder> <mo>{</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> <mo>&amp;Element;</mo> <mi>N</mi> </mrow> </munder> <msub> <mi>V</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>h</mi> <mi>f</mi> </msub> <mrow> <mo>(</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中D(f,M)为基于当前标签f和目标多部件模型M的数据项,Vp,q(fp,fq)为描述相邻像素间相互作用的平滑项,hf(M)为防止D(f,M)中像素标签赋值过拟合的正规项。
3.根据权利要求2所述的方法,其特征在于,数据项D(f,M)计算公式为
<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <mi>S</mi> </mrow> </munder> <msub> <mi>D</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <mi>S</mi> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>&amp;alpha;</mi> <mn>1</mn> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>&amp;phi;</mi> <mi>a</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>&amp;rho;</mi> <mi>p</mi> </msub> <mo>;</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>&amp;alpha;</mi> <mn>2</mn> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>&amp;phi;</mi> <mi>l</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>l</mi> <mi>p</mi> </msub> <mo>;</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中Dp(li,Mi)为像素p的能量,S为分割区域中的像素集,α1和α2是权值,φap;Ai)和φl(lp;Pi)分别是表象和位置能量项;φap;Ai)的值取决于像素p隶属于部件模型Mi的概率大小,通过HSV直方图Ai中的索引值计算得到;φl(lp;Pi)的值取决于像素p与中心位置Pi的距离大小,由x和y方向上的单高斯位置模型计算得到。
4.根据权利要求2所述的方法,其特征在于,平滑项Vp,q(fp,fq)计算公式为
Vp,q(fp,fq)=Ι(fp≠fq)·(α3·Δc(p,q)+α4·Δf(p,q))
其中Ι(·)为真时返回1,否则返回0;Δc(p,q)和Δf(p,q)分别表示相邻像素p和q在RGB颜色空间和光流场的欧式距离;α3和α4表示权值参数。
5.根据权利要求2所述的方法,其特征在于,正则项hf(M)的计算公式为
其中为真时返回1,否则返回0,分别表示所属区域模型中区域、轮廓、复杂度的正则项,α5,α6和α7为对应权值;
其中
<mrow> <msubsup> <mi>h</mi> <mi>f</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>&amp;Theta;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mo>|</mo> <msub> <mi>&amp;Theta;</mi> <mi>j</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow>
<mrow> <msubsup> <mi>h</mi> <mi>f</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;Delta;</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <munder> <mi>var</mi> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> </munder> <msub> <mi>&amp;Delta;</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>h</mi> <mi>f</mi> <mn>3</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> </mrow>
Θj表示模型Mj区域中像素数目;Pi和Ci分别表示模型Mi的区域位置中心和被标记为li的像素区域的位置中心;Δp(·,·)用于计算二维图像平面中两点之间的欧氏距离;lp为像素p的位置,Bi表示标记为li的像素区域的边界像素集合;var(·)为方差函数。
6.根据权利要求2-5中任一项所述的方法,其特征在于,目标函数采用类似算法对M和f求最优,实现目标多部件跟踪和分割,具体方法为:初始目标多部件模型M0从上一帧最优模型中继承;在目标多部件分割过程中,像素标签f0由带正则项的α-expansion算法求得;在目标多部件跟踪过程中,通过重估计HSV直方图和位置模型得到更加精确的模型,然后基于当前像素标签生成候选生成模型,扩展目标多部件模型M1;重复上两步,得到标签f0,f1,f2…和块集合M0,M1,M2…直至目标函数中的能量不再减小,如此便可得到最优标签f*和多部件模型M*
7.根据权利要求6所述的方法,其特征在于,使用动态结构图匹配算法计算目标预测位置U的方法为:使用SLIC算法产生当前帧的多个候选部件,然后通过谱匹配算法在上一帧目标模型中寻找匹配项,而目标的粗略估计位置根据匹配的部件的位置投票得出;最后以该估计位置为目标中心点,尺寸为前一帧目标大小的一定倍数的矩形框作为分割区域。
CN201410818534.5A 2014-12-24 2014-12-24 一种基于目标多部件学习的视频分割方法 Active CN104574379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410818534.5A CN104574379B (zh) 2014-12-24 2014-12-24 一种基于目标多部件学习的视频分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410818534.5A CN104574379B (zh) 2014-12-24 2014-12-24 一种基于目标多部件学习的视频分割方法

Publications (2)

Publication Number Publication Date
CN104574379A CN104574379A (zh) 2015-04-29
CN104574379B true CN104574379B (zh) 2017-08-25

Family

ID=53090351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410818534.5A Active CN104574379B (zh) 2014-12-24 2014-12-24 一种基于目标多部件学习的视频分割方法

Country Status (1)

Country Link
CN (1) CN104574379B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316313B (zh) * 2016-04-15 2020-12-11 株式会社理光 场景分割方法及设备
CN107665495B (zh) * 2016-07-26 2021-03-16 佳能株式会社 对象跟踪方法及对象跟踪装置
CN113487622B (zh) * 2021-05-25 2023-10-31 中国科学院自动化研究所 头颈部器官影像分割方法、装置、电子设备和存储介质
CN116416542A (zh) * 2021-12-28 2023-07-11 脸萌有限公司 视频处理方法及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1081956A1 (en) * 1999-08-16 2001-03-07 University of Washington Interactive video object processing environment having concurrently active subordinate windows
CN1959701A (zh) * 2005-11-03 2007-05-09 中国科学院自动化研究所 实时的从视频中跟踪多个人脸的方法
CN101389004A (zh) * 2007-09-13 2009-03-18 中国科学院自动化研究所 一种基于在线学习的运动目标分类方法
CN102074020A (zh) * 2010-12-31 2011-05-25 浙江大学 对视频进行多体深度恢复和分割的方法
CN102270346A (zh) * 2011-07-27 2011-12-07 宁波大学 一种交互式视频中的目标对象的提取方法
CN102609686A (zh) * 2012-01-19 2012-07-25 宁波大学 一种行人检测方法
CN102930539A (zh) * 2012-10-25 2013-02-13 江苏物联网研究发展中心 基于动态图匹配的目标跟踪方法
CN103226586A (zh) * 2013-04-10 2013-07-31 中国科学院自动化研究所 基于能量分布最优策略的视频摘要方法
CN103778647A (zh) * 2014-02-14 2014-05-07 中国科学院自动化研究所 一种基于层次超图优化的多目标跟踪方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1081956A1 (en) * 1999-08-16 2001-03-07 University of Washington Interactive video object processing environment having concurrently active subordinate windows
CN1959701A (zh) * 2005-11-03 2007-05-09 中国科学院自动化研究所 实时的从视频中跟踪多个人脸的方法
CN101389004A (zh) * 2007-09-13 2009-03-18 中国科学院自动化研究所 一种基于在线学习的运动目标分类方法
CN102074020A (zh) * 2010-12-31 2011-05-25 浙江大学 对视频进行多体深度恢复和分割的方法
CN102270346A (zh) * 2011-07-27 2011-12-07 宁波大学 一种交互式视频中的目标对象的提取方法
CN102609686A (zh) * 2012-01-19 2012-07-25 宁波大学 一种行人检测方法
CN102930539A (zh) * 2012-10-25 2013-02-13 江苏物联网研究发展中心 基于动态图匹配的目标跟踪方法
CN103226586A (zh) * 2013-04-10 2013-07-31 中国科学院自动化研究所 基于能量分布最优策略的视频摘要方法
CN103778647A (zh) * 2014-02-14 2014-05-07 中国科学院自动化研究所 一种基于层次超图优化的多目标跟踪方法

Also Published As

Publication number Publication date
CN104574379A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104537676B (zh) 一种基于在线学习的渐进式图像分割方法
Yang et al. Layered object models for image segmentation
Zhu et al. Discriminative 3D morphable model fitting
Jiang et al. Submodular salient region detection
CN105869178B (zh) 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN104574379B (zh) 一种基于目标多部件学习的视频分割方法
CN102270346B (zh) 一种交互式视频中的目标对象的提取方法
CN102930539B (zh) 基于动态图匹配的目标跟踪方法
Xiao et al. Joint affinity propagation for multiple view segmentation
CN104835168B (zh) 基于全局凸优化变分模型的快速多相图像分割方法
CN108280397A (zh) 基于深度卷积神经网络的人体图像头发检测方法
KR101117549B1 (ko) 얼굴 인식 시스템 및 그 얼굴 인식 방법
CN107657625A (zh) 融合时空多特征表示的无监督视频分割方法
CN106529378A (zh) 一种亚裔人脸的年龄特征模型生成方法及年龄估计方法
CN107103311A (zh) 一种连续手语的识别方法及其装置
CN102982544A (zh) 多前景目标图像交互式分割方法
Rogez et al. A spatio-temporal 2D-models framework for human pose recovery in monocular sequences
CN111414938A (zh) 一种板式换热器内气泡的目标检测方法
Couprie et al. Joint future semantic and instance segmentation prediction
CN110969635B (zh) 基于先验约束水平集框架的鲁棒快速图像分割方法
CN109242885B (zh) 一种基于时空非局部正则的相关滤波视频跟踪方法
Duan et al. An approach to dynamic hand gesture modeling and real-time extraction
CN103020631A (zh) 基于星型模型的人体运动识别方法
Tang et al. Slice representation of range data for head pose estimation
CN106296740B (zh) 一种基于低秩稀疏表达的目标精细轮廓跟踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant