CN1120629C - “图象分割和对象跟踪的方法和与其相对应的系统” - Google Patents

“图象分割和对象跟踪的方法和与其相对应的系统” Download PDF

Info

Publication number
CN1120629C
CN1120629C CN98800419A CN98800419A CN1120629C CN 1120629 C CN1120629 C CN 1120629C CN 98800419 A CN98800419 A CN 98800419A CN 98800419 A CN98800419 A CN 98800419A CN 1120629 C CN1120629 C CN 1120629C
Authority
CN
China
Prior art keywords
label
projection
mark
segmentation
district
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN98800419A
Other languages
English (en)
Other versions
CN1223056A (zh
Inventor
F·马奎斯
C·莫利纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pendragon wireless limited liability company
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1223056A publication Critical patent/CN1223056A/zh
Application granted granted Critical
Publication of CN1120629C publication Critical patent/CN1120629C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Studio Devices (AREA)

Abstract

本发明涉及图象分割和视频对象跟踪的改进方法。传统的方法依赖于要跟踪对象的运动均匀性,而本方法的基础则是分区投影的概念,在这种方法中同时使用了空间和运动信息,并且能利用经过修正的双分区方法来实现,这种双分区的方法包括第一次分区的重新分割以及将细分区投影到当前图象的投影步骤。这样就能跟踪非均匀性运动的对象、静态对象以及均匀性运动对象的某些局部。

Description

“图象分割和对象跟踪的方法和与其相对应的系统”
技术领域
本发明涉及适用于图象序列的对象跟踪方法,所述的方法依次包括下列步骤:
(A)分割步骤,它确定了图象I(t-1)第一次粗分区P(t-1)的区域,所述区域与被跟踪的对象相对应,以及在所述粗分区P(t-1)基础上根据空间均匀性原则确定了细分区FP(t-1);
(B)投影步骤,它确定了所述细分区FP(t-1)在当前图象I(t)中的投影PFP(t);
(C)所述投影细分区PFP(t)的重新标号步骤,它确定终极分区P(t)。
本发还涉及与实现所述方法相对应的系统。
背景技术
余弦变换编码是图象数据传输中最著名的压缩技术之一,但它的压缩比不能超过16∶1。在低比特率和极低比特率编码中,把图象内容的知识和编码方案相结合可以提高压缩比,所采用的技术是:从图象背景中将对象分割出来,对分割出来的对象进行检测,在把对象作为由轮廓所包围的纹理区域的方式进行编码之后,传送与它们相关的数据。但是这些轮廓和纹理在三维空间中不能有效地进行编码(时间尺度的离散性导致了很大的不连续性),为了实现极低的比特率,还必须采用运动补偿。
在离散的顺序时间上与所考虑的对象相关的区域之间的这种缺乏连通性,确实可以在分割过程中通过把运动信息包括进来而解决,当视频序列的运动比较大时时这是非常必要的。其实现方法可以是比如:计算两帧之间的后向运动估计并且实施前一帧F(t-1)及其分割的运动补偿,根据已经得到的前一帧或图象F(t-1)的分割来对某一帧或图象F(t)(t是时间)进行分割。这种技术使得在时间域内能更有效地跟踪所选的感兴趣区域所对应的对象。
但是,在视频编码领域中,那些具有基于内容的嵌入式功能并能对屏幕上的多个对象(不论对象确定可能基于什么样的非常不同的判据)进行单独控制与确定的新编码方案将越来越成为活跃的研究领域,特别是那些与MPEG4标准有关的编码方案,MPEG4以交互式多媒体应用为对象并将在1997年末或1998年推出。一旦确定了对象或一组对象,那么就要按序列对其进行跟踪。正是这种对对象的跟踪功能真正打开了基于内容的功能的大门,使得在以前各帧中的对象信息与当前帧和将来帧中的对象信息能相互联系,也就是说确定了对象的时间上的演变过程(此外,跟踪功能也使得用户能对所选择的对象只做一次标记)。
传统的对象跟踪技术将运动作为主要信息,当构成对象的几个局部部分呈现不同的运动(比如说一个在行走的人他的手臂和身体在做不同的运动)时可能会导致跟踪失败。此外,当整个对象在做给定的运动时基于运动的跟踪技术不能跟踪对象的局部(比如该技术不能脱离人的头发而只跟踪人的脸)。最后,如果整个场景是静态的(对象没有移动)或者是摄象机有一个整体的运动(比如平摇),基于运动的跟踪技术就不能跟踪或是在跟踪所选的对象时会有困难。静态场景(或场景变为静态)不能提供任何运动信息,因而依据对象的运动来检测目标实际上就很困难了。与此相类似,摄象机的整体运动使得场景中的所有对象都有一个很显然的运动,这样就不容易通过区分静态和运动区域来检测目标。
为了跟踪这一类的对象,有些技术提出了不同的对象确定准则。比如1996年5月7-10在美国乔治亚州亚特兰大举行的IEEE的声音、语声和信号处理的国际会议上F.Margues等人。在其论文“在基于分割的视频编码中为基于内容的功能跟踪感兴趣区域”中就介绍了一种基于分区投影概念(前面的图象I(t-1)和它的分区P(t-1)将做运动补偿,由I(t-1)得到(t),而由P(t-1)得到 (t),并且在补偿后的图象(t)中补偿后的区域将用来做为标记,这些标记还将用众所周知的3D分水岭算法推广到当前图象)的对象跟踪方法并将该技术推广到了具有任何均匀类型的区域。
所述的跟踪技术依赖于一种双重分区的方法,即:它采用了两级分区:粗分区,它与编码方案有关;以及细分区,它包含了当前图象详细丰富的描述并能跟踪感兴趣的区域。对于每一幅图象,两种分割都并行进行并且粗分区要对细分区进行限制:所有在粗分区中的轮廓都将在细分区中出现,最终的对象是得到终极分区,终极分区包含了足以编码图象的必要区域以及能正确跟踪所述感兴趣的部分的必要区域。
在这一情况下,前一图象的分区P(t-1)(这些在第一级上的分区由所选择的对象构成)要被重新分割,产生保证每个细分区在空间域的均匀性的细分区FP(t-1)。接下来这些细分区FP(t-1)将被投影到当前图象中去得到在时刻t的细分区(PFP(t)),而终极分区P(t)要通过对所述的经过投影的细分区PFP(t)进行重新标号而得到。
图1给出了与此相对应的完整过程,它显示了所选对象的演化过程(t-1时刻的分区P(t-1),t-1时刻的细分区FP(t-1),t时刻经过投影的细分区PFP(t),t时刻的分区P(t))。在这个例子中,如果重新标号过程产生了标号相同但不相连接的部分(投影细分区PFP(t-1)中的灰色区域),那么将被看作是投影错误因而将被删除。
发明内容
本发明的目的之一是提出一种改进方法,它同以前的方法一样能跟踪感兴趣对象,但是在这种方法中将同时运用空间和运动信息以便改进所述方法的某些步骤。
为了达到这个目的,本发明涉及了一种在引言中所述的方法,其中所述的投影步骤还依次包括下列子步骤:
(1)标记投影子步骤,它根据运动和空间信息得到当前图象的标记集合,所述标记投影子步骤本身依次包括下列步骤:
(a)基于在图象I(t-1)和I(t)之间的运动估计操作的对细分区FP(t-1)的反向运动补偿操作,它产生一个由被称为补偿标记所构成的经过补偿的细分区CFP(t-1);
(b)在所述经过补偿的细分区中的部分选择操作,用来在对应于粗分区P(t-1)中具有单个相同标号的所有可能不相连接的部分中仅仅选择那些对于每一个这类指定的标号中能满足一个几何准则的部分,其中按照该几何准则,在所述经过补偿的细分区中,如果具有给定标号k的部分包含小于给定百分数的具有标号k的所有象素,则将所述具有给定标号k的部分删除;
(2)分区生成子步骤,它利用所述经过补偿的标号集合的生长过程以便获得所述终极分区,所述分区生成子步骤本身依次包括下列步骤:
(c)标记的重新标号操作,它用于在从细分区FP(t-1)的一个区域建立了几个标号时,对除一个以外的所有这些标记进行重新标号;
(d)当前图象I(t)中所有被选标记的生长操作,它采用三维扩展的分水岭算法来进行,从而得到所述投影细分区PFP(t);
(e)所述投影细分区PFP(t)的区域合并操作,它使得在区域生长之后,前面图象中具有相同标号的区域将连接起来以便确定终极分区P(t)。
标记投影子步骤也依次包括:
(f)根据补偿后标记的梯度的清理操作;
(g)边界删除操作;
进行这两个操作的目的是确保投影标记灰度级的均匀性同时保持它们的同伦。
本发明的另一个目的是提出一种能实现上述方法的分割系统。
为了达到这个目的,本发明涉及一种用于在图象序列中进行分割对象跟踪的系统,所述系统依次包括:
(A)分割装置,它确定了图象I(t-1)的第一次粗分区P(t-1)的区域,所述区域与被跟踪的对象相对应,以及在所述的粗分区P(t-1)基础上根据空间均匀性原则确定了细分区FP(t-1);
(B)投影装置,它确定了所述细分区FP(t-1)在当前图象I(t)的投影PFP(t);
(C)所述投影细分区PFP(t)的重新标号装置,它确定终极分区P(t);
其中所述的投影装置依次包括:
(1)标记投影装置,它根据运动和空间信息得到当前图象的标记集合,所述标记投影装置本身依次包括:
(a)基于在图象I(t-1)和I(t)之间的运动估计操作的对细分区FP(t-1)的反向运动补偿装置,它产生一个由被称为补偿标记所构成的经过补偿的细分区CFP(t-1);
(b)在所述经过补偿的细分区中的部分选择装置,用来在对应于粗分区P(t-1)中具有单个相同标号的所有可能不相连接的部分中仅仅选择那些对于每一个这类指定的标号中能满足一个几何准则的部分,其中按照该几何准则,在所述经过补偿的细分区中,如果具有给定标号k的部分包含小于给定百分数的具有标号为k的所有象素,则将所述具有给定标号的部分删除;
(2)分区生成装置,它利用所述经过补偿的标号集合的生长过程以便获得所述终极分区,所述分区生成装置本身依次包括:
(c)标记的重新标号装置,它用于在从细分区FP(t-1)的一个区域建立了几个标号时,对除一个以外的所有这些标记进行重新标号;
(d)用于生长当前图象I(t)中所有被选标记的装置,它采用三维扩展的分水岭算法来进行,从而得到所述投影细分区PFP(t);
(e)用于合并所述投影细分区PFP(t)的区域的装置,它使得在区域生长之后,前面图象中具有相同标号的区域将连接起来以便确定终极分区P(t)。
以前的技术只使用了运动,而本方法与相应的系统现在就能结合空间和运动信息来跟踪那些并不表现出一致的纹理或运动的对象。将对相邻帧的运动进行估计并用于前一分区中区域的运动补偿。补偿后的区域将直接在当前帧中使用以便提高跟踪系统的时间稳定性。当前图象中要检验投影标记的空间均匀性以便确保终极标记生长过程的正确性。由于算法的核心基于地貌学工具,整个技术不会含有很大的计算量。已经证明这种对象跟踪方法在不同的场景和各种应用中能得到很好的结果。这种方法已经在基于对象的编码方案中用于为基于内容的功能产生视频对象(称为VOs)的问题中。此外,该方案已经在生成分层视频对象中使用,它使得实时可升级的基于内容的编码技术的实现变得更容易。
附图说明
现在将参考下面要说明的实施方式并结合附图来解释本发明的各个方面,其中:
图1显示与传统双重分区方法相对应的过程;
图2显示在相似的过程中根据本发明修改后的投影步骤;
图3显示了标记投影装置的方框图,它用于实现所述投影步骤的第一个子步骤;
图4到图7显示了采用新的准则来保持或删除不相连接的部分后所得到的改进,并对这种新方法和以前的方法进行了比较;
图8到12显示在一个已知图象序列的两幅图象之间的标记投影和选择;
图13给出了分区生成装置的方框图,它用于实现投影步骤中第二个子步骤;
图14到图16给出的例子显示了在图象序列的两帧之间的标记重新标号,该图象序列在图4到图7中已经使用过;
图17到图19介绍了投影细分区中的新区域,它所采用的图象是图8到图12的图象序列中的(n+5)帧;
图20到图23给出了依据本发明可能的不同应用。
具体实施方式
正如图2所示,就前面提到的双分区方法的主要步骤而言,更准确地讲本发明涉及的特殊技术将用于从细分区FP(t-1)到当前图象的投影步骤,在图中以参考号21表示(所说的的细分区是前一图象分区P(t-1)重新分割20的结果),其目的是首先得到投影后的细分区PFP(t),接下来在重新标号的步骤22之后得到分区P(t)。为了提高时间上的稳定性,需要改进用于将前一图象I(t-1)的分区P(t-1)容纳于当前图象I(t)信息内的投影步骤。正如图2所示,这种改进后的投影步骤的实现可以分为两个子步骤211和212:标记投影子步骤和分区生成子步骤。
标记投影利用运动信息来完成从前一图象I(t-1)所得的每个区域的运动补偿。对这些与前一帧均匀区域相关的区域要进行运动补偿,它们将产生表示这些区域在当前图象I(t)中大致位置的标记。在分区生成过程中这些补偿后的标记将生长以便得到终极分P(t)。该生长过程要使用包含在当前图象I(t)和经过运动补偿的前一图象I(t-1)的空间信息。根据本发明在本方法中所提出的投影步骤21中,空间和运动信息在标记投影和分区生成中都将结合起来。
下面将结合图3更详细地描述投影步骤中的第一个子步骤标记投影,图3显示了用标记投影装置100来实现所说的子步骤。这个装置依次包括将要顺序介绍的几个电路。
运动估计电路31首先得到在图象I(t-1)和I(t)之间运动的大概估计,举例来说采用后向块匹配技术。比如在IEEE的消费电子学报1995年5月第41卷第2期第248-257页的论文“分层运动估计的VLSI结构”中就介绍了这类技术:图象I(t)被分为图象元素的小块(比如8×8象素),接下来在图象I(t-1)的一个给定的窗口内对每个块进行搜索以便在该图象中找到一个最佳匹配的块。即便是对那些涉及多于一个对象的块的运动并不严格均匀,这种技术所获得的运动信息也是足够逼近的,这种运动信息以运动矢量形式给出,并且要对所考虑图象中的所有块分别作出估计。
接下来运动补偿电路32要利用所获得的运动矢量对图象I(t)中的每个区域做运动补偿,其目的是得到作为最后结果的一幅图象,它为来自前一图象I(t-1)的每个区域包含了一个相连接的部分,该部分的标号与在所说的前一图象中的标号相同。这些部分的的每一个本身是用下面的方式得到的:当前图象中的每个象素被一个并且只被一个来自前一图象的象素所覆盖(在后向运动估计之后)。
但是利用以前的分区通过补偿得到的图象本身并不是一个真正的分区。在补偿之后可能会出现具有相同的标号但却并不相连接的部分。为了解决这个问题,提供了部分选择电路33:对于在补偿之后能得到不止一个部分的每一个前一分区P(t-1)标号,该电路能根据事先定义的准则,通常是几何准则,只保留相应的部分。在实际工作中,在补偿后的细分区CFP(t-1)中一个标号为k的部分如果在它所有的象素中标号为k的象素的比例小于给定的比例(比如说40%左右),那么这个标号为k的部分就将被删除。通过这种方式一个给定的标号就可能得到不止一个相连接的部分,只要它们中的每一个足够大。那些被删除的部分形成一个被称为不确定的区域,它们包围在所获得的补偿后的标记周围。那些在不确定区域中的象素将在分区生成的子步骤212中再进行标号。
图4到图7的例子中显示了在这些部分足够大时保持多个相连接部分的必要性。第一幅图象(图4)是要进行分割的原始图象,比如说在可视电话中的一个典型序列(众所周知的“母亲与女儿”测试序列)中一幅图象n(n=50),而第二幅图象(图5)表示在同一序列中从图象n到图象(n+5)投影标记集合的边界。在标记之间的区域属于不确定的区域。正如所看到的一样,母亲头部的运动使得位于她头部后面的背景分裂为两个部分(图象中亮和黑的区域)。如果将最小的标记删除,那么相邻区域的标记就会生长而覆盖这部分区域。在第三幅图中(图6)背景部分就被属于沙发(黑色区域)的区域覆盖。相反如果使用新的方法,大的不相连接的标记将被保留,即便是它们与另外的标记具有同样的标号。就图7而言,这导致了背景的两个部分都能得到特定的区域。(所说的背景已经被它两个相关的标记所覆盖,并且黑色的标记只覆盖了它相关的区域)。
最后,为了确保补偿标记的空间均匀性,提供了清理电路34,它的输出就是实现标记投影的子步骤211的装置100的输出。需要注意的是在投影子步骤211中由于使用了运动信息这就有可能使得来自分区P(t-1)的标号不出现在P(t)中。这样,一个从屏幕上消失了的对象的标号将不会在以后的图象中出现。但是,由于所使用的运动补偿比较粗,在当前图象中标记的位置对它所表示的区域而言可能并不完全正确。从一个给定区域的标记所覆盖的灰度值可能就没有空间均匀性。因此,该标记可能会重叠在应该分配给两个不同区域的地方。假定标记直接作用于当前图象,那么每个标记都会覆盖一部分本该属于它相关区域的地方。
电路34实现的清理操作依赖于相关标记所覆盖的灰度信息的梯度。通常情况下,标记位置是正确的,但是它覆盖了一部分其它不同灰度级的区域。因此,对于每个补偿过的标记来说,要计算它所覆盖的象素的梯度均值。所有那些均值超过了给定门限的象素都将划归到不确定区域。不过这种清理操作可能会将划分正确的标记的一小部分删除掉:这种效果将在图8到图12中显示,图8到图12使用另一种典型的测试序列(“工头”序列,图8给出了所说序列的原始图象)给出了两种不同的情形。如果一个区域内部的灰度变化很小,那么它就可能被清理操作删除。在建筑物上的某些区域就是这种情况。此外,如果一个区域很均匀但灰度值不是常数(比如说灰度值是抛物函数),某些部分也可能被删除。人的右脸颊就是这种情形。为了解决这些问题,标记要进行延伸以便覆盖它内部的孔。应用最后操作的目的是在区域之间增加不确定区域使最终的边界位置不会完全受区域运动补偿的控制。不确定区域的增加是通过在标记的边缘删除象素来实现的。进行这种删除将能防止标记在同伦方面的任何改变:在处理过程中标记不会分裂。
在图9的例子中给出了序列中第一幅图象的细分区,其中这个男人已被选中(第二幅图象图10表示要被分割的“工头”序列在n=5时对应的原始图象),图11显示了在基于灰度的清理操作之后的投影标记集合。(在如建筑物或脸颊等均匀区域出现了一些灰色的不确定区域)。最后在图12中给出了在经过了生长和边界删除处理之后所选择的标记集合。(在所有图象中区域的边界用黑色表示)。在整个操作中投影分区的同伦没有改变,也就是说没有分区被删除或分离。此外,需要注意的是在经过清理操作之后,所有投影标记(见图12)都对应于图象中(图10)的均匀区域。有了这些改进之后,投影步骤21的下一子步骤由于有了更可靠的信息基础而得到了改进。
投影步骤的第二个子步骤是分区生成,它的描述参见图13,图13显示了如何利用分区生成装置200来实现所说的子步骤212。为了得到终极分区P(t),当前图象中所选择的标记要使用基本分水岭的扩充算法(这方面的例子参见视觉通信与图象重建杂志1990年9月1(1)第21-24页上F.Meyer和S.Beucher在论文“地貌分割”中的介绍)进行生长。在以前的方法中,分区生成操作要利用运动补偿后的图象(t)来驱动分水岭算法,而这里提出的扩展算法不需要使用所说的图象(t)而只使用原始图象I(t-1)和I(t)的信息。这样就减少了由于运动估计和补偿可能带来的误差。这种经过扩展的分水岭算法将区域的纹理和轮廓信息做为费用函数。为了将一个不确定区域内的象素划归到一个区域中去,要对区域的平均灰度值与该象素的灰度值进行比较。一个给定区域k的平均灰度值的估计将需要使用前一图象中相同区域k的象素值以及当前图象中被与之相关联的标记所覆盖的象素的值。
如果从单个区域(见图4到图7)生成了两个标记,那么在计算平均值时将不会合并使用被这两个标记覆盖象素的灰度值。这就意味着在标记重新标号电路41中将对两个标记中的一个进行重新标号。这样,对每个标记而言,要利用该区域在前面图象中的象素值和该标记所覆盖的象素的值来计算不同的平均值。所以,尽管标记的标号可能会改变,但该过程仍然能记住产生该标记的过去区域。这样如果标记在生长过程中遇到具有与过去标号相同的标记时它能够恢复它原始的标号。图14到16中给出了一个重新标号的例子。在这个例子中,妇女头部后面的背景在过去图象中被分割为一个单独的区域。但是由于妇女头部的运动,以前的标记产生了两个不相连接的部分,这两个部分由于足够大所以在标记投影子步骤211中被保留下来。因此,正如图14所示,两个标记都被保留并且被标号为不同的区域。当在标记生长电路42中进行的生长过程(扩展的分水岭算法)结束时,来自背景的两个标记相遇了(见图15)。由于它们以前属于同一个区域,在合并电路43(见图16)它们将被合并在一起,并且将给它们两个分配同一个标号,这样就能够对背景进行正确的跟踪(如果需要的话)。
为了在分区生成子步骤212进一步提高时间上的稳定性,生长过程将受运动信息的控制,对标记形状改变的控制是由一个变化检测算法所提供的信息来驱动的。这种技术能防止与图象静态(运动)区域有关的标记过度生长从而覆盖运动(静态)区域。
根据投影细分区PFP(t),通过对它的区域进行重新标号就可以得到终极分区P(t)。这是所述两次分区方案中的最后一个操作。
为了迭代这个过程,新的细分区可以从终极分区P(t)开始而获得。虽然这样,投影细分区PFP(t)所包含的信息可以用于启动生成细分区的过程。因此,新的细分区可以通过对投影细分区进行重新分割来得到。对重新分割的需要是双重的。首先,投影步骤可能会产生空间上并不完全均匀的区域。这样的区域必须要重新分割来保证下面投影步骤的成功。其次,在场景中可能会出现新的对象。由于投影步骤只是将前面分区中区域安排到当前图象中去,在投影分区中不能表示新对象。重新分割就可能在所选的对象之内创建新的区域。在这种情况下,将假定新的区域属于选中的对象,这样它将同对象的其它部分一起被跟踪。
图17到图19给出了上面段落所述情况的一个例子。第一幅图象(图17)显示了“工头”序列一帧图象的细分区,其中男人被选中。第二幅图象(图18)表示经过重新分割后(n+5)帧的细投影分区。在重新分割过程中出现了一个新的区域(在图象中用黑色标记)。由于该新区域包括在所选择的对象之内,它被添加到属于该对象的分区集合中去。最后的结果在第三幅图象(图19)中给出。
上面所述用于对象跟踪的方法可以有各种不同的应用,只要它有能力解决不同对象的定义准则。在下面的介绍中,这种技术将应用到具有不同场景的序列中去。每个例子都试图说明一种可能的独特应用(对完全运动对象的跟踪,对对象的某个局部进行跟踪,分层对象的产生)。
在第一个应用中将跟踪匀速运动的单个对象。这也是传统方法所处理的应用。但是在这些传统方法中某些方法要依赖于运动检测。换句话说,它们假设在场景中只有一个运动对象。所以在有多个运动对象或摄象机整体运动时这些方法可能会失败。为了显示本方法的坚实性,我们用“工头”序列中不连续的帧来进行人的跟踪:图20a到20f分别表示对序列中标号为5,20,85,130,155以及185的帧中的人进行跟踪。由于结合了空间和运动准则,即便是在摄象机整体运动的情况下也能跟踪对象。当屏幕中出现新对象(比如人的手)并且部分挡住了所选对象时,对人身体的跟踪不太完美。此外,由于手的空间信息与脸的纹理非常相似,所选对象的区域将在手的位置进行运动补偿。这样就将手包括到到了所选的对象之中。虽然这样,这种情况仍然并不妨碍对人身体的跟踪,即便是摄象机正在平摇。
在第二个应用中尽管整个对象具有同速的运动,仍然可对对象的局部单独进行跟踪。因此,所选对象的正确边界要根据空间的均匀性来确定。传统的技术由于主要依赖运动信息当遇到这个问题时通常会失败。从图21a到图21c给出了在“工头”序列中比如分别在第5,20和85帧中只跟踪人的头的结果(在前一种情况和这种情况下,在跟踪过程中五帧中只使用了一帧)。尽管对象没有呈现空间的均匀性并且是较大均速运动对象的局部,对象仍然能被正确跟踪。
在第三种应用中,假设序列已经被分成了视频对象(VOs)。所提出的技术能跟踪包含在多个VOs中的一个对象。这样就产生了目标的层次,就能够区划VOs。这种对象层次可以应用到基于内容的可升级编码中去。在不同的级上,特定对象的质量能得到提高。由于所提出的对象跟踪技术利用分水岭算法来获得终极分区,因此在生长过程中可以把VOs的形状作为一个约束。这样就能确保在VOs中不同的对象不会过度生长而超过它所关联的VO。图22a到图22c给出了在另一个序列(“天气“)的第125,225和250各帧的VO中对妇女头部的跟踪。尽管整个身体呈现相似的运动,头部还是可以单独跟踪。必须注意的是头部的形状总是包含在原始VO之中的,这样就产生了上面提到的层次。
在第四个应用中前面的思想被推广到一种普遍的情形,即在跟踪选定对象的同时在对象内部产生对象的层次。在这种情况下,在投影步骤中的细分区将不是二值的,因为它需要跟踪层次的不同对象。图23作为例子给出了在序列“母亲与女儿”的第0,49和218帧中对妇女头部的跟踪。在妇女的头中,可以选择并跟踪四个不同的对象(图23a到23c):即嘴,双眼和头发。然后在图中显示在与这些对象相关联的区域中的象素的灰度值(图23d到23f),而头部其它部分将用灰色显示。

Claims (9)

1.一种适用于图象序列的对象跟踪方法,所述的方法依次包括下列步骤:
(A)分割步骤,它确定了图象I(t-1)的第一次粗分区P(t-1)的区域,所述区域与被跟踪的对象相对应,以及在所述的粗分区P(t-1)基础上根据空间均匀性原则确定了细分区FP(t-1);
(B)投影步骤,它确定了所述细分区FP(t-1)在当前图象I(t)的投影PFP(t);
(C)所述投影细分区PFP(t)的重新标号步骤,它确定终极分区P(t);
其中所述的投影步骤依次包括下列子步骤:
(1)标记投影子步骤,它根据运动和空间信息得到当前图象的标记集合,所述标记投影子步骤本身依次包括下列步骤:
(a)基于在图象I(t-1)和I(t)之间的运动估计操作的对细分区FP(t-1)的反向运动补偿操作,它产生一个由被称为补偿标记所构成的经过补偿的细分区CFP(t-1);
(b)在所述经过补偿的细分区中的部分选择操作,用来在对应于粗分区P(t-1)中具有单个相同标号的所有可能不相连接的部分中仅仅选择那些对于每一个这类指定的标号中能满足一个几何准则的部分,其中按照该几何准则,在所述经过补偿的细分区中,如果具有给定标号k的部分包含小于给定百分数的具有标号k的所有象素,则将所述具有给定标号k的部分删除;
(2)分区生成子步骤,它利用所述经过补偿的标号集合的生长过程以便获得所述终极分区,所述分区生成子步骤本身依次包括下列步骤:
(c)标记的重新标号操作,它用于在从细分区FP(t-1)的一个区域建立了几个标号时,对除一个以外的所有这些标记进行重新标号;
(d)当前图象I(t)中所有被选标记的生长操作,它采用三维扩展的分水岭算法来进行,从而得到所述投影细分区PFP(t);
(e)所述投影细分区PFP(t)的区域合并操作,它使得在区域生长之后,前面图象中具有相同标号的区域将连接起来以便确定终极分区P(t)。
2.根据权利要求1的方法,其特征在于所述标记投影子步骤也依次包括:
(f)根据补偿后标记的梯度的清理操作;
(g)边界删除操作;
进行这两个操作的目的是确保投影标记灰度级的均匀性同时保持它们的同伦。
3.根据权利要求1和2中任何一条的方法,其特征在于所述的运动估计操作是一个后向块匹配过程,它保证在补偿操作之后,在当前图象I(t)中的每个象素都被赋值为来自粗分区P(t-1)的一个象素、且只是一个象素。
4.根据权利要求3中的方法,其特征在于在所述的部分选择操作中,如果在补偿的细分区CFP(t-1)中一个标号为k的不相连接的部分的所有象素中至少有给定比例数的象素有相同的标号k,那么该具有给定标号k的不相连接的部分将被选中。
5.根据权利要求4的方法,其特征在于所述的比例约为40%。
6.根据权利要求4的方法,其特征在于对每个所述的补偿标记而言,要计算被每个所述标记所覆盖的象素的梯度平均值,所有超过给定所述平均值门限的象素也将被划归到不确定的区域。
7.根据权利要求6的方法,其特征在于,对每个标记作重新标号的操作而言,将利用前一图象I(t-1)中的区域象素值和被所述标记所覆盖的象素的值来计算第二个平均值。
8.一种适用于图象序列的对象跟踪系统,所述的系统依次包括:
(A)分割装置,它确定了图象I(t-1)的第一次粗分区P(t-1)的区域,所述区域与被跟踪的对象相对应,以及在所述的粗分区P(t-1)基础上根据空间均匀性原则确定了细分区FP(t-1);
(B)投影装置,它确定了所述细分区FP(t-1)在当前图象I(t)的投影PFP(t);
(C)所述投影细分区PFP(t)的重新标号装置,它确定终极分区P(t);
其中所述的投影装置依次包括:
(1)标记投影装置,它根据运动和空间信息得到当前图象的标记集合,所述标记投影装置本身依次包括:
(a)基于在图象I(t-1)和I(t)之间的运动估计操作的对细分区FP(t-1)的反向运动补偿装置,它产生一个由被称为补偿标记所构成的经过补偿的细分区CFP(t-1);
(b)在所述经过补偿的细分区中的部分选择装置,用来在对应于粗分区P(t-1)中具有单个相同标号的所有可能不相连接的部分中仅仅选择那些对于每一个这类指定的标号中能满足一个几何准则的部分,其中按照该几何准则,在所述经过补偿的细分区中,如果具有给定标号k的部分包含小于给定百分数的具有标号为k的所有象素,则将所述具有给定标号的部分删除;
(2)分区生成装置,它利用所述经过补偿的标号集合的生长过程以便获得所述终极分区,所述分区生成装置本身依次包括:
(c)标记的重新标号装置,它用于在从细分区FP(t-1)的一个区域建立了几个标号时,对除一个以外的所有这些标记进行重新标号;
(d)用于生长当前图象I(t)中所有被选标记的装置,它采用三维扩展的分水岭算法来进行,从而得到所述投影细分区PFP(t);
(e)用于合并所述投影细分区PFP(t)的区域的装置,它使得在区域生长之后,前面图象中具有相同标号的区域将连接起来以便确定终极分区P(t)。
9.根据权利要求8的系统,其特征在于所述的标记投影装置在所述部分选择电路的输出端还依次包括清理电路,它用于确保投影标记的灰度均匀性同时保持它们的同伦。
CN98800419A 1997-02-06 1998-01-22 “图象分割和对象跟踪的方法和与其相对应的系统” Expired - Fee Related CN1120629C (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP97400269.3 1997-02-06
EP97400269 1997-02-06
EP97402558.7 1997-10-28
EP97402558 1997-10-28
PCT/IB1998/000086 WO1998035501A2 (en) 1997-02-06 1998-01-22 Image segmentation and object tracking method and corresponding system

Publications (2)

Publication Number Publication Date
CN1223056A CN1223056A (zh) 1999-07-14
CN1120629C true CN1120629C (zh) 2003-09-03

Family

ID=26147775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98800419A Expired - Fee Related CN1120629C (zh) 1997-02-06 1998-01-22 “图象分割和对象跟踪的方法和与其相对应的系统”

Country Status (7)

Country Link
US (1) US6130964A (zh)
EP (1) EP0893028A2 (zh)
JP (1) JP2000513897A (zh)
KR (1) KR100609249B1 (zh)
CN (1) CN1120629C (zh)
BR (1) BR9805971A (zh)
WO (1) WO1998035501A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420595B (zh) * 2007-10-23 2012-11-21 华为技术有限公司 一种描述和捕获视频对象的方法及设备

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937651B1 (en) * 1998-06-29 2005-08-30 Texas Instruments Incorporated Method and apparatus for compressing image information
US20010008561A1 (en) * 1999-08-10 2001-07-19 Paul George V. Real-time object tracking system
US7121946B2 (en) * 1998-08-10 2006-10-17 Cybernet Systems Corporation Real-time head tracking system for computer games and other applications
US7036094B1 (en) 1998-08-10 2006-04-25 Cybernet Systems Corporation Behavior recognition system
US6668083B1 (en) * 1998-10-09 2003-12-23 Koninklijke Philips Electronics N.V. Deriving geometrical data of a structure from an image
US7483049B2 (en) * 1998-11-20 2009-01-27 Aman James A Optimizations for live event, real-time, 3D object tracking
WO2000057360A1 (en) * 1999-03-18 2000-09-28 Koninklijke Philips Electronics N.V. Video signal processing
US7050606B2 (en) * 1999-08-10 2006-05-23 Cybernet Systems Corporation Tracking and gesture recognition system particularly suited to vehicular control applications
TW473645B (en) * 2000-11-22 2002-01-21 Elecvision Inc Method of displacement detection for digital camera
JP2002334338A (ja) * 2001-05-09 2002-11-22 National Institute Of Advanced Industrial & Technology 物体追跡装置及び物体追跡方法並びに記録媒体
US20050058322A1 (en) * 2003-09-16 2005-03-17 Farmer Michael E. System or method for identifying a region-of-interest in an image
US20060204115A1 (en) * 2003-03-03 2006-09-14 Dzevdet Burazerovic Video encoding
WO2007077283A1 (en) * 2005-12-30 2007-07-12 Nokia Corporation Method and device for controlling auto focusing of a video camera by tracking a region-of-interest
CN101087413B (zh) * 2006-06-07 2010-05-12 中兴通讯股份有限公司 视频序列中运动物体的分割方法
JP2007334631A (ja) * 2006-06-15 2007-12-27 Sony Corp 画像監視システムおよび物体領域追跡方法
US8300890B1 (en) * 2007-01-29 2012-10-30 Intellivision Technologies Corporation Person/object image and screening
US8027513B2 (en) 2007-03-23 2011-09-27 Technion Research And Development Foundation Ltd. Bitmap tracker for visual tracking under very general conditions
US9202190B2 (en) * 2007-05-29 2015-12-01 Sap Se Method for tracking and controlling grainy and fluid bulk goods in stream-oriented transportation process using RFID devices
US8233676B2 (en) * 2008-03-07 2012-07-31 The Chinese University Of Hong Kong Real-time body segmentation system
JP5128454B2 (ja) * 2008-12-17 2013-01-23 アイシン精機株式会社 瞼検出装置、瞼検出方法及びプログラム
US8724022B2 (en) * 2009-11-09 2014-05-13 Intel Corporation Frame rate conversion using motion estimation and compensation
JP5404918B2 (ja) 2010-03-15 2014-02-05 パナソニック株式会社 移動軌跡算出方法およびその装置、ならびに領域分割方法
TWI424361B (zh) * 2010-10-29 2014-01-21 Altek Corp 物件追蹤方法
US8704904B2 (en) 2011-12-23 2014-04-22 H4 Engineering, Inc. Portable system for high quality video recording
US8749634B2 (en) 2012-03-01 2014-06-10 H4 Engineering, Inc. Apparatus and method for automatic video recording
US9723192B1 (en) 2012-03-02 2017-08-01 H4 Engineering, Inc. Application dependent video recording device architecture
US9313394B2 (en) 2012-03-02 2016-04-12 H4 Engineering, Inc. Waterproof electronic device
EP2639745A1 (en) * 2012-03-16 2013-09-18 Thomson Licensing Object identification in images or image sequences
CN103778600B (zh) * 2012-10-25 2019-02-19 北京三星通信技术研究有限公司 图像处理系统
EP2874119A1 (en) * 2013-11-19 2015-05-20 Thomson Licensing Method and apparatus for generating superpixels
CN106157329B (zh) * 2015-04-20 2021-08-17 中兴通讯股份有限公司 一种自适应目标跟踪方法及装置
US10708571B2 (en) * 2015-06-29 2020-07-07 Microsoft Technology Licensing, Llc Video frame processing
DE102017010151A1 (de) 2017-11-02 2019-05-02 Dräger Safety AG & Co. KGaA lnfrarot-optische Gasmessvorrichtung

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658372A (en) * 1983-05-13 1987-04-14 Fairchild Camera And Instrument Corporation Scale-space filtering
FR2663178B1 (fr) * 1990-06-06 1995-07-21 Thomson Csf Procede d'estimation hierarchique du mouvement dans une sequence d'images.
EP0557007A2 (en) * 1992-02-15 1993-08-25 Sony Corporation Picture processing apparatus
US5577134A (en) * 1994-01-07 1996-11-19 Panasonic Technologies, Inc. Method and apparatus for encoding a segmented image without loss of information
US5594504A (en) * 1994-07-06 1997-01-14 Lucent Technologies Inc. Predictive video coding using a motion vector updating routine
US5608458A (en) * 1994-10-13 1997-03-04 Lucent Technologies Inc. Method and apparatus for a region-based approach to coding a sequence of video images
KR100242880B1 (ko) * 1994-12-29 2000-02-01 전주범 분할된 영역의 윤곽추적장치
KR0181036B1 (ko) * 1995-04-08 1999-05-01 배순훈 움직임 영상의 이동 물체 분할 및 그 움직임 추정방법
US5717463A (en) * 1995-07-24 1998-02-10 Motorola, Inc. Method and system for estimating motion within a video sequence
US5774591A (en) * 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
US5832115A (en) * 1997-01-02 1998-11-03 Lucent Technologies Inc. Ternary image templates for improved semantic compression

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420595B (zh) * 2007-10-23 2012-11-21 华为技术有限公司 一种描述和捕获视频对象的方法及设备
US8687064B2 (en) 2007-10-23 2014-04-01 Huawei Technologies Co., Ltd. Method and device for describing and capturing video object

Also Published As

Publication number Publication date
EP0893028A2 (en) 1999-01-27
JP2000513897A (ja) 2000-10-17
KR100609249B1 (ko) 2006-11-30
US6130964A (en) 2000-10-10
WO1998035501A3 (en) 1998-11-05
KR20000064847A (ko) 2000-11-06
CN1223056A (zh) 1999-07-14
BR9805971A (pt) 1999-08-31
WO1998035501A2 (en) 1998-08-13

Similar Documents

Publication Publication Date Title
CN1120629C (zh) “图象分割和对象跟踪的方法和与其相对应的系统”
US11398037B2 (en) Method and apparatus for performing segmentation of an image
US8798358B2 (en) Apparatus and method for disparity map generation
Pearson Developments in model-based video coding
US7085401B2 (en) Automatic object extraction
Aizawa et al. Model-based image coding advanced video coding techniques for very low bit-rate applications
Johnston et al. A review of digital video tampering: From simple editing to full synthesis
CN109005409A (zh) 一种基于目标检测与跟踪的智能视频编码方法
US9723296B2 (en) Apparatus and method for determining disparity of textured regions
JPH10228544A (ja) 特徴検出と固有顔の符号化を用いた、モデルに基づく顔の符号化と復号化
CN117649537B (zh) 监控视频对象识别跟踪方法、系统、电子设备及存储介质
Gu et al. Morphological moving object segmentation and tracking for content-based video coding
WO2012030602A2 (en) Method and apparatus for performing segmentation of an image
CN107358590B (zh) 基于超像素分割和相似组稀疏表示的立体视频误码掩盖方法
CN114202651A (zh) 一种增强感兴趣区域的图像超分方法、系统及介质
Guo et al. A study on the optimization simulation of big data video image keyframes in motion models
Aizawa Model-based video coding
Lei et al. How Many Events are Needed for One Reconstructed Image Using an Event Camera?
Gan et al. Object tracking and matting for a class of dynamic image-based representations
Fengchao et al. Video segmentation using multiple features based on EM algorithm
CN116912368A (zh) 一种图像动画生成方法、装置、设备及存储介质
Li et al. Extended signal-theoretic techniques for very low bit-rate video coding
Camps et al. System theoretic methods in computer vision and image processing
CN118196249A (zh) 一种基于mlu实现实时虚拟主播的方法及系统
CN116708707A (zh) 基于Diffusion网络的多机位虚拟背景生成方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: IPG ELECTRONICS 503 CO., LTD.

Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS CO., LTD.

Effective date: 20090828

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090828

Address after: British Channel Islands

Patentee after: Koninkl Philips Electronics NV

Address before: Holland Ian Deho Finn

Patentee before: Koninklike Philips Electronics N. V.

ASS Succession or assignment of patent right

Owner name: PENDRAGON WIRELESS CO., LTD.

Free format text: FORMER OWNER: IPG PHOTONICS 503 CORP.

Effective date: 20130104

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130104

Address after: Washington State

Patentee after: Pendragon wireless limited liability company

Address before: British Channel Islands

Patentee before: Koninkl Philips Electronics NV

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030903

Termination date: 20170122

CF01 Termination of patent right due to non-payment of annual fee