CN109598735A - 使用马尔科夫链跟踪和分割图像中的目标对象的方法以及使用该方法的设备 - Google Patents

使用马尔科夫链跟踪和分割图像中的目标对象的方法以及使用该方法的设备 Download PDF

Info

Publication number
CN109598735A
CN109598735A CN201811169514.4A CN201811169514A CN109598735A CN 109598735 A CN109598735 A CN 109598735A CN 201811169514 A CN201811169514 A CN 201811169514A CN 109598735 A CN109598735 A CN 109598735A
Authority
CN
China
Prior art keywords
node
area
interest
target object
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811169514.4A
Other languages
English (en)
Inventor
金镕重
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chastelard Vision Inc
Stradvision Inc
Original Assignee
Chastelard Vision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chastelard Vision Inc filed Critical Chastelard Vision Inc
Publication of CN109598735A publication Critical patent/CN109598735A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种使用吸收马尔可夫链跟踪视频数据帧中的目标对象的方法,包括以下步骤:(a)获取包含当前帧中的目标对象和前一帧中的目标对象的分割结果的边界框;(b)通过放大边界框以包含关于围绕目标对象的背景的一部分信息,获得当前帧中的感兴趣区域(ROI);(c)获取关于当前帧中ROI内的局部区域的信息;(d)使用当前帧中的感兴趣区域(ROI)内的至少部分局部区域和前一帧中感兴趣区域(ROI)内的局部区域来构造AMC图形;以及(e)通过使用AMC图中的各个节点的吸收时间对各个节点进行阈值化,获取当前帧内的目标对象的分割结果。

Description

使用马尔科夫链跟踪和分割图像中的目标对象的方法以及使 用该方法的设备
技术领域
本发明涉及一种使用吸收马尔可夫链(Absorbing Markov Chain,AMC)跟踪视频数据帧中的目标对象的方法和设备,以及使用该方法和设备分割图像中的目标对象的方法和装置。更具体地,涉及用于执行以下过程的方法和设备:(a)获取包含当前帧中的目标对象和前一帧中的目标对象的分割结果的边界框;(b)通过放大边界框以包含关于围绕目标对象的背景的一部分信息,获得当前帧中的感兴趣区域(ROI,regions of interest);(c)获取关于当前帧中ROI内的局部区域的信息;(d)使用当前帧中的感兴趣区域(ROI)内的至少部分局部区域和前一帧中感兴趣区域(ROI)内的局部区域来构造AMC图形;以及(e)通过使用AMC图中的各个节点的吸收时间对各个节点进行阈值化,获取当前帧内的目标对象的分割结果,其中,AMC图包括两个节点子集,其具有:(i)一组吸收节点,与包括前一帧中ROI内的背景信息的一些局部区域相对应,以及(ii)一组瞬态节点,与当前帧中ROI内的局部区域以及前一帧中ROI内的目标对象的分割结果相关的一些局部区域相对应,其中AMC图包括两个边界子集,其为一组帧内边界和一组帧间边界,并且其中各个节点具有它们自己的吸收时间,吸收时间是指从它们自身到任意吸收节点的步数。
背景技术
多种用于视觉跟踪的算法得以设计并应用于各种应用领域。视觉跟踪是一项具有挑战性的任务,因为跟踪目标的出现涉及重大变化,并且通常需要高级场景理解来处理异常情况。
通过检测算法进行跟踪是处理具有挑战性的任务的常用方法之一,其一般取决于用于表示目标对象的边界框。然而,当目标对象涉及大量非刚性或关节运动时,通过检测进行跟踪经常遭受漂移问题的困扰。
最近,已经积极地提出了通过仅依赖于像素级的信息的分割算法进行跟踪。然而,所提出的算法不足以对目标对象的语义结构进行建模,并且其中一些算法甚至利用外部分割算法,例如Grabcut。
结果,已经提出采用中级线索的视觉跟踪技术来处理非刚性和可变形的目标对象。例如,视觉跟踪技术之一使用超像素通过均值漂移聚类(mean-shift clustering)并通过结合粒子滤波(incorporating particle filtering)找到目标对象的最佳状态来进行辨别性外观建模(discriminative appearance modeling)。另一种视觉跟踪技术采用基于超像素的星座模型(constellation model)来处理目标对象的非刚性变形。
然而,上述两种视觉跟踪技术可能易于发现超像素之间的语义关系,因为两种技术都将每个超像素分别独立地分类为前景或背景。为了克服上述这两种技术的局限性,提出了一种基于使用多个量化等级(诸如像素、超像素和边界框)的目标对象外观的分层表示的技术。
此外,还提出了另一种使用动态多级外观建模的跟踪技术,该技术通过利用从三个不同等级获得的信息维持自适应聚类决策树。但是,它们都需要外部分割算法,诸如Grabcut。
因此,所有现有方法或算法都具有如上所述的缺点。
因此,在本发明的说明书中提出了一种通过具有使用吸收马尔可夫链的框架的分割算法的新跟踪。
特别地,使用AMC设计的算法非常适于来跟踪具有非刚性和关节运动目标对象。在设计的框架内自然地获得目标对象的分割以及初始分割掩码。
所设计的算法基于投影操作的结果准确地区分前景和背景对象,所述投影操作比度量学习更有效地辨别目标对象的特征。
发明内容
本发明的一个目的是解决上述所有问题。
本发明的另一个目的是通过对非刚性和可变形目标对象视觉跟踪应用吸收马尔可夫链(AMC)的分割算法和框架提供一种简单、新颖和强大的跟踪。
本发明的另一个目的是通过将目标对象的特征投影到嵌入空间中的超平面上,以高精度跟踪和分割目标对象。
本发明的另一个目的是实现与现有技术的基于分段的跟踪算法相比显著改进的性能。
根据本发明的一个方面,提供了一种使用吸收马尔可夫链通过执行以下过程来跟踪视频帧中的目标对象的方法:(a)获取或支持另一设备获取包含当前帧中的目标对象和前一帧中的目标对象的分割结果的边界框;(b)通过放大边界框以包含关于围绕目标对象的背景的一部分信息,获得或支持另一设备获得当前帧中的感兴趣区域(ROI);(c)获取或支持另一设备获取关于当前帧中ROI内的局部区域的信息;(d)使用或支持另一设备使用当前帧中的感兴趣区域(ROI)内的至少部分局部区域和前一帧中感兴趣区域(ROI)内的局部区域来构造AMC图形;以及(e)通过使用AMC图中的各个节点的吸收时间对各个节点进行阈值化,获取或支持另一设备获取当前帧内的目标对象的分割结果,其中,AMC图包括两个节点子集,两个节点子集具有:(i)一组吸收节点,与前一帧中ROI内的背景有关的局部区域相对应,以及(ii)一组瞬态节点,与前一帧中目标对象的分割结果内的局部区域以及当前帧中ROI内的局部区域相对应,其中AMC图包括两个边界子集:一组帧内边界和一组帧间边界,并且其中各个节点具有它们自己的吸收时间,即从它们自身到任意吸收节点的步数。
根据本发明的另一方面,提供了一种使用吸收马尔可夫链(AMC)通过执行以下过程来分割图像中的目标对象的方法:(a)获取或支持另一设备获取包含图像中的目标对象的边界框;(b)通过放大边界框以包含关于围绕目标对象的背景的一部分信息,获得或支持另一设备获得图像中的感兴趣区域(ROI);(c)获取或支持另一设备获取关于图像中ROI内的局部区域的信息;(d)使用或支持另一设备使用图像中的ROI内的至少部分局部区域构造AMC图;(e)通过使用AMC图中的各个节点的吸收时间对各个节点进行阈值化,获取或支持另一设备获取图像内的目标对象的分割结果,其中,AMC图包括两个节点子集,其具有:(i)一组瞬态节点,对应于在图像中与边界框重叠超过特定百分比的局部区域;以及(ii)一组吸收节点,与图像中ROI内的未被确定为瞬态节点的一部分局部区域相对应,并且其中AMC图中的瞬态节点和吸收节点的每一个具有它们各自的吸收时间,吸收时间是从它们自身到任意吸收节点的步数。
根据本发明的另一个方面,提供了一种用于使用吸收马尔可夫链(AMC)跟踪视频数据帧中的目标对象的设备,包括:用于获取视频数据的通信部分;以及处理器,用于执行以下过程:(i)获取或支持另一设备获取包含视频数据内的当前帧中的目标对象和视频数据内的前一帧中的目标对象的分割结果的边界框;(ii)通过放大边界框以包含关于围绕目标对象的背景的一部分信息,获得或支持另一设备获得当前帧中的感兴趣区域(ROI);(iii)获取或支持另一设备获取关于当前帧中ROI内的局部区域的信息;(iv)使用或支持另一设备使用当前帧中的感兴趣区域(ROI)内的至少部分局部区域和前一帧中感兴趣区域(ROI)内的局部区域来构造AMC图;以及(v)通过使用AMC图中的各个节点的吸收时间对各个节点进行阈值化来获取或支持另一设备获取当前帧内的目标对象的分割结果,其中,AMC图包括两个节点子集,两个节点子集具有(i)一组吸收节点,与包含关于前一帧中的ROI内背景的信息的局部区域相对应,以及(ii)一组瞬态节点,与当前帧中ROI内的局部区域和与前一帧中ROI内的目标对象的分割结果相关的局部区域相对应,并且其中AMC图包括两个边界子集,两个边界子集是一组帧内边界和一组帧间边界,并且其中各个节点具有它们各自的吸收时间,吸收时间是从它们自身到任意吸收节点的步数。
根据本发明的又一个方面,提供了一种使用吸收马尔可夫链(AMC)分割图像中的目标对象的设备,包括:用于获取图像的通信部分;处理器,用于执行(i)获取或支持另一设备获取包含图像中的目标对象的边界框;(ii)通过放大边界框以包含目标对象周围的背景的一部分,获得或支持另一设备获得图像中的感兴趣区域(ROI);(iii)获取或支持另一设备获取关于图像中ROI内的局部区域的信息;(iv)使用或支持另一设备使用图像中ROI内的至少部分局部区域来构造AMC图;以及(v)通过使用AMC图中的各个节点的吸收时间对各个节点进行阈值化,获取或支持另一设备获取图像内的目标对象的分割结果,其中,AMC图包括两个节点子集,其具有:(i)一组瞬态节点,对应于在图像中与边界框重叠超过特定百分比的局部区域;以及(ii)一组吸收节点,与图像中ROI内的未被确定为瞬态节点的一部分局部区域相对应,并且其中AMC图中的瞬态节点和吸收节点的每一个具有它们各自的吸收时间,吸收时间是从它们自身到任意吸收节点的步数。
附图说明
通过以下结合附图给出的优选实施例的描述,本发明的上述目的和技术特征将变得显著,其中,在几个视图中相同的附图标记表示相同的部分,其中:
图1是示出帧中的感兴趣区域(ROI)的图,通过将中级分割算法应用于帧中的感兴趣区域,帧中的感兴趣区域(ROI)被分割成多个中级线索(例如,超像素);
图2是示意性地示出构造具有从超像素获得的原始特征的吸收马尔可夫链(AMC)图的过程的图;
图3是示意性地示出根据本发明的一个示例实施例的构造具有两个连续帧的吸收马尔可夫链(AMC)图的过程的图;
图4A是示意性地示出根据本发明的一个示例实施例在嵌入空间中构造具有投影特征的AMC图的过程的图;
图4B是展示根据本发明的一个示例实施例的通过使用特定回归模型及其等式在嵌入空间中构造具有投影特征的AMC图的过程的图;
图5A是示出根据本发明的一个示例实施例的构造具有颜色特征和特定回归模型的AMC图的过程的图;
图5B是示出根据本发明的一个示例实施例在AMC图内构造帧间边界的方法的图;
图6是示出根据本发明的一个示例实施例的获得初始分割掩码的过程的图;
图7是示例性地示出根据本发明示例实施例的目标对象的跟踪结果的图,跟踪结果包括目标对象的分割掩码、分割结果和边界框;
图8A是示例性地示出目标对象的地面真值(GT,ground truth)分割结果的图;
图8B是示例性地示出通过对原始特征使用所公开的跟踪算法获得的目标对象的分割结果的图;
图8C是示例性地示出通过对投影特征使用所公开的跟踪算法获得的目标对象的分割结果的图;
图8D是示例性地示出根据本发明一个示例实施例的帧的ROI内的超像素的原始特征的投影结果的图;
图9是示出根据本发明的一个示例实施例的权重调整所使用的不同系数对分割结果的影响的图;
图10是示例性地示出根据本发明的一个示例实施例的将基于不同吸收时间的分割结果进行比较的图;
图11是示例性地示出了根据本发明的一个示例实施例的采用整体外观模型的益处的图;
图12是示例性地示出根据本发明的一个示例实施例将超像素的1跳(1-hop)和2跳(2-hop)邻域系统(neighborhood system)的合并结果进行比较的图。
具体实施方式
为了使本发明的目的、技术特征和优点清楚和显著,参考附图,附图通过图示的方式示出了可以实现本发明的更详细的示例实施例或优选实施例。对这些实施例进行足够详细的描述,使得本领域技术人员能够实施本发明。
应该理解,虽然本发明的多种实施例彼此不同,但不必相互排斥。例如,在不脱离本发明的精神和范围的情况下,可以在其它实施例中实现本文结合一个实施例描述的特定特征、结构或特性。另外,应该理解,在不脱离本发明的精神和范围的情况下,可以修改或替换每个公开的实施例中的单个元件的位置或布置。因此,以下详细描述不应被视为具有限制的含义,并且本发明的范围仅由所附权利要求连同权利要求所赋予的等同物的全部范围限定,并适当地解释。在附图中,在几个视图中类似的附图标记表示相同或相似的功能。
本发明公开的跟踪算法旨在跟踪视频数据(例如视频序列或视频帧)中的目标对象,其中目标对象快速且连续地改变它们的大小或运动。诸如“帧”、“图像”和“帧图像”等术语在本公开中可互换使用。
图1是示出帧中的感兴趣区域(ROI)100的图,通过将中级分割算法应用于帧中的感兴趣区域,帧中的感兴趣区域(ROI)100被分割成多个中级线索(例如,超像素101)。
本发明的跟踪算法将超像素101指定为中级像素,但不一定限于此。结合诸如SLIC的超像素分割算法以获得帧中的感兴趣区域(ROI)100内的一组超像素101。
按如下方式获取一组超像素101:将帧中的ROI 100划分为多个局部区域,然后将各个局部区域内的像素聚类成超像素。帧中的ROI 100内的超像素的数量与帧中的ROI 100的大小成比例。这里,每帧中的每个ROI内的超像素的最大数量被设置为600。作为参考,局部区域由超像素表示,但是对于本领域技术人员显而易见的是,局部区域可以不限于此。
类似超像素101的中级线索由于其在代表方面的有效性而被用于各种计算机视觉任务。与来自边界框或像素的信息相比,中级线索(例如,超像素101)可以有效地对目标对象的特征级和语义级信息进行建模。另外,超像素101的使用大大降低了复杂图像处理和计算机视觉任务的复杂性,因为显然超像素的数量远小于像素的数量。
图2是示意性地示出构造具有从超像素101获得的原始特征的吸收马尔可夫链(AMC)图203的过程的图。
参考图2,B1、B2和B3 202表示背景特征,而F1,F2,F3和F4 201表示特征空间200中的前景特征。各个前景特征201被转换成AMC图203中的各个瞬态节点204。然而,各个背景特征202被转换成AMC图203中的各个吸收节点205。
图3是示意性地示出根据本发明的一个示例实施例构造具有两个连续帧的吸收马尔可夫链(AMC)图的过程的图。
参考图3,跟踪算法使用如图3所示的两个连续帧t 301和t-1 302中的感兴趣区域(ROI)100内的所有超像素101来构造AMC图203。这里,两个连续帧代表在时域中彼此相邻的帧,但是不一定限于此。与前一帧t-1 302中的背景超像素304相对应的顶点(即节点)用于创建吸收节点205,而两帧中的前景超像素303和帧t 301中的背景超像素306都被映射到AMC图203中的瞬态节点204。值得注意的是,表示帧t 301中的背景超像素306的B1是这种情况。
另外,AMC图203中存在两种类型的边界。一组帧内边界和一组帧间边界构成AMC图203中的整个边界。跟踪算法可以利用帧t 301的ROI中的任意两个相邻超像素或者利用帧t-1 302的ROI中的任意两个相邻超像素创建AMC图203中的帧内边界中的一个。此外,跟踪算法可以通过结合运动信息来创建AMC图203中的帧间边界中的一个,以确定两个连续帧t301和t-1 302中的超像素之间的时间邻接。视情况而定,可以使用彼此不相邻的两个不同帧来创建帧间边界中的一个。
也就是说,通过利用运动信息建立的空间邻近来创建帧间边界,而帧内边界基于同一帧中邻接的顶点连接2跳内的超像素。作为参考,1跳内的节点表示直接邻接者(neighbor),而2跳内的节点表示直接邻接者的邻接者。除了进入吸收节点205的边界之外,AMC图203中的所有边界都是双向的并且具有对称的边界权重。这样的边界是单向的以满足AMC图203的吸收特性。
图4A是示意性地示出根据本发明的一个示例实施例在嵌入空间中构造具有投影特征的AMC图的过程的图。
参考图4A,特征空间200中的超像素的特征被分类为两种类型,例如,前景特征201和背景特征202。将与要跟踪的目标对象相关的区域内的超像素指定为前景超像素,或者前景特征201,而将不与目标对象相关的超像素分类为背景特征,或者背景超像素202。
如图4A所示,通过使用具有至少一个回归的回归模型来执行投影。在嵌入空间400中的投影超平面401上,从相同或相似区域提取的特征之间具有较高的相似度,而从其中不同区域提取的特征之间具有较低的相似度。对超像素的原始特征进行投影可以提高分割结果(即跟踪结果)的准确性。
图4B是展示根据本发明的一个示例实施例的通过使用特定回归模型及其等式在嵌入空间中构造具有投影特征的AMC图的过程的图。
参考图4B,作为示例,使用下面描述的等式和进程简要地说明计算过程。在对相应的超像素的原始特征进行投影之后,从相同或相似区域提取的特征具有相同的标签,例如,两者都是+1或-1,而从不同区域提取的特征具有相反的标签,例如,+1和-1。
此外,值得注意的是,在AMC图203中与两个节点(例如,从相同或相似区域提取的两个特征)相关联的回归分数403的相似度404的数值显著高于在AMC图203中与另外两个节点(例如,从不同区域提取的两个特征)相关联的回归分数403的相似度404的数值
作为图4B所示的示例,回归分数403中F1和F3之间的相似度404,(即AMC图203中连接节点F1和F3的边界的边界权重)为0.61,而B1和B3的回归分数403之间相似度404为0.74,F3和B2的回归分数403之间的相似度404为0.13。因此,在AMC图203中将两个节点的回归分数403之间较高的相似度(即,较高的边界权重)描绘得更粗,并且具有较高边界权重的边界将其特征是从相同或相似的区域(例如,前景或背景)中提取的两个节点连接。通过图4B中所示的数值证明了投影超像素的原始特征的有效性。
图5A是示出根据本发明的一个示例实施例的构造具有颜色特征和特定回归模型的AMC图的过程的图。
参考图5A,给出了关于构造AMC图203的过程的更详细的图示。帧t 301(即当前帧)中的ROI 100,是通过将围绕目标对象502(即前景)的边界框放大获得的,例如,以固定中心点放大1.7倍。通过将光流(optical flow)应用于帧t-1 302(即前一帧)中的分割结果来获取边界框。详细地,通过扭转(warping)前一帧中目标对象502的分割结果,然后找到包括扭转结果的最紧密的边界框来获取包括当前帧中的目标对象502的边界框。通过利用关于像素(pixel-wise)的光流估计目标对象502的运动来获得扭转结果。换句话说,跟踪算法通过找到目标对象502的明显运动的模式来扭转前一帧的ROI 100内的超像素。这里,采用EPPM来获得关于像素的光流,但是它不一定局限于此。
在使用当前帧t 301和前一帧t-1 302的ROI 100内的所有超像素构造AMC图203之后,通过使用AMC图203中的各个节点的吸收时间对各个节点进行阈值化来获取当前帧内的目标对象502的分割结果。当前帧中的目标对象502的分割结果可以以递归方式传播到后续帧,以获得一系列跟踪结果。
作为参考,每个节点具有它自己的吸收时间,该吸收时间是通过随机游走从其自身到AMC图203中的任意吸收节点205的步数。并且基于通过对当前帧中ROI 100内的所有瞬态节点204的吸收时间进行平均所确定的阈值,对各个节点进行阈值化,但是不限于此。或者,也可以通过使用当前帧301中ROI 100内的至少部分瞬态节点204来确定阈值。
同时,通过执行参考超像素的原始特征的特性进行选择的操作,通过将当前帧301和前一帧302中的ROI 100内的所有超像素的原始特征投影到嵌入空间中的超平面上,可以显著提高目标对象的分割结果。
例如,如图5所示,如果选择LAB空间503中的平均颜色作为每个超像素的特征,并且如果采用支持向量回归机(SVR,Support Vector Regressor)504作为回归模型,则如上所述与端部超像素相关联的回归分数的相似度确定AMC图203中每个边界的边界权重。
再次参考图5A,在AMC图203中描绘得更粗的边界表示在AMC图203中的任意两个相连节点的回归分数之间的相似度较高。这里,通过训练支持向量回归机(SVR)504获得回归分数,该向量回归机使具有不同标签的超像素之间的差异最大化,同时使具有相同标签的超像素之间的差异最小化。
也就是说,因为具有相同标签的节点(即顶点)的边界权重应大于具有不同标签的节点的边界权重,所以可以获取前景和背景的超像素之间的差异最大化,同时相同区域(例如,前景或背景)内的超像素之间的差异最小化的对比分数。
这里,如上所述,在AMC图203中的各个节点中,对于分类为前景的节点,标签表示为+1,对于分类为背景的节点,标签表示为-1。作为参考,每个超像素的特征可以是通过深度学习获得的颜色、图案或特征向量。
具体地,支持向量回归机(SVR)504的目标函数定义如下:
s.t.yi-(w,Φ(xi)>-b≤ε+ξi,ξi≥0,
其中x是特征而C是常数,例如10,并且Φ:表示非线性特征映射函数。径向基函数用作隐式非线性特征映射的核,如下所示:
其中γ是常数,例如1。在训练回归元(regressor)之后,由下式给出任意输入特征的回归分数,例如特征向量:
ri=f(xi)=<w,Φ(xi)> (等式3)
也就是说,通过使用与AMC图203中的各个节点相关联的各个超像素的投影特征,通过上述等式获取与各个节点相关联的各个回归分数。然后,通过计算端节点的回归分数之间的相似度来获得每个边界的边界权重。所述等式如下:
其中,ri和rj是两个相连节点的回归分数,其中σr是常数,例如,0.1。
作为参考,为了训练SVR 504的回归元,可以将与前一帧和第一帧(即初始帧)中的目标对象502相关的超像素,视为前景节点,而将除了与前一帧和第一帧中的目标对象502相关的超像素和在当前帧中ROI 100的边界处的超像素之外的超像素视为背景节点。这里,在当前帧中ROI 100的边界处的超像素表示看不见的背景,并且利用来自第一帧的信息来避免漂移问题。
图5B是示出根据本发明的一个示例实施例在AMC图内构造帧间边界的方法的图。
参考图5B,示出了两个不同的帧。本文中两个不同的帧是表示为帧t-1 302和帧t301的两个连续帧,但是对于本领域技术人员显而易见的是,两个不同的帧不限于此。
在图5B中,每个正方形可以表示像素。在各个帧中具有相同亮度的正方形指示它们在相同的局部区域(例如,超像素)内。各个帧的局部区域(例如,超像素)的形状可以是不同的,因为可以改变每个帧中的目标对象502或背景的颜色或轮廓。
可以通过使用关于像素的光流来创建帧间边界,但是不一定限于此。图5B中的带箭头的直线可以表示对于在帧t-1中具有深灰色的超像素505内的每个像素所计算的光流。在帧t中的超像素506包含原来属于超像素505的任意一个像素的情况下,帧t内的任意超像素可以在帧t-1中创建具有深灰色超像素505的帧间边界。在图5B中的两条曲线可以表示因此的相应帧间边界。
详细地,在帧t-1中具有深灰色的超像素505与帧t中具有相同深灰色的超像素506之间创建帧间边界中的一个,而在帧t-1中具有相同深灰色的超像素505与帧t中具有白色的超像素507之间创建帧间边界中的另一个。作为参考,对于两种类型的边界(即,AMC图中的帧间边界和帧内边界)计算边界权重没有区别。
图6是示出根据本发明的一个示例实施例的获得初始分割掩码的过程的图。
如图6所示,可以通过简单地计算仅具有帧内边界的初始AMC图中的所有瞬态节点的吸收时间,并且对所有瞬态节点的吸收时间进行阈值化来获得初始分割掩码603。在初始AMC图中没有帧间边界,其通过仅使用与视频数据的第一帧相对应的初始帧来构造。在视频数据的初始帧中,可以通过各种方式给出目标对象的边界框。
详细地,跟踪算法将初始帧中的边界框外的超像素602表示为初始AMC图中的吸收节点并将与前景相关的超像素601表示为瞬态节点,并通过对初始AMC图中的各个瞬态节点的各个吸收时间进行阈值化来获得初始分割掩码603。
具体地,初始AMC图中的瞬态节点由与目标对象的地面真值(GT)边界框重叠超过特定百分比(例如,50%)的超像素给出,初始AMC图中的吸收节点由与目标对象的扩展边界框,即感兴趣区域(ROI)100内的那些瞬态节点不对应的超像素给出。
图7是示例性地示出根据本发明示例实施例的目标对象的跟踪结果的图,跟踪结果包括目标对象的分割掩码、分割结果和边界框。
参考图7,跟踪结果包括通过使用AMC图形203中的各个节点的吸收时间对这些节点进行阈值化而获取的目标对象703的分割结果、分割掩码702和边界框701,但是跟踪结果可能不限于此。随机游走者追踪AMC图203以参考转移概率获得AMC图203中的各个节点的吸收时间。在以下描述中更详细地描述转移概率。
图8A是示例性地示出目标对象的地面真值(GT)分割结果的图。
具体地,图8A的右下角的“100.0”指出图8A表示GT分割结果本身。
为了比较图8B至8C中的各个重叠率,重叠率可以被定义为目标对象的GT分割结果801和目标对象的估计分割结果(例如,802和803)两者的像素交集与它们的像素的并集的比率。在这种情况下,要跟踪的目标对象是篮球运动员。
图8B是示例性地示出通过对原始特征使用所公开的跟踪算法获得的目标对象的分割结果的图。
参考图8B,通过采用所设计和公开的跟踪算法完成将目标对象,即篮球运动员与他的背景分割。跟踪算法使用如上所述从前一帧传播的分割结果。这里,各个超像素的原始特征被定义为超像素内的像素的平均RGB值。
如图8B所示,帧图像背景中观众的面部和手的部分被视为前景。因此,跟踪算法可能由于丢失的前景超像素而生成分段的目标分割掩码,并且所生成的目标分割掩码可能包含假正类超像素。
由于选择了颜色值作为特征描述符,因此对跟踪算法来说,将背景中的观众特征与篮球运动员(即目标对象)的特征区分开来有点挑战性,因为背景中的观众的面部和手的颜色值与要跟踪的目标对象(即篮球运动员)的皮肤的颜色值相同或相似。因此,该分割结果802的重叠率是68.6。
相应地,在不投影超像素的原始特征的情况下,由于前景超像素与背景超像素之间的意外特征相似性和/或前景超像素之间的潜在特征相异性,分割结果802或目标分割掩码可能是有噪声的。
图8C是示例性地示出通过对投影特征使用所公开的跟踪算法获得的目标对象的分割结果的图。
参考图8C,通过将与目标对象相关的特征投影为1而将与背景相关的特征投影为0来获取目标对象的分割结果803。如图8C中的重叠率91.9所揭示的,利用被设计为如图8B和8C所示的分割结果的跟踪算法来使用超像素的投影特征比使用其原始特征更有效。
图8D是示例性地示出根据本发明的一个示例实施例的帧的ROI内的超像素的原始特征的投影结果的图。
如图8D所示,ROI 100内的一部分超像素的投影特征值由白色和亮色描绘,因为其投影特征值更接近1,而ROI 100内的另一部分超像素的投影特征值由黑色和暗色描绘,因为其投影特征值更接近0。在图8D中表示为804的超像素是假正类超像素,而在其中表示为805的超像素是假负类超像素。也就是说,即使利用投影,仍然可能存在错误分类的超像素,但是如图中的重叠率所示,分割结果得以显著改善。
图9是示出根据本发明的一个示例实施例的权重调整所使用的不同系数对分割结果的影响的图。
参考图9(A),示出了用于特定目标对象连续改变其运动的视频序列的输入帧,图9(B)显示特定目标对象(即,女体操运动员)的地面真值(GT)分割结果。
可以基于AMC图203中的所有边界的对应边界权重为AMC图203中的所有边界获得上述转移概率。然而,可以调整相应的边界权重以增加前景和背景超像素的吸收时间的区别性。
可以通过以下等式获取各个调整的边界权重:
其中vi,vj∈VT,vk∈VA,并且
其中,VT是瞬态节点的集合,VA是吸收节点的集合。系数πt和πa分别基于各个边界的类型与各个边界权重相乘。作为参考,定义了两种类型的边界:(1)连接任意两个瞬态节点的瞬态边界和,(2)将瞬态节点其中之一与吸收节点其中之一连接的吸收边界。所有瞬态边界都是双向的,而所有吸收边界都是单向的。
具体地,如果qij表示每个瞬态边界的每个转移概率,rik表示吸收边界的转移概率,则通过设置系数πta,跟踪算法可以促进从与背景相关的节点开始的随机游走的快速吸收,因此会导致更显著的吸收时间。
在图9(C)和图9(D)中,揭示了系数πt和πa的参数设置对分割结果的影响。如果对于吸收和瞬态边界,转移概率被相等地加权,即πt=πa,则背景超像素经常被错误标记为如图9的(C)中所示的前景特征,并且因此导致对于特定目标对象的假正类分割结果。
然而,如果转移概率对于吸收边界的权重比转移概率对于瞬态边界的权重更重,如图9的(D)所示,则所获得的特定目标对象的分割结果更接近如图9(B)中所示的GT分割结果。用跟踪算法不仅可以修改边界权重也可以修改吸收时间。
图10是示例性地示出根据本发明的一个示例实施例的将基于不同吸收时间的分割结果进行比较的图。
在图10(A)中,示出了用于特定目标对象(即跳水运动员)的视频序列的另一输入帧,其正在快速改变她的运动。并且图10(B)示出了用于特定目标对象的地面真值(GT)的分割结果。
初始吸收时间计算在每个瞬态节点上花费的时间,直到随机游走者到达任一吸收节点,在该吸收节点内,与看不见的背景相对应的超像素通常具有大的吸收时间,因此导致对于特定目标对象的错误分割结果,如图10(C)所示。然而,修改的吸收时间计算随机游走者经过瞬态节点的次数。另外,修改的吸收时间对于处理如图10(D)中所示的看不见的背景区域更有效。而且,基于调整的边界权重获取修改的吸收时间。此外,本文所公开的跟踪算法可以通过采用全局外观模型来提高特定目标对象的分割结果的准确性。
图11是示例性地示出根据本发明的一个示例实施例将超像素的1跳和2跳邻域系统的合并结果进行比较的图。
为了减轻图10的(D)中所示的碎片问题,所设计的跟踪算法可以获取AMC图203(即,前景超像素)中阈值化过的瞬态节点的一定跳数内的多个相连的组件。
例如,跟踪算法可以将AMC图203中在2跳内连接的前景片段组合在一起,以构造特定目标对象的候选区域。在两跳之内合并节点之后,跟踪算法在多个相连的组件(即候选区域)中选择一个相连的组件,其中所选择的一个相连的组件是与输入帧中的特定目标对象的全局外观模型最相似的相连的组件。
这里,全局外观模型可以是基于前景的分割掩码中的像素的归一化颜色直方图的整体外观模型,但是不必限于此。
在图11的(A)和(B)中分别示出了与在AMC图203中在1跳和2跳内的特定目标对象相对应的合并节点的比较结果。所示的边界框可以表示特定目标对象的候选区域,而具有较暗颜色的边界框指示特定目标对象的分割结果。
图12是示例性地示出了根据本发明一个示例实施例的采用整体外观模型的益处的图。
在图12(A)和图12(B)这两个图中,目标对象都有两个候选区域。所公开的跟踪算法可以使用基于颜色直方图的整体外观模型为目标对象选择正确的候选区域。此外,跟踪算法可以基于所选择的一个相连的组件在帧图像中选择目标对象的分割结果,由此获取可能包括相应跟踪框的跟踪结果。
此外,通过挑战下面描述的基准数据集来评估本发明公开的跟踪算法及其各种实施例。在下表1和表2中已经总结并提供了评估结果。用于评估的五个独立数据集是非刚性对象跟踪数据集(NR)、广义背景减影数据集(GBS)、视频显著性数据集(VS)、SegTrack v2数据集(ST2)和DAVIS数据集。
所公开的跟踪算法的各种优选实施例可以包括无回归的AMCT(AMCT-NR)、无全局外观模型的AMCT(AMCT-NA)、以及包含CNN特征描述符(AMCT+CNN)的AMCT,在其中通过卷积神经网络(CNN)导出当前帧和前一帧中的ROI内每个超像素的特征。与所公开的跟踪算法的其他优选实施例相比,AMCT+CNN是缓慢的,因为SVR训练对于CNN特征的高维度而言实质上是慢的。作为参考,AMCT表示AMC跟踪。
AMCT AMCT-NA AMCT-NR AMCT+CNN OGBDT SPT
NR 58.6 49.3 23.1 66.3 53.3 29.7
GBS 74.8 70.4 53.0 77.1 59.7 45.9
VS 84.1 83.8 71.4 82.3 79.8 61.0
ST2 58.8 60.7 47.2 71.3 47.6 26.3
DAVIS 59.2 56.9 41.2 65.1 44.9 27.1
表1.根据分割算法的跟踪的分割掩码的平均重叠率
表2.根据分割算法的跟踪的边界框的平均重叠率
表1和表2总结了所有算法对于五个数据集的总体性能的比较。与其它跟踪方法,诸如SPT和OGBDT的分割领域目前最先进的跟踪算法相比,所公开的跟踪算法的变化可以在分割掩码和边界框重叠率方面表现出优异的性能。特别地,AMCT和AMCT+CNN大幅度优于所有测试的数据集中用于边界框预测的最先进的跟踪算法。这主要是因为边界框跟踪无法跟随高度清晰或可变形的目标对象。
这里,可以采用具有至少一个处理器(未示出)以执行上面描述的操作或计算的任何数字计算设备作为用于执行本发明的跟踪算法的适当设备。设备的通信部分(未示出)可以被配置为获取图像帧,即视频数据。
如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件,或者可以用于相关领域的技术人员。计算机可读记录介质包括诸如硬盘、软盘和磁带之类的磁介质,诸如CD-ROM(只读光盘)和DVD(高密度数字视频光盘)之类的光学介质,诸如光磁盘之类的磁光介质以及诸如ROM、RAM和闪存之类的专门设计用来存储和执行程序的硬件设备。程序命令不仅包括由编译器产生的机器语言代码,还包括可通过使用解释器等来由计算机设备执行的高级代码。上述硬件设备可以不仅用于执行本发明的动作的软件模块,并且在相反的情况下它们可以做同样的事情。
如上所述,已经通过诸如详细部件、有限的实施例和附图的特定事项具体描述了本发明。虽然已经参考优选实施例示出和描述了本发明,但是本领域技术人员可以理解,在不脱离如以下权利要求所限定的发明的精神和范围的情况下,可以进行各种改变和修改。
因此,本发明的思想不应局限于所解释的优选或示例实施例,并且以下专利权利要求以及包括与专利权利要求相同或等同变型的所有内容都属于本发明的思想范畴。

Claims (30)

1.一种使用吸收马尔可夫链跟踪视频数据帧中的目标对象的方法,包括以下步骤:
(a)计算设备获取或支持另一设备获取包含当前帧中的所述目标对象和前一帧中的所述目标对象的分割结果的边界框;
(b)通过放大所述边界框以包含关于围绕所述目标对象的背景的一部分信息,所述计算设备获得或支持另一设备获得所述当前帧中的感兴趣区域;
(c)所述计算设备获取或支持另一设备获取关于所述当前帧中所述感兴趣区域内的局部区域的信息;
(d)所述计算设备使用所述当前帧中的感兴趣区域内的至少部分所述局部区域和所述前一帧中感兴趣区域内的局部区域来构造或支持另一设备构造吸收马尔可夫链图;以及
(e)通过使用所述吸收马尔可夫链图中的各个节点的吸收时间对所述各个节点进行阈值化,所述计算设备获取或支持另一设备获取所述当前帧内的所述目标对象的分割结果,
其中,所述吸收马尔可夫链图包括两个节点子集,所述两个节点子集具有:(i)一组吸收节点,与包含关于所述前一帧中的所述感兴趣区域内背景的信息的局部区域相对应;以及(ii)一组瞬态节点,与所述当前帧中所述感兴趣区域内的所述局部区域和与所述前一帧中所述感兴趣区域内的所述目标对象的所述分割结果相关的局部区域相对应,,并且其中所述吸收马尔可夫链图包括两个边界子集,所述两个边界子集是一组帧内边界和一组帧间边界,并且其中所述各个节点具有它们各自的吸收时间,所述吸收时间是从它们自身到任意吸收节点的步数。
2.根据权利要求1所述的方法,在所述步骤(d)之前,还包括以下步骤:通过执行由参考原始特征的特性确定的特定操作,所述计算设备将所述当前帧中所述感兴趣区域内的每个所述局部区域的原始特征和所述前一帧中所述感兴趣区域内的每个所述局部区域的原始特征投影到嵌入空间上,或支持另一设备将所述当前帧中所述感兴趣区域内的每个所述局部区域的原始特征和所述前一帧中所述感兴趣区域内的每个所述局部区域的原始特征投影到嵌入空间上。
3.根据权利要求2所述的方法,其中,通过使用具有至少一个回归元的回归,所述计算设备投影或支持另一设备投影所述当前帧中所述感兴趣区域内的每个所述局部区域的原始特征和所述前一帧中所述感兴趣区域内的每个所述局部区域的所述原始特征。
4.根据权利要求3所述的方法,其中,所述步骤(d)包括以下步骤:
(d-1)所述计算设备获取或支持另一设备获取与所述吸收马尔可夫链图中的每个节点相关联、并通过使用所述当前帧中所述感兴趣区域和所述前一帧中所述感兴趣区域内的所述局部区域的每个投影特征通过至少一个回归元获取的每个回归分数;
(d-2)所述计算设备计算或支持另一设备计算与选自所述吸收马尔可夫链图中的所述各个节点中并且彼此连接的两个节点中的每一个相关联的相应的回归分数之间的各个相似度,由此获得所述吸收马尔可夫链图中各个边界的各个对应的权重;
(d-3)所述计算设备计算或支持另一设备基于所述边界的对应的权重计算各个所述边界的各个转移概率;以及
(d-4)所述计算设备通过随机游走追踪或支持另一设备通过随机游走追踪所述吸收马尔可夫链图,以通过参考在所述步骤(d-3)计算出的所述吸收马尔可夫链图中的所述各个节点的相应转移概率来获得它们各自的吸收时间。
5.根据权利要求4所述的方法,其中,所述吸收马尔可夫链图中的所述各个节点具有其自己的修改的吸收时间,所述修改的吸收时间是基于调整的边界权重获取的,其中所调整的边界权重通过重复地乘以(i)基于边界类型选择的不同系数之一和(ii)所述吸收马尔可夫链图中每个所述边界的所述相应权重来获得,并且其中与所述前一帧中的所述目标对象的所述分割结果相对应的所述相应瞬态节点的相应修改的吸收时间表示随机游走者经过所述相应瞬态节点的次数。
6.根据权利要求4所述的方法,其中,通过采用支持向量回归来获取所述回归分数,其中在所述吸收马尔可夫链图中的所述各个节点中,对于被确定为前景的节点,标签被表示为+1,对于被确定为背景的节点,标签被表示为-1。
7.根据权利要求6所述的方法,其中,所述至少一个回归元由表示前景的一组节点和表示背景的一组节点训练,其中所述表示前景的一组节点中的每个节点与所述视频数据的第一帧中的所述目标对象和所述前一帧中所述目标对象的所述分割结果内的所述局部区域之一相对应,并且所述表示背景的一组节点中的每个节点对应于与所述前一帧和所述第一帧中的所述目标对象的所述分割结果无关的所述局部区域之一。
8.根据权利要求7所述的方法,其中,所述表示背景的一组节点还包含与所述当前帧中的所述感兴趣区域的边界和所述前一帧中的感兴趣区域的边界处的局部区域相对应的节点。
9.根据权利要求1所述的方法,在所述步骤(e)之后,还包括以下步骤:
(f)所述计算设备获取或支持另一设备获取所述吸收马尔可夫链图中一定跳数内的所述瞬态节点的多个相连的组件;
(g)所述计算设备选择或支持另一设备选择所述多个相连的组件中的一个相连的组件,其中所选择的一个相连的组件是与所述当前帧中的所述目标对象的全局外观模型最相似的相连的组件;以及
(h)通过使用所选择的一个所述相连的组件,所述计算设备调整或支持另一设备调整所述当前帧中所述目标对象的所述分割结果,由此获取调整后的跟踪结果及其对应的跟踪框。
10.根据权利要求9所述的方法,在所述步骤(d)之前,还包括以下步骤:通过执行由参考原始特征的特性所选择的操作,所述计算设备将所述当前帧中所述感兴趣区域内的所述局部区域和所述前一帧中所述感兴趣区域内的所述局部区域的每一个的各个原始特征投影或支持另一设备投影到嵌入空间上。
11.根据权利要求10所述的方法,其中,通过卷积神经网络获得所述当前帧中所述感兴趣区域内的所述局部区域和所述前一帧中所述感兴趣区域内的所述局部区域的每一个的所述原始特征。
12.根据权利要求1所述的方法,其中,在所述步骤(e)中,在使用所述吸收马尔可夫链图中的所述各个节点的吸收时间对所述吸收马尔可夫链图中的所述各个节点进行阈值化之后,所述计算设备进一步获取或支持另一设备进一步获取分割掩码。
13.根据权利要求1所述的方法,其中,通过扭转所述前一帧中所述目标对象的所述分割结果,然后找到包含扭转结果的最紧密的边界框,来获取包含所述当前帧中的所述目标对象的所述边界框。
14.根据权利要求1所述的方法,其中,在所述步骤(e)中,基于通过使用所述当前帧中所述感兴趣区域内的至少部分所述瞬态节点的所述吸收时间确定的阈值,对所述各个节点进行阈值化。
15.根据权利要求1所述的方法,其中,通过使用超像素分割算法将像素聚类成超像素,来获得所述当前帧中的所述感兴趣区域内的所述局部区域和所述前一帧中的所述感兴趣区域内的所述局部区域。
16.根据权利要求1所述的方法,其中,如果所述当前帧是所述视频数据的第一帧,则所述计算设备获取或支持另一设备获取初始分割掩码。
17.根据权利要求16所述的方法,其中,通过对初始吸收马尔可夫链图中的各个节点的吸收时间进行阈值化来获得所述初始分割掩码,所述初始分割掩码用于在所述步骤(d)中获取仅具有帧内边界的所述吸收马尔可夫链图,其中由与第一帧中所述目标对象的初始地面真值边界框重叠超过特定百分比的局部区域确定所述初始吸收马尔可夫链图的瞬态节点,所述初始吸收马尔可夫链图的吸收节点由所述第一帧中所述感兴趣区域内未被确定为所述初始吸收马尔可夫链图的所述瞬态节点的局部区域确定。
18.根据权利要求1所述的方法,还包括以下步骤:
(i)所述计算设备以递归方式将所述当前帧中的所述目标对象的所述分割结果传播到后续帧或支持另一设备以递归方式将所述当前帧中的所述目标对象的所述分割结果传播到后续帧,以获得一系列跟踪结果。
19.一种使用吸收马尔可夫链分割图像中的目标对象的方法,包括以下步骤:
(a)计算设备获取或支持另一设备获取包含所述图像中的所述目标对象的边界框;
(b)通过放大所述边界框以包含关于围绕所述目标对象的背景的一部分信息,所述计算设备获得或支持另一设备获得所述图像中的感兴趣区域;
(c)所述计算设备获取或支持另一设备获取关于所述图像中感兴趣区域内的局部区域的信息;
(d)所述计算设备使用所述图像中的感兴趣区域内的至少部分所述局部区域构造或支持另一设备构造吸收马尔可夫链图;以及
(e)通过使用所述吸收马尔可夫链图中的各个节点的吸收时间对所述各个节点进行阈值化,所述计算设备获取或支持另一设备获取所述图像内的所述目标对象的分割结果,
其中,所述吸收马尔可夫链图包括两个节点子集,所述两个节点子集具有:(i)一组瞬态节点,对应于在所述图像中与所述边界框重叠超过特定百分比的局部区域;以及(ii)一组吸收节点,与所述图像中所述感兴趣区域内的未被确定为所述瞬态节点的一部分局部区域相对应,并且其中所述吸收马尔可夫链图中的(i)所述瞬态节点和(ii)所述吸收节点的每一个具有它们各自的吸收时间,所述吸收时间是从它们自身到任意吸收节点的步数。
20.根据权利要求19所述的方法,在所述步骤(d)之前,还包括以下步骤:通过执行由参考原始特征的特性确定的特定操作,所述计算设备将所述图像中的感兴趣区域内的每个局部区域的原始特征投影到嵌入空间上,或支持另一设备将所述图像中的感兴趣区域内的每个局部区域的原始特征投影到嵌入空间上。
21.根据权利要求20所述的方法,其中,通过使用具有至少一个回归元的回归,所述计算设备投影或支持另一设备投影所述图像中所述感兴趣区域内的每个所述局部区域的所述原始特征。
22.根据权利要求19所述的方法,在步骤(e)之后,还包括以下步骤:
(f)所述计算设备获取或支持另一设备获取所述吸收马尔可夫链图中一定跳数内的所述瞬态节点的多个相连的组件;
(g)所述计算设备选择或支持另一设备选择所述多个相连的组件中的一个相连的组件,其中所选择的一个相连的组件是与所述图像中的所述目标对象的全局外观模型最相似的相连的组件;以及
(h)通过使用所选择的一个所述相连的组件,所述计算设备调整或支持另一设备调整所述图像中的所述目标对象的所述分割结果,由此获取调整后的分割结果及其对应的边界框。
23.一种使用吸收马尔可夫链跟踪视频数据帧中的目标对象的计算设备,包括:
用于获取所述视频数据的通信部分;以及
处理器,用于执行以下过程:
(i)获取或支持另一设备获取包含所述视频数据内的当前帧中的所述目标对象和所述视频数据内的前一帧中的所述目标对象的分割结果的边界框;
(ii)通过放大所述边界框以包含关于围绕所述目标对象的背景的一部分信息,获得或支持另一设备获得所述当前帧中的感兴趣区域;
(iii)获取或支持另一设备获取关于所述当前帧中的所述感兴趣区域内的局部区域的信息;
(iv)使用所述当前帧中的感兴趣区域内的至少部分所述局部区域和所述前一帧中感兴趣区域内的局部区域来构造或支持另一设备构造吸收马尔可夫链图;以及
(v)通过使用所述吸收马尔可夫链图中的各个节点的吸收时间对所述各个节点进行阈值化来获取或支持另一设备获取所述当前帧内的所述目标对象的分割结果,
其中,所述吸收马尔可夫链图包括两个节点子集,所述两个节点子集具有(i)一组吸收节点,与包含关于所述前一帧中的所述感兴趣区域内背景的信息的局部区域相对应,以及(ii)一组瞬态节点,与所述当前帧中所述感兴趣区域内的所述局部区域和与所述前一帧中所述感兴趣区域内的所述目标对象的所述分割结果相关的局部区域相对应,并且其中所述吸收马尔可夫链图包括两个边界子集,所述两个边界子集是一组帧内边界和一组帧间边界,并且其中所述各个节点具有它们各自的吸收时间,所述吸收时间是从它们自身到任意吸收节点的步数。
24.根据权利要求23所述的计算设备,其中,所述处理器被配置为,在所述过程(iv)之前,通过执行由参考原始特征的特性确定的特定操作,将所述当前帧中所述感兴趣区域内的每个所述局部区域的原始特征和所述前一帧中所述感兴趣区域内的每个所述局部区域的原始特征投影到嵌入空间上或支持另一设备将所述当前帧中所述感兴趣区域内的每个所述局部区域的原始特征和所述前一帧中所述感兴趣区域内的每个所述局部区域的原始特征投影到嵌入空间上。
25.根据权利要求24所述的计算设备,其中,所述处理器被配置为通过使用具有至少一个回归元的回归,投影或支持另一设备投影所述当前帧中所述感兴趣区域内的每个所述局部区域的原始特征和所述前一帧中所述感兴趣区域内的每个所述局部区域的所述原始特征。
26.根据权利要求25所述的计算设备,其中,在所述过程(iv)中,所述处理器还被配置为执行以下过程:
(iv-1)获取或支持另一设备获取与所述吸收马尔可夫链图中的每个节点相关联、并通过使用所述当前帧中所述感兴趣区域和所述前一帧中所述感兴趣区域内的所述局部区域的每个投影特征通过至少一个回归元获取的每个回归分数;
(iv-2)计算或支持另一设备计算与选自所述吸收马尔可夫链图中的所述各个节点中并且彼此连接的两个节点中的每一个相关联的相应的回归分数之间的各个相似度,由此获得所述吸收马尔可夫链图中各个边界的各个对应的权重;
(iv-3)计算或支持另一设备基于所述边界的对应的权重计算各个所述边界的各个转移概率;以及
(iv-4)通过随机游走追踪或支持另一设备追踪所述吸收马尔可夫链图,以通过参考在所述步骤(iv-3)计算出的所述吸收马尔可夫链图中的所述各个节点的相应转移概率来获得它们各自的吸收时间。
27.根据权利要求23所述的计算设备,其中,在所述过程(v)之后,所述处理器还被配置为执行以下过程:
(vi)获取或支持另一设备获取所述吸收马尔可夫链图中一定跳数内的所述瞬态节点的多个相连的组件;
(vii)选择或支持另一设备选择所述多个相连的组件中的一个相连的组件,其中所选择的一个相连的组件是与所述当前帧中的所述目标对象的全局外观模型最相似的相连的组件;以及
(viii)通过使用所选择的一个所述相连的组件,调整或支持另一设备调整所述当前帧中所述目标对象的所述分割结果,由此获取调整后的跟踪结果及其对应的跟踪框。
28.一种使用吸收马尔可夫链分割图像中的目标对象的计算设备,包括:
用于获取所述图像的通信部分;以及
处理器,用于执行以下的过程:
(i)获取或支持另一设备获取包含所述图像中的所述目标对象的边界框;
(ii)通过放大所述边界框以包含关于围绕所述目标对象的背景的一部分信息,获得或支持另一设备获得所述图像中的感兴趣区域;
(iii)获取或支持另一设备获取关于所述图像中感兴趣区域内的局部区域的信息;
(iv)使用所述图像中感兴趣区域内的至少部分所述局部区域来构造或支持另一设备构造吸收马尔可夫链图;以及
(v)通过使用所述吸收马尔可夫链图中的各个节点的吸收时间对所述各个节点进行阈值化,获取或支持另一设备获取所述图像内的所述目标对象的分割结果,
其中,所述吸收马尔可夫链图包括两个节点子集,所述两个节点子集具有:(i)一组瞬态节点,对应于在所述图像中与所述边界框重叠超过特定百分比的局部区域;以及(ii)一组吸收节点,与所述图像中所述感兴趣区域内的未被确定为所述瞬态节点的一部分局部区域相对应,并且其中所述吸收马尔可夫链图中的(i)所述瞬态节点和(ii)所述吸收节点的每一个具有它们各自的吸收时间,所述吸收时间是从它们自身到任意吸收节点的步数。
29.根据权利要求28所述的计算设备,所述处理器还被配置为,在所述(iv)过程之前,通过执行由参考所述原始特征的特性确定的特定操作,将所述图像中的感兴趣区域内的每个局部区域的原始特征投影到嵌入空间上或支持另一设备将所述图像中的感兴趣区域内的每个局部区域的原始特征投影到嵌入空间上。
30.根据权利要求29所述的计算设备,其中,在所述过程(v)之后,所述处理器还被配置为执行以下过程:
(vi)获取或支持另一设备获取所述吸收马尔可夫链图中一定跳数内的所述瞬态节点的多个相连的组件;
(vii)选择或支持另一设备选择所述多个相连的组件中的一个相连的组件,其中所选择的一个相连的组件是与所述图像中的所述目标对象的全局外观模型最相似的相连的组件;以及
(viii)通过使用所选择的一个所述相连的组件,调整或支持另一设备调整所述图像中的所述目标对象的所述分割结果,由此获取调整后的分割结果及其对应的边界框。
CN201811169514.4A 2017-10-03 2018-10-08 使用马尔科夫链跟踪和分割图像中的目标对象的方法以及使用该方法的设备 Pending CN109598735A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/724,215 2017-10-03
US15/724,215 US10037610B1 (en) 2017-10-03 2017-10-03 Method for tracking and segmenting a target object in an image using Markov Chain, and device using the same

Publications (1)

Publication Number Publication Date
CN109598735A true CN109598735A (zh) 2019-04-09

Family

ID=62948580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811169514.4A Pending CN109598735A (zh) 2017-10-03 2018-10-08 使用马尔科夫链跟踪和分割图像中的目标对象的方法以及使用该方法的设备

Country Status (5)

Country Link
US (1) US10037610B1 (zh)
EP (1) EP3467774A1 (zh)
JP (1) JP2019067404A (zh)
KR (1) KR20190039384A (zh)
CN (1) CN109598735A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111353A (zh) * 2019-04-29 2019-08-09 河海大学 一种基于马尔可夫背景与前景吸收链的图像显著性检测方法
CN111223114A (zh) * 2020-01-09 2020-06-02 北京达佳互联信息技术有限公司 一种图像区域的分割方法、装置及电子设备
CN113706555A (zh) * 2021-08-12 2021-11-26 北京达佳互联信息技术有限公司 一种视频帧处理方法、装置、电子设备及存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957048B2 (en) * 2018-09-05 2021-03-23 Htc Corporation Image segmentation method, apparatus and non-transitory computer readable medium of the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same
CN111311603A (zh) * 2018-12-12 2020-06-19 北京京东尚科信息技术有限公司 用于输出目标物体数目信息的方法和装置
CN111539906B (zh) * 2019-01-22 2024-04-12 顺丰科技有限公司 装载率测定方法及装置
CN110298298B (zh) * 2019-06-26 2022-03-08 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备
CN110378911B (zh) * 2019-07-11 2022-06-21 太原科技大学 基于候选区域和邻域分类器的弱监督图像语义分割方法
CN111047603B (zh) * 2019-11-27 2021-09-03 南京师范大学 一种基于新型马尔可夫随机场和区域合并的航拍图像混合分割算法
CN111242918B (zh) * 2020-01-10 2023-01-24 深圳信息职业技术学院 基于卡尔曼滤波和马尔可夫随机场的图像分割方法及系统
KR20210114728A (ko) 2020-03-11 2021-09-24 연세대학교 산학협력단 박스 레벨의 객체 위치 정보를 사용한 픽셀 레벨의 동영상 객체 추적 장치
KR20210116966A (ko) 2020-03-18 2021-09-28 삼성전자주식회사 타겟 트래킹 방법 및 장치
WO2023120969A1 (ko) * 2021-12-22 2023-06-29 경기대학교 산학협력단 동영상 관계 탐지 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040091158A1 (en) * 2002-11-12 2004-05-13 Nokia Corporation Region-of-interest tracking method and device for wavelet-based video coding
CN106296728A (zh) * 2016-07-27 2017-01-04 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106997597A (zh) * 2017-03-22 2017-08-01 南京大学 一种基于有监督显著性检测的目标跟踪方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9519837B2 (en) * 2014-07-03 2016-12-13 Toyota Motor Engineering & Manufacturing North America, Inc. Tracking using multilevel representations
WO2014169346A1 (en) * 2013-04-19 2014-10-23 Commonwealth Scientific And Industrial Research Organisation System and method of tracking an object
US9972106B2 (en) * 2015-04-30 2018-05-15 TigerIT Americas, LLC Systems, methods and devices for tamper proofing documents and embedding data in a biometric identifier
CN105491370B (zh) * 2015-11-19 2020-09-22 国家新闻出版广电总局广播科学研究院 基于图的协同低高级特征的视频显著性检测方法
WO2017214414A1 (en) * 2016-06-09 2017-12-14 The Penn State Research Foundation Systems and methods for detection of significant and attractive components in digital images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040091158A1 (en) * 2002-11-12 2004-05-13 Nokia Corporation Region-of-interest tracking method and device for wavelet-based video coding
CN106296728A (zh) * 2016-07-27 2017-01-04 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106997597A (zh) * 2017-03-22 2017-08-01 南京大学 一种基于有监督显著性检测的目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONGHUN YEO: "Superpixel-Based Tracking-By-Segmentation Using Markov Chains", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111353A (zh) * 2019-04-29 2019-08-09 河海大学 一种基于马尔可夫背景与前景吸收链的图像显著性检测方法
CN111223114A (zh) * 2020-01-09 2020-06-02 北京达佳互联信息技术有限公司 一种图像区域的分割方法、装置及电子设备
CN113706555A (zh) * 2021-08-12 2021-11-26 北京达佳互联信息技术有限公司 一种视频帧处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
KR20190039384A (ko) 2019-04-11
EP3467774A1 (en) 2019-04-10
JP2019067404A (ja) 2019-04-25
US10037610B1 (en) 2018-07-31

Similar Documents

Publication Publication Date Title
CN109598735A (zh) 使用马尔科夫链跟踪和分割图像中的目标对象的方法以及使用该方法的设备
US11055854B2 (en) Method and system for real-time target tracking based on deep learning
Chen et al. Optimizing video object detection via a scale-time lattice
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
US10242266B2 (en) Method and system for detecting actions in videos
CN109426805B (zh) 用于对象检测的方法、设备和计算机程序产品
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
US20180114071A1 (en) Method for analysing media content
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
WO2012127815A1 (ja) 移動体検出装置および移動体検出方法
US11640714B2 (en) Video panoptic segmentation
CN102741884A (zh) 移动体检测装置及移动体检测方法
CN113963445A (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
CN111259779A (zh) 一种基于中心点轨迹预测的视频动作检测方法
Pavel et al. Object class segmentation of RGB-D video using recurrent convolutional neural networks
Yi et al. Human action recognition based on action relevance weighted encoding
Song et al. Prnet++: Learning towards generalized occluded pedestrian detection via progressive refinement network
KR20200010971A (ko) 광학 흐름 추정을 이용한 이동체 검출 장치 및 방법
Zhu et al. Tracking multiple objects through occlusion with online sampling and position estimation
Hao et al. Recognition of basketball players’ action detection based on visual image and Harris corner extraction algorithm
CN113643330B (zh) 一种基于动态语义特征的目标跟踪方法及系统
CA3061908C (en) Ball trajectory tracking
Zhao et al. Interpretable deep feature propagation for early action recognition
Chen et al. Online spatio-temporal action detection in long-distance imaging affected by the atmosphere
Li et al. Spatiotemporal tree filtering for enhancing image change detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190409