CN101689305A - 从单个示例学习对象剪切 - Google Patents

从单个示例学习对象剪切 Download PDF

Info

Publication number
CN101689305A
CN101689305A CN200880018756A CN200880018756A CN101689305A CN 101689305 A CN101689305 A CN 101689305A CN 200880018756 A CN200880018756 A CN 200880018756A CN 200880018756 A CN200880018756 A CN 200880018756A CN 101689305 A CN101689305 A CN 101689305A
Authority
CN
China
Prior art keywords
image
color
edge
model
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880018756A
Other languages
English (en)
Other versions
CN101689305B (zh
Inventor
Q·杨
F·温
X·唐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101689305A publication Critical patent/CN101689305A/zh
Application granted granted Critical
Publication of CN101689305B publication Critical patent/CN101689305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20121Active appearance model [AAM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

描述了用于从单个示例学习视觉对象剪切的系统和方法。在一个实现中,示例性系统确定模式图像中每个块附近的色彩上下文以创建外观模型。该系统还学习跨模型图像中的视觉边缘出现的色彩序列以创建边缘轮廓模型。该示例性系统接着基于外观模型和边缘轮廓模型来推断未知图像中的分割边界。在一个实现中,该示例性系统将图形剪切模型中的能量最小化,其中外观模型用于数据能量而边缘轮廓用于调整边缘。该系统不限于具有几乎相同的前景或背景的图像。比例、旋转和视点上的某些变化是允许的。

Description

从单个示例学习对象剪切
背景
在计算机视觉中,对象剪切是重要的和基础的问题。用于对图像中的视觉对象执行剪切或分离的典型机制是二值分割,其中向图像中的每个像素分配第一值(如果它属于前景对象)或第二值(如果它属于背景)。取决于操作中的特定过程,该二值标记或者来源于视觉前景和背景之间的分割边界,或者来自预先知道的先前存在的分割边界。存在多种用于确定用于剪切前景对象的最优分割边界的常规技术。
在基于内容的图像检索(CBIR)中,通常使用查询图像作为一个示例来检索具有相似内容的图像。然而,在大多数情况下,常规检索技术仅可以从整体查询图像中计算低级特征以表示该图像的内容。查询图像中的高级语义信息大多被丢失。由此,常规检索系统的性能通常是差的。更接近地表示查询图像的语义内容的一种方式是尝试剪切查询图像和数据库图像两者中的前景对象。然而,这种对象剪切仍然是一个具有挑战性的问题。
现有的用于分割一般图像集合的自底向上的方法几乎不能实现语义分割,因为它们主要根据诸如色彩、纹理的一致性或边界轮廓的平滑度等低级特征来将像素聚集到各部分中。用户交互可以极大地改进分割结果,但是在诸如CBIR图像数据库等大型数据库中通过用户交互来分割大量的图像的成本高的惊人。所需的是一种自动地应用来自一个查询图像或一些查询图像的分割结果来推断可以被传播以分割大型图像集合的分割结果的精确且稳健的方式。接着,通过循序的传播,少量的用户操作能够实现对多个图像的分割。
尝试将分割结果从一个图像传播到许多图像的常规方法具有严重的局限。例如,某些方法针对每种类型的图像类别都需要多个训练图像,而这通常是不可能的。其它方法需要示例图像和测试图像的前景和背景都高度相似。当在表面照明方面有轻微改变或在形状或阴影方面有改变时,这些常规方法就失败了。几乎没有自然图像能满足这些常规技术的严格相似性的需求。其它常规方法简直太慢了(即使预期是缓慢的过程),这些方法需要对于例如图像检索或视频剪切等应用程序而言实现起来过于复杂的密集处理。还有其它常规方法需要两个图像具有显著不同的背景,以便跨图像来传播分割。
概述
描述了用于从单个示例学习视觉对象剪切的系统和方法。在一个实现中,示例性系统确定模型图像中每个块附近的色彩上下文以创建外观模型。该系统还学习跨模型图像中的视觉边缘出现的色彩序列以创建边缘轮廓模型。该示例性系统接着基于外观模型和边缘轮廓模型来推断未知图像中的分割边界。在一个实现中,该示例性系统最小化图形剪切模型中的能量,其中外观模型被用于数据能量而边缘轮廓被用于调整边缘。该系统不限于具有几乎相同的前景或背景的图像。比例、旋转和视点上的某些变化是允许的。
提供本概述以介绍在下文的详细描述中进一步描述的从单个示例学习对象剪切的主题。本概述并不旨在标识要求保护的主题的必要特征,也不旨在用于确定所要求保护的主题的范围。
附图简述
本专利申请包含至少一幅彩色附图。特别地,图8-12可以是彩色的。具有彩色附图的本专利申请的副本将在请求并支付了必要的费用之后由(美国)专利局提供。
图1是示例性分割属性引擎的图示。
图2是包括示例性视觉对象剪切引擎的各个系统的图示。
图3是图2的示例性视觉对象剪切引擎的更为详细的框图。
图4是图3的示例性外观相似度模型和边缘轮廓相似度模型的更为详细的图示。
图5是关于图像剪切引擎的示例性能量最小化器的图示。
图6是图3的示例性上下文色彩提取器的更为详细的框图。
图7是介绍对上下文色彩的示例性提取的图示。
图8是介绍对边缘轮廓的示例性提取的彩色图示。
图9是前景对象和背景对象之间的示例性区别的彩色图示。
图10是提取局部色彩模式(color pattern)和边缘轮廓的示例性技术的彩色图示。
图11是示出局部色彩模式和边缘轮廓调整的效果和重要性的彩色图示。
图12是将示例性对象剪切技术与常规对象剪切技术进行比较的彩色图示。
图13是基于第一图像的上下文色彩和边缘轮廓来推断第二图像的分割边界的示例性方法的流程图。
图14是提取上下文色彩的示例性方法的流程图。
详细描述
概述
本发明描述了用于从单个或几个示例学习视觉对象剪切的系统和方法。示例性技术可用于例如基于单个示例来在一组相对相似的图像中剪切对象。该示例性系统使用在色彩模式模型和边缘轮廓模型中示出的“分割属性”来开始从单个示例学习相似图像的对象剪切。
该示例性系统提取表征色彩的空间配置的局部色彩模式(LCP)。该特征是通过沿着特定方向搜索显著的色彩/色彩模式来获取的,由此其相对于色彩片的比例而言是不变的。因为考虑了上下文色彩信息,所以LCP模型与单一色彩或直方图特征相比也更具区别性。
该示例性系统还在边缘的正常方向上提取边缘轮廓特征,并且使用这些特征来将沿着前景/背景边界的边缘(“边界边缘”)与前景或背景内部的“内部”边缘(“内部边缘”)相区别。该边缘特征相对于对象的旋转而言是不变的。通过增强可能的边界边缘并衰减可能的内部边界,对象剪切更有可能遵循真实的对象边界。
在一个实现中,该示例性系统将LCP模型与边缘轮廓模型集成到图形剪切框架中,并由此由于这两个模型互补贡献而在剪切结果中获得更高的精确度和稳健性。
概括描述
在一个实现中,本文中所述的示例性视觉对象剪切系统和方法跟踪帮助将精确的分割从一个或多个模型图像传播到其它相关的或有时不相关的图像的“分割属性”。分割是将图像中的每个像素标记为前景对象和背景的过程。视觉对象剪切意指从背景中分离或剪切前景对象的过程。
在一个示例系统中,分割属性可以是上下文色彩(例如局部色彩模式(LCP))和用于边缘调整的边缘外观轮廓。在一个实现中,局部色彩模式信息和边缘调整提供了用于视觉对象剪切任务的互补信息。
本文中宽松地使用术语“上下文色彩”来指在不同方向上靠近图像(例如块)的特定部分的色彩,或指图像的一部分(诸如块)的周围或包含图像的该部分的色彩模式。本文中“上下文色彩”和“局部色彩模式”在某种程度上可交替使用。更特别地,从一个观点看,示例性过程可以在不同方向上从每一个块收集上下文色彩以便建立外观模型,和/或可以确定每一个块周围的周围色彩模式中的变化以建立局部色彩模式,局部色彩模式随后形成外观模型的基础。在一个实现中,确定色彩模态(color mode)包括找出有多少主色彩组成前景对象和背景,这些主色彩是什么;以及确定一种色彩与另一种色彩同时出现的概率。
参考图1,在一个实现中,示例性系统使用基于以上介绍的局部色彩模式(LCP)模型和边缘轮廓模型126的外观模型114。该示例性系统将这一外观模型114和边缘轮廓模型126集成到图形剪切框架中。LCP模型通过提取比例不变色彩模式以表征色彩上下文,来提高外观模型114的区别能力以描述前景/背景区域。边缘模型126通过增强沿着对象边界的边缘并衰减对象内部的边缘来有效地调整图像的对比度,由此得出更为合理的剪切结果。与常规的现有技术算法相比,该示例性系统显示了更高的精确度和经改进的稳健性。
当前景对象和背景具有相似的色彩外观时,上下文色彩和/或局部色彩模式模型极大地降低了不确定性。对于图像的每个块,示例性系统记录了落入不同色彩模式的邻近的上下文色彩。这不仅根据其自身的色彩也根据这些邻近的上下文色彩标识了给定的块。这种示例性上下文色彩提取是用于从背景中识别和区分出前景的强大工具,而这在仅仅通过前景和背景各自的一般色彩来进行区别时是难以区别的。例如,如果分割边界出现在图像中有黑色长发的人脸的周围,则该上下文属性(即面部总是由黑发构造框架)在分割另一具有黑色长发的脸时可以有极大的帮助。同样地,画出面部轮廓的边缘的示例性外观轮廓是可以从模型图像学习并且可以被传播来用于分割相似图像的另一分割属性——即使面部处于不同的角度或是不同的大小。
边缘调整特征补充以上介绍的上下文色彩模式提取,由此进一步增加了分割的精确度。在一个示例系统中,该系统学习一个或多个模型图像的各个边缘。该系统提取边缘轮廓:例如,沿着边缘在各个点处通过该边缘在正确的角度处所取的色带或“元素”。每个色带或元素包括在边缘的任一侧(以及包括该边缘)上的色彩序列(或灰度级、亮度等)。为了将模型图像的分割传播到其它图像,边缘调整特征使用这些色素或边缘轮廓来衰减在前景或背景部分内部导致不需要的分段的强内部边缘。同时,边缘调整特征强化了前景和背景之间的分割边界。
虽然边缘调整特征通常增强上下文色彩模式特征,但是实际上这两个特征取决于环境而彼此辅助。在很少的情况下,当所提取的前景对象的上下文色彩与所提取的背景的上下文色彩相类似时(这发生的概率远低于前景和背景仅具有相同的一般色彩),接着边缘调整特征通过将内部边缘(在前景对象内部或背景内部)与前景和背景之间的分割边界加以区别来提供增强。相反地,当内部边缘和分割边界共享相似的边缘轮廓(例如外观)时,则上下文色彩模式特征增强这两种类型的边缘之间的区别。即,上下文色彩模式特征不是在边缘自身上定义,而是在图像的“元素”上定义。由此,上下文色彩模式特征增强由于以下差异的分割:对于内部边缘,根据上下文色彩模式特征,该边缘两侧的元素很可能属于对象部分。但是对于分割边界,仅该边缘一侧的元素很可能属于该对象。这样,上下文色彩和边缘轮廓信息两者可以被有效地集成以提供强大的、更为精确的和更合乎需要的分割结果。
示例性系统
再次参考图1,示例性分割属性引擎100接收模型图像102(或多个模型图像),以便获取分割属性以帮助分割类似或相关图像104。“相关”图像104与模型图像102共享一定程度的背景和/或前景相似性。所示引擎100具有用于收集模型图像102中的分割实例的上下文色彩属性的色彩上下文划分106以及用于收集模型图像102中的分割实例的边缘轮廓属性的边缘轮廓划分108。示例性上下文色彩学习引擎110包括产生包括前景116的模型和背景118的模型的外观模型114的上下文色彩提取器111和前景/背景鉴别器112。与常规技术相比,外观模型114为在某些分割计算中使用的数据能量定义了基于上下文色彩的外观模型,这有助于确定相关图像中的前景和背景。术语“相似度能量”在某种程度上可以与本文中的“数据能量”互换使用。
在相关图像104中,所提取的上下文色彩几乎总是将自身分解成模型图像的外观模型114中所表示的有效的前景调色板或背景调色板。
相应地,示例性分割属性引擎100包括具有边缘轮廓器122和边缘分类器124的边缘学习引擎120。边缘学习引擎120产生边缘轮廓模型126,所检测到的边缘被分类成前景内部边缘128、背景内部边缘130、或分割边界132。该边缘轮廓模型126被用于调整最小割/最大流二值标记优化中的平滑度能项(以下将参考等式(I)描述)。即,边缘分类模型126可用于有效地衰减相关图像104中的内部强边缘并适度地强化其中的分割(前景/背景)边界104,从而产生精确和稳健的结果。
附加示例性系统
图2示出了示例性视觉对象剪切引擎200的多个变型,每一个都包括图1的分割属性引擎100。在一个变型202中,示例性视觉对象剪切引擎200对各组相似图像执行对象剪切。例如,顺序地取一批相似的照片是常见的。一个组中的这些照片共享相似的前景和背景。因此,当在一个照片中剪切对象时,视觉对象剪切引擎200可以自动地帮助剪切该组中所有照片的相似对象,这极大地减少了手动标记工作。由此,为了从一组相似图像中剪切对象,第一图像被用作具有预定对象剪切的示例,其接着被用于分割所有其它相似图像。
在第二变型204中,示例性视觉对象剪切引擎200′执行对来自视频的(即视频帧序列中的)移动对象的自动剪切。在一个实现中,并非依赖于时间信息或运动估计来预测移动对象在各帧上移动到何处,该视频对象剪切是通过依赖于所选模型帧中的分割的上下文色彩和边缘轮廓属性来在该帧序列上执行的。由此,在该第二变型204中,用户无需手动地将视频剪切成各个镜头以使得每一镜头中的帧是连续的,并且无需按照任何时间或顺序次序来处理各视频帧。结果,只要色彩模型保持某种程度的固定,视觉对象剪切引擎200′就可以处理急剧、短暂改变的情况。
在第三变型206中,示例性视觉对象剪切引擎200″执行对诸如侧视图等面部视图的自动检测。面部的侧视图对于仅使用面部特征的现有面部检测技术而言是很有挑战性的。但是,即使当头部旋转的角度改变或者面部的大小、视点或者甚至年龄改变时,视觉对象剪切引擎200″所收集和跟踪的分割属性,诸如上下文色彩和边缘轮廓也可以被用于检测面部。
示例性引擎
图3更为详细地示出了图2的示例性视觉对象剪切引擎200。所示实现是一种出于描述目的的示例配置。在本主题的范围内,示例性视觉对象剪切引擎200的各组件的许多其它排列是可能的。这种示例性视觉对象剪切引擎200可以用硬件,软件,或硬件、软件、固件的组合等来执行。
示例性视觉对象剪切引擎200包括收集和跟踪模型图像102的分割属性的模型图像处理器302、收集和跟踪要分割的相关图像104的对应属性的相关图像处理器304、以及基于模型图像102的分割属性来优化相关图像104的分割的剪切推断引擎306。这些主要组件的每一个的各个组件将在下文中列出,之后是视觉对象剪切引擎200的示例性操作的描述。应该注意,在某些实现中,下文中所列出和描述的用于处理模型图像102并接着处理相关图像104的许多组件可以是相同的组件或共同的组件。然而,在图3中,为了描述简明起见,只要可能,处理模型图像102和相关图像104的组件就被示为分开的实体。
模型图像处理器302将诸如上下文色彩和边缘轮廓等分割属性提取到外观模型114和边缘轮廓模型126中。模型图像处理器302包括图像建模器308并且包括图1的分割属性引擎100。图像建模器308进而包括模型图像102的马尔可夫图310表示和包含均值移位(Mean-shift)预分割器314和块生成器316的图像分割器312。这些将在下文中进一步详细描述。
视觉对象剪切引擎200还包括用于执行要分割的相关图像104的对应图像建模的相关图像处理器304。由此,相关图像处理器304包括用于分割相关图像104的一种版本的图像建模器308′,该图像建模器308′包括要处理的每个相关图像104的对应的马尔可夫图310′表示;以及包含均值移位预分割器314′和块生成器316′的图像分割器312′。
在一个实现中,用于处理相关图像104的分割属性引擎100′与用于处理模型图像102的分割属性引擎100具有相似或等效的组件,除使用相关图像104的“外观相似度318”来代替与模型图像102相关联的类似的“外观模型114”之外。同样地,使用与相关图像104相关联的“边缘轮廓相似度320”来代替模型图像102的类似的“边缘轮廓模型126”。这是因为剪切推断引擎306通过改进相关图像104的外观相似度318和边缘轮廓相似度320来优化相关图像104的分割边界,而这由模型图像102的外观模型114和边缘轮廓模型126来辅助。由此,如图4中所示,外观相似度318涵盖可能的前景402、可能的背景404、以及从可能的前景402导出的区域的累积数据能量406(将在下文中更全面地描述,即参考该引擎的操作)。边缘轮廓相似度320涵盖可能的前景内部边缘408、可能的背景内部边缘410、以及可能的分割边界412。
剪切推断引擎306包括执行上述优化的能量最小化器322。在一个实现中,能量最小化器322执行最小割/最大流技术,该技术通过最小化由与关联于外观模型114和外观相似度318的上下文色彩属性相关的数据能量324和与关联于边缘轮廓模型126和边缘轮廓相似度320的边缘轮廓属性相关的平滑度能量326组成的能量来执行优化。
在一个实现中,边缘调整器328通过衰减前景内部边缘128和背景内部边缘130并适度地强化分割边缘132来影响能量最小化器322。换言之,边缘调整器328根据模型图像102的边缘轮廓模型126来使所提出的分割边界在相关图像104中更加明显。在一个实现中,边缘调整器328包括基于模型图像102的边缘轮廓模型126的分割边界概率图334,分割边界概率图334进而创建修改平滑度能量326的经调整的对比图330。平滑度能量326进入能量最小化器322的优化计算。
在一个实现中,如图5中所示,能量最小化器322可以在图像中一个像素接一个像素地进行以便优化图形切割引擎134中的分割图502。图形切割引擎134接着在经优化的分割图502的引导下执行例如从背景分割前景对象。
回头参考图2,分割可用于将分割从一个模型图像102传播到诸如家庭度假的相似照片等一组相关图像104。在其它实现中,诸如图2的变形204和206(例如视觉对象剪切引擎200的变型200′和200″)中所示,能量最小化器322的输出可以被馈送给执行移动视频对象的自动剪切的引擎(204)或馈送给从不同的视点执行面部自动检测的引擎(206)。
示例性系统和引擎的操作
示例性视觉对象剪切引擎200可以将分割结果的稳健且高效的传播从单个或少数模型图像102提供给其它类似的图像。
在一个实现中,示例性视觉对象剪切引擎200允许对象或背景中的某些比例的改变、视角改变以及局部结构改变。为了达到该目的,上下文色彩学习引擎110导出图像区域的上下文色彩和/或局部色彩模式。在要剪切的对象的内部和背景中一般存在强色彩上下文,并且该强上下文对于从背景区分对象/前景是非常有用的,尤其是当对象具有与背景相似的色彩时。例如,在一个人站立在墙前的图像中,面部肤色的区域可能几乎与墙的色彩完全相同。这使得仅基于它们的整体一般色彩难以区分这两者。然而,在这种面部周围通常存在强上下文,例如头发。利用该上下文属性可以极大地帮助区分要剪切的正确的视觉对象。
上下文色彩和/或局部色彩模式提供了比仅基于前景和背景的一般色彩从背景中区分出前景的常规方法更为强大的从背景区分出前景的机制。每个块可以提供其相对于邻近色彩的信息,而不是仅依赖于每个块自身的色彩特性来猜测该块是前景还是背景。此外,由于前景和背景几乎总是包括不同的调色板——甚至在前景和背景的总体色彩看起来相似时——关联于每个块的相关联的邻近上下文色彩几乎总是符合前景调色板或背景调色板的轮廓之一,由此将块标识为前景或背景。
边缘学习引擎120学习沿着模型图像102内的边缘的外观,并且由此确定相关图像104中的边缘是内部边缘还是前景/背景边界(在本文中也被称为分割边界)。有了这个学习到的边缘信息,视觉对象剪切引擎200可以驱使相关图像104的分割更为精确地找到并遵循它们的“真实”分割边界。例如,前景中的一件白色衣服可能与同一图像的背景中的一片阳光具有相似的色彩和色彩上下文。然而,所学习到的边缘外观可以容易地帮助确定相关图像104中的白色区域的边缘是否可能属于白色衣服的概率。
为了实现基于局部色彩模式的外观模型114,图6更加详细地示出了图1的上下文色彩学习引擎110的一个实现。在该示例配置中,上下文色彩学习引擎110包括上下文色彩提取器111,该上下文色彩提取器111进一步包括收集图像的给定块周围的多个色彩样本,即由此检测局部色彩模式(LCP)的色彩样本选择器602。距离和方向引擎604基于色彩模态选择器606的设置来确定是否要获取这些色彩样本。在给定图像中,前景和背景色彩趋于是模态(modal)的,即关于区分前景和背景的“色彩模式”考虑前景对象或背景是由多少主色彩组成的以及是哪些主色彩。色彩模态选择器606可以确定一个色彩模态区别于另一个的灵敏度或阈值。接着,距离和方向引擎604在多个方向中的每一个上扫描落入与所标志的主题块不同的色彩模态的上下文色彩,这样使得当与外观模型114中的已知前景和背景色彩模式相比时,这些对比的邻近色彩基于所采样的色彩来提供主题块的分类。
上下文色彩学习引擎110还包括色彩模态分析器608、色彩依赖性分析器610、所提取的色彩对612的存储、以及前景/背景鉴别器112。现在将更详细地描述这些组件。应该注意,所示的上下文色彩学习引擎110仅是这些组件的一个示例安排。其它版本的上下文色彩学习引擎110可以包括不同安排的不同组件。
首先在详细描述能项之前描述色彩模态分析器608和色彩依赖性分析器610。色彩模态和色彩依赖性的概念在上下文色彩和边缘轮廓的描述中扮演重要的角色。关于区分前景和背景的“色彩模式”考虑前景对象或背景是由多少主色彩组成的以及是哪些主色彩。“色彩依赖性”描述了一种色彩与另一色彩同时出现的概率。由此,可以通过色彩模态和色彩依赖性来描述任何色彩对(ci,cj)612。通常,色彩模态分析器608单独地学习前景和背景的色彩模态。色彩依赖性分析器610从外观模型114的每个上下文色彩或者从边缘轮廓模型126的每个边缘轮廓学习色彩依赖性。色彩模态和色彩依赖性通常遵循高斯分布并且可以容易地使用K均值(K-means)或其他GMM拟合方法来从一组示例色彩中学习。
示例上下文色彩提取
在一个实现中,上下文色彩被如下设计:均值移位预分割器314将图像分成各部分。如图7中所示,对于给定部分700,图像分割器312首先查找限界矩形702。块生成器316将限界矩形702分成各个块704,但是这些块无需是相同大小的。接着,在上下文色彩提取器110中,色彩样本选择器602(图6)沿着多个预定方向中的每一个来寻找上下文块(图7(b)中示出了四个预定方向的示例)。为了确保上下文块可以提供可靠的上下文信息,距离和方向引擎604可以施加上下文样本块离开主题块704不太远以及其均值色彩落入与Bp,m v的模态不同的模态中的限制。这样,定义了块704的上下文色彩特征,包括均值色彩和沿着第n个方向上的上下文块(样本)的均值色彩。对于具有Ns v个部分 S v = { s p v } p = 1 N s v 的图像I,有
Figure G2008800187561D00102
个色彩上下文特征,其中 y p v = { y p , m v } m = 1 N p v 是部分Sp v700的特征。
边缘轮廓
首先,分割属性引擎100通过学习沿着模型图像102中的边缘的外观——边缘轮廓802——来为这三种类型的边缘构建模型424。图8示出了边缘轮廓802和典型的聚类中心的提取。图8是从中沿着其分割边界提取多个边缘轮廓802的模型图像102。当被跨边缘的一定距离来提取时,诸如图8(b)所示的分割边界,每个边缘轮廓802可以包括作为背景特征的一部分(例如Z1和Z2)和作为前景特征的一部分(例如Z3和Z4)。图8(c)示出了三种类型的边缘的典型的聚类中心。来自模型图像102的边缘轮廓802的各个部分(Z1、Z2、Z3和Z4)也可以跨多个实例来进行色彩平均,以便为每种类型的边缘创建平均的轮廓。接着可以使用混合高斯模型来对边缘进行。
在一个实现中,边缘轮廓器122提取边缘信息以描述沿着边缘的外观,即通过跨边缘提取具有色彩序列的色带来构成每个轮廓802。例如,边缘轮廓器122可以沿着公共边界的正常方向以及也沿着其反方向来提取轮廓,直至轮廓在如图8(a)所示的每个方向上遍历了r个区域。可以提取这些特征来作为它们所遍历的部分的均值色彩。
详细的示例实现
在一个实现中,视觉对象剪切引擎200将对象剪切公式化为二值标记问题,并且通过最小化图形G=(v,ε)上马尔可夫随机场(MRF)的吉布斯能量E(X)来求解:
E ( X ) = Σ i ∈ v E 1 ( y i ) + λ Σ ( i , j ) ∈ ϵ E 2 ( y i , y j ) - - - ( 1 )
其中v是所有像素的集合,而ε是连接相邻像素的所有弧线的集合。yi∈{0,1}是每个像素pi∈V的标记,其中yi=0意味着pi属于背景,而yi=1意味着前景。E1(yi)是指示当用yi标记像素pi时的成本的相似度能量,而E2(yi,yj)是当给予两个相邻像素不同的标记时提供障碍的平滑度能量。λ是平衡这两项的超参数(hyper-parameter)。
在这个实现中,基于局部色彩模式(LCP)的外观模型114被用于获取相似度项,并且学习边缘轮廓模型126以便调整平滑度项。当一起使用这两个组分时,它们被证明是有效的并且互补地对最终对象剪切结果起作用。
局部色彩模式模型的相似度
局部色彩模式提取
图9示出了基于色彩歧义的减少和边缘信息的前景对象902和背景对象904的示例性区别。虽然前景902和背景904可以共享相似的色彩,但是它们共享相似色彩配置的概率低得多,由此如果使用该附加信息则极大地减少了歧义。“色彩配置”意味着在特定主题色彩周围的预定方向上分布的色彩。例如,两个图像9(a)和9(b)包含相同的对象,但是具有不同的位置和比例。9(a)中的娃娃902是前景对象902,而用户希望在9(b)中剪切相同的娃娃902。然而,由于区域1和3都是蓝色的,因此任务是有歧义的。通过考虑色彩配置,可以容易地区分对象,因为区域1主要由白色包围;而区域3周围有大量的黄色(头和肢体)。这种色彩配置不依赖于对象的比例。换言之,虽然图9(b)中的娃娃902比图9(a)中的娃娃要小得多,但是蓝色区域3周围的色彩配置不变。
对于甚至色彩配置都不能区分前景和背景的、具有相似色彩配置的区域,即区域2和4(由区域1和3的蓝色包围),边缘信息可以有所帮助。从示例图像9(a)学习到蓝红配对的边缘仅出现在对象内部,因此示例性技术可以确信地衰减图9(b)中区域2和4周围的边缘,由此避免沿着这些边缘的分割剪切。
由此,局部色彩模式(LCP)可以被定义为色彩配置,其反应了不同的色彩的空间分布,例如如图10中由黑色的头发包围的面部的皮肤色彩。
在这种情况下,色彩配置不是上下文色彩,其是沿着离开图像的当前块特定空间距离来定义的。同样地,配置与诸如均值移位等过分割(oversegmentation)方法所获取的邻近区域的色彩不同:在过分割的情况下,一个色彩相同的区域可以被分成许多块(诸如图10中的女孩的面部),并且同一相同区域内的邻近块不能向彼此提供配置信息;相反,增加色彩半径参数会由于将具有不同色彩的区域合并在一起而造成欠分割(undersegmentation),这也是不合需要的。
LCP提取中的一个重要问题是告知哪些色彩是“不同的”。为了避免使用色彩差异的硬阈值,上下文色彩/LCP提取器111对像素色彩执行高斯混合模型(GMM)聚类,以获取有关在图像中由多少色彩模式以及它们是哪些(即红、蓝、黑等)的概览。所有像素的色彩空间C被分成若干个不重叠的色彩模式: C = ∪ n C n 。这种划分给出了图像中哪些色彩是接近的(在相同的色彩模式中)或是不同的(在不同的色彩模式中)的概括和稳健的观点。
预分割器314使用均值移位来过分割图像。考虑到均值移位区域的形状和大小的大量变化,图像分割器312将每个区域R划分成元素,接着基于所估计的色彩模式和元素来提取LCP特征。图10(a)中的示例示出了提取过程。
对于具有红色边界的均值移位区域(女孩的部分面部)1002,其限界框(黄色矩形)1004被分成网格。当将网格覆盖在该区域上时,该区域被分成各个元素。多数元素是矩形的,除了沿着该区域的边界的那些元素之外。对于比网格小的区域,将整个区域作为一个元素。与直接将图像剪切成规则网格的方法相比,该方法避免了沿着区域边界的色彩混合并且维护了具有不同色彩的小型区域。
对于每个元素e,上下文色彩提取器111沿着D个预定方向搜索上下文元素,示为e1,...,eD。上下文元素被定义为属于与e所属的色彩模态不同的色彩模态的最接近元素,由此搜索可以到达均值移位区域边界1002之外,并且达到形成色彩模式的真正不同的色彩。例如,在图10(a)中,D=4,对于元素e获取上下文元素e1,...,e4。对e1的搜索到达区域边界之外,并且达到头发的区域,这是形成“色彩模式”的真实的上下文色彩。
最后,对于每个元素e及其上下文元素e1,...,eD,上下文色彩提取器111形成元素e的局部色彩模式p:p(e)=[c0,c1,...cD]T,其中c1,...cD是上下文元素e1,...,eD的均值色彩,而c0是元素e的均值色彩。
推断相似度能量
对局部色彩模式进行建模
对于示例图像,上下文色彩学习引擎110获取所有前景和背景元素的LCP特征并使用上述GMM来拟合前景LCP相似度模型lF(p)=p(p|ye=1)和背景LCP相似度模型lB(p)=p(p|ye=0)。此处,ye表示元素e的标记。取前景和背景上的非信息性先验,使用相同的常数获取与相似度成比例的后验,即pF,B(p)∝lF,B(p)。
在给定中心色彩c0的条件下,在上下文元素的色彩ci;i=1,...,D有条件地彼此独立的假设下,通过将高维数模型l(p)分解成许多较低维数模型来做出近似值以给出符合它的更为实用的解决方案:
l ( p ) = p ( c 0 , c 1 , . . . , c n ) ≈ p ( c 0 ) Π i = 1 D p ( c i | c 0 ) - - - ( 2 )
可任选地,可以根据所获取的色彩模式进一步削减这一拟合:
l ( p ) = Σ j [ p ( c 0 ∈ C j ) Π i = 1 D p ( c i | c 0 ∈ C j ) ] - - - ( 3 )
推断相关图像的相似度能量
对于相关(新颖)图像104,对应的分割属性引擎100′提取每个元素的局部色彩模式,并且用等式(3)从lF,B(p)计算pF,B(p)。
当计算像素pi属于前景/背景的概率时,假设均值移位区域1002中的所有像素具有相同的值。结果,在一个实现中,上下文色彩学习引擎110在每个区域R内部执行投票过程,并且取元素概率的中间值作为该区域内部的像素的值以增强稳健性:
Figure G2008800187561D00133
相似度能量最终通过归一化来获得:
E 1 ( y i = 1 ) = log [ p F ( p i ) ] log [ p F ( p i ) ] + log { p B ( p i ) }
 (5)
E 1 ( y i = 0 ) = log [ p B ( p i ) ] log [ p F ( p i ) ] + log [ p B ( p i ) ]
图11(d)示出了来自视觉对象剪切引擎200的示例性概率图。与使用像素的色彩作为特征的图11(c)相比具有相似色彩的区域(面部和墙)中的歧义减少了。
边缘轮廓模型进行的对比调整
在基于分割方法的常规图形剪切中使用的平滑度项是基于图像对比度的,即如等式(6)中:
E 2 ( y i , y j ) = | y i - y j | exp ( - β d ij ) - - - ( 6 )
其中β是对色彩距离dij加权的参数。此处,dij=||Ii-Ij||,并且β=[2<dij>]-1,使用<·>作为期望算子。Ii和Ij是pi和pj的色彩。
该项强制分割遵循强边缘。然而,当在前景或背景内部存在强内部边缘时,会发生不合需要的分割。使用常规平滑度项的常规技术将因沿着该内部边缘分割而失败。
接着,将描述提供对沿着强内部边缘的不合需要的分割的上述问题的补救的边缘轮廓特征提取。在一个实现中,该问题是通过基于旋转不变的边缘轮廓特征调整dij来解决的。该调整减少内部边缘处的dij并增加和前景和背景之间的边界边缘(即分割边界)处的dij,由此指导剪切更可能遵循边界边缘。
边缘轮廓特征提取
边缘学习引擎120将均值移位区域1002的共享边界作为边缘部分,并且沿着它们提取轮廓以描述边缘的标准(垂直)方向上的色彩外观。均值移位区域1002内部的像素对被直接当作内部边缘,因为对象边界不太可能出现在这种区域1002内。
例如,在图10(b)中,从两个相邻区域之间的边缘上的像素对开始,分别在边缘1006朝向两个区域的标准方向上(绿色箭头)找出N个不同色彩。总共收集到2N个色彩来形成轮廓特征:
ε=[ε-N,...,ε-1,ε1,...,εN]T·在图10中,N=2。
调整平滑度能量
类似于上述用于推断相似度能量的示例性技术,对于lB(ε)(边界边缘)或lI(ε)(内部边缘),如下在公式(7)中拟合边界边缘412和内部边缘408和410的相似度模型:
l ( &epsiv; ) = p ( &epsiv; 1 ) p ( &epsiv; - 1 | &epsiv; 1 ) &Pi; i = 1 N - 1 p ( &epsiv; i + 1 | &epsiv; i ) &Pi; i = 1 N - 1 p ( &epsiv; - i - 1 | &epsiv; - i ) - - - ( 7 )
该简化是基于边缘轮廓中仅相邻色彩是相关的近似。边缘特征是用对称的方式在两个方向上提取的,由此该等式中的前两项可以被等效地改成p(ε-1)p(ε1-1)。
在相关图像104中,对于区域R1和R2之间的边缘处的任何邻近像素对(pi,pj),可以通过pI,B(ε)∝lI,B(ε)来获取pB(ε)和pI(ε)。
区域R1和R2的共享边界处的像素对(pi,pj)的最终后验是通过R1和R2之间的共享边界上的所有对的稳健投票来获取的,如在等式(8):
Figure G2008800187561D00152
边缘调整器328使用pI(pi,pj)和pB(pi,pj)来调整对比度,如在等式(9)中。当pI(pi,pj)足够大时,pi和pj之间的边缘非常可能是内部边缘,并且边缘调整器328减少dij。当pB(pi,pj)足够大时,确信边缘是边界边缘,并且边缘调整器328增强dij。当在任一情形都不确信时,保持区域不变:
Figure G2008800187561D00153
在等式(9)中,λ>0控制调整的强度,并且λ>0是用于稳健性的置信度阈值。
图11(f)示出了示例性对比图330。在调整了对比度之后,与原始对比图(例如在图11(e)中)相比,前景和背景内部的边缘一般被衰减,而沿着前景/背景边界的边缘被增强。
机制分析
局部色彩模式模型和边缘调整提供了用于对象剪切任务的互补信息。LCP模型114被设计成减少由前景对象和背景之间的相似外观所导致的歧义;而边缘轮廓模型126通过调整平滑度能量来帮助剪切。每个模型影响分割任务的不同方面,并且将它们组合在一起提供了互补的增强。
图12示出了局部色彩模式模型114和边缘轮廓模型126之间的这种互补关系。一方面,根据12(a)仅使用局部色彩模式模型114来剪切12(b),对具有相似上下文的区域(诸如眼睛和手)被错误地分类,如图12(c)中所示。在边缘信息的协助下,这些部分变得很明显是在前景内部,由此洞被填补,如图12(d)中。另一方面,在12(f)中的边界边缘和内部边缘两者上都有黑白模式(用圆圈标记)1202,并且边缘模型126不能区分它们。使用边缘轮廓模型126和单个色彩特征,获得了诸如12(g)的结果,而使用边缘轮廓模型126和LCP模型114两者则提供了12(h),其消除了歧义。
示例性方法
图13是出了基于第一图像的上下文色彩和边缘轮廓来推断第二图像中的分割边界的示例性方法1300。在流程图中,在各个框中概述了操作。示例性方法1300可以由硬件,软件,或硬件、软件、固件的组合等来执行,例如由视觉对象剪切引擎200的组件来执行。
在框1302处,确定第一图像的每个块附近的上下文色彩以创建外观模型。上下文色彩标识示例性外观模型中的每个块。由于前景和背景几乎从不拥有同样的色彩构造——即使有时在一般总体色彩上相似——这些上下文色彩模式提供了比仅根据它们的单个一般色彩从背景区分前景的常规技术更为强大的用于从背景区分前景的机制。
在图像块的更细微的级别上,对上下文色彩的示例性提取成为比常规技术更加强大的用于从背景块区分前景块的技术。常规技术将块自身的诸如色彩、亮度等属性做比较。但是当前景和背景在色彩上有些相似时,块自身的属性会导致有歧义的区别。在本文中所描述的上下文色彩的示例性提取中,在给定块和对比邻近色彩之间形成的色彩模式(例如通过所提取的色彩对可用的以及与每个块相关联的)提供了用于从背景块区分前景块的更多信息。
前景或背景块位于相同的上下文色彩组是极不可能的,因为前景部分和背景部分往往拥有其自己相应的色彩调色板。因此,与给定块相关联的上下文色彩成为提供作为前景或背景的精确标识的指纹。
应该注意,图像的给定块的上下文色彩不必是紧靠该块的那些色彩。实际上,示例性方法1300可以从该块在每个方向上遍历某一距离以找出对比色彩来提供上下文。
在框1304处,学习第一图像的视觉边缘附近的色彩序列以创建边缘轮廓模型。在一个实现中,示例性方法1300在多个点处扫描模型图像的已知分割边界,在扫描边缘的任一侧上的色彩期间从在前景对象内部向外前进并且前进到背景中。例如,方法1300可以在正确的角度上对分割边缘进行线性扫描。这些边缘扫描提供了色彩的轮廓,以及更具体地,提供了特性上在分割边缘附近、内部和/或外部的色彩序列。该信息被编译到边缘轮廓模型中。该模型提供了用于在其它图像中识别什么是真正的分割边界以及什么仅是前景对象内或背景内的视觉边缘的强大工具。
在框1306处,基于外观模型和边缘轮廓模型来推断第二图像中的分割边界。外观模型和边缘轮廓模型可以使用许多方式来推断测试图像104中的、外观模型和边缘轮廓模型的分割属性所传播到的精确分割边界。在一个实现中,将模型前景的数据能量与未知测试图像的可能的前景部分进行比较,并且将数据能量最小化以优化分割边界。可以将包括与外观模型相关联的数据能量和与边缘轮廓模型相关联的平滑度能量的总能量最小化以提供分割边界优化。模型图像的边缘轮廓模型可用于调整平滑度能量分量,后者转化成弱化对内部边缘的效果并且强化分割边界边缘的效果。
图14示出了提取上下文色彩的示例性方法1400。在流程图中,在各个框中概述了操作。示例性方法1400可以由硬件,软件,或硬件、软件、固件的组合等来执行,例如由视觉对象剪切引擎200的组件来执行。
在框1402处,对于图像的每个块,从给定块的多个方向中的每一个上的扫描相应距离(例如扫描色彩检测技术所遍历的),直至在沿着每个方向的某一距离处找到样本色彩,这样使得样本色彩落入与主题块的色彩模态不同的色彩模态中。
在框1404处,记录块的色彩和在每个方向上获取的样本色彩作为该块的上下文色彩对。如果选择四个方向来提供每个块的上下文色彩信息,则四个色彩对与图像的每个块相关联。
结论
尽管用对结构特征和/或方法动作专用的语言描述了示例性系统和方法,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现所要求保护的方法、设备、系统等的示例性形式公开的。

Claims (20)

1.一种方法,包括:
接收第一图像;以及
基于所述第一图像中的上下文色彩和边缘轮廓来分割第二图像。
2.如权利要求1所述的方法,其特征在于,所述第一图像被分割成前景对象和背景。
3.如权利要求1所述的方法,其特征在于,还包括:
在所述第一图像中,基于所述第一图像中的上下文色彩来创建前景对象和背景的外观模型,其中所述外观模型是基于所述第一图像的局部色彩模式的;
基于所学习的所述第一图像中的边缘附近的色彩上下文来创建所述第一图像的边缘轮廓模型;以及
其中所述分割包括至少部分地使用从所述第一图像获得的外观模型和边缘轮廓模型来优化所述第二图像的前景对象和所述第二图像的背景之间的分割边界。
4.如权利要求3所述的方法,其特征在于,创建所述前景对象的外观模型包括表示所述前景对象的相似度能量,所述相似度能量用于优化所述第二图像的分割边界。
5.如权利要求3所述的方法,其特征在于,创建所述边缘轮廓模型包括创建用于调整在优化所述第二图像的分割边界时使用的平滑度能量的边缘轮廓。
6.如权利要求3所述的方法,其特征在于,优化所述分割边界包括通过经由最小割/最大流技术将包括相似度能量分量和平滑度能量分量的总能量最小化来优化二值标记过程;
其中所述外观模型的至少一部分表示所述相似度能量;以及
其中所述边缘轮廓模型的至少一部分调整所述平滑度能量。
7.如权利要求6所述的方法,其特征在于,所述最小割/最大流技术包括
Figure A2008800187560002C1
其中E数据xp构成所述相似度能量,其编码了当所述第一图像中的像素p的标记是xp时的成本,而E平滑度(xp,xq)构成所述平滑度能量,其表示当所述第一图像中的相邻像素p和q的标记被分别标记为xp和xq时的成本,而α构成在所述相似度能量和所述平滑度能量之间进行平衡的参数。
8.如权利要求3所述的方法,其特征在于,基于所述第一图像中的上下文色彩来创建所述前景对象和所述背景的外观模型包括:
将所述第一图像分割成各个部分;
将每一部分分割成各个块;
选择从每个块前进的多个方向;
对于每个块:
在所述方向的每一个上前进直至沿着所述方向的样本色彩与所述块的色彩相差对比阈值;以及
记录所述样本色彩和所述块的色彩作为上下文色彩对。
9.如权利要求8所述的方法,其特征在于,还包括记录每个块的多个所述上下文色彩对,所述数目等于所选方向的数目。
10.如权利要求8所述的方法,其特征在于,所述部分中的至少一个表示前景对象。
11.如权利要求8所述的方法,其特征在于,还包括经由均值移位技术预先分割所述第一图像。
12.如权利要求1所述的方法,其特征在于,还包括:
在所述第一图像中,基于所述第一图像中的上下文色彩来创建具有相似度能量的背景和前景对象的外观模型;
在所述第二图像中,创建所述第二图像的可能的前景和可能的背景的外观相似度模型,所述外观相似度模型包括所述可能的前景的累积相似度能量;
在所述第一图像中,基于所学习到的所述第一图像中的边缘附近的色彩上下文来创建所述第一图像的边缘轮廓模型;
在所述第二图像中,基于所学习到的所述第二图像中的边缘附近的色彩上下文来创建所述第二图像的边缘轮廓相似度模型,所述边缘轮廓相似度模型包括可能的分割边界;
通过经由最小割/最大流技术将包括相似度能量分量和平滑度能量分量的总能量最小化来优化所述第二图像中可能的分割边界。
13.如权利要求12所述的方法,其特征在于,所述相似度能量是经由上下文色彩对来计算的,所述第一和第二图像的上下文色彩对是如下获得的:
将所述第一和第二图像分割成各个部分;
将每一部分分割成各个块;
选择从每个块前进的多个方向;
对于每个块:
在所述方向的每一个上前进直至沿着所述方向的样本色彩与所述块的色彩相差对比阈值;
记录所述样本色彩和所述块的色彩作为上下文色彩对;以及
记录每个块的多个所述上下文色彩对,所述数目等于所选方向的数目。
14.如权利要求1所述的方法,其特征在于,还包括将所述分割应用于以下之一:自动分割与所述第一图像相似的图像;自动分割具有与所述第一图像不同前景或不同背景的图像;自动剪切在视频帧序列之间移动的视频对象;自动检测面部视图;在基于内容的图像检索期间自动搜索数据库。
15.一种传播来自模型图像的对象剪切的方法,包括:
将所述模型图像分成各个块;
将每个块周围的上下文色彩采样到基于对所述模型图像的局部色彩模式的学习的外观模型;
学习所述模型图像中的边缘的边缘轮廓;
基于所述外观模型和所述边缘轮廓来分割不同的图像。
16.如权利要求15所述的方法,其特征在于,采样每个块周围的上下文色彩还包括:
选择从每个块前进的多个方向;
对于每个块:
在所述方向的每一个上前进直至检测到不同色彩模态的样本色彩;
记录所述样本色彩和所述块的色彩作为上下文色彩对;以及
记录每个块的多个所述上下文色彩对,所述数目等于所选方向的数目。
17.如权利要求15所述的方法,其特征在于,还包括:
从所述外观模型导出相似度能量;
从所述边缘轮廓导出平滑度能量;
通过将包括所述相似度能量和所述平滑度能量的总能量最小化来优化所述不同图像中的每个像素的二值标记;
其中所述相似度能量表示当将所述像素标记为前景对象或背景时的成本且经调整的平滑度能量阻碍被给予不同标记的两个相邻像素,以迫使所述分割边界遵循真实对象边界。
18.如权利要求1所述的方法,其特征在于,还包括将所述传播对象剪切应用于以下之一:自动分割与所述第一图像相似的图像;自动分割具有与所述第一图像不同前景或不同背景的图像;自动剪切在视频帧序列之间移动的视频对象;自动检测面部视图;在基于内容的图像检索期间自动搜索数据库。
19.一种系统,包括:
用于采样第一图像的每个块周围的局部色彩模式的装置;
用于学习所述第一图像中的边缘的装置;以及
用于基于所述第一图像中的局部色彩模式和所学习到的边缘来分割第二图像的装置。
20.如权利要求19所述的系统,其特征在于,所述用于分割的装置包括:
用于优化所述第二图像中的分割边界的装置,其还包括:
用于最小化能量的装置,所述能量包括:
从所述第一图像的局部色彩模式导出的相似度能量以及从所述第二图像提取的局部色彩模式;以及
由所学习到的所述第一图像的边缘调整的、所述第二图像的边缘的平滑度能量。
CN2008800187561A 2007-06-05 2008-06-05 用于从单个示例学习对象剪切的方法和系统 Active CN101689305B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/810,595 2007-06-05
US11/810,595 US8644600B2 (en) 2007-06-05 2007-06-05 Learning object cutout from a single example
PCT/US2008/065889 WO2008151270A1 (en) 2007-06-05 2008-06-05 Learning object cutout from a single example

Publications (2)

Publication Number Publication Date
CN101689305A true CN101689305A (zh) 2010-03-31
CN101689305B CN101689305B (zh) 2013-09-04

Family

ID=40094192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800187561A Active CN101689305B (zh) 2007-06-05 2008-06-05 用于从单个示例学习对象剪切的方法和系统

Country Status (4)

Country Link
US (1) US8644600B2 (zh)
EP (1) EP2165313B1 (zh)
CN (1) CN101689305B (zh)
WO (1) WO2008151270A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013044729A1 (zh) * 2011-09-29 2013-04-04 索尼公司 图像处理设备和方法,以及成像设备和方法
CN103581537A (zh) * 2012-07-25 2014-02-12 株式会社东芝 图像处理装置、图像处理方法及固体拍摄装置
CN105719297A (zh) * 2016-01-21 2016-06-29 中国科学院深圳先进技术研究院 基于视频的物体切割方法及装置
US9633444B2 (en) 2014-05-05 2017-04-25 Xiaomi Inc. Method and device for image segmentation
CN107958460A (zh) * 2016-10-18 2018-04-24 奥多比公司 实例级语义分割系统
CN108141526A (zh) * 2015-10-30 2018-06-08 2Mee 有限公司 通信系统和方法

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090003712A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Video Collage Presentation
US7925089B2 (en) * 2007-09-18 2011-04-12 Microsoft Corporation Optimization of multi-label problems in computer vision
US8238651B2 (en) * 2008-06-05 2012-08-07 Microsoft Corporation Image-guided abstraction of building facades
US9269154B2 (en) * 2009-01-13 2016-02-23 Futurewei Technologies, Inc. Method and system for image processing to classify an object in an image
TWI391876B (zh) * 2009-02-16 2013-04-01 Inst Information Industry 利用多重模組混合圖形切割之前景偵測方法、系統以及電腦程式產品
CN101835037B (zh) * 2009-03-12 2015-02-04 索尼株式会社 对视频中的运动矢量进行可靠性分类的方法和系统
TWI423146B (zh) * 2009-06-05 2014-01-11 Univ Nat Taiwan Science Tech 動態偵測與識別指示牌的方法與系統
US8724928B2 (en) * 2009-08-31 2014-05-13 Intellectual Ventures Fund 83 Llc Using captured high and low resolution images
US8452087B2 (en) 2009-09-30 2013-05-28 Microsoft Corporation Image selection techniques
US8655069B2 (en) * 2010-03-05 2014-02-18 Microsoft Corporation Updating image segmentation following user input
JP5216834B2 (ja) * 2010-11-08 2013-06-19 株式会社エヌ・ティ・ティ・ドコモ オブジェクト表示装置及びオブジェクト表示方法
US8675957B2 (en) 2010-11-18 2014-03-18 Ebay, Inc. Image quality assessment to merchandise an item
US20120141045A1 (en) * 2010-12-01 2012-06-07 Sony Corporation Method and apparatus for reducing block artifacts during image processing
US9271035B2 (en) 2011-04-12 2016-02-23 Microsoft Technology Licensing, Llc Detecting key roles and their relationships from video
US9208580B2 (en) 2012-08-23 2015-12-08 Qualcomm Incorporated Hand detection, location, and/or tracking
US10678259B1 (en) * 2012-09-13 2020-06-09 Waymo Llc Use of a reference image to detect a road obstacle
US10783615B2 (en) 2013-03-13 2020-09-22 Kofax, Inc. Content-based object detection, 3D reconstruction, and data extraction from digital images
US11620733B2 (en) 2013-03-13 2023-04-04 Kofax, Inc. Content-based object detection, 3D reconstruction, and data extraction from digital images
US10127636B2 (en) * 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
CN105940392B (zh) 2014-02-19 2019-09-27 高通股份有限公司 装置的图像编辑技术
US9864901B2 (en) 2015-09-15 2018-01-09 Google Llc Feature detection and masking in images based on color distributions
US9547908B1 (en) * 2015-09-28 2017-01-17 Google Inc. Feature mask determination for images
US10152213B2 (en) * 2016-09-01 2018-12-11 Adobe Systems Incorporated Techniques for selecting objects in images
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10635927B2 (en) 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US10248664B1 (en) 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
US11378965B2 (en) * 2018-11-15 2022-07-05 Toyota Research Institute, Inc. Systems and methods for controlling a vehicle based on determined complexity of contextual environment
CN111024710B (zh) * 2019-12-17 2022-04-08 江苏恒宝智能系统技术有限公司 一种农作物异常检测系统及方法
EP3945495B1 (en) * 2020-07-30 2024-02-14 Dassault Systèmes Method for segmenting an object in an image

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68928895T2 (de) 1988-10-11 1999-05-27 Agency Of Industrial Science And Technology, Tokio/Tokyo Verfahren und Gerät für universelle adaptiv lernende Bildmessung und -erkennung
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
JP2831892B2 (ja) * 1993-03-01 1998-12-02 日本電信電話株式会社 静止画像切り出し処理方式
JPH07121710A (ja) * 1993-10-27 1995-05-12 Hitachi Ltd 画像セグメンテーション方法及び装置
JP3189870B2 (ja) 1996-12-24 2001-07-16 シャープ株式会社 画像処理装置
JP3511454B2 (ja) 1997-10-31 2004-03-29 大日本スクリーン製造株式会社 画像切り抜き方法および装置
KR19990051743A (ko) * 1997-12-19 1999-07-05 정선종 내용 기반 영상 정보를 이용한 등록 상표 자동 검색 방법
US6240423B1 (en) 1998-04-22 2001-05-29 Nec Usa Inc. Method and system for image querying using region based and boundary based image matching
JP3569641B2 (ja) * 1999-02-25 2004-09-22 日本電信電話株式会社 画像中の物体の検出装置、方法およびこの方法を記録した記録媒体
EP2278549A1 (en) 1999-09-24 2011-01-26 Nippon Telegraph And Telephone Corporation Method and apparatus for extracting segmentation mask
EP1089214A3 (en) 1999-09-30 2005-01-26 Matsushita Electric Industrial Co., Ltd. Apparatus and method for image recognition
US6973212B2 (en) 2000-09-01 2005-12-06 Siemens Corporate Research, Inc. Graph cuts for binary segmentation of n-dimensional images from object and background seeds
JP2002242782A (ja) * 2001-02-16 2002-08-28 Isuzu Motors Ltd 燃料リークオフパイプ
US7164490B2 (en) 2001-06-15 2007-01-16 Eastman Kodak Company Custom cut image products
US20030046150A1 (en) * 2001-08-01 2003-03-06 Jamie Ader System and method of advertiser-subsidized customizable ordering and delivery of multimedia products
US7085401B2 (en) * 2001-10-31 2006-08-01 Infowrap Systems Ltd. Automatic object extraction
JP2004120092A (ja) 2002-09-24 2004-04-15 Canon Inc 画像処理装置、画像処理システム、画像処理方法、記憶媒体、及びプログラム
US7298895B2 (en) * 2003-04-15 2007-11-20 Eastman Kodak Company Method for automatically classifying images into events
US20060029275A1 (en) 2004-08-06 2006-02-09 Microsoft Corporation Systems and methods for image data separation
GB2439250A (en) 2005-03-03 2007-12-19 Bourbay Ltd Segmentation of digital images
JP2006251149A (ja) 2005-03-09 2006-09-21 Fujinon Corp 照明装置及び投写型画像表示装置。
GB0512837D0 (en) * 2005-06-23 2005-08-03 Univ Oxford Brookes Efficiently labelling image pixels using graph cuts
US7400767B2 (en) 2005-07-15 2008-07-15 Siemens Medical Solutions Usa, Inc. System and method for graph cuts image segmentation using a shape prior
US20070165966A1 (en) * 2005-07-15 2007-07-19 Yissum Research Development Co. Closed form method and system for matting a foreground object in an image having a background
JP2007121710A (ja) 2005-10-28 2007-05-17 Canon Inc 現像剤封止部材及び現像剤封止部材の製造方法並びにプロセスカートリッジ、電子写真画像形成装置
US7706610B2 (en) * 2005-11-29 2010-04-27 Microsoft Corporation Segmentation of objects by minimizing global-local variational energy
US7532752B2 (en) * 2005-12-30 2009-05-12 Microsoft Corporation Non-photorealistic sketching
US7822274B2 (en) * 2006-01-17 2010-10-26 Siemens Medical Solutions Usa, Inc. Banded graph cut segmentation algorithms with laplacian pyramids
US7630541B2 (en) * 2006-05-30 2009-12-08 Microsoft Corporation Image-wide matting
US7593020B2 (en) * 2006-05-30 2009-09-22 Microsoft Corporation Image editing using image-wide matting
US8351713B2 (en) * 2007-02-20 2013-01-08 Microsoft Corporation Drag-and-drop pasting for seamless image composition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CARSTEN ROTHER.ETC: ""GrabCut"- Interactive Foreground Extraction using Iterated Graph Cuts", 《ACM TRANSACTIONS ON GRAPHICS–TOG》 *
JUE WANG.ETC: "Interactive Video Cutout", 《ACM TRANSACTIONS ON GRAPHICS–TOG》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013044729A1 (zh) * 2011-09-29 2013-04-04 索尼公司 图像处理设备和方法,以及成像设备和方法
CN103581537A (zh) * 2012-07-25 2014-02-12 株式会社东芝 图像处理装置、图像处理方法及固体拍摄装置
US9633444B2 (en) 2014-05-05 2017-04-25 Xiaomi Inc. Method and device for image segmentation
CN108141526A (zh) * 2015-10-30 2018-06-08 2Mee 有限公司 通信系统和方法
CN105719297A (zh) * 2016-01-21 2016-06-29 中国科学院深圳先进技术研究院 基于视频的物体切割方法及装置
CN107958460A (zh) * 2016-10-18 2018-04-24 奥多比公司 实例级语义分割系统
CN107958460B (zh) * 2016-10-18 2023-09-08 奥多比公司 实例级语义分割系统

Also Published As

Publication number Publication date
US20080304735A1 (en) 2008-12-11
CN101689305B (zh) 2013-09-04
EP2165313A1 (en) 2010-03-24
WO2008151270A1 (en) 2008-12-11
EP2165313B1 (en) 2014-05-07
EP2165313A4 (en) 2012-01-04
US8644600B2 (en) 2014-02-04

Similar Documents

Publication Publication Date Title
CN101689305B (zh) 用于从单个示例学习对象剪切的方法和系统
Lucas et al. ICDAR 2003 robust reading competitions: entries, results, and future directions
CN105373794B (zh) 一种车牌识别方法
EP1229493B1 (en) Multi-mode digital image processing method for detecting eyes
Liu et al. Foreground object detection using top-down information based on EM framework
US7995841B2 (en) Hybrid graph model for unsupervised object segmentation
Li et al. A three-step approach for TLS point cloud classification
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
Majd et al. Transferable object-based framework based on deep convolutional neural networks for building extraction
CN108509950B (zh) 基于概率特征加权融合的铁路接触网支柱号牌检测识别法
Cui et al. Transductive object cutout
CN116503622A (zh) 基于计算机视觉图像的数据采集读取方法
Walicka et al. Automatic segmentation of individual grains from a terrestrial laser scanning point cloud of a mountain river bed
Li et al. Pole-like street furniture decompostion in mobile laser scanning data
Jaimes et al. Unsupervised semantic segmentation of aerial images with application to UAV localization
Zheng et al. Character segmentation for license plate recognition by K-means algorithm
CN109117841A (zh) 基于笔画宽度变换与卷积神经网络的场景文本检测方法
Wu et al. Vehicle detection in high-resolution images using superpixel segmentation and CNN iteration strategy
Youssef et al. Combining top-down and bottom-up approaches for building detection in a single very high resolution satellite image
Gamba et al. A fast algorithm for target shadow removal in monocular colour sequences
Thomas et al. Shape-from-recognition: Recognition enables meta-data transfer
CN110310311B (zh) 一种基于盲文的图像配准方法
Hao et al. Saliency-guided repetition detection from facade point clouds
CN113128251A (zh) 一种鱼脸特征检测算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150513

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150513

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.