CN101379512A - 用于图像标记的设备和方法 - Google Patents
用于图像标记的设备和方法 Download PDFInfo
- Publication number
- CN101379512A CN101379512A CNA2007800043255A CN200780004325A CN101379512A CN 101379512 A CN101379512 A CN 101379512A CN A2007800043255 A CNA2007800043255 A CN A2007800043255A CN 200780004325 A CN200780004325 A CN 200780004325A CN 101379512 A CN101379512 A CN 101379512A
- Authority
- CN
- China
- Prior art keywords
- image
- segment
- constraint
- segments
- image segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
Abstract
用于标记图像的设备包括将图像分割成图像片断的分割处理器(103)。片断标签处理器(105)将片断标签分配至图像片断,并且关系处理器(107)确定图像片断的片断关系。CRP模型处理器(109)生成约束推理问题模型,该模型具有与图像片断相对应的变量以及反映图像片断关系的约束。该模型的每个变量具有包括分配至该变量的图像片断的图像片断标签的域。CRP处理器(111)随后通过求解该约束推理问题模型为图像生成图像标记。本发明可以允许改善的自动化图像标记。
Description
技术领域
本发明涉及用于图像标记的设备和方法,尤其涉及基于图像分割的图像标记。
背景技术
随着图像越来越多地作为数字编码图像被存储、分发以及处理,编码图像的数量和种类已经大大地增加。
然而,日益增加的图像数据量已经增加了对具有较少或没有人工输入或介入的图片自动和技术处理的需要和期望。例如,当管理图像收藏时,经常对诸如照片等的图像使用手动人工分析和索引。然而,这些操作在人工领域中非常麻烦并且消耗时间,期望越来越多地在工业领域中以自动化或半自动化处理来执行这些操作。
因此,已经开发了用于分析和索引图像的算法。然而,这些算法易于受限制,并且具有许多缺点,包括:
·它们集中于相当狭窄的图像域,如仅与特定位置相关的图像(例如,仅与海滩、风景、面部等相关的图像)。
·而且它们趋于需要用于低层次分析的非常专用的算法。
·它们仅考虑非常低层次的分析,并且忽视对使用者更为有用的抽象知识。
·索引趋于将图像作为黑匣子考虑,而不说明在图片中找到何种概念信息(例如,它们不允许对诸如“将人们骑马的所有图像展示给我”的复杂问题作出回答,而仅允许对“将具有人和马的所有图像展示给我”作出回答)。
因此,用于索引和标记图像的当前算法趋于低效和/或导致生成次最优信息。具体而言,当前方法为了提高性能,趋于仅考虑低层次信息以及忽视背景知识。
例如,图像标记的一种已知方法包括使用低层次处理将图像分割成图像片断,以及将图案识别应用于每个图像片断。如果图像片断的图案被识别,则该片断由与被检测的图案相对应的一个或多个标签标记。例如,图像片断可能被检测为房子,该片断可相应地由标签“房子”标记。
然而,该方法通常导致大量的个别标记的小片断。而且,该标记不连贯、分离,而且对个别图像片断可能冲突。此外,该标记没有反映图像的任何概念性或整体性信息。因此,该方法趋于导致次优化的标记,并且难以在管理和组织图像时使用。
因此,改善的图像标记将是有利的,尤其是允许增加的灵活性、附加或改善的信息、有效的实施、改善图像域无关性和/或改善性能的图像标记将是有利的。
发明内容
因此,本发明致力于优选地减轻、减少或消除一个或多个上述缺点的单个或其组合。
根据本发明的第一方面,提供有
1.一种用于标记图像的设备,该设备包括:
用于将图像分割成图像片断的装置;
用于将片断标签分配至图像片断的分配装置;
用于确定图像片断的片断关系的装置;
用于生成约束推理问题模型的模型装置,该模型具有与图像片断相对应的变量以及反映图像片断关系的约束,每个变量具有包含分配至该变量的图像片断的图像片断标签的域;以及
用于通过求解约束推理问题模型而生成该图像的图像标记的装置。
本发明可以允许改善的图像标记。可以获取关于图像的改善信息,尤其是,涉及图像片断之间的关系和/或上下文信息和/或概念信息的信息可以被考虑和/或可以在标记中反映。
本发明可以允许图像的自动化和/或半自动化的标记,以减少所需的手工时间和努力。
本发明可以允许生成标记数据,该标记数据更适宜于搜索、推理、选择,以及另外处理或管理图像。可以实现实际的和有效的实施。
具体而言,在一些实施方式中,本发明可以允许图像分析,该分析基于低层次的图像处理提供图像内容的概念索引,并且使用约束推理系统提供高层次的域理解。
根据本发明的可选特性,图像片断关系包括空间关系。
这可以允许特别有利的标记,尤其是可以允许生成改善的标记数据和/或有效的、便利的实施。
根据本发明的可选特性,空间关系包括相对空间关系。
这可以允许特别有利的标记,尤其是可以允许生成改善的标记数据和/或有效的、便利的实施。
根据本发明的可选特性,空间关系包括绝对空间关系。
这可以允许特别优势的标记,尤其是可以允许生成改善的标记数据和/或有效的、便利的实施。
根据本发明的可选特性,将模型装置设置成响应于片断关系和图像域数据来确定约束。
该特征可以允许改善的图像标记。尤其是,可以生成反映非局部特征和/或图像上下文信息的图像标记数据。图像域数据可以是反映图像的图像内容分类的数据。
根据本发明的可选特性,分配装置被设置成分配片断标签的可靠性指示。
这可以允许改善的图像标记,尤其可以允许生成改善的标记数据,这对于例如搜索、推理、选择以及另外处理或管理图像来说更为有利。
根据本发明的可选特性,约束推理问题模型是模糊逻辑约束推理问题模型。
这可以允许改善的图像标记,尤其可以允许生成改善的标记数据,这对于例如搜索、推理、选择以及另外处理或管理图像来说更为有利。
模糊逻辑约束推理问题模型可以是任何约束推理问题模型,该模型允许非二元决策和/或约束的非二元满足,诸如仅在一定程度上被满足的约束。
根据本发明的可选特性,该设备还包括用于响应于图像标记而合并片断的合并装置。
这可允许改善的图像标记,尤其是可允许对图像中的特性和特征的改善的识别和标记。
根据本发明的可选特征,响应于邻接准则合并片断。
这可以允许改善的性能和/或改善的片断合并,具体地可以允许改善属于同一图像对象的图像片断的合并精度。邻接准则可以例如包括以下要求:要被合并的片断必须是邻接的。
根据本发明的可选特征,响应于片断标记准则合并片断。
这可以允许改善性能和/或改善的片断合并,具体地可以允许改善属于同一图像对象的图像片断的合并精度。片断标记准则可以例如包括以下要求:要被合并的片断必须包括基本相同的至少一个或多个标签。
根据本发明的可选特征,片断标记准则要求所有被合并的片断在约束推理问题模型的所有解中具有相应的标签。
这可以允许改善的性能和/或改善的片断合并,具体地可以允许改善属于同一图像对象的图像片断的合并精度。
根据本发明的可选特征,该设备还包括用于响应于用户输入在约束推理问题模型的解之间进行选择的装置。
这可以允许改善的图像标记,并且可以在允许人工介入的同时,允许具有便利的标记的半自动化处理。
根据本发明的可选特征,将该设备设置为重复图像的标记。
这可以允许改善的图像标记。
根据本发明的可选特征,图像标记包括约束推理问题模型的一个或多个解,每个解包括从片断的域中选择的每个片断的片断标签。
这可以允许改善的图像标记和/或便利的实施。
根据本发明的另一个方面,提供了标记图像的方法,该方法包括:将图像分割成图像片断;分配图像片断的片断标签;确定图像片断的片断关系;生成约束推理问题模型,该约束推理问题模型具有与图像片断相对应的变量以及反映图像片断关系的约束,每个变量具有包含分配至该变量的图像片断的图像片断标签;以及通过求解约束推理问题模型,生成图像的图像标记。
将结合下文所描述的实施方式说明本发明的这些和其他方面、特征和优势,并且其将变得明显。
附图说明
仅通过示例的方式,将参考附图描述本发明的实施方式,其中:
图1示出了根据本发明的一些实施方式的标记图像的设备的示例;
图2示出了约束满足问题的示例;以及
图3示出了根据本发明的一些实施方式的标记图像的方法。
具体实施方式
以下描述主要集中于用于对诸如数字照片或者数字编码视频图像之类的数字编码图像进行标记的设备。
该设备被设置成使用低层次图像处理算法来分割将要被标记的图像。随后,例如使用现有的图像片断分类器对每个图像片断进行分类。该设备随后利用片断之间的关系(具体为空间关系),将初始标记的图像转换成约束满足问题模型,并且然后使用约束推理器去除那些不符合空间上下文的标签。概念的可能排列被定义为域知识。约束推理模型也很适合并入其他类型的信息,例如专用算法或者不同类型的分割,因此它可以形成将知识并入图像理解处理的一般基础。
该设备基于将图像片断标记问题再形成(reformulation)为约束推理方法,该方法也可以考虑域的背景知识,诸如对于给定域有效的空间方位。该方法可以包括片断合并,以实现改善的图像分割。
图1示出了根据本发明的一些实施方式的用于标记图像的设备的示例。
设备100包括生成数字编码图片的图像数据生成器101。应当理解,在不同的实施方式中,图像数据生成器101可以例如包括用于捕捉、对照片或视频帧进行数字化及编码和/或接收来自内部或外部源的数字编码图像或图像序列的功能体。在一些实施方式中,该图像数据生成器101可以包括或存在于数字图像的数据存储器。
图像数据生成器101与分割处理器103耦合,分割处理器103接收来自图像数据生成器101的将要被标记的图像。分割处理器103将图像分割成大量的图像片断。
生成图像片断的分割基于图像的低层次分析,具体而言,分割处理器基于诸如颜色和动作等的低层次特征将图像分割成图像片断。
图像分割的目标是将像素组合成具有相似特征的图像片断,例如,因为它们属于同一对象。基本假定是:对象边缘导致图像中的亮度和颜色急剧变化。因此,将具有相似亮度和/或颜色的像素组合在一起,形成区域之间的亮度/颜色边缘。
具体而言,图像分割可以包括基于共同属性对像素进行空间组合的处理。存在几种图片和视频分割的方法,并且每种的有效性通常将取决于该应用。应当理解:可以在不脱离本发明的情况下,使用图片分割的任何已知方法或者算法。
在一些实施方式中,分割包括响应于共同特征来检测图像的不连贯的区域,以及从一个图像或图片至下一个图像或图片跟踪此对象。
例如,该分割可以包括将具有相似亮度级别的图片元素分到同一图像片断中。具有相似亮度级别的图片元素的邻近组趋于属于同一基对象(underlying object)。类似地,具有相似颜色级别的图片元素的邻近组也趋于属于同一基对象,并且该分割替换地或者附加地包括将具有相似颜色的图片元素分在同一片断中。
图像分割的示例为本领域技术人员所熟知,并且例如,可以参见V.Mezaris,I.Kompatsiaris和M.G.Strintzis的“A framework for theefficient segmentation of large-format color images(大版式彩色图像的有效分割的框架)”,记载于2002年9月在罗彻斯特(纽约)举行的图像处理国际会议纪录卷1的761-764页。
分割处理器103耦合到片断标签处理器105,该片断标签处理器105将片断标签分配给各个图像片断。
具体而言,片断标签处理器105将图像域考虑在内而对各个片断执行图案识别。图像域对应于参数和特征的集合,这些参数和特征对于属于那个域的图像是共同的。例如,图像域可以对应于海滩域,即,它可以具有与海滩的视觉图像相对应的图像内容。对于此域而言,信息-预期能够被找到的诸如海、沙滩、太阳之类的对象,可以是已知的,并且对象的关系可以是已知的,诸如太阳在沙滩上方。例如,其他域可以与诸如面部、风景、人物、运动等的其他图像内容相对应。
片断标签处理器105因此可以基于图片域的知识而执行图案识别,并且可以识别与已知图案相对应的片断。可以预先确定每个图案的一个或多个标签,并且当图案识别发现一个或多个匹配时,将与那些匹配相对应的标签分配至图像片断。
本领域技术人员熟知图案识别以及将标签分配至图像片断的各种算法和方法。这种示例可以参见,例如,K.Petridis,F.Precioso,T.Athanasiadis,Y.Avrithis和I.Kompatsiaris的“Combined DomainSpecific and Multimedia Ontologies for Image Understanding(结合域特定和多媒体存在论的图像理解)”,记载于2005年9月在德国的科布伦次举行的第28届德国人工智能会议(KI 2005)上的关于混合现实对于图像理解及人工智能的挑战的专题研讨。
作为用于分配标签的算法的具体示例,片断标签处理器105可以用一组示例来训练(train)。这种示例能够由标签和许多低层次的特征组成,诸如颜色或形状特征,描述通常在数字图像中如何体现标签。这些示例用于训练分类器,通过比较这些示例和在片断中找到的低层次的特征之间的距离,该分类器可以被用来预测给定域的标签。
分割处理器103还与关系处理器107耦合,关系处理器107被设置成确定图像的片断关系。在图1的示例中,这些关系是图像片断之间的空间关系,例如关于一个图像片断处于另一图像片断的前面、后面、左面、右面、下面还是上方的指示。
用于确定这种关系的算法在本领域中已经为人们所熟知,并且其例如可以基于与图像片断相对应的对象的遮挡(occlusion)和移动数据。作为特定示例,可以基于两个片断的界限框之间的角度来生成关系。界限框是包含片断的最小的可能矩形。随后,计算穿过一个框的中心的水平线和连接两个中心的线之间的角度。例如,如果片断是非连贯的,那么具有大约90度的角度将表示一个片断处于另一个片断的上方。
分割处理器103、片断标签处理器105和关系处理器107全部都耦合到CRP模型生成器109。该CRP模型生成器109被设置成生成图像的约束推理问题(CRP)模型,该模型具有与图像片断相对应的变量以及反映图像片断关系的约束,并且每个变量具有包括分配至该变量的图像片段的图像片断标签的域。
CRP模型生成器109与CRP处理器111耦合,CRP处理器111被设置成求解CRP模型。CRP处理器111与存储CRP模型的解的数据存储器113耦合。具体而言,CRP模型包括图像片断的标记,该标记反映域信息和片断间信息。具体而言,该解能够去除片断标签处理器105中的、与其他片断标记和关系不一致的所有标签分配。因此,对于从该片断的变量域所选择的每个图像片断而言,该解可以不包括片断标签、包括一个或者更多片断标签,以便该选择与其他图像片断的选择以及它们之间的约束一致。
因此,在该例子中,向CRP模型生成器109输入分割掩码(segmentation mask)以及分配至每个图像片断的一个或多个可能标签以及图像片断之间的空间关系。尽管生成的图像片断确实具有某些语义信息,即,初始标签集合,但期望进行进一步处理,以提供更符合人类感知的进一步信息。
为实现这一点,应解决基于数字的分割算法所形成的局限性。例如:
在现实世界中,对象通常不是同质的,而是趋于由具有不同视觉特性的部分构成。因此,生成的分割掩码趋于无法将所刻画的对象作为单一片断而捕捉。而是为单一对象生成片断集合,与在其理想情形中的组成部分相对应。在实践中,这意味着:在分配至每个片断的可能标签的集合中,导致形成与域知识一致的对象的那些片断应被优先处理。
从三维空间至二维图像平面的转换导致基本真实世界对象属性(即它们的连通性)的丢失。因此,需要适当的处理,以确保对象连通性在语义描述层次上得以保持。连通性的失去可以源自例如遮挡现象或由于不均匀的视觉特性所致的过度分割。例如,在现实中,与天空这一概念相对应的区域,可能呈现为邻接或非邻接的片断的集合,这是由于颜色变化、云的存在、飞机的存在等。很容易看出,关于邻近区域的语义学的拓扑和上下文信息,对于这种推理起重要作用。
仅视觉特性不能总提供用于区分语义概念与类似视觉特征的足够标准。
此外,同一对象可以在不同的情境下具有不同的视觉特征,也就是说,天空的颜色可能显著变化,这取决于当时场景是黑夜还是白昼、天气条件是多云还是阳光明媚等。在这种情形下,需要有利用上下文及空间信息的智能,以在给定可能标签的初始集合的情况下,确定正确的标签。
在图1的示例中,CRP处理器111所得出的由CRP模型生成器109所生成的CRP模型的解,允许生成改善的标记,该改善的标记解决这些问题。这允许在工业领域中进行更为准确的自动化图像标记,并且允许生成更符合人类感知的特征和信息。
约束满足问题由变量集合和约束集合组成。变量由其域来限定,即,该变量的合法分配的值的集合。约束将数个变量相互关联起来,并且定义这些变量中的每一个的哪些分配被允许考虑相关变量的分配。约束满足问题可以用图表来表示,其中,变量作为以其域被标记的节点,而约束作为以相关节点之间的约束被标记的边缘。
图2示出了非常简单的约束满足问题的示例。在该示例中,约束满足问题由x、y和z三个变量以及x=y和y=z两个约束组成,即所有三个变量必须相等。
约束满足问题不限于有限域(finite domain),也可以应用于无限域(infinite domain)。在此情况下,这些域通常被给定为区间,并且约束推理器减少那些区间,以便仅包含那些出现在该约束满足问题的解中的数/区间。
例如,CSP具有x和y两个变量,其中,x的域为[0,20],且y的域为[10,20],并且约束为x>y,那么这将使x域减少为区间[10,20]。
根据剑桥大学出版社2003年出版的Apt,Krzystof R的“Principlesof Constraint Programming(约束编程原则)”,约束满足问题的正式定义由变量集合V={v1,...,vn}和约束集合C={c1,...,cn}组成。每个变量vi具有关联域D(vi)={11,...,1n},该关联域包括可分配给vi的所有值。每个约束cj定义在子集{vx1,...,vxl}上,其中x1,...xl是1,...,n的子序列(subsequence)。约束cj被定义为相关变量的域的交叉乘积的子集,即cj是D(vx1)x...xD(vxl)的子集。如果cj=D(vx1)x...xD(vxl)和cj均为非空,则约束被认为解出。如果约束推理问题的所有约束被解出并且没有空域,则该约束推理问题被解出,如果它包含空域或空约束,则该约束推理问题失败。
在图1的系统中,标记的图像片断及相应的空间关系由CRP模型生成器109转换为约束满足问题。
通过实例化(instantiate)关于每个片断的变量以及增加关于两个片断之间的每个空间关系的相应约束,将分割的图像以及不同片断之间的空间关系直接转换为约束满足问题。假设集合(即片断标签处理器105所分配的标签)成为变量的域,以使得得到的约束满足问题成为有限域约束满足问题。
能够将两种类型的空间约束区别为:相对和绝对。相对空间约束源自描述一个片断相对于另一个片段的相对位置的空间关系,如其左侧或其上方。这些显然是二元约束。绝对空间约束源自片断在图像上的绝对空间位置,如最上方,这是描述片断位于图像的顶部。这些是一元约束。
通过实例化关于每个片断的变量以及增加关于两个片断之间的每个空间关系的相应约束,分割的图像以及不同片断之间的空间关系被直接转换为约束满足问题。该示例中的约束被定义为所谓的好名单(good-list),即包含用于约束的允许的标签元组的名单。例如,约束“其左侧”可以定义为其左侧={(海,海),(沙滩,沙滩),(海,沙滩),...},表示允许对象海在另一个对象海的左侧,允许对象沙滩在另一个对象沙滩的左侧等。
这一方法与传统约束的定义稍有区别。传统约束是基于变量域定义的,并且是特定于约束满足问题的。作为对照,CRP模型生成器109的约束是域知识的一部分,因此,独立于从图像生成的特定约束满足问题。因此,对满足的约束(satisfied constraint)的概念也作了相应调整。
具体而言,用于对标记的图像进行转换的步骤如下:
1.为图像的每一个片断si生成变量vi。
2.令ls(si)为片断的标签集合,然后将vi的域设置为D(vi)=ls(si)。
3.为片断si上的类型T的每个绝对空间关系rj在变量vj上生成一元约束CT(vj)。
4.为两个片断sk和si之间的类型T的每个相对空间关系cj在变量vk和vi上生成二元约束CT(vk,vi)。
如果对于变量的每个分配vi∈V,对于约束合法的其他变量的分配存在,则我们称变量集合V={v1,...,vn}上的约束C被满足。因为所有域都是有限的,这便创建了有限域约束满足问题。这意味着,能够计算所有解,即该图像的每一个可能且合法的标记。这在求解之后也是有价值的,例如,使得用户能够选择最符合其预期的标记或根据具体的解进行合并。
应当理解,通过CRP处理器111求解该约束推理问题模型可以使用任何具体的方法或算法。例如,用于求解约束满足问题的算法的示例可以在剑桥大学出版社2003年出版的Apt,Krzystof R.的“Principlesof Constraint Programming”(约束编程原则)中找到。
图1的设备因此提供了改善的图像标记,这种标记可以包括并且表示附加的信息。生成的标记信息可以具有改善的内部连贯性,并且反映非局部图像特征。而且,该生成的信息可以提供更适合于进一步处理或具体来说进一步推理的信息。此外,因为该系统还检测描述概念的区域,例如,它允许生成针对更为复杂查询的回答,更复杂的查询例如是请求海处于海滩上方的图像,而不是仅请求包含海滩和海的图像。而且,相对来说,该方法是域无关的,并且不依赖于专用算法。
上面描述集中于采用了二元约束和绝对推理的约束推理问题。然而,在某些实施方式中,可以采用模糊逻辑约束推理问题模型。具体而言,可靠性指示可通过片断标签处理器105被分配至片断标签。可靠性指示可通过图案识别处理来确定,并且可以反映单独图像片段与匹配图案之间的匹配的紧密性。
约束推理问题模型于是可被开发成反映标签的可靠性指示以及非二元约束,并且CRP处理器111可以采用非二元决策来求解约束推理问题。
在图1的示例中,该设备还包括可选合并处理器115,它被设置为响应于图像标记而合并图像片断。
分割处理器103所生成的图像片断一般将被分割到这种程度,其中多个片断往往属于同一基图像对象,并且合并处理器115致力于将这些图像片断组合成表示该图像对象的单一图像片断。
因此,分割处理器103最初可以执行过度分割,然后由致力于组合属于同一语义概念的片断的合并处理器115来减少该过度分割。
当应用粗略分割时,小的对象趋于结合成大的对象,例如,描述飞机的小区域将与主导区域的天空结合在一起。然而,采用过度分割的图像具有将单一对象分割成多于一个图像片断的缺点。例如,大海经常包含具有改变的光强度的区域,这取决于曝光及诸如大海深度等其他因素。在CRP处理器111减少了片断标签处理器105的初始标签假定集合之后,合并处理器115可以利用空间上下文关系,以便合并属于一起的区域。
可以根据片断标记准则(例如,必须包括相同标签的准则)和/或邻接准则(例如,在允许合并之前,所有片断必须是邻接的准则),来执行将不同区域合并成组合区域。具体而言,图1的合并处理器115要求所有被合并片断在约束推理问题模型的解中具有相应的标签。因此,为了被合并,两个片断必须在约束推理问题的解中有相同的标签,尽管这些标签可能从一个解到另一个解而不同。应当理解,可以附加地或者可选地使用其他准则。
更详细地说,该示例性合并处理器115使用简单的原则,该原则定义为:
如果两个片断邻接且包括同一唯一标签,则这两个片断可以被合并。
在该情形中,邻接被认为是该具体实施中所使用的具体空间关系的简短表达,例如,其左边,其右边,其上方以及其下方。所以一般而言,对于对邻接进行建模的每个空间关系都定义了专门规则。这一规则是域知识的一部分,因此能够以一般的方式进行建模。
基于推理方法的规则一般较好地适合于合并处理。然而,如果规则表达为下述公式,例如:
片断(x),片断(y),
(x,y)的左侧,标签(x,l),标签(y,l)->合并(x,y)
(即,如果x在y的左侧且解的标签相同,则片断x和y可以被合并),例如下面片断也符合该规则:
ls(x)={海,沙滩}并且ls(y)={海}
换句话说,包含同一标签的片断充分符合该规则。然而,如果片断还包含其他不兼容的标签,即使符合上述规则,也不应执行合并。
因此,优选使用的规则反映了两个片断仅应该被合并的知识,如果这在每个解中是合法的,即,如果对于所有解标签都是相同的。例如,对于两个片断x,y,它们通过空间关系其左侧相关联,并且具有标签集合ls(x)={天空,海}以及ls(y)={天空,海},对于该约束只有两个解:x=天空,y=天空以及x=海,y=海。无论最终标记是什么,所述片断能够被合并,因为它们显然属于同一同质区域——因此,对于该约束推理问题的两个解而言,标签是相同的。
在某些实施方式中,将该设备设置为重复该处理。因此,在合并处理器115执行合并之后,将图像反馈至分割处理器103以及CRP模型生成器,CRP模型生成器修改约束推理问题模型,以使其基于新的合并片断。具体而言,将变量定义为合并后图像的片断,并且相应地修改约束和域。得到的约束推理问题随后被求解。例如,该处理可以重复固定次数,或直至满足收敛标准(例如,该标签变量或片断合并降至预定阈值之下)。
图3示出了根据本发明的一些实施方式的标记图像的方法。该方法可以由图1的设备执行,并将结合其进行描述。
在步骤301中,图像数据生成器101接收将要标记的图像。
步骤301之后是步骤303,其中,分割处理器103将图像分割成图像片断。
步骤303之后是步骤305,其中,片断标签处理器105将片断标签分配至图像片断。
步骤305之后是步骤307,其中,关系处理器107确定图像片断的片断关系。
步骤307之后是步骤309,其中,CRP模型生成器109生成约束推理问题模型,该模型具有与图像片断相对应的变量以及反映图像片断关系的约束,每个变量具有包括分配至该变量的图像片段的图像片断标签的域。
步骤309之后是步骤311,其中,CRP处理器111通过求解约束推理问题模型,为图像生成图像标记。
在该示例中,步骤311之后是可选步骤313,其中,响应于图像标记合并图像片断。
在某些实施方式中,步骤301至313被重复。
应当理解,为了清楚起见,上文已经参考不同的功能单元和处理器对本发明的实施方式进行了描述。然而,明显的是,在不背离本发明的情况下,可以使用不同功能单元或者处理器之间的功能体的任何适当分配。例如,示出的由分离的处理器或控制器所执行的功能体,可以由同一处理器或控制器执行。因此,对具体功能单元的参考,仅被视为提供所描述的功能性的合适方式的参考,而非表示严格的逻辑或物理结构或组织。
本发明可以任何合适的形式实施,包括硬件、软件、固件或这些的任何组合。本发明可选地至少部分实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施方式的元素和部件可以以任何合适的方式被物理性地、功能性地、以及逻辑性地实现。功能体确实可在单一单元、多个单元中实施或者实施为其他功能单元的部分。因此,本发明可在单一单元中实施或可以物理性地和功能性地分布在不同单元及处理器之间。
尽管已经结合某些实施方式对本发明进行了描述,但并不意味着本发明限于本文所述的具体形式。更确切地说,本发明的范围仅由后附的权利要求限制。此外,尽管表面上结合某些特定实施方式对特征进行描述,但本领域的技术人员应当认识到,根据本发明可以组合所描述的实施方式的各种特征。在权利要求中,术语“包括”并不排斥其他元素或步骤的存在。
此外,虽然被单独地列示,但是大量的装置、元素或方法步骤可以由例如单一单元或处理器来实施。而且,尽管不同权利要求可能包括单独特征,但是这些特征可以被有利地组合,并且在不同权利要求中的包括并不意味着这些特征的组合是不可行的和/或不利的。而且,特征包含在一类权利要求中并不意味着只限于该类别,而是表明当合适时该特征同样适合应用于其他权利要求类别。而且,权利要求中特征的顺序并不意味着这些特征必须工作的任何特定顺序,尤其是方法权利要求中的单独步骤的顺序并不意味着这些步骤必须按这一顺序执行。更确切地说,这些步骤可以以任何合适的顺序执行。
Claims (16)
1.一种用于标记图像的设备,所述设备包括:
用于将图像分割成图像片断的装置;
用于将片断标签分配至所述图像片断的分配装置;
用于确定所述图像片断的片断关系的装置;
用于生成约束推理问题模型的模型装置,该约束推理问题模型具有与所述图像片断相对应的变量以及反映所述图像片断关系的约束,每个变量具有域,该域包括分配至所述变量的图像片断的图像片断标签;以及
用于通过求解所述约束推理问题模型而生成所述图像的图像标记的装置。
2.根据权利要求1所述的设备,其中,所述图像片断关系包括空间关系。
3.根据权利要求2所述的设备,其中,所述空间关系包括相对空间关系。
4.根据权利要求2所述的设备,其中,所述空间关系包括绝对空间关系。
5.根据权利要求1所述的设备,其中,所述模型装置被设置成响应于所述片断关系和图像域数据来确定所述约束。
6.根据权利要求1所述的设备,其中,所述分配装置被设置成分配所述片断标签的可靠性指示。
7.根据权利要求6所述的设备,其中,所述约束推理问题模型是模糊逻辑约束推理问题模型。
8.根据权利要求1所述的设备,还包括:用于响应于所述图像标记而合并片断的合并装置。
9.根据权利要求8所述的设备,其中,响应于邻接准则将片断合并。
10.根据权利要求8所述的设备,其中,响应于片断标记准则将片断合并。
11.根据权利要求10所述的设备,其中,所述片断标记准则要求所有被合并的片断在所述约束推理问题模型的所有解中具有相应的标签。
12.根据权利要求1所述的设备,还包括用于响应于用户输入在所述约束推理问题模型的解之间进行选择的装置。
13.根据权利要求1所述的设备,该设备被设置为重复图像的标记。
14.根据权利要求1所述的设备,其中,所述图像标记包括所述约束推理问题模型的一个或多个解,每个解包括从所述片断的所述域中选择的每个片断的片断标签。
15.一种标记图像的方法,所述方法包括:
将图像分割成图像片断;
将片断标签分配至所述图像片断;
确定所述图像片断的片断关系;
生成约束推理问题模型,该约束推理问题模型具有与所述图像片断相对应的变量以及反映所述图像片段关系的约束,每个变量具有域,该域包括分配至所述变量的图像片断的图像片断标签;以及
通过求解所述约束推理问题模型,生成所述图像的图像标记。
16.根据权利要求15所述的方法,其中,所述步骤被重复。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0602019.2 | 2006-02-01 | ||
GB0602019A GB2434933B (en) | 2006-02-01 | 2006-02-01 | Apparatus and method for image labelling |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101379512A true CN101379512A (zh) | 2009-03-04 |
Family
ID=36100844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007800043255A Pending CN101379512A (zh) | 2006-02-01 | 2007-01-29 | 用于图像标记的设备和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080310717A1 (zh) |
EP (1) | EP1982294A2 (zh) |
CN (1) | CN101379512A (zh) |
GB (1) | GB2434933B (zh) |
WO (1) | WO2007090086A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236750A (zh) * | 2010-04-29 | 2011-11-09 | 国际商业机器公司 | 在云存储系统中进行权限控制的方法和装置 |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600989B2 (en) | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US7702673B2 (en) | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US8949287B2 (en) | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
US8868555B2 (en) | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
US8369655B2 (en) | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US8276088B2 (en) | 2007-07-11 | 2012-09-25 | Ricoh Co., Ltd. | User interface for three-dimensional navigation |
US9171202B2 (en) | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US9373029B2 (en) | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
US8825682B2 (en) | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
US8184155B2 (en) | 2007-07-11 | 2012-05-22 | Ricoh Co. Ltd. | Recognition and tracking using invisible junctions |
US7812986B2 (en) * | 2005-08-23 | 2010-10-12 | Ricoh Co. Ltd. | System and methods for use of voice mail and email in a mixed media environment |
US8144921B2 (en) | 2007-07-11 | 2012-03-27 | Ricoh Co., Ltd. | Information retrieval using invisible junctions and geometric constraints |
US8156427B2 (en) | 2005-08-23 | 2012-04-10 | Ricoh Co. Ltd. | User interface for mixed media reality |
US8332401B2 (en) | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
US8195659B2 (en) | 2005-08-23 | 2012-06-05 | Ricoh Co. Ltd. | Integration and use of mixed media documents |
US8156116B2 (en) | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US8838591B2 (en) | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
US7970171B2 (en) | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US8176054B2 (en) * | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US8510283B2 (en) | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
US8521737B2 (en) | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
US9405751B2 (en) | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US8385589B2 (en) | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
US8335789B2 (en) | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US8086038B2 (en) | 2007-07-11 | 2011-12-27 | Ricoh Co., Ltd. | Invisible junction features for patch recognition |
US9384619B2 (en) | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US8856108B2 (en) | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
US8989431B1 (en) | 2007-07-11 | 2015-03-24 | Ricoh Co., Ltd. | Ad hoc paper-based networking with mixed media reality |
US8201076B2 (en) | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
US8676810B2 (en) | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
US8489987B2 (en) | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US8073263B2 (en) | 2006-07-31 | 2011-12-06 | Ricoh Co., Ltd. | Multi-classifier selection and monitoring for MMR-based image recognition |
US9063952B2 (en) | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US9176984B2 (en) | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
US9020966B2 (en) | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
JP4952627B2 (ja) * | 2008-03-21 | 2012-06-13 | 富士通株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
US8913831B2 (en) * | 2008-07-31 | 2014-12-16 | Hewlett-Packard Development Company, L.P. | Perceptual segmentation of images |
US8385660B2 (en) | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
US8379979B2 (en) | 2011-02-25 | 2013-02-19 | Sony Corporation | System and method for effectively performing a scene rectification procedure |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
US10039513B2 (en) * | 2014-07-21 | 2018-08-07 | Zebra Medical Vision Ltd. | Systems and methods for emulating DEXA scores based on CT images |
EP3156942A1 (en) * | 2015-10-16 | 2017-04-19 | Thomson Licensing | Scene labeling of rgb-d data with interactive option |
US9940711B2 (en) * | 2015-11-25 | 2018-04-10 | Zebra Medical Vision Ltd. | Systems and methods for detecting a fatty liver from a computed tomography (CT) scan |
US11423651B2 (en) * | 2016-02-09 | 2022-08-23 | Hrl Laboratories, Llc | System and method for the fusion of bottom-up whole-image features and top-down enttiy classification for accurate image/video scene classification |
US11170215B1 (en) * | 2016-04-28 | 2021-11-09 | Reality Analytics, Inc. | System and method for discriminating and demarcating targets of interest in a physical scene |
US10635927B2 (en) | 2017-03-06 | 2020-04-28 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
CN107274456A (zh) * | 2017-05-08 | 2017-10-20 | 上海玮舟微电子科技有限公司 | 一种图像格式的识别方法及装置 |
TWI641516B (zh) * | 2018-03-06 | 2018-11-21 | 國立交通大學 | 車道線偵測方法 |
US11093871B2 (en) | 2018-04-16 | 2021-08-17 | International Business Machines Corporation | Facilitating micro-task performance during down-time |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0358815B1 (en) * | 1988-09-12 | 1993-05-26 | Océ-Nederland B.V. | System and method for automatic segmentation |
US5963670A (en) * | 1996-02-12 | 1999-10-05 | Massachusetts Institute Of Technology | Method and apparatus for classifying and identifying images |
US6400853B1 (en) * | 1997-03-19 | 2002-06-04 | Canon Kabushiki Kaisha | Image retrieval apparatus and method |
AUPP009697A0 (en) * | 1997-10-29 | 1997-11-20 | Canon Information Systems Research Australia Pty Ltd | Image interpretation method and apparatas |
AU740614B2 (en) * | 1998-05-07 | 2001-11-08 | Canon Kabushiki Kaisha | Automated video interpretation system |
WO2001078005A2 (en) * | 2000-04-11 | 2001-10-18 | Cornell Research Foundation, Inc. | System and method for three-dimensional image rendering and analysis |
US6654728B1 (en) * | 2000-07-25 | 2003-11-25 | Deus Technologies, Llc | Fuzzy logic based classification (FLBC) method for automated identification of nodules in radiological images |
GB0117157D0 (en) * | 2001-07-16 | 2001-09-05 | Imec Inter Uni Micro Electr | Extraction, hierarchical representation and flexible compression of surface meshes derived from 3D data |
US6795521B2 (en) * | 2001-08-17 | 2004-09-21 | Deus Technologies Llc | Computer-aided diagnosis system for thoracic computer tomography images |
GB2414357A (en) * | 2004-05-18 | 2005-11-23 | Medicsight Plc | Nodule boundary detection |
-
2006
- 2006-02-01 GB GB0602019A patent/GB2434933B/en not_active Expired - Fee Related
-
2007
- 2007-01-29 US US12/160,448 patent/US20080310717A1/en not_active Abandoned
- 2007-01-29 EP EP07717472A patent/EP1982294A2/en not_active Withdrawn
- 2007-01-29 WO PCT/US2007/061226 patent/WO2007090086A2/en active Application Filing
- 2007-01-29 CN CNA2007800043255A patent/CN101379512A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236750A (zh) * | 2010-04-29 | 2011-11-09 | 国际商业机器公司 | 在云存储系统中进行权限控制的方法和装置 |
CN102236750B (zh) * | 2010-04-29 | 2016-03-30 | 国际商业机器公司 | 在云存储系统中进行权限控制的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2007090086A3 (en) | 2008-06-19 |
GB2434933A (en) | 2007-08-08 |
GB2434933B (en) | 2009-06-03 |
EP1982294A2 (en) | 2008-10-22 |
WO2007090086A2 (en) | 2007-08-09 |
GB0602019D0 (en) | 2006-03-15 |
US20080310717A1 (en) | 2008-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101379512A (zh) | 用于图像标记的设备和方法 | |
Singhal et al. | Probabilistic spatial context models for scene content understanding | |
Teichman et al. | Tracking-based semi-supervised learning | |
Philbin et al. | Geometric latent dirichlet allocation on a matching graph for large-scale image datasets | |
US20210150203A1 (en) | Parametric top-view representation of complex road scenes | |
Strat et al. | Natural object recognition | |
CN104809187A (zh) | 一种基于rgb-d数据的室内场景语义标注方法 | |
Posner et al. | A generative framework for fast urban labeling using spatial and temporal context | |
Xiao et al. | Joint affinity propagation for multiple view segmentation | |
WO2021184776A1 (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN104091336B (zh) | 一种基于稠密视差图的立体图像同步分割方法 | |
CN109409376A (zh) | 针对固废对象的图像分割方法、计算机终端及存储介质 | |
US20230099521A1 (en) | 3d map and method for generating a 3d map via temporal and unified panoptic segmentation | |
Abdu et al. | A survey on waste detection and classification using deep learning | |
CN113158993B (zh) | 一种多场景反光背心穿戴识别模型创建方法及相关组件 | |
Belongie et al. | Visipedia circa 2015 | |
Liedtke et al. | Use of explicit knowledge for the reconstruction of 3-D object geometry | |
Glicksman | A cooperative scheme for image understanding using multiple sources of information | |
Strat | Natural object recognition | |
Guo | Scene understanding with complete scenes and structured representations | |
Lian et al. | Detecting and inferring repetitive elements with accurate locations and shapes from façades | |
Ibrahim | 3D Scene understanding from LiDAR point clouds | |
Flores-Rodríguez et al. | Road Signs Segmentation Through Mobile Laser Scanner and Imagery | |
Heitz | Graphical models for high-level computer vision | |
Piasco | Vision-based localization with discriminative features from heterogeneous visual data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090304 |