CN113673305A - 使用最短连线特征的图像标记 - Google Patents

使用最短连线特征的图像标记 Download PDF

Info

Publication number
CN113673305A
CN113673305A CN202110749687.9A CN202110749687A CN113673305A CN 113673305 A CN113673305 A CN 113673305A CN 202110749687 A CN202110749687 A CN 202110749687A CN 113673305 A CN113673305 A CN 113673305A
Authority
CN
China
Prior art keywords
image
geodesic
features
image elements
random decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110749687.9A
Other languages
English (en)
Inventor
A·克里米尼斯
J·D·J·肖顿
P·孔特席德尔
P·科利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN113673305A publication Critical patent/CN113673305A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7625Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

描述了图像标记,例如,以识别医学图像中的身体器官、以标记游戏玩家的深度图像中的身体部分、以标记场景视频中的对象。在各种实施例中,自动化分类器使用图像的最短连线特征,以及可选地其它类型的特征,来按语义分割图像。例如,最短连线特征与图像元素间的距离相关,该距离将与图像元素间的图像内容有关的信息纳入考虑。在某些示例中,自动化分类器是纠缠的随机决策森林,其中在较早的树层次累积的数据被用于在较晚的树层次处作决策。在某些示例中,自动化分类器通过包括两个或更多个随机决策森林而具有自动上下文。在各种示例中,并行处理和查找过程被使用。

Description

使用最短连线特征的图像标记
本发明专利申请是国际申请号为PCT/US2014/033241,国际申请日为2014年4月8日,进入中国国家阶段的申请号为201480020922.7,名称为“使用最短连线特征的图像标记”的发明专利申请的分案申请。
技术领域
本公开涉及使用最短连线特征的图像标记。
背景技术
图像标记涉及根据图像元素是描绘背景还是前景对象或为了其它任务来向它们分派标记。例如,语义图像分割是这样的过程,其中图像被解析为语义上有意义的各区域。例如,医学图像可能需要被分析以允许身体各器官被识别。在另一个示例中,街景的视频可能需要被解析为描绘车辆、行人、道路、和其它对象的各区域。
许多现有图像标记方法在所产生的结果的精确性以及所需时间和资源方面受限。通常,需要两个或更多个分开的处理阶段以给予合理的精确性水平但这引入了复杂性和时间成本。
以下描述的各实施例不限于解决已知图像标记系统的缺点中的任一个或全部的实现。
发明内容
下面呈现了本发明的简要概述,以便向读者提供基本理解。本概述不是本公开的穷尽概览,并且不标识本发明的关键/重要元素或描述本说明书的范围。其唯一的目的是以简化形式呈现此处所公开的精选概念,作为稍后呈现的更详细的描述的序言。
描述了图像标记,例如,以识别医学图像中的身体器官、以标记游戏玩家的深度图像中的身体部分、以标记场景视频中的对象。在各种实施例中,自动化分类器使用图像的最短连线(geodesic)特征,以及可选地其它类型的特征,来按语义分割图像。例如,最短连线特征与图像元素间的距离相关,该距离将与图像元素间的图像内容有关的信息纳入考虑。在某些示例中,自动化分类器是纠缠的随机决策森林,其中在较早的树层次累积的数据被用于在较晚的树层次处作决策。在某些示例中,自动化分类器通过包括两个或更多个随机决策森林而具有自动上下文。在各种示例中,并行处理和查找过程被使用。
通过结合附图参考以下详细描述,可易于领会并更好地理解许多附带特征。
附图说明
根据附图阅读以下具体实施方式,将更好地理解本发明,在附图中:
图1是使用最短连线特征的图像标记引擎的示意图;
图2是头和躯干的医学图像的示意图;
图3是自动分类器的示意图;
图4是纠缠的随机决策森林的示意图;
图5是训练纠缠的随机决策森林的方法的流程图;
图6是图5中方法的一部分的更详细的流程图;
图7是使用经训练的纠缠的随机决策森林以按语义分割图像的方法的流程图;
图8是给予自动上下文的多个随机决策森林的示意图;
图9是训练图8的随机决策森林的方法的流程图;
图10是使用(经训练的)图8的随机决策森林以按语义分割图像的方法的流程图;
图11示出可在其中实现图像标记引擎的实施例的示例性的基于计算的设备。
在各个附图中使用相同的附图标记来指代相同的部件。
具体实施方式
下面结合附图提供的详细描述旨在作为本发明示例的描述,并不旨在表示可以构建或使用本发明示例的唯一形式。本描述阐述了本发明示例的功能,以及用于构建和操作本发明示例的步骤的序列。然而,可以通过不同的示例来实现相同或等效功能和序列。
尽管此处将本发明示例描述和示出为在街景图像分析系统中实现,但是所述系统是作为示例而非限制提供的。本领域的技术人员将会意识到,本发明示例适合在各种不同类型的图像标记系统中应用。
图1是使用最短连线特征的图像标记引擎102的示意图。最短连线特征描述图像元素间的距离,该距离将与图像元素间的图像内容有关的信息纳入考虑。最短连线特征可相对于在概率上定义的图像区域来被计算,并可使用边缘图、使用图像量(诸如亮度、色彩、纹理或其它关于图像内容的信息)的渐变(包括被标记的图像元素的渐变和/或从其它图像标记系统获得的概率值)来计算。最短连线特征可被称为连通性特征,因为它们描述了在图像中的不同位置处的各图像元素如何通过图像中的路径来连接。该路径可以是从一图像元素到图像的在概率上定义的区域中的最近点的最短路径。该路径考虑图像量(诸如亮度)的渐变。通过使用最短连线特征,图像标记引擎102产生相比先前使用常规成对的条件随机场系统或现有随机决策森林分类器而言的可能结果更精确的结果。并行处理和查找过程可被使用以使得能够降低操作时间。
图像标记系统102接收图像100,诸如数字照片、视频、医学图像、深度图像或任何其它类型的二维或更高维度图像。在图1所示的示例中,图像100描绘包括房子、汽车和树的场景。图像标记引擎102将图像100的图像元素标记为属于多个可能的类(诸如建筑物、天空、地面、树木、机动车、自行车、人)之一。在医学图像的情况中,类可以是例如身体器官、或诸如瘤之类的异物。
图1还示出了使用最短连线特征108的另一个图像标记系统108。这接收图像108并输出带经标记图像元素的图像110。图像元素是图像的单元,诸如像素、体素、一组像素或体素。该图像标记系统108可集成使用带经标记图像元素的图像110的功能性,或与之进行通信。例如,医学图像分析系统114、视频会议系统116、增强现实系统118、自然用户界面系统120、数字照片编辑系统122的任何一个。图像标记系统108是使用软件和/或硬件的计算机实现的。例如,在数字照片编辑系统或视频会议系统的情况中,图像标记系统可在台式计算机处或在移动通信设备处。图像标记系统可实现在游戏控制台或其它装备中。其可在某些示例中被提供作为服务,其中数字图像被发送到云中的图像标记引擎,且标记结果被发送到终端用户装备。
图2是头202和躯干的医学图像200的示意图。该图可被用于示出最短连线特征如何对图像标记有用。该医学图像描绘具有两肺204、208和部分大动脉的躯干206。该医学图像包括因组织类型、空气、或其它描绘的物质而具有不同亮度的图像元素。如果大动脉中两图像元素210、212被检查,它们被发现具有类似亮度,因为它们描绘相同物质。标准分类器可基于亮度值将这些图像元素分类为属于相同类。如果描绘空气的两图像元素被检查,它们同样可基于类似的亮度值而被分类为属于同一类。然而,这两个图像元素可在不同的对象(诸如肺(图像元素214)和围绕身体外的空气(图像元素216))中。标准分类器可在此情况中给出错误分类。
如果分类器能够看着两个端点之间的像素的图像亮度,那么分类结果将改善。这例如可通过计算最短连线路径来做到。图像元素214和216之间的最短连线路径可被描绘为图2的那些图像元素之间的实线。该最短连线路径可跟随在亮度值(或其它量)上具有最少改变的路线。在此示例中,最短连线路径比直线路径(由214和216之间的虚线指示)更长。最短连线路径的长度(或与此相关的特征)可被用作在此描述的示例中的特征,以允许图像标记正确地将图像元素214和216标识为属于不同实体。然而,不直接允许自动分类器来以将在切实可行的时间标尺上操作的实际的方式计算并使用最短连线特征。
图3是给出图1的图像标记引擎的功能性的自动分类器300的示意图。在本文描述的各种示例中,自动分类器包括纠缠的随机决策森林302。在其它示例中自动分类器包括具有自动上下文的多个随机决策森林304。使用使用最短连线特征的其它类型的自动分类器300(诸如支持向量机或助推)也是可能的。
随机决策森林包括各自具有根节点、多个分叉节点以及多个叶节点的一个或多个决策树。在用于在每一个分叉节点处做出决定的过程中,图像中的图像元素可从根到叶节点地被推动通过决策森林中的各个树。根据图像元素的特性以及测试图像元素的特性来做出该决定,测试图像元素从图像元素位移达分叉节点处的参数所指定的空间偏移。在分叉节点处,图像元素沿着根据决定的结果来选择的分支向下前进至树的下一层。在训练期间,学习参数值以供在分叉节点处使用,并且在叶节点处累积数据。例如,经标记图像元素的分布在叶节点处被累积。
纠缠的随机决策森林是其中至少一个决策树具有在指定层次的在训练期间累积数据的分叉节点的随机决策森林,该数据被用于导出特征以用于在该树的至少一个更低层次作出决策。如下所描述的某些示例中,所导出的特征可以是最短连线特征。
多个随机决策森林具有自动上下文,其中来自一个随机决策森林的输出能够允许决策在至少一个其它随机决策森林中的分叉节点处作出。
图4是包括三个随机决策树:树0、树1、树2的纠缠的随机决策森林的示意图。实践中可能在森林中存在更多随机决策树。每个随机决策树包括两个(或更多区段):区段0和区段1。一个区段包括两个或更多节点层。在此示例中,每个区段具有两个节点层,但可以使用更多层。在训练期间,训练数据400可被用于并行训练树。一旦训练数据到达区段0的最低层,它可被用来计算中间类概率和通用最短连线距离。除了原始特征400外,这些导出的特征402可被用作输入特征来训练树的区段1。到达每棵树的叶节点的训练数据被标记并且可跨树按类聚集,从而给出最终类后验概率分布404,其可以以紧凑的形式存储。关于纠缠的随机决策森林可如何针对图像标记被训练以及它可如何在测试时被使用的更多细节,下面参考图5到7给出。
图5是训练用于图像标记任务的纠缠的随机决策森林的方法的示例。经标记的训练图像被访问500。例如,在医学图像的应用的情况下,这些是医学图像,其中每个图像元素用多个可能的类之一来标记。在图1的示例中,训练图像可以是街景而可能的类可以是房子、树木、机动车、背景。
对于森林里的每棵树502并行地,训练过程使用原始图像数据(诸如亮度值或在图像元素处局部地计算的其它值)来训练504每棵树的第一区段。一旦每棵树的第一区段被训练,到达处于每棵树的第一区段的最低层的节点的训练数据被知晓。这个训练数据被标记并可被跨树506按类聚集以给出类概率。类概率可被称为中间类概率,因为它们在树的高于叶节点的层次处被计算。类概率可以以紧凑方式被存储。
训练过程使用原始图像数据并且也使用中间类概率来并行训练508每棵树的第二区段,以在分叉节点处作出决策。一旦第二区段被训练,训练过程重新计算510并存储类概率。因为现在到达每棵树的更低层次,中间类概率更具确定性。训练过程能够使用中间类概率来计算并存储512通用最短连线映射(每个类一个)。通用最短连线映射包括在图像元素位置处的指示那个图像元素位置的距在概率上定义了的种子区域的最短连线距离的数字值。该种子区域可以是可能描绘指定类对象的图像元素。可使用原始图像数据、中间类概率和通用最短连线映射来训练每棵树的第三区段514。
给定灰值(grey-valued)图像J和实际值(real-valued)对象“软掩模”(其编码了像素可能性)
Figure BDA0003145602320000061
通用最短连线距离Q可定义为如下:
Figure BDA0003145602320000062
通用最短连线映射可使用如2011年6月16日公开的名为“Parallel processingfor distance transforms(距离变换并行处理)”的美国专利申请US 2011/0145826中详细描述的并行处理来计算。然而,以此方式计算通用最短连线映射不是必须的。可使用计算通用最短连线距离的任何方法。
在森林里的树中可使用其它数量的区段。例如,当两个区段被使用时,训练过程在步骤506处还计算516并存储通用最短连线映射。树的第二区段可接着使用原始图像数据、中间类概率和通用最短连线映射来训练518以在分叉节点处作出决策。
图6是示出图5的训练过程的在步骤504、508、514、518期间在树的指定区段被训练时更多细节的流程图。在那些步骤期间,树区段以宽度优先的次序逐个分叉节点地训练。训练数据600从根节点或早先的分叉节点到达给定分叉节点,并包括对于它而言类标记为已知的图像元素。训练过程根据树的哪个区段正被训练来选择616可用特征通道602。特征通道是使用指定图像量计算的(描述图像的特性的)一类特征。特征通道的示例现在给出,尽管其它类型的特征通道可被使用。在RGB图像的情况中,特征通道可以是从原始图像的R、G或B色彩通道的任何一个或多个获得的原始图像数据610。特征通道可包括每个类的中间类概率612。特征通道可包括例如,从原始图像的灰度亮度计算的通用最短连线映射614。在树的第一区段处的可用特征通道可以是红、绿和蓝通道的任一中的原始图像数据。在树的第二区段处,可用特征通道可以是如针对第一区段的并且附加的,针对中间类概率。在树的第三区段处,可用特征通道还可包括针对每个可能类的通用最短连线映射。特征通道的其它示例包括但不限于,纹理特征、在视频情况下的时间偏差。这些仅仅是示例,且特征通道的其它组合可根据树区段可用。
训练过程(使用随机采样过程或以其他方式)生成特征响应、特征通道的组合和参数值。可被使用的可能的特征响应包括:在给定特征通道中的探测图像元素位置对之间的差、在给定特征通道中的探测图像元素位置对之间的和、以及在给定特征通道中的探测图像元素位置对之间的绝对差。探测图像元素位置根据参数值的至少一些偏离参考图像元素位置。不必要使用探测图像元素对;其它数量的探测图像元素可被使用,包括与参考位置相比的单个探测图像元素。在深度图像被使用的情况下,探测图像元素距参考图像元素的空间偏移可选地通过缩放参考图像元素的1/深度来使得深度不变。
训练过程将训练数据应用于620所生成的特征响应、特征通道的组合和参数值。某些参数可以是阈值,特征响应针对该阈值进行比较以确定训练数据将采用哪根树枝。训练过程使用优化准则来选择622特征响应、特征通道的优化组合和参数值。所选组合被存储以供在测试时期间在分叉节点处使用。
训练过程针对以宽度优先的次序或其它合适的次序训练的树的区段的分叉节点重复图6的过程。
优化准则可以是信息增益测量、方差减小目标、或另一训练目标。
一旦纠缠的随机决策森林已经被训练,它就可被用于分类先前未看见图像的图像元素(即,在训练期间未使用的图像亦称测试图像)。测试图像被访问700并且来自测试图像的图像元素被推送702通过森林中的每棵树的第一区段以标识每棵树的第一区段的底部层次处的一个节点。在训练期间在所标识的节点处累积的训练数据被访问并跨各树聚集704以计算类概率映射。这,在每个图像元素处,具有每个类的中间概率值,以及可选地那个概率的最短连线平滑版本。
测试图像元素被推送706通过每棵树的下一个区段。类概率映射在合适的情况下被用于查找特征响应。测试图像元素到达每棵树的第二区段的底部层次的一个节点。在训练期间在所标识的节点处累积的训练数据被访问并跨各树聚集708以计算经更新的类概率映射。使用该映射以提供软的、概率种子区域或掩模,通用最短连线映射被计算710,每个类一个。
测试图像元素使用类概率映射和通用最短连线映射被推送712通过每棵树的第三区段以查找特征响应。最后,测试图像元素达到每棵树的一叶节点。与所标识的叶节点相关联的数据被访问并跨各树聚集714并且类标记被输出716。该过程针对测试图像的其它图像元素重复或并行计算718,直至全部图像元素被标记。
通过对类概率和最短连线映射使用查找以计算特征响应,能够在测试时加速过程。
在此结合图6和7描述的示例是一种可能的安排。也可以使用随机决策树中的最短连线和非最短连线区段的其它组合和次序。
图8是给予自动上下文的多个随机决策森林804、816的示意图。每个随机决策森林804、816包括多棵随机决策树,每棵树象征性地用三角形指示。在这个示例中,随机决策森林已经被训练(训练过程以下结合图10来解释)以分类诸如如图1的示例中的那些街景的图像。
图像800,诸如树木、房子和汽车(图1中100)作为随机决策森林先前未看见的测试图像输入。来自图像800的图像元素被推送通过森林的每棵树。在此过程中,原始图像数据802被第一随机决策森林804使用来计算如上面描述的特征响应。针对森林里的每棵树以及在训练期间被访问的数据在那些叶节点被累积来标识叶节点。所访问的数据跨森林聚集以给出类概率806。
第二随机决策森林808能够在其计算特征响应时使用类概率806和原始图像数据802。来自图像800的图像元素被推送通过森林816中的每棵树。针对森林里的每棵树以及在训练期间被访问的数据在那些叶节点被累积来标识叶节点。所访问的数据跨森林聚集以给出经更新的类概率。经更新的类概率不在图8中分开地示出,但是可被盖写到类概率806上。
类概率806被用来为来自输入图像800的每个类计算通用最短连线映射。在此示例中,三个通用最短连线映射被示出,一个是针对汽车类810、一个针对树类812以及一个针对房子类814。
第三随机决策森林816能够当它在分叉节点处计算特征响应时使用类概率806、原始图像数据802、以及通用最短连线映射。来自图像800的图像元素被推送通过森林816中的每棵树。针对每棵树以及森林里以及在训练期间被访问的数据在那些叶节点被累积来标识叶节点。所访问的数据跨森林聚集以给出经更新的类概率,其被用于为图像800的每个图像元素计算类标记,这导致语义分割。
在图8的示例中使用了三个随机决策森林。然而,使用更多随机决策森林也是可能的。
图9是训练多个随机决策森林以启用用于语义分割的自动上下文的方法的流程图。经标记的训练图像被访问900。第一随机决策森林被选择902并使用原始图像数据(诸如亮度值)被训练904。第二随机决策森林被选择906并使用原始图像数据和第一随机决策森林的输出来被训练908。第三随机决策森林被选择910并使用原始图像数据、和从第一和第二随机决策森林的输出导出的数据来被训练912。从第一和第二随机决策森林的输出导出的数据可以是上面描述的中间类概率和通用最短连线映射。
图10是使用经训练的具有自动上下文的多个随机决策森林的方法的流程图。测试图像被输入1000。来自测试图像的图像元素被推送1002通过第一森林以从森林中的每棵树标识一个叶节点。存储在所标识的叶节点的数据被用于计算1004类概率映射(每个类一个或组合全部类的单个映射)。来自测试图像的图像元素被推送1006通过第二森林。在所标识的叶节点的数据被用于重新计算类概率映射。类概率映射被用于计算1008如上所述的通用最短连线映射。来自测试图像的图像元素被推送1010通过第三森林以从第三森林中的每棵树标识一个叶节点。叶节点数据被访问1012寻找所标识的树叶并可被跨树聚集以给出类概率。类概率被用于为测试图像元素计算类标记作为输出1014,并且处理重复1016直至测试图像的图像元素被标记。
参考图8到10描述的示例可被改变。也可以使用其它数量和安排的随机决策树,其中至少一个森林使用最短连线特征。
作为替换或补充,本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如,但非限制,可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),图形处理单元(GPU)。
图11示出示例性的基于计算的设备1100的各组件,该基于计算的设备1100可以任何形式的计算和/或电子设备来实现、并且其中可实现图像标记的实施例。
基于计算的设备1100包括一个或多个处理器1102,该一个或多个处理器可以是微处理器、控制器、图形处理单元或用于处理计算机可执行指令以控制设备的操作以便按语义分割图像的任何其他合适类型的处理器。在一些示例中,例如在使用片上系统架构的示例中,处理器1102可以包括一个或多个固定功能块(亦称加速器),这些块以硬件(而非软件或固件)来实现图像标记方法的一部分。可以在基于计算的设备处提供包括操作系统1104或任何其他合适的平台软件的平台软件以使得能够在该设备上执行应用软件。图像标记引擎1108实现图5、6、7、9、10的任何方法的至少部分。通用最短连线逻辑1106可选地被提供以计算如上描述的通用最短连线映射。在某些示例中,通用最短连线逻辑1106与图像标记引擎1108集成。数据存储1110存储经训练的随机决策森林、训练图像、测试图像、标记、类、训练目标、准则和其它数据。
可以使用可由基于计算的设备1100访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可以包括例如诸如存储器1112等计算机存储介质和通信介质。诸如存储器1112等计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EPROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可用于存储信息以供计算设备访问的任何其他非传输介质。相反,通信介质可以以诸如载波或其他传输机构等已调制数据信号来体现计算机可读指令、数据结构、程序模块或者其他数据。如本文所定义的,计算机存储介质不包括通信介质。因此,计算机存储介质不应被解释为本质上是传播信号。传播信号可存在于计算机存储介质中,但是传播信号本身不是计算机存储介质的示例。虽然在基于计算的设备1100中示出了计算机存储介质(存储器1112),然而应当理解,该存储可以是分布式的或位于远处并经由网络或其他通信链路(例如,使用通信接口1114)来访问。
基于计算的设备1100还包括输入/输出控制器1116,该输入/输出控制器被布置成向显示设备1118输出显示信息,该显示设备可与基于计算的设备1100分开或集成。该显示信息可以提供图形用户界面。输入/输出控制器1116还被安排成接收并处理来自一个或多个设备的输入,如用户输入设备1120(例如,鼠标、键盘、相机、话筒、或其他传感器)。在一些示例中,用户输入设备1120可以检测语音输入、用户姿势或其他用户动作,并且可以提供自然用户界面(NUI)。这个用户输入可被用来指定类、输入测试图像、指定训练数据的位置、查看经标记的图像、设置准则、或用于其它目的。在一实施例中,如果显示设备1118是触敏显示设备,那么它还可担当用户输入设备1120。输入/输出控制器1116还可向除显示设备之外的设备输出数据,例如,本地连接的打印设备。
输入/输出控制器1116、显示设备1118以及用户输入设备1120中的任一者可包括使用户能够按自然的、免受诸如鼠标、键盘、遥控器等输入设备所施加的人工约束的方式与基于计算的设备交互的NUI技术。可以提供的NUI技术的示例包括但不限于依赖于语音和/或话音识别、触摸和/或指示笔识别(触敏显示器)、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、语音和话音、视觉、触摸、姿势以及机器智能的那些技术。可被使用NUI技术的其他示例包括意图和目的理解系统,使用深度相机(如立体相机系统、红外相机系统、rgb相机系统以及这些的组合)的运动姿势检测系统,使用加速度计/陀螺仪的运动姿势检测,面部识别,3D显示,头部、眼睛和注视跟踪,沉浸式增强现实和虚拟现实系统,以及用于使用电场传感电极(EEG和相关方法)的感测大脑活动的技术。
此处所使用的术语“计算机”或“基于计算的设备”是指带有处理能力以便它可以执行指令的任何设备。本领域技术人员可以理解,这样的处理能力被结合到许多不同设备,并且因此术语每个“计算机”和“基于计算的设备”包括个人电脑、服务器、移动电话(包括智能电话)、平板电脑、机顶盒、媒体播放器、游戏控制台、个人数字助理和许多其它设备。
本文描述的方法可由有形存储介质上的机器可读形式的软件来执行,例如计算机程序的形式,该计算机程序包括在该程序在计算机上运行时适用于执行本文描述的任何方法的所有步骤的计算机程序代码装置并且其中该计算机程序可被包括在计算机可读介质上。有形存储介质的示例包括计算机存储设备,计算机存储设备包括计算机可读介质,诸如盘(disk)、拇指型驱动器、存储器等而不包括所传播的信号。传播信号可存在于有形存储介质中,但是传播信号本身不是有形存储介质的示例。软件可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合适的次序或同时执行。
这承认,软件可以是有价值的,单独地可交换的商品。它旨在包含运行于或者控制“哑”或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片,或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等“描述”或者定义硬件配置以实现期望功能的软件。
本领域技术人员会认识到,用于存储程序指令的存储设备可分布在网络上。例如,远程计算机可以存储被描述为软件的进程的示例。本地或终端计算机可以访问远程计算机并下载软件的一部分或全部以运行程序。可另选地,本地计算机可以根据需要下载软件的片段,或在本地终端上执行一些软件指令,并在远程计算机(或计算机网络)上执行另一些软件指令。本领域的技术人员还将认识到,通过利用本领域的技术人员已知的传统技术,软件指令的全部,或一部分可以通过诸如DSP、可编程逻辑阵列等等之类的专用电路来实现。
对精通本技术的人显而易见的是,此处给出的任何范围或设备值可以被扩展或改变,而不会丢失寻求的效果。
尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。
可以理解,上文所描述的优点可以涉及一个实施例或可以涉及多个实施例。各实施例不仅限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的优点那些实施例。进一步可以理解,对“一个”项目的引用是指那些项目中的一个或多个。
此处所描述的方法的步骤可以在适当的情况下以任何合适的顺序,或同时实现。另外,在不偏离此处所描述的主题的精神和范围的情况下,可以从任何一个方法中删除各单独的框。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合,以构成进一步的示例,而不会丢失寻求的效果。
此处使用了术语“包括”旨在包括已标识的方法的框或元件,但是这样的框或元件不包括排它性的列表,方法或设备可以包含额外的框或元件。
可以理解,上面的描述只是作为示例给出并且本领域的技术人员可以做出各种修改。以上说明、示例和数据提供了对各示例性实施例的结构和使用的全面描述。虽然上文以一定的详细度或参考一个或多个单独实施例描述了各实施例,但是,在不偏离本说明书的精神或范围的情况下,本领域的技术人员可以对所公开的实施例作出很多更改。

Claims (7)

1.一种按语义分割图像的计算机实现的方法,包括:
在处理器处接收图像;
使用自动分类器将所述图像的图像元素分类为多个可用类;
所述自动分类器使用从所接收到的图像计算的最短连线特征,所述最短连线特征是与所述图像元素间的距离相关的特征,所述距离是将与图像元素间的图像内容有关的信息纳入考虑来计算所述多个可用类中的一个或多个类的通用最短连线映射的通用最短连线距离,所述最短连线特征是使用从所述图像元素中的一个图像元素到所接收到的图像的一个或多个在概率上定义的区域的路径来从所接收到的图像计算得到的,所述路径是跟随在所述多个图像元素的亮度、色彩、或纹理上具有最少改变的路线的最短连线路径,所述路径使得能够标识所述图像元素;
其中所述自动分类器包括具有多个分叉节点的至少一棵随机决策树,所述多个分叉节点被安排来使用所述通用最短连线映射和所述最短连线特征作出决策;
基于使用所述路径进行标识来将经分类的图像元素标记为属于所述可用类之一;以及
生成输出图像,所述输出图像是基于对接收到的图像中经分类图像元素的标记而在语义上经分割的图像。
2.如权利要求1所述的方法,其特征在于,所述方法包括使用所述自动分类器通过使用来自所接收到的图像的原始数据计算所接收到的图像的图像元素属于所述可用类的概率,来计算所述一个或多个区域。
3.如权利要求1所述的方法,其特征在于,所述自动分类器被安排来使用在训练期间在所述树的至少一些分叉节点处累积的数据计算所述最短连线特征。
4.如权利要求1所述的方法,其特征在于,所述自动化分类器还包括纠缠的随机决策森林,其中在训练期间在较早的树层次累积的数据被用于在较晚的树层次处作决策。
5.如权利要求1所述的方法,其特征在于,所述自动分类器还包括多个随机决策森林,所述多个随机决策森林被安排使得来自所述随机决策森林的第一个的可用数据被用于在一个或多个其它随机决策森林处作出决策。
6.如权利要求1所述的方法,其特征在于,所述方法包括使用经标记的训练图像并使用从所述经标记的训练图像计算的最短连线特征来训练所述自动分类器。
7.一种图像分割引擎,包括:
安排用于接收图像的处理器;
安排用于将所述图像的图像元素分类为多个可用类的自动分类器;
所述自动分类器被安排以使用从所接收的图像计算的最短连线特征,所述最短连线特征是与图像元素间的距离相关的特征,所述距离是将与图像元素间的图像内容有关的信息纳入考虑来计算所述多个可用类中的一个或多个类的通用最短连线映射的通用最短连线距离,所述最短连线特征是使用从所述图像元素中的一个图像元素到所接收到的图像的一个或多个在概率上定义的区域的路径来从所接收到的图像计算得到的,所述路径是跟随在所述多个图像元素的亮度、色彩、或纹理上具有最少改变的路线的最短连线路径,所述路径使得能够标识所述图像元素,
其中所述自动分类器包括具有多个分叉节点的至少一棵随机决策树,所述多个分叉节点被安排来使用所述通用最短连线映射和所述最短连线特征作出决策,
其中所述自动分类器被安排以基于使用所述路径进行标识来将经分类的图像元素标记为属于所述可用类之一,以及
其中所述自动分类器被安排以生成输出图像,所述输出图像是基于对接收到的图像中经分类图像元素的标记而在语义上经分割的图像。
CN202110749687.9A 2013-04-10 2014-04-08 使用最短连线特征的图像标记 Withdrawn CN113673305A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/860,515 US10235605B2 (en) 2013-04-10 2013-04-10 Image labeling using geodesic features
US13/860,515 2013-04-10
CN201480020922.7A CN105210085A (zh) 2013-04-10 2014-04-08 使用最短连线特征的图像标记

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480020922.7A Division CN105210085A (zh) 2013-04-10 2014-04-08 使用最短连线特征的图像标记

Publications (1)

Publication Number Publication Date
CN113673305A true CN113673305A (zh) 2021-11-19

Family

ID=50729832

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110749687.9A Withdrawn CN113673305A (zh) 2013-04-10 2014-04-08 使用最短连线特征的图像标记
CN201480020922.7A Pending CN105210085A (zh) 2013-04-10 2014-04-08 使用最短连线特征的图像标记

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201480020922.7A Pending CN105210085A (zh) 2013-04-10 2014-04-08 使用最短连线特征的图像标记

Country Status (4)

Country Link
US (1) US10235605B2 (zh)
EP (1) EP2984602B1 (zh)
CN (2) CN113673305A (zh)
WO (1) WO2014168898A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489639B2 (en) 2013-11-13 2016-11-08 Microsoft Technology Licensing, Llc Memory facilitation using directed acyclic graphs
US9171259B1 (en) * 2015-01-12 2015-10-27 Bank Of America Corporation Enhancing classification and prediction using predictive modeling
US9280740B1 (en) * 2015-01-12 2016-03-08 Bank Of America Corporation Transforming predictive models
CN105184319B (zh) * 2015-09-02 2019-07-30 同方威视技术股份有限公司 光纤周界入侵信号的识别方法、装置及周界入侵报警系统
US10268923B2 (en) * 2015-12-29 2019-04-23 Bar-Ilan University Method and system for dynamic updating of classifier parameters based on dynamic buffers
JP6687894B2 (ja) * 2016-05-20 2020-04-28 富士ゼロックス株式会社 クラス推定装置及びプログラム
US10849587B2 (en) * 2017-03-17 2020-12-01 Siemens Healthcare Gmbh Source of abdominal pain identification in medical imaging
CN107277429A (zh) * 2017-07-14 2017-10-20 福建铁工机智能机器人有限公司 一种利用ar进行远程会议的方法
KR102434580B1 (ko) * 2017-11-09 2022-08-22 삼성전자주식회사 가상 경로를 디스플레이하는 방법 및 장치
CN109544559B (zh) * 2018-10-19 2022-07-08 深圳大学 图像语义分割方法、装置、计算机设备和存储介质
US10885386B1 (en) 2019-09-16 2021-01-05 The Boeing Company Systems and methods for automatically generating training image sets for an object
US11113570B2 (en) 2019-09-16 2021-09-07 The Boeing Company Systems and methods for automatically generating training image sets for an environment
US11494898B2 (en) 2019-10-31 2022-11-08 Optum Services (Ireland) Limited Predictive data analysis using image representations of categorical and scalar feature data
EP3832597A1 (en) 2019-12-06 2021-06-09 Microsoft Technology Licensing, LLC Refinement of image segmentation
EP3832596A1 (en) 2019-12-06 2021-06-09 Microsoft Technology Licensing, LLC 3d image segmentation
CN111629216B (zh) * 2020-04-20 2021-04-06 南京邮电大学 边缘网络环境下基于随机森林算法的vod业务缓存替换方法
US11694424B2 (en) * 2021-04-22 2023-07-04 Optum Services (Ireland) Limited Predictive data analysis using image representations of categorical data to determine temporal patterns
CN113569904B (zh) * 2021-06-10 2024-06-21 国电南瑞科技股份有限公司 母线接线类型辨识方法、系统、存储介质及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110293180A1 (en) * 2010-05-28 2011-12-01 Microsoft Corporation Foreground and Background Image Segmentation
US20120207359A1 (en) * 2011-02-11 2012-08-16 Microsoft Corporation Image Registration
US20120239174A1 (en) * 2011-03-17 2012-09-20 Microsoft Corporation Predicting Joint Positions

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379602B2 (en) * 2002-07-29 2008-05-27 Honda Giken Kogyo Kabushiki Kaisha Extended Isomap using Fisher Linear Discriminant and Kernel Fisher Linear Discriminant
US7756342B2 (en) 2004-09-20 2010-07-13 The United States Of America As Represented By The Secretary Of The Navy Method for image data processing
US20070242868A1 (en) 2005-11-09 2007-10-18 Dexela Limited Methods and apparatus for displaying images
US7840059B2 (en) * 2006-09-21 2010-11-23 Microsoft Corporation Object recognition using textons and shape filters
US7822252B2 (en) * 2006-11-28 2010-10-26 Siemens Medical Solutions Usa, Inc. Method of multiple instance learning and classification with correlations in object detection
US8144949B2 (en) * 2007-11-15 2012-03-27 Carestream Health, Inc. Method for segmentation of lesions
US8111923B2 (en) * 2008-08-14 2012-02-07 Xerox Corporation System and method for object class localization and semantic class based image segmentation
US8351654B2 (en) 2009-04-28 2013-01-08 Microsoft Corporation Image processing using geodesic forests
US8638985B2 (en) * 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
US8503720B2 (en) 2009-05-01 2013-08-06 Microsoft Corporation Human body pose estimation
JP2011034178A (ja) * 2009-07-30 2011-02-17 Sony Corp 画像処理装置および画像処理方法、並びにプログラム
EP2461292B1 (en) * 2009-07-31 2018-09-26 Panasonic Intellectual Property Management Co., Ltd. Mobile body detection apparatus and mobile body detection method
US9122461B2 (en) 2009-12-11 2015-09-01 Microsoft Technology Licensing, Llc Method and system for iteratively partitioning and validating program trees into environments at visibility space granularity
US20110188715A1 (en) 2010-02-01 2011-08-04 Microsoft Corporation Automatic Identification of Image Features
US8611670B2 (en) * 2010-02-25 2013-12-17 The Board Of Trustees Of The Leland Stanford Junior University Intelligent part identification for use with scene characterization or motion capture
US8498481B2 (en) * 2010-05-07 2013-07-30 Microsoft Corporation Image segmentation using star-convexity constraints
US9619035B2 (en) 2011-03-04 2017-04-11 Microsoft Technology Licensing, Llc Gesture detection and recognition
US8831308B2 (en) 2011-06-16 2014-09-09 Siemens Aktiengesellschaft Shape based conditional random fields for segmenting intracranial aneurysms
US9519868B2 (en) 2012-06-21 2016-12-13 Microsoft Technology Licensing, Llc Semi-supervised random decision forests for machine learning using mahalanobis distance to identify geodesic paths

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110293180A1 (en) * 2010-05-28 2011-12-01 Microsoft Corporation Foreground and Background Image Segmentation
US20120207359A1 (en) * 2011-02-11 2012-08-16 Microsoft Corporation Image Registration
US20120239174A1 (en) * 2011-03-17 2012-09-20 Microsoft Corporation Predicting Joint Positions

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"As Time Goes by – Anytime Semantic Segmentation with Iterative Context Forests", 31 December 2012 (2012-12-31), pages 3 *
JAMIE SHOTTON: "Semantic Texton Forests for Image Categorization and Segmentation", 2008 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 1 June 2008 (2008-06-01), pages 3 - 5 *

Also Published As

Publication number Publication date
EP2984602B1 (en) 2023-03-29
US10235605B2 (en) 2019-03-19
US20140307956A1 (en) 2014-10-16
WO2014168898A1 (en) 2014-10-16
EP2984602A1 (en) 2016-02-17
CN105210085A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN113673305A (zh) 使用最短连线特征的图像标记
US11586851B2 (en) Image classification using a mask image and neural networks
CN110543892B (zh) 一种基于多层随机森林的零部件识别方法
US10824916B2 (en) Weakly supervised learning for classifying images
JP7190842B2 (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
CN108229468B (zh) 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
CN105144239B (zh) 图像处理装置、图像处理方法
US10121245B2 (en) Identification of inflammation in tissue images
CN108830171B (zh) 一种基于深度学习的智能物流仓库引导线视觉检测方法
CN107305635A (zh) 对象识别方法、对象识别装置和分类器训练方法
CN110222686B (zh) 物体检测方法、装置、计算机设备和存储介质
CN112233124A (zh) 基于对抗式学习与多模态学习的点云语义分割方法及系统
Yadav et al. An improved deep learning-based optimal object detection system from images
US11762454B2 (en) Method and apparatus with image augmentation
CN114399644A (zh) 一种基于小样本目标检测方法及装置
CN115512251A (zh) 基于双分支渐进式特征增强的无人机低照度目标跟踪方法
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置
CN117351192A (zh) 一种对象检索模型训练、对象检索方法、装置及电子设备
CN116958873A (zh) 行人跟踪方法、装置、电子设备及可读存储介质
CN114882372A (zh) 一种目标检测的方法及设备
Darapaneni et al. American sign language detection using instance-based segmentation
Bekhit Computer Vision and Augmented Reality in iOS
Park et al. Robust multispectral pedestrian detection via uncertainty-aware cross-modal learning
Shamalik et al. Effective and efficient approach for gesture detection in video through monocular RGB frames

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211119