CN108269266B

CN108269266B - 使用马尔可夫随机场优化来产生分割图像

Info

Publication number: CN108269266B
Application number: CN201711443915.XA
Authority: CN
Inventors: E·梅尔
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2016-12-30
Filing date: 2017-12-27
Publication date: 2024-02-23
Anticipated expiration: 2037-12-27
Also published as: CN108269266A; JP7115846B2; US10497126B2; US20180189956A1; US10586337B2; JP2018109970A; US20180189957A1

Abstract

一种产生场景的分割图像的计算机实现的方法包括提供场景的多个图像，每个图像对应于物理信号的相应采集，所述多个图像包括对应于不同物理信号的至少两个图像，以及通过确定使在马尔可夫随机场(MRF)上定义的能量最小化的标签的分布，基于所述多个图像来生成分割图像。这改善了计算机视觉领域。

Description

使用马尔可夫随机场优化来产生分割图像

技术领域

本发明涉及计算机视觉领域，并且更具体地涉及与基于物理信号数据的图像采集来生成场景的分割图像有关的方法、系统和程序。

背景技术

市场上提供了用于对象的设计、工程和制造的许多系统和程序。CAD是计算机辅助设计的首字母缩略词，例如它涉及用于设计对象的软件解决方案。CAE是计算机辅助工程的缩写，例如它涉及用于模拟未来产品的物理行为的软件解决方案。CAM是计算机辅助制造的首字母缩略词，例如它涉及用于定义制造过程和操作的软件解决方案。在这种计算机辅助设计系统中，图形用户界面在技术效率方面起着重要的作用。这些技术可能嵌入在产品生命周期管理(PLM)系统中。PLM指的是一种商业战略，其帮助企业共享产品数据、应用公共流程，并利用企业知识进行跨越扩展企业概念从概念到产品生命尽头的产品开发。达索系统(Dassault Systèmes)(以CATIA、ENOVIA和DELMIA为商标)提供的PLM解决方案提供了组织产品工程知识的工程中心、管理制造工程知识的制造中心以及使企业集成和连接到工程和制造中心的企业中心。整个系统提供了开放的对象模型，其连接产品、流程和资源以实现动态的、基于知识的产品创建和决策支持，这驱动优化的产品定义、制造准备、生产和服务。

三维(3D)形状可以表示为基于表面的和体积式的。在基于表面的表示中，3D几何结构由封闭或开放表面定义。曲面可以由顶点为三维点的三角形组成。基于表面的表示在CAD/CAM和计算机信息中是常见的。在体积表示中，3D形状在3D空间上由存储在体素网格中的值或者连续地或者分段地定义的函数f(x,y,z)定义。然后将3D几何结构进一步定义为满足函数的某个值的空间区域。通常，如果f(x,y,z)是标量值，则形状被定义为f(x,y,z)<s(or f(x,y,z)>s)，其中s是适当的阈值。体积表示法在医学应用中是常见的，特别是计算机断层摄影术中。作为特殊情况，该区域可以被定义为在下限和上限之间的窄带，在这种情况下，对于以s为中心的宽度为2w的窄带，定义可以是s-w<f(x,y,z)<s+w。

图像分割使图像的区域分开，所述图像例如二维(2D)图像或诸如3D虚拟对象的3D图像。例如，在室内拍摄的对象的2D图像中，图像分割可以包括识别表示地板的图像部分，并将该部分与图像的其他特征(例如家具、墙壁等)隔离。在表示人的3D虚拟对象中，分割可包括将衣服与裸露的皮肤区分开，或将手臂与躯干区分开。

分割可以用在许多图像分析任务中。例如，对于交通控制系统，耦合到路边相机的计算机可以采用分割来识别和计数经过的车辆。类似地，在监控系统中，图像分割可以识别图像中的人物形象并定位关节和肢体，这可以便于识别入侵者。例如，当重建包括识别对象的语义上重要的部分时，根据图像来重建3D形状也可以采用分割。

在大多数现有解决方案中，对包含颜色(例如，红-绿-蓝(RGB))数据以及可选的深度数据的图像数据执行分割。深度数据表示对于每个像素，与传感器的距离。深度数据可以使用可用的装置捕获，例如Microsoft Asus Xtion^TM或Google Tango^TM。

在这种上下文中，仍然需要改进计算机视觉，并且特别是图像分割。

发明内容

因此提供了一种产生场景的分割图像的计算机实现的方法。分割的图像包括像素，每个像素均分配给片段的集合中的相应一个。该方法包括提供场景的多个图像。每个图像对应于物理信号的相应采集。多个图像包括对应于不同物理信号的至少两个图像。该方法还包括基于多个图像来生成分割图像。对分割图像的生成是通过确定使马尔可夫随机场(MRF)图上定义的能量最小化的标签的分布来执行的。MRF图包含节点和边。每个节点对应于相应的像素并且与相应的标签相关联。每个边对应于具有低于预定阈值的距离的相应像素对。这些标签对应于像素到片段的集合中相应的一个的所有不同分配。能量包括平滑项，该平滑项对将与边对应的像素对到不同的片段的分配进行惩罚。对于任何给定对的惩罚随着给定对的像素之间的距离的增加而减小。对于给定对的惩罚随着与给定对的像素对应的物理信号矢量之间的差异增加而进一步减小。

该方法可以包括以下的任何一个或任何组合：

-该方法构成场景中的计算机视觉的方法，该场景包括一个或多个透明对象和/或一个或多个反射对象；

-所述多个图像包括红外图像以及RGB图像和深度图像中的一者或两者；

-红外图像是热图像；

-场景是建筑物内部场景或建筑外部场景；

-场景包括至少一个生物实体；

-所述方法包括迭代地提供多个图像并生成场景的分割图像以生成场景的多个分割图像，所述方法还包括基于多个分割图像的对应片段来重建场景的3D模型；

-执行所述场景的3D模型的重建所基于的所述多个分割图像的对应片段全部对应于非生物实体；

-通过提供场景的多个视频来执行迭代地提供多个图像，每个视频对应于物理信号的相应视频采集；

-利用其上安装有多个传感器的相机来执行每个视频采集，每个传感器对应于相应的物理信号；

-相机在场景中移动并同时执行相应的物理信号中的每一个多个视频采集；

-记为S的平滑项为的类型，其中，m和n是像素索引，C是马尔可夫随机场图的边的集合，l_m是与像素m关联的标签，l_n是与像素n关联的标签，/>是指示函数，当标记l_m和l_n不相等时，等于1，否则等于0；dist(m,n)^-1是像素m与像素n之间的距离的倒数，x_m是与像素m对应的相应的物理信号矢量，而x_n是与像素n对应的物理信号矢量，‖x_m-x_n‖是物理信号矢量x_m与物理信号矢量x_n之间的距离，而pen()是递减函数。

-pen()的类型是exp(-β‖x_m-x_n‖)，其中β是正数；

-能量进一步包括数据项，该数据项惩罚每个像素到任何片段的分配，所述惩罚针对每个像素基于相应的概率分布，所述概率分布针对所述片段的集合中的每一个提供所述像素与其它像素无关地属于所述片段的相应的概率，随着相应于给定像素的概率分布所提供的概率减小，针对任何给定像素的惩罚增加，基于像素的聚类来学习概率分布；

-数据项的类型为U＝∑_n-logP(l_n)，其中n是像素索引，l_n是像素n的标签，而P(l_n)是针对与标签l_n相对应的片段由相应于像素n的概率分布所提供的概率；

-该方法经由谱聚类，然后对片段进行迭代融合来聚类，迭代结束时达到的片段数量对应于标签；

-概率分布形成高斯混合；

-通过期望最大化算法来学习高斯混合；和/或

-能量是E(l)＝U(l)+λS(l)的类型，其中λ是一个重要因素，而l是标签的分布。

进一步提供了一种包括用于执行该方法的指令的计算机程序。

进一步提供了一种其上记录有计算机程序的计算机可读存储介质。

进一步提供了一种包括耦合到存储器的处理器的系统，所述存储器上记录有所述计算机程序。

在示例中，该系统可以包括以下的任何一个或任何组合：

-所述系统还包括图形用户界面，所述处理器耦合到所述图形用户界面；

-图形用户界面被配置用于显示场景的分割图像和/或场景的3D重建的表示；

-该系统还包括一个或多个传感器，其被配置用于采集场景的多个图像；

-每个传感器被配置用于对场景的多个图像中的相应一个图像所对应的物理信号的相应采集；

-所述一个或多个传感器包括材料性质传感器以及RGB传感器和深度传感器中的一者或两者；

-材料性质传感器是红外传感器；

-红外传感器是热传感器；

-所述系统包括一个或多个相机，所述一个或多个传感器安装在所述相机上，所述处理器耦合到所述一个或多个相机；

-一个或多个相机是可移动的；

-所述一个或多个相机形成所述系统，并且所述系统嵌入所述处理器和其上记录有所述计算机程序的存储器，或者可替代地，所述系统包括嵌入所述处理器和记录有所述计算机程序的存储器的计算机工作站，所述计算机工作站无线地耦合到一个或多个相机；

-每个传感器安装在不同的相机上，或者可替代地，该系统包括安装有多个传感器(例如所有的传感器)的(单个)相机；

-一个或多个相机被配置用于视频采集；

-单个相机被配置用于在场景中移动并且同时执行相应的物理信号中的每一个多个视频采集，其中“同时”意味着对于多个所采集的所有视频，采集(或“记录”)(至少基本上)同时开始并且(至少基本上)同时结束，因此每个传感器并行地执行采集；和/或

-多个视频中的所有视频都是同步的，其中“同步”意味着多个视频中的所有视频都具有相同的频率，并且它们的图像帧全部被(至少基本上)同时捕获。

附图说明

现在将通过非限制性示例并参照附图来描述本发明的实施例，其中：

-图1是示出了本发明的示例的高级图。

-图2示出了场景的分割。

-图3示出了将被重建为3D模型的另一个场景。

-图4是示出了本发明的示例的流程图。

-图5示出了其中可以实现本发明的示例的计算机网络或类似的数字处理环境。

-图6是图5的计算机网络中的计算机(例如，客户端处理器/设备或服务器计算机)的示例内部结构的图。

-图7示出了该系统的示例。

-图8示出了建筑物外场景。

-图9示出了多标准MRF的示例。

具体实施方式

它提供了一种场景中的计算机视觉的方法。“场景”是现实世界的子部分。表述“计算机视觉”是指处理包括场景的一个或多个图像的数字数据的方法。场景的图像是场景上物理信号的分布的表示，例如2D或3D表示。“物理信号”表示任何类型的物理性质，例如在给定的电磁范围内的辐射发射。物理信号的“采集”是在所述物理信号的分布场景中的测量。这样的采集可以通过可以被统称为“相机”的物理设备来执行，并且在其上安装与所述物理信号相对应的传感器。这种传感器被配置用于感测物理信号并将物理信号转换成也被称为“数字信号”的数字数据。图像可以被细分成称为“像素”的子部分，每个子像素可以被分配物理信号的固定值。细分可以形成网格。网格可能是规则的。

所提供的方法处理场景的多个图像，每个图像对应于物理信号的相应采集。表述“对应于物理信号的采集”是指对于给定的图像，给定的图像源于所述采集的结果，例如因为给定的图像是所述采集的(原始)结果，或者因为它是从所述采集经由后处理(例如，诸如去噪的滤波)导出。

所提供的方法涉及产生场景的分割图像。众所周知，场景的分割图像是包含表示像素组的附加信息的图像，每个组称为“片段”。片段对应于场景中的单一实体，例如相同的固体或液体、相同的材料或相同的颜色。分割期望的结果取决于预期的应用，使得可以根据所述预期的应用来调整分割。附加信息可以采取任何形式。分割图像包括表示将每个像素分配给片段的集合中的相应片段的信息。该片段的集合的不同片段可以以任何方式表示，例如仅仅通过索引来表示。可选地或附加地，片段可以与附加规范相关联，诸如由片段表示的场景的实体的物理特性的元描述。然而，这仅仅是实施的问题，并且在此不再进一步讨论。

所提供的方法包括基于多个图像生成场景的分割图像，其中所述多个图像包括对应于不同物理信号的至少两个图像。换句话说，当生成分割图像时，涉及至少两个不同的物理信号(即不同性质的物理数据)。这允许比依赖于单一类型的物理信号图像采集的分割更准确的分割。不同的物理信号实际上可以相互补充借以表示场景的信息，使得在分割时可以更容易地执行对材料、颜色或对象之间的转换的区分。另外，物理信号的采集可以涉及物理噪声或数据空洞。与不同物理信号相关联的这种“误导性信息”通常是不相关的，使用对应于不同物理信号的至少两个图像允许减小分割期间的影响。

基于在与不同物理信号对应的多个图像上生成场景的分割图像可以改善任何类型的场景的分割。当场景包含透明对象和/或反射对象时，改善更为显著。透明对象通常指示具有可被光线穿过的至少一个可触摸表面的任何真实实体。反射对象通常指示具有反射光的表面的任何真实实体。这些对象可以包括例如反射镜或金属对象(其可以是反射的)、建筑物外立面(其可以是反射和/或透明的)、或者诸如水坑(可能是反射的)或水池、湖泊或海面(这可能是反射和/或透明的)之类的水实体。透明对象和/或反射对象会干扰分割，因为它们会针对大多数传感器(包括RGB传感器和深度传感器)产生误导信息。由于深度传感器发出穿过对象的光线，因此透明对象对深度传感器造成明显的误导，从而无法提供正确的深度信息。反射对象明显地对RGB传感器造成误导，因为它们的反射表面反射的是其他颜色而不是对象的颜色。因此，在分割中使用不同的物理信号对于改善这种情况下的结果特别重要。

多个图像可以特别包括红外图像。红外图像提供有助于执行良好分割的数据，甚至在场景中存在一个或多个透明对象和/或一个或多个反射对象的情况下。结合RGB图像和/或深度图像，红外图像允许在这样的特定环境中进行特别高质量的分割。

当场景是建筑物内部场景或建筑物外部场景时，这样的解决方案因此可以是特别合适的。建筑物内部场景是建筑物内的场景。建筑外场景(也称“城市场景”或“建筑场景”)是包括一个或多个建筑物的外部场景。这样的场景通常包括透明对象和/或一个或多个反射对象，特别是包括建筑立面和/或水坑的建筑物外部场景。

此外，这样的场景通常包括生物实体，例如人类。在这种情况下，红外图像提供了这样的实体的准确表示，使得红外图像可以有助于对场景进行特别准确的分割。当红外图像是热图像时这甚至更显著。

场景的分割可以特别地应用于3D重建，即，基于物理信号数据的采集来自动产生场景的3D模型。

3D重建过程可以包括如上所述在场景中迭代地(即，执行不同的几次)提供多个图像并生成场景的分割图像。每个迭代可以对应于每个迭代的多个图像从场景中的不同视点所对应的多个物理信号(包括至少两个不同类型的物理信号)的采集。例如，迭代可以对应于在场景中移动视点。然后可以将存在于不同迭代图像中的场景的部分用于场景的3D重建。实际上，从不同视点表示这些部分的图像的可用性允许推断所述部分的3D模型。3D重建过程可以特别地包括基于多个分割图像的对应片段(即对应片段是对应于同一真实世界物理实体的片段)来重建场景的3D模型。改善场景的分割可以由此改善这样的3D重建过程。这种3D重建过程是众所周知的。

基于多个分割图像的对应片段来重建场景的3D模型通常是众所周知的，并且在以下论文中提供了示例，其中的任何一个的解决方案可以在这里实现：

-“Ziegler等人，3D Reconstruction Using Labeled Image Regions”；

-“Leung等，3D Reconstruction through Segmentation of Multi-View ImageSequences”；以及

-“Kuo等人，3D Reconstruction with Automatic Foreground Segmentationfrom Multi-View images Acquired from a Mobile Device”。

以下论文提供了基于分割的3D重建的其他示例：

-“Kundu等人，Joint Semantic Segmentation and 3D Reconstruction fromMonocular Video，ECCV 2014”；

-“等人，Joint 3D scene reconstruction and class segmentation，CVPR2013”；

-“Yücer等人，Efficient 3D Object Segmentation from Densely SampledLight Fields with Applications to 3D Reconstruction，ACM Transactions onGraphics”；

-“Prisacariu等人，Simultaneous Monocular 2D Segmentation，3D PoseRecovery and 3D Reconstruction，ACCV 2012”；以及

-“Herbst等人，Toward Online 3-D Object Segmentation and Mapping，ICRA2014”。

这里提出了一种可选的改进，其中多个分割图像共同的片段(基于其执行场景的3D模型的重建)全部仅对应于非生物实体。

在建筑内部或外部场景的情况下，诸如人之类的生物实体的存在干扰了3D重建过程。事实上，在这样的情况下，生物实体在分割的迭代之间移动，使得对应的片段传达用于3D重建的不正确的信息。从3D重建中排除对应于这样的移动实体的片段由此改善了3D重建的准确性和鲁棒性。因此，在重建建筑物内部或外部场景的上下文中，改善关于生物实体的分割的准确性是特别相关的。

可以以任何方式执行从该组分割图像中去除对应于生物实体的片段(以便通过使片段对应来执行3D重建)。众所周知，生物实体具有高度可识别的特征，使得这种去除可能是快速和容易的。

在符合人体工程学的示例中，可以利用一个或多个摄像机来执行3D重建过程，每个摄像机分别采集分割中涉及的物理信号中的相应一个的相应视频。例如，相同且单个的相机可以嵌入不同的传感器(每个传感器适应于相应的物理信号，例如红外传感器、深度传感器和/或RGB传感器)，并且用户、汽车或机器人可以在场景持有相机，并捕获分割所涉及的每个物理信号视频流。视频可以被同步，使得每个帧允许生成场景的精确分割图像，因为每一生成涉及不同的物理信号。

通常可以以任何方式执行基于对应于不同物理信号的多个图像来生成分割图像。一种特别高效的方法是生成使得马尔可夫随机场(MRF)能量最小化的分割图像。这种最小化可以特别快速和鲁棒地执行。

众所周知，MRF能量最小化指定相当于确定在使能量最小化的图上的所谓“标签”的分布的任何算法。根据定义，该图具有节点和链接节点对的边。该图可以被称为“MRF图”。根据定义，标签是要分配给MRF图的每个节点(每个节点一个标签)的预定集合的值。当预定集合是离散的时候(如本文中的情况)，可以根据特别快速收敛的不同算法(称为“离散MRF最小化算法”)来执行MRF能量最小化。后面提供了一些示例。

能量可以包括不同的成本项，每个成本项被定义为给定订单的(MRF图的)的小集团的总和。成本项可以包括在所有节点上定义的一元项(也称为“数据项”)。成本项还可以包括二元或成对项(也称为“平滑项”)，其在由边连接的图的节点对上定义。当标签集合是离散的并且能量不包括更高程度的成本项时，可以根据更特别快地收敛的不同算法(称为“离散成对MRF最小化算法”)来执行最小化。现有的算法是已知的。同样，稍后提供示例。

在当前情况下，每个节点可以对应于分割图像的相应像素，并且标签可以对应于像素到该片段的集合中的相应一个的所有不同分配。因此，最小化通过针对每个像素找出对该片段的集合中的相应一个片段的最佳分配来操作分割。

MRF图连接应该有相关性的节点。在当前情况下，MRF图可以被定义为使得每个边对应于具有低于预定阈值的距离的相应像素对。距离可以是任何距离，例如欧氏距离或图形距离。因此，MRF图可以将紧邻的像素对和可选地彼此相距更远的像素对(可能所有像素对，假设阈值足够大)进行连接。稍后提供实现的示例。

现在，能量可被设计成使得最佳标签取决于从多个图像的所有图像中取得的贡献或标准。为此，以下可以参考“多标准MRF”的表述。

具体而言，能量可以包括平滑项，该平滑项对将与边对应的像素对到不同片段的分配进行惩罚。换句话说，能量倾向于将通过边连接的像素分配给同一个片段，或者换句话说，能量迫使接近的像素属于同一个片段。针对任何给定对的惩罚随着给定对的像素之间的距离的增加而减小。换句话说，由边连接的两个像素未被分配给同一个片段的成本随着两个像素定位靠近另一个(例如在网格上)而更重要。距离在这里同样是任何距离，例如欧式距离。针对给定对的惩罚随着给定对的像素对应的物理信号矢量之间的差异增加而进一步减小。换句话说，能量最小化考虑每一个分配给相应的像素的矢量。在其中定义矢量的空间是其中每个维度对应于多个图像中的相应一个的空间。换句话说，矢量的每个坐标是由多个图像中相对应的一个获取的相应模态或物理信号的值。然后设想矢量之间的距离。同样，距离可以是任何距离，例如欧氏距离(在居中和归约或归一化之后)或“加权后的欧氏距离”。两个像素没有被分配给同一个片段的成本则随着它们的矢量接近而变得更重要。

这样的平滑项很好地考虑了可用的不同物理信号信息，并基于此进行精确的分割。

在许多情况下，分割的目的是识别真实世界的材质和/或颜色转换。例如，分割可以区分图像中的工件中的伪影(例如阴影)和两种材料之间的真实转换。通过引入色度直方图，分割也可以使分割不受照明的影响。一类光度不变量也可以将材料从形状和照明中分离出来。然而，现有的方法在只依赖于图像的信息时往往是脆弱的。因此，在许多情况下，分割变得不可能；例如，当深色阴影部分覆盖暗色对象时。类似地，对于天空设定的浅色对象、具有光泽的镜面反射的对象或两种相同颜色的材料之间的转换，分割也可能是困难的。这些分割挑战对于仅使用可见光的现有的基于图像的分割算法来说是难以逾越的。

在本发明的示例中，系统和方法可以将RGB/RGB深度/深度捕获与能够感测材料性质的一个或多个其他传感器相关联，包括分子传感器，诸如来自Consumer PhysicsTM的SCiOTM、热传感器、以及太赫兹扫描仪。来自这些传感器的信息补充RGB/RGB深度/深度数据，以更精确地分割图像。这种分割可以在2D图像上进行，也可以在由RGB/RGB深度/深度重建方法(如Fusion)之一进行的3D重建上进行。分割可以用于2D图像或3D重建，因为重建方法通常将图像上的RGB或深度像素与重建对象上的对应表面点相关联。在3D形状重建的情况下，分割的鲁棒性通常比图像情况好，因为所使用的图像集合是强烈重叠的并且揭示了可以隐藏在单个图像中的许多部分。

在本发明的示例中，与现有方法相比，使用材料性质信息结合颜色和深度信息可以在更多的情况下分割对象，并且具有更高的精度和鲁棒性。

在示例中，系统、方法以及非暂时性计算机可读介质可以包括在处理器处将第一图像与第二图像对齐。第一图像和第二图像表示基本相同场景的不同电磁范围。该方法可以进一步包括使用来自第一图像的标准和来自第二图像的标准来生成分割的图像。来自第一图像的标准中的一个或多个标准可以独特于来自第二图像的标准中的一个或多个标准。是独特的标准可以包括电磁频谱的不同部分的标准，包括可见光谱(约300-700nm)和红外(700nm-1mm)，但也可以使用电磁频谱的其它部分。

在示例中，对齐图像可以进一步包括检测第一图像和第二图像的特征，匹配特征以找到第一图像和第二图像之间的成对对应关系，以及将第一图像和第二图像中的至少一个变形以将第一图像与第二图像对齐。

在示例中，对齐图像可以进一步包括应用来自(a)所提供的用于生成第一图像和第二图像的传感器的校准，以及(b)场景的深度图像的数据。

在示例中，第一图像是红-绿-蓝(RGB)颜色模型图像，并且第二图像是材料性质图像。

在示例中，材料传感器图像是红外图像、热图像、紫外图像、X射线图像或伽马射线图像。

在示例中，该方法还包括从共享公共物理安装并且具有已知的相对定位的相应的第一传感器和第二传感器捕获第一图像和第二图像。对齐图像可以进一步基于已知的相对定位。

在示例中，生成分割图像采用马尔可夫随机场(MRF)方法。

在示例中，第一图像是RGB彩色模型图像，并且第二图像是材料性质图像。

在本发明的示例中，计算机系统或方法可以将来自场景的可见光数据与诸如红外数据、热数据或深度数据之类的材料性质感测数据融合以提供有效的、可靠的和改进的场景的2D图像或3D模型的分割。

图1是示出了本发明的示例的高级图100。安装装置102(或相机)被配置为安装RGB传感器104和材料性质传感器108。RGB传感器104和材料性质传感器108是分开的已知的校准相对定位158。RGB传感器104以来自RGB有利点106的可见光谱来对场景112进行成像。材料性质传感器108以来自材料性质有利点110的诸如红外(IR)辐射之类的材料性质谱来对场景112进行成像。校准相对定位158可用于对来自RGB传感器104和材料性质传感器108的图像进行对齐，该图像取自两个不同的有利点106和110。本领域普通技术人员可以认识到，RGB传感器104和材料性质传感器108安装在单个设备的基本上相同的位置，或者与RGB传感器相同的具有双重功能的传感器可以是相同的传感器，因此对于每个对象也具有零的校准相对定位158和相同的有利位置点106和110。

场景112可以是包括地板130、鞋子132和134、地毯136和138以及散热器140的房间。用户可能希望将场景112的图像分割成具有以下中这些对象或其它对象中的一个或多个对象的单独的图像或层。场景还包括深度114，并且深度图像可以基于每像素来表示与传感器有关的上述所列对象的各种深度。在图2中进一步示出场景112。

RGB传感器104和材料性质传感器108各自在相同或接近的有利点106和108(例如，观察点)处捕获场景112的相应图像。记录两个相应传感器104和108之间的相对捕获点/坐标或校准相对定位158，以在捕获后使得两个图像对齐。RGB传感器104捕获至少一个第一RGB/RGB深度/深度感测图像，并且材料性质传感器108捕获至少一个材料性质图像。材料性质图像的一个示例是IR图像，因为这样的图像可以精确地表示材料性质，特别是在IR光谱中产生辐射的分子振动。IR图像可以被动地或主动地捕获。近IR频率范围(例如大约1微米)通常需要主动照明，而热频率范围(例如大约10微米)可以被动地捕获而不需要主动照明。

在示例中，RGB传感器104可以是标准数字相机，诸如手机相机。材料传感器108可以是热感相机，诸如可操作地连接到移动设备(例如，电话，智能电话、平板电脑、眼镜)的Seek Thermal^TM产品。一个集成设备(例如，安装装置102)可以安装RGB传感器104和材料(例如，热)传感器108，例如在FLIR ONE^TM产品中。可选地，传感器设置还可以包括深度传感器，例如结构传感器。深度传感器产生深度图像，深度图像具有的每个像素值是该特定像素距传感器的距离。深度传感器可以是RGB传感器104的一部分、材料性质传感器108的一部分、第三传感器(未示出)或单独的传感器的一部分。

再次参考图1，对于每个图像集合(例如，场景112的RGB图像150、材料传感器图像152和深度图像153)，本发明的示例分析图像以产生分割图像156。分割模块160接收相同场景的RGB图像150、材质传感器图像152和深度图像153。分割模块160还至少使用RGB图像150和材料传感器图像152，并且可以可选地使用深度图像153和可选的校准数据154来产生分割图像156。

分割模块160然后通过首先使图像变形以补偿视点(例如，RGB有利点106和材料性质有利点110)的任何差异来产生分割图像156。RGB图像150和材料性质图像152由可以紧邻安装装置102放置的传感器104和108来捕获。因此，相应的图像150和152可以从稍微不同的有利视点106和110捕获场景。可以取决于提供给分割模块160的信息以不同的方式执行对图像的变形。

如果除了RGB图像150和材料性质图像152之外，由分割模块160接收到的图像集合还包括深度图像153，并且如果分割模块160接收到指示传感器被预校准的校准数据154(例如，设备上它们的相对3D位置是已知的)，分割模块160将非深度图像投影到由深度传感器给出的3D表面上，并且然后将图像投影回到共同的视点上。

如果分割模块160没有接收到深度图像153或者校准数据154，则分割模块160经由RGB中的特征点和材料性质图像150和152中的特征点的成对对应关系来使图像变形。

在许多情况下，由于遮挡伪影，不可能对齐RGB和材料性质图像150和152，使得所有像素都是可比较的，遮挡伪影可以随着相应传感器104和108位置的位置而变化。然而，这只影响一小部分像素，并且不需要特殊处理，因为与RGB和材料性质传感器104和108中的一个或多个由于噪声或其它原因而产生不完整的数据的情况没有什么不同。

一旦图像被逐像素对齐，分割模块就可以基于包含在每个图像150和152中的补充信息来分割RGB和材料性质图像150和152。

存在执行分割的若干技术(参见，例如，Rother等人的“GrabCut-InteractiveForeground Extraction using Iterated Graph Cuts”，SIGGRAPH，2004，该文献通过引用整体并入)。在示例中，可以通过应用经修改的马尔可夫随机场(MRF)方法来执行分割，其中能量采取来自每个图像的贡献(参见例如Li，“Markov Random Field Modeling in ImageAnalysis”，Advances in Pattern Recognition，2009)。

由于可见光数据和IR范围数据是不同的和互补的，所以本发明的示例的系统和方法产生更好的结果。IR范围辐射作为材料的分子结构的函数发射。即使是相同温度下的材料，由于发射率的差异，也会在热IR波段发射不同的IR范围辐射。即使系统主动供应IR范围辐射来增强这个过程，吸收和重新发射辐射仍然对于实际用途而言与可见光的反射有很大不同。

图2A-图2C是示出了常见场景的示例图像。图2A示出了RGB场景200。RGB场景200(以灰度表示)示出了从可见光谱捕获的光。当仅对RGB场景200进行传统图像分割时，仅具有来自可见光谱的数据，分割系统可以确定图2A中蓝色所示的分割线。虽然这些线条可能是有帮助的，但是本领域的普通技术人员可以看到在追踪所有对象时它们是不完整的。

图2B示出了具有作为热发射率图像的重叠IR场景222的RGB场景220。IR场景222检测场景的热特性，如由表示场景的散热器的热量的不同颜色所示。由于IR场景222在场景的散热器和鞋子周围具有更多细节，所以分割可以找到针对该区域的更精确的分割边界。分割边界由红色实线显示。

图2C示出了分割场景240。分割场景240使用对RGB场景200和组合的RGB和IR场景220和222两者的分析来创建分割散热器、鞋子和小地毯中的一个的边界。因此，可以组合蓝色分割边界和红色分割边界来更好地分割图像。由RGB图像表示的边界与IR场景222所表示的边界(例如，热发射率图像)互补。实际上，分割模块416通过将图像视为连接的像素的图形，并计算将像素分类成单独的片段的像素的最有可能的标签来工作。在存在像素的强烈的强度梯度的情况下，分割模块416将其识别为两个片段之间的潜在边界。如果采用在上半部分由RGB阳光和在下半部分由热图像概述的场景222的示例，则分割模块416非常不可能仅使用RGB或单独的热量信息找到将鞋子与场景的其余部分分开的分割，因为在每个RGB或单独的热量信息中，只有部分鞋形图像存在较强的梯度，一个图像的鞋顶部，另一个图像的底部。为了组合这两者并增加成功分割的几率，该方法可以在分割模块41 6内部对输入数据执行以下操作：对于对准的热图像和RGB(D)图像的给定像素，该方法可以考虑其梯度等于每个图像中的梯度的最大值。对所有对齐的图像的所有像素执行此操作，将产生图像，使该图像被称为maxvar图像。当检查maxvar图像时，会观察到鞋的顶部和底部轮廓强度的强烈变化。因此，通过在maxvar图像的基础上分割，该方法可以具有成功地将鞋子识别为图像的分离片段的极高的可能性。

本发明的示例也可以用作从现实生活场景重建虚拟3D模型的系统的一部分。图3示出了要被重建为3D模型的另一场景300。例如，仅基于RGB和深度数据而没有材料传感器数据的系统观察具有靠近的棕色木墙308和棕色砖墙306的场景，如果两个墙306和308的棕色颜色太相似，则不能区分这两种材料。然而，在本发明的示例中，从热IR相机添加信息可以帮助将棕色木墙308与棕色砖墙306分离，因为材料的不同发射率在IR图像上是分离的。当图像被组合时，分割处理基于图像中的任何一个的数据的转变来确定边界。在这种情况下，热IR图像贡献关键边界信息，但可以采用来自其他材料性质图像的其他边界信息。

作为另一示例，由于水反射、透射和衍射光，因此诸如充满的浴缸302之类的水的RGB图像难以通过视觉手段分割。类似地，窗户304的玻璃的反射、透射和散射可以类似地造成困难。这些反射、透射和衍射视觉可以混淆水与周围环境。然而，水具有明显的材料发射率，因此在热图像中突出，因此易于区分和分离。

图4是示出了本发明的示例的流程图400。该过程开始于捕获RGB图像和材料传感器图像，并将图像提供给分割模块(402)。可选地，该过程可以提供用于捕获图像的传感器的校准数据(404)。校准数据可以包括传感器之间的相对定位，传感器的相对坐标、和/或可以协助对齐传感器的得到的图像进行对齐的任何其他信息。可选地，该过程也可以向分割模块提供深度图像(406)。深度图像是对于每个像素包括表示在该特定像素处从传感器到对象的距离的深度的图像。

分割模块然后可以确定是否已经提供了可选的校准数据(404)和深度图像(406)(408)。如果不是，则分割模块可以通过执行特征检测和匹配来找到RGB图像和材料传感器图像之间的成对对应关系(412)。分割模块然后可以通过应用变形来对齐图像(414)。然后，系统可以使用本发明的修改的多标准MRF来找到图像的分割(416)。系统然后可以输出分割的图像(418)。

然而，如果校准数据和深度图像可用(408)，则系统可使用深度信息来对准两个图像的像素(410)。然后，系统可以使用本发明的修改的多标准MRF来找到图像的分割(416)。系统然后输出分割的图像(418)。

图5示出了其中可以实现本发明的示例的计算机网络或类似的数字处理环境。

一个或多个客户端计算机和/或设备50以及一个或多个服务器计算机60提供执行应用程序等的处理、存储和输入/输出设备。客户端计算机和/或设备50也可以通过通信网络70链接到其他计算设备，包括其他客户端设备和/或设备50以及服务器计算机60。通信网络70可以是远程访问网络、全球网络(例如因特网)、世界范围的计算机集合、局域网或广域网，以及当前使用相应协议(TCP/IP、等)进行相互通信的网关。其他电子设备/计算机网络架构是合适的。

图6是图5的计算机系统中的计算机(例如，客户端计算机或设备50或服务器计算机60)的示例内部结构的图。每个计算机50、60包含系统总线79，其中总线是用于计算机或处理系统的组件之间的数据传输的一组硬件线。系统总线79本质上是连接计算机系统的不同元件(例如，处理器、磁盘存储装置、存储器、输入/输出端口、网络端口等)并且能够在元件之间传递信息的共享管道。附接到系统总线79的是用于将各种输入和输出设备(例如，键盘、鼠标、显示器、打印机、扬声器等)连接到计算机50、60的I/O设备接口82。网络接口86允许计算机连接到附接于网络(例如，图5的网络70)的各种其他设备。存储器90提供对于用于实现本发明的示例(例如上面详述的对齐模块和分割模块代码)的计算机软件指令或例程92A和数据94的易失性存储。磁盘存储装置95针对用于实现本发明的示例的计算机软件指令或操作系统程序92B和数据94提供非易失性存储。中央处理器单元84也附接到系统总线79并提供用于计算机指令的执行。

在示例中，软件指令92A-B和数据94构成计算机程序产品(其一般可以被称为92)，其包括非暂时性计算机可读介质(例如，可移动存储介质，诸如一个或多个DVD-ROM、CD-ROM、软盘、磁带等)，其针对本发明系统提供软件指令的至少一部分。计算机程序产品92可以通过任何合适的软件安装程序来安装，如本领域所公知的。在另一个示例中，软件指令的至少一部分也可以通过有线通信和/或无线连接来下载。在其他示例中，本发明的程序是在传播介质(例如无线电波、红外波、激光波、声波或通过全球网络(例如因特网)或其他网络传播的电波)上的传播信号上实现的计算机程序传播信号产品。这样的载体介质或信号可以被用来针对本发明例程/程序92提供软件指令的至少一部分。

这些方法是计算机实现的。这意味着方法的步骤(或基本上所有的步骤)由至少一个计算机或任何类似系统执行。因此，这些方法的步骤由计算机完成，可能是全自动的，或者是半自动的。在示例中，触发方法的步骤中的至少一些可以通过用户-计算机交互来执行。所要求的用户-计算机交互的级别可以取决于所预测的自动化水平，并且与实现用户意愿的需求相平衡。在示例中，这个级别可以是用户定义的和/或预先定义的。

图7显示了该系统的示例。

该示例的系统包括连接到内部通信总线1000的中央处理单元(CPU)1010，也连接到总线的随机存取存储器(RAM)1070。该系统还设有与连接到总线的视频随机存取存储器1100相关联的图形处理单元(GPU)1110。视频RAM 1100在本领域中也被称为帧缓冲器。大容量存储设备控制器1020管理对大容量存储设备(例如硬盘驱动器1030)的访问。适合于有形地体现计算机程序指令和数据的大容量存储器设备包括所有形式的非易失性存储器，例如包括半导体存储设备，诸如EPROM、EEPROM和闪存设备；磁盘，如内部硬盘和可移动磁盘；磁光盘；以及CD-ROM盘1040。以上的任何内容都可以由专门设计的ASIC(专用集成电路)来补充或包含在其中。网络适配器1050管理对网络1060的访问。系统可以无线地耦合到相机1090。相机可以包括安装在其上的多个传感器，相机1090可以是视频摄像机。

该计算机程序可以包括可由计算机执行的指令，该指令包括用于使上述系统执行该方法的单元。程序可以记录在任何数据存储介质上，包括系统的存储器。该程序可以例如以数字电子电路或计算机硬件、固件、软件或其组合来实现。该程序可以被实现为装置，例如有形地体现在机器可读存储设备中以供可编程处理器执行的产品。方法步骤可以由执行指令程序的可编程处理器执行，以通过对输入数据进行操作并生成输出来执行该方法的功能。处理器因此可以是可编程的并且被耦合以从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且将数据和指令发送到数据存储系统、至少一个输入设备和至少一个输出设备。应用程序可以以高级过程或面向对象的编程语言来实现，或者如果需要，可以以汇编或机器语言来实现。在任何情况下，该语言可以是编译或解释的语言。该程序可以是完整的安装程序或更新程序。程序在系统上的应用引起在任何情况下执行该方法的指令。

图8示出了可以通过本发明精确地分割的建筑物外部场景的RGB图像800(以灰度表示)的示例。由于从周围环境发送或反射的虚假信息，高度反射的表面如水池810或透明表面诸如玻璃820难以在可见光谱中分割。可以看出，相同的表面在热图像815和825中是完全不透明的，不会显示误导性的反射。这样的热图像815和825因此可以适当地补充RGB图像800以分割场景。

现在参照图9讨论MRF能量最小化的高效示例。这样的示例可以被实现用于分割模块416。

通常，MRF能量可以由平滑项组成(即没有其他项)。

然而，为了增加收敛速度，能量在示例中可以进一步包括数据项。数据项可对每个像素到任何片段的分配进行惩罚，所述惩罚针对每个像素基于相应的概率分布，所述概率分布针对所述片段的集合中的每一个提供所述像素独立于其他像素属于所述片段的相应概率，针对所述任何给定像素的惩罚随着由相应于给定像素的概率分布提供的概率而减小而增加。概率分布构成了像素应该属于的片段的预先推理。MRF能量最小化然后改进这种预先推理。

在下面提供的示例中，可以基于像素的预聚类来学习概率分布。聚类方法通常比较快，使得这样的示例会提高方法的收敛速度。

在此之前，讨论可选的深度预处理(例如，修补416a)。

如果存在，则深度数据(RGB-D中的“D”)特征在于相当大的不稳定性。任何给定的深度帧通常会呈现噪声和空洞(非可用像素的区域)，这是由于深度传感器无法在场景的100％上正确运行。噪声和空洞可能是由于许多因素造成的，例如场景中的光亮或透明对象、过亮的灯光、场景深度高于最大范围或场景中的几何不连续。因此，在示例中可以在进行分割之前应用在文章“Anh Vu Le，Seung-Won Jung和Chee Sun Won：Directional JointBilateral Filter for Depth Images，Sensors Journal 2014 11362-11378”中描述的技术来使得深度图完成而没有空洞或噪声。当存在颜色和深度时，该技术利用彩色图像来定位深度图中的边缘像素，从而相对于单独对深度数据执行去噪和空洞填充的方法，提高了性能。

现在讨论上面提到的可选的预聚类。介绍了实现频谱聚类416b的示例。

该方法可以首先执行称为“谱聚类”的粗糙初始分割。该粗糙初始分割可以作为MRF的输入，MRF产生最终的高质量分割。

基于以下标记，聚类可以按如下方式工作：

n->像素索引

C->图形边(在我们的案例中边链接两个相邻像素)

V->图形节点集合(在我们的案例中，像素集合)

l_n->像素n的标签，即其片段

c->片段数目(l_n∈{1，...，c})

l->加标签，l＝(l₀,…,l_N-1)，其中N是像素的数量

除非另外指出，否则以下指的是输入数据包括3个颜色通道R、G、B，热通道和深度通道的总维度为5的标准方案。其他配置是可能的，例如缺少深度数据，或者存在多个热通道和/或其他材料性质通道。这不会改变方法。

所讨论的该方法的示例经由谱聚类来执行聚类，该聚类包括像素的过度分割，随后是片段的融合的迭代。迭代结束时达到的片段数目对应于可用于MRF最小化的标签(以及因此片段)。

谱聚类可以形成像素的过度分割。然后每个融合可以基于削减成本来划分片段，削减成本取决于分配给相邻像素对的权重，分配给给定的一对相邻像素的权重随着对应于给定对的像素的物理信号矢量之间的差异增加而减小。

聚类步骤可以建立多个片段，并且向每个像素给出初始粗糙片段标签，该分类稍后由MRF进行细化。

一种方法是将图像过度分割成k个片段的划分π^k，其k值比实际预期的片段数量多得多(通常k＝50)。

待分割的图G由图像中的像素(节点x_m的集合V)和连接两个相邻像素的边(边{x_m,x_n}的集合C)构成。可以下面的形式将权重赋予这些边：

其中x_n＝(R_n,G_n,B_n,Th_n,Z_n)，其中每个维度集中和归约(例如归一化)，并且‖x‖是欧几里得范数。也可以用所谓的“加权后欧氏距离”‖a^Tx‖代替欧几里得范数，其中a是应用于每个维度的比例因子矢量。在由RGB图像、深度图像和红外图像构成的多个图像的情况下，特别好地起作用，其中a的前三个维度对应于RGB通道的三个维度和a的其它两个维度对应于深度通道和红外通道。

β是正数，可以选择为：

如在文章“Andrew Y Ng，Michael I Jordan，Yair Weiss等人的On spectralclustering：Analysis and an algorithm，Advances in neural informationprocessing systems，2：849-856,2002”中所描述的，可以引入邻接矩阵A，度矩阵D和图拉普拉斯算子L：

A_ij＝w(x_m,x_n)

L＝D-A

可以用这种方式定义“标准化切割”的成本，以取决于边权重来对每个分割块进行划分：

其中：

c_j是C_j段的指标矢量；

如果x_i∈C_j，则

否则，

定义z_j＝D^1/2x_j和“归一化拉普拉斯算子”L_N＝D^-1/2LD^-1/2，可以将归一化切割表示为：

可以扩展归一化切割以将对应于图的分割的图划分能量定义为k个片段π^k：

该能量可以通过与L_N的k个最小非空特征值相关联的k个特征矢量来最小化。松弛离散约束(c_j∈{1,0}ⁿ))，并使指标矢量取实值用归一化的拉普拉斯算子的特征矢量e_j来逼近聚类：/>然而，这些矢量通常不是分段恒定的。为了找到针对每个聚类(片段)C_j的离散指标矢量，可以在维k的空间H_k中应用k均值算法如下：对于图的每个节点i，可以关联矢量p_i，使得(p_i)_j＝(e_j)_i。这些矢量然后通过k均值聚类。

该方法可以以这种方式获得将图像分割成k个片段，并且该方法之后可以是用于片段融合以获得期望的总数的技术。

该技术可能工作如下：

可以定义用于两片段融合的增益函数为：

然后，该方法可以按照增益递减的顺序来融合这些片段，并且这允许以大量的片段k开始，并且最终获得任意较小数量的片段c。

该方法现在具有在每个像素上定义标签的粗略分割。该粗略的分割或聚类可能是最终分割的输入。

现在讨论基于这样的预聚类的基于马尔可夫随机场(MRF)的分割416c。

该方法可以使用来自先前步骤的聚类(粗分割)作为基于MRF的分割的输入，基于MRF的分割产生明确的细化分割。为了将聚类用作输入，该方法可以将每像素标签转换为处于给定片段中的概率。

为此，该方法可以在空间H_d中应用c个高斯的混合(选择d≤c)以获得像素与其邻像素无关地属于一片段的概率P。可以通过在“Simon J.D.P Prince，Computer Vision:Models,Learning,and Inference，Cambridge University Press，第7章，第4节”中所描述的期望-最大化算法来学习该高斯混合模型。

然后，该方法可以通过在用于谱聚类的相同图上推断马尔可夫随机场(MRF)中的标签来细化分割。

MRF的能量可以是：

E(l)＝U(l)+λS(l)

其中：

U＝∑_n-logP(l_n)。

P(l_n)由高斯混合模型给出。

U被称为数据项。该项迫使像素具有由高斯混合预测的标签。

S被称为平滑项。它迫使像素具有与其邻像素相同的标签，如果这些邻像素具有相似的特征(颜色、深度、热量)，则更是如此。

U和S的组合允许将图像分割成特别连贯的区域。区域之间的边界对应于(R、G、B、Th、Z)空间中的强梯度。平滑项的λ因子，考虑这两个影响。大的λ值促进连贯和一致的片段，但是这些可能强烈偏离聚类步骤提供的初始信息。相反，对于较小的值，像素倾向于保留最初由聚类所赋予它的标签，而不管其邻像素如何。

可以通过求解这种成对MRF的方法来实现的算法的研究可以在文章“J.Kappes等人，A Comparative Study of Modern Inference Techniques for DiscreteMinimization Problems，在CVPR 2013”中找到。在特别有效的实现中，该方法可以通过使用由gco-v3.0代码实现的图形切割阿尔法扩展来执行该任务(例如在以下URL提供：http://vision.csd.uwo.ca/code/)。

该方法可以更一般地实施这种MRF的推广，将边视为比仅紧邻相邻像素更大的邻域。在这种情况下，S被替换为

其中：

dist(m,n)是分隔像素m和n的距离。

C(马尔可夫随机场图的边的集合)例如是与具有低于预定阈值的距离(无差异欧几里得距离或图距离)的像素对相对应的所有边的集合。

这概括了初始定义，即与相邻像素对相对应的所有边的集合(其无差别地表示像素对位于一旁，或者一个在另一个之上或一对像素旁边，一个在另一个之上，或者也在对角线上)。

因此，取决于所保留的预定阈值，可以将C缩减到初始定义(在这种情况下，S的表述中的项dist(m,n)^-1仅仅是多余的标记)，或者C可以放大到所有像素对(假设阈值足够大)。

Claims

1.一种产生场景的分割图像的计算机实现的方法，所述分割图像包括像素，所述像素的每一个被分配给片段的集合中的相应一个片段，所述方法包括：

提供所述场景的多个图像，每个图像对应于物理信号的相应采集，所述多个图像包括对应于不同物理信号的至少两个图像；以及

通过确定使包括节点和边的马尔可夫随机场(MRF)图上定义的能量最小化的标签的分布来基于所述多个图像生成所述分割图像，每个节点对应于相应像素并且与相应标签相关联，每个边对应于具有低于预定阈值的距离的相应像素对，所述标签对应于像素到所述片段的集合中的相应一个片段的所有不同分配，所述能量包括平滑项，所述平滑项惩罚与边对应的像素对到不同片段的分配，针对任何给定对的所述惩罚随着所述给定对的像素之间的距离的增加而减小，针对所述给定对的所述惩罚进一步随着与所述给定对的像素对应的物理信号矢量之间的差异增加而减小。

2.如权利要求1所述的方法，其中，标记为S的平滑项具有以下类型

其中：

m和n是像素索引，

C是所述马尔可夫随机场图的边的集合，

l_m是与像素m关联的标签，而l_n是与像素n关联的标签，

是指示函数，所述指示函数当标签l_m和l_n不同时等于1，而在其它情况下等于0，

dist(m,n)^-1是像素m和像素n之间的距离的倒数，

x_m是对应于像素m的相应物理信号矢量，而x_n是对应于像素n的相应物理信号矢量，

||x_m-x_n||是物理信号矢量x_m与物理信号矢量x_n之间的距离，并且

pen()是递减函数。

3.如权利要求2所述的方法，其中，pen()具有exp(-β||x_m-x_n||)类型，其中，β是正数。

4.如权利要求1、2或3所述的方法，其中，所述能量还包括数据项，所述数据项对像素中的每个像素到任何片段的分配进行惩罚，所述惩罚是针对每个像素基于相应概率分布的，所述相应概率分布针对所述片段的集合中的每一个片段提供该像素与其他像素无关地属于该片段的相应概率，针对任何给定像素的惩罚随着由相应于所述给定像素的概率分布提供的概率降低而增加，所述概率分布是基于像素的聚类而被学习出的。

5.如权利要求4所述的方法，其中，所述数据项具有以下类型：

其中：

n是像素索引，

l_n是像素n的标签，并且

P(l_n)是针对与标签l_n对应的片段由相应于像素n的概率分布提供的概率。

6.如权利要求4所述的方法，其中，所述方法经由谱聚类、随后是片段融合的迭代来执行所述聚类，所述迭代结束时达到的片段的数目对应于所述标签。

7.如权利要求4所述的方法，其中，所述概率分布形成高斯混合。

8.如权利要求7所述的方法，其中，所述高斯混合是通过期望最大化算法而被学习出的。

9.如权利要求4所述的方法，其中，所述能量具有E(l)＝U(l)+λS(l)的类型，其中，λ是重要性因子，而l是标签的分布。

10.一种其上存储有指令的非暂时性计算机可读存储介质，所述指令在由计算机运行时，使得所述计算机能够执行根据权利要求1-9中任一项所述方法的步骤。

11.一种用于产生场景的分割图像的装置，所述装置包括：

处理器；

耦合到所述处理器的存储器，所述存储器上存储有指令，所述指令在由所述处理器执行时，使得所述处理器执行根据权利要求1-9中任一项所述的方法。

12.一种用于产生场景的分割图像的装置，包括用于执行根据权利要求1-9中任一项所述的方法的单元。