CN105574848A

CN105574848A - 用于对象的自动分割的方法和装置

Info

Publication number: CN105574848A
Application number: CN201510740275.3A
Authority: CN
Inventors: 王廷槐; 王慧灵
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2014-11-04
Filing date: 2015-11-03
Publication date: 2016-05-11
Also published as: EP3018627A1; US20160125626A1; GB201419608D0; GB2532194A

Abstract

本发明涉及一种方法，包括：接收多个图像，其中所述多个图像包括与相同对象有关的内容；预处理所述多个图像以形成针对图像中的每个区域的特征向量；借助于特征向量来发现来自每个图像的像对象的区域；根据像对象的区域来确定针对每个图像的对象外观模型；借助于对象外观模型来生成对象假设；对多个图像中的相同对象进行分割以生成分割的对象；以及根据分割的对象来生成多视图分割。

Description

用于对象的自动分割的方法和装置

技术领域

本实施例一般涉及图像处理。特别地，本实施例涉及来自多个图像的对象的分割。

背景技术

多相机系统是在成像和媒体制作产业中，例如摄影、电影和游戏制作，针对3D(三维)资产的获得的新兴技术。随着手持型成像设备，诸如便携式摄影机和移动电话的扩张，来自由多个相机同时拍摄的图像的相同对象的自动分割是用于捕获3D内容的方式。

发明内容

本发明的各种实施例包含方法、装置、系统和计算机可读介质，所述计算机可读介质包括在其中存储的计算机程序，它们的特征在于独立权利要求中所陈述的内容。在从属权利要求中公开了本发明的各种实施例。

根据第一示例，一种方法包括接收多个图像，其中所述多个图像包括与相同对象有关的内容；预处理所述多个图像以形成针对图像中的每个区域的特征向量；借助于所述特征向量来发现来自每个图像的像对象的区域；根据所述像对象的区域来确定针对每个图像的对象外观模型；借助于所述对象外观模型来生成对象假设；对所述多个图像中的相同对象进行分割以生成分割的对象；以及根据所述分割的对象来生成多视图分割。

根据一个实施例，从多个相机设备来接收所述多个图像。

根据一个实施例，所述预处理包括针对所述多个图像执行区域提取。

根据一个实施例，所述预处理还包括在所述多个图像中执行从运动恢复结构的技术以重构稀疏3D点。

根据一个实施例，用于借助于所述特征向量来发现来自每个图像的像对象的区域的步骤包括形成包括来自所述多个图像的预定数量的最高评分区域的池，其中区域的分数包括每个区域的外观分数和基于重构的稀疏3D点的区域的可见度；通过累计考虑中的区域所包含的3D点的数量，来确定区域的可见度；通过执行谱聚类来辨识表示前景对象的像对象的区域。

根据一个实施例，生成对象假设包括：确定所述多个图像中的区域的对象性(objectness)水平；将每个帧具有最高对象性水平的分组的区域添加到对象假设的集合。

根据一个实施例，所述分割包括确定属于对象的区域的似然值，基于所述似然值来分割所述对象。

根据第二示例，一种装置包括至少一个处理器、包含计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置为使用所述至少一个处理器，使得所述装置执行至少以下：接收多个图像，其中所述多个图像包括与相同对象有关的内容；预处理所述多个图像以形成针对图像中的每个区域的特征向量；借助于所述特征向量来发现来自每个图像的像对象的区域；根据所述像对象的区域来确定针对每个图像的对象外观模型；借助于所述对象外观模型来生成对象假设；对所述多个图像中的相同对象进行分割以生成分割的对象；以及根据所述分割的对象来生成多视图分割。

根据第三示例，一种系统包括至少一个处理器、包含计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置为使用所述至少一个处理器，使得所述系统执行至少以下：接收多个图像，其中所述多个图像包括与相同对象有关的内容；预处理所述多个图像以形成针对图像中的每个区域的特征向量；借助于所述特征向量来发现来自每个图像的像对象的区域；根据所述像对象的区域来确定针对每个图像的对象外观模型；借助于所述对象外观模型来生成对象假设；对所述多个图像中的相同对象进行分割以生成分割的对象；以及根据所述分割的对象来生成多视图分割。

根据第四示例，一种装置包括：用于接收多个图像的构件，其中所述多个图像包括与相同对象有关的内容；用于预处理所述多个图像以形成针对图像中的每个区域的特征向量的构件；用于借助于所述特征向量来发现来自每个图像的像对象的区域的构件；用于根据所述像对象的区域来确定针对每个图像的对象外观模型的构件；用于借助于所述对象外观模型来生成对象假设的构件；用于对所述多个图像中的相同对象进行分割以生成分割的对象的构件；以及用于根据所述分割的对象来生成多视图分割的构件。

根据第五示例，一种被具体化在非短暂性的计算机可读介质上的计算机程序产品包括计算机程序代码，当在至少一个处理器上运行该计算机程序代码时，该计算机程序代码使得装置或系统：接收多个图像，其中所述多个图像包括与相同对象有关的内容；预处理所述多个图像以形成针对图像中的每个区域的特征向量；借助于所述特征向量来发现来自每个图像的像对象的区域；根据所述像对象的区域来确定针对每个图像的对象外观模型；借助于所述对象外观模型来生成对象假设；对所述多个图像中的相同对象进行分割以生成分割的对象；以及根据所述分割的对象来生成多视图分割。

附图说明

在以下，将参照附图更详细地描述本发明的各种实施例，其中

图1示出了根据实施例的装置；

图2示出了根据实施例的装置的布局；

图3示出了根据实施例的系统；

图4示出了根据实施例的方法；

图5a-5d示出了图像处理的示例；

图6示出了稀疏3D重构和粗略的相机姿态的示例；以及

图7说明了如流程图的方法的实施例。

具体实施方式

图1和图2说明了根据实施例的装置。装置50是电子设备，例如移动终端或无线通信系统的用户终端，或相机设备。在本申请中公开的实施例可以被实现在能够捕获数字图像(诸如静止图像和/或视频图像)并且能够连接到网络的任何电子设备或装置内。装置50可以包括：用于容纳和保护该设备的壳体30。装置50还可以包括显示器32，例如液晶显示器或能够显示图像和/或视频的任何其它显示技术。装置50还可以包括小键盘34。根据另一个实施例，可以使用任何合适的数据或用户接口机构。例如，用户接口可以被实现成作为触摸敏感显示器的一部分的虚拟键盘或数据输入系统。该装置可以包括麦克风36或任何合适的音频输入，其可以是数字或模拟信号输入器。装置50还可以包括音频输出设备，音频输出设备可以是以下中的任何一个：耳机38、扬声器、或模拟音频或数字音频输出连接件。装置50还可包括电池(根据另一个实施例，可以由任何合适的移动能量设备，诸如太阳能电池、燃料电池或发条发电机，向该设备提供电力)。装置还可以包括能够记录或捕获图像和/或视频的相机42，或可以连接到相机42。根据一个实施例，装置50还可以包括红外线端口以用于至其它设备的短距视线通信。根据一个实施例，装置50还可以包括任何合适的短距通信解决方案，诸如例如蓝牙无线连接或USB/火线有线解决方案。

装置50可以包括用于控制装置的控制器56或处理器。控制器56可以连接到存储器58，根据一个实施例，存储器58可以存储以图像或音频数据的形式的两种数据，和/或还可以存储用于在控制器56上实现的指令。控制器56还可以连接到编解码电路54，该编解码电路54适用于执行对音频和/或视频数据的编码和解码或帮助由控制器56执行的编码和解码。

装置50还可以包括卡阅读器48和智能卡46，例如UICC和UICC阅读器以用于提供用户信息并且适用于提供用于在网络上针对用户的认证和授权的认证信息。

装置50可以包括：无线电接口电路52，其连接到控制器并且适用于生成例如用于与蜂窝通信网络、无线通信系统和/或无线局域网进行通信的无线通信信号。装置50还可以包括：天线44，其连接到无线电接口电路52以用于将在无线电接口电路52处生成的射频信号传送给其它装置(多个)以及用于接收来自其它装置(多个)的射频信号。

根据一个实施例，装置50包括相机42，相机42能够记录或检测个体帧，个体帧然后被传送给用于处理的编解码器54或控制器。根据一个实施例，装置可以在传输和/或存储之前，接收来自另一个设备的用于处理的视频图像数据。根据一个实施例，装置50可以无线地或通过有线连接来接收用于处理的图像。

图3示出了根据一个实施例的包括多个装置、网络和网络元素的系统配置。系统10包括：多个通信设备，它们能够通过一个或多个网络进行通信。系统10可以包括有线网络或无线网络的任何组合，有线网络或无线网络包括但不限于：无线蜂窝电话网络(诸如GSM，UMTS，CDMA网络等，无线局域网(WLAN)，诸如由IEEE802.x标准中的任何标准定义的WLAN，蓝牙个域网，以太网局域网，令牌环局域网，广域网以及互联网。

系统10可以包含：适用于实现本发明的实施例的有线和无线两者的通信设备或装置50。例如，在图3中示出的系统示出了移动电话网络11和互联网28的表示。至互联网28的连通性可以包含但不限于：长距无线连接，短距无线连接，以及各种有线连接，包括但不限于电话线，电缆线，电力线，和类似的通信路径。

在系统10中示出的示例性通信设备可以包含但不限于：电子设备或装置50，个人数字助理(PDA)和移动电话的组合14，PDA16，集成消息发送设备(IMD)18，桌面计算机20，笔记本计算机22、数字相机12。装置50可以是固定的或当由移动中的个体携带时是移动的。装置50还可以位于交通工具中。

一些其它装置可以发送和接收呼叫和消息，并且通过至基站24的无线连接25与服务提供商通信。基站24可以连接到网络服务器26，其允许移动电话网络11和互联网28之间的通信。系统可以包含另外的通信设备和各种类型的通信设备。

通信设备可以使用各种传输技术来通信，各种传输技术包括但不限于：码分多址接入(CDMA)，全球移动通信系统(GSM)，通用移动通信系统(UMTS)，时分多址接入(TDMA)，频分多址接入(FDMA)，传输控制协议-互联网协议(TCP-IP)，短消息服务(SMS)，多媒体消息服务(MMS)，电子邮件，即时消息服务(IMS)，蓝牙，IEEE802.11和任何类似的无线通信技术。在实现本发明的各种实施例中涉及的通信设备可以使用各种介质进行通信，各种介质包含但不限于：无线电，红外线，激光，线缆连接，或任何合适的连接。

本实施例涉及来自由多个手持型相机所捕获的图像的对象的自动分割。由服务器从若干相机来接收图像，以及服务器被配置为执行对象的自动分割。服务器不需要知道准确的相机姿态或定向，或对象/背景颜色分布。

从相同对象的多个图像的分割一直受到关注，然而还没有被解决。分割常常必须使用明显着色(色度键)的背景，其限制针对3D内容捕获的实际场景。

有关现有技术的自动多个图像分割方法在手持型相机的场景中不能工作，这是由于以下强假定：诸如i)准确的相机姿态是已知的；ii)相机注视对象；或iii)对象和背景颜色分布没有重叠，在这种情况下，具有针对对象和背景的全局颜色模型可以是足够的。前两个假定(i)和ii))在演播室设置中能够满足，然而，在手持型相机场景中它们是不现实的，因为准确的相机姿态难于获得，这是因为捕获设备的稀疏性和移动。最后一个假定(iii))也是现有方法用于缺乏对感兴趣的对象的对象级别描述的自然图像的限制因素。

本实施例提出了一种自动方法以分割由多个成像设备所捕获的相同对象，其与有关技术的解决方案的主要不同在于以下方面：1)实施例能够用于分割由手持型相机或在演播室中的固定相机两者所拍摄的图像；2)实施例不要求准确的相机姿态信息；3)实施例不要求背景图像来生成背景模型；4)实施例具有感兴趣的对象的对象级别描述以处理相似的对象和背景颜色分布。

图4说明了位于服务器上的根据一个实施例的管道。该管道包括预处理模块410，对象假设提取模块420、对象建模模块430和分割模块440。由预处理模块410来接收来自多个相机的图像400。可替代地，从一个相机来接收图像400。预处理模块410接收多个图像，该多个图像具有与相同对象有关的内容。例如，对象可以是建筑物、人、名胜、雕塑、车辆等。因此，多个图像包括此类对象(例如，建筑物、人、名胜、雕塑、车辆等)作为内容，但是从此类对象的不同视角来捕获此类对象。

可以基本上同时接收图像。图像随着元数据被存储在服务器。元数据包括至少时间戳，该时间戳指示针对图像的捕获时间。预处理模块410被配置为执行针对每个图像的超像素提取和特征提取，以及相机姿态提取和稀疏重构。所处理的图像然后被传递给对象假设提取模块420。对象假设提取模块420被配置为从每个图像来发现对象区域，以及执行支持向量机(SVM)分类。此外，对每个图像执行图直推，以及生成对象假设。对每个图像执行图直推(graphtransduction)，以及生成对象假设。来自对象假设提取模块420的输出被传递给对象建模模块430，对象建模模块430被配置为检查高斯混合模型(GMM)颜色模型以及生成针对图像的像素似然值。最后，分割模块440被配置为创建多视角图以及执行图切割优化。多视角图和图切割优化被存储在服务器中以供随后使用，例如在不同的应用中。了解的是，在此呈现的模块不要求准确的相机姿态信息。下面以更详细的方式来描述模块410-440的功能。

1.预处理

预处理模块410被配置为接收由多个成像设备所捕获的图像400作为输入。图像可以被同步捕获。预处理模块410然后执行超像素/区域提取作为第一步骤以将每个图像解析到感知上有意义的原子实体。超像素是比基于低级别的兴趣点的特征更加空间延伸的实体，其提供便捷的原语以计算图像特征，以及极大地减少随后图像处理任务的复杂度。任何超像素/区域提取方法可以用于实现预处理模块。在超像素提取方法中，首先，可以从注视点(fixationpoints)的周围的图像像素来学习对象的颜色的模型。接着，图像边缘可以被提取并且与体积二进制马科夫随机场(MRF)模型中的对象颜色信息组合。

为了描绘区域的视觉外观的特征，预处理模块还被配置为确定针对每个区域的特征描述符。两种类型可以使用：纹理基元(texton)直方图(TH)和颜色直方图(CH)。针对TH，使用具有18个条(bar)和边缘滤波器(针对每一个滤波器，6个定向和3个尺度)、1个高斯和1个拉普拉斯高斯滤波器的滤波器组。经由k均值来量化400个纹理基元(箱(bins))。针对CH，可以使用具有每个通道20个箱(总计60个箱)的CIE实验室颜色空间。所有直方图被连接以形成针对每个区域的单个特征向量。

预处理模块还被配置为基于相机姿态估计在所有图像中执行从运动恢复结构(SfM)的技术以重构稀疏3D点。在SfM中，从二维图像序列来估计三维结构，其可以与本地运动信号耦合。注意的是，相机姿态估计不需要指示准确的相机姿态。

预处理模块提供(来自多个图像的所有超像素的)特征向量和稀疏3D点两者作为输出。

2.对象假设提取模块

对象假设提取模块被配置为执行针对所处理的图像的以下功能：发现对象区域；学习整体外观模型；以及直推式学习以生成对象假设。

对象区域的发现

对象区域的发现的目标是从所有视图发现像对象的区域的初始集合。在整个发现过程中，维护图像区域的两个不相交集。图像区域的这两个不相交集被称为H和U，其中H表示所发现的像对象的区域，以及U表示保持在通用无标记的池中的那些像对象的区域。H初始是空的，尽管U被设置为所有图像的区域。因为没有关于基本对象(primaryobject)的大小、形状、外观或位置的先验知识，因此本算法通过产生图像中的像对象的区域的不同的集合进行操作。这可以通过使用以下已知方法来实现：“IanEndres,DerekHoiem:CategoryIndependentObjectProposals，ECCV(5)2010:575-588”，其是用于辨识像对象的区域的种类独立方法。该出版物公开了针对该方法的主要步骤，它们是(1)从分层分割来生成如建筑物块的图像区域；(2)基于大小和边界强度从区域选择潜在的对象种子；(3)运行具有随机选择的种子的若干条件随机场(CRF)分割；以及(4)基于诸如边界概率、背景概率、与本地/全局背景的颜色/纹理直方图的交集等的特征来对区域进行排名。

根据一个实施例，为了在所返回的区域的大集合中找到最可能的像对象的区域，通过从每个图像获得前N(例如，N＝30)个最高评分的区域来形成第一候选池C。每个区域的分数包括两个部分：1)从“IanEndres,DerekHoiem:CategoryIndependentObjectProposals.ECCV(5)2010:575-588”的方法所返回的每个区域r的外观分数App_r；以及2)基于稀疏3D重构的每个区域r的可见度Vis_r。特别地，来自SfM的每个3D点具有大量的测量，其中每个测量表示在对应的视图上的它的可见度、2D位置和光照属性。因此，通过累计区域r包含的3D测量的数量来确定每个区域r的可见度。让P_r为具有在视图v中由区域r所包含的测量的3D点的集合。让n_p为针对每个3D点p∈P_r的测量的数量。区域r的可见度可以被确定为

{Vis}_{r} = 1 - \exp (- \frac{Σ_{p &Element; P_{r}} n_{p}}{| Σ_{p &Element; P_{r}} n_{p} |})

其中P表示所有3D点以及∑_p∈P_rn_p是所有3D点的平均可见度(测量的数量)。区域可见度的这个定义不仅考虑了(在视图v中)在区域r中的可见3D点的数量，而且考虑了每个3D点的整体可见度。总分数是每个区域的外观和可见度的和。

接着，通过在C中执行谱聚类，辨识像对象的区域的组，像对象的区域可以表示前景对象。为了执行聚类，首先，在所有区域r_i和r_j∈C之间确定成对的关联矩阵为

D (r_{i}, r_{j}) = \exp (- \frac{x^{2} (h_{a} (r_{i}), h_{a} (r_{j}))}{2 β})

(方程式1)

其中h_a(r_i)和h_a(r_j)分别是在预处理模块410中计算的r_i和r_j的特征向量，以及β是所有区域之间的平均X²距离。基于它包括的区域的平均分数对所有簇进行排名。在最高排名中的簇对应于最像对象的区域，但是也可以存在被添加到H的噪声区域。

整体外观模型

每个像对象的区域可以对应于来自特定图像的基本对象的不同部分，然而它们整体地描述基本对象。确定用于学习最可能的对象区域的外观的辨别模型。像对象的区域的初始集合H形成具有正标签的所有实例的集合(被表示为P)，而在正例的边界框外部随机采样负区域(N)。这种带标签的训练集用于学习针对两个种类的线性SVM分类器。分类器采用组合纹理和颜色特征的区域的特征作为输入，提供类成员的置信度。这个分类器然后应用于跨越所有图像的所有无标签的区域。在这个分类过程后，每个无标签的区域i被指配权重Yi，即SVM间隔(margin)。所有权重通过正间隔和负间隔的和，被正规化在-1和1之间。

生成多视图对象假设

整体对象模型对无标签的区域中的每个无标签区域提供告知性的但是独立的和不一致的预测，而不管由带标签区域和无标签区域两者所揭示的内在结构。为了生存鲁棒的多视图对象假设，采用图直推式学习方法，利用数据内的固有结构，多视图几何和来自整体对象外观模型的初始本地证据。图5a示出了源图像。图5b示出了来自SVM的每个区域的正预测。图5c说明了使用SVM预测作为输入的来自捕获视觉数据内的一致性的固有结构的图直推的预测。来自SVM的预测展现出不吸引人的不一致性，然而，使用它作为初始输入，图直推利用数据的内在结构给出平滑的预测，如在图5c中示出的。图5d说明了具有由亮度所指示的平均对象性值的生成的对象假设。

为了执行直推式学习，定义了加权图g_s＝(v，ε)，该加权图跨越所有视图，其中每个节点对应于区域，以及基于视图内和视图间的邻接，每个边连接两个区域。视图内邻接被定义为在相同视图中的区域的空间邻接，而基于来自预处理模块的重构的稀疏3D点的可见度来粗糙地确定视图间邻接。特别地，含有相同3D点的2D投影(2D特征点)的区域是邻接的。图6说明了使用从运动恢复结构(SfM)的稀疏3D重构和粗略的相机姿态。在含有相同3D点的2D投影的视图中的区域或像素被认为在图中是邻接的。

使用每个区域r_i的特征直方图表示h_ri的图的关联矩阵W为

W_{i j} = \exp (- \frac{x^{2} (h_{r_{i}}, h_{r_{j}})}{2 β})

其中β是所有邻接区域之间的平均卡方距离。因为对于移除标签噪声而言稀疏性是重要的并且半监督学习算法对于稀疏图更加鲁棒，因此如果r_i和r_j不是邻接的，则所有W_ij被设置为零。

图直推式学习将来自带标签的节点的标签信息传播到无标签节点。让节点度矩阵D＝diag([d₁,…,d_N])被定义为其中N＝|ν|。关于所有区域标签X，最小化能量函数E(X)。

E (X) = Σ_{i, j = 1}^{N} W_{i j} | \frac{X_{i}}{\sqrt{D_{i}}} - \frac{X_{j}}{\sqrt{D_{j}}} |^{2} + μ Σ_{i = 1}^{N} | X_{i} - Y_{i} |^{2}

(方程式2)

其中μ>0是正则化参数，以及Y是在有关技术中由先验知识所强加的节点的可取的标签。在(方程式2)中的第一项是平滑约束，其鼓励在邻接节点之间加标签的一致性，而第二项是拟合约束，其对加标签强加与初始标签指配相似。本实施例作为线性方程组来解决这种优化。关于X的微分E(X)：

\frac{\partial E (X)}{\partial X} |_{X = X^{*}} = X * - S X * + μ (X * - Y) = 0

表示则(I-(1-γ)S)X*＝γY。可以使用具有非常快速收敛的共轭梯度法来解出针对X的最优解。

来自SVM分类器的预测(-1≤Y≤1)用于指配Y的值。可以针对正标签和负标签分别执行扩散过程，其中在(方程式2)中的初始标签Y分别被替换为Y₊和Y_-：

和

实施例提出将像对象的区域和背景两者的扩散过程进行组合。利用像对象的区域和背景的互补属性，本实施例能够产生更高效和一致性的预测。如下来同时执行针对两个扩散过程的优化：

X*＝γ(I-(1-γ)S)^-1(Y₊-Y_-)

这使得更快速和稳定的优化而避免单独优化，同时给出针对个体正和负标签扩散的等价结果。最后，来自每个图像的被指配了标签X>0的区域被分组。特别地，最后标签X用于指示每个区域的对象性水平。最后的假设通过对空间上相邻的区域(X>0)进行分组来生成，以及指配由通过对由面积加权的逐构成区域的对象性X取平均的对象性值。每个帧具有最高对象性的分组的区域被添加到对象假设的集合P。在图5(d)中示出了所生成的对象假设的示例。

3.多视图分割

多视图分割被归结为向每个像素指配二进制值的像素-加标签的问题，二进制值分别表示背景或前景(对象)。通过连接空间上对应于相同3D稀疏点的像素来定义图，其与在先前部分(“对象假设提取模块”)中的基于区域的图的实例相似。参见图6，针对说明性的描述，其中图6示出了使用从运动恢复结构(SfM)的稀疏3D重构和粗略的相机姿态。图6说明了包括相同对象作为内容的多个图像610、620、630、640、650、660、670。像素600表示在多个图像610、620、630、640、650、660中的相同3D点611、621、631、641、651、661。在含有相同3D点的2D投影的视图中的区域或像素在图605中被认为是邻接的。与在直推式学习期间的先前图相对比，在这个图605中的节点中的每个节点是像素(例如600)而不是区域。能量函数被定义，使用图切割，其最小化以获得最优的加标签：

E (x) = \underset{i &Element; v}{Σ} ψ_{i} (x_{i}) + λ \underset{i &Element; v, j &Element; N_{i}}{Σ} ψ_{i, j} (x_{i}, x_{j})

其中N_i是在图中与像素i邻接的像素的集合，以及λ是参数。成对项ψ_i，j(x_i，x_j)惩罚被指配到相邻像素的不同的标签：

ψ_i，j(x_i，x_j)＝[x_i≠x_j]exp(-d(x_i，x_j))

其中[.]表示指示函数。函数d(xi；xj)计算邻近像素之间的颜色和边距离。

d(x₁,x_j)＝β(1+|SE(x_i)-SE(x_j)|)·||c_i-c_j||²

其中SE(x_i)(SE(x_i)∈[0，1])返回由结构化边(SE)检测器所提供的边概率，||c_i-c_j||²是在CIE实验室彩色空间中的两个邻接像素之间的平方欧式距离，以及β＝(2＜||c_i-c_j||²＞)^-1表示期望。

一元项ψ_i(x_i)定义向像素i指配标签x_i∈{0，1}的代价，通过将颜色分布和区域对象性进行组合，基于逐像素概率图来定义一元项ψ_i(x_i)。

ψ_{i} (x_{i}) = - l o g (w \cdot U_{i}^{c} (x_{i}) + (1 - w) \cdot U_{i}^{o} (x_{i}))

其中是颜色似然值以及是对象性提示。下面更详细地解释这两个项的定义。

为了建模对象和背景的外观，在CIE实验室颜色空间中估计两个高斯混合模型(GMM)。属于对象假设的集合的像素用于训练表示基本对象的GMM，而在对象假设的补足中的随机采样的像素被采用以训练针对背景的GMM。给定这些GMM颜色模型，每个像素的概率被定义为能够计算的将每个像素分别观察作为对象或背景的似然值。

提取的对象假设提供了区域属于基本对象(对象性)的可能性有多少的显式信息，其可以直接用于驱动最后的分割。每个像素的似然值被设置为与它属于的区域的对象性值(在章节“对象假设提取模块”中X)有关：

多视图分割结果提供具有分割的对象的图像，从不同的视角它是相同的对象。分割结果于是可以用于摄影，用于电影制作和游戏制作。

图7说明了作为流程图的方法的实施例。该方法包括：

-接收多个图像，其中多个图像包括与相同对象有关的内容710；

-预处理所述多个图像以形成针对图像中的每个区域的特征向量720；

-借助于特征向量来发现来自每个图像的像对象的区域730；

-根据像对象的区域来确定针对每个图像的对象外观模型740；

-借助于对象外观模型来生成对象假设750；

-分割多个图像中的相同对象以生成分割的对象760；以及

-根据分割的对象生成多视图分割770。

可以借助于计算机程序代码来实现本发明的各种实施例，该计算机程序代码位于存储器中并且使得有关装置实现本发明。例如，设备可以包括用于处理、接收和传送数据的电路和电子产品，在存储器中的计算机程序代码，以及处理器，当处理器运行计算机程序代码时，该处理器使得该设备实现实施例的特征。此外，如服务器的网络设备可以包括用于处理、接收和传送数据的电路和电子产品，在存储器中的计算机程序代码，以及处理器，当处理器运行计算机程序代码时，该处理器使得该设备实现实施例的特征。

本发明可以不局限于仅上述实施例，而是可以在所附权利要求书的范围内对它进行修改。

Claims

1.一种方法，包括：

-接收多个图像，其中所述多个图像包括与相同对象有关的内容；

-预处理所述多个图像以形成针对图像中的每个区域的特征向量；

-基于所述特征向量来发现来自每个图像的像对象的区域；

-根据所述像对象的区域来确定针对每个图像的对象外观模型；

-基于所述对象外观模型来生成对象假设；

-对所述多个图像中的所述相同对象进行分割以生成分割的对象；以及

-根据所述分割的对象来生成多视图分割。

2.根据权利要求1所述的方法，其中从多个相机设备来接收所述多个图像。

3.根据权利要求1所述的方法，其中所述预处理包括针对所述多个图像执行区域提取。

4.根据权利要求1所述的方法，其中所述预处理还包括在所述多个图像中执行从运动恢复结构的技术以重构稀疏三维，3D，点。

5.根据权利要求4所述的方法，其中所述发现包括：

-形成包括来自所述多个图像的预定数量的最高评分区域的池，其中区域的分数包括每个区域的外观分数和基于重构的稀疏3D点的区域的可见度；

-通过累计考虑中的区域所包含的3D点的数量，来确定区域的可见度；以及

-通过执行谱聚类来辨识表示前景对象的像对象的区域。

6.根据权利要求1至5中的任何一项所述的方法，其中生成所述对象假设包括：

-确定所述多个图像中的区域的对象性水平；

-将每个帧具有最高对象性水平的分组的区域添加到对象假设的集合。

7.根据权利要求1至5中的任何一项所述的方法，其中所述分割包括：

-确定属于对象的区域的似然值；以及

-基于所述似然值来分割所述对象。

8.一种装置，包括：

-用于接收多个图像的构件，其中所述多个图像包括与相同对象有关的内容；

-用于预处理所述多个图像以形成针对图像中的每个区域的特征向量的构件；

-用于基于所述特征向量来发现来自每个图像的像对象的区域的构件；

-用于根据所述像对象的区域来确定针对每个图像的对象外观模型的构件；

-用于基于所述对象外观模型来生成对象假设的构件；

-用于对所述多个图像中的所述相同对象进行分割以生成分割的对象的构件；以及

-用于根据所述分割的对象来生成多视图分割的构件。

9.根据权利要求8所述的装置，其中从多个相机设备来接收所述多个图像。

10.根据权利要求8所述的装置，其中所述装置还包括用于针对所述多个图像执行区域提取的构件。

11.根据权利要求8所述的装置，其中所述装置还包括用于在所述多个图像中执行从运动恢复结构的技术以重构稀疏三维，3D，点的构件。

12.根据权利要求11所述的装置，其中所述装置还包括：

-用于形成包括来自所述多个图像的预定数量的最高评分区域的池的构件，其中区域的分数包括每个区域的外观分数和基于重构的稀疏3D点的区域的可见度；

-用于通过累计考虑中的区域所包含的3D点的数量，来确定区域的可见度的构件；以及

-用于通过执行谱聚类来辨识表示前景对象的像对象的区域的构件。

13.根据权利要求8所述的装置，其中所述装置还包括：

-用于确定所述多个图像中的区域的对象性水平的构件；

-用于将每个帧具有最高对象性水平的分组的区域添加到对象假设的集合的构件。

14.根据权利要求8至13中的任何一项所述的装置，其中所述装置还包括：

-用于确定属于对象的区域的似然值的构件；以及

-用于基于所述似然值来分割所述对象的构件。

15.一种装置，其被配置为执行如权利要求1至7中的任何一项所述的方法。