CN105303519A

CN105303519A - 用于生成时间一致的超像素的方法和装置

Info

Publication number: CN105303519A
Application number: CN201510276382.5A
Authority: CN
Inventors: M.里索; J.贾查尔斯基; B.罗森哈恩
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2014-06-20
Filing date: 2015-05-27
Publication date: 2016-02-03
Also published as: EP2958077B1; US20150371113A1; US10176401B2; KR20150146419A; EP2958077A1; JP2016009488A

Abstract

用于生成时间一致的超像素的方法和装置。描述了一种用于生成图像序列的超像素的方法和装置。簇分配生成器(22)例如通过将第一图像的像素聚簇为超像素或者通过检索第一图像的初始簇分配并且仅对轮廓像素关于它们的簇分配进行处理来生成(10)图像序列中的第一图像的簇分配。标签传播器(23)使用反向光流基于标签传播来初始化(11)后续图像。然后，轮廓像素处理器(24)对于图像序列中的后续图像，仅对轮廓像素关于它们的簇分配进行处理(12)。

Description

用于生成时间一致的超像素的方法和装置

技术领域

本发明涉及用于生成视频序列的时间一致的超像素的方法和装置。更具体地，描述使用轮廓演化的用于生成时间一致的超像素的方法和装置。

背景技术

超像素算法表示用于范围广泛的计算机视觉应用(诸如视频分割、跟踪、多视图对象分割、场景流、室内场景的3D布局估计、交互式场景建模、图像解析和语义分割等)的非常有用并且日益普及的预处理步骤。将相似的像素分组为所谓的超像素导致图像基元的大幅减少。这导致后续处理步骤的增加的计算效率，允许在像素级别上的计算上不可行的更复杂的算法，并且为基于区域的特征创建空间支持。

超像素算法将像素分组为超像素。如在[1]中所指示的那样，超像素是局部的、相干的，并且保留以感兴趣的比例进行分割所需的大部分结构。超像素应当在大小和形状上是大致均质的。虽然很多超像素方法主要针对静止图像，并且因此当被应用于视频序列时仅提供有限的时间一致性或根本不提供时间一致性，但是一些方法针对视频序列[2][3]。这些方法开始处理时间一致性的问题。

超像素生成本身未必导致空间相干的超像素。因此，需要后处理步骤以确保在簇中所包括的像素的空间连通性，并且因此而确保超像素的空间连通性。此外，在[4]中陈述了在[5]中所提出的后处理方法将所隔离的超像素碎片(fragment)分配给任意邻近的超像素，而不考虑碎片与它们被分配给的超像素之间的任何相似度测度。在[4]中所提出的轮廓演化方法可以克服该缺点，往往以很高数量的迭代为代价。此外，它们往往关注于静止图像，并且因此留下时间一致性问题未解决。

发明内容

本发明的目的是提出一种用于生成与图像序列中的图像相关联的时间一致的超像素的改进的解决方案。

根据本发明，一种用于生成图像序列的时间一致的超像素的方法包括：

-生成所述图像序列中的第一图像的簇分配；

-使用反向光流(backwardopticalflow)基于标签传播来初始化后续图像；以及

-对于所述图像序列中的后续图像，仅对轮廓像素关于它们的簇分配进行处理。

相应地，一种被配置为生成图像序列的时间一致的超像素的装置包括：

-簇分配生成器，被配置为生成所述图像序列中的第一图像的簇分配；

-标签传播器，被配置为使用反向光流基于标签传播来初始化后续图像；以及

-轮廓像素处理器，被配置为对于所述图像序列中的后续图像，仅对轮廓像素关于它们的簇分配进行处理。

此外，一种计算机可读存储介质在其中存储能够生成图像序列的时间一致的超像素的指令，其中，所述指令在被计算机执行时使所述计算机：

-生成所述图像序列中的第一图像的簇分配；

-使用反向光流基于标签传播来初始化后续图像；以及

此外，一种计算机程序包括能够生成图像序列的时间一致的超像素的指令，其中，所述指令在被计算机执行时使所述计算机：

-生成所述图像序列中的第一图像的簇分配；

-使用反向光流基于标签传播来初始化后续图像；以及

所提出的解决方案针对在[6]中所描述的基于聚簇的超像素方法引入基于轮廓演化的策略。代替在聚簇期间处理视频容积(videovolume)中的所有像素，仅处理轮廓像素。因此，在每次迭代中，仅轮廓像素能够被改变，即被分配给不同的簇。其他像素保持它们的先前的分配。通过利用反向流信息传播最后的图像的轮廓来初始化进入视频容积的新图像。

在一个实施例中，生成所述图像序列中的第一图像的簇分配包括将所述第一图像的像素聚簇为超像素。

在另外的实施例中，生成所述图像序列中的第一图像的簇分配包括检索所述第一图像的初始簇分配并且仅对轮廓像素关于它们的簇分配进行处理。通过使用几何形状(例如可以是正方形、矩形或六边形)的图像的曲面细分(tessellation)来创建所述第一图像的初始簇分配。相同形状所覆盖的所有像素被分配给相同的簇。这最终得到初始簇分配。

提出一种用于视频序列上的超像素的完全基于轮廓的方法，其被表示在期望最大化(EM)框架中，并且生成空间相干并且时间一致的超像素。使用反向光流的高效标签传播鼓励在适当的时候保留超像素形状。

通过所提出的方法，一般无需后处理步骤来确保聚簇之后的空间相干性。同时，所生成的超像素示出高的边界/轮廓精度和高的时间一致性。此外，所述方法由于选择性处理而工作得相当快。所生成的超像素有益于范围广泛的计算机视觉应用，其范围从分割、图像解析到分类等。

为了更好地理解，现在将参照附图在下面的描述中更详细地解释本发明。要理解的是，本发明不限于该示例性实施例，并且还可以方便地组合和/或修改指定特征，而不脱离所附权利要求所限定的本发明的范围。

附图说明

图1示出具有时间一致性的超像素的示例；

图2示出两个超像素之间的5×5像素邻域；

图3示出到新的帧的超像素标签传播的可能的变型；

图4解释在通过光流传播全部超像素时出现的问题；

图5示意性地示出根据本发明的方法；以及

图6示意性地示出被配置为执行根据本发明的方法的装置。

具体实施方式

图1示出具有时间一致性的超像素的示例。在图1(a)图示原始图像的同时，在图1(b)中，执行视频的完全分割，并且超像素的子集在一个图像中被手动地选择并且具备用于可视化的灰度值。图1(c)示出在若干图像之后的相同子集。相同的灰度值意味着时间连通性。

为了更好地理解主要思想，下面首先针对静止图像简要地描述基于轮廓演化的方法，然后使用稍微不同的说明性方法将其扩展到视频。

针对静止图像的简要描述

对于基于聚簇的方法，图像的像素被看作多维特征空间中的数据点，其中每个维度对应于像素的色彩通道或图像坐标。超像素由该多维特征空间中的簇表示，并且每个数据点可以只分配给一个簇。该分配最终确定过分割(over-segmentation)，并且因此确定超像素生成。

为了使用完全基于轮廓演化的方法来找到该分配问题的最优解，定义能量函数E_total，其总计将轮廓像素分配给簇所需的能量E(n，k)：

其中，是图像中的轮廓像素的集合，是与轮廓像素n以及轮廓像素n所分配到的簇相邻的簇的集合。能量E(n，k)可以进一步精细化为色差(color-difference)相关的能量E_c(n，k)和空间距离相关的能量E_s(n，k)的加权和：

E(n，k)＝(1-α)E_c(n，k)+αE_s(n，k)

能量E_c(n，k)直接与轮廓像素n和所选取的色彩空间中的簇k的色彩中心之间的欧几里德距离成比例。同样地，E_s(n，k)与n的空间位置和簇k的中心的空间位置的欧几里德距离成比例。为了使结果独立于图像大小，用因子来调整(scale)空间距离，其中，|·|是集合中的元素的数量，是图像中的所有像素的集合，是图像中的所有簇的集合。通过参数α，用户可以操纵分割结果操控，使其更紧凑或者对于精细粒度的图像结构更敏感。对于簇的给定数量和用户定义的α，可以通过找到使E_total最小化的簇的群集(constellation)来确定就能量而言的最优过分割。

通过应用收敛到局部最优解的迭代Lloyd算法来求解分配问题。在空间的子空间中，例如将簇初始化为均匀分布的、不重叠的矩形或正方形。为了使得能量项E_total最小化，该算法迭代两个交替步骤：分配步骤和更新步骤。在分配步骤中，每个轮廓像素n被分配给簇其中，给定集合能量项E(n，k)具有其最小值。非轮廓像素的其他像素保持它们的分配。基于所述分配，簇中心的参数在更新步骤中通过计算它们的所分配的像素的平均色彩和平均位置来重新估计。当检测到在分配步骤中的没有改变或已经执行了最大数量的迭代时，迭代停止。

轮廓像素n是具有被分配给不同簇的至少一个相邻像素的像素。所有轮廓像素的集合是集合的(小的)子集。轮廓像素n被分配到的簇以及相邻像素的所有簇形成集合

为了最小化用于在分配步骤中遍历(traverse)图像的不变的扫描次序所产生的偏差，应当随着每次迭代而改变。可能的扫描次序例如是从左到右并且从上到下、从右到左并且从上到下、从左到右并且从下到上、从右到左并且从下到上。

因为考虑和(而非和)来确定E_total，所以处理负荷显著减少。

用于视频的方法

如在开始所指出的那样，超像素算法将共享相同的低级别特征(例如色彩或纹理)的空间相干的像素分组为近似相同的大小和形状的小片段。因此，一个重要且固有的约束是：超像素的边界应当符合存在于图像中的主要对象边界。对主要对象边界的这种捕捉对于在初始超像素分割时所构建的图像或视频分割是相当重要的。此外，对于对视频内容的超像素分割，需要捕捉连续图像中的超像素之间的时间连通，以便实现可以被利用于例如跟踪或视频分割这样的应用的一致标签。

如上所述，在此所描述的方法扩展标题为时间一致的超像素(TemporallyConsistentSuperpixels，TCS)的在[6]中所描述的方法。为了更好地理解，下面将简短地概述TCS的主要思想。

通常，TCS对被分离为全局色彩子空间和多个局部空间子空间的多维特征空间利用混合聚簇策略来对视频容积执行能量最小化聚簇。

更具体地，在TCS中使用的能量最小化框架基于包含CIE-Lab-色彩空间中的三个色彩值[lab]和像素坐标[xy]的像素的五维特征向量[labxy]对像素进行聚簇。为了捕捉连续图像中的超像素之间的时间连通，在跨越K个图像的观察窗口上执行聚簇。以下面的方式实现分离的特征空间。表示一个时间超像素的每个簇中心包括完整的观察窗口的一个色彩中心以及多个空间中心(针对观察窗口中的每个图像有一个)。基础假设是：时间超像素应当共享连续图像中的相同色彩，但是未必共享相同位置。

对于沿着时间线移位的观察窗口，获得簇中心的最佳集合Θ_opt以及在观察窗口内部的像素到这些簇中心的映射σ_opt。因此，定义能量函数，其总计将在图像k中的位置x，y处的像素分配给簇中心θ∈Θ_opt所需的能量。这里，将这种分配或映射记为σ_x，y，k。

E_{total} = \underset{k}{Σ} \underset{x, y}{Σ} (1 - α) E_{c} (x, y, k, σ_{x, y, k}) + α E_{s} (x, y, k, σ_{x, y, k}) .

分配所需的能量是依赖色彩的能量E_c(x，y，k，σ_x，y，k)与空间能量E_s(x，y，k，σ_x，y，k)的加权和。两个能量项分别与色彩空间和图像平面中的欧几里德距离成比例。通过加权因子α来控制色彩灵敏度与空间紧凑性之间的折衷，加权因子α的范围在0(完全色彩敏感)和1(完全紧凑)之间。使用可以被看作期望最大化(EM)方法的迭代优化方案对能量函数进行最小化。

在迭代l+1的E步骤(期望步骤)中，确定最佳映射的新的估计(这里记为)，其基于在迭代l的M步骤(最大化步骤)中计算出的簇中心的最佳集合的估计将E_total最小化。

之后，通过计算所分配的像素的平均色彩和平均空间值，给定更新的映射，在迭代l+1的M步骤中，更新最佳簇集合的估计两个步骤交替继续，直至能量E_total降到特定界限之下或执行了固定数量的迭代为止。在针对TCS提出的混合聚簇中，在优化期间，只重新分配观察窗口中的K_F＜K个最将来(mostfuture)的图像。对于剩余的K-K_F个图像，保持所确定的映射，以便保留所找到的色彩聚簇。

观察窗口沿着视频容积移位，并且进入观察窗口的新图像被初始化，如下面更详细地描述的那样。为了确保所生成的时间一致的超像素的空间相干性，应用基于轮廓的后处理步骤。

重温TCS的思想，进行以下两个观察：(a)为了实现更高的运行时间性能，初始对簇进行能量最小化和进行基于轮廓的后处理是分离的步骤。(b)通过只将前面图像的空间中心投影到新图像中来初始化被添加到观察窗口的新图像。因此，至少部分地丢弃了之前在图像中所获得的形状信息。

与TCS相反，只针对超像素的轮廓(或边界)处的像素(所谓的轮廓像素)优化所提出的方法的能量函数E_total。位置x，y处的轮廓像素在其4连通邻域中具有至少一个像素被分配给不同的簇(即，时间超像素)或者未分配。下面详细地描述未分配的像素的出现以及它们的处理。此外，可以只将轮廓像素的分配改变到中的像素的簇之一。优化的E步骤表示为：

其中，是在帧k中的在迭代步骤l之后的轮廓像素的集合。针对观察窗口中的K_F个最将来的图像进行优化。M步骤保持未修改。如果对于轮廓像素没有另外的分配改变或者如果已经达到迭代的最大数量，则优化可以终止。

除了以上的描述之外，还存在两个约束。首先，只在确保超像素的空间相干性的情况下进行分配改变。该约束防止在优化期间拆分出时间超像素的碎片，如图2所示。三个子图示出两个超像素(亮灰色和暗灰色)之间的5×5像素邻域。如果居中的像素((b)中的中等灰色)改变其分配，则在其右边的两个像素失去到亮灰色的超像素的连通，并且因此它们将从主体(mainmass)中拆分出(如(c)中示例所示)。因此，在像这些情况下不执行分配改变。

其次，如果轮廓像素是未分配的，则基于将其分配给其相邻像素之一的簇。因此，不再需要在TCS中所需的确保空间相干性的另外的后处理处理步骤，并且可以将其省略。虽然尤其是第一约束在一定程度上限制了如何可以使时间超像素适配于视频内容的灵活性，但是实验证明其对分割精度没有负面影响。

如上所述，TCS仅通过将空间中心投影到进入观察窗口的新图像中来初始化新图像。因此，在分配给簇的所有像素上所确定的密集光流的加权平均被用于投影。尤其是对于具有均质的色彩或结构的图像区域，这可能导致超像素随着图像的不稳定的定位。取决于依赖超像素分割的应用，这可能是并不想要的效果。为了克服该问题，一种解决方案是将超像素的形状传递给要被初始化的新图像。这有助于保留在先前图像中所获得的形状信息以及超像素群集，因为其至少是用于EM框架中的下次优化的开始。

存在若干方式来实现新图像的这种初始化。一种方式是使用平均光流(meanopticalflow)的完整超像素标签的移位，如图3(a)中所示。替代方式是使用针对超像素中的每个像素所预测的密集光流(denseopticalflow)。从而，将超像素标签投影到新图像中，如图3(b)所示。这两种选项具有以下缺点：如果被投影到新图像中的两个超像素重叠，则至少需要检测这种冲突。此外，例如在相邻超像素被彼此远离地投影的情况下，可能在图像中存在必须被初始化的未分配的部分。在图4中例示这两种情况，图4示出划开的超像素标签(亮灰色条)和重叠区域(黑色)，并且以相同方式应用于通过密集光流进行的像素的移位。

为了回避这些问题，提出使用从进入观察窗口的图像k+1到窗口中的前面图像k的所计算出的密集光的反向流。图3(c)中示出该方法。针对水平和垂直方向将光反向流分量u和v取整到最近的整数并且修剪(clip)指向有效图像区域外部的分量，被记为的到新图像k+1的簇中心的像素的初始映射可以如下面那样地从图像k的L次迭代之后的先前的映射来得出：

{\hat{σ}}_{x, y, k + 1}^{init} = {\hat{σ}}_{x + u, y + v, k}^{L} .

该方法解决了上述问题，并且得到每个像素的明确的标签。所留下唯一问题(对于前向光流也存在)是：所投影的超像素可能是碎裂的(fragmented)，即它们不是空间相干的。在超像素碎裂的情况下，确定最大的碎片，而其他碎片被设置为未分配并且在优化的E步骤中处理，因为它们是轮廓像素的一部分。

在[6]中，引入了探试(heuristic)以面对视频容积中的结构改变，例如遮挡(occlusion)、去遮挡(disocclusion)以及对象接近相机和缩放。基于超像素大小的线性增长假设，做出拆分或终止时间超像素的决定。此外，执行单独的平衡步骤，以保持每个帧的超像素的数量不变。为了简化超像素的处理，引入超像素大小的上界和下界，由此用单个步骤来代替这两个步骤。拆分在优化之后大于上界的超像素，而终止在优化之后小于下界的超像素。因此，这些界限耦合到用户初始指定的超像素的数量。因此，用户分别定义每个图像的超像素的最小数量N_min和最大数量N_max。基于此，如下那样地得出上、下界，即A_low和A_up：

A_{low} = \frac{| P |}{N_{\max}}

以及

A_{up} = \frac{| P |}{N_{\min}}

其中，|P|是每个图像的像素的数量。在该实现方式中，将超像素的数量指定为N，并且N_min和N_max分别被设置为和2N。

为了概述所提出的方法，将混合聚簇方案扩展为在分配步骤中仅处理滑动窗口的易变(mutable)图像中的轮廓像素。滑动窗口的易变图像是当前图像和将来图像。

以下面的方式来初始化进入滑动窗口的新图像。在要进入滑动窗口的新图像与滑动窗口中的最后的图像之间，计算反向流。基于该反向流，针对新图像中的每个像素，确定最后的图像中的对应像素。然后，将新图像中的每个像素分配给最后的图像中的对应像素被分配到的相同的簇。所留下的唯一问题是：所投影的超像素可能是碎裂的，即它们不是空间相干的。在碎裂的超像素的情况下，确定最大的碎片，并且将属于其他碎片的像素设置为未分配。在优化的E步骤中处理未分配的像素。

只在确保超像素的空间相干性的情况下进行分配改变，从而防止在优化期间拆分出时间超像素的碎片。此外，将任何未分配的轮廓像素分配给其相邻像素之一的簇。因此，不需要另外的后处理步骤来确保空间相干性。

即使在具有不同种类的相机移动、非刚性运动和运动模糊的数据集合上，包括用于初始化的轮廓传播的视频容积上的基于轮廓演化的聚簇也导致高的时间一致性和高的边界/轮廓精度。此外，由于选择性处理(在分配步骤期间仅处理轮廓像素)，实现有竞争力的运行时间性能。

在图5中示意性地示出根据本发明的用于生成图像序列的时间一致的超像素的方法。在第一步骤中，例如通过将第一图像的像素聚簇为超像素，或者通过检索第一图像的初始簇分配并且仅对轮廓像素关于它们的簇分配进行处理，为图像序列中的第一图像生成10簇分配。使用反向光流基于标签传播来初始化11后续图像。然后，对于图像序列中的后续图像，仅对轮廓像素关于它们的簇分配进行处理12。

图6示意性地示出根据本发明的用于生成图像序列的时间一致的超像素的装置20。装置20包括用于接收图像序列的输入21。簇分配生成器22例如通过将第一图像的像素聚簇为超像素，或者通过检索第一图像的初始簇分配并且仅对轮廓像素关于它们的簇分配进行处理，为图像序列中的第一图像生成10簇分配。标签传播器23使用反向光流基于标签传播来初始化11后续图像。然后，轮廓像素处理器24对于所述图像序列中的后续图像，仅对轮廓像素关于它们的簇分配进行处理12。优选地，使所得到的超像素在输出25处可用。当然，装置20的不同单元22、23、24同样可以完全或部分地组合成单个单元或者实现为在处理器上运行的软件。此外，输入21和输出25同样可以形成单个双向接口。

参考

[1]X.Ren等人：“Learningaclassificationmodelforsegmentation”，2003IEEEInternationalConferenceonComputerVision(ICCV)，10-17页；

[2]O.Veksler等人：“SuperpixelsandSupervoxelsinanEnergyOptimizationFramework”，Proceedingsofthe11thEuropeanconferenceonComputervision:PartV(ECCV'10)(2010年)，211-224页；

[3]A.Levinshtein等人：“SpatiotemporalClosure”，Proceedingsofthe10thAsianconferenceonComputervision:PartI(ACCV'10)(2010年)，369-382页；

[4]A.Schick等人：“MeasuringandEvaluatingtheCompactnessofSuperpixels”，21stInternationalConferenceonPatternRecognition(ICPR)(2012年)，930-934页；

[5]R.Achanta等人：“SLICsuperpixelscomparedtostate-of-the-artsuperpixelmethods”，IEEETransactionsonPatternAnalysisandMachineIntelligence，卷34(2012年)，2274-2282页；

[6]M.Reso等人：“TemporallyConsistentSuperpixels”，2013IEEEInternationalConferenceonComputerVision(ICCV)，385-392页。

Claims

1.一种用于生成图像序列的时间一致的超像素的方法，所述方法包括：

生成(10)所述图像序列中的第一图像的簇分配；

使用反向光流基于标签传播来初始化(11)后续图像；以及

对于所述图像序列中的后续图像，仅对轮廓像素关于它们的簇分配进行处理(12)。

2.如权利要求1所述的方法，其中，生成(10)所述图像序列中的第一图像的簇分配包括将所述第一图像的像素聚簇为超像素。

3.如权利要求1所述的方法，其中，生成(10)所述图像序列中的第一图像的簇分配包括检索所述第一图像的初始簇分配并且仅对轮廓像素关于它们的簇分配进行处理。

4.如前述权利要求之一所述的方法，其中，只在确保所述超像素的空间相干性的情况下进行像素的分配改变。

5.如前述权利要求之一所述的方法，其中，在超像素碎裂的情况下，确定所述超像素的最大碎片，并且将属于所述超像素的剩余碎片的像素设置为未分配。

6.如权利要求5所述的方法，其中，将任何未分配的像素分配给其相邻像素之一的簇。

7.如前述权利要求之一所述的方法，还包括拆分大于上界的超像素以及终止小于下界的超像素。

8.如权利要求7所述的方法，其中，从每个图像的像素的数量以及每个图像的超像素的最小和最大数量分别确定所述上界和所述下界。

9.一种被配置为生成图像序列的时间一致的超像素的装置(20)，其中，所述装置(20)包括：

簇分配生成器(22)，被配置为生成(10)所述图像序列中的第一图像的簇分配；

标签传播器(23)，被配置为使用反向光流基于标签传播来初始化(11)后续图像；以及

轮廓像素处理器(24)，被配置为对于所述图像序列中的后续图像，仅对轮廓像素关于它们的簇分配进行处理(12)。

10.一种计算机可读存储介质，其中存储能够生成图像序列的时间一致的超像素的指令，其中，所述指令在被计算机执行时使所述计算机：

生成(10)所述图像序列中的第一图像的簇分配；

使用反向光流基于标签传播来初始化(11)后续图像；以及

11.一种包括能够生成图像序列的时间一致的超像素的指令的计算机程序，其中，所述指令在被计算机执行时使所述计算机：

生成(10)所述图像序列中的第一图像的簇分配；

使用反向光流基于标签传播来初始化(11)后续图像；以及