CN101366058A

CN101366058A - 分段图像元素

Info

Publication number: CN101366058A
Application number: CNA2007800021063A
Authority: CN
Inventors: A·阿加瓦尔; A·布莱克
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-01-10
Filing date: 2007-01-04
Publication date: 2009-02-11
Anticipated expiration: 2027-01-04
Also published as: WO2007081784A1; KR20080092353A; CN101366058B; EP1806697A1; US20090003687A1; US8249333B2; EP1806697B1

Abstract

描述了一种将图像元素分段成前景和背景方法，使得仅仅前景元素是用于立体匹配所关注容量部分。这与在整个图像上计算立体匹配相比减少了计算负担。使用概率性框架来定义能量函数，并且该能量函数被逼近以要求仅在前景视差上的计算。最优化算法用于能量函数以执行分段。

Description

分段图像元素

技术领域

本发明一般涉及分段图像元素，特别涉及，但不限于，在计算机视觉中分段图像元素以限制用于立体匹配的关注容量。

发明背景

立体匹配是匹配立体图像对中相应像素或其它图像元素的问题。立体图像对包括同一场景的左图像和右图像，但其中这些图像是从不同观看位置(诸如在人类视觉场合下左眼和右眼)获得的。如果叠加左图像和右图像，左图像和右图像中对应像素(对应于被观看场景中相同位置的像素)间的距离被称为视差。该视差值提供了关于观看者离被观看场景中与匹配特定像素相对应点的相对距离的信息。在稠密立体场合下，即其中图像对中的所有像素都得匹配，匹配所有这些像素的任务在计算上是昂贵的，因为像素的可能组合数是巨大的。在稀疏立体的场合下，即其中诸如线、边、和更高阶特征的较大图像元素被匹配，可能的组合数减少了但计算仍是相当昂贵的。本发明具体地与稠密立体领域有关，虽然潜在地也可适用于稀疏立体的应用。

在人类视觉方面，立体视觉在被称为Panum融合带的特定视差范围上操作。该带中的点被视觉上融合且其余的点则被看作为“双像的(diplopic)”，即具有双重视觉。Panum融合带可具有的视差范围小至视觉点的视差全容量程的二十分之一。

本发明涉及用有限的深度或等效视差范围将立体匹配的计算限制到所关注容量的各种方法，

本发明寻求提供一种将图像元素分段成前景和背景的方法，使得仅前景元素是立体匹配所关注容量的一部分。

发明概述

下面提供本揭示的简化概述以便为读者提供基本的理解。本概述不是本公开的广泛综述，不标识本发明的关键/决定性元素也不描绘本发明的范围。其唯一目的是以简化形式介绍在此揭示的一些概念作为稍后提供的更详细描述的序言。

描述了一种将图像元素分段成前景和背景的方法，使得只有前景元素才是用于立体匹配所关注容量部分。这与在整个图像上计算立体匹配相比减少了计算负担。使用概率性框架定义能量函数且该能量函数被逼近位于前景区域。对能量函数使用最优化算法以执行分段。

本发明提供一种将立体图像对的每一图像中的图像元素分段成至少为前景和背景两段的方法。本方法包括如下步骤：

·定义用于概率性立体匹配的能量函数；

·逼近该能量函数以获得仅在前景视差上的计算；以及

·对所逼近的能量函数使用最优化算法以实现分段。

在另一示例中，提供相应的系统用于将立体图像对的每一个图像中的图像元素分段成至少为前景和背景两部分。该系统包括：

·被安排成接收该立体图像的输入；

·存储用于概率性立体匹配的能量函数的定义的存储器，该能量函数被逼近以获得在前景视差上的计算；以及

·被安排成对应用于立体图像的经逼近的能量函数执行最优化计算以实现分段的处理器。

较佳地该能量函数包括一空间相干能量项，使得空间相干较佳地位于前景和背景段的每一段中。

较佳地能量函数包括各先验惩罚，该惩罚在图像对比度高于阀值时被抑制.这促进对比度高的边界。也就是说，实现将图像中分段边界与高对比度轮廓线对齐的一种倾向。

较佳地能量函数包括一色彩项，该项能促进前景中图像元素色彩的一致性.

较佳地能量函数包括一项，该项促使前景中图像元素的视差高于背景中图像元素的视差。

较佳地能量函数包括一立体匹配似然函数项，该项至少部分基于前景的立体匹配似然以及背景的立体匹配似然的逼近。

在一个实施例中，背景的立体匹配的似然通过用常数替代它而被逼近。

在另一个实施例中，背景的立体匹配似然是以仅有立体图像对之一被用于另一立体图像的代理中为基础而被逼近。例如，该代理是自相关类型代理。

较佳地该方法包括计算匹配得分以检测何时立体信息是模糊的。

有利地本方法还包括在前景图像元素上执行立体匹配。这能使得立体操作能在所关注容量内进行，在该容量上融合，而在其它地方具有双像视觉。从而实现立体匹配计算的实质性节约。

本发明还包括一包含计算机程序代码装置的计算机程序它，当所述程序在计算机上运行时适于执行上述任一方法的所有步骤。这一计算机程序可在计算机可读介质上具体化。

该方法可由存储介质上的计算机可读形式的软件来执行，该软件可适于在并行处理器或串行处理器上执行，使得该方法的各步骤可以按合适次序或同时展开。

这就承认软件能够是有价值的、可以单独交易的商品。它旨在包含运行于或者控制“哑(dumb)”或者标准的硬件以实现期望的功能的软件，(并因此软件本质上定义了寄存器的功能，并且因此可以被叫做寄存器，即使是在它与其标准硬件结合之前)。出于类似的理由，还旨在包含“描述”或者定义硬件配置的软件，诸如HDL(硬件描述语言)软件，当被用于设计硅芯片，或者用于配置通用可编程芯片以实现期望的功能那样。

通过结合附图参考下面的详细描述对本发明特点的更好了解将更容易正确评价本发明具有的许多特点。

附图说明

结合附图阅读下列述详细描述将更好地理解这一描述，在附图中：

图1是用于分段立体图像的一系统的示意图；

图2是匹配的立体图；

图3是分段图像元素方法的流程图；

图4是一种使用图1系统分段图像元素并包括计算视差的方法的流程图。

附图中相似的标号用于指示相似的部分。

详细描述

下面结合附图提供的详细描述旨在作为对本示例的描述，而非表示用于解释或利用本示例的唯一形式。该描述阐述本示例的功能以及用于构造和操作本示例的步骤序列。然而，相同或等价的功能与序列可由不同的示例来完成。

如上所述，本发明涉及在其中将立体匹配计算限制到所关注容量且带有有限的深度范围或等效视差的各方法。我们发觉用常规的稠密立体算法简单地减少可用于匹配的视差范围在可用视差范围内给出了良好的结果，但是在该范围之外常规算法则产生随机视差值。因而例如，图像前景中的人像(诸如关于视频会议应用)被融合并具有良好的立体匹配。然而场景的背景区域含噪声并与随机视差值不相干。结果这一处理的输出(视差范围有限的常规立体匹配算法)对许多应用诸如视频会议应用、计算机视觉应用和机器人应用是无用的。我们所使用的这一特定常规稠密立体算法在本文中被称为KZ和BVZ，其中KV在V.Kolmogorov和R.Zabih发表于2001年计算机视觉国际大会会报上的“具有使用图形切割的遮挡的计算机视觉对应性”(V.Kolmogorov and R.Zabih.Computing visual correspondenceswith occlusions using graph cuts.In Proc.Int.Conf.on computer Vision，2001)中有所描述，而BVZ在Y.Y.Boykov、O.Vekslen，和R.D.Zabih发表于2001年IEEE会刊图案分析和机器智能23(11)上的“通过图形切割快速逼近能量最小化”(Y.Y.Boykov，O.Veksler，and R.D.Zabih.Fastapproximate energy minimization via graph cuts.IEEE Trans，on PatternAnalysis and Machine Intelligence，23(11)，2001)中有所描述。因而我们认识了在立体图像对中找到其视差落在所需范围或所关注容量内的这些像素的可靠识别的问题。同样地，我们不要求用实际值来指定所需视差范围，因为所关注范围将依赖于被观看的特定场景而变化。相反地，我们要求将立体对中的图像分段成前景和背景，其中前景包括了感兴趣的特定视差范围。然而，如下更详细解释的，在我们的算法中“前景”还受其它因素的影响。这里我们还使用术语“Panum融合带”来指前景区域中的一个示例。Panum融合带是在一视觉模式中由观众感知为融合而非双像且被经验性确定的视差范围。

图1是用于将立体图像对13、14每一图像中的图像元素分段成至少两段的系统10的示意图。这些立体图像示意地表示为在背景的前方有一个“小棍”人。可以看出小棍人的像在每种情况下离图像中心位移一个量d。这一量d如上所述被称为视差且给出了小棍人离观看者的相对距离或深度的指示。可以认为本系统的目的是将立体图像对13、14的每一图像分段成如图1所示的虚线区域。然后可仅对虚线区域内的像素或其它图像元素而非对整个图像执行立体匹配算法。虚线内的区域被称为示例前景而虚线外的区域被称为示例背景。然而前景和背景的连接段并非实质性的。这些段可以被表示为概率分布，正如以下要更详细解释的那样。该系统具有被安排为接收立体图像对13、14的输入；存储用于概率性立体匹配的能量函数的定义的存储器11，该能量函数被逼近以获得仅在前景视差上的计算；以及处理器12，被安排为对应用于立体图像的经逼近的能量函数执行最优算法以实现分段。系统输出或者简化分段的结果，或者在另一示例中，可在分段后或者与分段平行地在前景上执行立体匹配。在该情况下，输出被示意地示为单个图像15，带有由虚线包围的区域所指示的经融合前景段以及双像的背景。图2更清晰地示出了这一结果。图2示出了由本算法导致的一匹配的立体图并示出了对前景融合而其它部分双像(复视)。

图3是一种使用图1系统分段图像元素的方法的流程图。定义一能量函数(见图3框30)用于概率性立体匹配；该能量函数被逼近以获得仅在前景视差上的计算(见图3框31)；以及对逼近的能量函数使用最优化算法以实现分段(见图3框32)。可使用任何合适的最优化算法，诸如分层图形切割算法。

图4是一种使用图1系统的分段图像元素的方法且给出更多细节的流程图。如参考图3所解释的，我们定义了用于概率性立体匹配的能量函数。该能量函数具有立体似然项，其包括计算前景中视差的似然(见图4框40)以及合计这些似然以计算在有前景匹配的每一点处的总似然(见框41)。这些立体似然项还包括与背景中的各立体似然相关的一分量。然而关于背景点的信息无法用于该过程，因为我们以省略对前景外的任何计算的需要为目的。替代地，我们估计或逼近背景似然(见框42)。该估计可以任何合适方式完成，例如，可使用立体图像之一作为其它立体图像的代理。我们然后在最优化算法中使用真实背景似然并估计的背景似然来实现分段(见框43)。可任选地，我们随后可仅对前景区域使用任何合适的算法执行立体匹配(见框44)。

如上所述我们的处理方法以用于立体匹配的概率性框架为基础，且如下将针对一特定示例进行详细描述。

为了使前景受其它因素以及视差范围的影响，我们将一些项并入能量函数。例如，我们并入空间相干或空间对比度项，作用是促进前景或背景中的几何相干或其它约束。例如，该项并入了来自由水平、垂直和对角像素邻元组成的团(clique)的影响并考虑了沿核线(epipolar line)的团。可任选地，我们还并入用于促进高对比度边界的项。这在一个示例中通过定义在高图像对比度被抑制的先验惩罚来实现。

可任选地我们还并入一些项用于促进在前景或背景图像中的色彩一致性以及用于促进与背景相比在前景中的高视差。

如上所述，我们的目的是避免超出前景视差范围(或所关注容量)外的任何计算。因而我们无法计算用于能量函数的真实背景立体匹配似然。作为替换，我们估计或逼近这些背景立体匹配似然。

在一个实施例中，这通过使用简单阀值作为背景似然的代理来实现。这种方法在许多情况下产生了可使用的结果。

在另一个实施例中，我们使用立体图像之一作为其它立体图像的代理。例如，一个图像用作另一图像的自相关类型代理。例如，左图像的自相关被用作左图像与右图像互相关的代理。

在某些情况下，输入到图1系统10的立体图像包括模糊的立体信息，例如在有很小对比度边界的无纹理区域存在的情况下。在这种情况下，我们发觉当估计背景似然时难以使用自相关类型代理。因而我们引入一测试来标识其中图像位置具有模糊立体信息的情形。在这些情况下，我们省略对背景似然的估计并依赖于能量函数中的其它项(诸如空间相干项)来执行分段。任何合适的匹配得分测试可用于标识这些情况。例如，在较佳实施例中我们使用峰度测试。

现在详细讨论本发明的一个特定实施例。

首先概要地介绍概率性立体匹配所用的标记。

在经校正的左图像和右图像中的像素分别为L＝{L_m}和R＝{R_n}，且我们将这两个图像共同表示为z＝(L，R)。左像素和右像素由任何特定的匹配路径相关联。立体“视差”是d＝{d_m，m＝0,...，N}且视差仅简单地与图像坐标有关：d_m＝m-n。

在显式处理遮挡的算法中，状态变量x的数组x＝{x_m}，根据该像素是否匹配或遮挡取值x_m∈{M，O}。

这为核线匹配空间中的路径设定记法，即视差和状态的序列((d₁，x₁)，(d₂，x₂)，...)。可以在给定图像数据z时对在一起取得并标记为(d，x)的所有核极(epipolar)路径上的后验定义Gibbs能量(见附录1中的式1a)。式1a中的最后两个参数分别与后验中的先验和似然项相关。随后可将吉布撕能量全局最小化以获得分段x和视差d。

将用于后验分布p(x，d|z)的贝叶斯模型设为先验和似然函数的积：见附录1的式2

先验分布在附录1的式3中给出。

在关注易处理性时，这一模型常常被分解为马尔可夫模型。用于(x，d)的MRF(马尔可夫随机场)先验被指定为在左图象中被认为是邻元的所有像素对上的所有团的势能之积。选择该势能以促进在遮挡上的匹配，对沿核线的视差加以限制，并促进邻接核线对中匹配路径间的形象连续性。

立体似然在附录1的式4中给出，其中在附录1的式5给出在像素方面的负对数似然函数比(匹配对非匹配)且其中M(...)是对两个面片之间匹配优度的一种适当度量，常基于归一化差值平方和(SSD)或相关得分。

在一具体实施例中，我们通过对立体似然的边缘化来使用分层图形切割(LGC)算法用于分段。分层图形切割算法在V.Kolmogorov、A.Criminisi、A.Blake，G.Cross和C.Rother发表于2005年计算机视觉和图案识别大会会刊上的双目立体视觉的双层分段(V.Kolmogorov，A.Criminisi，A.Blake，G.Cross，and c.Rother，＂Bi-layer segmentation of binocular stereo video＂，in Proc.Conf.Computer Vision and Pattern Recognition，2005)中有所描述。我们逼近分层图形切割算法的能量函数以停留在前景中。

对于LGC，匹配的状态M被进一步细分为前景匹配F和背景匹配B。LGC确定分段x为能量函数的最小值，其中立体视差不明确出现。替代地，立体匹配似然(见附录1或4)对视差边缘化，总计来自每个假定的匹配的支持，以给出x中出现的三个标记类型：前景、背景和遮挡(F，B，O)中每一个的似然。分段因而是三元问题，并且能够通过迭代二元图形切割算法的应用来(逼近地)解决，通过所谓α-扩展(在Y.Y.Boykov、O.Vekslen，和R.D.Zabih发表于2001年IEEE会刊图案分析和机器智能23(11)上的“通过图形切割快速逼近能量最小化”中有所描述)可被扩充为多标记问题。用于LGC的能量函数由两项组成，如附录1中的式6所示。这两项代表了用于空间相干/对比度和立体似然的能量。

相干能量是在团上对具有势能系数F_m，m′的成对能量求和，F_m，m′现被如下定义。团由像素正方形栅格上的水平、垂直和对角邻元组成。对于垂直和对角团，其起到一开关作用，以活动地转移进走前景状态：若变量x，x′之一正好等于F，则F_m，m′[x，x′]＝γ；而其它情况下，F_m，m′[x，x′]＝0。水平团沿核线继承相同的费用结构，除了某些转移在几何基础上不被允许之外。如附录6b所示，经由无限费用惩罚强加这些约束。

图像中分段边界与高对比度的轮廓线对齐的趋势可通过定义先验惩罚F_k，k′实现，该先验惩罚在图像对比度高处被抑制，将它们乘以折扣因子

，其中只要对比度跨越(L_m，L_m′)较高就用ε/(1+ε)的折扣因子来抑制惩罚。我们发觉ε＝1趋向于给出最佳结果，虽然对ε的精确值的敏感性是相对温和的。

在附录1式6中的其余项辅捉立体匹配似然对特定分段概率的影响。它被定义为附录1中的式7(还可见附录1的式8至12)。

由于分布p(d_m＝d|x_m＝F)在Panum融合区外被定义为0，它在Panum假设下，完全可能计算式12中的前景似然。然而，对于背景似然则并非如此(见附录1的式13)，因为相应的求和完全在视差的Panum带D_F之外，因为p(d|B)仅在Panum带外非零。因此，每个像素将不得不与右图像中的不可得到的像素进行比较，因为它们处在带外。

一个简单阀值作为背景似然的代理

在一个示例中我们将背景似然函数逼近为一阀值。这涉及将问题作为全新检测处理。从这方面，我们有一个模型用于正值类，而没有背景类的模型。然后似然比分类器(见附录1式14)被简化为一阀值规则，用常数θ替代背景似然。

导出逼近似然

我们假设p(d|F)在Panum带上是均匀的，于是p(d|F)＝1/|D_F|，且类似地，对于背景，p(d|B)＝1/|D_B|。然后定义D＝D_B∪D_F，可写出附录1式15和16。当然式15中的S不能被精确计算，因为求和超出了Panum带。然而这是Panum代理的关键想法，我们可以通过在匹配似然比(附录1式17)中使用左图像L作为右图像R的代理来逼近S。

逼近基于每个匹配是好的匹配这一假设，因为它将左图像与自身相匹配。最后，已估计了S(L)，我们可以从逼近的约束来估计背景似然比(见附录1中式18和19)

互补似然

现在给出从Panum带限制导出的、用于从遮挡中区分背景匹配的证据弱点，我们不试图区分假设B和O。因而我们将它们集中在一起作为互补假设，于是F＝B∪O(见附录1的20至22)。

峰度测试

我们发觉虽然f(L，d，L)常常是f(L，d，R)形状的良好预测器，但在f(L，d，L)中没有清晰峰时会失效。f(L，d，L)作为d的函数的峰度k＝k(L，L)计算为对角线。我们发觉高峰度与代理中的低误差相关联。因而如果k>k_o，则预测似然估计是可靠的。

事实上低峰值在实践中常出现在相对无纹理的区域，正好是引起模糊视差的情况。已经证明k₀＝2.5的阀值是有效的，可捕获误差分布曲线尾部上(定义为1倍标准方差外的)86％的点。

定义软阀值函数r(k)使得附录1中式23适用，来自附录1中式17的定义

可用附录1中式24代替。由此，经估计的互补似然(附录1的式22)在r(k)＝1的可靠情况下不改变。不可靠情况见附录1中式24a。

正性检验

其它要处理的条件是被估计背景似然(附录1的式19)可能的负性。在负性情况下，我们简单地用附录1的式25替换式19并使用这一点来估计互补假设(式22)。该值η可使用从各种图像搜集来的统计信息来设置，并给出了其工作值η＝3。

本领域的技术人员将认识到用于存储程序指令的存储设备可分布在网络上。例如，远程计算机可存储描述为软件的该过程的示例。本地或终端计算机可访问远程计算机并下载该软件的一部分或全部以运行该程序。可替换地，本地计算机可按需下载软件的片断，或者可以在本地终端上执行一些软件指令而在远程计算机(或计算机网络)上执行一些软件指令。本领域的技术人员将认识到，通过使用本领域技术人员已知的常规技术，软件指令的全部或部分可由专用电路如DSP、可编程逻辑阵列等来执行。

如对于本领域的技术人员而言，显然此处给出的任何范围或者设备值可以被扩展或者改变而不失去所寻求的效果。

文本中描述的各方法步骤可以在需要时按任何合适的次序或同时执行。

可以理解，上面对于较佳实施例的描述仅仅是作为例子给出的，而本领域的技术人员可以做出多种改变。

附录1

p(x.d|z)∝p(x.d)p(z|x.d) (2)

p(x,d)∝exp-λE₀(x，d) (3)

p (z | x, d) &Proportional; \underset{\infty}{Π} \exp - U_{m}^{M} (x_{m}, d_{m}) - - - (4)

U_{m}^{M} (x_{m}, d_{m}) = \{\begin{matrix} M (L_{m}^{P}, R_{n}^{P}) & if x_{m} = M \\ M_{0} & if x_{m} = O \end{matrix} - - - (5)

其中[11]

(γ = \log 2 \sqrt{W_{M} W_{O}})

且参数W_M和W_O别是匹配和遮挡区域的平均宽度(以像素为单位)

U^{S} (z, x) = \underset{m}{Σ} U_{m}^{S} (x_{m}) - - - (7)

其中

U_{m}^{S} (x_{m}) = - \log p (L_{m} | x_{m} = F . R) - - - (8)

现在，边缘化出视差，前景似然为：

p (L_{m} | x_{m} = F . R) = \underset{d}{Σ} p (L_{m} | d_{m} = d . R) p (d_{m} = d | x_{m} = F) - - - (9)

其中，来自(4)

p (L_{m} | d_{m} = d . R) &Proportional; f (L . d . R) = \exp - U_{m}^{M} (x_{m}, d_{m}) - - - (10)

数似然比在(5)中定义。可缩写为：

p (L | F) = \underset{d}{Σ} p (L | d . R) p (d | F) - - - (11)

且如前所示，藉助似然比，其变为：

其中，f(L.d.R)如上所示是匹配/不匹配似然比

p(L|F)p(F)＝p(L|B)p(B)+p(L|O)p(O). (20)

且再次除以p(L|O)

并且这被表示为

L(L|F)＝(1-p)L(L|B)p(B)+v. (22)

其中v＝p(O)/(1-p(F))，对此典型值为v＝0.1，反映了正常地一小部分背景与被遮挡的经验事实。

在不可靠情况下，

而从(19)可得

且然后(22)默认地随着r(k)→0朝向非信息条件