CN110135234A

CN110135234A - 用于确定视差测量的置信度/不确定性测量的概念

Info

Publication number: CN110135234A
Application number: CN201910110119.7A
Authority: CN
Inventors: 罗纳德·奥普·赫特·费尔德; 乔阿希姆·凯纳特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2018-02-08
Filing date: 2019-02-11
Publication date: 2019-08-16
Anticipated expiration: 2039-02-11
Also published as: US10949989B2; EP3525167B1; EP3525167A1; CN110135234B; US20190244380A1

Abstract

通过针对要执行相对于第二画面的视差的测量的第一画面的预定位置对视差候选集合的评估执行确定，并且如果这种评估涉及针对这个视差候选集合中的每个的贡献值的累积，实现用于视差测量的更有效的置信度/不确定性测量确定，贡献值取决于相应的视差候选以及根据函数与相应的视差候选相关联的与第二画面的不相似度，函数对于与相应视差候选相关联的不相似度具有第一单调性并且对于相应视差候选与预定视差之间的绝对差具有与第一单调性相反的第二单调性，预定视差具有与视差候选集合相关联的不相似度中与其相关联的最小不相似度。通过这种方式，随着视差候选的空间分布中局部极小值的数量增加，置信度/不确定性测量倾向于降低置信度，增加不确定性。

Description

用于确定视差测量的置信度/不确定性测量的概念

技术领域

本申请涉及用于确定置信度测量或不确定性测量的概念，该置信度测量或不确定性测量测量第一画面的预定位置相对于第二画面的视差的测量的正确性的置信度或不正确性的可靠性。这种置信度/正确性测量可以用于基于视差测量改进视差/深度图的生成和/或改进视图合成。

背景技术

立体视差估计是计算机视觉中研究得最多的并且最活跃的领域之一。这主要是因为现有算法无法获得最佳结果[1,2,3]。估计的视差不够准确或计算成本太高。近年来，深度学习方法提高了这些算法的准确性[4,5]，并且例如可以用于改善密集渲染光场的质量。为了重建这些，需要融合多个视差图，这似乎是直截了当的。但是，由于错误的视差，事实并非如此。错误视差被传播，从而导致不可靠的视差图。我们提出了一种新的置信度测量来过滤掉这些初始错误的视差。

当基于常规方法[6,7,8,9,10,11,12]执行置信度测量时，通过检查成本曲线来分配置信度。作为像素的视差的函数的理想成本曲线具有单个、不同的最小值。但是，大多数成本曲线是模糊的，因为它们具有多个局部最小值或具有相似成本的多个相邻视差，从而使得全局最小值的精确定位很难。成本曲线的形状在很大程度上取决于所使用的立体算法。一些算法趋于对噪声更敏感。Spyropoulos和Mordohai使用Zbontar和Le Cun[4]开发的立体方法来计算匹配成本。他们训练卷积神经网络(CNN)来预测两个图像块是否匹配。近年来，许多旨在检测不可靠视差分配的置信度测量被证明当与现有技术的立体算法[5,14,15,16]相结合时是非常有效的线索。借助于置信度测量可靠地检测立体算法的失败的能力是基本的，并且已经为此目的提出了许多方法。Hu和Mordohai[17]是第一批详尽审查和比较当时可用的置信度测量的人，并定义了评估不同测量的性能的有效指标。已引入和评估了新的置信度测量，大多数基于深度学习[5,18]和其它机器学习方法[14,15,16,19,13]。Poggi等人[20]在2017年对76项现有技术的置信度测量进行了最新的全面评估。在此，可以看到与立体算法的评估类似的趋势，基于机器学习的方法似乎优于常规方法。

但是，仍然需要进一步改善用于视差测量的这些置信度/不确定性测量的质量。

发明内容

因此，本发明的一个目的是提供一种更有效的用于确定视差测量的置信度/不确定性测量的概念。

该目的通过本申请的独立权利要求的主题来实现。

本申请基于一种发现：根据该发现，如果针对要执行相对于第二画面的视差的测量的第一画面的预定位置对视差候选集合的评估执行确定，并且如果这种评估涉及针对这个视差候选集合中的每一个的贡献值的累积，那么可以实现用于视差测量的更有效的置信度/不确定性测量确定，其中贡献值取决于相应的视差候选以及与第二画面的不相似度，与第二画面的不相似度根据函数与相应的视差候选相关联，其中函数对于与相应视差候选相关联的不相似度具有第一单调性并且对于相应视差候选与预定视差之间绝对差具有与第一单调性相反的第二单调性，预定视差具有与视差候选集合相关联的不相似度中与其相关联的最小不相似度。通过这种方式，随着视差候选的空间分布中局部极小值的数量增加，置信度/不确定性测量倾向于降低置信度，并且增加不确定性。另外，就视差而言，任何局部极小值与全局最小值的视差距离越大，置信度趋向于越低并且不确定性趋向于越高。另外，就不相似度而言，任何局部极小值与全局最小值的距离越大，其对置信度/不确定性测量确定的影响越小。

有利的实现是从属权利要求的主题。

附图说明

下面参考附图描述本申请的优选实施例，其中：

图1示出了图示根据本申请实施例的用于画面的预定位置的视差候选集合，与这些视差候选相关联的相对于另一个画面的不相似度，置信度/不确定性测量确定器，以及可以与置信度/不确定性测量确定器形成用于深度/视差图生成或视图合成的系统的其它设备和装置的示意图；

图2a-d示出了表示与视差候选相关联的不相似度的成本函数的示例图，以便图示根据本申请的具体详细实施例确定的不同情况和置信度测量的行为；

图3a-d在图3a中示出了来自MB03的Teddy图像，在图3b中示出了估计视差MC-CNN+盒式滤波器，在图3c中示出了具有所提出的置信度测量的置信度，其中亮度更高并且呈现被非线性缩放以获得更好的可视化，并且图3d示出了Teddy在不同密度下的错误率；示出了四条曲线，分别针对LRD、根据等式(2)的本申请详细实施例(AUC)、CCNN以及最优；除了理论上最优的曲线，根据等式(2)的置信度测量证明是几乎对于每个密度的错误率都是最低的；

图4示出了在扩展的Middlebury数据集上评估的三个置信度测量的AUC值。值越低越好。关于根据等式(2)的置信度测量按AUC排序。基于置信度测量的等式(2)对于除一个以外的所有立体对优于现有技术的方法；

图5a示出了成本曲线的示意图，即，不相似度在视差候选上的分布；

图5b为了说明的目的对于视差候选集合中的每一个示出了以贡献值的累积的形式的置信度/不确定性测量确定；

图5c示意性地图示了通过两个因子之间的乘积确定贡献值的可能性；

图5e-d示意性地示出了用于设计图5c的两个因子的可能性。

具体实施方式

以下描述以确定置信度测量及其优点的具体示例开始。在下文中，描述进一步的实施例，其表示相对于这个具体示例的扩展实施例，这些扩展实施例作为可能的替代方案之一覆盖具体示例并且是通过放松具体示例的一些细节而从具体示例得到的。

在呈现具体实施例时，我们检查正确的实施例，并根据它们对潜在匹配进行排序的能力将其与两种现有技术的方法进行比较。为此，以下描述从介绍这种现有技术的置信度测量概念开始，因此引入并解释具体示例。此后，提供关于实验结果的深入讨论，接着是其结论，然后如上面所指示的，是对扩展具体实施例的更进一步的实施例的描述。

用于比较目的的两种现有技术的概念是左右差异(LRD)[17]和置信度CNN(CCNN)[18]。根据[17]，为了更好地阐明由每个单一测量处理哪些线索，我们使用以下符号。给定矫正的左(L)和右(R)图像的立体对，对于每个可能的视差，我们计算成本量c(x；y；d)，其包含从左图像中的像素I_L(x_L；y)到右图像中的像素I_R(x_R；y)的每个可能匹配的成本值。视差通常被定义为d＝x_L-x_R。最小和最大视差值d_min和d_max由数据集提供。像素的成本曲线是该像素的所有可允许的视差的成本值的集合。c₁和c₂分别指示成本曲线的最小值和第二最小值，c₂不必须是局部最小值。视差值d(c₁)由d₁表示。

我们现在将更详细地描述两种现有技术的方法。左右差异(LRD)置信度测量[17]有利于针对左图像中像素(x_L；y)的成本的两个最小极小值之间的大差额，以及左到右和右到左视差图之间的最小成本的一致性：

直觉是真正对应的像素应当导致相似的成本值，从而产生小的分母。这个公式提供了针对两种故障模式的保护措施。如果差额c₂-c₁大，但像素不匹配，那么分母将是大的。如果差额小，那么匹配可能不明确。在这种情况下，小分母指示已经建立了两个相似像素之间的对应关系。根据[17]，LRD是用于立体输入的最佳整体方法之一。

作为第二个置信度测量，我们使用置信度卷积神经网络(CCNN)[18]。在这种方法中，由CNN对置信度预测进行回归，而不从立体输入图像中提取任何线索。在块上训练的深度网络通过仅处理相对于最大视差归一化到零和一之间的值的左视差图来从头开始学习置信度测量。为了评估，我们使用作者提供的源代码(使用8位置信度图)。这个方法已由Poggi等人[20]识别为表现最好的。但是，对这种网络的训练是额外的问题。

我们使用由和Le Cun[4]开发的立体方法匹配成本卷积神经网络(MCCNN)来评估这些置信度测量。在成对的块上训练八层网络，以计算它们之间的相似度测量。这些输出表示每个像素的每个可能视差的匹配得分。这些得分使用半全局匹配(SGM)被自适应聚合[21]并优化，以获得关于KITTI基准的高排名结果[22]。提出了准确的体系架构和更快/简化(跳过基于交叉的聚合)的体系架构。后者关于准确的CNN体系架构显示出显著的加速(0.8秒对67秒)，在两个KITTI数据集上，错误率的增加均小于1％。我们使用由和Le Cun[4]提供的代码，使用他们在KITTI 2012数据集[22]上预先训练的快速体系架构来计算我们的成本量，以避免偏差评估，但自然地，可以替代地使用其它架构。

接下来呈现的置信度/不确定性测量确定的具体示例旨在从视差图中的每个像素的成本曲线中提取有用信息。每个像素的置信度值指示所指派的视差是否正确。成本曲线中的多个局部极小值指示关于像素的视差值的不确定性，因此，置信度应当是低的。经验测试也指示多个局部极小值之间的距离的重要性。全局最小值与所有其它成本之间的大差额是有利的。这个差额根据经验定义为c_max/5，其中c_max是限定的视差范围内的最大成本。如果存在多个间隔超过1个像素的局部极小值，那么置信度降低。在此基础上，我们将置信度度测量定义如下：

其中Δd(x,y)＝|d–d₁(x,y)|并且Δc(x,y,d)＝c(x,y,d)–c₁(x,y)＝c(d(x,y))–c₁(x,y)。

由于形成求和的索引的视差d被用于计算样本(x,y)的置信度测量，因此我们可以替代地写：

其中Δd(x,y)＝|d(x,y)–d₁(x,y)|并且Δc(x,y,d)＝c(x,y,d)–c₁(x,y)＝c(d(x,y))–c₁(x,y)。

为了更好地理解由上述等式定义的置信度测量的性质，下面将更详细地对其进行解释。

置信度测量(C(x,y))基于成本曲线(c(x,y,d))在被评估的视差范围内的形状，以提供更好的理解，参见图1。图1示出了第一画面10和第二画面12，两个画面都显示相同的场景，但是来自不同的角度或视点。因而，取决于深度，场景对象以彼此变化相对空间偏移出现在画面10和12中，称为视差。如果画面10和12被修正，那么画面10和12中的对应场景对象之间的视差被限制到在仅一个方向上延伸，这里是水平方向。为了获得画面10中例如由x和y分量(x,y)寻址的某个预定位置14的c(d)，可以执行以下操作。例如，将包括并围绕位置14的画面10的块16与画面12的对应块18进行比较。该比较涉及例如SSD(即，平方差的总和)或测量成本的一些其它成本测量的确定，以便在视差方面将画面10的块16与画面12的块18相关联导致某种可以被解释为成本的偏差或不相似度。最小化这种成本增加比较画面10和12中的相同场景部分的可能性。因而，与位置14处的画面10的块16进行比较的画面12的块18位于画面12内的若干位置，每个位置与视差候选(即，与画面10中的位置14对应的画面内容可能移位到画面12中的真正对应部分的视差d)对应。图1示出了画面12内的一个这样的测试位置20，其中块18以配准到这个位置12的方式(即，以包括并围绕位置20的方式)示例性地定位。例如，块16和18可以分别具有位于其中心的位置14和20。对于其执行一方面块16与相应定位的块18之间的比较的位置的集合在图1中的22处示出，并且与在最小视差d_min和最大视差d_max之间扩散(即，在d_min和d_max之间的视差区间24内扩散)的视差集合对应。因此，这个过程为与集合22内的任何位置对应的视差候选对应的每个视差产生成本或不相似度c(d)。结果是图1中的24处指示的曲线c(d)。

自然，可以使用除SSD以外的任何其它成本测量，并且还应当提到“视差”可以以样本位置或像素为单位进行测量，其中画面10和12中的两个位置以样本位置或像素彼此移位，但是，为了本申请的目的，可以同样地使用其它测量，并且这些替代方案也可以归入术语“不相似度”之下。一种这样的替代方案可以是测量画面10和12中的对应位置之间在深度方面的视差，因为视差经由独特的可逆函数转换为深度，反之亦然。

因此，如到目前为止所描述的，视差范围24的范围从d_min到d_max，并且成本曲线26表示每个视差d的匹配成本c(d)。全局最小值定义为c₁＝c(d₁)，并且对应的视差为d₁。最大可获得的匹配成本被定义为c_max。

如果对应的成本c₁远小于其它局部极小值，那么视差d₁应当具有高置信度。远离全局最小值d₁的局部极小值对置信度值的负面影响较小。这就是等式(2)所管理的。在这里，值3和5是凭经验建立的。它们可以变化。

基于图2a-d中的图，我们将详细说明这个公式。在这些图中，视差在x轴上示出，左边的y轴描绘成本，并且右边的y轴描绘分母这可以被解释为惩罚或不确定性贡献，即，由于针对各种视差候选的这些不确定性贡献上的总和，因此其值越高，置信度测量越低。

这是为了说明置信度C(x,y)如何受多个局部极小值的影响。请注意图2a-d中轴的不同缩放比例。惩罚值越高，置信度越低。

对于这些图，我们示例性地使用d_min＝0和d_max＝200，但两者仅仅被示例性地选择。

垂直线28指示并且水平线30指示

图2a图示了重复结构的成本曲线26：多个局部极小值32可以被看出具有相似的成本。局部极小值32越远离全局最小值31，c₁，惩罚越高，如由惩罚曲线p(d)34所示。这个惩罚受到的限制。要注意的是，线28右侧的惩罚曲线34的峰值具有相等的高度，即，被削减了。置信度非常低。

图2b图示了也是重复结构的曲线26。但是，结构似乎略有变化，因此成本不同。第二局部极小值32a(d＝62附近)恰好位于(水平线30)的边界内，因此对置信度具有负面影响。参见曲线34的峰值36。另外两个局部极小值32b，c被认为是无害的并且不会受到惩罚。但是，置信度也低，略高于图2a的情况。

图2c类似于图2a。在这里，成本曲线26的结构以较低的频率重复，即，仅存在两个局部极小值32。

图2d是理想情况的示例。只有一个最小值31，因此置信度高。接近全局最小值31的视差正在受到轻微的惩罚。注意，在这里y轴相对于图2a-2c进行了放大。

我们从Δd(x,y)(或者可替代地写成Δd(x,y,d))中减去1，以不惩罚彼此相邻的两个极小值，因为这最有可能是量化错误并且可以在后处理步骤中修复。为了避免负面惩罚，取最大值为0。

在下文中，我们简要地评估两种现有技术的方法LRD[17]和CCNN[18]，并使用等式(2)将性能与置信度测量确定进行比较，使用MC-CNN[4]为基础。我们维持与[17]中首次描述的相同的评估过程。对于我们的评估，我们使用以下数据集。

表1.使用的Middlebury数据集的详细信息。

我们将可用的Middlebury数据集的组合用于我们的实验。扩展的Middlebury立体数据集由来自2003年数据集[23](MB03Q)的两个立体对、来自2005年数据集[24,25]的六个立体对(MB05T，其余三个没有地面实况视差图可用)、来自2006年数据集[24,25](MB06T)的所有21个图像对以及来自2014年训练数据集[3](MB14Q)的所有图像对组成，从而导致总共44个立体对。这些图像是在实验室环境下在室内捕获，并且描绘了具有不同复杂程度的对象。对于每个数据集，我们评估可用的最小空间分辨率并使用所提供的最大视差(有关详细信息，请参阅表1)。最小视差始终设置为0像素。根据数据集规范，如果与地面实况的差异在1个像素内，那么计算出的视差的值被认为是正确的。我们总是使用左图来评估算法。

区分正确的视差指派与错误的视差指派的能力是置信度测量的最期望的特性。为了定量地评估这一点，基于Gong和Yang[26]，基于置信度的视差指派的准确性使用作为视差图密度的函数的错误率的曲线来评估(参见图3(d))。错误率被定义为错误像素关于密度p的百分比。所有视差按置信度的降序排序，并且通过根据排名选择视差来产生密度增加的视差图。这测量了根据置信度值从视差图中去除错误的能力。曲线下面积(AUC)量化了置信度测量有效区分好的匹配与错误的匹配的能力。更好的置信度测量导致更低的AUC值。

给定视差图，按照置信度降低的次序提取像素的子集P(例如，总像素的5％)，并且这个子集的错误率被计算为像素关于密度p的百分比，与地面实况值(包括被遮挡的像素)的绝对距离高于阈值。然后，通过提取更多像素(例如，附加的5％)来增加子集，并计算错误率，直到考虑了图像中的所有像素。当置信度具有相同的值时，具有相等置信度的所有视差都包括在子样本中。这增加了密度，因此图3(d)中的x轴标记为最小密度。

理论上最佳的AUC可以通过在开始用剩余的错误视差图填充准密集视差图之前选择所有正确的视差来实现，并且在[17]中定义为：

其中p是密度，并且ε是[17]中介绍的全密度下的视差错误率。

遵循这个协议，我们使用立体算法MC-CNN[4]作为输入来评估对扩展的Middlebury数据集的三个置信度测量。该方法采用赢家通吃(WTA)策略并使用局部方法推断成本，使用卷积神经网络比较图像块。我们使用由作者在KITTI 2012数据集上训练的快速体系架构网络。我们还采用我们自己的后处理方法，包括在成本量上操作的9×9盒式过滤器，这进一步改进结果。

在图3中，(a)示出了输入图像之一(Teddy，MB03Q)，(b)示出了估计的视差，并且(c)示出了使用等式(2)确定的置信度。在图3(d)中，示出了来自Middlebury 2003数据集的Teddy图像对的视差密度(p)与错误率。通过将所有图像对的这些结果组合成一个图，我们最终得到图4。对于扩展的Middlebury数据集中的每个立体对，描绘了获得的AUC。值越低，置信度测量越好。所有结果均按照我们提出的方法通过AUC值排序。

观察这些图，我们可以看到，对于我们数据集中的大多数图像对，我们提出的方法明显优于LRD和CCNN。使用等式(2)确定的置信度在CCNN测量上提高了34.5％，表明基于非学习的方法可以比基于机器学习的方法表现更好。

为了完整起见，我们还将我们的置信度测量集成到ADCensus[27]立体算法中。成本函数是绝对差值之和(SAD)和人口普查的组合。评估扩展的Middlebury数据集，我们获得如表2中所示的平均AUC值。我们提出的置信度测量获得与CCNN置信度测量相似的结果。由于成本曲线中存在噪声，我们认为我们无法使用这种立体算法作为输入超越现有技术。

在表2中，使用ADCensus计算成本函数的评估扩展的Middlebury数据集上的不同置信度测量的平均AUC值与使用具有盒式过滤器的MC-CNN作为输入相比。

表2

简要总结上述具体示例，提出了一种新颖的置信度测量，并且我们回顾并评估了两种现有技术的置信度测量并将它们与这个测量进行了比较。我们使用MC-CNN立体算法和扩展的具有挑战性的Middlebury数据集进行的评估清楚地突出了使用等式(2)确定的置信度测量比目前表现最佳的置信度测量CCNN高出34.5％。置信度计算不需要任何机器学习，并且可以直接应用于大多数立体算法(假设有成本量可用)。这个评估显示，基于学习的方法可以比传统方法表现出色，并且我们提出的置信度测量将是基于机器学习的置信度测量的有用补充。

本文呈现的置信度测量可以集成到不同的应用中，例如，视差后处理算法[13]、多视图立体声和数据融合。初始视差图的改进可以导致改进的基于深度图像的渲染结果。

在描述了使用等式(2)计算置信度测量的具体实施例之后，再次参考图1，在此基础上，已经描述了与各种测试的视差对应的视差候选集合以及相关联的成本或不相似度，它们一起形成成本曲线26。广义地讲，上面已经描述的是用于确定置信度/不确定性测量的确定器，由图1中的附图标记50指示。这个装置50确定测量第一画面10的预定位置16相对于第二画面12的视差的测量的正确性的置信度的置信度测量。在上面的描述中已将置信度测量表示为C，并且已使用x、y来识别预定位置16。图1中使用了相同的术语。但是应当清楚的是，可替代地，装置50可以代替地确定测量预定位置16的视差的测量的不正确性的可靠性的不确定性测量。例如，代替使用等式(2)计算C(x,y)，装置50可以计算其倒数，即，在等式(2)中停止倒置并简单地取等式(2)的分母(即，分母中的和)作为不确定性测量。确定不确定性测量而不是置信度测量的这种可能性应适用于上面概述并且在下面进一步概述的所有实施例，而不是每次都提到这种可能性。

为此，装置50针对预定位置16的视差候选集合中的每一个接收相应视差候选d的视差以及与其相关联的不相似度，即，c(d)，即，当经由视差d将位置16处的画面10与位置16相关的位置处的画面12进行比较时画面10与画面12之间的不相似度。虽然不相似度c(d)的计算或确定可以是由如图1描绘的某个不相似度确定器52在确定器50外部执行的任务，但是不相似度确定器52可以替代地是确定器50本身内的部件。更确切地说，不相似度确定器52针对视差候选集合中的每一个确定与其相关联的不相似度，即，在上图中已经使用了附图标记26的成本曲线。图5a再次示出了这种成本曲线的示例。它将不相似度56与每个视差候选54相关联。置信度/不确定性测量确定器50基于这个成本曲线26确定置信度/不确定性测量58，从而获得位置16的置信度/不确定性测量58。可以对诸如画面10的像素或样本的所有位置16执行任务，以便为每个像素/样本获得对应的置信度/不确定性测量58，从而获得置信度图60。

图1图示了，除置信度/不确定性测量确定器50之外，视差确定器62可以使用由不相似度确定器52生成的成本函数26，以便确定或测量位置16的视差值D。视差确定器62可以对画面10的所有位置16执行这个任务，由此生成将画面10的每个位置(即，诸如画面10的每个像素或样本)与对应的视差(即，视差或深度值)相关联的画面10的深度/视差图64。例如，视差确定器62可以将视差D(x,y)设置为等于d₁，即，针对位置x，y获得的成本曲线26的最小视差。视差确定器62和置信度/不确定性测量确定器50可以一起形成如虚线66指示的用于生成画面10相对于画面12的深度/视差图64的系统。这个系统66可以输出深度/视差图64，伴随有置信度/不确定性图60，使得图64中的每个视差将具有与其相关联的置信度/不确定性测量58。除了深度/视差图64伴随有置信度/不确定性图60之外或作为另外一种替代，视差确定器62可以被配置为在确定图64的视差时考虑置信度/不确定性测量58。例如，视差确定器62可以初步对D(x,y)使用d₁，即，视差候选集合内的导致最小不相似度的视差，以便订购深度/视差图的初步版本，然后忽略视差D(x,y)并且对于位置(x,y)替换其，在位置(x,y)处，置信度/不确定性测量58，C(x,y)在作为置信度测量的情况下太低，或者在作为不确定性测量的情况下太高。检查可以基于预定阈值。如果针对一些初步视差执行替代，那么替代视差可以由视差确定器62从一些其它源确定。例如，视差确定器62可以从与位置x，y相邻的相邻位置空间地预测视差D(x,y)，对于位置x，y，置信度/不确定性测量58指示充分自信的情况。可替代地，视差确定器62可以基于从关于同一场景的另一个深度/视差图(诸如以与画面10相同的方式为画面12确定的深度视差图)的对应位置取得的视差值来导出特定位置的替代视差。

也如图1中为了说明目的所示，视图合成器68可以使用深度/视差图64(伴随或不伴随置信度图60)，以便执行视图合成，以便获得示出与画面10相同场景的画面70，但是来自与画面10不同的另一个视角或视点并且例如定位在画面10和画面12的视角或视点之间，这形成图64的深度图生成的基础。因此，视图合成器68可以与系统66一起形成系统，该系统用于通过根据由图64指示的视差移位画面10的纹理/颜色样本值而使用置信度/不确定性图60基于画面10执行视图合成。视图合成器68可以使用置信度/不确定性图60(如果存在的话)，以便根据并置的置信度/不确定性测量58和图60优选地将视图合成基于深度/视差图64内其对应的置信度较高的那些样本或视差。为此，取决于对应的置信度/不确定性测量58，C(x,y)，对于每个位置x，y，控制由合成器68进行的视图间合成依赖于深度/视差图64以便从画面10合成画面70的量。如果置信度图60不存在，那么它可能已经由视差确定器62使用，以便生成更可靠的深度图64。

但是，置信度/不确定性测量确定器50不限于使用如上面透彻描述的等式(2)来执行置信度/不确定性测量58的确定。等式(2)在许多方面可以变化，但仍然产生根据其置信度较低或不确定性较高的特性，

1)成本曲线26(即，不相似度的分布)中存在更多的局部极小值32，

2)在不相似距离Δc方面，一个或多个局部极小值32中的一个或多个更接近全局最小值31，

3)局部极小值32距全局最小值31的视差距离Δd更大，

4)其中在视差距离Δd方面非常接近全局最小值31的局部极小值32基本上不降低置信度或增加不确定性，以及

5)其中可以存在如图2中通过30所定义的预定的最小不相似度距离，使得局部极小值32在不相似度距离Δc方面更接近全局最小值31导致置信度降低或不确定性增加，而对于在不相似度距离Δc方面更远离全局最小值31的局部极小值32，不导致置信度降低或不确定性增加。

代替使用等式(2)的确切公式，确定器50可以以图5b中广泛指示的方式确定置信度/不确定性测量。对此，装置50可以针对预定位置16的视差候选集合54中的每一个累积贡献值72，该贡献值72取决于相应的视差候选d及其与第二画面12的不相似度c(d)。贡献值72取决于图5b中经由函数F指示的对c(d)和d，该函数对于不相似度c(d)具有第一单调性并且对于相应视差候选d与最小不相似度c(d₁)的视差d₁之间的绝对差具有与第一单调性相反的第二单调性。第一单调性可以是单调增加，而第二单调性是单调减小，或者反之亦然，第一单调性可以是单调减小，而第二单调性是单调增加。

形成贡献值72的函数F可以如上面通过等式(2)所概述的那样，由两个因子之间的乘积形成，如图5c中所示。第一个因子是不相似度c(d)的函数，并且对于c(d)具有第一单调性，第二个因子是不相似度d的函数，并且对于视差候选d与最小视差d₁之间的绝对差(即，|d-d₁|)具有第二单调性。如图5b和5c以及等式(2)中所示的，可以通过和来完成对视差候选集合上的累积，但也可以使用替代方案。如图5c中所示并且已经在上面关于等式(2)的倒置进行的讨论，这个求和的结果(即，和或累积结果)可以受到单调递减函数74的影响，诸如倒置，取决于寻求由确定器50计算置信度测量或不确定性测量。单调递减函数74可以是倒置，即，可以将值x映射到1/x，如等式(2)中所示，但也可以替代地使用另一个单调递减函数。

通过对等式(2)的描述也很清楚，图5c的第一个因子可以如图5d所示设计。在这里，第一因子根据单调函数76取决于不相似度c(d)，单调函数76包括用于指示与预定阈值Δc_thres相比较低的不相似度的不相似度值的平稳段78。如上所述，装置50可以被配置为取决于视差候选d的集合54的不相似度c(d)当中的最大不相似度c_max来确定这个阈值Δc_thres。更确切地说，可以基于最小不相似度c₁和最大不相似度c_max来确定阈值Δc_thres。例如，在上面的等式(2)的示例中，预定阈值Δc_thres已被确定为c₁加上c_max的分数，其中分数已经被选择为1/5，但是这个分数也可以选择在1/2和1/20之间，1/2和1/20都包括在内。甚至可替代地，这个分数可以被选择为1/5±1％。如图5d中所示，对于指示比阈值Δc_thres更高的不相似度的不相似度，即，图5d中Δc_thres的右侧，函数76可以是严格单调的。在这里，函数76可以是1/(c(d)-const)，其中const是常数。再次，在等式(2)中，Δc_thres已经是c₁+t·c_max，其中t可以是刚才提到其替代方案的分数。但应当记得，不相似度可以用另一种测量来测量，与成本/不相似度成反比。然后，函数26将看起来不同，即，极小值实际上将变为极大值，然后阈值可以以不同的方式确定，即，基于最小不相似度d₁的预定分数或最小不相似度d₁与最小不相似度d₁与最大不相似度d_max之间的差的预定分数的差，其中预定分数再次小于1。如图5d所描绘的，函数76可以在阈值处是连续的。

图5e图示了第二因子，并且其可以经由函数80取决于视差d，根据函数80，例如，对于小于预定阈值82的绝对差，绝对差|d-d₁|经受大于1的幂，该预定阈值82定义上面已经关于图2a至2d提到的垂直线28。对于大于这个阈值82的绝对差，函数80可以具有平稳段84。甚至这个函数80可以在从平稳段84朝着d₁的过渡处是连续的。装置50可以确定阈值82，或者可以以其它方式确定阈值82，这取决于视差候选54的范围86(图5a)。阈值82可以被确定为这个范围的分数，并且该分数不限于1/3(就像在等式(2)中的情况下一样)，但是，例如，可以在1/3±10％之间，包括两个端点。幂可以是2，也如等式(2)中所示。

关于函数72，应当提到的是，可以以不同的方式实现该函数。这个函数F的输入值可以以一种方式受到权重、幂和限幅因子的影响，以便有利地调整这个函数F的上述特性1至5。通过使得只考虑那些真正影响置信度/不确定性的局部极小值，这种调整导致在确定正确置信度/不确定性时的高灵敏度。

因此，以上描述揭示了一种装置，该装置用于确定测量第一画面10的预定位置16相对于第二画面12的视差的测量的正确性的置信度的置信度测量58或者测量第一画面10的预定位置16相对于第二画面12的视差的测量的不正确性的可靠性的不确定性测量，被配置为针对预定位置16的视差候选集合54中的每一个，累积取决于相应视差候选和根据函数F与相应视差候选相关联的至第二画面12的不相似度的贡献值72，其中函数F对于与相应视差候选相关联的不相似度c具有第一单调性并且对于相应视差候选d与预定视差d₁之间的绝对差具有与第一单调性相反的第二单调性，其中预定视差d₁具有与视差候选集合54相关联的不相似度当中与其相关联的最小不相似度c₁。装置可以被配置为将贡献值72计算为包括第一因子和第二因子的乘积，第一因子对于与相应视差候选相关联的不相似度c具有第一单调性，并且第二因子对于相应视差候选d与预定视差d₁之间的绝对差具有第二单调性。第一单调性可以是单调增加，第二单调性是单调减少，并且装置被配置为使累积的结果经历单调递减函数74以获得置信度测量，或者使用累积的结果作为不确定性测量，或者第一单调性可以是单调减小，第二单调性是单调增加，并且装置被配置为使累积的结果经历单调递减函数74以获得不确定性测量，或者使用积累的结果作为置信度测量。单调递减函数可以将x映射到1/x。第一因子可以根据第一单调函数取决于与相应视差候选相关联的不相似度，第一单调函数包括与比第一预定阈值低的不相似度对应的不相似度值的平稳段。装置可以被配置为取决于与视差候选集合相关联的不相似度当中的最大不相似度c_max来确定第一预定阈值。装置可以被配置为基于最小不相似度c₁和最大不相似度c_max来确定第一预定阈值。装置可以被配置为基于最小不相似度c₁和最大不相似度c_max的预定分数的和来确定预定阈值，预分数小于1。装置可以被配置为基于最小不相似度的预定分数或者最小不相似度与最小不相似度与最大不相似度之间的差的预定分数的差来确定预定阈值，其中预定分数小于1。预定分数可以介于1/2和1/20之间，包括1/2和1/20。预定分数可以是1/5±1％。第一单调函数对应于大于第一预定阈值的不相似度可以是严格单调的。高于第一预定阈值，第一单调函数可以是1/(c(d)-const)，其中c(d)是与视差候选d相关联的不相似度，并且const是常数。例如，常数经由c₁特定于位置16。第二因子可以根据预定函数取决于绝对差，根据该预定函数，绝对差在第二预定阈值以下经受大于1的幂并且在第二预定阈值之上具有平稳段。第二预定阈值可以取决于视差候选集合的范围。第二预定阈值可以是视差候选集合的范围的分数，该分数在1/3±10％之间，包括两个端点。幂可以是2。装置可以被配置为使得置信度测量C(x,y)为装置可以被配置为针对预定位置的视差候选集合的每个视差候选获得不相似度测量或相似度测量，不相似度测量指示与相应视差候选相关联的与第二画面的不相似度，相似度测量指示与相应视差候选相关联的与第二画面的不相似度的倒数。装置可以对画面10的每个位置或样本执行置信度/不确定性测量确定。不相似度测量可以是平方样本差的和，或者相似度测量是相关值。

虽然已经在装置的上下文中描述了一些方面，但是显然这些方面也表示对应方法的描述，其中块或设备与方法步骤或方法步骤的特征对应。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应块或项或特征的描述。方法步骤的一些或全部可以由(或使用)硬件装置(例如微处理器、可编程计算机或电子电路)来执行。在一些实施例中，最重要的方法步骤中的一个或多个可以由这种装置执行。

取决于某些实现要求，本发明的实施例可以用硬件或软件实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存存储器)来执行该实现，其中电子可读控制信号与可编程计算机系统协作(或能够与其协作)，使得执行相应的方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，电子可读控制信号能够与可编程计算机系统协作，使得执行本文描述的方法中的一个。

一般而言，本发明的实施例可以被实现为具有程序代码的计算机程序产品，该程序代码可操作用于当计算机程序产品在计算机上运行时执行方法中的一个。程序代码可以例如存储在机器可读载体上。

其它实施例包括存储在机器可读载体上的用于执行本文所描述的方法中的一个的计算机程序。

换句话说，本发明性方法的实施例因此是具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行本文所描述的方法中的一个。

因此，本发明性方法的另一个实施例是数据载体(或数字存储介质，或计算机可读介质)，其包括记录在其上的用于执行本文所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬态的。

因此，本发明性方法的另一个实施例是表示用于执行本文所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由互联网)发送。

另一个实施例包括处理构件，例如计算机或可编程逻辑设备，其被配置为或适于执行本文描述的方法中的一个。

另一个实施例包括计算机，其上安装有用于执行本文所描述的方法中的一个的计算机程序。

根据本发明的另一个实施例包括被配置为将用于执行本文所描述的方法中的一个的计算机程序(例如，电子地或光学地)传送到接收器的装置或系统。接收器可以是例如计算机、移动设备、存储器设备等。装置或系统可以例如包括用于将计算机程序传送到接收器的文件服务器。

在一些实施例中，可编程逻辑设备(例如现场可编程门阵列)可以用于执行本文所描述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作，以便执行本文描述的方法中的一个。一般而言，该方法优选地由任何硬件装置执行。

这里描述的装置可以使用硬件装置，或使用计算机，或使用硬件装置和计算机的组合来实现。

本文描述的装置或本文描述的装置的任何部件可以至少部分地以硬件和/或软件实现。

本文描述的方法可以使用硬件装置、或使用计算机或使用硬件装置和计算机的组合来执行。

本文描述的方法或本文描述的装置的任何部件可以至少部分地以硬件和/或软件执行。

上述实施例仅用于说明本发明的原理。应理解的是，本文所描述的布置和细节的修改和变化对于本领域技术人员而言将是显而易见的。因此，意图仅受到所附专利权利要求的范围的限制，而不受通过本文实施例的描述和解释所呈现的具体细节的限制。

文献

[1]Andreas Geiger,Philip Lenz,Christoph Stiller,和Raquel Urtasun,“Vision meets robotics:The kitti dataset,”The International Journal ofRobotics Research,第32卷,第11期,第1231–1237页,2013年.

[2]Moritz Menze和Andreas Geiger,“Object scene flow for autonomousvehicles,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2015,第3061–3070页.

[3]Daniel Scharstein,Heiko Hirschmüller,York Kitajima,Greg Krathwohl,Nera Nesic′,Xi Wang,和Porter West-ling,“High-resolution stereo datasets withsubpixel-accurate ground truth,”in German Conference on PatternRecognition.Springer,2014,第31–42页.

[4]Jure Zbontar和Yann Le Cun,“Computing the stereo matching cost witha convolutional neural network,”Proceedings of the IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,第07卷，6月12日,第1期,第1592–1599页,2015年.

[5]Akihito Seki和Marc Pollefeys,“Patch based confidence predictionfor dense disparity map.,”in BMVC,2016.

[6]Philippos Mordohai,“The self-aware matching measure for stereo,”inComputer Vision,2009 IEEE 12th Inter-national Conference on.IEEE,2009,第1841–1848页.

[7]Larry Matthies,“Stereo vision for planetary rovers:Stochasticmodeling to near real-time implementation,”International Journal of ComputerVision,第8卷,第1期,第71–91页,1992年.

[8]Daniel Scharstein和Richard Szeliski,“Stereo matching withnonlinear diffusion,”International journal of computer vision,第28卷,第2期,第155–174页,1998年.

[9]Zhengyou Zhang和Ying Shan,“A progressive scheme for stereomatching,”in European Workshop on 3D Structure from Multiple Images of Large-Scale Environments.Springer,2000,第68–85页.

[10]Heiko Hirschmüller,Peter R Innocent,和Jon Garibaldi,“Real-timecorrelation-based stereo vision with reduced border errors,”InternationalJournal of Computer Vision,第47卷,第1-3期,第229–246页,2002年.

[11]Paul Merrell,Amir Akbarzadeh,Liang Wang,Philippos Mordohai,Jan-Michael Frahm,Ruigang Yang,David Niste′r,和Marc Pollefeys,“Real-timevisibility-based fusion of depth maps,”in Computer Vision,2007.ICCV 2007.IEEE11th International Conference on.IEEE,2007,第1–8页.

[12]Kuk-Jin Yoon和In So Kweon,“Distinctive similarity measure forstereo matching under point ambiguity,”Computer Vision and ImageUnderstanding,第112卷,第2期,第173–183页,2008年.

[13]Aristotle Spyropoulos和Philippos Mordohai,“CorrectnessPrediction,Accuracy Improvement and Generalization of Stereo Matching UsingSupervised Learn-ing,”International Journal of Computer Vision,第118卷,第3期,第300–318页,2016年.

[14]Aristotle Spyropoulos,Nikos Komodakis,和Philippos Mordohai,“Learning to detect ground control points for improving the accuracy ofstereo matching,”in Computer Vision and Pattern Recognition(CVPR),2014 IEEEConference on.IEEE,2014,第1621–1628页.

[15]Min-Gyu Park和Kuk-Jin Yoon,“Leveraging stereo matching withlearning-based confidence measures,”in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2015,第101–109页.

[16]Matteo Poggi和Stefano Mattoccia,“Learning a general-purposeconfidence measure based on o(1)features and a smarter aggregation strategyfor semi global matching,”in 3D Vision(3DV),2016Fourth InternationalConference on.IEEE,2016,第509–518页.

[17]Xiaoyan Hu和Philippos Mordohai,“A quantitative evaluation ofconfidence measures for stereo vision,”IEEE Transactions on Pattern Analysisand Machine Intelligence,第34卷,第11期,第2121–2133页,2012年.

[18]Matteo Poggi和Stefano Mattoccia,“Learning from scratch aconfidence measure,”Procedings of the British Machine Vision Conference2016,,no.Cv,第46.1–46.13页,2016年.

[19]Ralf Haeusler,Rahul Nair,和Daniel Kondermann,“Ensemble learningfor confidence measures in stereo vision,”in Computer Vision and PatternRecognition(CVPR),2013 IEEE Conference on.IEEE,2013,第305–312页.

[20]Matteo Poggi,Fabio Tosi,和Stefano Mattoccia,“QuantitativeEvaluation of Confidence Measures in a Machine Learning World,”2017IEEEInternational Conference on Computer Vision(ICCV),第2012卷,第5238–5247页,2017年.

[21]Ke Zhang,Jiangbo Lu,和Gauthier Lafruit,“Cross-based local stereomatching using orthogonal integral images,”IEEE transactions on circuits andsystems for video technology,第19卷,第7期,第1073–1079页,2009年.

[22]Andreas Geiger,Philip Lenz,和Raquel Urtasun,“Are we readyforautonomous driving？the kitti vision benchmark suite,”in Conference onComputer Vision and Pattern Recognition(CVPR),2012.

[23]Daniel Scharstein和Richard Szeliski,“High-accuracy stereo depthmaps using structured light,”in Computer Vision and Pattern Recognition,2003.Proceedings.2003IEEE Computer Society Conference on.IEEE,2003,第1卷,第I–I页.

[24]Daniel Scharstein和Chris Pal,“Learning conditional random fieldsfor stereo,”in Computer Vision and Pat-tern Recognition,2007.CVPR’07.IEEEConference on.IEEE,2007,pp.1–8.[25]Heiko Hirschmuller and Daniel Scharstein,“Evaluation of cost functions for stereo matching,”inComputer Vision andPattern Recognition,2007.CVPR’07.IEEE Conference on.IEEE,2007,第1–8页.

[26]Minglun Gong和Yee-Hong Yang,“Fast unambiguous stereo matchingusing reliability-based dynamic programming,”IEEE Transactions on PatternAnalysis and Machine Intelligence,第27卷,第6期,第998–1003页,2005年.

[27]Xing Mei,Xun Sun,Mingcai Zhou,Shaohui Jiao,Haitao Wang和XiaopengZhang,“On building anaccurate stereo matching system on graphics hardware,”2011,第467–474页.

Claims

1.一种用于确定测量第一画面(10)的预定位置(16)相对于第二画面(12)的视差的测量的正确性的置信度的置信度测量(58)或测量第一画面(10)的预定位置(16)相对于第二画面(12)的视差的测量的不正确性的可靠性的不确定性测量的装置，所述装置被配置为：

对于预定位置(16)的视差候选集合(54)中的每一个视差候选，累积取决于相应视差候选和根据函数(F)与相应视差候选相关联的至第二画面(12)的不相似度的贡献值(72)，函数(F)

对于与相应视差候选相关联的不相似度(c)具有第一单调性，以及

对于相应视差候选(d)与预定视差(d₁)之间的绝对差具有与第一单调性相反的第二单调性，预定视差(d₁)具有与视差候选集合(54)相关联的不相似度中与其相关联的最小不相似度(c₁)。

2.根据权利要求1所述的装置，被配置为:

将贡献值(72)计算为包括第一因子和第二因子的乘积，

第一因子对于与相应视差候选相关联的不相似度(c)具有第一单调性，以及

第二因子对于相应视差候选(d)与预定视差(d₁)之间的绝对差具有第二单调性。

3.根据权利要求1所述的装置，

其中第一单调性是单调增加，第二单调性是单调减少，并且装置被配置为使累积的结果经历单调递减函数(74)以获得置信度测量，或者使用累积的结果作为不确定性测量，或者

其中第一单调性是单调减小，第二单调性是单调增加，并且装置被配置为使累积的结果经历单调递减函数(74)以获得不确定性测量，或者使用积累的结果作为置信度测量。

4.根据权利要求3所述的装置，其中单调递减函数将x映射到1/x。

5.根据权利要求2所述的装置，其中第一因子根据第一单调函数取决于与相应视差候选相关联的不相似度，第一单调函数包括与比第一预定阈值低的不相似度对应的不相似度值的平稳段。

6.根据权利要求5所述的装置，其中装置被配置为取决于与视差候选集合相关联的不相似度中的最大不相似度(c_max)来确定第一预定阈值。

7.根据权利要求5所述的装置，其中装置被配置为基于最小不相似度(c₁)和最大不相似度(c_max)来确定第一预定阈值。

8.根据权利要求5所述的装置，其中装置被配置为基于最小不相似度(c₁)与最大不相似度(c_max)的预定分数的和来确定第一预定阈值，预定分数小于1。

9.根据权利要求5所述的装置，其中装置被配置为基于最小不相似度的预定分数或者基于最小不相似度与最小不相似度与最大不相似度之间的差的预定分数的差来确定第一预定阈值，预定分数小于1。

10.根据权利要求5所述的装置，其中第一单调函数对应于大于第一预定阈值的不相似度是严格单调的。

11.根据权利要求5所述的装置，其中高于第一预定阈值，第一单调函数是

1/(c(d)-const)

其中c(d)是与视差候选d相关联的不相似度并且const是常数。

12.根据权利要求1所述的装置，其中第二因子根据预定函数取决于绝对差，根据所述预定函数，绝对差在第二预定阈值以下经受大于1的幂并且在第二预定阈值之上具有平稳段。

13.根据权利要求12所述的装置，其中第二预定阈值取决于视差候选集合的范围。

14.根据权利要求1所述的装置，被配置为使得置信度测量C(x,y)为

其中

(x,y)是预定位置，d表示视差候选，

是视差候选d的贡献值，

d_min和d_max是在其中展开视差候选集合的区间的下限和上限，

D＝d_max-d_min,

c_max是与视差候选集合相关联的不相似度中的最大不相似度，

Δc(x,y,d)＝c(d(x,y))–c₁(x,y)，其中c(d)是与视差候选d相关联的不相似度，并且c₁是最小不相似度，

Δd＝|d-d₁|，其中d₁是具有与其相关联的最小不相似度的预定视差。

15.根据权利要求1所述的装置，其中，

不相似度测量是平方样本差的和，或者相似度测量是相关值。

16.一种用于生成第一画面(10)相对于第二画面(12)的深度/视差图(64)的系统，包括：

确定器(62)，用于确定第一画面的预定位置相对于第二画面的视差，以及

根据权利要求1所述的用于确定测量第一画面的预定位置相对于第二画面的视差的测量的正确性的置信度的置信度测量或测量第一画面的预定位置相对于第二画面的视差的测量的不正确性的可靠性的不确定性测量的装置(50)，

其中确定器(62)被配置为将具有与视差候选集合相关联的不相似度中与其相关联的最小不相似度的预定视差确定为视差。

17.根据权利要求16所述的系统，其中

确定器(62)被配置为在置信度测量值太低或者不确定性测量太高的情况下通过忽略所确定的视差并且用替代视差替代所确定的视差来执行确定。

18.根据权利要求17所述的系统，其中确定器(62)被配置为：

使用空间预测或采用源自不同视图的不同深度/视差图的视差来得出替代视差。

19.一种用于基于第一画面执行视图合成的系统，包括：

根据权利要求16所述的用于生成第一画面(10)相对于第二画面(12)的深度/视差图(64)的系统(66)，以及

视图合成器(68)，被配置为使用深度/视差图(64)执行视图合成，

其中视图合成器(68)被配置为基于深度/视差图和置信度测量或不确定性测量来执行视图合成，或者其中视图合成器(68)被配置为通过取决于置信度测量或不确定性测量控制视图合成依赖于测量的视差的量或相关颜色值来基于深度/视差图和置信度测量或不确定性测量来执行视图合成。

20.一种用于确定测量第一画面(10)的预定位置(16)相对于第二画面(12)的视差的测量的正确性的置信度的置信度测量(58)或测量第一画面(10)的预定位置(16)相对于第二画面(12)的视差的测量的不正确性的可靠性的不确定性测量的方法，包括：

对于与相应视差候选相关联的不相似度(c)具有第一单调性，并且

21.一种计算机程序，具有用于在计算机上运行时执行根据权利要求20所述的方法的程序代码。