CN114372523A

CN114372523A - 一种基于证据深度学习的双目匹配不确定性估计方法

Info

Publication number: CN114372523A
Application number: CN202111675564.1A
Authority: CN
Inventors: 百晓; 王晨; 张亮; 刘冰; 李军; 李俊杰; 陈科; 王晓悦; 安辰; 程姗
Original assignee: Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics; Beihang University; Ordnance Science and Research Academy of China
Current assignee: Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics; Beihang University; Ordnance Science and Research Academy of China
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-19

Abstract

本发明公开一种基于证据深度学习的双目匹配不确定性估计方法，通过卷积神经网络提取和聚合特征，进而获得一个匹配代价体和三个不确定性体，在匹配代价的指导下，计算出证据分布的四个超参数γ，ν，α和β；最后通过四个超参数计算双目匹配视差值，偶然不确定性和认知不确定性。本发明很好地反映出双目匹配的难易程度，提升不确定性估计的表现，而且面对分布外的数据时能给出较高的认知不确定性。

Description

一种基于证据深度学习的双目匹配不确定性估计方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于证据深度学习的双目匹配不确定性估计方法。

背景技术

稠密的深度图为三维重建、视觉SLAM、自动驾驶等应用提供了详细的场景信息。主动感知设备，例如深度相机、激光雷达等，面临着昂贵的成像器件、受限的感知范围或者稀疏的输出等问题，往往难以获得符合要求的稠密深度图。使用双目相机拍摄图像，通过双目匹配可以获得稠密的视差图，然后结合相机成像模型可以重建场景的深度，与主动探测设备相比是一种更方便快捷的方式。

随着深度学习技术的飞速发展，人们提出了很多双目匹配模型，例如PSM-Net,GA-Net和AA-Net等能在公开数据集上取得了较高的精度。但在实际应用中，尤其是在对安全性要求很高的场景下，除了得到高精度的深度图外，输出获取的深度图的不确定性也是非常重要的。例如，对于自动驾驶中关键的避障任务来说，其不仅仅需要准确的深度信息来完成避障操作，也需要知道预测的深度信息的可信度。不确定性根据其来源可以划分为偶然不确定性和认知不确定性。立体匹配中，大多数方法(A quantitative evaluation ofconfidence measures for stereo vision.IEEE Transactions on Pattern Analysisand Machine intelligence,2012)，(Quantitative evaluation of confidencemeasures in a machine learning world.IEEE International Conference onComputer Vision,2017)仅通过手工规则获得置信度来建模偶然不确定性，但认知不确定性往往被忽略。少数方法(What uncertainties do we need in Bayesian deep learningfor computer vision.Advances in Neural Information Processing Systems,2017)，(Sampling-free epistemic uncertainty estimation using approximated variancepropagation.IEEE International Conference on Computer Vision,2019)虽然考虑了偶然不确定性和认知不确定性，但是在网络权重上设置了优先权，这导致在推理过程中估计认知不确定性的计算抽样成本很高。证据方法认为学习是一种证据获取过程。该方法首先将先验直接置于似然函数之上，形成高阶证据分布；然后在培训样本中添加了符合此分布的证据；最后通过学习估计证据分布的参数，可以在不需要抽样的情况下获得偶然不确定性和认知不确定性，极大的减少了运算资源的消耗。

本发明基于证据深度学习理论，提出了一个端到端的双目匹配不确定性估计方法。该方法在估计不确定性值时，为每一个候选的视差值都估计一个不确定性值，然后利用双目匹配的分类概率分布作为指导来对其进行加权平均。这样求得的不确定性充分反映着匹配代价曲线的不确定性。即使输出是同样的视差值，由于计算最终视差的代价曲线不一样，其不确定性也不一样。进一步地提出了两个损失函数项来对没有真实视差标注的区域的不确定性估计进行约束，缓解了不确定性估计损失函数只能在有真实视差标注的区域进行计算的依赖。第一个损失项最小化错误预测区域的证据，从而增加该部分的不确定性。第二个损失函数对视差平滑区域的不确定性值进行平滑性约束，可以将有视差标注像素处的约束传导到周围像素。通过两种损失函数项，没有真实视差值标注的像素也能被用来进行不确定性估计网络的训练，从而提升了不确定性估计的表现。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于证据深度学习的双目匹配不确定性估计方法，该方法以双目图像作为输入，使用四个分支分别估计正态逆伽马分布的四个参数，通过参数同时计算视差值，偶然不确定性和认知不确定性，提升了双目匹配的精度和不确定性估计的性能。

本发明解其技术问题所采用的技术方案是，一种基于证据深度学习的双目匹配不确定性估计方法，证据深度学习(Evidential Deep Learning)方法将学习看作一个证据搜集的过程，通过对似然函数进行建模，以此来构建一个更高阶的证据分布(EvidentialDistribution)。训练集样本通过增加证据的方式来符合这个分布。与其他通过多次采样进行不确定性估计的方法相比，通过学习证据分布的参数，偶然不确定性和认知不确定性能利用证据分布的参数通过公式直接求得，而不需要多次采样来计算。基于采样的方法需要消耗很大的运算资源，因此本发明选择了证据深度学习这种端到端的方式来估计不确定性。

具体包括以下步骤：

(1)输入左目图像和右目图像，使用共享参数的孪生网络分别提取左目图像和右目图像特征；通过一系列的二维卷积和池化操作，得到左目图像和右目图像的特征图；

(2)将左目图像和右目图像的特征图拼接在一起，使用三维卷积操作对所述特征图进行代价聚合，获得匹配代价体和不确定性体；所述匹配代价体和不确定体是对特征进行代价聚合后得到的，匹配代价体用来从中计算不同视差处的匹配相似度，进而得到参数γ；不确定体用来从中计算不同视差处的不确定性参数，并在上述匹配相似度的指导下，计算得到参数ν，α和β；

(3)根据匹配代价体，基于证据深度学习，训练一个神经网络，证据深度学习方法将学习看作一个证据搜集的过程，选择高斯分布的共轭分布，即正态逆伽马分布作为证据分布，然后根据该证据分布在似然函数参数上建模了一个更高阶的证据分布作为后验分布，最后计算出证据分布的超参数γ，ν，α和β，这些参数是正态逆伽马分布的参数，用来计算偶然不确定性和认知不确定性；

(4)通过训练好的神经网络进行双目视差估计，并通过单向前传操作计算偶然不确定性和认知不确定性。

进一步的，步骤(2)中具体实现为：

获得匹配代价体为每一个像素位置计算一个分类概率向量，分类概率向量中的每一个元素对应一个可能的视差值，表示匹配结果为该视差值的概率；不确定体具有三个维度w×h×S_max，w和h分别为特征图的宽和高，S_max为视差范围的最大值；获得的匹配代价体为左目图像中的每一个像素位置计算一个分类概率向量，可能的视差值是指由相机内外参数决定的最小视差值和最大视差值之间的范围，并将其离散化成有限个数值；

将左目图像的特征图的每一个通道都重复S_max次来构建三维特征，使用左目图像的特征图为参照，以不同的位移值即1像素，2像素，…，S_max像素平移右目图像特征图的每一个通道，然后堆叠成三维特征；

重复的将左目图像特征和按照不同值平移的右目图像特征以交叉的方式堆叠在一起，形成新的特征；

利用三维卷积核对堆叠后的特征进行处理，通过四个分支分别得到不同的匹配代价体和不确定性体。

进一步的，步骤(3)中，后验分布的公式为：

q(μ，σ²)＝p(μ，σ²|d₁，d₂，…，d_N)

其中p表示最大化似然，d_i表示匹配代价体中第i个像素的估计视差值，具体为(d₁，d₂，…，d_N)～N(μ，σ²)，均值μ服从高斯分布表示为μ～N(γ，σ²v^-1)，方差σ²服从逆伽马分布表示为σ²～Γ^-1(α，β)，Γ^-1(·)是逆伽马方程，N表示高斯分布，

υ＞0，α＞1，β＞0。

进一步的，步骤(4)中，神经网络通过最小化损失函数训练，损失函数由证据学习损失和两个正则化损失项组成，公式为：

其中，w表示的是神经网络模型参数，

为证据学习损失函数；

和

为两个正则化损失项；λ_pred，λ_smooth和λ_sup是平衡因子；

用来在训练样本的支持下最大化模型证据，

致力于在错误视差估计的区域估计更小的证据参数v和α，从而得到更大的不确定性值，

在视差平滑区域约束不确定性参数的平滑性，从而将对不确定性的约束从有真实视差标注的像素传播到没有真实视差标注的像素处，提升对不确定性估计的约束。

进一步的，步骤(4)中，偶然不确定性，认知不确定性通过以下公式计算：

E[μ]＝γ

其中，μ为均值，σ²为方差，γ，υ，α，β为网络学习到的计算所需要的超参数，E[μ]，E[σ²]和Var[μ]分别表示视差，偶然不确定性，认知不确定性。

本发明的有益效果如下：

本发明与现有技术相比的优点在于：

(1)本发明一种基于证据深度学习的双目匹配不确定性估计方法，通过使用匹配分类概率作为指导来估计不确定性，可以很好地反映出匹配的难易程度。网络训练过程中使用预测误差先验和视差一致性先验，实现在没有真实视差标注的像素处的不确定性值也能得到约束，进而提升不确定性估计的表现。

(2)本发明提出了两个损失函数项来约束不确定性估计网络的训练。通过使用预测误差先验和视差一致性先验，没有真实视差标注的像素处的不确定性值也能得到约束，进而提升不确定性估计的表现。

(3)大量的实验结果表明本发明的方法能够提升双目匹配的精度。本发明的方法不仅仅能在预测误差较大的区域给出较高的不确定性，而且能够在面对分布外数据的时候给出较高的认知不确定性。

附图说明

图1是本发明基于证据深度学习的双目匹配不确定性估计方法的流程示意图；

图2为双目匹配和不确定性估计的可视化结果对比图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详述。

如图1所示，本发明一种基于证据深度学习的双目匹配不确定性估计方法，以自动驾驶为例具体步骤如下：

1)当车辆在路上行驶时，通过机载双目相机获得左目图像和右目图像，使用共享参数的孪生网络分别提取左目图像和右目图像特征，具体使用权重一模一样的CNN网络分别对左右视角图像进行特征提取，并融合多尺度特征。

2)通过一系列的二维卷积和池化操作，得到左目图像和右目图像的特征图；具体可采用常见的基于深度学习的立体匹配算法：PSM-Net、GA-Net和AA-Net作为基础网络结构获取特征图。PSM-Net是一种基于CNN的立体匹配方法，包含空间金字塔池模块和3D CNN。空间金字塔池模块释放全局上下文信息以形成成本量，3D CNN学习调整成本量。GA-Net引入了半全局聚合层和本地引导聚合层，以捕获本地和全局成本依赖性。AA-Net用基于稀疏点的规模内成本聚合和跨规模成本聚合模型取代了常用的3D卷积，从而提高了推理速度。

3)将左目图像的特征图的每一个通道都重复S_max次来构建三维特征，使用左目图像的特征图为参照，以不同的位移值(1像素，2像素，…，S_max像素)来平移右目图像特征图的每一个通道，然后堆叠成三维特征。重复的将左目图像特征和按照不同值平移的右目图像特征以交叉的方式堆叠在一起，形成新的特征。利用三维卷积核对堆叠后的特征进行处理，通过四个分支分别得到不同的匹配代价体和不确定性体。匹配代价体为每一个像素位置计算一个分类概率向量，向量中的每一个元素对应一个可能的视差值，表示匹配结果为该视差值的概率；不确定体具有三个维度w×h×S_max，w和h分别为特征图的宽和高，S_max为视差范围的最大值。对每一个像素位置而言，S_max维度的向量中保存的是在所有可能的视差值下的不确定性参数值。

4)通过计算预测信息的可信度来完成避障操作。首先将匹配代价作为指导，基于证据深度学习，训练一个神经网络计算出证据分布的超参数γ，ν，α和β。

具体地，证据深度学习方法将学习看作一个证据搜集的过程，选择高斯分布的共轭分布，即正态逆伽马分布作为证据分布，然后根据该证据分布在似然函数参数上建模了一个更高阶的证据分布作为后验分布，

后验分布的公式为：

q(μ，σ²)＝p(μ，σ²|d₁，d₂，…，d_N)

υ＞0，α＞1，β＞0。

具体地，神经网络通过最小化损失函数训练，完整的损失函数由证据学习损失项和两个正则化损失项组成，公式为：

其中w表示的是神经网络模型参数；

为证据学习损失函数；

和

为两个正则化损失项；λ_pred，λ_smooth和λ_sup是平衡因子。

用来在训练样本的支持下最大化模型证据，

致力于在错误视差估计的区域给出更大的不确定性值。当车载相机出现模糊、遮挡、过曝光或者进入陌生的场景时，双目匹配算法有很大的概率出现预测错误，

通过估计更小的证据参数v和α，从而得到更大的不确定性值。上述的正则化项只约束了α和υ，而没有对β进行约束。为了减少输出正态逆伽马分布的超参的噪声以及使得β值估计更加准确，需要通过利用有真实视差标注区域的信息来约束无真实视差标注区域的输出。对双目匹配任务来说，超参估计可以受益于附近区域的信息且对于视差连续的区域都适用。因此，提出了一种平滑正则化损失项

该损失项约束视差平滑区域的超参数值α，β和υ。

5)跟随深度证据回归的框架，训练一个神经网络来推断NIG证据分布的超参数m＝(γ，υ，α，β)。通过训练好的网络进行双目视差估计，并通过单向前传操作计算偶然不确定性和认知不确定性。对于可能会出现很大偏差的深度图给予一个高的不确定性，可以及时地给出警报，防止自动驾驶系统因错误估计的深度值而做出不当的决策。具体地双目视差，偶然不确定性，认知不确定性可以通过以下公式计算：

E[μ]＝γ

其中μ为均值，σ²为方差，γ，υ，α，β为网络学习到的计算所需要的超参数。

本发明适用于大多数双目匹配方法，选择PSM-Net、GA-Net和AA-Net作为基础模型，源代码使用PyTorch框架实现。训练期间，双目图像对被随机裁剪并输入网络。裁剪图像的大小与原始论文中的基本模型一致。采用4个NVIDIA 2080TI GPU训练网络，每次训练的样本数为1。首先在Sceneflow数据集上对网络进行了15次训练迭代的预训练。然后在KITTI数据集上通过200次训练迭代对网络进行微调，其中初始学习率设置为0.001。

本实验比较了两种不同网络结构来估计视差和不确定的结果，如表1所示。其中PSM-Net-re、GA-Net-re和AA-Net-re表示卷积直接从成本聚合模块的输出v、α和β，不使用匹配概率作为指导的方法。PSM-Net-un、GA-Net-un和AA-Net-un表示本发明所述方法。为了验证本发明的有效性，采用平均误差作为度量来评估估计视差与地面真实值的平均偏差。此外，使用文献(Self-supervised multiscale adversarial regression network forstereo disparity estimation.IEEE Transactions on Cybernetics,2020)中建议的阈值为3计算错误率。为了评估不确定性的质量，首先将视差图中所有像素按照消除不确定性的高低进行排序。然后，去除不确定性最高的像素，并在剩余像素上计算视差度量。最后，根据真实误差对像素进行排序，得到最佳稀疏图。最终采用两个定量指标：稀疏化误差下的面积(AUSE)和随机增益下的面积(AURG)。其中，AUSE表示估计稀疏图和最佳稀疏图之间的差异，因此越低越好。AURG是通过从随机稀疏图中减去估计稀疏图所得，所以越高越好。

表1估计结果比较

表1表明，相较于本发明，PSM-Net-re、GA-Net-re和AA-Net-re在不确定性估计方面表现较差。此外，它们还降低了双目匹配的精度，这是由于在没有匹配概率作为指导的情况下，所有像素使用相同卷积核，则无法区分不同差异的证据。通过使用匹配概率作为指导，不确定性可以有效地反映双目匹配的困难。因此，本发明建模的偶然不确定性和认知不确定性可以提高双目匹配性能。

图2显示了双目匹配和不确定性估计的可视化结果，(a)左目图像；(b)PSM-Net-re的估计视差；(c)本发明的估计视差；(d)视差误差图；(e)偶然不确定性；(f)认知不确定性，这里(e)(f)中越亮的部分代表不确定性越高。由图2可知(b)PSM-Net-re的估计视差图中较亮区域更多，尤其是天空部分与(c)相比亮度相差较大，估计视差也较大。这是由于有些区域很难匹配，例如天空、对象边界和小目标，它们被分配了高度的不确定性，很有可能得到错误的预测。而本发明所述方法在这些区域表现良好，双目匹配中的不确定性建模可用于学习损耗衰减，从而提高精度。

在一些对安全性要求较高的领域，例如自动驾驶领域，除了需要得到模型的计算结果之外，还需要对结果的可信度进行评估。以基于双目匹配的深度估计为例，如果可以知道某个位置计算的深度值不确定性较高，则可及时给出预警，避免事故的发生。不确定性根据其来源可以划分为偶然不确定性和认知不确定性，偶然不确定性描述的是数据中内在的噪声，是不可避免的误差且不能通过增加采样数量来消除。认知不确定性与某个单独的数据无关，是模型自身对输入数据的估计可能因为训练不充分或者训练数据集不够而不准确，表示的是训练过程本身所估计的模型参数的不确定性。

自动驾驶只是举例说明，本发明还可以应用于其他技术领域如：航空测绘、虚拟三维重建以及工业精密检测等等，但是所用技术皆属于计算机视觉技术领域。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于证据深度学习的双目匹配不确定性估计方法，其特征在于，步骤如下：

2.根据权利要求1所述的基于证据深度学习的双目匹配不确定性估计方法，其特征在于，步骤(2)中具体实现为：

(21)获得匹配代价体为每一个像素位置计算一个分类概率向量，分类概率向量中的每一个元素对应一个可能的视差值，表示匹配结果为该视差值的概率；不确定体具有三个维度w×h×S_max，w和h分别为特征图的宽和高，S_max为视差范围的最大值；获得的匹配代价体为左目图像中的每一个像素位置计算一个分类概率向量，可能的视差值是指由相机内外参数决定的最小视差值和最大视差值之间的范围，并将其离散化成有限个数值；

(22)将左目图像的特征图的每一个通道都重复S_max次来构建三维特征，使用左目图像的特征图为参照，以不同的位移值即1像素，2像素，…，S_max像素平移右目图像特征图的每一个通道，然后堆叠成三维特征；

(23)重复的将左目图像特征和按照不同值平移的右目图像特征以交叉的方式堆叠在一起，形成新的特征；

(24)利用三维卷积核对堆叠后的特征进行处理，通过四个分支分别得到不同的匹配代价体和不确定性体。

3.根据权利要求1所述的基于证据深度学习的双目匹配不确定性估计方法，其特征在于，所述步骤(3)中，后验分布的公式为：

q(μ，σ²)＝p(μ，σ²|d₁，d₂，…，d_N)