CN113313740B

CN113313740B - 一种基于平面连续性的视差图和表面法向量联合学习方法

Info

Publication number: CN113313740B
Application number: CN202110532807.XA
Authority: CN
Inventors: 百晓; 王欣; 张亮; 周晓清; 王晨; 刘祥龙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2023-01-31
Anticipated expiration: 2041-05-17
Also published as: CN113313740A

Abstract

本发明涉及一种基于平面连续性的视差图和表面法向量联合学习方法及系统，其方法包括：步骤S1：利用金字塔立体匹配网络，得到双目RGB图像的视差图；步骤S2：根据遮挡区域检测模块，预测遮挡概率，获得遮挡区域概率图；步骤S3：根据表面法向量优化网络，获得精确表面法向量；步骤S4：根据视差图优化网络，获得精确视差图；步骤S5：根据精确视差图、精确表面法向量和遮挡区域概率图，联合构建总损失函数。本发明提供的方法，针对人造环境中存在的大量平面结构，结合表面法向量信息可以有效减少遮挡区域的估计误差，尤其在遮挡区域，可有效地提升立体匹配的精确度，可用于三维重建、增强现实等领域。

Description

一种基于平面连续性的视差图和表面法向量联合学习方法

技术领域

本发明涉及计算机视觉立体匹配领域，具体涉及一种基于平面连续性的视差图和表面法向量联合学习方法及系统。

背景技术

立体匹配是一个经典的计算机视觉问题，在自动驾驶、三维重建、3D目标检测与识别等领域有着至关重要的应用。立体匹配的目标是从一对校正的立体图像中计算出左图的每个像素相对于右图的水平偏移，即视差。对于左图上一点的像素坐标(x，y)，右图上对应点的像素坐标为(x-d，y)，则像素的深度为(f·B)/d，其中f为相机的焦距，B为基线距离，即两个相机中心之间的距离。在无纹理区域或者遮挡区域，由于存在匹配歧义或者没有有效匹配，立体匹配的方法输出视差不够准确。此外，立体匹配网络模型为了平衡性能和计算效率通常包含降采样模块，在原始图像的1/3、1/4甚至1/8尺度进行匹配，导致立体匹配输出的视差图缺乏细节。

通常，立体匹配的优化步骤使用视差图对应的RGB图像信息作为引导，迫使深度图或者视差图的一阶平滑与图像信息的一阶平滑近似，避免视差图在引导图像的边缘(通常对应物体的边界)处平滑，从而修正错误视差估计并增强视差图的局部细节。经典的立体视觉方法，采用左右差异LRD，不连续性差异DD，中值视差差异MED以及一些先验性信息，例如左图最左侧的一些点在右图中没有匹配点等信息，作为输入预测立体匹配结果的置信度，移除低置信度的视差预测，通过双边滤波器以及非局部锚定NLA等方法借助高置信度的视差值优化低置信度的视差值。基于深度学习的立体匹配方法，以左图的图像或者图像特征作为引导信息，通过数据驱动的方式迫使CNN模型学习粗糙视差图和优化视差图的映射。StereoNet将优化步骤视为使用图像输入作为指导来膨胀或腐蚀视差值以融合高频细节，优化网络采用一个紧凑的网络学习像素到像素的映射，目的是学习粗糙的视差图与优化的视差图之间的残差。为了使视差估计对遮挡和视觉一致性更鲁棒，StereoDRNet提出了一个视差优化模型，输入左图、视差图、图像重建误差图和几何误差图，输出遮挡预测图和优化视差图，同时对遮挡区域预测和视差优化进行约束。类似地，AANet+采用一个更复杂的沙漏模型结构优化模型进一步提高了优化效果。为了使输入更具可解释性，MSMDNet输入左图特征，左图特征与右图特征的重建误差，以及变形的后3D匹配代价体，变形的3D匹配代价体首先将右图通过预测视差进行变形，再与左图特征求内积。然而，假设视差图与引导图像或者引导图像的特征的一阶平滑近似过于简单，没有利用任何几何信息，不能准确地建模在图像空间的视差值变化，例如同一个平面的像素值或特征值是近似的，但是深度或者视差值是变化的，一阶平滑不能准确地建模这种变化。

表面法向量估计是重要的场景理解任务，一些基于学习的方法从RGB图中直接预测表面法向量的方法，一些单目深度估计方法以监督或者无监督的方式从RGB图像中联合学习深度和表面法向量，由于这些方法缺乏几何先验，实际效果并不理想。相对来说，立体匹配方法有更强的几何先验，同时表面法向量是平面的方向表示，在大多数人造的环境中存在大量平面结构，这些平面结构本身也是一种很强的几何约束，因此立体匹配可以为表面法向量预测提供几何先验，而表面法向量则可以为立体匹配提供局部的几何约束，然而双目立体视觉与表面法向量估计进行结合的研究并不多。

发明内容

为了解决上述技术问题，本发明提供一种基于平面连续性的视差图和表面法向量联合学习方法及系统。

本发明技术解决方案为：一种基于平面连续性的视差图和表面法向量联合学习方法，包括：

步骤S1：将双目RGB图像进行预处理，得到预处理后的双目RGB图像，将其输入金字塔立体匹配网络，获得匹配代价体和视差图；

步骤S2：根据所述预处理后的双目RGB图像，计算得到图像重建误差；将所述视差图和所述匹配代价体，输入遮挡区域检测模块，预测遮挡概率，结合所述图像重建误差，获得遮挡区域概率图；

步骤S3：根据所述视差图，计算初始表面法向量；将所述视差图、所述初始表面法向量和所述遮挡区域概率图，输入表面法向量优化网络，获得精确表面法向量；

步骤S4：将所述精确表面法向量和所述遮挡区域概率图，输入视差图优化网络，获得精确视差图；

步骤S5：根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图，联合构建总损失函数。

本发明与现有技术相比，具有以下优点：

本发明提供的一种基于平面连续性的视差图和表面法向量预测的联合学习方法，针对人造环境中存在的大量平面结构，结合表面法向量信息，有效减少遮挡区域的估计误差，尤其在遮挡区域，可显著地提升立体匹配的精确度，可用于三维重建、增强现实等领域。

附图说明

图1为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法的流程图；

图2为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S1：将双目RGB图像进行预处理，得到预处理后的双目RGB图像，将其输入金字塔立体匹配网络，获得匹配代价体和视差图的流程图；

图3为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S2：根据预处理后的双目RGB图像，计算得到图像重建误差；将视差图和匹配代价体，输入遮挡区域检测模块，预测遮挡概率，结合图像重建误差，获得遮挡区域概率图的流程图；

图4为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S3：根据视差图，计算初始表面法向量；将视差图、初始表面法向量和遮挡区域概率图，输入表面法向量优化网络，获得精确表面法向量的流程图；

图5为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S4：将精确表面法向量和遮挡区域概率图，输入视差图优化网络，获得精确视差图的流程图；

图6为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S5：根据精确视差图、精确表面法向量和遮挡区域概率图，联合构建总损失函数的流程图；

图7为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中所使用网络模型示意图；

图8为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习系统的结构框图。

具体实施方式

本发明提供了一种基于平面连续性的视差图和表面法向量联合学习方法，结合表面法向量信息可以有效减少遮挡区域的估计误差，产生比现有方法更高精确度的视差图，可用于三维重建、增强现实等领域。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于平面连续性的视差图和表面法向量联合学习方法，包括下述步骤：

步骤S2：根据预处理后的双目RGB图像，计算得到图像重建误差；将视差图和匹配代价体，输入遮挡区域检测模块，预测遮挡概率，结合图像重建误差，获得遮挡区域概率图；

步骤S3：根据视差图，计算初始表面法向量；将视差图、初始表面法向量和遮挡区域概率图，输入表面法向量优化网络，获得精确表面法向量；

步骤S4：将精确表面法向量和遮挡区域概率图，输入视差图优化网络，获得精确视差图；

步骤S5：根据精确视差图、精确表面法向量和遮挡区域概率图，联合构建总损失函数。

如图2所示，在一个实施例中，上述步骤S1：将双目RGB图像进行预处理，得到预处理后的双目RGB图像，将其输入金字塔立体匹配网络，获得匹配代价体和视差图，具体包括：

步骤S11：分别对左视点和右视点RGB图像进行预处理，分别获得预处理后的左视点图像和预处理后的右视点图像；

将训练集中的左视点和右视点RGB图像进行相同预处理，即将RGB图像的所有像素值除以255，使得像素值的取值范围为[0，1]，然后分别减去和除以从ImageNet数据集上计算的均值和方差，随机选取H×W个像素大小的区域，取RGB三个颜色通道组成3×H×W预处理后的图像。

步骤S12：将预处理后的左视点和预处理后的右视点图像输入特征提取网络，分别获得左视点特征图和右视点特征图；

将预处理后的左视点和右视点图像分别输入两组共享权重的特征提取网络，其参数如下表1所示，即3×H×W输入图像经过由3个3x3,32卷积串联的卷积层conv0输出

特征图，后续4个卷积层conv1-conv4由基本残差块串联组成，卷积层conv1由2个3x3,32卷积串联输出

特征图，卷积层conv2由16个3x3,64卷积串联输出

特征图，卷积层conv3由3个膨胀率为2的3x3,128膨胀卷积串联输出

特征图，卷积层conv4由3个膨胀率为4的3x3,128膨胀卷积串联输出

的左视点特征图和右视点特征图。

表1特征提取网络参数

步骤S13：将左视点特征图和右视点特征图输入两组空间金字塔池化模块，分别获得左视点池化后的特征图和右视点池化后特征图；

将左视点特征图和右视点特征图分别输入两组共享权重的空间金字塔池化模块，该模块由4个分支branch1-branch4并联组成，其参数如下表2所示，每个分支由一个固定尺寸的平均池化块、一个1x1,32卷积、一个批规范化层和一个ReLU串联组成，branch1池化窗口为64x64，branch2池化窗口为32x32，branch3池化窗口为16x16，branch4池化窗口为8x8，branch1-branch4分别输出4张

特征图，与步骤S12中conv2输出的

特征图、conv4输出的

特征图拼接形成

特征图，经过由两个3x3,128和1x1,32卷积串联组成的卷积层输出

的左视点池化后的特征图和右视点池化后特征图。

表2金字塔池化模块参数

步骤S14：将左视点池化后的特征图与右视点池化后的特征图按照预设的视差级别进行拼接，形成4D匹配代价体；

本步骤中根据预设视差级别数为D，将左视点池化后的特征图与右视点每个视差级别对应的特征拼接，输出

匹配代价体。

步骤S15：使用三个3D卷积沙漏网络沿匹配代价体的视差维度和空间维度进行代价聚合，分别获得三个聚合后的匹配代价体匹配代价体c^k，k＝0，1，2，表示第k个3D卷积沙漏网络聚合的匹配代价体；

沿匹配代价体的视差维度和空间维度经过3D CNN网络，其参数如下表3所示，进行特征聚合，即匹配代价体经过由2个3x3x3,32卷积串联的3Dconv0输出

特征，经过由两个3x3x3,32卷积串联的3Dconv1输出

特征，后续经过3个串联的带残差连接的沙漏网络3Dstack1-3Dstack3，3个沙漏网络均包括4个3x3x3,64卷积、1个3x3x3,64反卷积和1个3x3x3,32反卷积输出

代价体，3个沙漏网络输出的代价体各自经过2个3x3x3,32卷积和3x3x3,1卷积输出3个

代价体c^k，k＝0，1，2表示第k个匹配代价体。

表3 3D CNN网络参数

步骤S16：从三个聚合后的代价体回归视差，获得三个视差图d^k，k＝0，1，2表示第k个匹配代价体回归的视差图。

从代价体中回归视差，即使用双线性插值将步骤S15输出的

代价体上采样到D×H×W，代价体第一个维度的代价值记为c_d，softmax操作为σ，每个视差级别为d，估计视差值为d′，通过

聚合得到3张1×H×W视差图。

如图3所示，在一个实施例中，上述步骤S2：根据预处理后的双目RGB图像，计算得到图像重建误差；将视差图和匹配代价体，输入遮挡区域检测模块，预测遮挡概率，结合图像重建误差，获得遮挡区域概率图，具体包括：

步骤S21：根据预处理后的左视点和预处理后的右视点图像，计算得到图像重建误差；

对步骤S11得到的预处理后的左视点和右视点3ΔHΔW图像，计算图像重建误差，即右视点像素坐标在x方向减去视差图后作为采样位置，在左视点3×H×W图I_ref上进行双线性插值采样得到

后取RGB通道的平均值得到1×H×W图像重建误差F_re。

步骤S22：将视差图d²和匹配代价体c²，输入遮挡区域检测模块，预测遮挡概率，结合图像重建误差，获得遮挡区域概率图。

将步骤S16中3Dstack3输出的1×H×W视差图输入遮挡区域检测模块，其参数如下表4所示，即经过一个3x3,1卷积和一个1x1,1卷积，输出1×H×W遮挡区域概率图U_disp，将步骤S16中上采样后的D×H×W匹配代价体经过一个3x3,64卷积和一个1x1,1卷积后，输出1×H×W遮挡区域概率图U_cost。将U_disp、U_cost和步骤S21得到的E_re通过线性回归学习得到最终的遮挡区域概率图U，概率取值范围为[0,1]。

表4遮挡区域检测模块参数

如图4所示，在一个实施例中，上述步骤S3：根据视差图，计算初始表面法向量；将视差图、初始表面法向量和遮挡区域概率图，输入表面法向量优化网络，获得精确表面法向量，具体包括：

步骤S31：根据视差图，计算初始表面法向量；

利用步骤S16输出的视差图计算每个像素点的表面法向量，即已知相机内参数

双目相机基线长度b、左视点视差图中某像素点(x，y)的视差d_i，由摄像机成像及三角测量关系得出该像素点对应的三维空间点坐标

利用Sobel算子进行滤波操作得到三维点云上该点处沿X和沿Y方向的梯度，对两个方向的梯度进行叉积运算，得到三维点云的初始表面法向量图。

步骤S32：将视差图、初始表面法向量和遮挡区域概率图，输入表面法向量优化网络，获得特征向量以及精确表面法向量。

使用表面法向量优化网络块对初始表面法向量图进行优化，表面法向量优化网络包括2个串联的沙漏结构网络，其参数如下表5所示。将步骤S16输出的视差图和步骤S22输出的遮挡区域概率图拼接后，经过3x3,16卷积、批规范化和ReLU得到16×H×W特征conv1，步骤S31输出的初始表面法向量经过3x3,16卷积、批规范化和ReLU得到16×H×W特征conv2；特征conv1和conv2拼接后经过第一个沙漏结构网络2Dstack1输出32×H×W特征，经过第二个沙漏结构网络2Dstack2输出32×H×W特征，沙漏结构网络2Dstack1依次包括3x3,48卷积、3x3,64卷积、3x3,96可变形卷积、3x3,128可变形卷积、3x3,128带残差的反卷积、3x3,96带残差的反卷积、3x3,48带残差的反卷积和3x3,32带残差的反卷积，沙漏结构网络2Dstack2依次包括3x3,48带残差的卷积、3x3,64带残差的卷积、3x3,96带残差的可变形卷积、3x3,128带残差的可变形卷积、3x3,128带残差的反卷积、3x3,96带残差的反卷积、3x3,48带残差的反卷积和3x3,32带残差的反卷积；第二个沙漏网络2Dstack2输出的32×H×W特征分别经3x3,3卷积得到表面法向量残差res_dec，经3x3,8卷积得到特征向量sim_dec；表面法向量残差res_dec与步骤S31输出的初始表面法向量相加，得到三维点云的精确表面法向量。

表5表面法向量优化网络

如图5所示，在一个实施例中，上述步骤S4：将精确表面法向量和遮挡区域概率图，输入视差图优化网络，获得精确视差图，具体包括：

步骤S41：将预处理后的左视点图像和特征向量，经过卷积操作，得到每个像素(x_i，y_i)的8个非局部邻居像素坐标(x_ik，y_ik)及相似度w′_ik，k＝1...8，结合遮挡区域概率图，获得传播权重w_ik；

以步骤S11输出的预处理后的左视点图像和步骤S32输出的特征向量sim_dec作为输入，经过一个3x3卷积得到每个像素(x_i，y_i)的8个非局部邻居像素坐标(x_ik，y_ik)及相似度w′_ik，k＝1...8，将每个相似度与步骤S22得到的遮挡区域概率图相乘，得到传播权重w_ik。

步骤S42：三维空间点P₀(X₀，Y₀，Z₀)的精确表面法向量n₀＝(a₀，b₀，c₀)^T，点P₀与同物体表面上的另一点P(X，Y，Z)存在如下述公式(1)所示的关系：

令

得到下述公式(2)：

a₀X+b₀Y+c₀Z-ρ₀＝0 (2)

设摄像机焦距为f_x、f_y，中心点为c_x、c_y，其将三维空间点P(X，Y，Z)、P₀(X₀，Y₀，Z₀)分别投影到二维成像平面的像素位置(x，y)、(x₀，y₀)，将下述针孔摄像机模型公式(3)，带入公式(2)，可得到下述公式(4)：

X＝D·(x-c_y)/f_y，Y＝D·(y-c_y)/f_y (3)

引入二维向量

其中

公式(4)可简化为公式(5)：

已知Z与视差值d的关系为d＝f_xb/Z，则用视差值d替换上式中的Z可得公式(6)：

d＝d₀+f_xbu₀·[x-x₀，y-y₀]^T (6)

公式(6)为视差图在图像上点(x₀，y₀)处的一阶泰勒展开式，f_xbu₀近似于

当点(x，y)和点(x₀，y₀)在同一平面时，该公式(6)建模了同一平面上两点之间的视差关系模型；

步骤S43：根据步骤S41得到像素(x_i，y_i)的8个非局部邻居像素坐标(x_ik，y_ik)及相似度w′_ik，k＝1...8，步骤S22得到每个像素点i处的遮挡概率U_i，像素(x_i，y_i)的8个非局部邻居像素处的遮挡概率U_ik，k＝1...8，以及步骤S11得到像素(x_i，y_i)处原始视差估计值

则在8个非局部邻居像素进行空间传播后得到优化视差值，如下述公式(7)所示，构建视差图优化网络，其参数如下表6所示：

公式(7)表示当点(x_i，y_i)大概率为遮挡区域时，它的视差使用采样的视差值近似。

名称	层级参数	输出维数
			input<sub>sim_dec</sub>	8×H×W
conv_offset_aff	3×3.24	24×H×W
			input<sub>conf</sub>	1×H×W
deconv	deconv3×3.8	8×H×W

表6视差图优化网络参数

步骤S44：将精确表面法向量和遮挡区域概率图，输入视差图优化网络，获得精确视差图。

如图6所示，在一个实施例中，上述步骤S5：根据精确视差图、精确表面法向量和遮挡区域概率图，联合构建总损失函数，具体包括：

步骤S51：训练数据集中左视点视差图Ground Truth记为d，步骤S16输出最后三个视差图记为d^k，k＝0，1，2，表示第k个视差图，步骤S43输出的优化后视差图记为

，构建视差图的损失函数项如下述公式(9)所示：

其中，λ_k为权重平衡参数，设置λ₀为0.5，λ₁为0.7，λ₂为1.0，N为在视差图GroundTruth中有真值且真值在预设范围内的像素点个数，i为第i个像素，

为平滑L1损失。

对于表面法向量，一些文章使用余弦相似性损失进行约束，有些使用L1范数损失进行约束，虽然余弦相似性损失对于表面法向量约束更加直接，但是和L2范数损失相同，它对于外点有过大的惩罚训练不稳定，因此本发明实施例使用平滑L1损失进行约束。

步骤S52：步骤S31得到的初始表面法向量Ground Truth记为N，步骤S32得到的精确表面法向量记为

构建表面法向量的损失函数项如下述公式(10)所示：

其中，

为平滑L1损失；

步骤S53：对训练数据集中左右视点视差图应用左右一致性检验得到的遮挡图Ground Truth记为U，步骤S22输出的遮挡区域概率图为

使用交叉熵损失构建遮挡区域概率图的损失函数项如下述公式(11)所示：

其中，N为在视差图Ground Truth中有真值且真值在预设范围内的像素点个数，U_i∈{0，1}表示i点是否处于遮挡区域，0为不在遮挡区域，1为在遮挡区域，

表示模型预测点i处于遮挡区域的概率；

步骤S54：总损失函数为如下述公式(12)所示：

L＝L_d+3×L_N+L_U (12)。

综上所述，如图7所示为本发明实施例中基于平面连续性的视差图和表面法向量联合学习方法中所使用网络模型示意图。

针对在大多数人造的环境中存在大量平面结构，本发明提供一种基于平面连续性的视差图和表面法向量预测的联合学习方法，解决了立体匹配中由于遮挡的导致无法获得有效匹配的问题，结合表面法向量信息可以有效减少遮挡区域的估计误差，尤其在遮挡区域，可有效地提升立体匹配的精确度，可用于三维重建、增强现实等领域。

本发明实施例在SceneFlow数据集上进行训练和测试，使用PyTorch来实现算法模型。训练和测试使用4块10GB的NVIDIARTX 2080Ti。在训练阶段，batch size设为8，使用Adam优化器进行端到端优化，Adam优化器参数统一为β₁＝0.9，β₂＝0.999，训练图片被随机裁剪为256x512的图片，测试时用整张图片。在训练和推断时，使用ImageNet数据集图像的均值和方差对输入图像进行标准化。本发明实施例采用骨干网络为金字塔立体匹配网络，因此可处理视差的范围为[0,192)。具体训练过程为，训练模型20个epoch，其中前10个epoch关闭优化模块，只优化主干网络和表面法向量估计网络，以保证视差回归和表面法向量估计模型收敛到合理值，后10个epoch对整个模型进行优化得到最优结果，初始学习率设为0.0001，10个epoch之后每4个epoch学习率下降一半。完成模型训练之后，只需保存模型即可完成对场景中任意的输入图像进行视差和表面法向量联合学习。

表6不同方法在SceneFlow测试集的性能对比

表6是本发明提供的方法与当前主流方法在SceneFlow测试集上的性能对比，EPE为终端像素误差(预测值与真实视差值的平均误差)，3PE为三像素误差(预测值与真实视差值的误差大于3个像素的占比)，ALL表示所有的有效像素(视差值<192)，OCC表示包含有效像素的遮挡区域(视差值<192且处于遮挡区域)。从表中可以看出，本发明提出的方法精确度相比当前主流立体视觉模型有较大提升，尤其在遮挡区域提升更加明显，显示了本发明的有效性。

实施例二

如图8所示，本发明实施例提供了一种基于平面连续性的视差图和表面法向量联合学习系统，包括下述模块：

获得匹配代价体和视差图模块61，用于将双目RGB图像进行预处理，得到预处理后的双目RGB图像，将其输入金字塔立体匹配网络，获得匹配代价体和视差图，获得三个匹配代价体和视差图，其中最后一个匹配代价体和视差图作为后续模块的输入；

获得遮挡区域概率图模块62，用于根据预处理后的双目RGB图像，计算得到图像重建误差；将视差图和匹配代价体，输入遮挡区域检测模块，预测遮挡概率，结合图像重建误差，获得遮挡区域概率图；

获得精确表面法向量模块63，用于根据视差图，计算初始表面法向量；将视差图、初始表面法向量和遮挡区域概率图，输入表面法向量优化网络，获得精确表面法向量；

获得精确视差图模块64，用于将精确表面法向量和遮挡区域概率图，输入视差图优化网络，获得精确视差图；

构建总损失函数模块65，用于根据精确视差图、精确表面法向量和遮挡区域概率图，联合构建总损失函数。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于平面连续性的视差图和表面法向量联合学习方法，其特征在于，包括：

步骤S3：根据所述视差图，计算初始表面法向量；将所述视差图、所述初始表面法向量和所述遮挡区域概率图，输入表面法向量优化网络，获得特征向量以及精确表面法向量；

步骤S4：将所述精确表面法向量和所述遮挡区域概率图，输入视差图优化网络，获得精确视差图，具体包括：

步骤S41：将所述预处理后的左视点图像和所述特征向量，经过卷积操作，得到每个像素(x_i，y_i)的8个非局部邻居像素坐标(x_ik，y_ik)及相似度w′_ik，k＝1...8，结合所述遮挡区域概率图，获得传播权重w_ik；

步骤S42：根据三维空间点P₀(X₀，Y₀，Z₀)的所述精确表面法向量n₀＝(a₀，b₀，c₀)^T，所述点P₀与同物体表面上的另一点P(X，Y，Z)存在如下述公式(1)所示的关系：

令

得到下述公式(2)：

a₀X+b₀Y+c₀Z-ρ₀＝0 (2)

设摄像机焦距为f_x、f_y，中心点为c_x、c_y，其将三维空间点P(X，Y，Z)、P₀(X₀，Y₀，Z₀)分别投影到二维成像平面的像素位置(x，y)、(x₀，y₀)，将下述针孔摄像机模型公式(3)带入公式(2)，可得到下述公式(4)：

X＝D·(x-c_y)/f_y，Y＝D·(y-c_y)/f_y (3)

引入二维向量

其中

公式(4)可简化为公式(5)：

已知Z与视差值d的关系为d＝f_xb/Z，则用所述视差值d替换公式(5)的Z可得公式(6)：

d＝d₀+f_xbu₀·[x-x₀，y-y₀]^T (6)

公式(6)为所述视差图在图像上点(x₀，y₀)处的一阶泰勒展开式，f_xbu₀近似于

步骤S43：由步骤S41得到像素(x_i，y_i)的8个所述非局部邻居像素坐标(x_ik，y_ik)及相似度w′_ik，k＝1...8，由步骤S22得到每个像素点i处的遮挡概率U_i，像素(x_i，y_i)的8个非局部邻居像素处的遮挡概率U_ik，k＝1...8，由步骤S11可得到像素(x_i，y_i)处原始视差估计值

则在8个所述非局部邻居像素进行空间传播后得到优化视差值，如下述公式(7)所示，构建视差图优化网络：

公式(7)表示当(x_i，y_i)点大概率为遮挡区域时，它的视差使用采样的视差值近似；

步骤S44：将所述精确表面法向量和所述遮挡区域概率图，输入所述视差图优化网络，获得精确视差图；

步骤S5：根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图，联合构建总损失函数，具体包括：

构建视差图的损失函数项如下述公式(9)所示：

其中λ_k为权重平衡参数，N为在视差图Ground Truth中有真值且真值在预设范围内的像素点个数，i为第i个像素，

为平滑L1损失；

步骤S52：步骤S31得到的所述初始表面法向量Ground Truth记为N，步骤S32得到的所述精确表面法向量记为

构建表面法向量的损失函数项如下述公式(10)所示：

其中，

为平滑L1损失；

步骤S53：对训练数据集中左右视点视差图应用左右一致性检验得到的遮挡图GroundTruth记为O，步骤S22输出的所述遮挡区域概率图为U，使用交叉熵损失构建遮挡区域概率图的损失函数项如下述公式(11)所示：

表示模型预测点i处于遮挡区域的概率；

步骤S54：总损失函数为如下述公式(12)所示：

L＝L_d+3×L_N+L_U (12)。

2.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法，其特征在于，所述步骤S1：将双目RGB图像进行预处理，得到预处理后的双目RGB图像，将其输入金字塔立体匹配网络，获得匹配代价体和视差图，具体包括：

步骤S12：将所述预处理后的左视点和所述预处理后的右视点图像输入特征提取网络，分别获得左视点特征图和右视点特征图；

步骤S13：将所述左视点特征图和所述右视点特征图输入两组空间金字塔池化模块，分别获得左视点池化后的特征图和右视点池化后特征图；

步骤S14：将所述左视点池化后的特征图与所述右视点池化后的特征图按照预设的视差级别进行拼接，形成4D匹配代价体；

步骤S15：使用三个3D卷积沙漏网络沿所述匹配代价体的视差维度和空间维度进行代价聚合，分别获得三个聚合后的匹配代价体匹配代价体c^k，k＝0，1，2，表示第k个3D卷积沙漏网络聚合的匹配代价体；

步骤S16：从所述三个聚合后的匹配代价体回归视差，获得三个视差图d^k，k＝0，1，2，表示第k个匹配代价体回归的视差图。

3.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法，其特征在于，所述步骤S2：根据预处理的双目RGB图像，计算得到图像重建误差；将所述视差图、所述图像重建误差和所述匹配代价体，输入遮挡区域检测模块，预测遮挡概率，结合所述图像重建误差，获得遮挡区域概率图，具体包括：

步骤S21：根据所述预处理后的左视点和所述预处理后的右视点图像，计算得到图像重建误差；

步骤S22：将所述视差图d²和所述匹配代价体c²，输入遮挡区域检测模块，预测遮挡概率，结合所述图像重建误差，获得遮挡区域概率图。

4.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法，其特征在于，所述步骤S3：根据所述视差图，计算初始表面法向量；将所述视差图、所述初始表面法向量和所述遮挡区域概率图，输入表面法向量优化网络，获得特征向量以及精确表面法向量，具体包括：

步骤S31：根据所述视差图，计算初始表面法向量；

步骤S32：将所述视差图、所述初始表面法向量和所述遮挡区域概率图，输入表面法向量优化网络，获得特征向量以及精确表面法向量。

5.一种基于平面连续性的视差图和表面法向量联合学习系统，其特征在于，包括下述模块：

获得匹配代价体和视差图模块，用于将双目RGB图像进行预处理，得到预处理后的双目RGB图像，将其输入金字塔立体匹配网络，获得三个匹配代价体和视差图，其中最后一个匹配代价体和视差图作为后续模块的输入；

获得遮挡区域概率图模块，用于根据所述预处理后的双目RGB图像，计算得到图像重建误差；将所述视差图和所述匹配代价体，输入遮挡区域检测模块，预测遮挡概率，结合所述图像重建误差，获得遮挡区域概率图；

获得精确表面法向量模块，用于根据所述视差图，计算初始表面法向量；将所述视差图、所述初始表面法向量和所述遮挡区域概率图，输入表面法向量优化网络，获得特征向量以及精确表面法向量；

获得精确视差图模块，用于将所述精确表面法向量和所述遮挡区域概率图，输入视差图优化网络，获得精确视差图，具体包括：

令

得到下述公式(2)：

a₀X+b₀Y+c₀Z-ρ₀＝0 (2)

X＝D·(x-c_y)/f_y，Y＝D·(y-c_y)/f_y (3)

引入二维向量

其中

公式(4)可简化为公式(5)：

d＝d₀+f_xbu₀·[x-x₀，y-y₀]^T (6)

构建总损失函数模块，用于根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图，联合构建总损失函数，具体包括：

构建视差图的损失函数项如下述公式(9)所示：

为平滑L1损失；

构建表面法向量的损失函数项如下述公式(10)所示：

其中，

为平滑L1损失；

表示模型预测点i处于遮挡区域的概率；

步骤S54：总损失函数为如下述公式(12)所示：

L＝L_d+3×L_N+L_U (12)。