CN113313740B - 一种基于平面连续性的视差图和表面法向量联合学习方法 - Google Patents
一种基于平面连续性的视差图和表面法向量联合学习方法 Download PDFInfo
- Publication number
- CN113313740B CN113313740B CN202110532807.XA CN202110532807A CN113313740B CN 113313740 B CN113313740 B CN 113313740B CN 202110532807 A CN202110532807 A CN 202110532807A CN 113313740 B CN113313740 B CN 113313740B
- Authority
- CN
- China
- Prior art keywords
- map
- disparity map
- normal vector
- surface normal
- disparity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005457 optimization Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 238000003384 imaging method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于平面连续性的视差图和表面法向量联合学习方法及系统,其方法包括:步骤S1:利用金字塔立体匹配网络,得到双目RGB图像的视差图;步骤S2:根据遮挡区域检测模块,预测遮挡概率,获得遮挡区域概率图;步骤S3:根据表面法向量优化网络,获得精确表面法向量;步骤S4:根据视差图优化网络,获得精确视差图;步骤S5:根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数。本发明提供的方法,针对人造环境中存在的大量平面结构,结合表面法向量信息可以有效减少遮挡区域的估计误差,尤其在遮挡区域,可有效地提升立体匹配的精确度,可用于三维重建、增强现实等领域。
Description
技术领域
本发明涉及计算机视觉立体匹配领域,具体涉及一种基于平面连续性的视差图和表面法向量联合学习方法及系统。
背景技术
立体匹配是一个经典的计算机视觉问题,在自动驾驶、三维重建、3D目标检测与识别等领域有着至关重要的应用。立体匹配的目标是从一对校正的立体图像中计算出左图的每个像素相对于右图的水平偏移,即视差。对于左图上一点的像素坐标(x,y),右图上对应点的像素坐标为(x-d,y),则像素的深度为(f·B)/d,其中f为相机的焦距,B为基线距离,即两个相机中心之间的距离。在无纹理区域或者遮挡区域,由于存在匹配歧义或者没有有效匹配,立体匹配的方法输出视差不够准确。此外,立体匹配网络模型为了平衡性能和计算效率通常包含降采样模块,在原始图像的1/3、1/4甚至1/8尺度进行匹配,导致立体匹配输出的视差图缺乏细节。
通常,立体匹配的优化步骤使用视差图对应的RGB图像信息作为引导,迫使深度图或者视差图的一阶平滑与图像信息的一阶平滑近似,避免视差图在引导图像的边缘(通常对应物体的边界)处平滑,从而修正错误视差估计并增强视差图的局部细节。经典的立体视觉方法,采用左右差异LRD,不连续性差异DD,中值视差差异MED以及一些先验性信息,例如左图最左侧的一些点在右图中没有匹配点等信息,作为输入预测立体匹配结果的置信度,移除低置信度的视差预测,通过双边滤波器以及非局部锚定NLA等方法借助高置信度的视差值优化低置信度的视差值。基于深度学习的立体匹配方法,以左图的图像或者图像特征作为引导信息,通过数据驱动的方式迫使CNN模型学习粗糙视差图和优化视差图的映射。StereoNet将优化步骤视为使用图像输入作为指导来膨胀或腐蚀视差值以融合高频细节,优化网络采用一个紧凑的网络学习像素到像素的映射,目的是学习粗糙的视差图与优化的视差图之间的残差。为了使视差估计对遮挡和视觉一致性更鲁棒,StereoDRNet提出了一个视差优化模型,输入左图、视差图、图像重建误差图和几何误差图,输出遮挡预测图和优化视差图,同时对遮挡区域预测和视差优化进行约束。类似地,AANet+采用一个更复杂的沙漏模型结构优化模型进一步提高了优化效果。为了使输入更具可解释性,MSMDNet输入左图特征,左图特征与右图特征的重建误差,以及变形的后3D匹配代价体,变形的3D匹配代价体首先将右图通过预测视差进行变形,再与左图特征求内积。然而,假设视差图与引导图像或者引导图像的特征的一阶平滑近似过于简单,没有利用任何几何信息,不能准确地建模在图像空间的视差值变化,例如同一个平面的像素值或特征值是近似的,但是深度或者视差值是变化的,一阶平滑不能准确地建模这种变化。
表面法向量估计是重要的场景理解任务,一些基于学习的方法从RGB图中直接预测表面法向量的方法,一些单目深度估计方法以监督或者无监督的方式从RGB图像中联合学习深度和表面法向量,由于这些方法缺乏几何先验,实际效果并不理想。相对来说,立体匹配方法有更强的几何先验,同时表面法向量是平面的方向表示,在大多数人造的环境中存在大量平面结构,这些平面结构本身也是一种很强的几何约束,因此立体匹配可以为表面法向量预测提供几何先验,而表面法向量则可以为立体匹配提供局部的几何约束,然而双目立体视觉与表面法向量估计进行结合的研究并不多。
发明内容
为了解决上述技术问题,本发明提供一种基于平面连续性的视差图和表面法向量联合学习方法及系统。
本发明技术解决方案为:一种基于平面连续性的视差图和表面法向量联合学习方法,包括:
步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图;
步骤S2:根据所述预处理后的双目RGB图像,计算得到图像重建误差;将所述视差图和所述匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图;
步骤S3:根据所述视差图,计算初始表面法向量;将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量;
步骤S4:将所述精确表面法向量和所述遮挡区域概率图,输入视差图优化网络,获得精确视差图;
步骤S5:根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图,联合构建总损失函数。
本发明与现有技术相比,具有以下优点:
本发明提供的一种基于平面连续性的视差图和表面法向量预测的联合学习方法,针对人造环境中存在的大量平面结构,结合表面法向量信息,有效减少遮挡区域的估计误差,尤其在遮挡区域,可显著地提升立体匹配的精确度,可用于三维重建、增强现实等领域。
附图说明
图1为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法的流程图;
图2为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图的流程图;
图3为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S2:根据预处理后的双目RGB图像,计算得到图像重建误差;将视差图和匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图的流程图;
图4为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S3:根据视差图,计算初始表面法向量;将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量的流程图;
图5为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S4:将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图的流程图;
图6为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S5:根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数的流程图;
图7为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中所使用网络模型示意图;
图8为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习系统的结构框图。
具体实施方式
本发明提供了一种基于平面连续性的视差图和表面法向量联合学习方法,结合表面法向量信息可以有效减少遮挡区域的估计误差,产生比现有方法更高精确度的视差图,可用于三维重建、增强现实等领域。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于平面连续性的视差图和表面法向量联合学习方法,包括下述步骤:
步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图;
步骤S2:根据预处理后的双目RGB图像,计算得到图像重建误差;将视差图和匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图;
步骤S3:根据视差图,计算初始表面法向量;将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量;
步骤S4:将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图;
步骤S5:根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数。
如图2所示,在一个实施例中,上述步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图,具体包括:
步骤S11:分别对左视点和右视点RGB图像进行预处理,分别获得预处理后的左视点图像和预处理后的右视点图像;
将训练集中的左视点和右视点RGB图像进行相同预处理,即将RGB图像的所有像素值除以255,使得像素值的取值范围为[0,1],然后分别减去和除以从ImageNet数据集上计算的均值和方差,随机选取H×W个像素大小的区域,取RGB三个颜色通道组成3×H×W预处理后的图像。
步骤S12:将预处理后的左视点和预处理后的右视点图像输入特征提取网络,分别获得左视点特征图和右视点特征图;
将预处理后的左视点和右视点图像分别输入两组共享权重的特征提取网络,其参数如下表1所示,即3×H×W输入图像经过由3个3x3,32卷积串联的卷积层conv0输出特征图,后续4个卷积层conv1-conv4由基本残差块串联组成,卷积层conv1由2个3x3,32卷积串联输出特征图,卷积层conv2由16个3x3,64卷积串联输出特征图,卷积层conv3由3个膨胀率为2的3x3,128膨胀卷积串联输出特征图,卷积层conv4由3个膨胀率为4的3x3,128膨胀卷积串联输出的左视点特征图和右视点特征图。
表1特征提取网络参数
步骤S13:将左视点特征图和右视点特征图输入两组空间金字塔池化模块,分别获得左视点池化后的特征图和右视点池化后特征图;
将左视点特征图和右视点特征图分别输入两组共享权重的空间金字塔池化模块,该模块由4个分支branch1-branch4并联组成,其参数如下表2所示,每个分支由一个固定尺寸的平均池化块、一个1x1,32卷积、一个批规范化层和一个ReLU串联组成,branch1池化窗口为64x64,branch2池化窗口为32x32,branch3池化窗口为16x16,branch4池化窗口为8x8,branch1-branch4分别输出4张特征图,与步骤S12中conv2输出的特征图、conv4输出的特征图拼接形成 特征图,经过由两个3x3,128和1x1,32卷积串联组成的卷积层输出的左视点池化后的特征图和右视点池化后特征图。
表2金字塔池化模块参数
步骤S14:将左视点池化后的特征图与右视点池化后的特征图按照预设的视差级别进行拼接,形成4D匹配代价体;
步骤S15:使用三个3D卷积沙漏网络沿匹配代价体的视差维度和空间维度进行代价聚合,分别获得三个聚合后的匹配代价体匹配代价体ck,k=0,1,2,表示第k个3D卷积沙漏网络聚合的匹配代价体;
沿匹配代价体的视差维度和空间维度经过3D CNN网络,其参数如下表3所示,进行特征聚合,即匹配代价体经过由2个3x3x3,32卷积串联的3Dconv0输出 特征,经过由两个3x3x3,32卷积串联的3Dconv1输出特征,后续经过3个串联的带残差连接的沙漏网络3Dstack1-3Dstack3,3个沙漏网络均包括4个3x3x3,64卷积、1个3x3x3,64反卷积和1个3x3x3,32反卷积输出代价体,3个沙漏网络输出的代价体各自经过2个3x3x3,32卷积和3x3x3,1卷积输出3个代价体ck,k=0,1,2表示第k个匹配代价体。
表3 3D CNN网络参数
步骤S16:从三个聚合后的代价体回归视差,获得三个视差图dk,k=0,1,2表示第k个匹配代价体回归的视差图。
从代价体中回归视差,即使用双线性插值将步骤S15输出的代价体上采样到D×H×W,代价体第一个维度的代价值记为cd,softmax操作为σ,每个视差级别为d,估计视差值为d′,通过聚合得到3张1×H×W视差图。
如图3所示,在一个实施例中,上述步骤S2:根据预处理后的双目RGB图像,计算得到图像重建误差;将视差图和匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图,具体包括:
步骤S21:根据预处理后的左视点和预处理后的右视点图像,计算得到图像重建误差;
对步骤S11得到的预处理后的左视点和右视点3ΔHΔW图像,计算图像重建误差,即右视点像素坐标在x方向减去视差图后作为采样位置,在左视点3×H×W图Iref上进行双线性插值采样得到后取RGB通道的平均值得到1×H×W图像重建误差Fre。
步骤S22:将视差图d2和匹配代价体c2,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图。
将步骤S16中3Dstack3输出的1×H×W视差图输入遮挡区域检测模块,其参数如下表4所示,即经过一个3x3,1卷积和一个1x1,1卷积,输出1×H×W遮挡区域概率图Udisp,将步骤S16中上采样后的D×H×W匹配代价体经过一个3x3,64卷积和一个1x1,1卷积后,输出1×H×W遮挡区域概率图Ucost。将Udisp、Ucost和步骤S21得到的Ere通过线性回归学习得到最终的遮挡区域概率图U,概率取值范围为[0,1]。
表4遮挡区域检测模块参数
如图4所示,在一个实施例中,上述步骤S3:根据视差图,计算初始表面法向量;将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量,具体包括:
步骤S31:根据视差图,计算初始表面法向量;
利用步骤S16输出的视差图计算每个像素点的表面法向量,即已知相机内参数双目相机基线长度b、左视点视差图中某像素点(x,y)的视差di,由摄像机成像及三角测量关系得出该像素点对应的三维空间点坐标 利用Sobel算子进行滤波操作得到三维点云上该点处沿X和沿Y方向的梯度,对两个方向的梯度进行叉积运算,得到三维点云的初始表面法向量图。
步骤S32:将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得特征向量以及精确表面法向量。
使用表面法向量优化网络块对初始表面法向量图进行优化,表面法向量优化网络包括2个串联的沙漏结构网络,其参数如下表5所示。将步骤S16输出的视差图和步骤S22输出的遮挡区域概率图拼接后,经过3x3,16卷积、批规范化和ReLU得到16×H×W特征conv1,步骤S31输出的初始表面法向量经过3x3,16卷积、批规范化和ReLU得到16×H×W特征conv2;特征conv1和conv2拼接后经过第一个沙漏结构网络2Dstack1输出32×H×W特征,经过第二个沙漏结构网络2Dstack2输出32×H×W特征,沙漏结构网络2Dstack1依次包括3x3,48卷积、3x3,64卷积、3x3,96可变形卷积、3x3,128可变形卷积、3x3,128带残差的反卷积、3x3,96带残差的反卷积、3x3,48带残差的反卷积和3x3,32带残差的反卷积,沙漏结构网络2Dstack2依次包括3x3,48带残差的卷积、3x3,64带残差的卷积、3x3,96带残差的可变形卷积、3x3,128带残差的可变形卷积、3x3,128带残差的反卷积、3x3,96带残差的反卷积、3x3,48带残差的反卷积和3x3,32带残差的反卷积;第二个沙漏网络2Dstack2输出的32×H×W特征分别经3x3,3卷积得到表面法向量残差res_dec,经3x3,8卷积得到特征向量sim_dec;表面法向量残差res_dec与步骤S31输出的初始表面法向量相加,得到三维点云的精确表面法向量。
表5表面法向量优化网络
如图5所示,在一个实施例中,上述步骤S4:将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图,具体包括:
步骤S41:将预处理后的左视点图像和特征向量,经过卷积操作,得到每个像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,结合遮挡区域概率图,获得传播权重wik;
以步骤S11输出的预处理后的左视点图像和步骤S32输出的特征向量sim_dec作为输入,经过一个3x3卷积得到每个像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,将每个相似度与步骤S22得到的遮挡区域概率图相乘,得到传播权重wik。
步骤S42:三维空间点P0(X0,Y0,Z0)的精确表面法向量n0=(a0,b0,c0)T,点P0与同物体表面上的另一点P(X,Y,Z)存在如下述公式(1)所示的关系:
a0X+b0Y+c0Z-ρ0=0 (2)
设摄像机焦距为fx、fy,中心点为cx、cy,其将三维空间点P(X,Y,Z)、P0(X0,Y0,Z0)分别投影到二维成像平面的像素位置(x,y)、(x0,y0),将下述针孔摄像机模型公式(3),带入公式(2),可得到下述公式(4):
X=D·(x-cy)/fy,Y=D·(y-cy)/fy (3)
已知Z与视差值d的关系为d=fxb/Z,则用视差值d替换上式中的Z可得公式(6):
d=d0+fxbu0·[x-x0,y-y0]T (6)
步骤S43:根据步骤S41得到像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,步骤S22得到每个像素点i处的遮挡概率Ui,像素(xi,yi)的8个非局部邻居像素处的遮挡概率Uik,k=1...8,以及步骤S11得到像素(xi,yi)处原始视差估计值则在8个非局部邻居像素进行空间传播后得到优化视差值,如下述公式(7)所示,构建视差图优化网络,其参数如下表6所示:
公式(7)表示当点(xi,yi)大概率为遮挡区域时,它的视差使用采样的视差值近似。
名称 | 层级参数 | 输出维数 |
input<sub>sim_dec</sub> | 8×H×W | |
conv_offset_aff | 3×3.24 | 24×H×W |
input<sub>conf</sub> | 1×H×W | |
deconv | deconv3×3.8 | 8×H×W |
表6视差图优化网络参数
步骤S44:将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图。
如图6所示,在一个实施例中,上述步骤S5:根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数,具体包括:
步骤S51:训练数据集中左视点视差图Ground Truth记为d,步骤S16输出最后三个视差图记为dk,k=0,1,2,表示第k个视差图,步骤S43输出的优化后视差图记为,构建视差图的损失函数项如下述公式(9)所示:
对于表面法向量,一些文章使用余弦相似性损失进行约束,有些使用L1范数损失进行约束,虽然余弦相似性损失对于表面法向量约束更加直接,但是和L2范数损失相同,它对于外点有过大的惩罚训练不稳定,因此本发明实施例使用平滑L1损失进行约束。
步骤S53:对训练数据集中左右视点视差图应用左右一致性检验得到的遮挡图Ground Truth记为U,步骤S22输出的遮挡区域概率图为使用交叉熵损失构建遮挡区域概率图的损失函数项如下述公式(11)所示:
步骤S54:总损失函数为如下述公式(12)所示:
L=Ld+3×LN+LU (12)。
综上所述,如图7所示为本发明实施例中基于平面连续性的视差图和表面法向量联合学习方法中所使用网络模型示意图。
针对在大多数人造的环境中存在大量平面结构,本发明提供一种基于平面连续性的视差图和表面法向量预测的联合学习方法,解决了立体匹配中由于遮挡的导致无法获得有效匹配的问题,结合表面法向量信息可以有效减少遮挡区域的估计误差,尤其在遮挡区域,可有效地提升立体匹配的精确度,可用于三维重建、增强现实等领域。
本发明实施例在SceneFlow数据集上进行训练和测试,使用PyTorch来实现算法模型。训练和测试使用4块10GB的NVIDIARTX 2080Ti。在训练阶段,batch size设为8,使用Adam优化器进行端到端优化,Adam优化器参数统一为β1=0.9,β2=0.999,训练图片被随机裁剪为256x512的图片,测试时用整张图片。在训练和推断时,使用ImageNet数据集图像的均值和方差对输入图像进行标准化。本发明实施例采用骨干网络为金字塔立体匹配网络,因此可处理视差的范围为[0,192)。具体训练过程为,训练模型20个epoch,其中前10个epoch关闭优化模块,只优化主干网络和表面法向量估计网络,以保证视差回归和表面法向量估计模型收敛到合理值,后10个epoch对整个模型进行优化得到最优结果,初始学习率设为0.0001,10个epoch之后每4个epoch学习率下降一半。完成模型训练之后,只需保存模型即可完成对场景中任意的输入图像进行视差和表面法向量联合学习。
表6不同方法在SceneFlow测试集的性能对比
表6是本发明提供的方法与当前主流方法在SceneFlow测试集上的性能对比,EPE为终端像素误差(预测值与真实视差值的平均误差),3PE为三像素误差(预测值与真实视差值的误差大于3个像素的占比),ALL表示所有的有效像素(视差值<192),OCC表示包含有效像素的遮挡区域(视差值<192且处于遮挡区域)。从表中可以看出,本发明提出的方法精确度相比当前主流立体视觉模型有较大提升,尤其在遮挡区域提升更加明显,显示了本发明的有效性。
实施例二
如图8所示,本发明实施例提供了一种基于平面连续性的视差图和表面法向量联合学习系统,包括下述模块:
获得匹配代价体和视差图模块61,用于将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图,获得三个匹配代价体和视差图,其中最后一个匹配代价体和视差图作为后续模块的输入;
获得遮挡区域概率图模块62,用于根据预处理后的双目RGB图像,计算得到图像重建误差;将视差图和匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图;
获得精确表面法向量模块63,用于根据视差图,计算初始表面法向量;将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量;
获得精确视差图模块64,用于将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图;
构建总损失函数模块65,用于根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (5)
1.一种基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,包括:
步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图;
步骤S2:根据所述预处理后的双目RGB图像,计算得到图像重建误差;将所述视差图和所述匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图;
步骤S3:根据所述视差图,计算初始表面法向量;将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得特征向量以及精确表面法向量;
步骤S4:将所述精确表面法向量和所述遮挡区域概率图,输入视差图优化网络,获得精确视差图,具体包括:
步骤S41:将所述预处理后的左视点图像和所述特征向量,经过卷积操作,得到每个像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,结合所述遮挡区域概率图,获得传播权重wik;
步骤S42:根据三维空间点P0(X0,Y0,Z0)的所述精确表面法向量n0=(a0,b0,c0)T,所述点P0与同物体表面上的另一点P(X,Y,Z)存在如下述公式(1)所示的关系:
a0X+b0Y+c0Z-ρ0=0 (2)
设摄像机焦距为fx、fy,中心点为cx、cy,其将三维空间点P(X,Y,Z)、P0(X0,Y0,Z0)分别投影到二维成像平面的像素位置(x,y)、(x0,y0),将下述针孔摄像机模型公式(3)带入公式(2),可得到下述公式(4):
X=D·(x-cy)/fy,Y=D·(y-cy)/fy (3)
已知Z与视差值d的关系为d=fxb/Z,则用所述视差值d替换公式(5)的Z可得公式(6):
d=d0+fxbu0·[x-x0,y-y0]T (6)
步骤S43:由步骤S41得到像素(xi,yi)的8个所述非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,由步骤S22得到每个像素点i处的遮挡概率Ui,像素(xi,yi)的8个非局部邻居像素处的遮挡概率Uik,k=1...8,由步骤S11可得到像素(xi,yi)处原始视差估计值则在8个所述非局部邻居像素进行空间传播后得到优化视差值,如下述公式(7)所示,构建视差图优化网络:
公式(7)表示当(xi,yi)点大概率为遮挡区域时,它的视差使用采样的视差值近似;
步骤S44:将所述精确表面法向量和所述遮挡区域概率图,输入所述视差图优化网络,获得精确视差图;
步骤S5:根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图,联合构建总损失函数,具体包括:
步骤S51:训练数据集中左视点视差图Ground Truth记为d,步骤S16输出最后三个视差图记为dk,k=0,1,2,表示第k个视差图,步骤S43输出的优化后视差图记为构建视差图的损失函数项如下述公式(9)所示:
步骤S53:对训练数据集中左右视点视差图应用左右一致性检验得到的遮挡图GroundTruth记为O,步骤S22输出的所述遮挡区域概率图为U,使用交叉熵损失构建遮挡区域概率图的损失函数项如下述公式(11)所示:
步骤S54:总损失函数为如下述公式(12)所示:
L=Ld+3×LN+LU (12)。
2.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,所述步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图,具体包括:
步骤S11:分别对左视点和右视点RGB图像进行预处理,分别获得预处理后的左视点图像和预处理后的右视点图像;
步骤S12:将所述预处理后的左视点和所述预处理后的右视点图像输入特征提取网络,分别获得左视点特征图和右视点特征图;
步骤S13:将所述左视点特征图和所述右视点特征图输入两组空间金字塔池化模块,分别获得左视点池化后的特征图和右视点池化后特征图;
步骤S14:将所述左视点池化后的特征图与所述右视点池化后的特征图按照预设的视差级别进行拼接,形成4D匹配代价体;
步骤S15:使用三个3D卷积沙漏网络沿所述匹配代价体的视差维度和空间维度进行代价聚合,分别获得三个聚合后的匹配代价体匹配代价体ck,k=0,1,2,表示第k个3D卷积沙漏网络聚合的匹配代价体;
步骤S16:从所述三个聚合后的匹配代价体回归视差,获得三个视差图dk,k=0,1,2,表示第k个匹配代价体回归的视差图。
3.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,所述步骤S2:根据预处理的双目RGB图像,计算得到图像重建误差;将所述视差图、所述图像重建误差和所述匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图,具体包括:
步骤S21:根据所述预处理后的左视点和所述预处理后的右视点图像,计算得到图像重建误差;
步骤S22:将所述视差图d2和所述匹配代价体c2,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图。
4.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,所述步骤S3:根据所述视差图,计算初始表面法向量;将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得特征向量以及精确表面法向量,具体包括:
步骤S31:根据所述视差图,计算初始表面法向量;
步骤S32:将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得特征向量以及精确表面法向量。
5.一种基于平面连续性的视差图和表面法向量联合学习系统,其特征在于,包括下述模块:
获得匹配代价体和视差图模块,用于将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得三个匹配代价体和视差图,其中最后一个匹配代价体和视差图作为后续模块的输入;
获得遮挡区域概率图模块,用于根据所述预处理后的双目RGB图像,计算得到图像重建误差;将所述视差图和所述匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图;
获得精确表面法向量模块,用于根据所述视差图,计算初始表面法向量;将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得特征向量以及精确表面法向量;
获得精确视差图模块,用于将所述精确表面法向量和所述遮挡区域概率图,输入视差图优化网络,获得精确视差图,具体包括:
步骤S41:将所述预处理后的左视点图像和所述特征向量,经过卷积操作,得到每个像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,结合所述遮挡区域概率图,获得传播权重wik;
步骤S42:根据三维空间点P0(X0,Y0,Z0)的所述精确表面法向量n0=(a0,b0,c0)T,所述点P0与同物体表面上的另一点P(X,Y,Z)存在如下述公式(1)所示的关系:
a0X+b0Y+c0Z-ρ0=0 (2)
设摄像机焦距为fx、fy,中心点为cx、cy,其将三维空间点P(X,Y,Z)、P0(X0,Y0,Z0)分别投影到二维成像平面的像素位置(x,y)、(x0,y0),将下述针孔摄像机模型公式(3)带入公式(2),可得到下述公式(4):
X=D·(x-cy)/fy,Y=D·(y-cy)/fy (3)
已知Z与视差值d的关系为d=fxb/Z,则用所述视差值d替换公式(5)的Z可得公式(6):
d=d0+fxbu0·[x-x0,y-y0]T (6)
步骤S43:由步骤S41得到像素(xi,yi)的8个所述非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,由步骤S22得到每个像素点i处的遮挡概率Ui,像素(xi,yi)的8个非局部邻居像素处的遮挡概率Uik,k=1...8,由步骤S11可得到像素(xi,yi)处原始视差估计值则在8个所述非局部邻居像素进行空间传播后得到优化视差值,如下述公式(7)所示,构建视差图优化网络:
公式(7)表示当(xi,yi)点大概率为遮挡区域时,它的视差使用采样的视差值近似;
步骤S44:将所述精确表面法向量和所述遮挡区域概率图,输入所述视差图优化网络,获得精确视差图;
构建总损失函数模块,用于根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图,联合构建总损失函数,具体包括:
步骤S51:训练数据集中左视点视差图Ground Truth记为d,步骤S16输出最后三个视差图记为dk,k=0,1,2,表示第k个视差图,步骤S43输出的优化后视差图记为构建视差图的损失函数项如下述公式(9)所示:
步骤S53:对训练数据集中左右视点视差图应用左右一致性检验得到的遮挡图GroundTruth记为O,步骤S22输出的所述遮挡区域概率图为U,使用交叉熵损失构建遮挡区域概率图的损失函数项如下述公式(11)所示:
步骤S54:总损失函数为如下述公式(12)所示:
L=Ld+3×LN+LU (12)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110532807.XA CN113313740B (zh) | 2021-05-17 | 2021-05-17 | 一种基于平面连续性的视差图和表面法向量联合学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110532807.XA CN113313740B (zh) | 2021-05-17 | 2021-05-17 | 一种基于平面连续性的视差图和表面法向量联合学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313740A CN113313740A (zh) | 2021-08-27 |
CN113313740B true CN113313740B (zh) | 2023-01-31 |
Family
ID=77373393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110532807.XA Active CN113313740B (zh) | 2021-05-17 | 2021-05-17 | 一种基于平面连续性的视差图和表面法向量联合学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313740B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019116708A1 (ja) * | 2017-12-12 | 2019-06-20 | ソニー株式会社 | 画像処理装置と画像処理方法およびプログラムと情報処理システム |
CN114581505B (zh) * | 2022-01-21 | 2024-07-09 | 合肥工业大学 | 一种基于卷积的双目立体匹配网络系统 |
CN114782290B (zh) * | 2022-06-23 | 2022-11-08 | 北京航空航天大学杭州创新研究院 | 视差图修正方法、装置、设备和计算机可读介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148181A (zh) * | 2019-04-25 | 2019-08-20 | 青岛康特网络科技有限公司 | 一种通用双目立体匹配方法 |
CN111105451B (zh) * | 2019-10-31 | 2022-08-05 | 武汉大学 | 一种克服遮挡效应的驾驶场景双目深度估计方法 |
CN111242999B (zh) * | 2020-01-10 | 2022-09-20 | 大连理工大学 | 基于上采样及精确重匹配的视差估计优化方法 |
-
2021
- 2021-05-17 CN CN202110532807.XA patent/CN113313740B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113313740A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313740B (zh) | 一种基于平面连续性的视差图和表面法向量联合学习方法 | |
Guo et al. | Learning monocular depth by distilling cross-domain stereo networks | |
CN108986136B (zh) | 一种基于语义分割的双目场景流确定方法及系统 | |
CN110163953B (zh) | 三维人脸重建方法、装置、存储介质和电子装置 | |
US8385630B2 (en) | System and method of processing stereo images | |
US8326025B2 (en) | Method for determining a depth map from images, device for determining a depth map | |
CN110853151A (zh) | 一种基于视频的三维立体点集恢复方法 | |
CN110243390B (zh) | 位姿的确定方法、装置及里程计 | |
CN108171249B (zh) | 一种基于rgbd数据的局部描述子学习方法 | |
CN113724379B (zh) | 融合图像与激光点云的三维重建方法及装置 | |
CN110517309A (zh) | 一种基于卷积神经网络的单目深度信息获取方法 | |
CN117456114B (zh) | 基于多视图的三维图像重建方法及系统 | |
CN114998532B (zh) | 一种基于数字图像重建的三维影像视觉传达优化方法 | |
Kim et al. | Fast stereo matching of feature links | |
CN111191694A (zh) | 图像立体匹配方法 | |
Mahmoud et al. | Fast 3d structure from motion with missing points from registration of partial reconstructions | |
EP4254354A1 (en) | System and method using pyramidal and uniqueness matching priors for identifying correspondences between images | |
CN118247352A (zh) | 基于深度学习的双目立体匹配方法、装置、设备及介质 | |
Kitt et al. | Trinocular optical flow estimation for intelligent vehicle applications | |
Satyawan et al. | Scene flow from stereo fisheye images | |
Wang et al. | Adaptive baseline monocular dense mapping with inter-frame depth propagation | |
Kameda et al. | Numerically stable estimation of scene flow independent of brightness and regularizer weights | |
Sawires et al. | Disparity map using suboptimal cost with dynamic programming | |
da Silva Vieira et al. | Disparity map adjustment: a post-processing technique | |
Azali et al. | Stereo matching algorithm using census transform and segment tree for depth estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |