CN113313740A - 一种基于平面连续性的视差图和表面法向量联合学习方法 - Google Patents

一种基于平面连续性的视差图和表面法向量联合学习方法 Download PDF

Info

Publication number
CN113313740A
CN113313740A CN202110532807.XA CN202110532807A CN113313740A CN 113313740 A CN113313740 A CN 113313740A CN 202110532807 A CN202110532807 A CN 202110532807A CN 113313740 A CN113313740 A CN 113313740A
Authority
CN
China
Prior art keywords
normal vector
surface normal
map
disparity map
occlusion region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110532807.XA
Other languages
English (en)
Other versions
CN113313740B (zh
Inventor
百晓
王欣
张亮
周晓清
王晨
刘祥龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110532807.XA priority Critical patent/CN113313740B/zh
Publication of CN113313740A publication Critical patent/CN113313740A/zh
Application granted granted Critical
Publication of CN113313740B publication Critical patent/CN113313740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Abstract

本发明涉及一种基于平面连续性的视差图和表面法向量联合学习方法及系统,其方法包括:步骤S1:利用金字塔立体匹配网络,得到双目RGB图像的视差图;步骤S2:根据遮挡区域检测模块,预测遮挡概率,获得遮挡区域概率图;步骤S3:根据表面法向量优化网络,获得精确表面法向量;步骤S4:根据视差图优化网络,获得精确视差图;步骤S5:根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数。本发明提供的方法,针对人造环境中存在的大量平面结构,结合表面法向量信息可以有效减少遮挡区域的估计误差,尤其在遮挡区域,可有效地提升立体匹配的精确度,可用于三维重建、增强现实等领域。

Description

一种基于平面连续性的视差图和表面法向量联合学习方法
技术领域
本发明涉及计算机视觉立体匹配领域,具体涉及一种基于平面连续性的视差图和表面法向量联合学习方法及系统。
背景技术
立体匹配是一个经典的计算机视觉问题,在自动驾驶、三维重建、3D目标检测与识别等领域有着至关重要的应用。立体匹配的目标是从一对校正的立体图像中计算出左图的每个像素相对于右图的水平偏移,即视差。对于左图上一点的像素坐标(x,y),右图上对应点的像素坐标为(x-d,y),则像素的深度为(f·B)/d,其中f为相机的焦距,B为基线距离,即两个相机中心之间的距离。在无纹理区域或者遮挡区域,由于存在匹配歧义或者没有有效匹配,立体匹配的方法输出视差不够准确。此外,立体匹配网络模型为了平衡性能和计算效率通常包含降采样模块,在原始图像的1/3、1/4甚至1/8尺度进行匹配,导致立体匹配输出的视差图缺乏细节。
通常,立体匹配的优化步骤使用视差图对应的RGB图像信息作为引导,迫使深度图或者视差图的一阶平滑与图像信息的一阶平滑近似,避免视差图在引导图像的边缘(通常对应物体的边界)处平滑,从而修正错误视差估计并增强视差图的局部细节。经典的立体视觉方法,采用左右差异LRD,不连续性差异DD,中值视差差异MED以及一些先验性信息,例如左图最左侧的一些点在右图中没有匹配点等信息,作为输入预测立体匹配结果的置信度,移除低置信度的视差预测,通过双边滤波器以及非局部锚定NLA等方法借助高置信度的视差值优化低置信度的视差值。基于深度学习的立体匹配方法,以左图的图像或者图像特征作为引导信息,通过数据驱动的方式迫使CNN模型学习粗糙视差图和优化视差图的映射。StereoNet将优化步骤视为使用图像输入作为指导来膨胀或腐蚀视差值以融合高频细节,优化网络采用一个紧凑的网络学习像素到像素的映射,目的是学习粗糙的视差图与优化的视差图之间的残差。为了使视差估计对遮挡和视觉一致性更鲁棒,StereoDRNet提出了一个视差优化模型,输入左图、视差图、图像重建误差图和几何误差图,输出遮挡预测图和优化视差图,同时对遮挡区域预测和视差优化进行约束。类似地,AANet+采用一个更复杂的沙漏模型结构优化模型进一步提高了优化效果。为了使输入更具可解释性,MSMDNet输入左图特征,左图特征与右图特征的重建误差,以及变形的后3D匹配代价体,变形的3D匹配代价体首先将右图通过预测视差进行变形,再与左图特征求内积。然而,假设视差图与引导图像或者引导图像的特征的一阶平滑近似过于简单,没有利用任何几何信息,不能准确地建模在图像空间的视差值变化,例如同一个平面的像素值或特征值是近似的,但是深度或者视差值是变化的,一阶平滑不能准确地建模这种变化。
表面法向量估计是重要的场景理解任务,一些基于学习的方法从RGB图中直接预测表面法向量的方法,一些单目深度估计方法以监督或者无监督的方式从RGB图像中联合学习深度和表面法向量,由于这些方法缺乏几何先验,实际效果并不理想。相对来说,立体匹配方法有更强的几何先验,同时表面法向量是平面的方向表示,在大多数人造的环境中存在大量平面结构,这些平面结构本身也是一种很强的几何约束,因此立体匹配可以为表面法向量预测提供几何先验,而表面法向量则可以为立体匹配提供局部的几何约束,然而双目立体视觉与表面法向量估计进行结合的研究并不多。
发明内容
为了解决上述技术问题,本发明提供一种基于平面连续性的视差图和表面法向量联合学习方法及系统。
本发明技术解决方案为:一种基于平面连续性的视差图和表面法向量联合学习方法,包括:
步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图;
步骤S2:根据所述预处理后的双目RGB图像,计算得到图像重建误差;将所述视差图和所述匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图;
步骤S3:根据所述视差图,计算初始表面法向量;将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量;
步骤S4:将所述精确表面法向量和所述遮挡区域概率图,输入视差图优化网络,获得精确视差图;
步骤S5:根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图,联合构建总损失函数。
本发明与现有技术相比,具有以下优点:
本发明提供的一种基于平面连续性的视差图和表面法向量预测的联合学习方法,针对人造环境中存在的大量平面结构,结合表面法向量信息,有效减少遮挡区域的估计误差,尤其在遮挡区域,可显著地提升立体匹配的精确度,可用于三维重建、增强现实等领域。
附图说明
图1为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法的流程图;
图2为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图的流程图;
图3为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S2:根据预处理后的双目RGB图像,计算得到图像重建误差;将视差图和匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图的流程图;
图4为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S3:根据视差图,计算初始表面法向量;将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量的流程图;
图5为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S4:将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图的流程图;
图6为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中步骤S5:根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数的流程图;
图7为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习方法中所使用网络模型示意图;
图8为本发明实施例中一种基于平面连续性的视差图和表面法向量联合学习系统的结构框图。
具体实施方式
本发明提供了一种基于平面连续性的视差图和表面法向量联合学习方法,结合表面法向量信息可以有效减少遮挡区域的估计误差,产生比现有方法更高精确度的视差图,可用于三维重建、增强现实等领域。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于平面连续性的视差图和表面法向量联合学习方法,包括下述步骤:
步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图;
步骤S2:根据预处理后的双目RGB图像,计算得到图像重建误差;将视差图和匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图;
步骤S3:根据视差图,计算初始表面法向量;将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量;
步骤S4:将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图;
步骤S5:根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数。
如图2所示,在一个实施例中,上述步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图,具体包括:
步骤S11:分别对左视点和右视点RGB图像进行预处理,分别获得预处理后的左视点图像和预处理后的右视点图像;
将训练集中的左视点和右视点RGB图像进行相同预处理,即将RGB图像的所有像素值除以255,使得像素值的取值范围为[0,1],然后分别减去和除以从ImageNet数据集上计算的均值和方差,随机选取H×W个像素大小的区域,取RGB三个颜色通道组成3×H×W预处理后的图像。
步骤S12:将预处理后的左视点和预处理后的右视点图像输入特征提取网络,分别获得左视点特征图和右视点特征图;
将预处理后的左视点和右视点图像分别输入两组共享权重的特征提取网络,其参数如下表1所示,即3×H×W输入图像经过由3个3x3,32卷积串联的卷积层conv0输出
Figure BDA0003068536480000051
特征图,后续4个卷积层conv1-conv4由基本残差块串联组成,卷积层conv1由2个3x3,32卷积串联输出
Figure BDA0003068536480000052
特征图,卷积层conv2由16个3x3,64卷积串联输出
Figure BDA0003068536480000053
特征图,卷积层conv3由3个膨胀率为2的3x3,128膨胀卷积串联输出
Figure BDA0003068536480000054
特征图,卷积层conv4由3个膨胀率为4的3x3,128膨胀卷积串联输出
Figure BDA0003068536480000055
的左视点特征图和右视点特征图。
Figure BDA0003068536480000056
表1特征提取网络参数
步骤S13:将左视点特征图和右视点特征图输入两组空间金字塔池化模块,分别获得左视点池化后的特征图和右视点池化后特征图;
将左视点特征图和右视点特征图分别输入两组共享权重的空间金字塔池化模块,该模块由4个分支branch1-branch4并联组成,其参数如下表2所示,每个分支由一个固定尺寸的平均池化块、一个1x1,32卷积、一个批规范化层和一个ReLU串联组成,branch1池化窗口为64x64,branch2池化窗口为32x32,branch3池化窗口为16x16,branch4池化窗口为8x8,branch1-branch4分别输出4张
Figure BDA0003068536480000057
特征图,与步骤S12中conv2输出的
Figure BDA0003068536480000058
特征图、conv4输出的
Figure BDA0003068536480000059
特征图拼接形成
Figure BDA00030685364800000510
Figure BDA00030685364800000511
特征图,经过由两个3x3,128和1x1,32卷积串联组成的卷积层输出
Figure BDA00030685364800000512
的左视点池化后的特征图和右视点池化后特征图。
Figure BDA00030685364800000513
Figure BDA0003068536480000061
表2金字塔池化模块参数
步骤S14:将左视点池化后的特征图与右视点池化后的特征图按照预设的视差级别进行拼接,形成4D匹配代价体;
本步骤中根据预设视差级别数为D,将左视点池化后的特征图与右视点每个视差级别对应的特征拼接,输出
Figure BDA0003068536480000062
匹配代价体。
步骤S15:使用三个3D卷积沙漏网络沿匹配代价体的视差维度和空间维度进行代价聚合,分别获得三个聚合后的匹配代价体匹配代价体ck,k=0,1,2,表示第k个3D卷积沙漏网络聚合的匹配代价体;
沿匹配代价体的视差维度和空间维度经过3D CNN网络,其参数如下表3所示,进行特征聚合,即匹配代价体经过由2个3x3x3,32卷积串联的3Dconv0输出
Figure BDA0003068536480000063
Figure BDA0003068536480000064
特征,经过由两个3x3x3,32卷积串联的3Dconv1输出
Figure BDA0003068536480000065
特征,后续经过3个串联的带残差连接的沙漏网络3Dstack1-3Dstack3,3个沙漏网络均包括4个3x3x3,64卷积、1个3x3x3,64反卷积和1个3x3x3,32反卷积输出
Figure BDA0003068536480000066
代价体,3个沙漏网络输出的代价体各自经过2个3x3x3,32卷积和3x3x3,1卷积输出3个
Figure BDA0003068536480000067
代价体ck,k=0,1,2表示第k个匹配代价体。
Figure BDA0003068536480000068
Figure BDA0003068536480000071
表3 3D CNN网络参数
步骤S16:从三个聚合后的代价体回归视差,获得三个视差图dk,k=0,1,2表示第k个匹配代价体回归的视差图。
从代价体中回归视差,即使用双线性插值将步骤S15输出的
Figure BDA0003068536480000072
代价体上采样到D×H×W,代价体第一个维度的代价值记为cd,softmax操作为σ,每个视差级别为d,估计视差值为d′,通过
Figure BDA0003068536480000073
聚合得到3张1×H×W视差图。
如图3所示,在一个实施例中,上述步骤S2:根据预处理后的双目RGB图像,计算得到图像重建误差;将视差图和匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图,具体包括:
步骤S21:根据预处理后的左视点和预处理后的右视点图像,计算得到图像重建误差;
对步骤S11得到的预处理后的左视点和右视点3ΔHΔW图像,计算图像重建误差,即右视点像素坐标在x方向减去视差图后作为采样位置,在左视点3×H×W图Iref上进行双线性插值采样得到
Figure BDA0003068536480000081
后取RGB通道的平均值得到1×H×W图像重建误差Fre
步骤S22:将视差图d2和匹配代价体c2,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图。
将步骤S16中3Dstack3输出的1×H×W视差图输入遮挡区域检测模块,其参数如下表4所示,即经过一个3x3,1卷积和一个1x1,1卷积,输出1×H×W遮挡区域概率图Udisp,将步骤S16中上采样后的D×H×W匹配代价体经过一个3x3,64卷积和一个1x1,1卷积后,输出1×H×W遮挡区域概率图Ucost。将Udisp、Ucost和步骤S21得到的Ere通过线性回归学习得到最终的遮挡区域概率图U,概率取值范围为[0,1]。
Figure BDA0003068536480000082
表4遮挡区域检测模块参数
如图4所示,在一个实施例中,上述步骤S3:根据视差图,计算初始表面法向量;将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量,具体包括:
步骤S31:根据视差图,计算初始表面法向量;
利用步骤S16输出的视差图计算每个像素点的表面法向量,即已知相机内参数
Figure BDA0003068536480000083
双目相机基线长度b、左视点视差图中某像素点(x,y)的视差di,由摄像机成像及三角测量关系得出该像素点对应的三维空间点坐标
Figure BDA0003068536480000084
Figure BDA0003068536480000085
利用Sobel算子进行滤波操作得到三维点云上该点处沿X和沿Y方向的梯度,对两个方向的梯度进行叉积运算,得到三维点云的初始表面法向量图。
步骤S32:将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得特征向量以及精确表面法向量。
使用表面法向量优化网络块对初始表面法向量图进行优化,表面法向量优化网络包括2个串联的沙漏结构网络,其参数如下表5所示。将步骤S16输出的视差图和步骤S22输出的遮挡区域概率图拼接后,经过3x3,16卷积、批规范化和ReLU得到16×H×W特征conv1,步骤S31输出的初始表面法向量经过3x3,16卷积、批规范化和ReLU得到16×H×W特征conv2;特征conv1和conv2拼接后经过第一个沙漏结构网络2Dstack1输出32×H×W特征,经过第二个沙漏结构网络2Dstack2输出32×H×W特征,沙漏结构网络2Dstack1依次包括3x3,48卷积、3x3,64卷积、3x3,96可变形卷积、3x3,128可变形卷积、3x3,128带残差的反卷积、3x3,96带残差的反卷积、3x3,48带残差的反卷积和3x3,32带残差的反卷积,沙漏结构网络2Dstack2依次包括3x3,48带残差的卷积、3x3,64带残差的卷积、3x3,96带残差的可变形卷积、3x3,128带残差的可变形卷积、3x3,128带残差的反卷积、3x3,96带残差的反卷积、3x3,48带残差的反卷积和3x3,32带残差的反卷积;第二个沙漏网络2Dstack2输出的32×H×W特征分别经3x3,3卷积得到表面法向量残差res_dec,经3x3,8卷积得到特征向量sim_dec;表面法向量残差res_dec与步骤S31输出的初始表面法向量相加,得到三维点云的精确表面法向量。
Figure BDA0003068536480000091
Figure BDA0003068536480000101
表5表面法向量优化网络
如图5所示,在一个实施例中,上述步骤S4:将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图,具体包括:
步骤S41:将预处理后的左视点图像和特征向量,经过卷积操作,得到每个像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,结合遮挡区域概率图,获得传播权重wik
以步骤S11输出的预处理后的左视点图像和步骤S32输出的特征向量sim_dec作为输入,经过一个3x3卷积得到每个像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,将每个相似度与步骤S22得到的遮挡区域概率图相乘,得到传播权重wik
步骤S42:三维空间点P0(X0,Y0,Z0)的精确表面法向量n0=(a0,b0,c0)T,点P0与同物体表面上的另一点P(X,Y,Z)存在如下述公式(1)所示的关系:
Figure BDA0003068536480000102
Figure BDA0003068536480000103
得到下述公式(2):
a0X+b0Y+c0Z-ρ0=0 (2)
设摄像机焦距为fx、fy,中心点为cx、cy,其将三维空间点P(X,Y,Z)、P0(X0,Y0,Z0)分别投影到二维成像平面的像素位置(x,y)、(x0,y0),将下述针孔摄像机模型公式(3),带入公式(2),可得到下述公式(4):
X=D·(x-cy)/fy,Y=D·(y-cy)/fy (3)
Figure BDA0003068536480000111
引入二维向量
Figure BDA0003068536480000112
其中
Figure BDA0003068536480000113
公式(4)可简化为公式(5):
Figure BDA0003068536480000114
已知Z与视差值d的关系为d=fxb/Z,则用视差值d替换上式中的Z可得公式(6):
d=d0+fxbu0·[x-x0,y-y0]T (6)
公式(6)为视差图在图像上点(x0,y0)处的一阶泰勒展开式,fxbu0近似于
Figure BDA0003068536480000115
当点(x,y)和点(x0,y0)在同一平面时,该公式(6)建模了同一平面上两点之间的视差关系模型;
步骤S43:根据步骤S41得到像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,步骤S22得到每个像素点i处的遮挡概率Ui,像素(xi,yi)的8个非局部邻居像素处的遮挡概率Uik,k=1...8,以及步骤S11得到像素(xi,yi)处原始视差估计值
Figure BDA0003068536480000116
则在8个非局部邻居像素进行空间传播后得到优化视差值,如下述公式(7)所示,构建视差图优化网络,其参数如下表6所示:
Figure BDA0003068536480000117
公式(7)表示当点(xi,yi)大概率为遮挡区域时,它的视差使用采样的视差值近似。
名称 层级参数 输出维数
input<sub>sim_dec</sub> 8×H×W
conv_offset_aff 3×3.24 24×H×W
input<sub>conf</sub> 1×H×W
deconv deconv3×3.8 8×H×W
表6视差图优化网络参数
步骤S44:将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图。
如图6所示,在一个实施例中,上述步骤S5:根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数,具体包括:
步骤S51:训练数据集中左视点视差图Ground Truth记为d,步骤S16输出最后三个视差图记为dk,k=0,1,2,表示第k个视差图,步骤S43输出的优化后视差图记为
Figure BDA0003068536480000129
,构建视差图的损失函数项如下述公式(9)所示:
Figure BDA0003068536480000121
其中,λk为权重平衡参数,设置λ0为0.5,λ1为0.7,λ2为1.0,N为在视差图GroundTruth中有真值且真值在预设范围内的像素点个数,i为第i个像素,
Figure BDA0003068536480000122
为平滑L1损失。
对于表面法向量,一些文章使用余弦相似性损失进行约束,有些使用L1范数损失进行约束,虽然余弦相似性损失对于表面法向量约束更加直接,但是和L2范数损失相同,它对于外点有过大的惩罚训练不稳定,因此本发明实施例使用平滑L1损失进行约束。
步骤S52:步骤S31得到的初始表面法向量Ground Truth记为N,步骤S32得到的精确表面法向量记为
Figure BDA0003068536480000123
构建表面法向量的损失函数项如下述公式(10)所示:
Figure BDA0003068536480000124
其中,
Figure BDA0003068536480000125
为平滑L1损失;
步骤S53:对训练数据集中左右视点视差图应用左右一致性检验得到的遮挡图Ground Truth记为U,步骤S22输出的遮挡区域概率图为
Figure BDA0003068536480000126
使用交叉熵损失构建遮挡区域概率图的损失函数项如下述公式(11)所示:
Figure BDA0003068536480000127
其中,N为在视差图Ground Truth中有真值且真值在预设范围内的像素点个数,Ui∈{0,1}表示i点是否处于遮挡区域,0为不在遮挡区域,1为在遮挡区域,
Figure BDA0003068536480000128
表示模型预测点i处于遮挡区域的概率;
步骤S54:总损失函数为如下述公式(12)所示:
L=Ld+3×LN+LU (12)。
综上所述,如图7所示为本发明实施例中基于平面连续性的视差图和表面法向量联合学习方法中所使用网络模型示意图。
针对在大多数人造的环境中存在大量平面结构,本发明提供一种基于平面连续性的视差图和表面法向量预测的联合学习方法,解决了立体匹配中由于遮挡的导致无法获得有效匹配的问题,结合表面法向量信息可以有效减少遮挡区域的估计误差,尤其在遮挡区域,可有效地提升立体匹配的精确度,可用于三维重建、增强现实等领域。
本发明实施例在SceneFlow数据集上进行训练和测试,使用PyTorch来实现算法模型。训练和测试使用4块10GB的NVIDIARTX 2080Ti。在训练阶段,batch size设为8,使用Adam优化器进行端到端优化,Adam优化器参数统一为β1=0.9,β2=0.999,训练图片被随机裁剪为256x512的图片,测试时用整张图片。在训练和推断时,使用ImageNet数据集图像的均值和方差对输入图像进行标准化。本发明实施例采用骨干网络为金字塔立体匹配网络,因此可处理视差的范围为[0,192)。具体训练过程为,训练模型20个epoch,其中前10个epoch关闭优化模块,只优化主干网络和表面法向量估计网络,以保证视差回归和表面法向量估计模型收敛到合理值,后10个epoch对整个模型进行优化得到最优结果,初始学习率设为0.0001,10个epoch之后每4个epoch学习率下降一半。完成模型训练之后,只需保存模型即可完成对场景中任意的输入图像进行视差和表面法向量联合学习。
Figure BDA0003068536480000131
表6不同方法在SceneFlow测试集的性能对比
表6是本发明提供的方法与当前主流方法在SceneFlow测试集上的性能对比,EPE为终端像素误差(预测值与真实视差值的平均误差),3PE为三像素误差(预测值与真实视差值的误差大于3个像素的占比),ALL表示所有的有效像素(视差值<192),OCC表示包含有效像素的遮挡区域(视差值<192且处于遮挡区域)。从表中可以看出,本发明提出的方法精确度相比当前主流立体视觉模型有较大提升,尤其在遮挡区域提升更加明显,显示了本发明的有效性。
实施例二
如图8所示,本发明实施例提供了一种基于平面连续性的视差图和表面法向量联合学习系统,包括下述模块:
获得匹配代价体和视差图模块61,用于将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图,获得三个匹配代价体和视差图,其中最后一个匹配代价体和视差图作为后续模块的输入;
获得遮挡区域概率图模块62,用于根据预处理后的双目RGB图像,计算得到图像重建误差;将视差图和匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合图像重建误差,获得遮挡区域概率图;
获得精确表面法向量模块63,用于根据视差图,计算初始表面法向量;将视差图、初始表面法向量和遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量;
获得精确视差图模块64,用于将精确表面法向量和遮挡区域概率图,输入视差图优化网络,获得精确视差图;
构建总损失函数模块65,用于根据精确视差图、精确表面法向量和遮挡区域概率图,联合构建总损失函数。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (7)

1.一种基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,包括:
步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图;
步骤S2:根据所述预处理后的双目RGB图像,计算得到图像重建误差;将所述视差图和所述匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图;
步骤S3:根据所述视差图,计算初始表面法向量;将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量;
步骤S4:将所述精确表面法向量和所述遮挡区域概率图,输入视差图优化网络,获得精确视差图;
步骤S5:根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图,联合构建总损失函数。
2.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,所述步骤S1:将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得匹配代价体和视差图,具体包括:
步骤S11:分别对左视点和右视点RGB图像进行预处理,分别获得预处理后的左视点图像和预处理后的右视点图像;
步骤S12:将所述预处理后的左视点和所述预处理后的右视点图像输入特征提取网络,分别获得左视点特征图和右视点特征图;
步骤S13:将所述左视点特征图和所述右视点特征图输入两组空间金字塔池化模块,分别获得左视点池化后的特征图和右视点池化后特征图;
步骤S14:将所述左视点池化后的特征图与所述右视点池化后的特征图按照预设的视差级别进行拼接,形成4D匹配代价体;
步骤S15:使用三个3D卷积沙漏网络沿所述匹配代价体的视差维度和空间维度进行代价聚合,分别获得三个聚合后的匹配代价体匹配代价体ck,k=0,1,2,表示第k个3D卷积沙漏网络聚合的匹配代价体;
步骤S16:从所述三个聚合后的匹配代价体回归视差,获得三个视差图dk,k=0,1,2,表示第k个匹配代价体回归的视差图。
3.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,所述步骤S2:根据预处理的双目RGB图像,计算得到图像重建误差;将所述视差图、所述图像重建误差和所述匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图,具体包括:
步骤S21:根据所述预处理后的左视点和所述预处理后的右视点图像,计算得到图像重建误差;
步骤S22:将所述视差图d2和所述匹配代价体c2,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图。
4.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,所述步骤S3:根据所述视差图,计算初始表面法向量;将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得特征向量以及精确表面法向量,具体包括:
步骤S31:根据所述视差图,计算初始表面法向量;
步骤S32:将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得特征向量以及精确表面法向量。
5.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,所述步骤S4:将所述精确表面法向量和所述遮挡区域概率图,输入视差图优化网络,获得精确视差图,具体包括:
步骤S41:将所述预处理后的左视点图像和所述特征向量,经过卷积操作,得到每个像素(xi,yi)的8个非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,结合所述遮挡区域概率图,获得传播权重wik
步骤S42:根据三维空间点P0(X0,Y0,Z0)的所述精确表面法向量n0=(a0,b0,c0)T,所述点P0与同物体表面上的另一点P(X,Y,Z)存在如下述公式(1)所示的关系:
Figure FDA0003068536470000021
Figure FDA0003068536470000022
得到下述公式(2):
a0X+boY+c0Z-ρ0=0 (2)
设摄像机焦距为fx、fy,中心点为cx、cy,其将三维空间点P(X,Y,Z)、P0(X0,Y0,Z0)分别投影到二维成像平面的像素位置(x,y)、(x0,y0),将下述针孔摄像机模型公式(3)带入公式(2),可得到下述公式(4):
X=D·(x-cy)/fy,Y=D·(y-cy)/fy (3)
Figure FDA0003068536470000031
引入二维向量
Figure FDA0003068536470000032
其中
Figure FDA0003068536470000033
公式(4)可简化为公式(5):
Figure FDA0003068536470000034
已知Z与视差值d的关系为d=fxb/Z,则用所述视差值d替换公式(5)的Z可得公式(6):
d=d0+fxbu0·[x-x0,y-y0]T (6)
公式(6)为所述视差图在图像上点(x0,y0)处的一阶泰勒展开式,fxbu0近似于
Figure FDA0003068536470000035
当点(x,y)和点(x0,y0)在同一平面时,该公式(6)建模了同一平面上两点之间的视差关系模型;
步骤S43:由步骤S41得到像素(xi,yi)的8个所述非局部邻居像素坐标(xik,yik)及相似度w′ik,k=1...8,由步骤S22得到每个像素点i处的遮挡概率Ui,像素(xi,yi)的8个非局部邻居像素处的遮挡概率Uik,k=1...8,由步骤S11可得到像素(xi,yi)处原始视差估计值
Figure FDA0003068536470000036
则在8个所述非局部邻居像素进行空间传播后得到优化视差值,如下述公式(7)所示,构建视差图优化网络:
Figure FDA0003068536470000037
公式(7)表示当(xi,yi)点大概率为遮挡区域时,它的视差使用采样的视差值近似;
步骤S44:将所述精确表面法向量和所述遮挡区域概率图,输入所述视差图优化网络,获得精确视差图。
6.根据权利要求1所述的基于平面连续性的视差图和表面法向量联合学习方法,其特征在于,所述步骤S5:根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图,联合构建总损失函数,具体包括:
步骤S51:训练数据集中左视点视差图Ground Truth记为d,步骤S16输出最后三个视差图记为dk,k=0,1,2,表示第k个视差图,步骤S43输出的优化后视差图记为
Figure FDA0003068536470000038
构建视差图的损失函数项如下述公式(9)所示:
Figure FDA0003068536470000041
其中λk为权重平衡参数,N为在视差图Ground Truth中有真值且真值在预设范围内的像素点个数,i为第i个像素,
Figure FDA0003068536470000042
为平滑L1损失;
步骤S52:步骤S31得到的所述初始表面法向量Ground Truth记为N,步骤S32得到的所述精确表面法向量记为
Figure FDA0003068536470000043
构建表面法向量的损失函数项如下述公式(10)所示:
Figure FDA0003068536470000044
其中,
Figure FDA0003068536470000045
为平滑L1损失;
步骤S53:对训练数据集中左右视点视差图应用左右一致性检验得到的遮挡图GroundTruth记为O,步骤S22输出的所述遮挡区域概率图为U,使用交叉熵损失构建遮挡区域概率图的损失函数项如下述公式(11)所示:
Figure FDA0003068536470000046
其中,N为在视差图Ground Truth中有真值且真值在预设范围内的像素点个数,Ui∈{0,1}表示i点是否处于遮挡区域,0为不在遮挡区域,1为在遮挡区域,
Figure FDA0003068536470000047
表示模型预测点i处于遮挡区域的概率。
步骤S54:总损失函数为如下述公式(12)所示:
L=Ld+3×LN+Lu (12) 。
7.一种基于平面连续性的视差图和表面法向量联合学习系统,其特征在于,包括下述模块:
获得匹配代价体和视差图模块,用于将双目RGB图像进行预处理,得到预处理后的双目RGB图像,将其输入金字塔立体匹配网络,获得三个匹配代价体和视差图,其中最后一个匹配代价体和视差图作为后续模块的输入;
获得遮挡区域概率图模块,用于根据所述预处理后的双目RGB图像,计算得到图像重建误差;将所述视差图和所述匹配代价体,输入遮挡区域检测模块,预测遮挡概率,结合所述图像重建误差,获得遮挡区域概率图;
获得精确表面法向量模块,用于根据所述视差图,计算初始表面法向量;将所述视差图、所述初始表面法向量和所述遮挡区域概率图,输入表面法向量优化网络,获得精确表面法向量;
获得精确视差图模块,用于将所述精确表面法向量和所述遮挡区域概率图,输入视差图优化网络,获得精确视差图;
构建总损失函数模块,用于根据所述精确视差图、所述精确表面法向量和所述遮挡区域概率图,联合构建总损失函数。
CN202110532807.XA 2021-05-17 2021-05-17 一种基于平面连续性的视差图和表面法向量联合学习方法 Active CN113313740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110532807.XA CN113313740B (zh) 2021-05-17 2021-05-17 一种基于平面连续性的视差图和表面法向量联合学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110532807.XA CN113313740B (zh) 2021-05-17 2021-05-17 一种基于平面连续性的视差图和表面法向量联合学习方法

Publications (2)

Publication Number Publication Date
CN113313740A true CN113313740A (zh) 2021-08-27
CN113313740B CN113313740B (zh) 2023-01-31

Family

ID=77373393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110532807.XA Active CN113313740B (zh) 2021-05-17 2021-05-17 一种基于平面连续性的视差图和表面法向量联合学习方法

Country Status (1)

Country Link
CN (1) CN113313740B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019116708A1 (ja) * 2017-12-12 2020-12-17 ソニー株式会社 画像処理装置と画像処理方法およびプログラムと情報処理システム
CN114782290A (zh) * 2022-06-23 2022-07-22 北京航空航天大学杭州创新研究院 视差图修正方法、装置、设备和计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148181A (zh) * 2019-04-25 2019-08-20 青岛康特网络科技有限公司 一种通用双目立体匹配方法
CN111105451A (zh) * 2019-10-31 2020-05-05 武汉大学 一种克服遮挡效应的驾驶场景双目深度估计方法
CN111242999A (zh) * 2020-01-10 2020-06-05 大连理工大学 基于上采样及精确重匹配的视差估计优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148181A (zh) * 2019-04-25 2019-08-20 青岛康特网络科技有限公司 一种通用双目立体匹配方法
CN111105451A (zh) * 2019-10-31 2020-05-05 武汉大学 一种克服遮挡效应的驾驶场景双目深度估计方法
CN111242999A (zh) * 2020-01-10 2020-06-05 大连理工大学 基于上采样及精确重匹配的视差估计优化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN WANG等: "Self-Supervised Multiscale Adversarial Regression Network for Stereo Disparity Estimation", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
CHEN WANG等: "Uncertainty estimation for stereo matching based on evidential deep learning", 《PATTERN RECOGNITION》 *
周佳立等: "基于标签化匹配区域校正的双目立体匹配算法", 《模式识别与人工智能》 *
张雅妮等: "基于自适应权重的遮挡信息立体匹配算法", 《计算机应用研究》 *
胥任杰: "融合双目视觉与光度立体视觉的空间自由曲面测量方法", 《中国硕士优秀学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019116708A1 (ja) * 2017-12-12 2020-12-17 ソニー株式会社 画像処理装置と画像処理方法およびプログラムと情報処理システム
JP7136123B2 (ja) 2017-12-12 2022-09-13 ソニーグループ株式会社 画像処理装置と画像処理方法およびプログラムと情報処理システム
CN114782290A (zh) * 2022-06-23 2022-07-22 北京航空航天大学杭州创新研究院 视差图修正方法、装置、设备和计算机可读介质

Also Published As

Publication number Publication date
CN113313740B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
US8326025B2 (en) Method for determining a depth map from images, device for determining a depth map
US8385630B2 (en) System and method of processing stereo images
CN113160375B (zh) 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN110853151A (zh) 一种基于视频的三维立体点集恢复方法
Correal et al. Automatic expert system for 3D terrain reconstruction based on stereo vision and histogram matching
CN104021548A (zh) 一种获取场景4d信息的方法
CN113313740B (zh) 一种基于平面连续性的视差图和表面法向量联合学习方法
US8867826B2 (en) Disparity estimation for misaligned stereo image pairs
CN112802078A (zh) 深度图生成方法和装置
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN110211169B (zh) 基于多尺度超像素和相位相关的窄基线视差的重构方法
CN110458952B (zh) 一种基于三目视觉的三维重建方法和装置
Alcantarilla et al. Large-scale dense 3D reconstruction from stereo imagery
CN109978934A (zh) 一种基于匹配代价加权的双目视觉立体匹配方法及系统
Hamzah et al. Stereo matching algorithm based on illumination control to improve the accuracy
Le Besnerais et al. Dense height map estimation from oblique aerial image sequences
CN114998532B (zh) 一种基于数字图像重建的三维影像视觉传达优化方法
Damjanović et al. Local stereo matching using adaptive local segmentation
Mahmoud et al. Fast 3d structure from motion with missing points from registration of partial reconstructions
Wu et al. Joint view synthesis and disparity refinement for stereo matching
da Silva Vieira et al. Stereo vision methods: from development to the evaluation of disparity maps
Kitt et al. Trinocular optical flow estimation for intelligent vehicle applications
Xie et al. A novel disparity refinement method based on semi-global matching algorithm
Liu et al. Binocular depth estimation using convolutional neural network with Siamese branches
Wang et al. Adaptive baseline monocular dense mapping with inter-frame depth propagation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant