CN110533712B - 一种基于卷积神经网络的双目立体匹配方法 - Google Patents

一种基于卷积神经网络的双目立体匹配方法 Download PDF

Info

Publication number
CN110533712B
CN110533712B CN201910845907.0A CN201910845907A CN110533712B CN 110533712 B CN110533712 B CN 110533712B CN 201910845907 A CN201910845907 A CN 201910845907A CN 110533712 B CN110533712 B CN 110533712B
Authority
CN
China
Prior art keywords
module
disparity
feature
layer
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910845907.0A
Other languages
English (en)
Other versions
CN110533712A (zh
Inventor
王亮
赵长双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Publication of CN110533712A publication Critical patent/CN110533712A/zh
Application granted granted Critical
Publication of CN110533712B publication Critical patent/CN110533712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于卷积神经网络的双目立体匹配方法。对于匹配代价计算,在初始特征的基础上利用稠密块整合上下文信息。对于匹配代价聚和,提出一个小型编解码结构正则化代价量。对于视差计算,在代价量的视差维度上执行一个可微分的soft argmin操作获取初始视差。对于视差细化,以残差块为主,相似性度量为辅指导细化初始视差。本发明严格遵照立体匹配算法的4个阶段,并将4个步骤整合到一个网络中,可端对端的对网络进行训练。本发明的立体匹配方法在特征提取过程中整合上下文信息有效的缓解了病态区域内像素点的误匹配,正则化过程中小型编解码结构显著减少了网络训练/推测期间的内存占用和运行时间,提高了视差预测精度。

Description

一种基于卷积神经网络的双目立体匹配方法
技术领域
本发明涉及计算机视觉的机器人导航、三维重建等领域,具体涉及一种基于卷积神经网络的双目立体匹配方法。
背景技术
从立体图像对中进行深度估计是许多立体视觉任务的核心问题,并且在很多领域上有应用,例如3D重建、无人驾驶、物体检测、机器人导航和虚拟现实、增强现实等。立体匹配的目的是估计两个矫正图像之间所有像素点的对应关系。给出一对矫正的立体图像,视差估计的目的是计算参考图像中每个像素的视差d。视差指参考图像和目标图像一对对应点之间的水平位移。对于参考图像某点像素为(x,y),如果在目标图像(x-d,y)处找到对应的像素点,那么,这个点的深度可以通过fb/d进行计算,其中f是相机的焦距,b是两个相机之间的距离。
一种典型的立体匹配算法包括4个步骤:匹配代价计算、匹配代价聚和、视差计算和视差细化。对于立体匹配的整体性能而言,每个步骤都起到至关重要的作用。由于深度卷积神经网络在各种视觉任务中都表现出强大的特征表达能力,因此,卷积神经网络已经被应用到立体匹配中去提高视差估计精度,并且显著地超过了传统的方法。Zbontar和LeCun首次引入卷积神经网络去计算两个输入图像之间像素相似性(J.Zbontar andY.LeCun.Stereo matching by training a convolutional neural network to compareimage patches.Journal of Machine Learning Research,17(1-32):2,2016)。他们认为对于匹配代价仅考虑像素的灰度差异或者人工的图像特征是不可靠的;相反,卷积神经网络可以从图像中学习更健壮、有区别度的特征来提高立体匹配代价。遵循这一思想,若干方法被提出来去提升计算效率或者匹配精度。然而,这些方法仍然有一些限制。第一,网络模型常常在遮挡区域、重复纹理和反射表面等病态区域无法准确的找到像素对应的匹配点。第二,现存的网络运行存在巨大的内存消耗并且需要强大的计算处理能力。第三,网络要求若干的后处理步骤。
发明内容
本发明主要采用深度学习的方法对输入立体图像对进行处理,以获取连续精确的视差图。首先是利用残差块和稠密块构造孪生网络并对输入立体图像对进行特征提取,然后构建代价量完成匹配代价计算。随后,利用小型的编解码结构对代价量进行代价聚和,缓解代价量的误匹配,并通过soft argmin函数回归预测初始视差图。最后利用相关层获取特征图的相似性度量,并指导细化初始视差图,以获得精确的视差估计。
为了实现上述目的,本发明提供了如下方案:
一种基于卷积神经网络的双目立体匹配方法,所述方法包括:
步骤1:数据处理;
步骤2:构建立体匹配网络;
步骤3:训练网络模型;
步骤4:利用训练完成的立体匹配网络模型进行双目立体匹配。
所述的数据处理,具体包括如下步骤:
步骤1:数据集:在没有特殊说明的情况下,所述数据集左侧图像作为参考图像,右侧图像作为对应的目标图像,参考图像和目标图像作为一组立体图像对。所有的立体图像对都经过矫正,即只在水平方向有偏移,垂直方向无偏移。
步骤2:预处理:对数据集中每个输入立体图像对进行随机裁剪,裁剪尺寸为512×256,然后对其进行归一化操作,使图像像素值范围在[-1,1]之间。
所述的构建立体匹配网络,具体包括如下模块:
模块1:初始特征提取模块
所述的初始特征提取模块是构建一个共享权重的孪生网络对输入立体图像对进行特征提取,其输入是待匹配的输入立体图像对,输出是两个一元特征。其中所述的孪生网络首先利用一个卷积核为5×5、步长为2的卷积层对输入立体图像对进行一次下采样,接下来是2个残差层进一步对输入立体图像对进行处理,其中第一个残差层包括3个残差块,第二个包括4个残差块。每个残差块结构为BN-conv-BN-ReLU-conv-BN,其中BN、conv和ReLU分别指批归一化、卷积层和修正线性单元,且卷积核均为3×3,特征维度均为32,除了第二个残差层中第一个残差块步长为2,其余步长都为1。经过上述卷积操作后,所述孪生网络的输出是两个尺寸为H/4×W/4×F的一元特征,其中H、W分别表示原始输入图像的高和宽,F表示特征维度。
模块2:相关层模块
所述的相关层模块是在孪生网络的第一个残差层输出的立体图像对之间和原始输入立体图像对之间分别执行矩形块点积操作来获取两组立体图像对的相似性,即相关层Mf和相关层Mc,其输入是立体图像对,输出是包含相似性度量的相关层。对于单通道的一元特征,其中所述的矩形块点积操作可以如下定义:
c(x1,x2)=∑o∈[-k,k]×[-k,k]<f1(x1+o),f2(x2+o)> (1)
其中f1、f2指输入的两个单通道一元特征,x1、x2分别指f1、f2一元特征上矩形块的中心,k指矩形块的大小。相关层执行的效果是让f1中的每个矩形块与f2中的每个矩形块进行比较。给出最大位移d,对于f1的每个矩形块中心x1,相关层c(x1,x2)仅在f2的每个矩形块中心x2的2d+1邻域内进行点积计算,而不是整个f2。限制相关层操作的位移可有效减少计算量。
相关层能够有效的反映两个输入立体图像对的相似性。在视差细化阶段需要两个相关层来指导视差细化操作,即:第一个残差层的立体图像对输出构成粗的(d=20)相关层Mf,原始输入立体图像对作为细的(d=10)相关层Mc
模块3:上下文信息模块
所述的上下文信息模块是构建稠密块为两个一元特征加入上下文信息,其输入是两个一元特征,输出是两个包含上下文信息的特征图。其中所述的稠密块包含6个卷积层,且卷积层之间以稠密的方式进行连接,其每次连接维度的增长率为16。此外,每个卷积层带有膨胀率,分别为1,2,4,8,16,1。在不改变输入特征维度大小的前提下可以进一步增大感受野,并以稠密连接的形式在不同尺度上聚集更多的上下文信息可有效地缓解病态区域的误匹配。最后,应用一个1x1的卷积层对特征图进行降维操作以方便构建代价量。所述的上下文信息模块输出的两个包含上下文信息的特征图维度为H/4×W/4×F,其中H、W分别表示原始输入图像的高和宽,F表示特征维度。
模块4:代价量模块
所述的代价量模块是利用两个包含上下文信息的特征图构建代价量计算匹配代价,其输入是两个包含上下文信息的特征图,输出是一个代价量。其中所述的计算匹配代价是将包含上下文信息的参考特征图与对应的包含上下文信息的目标特征图之间在每个可能视差下进行连接,并将其打包成一个4D代价量。所述的代价量模块输出的代价量维度为H/4×W/4×(D+1)/4×F,其中H、W分别表示原始输入图像的高和宽,D表示最大的可能视差值,F表示特征维度。
模块5:正则化模块
所述的正则化模块是利用一个紧凑的小型编解码结构在代价量上学习一个正则函数来进行代价聚和,其输入是代价量,输出是正则化特征图。其中所述的小型编解码结构包括编码和解码两个阶段。编码阶段包含6个3D卷积层,每个编码层次应用两个卷积核为3x3x3的卷积层,且只有首个卷积层后面跟着一个BN和ReLU。此外,第三个和第五个卷积层的步长为2,其余的步长为1。在解码阶段只应用两个3D反卷积层进行上采样,其步长为2,并在每个上采样之前从编码阶段加上对应维度的特征图以保留粗糙的高层信息和详细的低层信息。最后,利用两个3D卷积层进一步减少特征维度为1。所述的正则化模块输出的正则化特征图维度为H/4×W/4×(D+1)/4×1,其中H、W分别表示原始输入图像的高和宽,D表示最大的可能视差值。
模块6:视差计算模块
所述的视差计算模块是利用一个可微分的soft argmin操作在正则化特征图的视差维度上进行视差回归来预测平滑连续的初始视差图,其输入是正则化特征图,输出是初始特征图。其中所述的可微分的soft argmin操作定义如下:
Figure BDA0002195164690000051
其中d′指初始视差图,cd指正则化特征图,d指可能的视差值,Dmax指最大的视差值,σ(·)指softmax函数。初始特征图d′可以通过对每个视差d和它的概率值的乘积求和获得,而每个视差d的概率可以利用σ(·)函数计算正则化特征图cd得到。所述的视差计算模块输出的初始视差图维度为H/4×W/4×1,其中H、W分别表示原始输入图像的高和宽。
模块7:视差细化模块
所述的视差细化模块的任务是找到一个增量图在初始视差图上加或减以进一步细化视差估计,其输入是初始视差图,输出是最终视差图。在模块2中给出了两个相关层Mf、Mc的定义,此阶段利用Mf、Mc来指导视差细化操作。其中所述的视差细化操作过程如下:首先,初始视差图利用双线性插值上采样到和Mf同等大小的分辨率,并同Mf合并在一起。然后通过一个卷积核为3x3,通道为32的卷积层,其输出结果再通过带有膨胀率为1,2,4,8,1,1的6个残差块。随后,残差块的输出送入一个维度为1,卷积核为3x3的卷积层,该卷积层没有BN和ReLU,并将输出与前一个视差图进行相加。最后,应用一个ReLU确保预测的视差值为正。将Mf替代为Mc再重复一次该步骤,输出结果即为最终视差图。所述的视差细化模块输出的最终视差图维度为H×W×1,其中H、W分别表示原始输入图像的高和宽。
所述训练网络模型,具体包括如下步骤:
步骤1:将训练数据集立体图像对输入给立体匹配网络的模型进行前向传播训练,该模型的学习参数包括权重和偏置,随机初始化参数从头开始训练网络模型。
步骤2:引入平滑损失函数L1
Figure BDA0002195164690000061
Figure BDA0002195164690000062
其中,N是真实视差图像素的数量,d是真实视差图,d′是预测视差图,di是预测视差图的每个像素点,d′i是真实视差图的每个像素点,x是di-d′i。根据L1损失函数利用批量梯度下降法进行反向传播,更新模型的学习参数,包括权重和偏置。
步骤3:重复步骤1和步骤2,不断迭代训练网络模型参数,以获得最优的立体匹配网络模型。
利用训练完成的立体匹配网络模型进行双目立体匹配。
有益效果:
本发明提供一种基于卷积神经网络的双目立体匹配方法,严格遵照立体匹配算法的4个步骤,包括匹配代价计算、匹配代价聚和、视差计算和视差细化,并详细的设计每个步骤,同时将4个步骤整合到一个网络中,可端对端的对网络进行训练。本发明的立体匹配方法在特征提取过程中整合上下文信息有效地缓解了病态区域内像素点的误匹配,正则化过程中小型编解码结构显著地减少了训练/推测期间的内存占用和运行时间,并回归预测亚像素级别的视差图,同时利用相似性度量进一步细化初始视差图,提高视差预测精度。
附图说明
图1是本发明提供的基于卷积神经网络双目立体匹配方法的网络流程图;
图2是本发明提供的基于卷积神经网络双目立体匹配方法的网络结构图;
图3是本发明实施例提供的KITTI2015数据集中待匹配的参考图像和目标图像的示意图:其中图3(a)为参考图像、图3(b)为目标图像;
图4是采用发明方法得到的KITTI2015数据集中实施例立体图像对的视差图。
具体实施方式
本发明的目的是提供一种基于卷积神经网络的双目立体匹配方法,可端对端地完成网络的训练,无需任何后处理过程,以解决现有基于卷积神经网络的立体匹配方法在病态区域无法准确找到像素对应匹配点的问题,同时可显著地减少训练/推测期间的内存占用和运行时间。
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
图1是本发明提供的基于卷积神经网络的双目立体匹配方法的网络流程图。
图2是本发明提供的基于卷积神经网络的双目立体匹配方法的网络结构图。本发明提供的基于卷积神经网络的双目立体匹配方法具体包括:
步骤1:数据处理;对含有真实视差值的左右图像进行随机裁剪,裁剪尺寸为512×256,对裁剪后的图像进行归一化处理,使图像像素值的范围在[-1,1]之间。默认左侧图像为参考图像,右侧图像为目标图像,由参考图像和目标图像构成一组立体图像对。所述训练样本立体图像对为FlyingThings3D数据集,迁移样本立体图像对为KITTI2015数据集。
步骤2:构建立体匹配网络;首先,学习一种用于计算立体匹配代价的深度表示。通常使用一个特征表示,而不是使用原始像素强度来计算立体匹配代价。受到描述子的启发,对于光照表面的歧义性,特征表示是更健壮,因此,输入图像立体图像对首先通过7个残差层提取深度特征表示。为了更好的解决病态区域的误匹配,利用包含6个卷积层的稠密层将上下文信息整合到代价匹配中。下一步,将每个参考一元特征与对应的目标一元特征在每个可能视差下进行连接形成一个4D代价量来寻找两个输入立体图像对像素之间的对应性。匹配代价计算提供了立体图像对之间初始的相似性,而代价聚和阶段可以获得更健壮的视差预测。对此,提出一个3D小型编解码结构正则化代价量,同时显著地减少了训练/推测期间的内存占用和运行时间。然后,利用一个可微分的soft argmin操作在代价量的视差维度上进行视差回归预测平滑连续的初始视差图。具体的,在代价量上利用softmax操作计算每个视差的概率。预测视差可以通过对每个视差和它的概率值的乘积求和获得。在视差细化阶段,利用相似性测量来指导膨胀卷积的残差块生成视差细化的残差图。初始视差图和视差细化的残差图的和作为最终的视差图,该网络明确地修正细化初始视差图。
步骤3:训练网络模型:首先将预处理后的训练数据集FlyingThings3D立体图像对输入到立体匹配网络的模型中进行前向传播训练,该模型的学习参数包括权重和偏置。然后,将输出视差图和真实视差图输入到L1损失函数中,利用批量梯度下降法进行反向传播。最后,根据梯度多次更新迭代模型的学习参数以获得最优的立体匹配网络模型。
步骤4:迁移学习;
通过步骤3获得了立体匹配网络模型,现在通过迁移学习的方式利用迁移数据集KITTI2015立体图像对进行实际场景的测试(如果训练数据集选用实际场景的图像,则无需再进行迁移学习,训练完毕后可以直接进行双目立体匹配)。图3是本发明实施例提供的待匹配的立体图像对。其中图3(a)为参考图像,3(b)为目标图像。本实施例中,所述待匹配实施例的立体图像对是从KITTI2015数据集中提取的。参考图1和图2,本发明基于卷积神经网络的立体匹配方法,使用KITTI2015数据集中实施例的立体图像对进行迁移学习说明(所述3阶张量维度为H×W×F,4阶张量维度为H×W×D×F,H、W分别表示原始输入图像的高和宽,D表示最大的可能视差值,默认为192,F表示特征维度):
1)将KITTI2015数据集中实施例的立体图像对进行随机裁剪到512×256大小的图像块,然后对其进行归一化处理,使图像像素值范围在[-1,1]之间,完成预处理阶段后,将立体图像对输入到训练好的立体匹配网络中。
2)如图2所示,对实施例的输入立体图像对进行特征提取。首先,利用2个残差层对立体图像对进行特征特取,然后利用包含6个稠密连接卷积层的稠密块整合上下文信息,其初始特征维度为32,增长率为16。此时输出特征图维度为128×64×128。然后利用一个卷积核为1x1、特征维度为32的卷积层进行降维,以方便构建代价量。
3)将输出的立体图像对级联起来组成四阶张量构建代价量。此时输出特征图维度为128×64×48×32。该张量先经过一个包含6个3D卷积的编码过程,然后又经过两次上采样,此时输出特征图维度为128×64×48×32。随后,输入到两个3D卷积中分别进行代价正则和减少特征维度为1,此时输出特征图维度为128×64×48×1。
4)初始视差的计算。在代价量cd上利用softmax操作σ(·)计算每个视差d的概率。预测视差d′可以通过对每个视差d和它的概率值的乘积求和获得。公式如下:
Figure BDA0002195164690000101
利用上述操作在代价量的视差维度上进行视差回归预测平滑连续的初始视差图。此时输出特征图维度为128×64×1。
5)正如图2所示,利用两次相关层作为指导,残差层进行视差细化操作,每次将生成的残差图与前一个视差图相加得到最终的视差图。第一个视差图维度为256×128×1,第二个视差图维度为512×256×1。正好恢复到原始输入图像大小,这得益于每次细化网络都先通过一个双线性插值操作进行上采样。
6)将输出视差图和真实视差图输入到L1损失函数中,利用批量梯度下降法进行反向传播。最后,根据梯度多次更新迭代模型的学习参数,包括权重和偏置,以获得训练最优的立体匹配网络模型。
迁移学习完成后可利用训练得到的网络进行双目立体匹配。
图4采用本发明方法得到的KITTI2015数据集中实施例立体图像对的视差图。根据图4中视差预测结果可知,本发明方法有效地解决了在病态区域无法准确找到像素匹配点的问题,且没有任何后处理过程。处理整张KITTI2015数据集图像(1242×375)可达到5Hz,相比现存的立体匹配网络,在测试期间的运行速度得到显著提升。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换和替代,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种基于卷积神经网络的双目立体匹配方法,其特征在于包括以下步骤:
步骤1:构建数据集并进行预处理,所述数据集包括参考图像和对应的目标图像,参考图像和目标图像作为一组立体图像对,所有的立体图像对都经过矫正,即只在水平方向有偏移,垂直方向无偏移;
步骤2:构建立体匹配网络,所述的立体匹配网络包括初始特征提取模块、相关层模块、上下文信息模块、代价量模块、正则化模块、视差计算模块、以及视差细化模块;
所述的初始特征提取模块是一个共享权重的孪生网络,用于对输入立体图像对进行特征提取,其输入是待匹配的输入立体图像对,输出是两个一元特征;其中所述的孪生网络首先利用一个卷积层对输入立体图像对进行一次下采样,接下来是2个残差层进一步对输入立体图像对进行处理,其中第一个残差层包括3个残差块,第二个包括4个残差块;每个残差块结构为BN-conv-BN-ReLU-conv-BN,其中BN、conv和ReLU分别指批归一化、卷积层和修正线性单元; 经过上述卷积操作后,所述孪生网络的输出是两个尺寸为H/4×W/4×F的一元特征,其中H、W分别表示原始输入图像的高和宽,F表示特征维度;
所述的相关层模块包括两部分操作:第一部分指在孪生网络的第一个残差层输出的立体特征对之间执行矩形块点积操作,用于获取立体特征对的相似性,即相关层Mf;第二部分指输入立体图像对之间执行矩形块点积操作,用于获取输入立体图像对的相似性,即相关层Mc
所述的上下文信息模块由稠密块和一个卷积层构成,用于为初始特征提取模块提取的两个一元特征加入上下文信息,其输入是初始特征提取模块提取的两个一元特征,输出是两个包含上下文信息的特征图,特征图维度为H/4×W/4×F,其中H、W分别表示原始输入图像的高和宽,F表示特征维度;
所述的代价量模块用于计算两个特征图的匹配代价,其输入是两个包含上下文信息的特征图,输出是一个代价量,具体计算过程包括:将包含上下文信息的参考特征图与对应的包含上下文信息的目标特征图之间在每个可能视差下进行连接,并将其打包成一个4D代价量,所述的代价量模块输出的代价量维度为H/4×W/4×(D+1)/4×F,其中H、W分别表示原始输入图像的高和宽,D表示最大的可能视差值,F表示特征维度;
所述的正则化模块为一个小型编解码结构,用于在代价量上学习一个正则函数来进行代价聚和,其输入是代价量,输出是正则化特征图;其中所述的小型编解码结构包括编码和解码两个阶段,编码阶段包含6个3D卷积层,分为三个编码层次,每个编码层次应用两个卷积层,且只有首个卷积层后面跟着一个BN和ReLU;在解码阶段只应用两个3D反卷积层进行上采样,并在每个上采样之前从编码阶段加上对应维度的特征图以保留粗糙的高层信息和详细的低层信息;最后,利用两个3D卷积层进一步减少特征维度来获得正则化特征图,所述的正则化特征图维度为H/4×W/4×(D+1)/4×1,其中H、W分别表示原始输入图像的高和宽,D表示最大的可能视差值;
所述的视差计算模块是利用一个可微分的soft argmin操作在正则化特征图的视差维度上进行视差回归来预测平滑连续的初始视差图,其输入是正则化特征图,输出是维度为H/4×W/4×1的初始视差图,其中H、W分别表示原始输入图像的高和宽;
所述的视差细化模块用于进一步细化视差估计,其输入是初始视差图,输出是最终视差图。
步骤3:模型训练:首先将预处理后的训练数据集立体图像对输入到立体匹配网络的模型中进行前向传播计算,得到最终视差图;然后,将输出的最终视差图和真实视差图输入到损失函数中,利用批量梯度下降法进行反向传播;最后,根据梯度多次更新迭代模型的学习参数以获得最优的立体匹配网络模型,该模型的学习参数包括权重和偏置;
步骤4:利用训练完成的立体匹配网络模型进行双目立体匹配。
2.根据权利要求1所述的双目立体匹配方法,其特征在于,步骤1中所述的预处理指:对数据集中每个输入立体图像对进行随机裁剪,然后对其进行归一化操作。
3.根据权利要求1所述的双目立体匹配方法,其特征在于,所述的孪生网络利用一个卷积核为5×5、步长为2的卷积层对输入立体图像对进行一次下采样;孪生网络中两个残差层的卷积核均为3×3,特征维度均为32,除了第二个残差层中第一个残差块步长为2,其余步长都为1。
4.根据权利要求1所述的双目立体匹配方法,其特征在于,相关层模块中所述的矩形块点积操作定义如下:
c(x1,x2)=∑o∈[-k,k]×[-k,k]<f1(x1+o),f2(x2+o)> (1)
其中f1、f2指输入的两个单通道一元特征,x1、x2分别指f1、f2一元特征上矩形块的中心,k指矩形块的大小,相关层执行的效果是让f1中的每个矩形块与f2中的每个矩形块进行比较; 给出最大位移d,对于f1的每个矩形块中心x1,相关层c(x1,x2)仅在f2的每个矩形块中心x2的2d+1邻域内进行点积计算,而不是整个f2
5.根据权利要求1所述的双目立体匹配方法,其特征在于,上下文信息模块中所述的稠密块包含6个卷积层,且卷积层之间以稠密的方式进行连接,其每次连接维度的增长率为16,此外,每个卷积层带有膨胀率,分别为1,2,4,8,16,1,最后,应用一个1x1的卷积层对特征图进行降维操作以方便构建代价量。
6.根据权利要求1所述的双目立体匹配方法,其特征在于,正则化模块中所述的编码阶段应用6个卷积核为3x3x3的卷积层,其中第三个和第五个卷积层的步长为2,其余的步长为1;在解码阶段应用2个卷积核为3x3x3的反卷积层,其步长均为2。
7.根据权利要求1所述的双目立体匹配方法,其特征在于,视差计算模块中所述的可微分的soft argmin操作定义如下:
Figure FDA0002195164680000041
其中d′指初始视差图,cd指正则化特征图,d指可能的视差值,Dmax指最大的视差值,σ(·)指softmax函数。
8.根据权利要求1所述的双目立体匹配方法,其特征在于,所述的视差细化模块的视差细化操作过程如下:首先,初始视差图利用双线性插值上采样到和Mf同等大小的维度,并和Mf合并在一起;然后通过一个卷积核为3x3,通道为32的卷积层,其输出结果再通过带有膨胀率为1,2,4,8,1,1的6个残差块;随后,残差块的输出送入一个维度为1,卷积核为3x3的卷积层,该卷积层没有BN和ReLU,并将输出与前一个视差图进行相加;最后,应用一个ReLU确保预测的视差值为正;将Mf替代为Mc再重复一次该步骤,输出结果即为最终视差图;所述的视差细化模块输出的最终视差图维度为H×W×1,其中H、W分别表示原始输入图像的高和宽。
9.根据权利要求1所述的一种基于卷积神经网络的双目立体匹配方法,其特征在于,步骤3中所述的损失函数具体如下:
Figure FDA0002195164680000042
Figure FDA0002195164680000043
其中,N是真实视差图像素的数量,d是真实视差图,d′是预测视差图,di是预测视差图的每个像素点,d′i是真实视差图的每个像素点,x是di-d′i
CN201910845907.0A 2019-08-26 2019-09-09 一种基于卷积神经网络的双目立体匹配方法 Active CN110533712B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019107902108 2019-08-26
CN201910790210 2019-08-26

Publications (2)

Publication Number Publication Date
CN110533712A CN110533712A (zh) 2019-12-03
CN110533712B true CN110533712B (zh) 2022-11-04

Family

ID=68667668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910845907.0A Active CN110533712B (zh) 2019-08-26 2019-09-09 一种基于卷积神经网络的双目立体匹配方法

Country Status (1)

Country Link
CN (1) CN110533712B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027714B (zh) * 2019-12-11 2023-03-14 腾讯科技(深圳)有限公司 基于人工智能的对象推荐模型训练方法、推荐方法及装置
CN111242999B (zh) * 2020-01-10 2022-09-20 大连理工大学 基于上采样及精确重匹配的视差估计优化方法
CN111260711B (zh) * 2020-01-10 2021-08-10 大连理工大学 一种弱监督可信代价传播的视差估计方法
CN110853087B (zh) * 2020-01-14 2020-04-28 长沙小钴科技有限公司 一种视差估计方法、装置、存储介质及终端
CN111343367B (zh) * 2020-02-17 2021-06-08 清华大学深圳国际研究生院 一种十亿像素虚拟现实视频采集装置、系统与方法
CN111368882B (zh) * 2020-02-20 2023-04-18 南京信息工程大学 一种基于简化独立成分分析和局部相似性的立体匹配方法
CN111402129B (zh) * 2020-02-21 2022-03-01 西安交通大学 一种基于联合上采样卷积神经网络的双目立体匹配方法
CN111340129A (zh) * 2020-03-09 2020-06-26 南京览笛信息科技有限公司 一种多角度估计3d结构深度网络图像高效分类方法
CN111709977A (zh) * 2020-03-17 2020-09-25 北京航空航天大学青岛研究院 一种基于自适应单峰立体匹配成本滤波的双目深度学习方法
CN111582437B (zh) * 2020-04-03 2023-06-20 华南理工大学 一种视差回归深度神经网络的构造方法
CN111489385B (zh) * 2020-04-08 2021-12-07 北京市商汤科技开发有限公司 双目立体匹配网络训练方法及装置
CN111476190A (zh) * 2020-04-14 2020-07-31 上海眼控科技股份有限公司 用于无人驾驶的目标检测方法、设备及存储介质
CN111405266B (zh) * 2020-05-29 2020-09-11 深圳看到科技有限公司 双目图像快速处理方法、装置及对应的存储介质
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法
CN111915660B (zh) * 2020-06-28 2023-01-06 华南理工大学 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN111968168B (zh) * 2020-08-05 2022-10-25 东南大学 多分支可调节瓶颈卷积模块以及端对端的立体匹配网络
CN111985551B (zh) * 2020-08-14 2023-10-27 湖南理工学院 一种基于多重注意力网络的立体匹配算法
CN111951319A (zh) * 2020-08-21 2020-11-17 清华大学深圳国际研究生院 一种图像立体匹配方法
CN112150521B (zh) * 2020-08-24 2024-05-14 江苏大学 一种基于PSMNet优化的图像立体匹配方法
CN112132201B (zh) * 2020-09-17 2023-04-28 长春理工大学 一种基于卷积神经网络的非端到端立体匹配方法
CN112184731B (zh) * 2020-09-28 2024-05-28 北京工业大学 一种基于对抗性训练的多视图立体深度估计方法
CN114494025A (zh) * 2020-10-23 2022-05-13 山东大学 一种基于解卷积神经网络双目视觉立体匹配方法
CN112270701B (zh) * 2020-10-26 2023-09-12 湖北汽车工业学院 基于分组距离网络的视差预测方法、系统及存储介质
CN112435282B (zh) * 2020-10-28 2023-09-12 西安交通大学 一种基于自适应候选视差预测网络的实时双目立体匹配方法
CN112418336B (zh) * 2020-11-27 2024-01-23 广东电网有限责任公司肇庆供电局 一种电力线巡检影像密集匹配方法
CN112489097B (zh) * 2020-12-11 2024-05-17 深圳先进技术研究院 基于混合2d卷积和伪3d卷积的立体匹配方法
CN112700532B (zh) * 2020-12-21 2021-11-16 杭州反重力智能科技有限公司 一种用于三维重建的神经网络训练方法和系统
CN112598722B (zh) * 2021-01-08 2022-02-11 北京深睿博联科技有限责任公司 一种基于可变形卷积网络的图像立体匹配方法以及系统
CN112802079A (zh) * 2021-01-19 2021-05-14 奥比中光科技集团股份有限公司 一种视差图获取方法、装置、终端和存储介质
CN112991422A (zh) * 2021-04-27 2021-06-18 杭州云智声智能科技有限公司 一种基于空洞空间金字塔池化的立体匹配方法及系统
CN113344869A (zh) * 2021-05-31 2021-09-03 武汉理工大学 一种基于候选视差的行车环境实时立体匹配方法及装置
CN113592021B (zh) * 2021-08-11 2024-03-22 上海海事大学 一种基于可变形和深度可分离卷积的立体匹配方法
CN113763446B (zh) * 2021-08-17 2024-03-29 沈阳工业大学 一种基于引导信息的立体匹配方法
CN114359388A (zh) * 2022-01-06 2022-04-15 闽都创新实验室 一种基于dnn立体匹配模块的双目视觉slam稠密建图方法
CN114119777B (zh) * 2022-01-27 2022-05-17 北京中科慧眼科技有限公司 基于深度学习的立体匹配方法和系统
CN114998453A (zh) * 2022-08-08 2022-09-02 国网浙江省电力有限公司宁波供电公司 一种基于高尺度单元的立体匹配模型及其应用方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180325A1 (zh) * 2015-05-12 2016-11-17 努比亚技术有限公司 图像处理方法及装置
CN109191511A (zh) * 2018-07-27 2019-01-11 杭州电子科技大学 一种基于卷积神经网络的双目立体匹配方法
CN109544613A (zh) * 2018-11-23 2019-03-29 南昌航空大学 一种基于稠密网络深度学习的双目立体匹配方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180325A1 (zh) * 2015-05-12 2016-11-17 努比亚技术有限公司 图像处理方法及装置
CN109191511A (zh) * 2018-07-27 2019-01-11 杭州电子科技大学 一种基于卷积神经网络的双目立体匹配方法
CN109544613A (zh) * 2018-11-23 2019-03-29 南昌航空大学 一种基于稠密网络深度学习的双目立体匹配方法及系统

Also Published As

Publication number Publication date
CN110533712A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110533712B (zh) 一种基于卷积神经网络的双目立体匹配方法
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
Wang et al. Fadnet: A fast and accurate network for disparity estimation
CN109472819B (zh) 一种基于级联几何上下文神经网络的双目视差估计方法
CN109598754B (zh) 一种基于深度卷积网络的双目深度估计方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN111402311B (zh) 一种基于知识蒸馏的轻量级立体视差估计方法
CN113592927B (zh) 一种结构信息引导的跨域图像几何配准方法
CN110533724B (zh) 基于深度学习和注意力机制的单目视觉里程计的计算方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN111127401B (zh) 一种基于深度学习的机器人立体视觉机械零件检测方法
CN110443849B (zh) 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法
CN113762358A (zh) 一种基于相对深度训练的半监督学习三维重建方法
CN113762267A (zh) 一种基于语义关联的多尺度双目立体匹配方法及装置
CN113763446A (zh) 一种基于引导信息的立体匹配方法
CN115641285A (zh) 一种基于密集多尺度信息融合的双目视觉立体匹配方法
CN116402876A (zh) 双目深度估计方法、装置、嵌入式设备和可读存储介质
CN112184731A (zh) 一种基于对抗性训练的多视图立体深度估计方法
Chen et al. Multi-dimensional cooperative network for stereo matching
Xie et al. Feature-guided spatial attention upsampling for real-time stereo matching network
CN113838102B (zh) 一种基于各向异性稠密卷积的光流确定方法和系统
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计
CN115908992B (zh) 双目立体匹配的方法、装置、设备以及存储介质
CN116630388A (zh) 基于深度学习的热成像图像双目视差估计方法及系统
Chang et al. StereoVAE: A lightweight stereo-matching system using embedded GPUs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant