CN111696148A - 基于卷积神经网络的端到端立体匹配方法 - Google Patents

基于卷积神经网络的端到端立体匹配方法 Download PDF

Info

Publication number
CN111696148A
CN111696148A CN202010556458.0A CN202010556458A CN111696148A CN 111696148 A CN111696148 A CN 111696148A CN 202010556458 A CN202010556458 A CN 202010556458A CN 111696148 A CN111696148 A CN 111696148A
Authority
CN
China
Prior art keywords
network
fpn
neural network
convolutional neural
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010556458.0A
Other languages
English (en)
Inventor
鲁志敏
袁勋
陈松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010556458.0A priority Critical patent/CN111696148A/zh
Publication of CN111696148A publication Critical patent/CN111696148A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的端到端立体匹配方法,包括:通过残差卷积神经网络分别提取左右图像各自的特征图;使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图;将左右图像最终的特征图融合形成四维的代价量;使用多尺度沙漏网络堆叠的三维卷积神经网络对四维的代价量进行代价规整,再通过上采样与视差回归,得到视差图。该方法可以充分利用到全局信息,从而获取到更为精确的视差图;相较于传统的立体匹配算法而言,其极大改善了在病态区域匹配效果差的问题,算法鲁棒性更好,并且泛化能力更强。与其他基于卷积神经网络的立体匹配算法相比,有效提升了视差图细节处的匹配效果,对应的误匹配率更低。

Description

基于卷积神经网络的端到端立体匹配方法
技术领域
本发明涉及立体视觉领域与深度学习领域,尤其涉及一种基于卷积神经网络的端到端立体匹配方法。
背景技术
立体匹配对于许多计算机视觉应用都是必不可少的,例如自动驾驶,机器人导航,增强现实和三维重建等方面。通过寻找两幅图像之间的像素级的对应关系,立体匹配算法旨在从一对经过校正的立体图像中构造视差图。首先双目摄像机获取左右图像对,经过图像校正,之后送入立体匹配模块获取精确的视差图,而视差与深度之间存在着一一对应的关系且互为反比关系,基于视差图即可计算出物体的深度信息。从而应用于各种实际场景。
立体视觉经历了数十年的发展,已经取得了很多成果,传统的立体匹配算法根据寻找匹配代价成本的方法,将其分为局部匹配算法和全局能量最小化算法。其中,局部算法计算复杂度低速度快但是精度不高,而全局算法精度高但计算复杂度高速度慢。随着深度学习的急速发展,神经网络在计算机视觉领域发挥着日益重要的作用,其迅速应用于立体匹配领域。当前立体匹配算法精度最为先进的算法都使用到了卷积神经网络(Convolutional Neural Network,CNN)。其中Jure Zbontar和Yann Lecun首次将CNN应用在立体匹配算法中,通过设计一个深层的Siamese网络去计算匹配代价,然后利用一块9×9的图块,该网络被训练去学习预测图块之间的相似性,其算法的精度远高于传统的立体匹配算法。之后,Shaked和Wolf提出了一个高速网络去计算匹配代价和一个全局的视差网络来预测视差置信度得分。Kendall等人提出了端到端的GC-Net,并使用了多尺度特征结合的三维卷积神经网络来调整匹配代价量。最后通过视差回归获取高精度的视差图。Chang等人提出了金字塔立体匹配网络(PSMNet),在构建代价量前,通过金字塔池化(Spatialpyramid pooling,SPP)模块在不同的尺度和位置聚集上下文,并结合沙漏堆叠的三维卷积神经网络来更好地利用上下文信息,从而获得了精确的视差图。
目前,传统的立体匹配算法在获得的视差图的精度上已经远远落后于基于卷积神经网络的立体匹配算法,传统的立体匹配算法在一些图像病态区域(如光照干扰、低纹理或重复纹理、遮挡等)的匹配误差很大,会降低整个立体视觉系统的性能,而卷积神经网络通过有监督的训练,能够结合全局图像信息,从而获取精度极高的视差图。
当前最先进的立体匹配算法通常在无纹理、反射表面、重复纹理等病态区域遇到困难。对于现有的立体匹配网络,空间特征是通过空间金字塔池化来获取,但是池化操作丢失掉大量的特征信息,在物体的细节处匹配效果并不理想。
发明内容
本发明的目的是提供一种基于卷积神经网络的端到端立体匹配方法,能够充分利用到全局信息,从而获取到更为精确的视差图。
本发明的目的是通过以下技术方案实现的:
一种基于卷积神经网络的端到端立体匹配方法,包括:
通过残差卷积神经网络来分别提取左右图像各自的特征图;
使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图;
将左右图像最终的特征图融合形成四维的代价量;
使用多尺度沙漏网络堆叠的三维卷积神经网络模块对四维的代价量进行代价正则化,再通过上采样与视差回归,得到视差图。
由上述本发明提供的技术方案可以看出,使用了特征金字塔网络(FPN)进行多尺度特征的融合,其能够更加充分利用到语义信息。并使用了沙漏堆叠的三维卷积神经网络来更加充分的使用上下文信息,该算法具备精度高,高效,易于实现等优点。同时,上述方法所构成网络模型为一种端到端的卷积神经网络,只需要输入左右视图,即可获取出与之对应的左视图的视差图,不需要进行任何视差优化等任何后处理过程,其帧率可达到1242×375/2.5fps。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于卷积神经网络的端到端立体匹配方法的示意图;
图2为本发明实施例提供的FPN的网络结构示意图;
图3为本发明实施例提供的单通道上的代价量组成示意图;
图4为本发明实施例提供的串联的沙漏堆叠的三维卷积神经网络的结构示意图
图5为本发明实施例提供的单个沙漏网络结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了进一步捕获视差图的细节,本发明实施例提供一种基于卷积神经网络的端到端立体匹配方法,其利用了特征金字塔网络(Feature Pyramid Network)来提取多尺度的特征信息,并进行特征融合,其可以加强对上下文信息的学习;并提出了改进的三维卷积神经网络进行代价聚合,该网络由具备编码器和解码器的沙漏堆叠网络构成;通过这些操作,有效提升了视差图在物体细节处的匹配效果,降低了视差图的误匹配率。如图1所示,本发明提供的上述方法主要包括:
1、通过残差卷积神经网络来分别提取左右图像各自的特征图。
2、使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图。
3、将左右图像最终的特征图融合形成四维的代价量。
4、使用多尺度沙漏网络堆叠的三维卷积神经网络模块对四维的代价量进行代价正则化,再通过上采样与视差回归,得到视差图。
上述方法通过深度学习的方式来学习从输入图像到视差图之间的端到端的映射。这种方式可以减少很多工程设计的复杂性。其避免了视差优化等后处理流程,而且采用深度卷积神经网络可以更好地学习输入图像数据之间的关联性,从而获得高精度的视差图。
为了便于理解,下面针对上述方法所涉及的各个部分做详细的介绍。
一、残差卷积神经网络。
使用特征图表示来取代使用原始像素强度计算而来的立体匹配代价。这样做的动机是比较一个描述符,该描述符对光学歧义更为鲁棒,而且可以结合局部上下文信息。本发明中使用了残差卷积网络来学习深度表示,因为残差网络不会随着网络层数的增多而出现梯度消失的现象。
本发明实施例中,使用两个残差卷积神经网络,各自提取左右图像的图像特征;两个残差卷积神经网络结构相同,且共享网络参数;残差卷积神经网络包含多个卷积层,每一卷积层后面接一个批处理归一化层和非线性激活函数层;左右图像各自输入至残差卷积神经网络后,通过前端的若干卷积层进行预处理并将图像的高和宽分别缩减至原来1/2;残差卷积神经网络末端的若干卷积层使用了空洞卷积网络。
如表1所示,给出了一个残差卷积神经网络的示例。
Figure BDA0002544477600000041
表1残差卷积神经网络
首先使用了三个3×3的卷积滤波器(即表1中的conv0_x)对输入进行预处理并将图像的高和宽分别缩减至原来的1/2,以减少计算的参数量。紧接着使用了30层残差卷积网络(残差模块)来提取特征。残差模块分为4个部分,其中conv1_x~conv4_x的通道数依次为32,64,128,128,并且在最后两层使用了空洞卷积网络,空洞率分别设置为2,4,以提高卷积网络的感受野。卷积核的大小统一设置为3×3。左右图像通过网络参数共享,来有效的学习相对应的特征,最后提取出左右视图各自对应的特征图,送入特征金字塔中进行多尺度特征信息的提取。
二、特征金字塔。
特征金字塔(Feature Pyramid Network,FPN)最先被提出用于小目标检测任务中,其充分结合了不同尺度下的特征信息,在大尺度下,低层特征具备高分辨率,高层特征包含的语义信息更为丰富。FPN在ImageNet和CoCo检测任务中发挥着出色的作用。基于此,将其应用于立体匹配领域,对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征,深层网络分辨率低,学的更多是语义特征。在FPN网络中,每个分辨率的特征图引入后一分辨率缩放两倍的特征图做元素级别相加的操作。通过这样的连接,每一层特征图都融合了不同分辨率、不同语义强度的特征。这样确保了每一层都有合适的分辨率和强语义特征。而且该方法只是在原网络基础上加上了额外的跨层连接,在实际应用中几乎不会增加额外的时间和计算量。实验结果表明使用特征金字塔网络对于立体匹配任务具有显著的作用。
本发明实施例中,使用两个特征金字塔,各自提取左右图像特征在多个尺度上的特征信息;两个特征金字塔的结构相同,且共享网络参数;
如图2所示,FPN网络通过多尺度特征融合的方式,对于输入的特征图,首先利用自底向上的前向过程,提取出不同尺度下的特征信息,形成特征金字塔结构;接下来,在自顶向下的过程中,从最顶端实施上采样,然后与下一层特征逐层融合再进行上采样,通过这种层层迭代的过程,使得每一层特征图都融合了不同分辨率与不同语义强度的特征,充分结合不同尺度下的特征信息。
如表2所示,给出了图2所示FPN中各层网络参数。
Figure BDA0002544477600000051
Figure BDA0002544477600000061
表2FPN中各层网络参数
在本发明设计的FPN网络中,输入特征图尺度大小为
Figure BDA0002544477600000062
对应为conv4_x的最终输出。FPN网络可分为三个过程:前向过程、横向过程与反向过程;其中:
前向过程是自底向上的过程,共设置了五个网络层,自底向上依次记为conv4_3、fpn_1、fpn_2、fpn_3、fpn_4;在各层之间利用步幅为2的卷积网络进行降采样,分别提取了
Figure BDA0002544477600000063
尺度下的特征,形成特征金字塔的结构。
在横向过程中,顶部的三个网络层利用1×1的卷积网络来降低特征图通道数。
反向过程是自顶向下的过程,共设置了五个网络层,自顶向下依次记为fpn_4x、fpn_3x+out_4、fpn_2x+out_3、concat(fpn_1,out_2)、output;从最顶端实施上采样,与下一层特征相加后再进行上采样,通过这种层层迭代的过程,充分融合不同尺度下的特征信息。最终将输出尺度大小为
Figure BDA0002544477600000064
特征图与前向过程中fpn_1层的特征图进行进一步的融合,得到最终输出的特征图。具体来说,fpn_4x层的输入是fpn_4层输出经1×1的卷积网络处理的结果,fpn_4x层进行上采样后输出;fpn_3层输出经1×1的卷积网络处理的结果与fpn_4x层输出结果按元素级别相加形成fpn_3x+out_4层,fpn_3x+out_4层进行上采样后输出;fpn_2层输出经1×1的卷积网络处理的结果与fpn_3x+out_4层输出结果按元素级别相加形成fpn_2x+out_3层,fpn_2x+out_3层进行上采样后得到out_2层,之后将out_2层与前向过程中的fpn_1层级联在一起形成concat(fpn_1,out_2)层,依次通过一次3×3卷积和1×1卷积操作得到最终输出的特征图,通过output层输出。
三、四维代价量。
在立体匹配任务中,四维代价量的概念最早由GC-Net提出,其算法通过在每个视差级别上将右侧特征图经过平移处理之后,再与左侧特征图进行级联,打包在一起形成4维代价空间(代价量)(Cost Volume),维度对应为图像高度H×图像宽度W×特征图通道数C×视差级别D(也即视差的最大范围),其中包含所有空间上下文信息,从而从该级别推断视差。本发明实施例中,通过图3展示了单个通道上的代价量构成,标记1和标记2分别代表左、右视图在某一个通道下的特征图,其中右图像生成的特征图里面的参数需要进行平移。这种方式结合了立体匹配当中视差的概念来构造代价量,为减少后续的运算量,其维度被降低至
Figure BDA0002544477600000071
其中W和H分别代表立体图像(输入的左右图像)的宽和高,C代表融合后特征图的通道数,大小为64,D表示视差的最大范围,本发明实施例中D设置为192。这种操作保留了特征图的维度,与采取点积操作来抽取特征图的维度方法不同,这使模型可以通过特征图来学习上下文信息。研究发现,与使用距离度量的方法相比,形成具有级联特征的代价量可以显著提高性能。因此,在本发明当中,也沿用了该方式来构造代价量。
四、三维卷积神经网络。
在给定代价量之后,需要学习一个正则化函数,该函数能够考虑代价量中的上下文关系从而优化视差估计。即使使用深层特征表示,如果不进行代价正则化仅仅利用深层特征来进行视差回归,匹配效果并不理想。例如,在像素强度均匀的区域(例如,天空)中,基于固定的局部上下文的任何特征的代价曲线都将是平坦的。研究发现,像这样的区域会导致整个视差维度上的多模式匹配代价曲线,需要学习正则化函数并提高这一数量。在GC-Net中,利用了三维卷积运算来过滤和完善此表示并取得了优异的效果。3D卷积能够从高度、宽度和视差维度学习特征表示,三维卷积网络的困难在于额外的维度,在推理和训练阶段都带来了计算时间的负担。因此,代价量在高度、宽度以及视差维度上分别缩减至原来的1/4,从而降低浮点运算数量。
本发明实施例中,利用沙漏堆叠的三维卷积神经网络模块,该模块使用编码器和解码器的结构,结合中间监督重复的自上而下/自下而上进行处理。沙漏网络可以学习到更多的上下文信息,被广泛用于视差估计优化的模块中。在SSPCV中构造了多个不同尺度的视差代价量,并使用沙漏网络进行3D多尺度代价汇总,从而更好地捕获全局上下文信息。
本发明实施例中,使用了多个沙漏网络进行串联,如图4所示,给出了三个沙漏网络串联而成的三维卷积神经网络模块,每个沙漏网络通过上采样与视差回归都输出视差图,用于整个网络模型的训练,具体在后文还会进行相应的说明。实验结果显示,使用三维卷积神经网络模块对四维代价量进行代价正则化处理,可以显著提高视差图的精度。
本发明实施例中,所有沙漏网络的结构完全相同。如图5所示,单个沙漏网络主要包括:依次设置的四个三维卷积神经网络与两个三维转置卷积网络;四个三维卷积神经网络为编码器,进行了两次降采样,一方面可以利用多尺度下的代价空间,充分利用上下文信息;另外一方面,可以带来网络参数的大幅降低,从而减轻计算负担。末端的两个三维转置卷积网络为解码器对编码器的输出进行上采样;同时,由于转置卷积网络会丢失掉部分信息,因此引入残差学习机制,该残差学习机制已被证明在视差估计过程中具备显著的效果,具体为:第二个三维卷积神经网络的输出连接至第一个三维转置卷积网络的输出上;沙漏网络的输入连接至第二个三维转置卷积网络的输出上;其中,第一个与第三个三维卷积神经网络的步幅为2。第二个和第四个三维卷积神经网络的步幅为1。
五、上采样操作。
本发明实施例中,采用双线性插值算法对多尺度沙漏堆叠的三维卷积神经网络模块的输出进行上采样,上采样输出结果的维度为H×W×D;其中,H与W为左右图像的高与宽,D表示视差最大范围。
六、视差回归。
通常,立体匹配算法从一元特征图中形成代价量,该代价量(Cost Volume)可以在视差维度上执行求最小值操作来估计视差,但是在训练过程中往很难收敛。
本发明实施例中,使用了softmax函数来进行视差回归。softmax函数的梯度求导非常方便,因此非常适合应用在立体匹配任务中,且效果显著。
具体操作实现过程包括:将上采样输出结果的每个代价量cd都取负,再使用softmax函数(σ(·))对-cd进行归一化,以输出每个视差d对应的概率;然后,预测的视差
Figure BDA0002544477600000083
计算为每个视差d乘上其对应概率的总和,其计算过程用公式可以表示为:
Figure BDA0002544477600000081
softmax函数表示为:
Figure BDA0002544477600000082
k和l对应为取反后的代价量-cd,上述操作是完全可微的,可以进行训练和回归视差估计。研究表明,上述视差回归比基于分类的立体匹配方法更加稳健。
七、损失函数。
对于损失函数的选择,考虑到视差回归的存在,本发明当中使用平滑的L1损失函数来训练所提出的网络模型。与L2损失函数相比,L1损失函数由于其鲁棒性和对异常值的敏感性较低而被广泛应用于目标检测的边界框回归问题中。损失函数如公式:
Figure BDA0002544477600000091
其中,
Figure BDA0002544477600000092
N代表被标记的像素个数,i为像素索引,d代表真实视差,
Figure BDA0002544477600000093
代表通过视差回归预测得出的视差值。
在沙漏堆叠网络当中,结合中间监督过程来进一步完善视差估计,从而得到更加精确的视差图。由于存在J个沙漏网络,每个沙漏网络各输出一幅视差图,则产生J个损失值,因此,总的损失函数可定义为公式:
Figure BDA0002544477600000094
其中,Lj表示利用第j个沙漏网络的输出进行上采样与视差回归时的L1损失函数;wj表示第j个沙漏网络的权重;J为沙漏网络数目。示例性的,以图4所示的三个沙漏网络串联而成的三维卷积神经网络为例,J=3,w1、w2、w3依次为0.5、0.7、1.0。
在测试阶段,只对最后一个沙漏网络的输出进行上采样与视差回归,其结果为最终的视差图。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种基于卷积神经网络的端到端立体匹配方法,其特征在于,包括:
通过残差卷积神经网络来分别提取左右图像各自的特征图;
使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图;
将左右图像最终的特征图融合形成四维的代价量;
使用多尺度沙漏网络堆叠的三维卷积神经网络模块对四维的代价量进行代价正则化,再通过上采样与视差回归,得到视差图。
2.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,所述通过残差卷积神经网络来分别提取左右图像各自的特征图包括:
使用两个残差卷积神经网络,各自提取左右图像的图像特征;两个残差卷积神经网络结构相同,且共享网络参数;
残差卷积神经网络包含多个卷积层,每一卷积层后面接一个批处理归一化层和非线性激活函数层;
左右图像各自输入至残差卷积神经网络后,通过前端的若干卷积层进行预处理并将图像的高和宽分别缩减至原来1/2;残差卷积神经网络末端的若干卷积层使用了空洞卷积网络。
3.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图包括:
使用两个特征金字塔,各自提取左右图像特征在多个尺度上的特征信息;两个特征金字塔的结构相同,且共享网络参数;
特征金字塔的操作包括三个过程:前向过程、横向过程与反向过程;其中:
前向过程是自底向上的过程,共设置了五个网络层,自底向上依次记为conv4_3、fpn_1、fpn_2、fpn_3、fpn_4;在各层之间利用步幅为2的卷积网络进行降采样,形成特征金字塔的结构;
在横向过程中,顶部的网络层fpn_2、fpn_3与fpn_4利用1×1的卷积网络来降低特征图通道数;
反向过程是自顶向下的过程,共设置了五个网络层,自顶向下依次记为fpn_4x、fpn_3x+out_4、fpn_2x+out_3、concat(fpn_1,out_2)、output;fpn_4x层的输入是fpn_4层输出经1×1的卷积网络处理的结果,fpn_4x层进行上采样后输出;fpn_3层输出经1×1的卷积网络处理的结果与fpn_4x层输出结果按元素级别相加形成fpn_3x+out_4层,fpn_3x+out_4层进行上采样后输出;fpn_2层输出经1×1的卷积网络处理的结果与fpn_3x+out_4层输出结果按元素级别相加形成fpn_2x+out_3层,fpn_2x+out_3层进行上采样后得到out_2层,之后将out_2层与前向过程中的fpn_1层级联在一起形成concat(fpn_1,out_2)层,依次通过一次3×3卷积和1×1卷积操作得到最终输出的特征图,通过output层输出。
4.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,所述将左右图像最终的特征图融合形成四维的代价空间包括:
将右图像最终的特征图进行平移与左视图最终的特征图融合形成四维的代价量,维度对应为图像高度×图像宽度×特征图通道数×视差最大范围,其中包含所有空间上下文信息。
5.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,所述三维卷积神经网络模块中所有沙漏网络的结构完全相同;单个沙漏网络包括:依次设置的四个三维卷积神经网络与两个三维转置卷积网络;
四个三维卷积神经网络为编码器,进行了两次降采样;末端的两个三维转置卷积网络为解码器对编码器的输出进行上采样;同时,引入残差学习机制,即第二个三维卷积神经网络的输出连接至第一个三维转置卷积网络的输出上;沙漏网络的输入连接至第二个三维转置卷积网络的输出上;其中,第一个与第三个三维卷积神经网络的步幅为2,第二个和第四个三维卷积神经网络的步幅为1。
6.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,采用双线性插值算法对多尺度沙漏堆叠的三维卷积神经网络的输出进行上采样,上采样输出结果的维度为H×W×D;其中,H与W为左右图像的高与宽,D表示视差最大范围。
7.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,所述时差回归通过softmax函数实现,实现过程包括:
将上采样输出结果的每个代价量cd都取负,再使用softmax函数σ(·)对-cd进行归一化,以输出每个视差d对应的概率;然后,预测的视差
Figure FDA0002544477590000021
计算为每个视差d乘上其对应概率的总和,其计算过程用公式表示为:
Figure FDA0002544477590000031
8.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,所述立体匹配的损失函数表示为:
Figure FDA0002544477590000032
其中,Lj表示利用第j个沙漏网络的输出进行上采样与视差回归时的L1损失函数;wj表示第j个沙漏网络的权重;J为沙漏网络数目;
Lj表示为:
Figure FDA0002544477590000033
其中,
Figure FDA0002544477590000034
N代表被标记的像素个数,i为像素索引,d代表真实视差,
Figure FDA0002544477590000035
代表通过视差回归预测得出的视差值。
CN202010556458.0A 2020-06-17 2020-06-17 基于卷积神经网络的端到端立体匹配方法 Pending CN111696148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010556458.0A CN111696148A (zh) 2020-06-17 2020-06-17 基于卷积神经网络的端到端立体匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010556458.0A CN111696148A (zh) 2020-06-17 2020-06-17 基于卷积神经网络的端到端立体匹配方法

Publications (1)

Publication Number Publication Date
CN111696148A true CN111696148A (zh) 2020-09-22

Family

ID=72481813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010556458.0A Pending CN111696148A (zh) 2020-06-17 2020-06-17 基于卷积神经网络的端到端立体匹配方法

Country Status (1)

Country Link
CN (1) CN111696148A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288690A (zh) * 2020-10-14 2021-01-29 武汉大学 一种融合多尺度多层级特征的卫星影像密集匹配方法
CN112418336A (zh) * 2020-11-27 2021-02-26 广东电网有限责任公司肇庆供电局 一种电力线巡检影像密集匹配方法
CN112489097A (zh) * 2020-12-11 2021-03-12 深圳先进技术研究院 基于混合2d卷积和伪3d卷积的立体匹配方法
CN112561979A (zh) * 2020-12-25 2021-03-26 天津大学 一种基于深度学习的自监督单目深度估计方法
CN112819777A (zh) * 2021-01-28 2021-05-18 重庆西山科技股份有限公司 一种双目内窥镜辅助显示方法、系统、装置和存储介质
CN112949504A (zh) * 2021-03-05 2021-06-11 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
CN112991422A (zh) * 2021-04-27 2021-06-18 杭州云智声智能科技有限公司 一种基于空洞空间金字塔池化的立体匹配方法及系统
CN113160375A (zh) * 2021-05-26 2021-07-23 郑健青 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN113283848A (zh) * 2021-07-21 2021-08-20 湖北浩蓝智造科技有限公司 一种货物入库检测方法、仓储入库系统及存储介质
CN113506336A (zh) * 2021-06-30 2021-10-15 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113592021A (zh) * 2021-08-11 2021-11-02 上海海事大学 一种基于可变形和深度可分离卷积的立体匹配方法
CN113628125A (zh) * 2021-07-06 2021-11-09 武汉大学 基于空间视差先验网络的多幅红外图像增强方法
CN113762267A (zh) * 2021-09-02 2021-12-07 北京易航远智科技有限公司 一种基于语义关联的多尺度双目立体匹配方法及装置
CN114998453A (zh) * 2022-08-08 2022-09-02 国网浙江省电力有限公司宁波供电公司 一种基于高尺度单元的立体匹配模型及其应用方法
WO2022222983A1 (zh) * 2021-04-23 2022-10-27 中兴通讯股份有限公司 视差估计方法、装置、图像处理设备及存储介质
CN115375930A (zh) * 2022-10-26 2022-11-22 中国航发四川燃气涡轮研究院 基于多尺度信息的立体匹配网络及立体匹配方法
CN115908992A (zh) * 2022-10-22 2023-04-04 北京百度网讯科技有限公司 双目立体匹配的方法、装置、设备以及存储介质
WO2023159757A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 视差图生成方法和装置、电子设备及存储介质
WO2023240764A1 (zh) * 2022-06-17 2023-12-21 五邑大学 混合代价体的双目立体匹配方法、设备及存储介质
CN117475182A (zh) * 2023-09-13 2024-01-30 江南大学 基于多特征聚合的立体匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109005398A (zh) * 2018-07-27 2018-12-14 杭州电子科技大学 一种基于卷积神经网络的立体图像视差匹配方法
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109005398A (zh) * 2018-07-27 2018-12-14 杭州电子科技大学 一种基于卷积神经网络的立体图像视差匹配方法
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"星智云图"工作室,: "YOLOv3——引入:FPN+多尺度检测 (目标检测)(one-stage)(深度学习)(CVPR 2018)", 《CSDN:HTTPS://BLOG.CSDN.NET/GENTLEMAN_QIN/ARTICLE/DETAILS/84350496》 *
IRONMAN,: "【YOLO】yolo v1到yolo v3", 《知乎:HTTPS://ZHUANLAN.ZHIHU.COM/P/37668951》 *
JIA-REN CHANG 等,: "Pyramid Stereo Matching Network", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
LIN YANG 等,: "A feature extraction technique in stereo matching network", 《2019 IEEE 4TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC 2019)》 *
LUDON,: "YOLO系列", 《简书:HTTPS://WWW.JIANSHU.COM/P/BD0E9C246846》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288690A (zh) * 2020-10-14 2021-01-29 武汉大学 一种融合多尺度多层级特征的卫星影像密集匹配方法
CN112288690B (zh) * 2020-10-14 2023-08-18 武汉大学 一种融合多尺度多层级特征的卫星影像密集匹配方法
CN112418336A (zh) * 2020-11-27 2021-02-26 广东电网有限责任公司肇庆供电局 一种电力线巡检影像密集匹配方法
CN112418336B (zh) * 2020-11-27 2024-01-23 广东电网有限责任公司肇庆供电局 一种电力线巡检影像密集匹配方法
CN112489097A (zh) * 2020-12-11 2021-03-12 深圳先进技术研究院 基于混合2d卷积和伪3d卷积的立体匹配方法
CN112489097B (zh) * 2020-12-11 2024-05-17 深圳先进技术研究院 基于混合2d卷积和伪3d卷积的立体匹配方法
CN112561979A (zh) * 2020-12-25 2021-03-26 天津大学 一种基于深度学习的自监督单目深度估计方法
CN112819777A (zh) * 2021-01-28 2021-05-18 重庆西山科技股份有限公司 一种双目内窥镜辅助显示方法、系统、装置和存储介质
CN112819777B (zh) * 2021-01-28 2022-12-27 重庆西山科技股份有限公司 一种双目内窥镜辅助显示方法、系统、装置和存储介质
CN112949504B (zh) * 2021-03-05 2024-03-19 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
CN112949504A (zh) * 2021-03-05 2021-06-11 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
WO2022222983A1 (zh) * 2021-04-23 2022-10-27 中兴通讯股份有限公司 视差估计方法、装置、图像处理设备及存储介质
CN112991422A (zh) * 2021-04-27 2021-06-18 杭州云智声智能科技有限公司 一种基于空洞空间金字塔池化的立体匹配方法及系统
CN113160375A (zh) * 2021-05-26 2021-07-23 郑健青 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN113160375B (zh) * 2021-05-26 2022-12-13 郑健青 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN113506336A (zh) * 2021-06-30 2021-10-15 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113506336B (zh) * 2021-06-30 2024-04-26 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113628125A (zh) * 2021-07-06 2021-11-09 武汉大学 基于空间视差先验网络的多幅红外图像增强方法
CN113628125B (zh) * 2021-07-06 2023-08-15 武汉大学 基于空间视差先验网络的多幅红外图像增强方法
CN113283848A (zh) * 2021-07-21 2021-08-20 湖北浩蓝智造科技有限公司 一种货物入库检测方法、仓储入库系统及存储介质
CN113592021B (zh) * 2021-08-11 2024-03-22 上海海事大学 一种基于可变形和深度可分离卷积的立体匹配方法
CN113592021A (zh) * 2021-08-11 2021-11-02 上海海事大学 一种基于可变形和深度可分离卷积的立体匹配方法
CN113762267B (zh) * 2021-09-02 2024-03-12 北京易航远智科技有限公司 一种基于语义关联的多尺度双目立体匹配方法及装置
CN113762267A (zh) * 2021-09-02 2021-12-07 北京易航远智科技有限公司 一种基于语义关联的多尺度双目立体匹配方法及装置
WO2023159757A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 视差图生成方法和装置、电子设备及存储介质
WO2023240764A1 (zh) * 2022-06-17 2023-12-21 五邑大学 混合代价体的双目立体匹配方法、设备及存储介质
CN114998453A (zh) * 2022-08-08 2022-09-02 国网浙江省电力有限公司宁波供电公司 一种基于高尺度单元的立体匹配模型及其应用方法
CN115908992A (zh) * 2022-10-22 2023-04-04 北京百度网讯科技有限公司 双目立体匹配的方法、装置、设备以及存储介质
CN115908992B (zh) * 2022-10-22 2023-12-05 北京百度网讯科技有限公司 双目立体匹配的方法、装置、设备以及存储介质
CN115375930B (zh) * 2022-10-26 2023-05-05 中国航发四川燃气涡轮研究院 基于多尺度信息的立体匹配网络及立体匹配方法
CN115375930A (zh) * 2022-10-26 2022-11-22 中国航发四川燃气涡轮研究院 基于多尺度信息的立体匹配网络及立体匹配方法
CN117475182A (zh) * 2023-09-13 2024-01-30 江南大学 基于多特征聚合的立体匹配方法

Similar Documents

Publication Publication Date Title
CN111696148A (zh) 基于卷积神经网络的端到端立体匹配方法
Xu et al. Rssformer: Foreground saliency enhancement for remote sensing land-cover segmentation
Zhang et al. Progressive hard-mining network for monocular depth estimation
CN111582316A (zh) 一种rgb-d显著性目标检测方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN112767466B (zh) 一种基于多模态信息的光场深度估计方法
CN111126385A (zh) 一种可变形活体小目标的深度学习智能识别方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN111294614B (zh) 用于数字图像、音频或视频数据处理的方法和设备
CN113344869A (zh) 一种基于候选视差的行车环境实时立体匹配方法及装置
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN115641285A (zh) 一种基于密集多尺度信息融合的双目视觉立体匹配方法
CN116109689A (zh) 基于引导优化聚合的边缘保持立体匹配方法
CN116579943A (zh) 基于生成对抗网络的遥感sar-光学图像融合去云方法
Wang et al. Dual encoder-decoder network for land cover segmentation of remote sensing image
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN112270701A (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN116597146A (zh) 一种针对激光雷达稀疏点云数据的语义分割方法
CN112419387B (zh) 一种日光温室番茄植株图像无监督深度估计方法
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
Zhang et al. A multi-cue guidance network for depth completion
CN115272670A (zh) 一种基于掩膜注意交互的sar图像舰船实例分割方法
Yao et al. SSNet: A Novel Transformer and CNN Hybrid Network for Remote Sensing Semantic Segmentation
Niu et al. Underwater Waste Recognition and Localization Based on Improved YOLOv5.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200922