CN111696148A - 基于卷积神经网络的端到端立体匹配方法 - Google Patents
基于卷积神经网络的端到端立体匹配方法 Download PDFInfo
- Publication number
- CN111696148A CN111696148A CN202010556458.0A CN202010556458A CN111696148A CN 111696148 A CN111696148 A CN 111696148A CN 202010556458 A CN202010556458 A CN 202010556458A CN 111696148 A CN111696148 A CN 111696148A
- Authority
- CN
- China
- Prior art keywords
- network
- fpn
- neural network
- convolutional neural
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 55
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000010606 normalization Methods 0.000 claims abstract description 3
- 230000008569 process Effects 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 230000001575 pathological effect Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 241000282461 Canis lupus Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的端到端立体匹配方法,包括:通过残差卷积神经网络分别提取左右图像各自的特征图;使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图;将左右图像最终的特征图融合形成四维的代价量;使用多尺度沙漏网络堆叠的三维卷积神经网络对四维的代价量进行代价规整,再通过上采样与视差回归,得到视差图。该方法可以充分利用到全局信息,从而获取到更为精确的视差图;相较于传统的立体匹配算法而言,其极大改善了在病态区域匹配效果差的问题,算法鲁棒性更好,并且泛化能力更强。与其他基于卷积神经网络的立体匹配算法相比,有效提升了视差图细节处的匹配效果,对应的误匹配率更低。
Description
技术领域
本发明涉及立体视觉领域与深度学习领域,尤其涉及一种基于卷积神经网络的端到端立体匹配方法。
背景技术
立体匹配对于许多计算机视觉应用都是必不可少的,例如自动驾驶,机器人导航,增强现实和三维重建等方面。通过寻找两幅图像之间的像素级的对应关系,立体匹配算法旨在从一对经过校正的立体图像中构造视差图。首先双目摄像机获取左右图像对,经过图像校正,之后送入立体匹配模块获取精确的视差图,而视差与深度之间存在着一一对应的关系且互为反比关系,基于视差图即可计算出物体的深度信息。从而应用于各种实际场景。
立体视觉经历了数十年的发展,已经取得了很多成果,传统的立体匹配算法根据寻找匹配代价成本的方法,将其分为局部匹配算法和全局能量最小化算法。其中,局部算法计算复杂度低速度快但是精度不高,而全局算法精度高但计算复杂度高速度慢。随着深度学习的急速发展,神经网络在计算机视觉领域发挥着日益重要的作用,其迅速应用于立体匹配领域。当前立体匹配算法精度最为先进的算法都使用到了卷积神经网络(Convolutional Neural Network,CNN)。其中Jure Zbontar和Yann Lecun首次将CNN应用在立体匹配算法中,通过设计一个深层的Siamese网络去计算匹配代价,然后利用一块9×9的图块,该网络被训练去学习预测图块之间的相似性,其算法的精度远高于传统的立体匹配算法。之后,Shaked和Wolf提出了一个高速网络去计算匹配代价和一个全局的视差网络来预测视差置信度得分。Kendall等人提出了端到端的GC-Net,并使用了多尺度特征结合的三维卷积神经网络来调整匹配代价量。最后通过视差回归获取高精度的视差图。Chang等人提出了金字塔立体匹配网络(PSMNet),在构建代价量前,通过金字塔池化(Spatialpyramid pooling,SPP)模块在不同的尺度和位置聚集上下文,并结合沙漏堆叠的三维卷积神经网络来更好地利用上下文信息,从而获得了精确的视差图。
目前,传统的立体匹配算法在获得的视差图的精度上已经远远落后于基于卷积神经网络的立体匹配算法,传统的立体匹配算法在一些图像病态区域(如光照干扰、低纹理或重复纹理、遮挡等)的匹配误差很大,会降低整个立体视觉系统的性能,而卷积神经网络通过有监督的训练,能够结合全局图像信息,从而获取精度极高的视差图。
当前最先进的立体匹配算法通常在无纹理、反射表面、重复纹理等病态区域遇到困难。对于现有的立体匹配网络,空间特征是通过空间金字塔池化来获取,但是池化操作丢失掉大量的特征信息,在物体的细节处匹配效果并不理想。
发明内容
本发明的目的是提供一种基于卷积神经网络的端到端立体匹配方法,能够充分利用到全局信息,从而获取到更为精确的视差图。
本发明的目的是通过以下技术方案实现的:
一种基于卷积神经网络的端到端立体匹配方法,包括:
通过残差卷积神经网络来分别提取左右图像各自的特征图;
使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图;
将左右图像最终的特征图融合形成四维的代价量;
使用多尺度沙漏网络堆叠的三维卷积神经网络模块对四维的代价量进行代价正则化,再通过上采样与视差回归,得到视差图。
由上述本发明提供的技术方案可以看出,使用了特征金字塔网络(FPN)进行多尺度特征的融合,其能够更加充分利用到语义信息。并使用了沙漏堆叠的三维卷积神经网络来更加充分的使用上下文信息,该算法具备精度高,高效,易于实现等优点。同时,上述方法所构成网络模型为一种端到端的卷积神经网络,只需要输入左右视图,即可获取出与之对应的左视图的视差图,不需要进行任何视差优化等任何后处理过程,其帧率可达到1242×375/2.5fps。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于卷积神经网络的端到端立体匹配方法的示意图;
图2为本发明实施例提供的FPN的网络结构示意图;
图3为本发明实施例提供的单通道上的代价量组成示意图;
图4为本发明实施例提供的串联的沙漏堆叠的三维卷积神经网络的结构示意图
图5为本发明实施例提供的单个沙漏网络结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了进一步捕获视差图的细节,本发明实施例提供一种基于卷积神经网络的端到端立体匹配方法,其利用了特征金字塔网络(Feature Pyramid Network)来提取多尺度的特征信息,并进行特征融合,其可以加强对上下文信息的学习;并提出了改进的三维卷积神经网络进行代价聚合,该网络由具备编码器和解码器的沙漏堆叠网络构成;通过这些操作,有效提升了视差图在物体细节处的匹配效果,降低了视差图的误匹配率。如图1所示,本发明提供的上述方法主要包括:
1、通过残差卷积神经网络来分别提取左右图像各自的特征图。
2、使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图。
3、将左右图像最终的特征图融合形成四维的代价量。
4、使用多尺度沙漏网络堆叠的三维卷积神经网络模块对四维的代价量进行代价正则化,再通过上采样与视差回归,得到视差图。
上述方法通过深度学习的方式来学习从输入图像到视差图之间的端到端的映射。这种方式可以减少很多工程设计的复杂性。其避免了视差优化等后处理流程,而且采用深度卷积神经网络可以更好地学习输入图像数据之间的关联性,从而获得高精度的视差图。
为了便于理解,下面针对上述方法所涉及的各个部分做详细的介绍。
一、残差卷积神经网络。
使用特征图表示来取代使用原始像素强度计算而来的立体匹配代价。这样做的动机是比较一个描述符,该描述符对光学歧义更为鲁棒,而且可以结合局部上下文信息。本发明中使用了残差卷积网络来学习深度表示,因为残差网络不会随着网络层数的增多而出现梯度消失的现象。
本发明实施例中,使用两个残差卷积神经网络,各自提取左右图像的图像特征;两个残差卷积神经网络结构相同,且共享网络参数;残差卷积神经网络包含多个卷积层,每一卷积层后面接一个批处理归一化层和非线性激活函数层;左右图像各自输入至残差卷积神经网络后,通过前端的若干卷积层进行预处理并将图像的高和宽分别缩减至原来1/2;残差卷积神经网络末端的若干卷积层使用了空洞卷积网络。
如表1所示,给出了一个残差卷积神经网络的示例。
表1残差卷积神经网络
首先使用了三个3×3的卷积滤波器(即表1中的conv0_x)对输入进行预处理并将图像的高和宽分别缩减至原来的1/2,以减少计算的参数量。紧接着使用了30层残差卷积网络(残差模块)来提取特征。残差模块分为4个部分,其中conv1_x~conv4_x的通道数依次为32,64,128,128,并且在最后两层使用了空洞卷积网络,空洞率分别设置为2,4,以提高卷积网络的感受野。卷积核的大小统一设置为3×3。左右图像通过网络参数共享,来有效的学习相对应的特征,最后提取出左右视图各自对应的特征图,送入特征金字塔中进行多尺度特征信息的提取。
二、特征金字塔。
特征金字塔(Feature Pyramid Network,FPN)最先被提出用于小目标检测任务中,其充分结合了不同尺度下的特征信息,在大尺度下,低层特征具备高分辨率,高层特征包含的语义信息更为丰富。FPN在ImageNet和CoCo检测任务中发挥着出色的作用。基于此,将其应用于立体匹配领域,对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征,深层网络分辨率低,学的更多是语义特征。在FPN网络中,每个分辨率的特征图引入后一分辨率缩放两倍的特征图做元素级别相加的操作。通过这样的连接,每一层特征图都融合了不同分辨率、不同语义强度的特征。这样确保了每一层都有合适的分辨率和强语义特征。而且该方法只是在原网络基础上加上了额外的跨层连接,在实际应用中几乎不会增加额外的时间和计算量。实验结果表明使用特征金字塔网络对于立体匹配任务具有显著的作用。
本发明实施例中,使用两个特征金字塔,各自提取左右图像特征在多个尺度上的特征信息;两个特征金字塔的结构相同,且共享网络参数;
如图2所示,FPN网络通过多尺度特征融合的方式,对于输入的特征图,首先利用自底向上的前向过程,提取出不同尺度下的特征信息,形成特征金字塔结构;接下来,在自顶向下的过程中,从最顶端实施上采样,然后与下一层特征逐层融合再进行上采样,通过这种层层迭代的过程,使得每一层特征图都融合了不同分辨率与不同语义强度的特征,充分结合不同尺度下的特征信息。
如表2所示,给出了图2所示FPN中各层网络参数。
表2FPN中各层网络参数
前向过程是自底向上的过程,共设置了五个网络层,自底向上依次记为conv4_3、fpn_1、fpn_2、fpn_3、fpn_4;在各层之间利用步幅为2的卷积网络进行降采样,分别提取了尺度下的特征,形成特征金字塔的结构。
在横向过程中,顶部的三个网络层利用1×1的卷积网络来降低特征图通道数。
反向过程是自顶向下的过程,共设置了五个网络层,自顶向下依次记为fpn_4x、fpn_3x+out_4、fpn_2x+out_3、concat(fpn_1,out_2)、output;从最顶端实施上采样,与下一层特征相加后再进行上采样,通过这种层层迭代的过程,充分融合不同尺度下的特征信息。最终将输出尺度大小为特征图与前向过程中fpn_1层的特征图进行进一步的融合,得到最终输出的特征图。具体来说,fpn_4x层的输入是fpn_4层输出经1×1的卷积网络处理的结果,fpn_4x层进行上采样后输出;fpn_3层输出经1×1的卷积网络处理的结果与fpn_4x层输出结果按元素级别相加形成fpn_3x+out_4层,fpn_3x+out_4层进行上采样后输出;fpn_2层输出经1×1的卷积网络处理的结果与fpn_3x+out_4层输出结果按元素级别相加形成fpn_2x+out_3层,fpn_2x+out_3层进行上采样后得到out_2层,之后将out_2层与前向过程中的fpn_1层级联在一起形成concat(fpn_1,out_2)层,依次通过一次3×3卷积和1×1卷积操作得到最终输出的特征图,通过output层输出。
三、四维代价量。
在立体匹配任务中,四维代价量的概念最早由GC-Net提出,其算法通过在每个视差级别上将右侧特征图经过平移处理之后,再与左侧特征图进行级联,打包在一起形成4维代价空间(代价量)(Cost Volume),维度对应为图像高度H×图像宽度W×特征图通道数C×视差级别D(也即视差的最大范围),其中包含所有空间上下文信息,从而从该级别推断视差。本发明实施例中,通过图3展示了单个通道上的代价量构成,标记1和标记2分别代表左、右视图在某一个通道下的特征图,其中右图像生成的特征图里面的参数需要进行平移。这种方式结合了立体匹配当中视差的概念来构造代价量,为减少后续的运算量,其维度被降低至其中W和H分别代表立体图像(输入的左右图像)的宽和高,C代表融合后特征图的通道数,大小为64,D表示视差的最大范围,本发明实施例中D设置为192。这种操作保留了特征图的维度,与采取点积操作来抽取特征图的维度方法不同,这使模型可以通过特征图来学习上下文信息。研究发现,与使用距离度量的方法相比,形成具有级联特征的代价量可以显著提高性能。因此,在本发明当中,也沿用了该方式来构造代价量。
四、三维卷积神经网络。
在给定代价量之后,需要学习一个正则化函数,该函数能够考虑代价量中的上下文关系从而优化视差估计。即使使用深层特征表示,如果不进行代价正则化仅仅利用深层特征来进行视差回归,匹配效果并不理想。例如,在像素强度均匀的区域(例如,天空)中,基于固定的局部上下文的任何特征的代价曲线都将是平坦的。研究发现,像这样的区域会导致整个视差维度上的多模式匹配代价曲线,需要学习正则化函数并提高这一数量。在GC-Net中,利用了三维卷积运算来过滤和完善此表示并取得了优异的效果。3D卷积能够从高度、宽度和视差维度学习特征表示,三维卷积网络的困难在于额外的维度,在推理和训练阶段都带来了计算时间的负担。因此,代价量在高度、宽度以及视差维度上分别缩减至原来的1/4,从而降低浮点运算数量。
本发明实施例中,利用沙漏堆叠的三维卷积神经网络模块,该模块使用编码器和解码器的结构,结合中间监督重复的自上而下/自下而上进行处理。沙漏网络可以学习到更多的上下文信息,被广泛用于视差估计优化的模块中。在SSPCV中构造了多个不同尺度的视差代价量,并使用沙漏网络进行3D多尺度代价汇总,从而更好地捕获全局上下文信息。
本发明实施例中,使用了多个沙漏网络进行串联,如图4所示,给出了三个沙漏网络串联而成的三维卷积神经网络模块,每个沙漏网络通过上采样与视差回归都输出视差图,用于整个网络模型的训练,具体在后文还会进行相应的说明。实验结果显示,使用三维卷积神经网络模块对四维代价量进行代价正则化处理,可以显著提高视差图的精度。
本发明实施例中,所有沙漏网络的结构完全相同。如图5所示,单个沙漏网络主要包括:依次设置的四个三维卷积神经网络与两个三维转置卷积网络;四个三维卷积神经网络为编码器,进行了两次降采样,一方面可以利用多尺度下的代价空间,充分利用上下文信息;另外一方面,可以带来网络参数的大幅降低,从而减轻计算负担。末端的两个三维转置卷积网络为解码器对编码器的输出进行上采样;同时,由于转置卷积网络会丢失掉部分信息,因此引入残差学习机制,该残差学习机制已被证明在视差估计过程中具备显著的效果,具体为:第二个三维卷积神经网络的输出连接至第一个三维转置卷积网络的输出上;沙漏网络的输入连接至第二个三维转置卷积网络的输出上;其中,第一个与第三个三维卷积神经网络的步幅为2。第二个和第四个三维卷积神经网络的步幅为1。
五、上采样操作。
本发明实施例中,采用双线性插值算法对多尺度沙漏堆叠的三维卷积神经网络模块的输出进行上采样,上采样输出结果的维度为H×W×D;其中,H与W为左右图像的高与宽,D表示视差最大范围。
六、视差回归。
通常,立体匹配算法从一元特征图中形成代价量,该代价量(Cost Volume)可以在视差维度上执行求最小值操作来估计视差,但是在训练过程中往很难收敛。
本发明实施例中,使用了softmax函数来进行视差回归。softmax函数的梯度求导非常方便,因此非常适合应用在立体匹配任务中,且效果显著。
具体操作实现过程包括:将上采样输出结果的每个代价量cd都取负,再使用softmax函数(σ(·))对-cd进行归一化,以输出每个视差d对应的概率;然后,预测的视差计算为每个视差d乘上其对应概率的总和,其计算过程用公式可以表示为:
softmax函数表示为:
k和l对应为取反后的代价量-cd,上述操作是完全可微的,可以进行训练和回归视差估计。研究表明,上述视差回归比基于分类的立体匹配方法更加稳健。
七、损失函数。
对于损失函数的选择,考虑到视差回归的存在,本发明当中使用平滑的L1损失函数来训练所提出的网络模型。与L2损失函数相比,L1损失函数由于其鲁棒性和对异常值的敏感性较低而被广泛应用于目标检测的边界框回归问题中。损失函数如公式:
其中,
在沙漏堆叠网络当中,结合中间监督过程来进一步完善视差估计,从而得到更加精确的视差图。由于存在J个沙漏网络,每个沙漏网络各输出一幅视差图,则产生J个损失值,因此,总的损失函数可定义为公式:
其中,Lj表示利用第j个沙漏网络的输出进行上采样与视差回归时的L1损失函数;wj表示第j个沙漏网络的权重;J为沙漏网络数目。示例性的,以图4所示的三个沙漏网络串联而成的三维卷积神经网络为例,J=3,w1、w2、w3依次为0.5、0.7、1.0。
在测试阶段,只对最后一个沙漏网络的输出进行上采样与视差回归,其结果为最终的视差图。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种基于卷积神经网络的端到端立体匹配方法,其特征在于,包括:
通过残差卷积神经网络来分别提取左右图像各自的特征图;
使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图;
将左右图像最终的特征图融合形成四维的代价量;
使用多尺度沙漏网络堆叠的三维卷积神经网络模块对四维的代价量进行代价正则化,再通过上采样与视差回归,得到视差图。
2.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,所述通过残差卷积神经网络来分别提取左右图像各自的特征图包括:
使用两个残差卷积神经网络,各自提取左右图像的图像特征;两个残差卷积神经网络结构相同,且共享网络参数;
残差卷积神经网络包含多个卷积层,每一卷积层后面接一个批处理归一化层和非线性激活函数层;
左右图像各自输入至残差卷积神经网络后,通过前端的若干卷积层进行预处理并将图像的高和宽分别缩减至原来1/2;残差卷积神经网络末端的若干卷积层使用了空洞卷积网络。
3.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,使用特征金字塔,分别提取左右特征图在多个尺度上的特征信息,获得左右图像最终的特征图包括:
使用两个特征金字塔,各自提取左右图像特征在多个尺度上的特征信息;两个特征金字塔的结构相同,且共享网络参数;
特征金字塔的操作包括三个过程:前向过程、横向过程与反向过程;其中:
前向过程是自底向上的过程,共设置了五个网络层,自底向上依次记为conv4_3、fpn_1、fpn_2、fpn_3、fpn_4;在各层之间利用步幅为2的卷积网络进行降采样,形成特征金字塔的结构;
在横向过程中,顶部的网络层fpn_2、fpn_3与fpn_4利用1×1的卷积网络来降低特征图通道数;
反向过程是自顶向下的过程,共设置了五个网络层,自顶向下依次记为fpn_4x、fpn_3x+out_4、fpn_2x+out_3、concat(fpn_1,out_2)、output;fpn_4x层的输入是fpn_4层输出经1×1的卷积网络处理的结果,fpn_4x层进行上采样后输出;fpn_3层输出经1×1的卷积网络处理的结果与fpn_4x层输出结果按元素级别相加形成fpn_3x+out_4层,fpn_3x+out_4层进行上采样后输出;fpn_2层输出经1×1的卷积网络处理的结果与fpn_3x+out_4层输出结果按元素级别相加形成fpn_2x+out_3层,fpn_2x+out_3层进行上采样后得到out_2层,之后将out_2层与前向过程中的fpn_1层级联在一起形成concat(fpn_1,out_2)层,依次通过一次3×3卷积和1×1卷积操作得到最终输出的特征图,通过output层输出。
4.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,所述将左右图像最终的特征图融合形成四维的代价空间包括:
将右图像最终的特征图进行平移与左视图最终的特征图融合形成四维的代价量,维度对应为图像高度×图像宽度×特征图通道数×视差最大范围,其中包含所有空间上下文信息。
5.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,所述三维卷积神经网络模块中所有沙漏网络的结构完全相同;单个沙漏网络包括:依次设置的四个三维卷积神经网络与两个三维转置卷积网络;
四个三维卷积神经网络为编码器,进行了两次降采样;末端的两个三维转置卷积网络为解码器对编码器的输出进行上采样;同时,引入残差学习机制,即第二个三维卷积神经网络的输出连接至第一个三维转置卷积网络的输出上;沙漏网络的输入连接至第二个三维转置卷积网络的输出上;其中,第一个与第三个三维卷积神经网络的步幅为2,第二个和第四个三维卷积神经网络的步幅为1。
6.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法,其特征在于,采用双线性插值算法对多尺度沙漏堆叠的三维卷积神经网络的输出进行上采样,上采样输出结果的维度为H×W×D;其中,H与W为左右图像的高与宽,D表示视差最大范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010556458.0A CN111696148A (zh) | 2020-06-17 | 2020-06-17 | 基于卷积神经网络的端到端立体匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010556458.0A CN111696148A (zh) | 2020-06-17 | 2020-06-17 | 基于卷积神经网络的端到端立体匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111696148A true CN111696148A (zh) | 2020-09-22 |
Family
ID=72481813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010556458.0A Pending CN111696148A (zh) | 2020-06-17 | 2020-06-17 | 基于卷积神经网络的端到端立体匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696148A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200853A (zh) * | 2020-10-16 | 2021-01-08 | 集美大学 | 一种基于三维卷积神经网络的渐进式实时立体匹配方法 |
CN112288690A (zh) * | 2020-10-14 | 2021-01-29 | 武汉大学 | 一种融合多尺度多层级特征的卫星影像密集匹配方法 |
CN112418336A (zh) * | 2020-11-27 | 2021-02-26 | 广东电网有限责任公司肇庆供电局 | 一种电力线巡检影像密集匹配方法 |
CN112489097A (zh) * | 2020-12-11 | 2021-03-12 | 深圳先进技术研究院 | 基于混合2d卷积和伪3d卷积的立体匹配方法 |
CN112561979A (zh) * | 2020-12-25 | 2021-03-26 | 天津大学 | 一种基于深度学习的自监督单目深度估计方法 |
CN112819777A (zh) * | 2021-01-28 | 2021-05-18 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
CN112949504A (zh) * | 2021-03-05 | 2021-06-11 | 深圳市爱培科技术股份有限公司 | 立体匹配方法、装置、设备及存储介质 |
CN112991422A (zh) * | 2021-04-27 | 2021-06-18 | 杭州云智声智能科技有限公司 | 一种基于空洞空间金字塔池化的立体匹配方法及系统 |
CN113160375A (zh) * | 2021-05-26 | 2021-07-23 | 郑健青 | 一种基于多任务学习算法的三维重建及相机位姿估计方法 |
CN113283848A (zh) * | 2021-07-21 | 2021-08-20 | 湖北浩蓝智造科技有限公司 | 一种货物入库检测方法、仓储入库系统及存储介质 |
CN113506336A (zh) * | 2021-06-30 | 2021-10-15 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN113592021A (zh) * | 2021-08-11 | 2021-11-02 | 上海海事大学 | 一种基于可变形和深度可分离卷积的立体匹配方法 |
CN113628125A (zh) * | 2021-07-06 | 2021-11-09 | 武汉大学 | 基于空间视差先验网络的多幅红外图像增强方法 |
CN113762267A (zh) * | 2021-09-02 | 2021-12-07 | 北京易航远智科技有限公司 | 一种基于语义关联的多尺度双目立体匹配方法及装置 |
CN114998453A (zh) * | 2022-08-08 | 2022-09-02 | 国网浙江省电力有限公司宁波供电公司 | 一种基于高尺度单元的立体匹配模型及其应用方法 |
WO2022222983A1 (zh) * | 2021-04-23 | 2022-10-27 | 中兴通讯股份有限公司 | 视差估计方法、装置、图像处理设备及存储介质 |
CN115375930A (zh) * | 2022-10-26 | 2022-11-22 | 中国航发四川燃气涡轮研究院 | 基于多尺度信息的立体匹配网络及立体匹配方法 |
CN115908992A (zh) * | 2022-10-22 | 2023-04-04 | 北京百度网讯科技有限公司 | 双目立体匹配的方法、装置、设备以及存储介质 |
WO2023159757A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 视差图生成方法和装置、电子设备及存储介质 |
WO2023240764A1 (zh) * | 2022-06-17 | 2023-12-21 | 五邑大学 | 混合代价体的双目立体匹配方法、设备及存储介质 |
CN117475182A (zh) * | 2023-09-13 | 2024-01-30 | 江南大学 | 基于多特征聚合的立体匹配方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109005398A (zh) * | 2018-07-27 | 2018-12-14 | 杭州电子科技大学 | 一种基于卷积神经网络的立体图像视差匹配方法 |
CN110533712A (zh) * | 2019-08-26 | 2019-12-03 | 北京工业大学 | 一种基于卷积神经网络的双目立体匹配方法 |
-
2020
- 2020-06-17 CN CN202010556458.0A patent/CN111696148A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109005398A (zh) * | 2018-07-27 | 2018-12-14 | 杭州电子科技大学 | 一种基于卷积神经网络的立体图像视差匹配方法 |
CN110533712A (zh) * | 2019-08-26 | 2019-12-03 | 北京工业大学 | 一种基于卷积神经网络的双目立体匹配方法 |
Non-Patent Citations (5)
Title |
---|
"星智云图"工作室,: "YOLOv3——引入:FPN+多尺度检测 (目标检测)(one-stage)(深度学习)(CVPR 2018)", 《CSDN:HTTPS://BLOG.CSDN.NET/GENTLEMAN_QIN/ARTICLE/DETAILS/84350496》 * |
IRONMAN,: "【YOLO】yolo v1到yolo v3", 《知乎:HTTPS://ZHUANLAN.ZHIHU.COM/P/37668951》 * |
JIA-REN CHANG 等,: "Pyramid Stereo Matching Network", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
LIN YANG 等,: "A feature extraction technique in stereo matching network", 《2019 IEEE 4TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC 2019)》 * |
LUDON,: "YOLO系列", 《简书:HTTPS://WWW.JIANSHU.COM/P/BD0E9C246846》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288690A (zh) * | 2020-10-14 | 2021-01-29 | 武汉大学 | 一种融合多尺度多层级特征的卫星影像密集匹配方法 |
CN112288690B (zh) * | 2020-10-14 | 2023-08-18 | 武汉大学 | 一种融合多尺度多层级特征的卫星影像密集匹配方法 |
CN112200853A (zh) * | 2020-10-16 | 2021-01-08 | 集美大学 | 一种基于三维卷积神经网络的渐进式实时立体匹配方法 |
CN112418336B (zh) * | 2020-11-27 | 2024-01-23 | 广东电网有限责任公司肇庆供电局 | 一种电力线巡检影像密集匹配方法 |
CN112418336A (zh) * | 2020-11-27 | 2021-02-26 | 广东电网有限责任公司肇庆供电局 | 一种电力线巡检影像密集匹配方法 |
CN112489097A (zh) * | 2020-12-11 | 2021-03-12 | 深圳先进技术研究院 | 基于混合2d卷积和伪3d卷积的立体匹配方法 |
CN112489097B (zh) * | 2020-12-11 | 2024-05-17 | 深圳先进技术研究院 | 基于混合2d卷积和伪3d卷积的立体匹配方法 |
CN112561979A (zh) * | 2020-12-25 | 2021-03-26 | 天津大学 | 一种基于深度学习的自监督单目深度估计方法 |
CN112819777A (zh) * | 2021-01-28 | 2021-05-18 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
CN112819777B (zh) * | 2021-01-28 | 2022-12-27 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
CN112949504B (zh) * | 2021-03-05 | 2024-03-19 | 深圳市爱培科技术股份有限公司 | 立体匹配方法、装置、设备及存储介质 |
CN112949504A (zh) * | 2021-03-05 | 2021-06-11 | 深圳市爱培科技术股份有限公司 | 立体匹配方法、装置、设备及存储介质 |
WO2022222983A1 (zh) * | 2021-04-23 | 2022-10-27 | 中兴通讯股份有限公司 | 视差估计方法、装置、图像处理设备及存储介质 |
CN112991422A (zh) * | 2021-04-27 | 2021-06-18 | 杭州云智声智能科技有限公司 | 一种基于空洞空间金字塔池化的立体匹配方法及系统 |
CN113160375A (zh) * | 2021-05-26 | 2021-07-23 | 郑健青 | 一种基于多任务学习算法的三维重建及相机位姿估计方法 |
CN113160375B (zh) * | 2021-05-26 | 2022-12-13 | 郑健青 | 一种基于多任务学习算法的三维重建及相机位姿估计方法 |
CN113506336A (zh) * | 2021-06-30 | 2021-10-15 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN113506336B (zh) * | 2021-06-30 | 2024-04-26 | 上海师范大学 | 一种基于卷积神经网络和注意力机制的光场深度预测方法 |
CN113628125B (zh) * | 2021-07-06 | 2023-08-15 | 武汉大学 | 基于空间视差先验网络的多幅红外图像增强方法 |
CN113628125A (zh) * | 2021-07-06 | 2021-11-09 | 武汉大学 | 基于空间视差先验网络的多幅红外图像增强方法 |
CN113283848A (zh) * | 2021-07-21 | 2021-08-20 | 湖北浩蓝智造科技有限公司 | 一种货物入库检测方法、仓储入库系统及存储介质 |
CN113592021B (zh) * | 2021-08-11 | 2024-03-22 | 上海海事大学 | 一种基于可变形和深度可分离卷积的立体匹配方法 |
CN113592021A (zh) * | 2021-08-11 | 2021-11-02 | 上海海事大学 | 一种基于可变形和深度可分离卷积的立体匹配方法 |
CN113762267B (zh) * | 2021-09-02 | 2024-03-12 | 北京易航远智科技有限公司 | 一种基于语义关联的多尺度双目立体匹配方法及装置 |
CN113762267A (zh) * | 2021-09-02 | 2021-12-07 | 北京易航远智科技有限公司 | 一种基于语义关联的多尺度双目立体匹配方法及装置 |
WO2023159757A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 视差图生成方法和装置、电子设备及存储介质 |
WO2023240764A1 (zh) * | 2022-06-17 | 2023-12-21 | 五邑大学 | 混合代价体的双目立体匹配方法、设备及存储介质 |
CN114998453A (zh) * | 2022-08-08 | 2022-09-02 | 国网浙江省电力有限公司宁波供电公司 | 一种基于高尺度单元的立体匹配模型及其应用方法 |
CN115908992B (zh) * | 2022-10-22 | 2023-12-05 | 北京百度网讯科技有限公司 | 双目立体匹配的方法、装置、设备以及存储介质 |
CN115908992A (zh) * | 2022-10-22 | 2023-04-04 | 北京百度网讯科技有限公司 | 双目立体匹配的方法、装置、设备以及存储介质 |
CN115375930B (zh) * | 2022-10-26 | 2023-05-05 | 中国航发四川燃气涡轮研究院 | 基于多尺度信息的立体匹配网络及立体匹配方法 |
CN115375930A (zh) * | 2022-10-26 | 2022-11-22 | 中国航发四川燃气涡轮研究院 | 基于多尺度信息的立体匹配网络及立体匹配方法 |
CN117475182A (zh) * | 2023-09-13 | 2024-01-30 | 江南大学 | 基于多特征聚合的立体匹配方法 |
CN117475182B (zh) * | 2023-09-13 | 2024-06-04 | 江南大学 | 基于多特征聚合的立体匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696148A (zh) | 基于卷积神经网络的端到端立体匹配方法 | |
Zhang et al. | Progressive hard-mining network for monocular depth estimation | |
CN112767466B (zh) | 一种基于多模态信息的光场深度估计方法 | |
CN111582316A (zh) | 一种rgb-d显著性目标检测方法 | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN111126385A (zh) | 一种可变形活体小目标的深度学习智能识别方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113449612B (zh) | 一种基于子流型稀疏卷积的三维目标点云识别的方法 | |
CN111294614B (zh) | 用于数字图像、音频或视频数据处理的方法和设备 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN115641285A (zh) | 一种基于密集多尺度信息融合的双目视觉立体匹配方法 | |
CN116109689A (zh) | 基于引导优化聚合的边缘保持立体匹配方法 | |
Wang et al. | Dual encoder-decoder network for land cover segmentation of remote sensing image | |
CN115272670A (zh) | 一种基于掩膜注意交互的sar图像舰船实例分割方法 | |
CN112116646B (zh) | 一种基于深度卷积神经网络的光场图像深度估计方法 | |
Chong et al. | Multi-hierarchy feature extraction and multi-step cost aggregation for stereo matching | |
CN112270701A (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
CN116597146A (zh) | 一种针对激光雷达稀疏点云数据的语义分割方法 | |
Zhang et al. | A multi-cue guidance network for depth completion | |
CN112419387B (zh) | 一种日光温室番茄植株图像无监督深度估计方法 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
Zhu et al. | Mpanet: Multi-scale pyramid aggregation network for stereo matching | |
Niu et al. | Underwater Waste Recognition and Localization Based on Improved YOLOv5. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200922 |