CN111696148A

CN111696148A - 基于卷积神经网络的端到端立体匹配方法

Info

Publication number: CN111696148A
Application number: CN202010556458.0A
Authority: CN
Inventors: 鲁志敏; 袁勋; 陈松
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-22

Abstract

本发明公开了一种基于卷积神经网络的端到端立体匹配方法，包括：通过残差卷积神经网络分别提取左右图像各自的特征图；使用特征金字塔，分别提取左右特征图在多个尺度上的特征信息，获得左右图像最终的特征图；将左右图像最终的特征图融合形成四维的代价量；使用多尺度沙漏网络堆叠的三维卷积神经网络对四维的代价量进行代价规整，再通过上采样与视差回归，得到视差图。该方法可以充分利用到全局信息，从而获取到更为精确的视差图；相较于传统的立体匹配算法而言，其极大改善了在病态区域匹配效果差的问题，算法鲁棒性更好，并且泛化能力更强。与其他基于卷积神经网络的立体匹配算法相比，有效提升了视差图细节处的匹配效果，对应的误匹配率更低。

Description

基于卷积神经网络的端到端立体匹配方法

技术领域

本发明涉及立体视觉领域与深度学习领域，尤其涉及一种基于卷积神经网络的端到端立体匹配方法。

背景技术

立体匹配对于许多计算机视觉应用都是必不可少的，例如自动驾驶，机器人导航，增强现实和三维重建等方面。通过寻找两幅图像之间的像素级的对应关系，立体匹配算法旨在从一对经过校正的立体图像中构造视差图。首先双目摄像机获取左右图像对，经过图像校正，之后送入立体匹配模块获取精确的视差图，而视差与深度之间存在着一一对应的关系且互为反比关系，基于视差图即可计算出物体的深度信息。从而应用于各种实际场景。

立体视觉经历了数十年的发展，已经取得了很多成果，传统的立体匹配算法根据寻找匹配代价成本的方法，将其分为局部匹配算法和全局能量最小化算法。其中，局部算法计算复杂度低速度快但是精度不高，而全局算法精度高但计算复杂度高速度慢。随着深度学习的急速发展，神经网络在计算机视觉领域发挥着日益重要的作用，其迅速应用于立体匹配领域。当前立体匹配算法精度最为先进的算法都使用到了卷积神经网络(Convolutional Neural Network，CNN)。其中Jure Zbontar和Yann Lecun首次将CNN应用在立体匹配算法中，通过设计一个深层的Siamese网络去计算匹配代价，然后利用一块9×9的图块，该网络被训练去学习预测图块之间的相似性，其算法的精度远高于传统的立体匹配算法。之后，Shaked和Wolf提出了一个高速网络去计算匹配代价和一个全局的视差网络来预测视差置信度得分。Kendall等人提出了端到端的GC-Net，并使用了多尺度特征结合的三维卷积神经网络来调整匹配代价量。最后通过视差回归获取高精度的视差图。Chang等人提出了金字塔立体匹配网络(PSMNet)，在构建代价量前，通过金字塔池化(Spatialpyramid pooling,SPP)模块在不同的尺度和位置聚集上下文，并结合沙漏堆叠的三维卷积神经网络来更好地利用上下文信息，从而获得了精确的视差图。

目前，传统的立体匹配算法在获得的视差图的精度上已经远远落后于基于卷积神经网络的立体匹配算法，传统的立体匹配算法在一些图像病态区域(如光照干扰、低纹理或重复纹理、遮挡等)的匹配误差很大，会降低整个立体视觉系统的性能，而卷积神经网络通过有监督的训练，能够结合全局图像信息，从而获取精度极高的视差图。

当前最先进的立体匹配算法通常在无纹理、反射表面、重复纹理等病态区域遇到困难。对于现有的立体匹配网络，空间特征是通过空间金字塔池化来获取，但是池化操作丢失掉大量的特征信息，在物体的细节处匹配效果并不理想。

发明内容

本发明的目的是提供一种基于卷积神经网络的端到端立体匹配方法，能够充分利用到全局信息，从而获取到更为精确的视差图。

本发明的目的是通过以下技术方案实现的：

一种基于卷积神经网络的端到端立体匹配方法，包括：

通过残差卷积神经网络来分别提取左右图像各自的特征图；

使用特征金字塔，分别提取左右特征图在多个尺度上的特征信息，获得左右图像最终的特征图；

将左右图像最终的特征图融合形成四维的代价量；

使用多尺度沙漏网络堆叠的三维卷积神经网络模块对四维的代价量进行代价正则化，再通过上采样与视差回归，得到视差图。

由上述本发明提供的技术方案可以看出，使用了特征金字塔网络(FPN)进行多尺度特征的融合，其能够更加充分利用到语义信息。并使用了沙漏堆叠的三维卷积神经网络来更加充分的使用上下文信息，该算法具备精度高，高效，易于实现等优点。同时，上述方法所构成网络模型为一种端到端的卷积神经网络，只需要输入左右视图，即可获取出与之对应的左视图的视差图，不需要进行任何视差优化等任何后处理过程，其帧率可达到1242×375/2.5fps。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于卷积神经网络的端到端立体匹配方法的示意图；

图2为本发明实施例提供的FPN的网络结构示意图；

图3为本发明实施例提供的单通道上的代价量组成示意图；

图4为本发明实施例提供的串联的沙漏堆叠的三维卷积神经网络的结构示意图

图5为本发明实施例提供的单个沙漏网络结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

为了进一步捕获视差图的细节，本发明实施例提供一种基于卷积神经网络的端到端立体匹配方法，其利用了特征金字塔网络(Feature Pyramid Network)来提取多尺度的特征信息，并进行特征融合，其可以加强对上下文信息的学习；并提出了改进的三维卷积神经网络进行代价聚合，该网络由具备编码器和解码器的沙漏堆叠网络构成；通过这些操作，有效提升了视差图在物体细节处的匹配效果，降低了视差图的误匹配率。如图1所示，本发明提供的上述方法主要包括：

1、通过残差卷积神经网络来分别提取左右图像各自的特征图。

2、使用特征金字塔，分别提取左右特征图在多个尺度上的特征信息，获得左右图像最终的特征图。

3、将左右图像最终的特征图融合形成四维的代价量。

4、使用多尺度沙漏网络堆叠的三维卷积神经网络模块对四维的代价量进行代价正则化，再通过上采样与视差回归，得到视差图。

上述方法通过深度学习的方式来学习从输入图像到视差图之间的端到端的映射。这种方式可以减少很多工程设计的复杂性。其避免了视差优化等后处理流程，而且采用深度卷积神经网络可以更好地学习输入图像数据之间的关联性，从而获得高精度的视差图。

为了便于理解，下面针对上述方法所涉及的各个部分做详细的介绍。

一、残差卷积神经网络。

使用特征图表示来取代使用原始像素强度计算而来的立体匹配代价。这样做的动机是比较一个描述符，该描述符对光学歧义更为鲁棒，而且可以结合局部上下文信息。本发明中使用了残差卷积网络来学习深度表示，因为残差网络不会随着网络层数的增多而出现梯度消失的现象。

本发明实施例中，使用两个残差卷积神经网络，各自提取左右图像的图像特征；两个残差卷积神经网络结构相同，且共享网络参数；残差卷积神经网络包含多个卷积层，每一卷积层后面接一个批处理归一化层和非线性激活函数层；左右图像各自输入至残差卷积神经网络后，通过前端的若干卷积层进行预处理并将图像的高和宽分别缩减至原来1/2；残差卷积神经网络末端的若干卷积层使用了空洞卷积网络。

如表1所示，给出了一个残差卷积神经网络的示例。

表1残差卷积神经网络

首先使用了三个3×3的卷积滤波器(即表1中的conv0_x)对输入进行预处理并将图像的高和宽分别缩减至原来的1/2，以减少计算的参数量。紧接着使用了30层残差卷积网络(残差模块)来提取特征。残差模块分为4个部分，其中conv1_x～conv4_x的通道数依次为32,64,128,128，并且在最后两层使用了空洞卷积网络，空洞率分别设置为2，4，以提高卷积网络的感受野。卷积核的大小统一设置为3×3。左右图像通过网络参数共享，来有效的学习相对应的特征，最后提取出左右视图各自对应的特征图，送入特征金字塔中进行多尺度特征信息的提取。

二、特征金字塔。

特征金字塔(Feature Pyramid Network，FPN)最先被提出用于小目标检测任务中，其充分结合了不同尺度下的特征信息，在大尺度下，低层特征具备高分辨率，高层特征包含的语义信息更为丰富。FPN在ImageNet和CoCo检测任务中发挥着出色的作用。基于此，将其应用于立体匹配领域，对于卷积神经网络而言，不同深度对应着不同层次的语义特征，浅层网络分辨率高，学的更多是细节特征，深层网络分辨率低，学的更多是语义特征。在FPN网络中，每个分辨率的特征图引入后一分辨率缩放两倍的特征图做元素级别相加的操作。通过这样的连接，每一层特征图都融合了不同分辨率、不同语义强度的特征。这样确保了每一层都有合适的分辨率和强语义特征。而且该方法只是在原网络基础上加上了额外的跨层连接，在实际应用中几乎不会增加额外的时间和计算量。实验结果表明使用特征金字塔网络对于立体匹配任务具有显著的作用。

本发明实施例中，使用两个特征金字塔，各自提取左右图像特征在多个尺度上的特征信息；两个特征金字塔的结构相同，且共享网络参数；

如图2所示，FPN网络通过多尺度特征融合的方式，对于输入的特征图，首先利用自底向上的前向过程，提取出不同尺度下的特征信息，形成特征金字塔结构；接下来，在自顶向下的过程中，从最顶端实施上采样，然后与下一层特征逐层融合再进行上采样，通过这种层层迭代的过程，使得每一层特征图都融合了不同分辨率与不同语义强度的特征，充分结合不同尺度下的特征信息。

如表2所示，给出了图2所示FPN中各层网络参数。

表2FPN中各层网络参数

在本发明设计的FPN网络中，输入特征图尺度大小为

对应为conv4_x的最终输出。FPN网络可分为三个过程：前向过程、横向过程与反向过程；其中：

前向过程是自底向上的过程，共设置了五个网络层，自底向上依次记为conv4_3、fpn_1、fpn_2、fpn_3、fpn_4；在各层之间利用步幅为2的卷积网络进行降采样，分别提取了

尺度下的特征，形成特征金字塔的结构。

在横向过程中，顶部的三个网络层利用1×1的卷积网络来降低特征图通道数。

反向过程是自顶向下的过程，共设置了五个网络层，自顶向下依次记为fpn_4x、fpn_3x+out_4、fpn_2x+out_3、concat(fpn_1,out_2)、output；从最顶端实施上采样，与下一层特征相加后再进行上采样，通过这种层层迭代的过程，充分融合不同尺度下的特征信息。最终将输出尺度大小为

特征图与前向过程中fpn_1层的特征图进行进一步的融合，得到最终输出的特征图。具体来说，fpn_4x层的输入是fpn_4层输出经1×1的卷积网络处理的结果，fpn_4x层进行上采样后输出；fpn_3层输出经1×1的卷积网络处理的结果与fpn_4x层输出结果按元素级别相加形成fpn_3x+out_4层，fpn_3x+out_4层进行上采样后输出；fpn_2层输出经1×1的卷积网络处理的结果与fpn_3x+out_4层输出结果按元素级别相加形成fpn_2x+out_3层，fpn_2x+out_3层进行上采样后得到out_2层，之后将out_2层与前向过程中的fpn_1层级联在一起形成concat(fpn_1,out_2)层，依次通过一次3×3卷积和1×1卷积操作得到最终输出的特征图，通过output层输出。

三、四维代价量。

在立体匹配任务中，四维代价量的概念最早由GC-Net提出，其算法通过在每个视差级别上将右侧特征图经过平移处理之后，再与左侧特征图进行级联，打包在一起形成4维代价空间(代价量)(Cost Volume)，维度对应为图像高度H×图像宽度W×特征图通道数C×视差级别D(也即视差的最大范围)，其中包含所有空间上下文信息，从而从该级别推断视差。本发明实施例中，通过图3展示了单个通道上的代价量构成，标记1和标记2分别代表左、右视图在某一个通道下的特征图，其中右图像生成的特征图里面的参数需要进行平移。这种方式结合了立体匹配当中视差的概念来构造代价量，为减少后续的运算量，其维度被降低至

其中W和H分别代表立体图像(输入的左右图像)的宽和高，C代表融合后特征图的通道数，大小为64，D表示视差的最大范围，本发明实施例中D设置为192。这种操作保留了特征图的维度，与采取点积操作来抽取特征图的维度方法不同，这使模型可以通过特征图来学习上下文信息。研究发现，与使用距离度量的方法相比，形成具有级联特征的代价量可以显著提高性能。因此，在本发明当中，也沿用了该方式来构造代价量。

四、三维卷积神经网络。

在给定代价量之后，需要学习一个正则化函数，该函数能够考虑代价量中的上下文关系从而优化视差估计。即使使用深层特征表示，如果不进行代价正则化仅仅利用深层特征来进行视差回归，匹配效果并不理想。例如，在像素强度均匀的区域(例如，天空)中，基于固定的局部上下文的任何特征的代价曲线都将是平坦的。研究发现，像这样的区域会导致整个视差维度上的多模式匹配代价曲线，需要学习正则化函数并提高这一数量。在GC-Net中，利用了三维卷积运算来过滤和完善此表示并取得了优异的效果。3D卷积能够从高度、宽度和视差维度学习特征表示，三维卷积网络的困难在于额外的维度，在推理和训练阶段都带来了计算时间的负担。因此，代价量在高度、宽度以及视差维度上分别缩减至原来的1/4，从而降低浮点运算数量。

本发明实施例中，利用沙漏堆叠的三维卷积神经网络模块，该模块使用编码器和解码器的结构，结合中间监督重复的自上而下/自下而上进行处理。沙漏网络可以学习到更多的上下文信息，被广泛用于视差估计优化的模块中。在SSPCV中构造了多个不同尺度的视差代价量，并使用沙漏网络进行3D多尺度代价汇总，从而更好地捕获全局上下文信息。

本发明实施例中，使用了多个沙漏网络进行串联，如图4所示，给出了三个沙漏网络串联而成的三维卷积神经网络模块，每个沙漏网络通过上采样与视差回归都输出视差图，用于整个网络模型的训练，具体在后文还会进行相应的说明。实验结果显示，使用三维卷积神经网络模块对四维代价量进行代价正则化处理，可以显著提高视差图的精度。

本发明实施例中，所有沙漏网络的结构完全相同。如图5所示，单个沙漏网络主要包括：依次设置的四个三维卷积神经网络与两个三维转置卷积网络；四个三维卷积神经网络为编码器，进行了两次降采样，一方面可以利用多尺度下的代价空间，充分利用上下文信息；另外一方面，可以带来网络参数的大幅降低，从而减轻计算负担。末端的两个三维转置卷积网络为解码器对编码器的输出进行上采样；同时，由于转置卷积网络会丢失掉部分信息，因此引入残差学习机制，该残差学习机制已被证明在视差估计过程中具备显著的效果，具体为：第二个三维卷积神经网络的输出连接至第一个三维转置卷积网络的输出上；沙漏网络的输入连接至第二个三维转置卷积网络的输出上；其中，第一个与第三个三维卷积神经网络的步幅为2。第二个和第四个三维卷积神经网络的步幅为1。

五、上采样操作。

本发明实施例中，采用双线性插值算法对多尺度沙漏堆叠的三维卷积神经网络模块的输出进行上采样，上采样输出结果的维度为H×W×D；其中，H与W为左右图像的高与宽，D表示视差最大范围。

六、视差回归。

通常，立体匹配算法从一元特征图中形成代价量，该代价量(Cost Volume)可以在视差维度上执行求最小值操作来估计视差，但是在训练过程中往很难收敛。

本发明实施例中，使用了softmax函数来进行视差回归。softmax函数的梯度求导非常方便，因此非常适合应用在立体匹配任务中，且效果显著。

具体操作实现过程包括：将上采样输出结果的每个代价量c_d都取负，再使用softmax函数(σ(·))对-c_d进行归一化，以输出每个视差d对应的概率；然后，预测的视差

计算为每个视差d乘上其对应概率的总和，其计算过程用公式可以表示为：

softmax函数表示为：

k和l对应为取反后的代价量-c_d，上述操作是完全可微的，可以进行训练和回归视差估计。研究表明，上述视差回归比基于分类的立体匹配方法更加稳健。

七、损失函数。

对于损失函数的选择，考虑到视差回归的存在，本发明当中使用平滑的L1损失函数来训练所提出的网络模型。与L2损失函数相比，L1损失函数由于其鲁棒性和对异常值的敏感性较低而被广泛应用于目标检测的边界框回归问题中。损失函数如公式：

其中，

N代表被标记的像素个数，i为像素索引，d代表真实视差，

代表通过视差回归预测得出的视差值。

在沙漏堆叠网络当中，结合中间监督过程来进一步完善视差估计，从而得到更加精确的视差图。由于存在J个沙漏网络，每个沙漏网络各输出一幅视差图，则产生J个损失值，因此，总的损失函数可定义为公式：

其中，L_j表示利用第j个沙漏网络的输出进行上采样与视差回归时的L1损失函数；w_j表示第j个沙漏网络的权重；J为沙漏网络数目。示例性的，以图4所示的三个沙漏网络串联而成的三维卷积神经网络为例，J＝3，w₁、w₂、w₃依次为0.5、0.7、1.0。

在测试阶段，只对最后一个沙漏网络的输出进行上采样与视差回归，其结果为最终的视差图。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于卷积神经网络的端到端立体匹配方法，其特征在于，包括：

通过残差卷积神经网络来分别提取左右图像各自的特征图；

将左右图像最终的特征图融合形成四维的代价量；

2.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法，其特征在于，所述通过残差卷积神经网络来分别提取左右图像各自的特征图包括：

使用两个残差卷积神经网络，各自提取左右图像的图像特征；两个残差卷积神经网络结构相同，且共享网络参数；

残差卷积神经网络包含多个卷积层，每一卷积层后面接一个批处理归一化层和非线性激活函数层；

左右图像各自输入至残差卷积神经网络后，通过前端的若干卷积层进行预处理并将图像的高和宽分别缩减至原来1/2；残差卷积神经网络末端的若干卷积层使用了空洞卷积网络。

3.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法，其特征在于，使用特征金字塔，分别提取左右特征图在多个尺度上的特征信息，获得左右图像最终的特征图包括：

使用两个特征金字塔，各自提取左右图像特征在多个尺度上的特征信息；两个特征金字塔的结构相同，且共享网络参数；

特征金字塔的操作包括三个过程：前向过程、横向过程与反向过程；其中：

前向过程是自底向上的过程，共设置了五个网络层，自底向上依次记为conv4_3、fpn_1、fpn_2、fpn_3、fpn_4；在各层之间利用步幅为2的卷积网络进行降采样，形成特征金字塔的结构；

在横向过程中，顶部的网络层fpn_2、fpn_3与fpn_4利用1×1的卷积网络来降低特征图通道数；

反向过程是自顶向下的过程，共设置了五个网络层，自顶向下依次记为fpn_4x、fpn_3x+out_4、fpn_2x+out_3、concat(fpn_1,out_2)、output；fpn_4x层的输入是fpn_4层输出经1×1的卷积网络处理的结果，fpn_4x层进行上采样后输出；fpn_3层输出经1×1的卷积网络处理的结果与fpn_4x层输出结果按元素级别相加形成fpn_3x+out_4层，fpn_3x+out_4层进行上采样后输出；fpn_2层输出经1×1的卷积网络处理的结果与fpn_3x+out_4层输出结果按元素级别相加形成fpn_2x+out_3层，fpn_2x+out_3层进行上采样后得到out_2层，之后将out_2层与前向过程中的fpn_1层级联在一起形成concat(fpn_1,out_2)层，依次通过一次3×3卷积和1×1卷积操作得到最终输出的特征图，通过output层输出。

4.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法，其特征在于，所述将左右图像最终的特征图融合形成四维的代价空间包括：

将右图像最终的特征图进行平移与左视图最终的特征图融合形成四维的代价量，维度对应为图像高度×图像宽度×特征图通道数×视差最大范围，其中包含所有空间上下文信息。

5.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法，其特征在于，所述三维卷积神经网络模块中所有沙漏网络的结构完全相同；单个沙漏网络包括：依次设置的四个三维卷积神经网络与两个三维转置卷积网络；

四个三维卷积神经网络为编码器，进行了两次降采样；末端的两个三维转置卷积网络为解码器对编码器的输出进行上采样；同时，引入残差学习机制，即第二个三维卷积神经网络的输出连接至第一个三维转置卷积网络的输出上；沙漏网络的输入连接至第二个三维转置卷积网络的输出上；其中，第一个与第三个三维卷积神经网络的步幅为2，第二个和第四个三维卷积神经网络的步幅为1。

6.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法，其特征在于，采用双线性插值算法对多尺度沙漏堆叠的三维卷积神经网络的输出进行上采样，上采样输出结果的维度为H×W×D；其中，H与W为左右图像的高与宽，D表示视差最大范围。

7.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法，其特征在于，所述时差回归通过softmax函数实现，实现过程包括：

将上采样输出结果的每个代价量c_d都取负，再使用softmax函数σ(·)对-c_d进行归一化，以输出每个视差d对应的概率；然后，预测的视差

计算为每个视差d乘上其对应概率的总和，其计算过程用公式表示为：

8.根据权利要求1所述的一种基于卷积神经网络的端到端立体匹配方法，其特征在于，所述立体匹配的损失函数表示为：

其中，L_j表示利用第j个沙漏网络的输出进行上采样与视差回归时的L1损失函数；w_j表示第j个沙漏网络的权重；J为沙漏网络数目；

L_j表示为：

其中，

N代表被标记的像素个数，i为像素索引，d代表真实视差，

代表通过视差回归预测得出的视差值。