CN113592026B

CN113592026B - 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法

Info

Publication number: CN113592026B
Application number: CN202110930757.0A
Authority: CN
Inventors: 邹启杰; 于静; 高兵; 秦静; 张洁; 孙文; 刘圣凯
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-10-03
Anticipated expiration: 2041-08-13
Also published as: CN113592026A

Abstract

本发明公开了一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法，具体包括：先使用残差卷积神经网络对输入的左右立体图像进行特征提取得到特征图，分组空洞卷积金字塔池化模块GASPP在每组中设置连续扩张率的空洞卷积层，利用不同大小的扩张率对特征图提取像素的上下文信息，获取多尺度、稠密的特征信息，以此来减小空洞卷积中空洞部分造成的局部信息丢失，以更少的参数数量在多个尺度上鲁棒地分割目标，提高在病态区域匹配的鲁棒性。此外引入了裁剪的级联匹配代价卷，通过修改特征通道数以及利用其金字塔型阶段处理形式来减少内存和时间的消耗，加快训练的速度，加强了网络的实时性。

Description

一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法。

背景技术

立体匹配是双目立体视觉技术中的核心算法，旨在通过寻找双目相机所获取的两张图像中同名点从而建立视差图，一个良好的立体匹配算法直接决定三维重建的效果，建立合适的立体匹配算法是提高基于双目立体视觉技术的三维物体识别效果的关键。最近的工作表明，立体图像对的视差估计可以制定为一个监督学习任务，由卷积神经网络来解决。目前，基于深度学习的立体匹配算法主要可以分为两类：端到端立体匹配算法和非端到端立体匹配算法。端到端的立体匹配算法无缝集成了用于联合优化的传统立体匹配中所有步骤，主要通过设计和监督网络来取得一个好的视差回归结果。输入的是立体图像对，输出的是稠密视差图。非端到端立体匹配是将传统方法与卷积神经网络进行结合，卷积神经网络被引入来代替传统立体管道中的一个或多个组件，该方法需进行后处理。深度学习的加入大大提高了视差回归的精度，较传统方法性能得到了提升。

目前，利用不同扩张率的空洞卷积是处理深度学习中目标比例变化问题的一种有效方法。该算法通过叠加不同扩张率的卷积来满足多尺度特征信息的要求。然而，由于空洞卷积的卷积核不连续，空洞卷积随着扩张率的增加而变得越来越无效，且存在参数数量多和空洞问题。稀疏的感受野和缺乏上下文信息造成在病态区域(遮挡区域、无纹理区域、图案重复区域等)，故难以找到可靠的对应点。例如目标遮挡区域图像中的像素被遮挡，就难以进行正确匹配。在图案重复区域和无纹理区域则存在很多潜在的关系，也会影响匹配的精度。除此之外立体匹配网络存在的主要问题是GPU占用大，训练时间较长。三维卷积的使用给内存和计算带来了很大负担，计算时间大大增加。

现有技术中公开号为CN112150521A，名称为一种基于PSMNet优化的图像立体匹配方法的专利申请，是先将立体图像输入到ResNext残差卷积神经网络来提取初步特征，紧接着使用ASPP模块来提取初步特征图不同尺度的特征图空间信息，融合成四维的代价匹配空间。通过3D卷积神经网络根据代价匹配空间计算匹配代价；最后使用视差回归得到预测视差图。这里3D卷积神经网络删除3D卷积输出与不同模块之间的残差连接，解决立体匹配耗时长的问题。由于使用ASPP模块，设置较大的扩张率，虽然可以获得大的感受野，但空洞部分较大，局部信息损失较多，在小目标物体的分割上存在一定问题。公开号为CN112991422A，名称为一种基于空洞空间金字塔池化的立体匹配方法及系统的专利申请，首先使用卷积神经网络进行特征提取来获取特征图，然后利用空洞卷积和空间金字塔池化方法，形成特征图并进行处理，从多个尺度提取像素的上下文信息形成匹配代价容器，接着使用3D卷积层对匹配代价容器进行上采样操作得到视差图。虽然使用空洞卷积，但其扩张率过大，造成提取特征时局部信息的损失，在一些遮挡区域会影响匹配精度，而且训练时间也较长。2018年，《Pyramid Stereo Matching Network》一文中提出PSMNet，一个由空间金字塔池(SPP)和3D-CNN组成的金字塔立体匹配网络。空间金字塔池模块利用全局上下文信息的容量，将不同规模、不同位置的上下文信息聚合起来，形成一个代价卷。3D-CNN学习使用堆叠的多沙漏网络与中间监督一起规范代价卷；该方法使用的堆叠沙漏模块需要较大的存储空间，且占内存较大，在训练时需要较大的显存支持，并且训练时间较长。2020年阿里巴巴实验室在《Cost Volume for High-Resolution Multi-View Stereo and StereoMatching》一文中提出一种新的级联匹配代价卷公式，级联匹配代价卷提出的公式建立在一个特征金字塔的基础上，以逐渐精细的尺度对几何图形和背景进行编码。然后通过前一阶段的预测来缩小每个阶段的视差范围，随着代价卷分辨率的逐渐提高和深度间隔的自适应调整，从粗到细的方式恢复输出。提取多尺度特征以形成特征金字塔，运用于立体匹配；但是级联匹配代价卷公式不能充分利用上下文信息，匹配时难以找到可靠的对应点，在处理一些病态区域如遮挡区域和边缘区域时仍存在一定挑战，需要提高匹配的精度。

发明内容

为了能更快速训练立体匹配网络以及减小使用过大扩张率的空洞卷积对匹配精度的影响，根据PSMNet网络模型，本申请提供一种端到端的基于深度学习的立体匹配方法。

为实现上述目的，本申请的技术方案为：一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法，具体包括：

先使用残差卷积神经网络对输入的左右立体图像进行特征提取得到特征图，通过分组空洞卷积金字塔池化模块GASPP对所述特征图进行处理，从不同尺度提取待匹配像素的上下文信息，获得多尺度、稠密的特征信息；

堆叠所述特征图构成匹配代价卷，用于度量所述待匹配像素与候选像素之间的相关性；

采用三维堆叠沙漏网络对所述匹配代价卷进行正则化操作，得到原始尺寸特征图；

利用回归函数对原始尺寸特征图进行视差回归操作。

进一步的，所述残差卷积神经网络包括3*3的卷积层，每一卷积层后面均有批规则化层、RELU激活函数层。

进一步的，所述分组空洞卷积金字塔池化模块GASPP设计了四组空洞卷积层，并在组内分配两组连续小的扩张率卷积层；各组之间的扩张率呈增大趋势，形成{(2,3)(5,6)(8,9)(11,12)}四个平行分支，提供不同尺度的空间信息特征图，且四个平行分支相互补充，最后将输出进行累积，得到包含多尺度空间信息的特征图，其公式表达如下：

y＝G¹ _3,2(x)+G¹ _3,3(x)+G² _3,5(x)+G² _3,6(x)+G³ _3,8(x)+G³ _3,9(x)+G⁴ _3,11(x)+G⁴ _3,12(x)

其中，Gⁿ _K,d(x)代表一个分组空洞卷积；d为扩张率的大小，K代表核的尺寸大小，n为组号。

进一步的，构成匹配代价卷分为两个阶段，第一阶段为：对特征图体积进行处理，通过卷积层将初始通道数量由32个改变为320个，与残差卷积神经网络的通道数量一致；第二阶段为：使用一个2D卷积层将特征通道数量减少到160个，然后使用另一个2D卷积层将特征通道数量减少到80个。

进一步的，所述堆叠沙漏网络中编码器利用3个3D卷积层进行下采样，解码器对称使用3个3D反卷积层来进行上采样操作；最后通过双边线性插值方法恢复特征图到原始尺寸，得到匹配代价矩阵。

更进一步的，对匹配代价矩阵进行视差回归操作，正则化处理来得到每个像素属于不同视差的概率；然后以概率值作为权重，对视差进行加权求和，得到每个像素点平滑的视差估计结果，如下式：

其中d代表视差，σ(-c_d)则代表了相应点的可能性；d则代表预测视差。σ(·)代表视差回归Softmax操作。

更进一步的，通过损失函数来获得最终视差图，所述损失函数为：

λ_k代表第k个视差预测的系数，代表了该点实际视差值；预测视差值为/> 损失函数具体如下：

其中x是损失函数的自变量，通过梯度下降的方法来降低损失函数的值，不断迭代直至损失函数的值到达最低，不再下降；此时视差回归达到收敛，取其作为最终视差图。

本发明由于采用以上技术方案，能够取得如下的技术效果：(1)基于分组空洞卷积金字塔池化模块对特征图进行聚合处理，获得宽阔的感受野以及稠密、多尺度的空间信息，更加充分利用上下文信息，为准确分割目标提供了更大的保证，在一些边缘区域和细小区域匹配更加精确。

(2)在匹配代价卷部分，利用级联代价卷的金字塔结构通过改变特征通道的数量，构造定制级联匹配成本卷。用更短的时间完成输出视差。与经典的PSM-Net模型相比，本方法每次训练迭代的平均时间缩短了30％左右。

附图说明

图1为双目视觉立体匹配网络结构图；

图2为双目视觉立体匹配方法流程图；

图3为空洞卷积过程示意图；

图4为分组空洞卷积金字塔池化模块GASPP结构图；

图5为本专利与其他方法的视差对比图。

具体实施方式

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

实施例1

本实施例结合分组空洞卷积金字塔池化模块GASPP与裁剪的级联代价卷得到双目视觉立体匹配网络，如图1所示；其包括特征提取、匹配代价卷、代价聚合和视差回归四部分；在特征提取部分，先使用残差卷积神经网络对输入的左右立体图像进行特征提取得到特征图，接着使用分组空洞卷积金字塔池化模块GASPP对所述特征图进行处理，从不同尺度提取像素的上下文信息，获得多尺度、稠密的特征信息；紧接着通过堆叠所述特征图构成匹配代价卷，匹配代价卷的目的是进行匹配代价计算。所述匹配代价卷是采用金字塔型分阶段处理，在引入级联代价卷的基础上进行裁剪，通过调整特征通道数量来降低内存占用提高计算速度，以配合分组空洞卷积金字塔池化模块GASPP。代价聚合部分采用三维堆叠沙漏网络来对匹配代价卷进行正则化操作；最后利用回归函数进行视差回归。整体流程图如图2。

特征提取模块是立体匹配的第一步也是基础，是正确估计视差的前提条件。特征提取主要由两部分组成，残差卷积神经网络和分组空洞卷积金字塔池化模块GASPP。输入的立体图像经过3*3的卷积层，每一层跟随着批规则化层(BatchNormalization Layer)和RELU激活函数层，即残差卷积神经网络，来形成特征图。紧接着通过GASPP模块来捕捉多尺度的空间信息。

在GASPP模块中设计了四组空洞卷积层，并在组内分配两组连续小的扩张率的卷积层；各组之间的扩张率呈增大趋势，形成{(2,3)(5,6)(8,9)(11,12)}四个平行分支，可提供不同尺度的空间信息特征图，且四个分支相互补充，其结构如图3所示。其中每组中连续小的扩张率卷积层减小了参数量，但是可以形成和一个大的扩张率空洞卷积同样大的感受野，这样同时也能减小空洞卷积由于卷积核不连续带来的空洞问题。最后将输出进行累积，得到包含多尺度空间信息的特征图，感受野更宽、密度更大。该方法有利于提高后续视差估计的精度。GASPP模块的特征图表达式如下：

其中Gⁿ _K,d(x)代表一个分组空洞卷积。d为扩张率的大小，K代表核的尺寸大小，n为组号。

在立体匹配任务中，匹配代价卷执行匹配代价计算，其目的是度量待匹配像素与候选像素之间的相关性。无论两个像素是否为同名点，都可以通过匹配代价函数计算匹配代价。代价越小，表示相关性越大，也意味着被同名点的概率越大。因此，匹配代价卷也相当于一个相似性度量空间。

级联匹配代价卷分为两个阶段，第一阶段为：对于特征图体积处理，通过卷积层将初始通道数由32个改变为320个与残差卷积神经网络的通道数量一致；第二阶段为：利用两个二维卷积层来调整级联匹配代价体积。即使用一个2D卷积层将通道数量减少到160个，然后使用另一个2D卷积层将特征通道数量减少到80。这样，特征通道数量分别为{1/2,1/4}，最终通道数量更少，在训练过程中占用的空间更小。这种设计更接近分层结构，逐层减少信息丢失，保证了网络的性能和效果，加快了网络的训练速度。

代价聚合部分使用堆叠沙漏网络来扩大匹配代价卷中支持上下文信息的区域，用于匹配代价卷的正则化，进行匹配代价计算。编码器利用3个3D卷积层进行下采样，解码器对称使用3个3D反卷积层来进行上采样操作。最后通过双边线性插值方法恢复特征图到原始尺寸，得到匹配代价矩阵。用于下面的视差回归估计。

最后采用完全可微的SoftArgmin操作以回归的方式估计视差。经过堆叠沙漏网络得到的匹配代价矩阵中元素为图像各个像素点在不同视差下的匹配代价，计算每一个像素点属于每一个视差值的概率，代价越大代表匹配的概率越低，所以取预测代价的负值，通过Softmax操作，进行正则化处理来得到每个像素属于不同视差的概率。最后以概率值作为权重，对视差进行加权求和，得到每个像素点平滑的视差估计结果，如下式：

其中d代表视差，σ(-c_d)则代表了相应点的可能性。d则代表预测视差。σ(·)代表Softmax操作。

λ_k代表第k个视差预测的系数，代表了该点实际视差值。预测视差值为/> 损失函数具体如下：

平滑损失函数L₁具有更好的鲁棒性和较低的敏感性。其中x是损失函数的自变量，通过梯度下降的方法来降低损失函数的值，不断迭代直至损失函数的值到达最低，不再下降。此时视差回归达到收敛，取其作为最终视差图。

通过KITTI 2015数据集和Scene flow数据集进行实验配置：

KITTI 2015：该数据集是从真实街景中收集的数据集，包括用于训练的200对立体图像和用于测试的200对立体图像，图像的分辨率为1240×376。数据集提供激光雷达采集的稀疏视差图作为真实值。

Scene flow：该数据集是一个大型的合成数据集，包含35454对用于训练的立体图像和4370对用于测试的立体图像。为每对图像提供密集详尽的真实视差图和相机参数信息，所有图像的分辨率为960×540。其子集由三个场景组成。其中FlyingThings3D是一个带有随机类型物体的场景，包括大量的浮动物体，细节丰富；Driving数据集是模拟汽车驾驶过程中捕获的街景；Monkaa是一个包含猴子在森林深处的环境中场景，这涉及到更近的目标。

双目视觉立体匹配网络在windows7环境下实现，在PyTorch深度学习框架下运行。在硬件设施方面，使用NVIDIA 1070Ti GPU来训练网络，批处理量大小设置为2。对于所有的数据集，设置训练立体图像对的分辨率为512×256，所有图像的RGB数值归一化至[-1,1]，最大视差值D_max设置为192。使用Adam优化器，优化参数分别设置为：β₁＝0.9，β₂＝0.99。如表1所示，本专利与其他模型的对比分析结果。

表1

如表1所示，使用终点误差(EPE)和三像素误差(3px)来对网络的匹配精度进行分析，误差越小，说明精度越高。同时还对比了运行时间，时间越短，训练越快。结果表明，本专利在进行图像匹配上有着好的鲁棒性和实时性。视差对比图结果如图5所示。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法，其特征在于，具体包括：

利用回归函数对原始尺寸特征图进行视差回归操作；

所述残差卷积神经网络包括3*3的卷积层，每一卷积层后面均有批规则化层、RELU激活函数层；

所述分组空洞卷积金字塔池化模块GASPP设计了四组空洞卷积层，并在组内分配两组连续小的扩张率卷积层；各组之间的扩张率呈增大趋势，形成{(2,3)(5,6)(8,9)(11,12)}四个平行分支，提供不同尺度的空间信息特征图，且四个平行分支相互补充，最后将输出进行累积，得到包含多尺度空间信息的特征图，其公式表达如下：

其中，Gⁿ _K,d(x)代表一个分组空洞卷积；d为扩张率的大小，K代表核的尺寸大小，n为组号；

构成匹配代价卷分为两个阶段，第一阶段为：对特征图体积进行处理，通过卷积层将初始通道数量由32个改变为320个，与残差卷积神经网络的通道数量一致；第二阶段为：使用一个2D卷积层将特征通道数量减少到160个，然后使用另一个2D卷积层将特征通道数量减少到80个；

所述堆叠沙漏网络中编码器利用3个3D卷积层进行下采样，解码器对称使用3个3D反卷积层来进行上采样操作；最后通过双边线性插值方法恢复特征图到原始尺寸，得到匹配代价矩阵；

对匹配代价矩阵进行视差回归操作，正则化处理来得到每个像素属于不同视差的概率；然后以概率值作为权重，对视差进行加权求和，得到每个像素点平滑的视差估计结果，如下式：

其中d代表视差，σ(-c_d)则代表了相应点的可能性；则代表预测视差；

通过损失函数来获得最终视差图，所述损失函数为：