CN112150521B

CN112150521B - 一种基于PSMNet优化的图像立体匹配方法

Info

Publication number: CN112150521B
Application number: CN202010855158.2A
Authority: CN
Inventors: 顾寄南; 黄则栋; 李静; 孙晓红
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2024-05-14
Anticipated expiration: 2040-08-24
Also published as: CN112150521A

Abstract

本发明提供了一种基于PSMNet优化的图像立体匹配方法，包括：左右图像分别输入到ResNeXt残差卷积神经网络中，提取初步特征图像，ResNeXt残差卷积神经网络引入独立路径的数量；ASPP模块提取初步提取特征图不同尺度的特征图空间信息，通过融合模块对所述特征图空间信息进行融合，得到二维融合特征图，左右二维融合特征图连接形成4维的匹配代价空间；给定匹配代价空间，3D卷积神经网络根据二维融合特征图计算匹配代价；基于所述匹配代价，通过视差回归得到预测的视差图；3D卷积神经网络删除3D卷积输出与不同输出模块之间的残差连接。本发明解决了现有图像立体匹配中存在耗时长、匹配点错误较多的问题。

Description

一种基于PSMNet优化的图像立体匹配方法

技术领域

本发明属于三维重建技术领域，具体涉及一种基于PSMNet优化的图像立体匹配方法。

背景技术

随着卷积神经网络的快速发展，已经展示了其在特征学习上的强大能力，在很多计算机视觉的任务中取得了非常重大的突破和进展。基于深度学习的双目立体匹配算法相对一些传统算法也取得了非常好效果。在基于端到端的深度立体匹配算法中，传统匹配算法中所有步骤均可以使用网络进行联合优化进行端到端的训练，直接输出最终的视差图。但是这些端到端的方法存在如下缺陷：(1)网络针对不适定区域(遮挡区域、重复图案、无纹理区域以及反光区域)的特征提取能力较弱，导致匹配点错误较多；(2)嵌入大量的3D卷积，势必导致模型的参数量以及运行缓存巨大，耗时大，同时使其难以部署到容量受限的移动端或嵌入式设备。

发明内容

针对现有技术中存在不足，本发明提供了一种基于PSMNet优化的图像立体匹配方法，克服现有图像立体匹配中存在耗时长、匹配点错误较多等问题。

本发明是通过以下技术手段实现上述技术目的的。

一种基于PSMNet优化的图像立体匹配方法，双目相机采集的左右图像分别输入到两个权重共享的ResNeXt残差卷积神经网络中，提取初步特征图像；ASPP模块提取初步提取特征图不同尺度的特征图空间信息，通过融合模块对所述特征图空间信息进行融合，得到二维融合特征图，左右二维融合特征图连接形成4维的匹配代价空间；给定匹配代价空间，3D卷积神经网络根据二维融合特征图计算匹配代价；基于所述匹配代价，通过视差回归得到预测的视差图。

进一步的技术方案，所述ResNeXt残差卷积神经网络在ResNet结构基础上引入独立路径的数量获取。

进一步的技术方案，所述初步特征提取模块卷积核增设有空洞率。

进一步的技术方案，所述ASPP模块包含空洞率分别为6、12、18、24的空洞卷积。

进一步的技术方案，所述3D卷积神经网络删除3D卷积输出与不同输出模块之间的残差连接。

进一步的技术方案，所述3D卷积神经网络采用堆叠沙漏模块，在每个堆叠沙漏模块内部的快捷连接中添加1×1×1卷积。

一种PSMNet优化网络，包括初步特征提取模块、ASPP模块与融合模块、3D卷积模块和视差回归，所述初步特征提取模块采用ResNeXt残差卷积神经网络，所述3D卷积神经网络删除3D卷积输出与不同输出模块之间的残差连接。

本发明的有益效果为：

(1)本发明在ResNet结构基础上深入优化，引入基数的超参数(即独立路径的数量)，得到ResNeXt残差卷积神经网络，在不增加参数复杂度的前提下提高网络的准确率，解决匹配点错误较多的问题；ResNeXt残差卷积神经网络还减少网络超参数的数量，方便网络调试。

(2)本发明删除了3D卷积输出与不同输出模块之间的残差连接，降低参数量，克服匹配过程中的耗时长问题。

(3)本发明ASPP模块提取不同尺度的特征图空间信息，通过融合模块进行融合，得到包含不同尺度信息、拥有大范围感受野的二维融合特征图，使得网络在提取不适定区域信息时，具有更好的鲁棒性。

附图说明

图1为本发明所述PSMNet优化网络结构图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

一种基于PSMNet优化的图像立体匹配方法基于如图1所示的PSMNet(金字塔立体匹配网络)优化网络，PSMNet优化网络包括初步特征提取模块、ASPP模块与融合模块、3D卷积模块和视差回归。PSMNet优化网络结构表如表1所示：

表1 PSMNet优化网络结构

一种基于PSMNet优化的图像立体匹配方法，具体包括如下步骤：

步骤(1)，因为残差卷积神经网络不会随着网络层数的增多而出现梯度消失的现象，初步特征提取模块使用残差卷积神经网络来学习深度表示。现有的PSMNet采用ResNet残差卷积神经网络，本发明在ResNet结构基础上深入优化，引入基数的超参数(即独立路径C的数量)，得到ResNeXt残差卷积神经网络，从新的维度来提升网络性能，可以在不增加参数复杂度的前提下提高网络的准确率，同时还减少网络超参数的数量。初步特征提取模块卷积核增加空洞率，从而增大图像的感受野，获取更多的初步提取特征图信息。

ResNeXt残差卷积神经网络的每一层都跟随着批规则化层(Batch NormalizationLayer)和Re LU激活函数层，其中只有第一个卷积层的步长为2，将图像的尺寸缩小为原来的二分之一，其余卷积层步长均为1，以保留更多的空间结构信息。

双目相机采集的左右图像分别输入到两个权重共享的ResNeXt残差卷积神经网络中，左右图像通过网络参数共享学习相对应的特征，最后提取出各自对应的特征图，实现图像初步特征的提取；在初步特征提取时，为了减少计算需求，ResNeXt残差卷积神经网络首先应用三个3×3的卷积滤波器对输入的图像进行降采样处理。

步骤(2)，ASPP模块包含4个具有不同空洞率的并行空洞卷积层，当初步提取特征图进入ASPP模块，特征图分别输入到4个并行空洞卷积层，每一个并行空洞卷积层对初步提取特征图进一步提取特征信息，最后将4个并行空洞卷积层输出的特征信息，通过融合模块生成二维特征图，具体为：初步提取特征图分别经过4个并行空洞卷积层提取不同尺度的特征图空间信息，通过融合模块对4个并行空洞卷积层提取的特征图空间信息进行融合，得到包含不同尺度信息、拥有大范围感受野的二维融合特征图。如图1所示，ASPP模块包含空洞率分别为6、12、18、24的空洞卷积。

融合模块的处理过程为：融合模块受SENet启发，为每个特征图空间信息赋予一个特定的权重，权重的计算方法如图1所示，特征图空间信息经全局平均池化转化为一维的特征向量，利用瓶颈结构用于限制参数数量，最后利用sigmoid函数获得各个通道之间的权重。其中瓶颈结构是由两个1*1的卷积层和一个ReLU激活层构成的，第一个卷积层将通道数压缩至原来的1/4，经ReLU函数激活之后，再由第二个卷积层将通道数恢复，将权重与对应的特征图空间信息相乘，即得到加权的特征图组；然后将初步提取特征图通过跳跃连接与加权的特征图组级联起来，经过两个3*3的卷积层将通道数压缩为32，得到二维融合特征图。

通过将左二维融合特征图和每个视差下对应的右二维融合特征图串联起来，得到4维的匹配代价空间，匹配代价空间包含高度、宽度、视差和特征通道4个维度，对于每个立体图像，匹配代价空间的维度为其中W和H分别代表立体图像的宽和高，C代表融合后特征图的通道数，D表示视差的最大范围。

步骤(3)，给定匹配代价空间后，3D卷积神经网络根据二维融合特征图计算匹配代价，从而优化视差回归估计

3D卷积神经网络(3DCNN)能够从高度、宽度和视差3个维度上学习特征表示。利用编码解码结构(堆叠沙漏模块)解决了3DCNN造成的运算量过大的问题，编码器利用3个步长为2的3D卷积进行下采样，解码器对称地使用3个步长为2的3D反卷积层恢复尺寸。但上述编码解码结构不可避免地造成空间信息损失，参照ResNet残差卷积神经网络的跳跃连接结构，将编码器和解码器对应尺寸的卷连接起来，能够在反卷积恢复特征图分辨率的过程中，补充丢失的细节信息和来自低层级特征图的特征信息；与PSMNet相比，本发明还删除了3D卷积输出与不同输出模块之间的残差连接，只在每个堆叠沙漏模块内部的快捷连接中添加了1×1×1卷积，与3×3×3卷积相比只需要的乘法运算，运算速度快，获取更多特征图信息的同时节省时间，如图1所示。为了保证网络能够提取到足够多的细节信息，将3个相同的编码解码结构连接起来，并计算每个编码解码结构输出的损失，即对每个编码解码结构输出的值进行视差回归，以实现对网络的深度监督。最后，由编码解码结构得到的匹配代价矩阵，通过双边线性插值的方式恢复到原始尺寸，用于接下来的视差回归估计。

步骤(4)，采用Soft Argmin操作以回归的方式估计视差，该方法是完全可微分的并且能够得到平滑的视差估计结果。经过编码解码结构得到的匹配代价矩阵中的元素为图像各个像素点在不同视差下的匹配代价，并计算每一个像素点属于每一个视差值的概率，代价越大则表示匹配的概率越低，因此取预测成本的负值，并通过Softmax操作进行正则化处理，得到每一个像素点属于不同视差值的概率；然后，以概率值作为权重，对视差进行加权求和，得到每一个像素点预测的视差值。具体的公式为：

式中：表示每一个像素点预测的视差值，C_d表示真实视差d下的匹配代价，σ(·)表示Softmax运算，其数学表达式为：

其中z_j表示神经网络中第j个神经元的输入，z_k表示神经网络中第k个神经元的输入。

训练PSMNet优化网络时，平滑L1损失函数常用于目标检测的边界和回归问题，与L2损失函数相比，平滑L1损失函数具有更好的鲁棒性和较低的对异常值的敏感性，由于视差回归的存在，本发明采用平滑L1损失函数进行PSMNet优化网络训练，其公式如下：

其中，

其中：N表示像素总数。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种基于PSMNet优化的图像立体匹配方法，其特征在于，双目相机采集的左右图像分别输入到两个权重共享的ResNeXt残差卷积神经网络中，提取初步特征图像；ASPP模块提取初步提取特征图不同尺度的特征图空间信息，通过融合模块对所述特征图空间信息进行融合，得到二维融合特征图，左右二维融合特征图连接形成 4 维的匹配代价空间；给定匹配代价空间，3D卷积神经网络根据二维融合特征图计算匹配代价；基于所述匹配代价，通过视差回归得到预测的视差图；

所述ResNeXt残差卷积神经网络在ResNet结构基础上引入独立路径的数量获取；

所述融合模块受SENet启发，为每个特征图空间信息赋予一个特定的权重，得到二维融合特征图；

所述左右二维融合特征图连接形成 4 维的匹配代价空间具体为：通过将左二维融合特征图和每个视差下对应的右二维融合特征图串联起来，得到4维的匹配代价空间；

所述匹配代价空间包含高度、宽度、视差和特征通道4个维度。

2.根据权利要求1所述的基于PSMNet优化的图像立体匹配方法，其特征在于，所述ASPP模块包含空洞率分别为 6、12、18、24 的空洞卷积。

3.根据权利要求1所述的基于PSMNet优化的图像立体匹配方法，其特征在于，所述3D卷积神经网络删除3D卷积输出与不同输出模块之间的残差连接。

4.根据权利要求3所述的基于PSMNet优化的图像立体匹配方法，其特征在于，所述3D卷积神经网络采用堆叠沙漏模块，在每个堆叠沙漏模块内部的快捷连接中添加1×1×1卷积。

5.一种根据权利要求1-4任一项所述基于PSMNet优化的图像立体匹配方法确定的PSMNet优化网络，其特征在于，包括初步特征提取模块、ASPP模块与融合模块、3D卷积模块和视差回归，所述初步特征提取模块采用ResNeXt残差卷积神经网络，所述3D卷积神经网络删除3D卷积输出与不同输出模块之间的残差连接。

6.根据权利要求5所述的PSMNet优化网络，其特征在于，所述初步特征提取模块卷积核增设有空洞率。