CN113763446B

CN113763446B - 一种基于引导信息的立体匹配方法

Info

Publication number: CN113763446B
Application number: CN202110943550.7A
Authority: CN
Inventors: 魏东; 何雪; 刘涵; 于璟玮
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2024-03-29
Anticipated expiration: 2041-08-17
Also published as: CN113763446A

Abstract

一种基于引导信息的立体匹配方法，包括：图像输入：输入左右相机两幅图像，将左图像和右图像分别作为参考图像和目标图像；特征提取：使用卷积网络VGG对输入的两幅图像分别进行特征提取，获取不同尺度图像特征；提取边缘信息：使用HED网络对输入的两幅图像分别提取边缘特征图，获取边缘细节信息；视差注意力计算初始视差：提取到的不同尺度的特征与边缘信息融合后输入到视差注意力模块，生成视差注意力图，再回归到初始视差图；提取语义信息：特征提取的最后池化层得到的特征送入到DenseASPP网络提取语义特征图，获取语义信息；视差优化：语义特征图与初始视差图融合，利用语义信息进行视差优化得到最终视差图。

Description

一种基于引导信息的立体匹配方法

技术领域

本发明属于计算机视觉领域、深度学习技术领域，具体涉及一种基于引导信息的立体匹配方法。

背景技术

日常生活中获取的信息大部分是来自于视觉。人类通过位置不同的双目分别获取图像信息，大脑会将获得的两幅单目图像融合，判断出视野中物体的远近，即深度信息，从而形成立体场景。深度信息是许多计算机视觉应用中非常重要的一部分，如自动驾驶、机器人、增强现实、无人机、3D模型重建、物体检测和识别等等。

双目立体视觉正是通过模拟人类的视觉系统来处理现实场景。双目立体匹配便是从两张不同位置拍摄的同一场景图像中，寻找对应相匹配的像素点，从而求得对应像素的视差值，形成视差图，通过计算视差获取场景中物体的深度信息。

但是目前的双目立体匹配算法仍然无法在保持精度的同时保持较好的实时性，高精度的算法往往都是以牺牲计算复杂度换取的。因此，目前双目立体匹配技术的研究目标就是探索出一种高精度且计算复杂度低的立体匹配算法。虽然众多领域的专家、学者在立体匹配技术方面进行了长期的研究，取得了长足的进步，但实际匹配中仍存在一些难以解决的问题和难点。例如，立体场景中的遮挡、视差不连续区域和弱纹理区域等很难获得精度较高的匹配结果。

近年来，卷积神经网络技术广泛应用于前计算机视觉领域，基于卷积神经网络的双目立体匹配算法也取得了很好的成绩。通过卷积神经网络提取和处理图像特征具有较高的鲁棒性，能够有效克服图像场景中尺度不一致、遮挡及旋转等因素的影响。

而传统的立体匹配算法总结为四个步骤：匹配代价计算、代价聚合、视差计算和视差优化。大部分传统的算法均是手工精心挑选的特征，加上需要多阶段正则化函数，最终限制了这类传统方法的效果和进展。随着深度学习技术的快速发展，深度学习技术展示了其在特征学习上的强大能力，在各个计算机视觉任务上都取得了非常重大的突破和进展。同样地，基于深度学习的双目立体匹配算法相比一些传统的算法也取得了非常好效果。根据深度学习发展的历程，主要分为非端到端的深度学习算法和端到端的深度学习算法。

非端到端的深度学习将卷积神经网络与传统方法结合，将卷积神经网络应用于立体匹配过程中某一步骤。端到端网络解决立体匹配问题可以分为两种主要的方法。一种是早期的方法将深度估计描述为一个回归问题，使用单一的编码器-解码器，将左右图像叠加，并回归视差图。这些方法不需要显式的特征匹配模块，运行时速度很快。但是它们需要大量的训练数据，很难获得。另一种方法模仿传统的立体匹配步骤，将问题分解成由可微块组成的阶段，从而允许端到端的训练。

虽然基于深度学习的立体匹配方法的效果有了很大的提升，但仍然很难克服局部模糊问题，这是视差估计中常见的问题。这是因为在这些模糊区域上进行视差估计的匹配特征不足以指导模型寻求正确的收敛方向。可以通过利用更多的特征，如前景和背景的全局感知、相对于熟悉对象的已知大小的缩放以及个体的语义一致性，在模糊区域更好的实现特征匹配。视差估计中的这种模糊区域大多数位于给定一个大目标的中心区域，可以通过语义分割来处理。在无纹理的区域，复杂结构，小物体和边界附近找到正确的对应关系，而这些问题可以通过诸如边缘轮廓等信息来缓解。

发明内容

发明目的

本发明针对立体匹配边缘处的误差较大、遮挡、视差不连续及弱纹理的模糊区域的问题，结合很多算法中固定的最大视差超参数的问题，提出一种基于引导信息的立体匹配方法。

技术方案

步骤一：图像输入：输入左右图像，将其中的左图像作为参考图像，右图像作为目标图像；图像裁剪后送入VGG网络进行特征提取。

步骤二：特征提取：使用卷积网络VGG对输入的左右图像分别进行特征提取，获取小于步骤一图像的不同尺度图像特征；

步骤三：提取边缘信息：使用整体嵌套边缘检测HED网络对输入的左右图像分别提取边缘特征图，获取边缘细节信息；输入左右相机图像送入HED网络提取边缘特征图，将步骤二得到的不同尺度的图像特征进行上采样操作后与边缘特征图在通道维度上叠加，将边缘信息融合。

步骤四：视差注意力计算初始视差：将步骤二获得的不同尺度的图像特征与边缘信息融合后输入到级联的视差注意力模块，生成视差注意力图，对视差注意力回归得到初始视差图；融合边缘信息后的特征送入级联的视差注意力模块计算初始视差，视差注意力对于参考图像中的每一个像素，计算其特征相似性与右图像中所有可能的差异，从而生成通道数为1的视差注意力图，对视差注意力图进行回归计算得到初始视差。

步骤五：提取语义信息：特征提取的最后进行池化层处理，得到的池化层特征送入到密集连接的空洞空间卷积池化金字塔DenseASPP网络提取语义特征图，获取语义信息；对经过语义信息提取网络得到的语义特征图进行上采样操作后与初始视差图在通道维度上叠加，融合后特征送入沙漏型网络进行视差优化，得到最终视差图。

步骤六：视差优化：语义特征图与初始视差图融合送入沙漏型网络，利用语义信息对初始视差图进行视差优化得到最终视差图，完成立体匹配。网络生成的视差图通过smooth_L1损失函数计算与真实值之间的误差；误差通过Adam优化方法进行梯度更新从而引导整个网络模型的训练。

优点及效果

本发明引入深度学习中端到端的思想将传统立体匹配方法中四个步骤合为一个步骤，在计算匹配代价时使用视差注意力，相比以往的端到端产生3D/4D cost volume方法的算法，由于固定的最大视差阻碍了处理具有更大视差变化的不同立体图像对，而且存在由于差异回归的模糊性，可能导致不合理的成本分配的情况。视差注意力机制可以学习大视差变化下的立体对应，将极线约束与注意力机制相结合，沿极线计算特征相似性，具体来说，对于参考图像中的每个像素，计算其特征相似性与目标图像中所有可能的差异，以生成视差注意图。对视差注意力图引入边缘和语义信息，改善立体匹配边缘处的误差较大、遮挡、视差不连续、弱纹理的模糊区域效果。

本发明方法采用在视差注意力上添加边缘和语义引导信息生成视差图，解决立体场景中的遮挡、视差不连续区域和弱纹理区域等很难获得精度较高的匹配结果问题，并降低了误匹配提升精确度。

附图说明

图1为本发明提供的一种基于引导信息的立体匹配方法处理流程；

图2为本发明提供的基于引导信息的立体匹配方法网络结构示意图；

图3为本发明提供的HED网络结构示意图；

图4为本发明提供的视差注意力模块结构示意图；

图5为本发明提供的输出模块结构示意图；

图6为本发明提供的DenseASPP网络结构示意图。

具体实施方式

下面结合附图对本发明做进一步的说明：

实施例

对左右相机图像即参考图像和目标图像进行边缘信息提取和特征提取，获得不同尺度特征图和边缘特征；然后将边缘信息与不同尺度特征融合送入级联的视察注意力模块进行匹配代价计算得到视差注意力图；对视察注意力图回归计算得到初始视差图；从特征提取中获得的最后特征中提取语义信息，然后将语义信息与初始视差图融合进行视差优化，得到最终视差图。方法的处理流程如图1所示。

步骤一：图像输入：输入左右图像，将其中的左图像作为参考图像，右图像作为目标图像；并进行尺寸为256×512的剪裁操作。

步骤二：特征提取：使用VGG网络的13层卷积层对输入的左右图像分别进行特征提取；

如图2所示，用13层卷积层网络对左右相机图像分别进行卷积提取特征，将步骤一输入图像剪裁成尺寸大小为256×512的图像，作为输入的两幅图像分别经过5个模块得到128×256、64×128、32×64、16×32和8×16尺寸的5个不同尺度特征。5个模块都是由多个卷积层、1个BN层、1个ReLU激活函数层和1个最大池化层组成。第1个模块的卷积层部分是2个输出通道数为64的卷积层；第2个模块的卷积层部分是2个输出通道数为96的卷积层；第3个模块的卷积层部分是3个输出通道数为128的卷积层；第4个模块的卷积层部分是3个输出通道数为256的卷积层；第5个模块的卷积层部分是3个输出通道数为512的卷积层；卷积层采用大小为3×3、步长为1和填充为1卷积。

BN层是调用了批量归一化(BatchNormalization)正则化方法，使用BN层，加快模型的训练和防止模型训练过拟合。由于每次处理的图片分布规律在数值的表现方式上有所差异，这样不利于网络模型进行学习，所以可以利用深度学习中常见的批量归一化方法来统一输入数据的取值范围到区间[-1,1]内。这样除了解决网络模型学习困难这个问题，还有利于反向传播的梯度更新。

对ReLU激活函数非线性的利用可以加快网络收敛的速度和降低网络对调节超参数带来的敏感度。使用批量归一化时的具体处理方式是在卷积层之后基于批量数据(batchsize)减去逐通道计算出的均值再除以标准差，而在训练中对图像进行除以标准差的操作时可以为了减少计算量可以将除数直接替换成数值255，即代表RGB最大通道数的8位无符号整型最大值。ReLU激活函数的数学表达式如下：

其中，x_i表示输入值，y_i表示输出值。

步骤三：提取边缘信息：将左右相机图像送入HED网络提取边缘特征，得到边缘特征图。

如图3所示，HED网络是一种多尺度多融合的网络结构，所谓的多尺度，就是把VGG16的每一组的最后一个卷积层的输出取出来，因为每一组得到的特征图的长宽尺寸是不一样的，所以这里还需要用转置卷积/反卷积对每一组得到的特征图再做一遍运算，从效果上看，相当于把第二至五组得到的特征图的长宽尺寸分别扩大2至16倍，这样在每个尺度上得到的特征图，都是相同的大小了，对5层输出进行级联并转为1通道的边缘图。

步骤四：级联视差注意力机制进行代价计算：融合边缘信息后的特征送入到级联的视差注意力模块中，得到视差注意力图，对其回归得到初始视差；

视差注意力模块的输入是经过以下处理得到的特征：步骤二特征提取中获得的前三个尺度的特征，即128×256、64×128和32×64三个尺度特征，分别进行双线性插值上采样操作，然后与边缘信息级联得到。

视差注意力模块通过矩阵乘法而不是移位操作获得不同的差异。因此，视差注意力模块不需要手动设置固定的最大视差，并且可以处理较大的视差变化。基于计算代价量(cost volume)的方法通常在匹配代价的基础上回归差异，然后根据这些差异计算损失。然而，由于差异回归的模糊性，这可能导致不合理的代价。相反，在视差注意映射上执行直接正则化能够实现更好的性能。通过使用视差注意力模块，可以在不显式视差计算的情况下聚合来自参考图像和目标图像的代价。

视差注意力模块将极线约束与注意力机制相结合，沿极线计算特征相似性。在注意力机制中，首先将尺寸为R^H×W×C的特征映射重塑为R^HW×C的特征，然后，利用矩阵乘法(R^HW×C×R^C×HW)计算图像中任意两个位置的相关性。对于参考图像和目标图像，参考图像中一个像素的对应像素只位于目标图像中的极线上。考虑到这一极约束，视差注意力使用矩阵乘法来计算参考图像中的像素与目标图像中沿极线的所有位置之间的相关性。如图4所示，特征映射将A、B∈R^H×W×C首先馈送到1×1卷积以进行特征适配。具体来说，A是输入1×1卷积以产生查询特征映射Q∈R^H×W×C。同时，B被馈送到另一个1×1卷积中，生成一个关键特征映射K∈R^H×W×C，再将其重塑为R^H×C×W。然后，在Q和K之间执行矩阵乘法，并应用Softmax层，产生视差-注意映射M_B→A∈R^H×W×W。通过矩阵乘法，可以有效地将沿极线的任意两个位置之间的特征相关性编码到视差注意力图中。应该指出的是，视差注意力机制考虑到了所有的差异，也就是说，不需要手动设置固定的最大视差，并且可以处理较大的视差变化。由于视差注意力可以学会使用特征相似性来关注精确差异的特征，因此可以捕获对应关系。

级联视差注意模块中最后一个块的匹配代价被馈送到输出模块，如图5所示。在输出模块中，和/>首先被馈送到Softmax层，以分别产生通道数为1的视差注意力图/>和/>对得到的视差注意力图回归计算得到初始视差，公式如下：

其中，表示初始视差，/>是第三个视差注意力模块计算得到的目标图像图对参考图像的视差注意力，w和k是特征维度。

步骤五：提取语义信息：特征提取得到的最后一层特征送入到DenseASPP网络获取语义信息；

如图6所示DenseASPP网络将ASPP和DenseNet中的密集连接相结合，构成了DenseASPP，具有更大的感受野和更密集的采样点，更密集的方式连接一组扩张卷积，获得了更大的范围的扩张率，并且更加密集。但因为密集连接，特征的通道数会急速上升，使用1×1的卷积用于降低通道数，限制了模型大小和计算量，DenseASPP由包含扩张率为3、6、12、18、24的扩张卷积组成，在扩张卷积之前的1×1卷积将通道数降低为c/8通道，用于减少特征图数，最后通过卷积变为通道为1的语义特征图。将初始视差与得到的语义特征图连接融合，并将其馈送到沙漏网络进行视差优化。

步骤六：视差优化：提取的语义特征图进行上采样操作后和初始视差图级联送入一个三层下采样和四层上采样结构的沙漏型网络，利用语义信息对初始视差图进行视差优化得到最终视差图，也就是得到的语义信息与初始视差图融合送入沙漏型网络进行视差优化。

如图2所示，视差优化部分沙漏型网络是由三层下采样和四层上采样组成，三层下采样是输出通道数为96、128和160的卷积层；四层上采样是输出通道数为160、128、96和32的卷积层。

网络生成的视差图通过smooth_L1损失函数计算与真实值之间的误差。损失函数如下：

其中，L_S表示损失函数，N表示所有带真实值的像素数目，D_i和分别表示真实视差和估计视差，smooth_L1定义如下：

误差通过Adam优化方法进行梯度更新从而引导整个网络模型的训练。

而关于训练的过程，就是通过损失函数来引导整个网络模型的训练，即依靠优化方法对梯度进行更新，使梯度不断下降从而去接近最优解来更新权重参数，权重参数需要考虑权值初始化和优化方法两方面。

权值初始化是为了让网络模型在数值空间中去寻求全局最优解的时候有一个较好的初始位置，这样有利于网络模型学习时候更好更快的收敛。网络中引入了HED和DenseASPP网络用于提取边缘和语义信息，使用在权值初始化时引入以训练好的模型参数，节省训练时间，其余卷积层的权值初始化时采用均值为0，方差为0.02的随机正态分布。

网络模型搜索最优解的过程可以称作优化。优化时采用的方法是对梯度下降法改进的Adam方法，使用Adam方法的原因在于只要设置好初始的一些相关超参数的数值，它会自动调节学习率来帮助网络模型学习时更好更快的收敛，从而进行整个网络模型的匹配训练，这里超参数数值按Adam方法中默认参数设置。

Claims

1.一种基于引导信息的立体匹配方法，其特征在于：该方法步骤如下：

步骤一：图像输入：输入左右两幅图像，将其中的左图像作为参考图像，右图像作为目标图像；

步骤三：提取边缘信息：使用整体嵌套边缘检测HED网络对输入的左右图像分别提取边缘特征图，获取边缘细节信息；

步骤四：视差注意力计算初始视差：将步骤二获得的不同尺度的图像特征与边缘信息融合后输入到级联的视差注意力模块，生成视差注意力图，对视差注意力图进行回归得到初始视差图；

步骤五：提取语义信息：特征提取的最后进行池化层处理，得到的池化层特征送入到密集连接的空洞空间卷积池化金字塔DenseASPP网络提取语义特征图，获取语义信息；

步骤六：视差优化：语义特征图与初始视差图融合送入沙漏型网络，利用语义信息对初始视差图进行视差优化得到最终视差图，完成立体匹配；

在步骤二中，用13层卷积层网络对左右图像分别进行卷积提取特征，将步骤一输入图像剪裁成尺寸大小为256×512的图像，作为输入的两幅图像分别经过5个模块得到128×256、64×128、32×64、16×32和8×16尺寸的5个不同尺度特征；5个模块都是由多个卷积层、1个BN层、1个ReLU激活函数层和1个最大池化层组成；

在步骤四中，视差注意力模块的输入是经过以下处理得到的特征：步骤二特征提取中获得的前三个尺度的特征，即128×256、64×128和32×64三个尺度特征，分别进行双线性插值上采样操作，然后与边缘信息级联得到。

2.根据权利要求1所述的基于引导信息的立体匹配方法，其特征在于：所述步骤一的图像裁剪后送入VGG网络进行特征提取。

3.根据权利要求1所述的基于引导信息的立体匹配方法，其特征在于：所述步骤三，输入左右图像送入HED网络提取边缘特征图，将步骤二得到的不同尺度的图像特征进行上采样操作后与边缘特征图在通道维度上叠加融合。

4.根据权利要求1所述的基于引导信息的立体匹配方法，其特征在于：所述步骤四，融合边缘信息后的特征送入级联的视差注意力模块计算初始视差，视差注意力对于参考图像中的每一个像素，计算其特征相似性与目标图像中所有可能的差异，从而生成通道数为1的视差注意力图，对视差注意力图进行回归计算得到初始视差。

5.根据权利要求1所述的基于引导信息的立体匹配方法，其特征在于：所述步骤五，对经过语义信息提取网络得到的语义特征图进行上采样操作后与初始视差图在通道维度上叠加融合，融合后特征送入沙漏型网络进行视差优化，得到最终视差图。

6.根据权利要求1所述的基于引导信息的立体匹配方法，其特征在于：所述步骤六，网络生成的视差图通过smooth_L1损失函数计算与真实值之间的误差；误差通过Adam优化方法进行梯度更新从而引导整个网络模型的训练。