CN112509021B

CN112509021B - 一种基于注意力机制的视差优化方法

Info

Publication number: CN112509021B
Application number: CN202011441310.9A
Authority: CN
Inventors: 杜娟; 李博涵; 林登萍
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-08-22
Anticipated expiration: 2040-12-11
Also published as: CN112509021A

Abstract

本发明公开了一种基于注意力机制的视差优化方法，使用视差预估主干网络对双目视觉图像进行初始视差值计算，得到预测视差值,所述双目视觉图像包括左图像及右图像；设置多层次信息提取子网络，将注意力机制嵌入到子网络中，将左图像输入后，得到两幅不同维度的特征图；将子网络提取的特征图与视差预估主干网络中不同位置的特征图在对应维度上合并，进行细化视差值计算；采用监督回归损失函数端对端训练网络，所述网络包括视差预估主干网络和多层次信息提取子网络；将待预测的双目视觉图像输入完成训练的网络中，得到对应的视差预测值。本方法提升视差预估结果的精确度和鲁棒性。

Description

一种基于注意力机制的视差优化方法

技术领域

本发明涉及双目图像立体匹配技术领域，具体涉及一种基于注意力机制的视差优化方法。

背景技术

立体匹配是计算机视觉中的一个重要研究问题，它所要解决的是：给定一对经过校正的立体图像，寻找对应像素点在两幅图像中的相对距离差值(视差值)。

传统的立体匹配管道通常包括:匹配代价计算、匹配代价聚合、视差预测和视差细化。匹配代价计算通过绝对差值函数、截断差值函数和归一化互相关等相似度量函数来计算双目图像对应区域的相似度。在计算匹配代价后，通常采用匹配代价聚合来纠正不正确的匹配，提高匹配准确率。

近年来，许多卷积神经网络已经应用于立体匹配并取得了很大的进展。但是目前这些方法中卷积核的大小限制了模型的感受野，并且在浅层阶段很难获得较大的感受野。这就导致了网络模型缺失全局上下文信息以及类内密度表现特征，在处理图像的不适定区域(遮挡，反射和无纹理区域等)时，预测准确率较低。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于注意力机制的视差优化方法，本发明可以提升视差预估结果的精确度和鲁棒性，尤其在不适定区域的预测表现。

本发明采用如下技术方案：

一种基于注意力机制的视差优化方法，包括如下步骤：

使用视差预估主干网络对双目视觉图像进行初始视差值计算，得到预测视差值,所述双目视觉图像包括左图像及右图像；

设置多层次信息提取子网络，将注意力机制嵌入到子网络中，将左图像输入后，得到两幅不同维度的特征图；

将子网络提取的特征图与视差预估主干网络中不同位置的特征图在对应维度上合并，进行细化视差值计算；

采用监督回归损失函数端对端训练网络，所述网络包括视差预估主干网络和多层次信息提取子网络；

将待预测的双目视觉图像输入完成训练的网络中，得到对应的视差预测值。

进一步，所述视差预估主干网络包括两个权值共享的残差卷积模块、两个权值共享的膨胀空间金字塔模块及卷积层。

进一步，使用视差预估主干网络对双目视觉图像进行初始视差值计算，得到预测视差值，具体为：

将左右双目图像依次输入使用共享权重的残差卷积模块和膨胀空间金字塔模块进行特征提取，得到左右二元特征图；

左右二元特征图按视差等级对应连接，构建四维代价体积模块，该四维代价体积为H×W×D×F，其中H代表特征图高度，W代表特征图宽度，D代表视差值，F代表特征大小，然后使用三维卷积进一步对该四维代价体积进行正则化；

使用softmax回归函数对正则化思维代价体积进行视差回归计算，得到预测视差值

进一步，所述多层次信息提取网络包括残差卷积模块，所述残差卷积模块分别与两个注意力机制模块输入端连接，一个注意力机制模块与二维卷积层连接，另一个注意力机制模块与三维卷积层连接。

进一步，所述设置多层次信息提取子网络，将注意力机制模块嵌入到子网络中，双目视觉图像输入后，得到两幅不同维度的特征图，具体为：

将双目图像中的左图像下采样后输入多层次信息提取子网络中，使用残差卷积模块获取初始二元特征；

获取的初始二元特征分别输入到两个注意力机制模块中，得到两个细化二元特征，其中一个细化二元特征输入多个二维卷积层中得到输出三维特征图F₀₁，其大小为H×W×C，这里H代表特征图高度，W代表特征图宽度，C代表特征图通道数；

另一个细化二元特征输入多个三维卷积层中得到输出四维特征图F₀₂，其大小为H×W×D×F，H代表特征图高度，W代表特征图宽度，D代表视差值，F代表特征大小。

进一步，所述将子网络提取的特征图与视差预估主干网络中不同位置的特征图在对应维度上合并，进行细化视差值计算，具体为：

分别使用二维反卷积和三维反卷积对F₀₁和F₀₂进行上采样，得到新的三维特征图F₀₁′和四维特征图F₀₂′；

将F₀₁′和F₀₂′与视差预估主干网络中不同位置的特征图在对应维度相合并，融合相关特征信息。

进一步，所述监督回归损失函数如下：

其中，N表示标记的像素数目,_i代表真实的视差值,代表网络预测的视差值，定义如下：

进一步，预测视差值

式中，D_max代表预测视差的最大值，d代表每个视差值的可能性大小，σ(·)代表softmax函数，C_d正则化后的代价体积。

进一步，所述注意力机制模块的表达式如下：

式中，F_s表示最终生成的特征图，δ是批标准化操作,使用1×1的卷积层进行特征图聚合和通道数量调整,_i和E_j分别表示空间注意力特征图和通道注意力特征图,₀表示输入的原始特征图。

本发明的有益效果：

(1)本发明中设置了一个多层次信息提取子网络，将注意力机制模块嵌入其中用以学习空间和通道相互依赖性，提升了多层次全局上下文信息和强表现力特征的获取能力。

(2)本发明充分利用由子网络获得的特征信息，进一步细化初始视差，提升视差预估准确率，尤其提升在不适定区域的预测表现。

(3)本发明采用端到端的立体匹配网络架构，该框架将网络模型作为一个整体进行训练学习，可采用不同场景下的数据集增强模型的泛化能力，实施简洁，迁移性强。

附图说明

图1为本发明一种基于注意力机制的立体匹配优化方法的流程图；

图2为本发明基于注意力机制的立体匹配优化方法的网络结构图；

图3(a)-图3(c)分别为本发明在Scene Flow数据集上的测试结果示意图；

图4(a)及图4(b)分别为本发明在KITTI 2012数据集上的测试结果示意图；

图5(a)及图5(b)为本发明在KITTI 2015数据集上的测试结果示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1及图2所示，一种基于注意力机制的视差优化方法，包括如下步骤：

步骤一使用视差预估主干网络对双目视觉图像进行初始视差值计算，得到预测视差值；

所述视差预估主干网络如图1所示，包括残差卷积模块，膨胀空间金字塔模块和一系列三维卷积层。

具体为：

S1.1首先将左右双目图像输入到视差预估主干网络中，使用共享权重的残差卷积模块和膨胀空间金字塔模块进行特征提取，得到左右二元特征图；

S1.2将步骤1.1获取的左右二元特征图按视差等级对应连接，构建四维代价体积，该四维体积为H×W×D×F，其中H代表特征图高度，W代表特征图宽度，D代表视差值，F代表特征大小。然后使用三维卷积进一步对该四维代价体积进行正则化。

S1.3使用softmax回归函数对步骤1.2获取的正则化代价体积进行视差回归计算，得到预测视差值

式(1)中，D_max代表预测视差的最大值，d代表每个视差值的可能性大小，σ(·)代表softmax函数，C_d正则化后的代价体积。

本实施例具体来说：

S1.1中输入的一对双目图像经过残差卷积模块后分辨率大小会获得二元特征F_I；然后将其输入到膨胀空间金字塔模块(ASPP)中，用四个膨胀率分别为3,6，12,18的二维卷积处理F_I，得到四幅特征图F₁，F₂，F₃，F₄；在通道维度上将上述五幅特征图拼接起来组成一幅新特征图，然后使用卷积核为1×1的二维卷积处理该特征图以融合其中的特征信息。

S1.2中将左右二元特征图在同一视差等级上拼接起来构建四维代价体积，视差等级的范围是0到192；获得四维代价体积后，采用9层残差连接的三维卷积层进行正则化操作，并在最后使用三维反卷积进行上采样操作。

步骤二设置多层次信息提取子网络，将注意力机制嵌入到子网络中，双目视觉图像输入后，得到两幅不同维度的特征图；

所述多层次信息提取网络包括残差卷积模块，所述残差卷积模块分别与两个注意力机制模块输入端连接，一个注意力机制模块与二维卷积层连接，另一个注意力机制模块与三维卷积层连接。

步骤为：

S2.1将双目图像中的左图像下采样后输入多层次信息提取子网络中，使用残差卷积模块获取初始二元特征。

S2.2将S2.1获取的初始二元特征输入到一个注意力机制模块(注意力模块1)中得到细化二元特征，然后将该细化二元特征输入多个二维卷积层中得到输出三维特征图F₀₁，其大小为H×W×C，这里H代表特征图高度，W代表特征图宽度，C代表特征图通道数。

S2.3将S2.1获取的初始二元特征输入到另一个注意力机制模块(注意力模块2)中得到细化二元特征，然后将该细化二元特征输入多个维卷积层中得到输出四维特征图F₀₂,其大小为H×W×D×F，H代表特征图高度，W代表特征图宽度，D代表视差值，F代表特征大小。

本实施例中具体为：

步骤2.1中首先将输入的图像下采用至原来大小的四分之一，然后输入到残差卷积模块中获取初始二元特征,这里的残差卷积模块与视差预估主干网络中的残差卷积模块权值不共享。

步骤2.2和步骤2.3中所使用的注意力机制模块的表达式如下：

式(2)中，F_s表示最终生成的特征图，δ是批标准化操作,使用1×1的卷积层进行特征图聚合和通道数量调整,_i和E_j分别表示空间注意力特征图和通道注意力特征图,₀表示输入的原始特征图。

式(3)中，α为自学习尺度参数，初始化赋值为0，在学习过程中逐步调整权重；N表示特征图中像素的总数；B,C,D代表使用三个不同的卷积层处理原始特征图后分别生成的三个新特征图；i和j表示特征图的不同位置，两个位置之间的相似性越高，它们之间的相关性就越大。

其中，β为自学习尺度参数，初始化赋值为0，在学习过程中逐步调整权重；A_i和A_j分别代表输入特征图中第i通道和第j通道的不同特征，注意在改运算中，特征图的维度由三维(C×H×W)转换为二维(C×HW)。

步骤2.2中所使用的的二维卷积和步骤2.3中所使用的的三维卷积模块均为9层，均采用残差连接。

步骤三将子网络提取的特征图与视差预估主干网络中不同位置的特征图在对应维度上合并，进行细化视差值计算；

步骤3.1分别使用二维反卷积和三维反卷积对F₀₁和F₀₂进行上采样，得到新的三维特征图F₀₁′和四维特征图F₀₂′。

步骤3.2将F₀₁′和F₀₂′与视差预估主干网络中不同位置的特征图在对应维度相合并，融合相关特征信息。

本实施例具体来说，中经过上采样后得到的特征图F₀₁′和F₀₂′与主干网络中需要相合并的特征图在各个维度上保持一致，F₀₁′和F₀₂′中信息的层次不同，与主干网络中特征图结合的位置也不同，可以进一步提升网络模型对多层次信息的获取能力。

在进行融合操作时，将需要合并的特征图在各维度上对应相加，然后使用批标准化优化数据分布。

步骤四采用监督回归损失函数端对端训练网络，所述网络包括视差预估主干网络和多层次信息提取子网络；

使用的损失函数公式定义如下：

其中，N表示标记的像素数目,_i代表真实的视差值,代表网络预测的视差值。公式(5)中的/>定义如下：

图3(a)-图3(c)，三个图中，左侧为输入图像，右侧为采用本方法的预测效果图。表明我们的方法对于杂乱的重叠对象和遮挡区域实现了稳健的性能。

如图4(a)及图4(b)所示，KITTI 2012数据集上与GCNet的基准测试比较结果，从上往下分别是输入图片，GCNet预测效果，本方法预测效果。

如图5(a)及图5(b)所示，KITTI 2015数据集上与GCNet的基准测试比较结果。KITTI 2015数据集上与GCNet的基准测试比较结果，从上到下分别是输入图片，GCNet预测效果，本方法预测效果。

上述定性比较结果表明，我们的方法能够在具有挑战性的区域中建立更鲁棒的视差估计，这些区域在边界框中被突出显示。

本发明提供的一种基于注意力机制的立体匹配优化方法，提高了模型对于多层次全局上下文信息和强表现力特征的获取能力，使得模型的视差预估准确率，尤其在不适定区域的预测表现得到极大提升，同时增强了模型输出的视差结果的鲁棒性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的视差优化方法，其特征在于，包括如下步骤：

设置多层次信息提取子网络，将注意力机制模块嵌入到子网络中，将左图像输入后，得到两幅不同维度的特征图；

将待预测的双目视觉图像输入完成训练的网络中，得到对应的视差预测值；

所述多层次信息提取子网络包括残差卷积模块，所述残差卷积模块分别与两个注意力机制模块输入端连接，一个注意力机制模块与二维卷积层连接，另一个注意力机制模块与三维卷积层连接；

所述设置多层次信息提取子网络，将注意力机制模块嵌入到子网络中，双目视觉图像输入后，得到两幅不同维度的特征图，具体为：

另一个细化二元特征输入多个三维卷积层中得到输出四维特征图F₀₂，其大小为H×W×D×F，H代表特征图高度，W代表特征图宽度，D代表视差值，F代表特征大小；

所述将子网络提取的特征图与视差预估主干网络中不同位置的特征图在对应维度上合并，进行细化视差值计算，具体为：

2.根据权利要求1所述的视差优化方法，其特征在于，所述视差预估主干网络包括两个权值共享的残差卷积模块、两个权值共享的膨胀空间金字塔模块及卷积层。

3.根据权利要求2所述的视差优化方法，其特征在于，使用视差预估主干网络对双目视觉图像进行初始视差值计算，得到预测视差值，具体为：

4.根据权利要求1所述的视差优化方法，其特征在于，所述监督回归损失函数如下：

5.根据权利要求3所述的视差优化方法，其特征在于，预测视差值

6.根据权利要求1所述的视差优化方法，其特征在于，所述注意力机制模块的表达式如下：