CN111985551B

CN111985551B - 一种基于多重注意力网络的立体匹配算法

Info

Publication number: CN111985551B
Application number: CN202010821176.9A
Authority: CN
Inventors: 郭龙源; 周武威; 段厚裕; 欧先锋; 张国云; 吴健辉; 鲁敏; 滕书华
Original assignee: Hunan Visualtouring Information Technology Co ltd; Hunan Institute of Science and Technology
Current assignee: Hunan Visualtouring Information Technology Co ltd; Hunan Institute of Science and Technology
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2023-10-27
Anticipated expiration: 2040-08-14
Also published as: CN111985551A

Abstract

本发明公开了一种基于多重注意力网络的立体匹配算法，属于计算机视觉研究技术领域，一种基于多重注意力网络的立体匹配算法，主要包括特征提取、代价卷构建、代价聚合和视差预测等步骤，特征提取中引入了沙漏位置注意力模块，可以有效地聚合每个位置的全局上下文信息，有效的保证了无纹理和重复纹理区域的精确匹配，代价卷构建中通过特征融合的方式将互相关卷与级联卷结合在一起，不仅可以保留特征维度，还能有效的度量特征之间的相似度，代价聚合中设计了一个多尺度的视差注意力模块，可以聚合不同视差维度的特征信息，并通过回归的方式获得最终视差，本方法相较于现有技术的立体匹配算法，有效的提高了准确性和立体匹配计算速度。

Description

一种基于多重注意力网络的立体匹配算法

技术领域

本发明涉及计算机视觉研究技术领域，更具体地说，涉及一种基于多重注意力网络的立体匹配算法。

背景技术

双目立体视觉是机器视觉的一种重要形式，它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。双目立体视觉融合两只眼睛获得的图像并观察它们之间的差别，使我们可以获得明显的深度感，建立特征间的对应关系，将同一空间物理点在不同图像中的映像点对应起来，这个差别，我们称作视差图像。

双目立体视觉测量方法具有效率高、精度合适、系统结构简单、成本低等优点，非常适合于制造现场的在线、非接触产品检测和质量控制。对运动物体测量中，由于图像获取是在瞬间完成的，因此立体视觉方法是一种更有效的测量方法。双目立体视觉系统是计算机视觉的关键技术之一，获取空间三维场景的距离信息也是计算机视觉研究中最基础的内容。

双目立体视觉是计算机视觉研究的一个重要的分支，它通过模拟人的视觉系统来处理现实世界。具体地，它一般使用两台同型号的摄像机，在一定的设置下拍摄同一场景的两幅图像，然后通过立体匹配算法求得两幅图像的视差值，再根据视差与深度成反比的关系得到物体的深度，最后进行3D建模。双目立体视觉以其成本低，结构简单，精度高等优点，广泛应用于工业生产非接触式测距、智能机器人导航、无人驾驶汽车、医学诊断、安防监控和无人机等，有很高的商业价值和军事价值。

双目立体匹配是双目立体视觉中的关键技术之一，立体匹配可以看作是一种监督学习任务，其中将大量左右图像输入到卷积神经网络中进行训练，然后可以获得性能良好的视差图。但是，当前的结构仍然难以估计不适定区域的深度。

发明内容

1.要解决的技术问题

针对现有技术中存在的问题，本发明的目的在于提供一种基于多重注意力网络的立体匹配算法，在特征提取中，引入了沙漏位置注意力模块，该模块可以有效地聚合每个位置的全局上下文信息，有效的保证了无纹理和重复纹理区域的精确匹配，在代价卷构建中，通过特征融合的方式将互相关卷与级联卷结合在一起，通过这种方式构造的代价卷不仅可以保留特征维度，还能有效的度量特征之间的相似度，在代价聚合中，设计了一个多尺度的视差注意力模块，该模块可以聚合不同视差维度的特征信息，并通过回归的方式获得最终视差，本方法相较于现有技术的立体匹配算法，有效的提高了准确性和立体匹配计算速度。

2.技术方案

为解决上述问题，本发明采用如下的技术方案。

一种基于多重注意力网络的立体匹配算法，包括以下步骤：

S1、输入图像至特征提取网络；

S2、进行特征提取得到一致性特征；

S3、利用一致性特征构造代价卷；

S4、将代价卷输入至代价聚合模块中进行代价聚合，通过回归方式获得预测的视差图。

进一步的，所述S2中，具体采用沙漏位置注意模块进行一致性特征提取。

进一步的，所述S2具体包括以下步骤：

S21、通过使用一系列的下采样来扩大感受野并获得相关的细节信息：使用两层3×3，stride为2的卷积将特征图尺寸减少为原图像的四分之一；

S22、使用位置注意机制捕获全局空间信息：一个局部特征输入到卷积层分别产生两个新的特征/>和/>将{B,C}的维度变为/>代表所有像素个数，对C和B的转置进行矩阵乘法，并应用softmax层来计算空间注意力图计算公式为/>再将A送入卷积层以产生新特征/>并将其维度变为/>然后对S和D进行矩阵乘法并将结果维度变为/> α初始化为0，并逐渐通过学习分配更多权重。

S23、通过使用一系列的上采样重建输出：使用两层4×4，stride为2的转置卷积将特征图尺寸还原到原图像尺寸大小。

S24、重复S21-S23获得最终输出:使用与S31-S23同样的结构对S23输出的特征图再处理一遍，得到最终输出。

进一步的，所述S2还包括在进行上采样之前添加相同分辨率的特征图。

进一步的，所述S3中，代价卷的构造方式为：通过特征融合的方式将级联卷和互相关卷结合起来构建一个结合卷C_com(d)，形成代价卷；

即结合卷C_com(d)＝α₁C_con(d)+α₂C_cor(d)，其中C_con(d)为级联卷，C_cor(d)为相关卷，α₁和α₂为平衡参数。

进一步的，所述S4中，构建多尺度视差注意力模块来聚合特征信息，具体包括以下步骤：

S41、首先使用卷积对特征图进行下采样，然后对下采样后的特征图计算每个视差维度之间的关系：将下采样后的特征X的维度变为R^C×D×N，并将其转置X^T变为R^C×N×D，为像素个数，再对X和X^T进行矩阵乘法，并应用softmax层以获得视差注意图r∈R^C×D×D，其中σ(·)为softmax操作。

S42、我们将特征X输入到卷积层中以产生新特征Y，然后将Y的维度变为R^C×D×N，其中为像素个数；

S43、对r和Y进行矩阵乘法，并将结果维度变为R^D×C×H×W，再与原始特征X相加得到输出：其中r∈R^C×D×D为视差注意力图，λ初始化为0，并逐渐分配更多权重，再使用转置卷积对E_j进行上采样将其恢复到原图像大小，得到预测结果/>最后,通过回归损失函数训练整个网络：/>其中y为真实视差图。

3.有益效果

相比于现有技术，本发明的优点在于：

本发明的一种基于多重注意力网络的立体匹配算法，主要包括四个步骤：特征提取、代价卷构建、代价聚合和视差预测；

在特征提取中，引入了沙漏位置注意力模块，该模块可以有效地聚合每个位置的全局上下文信息，有效的保证了无纹理和重复纹理区域的精确匹配；

在代价卷构建中，通过特征融合的方式将互相关卷与级联卷结合在一起，通过这种方式构造的代价卷不仅可以保留特征维度，还能有效的度量特征之间的相似度；

在代价聚合中，设计了一个多尺度的视差注意力模块，该模块可以聚合不同视差维度的特征信息，并通过回归的方式获得最终视差；

本方法相较于现有技术的立体匹配算法，有效的提高了准确性和立体匹配计算速度。

附图说明

图1为本发明的算法步骤流程图；

图2为本发明的算法过程示意图；

图3为本发明中特征提取的过程示意图；

图4为本发明中代价卷构造的过程示意图；

图5为本发明中代价聚合的过程示意图；

图6为本发明为本发明与其他方法的比较结果示意图。

具体实施方式

下面将结合本发明实施例中的附图；对本发明实施例中的技术方案进行清楚、完整地描述；显然；所描述的实施例仅仅是本发明一部分实施例；而不是全部的实施例，基于本发明中的实施例；本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例；都属于本发明保护的范围。

实施例：

请参阅图1-2，一种基于多重注意力网络的立体匹配算法，包括以下步骤：

S1、输入图像至特征提取网络；

S2、进行特征提取得到一致性特征；

S3、利用一致性特征构造代价卷；

请参阅图3，S2中，具体采用沙漏位置注意模块进行一致性特征提取，S2具体包括以下步骤：

为了防止由于下采样导致的信息丢失，S2还包括在进行上采样之前添加相同分辨率的特征图。

请参阅图4，S3中，代价卷的构造方式为：通过特征融合的方式将级联卷和互相关卷结合起来构建一个结合卷C_com(d)，形成代价卷；

互相关卷能有效的衡量特征之间的相似性，但是它容易丢失特征的维度信息。级联卷能较好保留特征的维度信息并具有几何解释性，但是它需要从头开始学习特征之间的相似性并过度参数化了，这需要消耗大量的内存，导致算法运行速度变慢，本实施例中的算法通过特征融合的方式将级联卷和互相关卷结合起来构建一个结合卷，它既能保留特征的维度信息又能有效的衡量特征之间的相似度。

请参阅图5，S4中，构建多尺度视差注意力模块来聚合特征信息，具体包括以下步骤：

分别在SceneFlow和KITTI2015两个数据集上评估本方法得到的模型。SceneFlow是一个大型综合数据集(含有groundtruth的35454张训练图像和4370张测试图像，尺寸为960×540)。KITTI2015是真实场景的数据集，KITTI2015仅包含少量数据(KITTI2015：200张训练图像对和200张测试图像对，其中稀疏的groundtruth用于训练图像)，因此首先在SceneFlow上训练模型，然后在KITTI2015上进行微调。对于KITTI2015训练集，将160张图像分为训练集，将40张图像分为验证集。

使用端点误差(EPE)用作“SceneFlow”测试集的评估指标，即像素的平均视差误差。对于KITTI2015验证集，计算其三像素误差。对于KITTI2015测试，使用D1-bg，D1-fg和D1-all分别评估背景，前景和所有像素的误差值的百分比。

采用不同的设置评估MA-Net的性能，包括不同的网络结构和不同的代价卷，如表1和表2所示。在表2中，模型全都使用结合卷，但是使用了不同的注意力模块，每个注意力模块的性能均优于基线设置，基线设置指仅具有用于特征提取和代价聚合的2D卷积层。最后的模型同时使用了两种注意力模块，在KITTI2015验证集上获得的3像素误差为3.44％。在表3中，模型使用了同样的注意力模块，但是使用了不同的代价卷构建方式，由实验结果可以看出结合卷比单个“相关”或“级联”卷效果更好。

表1.使用不同的设置评估MA-Nets

表2.使用不同的代价卷评估MA-Nets

在KITTI2015测试数据集上评估模型的性能，将测试集的结果提交给KITTI的在线排行榜，并获得评估结果。结果如表3所示，谓200张测试图片的平均结果。其中“bg”是指背景像素，“fg”是指前景像素，“all”是所有像素(bg+fg)。本方法主要基于GC-Net进行了改进。实验结果表明，本方法比GC-Net速度快，而准确性差不多。与其他方法相比，本方法在准确性和速度上更具优势。

图6为本方法与其他方法的定性比较，主要将其与端到端框架方法进行比较；图6中第一行为原始图像。对于每个输入图像，通过不同方法获得的视差图在其误差图上方一起显示，这些结果由KITTI2015评估网站报告。从图6中可以看出，本方法的模型在边缘区域和重复纹理区域的视差估计效果更好。

表3.KITTI2015测试集结果

以上所述；仅为本发明较佳的具体实施方式；但本发明的保护范围并不局限于此；任何熟悉本技术领域的技术人员在本发明揭露的技术范围内；根据本发明的技术方案及其改进构思加以等同替换或改变；都应涵盖在本发明的保护范围内。

Claims

1.一种基于多重注意力网络的立体匹配算法，其特征在于：包括以下步骤：

S1、输入图像至特征提取网络；

S2、进行特征提取得到一致性特征；

S3、利用一致性特征构造代价卷；

S4、将代价卷输入至代价聚合模块中进行代价聚合，通过回归方式获得预测的视差图；

所述S2中，具体采用沙漏位置注意模块进行一致性特征提取，所述S2具体包括以下步骤：

S22、使用位置注意机制捕获全局空间信息：一个局部特征A∈R^C×H×W输入到卷积层分别产生两个新的特征B∈R^C×H×W和C∈R^C×H×W，将{B,C}的维度变为R^C×N，N＝H×W代表所有像素个数，对C和B的转置进行矩阵乘法，并应用softmax层来计算空间注意力图S∈R^N×N，计算公式为再将A送入卷积层以产生新特征D∈R^C×H×W，并将其维度变为R^C×N，然后对S和D进行矩阵乘法并将结果维度变为R^C×H×W；/>α初始化为0，并逐渐通过学习分配更多权重；

S23、通过使用一系列的上采样重建输出：使用两层4×4，stride为2的转置卷积将特征图尺寸还原到原图像尺寸大小；

S24、重复S21-S23获得最终输出:使用与S31-S23同样的结构对S23输出的特征图再处理一遍，得到最终输出；

所述S3中，代价卷的构造方式为：通过特征融合的方式将级联卷和互相关卷结合起来构建一个结合卷C_com(d)，形成代价卷；

即结合卷C_com(d)＝α₁C_con(d)+α₂C_cor(d)，其中C_con(d)为级联卷，C_cor(d)为相关卷，α₁和α₂为平衡参数；

所述S4中，构建多尺度视差注意力模块来聚合特征信息，具体包括以下步骤：

S41、首先使用卷积对特征图进行下采样，然后对下采样后的特征图计算每个视差维度之间的关系：将下采样后的特征X的维度变为R^C×D×N，并将其转置X^T变为R^C×N×D，N＝H×W为像素个数，再对X和X^T进行矩阵乘法，并应用softmax层以获得视差注意图r∈R^C×D×D，其中σ(·)为softmax操作；

S42、我们将特征X输入到卷积层中以产生新特征Y，然后将Y的维度变为R^C×D×N，其中N＝H×W为像素个数；

2.根据权利要求1所述的一种基于多重注意力网络的立体匹配算法，其特征在于：所述S2还包括在进行上采样之前添加相同分辨率的特征图。