CN115170638B

CN115170638B - 一种双目视觉立体匹配网络系统及其构建方法

Info

Publication number: CN115170638B
Application number: CN202210827322.8A
Authority: CN
Inventors: 刘亚秋; 刘丽娜; 吕云蕾; 李东; 马丽华; 李想; 沈晓冉
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2023-04-18
Anticipated expiration: 2042-07-13
Also published as: CN115170638A

Abstract

一种双目视觉立体匹配网络系统及其构建方法，属于场景三维重建技术领域。为解决现有立体匹配方法缺少利用环境信息寻找不适定区域一致性的能力。本发明包括ResNet网络、注意力模块、匹配代价构建模块、3DCNN聚合模块、视差预测模块；ResNet网络用于对左右图像进行特征提取，分别得到初始特征图；注意力模块包括空间注意力模块、通道注意力模块。空间注意力模块对初始特征图上的位置特征加权求和，有选择地聚合每个位置的特征，学习上下文关系捕获长距离依赖，同时在时间和空间上将整体复杂度降低到O(n)。本发明整合全局环境信息和局部信息，获得林业场景像素级特征的丰富表示。

Description

一种双目视觉立体匹配网络系统及其构建方法

技术领域

本发明属于场景三维重建技术领域，具体涉及一种双目视觉立体匹配网络系统及其构建方法。

背景技术

三维场景重建是计算机视觉领域中的一个重要研究方向，广泛应用于物体的检测与识别、自动驾驶、机器人导航等热门领域。林业场景三维重建可通过利用双目相机及无人机低空摄影从不同视角、不同尺度获得更为清晰、全面的林业场景三维结构，有效地解决视野局限、树木重叠遮挡、人工不可达、条件恶劣、环境险要等勘测困难的问题，复现真实的林业场景为林业资源远程精细勘测提供有力的依据，为后续的林分蓄积量、林分密度等林分调查分析工作提供重要的参考数据。可视化的林业三维环境在森林搜救，野生动物追踪及保护等方面亦可发挥重要的作用。

场景深度估计是林业三维重建最关键的步骤，直接决定三维重建的效果。目前，获取场景深度信息主要包括激光雷达扫描，螺旋计算机断层扫描(Computed Tomography，CT)，RGB-D深度传感器和计算机视觉等方法。双目立体匹配模仿人类双眼感知世界，通过寻找左右图像平面之间的对应点，利用对应点的几何关系获得视差值d，对于左图中的像素点(x，y)，它在右图中对应点的坐标为(x-d，y)，经F*L/d可将视差值转换为场景的深度信息，其中F表示相机镜头的焦距，L是两个相机中心之间的距离。双目立体匹配方法匹配精度高、速度快，双目相机具有携带方便、操作灵活、成本低的优势，其非接触性、无辐射的特点，能在不对环境造成任何破坏的前提下，实现林业三维环境感知，最大限度地保护森林生态环境。英国爱丁堡大学James Garforth指出使用视觉传感器对森林场景进行三维重建，在此基础上进行森林资源信息采集和智能林业机器人导航、定位和作业目标识别是最具前景的方法。

发明内容

本发明要解决的技术问题是现有立体匹配方法缺少利用环境信息寻找不适定区域一致性的能力，导致在弱纹理、遮挡等特征不明显区域匹配效果差的问题，本发明提出一种双目视觉立体匹配网络系统及其构建方法。

为实现上述目的，本发明通过以下技术方案实现：

一种双目视觉立体匹配网络构建方法，包括如下步骤：

S1、将左、右2D图像输入到两个权重共享的RestNet网络进行特征的提取，分别得到初始特征图；

S2、注意力模块分别在空间维度和通道维度上自适应的聚合长距离上下文信息，捕捉全局上下文之间的长距离依赖，对特征进行增强表达；

步骤S2的具体实现方法包括如下步骤：

S2.1、注意力模块中的空间注意力模块提出一种线性注意力Linear-Attention对初始特征图上的位置特征加权求和，有选择地聚合每个位置的特征，学习上下文关系捕获长距离依赖，同时在时间和空间上将Self-Attention的整体复杂度从O(n2)降低到O(n)，得到空间注意力特征图；

步骤S2.1的具体实现方法包括如下步骤：

S2.1.1、将初始特征图作为空间注意力模块的输入特征，表示为：

X为空间注意力模块的输入特征，

为空间注意力模块的输入特征集合，H和W分别是特征图的高和宽，C为通道的数量；

S2.1.2、将输入特征X分别输入到三个1×1的2D卷积层得到：Q，K，

Q＝XW^Q，K＝XW^K，V＝XW^V

Q，K，V分别为输入特征嵌入的查询矩阵、键矩阵、值矩阵，W^Q为查询学习矩阵，W^K为键学习矩阵，W^V为值学习矩阵；

S2.1.3、利用数据重塑函数reshape将Q，K，V数据重塑为Q，K，

n＝1/4H×1/4W为像素的数量，d＝C为通道的数量；

S2.1.4、设置两个k×n维的线性投影矩阵E和F，E，

E和F共享参数，执行矩阵乘法QW^Q(EKW^K)^T，再使用softmax层计算空间注意力特征图，得到空间注意力特征图

计算公式如下：

其中，

表示第i个位置对第j个位置的影响；

S2.1.5、将空间注意力特征图

和FVW^V做矩阵乘法并将相乘的结果数据重塑为

然后乘以尺度系数α，再与空间注意力模块的输入特征X按位相加，得到最终空间注意力特征图

计算公式如下：

S2.2、注意力模块中的通道注意力模块使用Self-Attention对初始特征图之间的长程语义依赖关系建模，学习不同通道特征之间的关联性，得到通道注意力特征图；

S3、匹配代价构建模块将空间注意力特征图、通道注意力特征图构建为四维匹配代价卷；

S4、3D CNN聚合模块对匹配代价卷进行正则化调整在视差维度和空间维度上聚合语义和结构特征信息，来预测精准匹配代价卷；

S5、视差预测模块对3D CNN输出的精准匹配代价卷利用Softmax函数将其转换为概率体，然后利用Soft Argmin函数将概率体转化为视差图。

进一步的，步骤S1中ResNet特征提取，第一级卷积层conv0_1，conv0_2，conv0_3采用3个3*3卷积核级联获取图像浅层特征，输出特征图尺寸为原图1/2；第二级卷积层conv1_x，conv2_x，conv3_x，conv4_x提取深层语义特征，在conv0_1和conv2_1层中采用了步长为2的下采样，在conv3_x，conv4_x层使用空洞卷积扩大感受野，最终得到初始特征图的输出尺寸为1/4H×1/4W×128，H为图像的高，W为图像的宽。

进一步的，步骤S2.2的具体实现方法包括如下步骤：

S2.2.1、将初始特征图作为通道注意力模块的输入特征，表示为：

X为通道注意力模块的输入特征，

为通道注意力模块的输入特征集合，C为通道的数量；

S2.2.2、设置X＝Q'＝K'＝V'，重塑Q'，K'，

Q'为数据重塑后的查询矩阵，K'为数据重塑后的键矩阵，V'为数据重塑后的值矩阵，其中，n＝1/4H×1/4W，d＝C；

S2.2.3、将Q'^T和K'做矩阵乘法，使用softmax层获得通道相关矩阵

计算公式如下：

P′_ji表示第i个通道对第j个通道的影响；

S2.2.4、将V'与P'作矩阵乘法得到

的特征图，将其数据重塑成

然后乘以尺度系数β，再与原特征图X按位相加，最后得到通道注意力特征图

计算公式如下：

进一步的，步骤S3级联conv2_16特征图，conv4_3特征图，空间注意力特征图，通道注意力特征图的低级结构信息、高级语义信息、全局信息和局部信息构建1/4H×1/4w×320尺寸的特征图，经过2D的两个权值共享的卷积层融合特征图将通道压缩到32，将2D的左特征图和每个视差对应下的右特征图连接起来形成1/4D×1/4H×1/4W×64的四维匹配代价卷。

进一步的，步骤S4的具体实现方法包括如下步骤：

S4.1、基本结构模块测试各个模块的性能；

S4.2、堆叠沙漏结构模块由预处理模块和3个堆叠的3D沙漏网络两部分组成；

S4.3、预处理模块由4个3D卷积层组成，包含BN和ReLU；

S4.4、每个3D沙漏网络包括3Dstack x_1、3Dstack x_2、3Dstack x_3、3Dstackx_4，删除不同3D沙漏网络之间的快捷连接，在每个沙漏模块内部使用1×1×1的3D卷积快捷方式直连：

3Dstackx_1为步长为2、尺寸为3×3×3的3D卷积层，步长为1、尺寸为3×3×3的3D卷积层；

3Dstackx_2为3Dstack x_1的再一次下采样，3Dstack x_2为步长为2、尺寸为3×3×3的3D卷积层，步长为1、尺寸为3×3×3的3D卷积层，3Dstack x_2相比于3Dstack x_1尺寸减半、通道翻倍；

3Dstack x_3包括：deconv1为步长为2、尺寸为3×3×3的3D反卷积，shortcut1为步长为1、尺寸为1×1×1的3D卷积；

3Dstackx_4包括：deconv2为步长为2、尺寸为3×3×3的3D反卷积，shortcut2为步长为1、尺寸为1×1×1的3D卷积；

S4.5、3D卷积编码部分共两次下采样，在3D反卷积解码部分相应执行两次上采样，用卷积核为3×3×3的3D反卷积来恢复尺寸，同时通道数减半；

S4.6、三个3D沙漏网络对应得到三个输出和三个损失，在训练阶段，总的损失由三个损失的加权和得到，在测试阶段，每个沙漏的输出生成一个视差预测图像，最后一个输出生成最终的视差预测图像。

进一步的，步骤S5的具体实现方法包括如下步骤：

S5.1、将四维匹配代价卷中的值沿着视差维度使用Softmax函数转化为概率值p；

S5.2、将每个像素的视差值k与p_k乘积再累加求和，最后利用可微的SoftArgmin函数以回归的方式获得视差估计

其中，D_max表示最大视差；

S5.3、使用L_total计算总的损失，公式如下：

其中：

其中L_total表示总的损失，L1表示L1损失函数，λ_i表示第i个视差预测的系数，d_i表示第i个视差图真值，

表示第i个预测的视差图，Smooth是平滑函数，

为对L1损失函数平滑处理，x为要进行平滑处理的数据，具体指预测视差图与真实视差图之间的差值。

进一步的，Forestry林业场景数据集采集于东北林业大学的林场，采集设备为ZED2双目深度相机，像素分辨率为1280*720，可同时获取双目图像对和其对应的视差图，80％作为训练数据，10％作为验证集，10％作为测试集。

一种双目视觉立体匹配网络系统，包括ResNet网络、注意力模块、匹配代价构建模块、3D CNN聚合模块、视差预测模块；

所述ResNet网络用于对左右图像进行特征提取，分别得到初始特征图；

所述注意力模块包括空间注意力模块、通道注意力模块，

所述空间注意力模块提出一种线性注意力Linear-Attention对初始特征图上的位置特征加权求和，有选择地聚合每个位置的特征，学习上下文关系捕获长距离依赖，同时在时间和空间上将Self-Attention的整体复杂度从O(n2)降低到O(n)；

所述通道注意力模块使用Self-Attention对初始特征图之间的长程语义依赖关系建模，学习不同通道特征之间的关联性，有选择地强调相互依赖的通道图，提高特征的辨别性；

所述匹配代价构建模块用于将所述空间注意力模块，所述通道注意力模块的低级结构信息、高级语义信息、全局信息和局部信息构建匹配代价特征图；

所述3D CNN聚合模块包括基本结构模块、堆叠沙漏结构模块，所述基本结构模块用于测试各个模块的性能，所述堆叠沙漏结构模块用于细化低纹理模糊度和遮挡部分，用于优化双目视觉立体匹配网络系统计算最终的视差图；

所述视差预测模块应用三线性插值恢复与输入图像大小相同的尺寸，沿视差维度使用softmax函数将匹配代价卷中的各个值转换为概率体积。

本发明的有益效果：

本发明所述的一种双目视觉立体匹配网络构建方法：

(1)面向林业远程精细勘测提出一个林业创新应用：构建一个端到端的立体匹配网络LANet用于获取林业场景视差图。设计了一种AM注意力模块，从空间维度和通道维度自适应地聚合长距离上下文信息，整合全局环境信息和局部信息，获得林业场景像素级特征的丰富表示。

(2)空间注意力模块提出一种Linear-Attention机制，对所有位置上的特征加权求和有选择地聚合每个位置的特征，学习丰富的上下文关系捕获长距离依赖，同时能在时间和空间上将Self-Attention的整体复杂度从O(n2)降低到O(n)，在不降低性能与标准的情况下，同时具有更高的内存和时间效率。

(3)通道注意力模块不涉及O(n2)的复杂度，使用Self-Attention对特征图之间的长程语义依赖关系建模，学习不同通道特征之间的关联性，有选择地强调相互依赖的通道图，提高特征的辨别性。

(4)优化堆叠的3D沙漏，通过将多个堆叠的沙漏网络与中间监督结合起来，去调整匹配代价卷，在每个沙漏模块内的快捷连接中采用1×1×1的3D卷积，删除了沙漏不同输出模块之间的快捷连接，降低了计算成本，提高了推理速度。

(5)所提网络在Scene Flow和Forestry两个数据集上进行了实验测试，通过与Edgestereo,GC-Net,PSMNet等主流模型进行对比，LANet的精度均高于对比模型，实现了较好的匹配性能，能够生成可靠的林业场景稠密视差图。

附图说明

图1为本发明所述一种双目视觉立体匹配网络系统的结构示意图；

图2为本发明所述一种双目视觉立体匹配网络构建方法的线性映射层的示意图；

图3为本发明所述一种双目视觉立体匹配网络构建方法的视差对比图；

(a)列为Scene Flow左图、(b)列为左图对应的视差真值、(c)列为LANet估计的视差图、(d)列为PSMNet估计的视差图；

图4为本发明所述一种双目视觉立体匹配网络构建方法的Forestry林业场景模型可视化对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明，即所描述的具体实施方式仅仅是本发明一部分实施方式，而不是全部的具体实施方式。通常在此处附图中描述和展示的本发明具体实施方式的组件可以以各种不同的配置来布置和设计，本发明还可以具有其他实施方式。

因此，以下对在附图中提供的本发明的具体实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定具体实施方式。基于本发明的具体实施方式，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

为能进一步了解本发明的发明内容、特点及功效，兹例举以下具体实施方式，并配合附图1-4详细说明如下：

具体实施方式一：

一种双目视觉立体匹配网络构建方法，包括如下步骤：

进一步的，步骤S1中ResNet特征提取，第一级卷积层conv0_1，conv0_2，conv0_3采用3个3*3卷积核级联获取图像浅层特征，输出特征图尺寸为原图1/2；第二级卷积层conv1_x，conv2_x，conv3_x，conv4_x提取深层语义特征，在conv0_1和conv2_1层中采用了步长为2的下采样，在conv3_x，conv4_x层使用空洞卷积扩大感受野，最终得到初始特征图的输出尺寸为1/4H×1/4W×128，H为图像的高，W为图像的宽；

进一步的，步骤S2的具体实现方法包括如下步骤：

进一步的，本发明提出的一种线性注意力Linear-Attention能够将Self-Attention在时间和空间上整体的复杂度从O(n²)降低到O(n)，在不降低性能与标准的情况下，同时具有更高的内存和时间效率；

进一步的，Self-Attention中的上下文映射矩阵P是低秩的，P的大部分信息都集中在少量的最大奇异值上，可以用一个低秩矩阵

来近似P，由此我们可以通过改变Self-Attention的结构来降低其复杂度。具体为在计算键Key和Value时分别添加两个k×n维的线性投影矩阵E和F，将原始的Key和Value层由n×d维降到k×d维，如图2所示，再通过尺度点乘的方法计算得到(n×k)维的上下文映射矩阵；当选择一个很小的映射维度k，令k＜＜n，则

的整体复杂度就会降为线性O(n)。可以证明，当k＝O(nd/ε²)时，可以使用linear-attention近似等价于Self-Attention，误差不超过ε。

进一步的，步骤S2.1的具体实现方法包括如下步骤：

X为空间注意力模块的输入特征，

Q＝XW^Q，K＝XW^K，V＝XW^V

S2.1.3、利用数据重塑函数reshape将Q，K，V数据重塑为Q，K，

n＝1/4H×1/4W为像素的数量，d＝C为通道的数量；

S2.1.4、设置两个k×n维的线性投影矩阵E和F，E，

计算公式如下：

其中，

表示第i个位置对第j个位置的影响；

S2.1.5、将空间注意力特征图

和FVW^V做矩阵乘法并将相乘的结果数据重塑为

计算公式如下：

进一步的，α表示尺度系数，从0逐渐地学习得到更大的权重。公式中显示每个位置的特征Y_j是所有位置上的特征与原始位置特征X_j的加权和。因此，它具有全局上下文信息，并根据空间注意力图选择性地聚合上下文信息，相关性大的语义特征相互促进，在全局空间中融合相似特征，提高了特征内部的紧凑性和语义的一致性，对于不适定区域的特征表达和增强表达和精确匹配起到了非常重要的作用；

每个通道对应一个特定类别语义的特征图，对各个特征通道的重要程度进行建模，捕获通道特征之间的长距离语义依赖关系，提高通道特征的辨识度。与空间注意力机制不同，通道注意力模块不涉及O(n²)的复杂度，采用Self-Attention，得到通道注意力结构；

进一步的，步骤S2.2的具体实现方法包括如下步骤：

X为通道注意力模块的输入特征，

为通道注意力模块的输入特征集合，C为通道的数量；

S2.2.2、设置X＝Q'＝K'＝V'，重塑Q'，K'，

S2.2.3、将Q'^T和K'做矩阵乘法，使用softmax层获得通道相关矩阵

计算公式如下：

P_j'_i表示第i个通道对第j个通道的影响；

S2.2.4、将V'与P'作矩阵乘法得到

的特征图，将其数据重塑成

计算公式如下：

β表示尺度系数，初始化为0，并逐渐地学习分配到更大的权重，每个通道的最终特征Z是所有通道的特征与原始特征的加权和，这保证了通道注意力机制能够捕捉通道特征之间的长距离语义依赖，获得更多的上下文语义信息，有助于提高特征的辨识度。通道注意力的获取过程与空间注意力相似，不同的是在计算通道维度上的相关矩阵之前没有对X进行处理，目的是保持不同通道映射之间的原始关系。将任意两个通道特征直接进行维度变换后乘积，获得任意两个通道的关联强度，经过softmax操作得到通道Attention矩阵。

进一步的，步骤S3级联conv2_16特征图，conv4_3特征图，空间注意力特征图，通道注意力特征图的低级结构信息、高级语义信息、全局信息和局部信息构建1/4H×1/4w×320尺寸的特征图，经过2D的两个权值共享的卷积层融合特征图将通道压缩到32，将2D的左特征图和每个视差对应下的右特征图连接起来形成1/4D×1/4H×1/4W×64的四维匹配代价卷；

步骤S4的具体实现方法包括如下步骤：

S4.1、基本结构模块测试各个模块的性能；

S4.3、预处理模块由4个3D卷积层组成，包含BN和ReLU；

S4.6、三个3D沙漏网络对应得到三个输出和三个损失，在训练阶段，总的损失由三个损失的加权和得到，在测试阶段，每个沙漏的输出生成一个视差预测图像，最后一个输出生成最终的视差预测图像；

进一步的，3D CNN聚合模块用于在视差维度和空间维度上聚合特征信息来预测更加精准的代价体。使用两种用于成本体积正则化的3D CNN结构：基本结构和堆叠沙漏结构，基本结构同PSMNet一致，堆叠沙漏结构本文做了优化。PSMNet使用3D堆叠沙漏结构来聚合多尺度环境信息，获得了较高的匹配精度，然而这种3D堆叠沙漏结构存在很多冗余信息导致模型的参数量大、运行缓存占用量大、网络的学习效率低下，所以本实施方式的修改为：

1、删除了不同3D沙漏网络之间的快捷连接：即output1与output2之间、output2与output3之间的快捷连接，因此在推理过程中可以移除辅助输出模块output1和output2来节省计算成本；

2、在每个沙漏模块内部使用1×1×1的3D卷积快捷方式直连，相比3×3×3的3D卷积，减少了网络的计算参数，其乘法的计算次数降低到原来的1/27，此时运行速度非常快，时间可以忽略不计，因此能够在不增加计算成本的情况下提高网络的运行速度；

3、优化的3D聚合模块由预处理网络和3D堆叠沙漏网络两部分组成，预处理网络用于提取低级特征，并为视差预测提供几何约束。3D堆叠沙漏网络能学习更多的上下文环境语义和结构信息，能细化低纹理模糊度和遮挡部分，用于计算最终的视差图。3D堆叠沙漏网络利用“编码器-解码器”结构解决3D CNN造成的运算量过大的问题，编码器使用步长为2的3D卷积进行下采样，解码器对应地使用步长为2的反卷积恢复尺寸。为减少“编码器-解码器”结构造成的空间信息损失，将编码器和解码器对应的相同尺寸的特征连接起来，能够在反卷积恢复特征图分辨率的过程中补充丢失的细节信息和来自低层级特征图的信息。

S5、视差预测模块对3D CNN输出的精准匹配代价卷利用Softmax函数将其转换为概率体，然后利用SoftArgmin函数将概率体转化为视差图；

步骤S5的具体实现方法包括如下步骤：

其中，D_max表示最大视差；

S5.3、使用L_total计算总的损失，公式如下：

其中：

表示第i个预测的视差图，Smooth是平滑函数，

进一步的，三个沙漏对应有三个输出和三个损失，在训练阶段，总的损失由三个损失的加权和得到。在测试阶段，每个沙漏的输出都会生成一个视差图，最终的视差图是由最后一个输出得到。首先，将代价卷中的各个值沿着视差维度使用Softmax函数转化为概率值p；然后将每个像素的视差值k与相应的概率p_k乘积再累加求和，最后利用可微的SoftArgmin函数以回归的方式获得视差估计

Forestry数据集中含有落叶松、樟子松、黑皮油松、水曲柳、白桦树五种林场植被共计400对的双目图像对及其对应的稠密视差图，将它们剪成1240*426的分辨率，80％作为训练数据，10％作为验证集，10％作为测试集，详细情况如表1所示：

表1 Forestry数据集

Scene Flow数据集是一个应用于双目立体匹配的合成的非真实场景大规模公开数据集，通过计算机图形学技术渲染制作而成，提供全部图像对的dense真值视差图。其包含三个子数据集：Flyingthings 3D，Monkaa和Driving，共计39049对，其中34801个训练图像对和4248个测试图像对，本发明使用训练图像对的90％作为训练集，10％作为验证集。

为了检验模型的性能,LANet在Sceneflow的测试集上与近年一些优秀的端到端的模型Edgestereo,GC-Net,PSMNet等进行比较，实验使用3像素误差>3px，端点误差EPE，以及参数量三项性能评价指标，如表2所示。EPE是端点误差End-point-error：表示像素的预测视差与真值视差之间的平均欧式距离：

式中，N表示像素点的总数，_di表示第i个像素的真实视差，

表示第i个像素的预测视差值。

>3px为3像素误差：表示预测视差值与真实视差值之间差值的绝对值超过3个像素点的数量占整幅图像像素数量的百分比，比例越高说明误匹配点越多，匹配准确率越低。

表2Scene Flow上的对比实验

从表2能够看出，各模型的>3-px与其EPE基本成正比，但与参数量无直接关系，GCNet参数量较小为3.5M，但其误差率较高；CRL中因有大量的卷积层参数量多达78.77M，导致模型臃肿又低效；PSMNet综合各项指标表现出较好的性能，LANet表现更优。

图3展示了Scene Flow上所提LANet和PSMNet估计的几组视差图，其中第一列a)为Scene Flow左图、第二列b)为左图对应的视差真值、第三列c)为LANet估计的视差图、第四列d)为PSMNet估计的视差图。

图3中红色矩形框均为细小结构区域，可以观察到，在第一组“车轮”复杂精密区域和第四组“工具”重复纹理区域视差图的效果对比较明显，LANet在这些区域表现相对较好，不但能够较好地保留“车轮”的复杂精密特征，在“工具”重复纹理区域和“物架”被遮挡区域中依然能够获得较为可靠的视差图，对于大目标规则的物体则实现了更高精准的匹配。

Forestry上模型性能的对比本组实验使用D1-all、EPE和时间三个性能评价指标考察各个方法在Forestry数据集上的性能，结果如表3所示。D1-all是所有测试图像中预测视差误差超过3个像素或超过真实视差5％的像素百分比。

表3 Forestry上的对比实验

从表3中能够看出，LANet经过在Forestry上微调后表现出比SceneFlow数据集上更好的性能，EPE从0.82降低至0.68，准确率进一步提升，使得其在精度上均优于对比模型。LANet是在3090GPU，Forestry稠密测试集上进行的测试，图像分辨率为1240*375，运行时间与实验设备的性能及图像的尺寸和稠密度紧密相关，在本文试验条件下PSMNet的D1-all、EPE和运行时间分别为2.61、1.25和0.48，LANet分别为2.15、0.68和0.35，三项指标均优于基线模型PSMNet。在运行时间方面，iResNet为0.2s，DispNet为0.14s优于我们的0.35s，但是他们的准确度度却很低,D1-all分别为3.58和3.08，而我们的是2.15。LANet虽然其速度不是最快，但结合以上指标，LANet综合性能极具竞争力。

图4展示了Forestry上生成的视差图可视化效果，彩色代表不同的视差值，黑色表示距离较远视差值非常小可以忽略的点。第一行为RGB双目的左图像，第二行为真实视差图，第三行为本文模型LANet生成的视差图，第四行为PSMNet生成的视差图，第五行为GCNet生成的视差图。

通过和PSMNet、GCNet对比，本发明模型LANet表现相对较好，不但保留了对象的显著信息(树枝、树叶边缘、树干的边缘区域)，而且在大的弱纹理区域(如玻璃、天空、道路)和被遮挡区域中依然能够提取有效特征进行较为精准的匹配，而对比模型在这些不适定的区域由于缺少全局和局部信息的交互，鉴别有效特征的能力不足，会产生一些误匹配，影响模型的匹配精度。另外，对比模型虽然在目标测试集上取得了较高的性能指标，但它们一般微调时使用的数据集样本较少(例如KITTI只用200对)，许多算法存在严重的过拟合现象，泛化性能较差，导致在Forestry数据集上表现不理想。

实验结果进一步表明，本发明所提注意力机制通过捕获全局长距离依赖，聚集丰富的全局和局部信息，可有效鉴别不同对象的显著特征和细小结构特征，提取更全面有效的特征，降低匹配误差，提高视差预测精度，在一些精细复杂区域、重叠遮挡区域和以及其他不适定区域仍然能够获得较鲁棒的结果，生成稠密可靠的林业场景视差图。

本发明充分利用林业场景环境全局和局部信息寻找不适定区域一致性关联关系，提出一种端到端的立体匹配网络LANet的构造方法，使用注意力机制较好地弥补了卷积操作感受野不足和PSMNet缺少上下文信息长距离依赖的缺点。所提线性注意力Linear-Attention能够显著增强上下文语义的特征表达的同时能将Self-Attention计算的复杂度从O(n²)降低到O(n)，这将有助于网络在精度和速度上的提升。优化后的3D堆叠沙漏聚合网络降低了推理时间的同时进一步提升了网络的速度。LANet在SceneFlow和Forestry两个数据集上获得了比一些主流方法更好的精度，在一些精细复杂区域、重叠遮挡区域和以及其他不适定区域能够获得较鲁棒的结果，生成稠密可靠的林业场景视差图，为林业场景三维重建提供关键数据。然而LANet在其他数据集上的泛化性能有待进一步测试。另外，为使模型具有更强的学习能力和更好的鲁棒性，使其能够更好地适应室外复杂的林业作业场景。

具体实施方式二：

所述注意力模块包括空间注意力模块、通道注意力模块，

进一步的，设计了一种包含空间注意力模块(SAM)和通道注意力模块(CAM)的AM注意力模块，从空间维度和通道维度对林业场景语义相关性进行建模。SAM中所提出的Linear-Attention机制将Self-Attention整体的复杂度从O(n2)降低到O(n)，并且通过对所有位置加权求和有选择地聚合每个位置的特征，从而学习丰富的上下文关系去捕获长距离依赖。CAM中使用的Self-Attention机制通过学习不同通道之间的关联特征，有选择地强调相互依赖的通道图。优化了一种3D CNN模块，通过将多个堆叠的沙漏网络与中间监督结合起来去调整匹配代价卷，降低了推理计算成本的同时进一步提高了模型的速度。AM注意力模块自适应地聚合长距离上下文信息，对特征进行增强表达。它由两部分组成：SAM和CAM。SAM包含三个并行的1×1的2D卷积用于计算Q,K,V，两个线性投影层E和F用于对K和V进行降维，基于线性注意力机制计算后特征的尺度和通道不变，通过一个1×1的2D卷积将其通道数减半。CAM在原特征图上计算，基于自注意力机制计算后特征的尺度和通道不变，其计算的结果也通过一个1×1的2D卷积将通道数减半。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然在上文中已经参考具体实施方式对本申请进行了描述，然而在不脱离本申请的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本申请所披露的具体实施方式中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本申请并不局限于文中公开的特定具体实施方式，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种双目视觉立体匹配网络构建方法，其特征在于：包括如下步骤：

S1、将左、右2D图像输入到两个权重共享的ResNet网络进行特征的提取，分别得到初始特征图；

步骤S2的具体实现方法包括如下步骤：

步骤S2.1的具体实现方法包括如下步骤：

X为空间注意力模块的输入特征，

Q＝XW^Q，K＝XW^K，V＝XW^V

S2.1.3、利用数据重塑函数reshape将输入特征嵌入的查询矩阵、键矩阵、值矩阵数据重塑为Q，K，

n＝1/4H×1/4W为像素的数量，d＝C为通道的数量；

S2.1.4、设置两个k×n维的线性投影矩阵E和F，E，

计算公式如下：

其中，

表示第i个位置对第j个位置的影响；

S2.1.5、将空间注意力特征图

和FVW^V做矩阵乘法并将相乘的结果数据重塑为

计算公式如下：

S5、视差预测模块对3D CNN输出的精准匹配代价卷利用Softmax函数将其转换为概率体，然后利用SoftArgmin函数将概率体转化为视差图。

2.根据权利要求1所述的一种双目视觉立体匹配网络构建方法，其特征在于：步骤S1中ResNet特征提取，第一级卷积层conv0_1，conv0_2，conv0_3采用3个3*3卷积核级联获取图像浅层特征，输出特征图尺寸为原图1/2；第二级卷积层conv1_x，conv2_x，conv3_x，conv4_x提取深层语义特征，在conv0_1和conv2_1层中采用了步长为2的下采样，在conv3_x，conv4_x层使用空洞卷积扩大感受野，最终得到初始特征图的输出尺寸为1/4H×1/4W×128，H为图像的高，W为图像的宽。

3.根据权利要求2所述的一种双目视觉立体匹配网络构建方法，其特征在于：步骤S2.2的具体实现方法包括如下步骤：

X为通道注意力模块的输入特征，

为通道注意力模块的输入特征集合，C为通道的数量；

S2.2.2、设置通道注意力模块的输入特征的查询矩阵、键矩阵、值矩阵，数据重塑为Q'，K'，

S2.2.3、将Q'^T和K'做矩阵乘法，使用softmax层获得通道相关矩阵

计算公式如下：

P_j'_i表示第i个通道对第j个通道的影响；

S2.2.4、将V'与P'作矩阵乘法得到

的特征图，将其数据重塑成

计算公式如下：

4.根据权利要求3所述的一种双目视觉立体匹配网络构建方法，其特征在于：步骤S3级联conv2_16特征图，conv4_3特征图，空间注意力特征图，通道注意力特征图的低级结构信息、高级语义信息、全局信息和局部信息构建1/4H×1/4w×320尺寸的特征图，经过2D的两个权值共享的卷积层融合特征图将通道压缩到32，将2D的左特征图和每个视差对应下的右特征图连接起来形成1/4D×1/4H×1/4W×64的四维匹配代价卷。

5.根据权利要求4所述的一种双目视觉立体匹配网络构建方法，其特征在于：步骤S4的具体实现方法包括如下步骤：

S4.1、基本结构模块测试各个模块的性能；

S4.3、预处理模块由4个3D卷积层组成，包含BN和ReLU；

S4.4、每个3D沙漏网络包括3Dstack x_1、3Dstack x_2、3Dstack x_3、3Dstack x_4，删除不同3D沙漏网络之间的快捷连接，在每个沙漏模块内部使用1×1×1的3D卷积快捷方式直连：

3Dstack x_1为步长为2、尺寸为3×3×3的3D卷积层，步长为1、尺寸为3×3×3的3D卷积层；

3Dstack x_2为3Dstack x_1的再一次下采样，3Dstack x_2为步长为2、尺寸为3×3×3的3D卷积层，步长为1、尺寸为3×3×3的3D卷积层，3Dstackx_2相比于3Dstack x_1尺寸减半、通道翻倍；

3Dstack x_4包括：deconv2为步长为2、尺寸为3×3×3的3D反卷积，shortcut2为步长为1、尺寸为1×1×1的3D卷积；

6.根据权利要求5所述的一种双目视觉立体匹配网络构建方法，其特征在于：步骤S5的具体实现方法包括如下步骤：