CN115641285A

CN115641285A - 一种基于密集多尺度信息融合的双目视觉立体匹配方法

Info

Publication number: CN115641285A
Application number: CN202210706454.5A
Authority: CN
Inventors: 邹汝平; 任海鹏; 周健; 周梦涛; 焦迎杰; 聂聪; 王少奇; 程鹏飞; 任子薇; 朱鹏飞
Original assignee: Xian Institute of Modern Control Technology
Current assignee: Xian Institute of Modern Control Technology
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2023-01-24

Abstract

本发明属于立体视觉技术领域，具体涉及一种基于密集多尺度信息融合的双目视觉立体匹配方法，包括：初步特征提取：采用CNN网络、密集连接网络和坐标注意力机制进行初步特征提取；构建初始联合代价体：跨尺度分组相关代价体和压缩级联代价体级联构建初始联合代价体；代价聚合优化：采用3D堆叠沙漏网络提取更深层的信息，优化初始联合代价体；视差回归：通过视差回归获得4个预测视差图及其置信度；尺度感知融合：利用各尺度视差图的互补优势，融合不同尺度的视差图得到最终的视差图。与现有技术相比较，本发明在合成数据集SceneFlow与真实数据集KITTI 2015上进行了对比实验。实验结果表明，本发明立体匹配方法的匹配性能优于现有方法。

Description

一种基于密集多尺度信息融合的双目视觉立体匹配方法

技术领域

本发明属于立体视觉技术领域，具体涉及一种基于密集多尺度信息融合的双目视觉立体匹配方法。

背景技术

立体匹配与识别的视觉感知技术包含复杂场景的立体视觉、精准的目标识别等技术。机器人场景下的双目立体视觉是实现机器人全自动作业的关键，其中立体匹配是关键技术。

立体匹配算法分为传统立体匹配算法和基于深度学习的立体匹配算法。传统立体匹配算法包括局部立体匹配算法，全局立体匹配算法和半全局立体匹配方法。常用的局部立体匹配算法有包含灰度差绝对值(Absolute Differences，AD)^[1]、归一化相关(Normalized Cross Correlation，NCC)^[2]、Rank^[3]变换和Census变换^[4]等。由于这些方法采取基于局部块的匹配，因此匹配精度较低。全局立体匹配是一种整体优化算法，它根据约束条件构建相关能量函数，通过求该函数最优解找到全局最优视差。全局立体匹配方法包括图割^[5]，信念传播^[6]和动态规划^[7]等，这类算法能够取得较好的匹配结果，但构建能量函数并求解的过程复杂度高，在实际应用中尤其是实时性要求较高的移动机器人本身的算力难以胜任。而半全局方法^[8-9]均衡了精度和速度，实际工程中应用较多。但传统半全局匹配方法在弱纹理区域、光照变化区域、反射区域等容易产生误匹配。随着处理器计算能力的提升，深度学习应用于目标跟踪、语义识别等任务的表现越发出色，越来越多的研究人员开始研究将深度学习方法应用于立体匹配，以解决立体匹配中的难点问题。基于深度学习的立体匹配算法根据算法结构分为非端到端方法与端到端方法。例如，非端到端方法MC-CNN^[10]与基于 MC-CNN改进的Content-CNN^[11]，这些非端到端算法侧重于利用卷积神经网络进行特征匹配和精确的代价计算，通常还需要人工设计后续的代价正则化和视差优化方法，而使用多个人工后处理模块进行优化视差会使网络的泛化能力变差，容易在不同的模块过渡时引入误差。端到端的立体匹配方法的目标是学习一种可以直接从输入图像中逐像素计算视差的预测器，此类方法被称为基于回归的视差估计。2018 年ChangJia-Ren等人^[12]提出PSMNet，它的空间金字塔池化模块通过聚集不同规模和位置的上下文信息来形成代价体，从而利用全局上下文信息(语义、空间、尺度信息)提升了在不适定区域(包括弱纹理区域、边界等)的匹配精度；所设计了3个堆叠沙漏块对初始代价体进一步优化，提升最终的匹配精度。2020年刘建国等人^[13]提出了一种具备浅层结构与宽阔视野的立体匹配算法SWNet，该算法在特征提取部分引入了多尺度空间金字塔结构(Atrous Spatial Pyramid Pool,ASPP)，用于提取多尺度的空间特征信息，设计了特征融合模块，将不同尺度的特征信息有效地融合起来以构建匹配代价体；3D卷积神经网络利用堆叠的编码解码结构进一步对匹配代价体进行规则化处理，获得不同视差条件下特征点之间的对应关系，与PSMNet相比， SW-Net的参数数量下降了48.9％，且3像素误差下降幅度为3.44％。端到端方法相对传统方法和非端到端方法极大地提升了立体匹配的匹配精度，但是由于这些网络结构并未充分考虑利用多尺度信息，因此在物体边缘与反射区域的匹配精度仍旧较低。

以下是申请人给出的参考文献：

[1]Zhang Shengming,Wu Mingxiong,Wu Yanxue,et al.Fixed windowaggregation AD-census algorithm for phase-based stereo matching[J].AppliedOptics.2019,58(32):8950-8958.

[2]Fu Yuli,Chen Weixiang,Lai Kaimin,et al.Rank-Based encodingfeatures for stereo matching[J].IEEE Multimedia,2019,26(4):28-42.

[3]Phuc H N,Ahn,C W.Stereo matching methods for imperfectly rectifiedstereo images[J].Symmetry,2019,11(4):570.

[4]Ahlberg C,Leon M,Ekstrand F,et al.The genetic algorithm censustransform:evaluation of census windows of different size and level ofsparseness through hardware in-the-loop training[J].Journal of Real-timeImage Processing,2021,18(3):539-559.

[5]Xu Huaiyuan,Chen Xiaodong,Liang Haitao,et al.Cross patch-basedrolling label expansion for dense stereo matching[J].IEEE Access,2020,8:63470-63481.

[6]Mozerov M G,van de Weijer J.One-view occlusion detection forstereo matching with a fully connected CRFmodel[J].IEEE Transactionson ImageProcessing,2019,28(6):2936-2947.

[7]Kerkaou Z,El Ansari M.Support vector machines based stereomatching method for advanced driver assistance systems[J].Multimedia ToolsAnd Applications,2020,79(37-38):27039-27055.

[8]LoghmanM,Kim J.SGM-based dense disparity estimation using adaptivecensus transform[J].InProceedings Of IEEE International Conference onConnected Vehicles and Expo(ICCVE),2013:592-597.

[9]Loghman M,Chung K H,Lee Y,et al.Fast depth map estimation usingmodified census transform and semi-global matching[J].In: Proceedings ofInternational Soc Design Conference(ISOCC),2014: 158-159.

[10]Han X,Leung T,Jia Y,et al.Matchnet:Unifying feature and metriclearning for patch-based matching[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2015: 3279-3286.

[11]Luo W,Schwing A G,Urtasun R.Efficient deep learning for stereomatching[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2016:5695-5703.

[12]ChangJiaRen,Chen YongSheng.Pyramid stereo matching network[C].IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018,5410-5418.

[13]刘建国,，冯云，剑纪郭.一种基于PSMNet改进的立体匹配算法[J].华南理工大学学报(自然科学版),2020,48(01):60-69+83.

[14]ChangJiaRen,Chen YongSheng.Pyramid stereo matching network[C].IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018,5410-5418.

[15]Guo X,Yang K,Yang W,et al.Group-Wise correlation stereo network[C].IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).2020:3268-3277.

[16]Zhang C,Wu J,Chen Z,et al.Dense-CNN:Dense convolutional neuralnetwork for stereo matching using multiscale feature connection[J]. SignalProcessing:Image Communication,2021,95:116285.

[17]Okae J,Li B,Du J,et al.Robust Scale-Aware stereo matching network[J].IEEE Transactions on Artificial Intelligence,2021:1-11.

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种基于密集多尺度信息融合的双目视觉立体匹配方法，以解决现在立体匹配方法在反射区域以及物体边缘(视差不连续)区域匹配效果差的问题。

(二)技术方案

为解决上述技术问题，本发明提供一种基于密集多尺度信息融合的双目视觉立体匹配方法，所述方法包括：第一步，初步特征提取：采用CNN网络、密集连接网络和坐标注意力机制进行初步特征提取；第二步，构建初始联合代价体：跨尺度分组相关代价体和压缩级联代价体级联构建初始联合代价体；第三步，代价聚合优化：采用3D堆叠沙漏网络提取更深层的信息，优化初始联合代价体；第四步，视差回归：通过视差回归获得4个预测视差图及其置信度；第五步，尺度感知融合：利用各尺度视差图的互补优势，融合不同尺度的视差图得到最终的视差图。

(三)有益效果

与现有技术相比较，本发明在合成数据集SceneFlow与真实数据集KITTI 2015上进行了对比实验。实验结果表明，本发明中基于密集多尺度信息融合的立体匹配方法的匹配性能优于现有方法。

附图说明

图1为本发明方法的整体框图；图2为本发明方法初步特征提取阶段结构示意图；图3为本发明方法初步特征提取阶段CNN提取浅层特征示意图；图4为本发明方法初步特征提取阶段密集网络结构示意图；图5为本发明方法密集连接网络中单个密集层的结构示意图；图6为本发明方法渡化层0与渡化层1的结构示意图；图7为本发明初步特征提取阶段坐标注意力模块的结构示意图；图8为本发明方法构建级联代价体的示意图；图9为本发明在视差为0时构建跨尺度分组相关代价体的示意图；图10为本发明所有视差下的跨尺度分组相关代价体级联示意图；图11为本发明方法构建初始联合代价体结构示意图；图12为本发明方法代价聚合优化阶段框图；图13为本发明方法预沙漏模块的结构示意图；图14为本发明方法第一个3D堆叠沙漏模块的结构示意图；图15为本发明方法视差回归结构示意图；图16为本发明方法上采样示意图；图17为本发明尺度感知融合模型中的密集平滑网络结构示意图。图18为本发明方法尺度感知融合模型结构示意图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

为解决现有技术问题，本发明提供一种基于密集多尺度信息融合的双目视觉立体匹配方法，所述方法包括：

第一步，初步特征提取：采用CNN网络、密集连接网络和坐标注意力机制进行初步特征提取；第二步，构建初始联合代价体：跨尺度分组相关代价体和压缩级联代价体级联构建初始联合代价体；第三步，代价聚合优化：采用3D堆叠沙漏网络提取更深层的信息，优化初始联合代价体；第四步，视差回归：通过视差回归获得4个预测视差图及其置信度；第五步，尺度感知融合：利用各尺度视差图的互补优势，融合不同尺度的视差图得到最终的视差图。

其中，所述第一步初步特征提取过程中，

将输入的左右图像依次输入CNN网络、密集连接网络、坐标注意力模块，进行初步特征提取，以获取丰富的图像特征信息；

1.1利用CNN网络提取浅层特征

尺寸均为H×W×3的左右图像

作为输入都经过权值共享 CNN网络，即CNN网络，提取图像浅层次特征，输出浅层特征图F₁ ^l， F₁ ^r，其尺寸均为H×W×64；左右图像

分别输入权值共享CNN 网络，权值共享CNN网络包含：3×3卷积核，卷积核数为64，步长为1，扩张因子为1的卷积层Conv1，第一归一化层、第一Relu层、 3×3卷积核，卷积核数为64，步长为1，扩张因子为1的卷积层Conv2、第二BN层、第二Relu层；

1.2利用密集连接网络得到密集特征

浅层特征图F₁ ^l与F₁ ^r都经过密集连接网络，所设计的密集连接网络模块包含3个密集块和2个渡化层，其中，每个密集块是由若干个密集层组成，每个密集层由第一BN层、第一Relu层、1×1卷积核，卷积核数为32，步长为1，扩张因子为1的卷积层、第二BN层、第二 Relu层和3×3卷积核，卷积核数为32，步长为1，扩张因子为1的卷积层组成；渡化层0与渡化层1中，渡化层0由一个1×1卷积核，卷积核数为128，步长为1，扩张因子为1的卷积层，一个BN层，一个Relu层以及一个平均池化层构成；渡化层1由一个1×1卷积核，卷积核数为192，步长为1，扩张因子为1的卷积层，一个BN层，一个Relu层以及一个平均池化层构成；每一个密集块中从第二个密集层起，输入都是该密集块中前边所有密集层的输出在通道维度上级联，即后边一层的输入通道维数是前边所有层的输出通道维数之和，这样的连接方式可以增强各层间的特征传递，增强特征的重复利用率，减少特征的损失；密集块0与密集块1之后都经过一个渡化层，经过渡化层之后，可以改变图像的尺度大小，将其大小降为原来的一半。密集块1和密集块2的构造与密集块0基本结构相同，区别是密集块1中包含8个密集层，密集块2中包含12个密集层；在网络的超参数中包含一个增长率参数k，表示在网络中每层的输出的通道数；一个压缩因子θ，它的作用是将上一密集块的输出在通道维度进行压缩，减少网络参数量；设定k为32，也就是在密集连接网络中每层的输出通道数都是32；其中θ＝0.5；经过密集连接网络处理后，由浅层特征图F₁ ^l，F₁ ^r得到密集特征

与

尺寸大小为H/4×W/4×576；

1.3采用坐标注意力模块进行特征提取

经过1.2处理得到的密集特征

与

送入坐标注意力模块进一步提取特征，对输入特征图

与

在水平方向和垂直方向分别进行全局平均池化与全局最大值池化操作，以获得丰富的图像背景信息与纹理信息。水平方向的全局平均池化操作如下

其中，下标A表示平均池化，上标h表示水平方向，函数自变量 h表示高度即行，W表示图像宽度即水平方向像素数，F(h,i)表示第h 行中的第i个像素；

水平方向的全局最大值池化操作如下

其中下标M表示最大池化，上标h表示水平方向，h表示高度即行，“F(h,:)”表示h行中所有元素即像素；

垂直方向的全局平均池化操作得到垂直一元特征如下：

其中，上标w表示垂直方向，A表示全局平均池化，H表示图像高度，F(i,w)表示w列中的第i个元素；

垂直方向的全局最大值池化操作得到垂直一元特征

如下

其中，上标w表示垂直方向，下标M表示最大值池化，w表示宽度即列，“F(:,w)”，表示w列中的所有元素；

上述变换得到沿两个方向聚合特征，生成对方向敏感的特征映射，这些转换还可以让注意力块获取空间方向依赖关系，并保存精确的位置信息，这有助于网络更准确地定位感兴趣的对象，该操作可以获得输入特征的全局感受野，并且精确地编码位置信息，将公式(1)， (2)，(3)和(4)的水平和垂直的池化结果进行级联操作，并送入一个卷积模块(1×1卷积核，卷积核数576，步长为1，扩张因子为1)，获得注意力变换如下

其中，F_concat表示将水平和垂直的池化结果的级联操作，经过激活函数δ(·)获得变换后的非线性特征f∈R^C/r×(H+W)，r是控制模块大小的一个超参数，C表示通道维度数，H表示图像高度，W表示图像宽度，再将输出的结果重新按照水平和垂直方向分为两组特征图f^h和f^w，再分别经过卷积层之后，利用sigmoid函数σ获得水平和垂直方向注意力的权重，如式(6)和式(7)所示

g^h＝σ(F_h(f^h)) (6)

g^w＝σ(F_w(f^w)) (7)

根据注意力的权重将输入的特征映射数据与水平和垂直权重相乘获得坐标注意力输出特征映射，具体操作写成公式(8)：

其中c表示第c个通道，c＝1,2,…,576，x是输入的密集特征图

与

该公式表示x、g^h、g^w在对应通道c上做点乘运算，得到注意力特征图

与

最后，经过1×1卷积核，卷积核个数为320，步长为1，扩张因子为1的Conv2，得到左右特征图

与

其中，所述第二步构建初始联合代价体的过程包含两个部分：一个部分是构建压缩级联代价体，另一部分是构建跨尺度相关代价体，然后将两个代价体级联构成初始联合代价体；

2.1压缩级联代价体的构建

压缩级联匹配代价的构造过程中，输入为左右注意力特征图

与

分别用黑色矩阵块L和黑色矩阵块R表示，d＝0时的特征级联是直接将第一列矩阵块L和矩阵块R，即

与

级联，左右特征图的大小均为H/4×W/4×320，得到的匹配代价C₀大小为H/4×W/4×640；当视差d＝1时，左特征图向右移动一列，取其第1列到第W/4列特征子图，右特征图向左移动一列，取其第0列到第W/4-1列的特征子图，再将新的行列数不变的左右特征子图级联，得到视差为1的情况下的匹配代价C₁；以此类推，在视差值为d，d＝0,12,…,D_max/4-1的情况下，右特征图向左移动d列，取其第0列到第W/4-d列特征子图；左特征图向右移动d列，取其第d列到W/4列特征子图再将左右特征子图级联，得到对应视差下的匹配代价C_d；

将左、右特征图F₄ ^l和F₄ ^r进行级联的表达式如下：

C_d＝concat{R(F₄ ^l,d),L(F₄ ^r,d)} (9)

其中，C_d表示视差为d情况下的匹配代价，L(A,b)表示矩阵A向左移动b列右侧补0操作，R(A,b)表示矩阵A向右移动b列左侧补0 操作，concat表示级联操作；

得到各个视差下的匹配代价C_d,d＝0,12,…,D_max/4-1后，沿视差维度，将所有视差值下匹配代进行级联，从而整合视差维度信息，得到最终的匹配代价矩阵，其大小为D_max/4×H/4×W/4×640，具体定义如下：

其中，concat表示级联操作，基于级联得到的匹配代价保留了不同视差下的左右特征信息以及空间结构；

将得到的级联代价体CC₀依次通过卷积核大小为1×1，卷积核数为 128，步长1，扩张因子为1的卷积层，卷积核大小为1×1，卷积核数为24，步长为1，扩张因子为1的卷积层得到压缩级联代价体CC₁，其大小为D_max/4×H/4×W/4×24；

2.2跨尺度分组相关代价体

针对视差d＝0时跨尺度分组相关代价体的构建，通过初步特征提取网络得到的左右特征图F₄ ^l，F₄ ^r在通道维度上分别为N_g个组，用N_c表示输入特征的通道维数，左右特征

与

的第g个特征组f_l ^g，f_r ^g由分别由特征

与

的[gN_c/N_g,gN_c/N_g+1,…,gN_c/N_g+(N_c/N_g-1)]通道组成；左特征图的分组依次与右特征的分组分别一一组合求相关，然后级联各个对应分组求相关的结果，得到视差d＝0时的跨尺度分组相关代价体 FF₀；

d为其它值(即d＝1,…,D_max/4-1)时，以左特征图为基准图，右特征图左移后的特征图作为输入，然后分组，计算过程与视差为d＝0 时的计算过程相同，所有视差d＝0,1,…,D_max/4-1下的跨尺度相关代价体计算完成后，将它们进行级联得到跨尺度分组相关代价体CC₂，尺寸为D_max/4×H/4×W/4×1600，H表示图像高度，W表示图像宽度，D_max表示最大视差搜索范围；

2.3联合代价体构建跨尺度分组相关代价体CC₂再与压缩级联代价体CC₁级联构建联合代价体，为后面的3D聚合网络提供了更鲁棒的相关性信息，联合代价体构建中，将尺度分组相关代价体CC₂依次通过Conv1，卷积核大小为1×1，卷积核数为640，步长为1，扩张因子为1的卷积层，与 Conv2卷积核大小为1×1，卷积核数为128，步长为1，扩张因子为1 的卷积层，进行压缩后得到CC₃，其大小为D_max/4×H/4×W/4×128，再与压缩后的压缩级联代价体CC₁进行级联，从而得到联合代价体CC₄，其大小为D_max/4×H/4×W/4×152。

其中，所述第三步的代价聚合优化，在经过第二步的处理已经得到联合代价体CC₄，经过包含预沙漏模块和三个堆叠沙漏模块的代价聚合优化网络，进行代价聚合优化；

其中，预沙漏网络输出CCC₀，三个堆叠沙漏网络分别输出CCC₁， CCC₂，CCC₃。

其中，所述第三步中，预沙漏模块中包含4个卷积层，卷积核大小均为3×3×3，卷积核个数均为32，步长均为1，扩张因子均为1，第二个卷积层的输出与第四个卷积层的输出直接相加(Add)，输出得到 CCC₀，其尺寸为D/4×H/4×W/4×32；

第一个堆叠沙漏模块结构包含第一卷积层Conv1，第二卷积层 Conv2，第三卷积层Conv3，第四卷积层Conv4，第一反卷积层 Deconv1，第二反卷积层Deconv2，CCC₀作为第一个堆叠沙漏模块的输入，经过四个3D卷积层，卷积核尺寸均为3×3×3，卷积核个数分别为64、64、128、128，卷积层步长分别为2、1、2、1，扩张因子均为1，之后的两个3D反卷积层，卷积核大小均为3×3×3，卷积核个数分别为64、128，步长均为2，扩张因子均为1；第二卷积层Conv2 的输出经过一个1×1×1卷积核，卷积核个数为64，步长为1，扩张因子为1的3D卷积层和一个ReLU层后的输出与第一反卷积层Deconv1 的输出直接相加的结果作为第二个3D反卷积层的输入；

该堆叠沙漏模块的输入CCC₀经过一个1×1×1卷积核，卷积核个数为 32，步长为1，扩张因子为1的3D卷积层和一个ReLU层得到的输出与第二反卷积层Deconv2的输出直接相加，输出得到CCC₁，其尺寸为D/4×H/4×W/4×32；

第二个堆叠沙漏以CCC₁作为输入，网络结构与第一个堆叠沙漏相同，输出尺寸为D_max/4×H/4×W/4×32的CCC₂；第三个堆叠沙漏以CCC₂作为输入，网络结构与第一个堆叠沙漏相同，输出尺寸为 D_max/4×H/4×W/4×32的CCC₃。

其中，所述第四步中，进行视差回归包括：

4.1使用Softmax函数来计算视差真实性概率视差回归过程中，CCC₀,CCC₁,CCC₂,CCC₃分别经过3×3×3卷积核，卷积核数为32，步长为1，扩张因子为1的卷积层Conv1得到输出维度为D_max/4×H/4×W/4×32；再经过3×3×3卷积核，卷积核数为1，步长为 1，扩张因子为1的卷积层Conv2，得到输出维度为D_max/4×H/4×W/4×1；对第二卷积层输出m进行上采样即双线性插值法，得到四个新代价体MC₀，MC₁，MC₂，MC₃，尺寸均为D_max×H×W×1；

上采样方式中，每个代插值像素P的像素值是由周围的四个已知像素通过公式(12)所得，f表示像素值，P₁₁,P₁₂,P₂₁,P₂₂是待插值像素P 周围的四个已知像素；

使用如公式(11)给出的Softmax函数将视差值的真实概率做归一化处理，

其中d(d＝0,1,…D_max-1)为视差等级，s，s＝0,1,2,3表示不同尺度，

表示尺度s下的代价体MC₀、MC₁、MC₂、MC₃中第d个视差下的代价体

“：”表示矩阵该维度的所有元素，D_max表示最大视差搜索范围，e表示自然指数，

表示尺度s下匹配代价体

中预测的视差d是真实视差的概率，将不同尺度下的视差概率矩阵可以表示为

其中，P^f表示待插值像素(x,y)处的像素值，P₁₁ ^f,P₁₂ ^f,P₂₁ ^f,P₂₂ ^f表示插值像素P周围的四个已知像素点的像素值。x₁,x,x₂代表水平坐标， y₁,y,y₂代表垂直坐标，x₂-x₁＝1，y₂-y₁＝1；

4.2使用Soft Argmin函数进行视差回归

采用Soft Aragmin函数进行视差回归预测，将每个视差值的概率与对应视差相乘后按视差累加求和，得到个尺度下的预测视差，其计算方法如式(13)：

其中s(s＝0,1,2,3)表示不同尺度，对应四个预测视差图的尺度， d是各个视差等级(d＝0,1,…D_max-1)，

表示尺度s下匹配代价体

中预测的视差d是真实视差的概率，

表示各个尺度下的预测视差。

其中，所述第五步进行尺度感知融合，包括：

将预测视差图

分别与左浅层特征图F₁ ^l进行级联，结果再分别输入到四个密集平滑网络0，密集平滑网络1，密集平滑网络 2，密集平滑网络3，将上一步骤得到的匹配代价体中预测的视差d， d＝0,1,…D_max-1是在四个尺度上真实视差的概率p₀，p₁，p₂，p₃，其尺寸大小均为D_max×H×W×1，作为一个输入，分别与对应平滑网络输出进行级联，再分别经过一个包含一个卷积核为3×3，核个数为1，步长为1，扩张因子为1的卷积层，一个BN层，一个ReLU层的网络之后，将四个网络的输出结果进行级联，级联结果再顺序经过一个卷积核为3×3，核个数为128，步长为1，扩张因子为1的卷积层，一个 BN层，一个ReLU层，和一个卷积核为1×1，核个数为4，步长为1，扩张因子为1的卷积层，获得置信度矩阵w_s(w₀，w₁，w₂，w₃)，其尺寸为H×W×4，表示每个尺度下预测视差的置信度；将该置信度与对应的预测视差图

进行级联得到d_s，尺寸为H×W×4，d_s与对应的置信度矩阵w_s进行点乘运算，之后在尺度s维度方向上进行累加，即公式(14)，得到最终的视差图d_F，其大小为H×W。

其中，“·”表示矩阵中元素对应相乘，w_s为预测视差矩阵d_s在尺度s的情况下是真实视差矩阵的置信度。

实施例1

本实施例中基于密集连接多尺度信息融合的立体匹配方法的框图如图1所示。第一步初步特征提取如图1中①，左右图像

通过初步特征提取模块得到左右初步特征图

第二步，左右特征图

经过图1中构建联合代价体模块②，得到初始联合代价体 CC₄。第三步，联合代价体CC₄经过图1中的代价聚合优化模块③，得到CCC₀，CCC₁，CCC₂，CCC₃。第四步，经过优化的联合代价体 CCC₀，CCC₁，CCC₂，CCC₃经过图1中的视差回归模块④得到四个输出预测视差图

和预测视差的置信度p₀，p₁，p₂，p₃。第五步，将预测视差图

经过CNN网络提取的左浅层特征图F₁ ^l以及视差回归中得到的(可能性)p₀，p₁，p₂，p₃输入图1中的尺度融合感知模块⑤，利用不同尺度视差图之间的互补优势，融合得到最后的稠密视差图输出。

下面结合附图和发明人给出的具体实验，对本发明的具体实施方式作进一步详细说明。

第一步，初步特征提取

如图2所示，初步特征提取步骤将输入的左右图像依次输入 CNN，密集连接网络(DenseNet)，坐标注意力模块，进行初步特征提取，以获取丰富的图像特征信息；

1.1利用CNN网络提取浅层特征

尺寸均为H×W×3的左右图像

作为输入都经过权值共享 CNN网络，提取图像浅层次特征，输出浅层特征图F₁ ^l，F₁ ^r，其尺寸均为H×W×64；所设计的CNN模块的结构如图3实线框所示，左右图像

分别输入权值共享CNN模块，CNN模块包含第一卷积层Conv1，(3×3卷积核，卷积核数为64，步长为1，扩张因子为1)、第一归一化(BN)层、第一Relu层、第二卷积层Conv2(3×3卷积核，卷积核数为64，步长为1，扩张因子为1)、第二BN层、第二Relu 层；

1.2利用密集连接网络得到密集特征

浅层特征图(F₁ ^l与F₁ ^r)都经过密集连接网络，所设计的密集连接网络模块的结构如图4所示，包含3个密集块和2个渡化层，其中，每个密集块是由若干个密集层组成，如图5所示每个密集层由第一 BN层、第一Relu层、第一卷积层(1×1卷积核，卷积核数为32，步长为1，扩张因子为1)、第二BN层、第二Relu层和第二卷积层(3×3 卷积核，卷积核数为32，步长为1，扩张因子为1)组成；渡化层0 与渡化层1如图6中所示，渡化层0由一个卷积层(1×1卷积核，卷积核数为128，步长为1，扩张因子为1)，一个BN层，一个Relu层以及一个平均池化层(Pooling)构成；渡化层1由一个的卷积层(1×1 卷积核，卷积核数为192，步长为1，扩张因子为1)，一个BN层，一个Relu层以及一个平均池化层(Pooling)构成；每一个密集块中从第二个密集层起，输入都是该密集块中前边所有密集层的输出在通道维度上级联(即后边一层的输入通道维数是前边所有层的输出通道维数之和)，这样的连接方式可以增强各层间的特征传递，增强特征的重复利用率，减少特征的损失；密集块0与密集块1之后都经过一个渡化层，经过渡化层之后，可以改变图像的尺度大小，将其大小降为原来的一半。密集块1和密集块2的构造与密集块0基本结构相同，区别是密集块1中包含8个密集层，密集块2中包含12个密集层；在网络的超参数中包含一个增长率(growth rate)参数k，表示在网络中每层的输出的通道数；一个压缩因子θ，它的作用是将上一密集块的输出在通道维度进行压缩，减少网络参数量。本发明中设定 k为32，也就是在密集连接网络中每层的输出通道数都是32；本发明中θ＝0.5；经过密集连接网络处理后，由浅层特征图F₁ ^l，F₁ ^r得到密集特征

与

尺寸大小为H/4×W/4×576；

1.3采用坐标注意力模块进行特征提取

经过1.2处理得到的密集特征(

与

)送入如图7所示的坐标注意力模块进一步提取特征，如图7对输入特征图(

与

)在水平方向和垂直方向分别进行全局平均池化与全局最大值池化操作，以获得丰富的图像背景信息与纹理信息。水平方向的全局平均池化(X Avg Pool)操作如下

其中，下标A表示平均池化，上标h表示水平方向，函数自变量 h表示高度(行)，W表示图像宽度(水平方向像素数)，F(h,i)表示第h行中的第i个像素；

水平方向的全局最大值池化(X Max Pool)操作如下

其中下标M表示最大池化，上标h表示水平方向，h表示高度 (行)，“F(h,:)”表示h行中所有元素(像素)；

垂直方向的全局平均池化(Y Avg Pool)操作得到垂直一元特征如下：

垂直方向的全局最大值池化(Y Max Pool)操作得到垂直一元特征

如下

其中，上标w表示垂直方向，下标M表示最大值池化，w表示宽度(列)，“F(:,w)”，表示w列中的所有元素；

其中，F_concat表示将水平和垂直的池化结果的级联操作，经过激活函数δ(·)(此处采用ReLU函数)获得变换后的非线性特征 f∈R^C/r×(H+W)，r是控制模块大小的一个超参数，C表示通道维度数，H 表示图像高度，W表示图像宽度，再将输出的结果重新按照水平和垂直方向分为两组特征图f^h和f^w，再分别经过卷积层(用F_h和F_w表示，卷积核数为576，卷积核大小为1×1，步长为1，扩张因子1)之后，利用sigmoid函数σ获得水平和垂直方向注意力的权重，如式(6)和式(7)所示

g^h＝σ(F_h(f^h)) (6)

g^w＝σ(F_w(f^w)) (7)

其中c表示第c个通道，c＝1,2,…,576，x是输入的密集特征图(

与

)，该公式表示x、g^h、g^w在对应通道c上做点乘运算，得到注意力特征图

与

最后，经过图7中Conv2(1×1卷积核，卷积核个数为320，步长为1，扩张因子为1)，得到左右特征图

与

不同于只关注重通道权重的通道注意力机制，本发明坐标注意力机制也考虑对空间信息进行编码，将沿水平和垂直方向的注意机制同时应用于输入特征图，两个注意图中的每个元素都反映了感兴趣的对象是否存在于相应的行和列中，这种编码过程可以使本发明的坐标注意块机制准确地定位感兴趣对象的确切位置；

第二步：构建初始联合代价体

构建初始联合代价体包含两个部分：一个部分是构建压缩级联代价体，另一部分是构建跨尺度相关代价体，然后将两个代价体级联构成初始联合代价体。

2.1压缩级联代价体的构建

图8是压缩级联匹配代价的构造过程示意图，输入为左右注意力特征图

与

分别用黑色矩阵块L和黑色矩阵块R表示，图中前两行图片表示左右特征图按照视差进行的左右移动后的图片示意图， d＝0时的特征级联是直接将第一列矩阵块L和矩阵块R(

与

)级联，左右特征图的大小均为H/4×W/4×320，得到的匹配代价C₀大小为H/4×W/4×640；当视差d＝1时，左特征图向右移动一列(图8中第一行第二列)，取其第1列到第W/4列特征子图，右特征图向左移动一列(图8中第二行第二列)，取其第0列到第W/4-1列的特征子图，再将新(行列数不变)的左右特征子图级联，得到视差为1的情况下的匹配代价C₁；以此类推，在视差值为d(d＝0,12,…,D_max/4-1)的情况下，右特征图向左移动d列，取其第0列到第W/4-d列特征子图；左特征图向右移动d列，取其第d列到W/4列特征子图再将左右特征子图级联，得到对应视差下的匹配代价C_d；

将左、右特征图F₄ ^l和F₄ ^r进行级联的表达式如下：

其中，C_d表示视差为d情况下的匹配代价，L(A,b)表示矩阵A向左移动b列右侧补0操作，R(A,b)表示矩阵A向右移动b列左侧补0操作， concat表示级联操作。

其中concat表示级联操作，基于级联得到的匹配代价保留了不同视差下的左右特征信息以及空间结构。

将得到的级联代价体CC₀依次通过第一卷层(卷积核大小为1×1，卷积核数为128，步长1，扩张因子为1)，第二卷积层(卷积核大小为1×1，卷积核数为24，步长为1，扩张因子为1)得到压缩级联代价体CC₁，其大小为D_max/4×H/4×W/4×24。

2.2跨尺度分组相关代价体

针对视差d＝0时跨尺度分组相关代价体构建方法如图9所示，通过初步特征提取网络得到的左右特征图F₄ ^l，F₄ ^r在通道维度上分别为 N_g(本发明取N_g＝40)个组，用N_c(本发明中N_c＝320)表示输入特征的通道维数，左右特征

与

的第g个特征组f_l ^g，f_r ^g由分别由特征

与

的[gN_c/N_g,gN_c/N_g+1,…,gN_c/N_g+(N_c/N_g-1)]通道组成；左特征图的分组依次与右特征的分组分别一一组合求相关，然后级联各个对应分组求相关的结果，得到视差d＝0时的跨尺度分组相关代价体FF₀；

d为其它值(即d＝1,…,D_max/4-1)时，以左特征图为基准图，右特征图按照图8中第二行所示左移后的特征图作为输入，然后分组，计算过程与视差为d＝0时的计算过程相同，所有视差d＝0,1,…,D_max/4-1 下的跨尺度相关代价体计算完成后，如图10所示将它们进行级联得到跨尺度分组相关代价体CC₂，尺寸为D_max/4×H/4×W/4×1600，H表示图像高度，W表示图像宽度，D_max表示最大视差搜索范围，本发明设 D_max＝192，计算跨尺度相关代价体伪代码如表1所示。

表1跨尺度分组相关代价体伪代码

2.3联合代价体构建

跨尺度分组相关代价体CC₂再与压缩级联代价体CC₁级联构建联合代价体，为后面的3D聚合网络提供了更鲁棒的相关性信息，联合代价体构建如图11所示，将尺度分组相关代价体CC₂依次通过第一卷积层(Conv1，卷积核大小为1×1，卷积核数为640，步长为1，扩张因子为1)，与第二卷积层(Conv2卷积核大小为1×1，卷积核数为128，步长为1，扩张因子为1)，进行压缩后得到CC₃，其大小为 D_max/4×H/4×W/4×128，再与压缩后的压缩级联代价体CC₁进行级联，从而得到联合代价体CC₄，其大小为D_max/4×H/4×W/4×152；

第三步：代价聚合优化

经过第二步的处理已经得到联合代价体CC₄，经过如图12所示的代价聚合优化网络，具体包含①为预沙漏模块，②③④分别为三个堆叠沙漏模块；预沙漏网络输出CCC₀，三个堆叠沙漏网络分别输出 CCC₁，CCC₂，CCC₃。

如图13所示，预沙漏模块中包含4个卷积层，卷积核大小均为 3×3×3，卷积核个数均为32，步长均为1，扩张因子均为1，第二个卷积层的输出与第四个卷积层的输出直接相加(Add)，输出得到 CCC₀，其尺寸为D/4×H/4×W/4×32；第一个堆叠沙漏模块结构如图 14所示，包含第一卷积层(Conv1)，第二卷积层(Conv2)，第三卷积层(Conv3)，第四卷积层(Conv4)，第一反卷积层(Deconv1)，第二反卷积层(Deconv2)，CCC₀作为第一个堆叠沙漏模块的输入，经过四个3D卷积层，卷积核尺寸均为3×3×3，卷积核个数分别为64、 64、128、128，卷积层步长分别为2、1、2、1，扩张因子均为1，之后的两个3D反卷积层，卷积核大小均为3×3×3，卷积核个数分别为 64、128，步长均为2，扩张因子均为1；第二卷积层(Conv2)的输出经过一个3D卷积层(1×1×1卷积核，卷积核个数为64，步长为1，扩张因子为1)和一个ReLU层后的输出与第一反卷积层(Deconv1) 的输出直接相加(Add)的结果作为第二个3D反卷积层的输入；该堆叠沙漏模块的输入CCC₀经过一个3D卷积层(1×1×1卷积核，卷积核个数为32，步长为1，扩张因子为1)和一个ReLU层得到的输出与第二反卷积层(Deconv2)的输出直接相加(Add)，输出得到CCC₁，其尺寸为D/4×H/4×W/4×32；第二个堆叠沙漏以CCC₁作为输入，网络结构与第一个堆叠沙漏相同，输出尺寸为D_max/4×H/4×W/4×32的 CCC₂；第三个堆叠沙漏以CCC₂作为输入，网络结构与第一个堆叠沙漏相同，输出尺寸为D_max/4×H/4×W/4×32的CCC₃；

第四步：视差回归

4.1使用Softmax函数来计算视差真实性概率

视差回归如图15所示，CCC₀,CCC₁,CCC₂,CCC₃分别经过第一卷积层(Conv1，3×3×3卷积核，卷积核数为32，步长为1，扩张因子为1) 得到输出维度为D_max/4×H/4×W/4×32；再经过第二卷积层(Conv2， 3×3×3卷积核，卷积核数为1，步长为1，扩张因子为1)得到输出维度为D_max/4×H/4×W/4×1；对第二卷积层输出m进行如图16所示的上采样(双线性插值法)得到四个新代价体MC₀，MC₁，MC₂，MC₃，尺寸均为D_max×H×W×1。上采样方式如图16所示，每个代插值像素P 的像素值是由周围的四个已知像素通过式(12)所得，图中f表示像素值，P₁₁,P₁₂,P₂₁,P₂₂是待插值像素P周围的四个已知像素。

其中d(d＝0,1,…D_max-1)为视差等级，s(s＝0,1,2,3)表示不同尺度，

表示尺度s下匹配代价体

其中，P^f表示待插值像素(x,y)处的像素值，P₁₁ ^f,P₁₂ ^f,P₂₁ ^f,P₂₂ ^f表示插值像素P周围的四个已知像素点的像素值。x₁,x,x₂代表水平坐标，y₁,y,y₂代表垂直坐标，x₂-x₁＝1，y₂-y₁＝1；

4.2使用Soft Argmin函数进行视差回归

其中s(s＝0,1,2,3)表示不同尺度，对应四个预测视差图的尺度，d 是各个视差等级(d＝0,1,…D_max-1)，

表示尺度s下匹配代价体

中预测的视差d是真实视差的概率，

表示各个尺度下的预测视差；

第五步：尺度感知融合

尺度感知融合处理过程如图17所示，将预测视差图

分别与左浅层特征图F₁ ^l进行级联，结果再分别输入到四个密集平滑网络 0，密集平滑网络1，密集平滑网络2，密集平滑网络3，将上一步骤得到的匹配代价体中预测的视差d(d＝0,1,…D_max-1)是在四个尺度上真实视差的概率p₀，p₁，p₂，p₃(其尺寸大小均为D_max×H×W×1)作为一个输入，分别与对应平滑网络输出进行级联，再分别经过一个包含一个卷积层(卷积核为3×3，核个数为1，步长为1，扩张因子为1)，一个BN层，一个ReLU层的网络之后，将四个网络的输出结果进行级联，级联结果再顺序经过一个卷积层(卷积核为3×3，核个数为128，步长为1，扩张因子为1)，一个BN层，一个ReLU层，和一个卷积层(卷积核为1×1，核个数为4，步长为1，扩张因子为1)，获得置信度矩阵w_s(w₀，w₁，w₂，w₃)，其尺寸为H×W×4，表示每个尺度下预测视差的置信度；将该置信度与对应的预测视差图

其中，“·”表示矩阵中元素对应相乘，w_s为预测视差矩阵d_s在尺度s 的情况下是真实视差矩阵的置信度。

图17中密集平滑网络0-3结构如图18所示，顺序包括卷积层 Conv1、Conv2、Conv3、Conv4、Conv5、Conv6、Conv7，其卷积核大小分别为3×3、3×3、3×3、3×3、3×3、3×3、1×1，卷积核数分别为64、64、64、64、64、64、1，步长均为1，扩张因子(Dilation) 分别为1、2、2、4、4、2、1。四个密集平滑网络结构相同，平滑网络通过捕捉联合视差图像与特征空间中的统计特性，能够学习到相邻像素之间更鲁棒的复杂视差关系。

下面采用人工数据集和标准数据集的对比分析验证方法的优越性。

实验数据集及评价指标：

本发明对比实验中所用数据集，主要包括部分合成数据集 SceneFlow和真实数据集KITTI2015。SceneFlow数据集是一个大规模的合成数据集，包含35454对训练图像和4370对测试图像，图片的尺寸为960×540，提供稠密的视差图作为真实值。SceneFlow数据集中部分像素点的视差值超过了本发明设置的最大视差值，在计算损失时这部分像素点将被忽略掉。KITTI 2015数据集是一个在真实的街道场景下采集的立体数据集，包含200张训练图片和200张测试图片，图片的尺寸为1240×376，对于训练集提供了由激光雷达采集得到的稀疏视差图作为真实值。

为了评估本发明中方法和对比方法的匹配效果，采用了在立体匹配算法中广泛使用的终点误差(End-point Error，EPE)和3像素误差 (3px-Error)两个指标进行评价。EPE和3px-Error指标值越接近0，说明立体匹配效果越好。

实验细节描述：

本发明提出的立体匹配网络，在Ubuntu18.04环境下，使用 Pytorch深度学习架构实现。使用Adam优化器优化参数分别设置为β₁＝0.9、β₂＝0.99。使用Nvidia GeForceRTX3090 GPU对模型进行端到端的训练，每批样本数为2，损失函数中视差预测系数的参数分别设置为θ⁰＝0.25，θ¹＝0.5，θ²＝0.75，θ³＝0.75，θ^F＝1；数据集预处理，训练图像的尺寸下采样后变为512×256；最大视差值D_max设置为192，所有图像的RGB数值被归一化至[-1，1]范围内。对于SceneFlow数据集，35454对训练图像作为训练集，4370对测试图像做测试集，以固定的学习率0.001训练20个周期，在第11、13、15、17个周期学习率依次衰减2倍，得到对于合成数据的评价结果和针对后续实际数据集的预训练模型。

对于KITTI 2015数据集，将在Scene Flow数据集上训练得到的预训练模型进一步优化。总共训练600个周期，以0.001的学习率训练前300个周期，调整学习率为0.0001训练后300个周期。在 KITTI2015训练集中随机选择180对样本作为训练集，剩余20对样本作为验证集。利用KITTI 2015中的200张测试集预测输出，验证训练后的最优模型。

对比方法实验比较：

合成数据集上实验比较

在SceneFlow数据集上利用训练数据得到预训练网络，与同样训练得到的经典算法PSM-Net、GWCNet在检验数据集上进行比较，得到结果如表2所示：

由表2可知，DCA-SF-GWCNet(本发明方法)在SceneFlow数据集上的训练结果EPE指标为0.654，与PSM-Net方法的EPE指标1.09相比，降低0.436；与GWCNet方法的EPE指标0.736相比，降低0.085；验证了本发明方法的有效性。

表2合成数据集上算法误差率对照

真实数据集上实验比较

表3给出了针对KITTI 2015数据集不同方法的性能定量比较，表3第一列给出不同算法，包含经典方法PSM-Net，基于密集网络的方法Dense-Net，GWCNet方法、SASM-Net方法以及 DCA-SF-GWCNet(本发明方法)。表3第一行给出了性能指标，其中 All(％)表示整张图像的误差率，Noc(％)表示非遮挡区域的误差率，第二行中D1-bg表示背景区域的误差率，D1-fg表示前景区域的误差率， D1-all表示平均误差率，Runtime(s)表示运行时间，单位是秒。表中本发明的算法DCA-SF-GWCNet的平均误差率为2.01％，相比 GWCNet算法平均误差率2.11％下降了4.71％。本发明提出的算法计算复杂度的略有增加，测试时间0.34s，相比于具有最小计算时间的 GWCNet算法和SASM-Net算法增加了0.02s，但准确率却有大幅度提升。因此结合定性与定量分析，充分证明了发明所提改进算法的有效性与准确性。

表3算法误差率对照

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述方法包括：

第一步，初步特征提取：采用CNN网络、密集连接网络和坐标注意力机制进行初步特征提取；

第二步，构建初始联合代价体：跨尺度分组相关代价体和压缩级联代价体级联构建初始联合代价体；

第三步，代价聚合优化：采用3D堆叠沙漏网络提取更深层的信息，优化初始联合代价体；

第四步，视差回归：通过视差回归获得4个预测视差图及其置信度；

第五步，尺度感知融合：利用各尺度视差图的互补优势，融合不同尺度的视差图得到最终的视差图。

2.如权利要求1所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述第一步初步特征提取过程中，

1.1利用CNN网络提取浅层特征

尺寸均为H×W×3的左右图像

作为输入都经过权值共享CNN网络，即CNN网络，提取图像浅层次特征，输出浅层特征图F₁ ^l，F₁ ^r，其尺寸均为H×W×64；左右图像

分别输入权值共享CNN网络，权值共享CNN网络包含：3×3卷积核，卷积核数为64，步长为1，扩张因子为1的卷积层Conv1，第一归一化层、第一Relu层、3×3卷积核，卷积核数为64，步长为1，扩张因子为1的卷积层Conv2、第二BN层、第二Relu层；

1.2利用密集连接网络得到密集特征

浅层特征图F₁ ^l与F₁ ^r都经过密集连接网络，所设计的密集连接网络模块包含3个密集块和2个渡化层，其中，每个密集块是由若干个密集层组成，每个密集层由第一BN层、第一Relu层、1×1卷积核，卷积核数为32，步长为1，扩张因子为1的卷积层、第二BN层、第二Relu层和3×3卷积核，卷积核数为32，步长为1，扩张因子为1的卷积层组成；渡化层0与渡化层1中，渡化层0由一个1×1卷积核，卷积核数为128，步长为1，扩张因子为1的卷积层，一个BN层，一个Relu层以及一个平均池化层构成；渡化层1由一个1×1卷积核，卷积核数为192，步长为1，扩张因子为1的卷积层，一个BN层，一个Relu层以及一个平均池化层构成；每一个密集块中从第二个密集层起，输入都是该密集块中前边所有密集层的输出在通道维度上级联，即后边一层的输入通道维数是前边所有层的输出通道维数之和，这样的连接方式可以增强各层间的特征传递，增强特征的重复利用率，减少特征的损失；密集块0与密集块1之后都经过一个渡化层，经过渡化层之后，可以改变图像的尺度大小，将其大小降为原来的一半。密集块1和密集块2的构造与密集块0基本结构相同，区别是密集块1中包含8个密集层，密集块2中包含12个密集层；在网络的超参数中包含一个增长率参数k，表示在网络中每层的输出的通道数；一个压缩因子θ，它的作用是将上一密集块的输出在通道维度进行压缩，减少网络参数量；设定k为32，也就是在密集连接网络中每层的输出通道数都是32；其中θ＝0.5；经过密集连接网络处理后，由浅层特征图F₁ ^l，F₁ ^r得到密集特征

与

尺寸大小为H/4×W/4×576；

1.3采用坐标注意力模块进行特征提取

经过1.2处理得到的密集特征

与

送入坐标注意力模块进一步提取特征，对输入特征图

与

其中，下标A表示平均池化，上标h表示水平方向，函数自变量h表示高度即行，W表示图像宽度即水平方向像素数，F(h,i)表示第h行中的第i个像素；

水平方向的全局最大值池化操作如下

垂直方向的全局平均池化操作得到垂直一元特征如下：

垂直方向的全局最大值池化操作得到垂直一元特征

如下

上述变换得到沿两个方向聚合特征，生成对方向敏感的特征映射，这些转换还可以让注意力块获取空间方向依赖关系，并保存精确的位置信息，这有助于网络更准确地定位感兴趣的对象，该操作可以获得输入特征的全局感受野，并且精确地编码位置信息，将公式(1)，(2)，(3)和(4)的水平和垂直的池化结果进行级联操作，并送入一个卷积模块(1×1卷积核，卷积核数576，步长为1，扩张因子为1)，获得注意力变换如下

g^h＝σ(F_h(f^h)) (6)

g^w＝σ(F_w(f^w)) (7)

其中c表示第c个通道，c＝1,2,…,576，x是输入的密集特征图

与

与

与

3.如权利要求2所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述第二步构建初始联合代价体的过程包含两个部分：一个部分是构建压缩级联代价体，另一部分是构建跨尺度相关代价体，然后将两个代价体级联构成初始联合代价体；

2.1压缩级联代价体的构建

压缩级联匹配代价的构造过程中，输入为左右注意力特征图

与

与

将左、右特征图F₄ ^l和F₄ ^r进行级联的表达式如下：

C_d＝concat{R(F₄ ^l,d),L(F₄ ^r,d)} (9)

其中，C_d表示视差为d情况下的匹配代价，L(A,b)表示矩阵A向左移动b列右侧补0操作，R(A,b)表示矩阵A向右移动b列左侧补0操作，concat表示级联操作；

将得到的级联代价体CC₀依次通过卷积核大小为1×1，卷积核数为128，步长1，扩张因子为1的卷积层，卷积核大小为1×1，卷积核数为24，步长为1，扩张因子为1的卷积层得到压缩级联代价体CC₁，其大小为D_max/4×H/4×W/4×24；

2.2跨尺度分组相关代价体

与

的第g个特征组f_l ^g，f_r ^g由分别由特征

与

d为其它值(即d＝1,…,D_max/4-1)时，以左特征图为基准图，右特征图左移后的特征图作为输入，然后分组，计算过程与视差为d＝0时的计算过程相同，所有视差d＝0,1,…,D_max/4-1下的跨尺度相关代价体计算完成后，将它们进行级联得到跨尺度分组相关代价体CC₂，尺寸为D_max/4×H/4×W/4×1600，H表示图像高度，W表示图像宽度，D_max表示最大视差搜索范围；

2.3联合代价体构建

跨尺度分组相关代价体CC₂再与压缩级联代价体CC₁级联构建联合代价体，为后面的3D聚合网络提供了更鲁棒的相关性信息，联合代价体构建中，将尺度分组相关代价体CC₂依次通过Conv1，卷积核大小为1×1，卷积核数为640，步长为1，扩张因子为1的卷积层，与Conv2卷积核大小为1×1，卷积核数为128，步长为1，扩张因子为1的卷积层，进行压缩后得到CC₃，其大小为D_max/4×H/4×W/4×128，再与压缩后的压缩级联代价体CC₁进行级联，从而得到联合代价体CC₄，其大小为D_max/4×H/4×W/4×152。

4.如权利要求3所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述第三步的代价聚合优化，在经过第二步的处理已经得到联合代价体CC₄，经过包含预沙漏模块和三个堆叠沙漏模块的代价聚合优化网络，进行代价聚合优化；

其中，预沙漏网络输出CCC₀，三个堆叠沙漏网络分别输出CCC₁，CCC₂，CCC₃。

5.如权利要求4所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述第三步中，预沙漏模块中包含4个卷积层，卷积核大小均为3×3×3，卷积核个数均为32，步长均为1，扩张因子均为1，第二个卷积层的输出与第四个卷积层的输出直接相加(Add)，输出得到CCC₀，其尺寸为D/4×H/4×W/4×32；

第一个堆叠沙漏模块结构包含第一卷积层Conv1，第二卷积层Conv2，第三卷积层Conv3，第四卷积层Conv4，第一反卷积层Deconv1，第二反卷积层Deconv2，CCC₀作为第一个堆叠沙漏模块的输入，经过四个3D卷积层，卷积核尺寸均为3×3×3，卷积核个数分别为64、64、128、128，卷积层步长分别为2、1、2、1，扩张因子均为1，之后的两个3D反卷积层，卷积核大小均为3×3×3，卷积核个数分别为64、128，步长均为2，扩张因子均为1；第二卷积层Conv2的输出经过一个1×1×1卷积核，卷积核个数为64，步长为1，扩张因子为1的3D卷积层和一个ReLU层后的输出与第一反卷积层Deconv1的输出直接相加的结果作为第二个3D反卷积层的输入；

该堆叠沙漏模块的输入CCC₀经过一个1×1×1卷积核，卷积核个数为32，步长为1，扩张因子为1的3D卷积层和一个ReLU层得到的输出与第二反卷积层Deconv2的输出直接相加，输出得到CCC₁，其尺寸为D/4×H/4×W/4×32；

第二个堆叠沙漏以CCC₁作为输入，网络结构与第一个堆叠沙漏相同，输出尺寸为D_max/4×H/4×W/4×32的CCC₂；第三个堆叠沙漏以CCC₂作为输入，网络结构与第一个堆叠沙漏相同，输出尺寸为D_max/4×H/4×W/4×32的CCC₃。

6.如权利要求1所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述第四步中，进行视差回归包括：

4.1使用Softmax函数来计算视差真实性概率

视差回归过程中，CCC₀,CCC₁,CCC₂,CCC₃分别经过3×3×3卷积核，卷积核数为32，步长为1，扩张因子为1的卷积层Conv1得到输出维度为D_max/4×H/4×W/4×32；再经过3×3×3卷积核，卷积核数为1，步长为1，扩张因子为1的卷积层Conv2，得到输出维度为D_max/4×H/4×W/4×1；

对第二卷积层输出m进行上采样即双线性插值法，得到四个新代价体MC₀，MC₁，MC₂，MC₃，尺寸均为D_max×H×W×1；

上采样方式中，每个代插值像素P的像素值是由周围的四个已知像素通过公式(12)所得，f表示像素值，P₁₁,P₁₂,P₂₁,P₂₂是待插值像素P周围的四个已知像素；

表示尺度s下匹配代价体

4.2使用Soft Argmin函数进行视差回归

其中s(s＝0,1,2,3)表示不同尺度，对应四个预测视差图的尺度，d是各个视差等级(d＝0,1,…D_max-1)，

表示尺度s下匹配代价体

中预测的视差d是真实视差的概率，

表示各个尺度下的预测视差。

7.如权利要求1所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述第五步进行尺度感知融合，包括：

将预测视差图

分别与左浅层特征图F₁ ^l进行级联，结果再分别输入到四个密集平滑网络0，密集平滑网络1，密集平滑网络2，密集平滑网络3，将上一步骤得到的匹配代价体中预测的视差d，d＝0,1,…D_max-1是在四个尺度上真实视差的概率p₀，p₁，p₂，p₃，其尺寸大小均为D_max×H×W×1，作为一个输入，分别与对应平滑网络输出进行级联，再分别经过一个包含一个卷积核为3×3，核个数为1，步长为1，扩张因子为1的卷积层，一个BN层，一个ReLU层的网络之后，将四个网络的输出结果进行级联，级联结果再顺序经过一个卷积核为3×3，核个数为128，步长为1，扩张因子为1的卷积层，一个BN层，一个ReLU层，和一个卷积核为1×1，核个数为4，步长为1，扩张因子为1的卷积层，获得置信度矩阵w_s(w₀，w₁，w₂，w₃)，其尺寸为H×W×4，表示每个尺度下预测视差的置信度；将该置信度与对应的预测视差图

8.如权利要求1所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述方法属于立体视觉技术领域。

9.如权利要求1所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，所述方法解决了现在立体匹配方法在反射区域以及物体边缘区域匹配效果差的问题。

10.如权利要求1所述的基于密集多尺度信息融合的双目视觉立体匹配方法，其特征在于，在合成数据集SceneFlow与真实数据集KITTI 2015上进行了对比实验，实验结果表明，所述基于密集多尺度信息融合的立体匹配方法的匹配性能优于现有方法。