CN112581517B

CN112581517B - 双目立体匹配装置及方法

Info

Publication number: CN112581517B
Application number: CN202011483165.0A
Authority: CN
Inventors: 彭芳; 谭雨; 于楚泓; 余贵明; 黄锐谦; 吴浩镇
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-02-18
Anticipated expiration: 2040-12-16
Also published as: CN112581517A

Abstract

本发明实施例提供一种双目立体匹配装置及方法，所述装置包括：空间特征提取模块，用于获取双目摄像装置采集并传来的左图像和右图像，并提取出第一空间特征图以及第二空间特征图；语义分割模块，用于提取出第一语义特征图以及第二语义特征图；边界检测模块，用于提取出第一边界特征图以及第二边界特征图；匹配代价构建模块，用于构建出第一匹配代价、第二匹配代价以及第三匹配代价；代价融合模块，用于计算生成与各个阶段对应的融合匹配代价；视差图获取模块，用于逐个阶段计算过渡视差图，并将最后一阶段的过渡视差图进行处理后作为目标视差图计算出目标视差图。本实施例能有效提高在弱纹理区域和纹理重复的区域获得的视差图的准确性。

Description

双目立体匹配装置及方法

技术领域

本发明实施例涉及计算机图像处理技术领域，尤其涉及一种双目立体匹配装置及方法。

背景技术

双目立体视觉在获取图像深度信息上有着低成本、灵活和易实现等优点，因此在机器人导航、自动驾驶和增强现实等众多前沿方向中有着广泛应用。双目立体匹配是利用两台相机从不同的视角对同一场景进行拍摄，通过匹配两个视角图像，来恢复出相应的场景深度信息。立体匹配方法通过在左图像的像素(x，y)的右图像中找到对应的像素(x-d，y)，其中d称为视差，再根据已知的焦距f和两个相机中心之间的基线距离，通过公式f＝T/d计算获得相对深度T。匹配点对的一个潜在假设就是同一表面在左右视点成像是相似的，而在实际成像过程中，左右视点图像存在弱纹理区域和纹理重复等区域，造成左右视点成像的歧义性，使得左视点像素在右视点图像中存在多个对应的匹配点。

目前，为了提高在弱纹理区域和纹理重复等区域的匹配精确度，传统的双目立体匹配方法大都采用PSM-Net网络设计的空间金字塔池化模块扩大感受野、SegStereo模型和DispSegNet模型相结合将语义分割和立体匹配共同构建成匹配网络模型以及GC-Net网络使用堆栈3D卷积层学习说明几何形状的4D匹配代价等手段。上述这些网络模型在对相关数据的处理过程中，都会对相关数据进行下采样操作，其中包括最大池化和跨步卷积，但是，上述这种下采样操作会造成导致预测的视差图中缺失空间边界信息，最终导致获得的视差图计算出的视差准确性较差。

发明内容

本发明实施例要解决的技术问题在于，提供一种双目立体匹配装置，能有效提高在弱纹理区域和纹理重复的区域获得的视差图的准确性。

本发明实施例进一步要解决的技术问题在于，提供一种双目立体匹配方法，能有效提高在弱纹理区域和纹理重复的区域获得的视差图的准确性。

为了解决上述技术问题，本发明实施例提供以下技术方案：一种双目立体匹配装置，包括：

空间特征提取模块，与双目摄像装置相连，用于获取所述双目摄像装置采集并传来的左图像和右图像，并基于预存的空间特征图提取模型从所述左图像提取出多个不同分辨率的第一空间特征图以及从所述右图像中提取出多个不同分辨率的第二空间特征图；

语义分割模块，与所述空间特征提取模块相连，用于根据预存的语义特征图提取模型提取出每个所述第一空间特征图对应的第一语义特征图以及每个所述第二空间特征图对应的第二语义特征图；

边界检测模块，与所述空间特征提取模块相连，用于根据预存的边界特征图提取模型提取出每个所述第一空间特征图对应的第一边界特征图以及每个所述第二空间特征图对应的第二边界特征图；

匹配代价构建模块，与所述空间特征提取模块、语义分割模块和边界检测模块相连，用于将所述多个不同分辨率按照从低至高的顺序分成若干个阶段，在每个阶段，采用基于距离的方法分别构建出针对所述第一空间特征图和第二空间特征图的第一匹配代价、针对所述第一语义特征图和第二语义特征图的第二匹配代价以及针对所述第一边界特征图和第二边界特征图的第三匹配代价；

代价融合模块，与所述匹配代价构建模块相连，用于基于注意力引导机制根据每个阶段的所述第一匹配代价、第二匹配代价及第三匹配代价进行计算生成与各个所述阶段对应的融合匹配代价；以及

视差图获取模块，与所述代价融合模块相连，用于按照分辨率从低到高的顺序依次在各个阶段采用预存的视差解码器对所述融合匹配代价进行解码并视差回归以产生每个阶段的过渡视差图和第一阶段后的每一阶段的过渡残差图，其中，将最后一阶段之前的每一阶段的过渡视差图进行双线性上采样后本阶段对应的倍数与下一阶段的过渡残差图的求和结果作为下一阶段的过渡视差图，而最后一阶段的过渡视差图进行双线性上采样本阶段对应的倍数作为目标视差图，最后一阶段之前的每个阶段对应的分辨率与本阶段对应的倍数的乘积均等于下一阶段的分辨率，最后一阶段之前的分辨率与本阶段对应的倍数的乘积等于目标视差图的分辨率。

进一步的，所述匹配代价构建模块包括：

第一代价计算单元，用于采用基于距离的方法分别构建出第一阶段对应的第一匹配代价、第二匹配代价和第三匹配代价；

特征处理单元，用于从第二阶段开始，在每个阶段将前一阶段对应的过渡视差图进行双线性上采样至当前阶段对应的分辨率后与当前阶段对应的第二空间特征图、第二语义特征图和第二边界特征图进行扭曲操作以获得当前阶段的过渡空间特征图、过渡语义特征图和过渡边界特征图；以及

第二代价计算单元，用于从第二阶段开始，在每个阶段采用基于距离的方法分别构建出针对当前阶段的所述第一空间特征图和过渡空间特征图的第一匹配代价、针对所述第一语义特征图和过渡语义特征图的第二匹配代价以及针对所述第一边界特征图和过渡边界特征图的第三匹配代价。

进一步的，所述空间特征图提取模型为预先训练好的ResNet50网络模型。

进一步的，所述代价融合模块包括：

注意图生成单元，用于采用所述第一匹配代价生成注意图；以及

计算单元，用于根据所述注意图、第一匹配代价、第二匹配代价和第三匹配代价计算生成与各个所述阶段对应的融合匹配代价。

进一步的，所述视差解码器是基于堆积的3D卷积层的视差解码器。

另一方面，为了解决上述技术问题，本发明实施例提供以下技术方案：一种双目立体匹配方法，包括以下步骤：

获取双目摄像装置采集并传来的左图像和右图像，并基于预存的空间特征图提取模型从所述左图像提取出多个不同分辨率的第一空间特征图以及从所述右图像中提取出多个不同分辨率的第二空间特征图；

根据预存的语义特征图提取模型提取出每个所述第一空间特征图对应的第一语义特征图以及每个所述第二空间特征图对应的第二语义特征图；

根据预存的边界特征图提取模型提取出每个所述第一空间特征图对应的第一边界特征图以及每个所述第二空间特征图对应的第二边界特征图；

将所述多个不同分辨率按照从低至高的顺序分成若干个阶段，在每个阶段，采用基于距离的方法分别构建出针对所述第一空间特征图和第二空间特征图的第一匹配代价、针对所述第一语义特征图和第二语义特征图的第二匹配代价以及针对所述第一边界特征图和第二边界特征图的第三匹配代价；

基于注意力引导机制根据每个阶段的所述第一匹配代价、第二匹配代价及第三匹配代价进行计算生成与各个所述阶段对应的融合匹配代价；以及

按照分辨率从低到高的顺序依次在各个阶段采用预存的视差解码器对所述融合匹配代价进行解码并视差回归以产生每个阶段的过渡视差图和第一阶段后的每一阶段的过渡残差图，其中，将最后一阶段之前的每一阶段的过渡视差图进行双线性上采样后本阶段对应的倍数与下一阶段的过渡残差图的求和结果作为下一阶段的过渡视差图，而最后一阶段的过渡视差图进行双线性上采样本阶段对应的倍数作为目标视差图，最后一阶段之前的每个阶段对应的分辨率与本阶段对应的倍数的乘积均等于下一阶段的分辨率，最后一阶段之前的分辨率与本阶段对应的倍数的乘积等于目标视差图的分辨率。

进一步的，所述将所述多个不同分辨率按照从低至高的顺序分成若干个阶段，在每个阶段，采用基于距离的方法分别构建出针对所述第一空间特征图和第二空间特征图的第一匹配代价、针对所述第一语义特征图和第二语义特征图的第二匹配代价以及针对所述第一边界特征图和第二边界特征图的第三匹配代价具体包括：

采用基于距离的方法分别构建出第一阶段对应的第一匹配代价、第二匹配代价和第三匹配代价；

从第二阶段开始，在每个阶段将前一阶段对应的过渡视差图进行双线性上采样至当前阶段对应的分辨率后与当前阶段对应的第二空间特征图、第二语义特征图和第二边界特征图进行扭曲操作以获得当前阶段的过渡空间特征图、过渡语义特征图和过渡边界特征图；以及

从第二阶段开始，在每个阶段采用基于距离的方法分别构建出针对当前阶段的所述第一空间特征图和过渡空间特征图的第一匹配代价、针对所述第一语义特征图和过渡语义特征图的第二匹配代价以及针对所述第一边界特征图和过渡边界特征图的第三匹配代价。

进一步的，所述基于注意力引导机制根据每个阶段的所述第一匹配代价、第二匹配代价及第三匹配代价进行计算生成与各个所述阶段对应的融合匹配代价具体包括：

采用所述第一匹配代价生成注意图；以及

根据所述注意图、第一匹配代价、第二匹配代价和第三匹配代价计算生成与各个所述阶段对应的融合匹配代价。

采用上述技术方案后，本发明实施例至少具有如下有益效果：本发明实施例首先通过提取出与多个不同分辨率对应的第一空间特征图和第二空间特征图，再从第一空间特征图和第二空间特征图中对应提取出第一语义特征图和第二语义特征图以及第一边界特征图和第二边界特征图，然后对应的基于距离计算出第一匹配代价、第二匹配代价和第三匹配代价后，通过根据注意力引导机制计算生成对应的融合匹配代价，将三者的匹配代价相互融合，可有效的提高视差估计的准确性，最后按照分辨率从低到高的顺序依次在各个阶段依次获得过渡视差图，直至最后一阶段的过渡视差图进行双线性上采样本阶段对应的倍数作为目标视差图，能有效的提高在弱纹理区域和纹理重复的区域视差估计的准确性。

附图说明

图1为本发明双目立体匹配装置一个可选实施例的原理结构框图。

图2为本发明双目立体匹配装置一个可选实施例匹配代价构建模块具体的结构框图。

图3为本发明双目立体匹配装置一个可选实施例代价融合模块具体的结构框图。

图4为本发明双目立体匹配方法一个可选实施例的步骤流程图。

图5为本发明双目立体匹配方法一个可选实施例步骤S3具体的流程图。

图6为本发明双目立体匹配方法一个可选实施例步骤S4具体的流程图。

具体实施方式

下面结合附图和具体实施例对本申请作进一步详细说明。应当理解，以下的示意性实施例及说明仅用来解释本发明，并不作为对本发明的限定，而且，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

如图1所示，本发明一个可选实施例提供一种双目立体匹配装置1，包括：

空间特征提取模块10，与双目摄像装置3相连，用于获取所述双目摄像装置3采集并传来的左图像和右图像，并基于预存的空间特征图提取模型从所述左图像提取出多个不同分辨率的第一空间特征图以及从所述右图像中提取出多个不同分辨率的第二空间特征图；

语义分割模块12，与所述空间特征提取模块10相连，用于根据预存的语义特征图提取模型提取出每个所述第一空间特征图对应的第一语义特征图以及每个所述第二空间特征图对应的第二语义特征图；

边界检测模块14，与所述空间特征提取模块10相连，用于根据预存的边界特征图提取模型提取出每个所述第一空间特征图对应的第一边界特征图以及每个所述第二空间特征图对应的第二边界特征图；

匹配代价构建模块15，与所述空间特征提取模块10、语义分割模块12和边界检测模块14相连，用于将所述多个不同分辨率按照从低至高的顺序分成若干个阶段，在每个阶段，采用基于距离的方法分别构建出针对所述第一空间特征图和第二空间特征图的第一匹配代价、针对所述第一语义特征图和第二语义特征图的第二匹配代价以及针对所述第一边界特征图和第二边界特征图的第三匹配代价；

代价融合模块16，与所述匹配代价构建模块15相连，用于基于注意力引导机制根据每个阶段的所述第一匹配代价、第二匹配代价及第三匹配代价进行计算生成与各个所述阶段对应的融合匹配代价；以及

视差图获取模块18，与所述代价融合模块16相连，用于按照分辨率从低到高的顺序依次在各个阶段采用预存的视差解码器对所述融合匹配代价进行解码并视差回归以产生每个阶段的过渡视差图和第一阶段后的每一阶段的过渡残差图，其中，将最后一阶段之前的每一阶段的过渡视差图进行双线性上采样后本阶段对应的倍数与下一阶段的过渡残差图的求和结果作为下一阶段的过渡视差图，而最后一阶段的过渡视差图进行双线性上采样本阶段对应的倍数作为目标视差图，最后一阶段之前的每个阶段对应的分辨率与本阶段对应的倍数的乘积均等于下一阶段的分辨率，最后一阶段之前的分辨率与本阶段对应的倍数的乘积等于目标视差图的分辨率。

本发明实施例首先通过提取出与多个不同分辨率对应的第一空间特征图和第二空间特征图，再从第一空间特征图和第二空间特征图中对应提取出第一语义特征图和第二语义特征图以及第一边界特征图和第二边界特征图，然后对应的基于距离计算出第一匹配代价、第二匹配代价和第三匹配代价后，通过根据注意力引导机制计算生成对应的融合匹配代价，将三者的匹配代价相互融合，可有效的提高视差估计的准确性，最后按照分辨率从低到高的顺序依次在各个阶段依次获得过渡视差图，直至最后一阶段的过渡视差图进行双线性上采样本阶段对应的倍数作为目标视差图，能有效的提高在弱纹理区域和纹理重复的区域视差估计的准确性。

在本发明一个可选实施例中，如图2所示，所述匹配代价构建模块15包括：

第一代价计算单元151，用于采用基于距离的方法分别构建出第一阶段对应的第一匹配代价、第二匹配代价和第三匹配代价；

特征处理单元153，用于从第二阶段开始，在每个阶段将前一阶段对应的过渡视差图进行双线性上采样至当前阶段对应的分辨率后与当前阶段对应的第二空间特征图、第二语义特征图和第二边界特征图进行扭曲操作以获得当前阶段的过渡空间特征图、过渡语义特征图和过渡边界特征图；以及

第二代价计算单元155，用于从第二阶段开始，在每个阶段采用基于距离的方法分别构建出针对当前阶段的所述第一空间特征图和过渡空间特征图的第一匹配代价、针对所述第一语义特征图和过渡语义特征图的第二匹配代价以及针对所述第一边界特征图和过渡边界特征图的第三匹配代价。

本实施例通过第一代价计算单元151首先构建出第一阶段对应的各个匹配代价，进一步通过特征处理单元123对前一阶段分辨率对应的过渡视差图进行相应的处理后与第二空间特征图、第二语义特征图和第二边界特征图进行扭曲(warp)操作形成过渡空间特征图、过渡语义特征图和过渡边界特征图，并再由第二代价计算单元125从第二阶段开始将第一空间特征图和过渡空间特征图、第一语义特征图和过渡语义特征图及第一边界特征图和过渡边界特征图进行构建其余的匹配代价，能有效的提高对视差估计的准确性。

在本发明一个可选实施例中，所述空间特征图提取模型为预先训练好的ResNet50网络模型。本发明实施例中，空间特征图提取模型采用ResNet50网络模型，提取效率高，能有效获得第一空间特征图和第二空间特征图。

在本发明一个可选实施例中，如图3所示，所述代价融合模块16包括：

注意图生成单元161，用于采用所述第一匹配代价生成注意图；以及

计算单元163，用于根据所述注意图、第一匹配代价、第二匹配代价和第三匹配代价计算生成与各个所述阶段对应的融合匹配代价。

本实施例通过注意图生成单元161采用所述第一匹配代价生成注意图，进一步计算单元163结合注意图和各个匹配代价，在各个阶段进行权重计算，即可得出整体的融合匹配代价，计算效率高。

在本发明一个可选实施例中，所述视差解码器是基于堆积的3D卷积层的视差解码器。本实施例中，视差解码器采用基于堆积的3D卷积层的视差解码器，视差解码效果好，视差计算效率高。

另一方面，如图4所示，本发明实施例提供一种双目立体匹配方法，包括以下步骤：

S1：获取双目摄像装置3采集并传来的左图像和右图像，并基于预存的空间特征图提取模型从所述左图像提取出多个不同分辨率的第一空间特征图以及从所述右图像中提取出多个不同分辨率的第二空间特征图；

S2a：根据预存的语义特征图提取模型提取出每个所述第一空间特征图对应的第一语义特征图以及每个所述第二空间特征图对应的第二语义特征图；

S2b：根据预存的边界特征图提取模型提取出每个所述第一空间特征图对应的第一边界特征图以及每个所述第二空间特征图对应的第二边界特征图；

S3：将所述多个不同分辨率按照从低至高的顺序分成若干个阶段，在每个阶段，采用基于距离的方法分别构建出针对所述第一空间特征图和第二空间特征图的第一匹配代价、针对所述第一语义特征图和第二语义特征图的第二匹配代价以及针对所述第一边界特征图和第二边界特征图的第三匹配代价；

S4：基于注意力引导机制根据每个阶段的所述第一匹配代价、第二匹配代价及第三匹配代价进行计算生成与各个所述阶段对应的融合匹配代价；以及

S5：按照分辨率从低到高的顺序依次在各个阶段采用预存的视差解码器对所述融合匹配代价进行解码并视差回归以产生每个阶段的过渡视差图和第一阶段后的每一阶段的过渡残差图，其中，将最后一阶段之前的每一阶段的过渡视差图进行双线性上采样后本阶段对应的倍数与下一阶段的过渡残差图的求和结果作为下一阶段的过渡视差图，而最后一阶段的过渡视差图进行双线性上采样本阶段对应的倍数作为目标视差图，最后一阶段之前的每个阶段对应的分辨率与本阶段对应的倍数的乘积均等于下一阶段的分辨率，最后一阶段之前的分辨率与本阶段对应的倍数的乘积等于目标视差图的分辨率。在具体实施时，可以理解的是，所述步骤S2a和S2b可以不分先后顺序执行，由步骤S2a和S2b共同组成步骤S2。

本发明实施例通过上述方法，首先提取出与多个不同分辨率对应的第一空间特征图和第二空间特征图，再从第一空间特征图和第二空间特征图中对应提取出第一语义特征图和第二语义特征图以及第一边界特征图和第二边界特征图，然后对应的基于距离计算出第一匹配代价、第二匹配代价和第三匹配代价后，通过根据注意力引导机制计算生成对应的融合匹配代价，将三者的匹配代价相互融合，可有效的提高视差估计的准确性，最后按照分辨率从低到高的顺序依次在各个阶段依次获得过渡视差图，直至最后一阶段的过渡视差图进行双线性上采样本阶段对应的倍数作为目标视差图，能有效的提高在弱纹理区域和纹理重复的区域视差估计的准确性。

在本发明一个可选实施例中，如图5所示，所述步骤S3具体包括：

S31：采用基于距离的方法分别构建出第一阶段对应的第一匹配代价、第二匹配代价和第三匹配代价；

S32：从第二阶段开始，在每个阶段将前一阶段对应的过渡视差图进行双线性上采样至当前阶段对应的分辨率后与当前阶段对应的第二空间特征图、第二语义特征图和第二边界特征图进行扭曲操作以获得当前阶段的过渡空间特征图、过渡语义特征图和过渡边界特征图；以及

S33：从第二阶段开始，在每个阶段采用基于距离的方法分别构建出针对当前阶段的所述第一空间特征图和过渡空间特征图的第一匹配代价、针对所述第一语义特征图和过渡语义特征图的第二匹配代价以及针对所述第一边界特征图和过渡边界特征图的第三匹配代价。

本实施例通过上述方法，首先构建出第一阶段对应的各个匹配代价，进一步通过对前一阶段分辨率对应的过渡视差图进行相应的处理后与第二空间特征图、第二语义特征图和第二边界特征图进行扭曲(warp)操作形成过渡空间特征图、过渡语义特征图和过渡边界特征图，并再由从第二阶段开始将第一空间特征图和过渡空间特征图、第一语义特征图和过渡语义特征图及第一边界特征图和过渡边界特征图进行构建其余的匹配代价，能有效的提高对视差估计的准确性。

在本发明一个可选实施例中，所述空间特征图提取模型为预先训练好的ResNet50网络模型。本发明实施例中，空间特征图提取模型采用ResNet50网络模型，可预先训练好，提取效率高，能有效获得第一空间特征图和第二空间特征图。

在本发明再一个可选实施例中，如图6所示，所述步骤S4具体包括：

S41：采用所述第一匹配代价生成注意图；以及

S42：根据所述注意图、第一匹配代价、第二匹配代价和第三匹配代价计算生成与各个所述阶段对应的融合匹配代价。

本实施例通过上述方法，采用所述第一匹配代价生成注意图，进一步结合注意图和各个匹配代价，在各个阶段进行权重计算，即可得出整体的融合匹配代价，计算效率高。

在具体实施时，所述空间特征图提取模型为ResNet50卷积网络模型，各个所述分辨率对应依次为1/4、1/8、1/16和1/32，其中1/32分辨率对应的第一空间特征图和第二空间特征图、第一语义特征图和第二语义特征图以及第一边界特征图和第二边界特征图仅用于进行语义分割和边界检测，可提高整体的匹配效率。

在具体进行双目立体匹配时，首先将左图像和右图像输入至ResNet50网络模型得到分辨率为1/4、1/8、1/16、1/32的第一空间特征图和第二空间特征图，在预存的语义特征图提取模型和边界特征图提取模型均采用相应的子网络，而且两者的网络节后设计以及参数设计相同，基本过程为：首先1/32分辨率的第一空间特征图和第二空间特征图先经过1x1卷积，得到初步特征图M5，再进行上采样，并与1/16分辨率的第一空间特征图和第二空间特征图进行连接操作，然后经过1x1卷积后的M4层特征图，然后1/16分辨率的第一空间特征图和第二空间特征图经过1x1卷积后的M4层特征图。循环两次后，分别得到特征图M3、M2，进一步M5、M4、M3及M2层特征图再经过3x3卷积(卷积的层数分别为1，1，2，3)，得到最终的P5、P4、P3、P2层特征，最后将其中P5、P4、P3特征进行双线性插值上采样运算各个分辨率均与P2特征相同，最后将双线性插值上采样后的P5、P4、P3以及P2进行级联并采用卷积层进行预测后输出，其中将P4、P3、P2特征输入至相应匹配代价构建模型中去生成相应分辨率的匹配代价以辅助视差生成，即生成第一语义特征图和第二语义特征图以及第一边界特征图和第二边界特征图。

在具体实施时，所述第一匹配代价由所述第一空间特征图和第二空间特征图构建，或者由所述第一空间特征图和过渡空间特征图构建；所述第二匹配代价由所述第一语义特征图和第二语义特征图在双线性插值上采样并执行级联预测之前构建，或者由所述第一语义特征图和过渡语义特征图在双线性插值上采样并执行级联预测之前构建；所述第三匹配代价由所述第一边界特征图和第二边界特征图在双线性插值上采样并执行级联预测之前构建，或者由所述第一边界特征图和过渡边界特征图在双线性插值上采样并执行级联预测之前构建。

首先，设定左图像为X_L和右图像为X_R，通过ResNet50卷积网络模型的提取得到第一空间特征

和第一空间特征

其中，i表示对应的分辨率，L和R对应表示左和右，在分别经过语义特征提取模型和边界特征提取模型，对应获得第一语义特征图

和第二语义特征图

以及第一边界特征图

和第二边界特征图

根据第一空间特征

和第一空间特征

构建出第一匹配代价

根据第一语义特征图

和第二语义特征图

构建出第二匹配代价

根据第一边界特征图

和第二边界特征图

构建出第三匹配代价

然后，采用所述第一匹配代价

生成注意图G进行选择，注意图计算公式为

其中，W_f表示卷积核参数，σ表示用于对注意力图进行归一化的S型函数，综合上述，得出所述融合匹配代价的计算公式为：

其中·表示点乘，W_s和W_b分别代表卷积核参数。

最后，计算出分辨率为1/16的第一匹配代价、第二匹配代价和第三匹配代价，计算出分辨率为1/16的融合匹配代价后，采用由4个3×3卷积和ReLU层以及BatchNormlization层(具有16个通道)组成的视差解码器对分辨率为1/16的融合匹配代价进行解码，经过视差回归后，获得最低分辨率(1/16)的过渡视差图D3；在下一阶段中，将过渡视差图D3进行双线性插值上采样至分辨率1/8后与第二空间特征图、第二语义特征图和第二边界特征图分别进行warp操作得到分辨率1/8的过渡空间特征图、过渡语义特征图和过渡边界特征图，再将分辨率1/8的过渡空间特征图、过渡语义特征图和过渡边界特征图和分辨率1/8的第一空间特征图、第一语义特征图和第一边界特征图同样计算出分辨率1/8的融合匹配代价，在采用由4个3×3卷积、ReLU层和BatchNormlization层(具有4个通道数)组成的视差解码器解码，视差回归后会产生残差图表明过渡视差图D3中每个像素可能高于或低于真实视差的值的大小，因此，分辨率1/8的过渡视差图D2是分辨率1/8的过渡残差图和上采样的过渡视差图D3之和；接下来一个阶段，将过渡视差图D2进行双线性插值上采样到分辨率1/4后与分辨率1/4的第二空间特征图、第二语义特征图和第二边界特征图分别进行warp操作得到分辨率1/4的过渡空间特征图、过渡语义特征图和过渡边界特征图，再将分辨率1/4的过渡空间特征图、过渡语义特征图和过渡边界特征图和分辨率1/4的第一空间特征图、第一语义特征图和第一边界特征图同样计算出分辨率1/4的融合匹配代价，再采用由4个3×3卷积、ReLU层和BatchNormlization层(具有4个通道数)组成的视差解码器解码，分辨率1/4的过渡视差图D1是分辨率1/4的过渡残差图和双线性上采样的分辨率1/8的过渡视差图D2之和，由于分辨率1/4为最大分辨率，因此将分辨率1/4的过渡视差图D1进行双线性上采样4倍使分辨率1/4与4倍的乘积等于1即获得目标视差图。

另外，可以理解的是，在对所述ResNet50网络模型进行预训练时，训练网络需要使用的损失函数，包括视差损失函数loss_disp，语义损失函数loss_seg和边界损失函数loss_bound，计算公式如下：loss＝λ_dloss_disp+λ_sloss_seg+λ_bloss_bound，其中通过调整参数λ_d、λ_s和λ_b以控制三个损失函数之间的权重，边界损失函数loss_bound采用的是二进制交叉熵损失以比较预测值和地面真实值的差异，语义分割损失函数loss_bound是标准的交叉熵损失函数，另外，语义损失和边界损失均包括输入左图像得到的预测值与真实值之间的损失以及输入左图像得到的预测值与真实值之间的损失。而对于视差损失部分，本发明实施例的视差网络有设计时有三个输出，采用的是平滑的L1损失函数定义为：

其中d表示视差地面真实值，

表示预测图，在实际计算时，视差损失是由三个损失经过加权得到的，计算公式为

其中α₁、α₂和α₃为权重值，在具体设计时将具体数值可以分别设定为0.25、0.5和1。

根据本发明实施例具体检测，首先我们用四种方案来进行评估模型，分别为仅使用视差网络模型、视差网络模型结合语义分割模型、视差网络模型结合边界检测模型以及视差网络模型结合添加语义分割模型和边界检测模型，上述四种方式的消融研究的结果如下表所示：

评估模型分类	D1-all
		视差网络模型	3.89
视差网络模型结合语义分割模型	2.91
		视差网络模型结合边界检测模型	3.03
视差网络模型结合添加语义分割模型和边界检测模型	1.72

其中，表中的D1-all表示前景与背景区域总体的视差错误百分比对于预测图像中每一个经过标记的像素点，预测的视差值与真实的视差值误差大于3认为此点视差值判断错误，小于3认为此点视差值判断正确，可以理解的是D1-all数值是越小则表示视差精度越高，根据上述数据可以明显得出看出，在视差网络模型结合添加语义分割模型和边界检测模型，对视差的精度具有有效的改善作用。其中，添加语义分割模型精度提高了0.98％，其中增加边界检测模型精度增加了0.86％，将语义分割分支和边界检测分支都添加上，最终效果出现相互叠加，D1-all值为1.72％，相较于仅使用视差网络模型减小了2.17％。

进一步的，本发明实施例与传统双目立体匹配方法中采用的网络结构模型进行比较，例如：PSMNet、SegStereo以及GCNet，比较结果如下表所示：

立体双目匹配模型	D1-all
		PSMNet	2.32
SegStereo	2.25
		GCNet	2.30
本发明实施例	1.72

其中的D1-all值分别为2.32％，2.25％以及2.2％，而本发明实施例的D1-all值为1.72％，可以明显看出小于传统网络结构。因此，本发明实施例提出的将语义分割、边缘检测和视差估计相结合的双目立体匹配方法有利于提高视差估计的准确性。

本发明实施例所述的功能如果以软件功能模块或单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护范围之内。

Claims

1.一种双目立体匹配装置，其特征在于，所述装置包括：

2.如权利要求1所述的双目立体匹配装置，其特征在于，所述匹配代价构建模块包括：

3.如权利要求1所述的双目立体匹配装置，其特征在于，所述空间特征图提取模型为预先训练好的ResNet50网络模型。

4.如权利要求1所述的双目立体匹配装置，其特征在于，所述代价融合模块包括：

5.如权利要求1所述的双目立体匹配装置，其特征在于，所述视差解码器是基于堆积的3D卷积层的视差解码器。

6.一种双目立体匹配方法，其特征在于，所述方法包括以下步骤：

7.如权利要求6所述的双目立体匹配方法，其特征在于，所述将所述多个不同分辨率按照从低至高的顺序分成若干个阶段，在每个阶段，采用基于距离的方法分别构建出针对所述第一空间特征图和第二空间特征图的第一匹配代价、针对所述第一语义特征图和第二语义特征图的第二匹配代价以及针对所述第一边界特征图和第二边界特征图的第三匹配代价具体包括：采用基于距离的方法分别构建出第一阶段对应的第一匹配代价、第二匹配代价和第三匹配代价；

8.如权利要求6所述的双目立体匹配方法，其特征在于，所述空间特征图提取模型为预先训练好的ResNet50网络模型。

9.如权利要求6所述的双目立体匹配方法，其特征在于，所述基于注意力引导机制根据每个阶段的所述第一匹配代价、第二匹配代价及第三匹配代价进行计算生成与各个所述阶段对应的融合匹配代价具体包括：

采用所述第一匹配代价生成注意图；以及

10.如权利要求6所述的双目立体匹配方法，其特征在于，所述视差解码器是基于堆积的3D卷积层的视差解码器。