CN116485697A

CN116485697A - 基于图像块匹配和视差优化的立体匹配方法

Info

Publication number: CN116485697A
Application number: CN202310466976.7A
Authority: CN
Inventors: 李旭琛
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-25

Abstract

本发明提供一种基于图像块匹配和视差优化的立体匹配方法，涉及计算机视觉领域。包括以下步骤：(1)特征提取，获得具有特征描述符的图像块作为贴图标签；(2)初始化，得到在不同分辨率下提取每个分块的初始视差数据d和特征向量P；(3)特征传播，将特征提取阶段的特征从右图像warp到左图像，以便预测到输入贴图标签的精确偏移量；(4)贴图更新，将贴图内的所有视差按±1的偏移量进行位移，并计算三次局部匹配代价。得到输入贴图t更新后的贴图a；(5)视差优化，对初始视察图在各级分辨率下进行迭代优化，得到最终的全分辨率视差结果。

Description

基于图像块匹配和视差优化的立体匹配方法

技术领域

本发明涉及一种立体图像对的视差估计方法，更具体的说是涉及一种基于图像块匹配和视差优化的立体匹配方法，属于计算机视觉领域。

背景技术

机器视觉领域目前采用主动式传感技术和被动式传感技术来获取图像深度信息。主动式传感技术包括飞行时间(time offlight,TOF)、结构光和激光雷达，但存在分辨率、传感距离、光源影响和成本昂贵等问题。相比之下，被动式传感技术中双目立体视觉具有低成本、易实现和易扩展等优点。因此，在无人驾驶、增强现实和智能机器人等领域中，双目立体视觉得到广泛应用，并具有巨大的应用前景和社会意义。

双目立体视觉是机器视觉领域的重要分支。自上世纪60年代中期以来，该技术得到了广泛的研究和应用。随着计算机硬件和算法的不断发展，双目立体视觉在计算机视觉、自动驾驶、遥感测绘、缺陷检测、三维重建等领域应用极为广泛。它的基本原理类似于人眼，通过左右眼视角的差异来获取物体在不同视角下的图像信息，利用三角定位法来获得二维图像上的一点在三维空间内的位置坐标，并通过相关的三维重建技术来获得重建目标的三维信息。

一个完整的双目立体视觉系统由多个部分组成，包括图像获取、相机标定、特征提取、立体匹配、深度确定和重建等。其中，双目立体视觉的核心步骤是立体匹配，它对于最终结果具有重要的影响。在进行立体匹配时，需要经过校正的左右图像，使用匹配搜索算法来寻找对应像素点，并计算出左右视差值。这类方法的难点在于左右相机图片的匹配，匹配的精确程度会直接影响最后算法成像的效果，理论上此方法可以较精确的恢复深度信息，然而实际运用中其精度往往受到拍摄条件的制约：由于真实场景的复杂性，图像可能会受到光照影响产生噪点，或者由于物体遮挡、无纹理区域和弱纹理区域的自身特点，导致匹配出现错误，从而影响视差精度。因此，立体匹配是一个既困难又具有挑战性的问题，吸引了国内外许多学者的广泛关注。

在深度学习不断发展的今天，许多基于深度学习的立体匹配方法应运而生。相比于传统的立体匹配方法，基于深度学习的立体匹配方法省时省力。根据是否脱离传统方法的框架，跳出四个主要步骤来分类，将基于深度学习的方法分为非端到端方法与端到端方法。

早期基于深度学习的立体匹配算法通常致力于在传统立体匹配方法4个步骤中的某一个或几个步骤进行单独的优化设计，如通过一个小神经网络去计算两个图像块的匹配代价；或者设计一个网络结构来进行代价聚合；或者通过一个神经网络去进行视差图的后处理工作。非端到端的深度学习方法，本质上仍未脱离传统方法的框架，因此同样有着传统方法所具有的局限性，通常仍然需要依靠手动添加视差后处理步骤，导致了其计算量大和耗时长的缺陷。由于上述原因，基于深度学习的端到端立体匹配方法逐渐成为研究热点，当前，端到端方法已然在立体匹配任务中占据了主导地位。

目前，在复杂场景下，大多数立体匹配网络的不适定区域匹配精度仍然存在较大挑战。此外，双目立体匹配需要进行大量计算，因此需要消耗大量的时间和计算资源，这对于需要实时性能的应用来说是一个问题。

发明内容

有鉴于此，本发明提供了一种基于图像块匹配和视差优化的立体匹配方法，通过图像块匹配和视差优化，降低立体匹配的匹配误差，并提高算法的运行速度，使得双目立体匹配能够更适用于既有实时性要求的实际应用中。

为实现上述目的，本发明采用如下之技术方案：

一种基于图像块匹配和视差优化的立体匹配方法，包括以下步骤：

(1)利用Vision Transformer进行图像特征提取：

选择利用Vision Transformer和SPP进行特征提取操作，通过将左右图像分割为patch作为输入，输出多级分辨率的带有可学习特征的planarpatch；将其作为一个贴图，一个贴图代表的是原图像4*4的一个窗口；

(2)不同分辨率下的初始化和初始视差计算：

定义一种贴图标签，其具有可学习特征的平面patch，由一个描述视差d以及x,y方向上的视差梯度(d_x,d_y)的斜面的几何部分，以及一个可学习的贴图特征描述符p构成；

(3)特征传播：

在内部将特征提取阶段的特征从右图像warp到左图像，使用一个额外的置信度参数，将来自上一个传播层和初始化阶段的贴图之间进行有效融合，利用局部视差，将右侧图像的特征沿着scan line进行线性插值，将其映射到左侧图像中；

(4)贴图更新：

以n个贴图标签作为输入，预测贴图标签的增量，以及每个贴图的标量值w，表示该贴图正确的概率，即置信度；通过在视差空间的微小邻域内进行贴图更新；

(5)视差优化：

更新模块以分层迭代的方式作用于网络；通过将输入贴图标签和增量相加完成贴图更新，并在每个方向上对贴图进行2倍的上采样；重复上述过程，直到分辨率到达第0层，即对应全视差分辨率和4*4的贴图大小。

优选的，根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(1)的具体方法为：定义一种贴图标签，它是一种具有可学习特征的平面patch；具体由两部分构成：一个描述视差d以及x,y方向上的视差梯度(d_x,d_y)的斜面的几何部分，以及一个可学习的p，将它称为贴图特征描述符；将特征提取器实现为类似于ViT的架构，并在后面增加一个SPP模块进行降采样来获得多级分辨率；分别在左右图像上运行特征提取器，并获得两个多尺度表示ε^L和ε^R。

优选的，根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(2)的具体方法为：根据构建的初始化网络，对步骤(1)中的特征贴图进行初始化操作，提取每个贴图在各种分辨率下的初始视差d^init和特征向量p^init，输出一个垂直平面上的贴图标签，将其表示为：t^init＝[d^init,0,0,p^init]。

优选的，根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(3)的具体方法为：由步骤(2)得到具有初始视差和特征信息的贴图标签，将其作为输入，并基于信息的空间传播和信息融合输出更细化的新贴图标签，根据视差和梯度，利用贴图标签算出贴图内每个点的局部视差d'，利用局部视差，将右侧图像的特征沿着scan line进行线性插值，将其映射到左侧图像中。

优选的，所述步骤(4)的具体方法为：以n个贴图标签作为输入，预测贴图标签的增量，以及每个贴图的标量值w，表示该贴图正确的概率，即置信度；通过在视差空间的微小邻域内进行贴图更新，建立一个局部代价体，从而使网络能够有效地优化贴图标签。

优选的，根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(5)的具体方法为：更新模块以分层迭代的方式作用于网络；当处于最低分辨率l＝M时，此时每个位置仅有一个经过初始化后的贴图标签，因此n＝1；通过将输入贴图标签和增量相加完成贴图更新，并在每个方向上对贴图进行2倍的上采样；利用wⁱ来选择每个位置具有最高置信度的更新预测对贴图标签进行迭代；接下来重复上述过程，直到分辨率到达第0层，即对应整个实验的全视差分辨率和4*4的贴图大小。

本发明与现有技术相比具有明显的优点和有益效果，具体而言，由上述技术方案可知：

本发明主要提出了一种基于图像块匹配和视差优化的立体匹配方法，主要可以解决以下问题：

1)针对传统立体匹配算法和深度学习的非端到端方法每一阶段的都需要进行人工设计优化，每一阶段都十分依赖上一阶段的精度的问题，本发明采取端到端立体匹配方法，通过对一个图像区域中的所有patch进行重复搜索，以获得另一个图像区域中最相似的patch，patch作为一个块，其比单个像素所包含的信息更多，因此可以获得更高的匹配精度。

2)针对当前立体匹配方法在应用过程中，参数量大，计算时间长，无法满足实时性应用需求的问题，本发明通过对初始视差的迭代优化，虽然初始化阶段会穷举计算所有视差的匹配，但不需要存储整个代价体。只需要提取最佳匹配的位置，就可以非常高效地完成计算，将单幅图像的运行速度提高到了0.04s，满足了实时性应用的要求。

附图说明

图1为本发明实施例的双目立体匹配方法的流程图；

图2为本发明实施例的warp操作示意图:

图3为本发明实施例的传播和细化操作示意图；

图4为本发明实施例的输入图像；

图5为本发明实施例的视差估计结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。

本发明实施例公开了一种基于图像块匹配和视差优化的立体匹配方法，可以有效提高双目匹配的性能，得到更好的匹配结果；通过特征传播的方式对初始视差进行优化，舍弃了大量的卷积运算，匹配速度显著提升。下面将对本发明提供的一种基于图像块匹配和视差优化的立体匹配方法，通过具体实施例来进行详细说明。

参考图1所示的双目立体匹配方法的流程图，本发明的一种基于图像块匹配和视差优化的立体匹配方法包括以下步骤：

步骤1：图像特征提取：

为了更高效的获得具有特征描述符的图像块，本发明实例选择利用VisionTransformer和SPP进行特征提取操作，通过将左右图像分割为patch作为输入，输出多级分辨率的带有可学习特征的planarpatch。将其作为一个贴图，类似于图片中每个点的特征，每个贴图也有一个特征描述，由表达几何信息的平面描述和通过网络学习到的特征描述组成。

特征提取器生成一组多尺度特征图ε＝{e₀,…,e_M}，用于初始匹配和在传播级中的warping。将特征图表示为e_l，并将其在分辨率l∈0,…,M下的位置(x,y)的嵌入向量表示为e_l,x,y，其中0表示原始图像分辨率，M表示下采样分辨率为2^M×2^M。单个嵌入向量e_l,x,y由多个特征通道组成。将特征提取器实现为类似于ViT的架构，并在后面增加一个SPP模块进行降采样来获得多级分辨率。分别在左右图像上运行特征提取器，并获得两个多尺度表示ε^L和ε^R。

步骤2：初始化：

根据构建的初始化网络，对步骤1中的特征贴图进行初始化操作。为了保持初始视差图的完整分辨率，沿着x方向对贴图进行重叠。为了提取tile的特征，对每个提取的特征图e_l进行4*4的卷积，其中左视图和右视图的步幅是不同的，以方便前面提到的重叠贴图，对于左视图，将步长设置为4*4，而对于右视图，使用了4*1的步长。这个卷积之后是一个leaky ReLU和一个1*1的卷积。此步骤的输出是一组新的特征映射每个贴图具有特征/>此时，左右视图的特征图/>和/>中的宽度是不同的。每个贴图的特征均沿着扫描线匹配。将位置(x,y)和分辨率l处的视差d的匹配成本定义为/>

然后计算初始视差，如公式(3)所示：

对于分辨率l下的位置(x,y)，其中D是设置的最大视差阈值。虽然初始化阶段会穷举计算所有视差的匹配，但不需要存储整个代价体。在测试时，只需要提取最佳匹配的位置，就可以非常高效地完成计算。因此，无需存储和处理三维代价体。

初始化过程会对每一个分辨率l下的位置(x,y)添加一个特征描述符

由公式(4)可以发现这个特征由参考图像的嵌入向量和最佳匹配视差的代价两个因素决定，/>是一个带有可学习权重/>的感知器，/>由一个1*1卷积和一个leaky ReLU实现，通过公式(4)可以发现/>中包含匹配代价，所以网络学习参数中包含了匹配置信度。

步骤3：特征传播：

由步骤2得到具有初始视差和特征信息的贴图标签，将其作为输入，并基于信息的空间传播和信息融合输出更细化的新贴图标签，根据视差和梯度，利用贴图标签算出贴图内每个点的局部视差d'，

d'_i,j＝d+(i-1.5)d_x+(j-1.5)d_y (5)

其中，i,j表示patch内点的坐标，i,j∈(0,…,3)。利用局部视差，将右侧图像的特征沿着scan line进行线性插值，将其映射到左侧图像中。如果该点的局部视差d'正确，那么通过映射得到的特征表示/>会与左侧(参考)图像中相应的特征e^L非常相似。通过将参考贴图(x,y)特征与映射后的贴图进行比较，可以定义一个16维的匹配代价向量φ(e,d')：

φ(e,d')＝[c_0,0,c_0,1,…,c_0,3,c_1,0,…,c_3,3] (6)

其中，

步骤4：更新贴图标签：

将n个贴图标签作为输入，预测贴图标签的增量，以及每个贴图的标量值w，表示该贴图正确的概率，即置信度。该机制通过一个CNN模块来实现，卷积结构能够使网络能够看到空间邻域中贴图标签，从而能够在空间维度上传播信息，这一步的关键部分是，使用了公式(6)定义的匹配代价向量φ来增强贴图标签。通过在视差空间的微小邻域内进行贴图更新，建立一个局部代价体，从而使网络能够有效地优化贴图标签。具体表现为，将贴图内的所有视差按±1的偏移量进行位移，并计算三次局部匹配代价。得到输入贴图t更新后的贴图a的全部特征表示为：

对于一个平面位置为(x,y)、分辨率为l点，CNN模块会预测每个n个贴图标签图的更新，并将贴图标签的置信度/>表示为：

步骤5：视差优化：

步骤4中的更新模块以分层迭代的方式作用于网络。当处于最低分辨率l＝M时，此时每个位置仅有一个经过初始化后的贴图标签，因此n＝1。通过将输入贴图标签和增量相加完成贴图更新，并在每个方向上对贴图进行2倍的上采样。因此，视差d是由贴图的平面方程、来自贴图标签的d_x,d_y、使用上一分辨率上采样后得到的P三部分组成的；在下一层分辨率M-1处，拥有两个标签：初始化阶段的标签和来自较低分辨率的上采样标签，因此n＝2。利用wⁱ来选择每个位置具有最高置信度的更新预测对贴图标签进行迭代。接下来重复上述过程，直到分辨率到达第0层，即对应整个实验的全视差分辨率和4*4的贴图大小。为了进一步细化视差图，对4*4的贴图继续使用最优标签依次在4*4、2*2、1*1分辨率下进行3次迭代，此时n＝1。在贴图尺寸变为1*1时的输出，即为网络的最终视差预测结果。

在本发明方法与其他相关算法的比较中，本发明方法在精度排在前列的同时，单张图像的计算速度达到了0.04s，满足了实际应用中的实时性要求。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种基于图像块匹配和视差优化的立体匹配方法，其特征在于，包括以下步骤：

(1)利用Vision Transformer进行图像特征提取：

选择利用Vision Transformer和SPP进行特征提取操作，通过将左右图像分割为patch作为输入，输出多级分辨率的带有可学习特征的planar patch；将其作为一个贴图，一个贴图代表的是原图像4*4的一个窗口；

(2)不同分辨率下的初始化和初始视差计算：

(3)特征传播：

在内部将特征提取阶段的特征从右图像warp到左图像，使用一个额外的置信度参数，将来自上一个传播层和初始化阶段的贴图之间进行有效融合，利用局部视差，将右侧图像的特征沿着scanline进行线性插值，将其映射到左侧图像中；

(4)贴图更新：

(5)视差优化：

2.根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(1)的具体方法为：定义一种贴图标签，它是一种具有可学习特征的平面patch；具体由两部分构成：一个描述视差d以及x,y方向上的视差梯度(d_x,d_y)的斜面的几何部分，以及一个可学习的p，将它称为贴图特征描述符；将特征提取器实现为类似于ViT的架构，并在后面增加一个SPP模块进行降采样来获得多级分辨率；分别在左右图像上运行特征提取器，并获得两个多尺度表示ε^L和ε^R。

3.根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(2)的具体方法为：根据构建的初始化网络，对步骤(1)中的特征贴图进行初始化操作，提取每个贴图在各种分辨率下的初始视差d^init和特征向量p^init，输出一个垂直平面上的贴图标签，将其表示为：t^init＝[d^init,0,0,p^init]。

4.根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(3)的具体方法为：由步骤(2)得到具有初始视差和特征信息的贴图标签，将其作为输入，并基于信息的空间传播和信息融合输出更细化的新贴图标签，根据视差和梯度，利用贴图标签算出贴图内每个点的局部视差d'，利用局部视差，将右侧图像的特征沿着scanline进行线性插值，将其映射到左侧图像中。

5.根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(4)的具体方法为：以n个贴图标签作为输入，预测贴图标签的增量，以及每个贴图的标量值w，表示该贴图正确的概率，即置信度；通过在视差空间的微小邻域内进行贴图更新，建立一个局部代价体，从而使网络能够有效地优化贴图标签。

6.根据权利要求1所述的基于图像块匹配和视差优化的立体匹配方法，其特征在于：所述步骤(5)的具体方法为：更新模块以分层迭代的方式作用于网络；当处于最低分辨率l＝M时，此时每个位置仅有一个经过初始化后的贴图标签，因此n＝1；通过将输入贴图标签和增量相加完成贴图更新，并在每个方向上对贴图进行2倍的上采样；利用wⁱ来选择每个位置具有最高置信度的更新预测对贴图标签进行迭代；接下来重复上述过程，直到分辨率到达第0层，即对应整个实验的全视差分辨率和4*4的贴图大小。