CN116485696A

CN116485696A - 基于双重注意力机制和位置编码约束的立体匹配方法

Info

Publication number: CN116485696A
Application number: CN202310466974.8A
Authority: CN
Inventors: 李旭琛
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-25

Abstract

本发明提供一种基于双重注意力机制和位置编码约束的立体匹配方法，涉及计算机视觉领域，包括以下步骤：(1)特征提取，对左右视图进行特征抽取得到channel为C_e，空间分辨率与原输入尺度(I_h，I_w)一致的特征图；(2)特征匹配，使用自注意力和交叉注意力交替计算，建立左右视图相关性；(3)位置编码，为弱纹理区域内的点建立相邻点之间的相关性来提高在这类区域的匹配精度；(4)注意力掩码，在匹配过程中对不需要参与运算的区域进行遮盖，来减小运算量；(5)唯一性约束，使匹配过程中的两图像上的点一一对应，提高匹配精度；(6)视差估计，根据之前步骤的计算结果预测输入图像视差。

Description

基于双重注意力机制和位置编码约束的立体匹配方法

技术领域

本发明涉及一种立体图像对的视差估计方法，更具体的说是涉及一种双重注意力机制和位置编码约束的立体匹配方法，属于计算机视觉领域。

背景技术

目前，机器视觉领域使用主动式传感技术和被动式传感技术来获取图像深度信息。主动式传感技术包括飞行时间、结构光和激光雷达，但由于分辨率、传感距离、光源影响和成本昂贵等问题，存在一定的局限性。相比之下，被动式传感技术中双目立体视觉具有低成本、易实现和易扩展等优点，因此在无人驾驶、增强现实和智能机器人等领域得到广泛应用，并具有巨大的应用前景和社会意义。

双目立体视觉是机器视觉领域的重要分支，自上世纪60年代中期以来，该技术得到了广泛的研究和应用。随着计算机硬件和算法的不断发展，双目立体视觉在计算机视觉、自动驾驶、遥感测绘、缺陷检测、三维重建等领域应用极为广泛。该技术的基本原理类似于人眼，通过左右眼视角的差异来获取物体在不同视角下的图像信息，利用三角定位法来获得二维图像上的一点在三维空间内的位置坐标，并通过相关的三维重建技术来获得重建目标的三维信息。

一个完整的双目立体视觉系统由多个部分组成，包括图像获取、相机标定、特征提取、立体匹配、深度确定和重建等。其中，双目立体视觉的核心步骤是立体匹配，它对于最终结果具有重要的影响。在进行立体匹配时，需要经过校正的左右图像，使用匹配搜索算法来寻找对应像素点，并计算出左右视差值。这类方法的难点在于左右相机图片的匹配，匹配的精确程度会直接影响最后算法成像的效果。理论上，此方法可以较精确地恢复深度信息，然而实际运用中其精度往往受到拍摄条件的制约：由于真实场景的复杂性，图像可能会受到光照影响产生噪点，或者由于物体遮挡、无纹理区域和弱纹理区域的自身特点，导致匹配出现错误，从而影响视差精度。

发明内容

有鉴于此，本发明提供了一种基于双重注意力机制和位置编码约束的立体匹配方法，利用自注意力和交叉注意力构建并行的Vision Transformer，实现了双向计算，提高了网络学习特征的效率与灵活性，并有效利用位置编码建立邻近像素间的位置约束关系，从而提高网络匹配能力和运行速度。

为实现上述目的，本发明采用如下之技术方案：

一种基于双重注意力机制和位置编码约束的立体匹配方法，包括以下步骤：

(1)图像特征提取：

给定一个图像对，分别用作源图像和目标图像，采用沙漏形编码器-解码器架构来提取多尺度图像特征，编码器由五个残差块组成，然后是一个SPP模块，解码部分使用转置卷积，dense-blocks和最后的卷积输出层，得到的特征图和原图尺寸一样；

(2)特征匹配：

采用交替注意力机制：自注意力计算同一图像中沿着极线的像素之间的注意力，而交叉注意力计算左右图像中对应极线上像素的注意力；在N-1层中交替计算自注意力和交叉注意力；这种交替方案根据图像上下文和相对位置不断更新特征描述符；在最后的交叉注意力层中，使用最受关注的像素来估计视差；

(3)位置编码：

优化对于弱纹理区域的适应能力，引入用于相对位置建模的位置编码；

(4)注意力掩码：

在最后的交叉注意力层中引入了一个的二进制掩码，左图中的每个像素只需关注右图中在相同坐标x_L左侧的像素，减小了匹配过程中的计算量；

(5)唯一性约束：

对立体匹配过程添加唯一性约束，即右图像中的每个像素最多分配给左图像中的一个像素；采用熵正则化的最优输运的方案来建立左右视图间的唯一性约束；

(6)视差估计：

根据之前步骤的计算结果预测输入图像视差。

优选的，所述步骤(6)中使用一种改进的赢者通吃方法进行视差估计，通过从最优传输分配矩阵T中找到最可能匹配的位置(记为k)来计算视差，并在其周围构建一个3px的窗口N_3(k)；对3px窗口内的匹配概率进行重新归一化处理，使其总和为1；候选视差的加权和即为估计视差d(k)。

优选的，所述步骤(1)的具体方法为：采用沙漏形编码器-解码器架构来提取多尺度图像特征；编码器由五个残差块组成，然后是一个SPP模块，以实现更高效的全局上下文信息采集；解码部分使用转置卷积，dense-blocks和最后的卷积输出层；经过上面两个过程对特征进行抽取得到的是channel为C_e，空间分辨率与原输入尺度(I_h,I_w)一致的特征图。

优选的，所述步骤(2)的具体方法为：使用multi-head attention，将特征图在channel维度进行分组操作，通过将特征描述符C_e的通道维度分成N_h组从而增强特征的表达的能力，通过softmax对相似性进行归一化，得到加权组合因子a_h，对之前划分出来的组进行组合,可得输出值向量，然后将输出值向量V_o与原始特征描述符进行相加得到增强之后的特征描述符，形成残差连接。

优选的，所述步骤(3)的具体方法为：通过位置编码e_p提供数据相关的空间信息，相较于绝对像素位置，相对像素距离具有平移不变性，因此本发明选择相对位置编码。

优选的，所述步骤(4)的具体方法为：对于一个给定的代价矩阵M，其两个边缘分布a和b的长度为I_w，通过求解最佳耦合矩阵T来实现最优输运。

优选的，所述步骤(5)的具体方法为：设x_L和x_R是同一物理点在左右视图上的投影位置，取x从左到右为正；立体匹配系统中双目相机的空间排列保证了在经过校准后，所有点都应满足x_R≤x_L；因此，在最后的交叉注意力层中，左图中的每个像素只需关注右图中在相同坐标x_L左侧的像素，即只关注在右图中满足x≤x_L的点x。

优选的，所述步骤(6)的具体方法为：通过从最优传输分配矩阵T中找到最可能匹配的位置(记为k)来计算视差，并在其周围构建一个3px的窗口N_3(k)，对3px窗口内的匹配概率进行重新归一化处理，使其总和为1，候选视差的加权和即为估计视差d(k)。

本发明与现有技术相比具有明显的优点和有益效果，具体而言，由上述技术方案可知：

本发明主要提出了一种基于双重注意力机制和位置编码约束的立体匹配方法，主要可以解决以下问题：

1)大量的立体匹配网络是通过建立匹配代价体来建立左右视图的相关性，但很容易受到影像噪声的影响，而且当影像处于弱纹理或重复纹理区域，这个代价值极有可能无法准确的反映像素之间的相关性，本发明提出了基于双重注意力机制和位置编码约束的立体匹配方法，增强了网络在弱纹理区域的匹配精度；

2)大多数立体匹配网络几乎仅通过多重三维卷积运算来构建匹配代价体，并进行视差回归的运算，为了保证网络精度，过多的三维卷积运算使得网络中参数量十分庞大，从而限制了网络在立体匹配任务中的运算速度，本发明通过将匹配代价构建过程替换为密集的像素序列匹配来建立左右视图相关性，减少了大量三维卷积运算，在保证精度的情况下提上了运行速度。

附图说明

图1为本发明实施例的双目立体匹配方法的流程图；

图2为本发明实施例的特征提取器结构；

图3为本发明实施例的双重注意力机制模型；

图4为本发明实施例的注意力掩码示意图；

图5为本发明实施例的输入图像；

图6为本发明实施例的视差估计结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。

本发明实施例公开了一种基于双重注意力机制和位置编码约束的立体匹配方法，利用自注意力和交叉注意力构建并行的Vision Transformer，实现了双向计算，提高了网络学习特征的效率与灵活性，并有效利用位置编码建立邻近像素间的位置约束关系，从而提高网络匹配能力和运行速度。下面将对本发明提供的一种基于双重注意力机制和位置编码约束的立体匹配方法，通过具体实施例来进行详细说明。

参考图1所示的双目立体匹配方法的流程图，本发明的一种基于双重注意力机制和位置编码约束的立体匹配方法，包括以下步骤：

步骤1：图像特征提取：

本发明实例选择一个沙漏形编码器-解码器架构来提取多尺度图像特征。编码器由五个残差块组成，然后是一个SPP模块，以实现更高效的全局上下文信息采集。解码部分使用转置卷积，dense-blocks和最后的卷积输出层。经过上面两个过程对特征进行抽取得到的是channel为C_e，空间分辨率与原输入尺度(I_h,I_w)一致的特征图。

步骤2：特征匹配：

本发明在特征匹配过程中采取额注意力机制是multi-head attention，将特征图在channel维度进行分组操作，通过将特征描述符C_e的通道维度分成N_h组从而增强特征的表达的能力，对于组的划分描述为：其中，其中C_h是每个头的通道维度，N_h是头的数量。因此，每个头可以具有不同的表示，并且可以对每个头计算相似性。对于每个注意力头h，使用一组线性投影来使用特征描述符e_I作为输入,计算query向量Q_h、key向量K_h和value向量V_h。

其中，

接下来通过softmax对相似性进行归一化，得到加权组合因子α_h：

对之前划分出来的组进行组合,可得输出值向量可以计算如下：

V_o＝W_oConcat(α₁V₁,…,α_hV_h)+bo (5)

其中，然后将输出值向量Vo与原始特征描述符进行相加得到增强之后的特征描述符，形成残差连接：

e_I＝e_I+V_o (6)

self-attention部分在该计算过程中所有操作所需的Q_h,K_h,V_h都是来自于同一视图产生的特征。

cross-attention部分在该计算过程中，Q_h来自于source图像产生的特征,K_h,V_h来自于target图像产生的特征。在计算cross-attention的过程中的source和target是相对的，即二者会进行交换，实现双向计算。

步骤3：位置编码：

为了进一步提高立体匹配网络在遮挡区域及弱纹理区域的精度，本发明提出通过位置编码为弱纹理区域的点建立相邻点的联系，来优化对于弱纹理区域的适应能力。

步骤2中的多层attention过程构建了像素与像素之间的关联，但在大面积的弱纹理及无纹理区域，这种像素之间的关联开始出现混乱和错误。为了解决这一问题，本发明使用相对位置信息用于建立这些点与相邻点之间的联系，尤其是与具有显著性特征的边缘点之间的联系，以此提升网络在这些区域的适应性。通过位置编码e_p提供数据相关的空间信息。相较于绝对像素位置，相对像素距离具有平移不变性，因此本发明选择相对位置编码。位置编码e_p直接添加到特征描述符中：

e＝e_I+e_p (7)此时，公式(4)中第i个和第j个像素之间的注意力可以扩展为：

如公式(7)所示，式中第4项完全取决于位置，而视差基本上取决于图像内容，因此使用相对位置编码并可将第4项省略：

其中，e_p,i-j表示第i个像素与第j个像素之间的位置编码(e_p,i-j≠e_p,j-i)。从公式(8)我们可以直观地看出：本发明的注意力机制完全取决于图像内容相似性以及像素间的相对距离。

步骤4：注意力掩码：

设x_L和x_R是同一物理点在左右视图上的投影位置(取x从左到右为正)。立体匹配系统中双目相机的空间排列保证了在经过校准后，所有点都应满足x_R≤x_L。因此，在最后的交叉注意力层中，左图中的每个像素只需关注右图中在相同坐标x_L左侧的像素(即只关注在右图中满足x≤x_L的点x)，如图4所示。为了实现这种限制，本发明引入了一个的二进制掩码用于注意力。

步骤5：唯一性约束：

对于一个给定的代价矩阵M，其两个边缘分布a和b的长度为Iw本发明通过求解最佳耦合矩阵来实现熵正则化的最优输运：

其中，是熵正则化，M是边缘分布a和b的代价矩阵，其长度为I_w。如果边缘分布a和b是均匀的，那么/>就是匹配问题的最优解。/>在实施了软唯一性约束的同时减少了模糊性。通过迭代的Sinkhorn算法求解公式(9)。/>中的值表示成对匹配的概率，类似于公式(4)中的softmax注意力。在本发明实施例中，成本矩阵M的设置是由公式(4)中的交叉注意力模块计算的注意力的负值，但没有进行softmax，因为最优传输将规范化注意力值。

步骤6：视差估计：

本发明使用一种改进的赢者通吃方法回归视差。通过从最优传输分配矩阵中找到最可能匹配的位置(记为k)来计算视差，并在其周围构建一个3px的窗口N₃(k)。对3px窗口内的匹配概率进行重新归一化处理，使其总和为1。候选视差的加权和是估计视差/>将匹配矩阵/>中的匹配概率表示为t，则有：

本发明方法利用自注意力和交叉注意力构建并行的Vision Transformer，实现了双向计算，提高了网络学习特征的效率与灵活性，并有效利用位置编码建立邻近像素间的位置约束关系，从而提高网络匹配能力和运行速度。与其他相关立体匹配方法相比，本发明提出的方法取得了更高的精度。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种基于双重注意力机制和位置编码约束的立体匹配方法，其特征在于，包括以下步骤：

(1)图像特征提取：

(2)特征匹配：

(3)位置编码：

(4)注意力掩码：

(5)唯一性约束：

(6)视差估计：

根据之前步骤的计算结果预测输入图像视差。

2.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法，其特征在于：所述步骤(6)中使用一种改进的赢者通吃方法进行视差估计，通过从最优传输分配矩阵中找到最可能匹配的位置(记为k)来计算视差，并在其周围构建一个3px的窗口N₃(k)；对3px窗口内的匹配概率进行重新归一化处理，使其总和为1；候选视差的加权和即为估计视差/>

3.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法，其特征在于：所述步骤(1)的具体方法为：采用沙漏形编码器-解码器架构来提取多尺度图像特征；编码器由五个残差块组成，然后是一个SPP模块，以实现更高效的全局上下文信息采集；解码部分使用转置卷积，dense-blocks和最后的卷积输出层；经过上面两个过程对特征进行抽取得到的是channel为C_e，空间分辨率与原输入尺度(I_h,I_w)一致的特征图。

4.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法，其特征在于：所述步骤(2)的具体方法为：使用multi-head attention，将特征图在channel维度进行分组操作，通过将特征描述符C_e的通道维度分成N_h组从而增强特征的表达的能力，通过softmax对相似性进行归一化，得到加权组合因子a_h，对之前划分出来的组进行组合,可得输出值向量，然后将输出值向量V_o与原始特征描述符进行相加得到增强之后的特征描述符，形成残差连接。

5.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法，其特征在于：所述步骤(3)的具体方法为：通过位置编码e_p提供数据相关的空间信息，相较于绝对像素位置，相对像素距离具有平移不变性，因此本发明选择相对位置编码。

6.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法，其特征在于：所述步骤(4)的具体方法为：对于一个给定的代价矩阵M，其两个边缘分布a和b的长度为I_w，通过求解最佳耦合矩阵来实现最优输运。

7.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法，其特征在于：所述步骤(5)的具体方法为：设x_L和x_R是同一物理点在左右视图上的投影位置，取x从左到右为正；立体匹配系统中双目相机的空间排列保证了在经过校准后，所有点都应满足x_R≤x_L；因此，在最后的交叉注意力层中，左图中的每个像素只需关注右图中在相同坐标x_L左侧的像素，即只关注在右图中满足x≤x_L的点x。

8.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法，其特征在于：所述步骤(6)的具体方法为：通过从最优传输分配矩阵中找到最可能匹配的位置(记为k)来计算视差，并在其周围构建一个3px的窗口N₃(k)，对3px窗口内的匹配概率进行重新归一化处理，使其总和为1，候选视差的加权和即为估计视差/>