CN112150518A

CN112150518A - 一种基于注意力机制的图像立体匹配方法及双目设备

Info

Publication number: CN112150518A
Application number: CN202010783393.3A
Authority: CN
Inventors: 顾寄南; 余雪飞
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-12-29
Anticipated expiration: 2040-08-06

Abstract

本发明提供了一种基于注意力机制的图像立体匹配方法及双目设备，方法包括：将左右视图经过极线约束和中值滤波后输入到深度学习残差网络中，分别获得图像特征信息；将图像特征信息作为双通道注意力模块的输入，获得含有细节纹理信息的特征图；将含有细节纹理信息的特征图首先进行卷积操作，再级联起来构建匹配代价卷；将匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体，同时通过跃层连接将多尺度代价体进行跳跃连接，得到含有细节纹理的3D代价卷；将含有细节纹理的3D代价卷进行3D反卷积操作，再进行可微分的柔性Argmin操作得到最终视差图，本发明能够解决现有方法对立体图像在弱纹理以及遮挡区域匹配效果差的问题。

Description

一种基于注意力机制的图像立体匹配方法及双目设备

技术领域

本发明涉及机器视觉领域，尤其涉及一种基于注意力机制的图像立体匹配方法及双目设备。

背景技术

立体匹配(Stereo Matching)是一种从二维平面图像对中利用相似三角形原理获取视差值进而恢复深度信息的一门技术，同时也是机器视觉理论和应用的基础；其用处涉及三维环境感知与建模、机器人导航、无人驾驶汽车、物体跟踪与检测等，是计算机视觉领域非常重要的一个热点研究方向。

虽然目前国内外很对学者对这个领域进行了深入的研究，也取得了一些较大的进展，发表了很多成熟的立体匹配方法，但是这些方法都普遍存在一个问题，即：传统的算法对立体图像在弱纹理以及遮挡区域匹配效果差的问题。

发明内容

针对现有技术中存在不足，本发明提供了一种基于注意力机制的图像立体匹配方法，解决传统的图像立体匹配方法对立体图像在弱纹理以及遮挡区域匹配效果差的问题。

本发明是通过以下技术手段实现上述技术目的的。

一种基于注意力机制的图像立体匹配方法，包括：

将左视图和右视图经过极线约束和中值滤波后分别输入到深度学习残差网络中，分别获得图像特征信息；其中，所述左视图和右视图是对同一场景从双目视觉设备的左右摄像头拍摄得到的图像；

将获得的图像特征信息作为双通道注意力模块的输入，获得含有细节纹理信息的特征图；其中，所述双通道注意力模块，包括空间注意力模块、像素注意力模块和通道注意力模块；

将从左视图和右视图分别获得的含有细节纹理信息的特征图首先进行卷积操作，然后再级联起来构建匹配代价卷；将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体，同时通过跃层连接将多尺度代价体进行跳跃连接，得到含有细节纹理的3D代价卷；

将含有细节纹理的3D代价卷再进行一次3D反卷积操作得到与原图大小一样的特征图，再进行可微分的柔性Argmin操作得到最终视差图。

优选的，获取细节纹理信息所采用的方式是将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征级联起来，获取细节纹理信息。

优选的，将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征进行级联的方法为通过通道融合器进行级联操作。

优选的，构建匹配代价卷的方法为：将左视图的每一个一元特征和右视图的每一个视差下的特征图级联起来，封装成一个四维代价卷。

优选的，可微分的柔性Argmin公式为：

其中C_d表示匹配代价值，d表示视差值，D_max表示最大视差值，σ(·)表示Softmax操作。

本发明还提供了一种双目设备，包括：

双目视觉摄像机，用于拍摄左右视图；

图像处理器和存储器，所述存储器包含了一系列程序指令，在所述图像处理器执行所述程序指令时，进行如下操作：

与现有技术相比，本发明技术方案至少具有以下有益效果：

本发明的双通道注意力模块包括空间注意力模块、像素注意力模块和通道注意力模块，通过各个注意力模块捕捉到不同的特征信息，相互补充，再由特征融合器将各个注意力模块获得的特征信息融合，有效提高匹配的精度。

本发明将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体，同时通过跃层连接将多尺度代价体进行跳跃连接，能够让不同尺度的代价卷有效互相补充，从而实现在弱纹理以及遮挡区域达到像素级的匹配效果。

附图说明

图1为本发明实施例的一种基于注意力机制的立体匹配方法的流程示意图；

图2为本发明实例中的双通道注意力模块的流程示意图；

图3为本发明实例中一种双目设备的示意图。

具体实施方式

为了使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受于下面公开的具体实施的限制。

请参阅图1和图2，根据本发明实施例的一种基于注意力机制的立体匹配方法，包括如下步骤：

步骤一：将左视图和右视图经过极线约束和中值滤波后分别输入到深度学习残差网络中，分别获得图像特征信息；其中，所述左视图和右视图是对同一场景从双目视觉设备的左右摄像头拍摄得到的图像；

进一步的，本实施例中的深度学习残差网络为50层残差网络(Residual Network50)。

本实施例中的极线约束步骤为：

S1：用旋转矩阵R_rec旋转左相机，使得左成像平面的极点到无限远处，其公式为：

R_l＝R_rec,

其中R_l表示左相机的旋转矩阵，e₁，e₂，e₃是彼此正交的单位向量，

为e₁，e₂，e₃的转置向量且表达式为：

e₃＝e₁×e₂

其中表示e₁，e₂，e₃是一组正交向量，并且有：

T＝OO′＝(T_x，T_y，T_z)^T

其中O代表左相机焦点，O′表示右相机焦点，T表示左右两个摄像头焦点之间的向量坐标，T_x表示x坐标，T_y表示y坐标，T_z表示z坐标。

S2：用和左相机的旋转矩阵相同的旋转矩阵旋转右相机，其公式为：

R_r＝R_rec

其中R_r表示右相机旋转矩阵

S3：用外参数中的R旋转继续旋转右相机，其公式为：

R_r＝RR_rec

其中R是外参数的旋转矩阵。

S4：对坐标系调整尺寸，计算调整后的坐标系，其公式为：

其中P′_l表示左图最终调整后的坐标，右图也一样的操作，f表示相机焦距，且有：

P_l＝[x，y，f]^T,R_lP_l＝[x′，y′，z′]

其中P_l表示左相机的一点，x，y表示这一点的x坐标和y坐标。

步骤二：将获得的图像特征信息作为双通道注意力模块的输入，获得含有细节纹理信息的特征图；其中，所述双通道注意力模块，包括空间注意力模块、像素注意力模块和通道注意力模块；

进一步地，本实施例中获得含有细节纹理信息的特征图的方法为：

将50层残差网络提取得到的特征图分别输入到空间注意力模块、像素注意力模块和通道注意力模块中，分别用不同的注意力机制提取不同的特征，最后将提取得到的特征图通过一个通道融合器级联起来。

步骤三：将从左视图和右视图分别获得的含有细节纹理信息的特征图首先进行卷积操作，然后再级联起来构建匹配代价卷；将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体，同时通过跃层连接将多尺度代价体进行跳跃连接，得到含有细节纹理的3D代价卷；

进一步地，本实施例中构建匹配代价卷的方法为：将左视图的每一个一元特征和右视图的每一个视差下的特征图级联起来，封装成一个四维代价卷。

如果仅对匹配代价卷进行3D卷积和3D反卷积，会丢失细节纹理信息，导致最终得到的视差图在弱纹理区域效果很差，本实施例中将相同大小的3D代价卷通过跃层连接级联起来，保证良好的细节纹理信息；

步骤四：将含有细节纹理的3D代价卷再进行一次3D反卷积操作得到与原图大小一样的特征图，再进行可微分的柔性Argmin操作得到最终视差图。

其中，进行可微分的柔性Argmin操作包括：首先，通过将匹配代价值取负数，把匹配代价卷转化为可能性卷，利用Softmax操作对可能性卷在视差维度上进行正则化。

进一步地，可微分的柔性Argmin公式为：

其中，C_d表示匹配代价值，d表示视差值，D_max表示最大视差值，σ(·)表示Softmax操作。

本发明实例还提供了一种双目视觉设备，如图3所示：该双目设备包括：

双目视觉摄像机，用于拍摄图像，包括左摄像头2和右摄像头3；

相机工作臂展1，用于固定双目视觉摄像机和移动双目视觉摄像机；

托盘7，用于摆放需要拍摄的工件6；

图像处理器和存储器4，所述存储器存储有程序指令，在所述图像处理器执行所述程序指令时，执行如上述方法实施例中的各项操作，以实现对图像进行特征提取到立体匹配的整个流程，从而得到图像的精准视差图。

需要说明的是，工件摆放位置应该同时在左右相机的相机视野内，以确保能够精确的完成匹配。

需要说明的是，具体实施时，图3所示的显示器5能够显示通过所述步骤所产生的具体视差图。

进一步地，每完成一次上述方法步骤，相机拍摄的原图和得到的视差图将会保存在存储器里面，方便查看和使用。

通过所述步骤，本发明能够解决传统的算法对立体图像在弱纹理以及遮挡区域匹配效果差的问题，在图像纹理和边缘都能保证充分的细节信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制的图像立体匹配方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制的图像立体匹配方法，其特征在于，获取细节纹理信息所采用的方式是将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征级联起来，获取细节纹理信息。

3.根据权利要求2所述的基于注意力机制的图像立体匹配方法，其特征在于，将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征进行级联的方法为通过通道融合器进行级联操作。

4.根据权利要求1所述的基于注意力机制的图像立体匹配方法，其特征在于，构建匹配代价卷的方法为：将左视图的每一个一元特征和右视图的每一个视差下的特征图级联起来，封装成一个四维代价卷。

5.根据权利要求1所述的基于注意力机制的图像立体匹配方法，其特征在于，可微分的柔性Argmin公式为：

6.一种双目设备，其特征在于，包括：

双目视觉摄像机，用于拍摄左右视图；

7.如权利要求6中所述的双目设备，其特征在于，获取细节纹理信息所采用的方式是将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征级联起来，获取细节纹理信息。

8.如权利要求7中所述的双目设备，其特征在于，将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征进行级联的方法为通过通道融合器进行级联操作。

9.如权利要求6中所述的双目设备，其特征在于，构建匹配代价卷的方法为：将左视图的每一个一元特征和右视图的每一个视差下的特征图级联起来，封装成一个四维代价卷。

10.如权利要求6中所述的双目设备，其特征在于，可微分的柔性Argmin公式为：