CN112150518A - 一种基于注意力机制的图像立体匹配方法及双目设备 - Google Patents
一种基于注意力机制的图像立体匹配方法及双目设备 Download PDFInfo
- Publication number
- CN112150518A CN112150518A CN202010783393.3A CN202010783393A CN112150518A CN 112150518 A CN112150518 A CN 112150518A CN 202010783393 A CN202010783393 A CN 202010783393A CN 112150518 A CN112150518 A CN 112150518A
- Authority
- CN
- China
- Prior art keywords
- attention module
- cost volume
- volume
- channel
- detail texture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000007246 mechanism Effects 0.000 title claims abstract description 14
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/49—Analysis of texture based on structural texture description, e.g. using primitives or placement rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
- Image Generation (AREA)
Abstract
本发明提供了一种基于注意力机制的图像立体匹配方法及双目设备,方法包括:将左右视图经过极线约束和中值滤波后输入到深度学习残差网络中,分别获得图像特征信息;将图像特征信息作为双通道注意力模块的输入,获得含有细节纹理信息的特征图;将含有细节纹理信息的特征图首先进行卷积操作,再级联起来构建匹配代价卷;将匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体,同时通过跃层连接将多尺度代价体进行跳跃连接,得到含有细节纹理的3D代价卷;将含有细节纹理的3D代价卷进行3D反卷积操作,再进行可微分的柔性Argmin操作得到最终视差图,本发明能够解决现有方法对立体图像在弱纹理以及遮挡区域匹配效果差的问题。
Description
技术领域
本发明涉及机器视觉领域,尤其涉及一种基于注意力机制的图像立体匹配方法及双目设备。
背景技术
立体匹配(Stereo Matching)是一种从二维平面图像对中利用相似三角形原理获取视差值进而恢复深度信息的一门技术,同时也是机器视觉理论和应用的基础;其用处涉及三维环境感知与建模、机器人导航、无人驾驶汽车、物体跟踪与检测等,是计算机视觉领域非常重要的一个热点研究方向。
虽然目前国内外很对学者对这个领域进行了深入的研究,也取得了一些较大的进展,发表了很多成熟的立体匹配方法,但是这些方法都普遍存在一个问题,即:传统的算法对立体图像在弱纹理以及遮挡区域匹配效果差的问题。
发明内容
针对现有技术中存在不足,本发明提供了一种基于注意力机制的图像立体匹配方法,解决传统的图像立体匹配方法对立体图像在弱纹理以及遮挡区域匹配效果差的问题。
本发明是通过以下技术手段实现上述技术目的的。
一种基于注意力机制的图像立体匹配方法,包括:
将左视图和右视图经过极线约束和中值滤波后分别输入到深度学习残差网络中,分别获得图像特征信息;其中,所述左视图和右视图是对同一场景从双目视觉设备的左右摄像头拍摄得到的图像;
将获得的图像特征信息作为双通道注意力模块的输入,获得含有细节纹理信息的特征图;其中,所述双通道注意力模块,包括空间注意力模块、像素注意力模块和通道注意力模块;
将从左视图和右视图分别获得的含有细节纹理信息的特征图首先进行卷积操作,然后再级联起来构建匹配代价卷;将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体,同时通过跃层连接将多尺度代价体进行跳跃连接,得到含有细节纹理的3D代价卷;
将含有细节纹理的3D代价卷再进行一次3D反卷积操作得到与原图大小一样的特征图,再进行可微分的柔性Argmin操作得到最终视差图。
优选的,获取细节纹理信息所采用的方式是将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征级联起来,获取细节纹理信息。
优选的,将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征进行级联的方法为通过通道融合器进行级联操作。
优选的,构建匹配代价卷的方法为:将左视图的每一个一元特征和右视图的每一个视差下的特征图级联起来,封装成一个四维代价卷。
优选的,可微分的柔性Argmin公式为:
其中Cd表示匹配代价值,d表示视差值,Dmax表示最大视差值,σ(·)表示Softmax操作。
本发明还提供了一种双目设备,包括:
双目视觉摄像机,用于拍摄左右视图;
图像处理器和存储器,所述存储器包含了一系列程序指令,在所述图像处理器执行所述程序指令时,进行如下操作:
将左视图和右视图经过极线约束和中值滤波后分别输入到深度学习残差网络中,分别获得图像特征信息;其中,所述左视图和右视图是对同一场景从双目视觉设备的左右摄像头拍摄得到的图像;
将获得的图像特征信息作为双通道注意力模块的输入,获得含有细节纹理信息的特征图;其中,所述双通道注意力模块,包括空间注意力模块、像素注意力模块和通道注意力模块;
将从左视图和右视图分别获得的含有细节纹理信息的特征图首先进行卷积操作,然后再级联起来构建匹配代价卷;将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体,同时通过跃层连接将多尺度代价体进行跳跃连接,得到含有细节纹理的3D代价卷;
将含有细节纹理的3D代价卷再进行一次3D反卷积操作得到与原图大小一样的特征图,再进行可微分的柔性Argmin操作得到最终视差图。
与现有技术相比,本发明技术方案至少具有以下有益效果:
本发明的双通道注意力模块包括空间注意力模块、像素注意力模块和通道注意力模块,通过各个注意力模块捕捉到不同的特征信息,相互补充,再由特征融合器将各个注意力模块获得的特征信息融合,有效提高匹配的精度。
本发明将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体,同时通过跃层连接将多尺度代价体进行跳跃连接,能够让不同尺度的代价卷有效互相补充,从而实现在弱纹理以及遮挡区域达到像素级的匹配效果。
附图说明
图1为本发明实施例的一种基于注意力机制的立体匹配方法的流程示意图;
图2为本发明实例中的双通道注意力模块的流程示意图;
图3为本发明实例中一种双目设备的示意图。
具体实施方式
为了使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受于下面公开的具体实施的限制。
请参阅图1和图2,根据本发明实施例的一种基于注意力机制的立体匹配方法,包括如下步骤:
步骤一:将左视图和右视图经过极线约束和中值滤波后分别输入到深度学习残差网络中,分别获得图像特征信息;其中,所述左视图和右视图是对同一场景从双目视觉设备的左右摄像头拍摄得到的图像;
进一步的,本实施例中的深度学习残差网络为50层残差网络(Residual Network50)。
本实施例中的极线约束步骤为:
S1:用旋转矩阵Rrec旋转左相机,使得左成像平面的极点到无限远处,其公式为:
其中表示e1,e2,e3是一组正交向量,并且有:
T=OO′=(Tx,Ty,Tz)T
其中O代表左相机焦点,O′表示右相机焦点,T表示左右两个摄像头焦点之间的向量坐标,Tx表示x坐标,Ty表示y坐标,Tz表示z坐标。
S2:用和左相机的旋转矩阵相同的旋转矩阵旋转右相机,其公式为:
Rr=Rrec
其中Rr表示右相机旋转矩阵
S3:用外参数中的R旋转继续旋转右相机,其公式为:
Rr=RRrec
其中R是外参数的旋转矩阵。
S4:对坐标系调整尺寸,计算调整后的坐标系,其公式为:
其中P′l表示左图最终调整后的坐标,右图也一样的操作,f表示相机焦距,且有:
Pl=[x,y,f]T,RlPl=[x′,y′,z′]
其中Pl表示左相机的一点,x,y表示这一点的x坐标和y坐标。
步骤二:将获得的图像特征信息作为双通道注意力模块的输入,获得含有细节纹理信息的特征图;其中,所述双通道注意力模块,包括空间注意力模块、像素注意力模块和通道注意力模块;
进一步地,本实施例中获得含有细节纹理信息的特征图的方法为:
将50层残差网络提取得到的特征图分别输入到空间注意力模块、像素注意力模块和通道注意力模块中,分别用不同的注意力机制提取不同的特征,最后将提取得到的特征图通过一个通道融合器级联起来。
步骤三:将从左视图和右视图分别获得的含有细节纹理信息的特征图首先进行卷积操作,然后再级联起来构建匹配代价卷;将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体,同时通过跃层连接将多尺度代价体进行跳跃连接,得到含有细节纹理的3D代价卷;
进一步地,本实施例中构建匹配代价卷的方法为:将左视图的每一个一元特征和右视图的每一个视差下的特征图级联起来,封装成一个四维代价卷。
如果仅对匹配代价卷进行3D卷积和3D反卷积,会丢失细节纹理信息,导致最终得到的视差图在弱纹理区域效果很差,本实施例中将相同大小的3D代价卷通过跃层连接级联起来,保证良好的细节纹理信息;
步骤四:将含有细节纹理的3D代价卷再进行一次3D反卷积操作得到与原图大小一样的特征图,再进行可微分的柔性Argmin操作得到最终视差图。
其中,进行可微分的柔性Argmin操作包括:首先,通过将匹配代价值取负数,把匹配代价卷转化为可能性卷,利用Softmax操作对可能性卷在视差维度上进行正则化。
进一步地,可微分的柔性Argmin公式为:
其中,Cd表示匹配代价值,d表示视差值,Dmax表示最大视差值,σ(·)表示Softmax操作。
本发明实例还提供了一种双目视觉设备,如图3所示:该双目设备包括:
双目视觉摄像机,用于拍摄图像,包括左摄像头2和右摄像头3;
相机工作臂展1,用于固定双目视觉摄像机和移动双目视觉摄像机;
托盘7,用于摆放需要拍摄的工件6;
图像处理器和存储器4,所述存储器存储有程序指令,在所述图像处理器执行所述程序指令时,执行如上述方法实施例中的各项操作,以实现对图像进行特征提取到立体匹配的整个流程,从而得到图像的精准视差图。
需要说明的是,工件摆放位置应该同时在左右相机的相机视野内,以确保能够精确的完成匹配。
需要说明的是,具体实施时,图3所示的显示器5能够显示通过所述步骤所产生的具体视差图。
进一步地,每完成一次上述方法步骤,相机拍摄的原图和得到的视差图将会保存在存储器里面,方便查看和使用。
通过所述步骤,本发明能够解决传统的算法对立体图像在弱纹理以及遮挡区域匹配效果差的问题,在图像纹理和边缘都能保证充分的细节信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于注意力机制的图像立体匹配方法,其特征在于,包括:
将左视图和右视图经过极线约束和中值滤波后分别输入到深度学习残差网络中,分别获得图像特征信息;其中,所述左视图和右视图是对同一场景从双目视觉设备的左右摄像头拍摄得到的图像;
将获得的图像特征信息作为双通道注意力模块的输入,获得含有细节纹理信息的特征图;其中,所述双通道注意力模块,包括空间注意力模块、像素注意力模块和通道注意力模块;
将从左视图和右视图分别获得的含有细节纹理信息的特征图首先进行卷积操作,然后再级联起来构建匹配代价卷;将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体,同时通过跃层连接将多尺度代价体进行跳跃连接,得到含有细节纹理的3D代价卷;
将含有细节纹理的3D代价卷再进行一次3D反卷积操作得到与原图大小一样的特征图,再进行可微分的柔性Argmin操作得到最终视差图。
2.根据权利要求1所述的基于注意力机制的图像立体匹配方法,其特征在于,获取细节纹理信息所采用的方式是将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征级联起来,获取细节纹理信息。
3.根据权利要求2所述的基于注意力机制的图像立体匹配方法,其特征在于,将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征进行级联的方法为通过通道融合器进行级联操作。
4.根据权利要求1所述的基于注意力机制的图像立体匹配方法,其特征在于,构建匹配代价卷的方法为:将左视图的每一个一元特征和右视图的每一个视差下的特征图级联起来,封装成一个四维代价卷。
6.一种双目设备,其特征在于,包括:
双目视觉摄像机,用于拍摄左右视图;
图像处理器和存储器,所述存储器包含了一系列程序指令,在所述图像处理器执行所述程序指令时,进行如下操作:
将左视图和右视图经过极线约束和中值滤波后分别输入到深度学习残差网络中,分别获得图像特征信息;其中,所述左视图和右视图是对同一场景从双目视觉设备的左右摄像头拍摄得到的图像;
将获得的图像特征信息作为双通道注意力模块的输入,获得含有细节纹理信息的特征图;其中,所述双通道注意力模块,包括空间注意力模块、像素注意力模块和通道注意力模块;
将从左视图和右视图分别获得的含有细节纹理信息的特征图首先进行卷积操作,然后再级联起来构建匹配代价卷;将得到的匹配代价卷进行3D卷积和3D反卷积处理得到多尺度代价体,同时通过跃层连接将多尺度代价体进行跳跃连接,得到含有细节纹理的3D代价卷;
将含有细节纹理的3D代价卷再进行一次3D反卷积操作得到与原图大小一样的特征图,再进行可微分的柔性Argmin操作得到最终视差图。
7.如权利要求6中所述的双目设备,其特征在于,获取细节纹理信息所采用的方式是将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征级联起来,获取细节纹理信息。
8.如权利要求7中所述的双目设备,其特征在于,将空间注意力模块、像素注意力模块和通道注意力模块所得到的特征进行级联的方法为通过通道融合器进行级联操作。
9.如权利要求6中所述的双目设备,其特征在于,构建匹配代价卷的方法为:将左视图的每一个一元特征和右视图的每一个视差下的特征图级联起来,封装成一个四维代价卷。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010783393.3A CN112150518B (zh) | 2020-08-06 | 一种基于注意力机制的图像立体匹配方法及双目设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010783393.3A CN112150518B (zh) | 2020-08-06 | 一种基于注意力机制的图像立体匹配方法及双目设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112150518A true CN112150518A (zh) | 2020-12-29 |
CN112150518B CN112150518B (zh) | 2024-05-14 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170638A (zh) * | 2022-07-13 | 2022-10-11 | 东北林业大学 | 一种双目视觉立体匹配网络系统及其构建方法 |
CN116128946A (zh) * | 2022-12-09 | 2023-05-16 | 东南大学 | 一种基于边缘导向和注意力机制的双目红外深度估计方法 |
WO2023240764A1 (zh) * | 2022-06-17 | 2023-12-21 | 五邑大学 | 混合代价体的双目立体匹配方法、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259945A (zh) * | 2020-01-10 | 2020-06-09 | 大连理工大学 | 引入注意力图谱的双目视差估计方法 |
CN111402129A (zh) * | 2020-02-21 | 2020-07-10 | 西安交通大学 | 一种基于联合上采样卷积神经网络的双目立体匹配方法 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259945A (zh) * | 2020-01-10 | 2020-06-09 | 大连理工大学 | 引入注意力图谱的双目视差估计方法 |
CN111402129A (zh) * | 2020-02-21 | 2020-07-10 | 西安交通大学 | 一种基于联合上采样卷积神经网络的双目立体匹配方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023240764A1 (zh) * | 2022-06-17 | 2023-12-21 | 五邑大学 | 混合代价体的双目立体匹配方法、设备及存储介质 |
CN115170638A (zh) * | 2022-07-13 | 2022-10-11 | 东北林业大学 | 一种双目视觉立体匹配网络系统及其构建方法 |
CN115170638B (zh) * | 2022-07-13 | 2023-04-18 | 东北林业大学 | 一种双目视觉立体匹配网络系统及其构建方法 |
CN116128946A (zh) * | 2022-12-09 | 2023-05-16 | 东南大学 | 一种基于边缘导向和注意力机制的双目红外深度估计方法 |
CN116128946B (zh) * | 2022-12-09 | 2024-02-09 | 东南大学 | 一种基于边缘导向和注意力机制的双目红外深度估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109461180B (zh) | 一种基于深度学习的三维场景重建方法 | |
CN110135455B (zh) | 影像匹配方法、装置及计算机可读存储介质 | |
Wang et al. | 360sd-net: 360 stereo depth estimation with learnable cost volume | |
CN112132972B (zh) | 一种激光与图像数据融合的三维重建方法及系统 | |
JP7328366B2 (ja) | 情報処理方法、測位方法及び装置、電子機器並びに記憶媒体 | |
KR101666959B1 (ko) | 카메라로부터 획득한 영상에 대한 자동보정기능을 구비한 영상처리장치 및 그 방법 | |
CN107833181B (zh) | 一种基于变焦立体视觉的三维全景图像生成方法 | |
CN110176032B (zh) | 一种三维重建方法及装置 | |
CN109993793B (zh) | 视觉定位方法及装置 | |
CN103093479B (zh) | 一种基于双目视觉的目标定位方法 | |
CA2826534A1 (en) | Backfilling points in a point cloud | |
CN113192179B (zh) | 一种基于双目立体视觉的三维重建方法 | |
CN111914715A (zh) | 一种基于仿生视觉的智能车目标实时检测与定位方法 | |
CN115035235A (zh) | 三维重建方法及装置 | |
CN112634379B (zh) | 一种基于混合视域光场的三维定位测量方法 | |
CN110852979A (zh) | 一种基于相位信息匹配的点云配准及融合方法 | |
CA3233222A1 (en) | Method, apparatus and device for photogrammetry, and storage medium | |
CN116129037B (zh) | 视触觉传感器及其三维重建方法、系统、设备及存储介质 | |
CN114782636A (zh) | 三维重建方法、装置及系统 | |
CN114022542A (zh) | 一种基于三维重建的3d数据库制作方法 | |
CN116168143A (zh) | 一种多视图三维重建的方法 | |
CN114812558B (zh) | 一种结合激光测距的单目视觉无人机自主定位方法 | |
CN117132737B (zh) | 一种三维建筑模型构建方法、系统及设备 | |
CN116051658B (zh) | 基于双目视觉进行目标检测的相机手眼标定方法及装置 | |
CN112150518B (zh) | 一种基于注意力机制的图像立体匹配方法及双目设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |