CN115170636A - 混合代价体的双目立体匹配方法、设备及存储介质 - Google Patents
混合代价体的双目立体匹配方法、设备及存储介质 Download PDFInfo
- Publication number
- CN115170636A CN115170636A CN202210689258.1A CN202210689258A CN115170636A CN 115170636 A CN115170636 A CN 115170636A CN 202210689258 A CN202210689258 A CN 202210689258A CN 115170636 A CN115170636 A CN 115170636A
- Authority
- CN
- China
- Prior art keywords
- cost body
- cost
- matching
- scale
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000002776 aggregation Effects 0.000 claims abstract description 66
- 238000004220 aggregation Methods 0.000 claims abstract description 66
- 230000006835 compression Effects 0.000 claims abstract description 27
- 238000007906 compression Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000006116 polymerization reaction Methods 0.000 claims abstract description 6
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 50
- 230000015654 memory Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 19
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- XCWPUUGSGHNIDZ-UHFFFAOYSA-N Oxypertine Chemical compound C1=2C=C(OC)C(OC)=CC=2NC(C)=C1CCN(CC1)CCN1C1=CC=CC=C1 XCWPUUGSGHNIDZ-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种混合代价体的双目立体匹配方法、设备及存储介质,方法包括:获取左右立体图像对;对左右立体图像对进行多尺度特征提取,得到多个尺度下的特征图对;根据各个尺度下的特征图对,构建对应尺度的3D匹配代价体和4D匹配代价体;将4D匹配代价体聚合压缩至与3D匹配代价体的尺寸相等,得到4D压缩代价体;将对应尺度的4D压缩代价体与3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体;将混合匹配代价体输入2D代价聚合模型中进行视差计算,得到视差图。本发明通过构建多尺度的3D匹配代价体和4D匹配代价体,得到多个尺度下的混合匹配代价体,估计性能高,通过2D代价体聚合模型聚合,可有效减少运算量。
Description
技术领域
本发明涉及图像数据处理领域,特别涉及一种混合代价体的双目立体匹配方法、设备及存储介质。
背景技术
双目立体匹配属于计算机视觉领域的一个分支,双目立体匹配也称作双目视差估计或双目深度估计,通常使用左右特征图构造的代价体来获得视差图或深度图,进而估计视差和深度,被广泛应用于三维重建、自动驾驶和机器人导航等领域。
双目立体匹配主要是利用同型号摄像机同步拍摄到同一场景的两视角图像,模拟人类的双眼,利用两幅图间的视差可以直接恢复深度。相关技术中,双目立体匹配在进行代价聚合时,为了提高运算速度,通常通过2D卷积神经网络来实现代价聚合,但这种双目立体匹配方法将导致大量信息丢失,影响输出的视差图的精度。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供了一种混合代价体的双目立体匹配方法、设备及存储介质,能够同时确保运算速度和输出的视差图的精度。
本发明第一方面实施例提供一种混合代价体的双目立体匹配方法,包括:
获取左右立体图像对;
对左右立体图像对进行多尺度特征提取,得到多个尺度下的特征图对;
根据各个尺度下的特征图对,构建对应尺度的3D匹配代价体和4D匹配代价体;
将4D匹配代价体聚合压缩至与3D匹配代价体的尺寸相等,得到4D压缩代价体;
将对应尺度的4D压缩代价体与3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体;
将混合匹配代价体输入2D代价聚合模中进行视差计算,得到视差图。
根据本发明的上述实施例,至少具有如下有益效果:通过构建多尺度的3D匹配代价体和4D匹配代价体,并且将4D匹配代价体通过聚合压缩后与3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体,能够同时保留图像的相似信息以及上下文信息,进而能够有效提高混合匹配代价体的所携带信息的有效性,估计性能高,通过2D代价体聚合模型聚合,可有效减少运算量,内存消耗少、运算速度快。
根据本发明第一方面的一些实施例,对左右立体图像对进行多尺度特征提取,得到多个尺度下的特征图对,包括:
对左右立体图像对进行下采样,得到第一采样图对;
对第一采样图对进行多尺度特征提取,得到多个初始特征图对;
将每一初始特征图对进行连接,得到第一尺度特征图对;
通过残差块对第一尺度特征图对进行特征提取,得到第二尺度特征图对和第三尺度特征图对。
根据本发明第一方面的一些实施例,构建对应尺度的3D匹配代价体,包括:
根据左右立体图像对计算得到视图相关度;
根据视图相关度和各个尺度下的特征图对,构建得到对应尺度的3D匹配代价体,其中,3D匹配代价体的尺寸为D×H×W,D表示视差范围,H×W表示空间大小。
根据本发明第一方面的一些实施例,构建对应尺度的4D匹配代价体,包括:
将各个尺度下的特征图对进行连接,得到对应尺度的4D匹配代价体,其中,4D匹配代价体的尺寸为C×D×H×W,C表示特征连接后的通道数。
根据本发明第一方面的一些实施例,将4D匹配代价体聚合压缩至与3D匹配代价体的尺寸相等,得到4D压缩代价体,包括:
通过3D卷积模块将4D匹配代价体进行聚合,得到4D聚合代价体;
将4D聚合代价体压缩至与3D匹配代价体的尺寸相等,得到4D压缩代价体。
根据本发明第一方面的一些实施例,将对应尺度的4D压缩代价体与3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体,包括:
将第一尺度下的4D压缩代价体与3D匹配代价体进行连接,得到第一尺度对应的第一混合匹配代价体;
将第二尺度下的4D压缩代价体与3D匹配代价体进行连接,得到第二尺度对应的第二混合匹配代价体;
将第三尺度下的4D压缩代价体与3D匹配代价体进行连接,得到第三尺度对应的第三混合匹配代价体。
根据本发明第一方面的一些实施例,将混合匹配代价体输入2D代价聚合模型中进行视差计算,得到视差图,包括:
通过2D代价聚合模型中的第一2D卷积模块对第一混合匹配代价体进行正则化,得到正则化代价体;
通过2D代价聚合模型将正则化代价体进行下采样,得到第二尺度下的第一采样代价体;
通过2D代价聚合模型将第一采样代价体与第二混合匹配代价体进行连接,得到第一连接代价体;
通过2D代价聚合模型中的第二2D卷积模块将第一连接代价体的特征通道数降低至指定值,得到低通道代价体;
通过2D代价聚合模型将低通道代价体进行下采样,得到第三尺度下的第二采样代价体;
通过2D代价聚合模型将第二采样代价体与第三混合匹配代价体进行连接,得到第二连接代价体;
通过2D代价聚合模型中的第三2D卷积模块将第二连接代价体进行上采样,得到第一尺度下的第三采样代价体;
通过2D代价聚合模型对第三采样代价体计算视差,得到视差图。
根据本发明第一方面的一些实施例,通过2D代价聚合模型对第三采样代价体计算视差,得到视差图,包括:
将第三采样代价体进行双线性插值后输入到2D代价聚合模型中的视差回归模块,得到视差图。
本发明第二方面实施例提供一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面任意一项的混合代价体的双目立体匹配方法。
由于第二方面实施例的电子设备应用第一方面任意一项的混合代价体的双目立体匹配方法,因此具有本发明第一方面的所有有益效果。
根据本发明第三方面实施例提供的一种计算机存储介质,存储有计算机可执行指令,计算机可执行指令用于执行第一方面任意一项的混合代价体的双目立体匹配方法。
由于第三方面实施例的计算机存储介质可执行第一方面任意一项的混合代价体的双目立体匹配方法,因此具有本发明第一方面的所有有益效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的混合代价体的双目立体匹配方法的主要步骤图;
图2是本发明实施例的混合代价体的双目立体匹配方法中S200的步骤示意图;
图3是本发明实施例的混合代价体的双目立体匹配方法中S300的步骤示意图;
图4是本发明实施例的混合代价体的双目立体匹配方法中S400的步骤示意图;
图5是本发明实施例的混合代价体的双目立体匹配方法中S500的步骤示意图;
图6是本发明实施例的混合代价体的双目立体匹配方法中S600的步骤示意图;
图7是本发明实施例的混合代价体的双目立体匹配方法所应用网络的框架图;
图8是图7中混合代价体构建的框架图;
图9是图7中2DCNN代价体聚合模型的框架图。
具体实施方式
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。此外,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
经过多年的研究累计,双目立体匹配技术已经发展了成熟的基础理论体系,并且能够在实际中应用。由于其成本低廉、结构简单、实用性强,在三维重建、自动驾驶、医学诊断、机器人导航等领域有着广泛的应用。
双目立体匹配大致可以分为四个步骤:匹配代价计算、代价聚合、视差计算和视差优化。早期对双目立体匹配的研究是使用传统算法,传统立体匹配方法在匹配代价计算时受到人为手动设计特征(handcrafted features)的影响,会导致特征上下文信息(contextinformation)的缺失,从而影响其性能。此外,在视差优化时,传统算法使用带有经验参数的后处理函数,经验参数集对匹配的效果也有很大的影响,因此不适合在复杂的环境中应用。随着深度学习在计算机视觉领域的显著成就,双目立体匹配算法的研究逐渐引入了卷积神经网络(CNNs)用于视差估计,通过深度学习的方法,无需后处理也能获得好的视差结果。最开始是使用卷积神经网络取代传统算法的四个步骤中的一个或者多个,形成了一个非端到端立体匹配网络,然后逐渐发展到适应整个过程的卷积层,形成了一个质量高、速度合理的端到端网络。
相关技术中,端到端立体匹配网络依据匹配代价体(cost volume)的生成方法可以大致分为两类,基于2D卷积神经网络方法和基于3D卷积神经网络方法。随着立体匹配网络DispNetC的成功,引入了能够表示左右图像之间关系的相关层(correlation layer)来构建3D匹配代价体,并在代价聚合的步骤中使用了2D卷积,能够大大提高了估计性能,然而,基于2D卷积神经网络的方法虽然相对较快,但它只提取了空间维度上的上下文信息,而忽略了视差维度上的信息。立体匹配网络GCNet采用了一种新的方法,将每个视差级别的两幅图像中的每个一元特征图连接起来,并将它们打包成一个4D的代价体,然后使用3D卷积进行代价聚合。受到立体匹配网络GCNet的启发,立体匹配网络PSMNet应用了一个SPP(Spatial Pyramid Pooling,空间金字塔池化结构)模块来提取多尺度特征表示,并使用了一个堆叠的3D CNN沙漏结构来聚合上下文特征,虽然3D CNN沙漏结构可以实现高精度,但其运算量大和内存消耗高。
在现有的基于2D卷积神经网络方法中使用的相关层能够有效地计算特征的相似性,但由于它对于每个视差级别只产生一个特征通道,因此会丢失很多细节信息,导致较大的误差。而另一种基于3D卷积神经网络方法所构成的4D匹配代价体具有更丰富的上下文信息但不包含特征相似度的度量信息,所以后续的代价聚合网络中需要使用更多的参数来学习特征相似函数,从而需要更多的内存消耗和运行时间。
基于此,本发明通过整合3D相关特征(correlation features)和4D连接特征(concatenation features)构建一个混合了3D匹配代价体和4D匹配代价体,同时保留了相似信息和上下文信息,并使用堆叠的2D沙漏结构来进行代价聚合,提升模型运行速度的同时不丢失精度。此外,我们还引入了一种融合多尺度代价体的方法,旨在从所有尺度中提取全局和结构特征。本发明中构建的混合3D-4D代价体的方法,与基于2D卷积神经网络方法相比,不会丢失过多的信息,同时,与基于3D卷积神经网络方法相比,它的参数量减少了导致运算速度的提升。
下面参照图1至图9描述本发明的混合代价体的双目立体匹配方法、设备及存储介质,能够同时确保运算速度和输出的视差图的精度。
参考图1所示,根据本发明第一方面实施例的混合代价体的双目立体匹配方法,包括:
S100、获取左右立体图像对,其中,左右立体图像对包括左图和右图;
S200、对左右立体图像对进行多尺度特征提取,得到多个尺度下的特征图对;
S300、根据各个尺度下的特征图对,构建对应尺度的3D匹配代价体和4D匹配代价体;
S400、将4D匹配代价体聚合压缩至与3D匹配代价体的尺寸相等,得到4D压缩代价体;
S500、将对应尺度的4D压缩代价体与3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体;
S600、将混合匹配代价体输入2D代价聚合模型中进行视差计算,得到视差图。
通过构建多尺度的3D匹配代价体和4D匹配代价体,并且将4D匹配代价体通过聚合压缩后与3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体,能够同时保留图像的相似信息以及上下文信息,进而能够有效提高混合匹配代价体的所携带信息的有效性,估计性能高,通过2D代价体聚合模型聚合,可有效减少运算量,内存消耗少、运算速度快。
可以理解的是,参考图2所示,步骤S200,对左右立体图像对进行多尺度特征提取,得到多个尺度下的特征图对,包括:
S210、对左右立体图像对进行下采样,得到第一采样图对;
S220、对第一采样图对进行多尺度特征提取,得到多个初始特征图对;
S230、将每一初始特征图对进行连接,得到第一尺度特征图对;
S240、通过残差块对第一尺度特征图对进行特征提取,得到第二尺度特征图对和第三尺度特征图对。
可以理解的是,参考图3所示,构建对应尺度的3D匹配代价体,包括:
S310、根据左右立体图像对计算得到视图相关度,其中,视图相关度用于表示左右立体图像对中左图和右图的关系;
S320、根据视图相关度和各个尺度下的特征图对,构建得到对应尺度的3D匹配代价体,其中,3D匹配代价体的尺寸为D×H×W,D表示视差范围,H×W表示空间大小,H表示3D匹配代价体的高,W表示3D匹配代价体的宽。
可以理解的是,参考图3所示,构建对应尺度的4D匹配代价体,包括:
S330、将各个尺度下的特征图对进行连接,得到对应尺度的4D匹配代价体,其中,特征图对中设有左右两个特征图,4D匹配代价体的尺寸为C×D×H×W,C表示特征连接后的通道数,D表示视差范围,H表示4D匹配代价体的高,W表示4D匹配代价体的宽。
3D匹配代价体C3D可以通过以下公式进行构建:
4D匹配代价体C4D可以通过以下公式进行构建:
C4D(x,y,d)=Concat{fL(x,y),fR(x-d,y)}
其中,d为最大视差搜索范围,d∈[0,192),(x,y)是像素位置。
可以理解的是,参考图4所示,步骤S400,将4D匹配代价体聚合压缩至与3D匹配代价体的尺寸相等,得到4D压缩代价体,包括:
S410、通过3D卷积模块将4D匹配代价体进行聚合,得到4D聚合代价体;
S420、将4D聚合代价体压缩至与3D匹配代价体的尺寸相等,得到4D压缩代价体。
可以理解的是,参考图5所示,步骤S500,将对应尺度的4D压缩代价体与3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体,包括:
S510、将第一尺度下的4D压缩代价体与3D匹配代价体进行连接,得到第一尺度对应的第一混合匹配代价体;
S520、将第二尺度下的4D压缩代价体与3D匹配代价体进行连接,得到第二尺度对应的第二混合匹配代价体;
S530、将第三尺度下的4D压缩代价体与3D匹配代价体进行连接,得到第三尺度对应的第三混合匹配代价体,其中,第一尺度>第二尺度>第三尺度。
可以理解的是,参考图6所示,步骤S600,将混合匹配代价体输入2D代价聚合模型中进行视差计算,得到视差图,包括:
S610、通过2D代价聚合模型中的第一2D卷积模块对第一混合匹配代价体进行正则化,得到正则化代价体,其中,第一2D卷积模块具有跳跃连接功能;
S620、通过2D代价聚合模型将正则化代价体进行下采样,得到第二尺度下的第一采样代价体;
S630、通过2D代价聚合模型将第一采样代价体与第二混合匹配代价体进行连接,得到第一连接代价体;
S640、通过2D代价聚合模型中的第二2D卷积模块将第一连接代价体的特征通道数降低至指定值,得到低通道代价体,其中,低通道代价体的特征通道数与正则化代价体的通道数相等;
S650、通过2D代价聚合模型将低通道代价体进行下采样,得到第三尺度下的第二采样代价体;
S660、通过2D代价聚合模型将第二采样代价体与第三混合匹配代价体进行连接,得到第二连接代价体;
S670、通过2D代价聚合模型中的第三2D卷积模块将第二连接代价体进行上采样,得到第一尺度下的第三采样代价体;
S680、通过2D代价聚合模型对第三采样代价体计算视差,得到视差图。
可以理解的是,混合代价体的双目立体匹配方法所应用网络的框架图参考图7所示,3D匹配代价体根据3个3×3的卷积操作将左右立体图像对下采样到1/2的分辨率,然后通过4个残差块来学习一元特征提取,将提取到的3个特征图连接成一起并形成一个分辨率为1/4、通道数为320的一元特征图,然后利用两个步长为2的残差块来对这个一元特征图进行操作,构成1/8和1/16分辨率的特征图,对应的特征通道数分别为160和80,这两个特征图是用于构建相关代价体即3D匹配代价体的;将前面320通道的一元特征图压缩为24通道,然后对这个1/4分辨率、24通道的一元特征图通过两个步长为2的残差块生成1/8和1/16分辨率的特征图,特征通道数分别为12和6,将上述特征图进行连接得到级联代价体即4D匹配代价体。
参考图8所示,通过3D卷积模块将4D匹配代价体C4D进行聚合得到4D聚合代价体,将4D聚合代价体压缩至尺寸与3D匹配代价体的尺寸相等,得到4D压缩代价体即压缩后的C4D,将4D压缩代价体与3D匹配代价体C3D进行连接,得到混合匹配代价体Chybrid
2D代价聚合模型为2D CNN代价体聚合模型,参考图9所示,2D CNN代价体聚合模型通过三个2D卷积神经网络训练得到,每个2D卷积神经网络都能产生一个视差图和一个损失函数,2D CNN代价体聚合模型形成一个堆叠的沙漏结构。第一混合匹配代价体、第二混合匹配代价体、第三混合匹配代价体的尺度分别为1/4、1/8、1/16,步骤600中,2D代价聚合模型中2D卷积神经网络的工作过程如下:先通过四个具有跳跃连接的2D卷积层对第一混合匹配代价体进行正则化,将得到的正则化代价体从1/4尺度下采样到1/8尺度得到第一采样代价体,将第一采样代价体与第二混合代价体进行连接,得到第一连接代价体,再通过2D卷积层将连接所得代价体的特征通道减少至指定的大小,得到低通道代价体,接着采用上述相同的操作对低通道代价体下采样到1/16尺度得到第二下采样代价体,将第二下采样代价体与第三混合匹配代价体进行连接得到第二连接代价体,通过2D转置卷积层对第二连接代价体进行上采样,得到第三采样代价体。2D CNN代价体聚合模型的训练过程中,总的损失计算是三个损失的加权和,测试过程中则取最后一个损失作为最终的损失来计算视差图。
可以理解的是,通过2D代价聚合模型对第三采样代价体计算视差,得到视差图,包括:
将第三采样代价体进行双线性插值后输入到2D代价聚合模型中的视差回归模块,得到视差图。
视差回归模块的计算可以通过以下公式表示:
采用smoothL1函数来训练2D CNN代价体聚合模型,smoothL1对异常值或噪声的敏感度交底,有助于防止视差不连续,2D CNN代价体聚合模型的损失函数定义为:
smoothL1函数定义为:
另外,本发明第二方面实施例还提供了一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述第一方面实施例的混合代价体的双目立体匹配方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的混合代价体的双目立体匹配方法,例如,执行以上描述的方法步骤S100至S600、方法步骤S210至S240、方法步骤S310至S330、方法步骤S410至S420、方法步骤S510至S530、方法步骤S610至S680。
以上所描述的设备实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明第三方面实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的混合代价体的双目立体匹配方法,例如,执行以上描述的方法步骤S100至S600、方法步骤S210至S240、方法步骤S310至S330、方法步骤S410至S420、方法步骤S510至S530、方法步骤S610至S680。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种混合代价体的双目立体匹配方法,其特征在于,包括:
获取左右立体图像对;
对所述左右立体图像对进行多尺度特征提取,得到多个尺度下的特征图对;
根据各个尺度下的所述特征图对,构建对应尺度的3D匹配代价体和4D匹配代价体;
将所述4D匹配代价体聚合压缩至与所述3D匹配代价体的尺寸相等,得到4D压缩代价体;
将对应尺度的所述4D压缩代价体与所述3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体;
将所述混合匹配代价体输入2D代价聚合模型中进行视差计算,得到视差图。
2.根据权利要求1所述的一种混合代价体的双目立体匹配方法,其特征在于,所述对所述左右立体图像对进行多尺度特征提取,得到多个尺度下的特征图对,包括:
对所述左右立体图像对进行下采样,得到第一采样图对;
对所述第一采样图对进行多尺度特征提取,得到多个初始特征图对;
将每一所述初始特征图对进行连接,得到第一尺度特征图对;
通过残差块对所述第一尺度特征图对进行特征提取,得到第二尺度特征图对和第三尺度特征图对。
3.根据权利要求1所述的一种混合代价体的双目立体匹配方法,其特征在于,所述构建对应尺度的3D匹配代价体,包括:
根据所述左右立体图像对计算得到视图相关度;
根据所述视图相关度和各个尺度下的所述特征图对,构建得到对应尺度的所述3D匹配代价体,其中,所述3D匹配代价体的尺寸为D×H×W,D表示视差范围,H×W表示空间大小。
4.根据权利要求3所述的一种混合代价体的双目立体匹配方法,其特征在于,所述构建对应尺度的4D匹配代价体,包括:
将各个尺度下的所述特征图对进行连接,得到对应尺度的所述4D匹配代价体,其中,所述4D匹配代价体的尺寸为C×D×H×W,C表示特征连接后的通道数。
5.根据权利要求4所述的一种混合代价体的双目立体匹配方法,其特征在于,所述将所述4D匹配代价体聚合压缩至与所述3D匹配代价体的尺寸相等,得到4D压缩代价体,包括:
通过3D卷积模块将所述4D匹配代价体进行聚合,得到4D聚合代价体;
将所述4D聚合代价体压缩至与所述3D匹配代价体的尺寸相等,得到所述4D压缩代价体。
6.根据权利要求5所述的一种混合代价体的双目立体匹配方法,其特征在于,所述将对应尺度的所述4D压缩代价体与所述3D匹配代价体进行连接,得到多个尺度下的混合匹配代价体,包括:
将第一尺度下的所述4D压缩代价体与所述3D匹配代价体进行连接,得到第一尺度对应的第一混合匹配代价体;
将第二尺度下的所述4D压缩代价体与所述3D匹配代价体进行连接,得到第二尺度对应的第二混合匹配代价体;
将第三尺度下的所述4D压缩代价体与所述3D匹配代价体进行连接,得到第三尺度对应的第三混合匹配代价体。
7.根据权利要求6所述的一种混合代价体的双目立体匹配方法,其特征在于,所述将所述混合匹配代价体输入2D代价聚合模型中进行视差计算,得到视差图,包括:
通过所述2D代价聚合模型中的第一2D卷积模块对所述第一混合匹配代价体进行正则化,得到正则化代价体;
通过所述2D代价聚合模型将所述正则化代价体进行下采样,得到第二尺度下的第一采样代价体;
通过所述2D代价聚合模型将所述第一采样代价体与所述第二混合匹配代价体进行连接,得到第一连接代价体;
通过所述2D代价聚合模型中的第二2D卷积模块将所述第一连接代价体的特征通道数降低至指定值,得到低通道代价体;
通过所述2D代价聚合模型将所述低通道代价体进行下采样,得到第三尺度下的第二采样代价体;
通过所述2D代价聚合模型将第二采样代价体与所述第三混合匹配代价体进行连接,得到第二连接代价体;
通过所述2D代价聚合模型中的通过第三2D卷积模块将所述第二连接代价体进行上采样,得到第一尺度下的第三采样代价体;
通过所述2D代价聚合模型对所述第三采样代价体计算视差,得到所述视差图。
8.根据权利要求7所述的一种混合代价体的双目立体匹配方法,其特征在于,所述通过所述2D代价聚合模型对所述第三采样代价体计算视差,得到所述视差图,包括:
将所述第三采样代价体进行双线性插值后输入到所述2D代价聚合模型中的视差回归模块,得到所述视差图。
9.一种电子设备,其特征在于,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的一种混合代价体的双目立体匹配方法。
10.一种计算机存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至8中任意一项所述的一种混合代价体的双目立体匹配方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210689258.1A CN115170636A (zh) | 2022-06-17 | 2022-06-17 | 混合代价体的双目立体匹配方法、设备及存储介质 |
PCT/CN2022/110040 WO2023240764A1 (zh) | 2022-06-17 | 2022-08-03 | 混合代价体的双目立体匹配方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210689258.1A CN115170636A (zh) | 2022-06-17 | 2022-06-17 | 混合代价体的双目立体匹配方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170636A true CN115170636A (zh) | 2022-10-11 |
Family
ID=83486029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210689258.1A Pending CN115170636A (zh) | 2022-06-17 | 2022-06-17 | 混合代价体的双目立体匹配方法、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115170636A (zh) |
WO (1) | WO2023240764A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058252A (zh) * | 2023-10-12 | 2023-11-14 | 东莞市爱培科技术有限公司 | 一种自适应融合的立体匹配算法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101711358B1 (ko) * | 2012-05-02 | 2017-02-28 | 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 | 의학적 애플리케이션들에서 증강 현실을 위한 동적 모델을 이용한 4 차원 이미지 등록 |
CN111696148A (zh) * | 2020-06-17 | 2020-09-22 | 中国科学技术大学 | 基于卷积神经网络的端到端立体匹配方法 |
CN112150518B (zh) * | 2020-08-06 | 2024-05-14 | 江苏大学 | 一种基于注意力机制的图像立体匹配方法及双目设备 |
CN112489097B (zh) * | 2020-12-11 | 2024-05-17 | 深圳先进技术研究院 | 基于混合2d卷积和伪3d卷积的立体匹配方法 |
CN114170311A (zh) * | 2021-12-06 | 2022-03-11 | 北京师范大学珠海校区 | 一种双目立体匹配方法 |
-
2022
- 2022-06-17 CN CN202210689258.1A patent/CN115170636A/zh active Pending
- 2022-08-03 WO PCT/CN2022/110040 patent/WO2023240764A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058252A (zh) * | 2023-10-12 | 2023-11-14 | 东莞市爱培科技术有限公司 | 一种自适应融合的立体匹配算法 |
CN117058252B (zh) * | 2023-10-12 | 2023-12-26 | 东莞市爱培科技术有限公司 | 一种自适应融合的立体匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023240764A1 (zh) | 2023-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109191515B (zh) | 一种图像视差估计方法及装置、存储介质 | |
CN109472819B (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
EP3779881A1 (en) | Method for determining depth information and related device | |
US20220067950A1 (en) | Method and apparatus to complement depth image | |
CN113936139A (zh) | 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 | |
CN115223117B (zh) | 三维目标检测模型的训练和使用方法、装置、介质及设备 | |
CN111985551B (zh) | 一种基于多重注意力网络的立体匹配算法 | |
CN113762267B (zh) | 一种基于语义关联的多尺度双目立体匹配方法及装置 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
EP3945497A1 (en) | Method and apparatus with image depth estimation | |
CN114372523A (zh) | 一种基于证据深度学习的双目匹配不确定性估计方法 | |
CN116402876A (zh) | 双目深度估计方法、装置、嵌入式设备和可读存储介质 | |
CN115170636A (zh) | 混合代价体的双目立体匹配方法、设备及存储介质 | |
CN115661767A (zh) | 一种基于卷积神经网络的图像前方车辆目标识别方法 | |
CN113313740B (zh) | 一种基于平面连续性的视差图和表面法向量联合学习方法 | |
CN114494395A (zh) | 基于平面先验的深度图生成方法、装置、设备及存储介质 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
CN114399737A (zh) | 一种道路检测方法、装置、存储介质及电子设备 | |
CN113034666A (zh) | 一种基于金字塔视差优化代价计算的立体匹配方法 | |
WO2021167910A1 (en) | A method for generating a dataset, a method for generating a neural network, and a method for constructing a model of a scene | |
CN112233149A (zh) | 场景流的确定方法及装置、存储介质、电子装置 | |
CN117422884A (zh) | 三维目标检测方法、系统、电子设备及存储介质 | |
CN111696167A (zh) | 自范例学习引导的单张影像超分辨率重构方法 | |
CN115311168A (zh) | 面向多视角视觉系统的深度估计方法、电子设备及介质 | |
CN114820755B (zh) | 一种深度图估计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |