CN115330849A - 弱纹理的多阶段稠密重建网络方法、装置及存储介质 - Google Patents
弱纹理的多阶段稠密重建网络方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115330849A CN115330849A CN202210708717.6A CN202210708717A CN115330849A CN 115330849 A CN115330849 A CN 115330849A CN 202210708717 A CN202210708717 A CN 202210708717A CN 115330849 A CN115330849 A CN 115330849A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- depth
- reference image
- bottom layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 39
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013507 mapping Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Remote Sensing (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种弱纹理的多阶段稠密重建网络方法、装置及存储介质,涉及遥感测绘地理信息技术领域,解决了现有技术中对弱纹理区域进行三维重建时与实际差距大,计算速度慢的问题。该方法包括:获取参考图像、多张源图像和标定的相机位姿,并根据特征金字塔对参考图像和多张源图像进行特征提取,确定其顶、中和底层的特征图;对各层的特征图进行多尺度信息提取,确定处理后的各层特征图;根据相机位姿对多张源图像处理后的各层的特征图进行单应性变换,并分别投影至参考图像处理后的各层特征图上,确定参考图像的各层深度图和范围;并融合为稠密点云。该方法实现了弱纹理区域的三维重建效果好,对计算机的硬件要求不高且处理速度快的目的。
Description
技术领域
本申请涉及遥感测绘地理信息技术领域,尤其涉及一种弱纹理的多阶段稠密重建网络方法、装置及存储介质。
背景技术
三维重建是从二维影像出发恢复被拍摄的物体表面几何结构的过程,相比于传统的正直摄影测量技术,倾斜摄影技术就此产生。基于视觉的三维重建技术是通过图像也正匹配计算相机的位姿信息以及提取稀疏点云,将多张倾斜摄影的照片进行匹配,通过3D纹理映射,获得实景的三维模型。
但是现有的技术中,受到场景中光照变化、透视畸变、弱纹理与重复纹理区域的影响,在三维重建任务中,弱纹理区域的照片一致性测量误差较大,传统的多视图立体算法难以处理,容易出现水面“颠簸”和墙体“孔洞”等现象,并且在处理过程中,显卡的消耗过大,容易卡顿,处理延迟。
发明内容
本申请实施例通过提供一种弱纹理的多阶段稠密重建网络方法、装置及存储介质,解决了现有技术中对弱纹理区域进行三维重建时与实际差距大,以及在计算过程中显卡的消耗过大,容易卡顿,处理速度过慢的问题,实现了弱纹理区域的三维重建效果好,对计算机的硬件要求不高且处理速度快的目的。
第一方面,本发明实施例提供了一种弱纹理的多阶段稠密重建网络方法,该方法包括:
获取参考图像、多张源图像和标定的相机位姿,并根据特征金字塔对所述参考图像和所述多张源图像进行特征提取,确定所述参考图像和所述多张源图像的顶层、中层、底层的特征图;
分别对所述顶层、中层、底层的特征图进行多尺度信息提取,确定处理后的顶层、中层、底层的特征图;
根据所述相机位姿对所述多张源图像处理后的顶层、中层、底层的特征图进行单应性变换,并分别投影至所述参考图像处理后的顶层、中层、底层特征图上,确定所述参考图像的顶层、中层和底层深度图和深度范围;
将多张所述深度图融合为稠密点云。
结合第一方面,在一种可能的实现方式中,所述根据特征金字塔对所述参考图像和所述多张源图像进行特征提取,包括:
根据所述特征金字塔的上采样及下采样结构对所述参考图像和所述多张源图像进行采样,每张图像分别确定顶层特征图、中层特征图以及层特征图;
其中,顶层特征图大小为W/4×H/4×32,中层特征图大小为W/2×H/2×32,底层特征图大小为W×H×32,W、H表示所述特征图的宽和高。
结合第一方面,在一种可能的实现方式中,所述分别对所述顶层、中层、底层的特征图进行多尺度信息提取,包括:
使用多尺度聚合模块对所述顶层、中层、底层的特征图按尺度大小分别进行多层卷积处理,确定尺度减半的特征图;
通过双线性插值和拼接,使所述尺度减半的特征图进行进行尺度大小处理,确定特定尺度特征图;
将所述特定尺度特征图输入自注意力层,输出处理后的顶层、中层、底层的特征图。
结合第一方面,在一种可能的实现方式中,所述确定所述参考图像的顶层、中层和底层深度图和深度范围,包括:
对所述处理后的顶层特征图使用卷积神经网络生成顶层深度图和顶层深度范围;
根据所述中层特征图和所述顶层深度范围进行中层代价体构建,并使用卷积神经网络根据所述中层代价体生成中层深度图和中层深度范围;
根据所述底层特征图和所述中层深度范围进行底层代价体构建,并使用卷积神经网络根据所述底层代价体生成底层深度图和底层深度范围,所述底层深度图为深度估计阶段最终确定的深度图。
结合第一方面,在一种可能的实现方式中,所述参考图像的顶层、中层和底层的深度范围的精确度递增。
结合第一方面,在一种可能的实现方式中,所述根据所述相机位姿对所述多张源图像的特征图进行单应性变换,并投影至所述参考图像特征图上,确定多个特征体,包括:
将所述多张源图像分别投影至所述顶层、中层、底层特征图上;
采用插值法使每张投影特征图尺度相同。
结合第一方面,在一种可能的实现方式中,还包括:根据深度优化网络优化所述深度图,确定优化深度图。
第二方面,本发明实施例提供了一种弱纹理的多阶段稠密重建网络装置,该装置包括:
特征金字塔模块,用于获取参考图像、多张源图像和标定的相机位姿,并根据特征金字塔对所述参考图像和所述多张源图像进行特征提取,确定所述参考图像和所述多张源图像的顶层、中层、底层的特征图;
多尺度聚合模块,用于分别对所述顶层、中层、底层的特征图进行多尺度信息提取,确定处理后的顶层、中层、底层的特征图;
深度确定模块,用于根据所述相机位姿对所述多张源图像处理后的顶层、中层、底层的特征图进行单应性变换,并分别投影至所述参考图像处理后的顶层、中层、底层特征图上,确定所述参考图像的顶层、中层和底层深度图和深度范围;
融合模块,用于将多张所述深度图融合为稠密点云。
结合第二方面,在一种可能的实现方式中,所述特征金字塔模块具体用于根据所述特征金字塔的上采样及下采样结构对所述参考图像和所述多张源图像进行采样,每张图像分别确定顶层特征图、中层特征图以及层特征图;
其中,顶层特征图大小为W/4×H/4×32,中层特征图大小为W/2×H/2×32,底层特征图大小为W×H×32,W、H表示所述特征图的宽和高。
结合第二方面,在一种可能的实现方式中,所述多尺度聚合模块具体用于使用多尺度聚合模块对所述顶层、中层、底层的特征图按尺度大小分别进行多层卷积处理,确定尺度减半的特征图;
通过双线性插值和拼接,使所述尺度减半的特征图进行进行尺度大小处理,确定特定尺度特征图;
将所述特定尺度特征图输入自注意力层,输出处理后的顶层、中层、底层的特征图。
结合第二方面,在一种可能的实现方式中,所述深度确定模块具体用于对所述处理后的顶层特征图使用卷积神经网络生成顶层深度图和顶层深度范围;
根据所述中层特征图和所述顶层深度范围进行中层代价体构建,并使用卷积神经网络根据所述中层代价体生成中层深度图和中层深度范围;
根据所述底层特征图和所述中层深度范围进行底层代价体构建,并使用卷积神经网络根据所述底层代价体生成底层深度图和底层深度范围,所述底层深度图为深度估计阶段最终确定的深度图。
结合第二方面,在一种可能的实现方式中,所述深度确定模块中所述参考图像的顶层、中层和底层的深度范围的精确度递增。
结合第二方面,在一种可能的实现方式中,所述深度确定模块具体用于将所述多张源图像分别投影至所述顶层、中层、底层特征图上;
采用插值法使每张投影特征图尺度相同。
第三方面,本发明实施例提供了一种弱纹理的多阶段稠密重建网络服务器,该服务器包括存储器和处理器;
所述存储器用于存储计算机可执行指令;
所述处理器用于执行所述计算机可执行指令,以实现第一方面或第一方面任一种可能的实现方式所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有可执行指令,计算机执行所述可执行指令时能够实现第一方面或第一方面任一种可能的实现方式所述的方法。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明实施例提供了一种弱纹理的多阶段稠密重建网络方法,该方法包括:获取参考图像、多张源图像和标定的相机位姿,并根据特征金字塔对参考图像和多张源图像进行特征提取,确定参考图像和多张源图像的顶层、中层、底层的特征图,对待处理的图像进行分层,从处理速度上,分层处理的方式,能够在后续进行深度图计算时,减少单张图像消耗的GPU的内存,使得处理的速度加快;分别对顶层、中层、底层的特征图进行多尺度信息提取,确定处理后的顶层、中层、底层的特征图,进行多尺度信息提取时,进一步的将分层的特征图中的特征清晰化;根据相机位姿对多张源图像处理后的顶层、中层、底层的特征图进行单应性变换,并分别投影至参考图像处理后的顶层、中层、底层特征图上,确定参考图像的顶层、中层和底层深度图和深度范围;将多张深度图融合为稠密点云。该方法有效解决了现有技术中对弱纹理区域进行三维重建时与实景差距大,以及在计算过程中显卡的消耗过大,容易卡顿,处理速度过慢的问题,实现了弱纹理区域的三维重建效果好,对计算机的硬件要求不高且处理速度快的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的弱纹理的多阶段稠密重建网络方法的流程示意图;
图2为本申请实施例提供的弱纹理的多阶段稠密重建网络方法的步骤流程图;
图3为本申请实施例提供的多尺度信息提取的步骤流程图;
图4为本申请实施例提供的自注意力层示意图;
图5为本申请实施例提供的深度图和深度范围确定的步骤流程图;
图6为本申请实施例提供的弱纹理的多阶段稠密重建网络装置的示意图;
图7为本申请实施例提供的多阶段稠密重建网络服务器示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
稠密重建算法旨在从多幅图像中获取真实场景的3D稠密点云模型,常应用于虚拟现实、自主驾驶和考古等众多应用场景。传统方法使用人工计算的相似性度量和光度一致性来估计深度图并生成稠密3D点云。这些方法在理想的朗伯场景下显示了很好的效果,但在一些特殊的场景下受到限制。例如反射面、低纹理和弱纹理区域导致不完整的重建。为了克服这一限制,引入深度学习来改进重建算法。近几年有很多经典的基于学习方法被提出,但仍存在一些问题。首先,在特征提取上提取低弱纹理表面特征存在困难,多尺度信息难以兼顾。之前的方法虽然尝试改进,但没有充分利用不同区域的纹理信息和上下文感知。其次,在代价体正则上,显存的消耗对于多视角三维重建(英文:Multi-view Stereo,简称:MVS)算法效率尤为关键。MVS使用3D卷积神经网络(英文:3D Convolutional Networks,简称:3D CNN)进行代价体正则化生成概率体得到深度图,这种方法可以很好的利用局部信息和多尺度上下文信息但十分消耗显存,特别是在大分辨率图像上,它无法直接用于回归稠密的深度图估计。因此,针对以上两大问题,在特征提取部分根据纹理区域的信息设计一种自注意力的多尺度聚合模块结合特征金字塔自适应的提取图像特征;在代价体正则化上使用分阶段策略由粗到细的推断深度图,如图1所示。这样我们的代价体是稀疏的,所占用的显存就有效减少。
本发明实施例提供了一种弱纹理的多阶段稠密重建网络方法,如图2所示,该方法包括以下S101至S104四个步骤。
S101,获取参考图像、多张源图像和标定的相机位姿,并根据特征金字塔对参考图像和多张源图像进行特征提取,确定参考图像和多张源图像的顶层、中层、底层的特征图。
S102,分别对顶层、中层、底层的特征图进行多尺度信息提取,确定处理后的顶层、中层、底层的特征图。
S103,根据相机位姿对多张源图像处理后的顶层、中层、底层的特征图进行单应性变换,并分别投影至参考图像处理后的顶层、中层、底层特征图上,确定参考图像的顶层、中层和底层深度图和深度范围。
S104,将多张深度图融合为稠密点云。
在对待处理的图像进行分层,从处理速度上,分层处理的方式,能够在后续进行深度图计算时,减少单张图像消耗的图形处理器(英文:graphics processing unit,简称:GPU)的内存,使得处理的速度加快,进行多尺度信息提取时,进一步的将分层的特征图中的特征清晰化。该方法有效解决了现有技术中对弱纹理区域进行三维重建时与实际差距大,以及在计算过程中显卡的消耗过大,容易卡顿,处理速度过慢的问题,实现了有效解决弱纹理区域的三维重建效果好,对计算机的硬件要求不高且处理速度快的目的。
在步骤S101中,根据特征金字塔对参考图像和多张源图像进行特征提取,包括:根据特征金字塔的上采样及下采样结构对参考图像和多张源图像进行采样,每张图像分别确定顶层特征图、中层特征图以及层特征图;其中,顶层特征图大小为W/4×H/4×32,中层特征图大小为W/2×H/2×32,底层特征图大小为W×H×32,W、H表示特征图的宽和高。在本步骤中的特征提取中,特征网络分为两部分,特征金字塔和自注意多尺度聚合模块。特征金字塔可以看作一个编码和解码的结构,通过特征金字塔可以得到三个不同尺度的特征图,顶层特征图包含高层语义特征但缺乏底层的细节;高层的特征图虽然包含特征细节,但是缺失足够的语义信息。因此从多个尺度上提取特征能够准确的描述图像特征。根据特征金字塔的上采样结构就下采样结构,输出的特征图有三个尺度分别分上述的尺度,即为三个阶段。
在S102中分别对顶层、中层、底层的特征图进行多尺度信息提取,如图3所示,包括以下S201至S203三个步骤。
S201,使用多尺度聚合模块对顶层、中层、底层的特征图按尺度大小分别进行多层卷积处理,确定尺度减半的特征图。
S202,通过双线性插值和拼接,使尺度减半的特征图进行进行尺度大小处理,确定特定尺度特征图。
S203,将特定尺度特征图输入自注意力层,输出处理后的顶层、中层、底层的特征图。
在步骤S201中,多尺度聚合模块中包含3层可变卷积和1层自注意力层。对于参考图像和源图像中不同尺度的物体需要不同的尺度特征图描述,因此在每一个阶段都有3个不同尺度的的可变形卷积提取多尺度信息。在第一阶段,3个可变形卷积每一层都会各维度尺度减半,在步骤S202中,通过双线性插值和拼接得到尺度为W/4×H/4×32的特征图。同理,在第二阶段,最后的特征图输出的尺度为W/2×H/2×32,在最终阶段生成的特征图的尺度为W×H×32。
在本申请中,可变形卷积的定义如下:
其中,f(p)表示像素p的特征值,wk和pk表示在普通卷积运算中定义的卷积核参数和固定偏移量。Δpk和Δmk是可变形卷积的经过学习产生的偏移量和权重。
自注意力表示为:
其中,矩阵WQ沿所有通道提取xab处的信息,而矩阵WK用于xij周围的所有通道提取像素信息。因此,矩阵WQ和WK用于相似性测量。矩阵WV用作线性变换,进行从输入到输出的维度映射。自注意力细节图4所示。
根据相机位姿对多张源图像的特征图进行单应性变换,并投影至参考图像特征图上,确定多个特征体,包括:将多张源图像分别投影至顶层、中层、底层特征图上;采用插值法使每张投影特征图尺度相同。
在步骤S103中,确定参考图像的顶层、中层和底层深度图和深度范围,如图5所示,包括步骤S301至步骤S303。
S301,对处理后的顶层特征图使用卷积神经网络生成顶层深度图和顶层深度范围。
S302,根据中层特征图和顶层深度范围进行中层代价体构建,并使用卷积神经网络根据中层代价体生成中层深度图和中层深度范围。
S303,根据底层特征图和中层深度范围进行底层代价体构建,并使用卷积神经网络根据底层代价体生成底层深度图和底层深度范围,底层深度图为深度估计阶段最终确定的深度图。
通过步骤S102进行特征提取后,得到一张参考图像的特征图和N-1张源图像的特征图。在具体的一个实施例中,共有N张图像,其中一张参考图像,N-1张源图像,每一张参考图像对应N-1个特征体,将这些特征体基于方差的形式构建一个代价体。由于在第一阶段生成的代价体是的尺度为W/4×H/4×32是稀疏的,因此使用的正则网络是3D CNN生成的是粗糙的深度图,并对场景的深度范围进行了一个粗略的估计。将第一阶段得到的深度范围作为参考,进行第二阶段的深度图估计。如步骤S302所示,使用中层特征图在之前确定的顶层深度范围内进行采样深度平面构成的代价体,其尺度为W/2×H/2×32,使用3D CNN生成较为细致的深度图,同时将深度范围进一步缩小。最终的深度图是如步骤S303所示,依靠第二阶生成的深度范围进行采样深度平面构成代价体,其尺度为W×H×32,使用3D CNN生成最终的深度图。
在本申请提供的方法中还包括:根据深度优化网络优化深度图,确定优化深度图。将步骤S303得到的深度图送入深度图优化网络。由于正则化过程中会出现深度图边界过平滑现象,并且由于参考图像包含了边界信息,因此可用参考图像引导优化深度图。从参考图像和多张源图像提取出多张特征图,通过深度图D(P),将参考图像上的点p投影到每张源图像上的p'处,计算他们的特征图取值的差异。使用高斯牛顿最小化差异值E(p)并计算残差ri(p),其计算公式如下。
ri(p)=Fi(p′i)-F0(p),
其中,Fi(p′i)为源图像的特征图,F0(p)为参考图像的特征图。随后对每个残差计算对深度图D(p)求一阶导数Ji(p),可以得到当前深度的增量δ,公式如下。
δ=-(JTJ)-1JTr,
其中,J是矩阵{Ji(p)}的叠加,r是残差向量{ri(p)}的叠加。将δ与初始深度相加得到优化深度图。
在步骤S104中,将多张深度图融合为稠密点云。之前的方法在融合深度图时遵循的几何约束来测量多个视图的深度估计一致性,这些方法使用的是预先固定的参数,例如,像素重投影误差,深度重投影误差。这些参数对于不同场景并不可靠,使用固定的参数可能无法在不同场景中过滤出足够多的不匹配像素。因此,本申请提供的方法应用动态一致性检验来融合多张深度图,算法动态的约束相邻视图的一致性,得到更准确完整的稠密点云。
不同视图的动态匹配一致性定义为:其中εp表示表示像素重投影误差,εd表示像素深度重投影误差,λ表示影响两个不同的重投影误差。将所有视图的匹配一致性进行融合,得到全局动态多视图几何一致性,定义为:最后用τ过滤异常值。一般情况下,设定λ=200,τ=1.8。
网络训练时的LOSS函数分析。由于本申请中三个阶段的代价体产生第一阶段深度图、第二阶段深度图和第三阶段深度图,因此在计算损失函数时需要将所有阶段全部考虑,损失函数定义为:
其中,Lk指第k阶段的损失,λk指其相应的损失权重。本网络将N设置为3。一般来说,阶段生成深度图分辨率越高,设置的权重越大。每个阶段的损失函数计算方法与MVSNet相同。
本发明实施例还提供了一种弱纹理的多阶段稠密重建网络装置400,如图6所示,该装置包括:特征金字塔模块401、多尺度聚合模块402、深度确定模块403以及融合模块404。
特征金字塔模块401用于获取参考图像、多张源图像和标定的相机位姿,并根据特征金字塔对参考图像和多张源图像进行特征提取,确定参考图像和多张源图像的顶层、中层、底层的特征图。特征金字塔模块401具体用于根据特征金字塔的上采样及下采样结构对参考图像和多张源图像进行采样,每张图像分别确定顶层特征图、中层特征图以及层特征图;其中,顶层特征图大小为W/4×H/4×32,中层特征图大小为W/2×H/2×32,底层特征图大小为W×H×32,W、H表示特征图的宽和高。
多尺度聚合模块402用于分别对顶层、中层、底层的特征图进行多尺度信息提取,确定处理后的顶层、中层、底层的特征图。多尺度聚合模块402具体用于使用多尺度聚合模块对顶层、中层、底层的特征图按尺度大小分别进行多层卷积处理,确定尺度减半的特征图;通过双线性插值和拼接,使尺度减半的特征图进行进行尺度大小处理,确定特定尺度特征图;将特定尺度特征图输入自注意力层,输出处理后的顶层、中层、底层的特征图。
深度确定模块403用于根据相机位姿对多张源图像处理后的顶层、中层、底层的特征图进行单应性变换,并分别投影至参考图像处理后的顶层、中层、底层特征图上,确定参考图像的顶层、中层和底层深度图和深度范围。深度确定模块403具体用于对处理后的顶层特征图使用卷积神经网络生成顶层深度图和顶层深度范围;根据中层特征图和顶层深度范围进行中层代价体构建,并使用卷积神经网络根据中层代价体生成中层深度图和中层深度范围;根据底层特征图和中层深度范围进行底层代价体构建,并使用卷积神经网络根据底层代价体生成底层深度图和底层深度范围,底层深度图为深度估计阶段最终确定的深度图。参考图像的顶层、中层和底层的深度范围的精确度递增。深度确定模块403还用于将多张源图像分别投影至顶层、中层、底层特征图上;采用插值法使每张投影特征图尺度相同。
融合模块404用于将多张深度图融合为稠密点云。
本发明实施例提供了一种弱纹理的多阶段稠密重建网络服务器,如图7所示,该服务器包括存储器501和处理器502;存储器501用于存储计算机可执行指令;处理器502用于执行计算机可执行指令,以实现以实现上述的方法。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有可执行指令,计算机执行可执行指令时能够实现第以实现上述的方法。
上述存储介质包括但不限于随机存取存储器(英文:Random Access Memory;简称:RAM)、只读存储器(英文:Read-OnlyMemory;简称:ROM)、缓存(英文:Cache)、硬盘(英文:Hard Disk Drive;简称:HDD)或者存储卡(英文:Memory Card)。所述存储器可以用于存储计算机程序指令。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。本实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照本实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然,也可以将实现某功能的模块由多个子模块或子单元组合实现。
本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施方式采用递进的方式描述,各个实施方式之间相同或相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上实施例仅用以说明本申请的技术方案,而非对本申请限制;尽管参照前述实施例对本申请进行了详细的说明,本领域普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请技术方案的范围。
Claims (10)
1.一种弱纹理的多阶段稠密重建网络方法,其特征在于,包括:
获取参考图像、多张源图像和标定的相机位姿,并根据特征金字塔对所述参考图像和所述多张源图像进行特征提取,确定所述参考图像和所述多张源图像的顶层、中层、底层的特征图;
分别对所述顶层、中层、底层的特征图进行多尺度信息提取,确定处理后的顶层、中层、底层的特征图;
根据所述相机位姿对所述多张源图像处理后的顶层、中层、底层的特征图进行单应性变换,并分别投影至所述参考图像处理后的顶层、中层、底层特征图上,确定所述参考图像的顶层、中层和底层深度图和深度范围;
将多张所述深度图融合为稠密点云。
2.根据权利要求1所述的方法,其特征在于,所述根据特征金字塔对所述参考图像和所述多张源图像进行特征提取,包括:
根据所述特征金字塔的上采样及下采样结构对所述参考图像和所述多张源图像进行采样,每张图像分别确定顶层特征图、中层特征图以及层特征图;
其中,顶层特征图大小为W/4×H/4×32,中层特征图大小为W/2×H/2×32,底层特征图大小为W×H×32,W、H表示所述特征图的宽和高。
3.根据权利要求1所述的方法,其特征在于,所述分别对所述顶层、中层、底层的特征图进行多尺度信息提取,包括:
使用多尺度聚合模块对所述顶层、中层、底层的特征图按尺度大小分别进行多层卷积处理,确定尺度减半的特征图;
通过双线性插值和拼接,使所述尺度减半的特征图进行进行尺度大小处理,确定特定尺度特征图;
将所述特定尺度特征图输入自注意力层,输出处理后的顶层、中层、底层的特征图。
4.根据权利要求1所述的方法,其特征在于,所述确定所述参考图像的顶层、中层和底层深度图和深度范围,包括:
对所述处理后的顶层特征图使用卷积神经网络生成顶层深度图和顶层深度范围;
根据所述中层特征图和所述顶层深度范围进行中层代价体构建,并使用卷积神经网络根据所述中层代价体生成中层深度图和中层深度范围;
根据所述底层特征图和所述中层深度范围进行底层代价体构建,并使用卷积神经网络根据所述底层代价体生成底层深度图和底层深度范围,所述底层深度图为深度估计阶段最终确定的深度图。
5.根据权利要求1所述的方法,其特征在于,所述参考图像的顶层、中层和底层的深度范围的精确度递增。
6.根据权利要求1所述的方法,其特征在于,所述根据所述相机位姿对所述多张源图像的特征图进行单应性变换,并投影至所述参考图像特征图上,确定多个特征体,包括:
将所述多张源图像分别投影至所述顶层、中层、底层特征图上;
采用插值法使每张投影特征图尺度相同。
7.根据权利要求1所述的方法,其特征在于,还包括:
根据深度优化网络优化所述深度图,确定优化深度图。
8.一种弱纹理的多阶段稠密重建网络装置,其特征在于,包括:
特征金字塔模块,用于获取参考图像、多张源图像和标定的相机位姿,并根据特征金字塔对所述参考图像和所述多张源图像进行特征提取,确定所述参考图像和所述多张源图像的顶层、中层、底层的特征图;
多尺度聚合模块,用于分别对所述顶层、中层、底层的特征图进行多尺度信息提取,确定处理后的顶层、中层、底层的特征图;
深度确定模块,用于根据所述相机位姿对所述多张源图像处理后的顶层、中层、底层的特征图进行单应性变换,并分别投影至所述参考图像处理后的顶层、中层、底层特征图上,确定所述参考图像的顶层、中层和底层深度图和深度范围;
融合模块,用于将多张所述深度图融合为稠密点云。
9.一种弱纹理的多阶段稠密重建网络服务器,其特征在于,包括存储器和处理器;
所述存储器用于存储计算机可执行指令;
所述处理器用于执行所述计算机可执行指令,以实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有可执行指令,计算机执行所述可执行指令时能够实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210708717.6A CN115330849A (zh) | 2022-06-22 | 2022-06-22 | 弱纹理的多阶段稠密重建网络方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210708717.6A CN115330849A (zh) | 2022-06-22 | 2022-06-22 | 弱纹理的多阶段稠密重建网络方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115330849A true CN115330849A (zh) | 2022-11-11 |
Family
ID=83916376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210708717.6A Pending CN115330849A (zh) | 2022-06-22 | 2022-06-22 | 弱纹理的多阶段稠密重建网络方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115330849A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015189A (zh) * | 2024-01-31 | 2024-05-10 | 中国科学院国家空间科学中心 | 一种基于弱光照自适应的小天体多视图立体重建方法及系统 |
-
2022
- 2022-06-22 CN CN202210708717.6A patent/CN115330849A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015189A (zh) * | 2024-01-31 | 2024-05-10 | 中国科学院国家空间科学中心 | 一种基于弱光照自适应的小天体多视图立体重建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hamzah et al. | Literature survey on stereo vision disparity map algorithms | |
CN106780590B (zh) | 一种深度图的获取方法及系统 | |
Panek et al. | Meshloc: Mesh-based visual localization | |
Kim et al. | 3d scene reconstruction from multiple spherical stereo pairs | |
Voynov et al. | Perceptual deep depth super-resolution | |
CN111340922B (zh) | 定位与地图构建的方法和电子设备 | |
CN109741383A (zh) | 基于空洞卷积和半监督学习的图像深度估计系统与方法 | |
CN113160068B (zh) | 基于图像的点云补全方法及系统 | |
CN112184603B (zh) | 一种点云融合方法、装置、电子设备和计算机存储介质 | |
US20220277514A1 (en) | Reconstructing three-dimensional scenes portrayed in digital images utilizing point cloud machine-learning models | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN112529794A (zh) | 高动态范围结构光三维测量方法、系统及介质 | |
CN112766135B (zh) | 目标检测方法、装置、电子设备和存储介质 | |
CN117422884A (zh) | 三维目标检测方法、系统、电子设备及存储介质 | |
CN114742875A (zh) | 基于多尺度特征提取和自适应聚合的双目立体匹配方法 | |
Wei et al. | Joint bilateral propagation upsampling for unstructured multi-view stereo | |
CN115330849A (zh) | 弱纹理的多阶段稠密重建网络方法、装置及存储介质 | |
CN115587987A (zh) | 一种蓄电池缺陷检测方法、装置、存储介质及电子设备 | |
CN117152330B (zh) | 一种基于深度学习的点云3d模型贴图方法和装置 | |
CN116188550A (zh) | 一种基于几何约束的自监督深度视觉里程计 | |
Hadfield et al. | Stereo reconstruction using top-down cues | |
WO2024045942A1 (zh) | 环境信息感知方法、装置、系统、计算机设备及存储介质 | |
CN116977671A (zh) | 基于图像空间定位的目标跟踪方法、装置、设备及存储介质 | |
CN114372944B (zh) | 一种多模态和多尺度融合的候选区域生成方法及相关装置 | |
CN115131243A (zh) | 一种图像处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |