CN115619974A - 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 - Google Patents
基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115619974A CN115619974A CN202211340263.8A CN202211340263A CN115619974A CN 115619974 A CN115619974 A CN 115619974A CN 202211340263 A CN202211340263 A CN 202211340263A CN 115619974 A CN115619974 A CN 115619974A
- Authority
- CN
- China
- Prior art keywords
- images
- image
- scene
- reference image
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000011524 similarity measure Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 108091006625 SLC10A6 Proteins 0.000 description 1
- 102100021993 Sterol O-acyltransferase 1 Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G06T3/06—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及三维重建技术领域,提出一种基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质,其方法包括:获取同一场景的多视角影像集;基于多视角影像集进行SFM重建,得到该场景的稀疏点云,以及所有影像的相机参数;采用改进PatchMatch网络进行MVS重建,得到所有影像的深度图;对所有影像的深度图进行坐标转换,得到所有影像的稠密点云;对所有影像的深度图进行融合,得到该场景的稠密点云;基于该场景的稠密点云,进行纹理网格重建,得到最终的三维模型。本发明通过改进PatchMatch网络,加快运算效率,并得到所有影像的更高质量的最终深度图,从而使得后续重建的大型场景的三维模型精度更高,完整性更好。
Description
技术领域
本发明涉及三维重建技术领域,尤其涉及一种基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质。
背景技术
传统的多视图三维重建(Multi-View Stereo,MVS),能在理想的朗伯体场景中取得很好的表现,但是在弱纹理、反射和投射的表面或、以及光照条件剧烈变化的场景中重建效果往往不佳;基于深度学习的三维重建算法应运而生,相比之下,前者主要通过提取深度信息计算深度图,后者则通过机器学习算法训练模型计算深度图。2010年前后,随着深度网络的发展,深度网络模型与几何参数法相结合以计算出图像深度的方法也随之发展,如Huang等提出Deep MVS来计算视差图。2018年,Yao等训练了一个深度网络模型MVSNet,该网络模型是一个端到端的神经网络,通过输入多视角图像得到深度图,后面他们又对MVSNet进行优化并提出了R-MVSNet,用GRU单元替代原来的3D CNN。2019年,Chen等提出了PointMVSNet神经网络框架。2021年,Fangjinhua Wang等结合传统PatchMatch算法以及传统学习的优点,提出了PatchMatchNet,可用于高分辨率的多视图立体视觉,大量实验表明PatchMatchNet在DTU、Tanks&Temples和ETH3D数据集均取得了不错的表现,并且相比于大部分的SOAT方法,PatchMatchNet在显存消耗和运行时间上表现更优。尽管如此,PatchMatchNet方法针对海量影像的大型场景三维重建依然存在内存、显存过爆的缺陷,在效率、效果上也还有待提升的空间。
发明内容
本发明为克服现有技术中采用PatchMatchNet进行大型场景的三维重建时,存在内存、显存过爆,以及效率、效果有待提升等缺陷,提供一种基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质。
为了实现上述目的,本发明采用的技术方案如下:
其一,本发明提供一种基于改进PatchMatch网络的大型场景三维重建方法,包括以下步骤:S1、获取同一场景的多视角影像集;S2、基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;S3、基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;S4、对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;S5、对所有影像的最终深度图进行融合,得到所述场景的稠密点云;S6、基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
进一步地,所述相机参数包括相机内参、相机外参,其中:所述相机内参为焦距、像主点、畸变系数,所述相机外参为相机的位姿。
进一步地,在步骤S3中,基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对,包括:S301、在所述多视角影像集中选取若干参考影像;S302、基于所述场景的稀疏点云,确定当前邻近影像与所述参考影像之间的公共可见物方点;S303、基于当前邻近影像与所述参考影像的相机参数,确定当前邻近影像摄影中心、参考影像摄影中心;S304、基于所述当前邻近影像摄影中心、参考影像摄影中心,分别计算所述公共可见物方点的平均交会角得分、地面分辨率得分和重叠区域面积得分,进而计算当前邻近影像总得分;S305、根据所述当前邻近影像总得分,筛选若干最优邻近影像,与所述参考影像组成最优匹配影像对;S306、重复上述步骤,直至所有最优匹配影像对筛选完成。
进一步地,在步骤S304中:计算所述平均交会角得分包括:构建第一光线,连接所述当前邻近影像摄影中心与公共可见物方点;构建第二光线,连接所述参考影像摄影中心与公共可见物方点;计算所述第一光线与第二光线之间的夹角,作为所述公共可见物方点的交会角得分;重复上述步骤,计算所有公共可见物方点的交会角得分,最后求平均得出所述平均交会角得分;计算所述地面分辨率得分包括:构建第三光线,连接所述参考影像摄影中心与像主点;构建第四光线,连接所述参考影像摄影中心与像主点邻居像点;通过所述第三光线、第四光线分别与所述参考影像平均深度构建的平面求交得到第一物点、第二物点;将所述第一物点与第二物点之间的距离作为所述公共可见物方点的地面分辨率得分;计算所述重叠区域面积得分包括:将所有公共可见物方点投影至所述参考影像像平面,计算所述像平面内所投像点围成的重叠面积,作为所述公共可见物方点的重叠区域面积得分;计算所述当前邻近影像总得分包括:将所述平均交会角得分、地面分辨率得分、重叠区域面积得分进行相乘,作为所述当前邻近影像总得分。
进一步地,在步骤S3中,对所述初始深度图进行加密处理,包括:对所述初始深度图进行三角剖分、随机插值和线性插值。
进一步地,在步骤S3中,对所述加密初始深度图,采用无监督损失函数进行迭代优化,包括:在PatchMatch网络原有的损失函数Ltotal中引入无监督损失函数LPC、LSSIM以及Lsmooth,共同组成改进PatchMatch网络的新损失函数L,对所述加密初始深度图进行迭代优化。
进一步地,对于所引入的无监督损失函数,其中:
所述LPC为光度一致性损失函数,其表达式为:
上式中,各参数含义如下:I′i为投影影像,即第i张邻近影像基于加密初始深度图和相机参数投影到参考视角的影像;Ii为参考影像;Mi为投影影像和参考影像的共同可视区域;
所述LSSIM为结构一致性损失函数,其表达式为:
上式中,各参数含义如下:为剔除由投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变不在参考影像范围内的邻近影像;为投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变在参考影像范围内的投影像素;表示参考影像的投影像素;μx为投影影像x像素的局部均值;μy为参考影像y像素的局部均值;σx为投影影像x像素的局部方差;σy为参考影像y像素的局部方差;σxy为投影影像和参考影像的协方差;c1、c2为常量;
所述Lsmooth为平滑损失函数,其表达式为:
上式中,各参数含义如下:Dij为梯度;Xij表示第i张邻近影像投影至参考影像j内的像素;
对于PatchMatch网络原有的损失函数,所述Ltotal代表所有估计深度与地面点云真值之间的损失,其表达式为:
结合上述各式,可得所述改进PatchMatch网络的新损失函数L,其表达式为:
L=λ1Ltotal+λ2LPC+λ3LSSIM+λ4Lsmooth (6)
上式中,各参数含义如下:λ1、λ2、λ3、λ4分别表示PatchMatch原损失函数Ltotal、光度一致性损失函数LPC、结构一致性损失函数LSSIM及平滑损失函数Lsmooth所对应的权重。
其二,本发明还提供一种基于改进PatchMatch网络的大型场景三维重建装置,包括:获取单元,配置为获取同一场景的多视角影像集;SFM重建单元,配置为基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;PatchMatch重建单元,配置为基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;坐标转换单元,配置为对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;融合单元,配置为对所有影像的最终深度图进行融合,得到所述场景的稠密点云;纹理网格重建单元,配置为基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
其三,本发明还提供一种电子设备,包括存储器以及处理器,所述存储器上存储有计算机可执行指令,所述计算机可执行指令在被所述处理器执行时,实现前述的三维重建方法。
其四,本发明还提供一种计算机可读存储介质,用于非瞬时性地存储计算机可执行指令,所述计算机可执行指令在被处理器执行时,实现前述的三维重建方法。
与现有技术相比,本发明所采用的技术方案,有益效果在于:
本发明通过改进PatchMatch网络,加快运算效率,并得到所有影像的更高质量的最终深度图,从而使得后续重建的大型场景的三维模型精度更高,完整性更好。一是对基于SFM重建得到的稀疏点云,进行二维投影和加密处理,得到所有影像的加密初始深度图,取代原始PatchMatchNet网络准确率较低的随机初始化过程;二是对所有影像进行筛选规则更加严格的相似性测度计算,提升立体匹配效率和效果,从而提升后续深度图的质量;三是引入无监督网络约束,采用更丰富的损失函数,进一步优化深度图,得到边界更清晰、更加平滑的深度图,最终较为理想地完成大型场景的三维重建任务。
附图说明
图1是本发明实施例一中所述三维重建方法的流程示意图;
图2是本发明实施例一中计算所述平均交会角得分原理示意图;
图3是本发明实施例一中单张影像加密处理前的初始深度图;
图4是本发明实施例一中单张影像加密处理后的加密初始深度图;
图5是“清华学堂”其一视角的影像原图;
图6是“清华学堂”其一视角基于原始PatchMatch网络得到的深度图;
图7是“清华学堂”其一视角基于改进PatchMatch网络得到的深度图;
图8是“清华学堂”其二视角的影像原图;
图9是“清华学堂”其二视角基于原始PatchMatch网络得到的深度图;
图10是“清华学堂”其二视角基于改进PatchMatch网络得到的深度图;
图11是“清华学堂”基于原始PatchMatch网络得到整个场景的稠密点云示意图;
图12是“清华学堂”基于改进PatchMatch网络得到整个场景的稠密点云示意图;
图13是图11的局部放大图;
图14是图12的局部放大图;
图15是“清华学堂”基于原始PatchMatch网络得到的整个场景的三维模型正视图;
图16是“清华学堂”基于原始PatchMatch网络得到的整个场景的三维模型俯视图;
图17是“清华学堂”基于原始PatchMatch网络得到的整个场景的三维模型左视图;
图18是“清华学堂”基于改进PatchMatch网络得到的整个场景的三维模型正视图;
图19是“清华学堂”基于改进PatchMatch网络得到的整个场景的三维模型俯视图;
图20是“清华学堂”基于改进PatchMatch网络得到的整个场景的三维模型左视图;
图21是本发明实施例二中所述三维重建装置的架构示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅为示例性说明,并不能理解为对本发明的限制。
实施例一
如图1所示,本实施例提供一种基于改进PatchMatch网络的大型场景三维重建方法,包括以下步骤:S1、获取同一场景的多视角影像集;S2、基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;S3、基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;S4、对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;S5、对所有影像的最终深度图进行融合,得到所述场景的稠密点云;S6、基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
在本实施例中,主要通过三个方面改进PatchMatch网络,加快运算效率,并得到所有影像的更高质量的最终深度图,从而使得后续重建的大型场景的三维模型精度更高,完整性更好。一是对基于SFM重建得到的稀疏点云,进行二维投影和加密处理,得到所有影像的加密初始深度图,取代原始PatchMatchNet网络准确率较低的随机初始化过程;二是对所有影像进行筛选规则更加严格的相似性测度计算,提升立体匹配效率和效果,从而提升后续深度图的质量;三是引入无监督网络约束,采用更丰富的损失函数,进一步优化深度图,得到边界更清晰、更加平滑的深度图,最终较为理想地完成大型场景的三维重建任务。通过上述改进,不仅简化计算复杂度,提升算法效率,还能提高重建三维模型精度,减小模型训练时间。
具体地,所述相机参数包括相机内参、相机外参,其中:所述相机内参为焦距、像主点、畸变系数,所述相机外参为相机的位姿。
具体地,在步骤S3中,基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对,包括:S301、在所述多视角影像集中选取若干参考影像;S302、基于所述场景的稀疏点云,确定当前邻近影像与所述参考影像之间的公共可见物方点;S303、基于当前邻近影像与所述参考影像的相机参数,确定当前邻近影像摄影中心、参考影像摄影中心;S304、基于所述当前邻近影像摄影中心、参考影像摄影中心,分别计算所述公共可见物方点的平均交会角得分、地面分辨率得分和重叠区域面积得分,进而计算当前邻近影像总得分;S305、根据所述当前邻近影像总得分,筛选若干最优邻近影像,与所述参考影像组成最优匹配影像对;S306、重复上述步骤,直至所有最优匹配影像对筛选完成。
原始PatchMatch网络仅通过公共可见物方点的交会角得分来评价邻近影像质量,筛选规则不严格。在本实施例中,提出基于影像相似性测度计算,同时考虑交会角、重叠面积以及地面分辨率的相似性测度影响,用于在大量影像中筛选最优匹配影像对,提升匹配质量,从而提升深度图和点云质量,同时能够过滤低相似度的邻近影像,降低冗余匹配数据以提升立体匹配效率。对于参考影像的所有备选影像组,具体筛选流程如下:
(1)计算所述平均交会角得分:如图2所示,构建第一光线Ray1,连接所述当前邻近影像摄影中心C1与公共可见物方点W;构建第二光线Ray2,连接所述参考影像摄影中心C2与公共可见物方点W;计算所述第一光线Ray1与第二光线Ray2之间的夹角,作为所述公共可见物方点的交会角得分;重复上述步骤,计算所有公共可见物方点的交会角得分,最后求平均得出所述平均交会角得分scoreAngle。
(2)计算所述地面分辨率得分:构建第三光线Ray3,连接所述参考影像摄影中心与像主点;构建第四光线Ray4,连接所述参考影像摄影中心与像主点邻居像点;通过所述第三光线、第四光线分别与所述参考影像平均深度构建的平面求交得到第一物点、第二物点;将所述第一物点与第二物点之间的距离作为所述公共可见物方点的地面分辨率得分scoreScale。需要说明的是,对所述场景的稀疏点云进行二维投影时,得到所有影像的初始深度图,此时记录每张影像的平均深度信息,就能够得出本步骤中所述参考影像平均深度构建的平面。
(3)计算所述重叠区域面积得分:将所有公共可见物方点投影至所述参考影像像平面,计算所述像平面内所投像点围成的重叠面积,作为所述公共可见物方点的重叠区域面积得分scoreArea。
(4)计算所述当前邻近影像总得分:将scoreAngle*scoreScale*scoreArea作为所述当前邻近影像总得分,并将所有邻近影像按总得分降序排列。
(5)过滤邻近影像:在本实施例中,还设置了交会角、地面分辨率以及重叠区域面积的最大阈值和最小阈值,用于对所有邻近影像进行过滤,最后再选取总得分前几的邻近影像作为所选参考影像的最优邻近影像,组成最优匹配影像对,在本实施例中,所选取的是总得分前五的邻近影像。
具体地,在步骤S3中,对所述初始深度图进行加密处理,包括:对所述初始深度图进行三角剖分、随机插值和线性插值。以单张影像为例,如图3、图4所示,分别为加密处理之前的初始深度图、加密处理之后的加密初始深度图。对所有影像采取相同处理方式,即可得到所有影像的加密初始深度图。
原始PatchMatch网络是对深度作随机假设,需要迭代多次直至结果收敛才能接近真实深度值,不仅消耗时间,还占用内存,在在没有深度真实值的基础上进行随机初始化,最终得到的点云精度有待商榷。在本实施例中,对基于SFM重建得到的稀疏点云,进行二维投影和加密处理,得到所有影像的加密初始深度图,取代原始PatchMatchNet网络准确率较低的随机初始化过程,从流程上减小了计算量,能够更快地收敛至真值,降低内存消耗,在提高三维重建模型精度的同时加快了模型重建效率。
具体地,在步骤S3中,对所述加密初始深度图,采用无监督损失函数进行迭代优化,包括:在PatchMatch网络原有的损失函数Ltotal中引入无监督损失函数LPC、LSSIM以及Lsmooth,共同组成改进PatchMatch网络的新损失函数L,对所述加密初始深度图进行迭代优化。
原始PatchMatch网络的损失函数对深度图像的处理较为单一,在本实施例中,为了更好地从各方面优化深度图,加入了三个不同的损失函数并调整各损失函数之间的权重,以获得效果较为理想的深度图。
具体地,对于所引入的无监督损失函数,其中:
所述LPC为光度一致性损失函数,其表达式为:
上式中,各参数含义如下:I′i为投影影像,即第i张邻近影像基于加密初始深度图和相机参数投影到参考视角的影像;Ii为参考影像;Mi为投影影像和参考影像的共同可视区域;
所述LSSIM为结构一致性损失函数,其表达式为:
上式中,各参数含义如下:为剔除由投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变不在参考影像范围内的邻近影像;为投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变在参考影像范围内的投影像素;表示参考影像的投影像素;
SSIM(x,y)是衡量两图像结构相似性的评价指标,μx为投影影像x像素的局部均值;μy为参考影像y像素的局部均值;σx为投影影像x像素的局部方差;σy为参考影像y像素的局部方差;σxy为投影影像和参考影像的协方差;c1、c2为常量,本实施例中c1=0.012,c2=0.032。
所述Lsmooth为平滑损失函数,其表达式为:
上式中,各参数含义如下:Dij为梯度;Xij表示第i张邻近影像投影至参考影像j内的像素;平滑损失表示深度图变化比较大的区域,原图变化也比较大;
对于PatchMatch网络原有的损失函数,所述Ltotal代表所有估计深度与地面点云真值之间的损失,其表达式为:
结合上述各式,可得所述改进PatchMatch网络的新损失函数L,其表达式为:
L=λ1Ltotal+λ2LPC+λ3LSSIM+λ4Lsmooth (6)
上式中,各参数含义如下:λ1、λ2、λ3、λ4分别表示PatchMatch原损失函数Ltotal、光度一致性损失函数LPC、结构一致性损失函数LSSIM及平滑损失函数Lsmooth所对应的权重,在本实施例中,λ1=0.8、λ2=0.1、λ3=0.1、λ4=0.2、λ5=0.0067。
通过使用新损失函数L,改进PatchMatch网络能够回归出具有较高置信度的深度,估计更大的深度范围,得到更加平滑、边界更加锐利的最终深度图。
对于本实施例所实现的技术效果,可以“清华学堂”数据集为例,通过若干不同视角的影像的最终深度图、整个场景的稠密点云以及整个场景的三维模型的效果,加以展现。
如图5所示,为“清华学堂”其一视角的影像原图,图6为基于原始PatchMatch网络得到的深度图,图7为本实施例中基于改进PatchMatch网络得到的深度图。如图8所示,为“清华学堂”其二视角的影像原图,图9为基于原始PatchMatch网络得到的深度图,图10为本实施例中基于改进PatchMatch网络得到的深度图。可见,通过使用本实施例的改进PatchMatch网络获得的最终深度图,更加平滑、边界更加锐利,为后面的重建奠定了更好的基础。
如图11所示,为“清华学堂”基于原始PatchMatch网络得到的整个场景的稠密点云,图12为“清华学堂”基于改进PatchMatch网络得到的整个场景的稠密点云。进一步地,如图13所示,为图11的局部放大图,图14为图12的局部放大图。通过点云完整性比对,可以清楚地看到,基于本实施例的改进PatchMatch网络能够获得更加完整和稠密的点云,其纹理更加细腻,结合局部放大图可知,其在细节上也依旧能够保持完整性,使得场景中的物体的描述信息更加丰富。而基于原始PatchMatch的网络获得的点云较为粗糙,且存在较多空洞。
如图15~图17所示,分别为“清华学堂”基于原始PatchMatch网络得到的整个场景的三维模型的正视图、俯视图以及左视图,图18~图20分别为“清华学堂”基于改进PatchMatch网络得到的整个场景的三维模型的正视图、俯视图以及左视图。通过模型比对,可以清楚地看到,基于原始PatchMatch的网络得到的三维模型,存在较多的噪点,且模型表面存在空洞,完整性较差,重建效果不够理想,而本实施例中基于改进PatchMatch的网络得到的三维模型更优,在两侧窗户上明显更加完整。
实施例二
如图21所示,本实施例还提供一种基于改进PatchMatch网络的大型场景三维重建装置,应用于实施例一种所提出的三维重建方法,其包括:获取单元,配置为获取同一场景的多视角影像集;SFM重建单元,配置为基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;PatchMatch重建单元,配置为基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;坐标转换单元,配置为对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;融合单元,配置为对所有影像的最终深度图进行融合,得到所述场景的稠密点云;纹理网格重建单元,配置为基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
该三维重建装置的技术效果、功能与前述三维重建方法一致,此处不再赘述。
实施例三
本实施例还提供一种电子设备,包括存储器以及处理器,所述存储器上存储有计算机可执行指令,所述计算机可执行指令在被所述处理器执行时,实现前述的三维重建方法。关于三维重建方法的具体步骤、功能及其技术效果可参照前文,此处不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,用于非瞬时性地存储计算机可执行指令,所述计算机可执行指令在被处理器执行时,实现前述的三维重建方法。关于三维重建方法的具体步骤、功能及其技术效果可参照前文,此处不再赘述。
应当说明的是,对于所属领域的普通技术人员而言,在上述说明的基础上还可以做出其他不同形式的变动,此处无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换等,均应理解为包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于改进PatchMatch网络的大型场景三维重建方法,其特征在于,包括以下步骤:
S1、获取同一场景的多视角影像集;
S2、基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;
S3、基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:
对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;
S4、对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;
S5、对所有影像的最终深度图进行融合,得到所述场景的稠密点云;
S6、基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
2.根据权利要求1所述的三维重建方法,其特征在于,所述相机参数包括相机内参、相机外参,其中:所述相机内参为焦距、像主点、畸变系数,所述相机外参为相机的位姿。
3.根据权利要求2所述的三维重建方法,其特征在于,在步骤S3中,基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对,包括:
S301、在所述多视角影像集中选取若干参考影像;
S302、基于所述场景的稀疏点云,确定当前邻近影像与所述参考影像之间的公共可见物方点;
S303、基于当前邻近影像与所述参考影像的相机参数,确定当前邻近影像摄影中心、参考影像摄影中心;
S304、基于所述当前邻近影像摄影中心、参考影像摄影中心,分别计算所述公共可见物方点的平均交会角得分、地面分辨率得分和重叠区域面积得分,进而计算当前邻近影像总得分;
S305、根据所述当前邻近影像总得分,筛选若干最优邻近影像,与所述参考影像组成最优匹配影像对;
S306、重复上述步骤,直至所有最优匹配影像对筛选完成。
4.根据权利要求3所述的三维重建方法,其特征在于,在步骤S304中:
计算所述平均交会角得分包括:构建第一光线,连接所述当前邻近影像摄影中心与公共可见物方点;构建第二光线,连接所述参考影像摄影中心与公共可见物方点;计算所述第一光线与第二光线之间的夹角,作为所述公共可见物方点的交会角得分;重复上述步骤,计算所有公共可见物方点的交会角得分,最后求平均得出所述平均交会角得分;
计算所述地面分辨率得分包括:构建第三光线,连接所述参考影像摄影中心与像主点;构建第四光线,连接所述参考影像摄影中心与像主点邻居像点;通过所述第三光线、第四光线分别与所述参考影像平均深度构建的平面求交得到第一物点、第二物点;将所述第一物点与第二物点之间的距离作为所述公共可见物方点的地面分辨率得分;
计算所述重叠区域面积得分包括:将所有公共可见物方点投影至所述参考影像像平面,计算所述像平面内所投像点围成的重叠面积,作为所述公共可见物方点的重叠区域面积得分;
计算所述当前邻近影像总得分包括:将所述平均交会角得分、地面分辨率得分、重叠区域面积得分进行相乘,作为所述当前邻近影像总得分。
5.根据权利要求1所述的三维重建方法,其特征在于,在步骤S3中,对所述初始深度图进行加密处理,包括:对所述初始深度图进行三角剖分、随机插值和线性插值。
6.根据权利要求1所述的三维重建方法,其特征在于,在步骤S3中,对所述加密初始深度图,采用无监督损失函数进行迭代优化,包括:在PatchMatch网络原有的损失函数Ltotal中引入无监督损失函数LPC、LSSIM以及Lsmooth,共同组成改进PatchMatch网络的新损失函数L,对所述加密初始深度图进行迭代优化。
7.根据权利要求6所述的三维重建方法,其特征在于,对于所引入的无监督损失函数,其中:
所述LPC为光度一致性损失函数,其表达式为:
上式中,各参数含义如下:I′i为投影影像,即第i张邻近影像基于加密初始深度图和相机参数投影到参考视角的影像;Ii为参考影像;Mi为投影影像和参考影像的共同可视区域;
所述LSSIM为结构一致性损失函数,其表达式为:
上式中,各参数含义如下:为剔除由投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变不在参考影像范围内的邻近影像;为投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变在参考影像范围内的投影像素;表示参考影像的投影像素;μx为投影影像x像素的局部均值;μy为参考影像y像素的局部均值;σx为投影影像x像素的局部方差;σy为参考影像y像素的局部方差;σxy为投影影像和参考影像的协方差;c1、c2为常量;
所述Lsmooth为平滑损失函数,其表达式为:
上式中,各参数含义如下:Dij为梯度;Xij表示第i张邻近影像投影至参考影像j内的像素;
对于PatchMatch网络原有的损失函数,所述Ltotal代表所有估计深度与地面点云真值之间的损失,其表达式为:
结合上述各式,可得所述改进PatchMatch网络的新损失函数L,其表达式为:
L=λ1Ltotal+λ2LPC+λ3LSSIM+λ4Lsmooth (6)
上式中,各参数含义如下:λ1、λ2、λ3、λ4分别表示PatchMatch原损失函数Ltotal、光度一致性损失函数LPC、结构一致性损失函数LSSIM及平滑损失函数Lsmooth所对应的权重。
8.一种基于改进PatchMatch网络的大型场景三维重建装置,其特征在于,包括:
获取单元,配置为获取同一场景的多视角影像集;
SFM重建单元,配置为基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;
PatchMatch重建单元,配置为基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:
对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;
坐标转换单元,配置为对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;
融合单元,配置为对所有影像的最终深度图进行融合,得到所述场景的稠密点云;
纹理网格重建单元,配置为基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
9.一种电子设备,包括存储器以及处理器,所述存储器上存储有计算机可执行指令,其特征在于,所述计算机可执行指令在被所述处理器执行时,实现如权利要求1-7中任意一项所述的三维重建方法。
10.一种计算机可读存储介质,用于非瞬时性地存储计算机可执行指令,其特征在于,所述计算机可执行指令在被处理器执行时,实现如权利要求1-7中任一项所述的三维重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211340263.8A CN115619974A (zh) | 2022-10-28 | 2022-10-28 | 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211340263.8A CN115619974A (zh) | 2022-10-28 | 2022-10-28 | 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115619974A true CN115619974A (zh) | 2023-01-17 |
Family
ID=84876982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211340263.8A Pending CN115619974A (zh) | 2022-10-28 | 2022-10-28 | 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115619974A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557617A (zh) * | 2024-01-12 | 2024-02-13 | 山东师范大学 | 一种基于平面先验优化的多视密集匹配方法、系统及设备 |
-
2022
- 2022-10-28 CN CN202211340263.8A patent/CN115619974A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557617A (zh) * | 2024-01-12 | 2024-02-13 | 山东师范大学 | 一种基于平面先验优化的多视密集匹配方法、系统及设备 |
CN117557617B (zh) * | 2024-01-12 | 2024-04-09 | 山东师范大学 | 一种基于平面先验优化的多视密集匹配方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109003325B (zh) | 一种三维重建的方法、介质、装置和计算设备 | |
CN101916454B (zh) | 基于网格变形和连续优化的高分辨率人脸重建方法 | |
JP7403528B2 (ja) | シーンの色及び深度の情報を再構成するための方法及びシステム | |
Srinivasan et al. | Aperture supervision for monocular depth estimation | |
CN108038906B (zh) | 一种基于图像的三维四边形网格模型重建方法 | |
CN108416840A (zh) | 一种基于单目相机的三维场景稠密重建方法 | |
CN110223370B (zh) | 一种从单视点图片生成完整人体纹理贴图的方法 | |
CN111047709B (zh) | 一种双目视觉裸眼3d图像生成方法 | |
CN101610425A (zh) | 一种评测立体图像质量的方法和装置 | |
CN110443874B (zh) | 基于卷积神经网络的视点数据生成方法和装置 | |
CN108648264A (zh) | 基于运动恢复的水下场景重建方法及存储介质 | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
CN115222889A (zh) | 基于多视图图像的3d重建方法、装置及相关设备 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
Chen et al. | Structnerf: Neural radiance fields for indoor scenes with structural hints | |
CN115619974A (zh) | 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 | |
CN109218706B (zh) | 一种由单张图像生成立体视觉图像的方法 | |
CN112927348B (zh) | 一种基于多视点rgbd相机高分辨率人体三维重建方法 | |
CN116681839B (zh) | 一种基于改进NeRF的实景三维目标重建与单体化方法 | |
EP3906530B1 (en) | Method for 3d reconstruction of an object | |
CN111369435A (zh) | 基于自适应稳定模型的彩色图像深度上采样方法及系统 | |
CN114935316B (zh) | 基于光学跟踪与单目视觉的标准深度图像生成方法 | |
CN113920270B (zh) | 一种基于多视角全景的布局重建方法及其系统 | |
CN112002019B (zh) | 一种基于mr混合现实的模拟人物阴影的方法 | |
Kim et al. | Joint estimation of depth, reflectance and illumination for depth refinement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |