CN115619974A - 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 - Google Patents

基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 Download PDF

Info

Publication number
CN115619974A
CN115619974A CN202211340263.8A CN202211340263A CN115619974A CN 115619974 A CN115619974 A CN 115619974A CN 202211340263 A CN202211340263 A CN 202211340263A CN 115619974 A CN115619974 A CN 115619974A
Authority
CN
China
Prior art keywords
images
image
scene
reference image
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211340263.8A
Other languages
English (en)
Inventor
郑川江
李小雪
李茂森
俞宵
赵健平
张杨华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202211340263.8A priority Critical patent/CN115619974A/zh
Publication of CN115619974A publication Critical patent/CN115619974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • G06T3/06
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及三维重建技术领域,提出一种基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质,其方法包括:获取同一场景的多视角影像集;基于多视角影像集进行SFM重建,得到该场景的稀疏点云,以及所有影像的相机参数;采用改进PatchMatch网络进行MVS重建,得到所有影像的深度图;对所有影像的深度图进行坐标转换,得到所有影像的稠密点云;对所有影像的深度图进行融合,得到该场景的稠密点云;基于该场景的稠密点云,进行纹理网格重建,得到最终的三维模型。本发明通过改进PatchMatch网络,加快运算效率,并得到所有影像的更高质量的最终深度图,从而使得后续重建的大型场景的三维模型精度更高,完整性更好。

Description

基于改进PatchMatch网络的大型场景三维重建方法、重建装 置、设备及存储介质
技术领域
本发明涉及三维重建技术领域,尤其涉及一种基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质。
背景技术
传统的多视图三维重建(Multi-View Stereo,MVS),能在理想的朗伯体场景中取得很好的表现,但是在弱纹理、反射和投射的表面或、以及光照条件剧烈变化的场景中重建效果往往不佳;基于深度学习的三维重建算法应运而生,相比之下,前者主要通过提取深度信息计算深度图,后者则通过机器学习算法训练模型计算深度图。2010年前后,随着深度网络的发展,深度网络模型与几何参数法相结合以计算出图像深度的方法也随之发展,如Huang等提出Deep MVS来计算视差图。2018年,Yao等训练了一个深度网络模型MVSNet,该网络模型是一个端到端的神经网络,通过输入多视角图像得到深度图,后面他们又对MVSNet进行优化并提出了R-MVSNet,用GRU单元替代原来的3D CNN。2019年,Chen等提出了PointMVSNet神经网络框架。2021年,Fangjinhua Wang等结合传统PatchMatch算法以及传统学习的优点,提出了PatchMatchNet,可用于高分辨率的多视图立体视觉,大量实验表明PatchMatchNet在DTU、Tanks&Temples和ETH3D数据集均取得了不错的表现,并且相比于大部分的SOAT方法,PatchMatchNet在显存消耗和运行时间上表现更优。尽管如此,PatchMatchNet方法针对海量影像的大型场景三维重建依然存在内存、显存过爆的缺陷,在效率、效果上也还有待提升的空间。
发明内容
本发明为克服现有技术中采用PatchMatchNet进行大型场景的三维重建时,存在内存、显存过爆,以及效率、效果有待提升等缺陷,提供一种基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质。
为了实现上述目的,本发明采用的技术方案如下:
其一,本发明提供一种基于改进PatchMatch网络的大型场景三维重建方法,包括以下步骤:S1、获取同一场景的多视角影像集;S2、基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;S3、基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;S4、对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;S5、对所有影像的最终深度图进行融合,得到所述场景的稠密点云;S6、基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
进一步地,所述相机参数包括相机内参、相机外参,其中:所述相机内参为焦距、像主点、畸变系数,所述相机外参为相机的位姿。
进一步地,在步骤S3中,基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对,包括:S301、在所述多视角影像集中选取若干参考影像;S302、基于所述场景的稀疏点云,确定当前邻近影像与所述参考影像之间的公共可见物方点;S303、基于当前邻近影像与所述参考影像的相机参数,确定当前邻近影像摄影中心、参考影像摄影中心;S304、基于所述当前邻近影像摄影中心、参考影像摄影中心,分别计算所述公共可见物方点的平均交会角得分、地面分辨率得分和重叠区域面积得分,进而计算当前邻近影像总得分;S305、根据所述当前邻近影像总得分,筛选若干最优邻近影像,与所述参考影像组成最优匹配影像对;S306、重复上述步骤,直至所有最优匹配影像对筛选完成。
进一步地,在步骤S304中:计算所述平均交会角得分包括:构建第一光线,连接所述当前邻近影像摄影中心与公共可见物方点;构建第二光线,连接所述参考影像摄影中心与公共可见物方点;计算所述第一光线与第二光线之间的夹角,作为所述公共可见物方点的交会角得分;重复上述步骤,计算所有公共可见物方点的交会角得分,最后求平均得出所述平均交会角得分;计算所述地面分辨率得分包括:构建第三光线,连接所述参考影像摄影中心与像主点;构建第四光线,连接所述参考影像摄影中心与像主点邻居像点;通过所述第三光线、第四光线分别与所述参考影像平均深度构建的平面求交得到第一物点、第二物点;将所述第一物点与第二物点之间的距离作为所述公共可见物方点的地面分辨率得分;计算所述重叠区域面积得分包括:将所有公共可见物方点投影至所述参考影像像平面,计算所述像平面内所投像点围成的重叠面积,作为所述公共可见物方点的重叠区域面积得分;计算所述当前邻近影像总得分包括:将所述平均交会角得分、地面分辨率得分、重叠区域面积得分进行相乘,作为所述当前邻近影像总得分。
进一步地,在步骤S3中,对所述初始深度图进行加密处理,包括:对所述初始深度图进行三角剖分、随机插值和线性插值。
进一步地,在步骤S3中,对所述加密初始深度图,采用无监督损失函数进行迭代优化,包括:在PatchMatch网络原有的损失函数Ltotal中引入无监督损失函数LPC、LSSIM以及Lsmooth,共同组成改进PatchMatch网络的新损失函数L,对所述加密初始深度图进行迭代优化。
进一步地,对于所引入的无监督损失函数,其中:
所述LPC为光度一致性损失函数,其表达式为:
Figure BDA0003913232610000031
上式中,各参数含义如下:I′i为投影影像,即第i张邻近影像基于加密初始深度图和相机参数投影到参考视角的影像;Ii为参考影像;Mi为投影影像和参考影像的共同可视区域;
所述LSSIM为结构一致性损失函数,其表达式为:
Figure BDA0003913232610000032
Figure BDA0003913232610000033
上式中,各参数含义如下:
Figure BDA0003913232610000034
为剔除由投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变不在参考影像范围内的邻近影像;
Figure BDA0003913232610000035
为投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变在参考影像范围内的投影像素;
Figure BDA0003913232610000036
表示参考影像的投影像素;μx为投影影像x像素的局部均值;μy为参考影像y像素的局部均值;σx为投影影像x像素的局部方差;σy为参考影像y像素的局部方差;σxy为投影影像和参考影像的协方差;c1、c2为常量;
所述Lsmooth为平滑损失函数,其表达式为:
Figure BDA0003913232610000037
上式中,各参数含义如下:Dij为梯度;Xij表示第i张邻近影像投影至参考影像j内的像素;
对于PatchMatch网络原有的损失函数,所述Ltotal代表所有估计深度与地面点云真值之间的损失,其表达式为:
Figure BDA0003913232610000038
上式中,各参数含义如下:
Figure BDA0003913232610000039
表示第i张邻近影像采用L1损失函数处于阶段k(k=1,2,3)进行的第i次迭代后的损失;
Figure BDA00039132326100000310
表示参考影像加密初始深度图优化后的损失;
结合上述各式,可得所述改进PatchMatch网络的新损失函数L,其表达式为:
L=λ1Ltotal2LPC3LSSIM4Lsmooth (6)
上式中,各参数含义如下:λ1、λ2、λ3、λ4分别表示PatchMatch原损失函数Ltotal、光度一致性损失函数LPC、结构一致性损失函数LSSIM及平滑损失函数Lsmooth所对应的权重。
其二,本发明还提供一种基于改进PatchMatch网络的大型场景三维重建装置,包括:获取单元,配置为获取同一场景的多视角影像集;SFM重建单元,配置为基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;PatchMatch重建单元,配置为基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;坐标转换单元,配置为对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;融合单元,配置为对所有影像的最终深度图进行融合,得到所述场景的稠密点云;纹理网格重建单元,配置为基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
其三,本发明还提供一种电子设备,包括存储器以及处理器,所述存储器上存储有计算机可执行指令,所述计算机可执行指令在被所述处理器执行时,实现前述的三维重建方法。
其四,本发明还提供一种计算机可读存储介质,用于非瞬时性地存储计算机可执行指令,所述计算机可执行指令在被处理器执行时,实现前述的三维重建方法。
与现有技术相比,本发明所采用的技术方案,有益效果在于:
本发明通过改进PatchMatch网络,加快运算效率,并得到所有影像的更高质量的最终深度图,从而使得后续重建的大型场景的三维模型精度更高,完整性更好。一是对基于SFM重建得到的稀疏点云,进行二维投影和加密处理,得到所有影像的加密初始深度图,取代原始PatchMatchNet网络准确率较低的随机初始化过程;二是对所有影像进行筛选规则更加严格的相似性测度计算,提升立体匹配效率和效果,从而提升后续深度图的质量;三是引入无监督网络约束,采用更丰富的损失函数,进一步优化深度图,得到边界更清晰、更加平滑的深度图,最终较为理想地完成大型场景的三维重建任务。
附图说明
图1是本发明实施例一中所述三维重建方法的流程示意图;
图2是本发明实施例一中计算所述平均交会角得分原理示意图;
图3是本发明实施例一中单张影像加密处理前的初始深度图;
图4是本发明实施例一中单张影像加密处理后的加密初始深度图;
图5是“清华学堂”其一视角的影像原图;
图6是“清华学堂”其一视角基于原始PatchMatch网络得到的深度图;
图7是“清华学堂”其一视角基于改进PatchMatch网络得到的深度图;
图8是“清华学堂”其二视角的影像原图;
图9是“清华学堂”其二视角基于原始PatchMatch网络得到的深度图;
图10是“清华学堂”其二视角基于改进PatchMatch网络得到的深度图;
图11是“清华学堂”基于原始PatchMatch网络得到整个场景的稠密点云示意图;
图12是“清华学堂”基于改进PatchMatch网络得到整个场景的稠密点云示意图;
图13是图11的局部放大图;
图14是图12的局部放大图;
图15是“清华学堂”基于原始PatchMatch网络得到的整个场景的三维模型正视图;
图16是“清华学堂”基于原始PatchMatch网络得到的整个场景的三维模型俯视图;
图17是“清华学堂”基于原始PatchMatch网络得到的整个场景的三维模型左视图;
图18是“清华学堂”基于改进PatchMatch网络得到的整个场景的三维模型正视图;
图19是“清华学堂”基于改进PatchMatch网络得到的整个场景的三维模型俯视图;
图20是“清华学堂”基于改进PatchMatch网络得到的整个场景的三维模型左视图;
图21是本发明实施例二中所述三维重建装置的架构示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅为示例性说明,并不能理解为对本发明的限制。
实施例一
如图1所示,本实施例提供一种基于改进PatchMatch网络的大型场景三维重建方法,包括以下步骤:S1、获取同一场景的多视角影像集;S2、基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;S3、基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;S4、对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;S5、对所有影像的最终深度图进行融合,得到所述场景的稠密点云;S6、基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
在本实施例中,主要通过三个方面改进PatchMatch网络,加快运算效率,并得到所有影像的更高质量的最终深度图,从而使得后续重建的大型场景的三维模型精度更高,完整性更好。一是对基于SFM重建得到的稀疏点云,进行二维投影和加密处理,得到所有影像的加密初始深度图,取代原始PatchMatchNet网络准确率较低的随机初始化过程;二是对所有影像进行筛选规则更加严格的相似性测度计算,提升立体匹配效率和效果,从而提升后续深度图的质量;三是引入无监督网络约束,采用更丰富的损失函数,进一步优化深度图,得到边界更清晰、更加平滑的深度图,最终较为理想地完成大型场景的三维重建任务。通过上述改进,不仅简化计算复杂度,提升算法效率,还能提高重建三维模型精度,减小模型训练时间。
具体地,所述相机参数包括相机内参、相机外参,其中:所述相机内参为焦距、像主点、畸变系数,所述相机外参为相机的位姿。
具体地,在步骤S3中,基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对,包括:S301、在所述多视角影像集中选取若干参考影像;S302、基于所述场景的稀疏点云,确定当前邻近影像与所述参考影像之间的公共可见物方点;S303、基于当前邻近影像与所述参考影像的相机参数,确定当前邻近影像摄影中心、参考影像摄影中心;S304、基于所述当前邻近影像摄影中心、参考影像摄影中心,分别计算所述公共可见物方点的平均交会角得分、地面分辨率得分和重叠区域面积得分,进而计算当前邻近影像总得分;S305、根据所述当前邻近影像总得分,筛选若干最优邻近影像,与所述参考影像组成最优匹配影像对;S306、重复上述步骤,直至所有最优匹配影像对筛选完成。
原始PatchMatch网络仅通过公共可见物方点的交会角得分来评价邻近影像质量,筛选规则不严格。在本实施例中,提出基于影像相似性测度计算,同时考虑交会角、重叠面积以及地面分辨率的相似性测度影响,用于在大量影像中筛选最优匹配影像对,提升匹配质量,从而提升深度图和点云质量,同时能够过滤低相似度的邻近影像,降低冗余匹配数据以提升立体匹配效率。对于参考影像的所有备选影像组,具体筛选流程如下:
(1)计算所述平均交会角得分:如图2所示,构建第一光线Ray1,连接所述当前邻近影像摄影中心C1与公共可见物方点W;构建第二光线Ray2,连接所述参考影像摄影中心C2与公共可见物方点W;计算所述第一光线Ray1与第二光线Ray2之间的夹角,作为所述公共可见物方点的交会角得分;重复上述步骤,计算所有公共可见物方点的交会角得分,最后求平均得出所述平均交会角得分scoreAngle。
(2)计算所述地面分辨率得分:构建第三光线Ray3,连接所述参考影像摄影中心与像主点;构建第四光线Ray4,连接所述参考影像摄影中心与像主点邻居像点;通过所述第三光线、第四光线分别与所述参考影像平均深度构建的平面求交得到第一物点、第二物点;将所述第一物点与第二物点之间的距离作为所述公共可见物方点的地面分辨率得分scoreScale。需要说明的是,对所述场景的稀疏点云进行二维投影时,得到所有影像的初始深度图,此时记录每张影像的平均深度信息,就能够得出本步骤中所述参考影像平均深度构建的平面。
(3)计算所述重叠区域面积得分:将所有公共可见物方点投影至所述参考影像像平面,计算所述像平面内所投像点围成的重叠面积,作为所述公共可见物方点的重叠区域面积得分scoreArea。
(4)计算所述当前邻近影像总得分:将scoreAngle*scoreScale*scoreArea作为所述当前邻近影像总得分,并将所有邻近影像按总得分降序排列。
(5)过滤邻近影像:在本实施例中,还设置了交会角、地面分辨率以及重叠区域面积的最大阈值和最小阈值,用于对所有邻近影像进行过滤,最后再选取总得分前几的邻近影像作为所选参考影像的最优邻近影像,组成最优匹配影像对,在本实施例中,所选取的是总得分前五的邻近影像。
具体地,在步骤S3中,对所述初始深度图进行加密处理,包括:对所述初始深度图进行三角剖分、随机插值和线性插值。以单张影像为例,如图3、图4所示,分别为加密处理之前的初始深度图、加密处理之后的加密初始深度图。对所有影像采取相同处理方式,即可得到所有影像的加密初始深度图。
原始PatchMatch网络是对深度作随机假设,需要迭代多次直至结果收敛才能接近真实深度值,不仅消耗时间,还占用内存,在在没有深度真实值的基础上进行随机初始化,最终得到的点云精度有待商榷。在本实施例中,对基于SFM重建得到的稀疏点云,进行二维投影和加密处理,得到所有影像的加密初始深度图,取代原始PatchMatchNet网络准确率较低的随机初始化过程,从流程上减小了计算量,能够更快地收敛至真值,降低内存消耗,在提高三维重建模型精度的同时加快了模型重建效率。
具体地,在步骤S3中,对所述加密初始深度图,采用无监督损失函数进行迭代优化,包括:在PatchMatch网络原有的损失函数Ltotal中引入无监督损失函数LPC、LSSIM以及Lsmooth,共同组成改进PatchMatch网络的新损失函数L,对所述加密初始深度图进行迭代优化。
原始PatchMatch网络的损失函数对深度图像的处理较为单一,在本实施例中,为了更好地从各方面优化深度图,加入了三个不同的损失函数并调整各损失函数之间的权重,以获得效果较为理想的深度图。
具体地,对于所引入的无监督损失函数,其中:
所述LPC为光度一致性损失函数,其表达式为:
Figure BDA0003913232610000081
上式中,各参数含义如下:I′i为投影影像,即第i张邻近影像基于加密初始深度图和相机参数投影到参考视角的影像;Ii为参考影像;Mi为投影影像和参考影像的共同可视区域;
所述LSSIM为结构一致性损失函数,其表达式为:
Figure BDA0003913232610000082
Figure BDA0003913232610000083
上式中,各参数含义如下:
Figure BDA0003913232610000084
为剔除由投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变不在参考影像范围内的邻近影像;
Figure BDA0003913232610000085
为投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变在参考影像范围内的投影像素;
Figure BDA0003913232610000086
表示参考影像的投影像素;
SSIM(x,y)是衡量两图像结构相似性的评价指标,μx为投影影像x像素的局部均值;μy为参考影像y像素的局部均值;σx为投影影像x像素的局部方差;σy为参考影像y像素的局部方差;σxy为投影影像和参考影像的协方差;c1、c2为常量,本实施例中c1=0.012,c2=0.032
所述Lsmooth为平滑损失函数,其表达式为:
Figure BDA0003913232610000087
上式中,各参数含义如下:Dij为梯度;Xij表示第i张邻近影像投影至参考影像j内的像素;平滑损失表示深度图变化比较大的区域,原图变化也比较大;
对于PatchMatch网络原有的损失函数,所述Ltotal代表所有估计深度与地面点云真值之间的损失,其表达式为:
Figure BDA0003913232610000088
上式中,各参数含义如下:
Figure BDA0003913232610000091
表示第i张邻近影像采用L1损失函数处于阶段k(k=1,2,3)进行的第i次迭代后的损失;
Figure BDA0003913232610000092
表示参考影像加密初始深度图优化后的损失;
结合上述各式,可得所述改进PatchMatch网络的新损失函数L,其表达式为:
L=λ1Ltotal2LPC3LSSIM4Lsmooth (6)
上式中,各参数含义如下:λ1、λ2、λ3、λ4分别表示PatchMatch原损失函数Ltotal、光度一致性损失函数LPC、结构一致性损失函数LSSIM及平滑损失函数Lsmooth所对应的权重,在本实施例中,λ1=0.8、λ2=0.1、λ3=0.1、λ4=0.2、λ5=0.0067。
通过使用新损失函数L,改进PatchMatch网络能够回归出具有较高置信度的深度,估计更大的深度范围,得到更加平滑、边界更加锐利的最终深度图。
对于本实施例所实现的技术效果,可以“清华学堂”数据集为例,通过若干不同视角的影像的最终深度图、整个场景的稠密点云以及整个场景的三维模型的效果,加以展现。
如图5所示,为“清华学堂”其一视角的影像原图,图6为基于原始PatchMatch网络得到的深度图,图7为本实施例中基于改进PatchMatch网络得到的深度图。如图8所示,为“清华学堂”其二视角的影像原图,图9为基于原始PatchMatch网络得到的深度图,图10为本实施例中基于改进PatchMatch网络得到的深度图。可见,通过使用本实施例的改进PatchMatch网络获得的最终深度图,更加平滑、边界更加锐利,为后面的重建奠定了更好的基础。
如图11所示,为“清华学堂”基于原始PatchMatch网络得到的整个场景的稠密点云,图12为“清华学堂”基于改进PatchMatch网络得到的整个场景的稠密点云。进一步地,如图13所示,为图11的局部放大图,图14为图12的局部放大图。通过点云完整性比对,可以清楚地看到,基于本实施例的改进PatchMatch网络能够获得更加完整和稠密的点云,其纹理更加细腻,结合局部放大图可知,其在细节上也依旧能够保持完整性,使得场景中的物体的描述信息更加丰富。而基于原始PatchMatch的网络获得的点云较为粗糙,且存在较多空洞。
如图15~图17所示,分别为“清华学堂”基于原始PatchMatch网络得到的整个场景的三维模型的正视图、俯视图以及左视图,图18~图20分别为“清华学堂”基于改进PatchMatch网络得到的整个场景的三维模型的正视图、俯视图以及左视图。通过模型比对,可以清楚地看到,基于原始PatchMatch的网络得到的三维模型,存在较多的噪点,且模型表面存在空洞,完整性较差,重建效果不够理想,而本实施例中基于改进PatchMatch的网络得到的三维模型更优,在两侧窗户上明显更加完整。
实施例二
如图21所示,本实施例还提供一种基于改进PatchMatch网络的大型场景三维重建装置,应用于实施例一种所提出的三维重建方法,其包括:获取单元,配置为获取同一场景的多视角影像集;SFM重建单元,配置为基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;PatchMatch重建单元,配置为基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;坐标转换单元,配置为对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;融合单元,配置为对所有影像的最终深度图进行融合,得到所述场景的稠密点云;纹理网格重建单元,配置为基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
该三维重建装置的技术效果、功能与前述三维重建方法一致,此处不再赘述。
实施例三
本实施例还提供一种电子设备,包括存储器以及处理器,所述存储器上存储有计算机可执行指令,所述计算机可执行指令在被所述处理器执行时,实现前述的三维重建方法。关于三维重建方法的具体步骤、功能及其技术效果可参照前文,此处不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,用于非瞬时性地存储计算机可执行指令,所述计算机可执行指令在被处理器执行时,实现前述的三维重建方法。关于三维重建方法的具体步骤、功能及其技术效果可参照前文,此处不再赘述。
应当说明的是,对于所属领域的普通技术人员而言,在上述说明的基础上还可以做出其他不同形式的变动,此处无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换等,均应理解为包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于改进PatchMatch网络的大型场景三维重建方法,其特征在于,包括以下步骤:
S1、获取同一场景的多视角影像集;
S2、基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;
S3、基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:
对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;
S4、对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;
S5、对所有影像的最终深度图进行融合,得到所述场景的稠密点云;
S6、基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
2.根据权利要求1所述的三维重建方法,其特征在于,所述相机参数包括相机内参、相机外参,其中:所述相机内参为焦距、像主点、畸变系数,所述相机外参为相机的位姿。
3.根据权利要求2所述的三维重建方法,其特征在于,在步骤S3中,基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对,包括:
S301、在所述多视角影像集中选取若干参考影像;
S302、基于所述场景的稀疏点云,确定当前邻近影像与所述参考影像之间的公共可见物方点;
S303、基于当前邻近影像与所述参考影像的相机参数,确定当前邻近影像摄影中心、参考影像摄影中心;
S304、基于所述当前邻近影像摄影中心、参考影像摄影中心,分别计算所述公共可见物方点的平均交会角得分、地面分辨率得分和重叠区域面积得分,进而计算当前邻近影像总得分;
S305、根据所述当前邻近影像总得分,筛选若干最优邻近影像,与所述参考影像组成最优匹配影像对;
S306、重复上述步骤,直至所有最优匹配影像对筛选完成。
4.根据权利要求3所述的三维重建方法,其特征在于,在步骤S304中:
计算所述平均交会角得分包括:构建第一光线,连接所述当前邻近影像摄影中心与公共可见物方点;构建第二光线,连接所述参考影像摄影中心与公共可见物方点;计算所述第一光线与第二光线之间的夹角,作为所述公共可见物方点的交会角得分;重复上述步骤,计算所有公共可见物方点的交会角得分,最后求平均得出所述平均交会角得分;
计算所述地面分辨率得分包括:构建第三光线,连接所述参考影像摄影中心与像主点;构建第四光线,连接所述参考影像摄影中心与像主点邻居像点;通过所述第三光线、第四光线分别与所述参考影像平均深度构建的平面求交得到第一物点、第二物点;将所述第一物点与第二物点之间的距离作为所述公共可见物方点的地面分辨率得分;
计算所述重叠区域面积得分包括:将所有公共可见物方点投影至所述参考影像像平面,计算所述像平面内所投像点围成的重叠面积,作为所述公共可见物方点的重叠区域面积得分;
计算所述当前邻近影像总得分包括:将所述平均交会角得分、地面分辨率得分、重叠区域面积得分进行相乘,作为所述当前邻近影像总得分。
5.根据权利要求1所述的三维重建方法,其特征在于,在步骤S3中,对所述初始深度图进行加密处理,包括:对所述初始深度图进行三角剖分、随机插值和线性插值。
6.根据权利要求1所述的三维重建方法,其特征在于,在步骤S3中,对所述加密初始深度图,采用无监督损失函数进行迭代优化,包括:在PatchMatch网络原有的损失函数Ltotal中引入无监督损失函数LPC、LSSIM以及Lsmooth,共同组成改进PatchMatch网络的新损失函数L,对所述加密初始深度图进行迭代优化。
7.根据权利要求6所述的三维重建方法,其特征在于,对于所引入的无监督损失函数,其中:
所述LPC为光度一致性损失函数,其表达式为:
Figure FDA0003913232600000021
上式中,各参数含义如下:I′i为投影影像,即第i张邻近影像基于加密初始深度图和相机参数投影到参考视角的影像;Ii为参考影像;Mi为投影影像和参考影像的共同可视区域;
所述LSSIM为结构一致性损失函数,其表达式为:
Figure FDA0003913232600000022
Figure FDA0003913232600000031
上式中,各参数含义如下:
Figure FDA0003913232600000032
为剔除由投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变不在参考影像范围内的邻近影像;
Figure FDA0003913232600000033
为投影影像和参考影像的公共可视点Mt投影的i*j窗口扭曲形变在参考影像范围内的投影像素;
Figure FDA0003913232600000034
表示参考影像的投影像素;μx为投影影像x像素的局部均值;μy为参考影像y像素的局部均值;σx为投影影像x像素的局部方差;σy为参考影像y像素的局部方差;σxy为投影影像和参考影像的协方差;c1、c2为常量;
所述Lsmooth为平滑损失函数,其表达式为:
Figure FDA0003913232600000035
上式中,各参数含义如下:Dij为梯度;Xij表示第i张邻近影像投影至参考影像j内的像素;
对于PatchMatch网络原有的损失函数,所述Ltotal代表所有估计深度与地面点云真值之间的损失,其表达式为:
Figure FDA0003913232600000036
上式中,各参数含义如下:
Figure FDA0003913232600000037
表示第i张邻近影像采用L1损失函数处于阶段k(k=1,2,3)进行的第i次迭代后的损失;
Figure FDA0003913232600000038
表示参考影像加密初始深度图优化后的损失;
结合上述各式,可得所述改进PatchMatch网络的新损失函数L,其表达式为:
L=λ1Ltotal2LPC3LSSIM4Lsmooth (6)
上式中,各参数含义如下:λ1、λ2、λ3、λ4分别表示PatchMatch原损失函数Ltotal、光度一致性损失函数LPC、结构一致性损失函数LSSIM及平滑损失函数Lsmooth所对应的权重。
8.一种基于改进PatchMatch网络的大型场景三维重建装置,其特征在于,包括:
获取单元,配置为获取同一场景的多视角影像集;
SFM重建单元,配置为基于所述多视角影像集进行SFM重建,得到所述场景的稀疏点云,以及所有影像的相机参数;
PatchMatch重建单元,配置为基于所述场景的稀疏点云和所有影像的相机参数,采用改进PatchMatch网络进行MVS重建,得到所有影像的最终深度图,其中包括:
对所述场景的稀疏点云进行二维投影,得到所有影像的初始深度图;对所述初始深度图进行加密处理,得到所有影像的加密初始深度图;基于所述场景的稀疏点云和所有影像的相机参数,对所有影像进行相似性测度计算,筛选最优匹配影像对;对所述加密初始深度图,基于所述最优匹配影像对进行立体匹配,并采用无监督损失函数进行迭代优化,得到所有影像的最终深度图;
坐标转换单元,配置为对所有影像的最终深度图进行坐标转换,得到所有影像的稠密点云;
融合单元,配置为对所有影像的最终深度图进行融合,得到所述场景的稠密点云;
纹理网格重建单元,配置为基于所述场景的稠密点云,进行纹理网格重建,得到最终的三维模型。
9.一种电子设备,包括存储器以及处理器,所述存储器上存储有计算机可执行指令,其特征在于,所述计算机可执行指令在被所述处理器执行时,实现如权利要求1-7中任意一项所述的三维重建方法。
10.一种计算机可读存储介质,用于非瞬时性地存储计算机可执行指令,其特征在于,所述计算机可执行指令在被处理器执行时,实现如权利要求1-7中任一项所述的三维重建方法。
CN202211340263.8A 2022-10-28 2022-10-28 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 Pending CN115619974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211340263.8A CN115619974A (zh) 2022-10-28 2022-10-28 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211340263.8A CN115619974A (zh) 2022-10-28 2022-10-28 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115619974A true CN115619974A (zh) 2023-01-17

Family

ID=84876982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211340263.8A Pending CN115619974A (zh) 2022-10-28 2022-10-28 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115619974A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557617A (zh) * 2024-01-12 2024-02-13 山东师范大学 一种基于平面先验优化的多视密集匹配方法、系统及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557617A (zh) * 2024-01-12 2024-02-13 山东师范大学 一种基于平面先验优化的多视密集匹配方法、系统及设备
CN117557617B (zh) * 2024-01-12 2024-04-09 山东师范大学 一种基于平面先验优化的多视密集匹配方法、系统及设备

Similar Documents

Publication Publication Date Title
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
CN101916454B (zh) 基于网格变形和连续优化的高分辨率人脸重建方法
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
Srinivasan et al. Aperture supervision for monocular depth estimation
CN108038906B (zh) 一种基于图像的三维四边形网格模型重建方法
CN108416840A (zh) 一种基于单目相机的三维场景稠密重建方法
CN110223370B (zh) 一种从单视点图片生成完整人体纹理贴图的方法
CN111047709B (zh) 一种双目视觉裸眼3d图像生成方法
CN101610425A (zh) 一种评测立体图像质量的方法和装置
CN110443874B (zh) 基于卷积神经网络的视点数据生成方法和装置
CN108648264A (zh) 基于运动恢复的水下场景重建方法及存储介质
CN115147709B (zh) 一种基于深度学习的水下目标三维重建方法
CN115222889A (zh) 基于多视图图像的3d重建方法、装置及相关设备
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
Chen et al. Structnerf: Neural radiance fields for indoor scenes with structural hints
CN115619974A (zh) 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质
CN109218706B (zh) 一种由单张图像生成立体视觉图像的方法
CN112927348B (zh) 一种基于多视点rgbd相机高分辨率人体三维重建方法
CN116681839B (zh) 一种基于改进NeRF的实景三维目标重建与单体化方法
EP3906530B1 (en) Method for 3d reconstruction of an object
CN111369435A (zh) 基于自适应稳定模型的彩色图像深度上采样方法及系统
CN114935316B (zh) 基于光学跟踪与单目视觉的标准深度图像生成方法
CN113920270B (zh) 一种基于多视角全景的布局重建方法及其系统
CN112002019B (zh) 一种基于mr混合现实的模拟人物阴影的方法
Kim et al. Joint estimation of depth, reflectance and illumination for depth refinement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination