CN117496064A - 一种基于混合结构的多视图三维重建方法 - Google Patents

一种基于混合结构的多视图三维重建方法 Download PDF

Info

Publication number
CN117496064A
CN117496064A CN202311512931.5A CN202311512931A CN117496064A CN 117496064 A CN117496064 A CN 117496064A CN 202311512931 A CN202311512931 A CN 202311512931A CN 117496064 A CN117496064 A CN 117496064A
Authority
CN
China
Prior art keywords
image
normal
depth
map
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311512931.5A
Other languages
English (en)
Inventor
冯结青
周婧怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202311512931.5A priority Critical patent/CN117496064A/zh
Publication of CN117496064A publication Critical patent/CN117496064A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/46Analysis of texture based on statistical description of texture using random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于混合结构的多视图三维重建方法。该方法是通过在第一阶段采用沿行列并行的传播策略和马尔可夫链式的视图选择策略,得到高质量的初始深度图,并通过引入多层次处理提升弱纹理区域的重建质量;再在第二阶段采用棋盘格式传播方式和基于投票的视图选择策略提高计算效率,缩短重建所需时间。本发明可以在不降低重建精度的前提下,提高计算效率。

Description

一种基于混合结构的多视图三维重建方法
技术领域
本发明属于三维重建技术领域,尤其涉及一种基于混合结构的多视图三维重建方法。
背景技术
给定一组带有相机参数的多视角场景图像,多视图三维重建技术可以从中恢复出绝大部分像素点在三维空间中的位置,重建图像中的场景。该技术能有效辅助计算机通过二维图像认知三维世界,所以被广泛应用于无人驾驶、虚拟现实等领域,是近年来计算机视觉领域的研究热点之一。
基于深度图融合的稠密点云是三维重建结果常用的表示方式。由于三维空间中物体的相互遮挡与场景图像中弱纹理区域的匹配模糊性问题,以及实际应用场景中对场景重建速度的要求,如何精准快速地计算图像中每个点的深度成为三维重建算法的一大挑战。基于PatchMatch的重建算法是目前多视图立体重建的主流算法,基于PatchMatch的重建算法将深度计算从离散空间转移到连续空间,通过传播的方式进行深度估计,提高了算法效率和重建结果的质量。基于PatchMatch的三维重建算法一般分为两阶段,第一阶段是采用光度一致性作为匹配代价计算输入图像的初始深度图,第二阶段使用将光度一致性与几何一致性约束结合的代价函数优化深度估计。但在计算深度图时,红黑棋盘格模式的传播方式并行计算效率高但对应的视图选择策略精度较差,且基于马尔可夫链的视图选择策略能获取更为准确的匹配结果但算法并行度较低。由于两阶段均采用相同的传播和视图选择策略,所以无法达成重建质量与重建速度间的平衡。
发明内容
针对现有技术的不足,本发明提供了一种基于混合结构的多视图三维重建方法,通过在两阶段中采用不同的传播和视图选择策略。该算法在一阶段采用行列并行的传播方式,并利用马尔可夫链同时进行视图选择和深度估计,为后一阶段提供较好的初值;第二阶段计算时,采用棋盘格式的快速传播方式,并采取投票制的视图选择策略,加速重建过程。该算法兼顾了深度估计的质量和运算时长。
本发明采用的技术方案包括以下步骤:
步骤1:在输入图像集中选取一副图像作为参考图像,对其进行预设次数和预设尺度的下采样操作,得到图像金字塔;
步骤2:从塔顶的最小尺寸图像开始,计算参考图像的深度图和法向图;
步骤3:对深度图和法向图进行上采样,扩展至下一层大图像的尺寸,并将其作为下一层层图像深度图与法向图计算的初始值,计算下一层图像的深度图和法向图;
步骤4:重复步骤3,直至参考图像恢复为原始尺寸;
步骤5:根据图像的几何一致性再次优化深度图与法向图,并采用棋盘格传播策略进行加速;
步骤6:根据图像的深度图与法向图进行融合,生成点云模型。
优选地,步骤1中所述具体如下:
若预设下采样次数为k,预设下采样尺度为0.5,则图像金字塔建立了一个k+1层的图像金字塔,塔顶图像的宽高为原始图像宽高的(0.5)k,塔底图像的宽高为原始图像宽高。
优选地,步骤2中所述具体如下:
步骤2-1:对参考图像的深度图与法向图进行随机初始化,即为参考图像中的每个像素赋予一个随机的深度θ和法向n;
步骤2-2:根据参考图像与源图像的相机参数,计算参考图像像素l处的图像块在源图像中的对应区域,再计算两个图像块的双边加权NCC(Normalized CrossCorrelation,归一化互相关)值最后计算像素l的最优深度/>与最优法向/>公式如下:
其中S为根据Pl(m)选取的源图像子集,Pl(m)表示像素l处第m张源图像被选中的概率。
步骤2-3:生成随机深度和随机法向/>结合前一个像素的传播深度/>和法向nl-1、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设,形成最终的深度法向假设列表:
步骤2-4:为步骤2-3假设列表中的每一对深度法向假设计算匹配代价,选取代价最小的深度法向值对作为像素l处的新值。
优选地,步骤3中所述具体如下:
由于下采样预设尺度为0.5,上采样时需将本层计算出的深度图和法向图宽高放大至2倍,并传递给下一层。在下一层的计算中,使用本层传递的深度图和法向图替代步骤2-1中的随机初始化,并重复步骤2-2至2-4进行下一层的深度图与法向图计算。
优选地,步骤5中所述具体如下:
步骤5-1:取步骤3中计算出的原始图像大小的深度图与法向图,作为初始深度与初始法向;
步骤5-2:将图像划分为红黑相间的棋盘网格,对每个像素点p,考虑其周围的4个正对长条区域以及4个V形区域,取上述区域中匹配代价最小的8个像素点作为采样点。计算8个采样点处参考图像与所有源图像的匹配代价COST={COSTn,m|n=1,2,...,8,m=1,2,...,M},其中M为源图像总数。设定常数阈值τup和基于迭代次数t的变化阈值τ(t)。若第M张源图像与参考图像的匹配代价中,有n1个采样点的代价小于τup,且有n2个采样点的代价小于τ(t),那么该源图像是参考图像在像素点p处的匹配视图。计算每一张匹配视图中各个采样点的置信度C(COSTn,m),取采样点置信度的均值作为该匹配视图的权重。计算所有采样点对于匹配视图的加权匹配代价,选取加权匹配代价最小的采样点作为最终采样点。
步骤5-3:生成随机深度和随机法向/>结合步骤5-2中选取的采样点处像素值的传播深度/>和法向nsample、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设,形成最终的深度法向假设列表:
步骤5-4:为步骤5-3假设列表中的每一对深度法向假设计算匹配代价,视图权重在选取代价最小的深度法向值对作为像素l处的新值。
本发明的有益效果如下:
本发明在三维重建的两阶段采取不同的传播方式和视图选择策略,在保持了重建结果质量的前提下提高了计算速度。在需要得到准确初值的第一阶段,链式的传播方式、基于马尔可夫链的视图选择和多层次的深度计算取得了精确度和完整度较高的初值;第二阶段则着眼于加快重建速度,代价函数中融入了几何一致性的衡量以优化估计,并采用棋盘格式的传播方式和基于投票的视图选择的高并行计算策略,加速了此阶段的计算过程,提高了效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本发明实施例提供的三维重建方法的流程图;
图2是本发明实施例提供的三维重建方法的具体实施流程图;
图3是本发明实施例提供的棋盘格采样区域示例;
图4是本发明实施例提供的ETH3D数据集场景重建结果图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本实施例提供一种基于混合结构的多视图三维重建方法。如图1和图2所示,所述方法主要包括以下步骤:
(1)在输入图像集中选取一副图像作为参考图像,对其进行预设次数和预设尺度的下采样操作,得到图像金字塔;
具体实施时,若预设下采样次数为k,预设下采样尺度为0.5,则图像金字塔建立了一个k+1层的图像金字塔,塔顶图像的宽高为原始图像宽高的(0.5)k,塔底图像的宽高为原始图像宽高。
(2)从塔顶的最小尺寸图像开始,计算参考图像的深度图和法向图;
具体实施时,有如下步骤:
(2.1)首先对参考图像的深度图与法向图进行随机初始化,即为参考图像中的每个像素赋予一个随机的深度θ和法向n;
(2.2)根据参考图像与源图像的相机参数,计算参考图像像素l处的图像块在源图像中的对应区域,再计算两个图像块的双边加权NCC(Normalized Cross Correlation,归一化互相关)值作为匹配代价函数。
为第m张源图像在参考图像像素l处的对应区域定义可见性标签如果第m张源图像可以为像素l提供没有遮挡干扰的匹配区域,那么/>的值为1,否则为0。
为所有图像X寻找最优的深度θ、法向N和标签集Z的过程,可以被建模为最大化一个后验概率:
其中深度集合θ={θl|l=1,2,...,L},法向集合N={nl|l=1,2,...,L},标签集合 M为源图像数量,L为参考图像中像素点的个数。
基于变分推断求解该后验函数,P(Z,θ,N|X)可被近似为q(Z,θ,N)=q(Z)q(θ,N),并采用GEM(Generalized Expectation Maximization,广义期望最大)算法推断最优的Z、θ和N。GEM算法是一种迭代优化算法,交替进行E步和M步的优化。在E步时,q(θl,nl)被固定为常量,计算再得到视图被选中的概率分布Pl(m):
M步时,固定向像素l传播前一个像素的深度值,更新q(θl,nl),计算像素l的最优深度/>与最优法向/>
(2.3)生成随机深度和随机法向/>结合前一个像素的传播深度/>和法向nl-1、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设,形成最终的深度法向假设列表:
(2.4)为步骤(2.3)假设列表中的每一对深度法向假设计算匹配代价,选取代价最小的深度法向值对作为像素l处的新值。
(3)对深度图和法向图进行上采样,扩展至下一层大图像的尺寸,并将其作为下一层层图像深度图与法向图计算的初始值,计算下一层图像的深度图和法向图;
具体实施时,由于下采样预设尺度为0.5,上采样时需将本层计算出的深度图和法向图宽高放大至2倍,并传递给下一层。在下一层的计算中,使用本层传递的深度图和法向图替代步骤(2.1)中的随机初始化,并重复步骤(2.2)至(2.4)进行下一层的深度图与法向图计算。
(4)重复步骤(3),直至参考图像恢复为原始尺寸;
(5)根据图像的几何一致性再次优化深度图与法向图,并采用棋盘格传播策略进行加速;
如图3所示,具体实施时,有如下步骤:
(5.1)取步骤(3)中计算出的原始图像大小的深度图与法向图,作为初始深度与初始法向;
(5.2)将图像划分为红黑相间的棋盘网格,对每个像素点p,考虑其周围的4个正对长条区域以及4个V形区域,取上述区域中匹配代价最小的8个像素点作为采样点。
计算8个采样点处参考图像与所有源图像的匹配代价COST={COSTn,m|n=1,2,...,8,m=1,2,...,M},其中M为源图像总数。
设定常数阈值τup和基于迭代次数t的变化阈值τ(t)。其中τup=1.2,τ(t)的计算公式如下:
其中τinit=1.0,t为深度法向假设传播的迭代次数,α是一个常数系数,α=90。
若第m张源图像与参考图像的匹配代价中,有n1个采样点的代价小于τup,且有n2个采样点的代价小于τ(t),那么该源图像是参考图像在像素点p处的匹配视图。
其中,阈值n1=2,n2=3。即当源图像中有2个采样点的代价小于1.2,且有3个采样点的代价小于τ(t),那么认定该源图像是参考图像在像素点p处的匹配视图。
得到所有匹配视图后,计算每一张匹配视图中各个采样点的置信度C(COSTn,m):
其中β是一个常数系数,β=0.4。
取8个采样点置信度的均值作为该匹配视图的权重。为了尽量减少错误匹配视图带来的影响,只取前5张权重最高的视图加入后续计算,其余视图权重均置为0。
对第n个采样点,采样点在匹配视图中的加权匹配代价为:
其中ψ(Xm)为第w张匹配视图的视图权重。
选取加权匹配代价最小的采样点作为最终采样点。
(5.3)生成随机深度和随机法向/>结合步骤(5.2)中选取的采样点处像素值的传播深度/>和法向nsample、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设,形成最终的深度法向假设列表:
(5.4)为假设列表中的每一对深度法向假设计算匹配代价,视图权重在选取代价最小的深度法向值对作为像素p处的新值。
(6)根据图像的深度图与法向图进行融合,生成点云模型。
表1为Strecha数据集计算所得最终深度图与真值绝对误差的结果评估。表格内展示了误差阈在2cm和10cm内的像素点百分比,最好的结果被加粗显示。可以看到,本文算法在HerzJesu-P8场景中2cm误差内的像素点百分比最高,其余结果略低于COLMAP,高于ACMH。
表1
如图4所示,表2为ETH3D数据集场景重建点云的结果评估。表格内展示了在评估阈值为5cm和10cm下的准确度(Acc.)、完整度(Comp.)及F1值。最好的结果被加粗显示。综合所有场景来看,本文算法的点云结果在5cm误差下,在精确度上较ACMH略高,在完整度上较COLMAP略高,而在10cm误差下,本文算法得到的点云在完整度上较COLMAP和ACMH均有提升,F1值较COLMAP与ACMH也略有增长,分别增长了0.6%和0.9%。
表2
表3为ETH3D数据集场景重建的运行时间评估。从表中可见,本文算法相较于COLMAP算法的加速比基本可以稳定在2.5倍左右甚至更高。
表3
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (5)

1.一种基于混合结构的多视图三维重建方法,其特征在于,包括以下步骤:
(1)在输入图像集中选取一副图像作为参考图像,对其进行预设次数和预设尺度的下采样操作,得到图像金字塔;
(2)从塔顶的最小尺寸图像开始,计算参考图像的深度图和法向图;
(3)对深度图和法向图进行上采样,扩展至下一层大图像的尺寸,并将其作为下一层图像的深度图与法向图计算的初始值,计算下一层图像的深度图和法向图;
(4)重复步骤(3),直至参考图像恢复为原始尺寸;
(5)根据图像的几何一致性再次优化深度图与法向图,并采用棋盘格传播策略进行加速;
(6)根据图像的深度图与法向图进行融合,生成点云模型。
2.根据权利要求1所述的一种基于混合结构的多视图三维重建方法,其特征在于,所述步骤(1)具体为:当预设下采样次数为k,预设下采样尺度为0.5,则图像金字塔建立了一个k+1层的图像金字塔,塔顶图像的宽高为原始图像宽高的(0.5)k,塔底图像的宽高为原始图像宽高。
3.根据权利要求1所述的一种基于混合结构的多视图三维重建方法,其特征在于,步骤(2)具体包括如下子步骤:
(2.1)对参考图像的深度图与法向图进行随机初始化,即为参考图像中的每个像素赋予一个随机的深度θ和法向n;
(2.2)根据参考图像与源图像的相机参数,计算参考图像像素l处的图像块在源图像中的对应区域,再计算两个图像块的双边加权NCC(Normalized Cross Correlation,归一化互相关)值最后计算像素l的最优深度/>与最优法向/>公式如下:
其中,S为根据Pl(m)选取的源图像子集,Pl(m)表示像素l处第m张源图像被选中的概率;
(2.3)生成随机深度和随机法向/>结合前一个像素的传播深度/>和法向nl-1、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设,形成最终的深度法向假设列表:
(2.4)为步骤(2.3)假设列表中的每一对深度法向假设计算匹配代价,选取代价最小的深度法向值对作为像素l处的新值。
4.根据权利要求1所述的一种基于混合结构的多视图三维重建方法,其特征在于,步骤(3)中所述具体如下:
由于下采样预设尺度为0.5,上采样时需将本层计算出的深度图和法向图宽高放大至2倍,并传递给下一层;在下一层的计算中,使用本层传递的深度图和法向图替代步骤(2.1)中的随机初始化,并重复步骤(2.2)至(2.4)进行下一层的深度图与法向图计算。
5.根据权利要求1所述的一种基于混合结构的多视图三维重建方法,其特征在于,步骤(5)中所述具体如下:
(5.1)取步骤(3)中计算出的原始图像大小的深度图与法向图,作为初始深度与初始法向;
(5.2)将图像划分为红黑相间的棋盘网格,对每个像素点p,考虑其周围的4个正对长条区域以及4个V形区域,取上述区域中匹配代价最小的8个像素点作为采样点;
计算8个采样点处参考图像与所有源图像的匹配代价COST={COST n,m|n=1,2,...,8,m=1,2,...,M},其中M为源图像总数;设定常数阈值τup和基于迭代次数t的变化阈值τt;若第M张源图像与参考图像的匹配代价中,有n1个采样点的代价小于τup,且有n2个采样点的代价小于τt,那么该源图像是参考图像在像素点p处的匹配视图;
计算每一张匹配视图中各个采样点的置信度C(COST n,m),取采样点置信度的均值作为该匹配视图的权重;计算所有采样点对于匹配视图的加权匹配代价,选取加权匹配代价最小的采样点作为最终采样点;
(5.3)生成随机深度和随机法向/>结合步骤(5.2)中选取的采样点处像素值的传播深度/>和法向nsample、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设,形成最终的深度法向假设列表:
(5.4)为步骤(5.3)假设列表中的每一对深度法向假设计算匹配代价,视图权重在选取代价最小的深度法向值对作为像素l处的新值。
CN202311512931.5A 2023-11-14 2023-11-14 一种基于混合结构的多视图三维重建方法 Pending CN117496064A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311512931.5A CN117496064A (zh) 2023-11-14 2023-11-14 一种基于混合结构的多视图三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311512931.5A CN117496064A (zh) 2023-11-14 2023-11-14 一种基于混合结构的多视图三维重建方法

Publications (1)

Publication Number Publication Date
CN117496064A true CN117496064A (zh) 2024-02-02

Family

ID=89674190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311512931.5A Pending CN117496064A (zh) 2023-11-14 2023-11-14 一种基于混合结构的多视图三维重建方法

Country Status (1)

Country Link
CN (1) CN117496064A (zh)

Similar Documents

Publication Publication Date Title
CN113077471B (zh) 一种基于u型网络的医学图像分割方法
CN110827213B (zh) 一种基于生成式对抗网络的超分辨率图像修复方法
CN113240691B (zh) 一种基于u型网络的医学图像分割方法
CN111931787A (zh) 一种基于特征聚合的rgbd显著性检测方法
De-Maeztu et al. Near real-time stereo matching using geodesic diffusion
CN103996202A (zh) 一种基于混合匹配代价和自适应窗口的立体匹配方法
CN109005398B (zh) 一种基于卷积神经网络的立体图像视差匹配方法
CN103996201A (zh) 一种基于改进梯度和自适应窗口的立体匹配方法
CN113269862A (zh) 场景自适应的精细三维人脸重建方法、系统、电子设备
CN112102472A (zh) 稀疏三维点云稠密化方法
CN109887021A (zh) 基于跨尺度的随机游走立体匹配方法
CN111833237A (zh) 基于卷积神经网络和局部单应性变换的图像配准方法
CN113850900B (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN108764250A (zh) 一种运用卷积神经网络提取本质图像的方法
CN109887008B (zh) 基于前后向平滑和o(1)复杂度视差立体匹配方法、装置和设备
CN110322403A (zh) 一种基于生成对抗网络的多监督图像超分辨重建方法
CN112184547B (zh) 红外图像的超分辨率方法及计算机可读存储介质
CN116310219A (zh) 一种基于条件扩散模型的三维脚型生成方法
CN114332125A (zh) 点云重建方法、装置、电子设备和存储介质
CN112509021A (zh) 一种基于注意力机制的视差优化方法
CN109165654A (zh) 一种目标定位模型的训练方法和目标定位方法及装置
CN115719335A (zh) 一种脑血管图像-标签两阶段生成方法、装置及存储介质
CN114972882A (zh) 基于多注意力机制的磨损表面损伤深度估计方法及系统
CN117576402A (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination