CN117496064A

CN117496064A - 一种基于混合结构的多视图三维重建方法

Info

Publication number: CN117496064A
Application number: CN202311512931.5A
Authority: CN
Inventors: 冯结青; 周婧怡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-02-02

Abstract

本发明公开了一种基于混合结构的多视图三维重建方法。该方法是通过在第一阶段采用沿行列并行的传播策略和马尔可夫链式的视图选择策略，得到高质量的初始深度图，并通过引入多层次处理提升弱纹理区域的重建质量；再在第二阶段采用棋盘格式传播方式和基于投票的视图选择策略提高计算效率，缩短重建所需时间。本发明可以在不降低重建精度的前提下，提高计算效率。

Description

一种基于混合结构的多视图三维重建方法

技术领域

本发明属于三维重建技术领域，尤其涉及一种基于混合结构的多视图三维重建方法。

背景技术

给定一组带有相机参数的多视角场景图像，多视图三维重建技术可以从中恢复出绝大部分像素点在三维空间中的位置，重建图像中的场景。该技术能有效辅助计算机通过二维图像认知三维世界，所以被广泛应用于无人驾驶、虚拟现实等领域，是近年来计算机视觉领域的研究热点之一。

基于深度图融合的稠密点云是三维重建结果常用的表示方式。由于三维空间中物体的相互遮挡与场景图像中弱纹理区域的匹配模糊性问题，以及实际应用场景中对场景重建速度的要求，如何精准快速地计算图像中每个点的深度成为三维重建算法的一大挑战。基于PatchMatch的重建算法是目前多视图立体重建的主流算法，基于PatchMatch的重建算法将深度计算从离散空间转移到连续空间，通过传播的方式进行深度估计，提高了算法效率和重建结果的质量。基于PatchMatch的三维重建算法一般分为两阶段，第一阶段是采用光度一致性作为匹配代价计算输入图像的初始深度图，第二阶段使用将光度一致性与几何一致性约束结合的代价函数优化深度估计。但在计算深度图时，红黑棋盘格模式的传播方式并行计算效率高但对应的视图选择策略精度较差，且基于马尔可夫链的视图选择策略能获取更为准确的匹配结果但算法并行度较低。由于两阶段均采用相同的传播和视图选择策略，所以无法达成重建质量与重建速度间的平衡。

发明内容

针对现有技术的不足，本发明提供了一种基于混合结构的多视图三维重建方法，通过在两阶段中采用不同的传播和视图选择策略。该算法在一阶段采用行列并行的传播方式，并利用马尔可夫链同时进行视图选择和深度估计，为后一阶段提供较好的初值；第二阶段计算时，采用棋盘格式的快速传播方式，并采取投票制的视图选择策略，加速重建过程。该算法兼顾了深度估计的质量和运算时长。

本发明采用的技术方案包括以下步骤：

步骤1：在输入图像集中选取一副图像作为参考图像，对其进行预设次数和预设尺度的下采样操作，得到图像金字塔；

步骤2：从塔顶的最小尺寸图像开始，计算参考图像的深度图和法向图；

步骤3：对深度图和法向图进行上采样，扩展至下一层大图像的尺寸，并将其作为下一层层图像深度图与法向图计算的初始值，计算下一层图像的深度图和法向图；

步骤4：重复步骤3，直至参考图像恢复为原始尺寸；

步骤5：根据图像的几何一致性再次优化深度图与法向图，并采用棋盘格传播策略进行加速；

步骤6：根据图像的深度图与法向图进行融合，生成点云模型。

优选地，步骤1中所述具体如下：

若预设下采样次数为k，预设下采样尺度为0.5，则图像金字塔建立了一个k+1层的图像金字塔，塔顶图像的宽高为原始图像宽高的(0.5)^k，塔底图像的宽高为原始图像宽高。

优选地，步骤2中所述具体如下：

步骤2-1：对参考图像的深度图与法向图进行随机初始化，即为参考图像中的每个像素赋予一个随机的深度θ和法向n；

步骤2-2：根据参考图像与源图像的相机参数，计算参考图像像素l处的图像块在源图像中的对应区域，再计算两个图像块的双边加权NCC(Normalized CrossCorrelation，归一化互相关)值最后计算像素l的最优深度/>与最优法向/>公式如下：

其中S为根据P_l(m)选取的源图像子集，P_l(m)表示像素l处第m张源图像被选中的概率。

步骤2-3：生成随机深度和随机法向/>结合前一个像素的传播深度/>和法向n_l-1、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设，形成最终的深度法向假设列表:

步骤2-4：为步骤2-3假设列表中的每一对深度法向假设计算匹配代价，选取代价最小的深度法向值对作为像素l处的新值。

优选地，步骤3中所述具体如下：

由于下采样预设尺度为0.5，上采样时需将本层计算出的深度图和法向图宽高放大至2倍，并传递给下一层。在下一层的计算中，使用本层传递的深度图和法向图替代步骤2-1中的随机初始化，并重复步骤2-2至2-4进行下一层的深度图与法向图计算。

优选地，步骤5中所述具体如下：

步骤5-1：取步骤3中计算出的原始图像大小的深度图与法向图，作为初始深度与初始法向；

步骤5-2：将图像划分为红黑相间的棋盘网格，对每个像素点p，考虑其周围的4个正对长条区域以及4个V形区域，取上述区域中匹配代价最小的8个像素点作为采样点。计算8个采样点处参考图像与所有源图像的匹配代价COST＝{COST^n,m|n＝1,2,...,8,m＝1,2,...,M}，其中M为源图像总数。设定常数阈值τ_up和基于迭代次数t的变化阈值τ(t)。若第M张源图像与参考图像的匹配代价中,有n₁个采样点的代价小于τ_up，且有n₂个采样点的代价小于τ(t)，那么该源图像是参考图像在像素点p处的匹配视图。计算每一张匹配视图中各个采样点的置信度C(COST^n,m)，取采样点置信度的均值作为该匹配视图的权重。计算所有采样点对于匹配视图的加权匹配代价，选取加权匹配代价最小的采样点作为最终采样点。

步骤5-3：生成随机深度和随机法向/>结合步骤5-2中选取的采样点处像素值的传播深度/>和法向n_sample、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设，形成最终的深度法向假设列表:

步骤5-4：为步骤5-3假设列表中的每一对深度法向假设计算匹配代价，视图权重在选取代价最小的深度法向值对作为像素l处的新值。

本发明的有益效果如下：

本发明在三维重建的两阶段采取不同的传播方式和视图选择策略，在保持了重建结果质量的前提下提高了计算速度。在需要得到准确初值的第一阶段，链式的传播方式、基于马尔可夫链的视图选择和多层次的深度计算取得了精确度和完整度较高的初值；第二阶段则着眼于加快重建速度，代价函数中融入了几何一致性的衡量以优化估计，并采用棋盘格式的传播方式和基于投票的视图选择的高并行计算策略，加速了此阶段的计算过程，提高了效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本发明实施例提供的三维重建方法的流程图；

图2是本发明实施例提供的三维重建方法的具体实施流程图；

图3是本发明实施例提供的棋盘格采样区域示例；

图4是本发明实施例提供的ETH3D数据集场景重建结果图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本实施例提供一种基于混合结构的多视图三维重建方法。如图1和图2所示，所述方法主要包括以下步骤：

(1)在输入图像集中选取一副图像作为参考图像，对其进行预设次数和预设尺度的下采样操作，得到图像金字塔；

具体实施时，若预设下采样次数为k，预设下采样尺度为0.5，则图像金字塔建立了一个k+1层的图像金字塔，塔顶图像的宽高为原始图像宽高的(0.5)^k，塔底图像的宽高为原始图像宽高。

(2)从塔顶的最小尺寸图像开始，计算参考图像的深度图和法向图；

具体实施时，有如下步骤：

(2.1)首先对参考图像的深度图与法向图进行随机初始化，即为参考图像中的每个像素赋予一个随机的深度θ和法向n；

(2.2)根据参考图像与源图像的相机参数，计算参考图像像素l处的图像块在源图像中的对应区域，再计算两个图像块的双边加权NCC(Normalized Cross Correlation，归一化互相关)值作为匹配代价函数。

为第m张源图像在参考图像像素l处的对应区域定义可见性标签如果第m张源图像可以为像素l提供没有遮挡干扰的匹配区域，那么/>的值为1，否则为0。

为所有图像X寻找最优的深度θ、法向N和标签集Z的过程,可以被建模为最大化一个后验概率:

其中深度集合θ＝{θ_l|l＝1,2,...,L}，法向集合N＝{n_l|l＝1,2,...,L}，标签集合 M为源图像数量，L为参考图像中像素点的个数。

基于变分推断求解该后验函数，P(Z,θ,N|X)可被近似为q(Z,θ,N)＝q(Z)q(θ,N)，并采用GEM(Generalized Expectation Maximization,广义期望最大)算法推断最优的Z、θ和N。GEM算法是一种迭代优化算法，交替进行E步和M步的优化。在E步时，q(θ_l,n_l)被固定为常量，计算再得到视图被选中的概率分布P_l(m):

M步时，固定向像素l传播前一个像素的深度值，更新q(θ_l,n_l)，计算像素l的最优深度/>与最优法向/>

(2.3)生成随机深度和随机法向/>结合前一个像素的传播深度/>和法向n_l-1、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设，形成最终的深度法向假设列表:

(2.4)为步骤(2.3)假设列表中的每一对深度法向假设计算匹配代价，选取代价最小的深度法向值对作为像素l处的新值。

(3)对深度图和法向图进行上采样，扩展至下一层大图像的尺寸，并将其作为下一层层图像深度图与法向图计算的初始值，计算下一层图像的深度图和法向图；

具体实施时，由于下采样预设尺度为0.5，上采样时需将本层计算出的深度图和法向图宽高放大至2倍，并传递给下一层。在下一层的计算中，使用本层传递的深度图和法向图替代步骤(2.1)中的随机初始化，并重复步骤(2.2)至(2.4)进行下一层的深度图与法向图计算。

(4)重复步骤(3)，直至参考图像恢复为原始尺寸；

(5)根据图像的几何一致性再次优化深度图与法向图，并采用棋盘格传播策略进行加速；

如图3所示，具体实施时，有如下步骤：

(5.1)取步骤(3)中计算出的原始图像大小的深度图与法向图，作为初始深度与初始法向；

(5.2)将图像划分为红黑相间的棋盘网格，对每个像素点p，考虑其周围的4个正对长条区域以及4个V形区域，取上述区域中匹配代价最小的8个像素点作为采样点。

计算8个采样点处参考图像与所有源图像的匹配代价COST＝{COST^n,m|n＝1,2,...,8,m＝1,2,...,M}，其中M为源图像总数。

设定常数阈值τ_up和基于迭代次数t的变化阈值τ(t)。其中τ_up＝1.2，τ(t)的计算公式如下：

其中τ_init＝1.0，t为深度法向假设传播的迭代次数，α是一个常数系数，α＝90。

若第m张源图像与参考图像的匹配代价中，有n₁个采样点的代价小于τ_up，且有n₂个采样点的代价小于τ(t)，那么该源图像是参考图像在像素点p处的匹配视图。

其中，阈值n₁＝2，n₂＝3。即当源图像中有2个采样点的代价小于1.2，且有3个采样点的代价小于τ(t)，那么认定该源图像是参考图像在像素点p处的匹配视图。

得到所有匹配视图后，计算每一张匹配视图中各个采样点的置信度C(COST^n,m)：

其中β是一个常数系数，β＝0.4。

取8个采样点置信度的均值作为该匹配视图的权重。为了尽量减少错误匹配视图带来的影响，只取前5张权重最高的视图加入后续计算，其余视图权重均置为0。

对第n个采样点，采样点在匹配视图中的加权匹配代价为：

其中ψ(X^m)为第w张匹配视图的视图权重。

选取加权匹配代价最小的采样点作为最终采样点。

(5.3)生成随机深度和随机法向/>结合步骤(5.2)中选取的采样点处像素值的传播深度/>和法向n_sample、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设，形成最终的深度法向假设列表:

(5.4)为假设列表中的每一对深度法向假设计算匹配代价，视图权重在选取代价最小的深度法向值对作为像素p处的新值。

(6)根据图像的深度图与法向图进行融合，生成点云模型。

表1为Strecha数据集计算所得最终深度图与真值绝对误差的结果评估。表格内展示了误差阈在2cm和10cm内的像素点百分比，最好的结果被加粗显示。可以看到，本文算法在HerzJesu-P8场景中2cm误差内的像素点百分比最高,其余结果略低于COLMAP，高于ACMH。

表1

如图4所示，表2为ETH3D数据集场景重建点云的结果评估。表格内展示了在评估阈值为5cm和10cm下的准确度(Acc.)、完整度(Comp.)及F1值。最好的结果被加粗显示。综合所有场景来看，本文算法的点云结果在5cm误差下，在精确度上较ACMH略高，在完整度上较COLMAP略高，而在10cm误差下，本文算法得到的点云在完整度上较COLMAP和ACMH均有提升，F1值较COLMAP与ACMH也略有增长，分别增长了0.6％和0.9％。

表2

表3为ETH3D数据集场景重建的运行时间评估。从表中可见，本文算法相较于COLMAP算法的加速比基本可以稳定在2.5倍左右甚至更高。

表3

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于混合结构的多视图三维重建方法，其特征在于，包括以下步骤：

(3)对深度图和法向图进行上采样，扩展至下一层大图像的尺寸，并将其作为下一层图像的深度图与法向图计算的初始值，计算下一层图像的深度图和法向图；

(4)重复步骤(3)，直至参考图像恢复为原始尺寸；

(6)根据图像的深度图与法向图进行融合，生成点云模型。

2.根据权利要求1所述的一种基于混合结构的多视图三维重建方法，其特征在于，所述步骤(1)具体为：当预设下采样次数为k，预设下采样尺度为0.5，则图像金字塔建立了一个k+1层的图像金字塔，塔顶图像的宽高为原始图像宽高的(0.5)^k，塔底图像的宽高为原始图像宽高。

3.根据权利要求1所述的一种基于混合结构的多视图三维重建方法，其特征在于，步骤(2)具体包括如下子步骤：

(2.1)对参考图像的深度图与法向图进行随机初始化，即为参考图像中的每个像素赋予一个随机的深度θ和法向n；

(2.2)根据参考图像与源图像的相机参数，计算参考图像像素l处的图像块在源图像中的对应区域，再计算两个图像块的双边加权NCC(Normalized Cross Correlation，归一化互相关)值最后计算像素l的最优深度/>与最优法向/>公式如下：

其中，S为根据P_l(m)选取的源图像子集，P_l(m)表示像素l处第m张源图像被选中的概率；

4.根据权利要求1所述的一种基于混合结构的多视图三维重建方法，其特征在于，步骤(3)中所述具体如下：

由于下采样预设尺度为0.5，上采样时需将本层计算出的深度图和法向图宽高放大至2倍，并传递给下一层；在下一层的计算中，使用本层传递的深度图和法向图替代步骤(2.1)中的随机初始化，并重复步骤(2.2)至(2.4)进行下一层的深度图与法向图计算。

5.根据权利要求1所述的一种基于混合结构的多视图三维重建方法，其特征在于，步骤(5)中所述具体如下：

(5.2)将图像划分为红黑相间的棋盘网格，对每个像素点p，考虑其周围的4个正对长条区域以及4个V形区域，取上述区域中匹配代价最小的8个像素点作为采样点；

计算8个采样点处参考图像与所有源图像的匹配代价COST＝{COST ^n,m|n＝1,2,...,8,m＝1,2,...,M}，其中M为源图像总数；设定常数阈值τ_up和基于迭代次数t的变化阈值τ_t；若第M张源图像与参考图像的匹配代价中,有n₁个采样点的代价小于τ_up，且有n₂个采样点的代价小于τ_t，那么该源图像是参考图像在像素点p处的匹配视图；

计算每一张匹配视图中各个采样点的置信度C(COST ^n,m)，取采样点置信度的均值作为该匹配视图的权重；计算所有采样点对于匹配视图的加权匹配代价，选取加权匹配代价最小的采样点作为最终采样点；

(5.3)生成随机深度和随机法向/>结合步骤(5.2)中选取的采样点处像素值的传播深度/>和法向nsample、当前像素的深度扰动值/>和法向扰动值/>生成数组新的深度法向假设，形成最终的深度法向假设列表:

(5.4)为步骤(5.3)假设列表中的每一对深度法向假设计算匹配代价，视图权重在选取代价最小的深度法向值对作为像素l处的新值。