CN117437363A

CN117437363A - 基于深度感知迭代器的大规模多视图立体方法

Info

Publication number: CN117437363A
Application number: CN202311754136.7A
Authority: CN
Inventors: 曹明伟; 江健非; 黄宝龙; 赵海峰
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-01-23
Anticipated expiration: 2043-12-20
Also published as: CN117437363B

Abstract

本发明公开一种基于深度感知迭代器的大规模多视图立体方法，首先提取多尺度特征；然后，计算像素级视图权重、深度图和置信图；其次，构造深度感知迭代器；再次，构造混合损失策略，优化深度图；最后，融合深度图，即可获得点云模型。本发明充分利用基于深度感知迭代器的由粗到细的深度图计算方法，有效地将上下文引导的深度几何信息融合到代价体中计算出高质量的深度图，进而计算出精确的点云模型。

Description

基于深度感知迭代器的大规模多视图立体方法

技术领域

本发明涉及多视图三维重建领域、计算机图形学与计算机视觉领域，具体涉及一种基于深度感知迭代器的大规模多视图立体方法。

背景技术

多视图立体（Multi-view Stereo，MVS）是从图像数据中计算场景的点云模型的一种技术。现有的多视图立体重建方法主要分为以下几类：（1）基于点扩散的方法；（2）基于马尔科夫随机场的方法；（3）基于图割（Graph Cut）的方法；（4）基于深度图融合的方法。

尽管现有的方法对以手持相机采集的小规模场景图像数据的多视图立体重建问题取得了较大的研究进展，然而，针对大规模的室外场景，现有的多视图立体重建方法还需要进一步提高。此外，随着无人机设备的普及和广泛使用，使得获取大规模场景的图像数据变得非常容易。这些大量的图像数据对多视图立体重建方法提出了新的挑战：（a）现有的多视图立体重建方法非常耗时，尤其处理大规模图像数据时，现有的多视图立体重建方法需要消耗较长的时间才能计算出场景的点云模型，因此，难以满足高层次计算机应用系统的时间效率需求；（b）现有的多视图立体重建方法对计算机内存空间的需求较大，尤其是当大规模图像数据时容易出现内容溢出问题，进而导致三维重建过程失败。（c）现有的多视图立体重建方法的普适性有待进一步提高，没有任何一种方法能够处理所有场景的图像数据。

上述问题严重阻碍了多视图立体重建方法的发展和应用，暴露现有的多视图立体重建方法在处理大规模图像数据时的不足。因此，人们迫切需要一种鲁棒的高精度立体重建方法，以便快速地从大规模图像数据中重建出高质量的点云模型。

近年来，深度学习技术在目标检测与识别等领域取得了较大的成功，受此启发，一些研究人员将深度学习技术应用于多视图立体重建问题中，取得了一定的研究进展，相关的研究论文有：《Differentiable Stereopsis: Meshes from multiple viewsusingdifferentiable rendering》，《IterMVS: Iterative Probability Estimation forEfficient Multi-View Stereo》，《BlendedMVS: Alarge-scale dataset forgeneralized multi-view stereo networks》。上述这些多视图立体重建方法的重点是，如何提高点云模型的精度，且处理的目标均是小规模场景的图像数据，不适用于大规模图像数据。

也就是说，现有技术在应用于大规模图像数据时，仍然面临以下挑战：（1）现有的多视图立体重建方法在处理大规模图像数据时的精度较低，难以满足元宇宙、数字孪生、文化遗产的数字化保护、虚拟现实和增强现实等领域的应用需求；（2）现有的多视图立体重建方法处理大规模图像数据时，需要较大的内存空间，且随着图像数据量的增加、现有多视图立体重建方法对内存空间的需求超过了单台计算机所支持的最大内存空间范围；（3）现有多视图立体重建方法在处理大规模图像数据时的运行效率太低，难以满足大规模三维重建的时间效率需求。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于深度感知迭代器的大规模多视图立体方法，本发明既具有较高的精度，有具有较高的计算效率，有效地克服了现有多视图立体重建方法的不足，能够促进元宇宙、数字孪生、文化遗产的数字化保护、虚拟现实和增强现实等领域的发展。

技术方案：本发明的一种基于深度感知迭代器的大规模多视图立体方法，包括以下步骤：

步骤S1、输入多视角图像数据和摄像机参数；此处多视角图像既可以是通过手持相机采集的多视角图像，又可以是通过无人机等设备采集的航拍图像，每幅图像大小均为/>；/>中的/>幅多视角图像包括一幅参考视图/>和/>幅源视图/>；

其中，为/>中多视角图像和/>中摄像机的序号，/>为/>中多视角图像的数量；/>，/>表示第/>个摄像机的内部参数矩阵，/>表示第0个摄像机和第/>个摄像机之间的旋转矩阵，/>表示第0个摄像机和第/>个摄像机之间的平移向量；

步骤S2、对于中的/>幅图像/>，使用一个包含3个阶段的特征金字塔网络FPN来计算多视角图像的多尺度特征；在每个阶段/>（k=0，1，2），均使用FPN提取/>幅多视角图像的特征图/>和参考视图的上下文特征/>；通过上下文特征有利于生成初始隐藏状态；

步骤S3、使用基于三维 CNN正则化的多视图立体网络，来计算图像1/8分辨率下的像素级视图权重，然后通过像素级视图权重计算得到初始的深度图和置信图；

步骤S4、基于步骤S3中的初始深度图，执行可微分单应性变换并构建一个深度感知的代价体，得到深度感知迭代器，具体方法为：

步骤S4.1、在个阶段上采用级联的2D ConvGRUs来进行深度优化：

首先从上下文特征中提取当前隐藏状态，然后将其与深度感知代价体（Depth-Aware Cost Volume，DACV）结合并输入到ConvGRU中进行处理，从而得到更新后的隐藏状态/>；

其中，表示非线性激活函数，/>表示一个小型的2D CNN，/>和/>分别表示当前状态GRU单元的更新门和重置门，/>表示中间隐藏状态，/>分别表示与CNN相关的更新门，重置门和中间隐藏状态的参数，/>表示深度感知代价体，⊙表示哈达玛积；

步骤S4.2、对应用2D CNNs操作以获得残差深度值/>，然后将其添加到当前深度/>以进行更新；

；

步骤S4.3、在第个阶段进行/>次迭代（/>），在每个阶段的最后一次迭代之后，基于当前的隐藏状态/>对深度图进行上采样操作；

步骤S5、构造混合损失策略，优化深度图；在初始化阶段通过监督像素级的概率分布来增强训练的鲁棒性，在迭代阶段通过直接监督亚像素级的深度图来实现更好的训练性能，从而提高深度图的质量；

混合损失策略的定义如下：

其中，表示预测深度图的总数，/>；/>；

和/>分别表示阶段数和每个阶段的迭代次数，/>表示初始化阶段的损失，/>表示迭代阶段的损失；

步骤S6、融合深度图以输出点云模型。

进一步地，在步骤S2中，N幅多视角图像的特征图和参考视图的上下文特征的分辨率均为/>，/>表示多视角图像的宽度，/>表示多视角图像的高度。

进一步地，所述步骤S3的详细步骤为：

步骤S3.1、根据深度假设的数量，首先将源视图的特征图/>映射到参考图视图的视角下多个假设平面上，形成参考特征体/>以及源特征体/>；然后，对于源视图的特征图/>中的每个像素/>，计算在参考视图视角下的第/>个深度假设/>下的对应像素/>：

其中，表示内部参数矩阵，/>和/>分别表示参考视图和源视图之间的旋转矩阵和平移向量；

步骤S3.2、对于和每个源特征体/>，按如下方式计算相似性：

其中，表示内积；

随后，使用CNN从相似性中学习像素级视图权重/>，从而获取可见性信息；

最后，通过像素级视图权重将所有相似性聚合成一个代价体/>：像素级视图权重指的是参考特征体和每一个源特征体相似性/>的权重，与源特征体的数量相同，所以序号为[1，N-1]；

步骤S3.3、在使用三维CNN对代价体进行正则化后，沿着深度维度进行softmax操作计算出概率体；

最终，从概率体中计算初始深度图和置信图。

进一步地，所述步骤S5中，构造混合损失策略，优化深度图的核心思想是，在初始化阶段通过监督像素级的概率分布来增强训练的鲁棒性，在迭代阶段通过直接监督亚像素级的深度图来实现更好的训练性能，从而提高深度图的质量；详细计算步骤如下：

S5.1、使用交叉熵损失来监督初始化阶段预测的概率体和one-hot模式的地面真值概率体之间的训练损失；

其中，和/>分别表示深度假设/>在像素q处的地面真值概率体和预测的概率体，/>表示一组有效的实际像素，D表示深度假设的数量；

S5.2、使用损失测量估计的深度与实际深度之间的绝对距离来监督深度感知迭代阶段的深度估计；

其中，和/>分别表示阶段数和每个阶段的迭代次数，/>表示/>损失；

S5.3、混合损失包括初始化损失和迭代损失/>；

其中，表示预测深度图的总数，/>。

进一步地，所述步骤S6使用全局的迭代最近邻点方法来融合所有深度图，以输出点云模型；

；

其中，表示点云模型中的三维点，/>表示点云模型中三维点的数量。

有益效果：本发明采用深度感知代价补全模块来更新代价体，然后使用二维ConvGRUs来高效地迭代优化深度图，同时提出一种混合损失策略，将两个损失函数的优势结合起来，以提高深度估计的稳健性，最后融合深度图即可获得高质量的点云模型。

与现有技术相比，本发明的优点如下：

（1）、本发明通过深度感知迭代器有效地将上下文引导的深度几何信息整合到代价体中，为计算场景精细目标的深度图奠定基础。

（2）、本发明采用深度感知代价补全模块来更新代价体和混合损失策略，以迭代方式优化深度图，计算出高质量的深度图，进而提高点云模型的质量。

（3）、本发明既能够解决现有多视图立体重建方法在处理大规模图像数据时所产生的内存空间溢出问题，又能够提高多视图立体重建的时间效率，为大规模图像数据在多视图三维重建领域的应用以及三维重建技术的发展奠定重要基础。

（4）、本发明能够为元宇宙、文化遗产的数字化保护、虚拟现实和增强现实、自动驾驶、地图导航和道路资产数字等领域提供高质量的点云模型。

附图说明

图1为本发明的整体流程示意图。

图2为实施例中的大规模图像数据的样本。

图3为实施例中的深度图的样本。

图4为实施例最终输出的点云模型。

图5为现有方法输出的点云模型。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

现有多视图方法在构建代价体时往往忽视了包含场景几何形状的深度图，这会导致次优的重建结果，特别是在缺乏几何信息的低纹理或重复纹理区域。为解决上述问题，本发明的基于深度感知迭代器的大规模多视图立体方法，通过深度感知迭代器有效地将上下文引导的深度几何信息整合到代价体中。

如图1所示，本发明的主要思路为：首先提取多尺度特征；然后，计算像素级视图权重、深度图和置信图；其次，构造深度感知迭代器；再次，构造混合损失策略，优化深度图；最后，融合深度图，即可获得点云模型。本发明充分利用了基于深度感知迭代器的由粗到细的深度图计算方法，有效地将上下文引导的深度几何信融合到代价体中计算出高质量的深度图，进而计算出精确的点云模型。

本实施例的基于深度迭代感知器的大规模多视图立体方法，包括以下步骤：

步骤S1、输入多视角图像数据和摄像机参数。

步骤S2、计算多视角图像的多尺度特征，给定幅多视角图像/>,包括一幅参考视图/>和/>幅源视图/>，尺寸为/>。

实施例用一个包含3个阶段（）的特征金字塔网络（Feature PyramidNetwork，FPN）。

对于每个阶段，使用FPN提取/>幅多视角图像的特征图/>以及参考视图的上下文特征。

步骤S3、计算像素级视图权重、深度图和置信图，采用一个基于三维卷积神经网络正则化的多视图立体网络计算1/8分辨率下的像素级视图权重、深度图和置信图。具体步骤为：

步骤S3.1、根据深度假设的数量，首先将源视图的特征图映射到参考视图的视角下多个假设平面上，形成参考特征体/>以及源特征体/>；然后，对于源视图的特征图中的每个像素/>，计算在参考视图视角下的第/>个深度假设/>下的对应像素/>：

步骤S3.2、对于和每个/>，按如下方式计算相似性：

随后，使用CNN从相似性中学习像素级视图权重/>，从而获取可见性信息。最后，通过像素级视图权重将所有相似性聚合成一个代价体：

此处，像素级视图权重指的是参考特征体和每一个源特征体相似性的权重，与源特征体的数量相同，所以序号为[1，N-1]；

步骤S3.3、在使用三维 CNN对代价体进行正则化后，沿着深度维度进行softmax操作计算出概率体；最后，从概率体中计算初始深度图和置信图。

步骤S4、构造深度感知迭代器，基于步骤S3中的初始深度图，首先执行可微分单应性变换，然后构建一个代价体。也就是先使用两个CNN从深度图中提取几何形状，然后通过上下文特征的引导进行细化，以确保深度几何的准确表示。随后，通过使用轻量级的Transformer模块将上下文引导的几何形状编码到代价体中，形成深度感知的代价体。

具体计算步骤如下：

步骤S4.1、在个阶段上采用级联的2D ConvGRUs来进行深度优化。具体地，首先从上下文特征中提取隐藏状态/>，然后将其与深度感知代价体（Depth-Aware CostVolume，DACV）结合并输入到ConvGRU中进行处理，从而得到更新后的隐藏状态/>；

步骤S4.2、对应用2D CNNs操作，以获得残差深度值/>，然后将其添加到当前深度/>以进行更新；

步骤S4.3、在第个阶段进行/>次迭代（此处/>，也就意味着每个阶段均迭代三次），在每个阶段的最后一次迭代之后，基于当前的隐藏状态/>对深度图进行上采样操作。

步骤S5、构造混合损失策略，优化深度图；在初始化阶段通过监督像素级的概率分布来增强训练的鲁棒性，在迭代阶段通过直接监督亚像素级的深度图来实现更好的训练性能，从而提高深度图的质量。

具体计算步骤如下：

步骤S5.1、使用交叉熵损失来监督初始化阶段预测的概率体和one-hot模式的地面真值概率体之间的训练损失；

其中，和/>分别表示深度假设/>在像素q处的地面真值概率体和预测的概率体，/>表示一组有效的实际像素，/>表示深度假设的数量；

步骤S5.2、使用损失测量估计的深度与实际深度之间的绝对距离来监督深度感知迭代阶段的深度估计；

步骤S5.3、混合损失包括初始化损失和迭代损失/>；

其中，表示预测深度图的总数，/>。

步骤S6、使用全局的迭代最近邻点方法将多视角的深度图融合为点云模型，记为；/>表示点云模型中的三维点，/>表示点云模型中三维点的数量。

实施例1：

本实施例中输入的图像数据的样本如图2所示，图2中为四个不同视角的图像，本实施例输出的点云模型如图4所示，可以看出从图像数据中重建出的云模型与真实场景具有较高的几何一致性。

通过上述实施例可以看出，本发明首先提取多尺度特征；然后，计算像素级视图权重、置信图和初始深度图；其次，构造深度感知迭代器；再次，构造混合损失策略，优化深度图（如图3）；最后，融合深度图，即可获得点云模型（如图4所示）。本发明充分利用了基于深度感知迭代器的由粗到细的深度图计算方法，有效地将上下文引导的深度几何信融合到代价体中计算出高质量的深度图，进而计算出精确的点云模型。

根据最终实验结果（图4）；对于图2中同样的样本数据，若采用与现有方法《Efficient Multi-view Stereo by Iterative Dynamic Cost Volume》进行处理，其结果如图5所示，对比图4和图5的结果可知，本发明既提高了大规模多视图立体重建的时间效率，又避免了内存溢出问题。

Claims

1.一种基于深度感知迭代器的大规模多视图立体方法，其特征在于，包括以下步骤：

步骤S1、输入多视角图像数据和摄像机参数；/>中的/>幅多视角图像包括一幅参考视图/>和/>幅源视图/>；

其中，为/>中多视角图像和/>中摄像机的序号，/>为/>中多视角图像和/>中摄像机的数量；/>，/>表示第/>个摄像机的内部参数矩阵，/>表示第0个摄像机和第/>个摄像机之间的旋转矩阵，/>表示第0个摄像机和第/>个摄像机之间的平移向量；

步骤S2、对于中的/>幅图像/>，使用一个包含3个阶段的特征金字塔网络FPN来计算多视角图像的多尺度特征，在每个阶段/>，均使用FPN提取/>幅多视角图像的特征图，以及参考视图的上下文特征/>，其中k=0，1，2；

步骤S3、使用基于三维CNN正则化的多视图立体网络，来计算图像1/8分辨率下的像素级视图权重，然后通过像素级视图权重计算得到初始的深度图和置信图；

步骤S4.1、在个阶段上采用级联的2D ConvGRUs来进行深度优化：

首先从上下文特征中提取当前隐藏状态，然后将其与深度感知代价体DACV结合并输入到ConvGRU中进行处理，从而得到更新后的隐藏状态/>；

；

步骤S4.3、在第个阶段进行/>次迭代，在每个阶段的最后一次迭代之后，基于当前的隐藏状态/>对深度图进行上采样操作，/>=3；

步骤S5、构造混合损失策略，优化深度图；

步骤S6、融合所有视角图像的深度图，以输出点云模型。

2.根据权利要求1所述的基于深度感知迭代器的大规模多视图立体方法，其特征在于，在步骤S2中，N幅多视角图像的特征图和参考视图的上下文特征/>的分辨率均为，/>表示多视角图像的宽度，/>表示多视角图像的高度。

3.根据权利要求1所述的基于深度感知迭代器的大规模多视图立体方法，其特征在于，所述步骤S3的详细步骤为：

步骤S3.2、对于和每个源特征体/>，按如下方式计算相似性：

其中，表示内积；

最后，通过像素级视图权重将所有相似性聚合成一个代价体/>：

最终，从概率体中计算初始深度图和置信图。

4.根据权利要求1所述的基于深度感知迭代器的大规模多视图立体方法，其特征在于，所述步骤S5构造混合损失策略，优化深度图的详细步骤如下：

其中，和/> 分别表示深度假设/>在像素q处的地面真值概率体和预测的概率体，/>表示一组有效的实际像素，/>表示深度假设的数量；

步骤S5.3、混合损失包括初始化损失和迭代损失/>；

其中，表示预测深度图的总数，/>。

5.根据权利要求1所述的基于深度感知迭代器的大规模多视图立体方法，其特征在于：所述步骤S6使用全局的迭代最近邻点方法来融合所有深度图，以输出点云模型；

；