CN115359191A

CN115359191A - 一种基于深度学习的物体三维重建系统

Info

Publication number: CN115359191A
Application number: CN202211111620.3A
Authority: CN
Inventors: 宋涛; 邢镔; 郑米培; 张渝; 张景涛; 李程; 田媛; 王敏; 李沩沩
Original assignee: Chongqing Industrial Big Data Innovation Center Co ltd; Chongqing University of Technology
Current assignee: Chongqing Industrial Big Data Innovation Center Co ltd; Chongqing University of Technology
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-11-18

Abstract

本发明涉及三维重建技术领域，具体涉及一种基于深度学习的物体三维重建系统。本发明提出了一种引入可见性感知的自适应成本聚合方法用于成本量的聚合，通过网络获取视图中像素点的可见性，可以提高遮挡区域重建完整性；采用基于方差预测每像素视差范围，构建空间变化的深度假设面，用于下一阶段的深度估计，在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块，以获得优化后的深度图；采用改进深度图融合算法，结合像素点与3D点重投影误差进行一致性检查，得到密集点云。在DTU数据集上与其他方法的定量定性比较结果表明本发明方法可以重建出细节上表现更好的场景，且实现了降低GPU内存消耗和计算时长的目的。

Description

一种基于深度学习的物体三维重建系统

技术领域

本发明涉及三维重建技术领域，具体涉及一种基于深度学习的物体三维重建系统。

背景技术

三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术。三维重建技术作为计算机视觉的热门方向之一，被广泛应用于医疗、3D打印、虚拟现实技术和3D地图和导航等方面。传统的三维重建方法使用的相似性度量和正则化方法如标准化互相关和半全局匹配等来计算光度一致性并恢复深度信息。尽管目前的一些传统算法在精确度方面表现良好，但它们也有一些共同的局限性，例如在场景的低纹理、镜面反射和反射区域的重建较为困难。

和传统算法相比，基于学习的方法能够学习利用场景全局语义信息，包括对象材质、镜面反射度和环境照明等条件，以获得更稳健的匹配和更完整的重建。近年来，卷积神经网络在各种计算机视觉任务中的成功应用促进了多视图几何(MVS)方法的改进。立体匹配任务非常适合应用基于深度学习的方法，因为对图像的预先矫正，此问题变成了水平像素方向的视差估计，而不需要考虑相机参数。

在基于深度学习的三维重建方面，有研究人员提出SurfaceNet预先构建彩色体素立方体，将所有图像像素颜色信息和相机信息组合到单个体素中，作为网络的输入；也有研究人员提出立体学习机(LSM)直接利用可微映射来实现端到端的训练。然而，这两种方法都利用了规则栅格的体积表示，受三维体积巨大内存消耗的限制，其网络难以扩展：LSM仅处理低体积分辨率的对象，而SurfaceNet采用启发式分治策略，大规模重建需要很长时间。除此，还有研究人员提出端到端的网络(如MVSNet)直接从一系列图像中估计场景的深度，从而达到更高的预测精度。

尽管上述方法的准确性已在各种数据集上得到验证，但大多数方法都利用3D卷积神经网络(CNN)来预测深度图或体素占用，导致内存消耗过多，限制了估计分辨率的提高。随后，研究人员进一步提出了一种新的基于递归神经网络的可伸缩多视点立体框架，称为R-MVSNet。通过顺序处理，算法的在线内存需求从三次型降低到二次型，能够实现高分辨率的重建。然而这使重建的完整性和准确性受到了影响，运行速率也有所降低。后续工作等级联式立体网络用于多幅RGB图像的三维重建。然而在2D到3D信息融合过程中，同样存在一些不足之处，如深度估计网络内存占用过大、无法处理图像中遮挡区域的可见性问题、计算深度图耗时太长等问题。

综上，怎样通过低内存占用和低计算消耗实现高精度和高度完整的重建，成为目前亟待解决的问题。

发明内容

针对上述现有技术的不足，本发明提供了一种基于深度学习的物体三维重建系统，能够通过低内存占用和低计算消耗实现高精度和高度完整的重建。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种基于深度学习的物体三维重建系统，包括输入单元、处理单元、融合单元和重建单元；输入单元用于输入进行三维重建的初始图像，所述初始图像包括源图像和1张参考图像；

所述处理单元包括级联式三维重建网络和深度图优化模块，级联式三维重建网络用于按分辨率从低到高分阶段进行深度估计；所述级联式三维重建网络的每一阶段均包括特征提取模块、成本体构建模块、自适应聚合模块和深度图构建模块；

特征提取模块用于预设的要求对初始图像进行特征提取，得到对应的特征图；所述预设要求为各阶段的特征提取模块按照分辨率从低到高的顺序依次进行特征提取；成本体构建模块用于对该阶段的特征图进行处理，得到各像素点的可见性并构建对应的成本体；自适应聚合模块用于对该阶段的成本体进行分析处理得到对应的概率体，再采用基于方差的视差范围预测每像素的空间变化的视差范围，并构建空间变化的深度假设面；深度图构建模块用于根据概率体预测得到对应的初始深度图；其中，若成本体构建模块不属于级联式三维重建网络的第一阶段，则该成本体构建模块根据该阶段的特征图及上一阶段的深度假设面构建成本体；深度图优化模块用于对最后一阶段的初始深度图进行优化，得到优化深度图；

融合单元用于根据优化深度图生成3D密集点云；重建单元用于对3D密集点云进行处理得到重建的三维视图。

基础方案有益效果：

本发明中，提出了一种引入可见性感知的自适应成本聚合方法，在成本体生成阶段采用了相似性度量的方法，通过可见性感知网络获取视图中像素点是否可见；基于方差预测每像素视差范围，将局部深度范围划分在学习到的小间隔内，按分辨率从低到高分阶段进行深度估计；并在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块，以实现从粗到精的方式实现重建。实验证明，在DTU数据集上与其他方法的定量定性比较结果表明本发明方法可以重建出细节上表现更好的场景，且实现了降低GPU内存消耗和计算时长的目的。

与现有技术相比，本方法能够通过低内存占用和低计算消耗实现高精度和高度完整的重建。

优选地，所述特征提取模块包括编码器和特征提取器；所述编码器包括一组卷积层组，编码器的统一层为INPLACE-ABN，编码器用于按预设步长的卷积对初始图像大小进行下采样；特征提取器用于按照预设的要求从解码器中提取特征图。

有益效果：INPLACE-ABN是将常用深度网络中常见的BN+Activation组合替换为一个合并层，通过存储少量计算结果(丢弃部分中间结果，在反向传播时倒置计算恢复需要的参量)，节省了50％的存储空间，却只增加少许计算量。它取代了常用的批量标准化(BN)和非线性激活层，在后向传递期间，可以通过反转前向传递计算有效地从该缓冲区恢复所有所需的量，理论上在不引入明显的计算开销的情况下在卷积层获得50％的内存增益，计算时间仅增加0.8-2％。

优选地，第一阶段的成本构建模块的工作过程包括：

建立一个标准的平面扫描体，从预定义的深度间隔[d_min,d_max]中均匀采样得到L个深度假设层

通过源视图的特征映射和参考图像之间的像素对应关系扭曲映射得到对应的成本体；所述源视图的特征映射和参考图像之间的像素对应关系为：

p_i,l＝K_i·(R_i·(K^-1·p·d_l)+t_i)；其中，p_i,l为第i张源图像中的像素p在参考图像中第l层深度假设d_l的对应像素：

为参考图像与第i张源图像的内参矩阵；

为参考图像与第i张源图像的旋转平移矩阵。

优选地，除第一阶段外，其余阶的成本体构建模块的工作过程包括：

将特征通道划分为G组后，计算参考图像特征F(p)和第i张源视图在第l层深度假设面扭曲映射后的特征图F_i(p_i,l)在第g组的相似性S_i(p,l)^g：

其中，H为特征通道的数量；G为特征通道的组数；

计算像素P和第l层深度假设面的最终每组相似性

S_i(p,l)表示像素p参考图像特征和第i张源图像在l层特征图上的相似性；n表示初始图像的数量；

为第i张源图像的可见性掩码；

计算第i幅源图像的成本体

表示第i张源视图在第l层深度假设面的最终每组相似性；

再计算成本体C：

有益效果：在大多数已知的MVS方法中，成本体是通过将所有提取的特征映射转换为参考图像的特征映射来生成的。本发明在使用与其他方法不同的特征聚合方法的同时，对成本体的生成进行了深入的研究。通过类似于平面扫描算法将提取的特征从源视图扭曲映射到参考视图，从而在多个尺度上构建多个成本体。并且，针对本发明中各阶段构建模块的具体特征，本发明对第一阶段和其与阶段的构建模块，专门设计了不同的成本提构建方式。这样的构建方式，在保证运算效率的同时，还可以保证成本体的构建质量。

优选地，自适应聚合模块经平均分组相关性计算的相似性度量来表示结构权重成本，再通过可见性感知网络获取源图像中像素点是否可见；

其中，所述通过可见性感知网络获取视图中像素点是否可见包括：将参考图像特征F(p)和源图像特征F_i(p_i,l)的相似性S_i(p,l)输入可见性感知网络，并输出视图i的可见性掩码

且在所有像素上共享权重，独立预测每个像素的可见性；所述可见性掩码

中，w_i(p)＝max{P_i(p,l)|l＝0,1,...,L-1}；其中，P_i(p,l)表示第i张源图像中像素p在第l层深度假设面的像素值；L为该阶段的深度假设面的数量。

有益效果：现有技术中，如MVSNet，将所有视图中的多视图功能提供给基于方差的成本度量，而不管像素的可见性如何，未解决的可见性问题可能会不可避免地恶化最终重建。为此，本发明提出了一种新的聚合操作，通过这种方式可以在成本聚合期间学习到源视图像素在参考图像中的可见信息，并获得稳健性。

优选地，自适应聚合模块通过3D CNN处理成本体，并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度后，得到对应的概率体。

优选地，像素p在第k阶段的预测深度Q_k(p)的计算式为：

其中，L为该阶段的深度假设面的数量；Q_k,l表示第k阶段的第l假设平面，Q_k,l(p)表示Q_k,l在像素p处的值；P_k,l(p)表示像素p在Q_k,l的概率值。

优选地，所述自适应聚合模块采用基于方差的视差范围预测每像素的空间变化的视差范围，并构建空间变化的深度假设面具体包括：

计算像素p在第k阶段的概率分布的方差v_k(p)：

其中，P_k,l(p)表示像素p在Q_k,l深度的概率值；Q_k(p)表示像素p在k阶段的预测深度概率体；并计算相应的标准差

使用基于方差的置信区间来衡量视差范围预测：

c_k(p)＝[Q_k(p)-λσ_k(p),Q_k(p)+λσ_k(p)]；其中，λ为预设的用于确定置信区间的大小的标量参数；

之后，对于每个像素p，从第k阶段的置信区间c_k(p)均匀采样L_k+1个深度值，以获取该像素在k+1阶段的深度假设面的深度值Q_k+1,1(p)，Q_k+1,2(p)，...，

并构建对应的深度假设面。

有益效果：这样的方式，在地面真值表面周围有一个概率局部空间，地面真值深度位于视差范围区间内，具有很高的置信度。由于基于方差的视差范围估计是可微的，这使本发明的网络能够学习调整每个阶段的概率预测，以实现在端到端训练过程中实现优化的间隔和后续阶段的相应的深度假设面，从而实现高效的空间划分。

优选地，深度图优化模块包括注意力引导的深度残差网络；深度残差网络的训练包括优化深度残差网络学习输出残差，并将残差添加到深度残差网络的深度图估计中；

深度图优化模块的工作过程包括：将参考图像经2D卷积层后的特征图D∈R^H×W×C与最后一阶段产生的初始深度图D_pre拼接，得到拼接特征图D1；之后，通过顺着空间维度来对拼接特征图D1进行特征压缩、全局平均池化和1×1卷积得到一个R^1×1×C的张量w_c，张量w_c用于表示拼接特征图D1的对应通道中的权重；然后，将张量w_c经过sigmoid函数归一化后与拼接特征图D1相乘，使每个通道拼接特征图D1与权重相乘；再将加权后的拼接特征图D1与最后一阶段产生的初始深度图D_pre相加，生成优化深度图D_c。

有益效果：通过本发明提出的残差与通道注意力引导融合的深度图优化模块，可以在保证对最有一阶段的初始深度图进行优化的同时，尽可能的避免深度学习算法遭遇梯度弥散和梯度爆炸的风险。

优选地，融合单元还用于对优化深度图生成的3D点进行一致性筛查，所述一致性筛查具体包括：

获取优化深度图中的图像i在像素点p处的深度值d_i(p)后，结合相机参数的投影矩阵P_i＝[M_i|t_i]，将图像i上的像素点p反投影到3D空间中生成3D点T_ref(x,y,z)：

之后，将3D点T_ref(x,y,z)投影到图像i的邻域视图生成投影像素q：

其中，P_j表示邻域试图的相机参数，d为投影深度；再将邻域视图的投影像素q根据其估计深度d_j(q)反投影到3D空间并投影回参考图像生成像素p'：

其中，d'为参考图像上重投影像素p'处的深度值；计算像素点的重投影误差：ξ_p＝||p-p'||₂；将图像i中重投影误差ξ_p＞θ₁对应的像素点筛除；其中，θ₁为正向投影误差阈值；

然后，将邻域视图同位置的像素点根据其估计深度d_j(q)反投影到3D空间生成3D点T_src(x',y',z')：

再将邻域视图的3D点通过单应性矩阵扭曲映射到图像I_i的3D空间中得到点T_proj(x”,y”,z”)；并计算点T_proj的重投影误差：ξ_n＝(x”-x)²+(y”-y)²+(z”-z)²；将重投影误差ξ_n＞θ₂对应的3D点T_proj筛除；其中，θ₂反投影误差阈值；

通过聚集来自所有邻域视图的3D点匹配一致性，获得全局多视图几何一致性

其中，n为初始图像的数量；再将η(p)≥τ对应的3D点T_ref删除；其中，τ为全局多视图几何一致性误差阈值。

有益效果：与现有技术中的深度图融合方法相比，本发充分考虑了几何一致性，并且结合计算像素点的重投影误差和3D点的重投影误差，明提高了三维重建点云的鲁棒性、完整性和准确性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为实施例中处理单元的示意图；

图2为实施例中自适应聚合模块的示意图；

图3为随像素在空间变化的深度假设面示意图；

图4为深度图优化模块中注意力引导的深度残差网络的示意图；

图5为实验的精度误差和内存消耗的比较结果示例图；

图6为实验的精度误差和运行时间内存消耗的结果示例图；

图7-图8为实验的四种网络的定性比较结果图；

图9为实验中本模型22个场景处理结果展示图；

图10为实验的深度图可视化对比图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于深度学习的物体三维重建系统，包括输入单元、处理单元、融合单元和重建单元。

输入单元用于输入进行三维重建的初始图像，所述初始图像包括源图像和1张参考图像。为便于后续说明，具体实施时，初始图像的数量为n，即，源图像的数量为n-1。

如图1所示，处理单元包括级联式三维重建网络和深度图优化模块，级联式三维重建网络用于按分辨率从低到高分阶段进行深度估计；所述级联式三维重建网络的每一阶段均包括特征提取模块、成本体构建模块、自适应聚合模块和深度图构建模块。具体实施时，级联式三维重建网络共包括三个阶段。

特征提取模块用于预设的要求对初始图像进行特征提取，得到对应的特征图；所述预设要求为各阶段的特征提取模块按照分辨率从低到高的顺序依次进行特征提取。具体实施时，所述特征提取模块包括编码器和特征提取器；所述编码器包括一组卷积层组，编码器的统一层为INPLACE-ABN，编码器用于按预设步长的卷积对初始图像大小进行下采样；特征提取器用于按照预设的要求从解码器中提取特征图。

以往的方法通常采用多层2D CNN下采样或是UNet来进行单一分辨率上的特征提取，为了实现高分辨率特征通过学习的上采样过程以较低的分辨率适当地合并信息，本发明提出了一个多尺度特征提取器，先采用类似FPN的八层降采样卷积网络，然后参考UNet，在多阶段深度预测中，每个阶段都使用前一阶段中的特征信息，从而进行合理的高频特征提取。编码器由一组卷积层组成，使用步长stride＝2的卷积对原始图像大小进行两次下采样。之前的网络中大量采用BN层接激活层的组合，而现有的深度学习框架一定程度上在深度学习框架中的内存管理不理想。本公司名采用一种新的统一层(INPLACE-ABN)，INPLACE-ABN是将常用深度网络中常见的BN+Activation组合替换为一个合并层，通过存储少量计算结果(丢弃部分中间结果，在反向传播时倒置计算恢复需要的参量)，节省了50％的存储空间，却只增加少许计算量。它取代了常用的批量标准化(BN)和非线性激活层，在后向传递期间，可以通过反转前向传递计算有效地从该缓冲区恢复所有所需的量，理论上在不引入明显的计算开销的情况下在卷积层获得50％的内存增益，计算时间仅增加0.8-2％。其输入为参考图像与N-1张源图像。特征提取器从解码器提取三个比例的特征图F₁,F₂,F₃，用于代价体构建。本发明将原始图像的大小表示为W*H，F₁,F₂,F₃具有

和W*H的分辨率。

成本体构建模块用于对该阶段的特征图进行处理，得到各像素点的可见性并构建对应的成本体。具体实施时，第一阶段的成本构建模块的工作过程包括：

为参考图像与第i张源图像的内参矩阵；

为参考图像与第i张源图像的旋转平移矩阵。

除第一阶段外，其余阶的成本体构建模块的工作过程包括：

其中，H为特征通道的数量；G为特征通道的组数；

计算像素P和第l层深度假设面的最终每组相似性

其中，S_i(p,l)表示像素p参考图像特征和第i张源图像在l层特征图上的相似性；n表示初始图像的数量；

为第i张源图像的可见性掩码；

计算第i幅源图像的成本体

表示第i张源视图在第l层深度假设面的最终每组相似性；

再计算成本体C：

在大多数已知的MVS方法中，成本体是通过将所有提取的特征映射转换为参考图像的特征映射来生成的。本发明在使用与其他方法不同的特征聚合方法的同时，对成本体的生成进行了深入的研究。通过类似于平面扫描算法将提取的特征从源视图扭曲映射到参考视图，从而在多个尺度上构建多个成本体。并且，针对本发明中各阶段构建模块的具体特征，本发明对第一阶段和其与阶段的构建模块，专门设计了不同的成本提构建方式。这样的构建方式，在保证运算效率的同时，还可以保证成本体的构建质量。

自适应聚合模块用于对该阶段的成本体进行分析处理得到对应的概率体，再采用基于方差的视差范围预测每像素的空间变化的视差范围，并构建空间变化的深度假设面。

具体实施时，如图2所示，自适应聚合模块经平均分组相关性计算的相似性度量来表示结构权重成本，再通过可见性感知网络获取源图像中像素点是否可见；其中，所述通过可见性感知网络获取视图中像素点是否可见包括：将参考图像特征F(p)和源图像特征F_i(p_i,l)的相似性S_i(p,l)输入可见性感知网络，并输出视图i的可见性掩码

中，w_i(p)＝max{P_i(p,l)|l＝0,1,...,L-1}；其中，P_i(p,l)表示第i张源图像中像素p在第l层深度假设面的像素值；L为该阶段的深度假设面的数量。现有技术中，如MVSNet，将所有视图中的多视图功能提供给基于方差的成本度量，而不管像素的可见性如何，未解决的可见性问题可能会不可避免地恶化最终重建。为此，本发明提出了一种新的聚合操作，通过这种方式可以在成本聚合期间学习到源视图像素在参考图像中的可见信息，并获得稳健性。

自适应聚合模块通过3D CNN处理成本体，并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度后，得到对应的概率体。

像素p在第k阶段的预测深度Q_k(p)的计算式为：

自适应聚合模块采用基于方差的视差范围预测每像素的空间变化的视差范围，并构建空间变化的深度假设面具体包括：

计算像素p在第k阶段的概率分布的方差v_k(p)：

使用基于方差的置信区间来衡量视差范围预测：

并构建对应的深度假设面。

通过这种方式，本发明可以构建L_k+1个随像素在空间变化的深度假设曲面Q_k+1,l，如图3所示。该方法在地面真值表面周围有一个概率局部空间，地面真值深度位于视差范围区间内，具有很高的置信度。由于基于方差的视差范围估计是可微的，这使本发明的网络能够学习调整每个阶段的概率预测，以实现在端到端训练过程中实现优化的间隔和后续阶段的相应的深度假设平面，从而实现高效的空间划分。

深度图构建模块用于根据概率体预测得到对应的初始深度图。深度图优化模块用于对最后一阶段的初始深度图进行优化，得到优化深度图。具体实施时，深度图优化模块包括注意力引导的深度残差网络，如图4所示；深度残差网络的训练包括优化深度残差网络学习输出残差，并将残差添加到深度残差网络的深度图估计中。

如图5所示，深度图优化模块的工作过程包括：将参考图像经2D卷积层后的特征图D∈R^H×W×C与最后一阶段产生的初始深度图D_pre拼接，得到拼接特征图D1；之后，通过顺着空间维度来对拼接特征图D1进行特征压缩、全局平均池化和1×1卷积得到一个R^1×1×C的张量w_c，张量w_c用于表示拼接特征图D1的对应通道中的权重；然后，将张量w_c经过sigmoid函数归一化后与拼接特征图D1相乘，使每个通道拼接特征图D1与权重相乘；再将加权后的拼接特征图D1与最后一阶段产生的初始深度图D_pre相加，生成优化深度图D_c。

通过本发明提出的残差与通道注意力引导融合的深度图优化模块，可以在保证对最有一阶段的初始深度图进行优化的同时，尽可能的避免深度学习算法遭遇梯度弥散和梯度爆炸的风险。

融合单元用于根据优化深度图生成3D密集点云。融合单元还用于对优化深度图生成的3D点进行一致性筛查，所述一致性筛查具体包括：

再将邻域视图的3D点通过单应性矩阵扭曲映射到图像I_i的3D空间中得到点T_proj(x”,y”,z”)；并计算点T_proj的重投影误差：ξ_n＝(x”-x)²+(y”-y)²+(z”-z)²；将重投影误差ξ_n＞θ₂对应的3D点T_proj筛除；其中，θ₂为为反投影误差阈值；

其中，n为初始图像的数量；再将η(p)≥τ对应的3D点T_ref删除；其中，τ为为全局多视图几何一致性误差阈值。

与现有技术中的深度图融合方法相比，本发充分考虑了几何一致性，并且结合计算像素点的重投影误差和3D点的重投影误差，明提高了三维重建点云的鲁棒性、完整性和准确性。

重建单元用于对3D密集点云进行处理得到重建的三维视图。

与现有技术相比，本发明提出了一种引入可见性感知的自适应成本聚合方法，在成本体生成阶段采用了相似性度量的方法，通过可见性感知网络获取视图中像素点是否可见；基于方差预测每像素视差范围，将局部深度范围划分在学习到的小间隔内，按分辨率从低到高分阶段进行深度估计；并在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块，以实现从粗到精的方式实现重建。并采用改进深度图融合算法，结合像素点与3D点重投影误差进行几何一致性检查。

实验证明，在DTU数据集上与其他方法的定量定性比较结果表明本发明方法可以重建出细节上表现更好的场景，且实现了降低GPU内存消耗和计算时长的目的。实验的具体内容如下：

实验设置

在DTU数据集上训练本发明中的网络。DTU数据集中包含了各种各样的场景和物体，还包括非常相似的场景，例如房屋模型，这样可以探索类内可变性。数据集分为训练集、验证集和测试集。和之前基于深度学习的方法一样，采用场景{3,5,17,21,28,35,37,38,40,43,56,59,66,67,82,86,106,117}作为验证集，场景{1,4,9,10,11,12,13,15,23,24,29,32,33,34,48,49,62,75,77,110,114,118}作为测试集，训练集为其余78个场景。训练输入图片的分辨率为640x512，视图数为3；使用N₁＝64，N₂＝32和N₃＝8来构造平面扫描体。从端到端训练完整三阶网络30个epoch。初始学习率为0.0016。

实验结论

在DTU测试集上评估了本系统，采用视图数n＝5,图片尺寸W＝1600,H＝1184,初始深度范围d_min＝425mm,d_max＝933.8mm。使用MSG-Net中的距离度量来比较最终重建的精度。以下参数是在点云模型下完成的，真值是结构光扫描得到的点云模型Comp.完整性由计算结构光扫描的模型的每个点到距离MVS重建的模型最近点的距离计算；Acc.精度由在可视掩码内的MVS重建的点到结构光扫描模型最近点的距离；Ovrall衡量准确性和完整性的总体表现。对传统方法和基于学习的方法进行了比较，定量结果如表1所示。虽然Gipuma[27]在不精确性方面表现最佳，但本方法在完整性方面优于其他方法，并在整体质量方面取得了有竞争力性能。注意，在输入相同的情况下，MVSNet和R-MVSNet预测的深度图大小仅为

最终深度图是在原始图像尺寸上估计的，这具有高得多的分辨率，并且导致明显更好的完整性。

表1 DTU评估数据集上重建质量的定量结果(越低越好)

Table 1 quantitative results of reconstruction quality on DTUevaluation data set(the lower the better)

同时，对三维重建的整体精度误差(overall error)和内存消耗以及精度误差和运行时间上做了比较，与其他方法相比，本发明的模型的内存消耗和运行时长相对更小，如图5、图6所示。模型内存消耗和运行时间分别比CasMVSNet降低了36.64％和22.95％，比CVP-MVSNet降低了39.54％和61.48％，比UCSNet降低了14.84％和16.07％。同时。整体精度误差(overall error)比CasMVSNet、CVP-MVSNet、UCSNet分别降低了9.30％，6.40％，。在生成点云的质量方面，本发明的3D重建结果与UCSNet、CasMVSNet与地面真值Ground Truth在DTU数据集上的scan15，scan23,scan32进行定性比较，由图7-8所示。图中，(a)为CasMVSNet，(b)为UCSNet；(c)为Ground Truth；(d)为本发明。在这些示例中实现了相当的完整性，由于能够处理高输入分辨率，本发明的结果更加密集，门、横幅和饮料瓶的弱纹理区域细节更加精细，且在图七的遮挡区域表现良好，并且可以更容易地从3D重建结果中识别。

为了证明网络训练模型的有效性，对DTU数据中1、4、9、10、11、12、13、15、23、24、29、32、33、34、48、49、62、75、77、110、114、118场景分别进行深度图的预测，进而转换成点云模型做出展示，总共22个场景，如图9所示。

消融实验分析

提供消融实验和定量分析，以评估本发明框架中关键组件包括自适应成本聚合、深度图优化模块与改进深度图融合算法的优势和局限性。在接下来的所有研究中，实验都是在DTU数据集上进行和评估的，并且准确性和完整性都被用来衡量重建质量。设置组数G＝4，其他所有设置与前文中使用的设置相同。结果如表2所示。

表2 模型消融实验对比

Table 9 Comparison of model ablation experiments

通过表2，可以看出本发明提出的算法对于Baseline网络有了显著提升。同时，如图10所示，针对自适应成本聚合方法，进行了对输出尺寸为1200x1986的深度图可视化来说明网络对于图片全局及可见信息的感知。由左至右分别：rgb图；Baseline网络的深度图，采用自适应成本聚合的深度图，添加深度图优化模块后的网络模型的深度图。通过对比，可以看出，本发明提出的网络模型深度图更完整孔洞更少，边缘更清晰，能够做出更好地预测结果。

结果表明，本发明在提升预测结果的整体精度前提下降低了网络的GPU内存的消耗，并且提升了计算速度，生成的点云文字部分以及场景细节的弱纹理区域与遮挡区域处重建效果明显。与大多数基于学习的MVS方法相比，本发明实现了具有竞争力的性能。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的物体三维重建系统，其特征在于：包括输入单元、处理单元、融合单元和重建单元；输入单元用于输入进行三维重建的初始图像，所述初始图像包括源图像和1张参考图像；

2.如权利要求1所述的基于深度学习的物体三维重建系统，其特征在于：所述特征提取模块包括编码器和特征提取器；所述编码器包括一组卷积层组，编码器的统一层为INPLACE-ABN，编码器用于按预设步长的卷积对初始图像大小进行下采样；特征提取器用于按照预设的要求从解码器中提取特征图。

3.如权利要求2所述的基于深度学习的物体三维重建系统，其特征在于：第一阶段的成本构建模块的工作过程包括：

为参考图像与第i张源图像的内参矩阵；

为参考图像与第i张源图像的旋转平移矩阵。

4.如权利要求3所述的基于深度学习的物体三维重建系统，其特征在于：除第一阶段外，其余阶的成本体构建模块的工作过程包括：

其中，H为特征通道的数量；G为特征通道的组数；

计算像素P和第l层深度假设面的最终每组相似性

为第i张源图像的可见性掩码；

计算第i幅源图像的成本体

表示第i张源视图在第l层深度假设面的最终每组相似性；

再计算成本体C：

5.如权利要求4所述的基于深度学习的物体三维重建系统，其特征在于：自适应聚合模块经平均分组相关性计算的相似性度量来表示结构权重成本，再通过可见性感知网络获取源图像中像素点是否可见；

6.如权利要求5所述的基于深度学习的物体三维重建系统，其特征在于：自适应聚合模块通过3D CNN处理成本体，并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度后，得到对应的概率体。

7.如权利要求6所述的基于深度学习的物体三维重建系统，其特征在于：像素p在第k阶段的预测深度Q_k(p)的计算式为：

8.如权利要求7所述的基于深度学习的物体三维重建系统，其特征在于：所述自适应聚合模块采用基于方差的视差范围预测每像素的空间变化的视差范围，并构建空间变化的深度假设面具体包括：

计算像素p在第k阶段的概率分布的方差v_k(p)：

使用基于方差的置信区间来衡量视差范围预测：

之后，对于每个像素p，从第k阶段的置信区间c_k(p)均匀采样L_k+1个深度值，以获取该像素在k+1阶段的深度假设面的深度值

并构建对应的深度假设面。

9.如权利要求8所述的基于深度学习的物体三维重建系统，其特征在于：深度图优化模块包括注意力引导的深度残差网络；深度残差网络的训练包括优化深度残差网络学习输出残差，并将残差添加到深度残差网络的深度图估计中；

10.如权利要求9所述的基于深度学习的物体三维重建系统，其特征在于：融合单元还用于对优化深度图生成的3D点进行一致性筛查，所述一致性筛查具体包括：

再将邻域视图的3D点通过单应性矩阵扭曲映射到图像I_i的3D空间中得到点T_proj(x”,y”,z”)；并计算点T_proj的重投影误差：ξ_n＝(x”-x)²+(y”-y)²+(z”-z)²；将重投影误差ξ_n＞θ₂对应的3D点T_proj筛除；其中，θ₂为反投影误差阈值；