CN116721216A

CN116721216A - 基于GCF-MVSNet网络的多视图三维重建方法

Info

Publication number: CN116721216A
Application number: CN202310730793.1A
Authority: CN
Inventors: 刘韵婷; 高宇
Original assignee: Shenyang Ligong University
Current assignee: Shenyang Ligong University
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-08

Abstract

本发明提出一种基于GCF‑MVSNet网络的多视图三维重建方法，步骤为：将参考图像以及原图像输入GCF‑MVSNet网络，GCF‑MVSNet网络采用卷积神经网络对输入的参考图像以及原图像进行特征提取，输出N个特征图；将输出的N个特征图经单应性变换后，得到N个特征体；对特征体进行聚合，得到代价体；通过GC正则化网络对代价体进行正则化处理，得到概率体；将概率体恢复为稀疏深度图，将稀疏深度图通过图像深度模型转换为稠密深度图；将得到的稠密深度图经高斯—牛顿算法优化，得到优化的稠密深度图，完成多视图三维重建。本发明解决目前基于深度学习的多视图三维重建网络仍存在的重建精度低、完整度较差和内存消耗大的问题。

Description

基于GCF-MVSNet网络的多视图三维重建方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于GCF-MVSNet网络的多视图三维重建方法。

背景技术

近年来，深度学习的发展彰显了其独特的优越性，大批的学者也将深度学习应用于多视图三维重建领域，不仅提升了目标物体重建的效果，也提高了目标图像恢复的鲁棒性。基于深度学习的三维重建按相机数量可划分为单目、双目以及多目的重建。基于深度学习的多视图三维重建按重建方式又可分为基于点云重建、体素重建、网格重建和深度图重建。

其中，基于深度图的三维重建方法是多视图重建研究中应用较多的方法。Gallup等人将Plane-Sweeping算法应用于三维重建的研究中，采用多个分割平面投影到摄像机上点的颜色进行一致性对比的方法，判断该点是否为物体表面上的点。该方法的使用受物体遮挡、光照以及物体表面纹理的影响，为了有效的解决此问题，Shu等人提出了一种深度区间估计的方法。虽然采用几何的计算法可以实现对深度图的计算，但实际使用中易受到物体遮挡的影响，对物体缺失纹理的区域具有较差的结果。

为了有效解决传统MVS方法在重建过程中对物体弱纹理区域、表面反射等问题处理较差，基于深度学习的多视图三维重建算法应运而生。Yao等人提出了MVSNet重建网络，为基于深度学习的多视图三维重建开辟了一个全新的研究领域。但此网络在进行正则化时，需要消耗大量的内存，这就使得该网络难以对高分辨率的场景进行重建。Yao在MVSNet网络的基础上进行改进，提出了R-MVSNet网络，有效的提高了重建网络的整体性能。Yu A等人提出了AACVP-MVSNet网络，引入自注意层，实现分层特征提取；使用相似度量的方法生成成本量，提高了网络对大规模图像重建的能力。Wei Z等人提出了AA-RMVSNet网络，采用了聚合模块，提高上下文间的感知力，减小了遮挡问题对重建结果的影响。Gao S等人提出了MSCVP-MVSNet网络，采用多策略的方法以及训练过程中使用单峰分布作为训练标签的方式，提高重建结果的精确度。Giang K T等人提出动态尺度特征提取网络，提高网络的鲁棒性、减小运行的时间。

但目前基于深度学习的多视图三维重建网络仍存在的重建精度低、完整度较差和内存消耗大等问题。

发明内容

发明目的：

本发明提出一种基于GCF-MVSNet网络的多视图三维重建方法，其目的在于解决目前基于深度学习的多视图三维重建网络仍存在的重建精度低、完整度较差和内存消耗大的问题。

技术方案：

本发明提出一种基于GCF-MVSNet网络的多视图三维重建方法，步骤为：

步骤一：将参考图像以及原图像输入GCF-MVSNet网络，GCF-MVSNet网络采用卷积神经网络对输入的参考图像以及原图像进行特征提取，输出N个特征图；

步骤二：将步骤一输出的N个特征图经单应性变换后，得到N个特征体；对特征体进行聚合，得到代价体；通过GC正则化网络对代价体进行正则化处理，得到概率体；

步骤三：将步骤二中的概率体恢复为稀疏深度图，将稀疏深度图通过图像深度模型转换为稠密深度图；

步骤四：将步骤三得到的稠密深度图经高斯—牛顿算法优化，得到优化的稠密深度图，完成多视图三维重建。

进一步的，步骤一中所述卷积神经网络采用8层的二维卷积神经网络，将第三层和第六层的步长设置为2，其余层的步长设置为1。

进一步的，步骤二中GC正则化网络以代价体作为输入，经过多组并联的正则化模块，输出正则化的代价体。

进一步的，每组正则化模块采用了三个串联的改进后的GRU单元，将上层的输出作为下层的输入，在GRU神经网络的基础上进行改进，分别在输入重置门之前和输出重置门和激活函数之间添加卷积层。

进一步的，步骤三中所述图像深度模型为：

其中，代表的是稠密深度图，D(q)代表的是稀疏深度图，ω_p,q代表卷积网络的权重。

进一步的，步骤四中所述高斯—牛顿算法的步骤为：

参考图像上的点为p，p在第i张原图像上对应的投影点为p′_i，p′_i由公式(6)得到，

式中分别表示对应图像的相机内参、旋转矩阵和平移向量；稠密深度图预测出的深度为D(p)，优化过程主要是求误差(7)最小化的过程，

式中F_i为原图像的深度特征图，F₀为参考图像的深度特征图；像素点在每个原图像中的残差为r_i(p)，即原图像与参考图像的深度特征图的差值，由式(8)得到，

r_i(p)＝F_i(p′_i)-F₀(p) (9)

J_i(p)表示每个残差对求一阶偏导数的结果，由公式(9)得到，

雅可比矩阵残差向量/>通过式(10)可得到当前深度值的增量值δ，

δ＝-(J^TJ)^-1J^Tr (11)

最后，经优化后的深度图表达如下：

进一步的，所述GCF-MVSNet网络的损失函数为：

式中，x代表预测值与真实值的差异。

有益效果：

本发明基于三维重建技术现存的问题，以深度学习为基础，提出了GCF-MVSNet网络。首先，对GRU模块进行改进，改进的GRU模块组合得到GC正则化网络，使用该正则化网络可以降低网络的计算量；然后，使用SmoothL1损失函数，提高模型训练后期的收敛精度；最后，使用Adam优化器，优化模型的损失和参数。通过在DTU公开数据集上测试验证，证实了GCF-MVSNet网络可以显著提高重建结果的质量，降低网络对内存的消耗。

附图说明

图1为二维卷积神经网络网络整体框图；

图2为GC正则化网络示意图；

图3为内存消耗及运行时间对比图；

图4为DTU数据集点云图可视化结果对比图；

图5为网络改进前后的对比；

图6损失函数与优化器改进前后对比。

具体实施方式

以下结合说明书附图更详细的说明本发明。

随着机器视觉的发展，深度学习在三维重建中的应用被广泛研究，MVS系列算法在多视图的重建中表现更出色，能够更好的还原初始模型。本发明选用Fast-MVSNet作为基础网络，改进后得到GCF-MVSNet网络，网络的整体框图，如图1所示，该网络包括特征提取网络、GC正则化网络以及深度图优化，特征提取网络采用了8层的二维卷积神经网络(2DCNN)构成的特征提取网络，其中，将第三层和第六层的步长设置为2，其余层的步长设置为1；并在除了最后一层外的每个卷积层后加有批归一化层(BN)和线性矫正单元(ReLu)。GC正则化网络以代价体作为输入，经过多组并联的正则化模块，输出正则化的代价体。每组正则化模块采用了三个改进后的GRU单元作为一个正则化模块，将上层的输出作为下层的输入。改进后的GRU单元为在GRU神经网络的基础上，分别在输入重置门之前和输出重置门和激活函数之间添加卷积层。深度图优化将稀疏深度图通过图像深度模型转换为稠密深度图，基于高斯—牛顿算法对稠密深度图进行优化，得到优化的稠密深度图。网络运行过程为将参考图像以及原图像经特征提取网络输出特征图，特征图经单应性变化得到代价体，对代价体采用GC正则化网络进行正则化，得到概率体；对概率体采用soft argmin操作，恢复为稀疏的深度图，采用变体的联合双边上采样方法对稀疏的深度图进行稠密化，将稠密化的深度图经高斯-牛顿算法优化，得到优化的深度图；采用优化的深度图完成对原物体的重建。具体如下：

本发明提出一种基于GCF-MVSNet网络的多视图三维重建方法，如图1所示，其具体步骤为：

采用8层的二维卷积神经网络对数据集内的图像进行特征提取，输出N个特征图；

特征提取过程旨在将1个输入的参考图像与N-1个原图像经特征提取网络变换后，输出N个32通道的特征图，每个输出的特征图尺寸为原图像的1/4。采用了8层的二维卷积神经网络(2DCNN)构成的特征提取网络，其中，将第三层和第六层的步长设置为2，其余层的步长设置为1。并在除了最后一层外的每个卷积层后加有批归一化层(BN)和线性矫正单元(ReLu)，用于减少网络参数对数据的影响，得到分布稳定的数据，使提取的特征更大限度的接近于原图像特征，从而使得网络的重建结果更贴合物体本身。

特征提取网络结构，见下表：

表中：ConvBnReLU(输入通道数，输出通道数，卷积核大小，步长，填充)。

随着研究的深入，神经网络的多种变形网络应运而生，不仅改进了原本网络的弊端，也提升了网络的性能。常用的神经网络可划分为卷积神经网络(CNN)和循环神经网络(RNN)两大类，本发明对传统的GRU神经网络作出改进，组合后得到了GC正则化网络，GC正则化模块包括三个改进后的GRU单元，改进后的GRU单元包括更新门、重置门和卷积门，相比于基础的Fast-MVSNet网络中使用的3DCNN正则化网络，降低计算量的同时，更好的保留特征。这样不仅能够解决噪声对重建的影响，也会大大降低计算量，达到减小内存消耗的目的。

GRU神经网络是LSTM的一种变体，属于循环神经网络，主要部分为更新门和重置门。R_t代表重置门，Z_t代表更新门，H_t代表传递到下一时刻的隐藏状态，X_t表示输入，代表候选隐藏状态，σ表示sigmoid函数，每个状态的更新如式(1)-(4)所示。W_R、W_Z、/>的参数更新方式与神经网络相同。

R_t＝σ(W_R·[H_t-1,X_t]) (13)

Z_t＝σ(W_Z·[H_t-1,X_t]) (14)

正则化过程就是对代价体进行深度处理，得到一个概率体。MVSNet网络正则化使用了传统的三维卷积神经网络，对大小为1/4H×1/4W×N×F(N为深度平面数，F为特征通道数)的三维成本量进行正则化处理，该过程中将会进行大量的计算，也是导致网络内存消耗严重的原因之一。通过对目前常用的神经网络以及正则化方法研究后，本发明提出了一种可以改善上述问题的GC正则化网络。

如图2所示，GC正则化网络以代价体作为输入，经过多组并联的正则化模块，输出正则化的代价体。每组正则化模块采用了三个改进后的GRU单元作为一个正则化模块，将上层的输出作为下层的输入。多个正则化模块并联组合到一起，形成了GC正则化网络。改进后的GRU单元为在GRU神经网络的基础上，分别在输入重置门之前和输出重置门和激活函数之间添加卷积层，输入重置门之前添加卷积层，实现对成本量的映射；输出重置门和激活函数之间添加卷积层，更好的保留特征。

代价体构建：将N张32通道的W/4×H/4特征图依次经过单应性变换、聚合，得到1/8H×1/8W×N×F(N表示深度平面，F表示特征通道)的代价体。

正则化网络：

输入32通道的代价体，由Conv2d(32，32，3，1，1)卷积层转换为16通道，堆叠的三个GRU模块的通道分别设为16、4、1，每个重置门经Conv2d(32，32，3，1，1)卷积层和tanh激活函数，最后输出概率体。

由于代价体正则化过程中需要把上下文信息间的关系以及通道间的关联性考虑进来，本发明提出在传统的GRU模块中加入卷积门(卷积层)，这样不仅能够实现对成本量的映射，也使代价体的特征尽可能的保留下来，卷积门对图像进行下采样，降低运算。在使用过程中，仅仅一个GRU单元并不能很好的实现网络的正则化，所以该网络中，代价体作为输入，经过多组并联的正则化模块，输出正则化的代价体，即为概率体。采用GC正则化网络能够在纵向上实现上下文信息较好的提取，在横向上可实现实时更新与重置。这不仅能够达到对代价体正则化的效果，也减少了正则化过程中的计算量，有效提升了网络的记忆能力，提高重建的完整度。

本发明使用的基础网络采用了由粗到细推断策略，提高了深度图的优化质量，更好的还原了物体的图像特征。正则化后得到一个概率体，经soft argmin处理可恢复为一个稀疏的高分辨率深度图。若使用稀疏的高分辨率深度图进行优化和重建，难以高度还原出原图像，所以需获得更稠密的深度图，再进行下一步操作。获得稠密深度图最简单的方式是采用最近邻的方法，但是此方法没有考虑到原始图像对深度图的影响，可能会获取不到边界信息。

对步骤二得到的概率体经soft argmin得到稀疏深度图；采用变体的联合双边上采样方法对得到的稀疏深度图进行稠密化，此过程中主要通过公式(5)的图像深度模型实现；

图像深度模型：

其中，代表的是稠密深度图，D(q)代表的是稀疏深度图，ω_p,q代表网络的权重，此权重通过网络的学习即可得到。

采用了高斯—牛顿算法(Gauss-Newton算法)对步骤三得到的深度图进行优化；

虽然这种获得深度图的方式能够大幅度减少内存和成本的消耗，但是采用稠密深度图进行重建，精度远远不够。所以对深度图还需进行再优化，出于对重建结果质量的考量，本发明采用高斯—牛顿算法对深度图进一步优化，过程如下：

参考图像上的点为p，p在第i张原图像上对应的投影点为p′_i，p′_i由公式(6)得到。

式中分别表示对应图像的相机内参、旋转矩阵和平移向量。稠密深度图预测出的深度为D(p)，优化过程主要是求误差(7)最小化的过程。

式中F_i为原图像的深度特征图，F₀为参考图像的深度特征图。像素点在每个原图像中的残差为r_i(p)，即原图像与参考图像的深度特征图的差值，由式(8)得到。

r_i(p)＝F_i(p′_i)-F₀(p) (20)

J_i(p)表示每个残差对求一阶偏导数的结果，由公式(9)得到。

雅可比矩阵残差向量/>通过式(10)可得到当前深度值的增量值δ。

δ＝-(J^TJ)^-1J^Tr (22)

最后，经优化后的深度图表达如下：

本发明中GCF-MVSNet网络的损失函数采用SmoothL1损失函数。

经典的Fast-MVSNet网络利用估计深度图和真实深度图的均值的绝对差(L1)作为损失函数，L1损失函数使用简单，但会造成模型震荡，收敛困难等问题。重建过程中需进行平面、空间以及地面真实坐标间转换，因此，本发明参考目标检测领域，提出使用SmoothL1损失函数作为重建过程中的损失函数，如下式所示。

式中，x代表预测值与真实值的差异。SmoothL1损失函数不仅能够衡量位置损失，也能够优化原网络训练后期学习率不变时，收敛精度低的问题，提高重建质量。

实施例1实验结果与分析

1.1 DTU数据集

本发明实验使用了DTU公开数据集，DTU数据集中包括了124个不同的场景，每个场景中捕获了49个或者64个不同相机位置的图片，每个位置的图片由7种不同光照亮度组成，数据集提供了由精确的结构光扫描仪扫描的物体模型和高分辨率的RGB图像，以及包括由Matlab标定工具得到的高精度相机内参和外参。由于本网络是由粗到细的网络，在对网络进行测试过程中采取修正后的DTU测试集。

本发明使用三个评估指标对测试结果进行评估，分别为精确度(Accuracy，Acc.)、完整度(Completeness，Comp.)和总体评分(Overall，OA.)。其中，精确度用来评估重建点云相对真值点云在空间中的位置准确性，完整度反映的是重建点云相对于真值点云的完整性，总体评分是对点云重建的总体评估。评估过程中，数值越小代表网络性能越高。公式(13)为精确度计算公式，R代表重构点云集合，G代表真值点云集合：

其中，e_r→G表示重构点云上一点r(r∈R)到真值点云的欧式距离，由公式(14)得到：

完整度的计算由公式(15)得到：

其中，e_g→R表示Ground Truth点云上一点g(g∈G)到重构点云的欧式距离，由公式(16)得到：

总体评价(Overall)的计算如公式(17)，是精确度和完整度的平均值：

1.2优化器的选择

Fast-MVSNet网络的优化器使用了RMSProp，本发明提出使用SmoothL1作为损失函数，为配合网络达到更好的效果，优化器采用了Adam。Adam优化器是在RMSProp基础上做出梯度加权平均和偏差纠正的改进，随着梯度变得稀疏，Adam优化器的效果更胜一筹。因此，使用Adam优化器不仅能够优化模型的损失和参数，也能够提高网络模型的鲁棒性。

1.3实验配置

本发明实验使用配置为：GPU选用NVIDIA GeForce GTX 3080Ti，操作系统选用Ubuntu18.04，深度学习框架为Pytorch 1.8.1，CUDA 11.1，cuDNN 8.0.5。

实验设置：训练使用的输入图片分辨率为640×512，使用Adam优化器，初始学习率设置为化0.001，深度平面选为D＝48，在显卡上进行了16次的训练，选用分辨率为1280×960的图片作为测试集的输入。

1.4结果分析

为验证本发明提出的网络在重建结果整体上均有提高，使改进后的网络模型与Gipuma、MVSNet、R-MVSNet、CVP-MVSNet、PointMVSNet、Fast-MVSNet和Vis-MVSNet在DTU数据集上进行精确性、完整性以及模型整体性能的比较，如表1所示为实验结果对比。

表1 DTU数据集实验结果对比表(数值越小越好)

根据表1数据可知，Gipuma模型在精确性上最好，本发明出的网络模型在重建结果完整性上优于Gipuma、MVSNet、R-MVSNet、PointMVSNet、Fast-MVSNet和Vis-MVSNet几个网络模型。在完整度上，本文提出的网络相比Gipuma、MVSNet、R-MVSNet、PointMVSNet、Fast-MVSNe分别提高了1.44倍、0.60倍、0.28倍、0.15倍、0.15倍、0.13倍；对于模型总体评分误差，本发明提出的网络比Gipuma、MVSNet、R-MVSNet、PointMVSNet、Fast-MVSNe和Vis-MVSNet分别降低了63.7％、30.8％、19.5％、6.5％、4.8％、3.4％，从实验结果可看出，本发明提出的GCF-MVSNet网络整体性能优于其他网络模型。

本发明还根据网络在DTU数据集上对显卡内存的消耗情况以及运行的时间进行对比，对比结果如图3所示。消耗的内存越小，运行时间越短，说明网络越好。

依据图3中展示的MVS网络在DTU数据集上重建过程对内存消耗以及运行时间的比较情况，可发现本发明提出的改进网络在内存消耗上有明显的降低，这就使得网络对算力的需求降低，减少了网络使用时对设备的局限性，更具有实际的应用价值。

如图4所示的即为本发明网络与原始图像、MVSNet网络在DTU数据集上的点云可视化结果对比图。

对比原始图像以及MVSNet重建的结果图，可直观的看出本发明提出的网络在完整度上有很大的提升。除此之外，本发明网络重建的结果在精确度上也比MVSNet有所改进。由于数据集中含有建筑、雕塑、食物等等几类物体，在图像获取时可能会发生建筑上玻璃光反射或是物体的颜色辨识度低、特征不够明显的现象，这些现象将会导致网络对物体特征的识别不全面，大大降低重建的结果，但本发明提出的改进网络采用原始网络中由粗到细的方式获取深度图，并配合使用SmoothL1损失函数和Adam优化器，使得网络的精度提高，输出高分辨率的深度图，保证物体的特征获取的更完全，提高重建的完整性。实验证明，本发明提出的改进网络能够使重建结果更完整，与原始图像的契合度更高。

实施例2消融实验

为了进一步验证本发明提出的GC正则化网络的有效性，将使用3DCNN正则化的网络与本发明的GC正则化网络在DTU数据集上进行实验对比，实验结果如图5所示。

原网络使用了3DCNN进行正则化，改进后的网络中使用了本发明提出的GC正则化网络。根据图5对比结果可以发现，使用改进后的正则化网络进行三维重建，能够明显降低对内存的消耗，运行的时间也有所减少。通过对比数据可以证实，提出的GC正则化网络能够有效的提升网络性能。

实施例3网络损失函数与优化器改进前后的对比实验

本发明还进行了网络损失函数与优化器改进前后的对比实验，通过数据验证改进的价值，实验结果数据如图6所示。分别对损失函数与优化器改进前后的网络进行了实验评估，采用完整性指标(Comp)和整体评价指标(Overall)作为对比依据。图6中可以明显的看出，改进了损失函数和优化器的网络，完整性评价指标和网络整体性评价指标的数值均减小，说明提出的改进部分能够提升网络重建的完整性。这也证实了提出改进的网络具有更好的性能，能使物体的重建结果与原图像的贴合度较高。

结论

由于现阶段多视图三维重建网络存在着边缘缺失、特征提取不完全、重建结果模糊以及网络内存消耗大等缺陷，本发明在基础的Fast-MVSNet网络上提出了GCF-MVSNet多视图三维重建网络。使用GC代价体正则化网络，解决了原始网络中使用3DCNN对代价体进行正则化时产生的计算量较大、设备内存消耗严重的问题。为使本发明提出的GCF-MVSNet多视图三维重建网络具有更高的使用价值，提高网络的重建完整度，提出了使用SmoothL1损失函数，使网络在训练后期收敛到更高的精度。使用Adam优化器配合改进的网络，提高了网络的鲁棒性和泛化能力。实验结果表明，本发明提出的网络在内存消耗上明显低于其他网络，在重建结果的完整度上也具有一定的优势，总体评分也高于经典的MVSNet网络。在研究过程中发现，每种MVS网络都具有自己适用性较高的领域，这就使得网络应用起来较为麻烦，下一步会针对提高网络的泛化能力进行挖掘与研究，并通过优化改进网络模型来让其适用于更多领域的三维重建，让研究成果具备更好的泛化性，从而让其适用价值更高。

Claims

1.一种基于GCF-MVSNet网络的多视图三维重建方法，其特征在于：步骤为：

2.根据权利要求1所述的基于GCF-MVSNet网络的多视图三维重建方法，其特征在于：

步骤一中所述卷积神经网络采用8层的二维卷积神经网络，将第三层和第六层的步长设置为2，其余层的步长设置为1。

3.根据权利要求1所述的基于GCF-MVSNet网络的多视图三维重建方法，其特征在于：步骤二中GC正则化网络以代价体作为输入，经过多组并联的正则化模块，输出正则化的代价体。

4.根据权利要求3所述的基于GCF-MVSNet网络的多视图三维重建方法，其特征在于：

每组正则化模块采用了三个串联的改进后的GRU单元，将上层的输出作为下层的输入，在GRU神经网络的基础上进行改进，分别在输入重置门之前和输出重置门和激活函数之间添加卷积层。

5.根据权利要求1所述的基于GCF-MVSNet网络的多视图三维重建方法，其特征在于：

步骤三中所述图像深度模型为：

6.根据权利要求1所述的基于GCF-MVSNet网络的多视图三维重建方法，其特征在于：

步骤四中所述高斯—牛顿算法的步骤为：

r_i(p)＝F_i(p_i′)-F₀(p) (3)

J_i(p)表示每个残差对求一阶偏导数的结果，由公式(9)得到，

δ＝-(J^TJ)^-1J^Tr (5)

最后，经优化后的深度图表达如下：

7.根据权利要求1所述的基于GCF-MVSNet网络的多视图三维重建方法，其特征在于：所述GCF-MVSNet网络的损失函数为：

式中，x代表预测值与真实值的差异。