CN115205447A

CN115205447A - 一种多视图P2VNet网络的三维重建方法

Info

Publication number: CN115205447A
Application number: CN202210640705.4A
Authority: CN
Inventors: 喻钧; 尹文彬; 刘亚彬; 马龙; 姚红革
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-10-18

Abstract

本发明涉及一种多视图P2VNet网络的三维重建方法。传统的多视图三维重建通过使用复杂的设备对物体的二维特征进行采集，使用算法对物体进行三维特征恢复，算法计算量较大、实时性差、且易受环境等因素干扰导致三维重建精度不稳定。本发明首先重新设计了编码网络和解码网络，可以更好实现二维特征到三维特征端到端的映射；其次使用3DFocal Loss作为模型的损失函数，从而解决网格中整体空间分布不均衡问题和部分网格占用较难划分的问题；最后提出一种多视图自适应融合网络，把不同视图生成的三维特征进行融合，并对融合后的特征使用自适应特征感知网络生成最终的体素。本发明的P2VNet网络目标重建的平均准确率达到68.2％，它比3D‑R2N2的平均准确率高9.5％，比Pix2Vox‑A的平均准确率高1.5％。

Description

一种多视图P2VNet网络的三维重建方法

技术领域

本发明涉及三维重建技术领域，具体涉及一种多视图P2VNet网络的三维重建方法。

背景技术

3D重建是机器人、CAD、虚拟现实和增强现实中的一个重要问题。传统方法，如来自运动的结构SfM和同时定位和映射SLAM，在进行跨视图匹配图像特征时，难以建立特征对应关系。

为了解决上述问题，近年来，学者们提出了几种基于深度学习的三维重建网络。例如，3D-R2N2、Pix2Vox、PSGN等网络实现了单视图或者多视图的3D体素重建。

上述网络中，PSGN不能稳健地由单张图像重建出完整的高质量形状，使得结果精确度较低。其次，3D-R2N2使用的递归神经网络存在长期记忆丧失的问题，当按照不同顺序输入同一组图像时，网络无法估计出一致的3D体素。同时，由于LSTM网络参数量大，因而时间损耗严重。为了解决上述重建网络中存在的问题，Xie等人提出了Pix2Vox。首先，Pix2Vox网络是由多个并行的“编码器-解码器”块组成，每个块从输入的视图预测一个粗略的体积网格，从而消除了输入图像顺序的影响；其次，上下文感知融合模块从粗略的3D体素中选择高质量特征进行重建，并且融合生成一个精细的3D体素。但是，在从二维图像生成三维体素的过程中，不能直接体现特征的端到端映射；同时，由于上下文融合模块只使用大小为3×3的感受野进行上下文特征感知，使得单视图重建后的目标边缘效果较差，导致多视图融合后的边缘效果也较差。

发明内容

有鉴于此，本发明为解决现有技术计算量大，实时性差，且容易受环境因素影响精度的问题，提供一种多视图P2VNet网络的三维重建方法。

为实现上述目的，本发明采用的技术方案为：一种多视图P2VNet网络的三维重建方法，其特征在于：步骤为：

Step1：数据集的构建

采集多个目标的二维图像数据，对于同一目标，使用CAD软件计算出该目标的三维体素特征，把所有的二维图像和相应的三维体素特征按照3:1的比例划分为训练集和测试集，并转化为深度模型需要的输入数据；

Step2：通过编码模块对训练集和测试集中的二维图像进行特征提取，生成不同尺度的2D特征图；

Step3：深度估计模块将多个二维特征融合生成三维特征

通过把Step2提取的2D特征当作前层特征，使用Sigmoid生成2D特征空间概率，再使用残差网络对前层特征进行深度感知，然后把深度感知特征与特征空间概率相乘得到后层特征，最后把前后层特征拼接生成最终的3D特征；

Step4：解码模块将深度估计模块生成的三维特征通过3D解码网络生成粗糙的三维体素；

Step5：利用多尺度上下文特征感知模块进行多视图融合，将不同角度下的2D视图重建结果进行融合，丰富最终的3D体素特征，进而生成精确的重建效果；

Step6：对训练集重复执行步骤Step2～Step5的训练，直至整个模型收敛；

Step7：保存步骤Step6训练后所获得的多视图三维重建模型，并对测试集中的二维图像进行三维重建测试，生成相应的三维体素模型。

上述步骤Step2的具体方法为：

编码模块对步骤1训练集和测试集中的二维图像进行特征提取，2D特征提取使用ResNet50网络的卷积模块对256×256×3大小的图像进行提取，得到128×32²、256×16²、512×8²、1024×4²、1024×2²大小的特征图。

上述的步骤Step3的具体方法为：

深度估计的计算过程如公式(1)、(2)所示

F′_i＝D(F_i)×S(F_i)(i＝1,2,...m) (1)

其中m为总通道数，F′_i表示第i个后层的二维特征，D(F_i)表示第i个深度感知二维特征，S(F_i)表示第i个特征的二维空间概率；

M_i＝F_i+F′_i(i＝1,2,...m) (2)

其中F′_i表示第i个深度估计的二维特征，F′_i表示第i个融合二维特征，M_i表示第i个特征的三维空间概率。

上述步骤Step4的具体方法为：

解码模块将步骤Step3生成的三维基本单元组通过3D特征升维网络与3D特征感知网络生成粗糙的三维体素：

(1)3D特征升维网络

3D特征生成网络是由4个上采样网络组成，其中上采样块是由3D反卷积网络进行3D特征升维，再通过Reshape把深度估计生成的三维特征依次转化为3D特征，最后使用3D卷积网络把编码网络生成的3D特征与升维特征进行融合；

(2)3D特征感知网络

完成3D特征升维后，首先使用感知网络把生成的3D特征调整为正视图下生成的3D特征，该感知网络使用卷积核为1×1的3D卷积，并在后面使用批处理归一化和Leaky ReLU激活，进行3次深度感知生成的3D特征，再把每次感知的特征在通道上融合，然后对融合后特征使用2个3D卷积网络使得特征通道变化为8和1，选择最优的通道特征；第一个卷积网络由卷积核为3³、填充为1的3D卷积，三维批处理归一化和ReLU激活函数组成；第二个卷积网络由卷积核为3³、填充为1的3D卷积，3D批处理归一化和Sigmoid激活函数组成。

上述步骤Step5的具体方法为：

(1)对每个视图生成的粗糙3D体素均通过4个多尺度特征感知块；

(2)然后把4个特征感知块的特征在通道维度上相加；

(3)再使用一个三维卷积网络对每个视图的感知特征进行提取，并对提取的特征使用SoftMax把概率归一化；

(4)每个视图生成的粗糙体素与该视图的上下文感知概率相乘，生成每个视图的上下文感知空间概率；

(5)对所有视图的上下文感知空间概率进行相加，得到多视图融合的3D体素特征。

上述步骤Step6的具体方法为：

利用训练集数据对多视图目标的三维重建模型进行训练，在训练时使用FocalLoss损失函数作为损失函数，Focal Loss通过改进交叉熵函数，在交叉熵损失中增加类别权重和样本难度权重调因子(1-pt)γ，Focal Loss损失函数如公式(3)所示：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (3)

其中，当y＝1表示体素网格被占位，此时αt的权重为α；y＝0表示体素网格未被占位，α_t的权重为1-α，通过α_t优化体素占比不平衡的问题；样本难度权重调因子p_t，当y＝1时，把p_t权值设置为p，当y＝0时，把p_t权值设置为1-p，最终通过(1-p_t)γ的组合因子，调节体素中难以区分是否被占用的网格，其中α和γ均根据先验知识和实验结果逐渐调整，最终设定适合该模型的参数值；

通过上述对y为1和0情况对αt以及p_t权值设置情况得到3DFocal Loss具体情况下的公式，如公式(4)所示

上述步骤7的具体步骤为：

在训练过程中保存平均准确率较高的模型权重，训练完毕后，将训练好的模型参数进行保存，当使用测试集进行三维重建时，直接使用已训练的模型生成三维体素，得到每类模型的平均准确率和整个测试集的平均准确率。

与现有技术相比，本发明具有如下优点和效果：

1)本发明给出的深度估计的计算过程中，引入了深度估计网络结构，通过把提取的2D特征当作前层特征，对前层特征使用Sigmoid生成2D特征空间概率，再使用残差网络对前层特征进行深度感知，提出了公式(1)、(2)；与现有的深度估计方法比，可以实现2D特征到3D特征更加流畅的转换；且相比于3D-R2N2通过LSTM把二维特征生成三维特征，参数量更少，运算速度快。

2)本发明采用上下文多尺度感知融合模块增加了更多的感受野，从而生成更丰富的上下文感知特征，当目标边缘难以重建时，利用不同感受野融合特征，可以更好地选择得分较高的3D体素，从而提升最终的融合效果。P2VNet三视图目标重建的平均准确率达到0.712。它比3D-R2N2和Pix2Vox-A的平均准确率分别高9.5％和1.5％。

3)本发明在ShapeNet数据集上的实验结果表明，所提出的方法在准确性方面优于现有方法，同时，该算法在重建不可见的三维物体时具有较强的泛化能力。

附图说明

图1为本发明提供的模型整体结构图；

图2为本发明提供的模型的编码器结构图；

图3为本发明提供的模型的解码器结构图；

图4为本发明提供的模型深度感知模块图；

图5为本发明提供的模型的多尺度上下文感知模块图；

图6为本发明提供的部分模型的重建结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明方法原理为：首先，在编码器中加入多个前后层深度估计模块，实现从多个尺寸的2D特征生成相应的3D特征；其次，本发明在多视图特征融合网络中，使用多尺寸感受野，从而实现了更高质量的3D特征重建。

本实施例提供一种多视图P2VNet网络的三维重建方法，包括4个模块，分别是编码模块、深度估计模块、解码模块和多尺度上下文感知模块。具体的网络结构如图1所示，包括以下步骤：

步骤1、数据集的构建

采集多个目标的二维图像数据，对于同一目标，使用CAD软件计算出该目标的三维体素特征，把所有的二维图像和相应的三维体素特征按照3:1的比例划分为训练集、测试集，并转化为深度模型需要的输入数据。

本实施例中，通过向编码网络中输入同一目标的不同角度二维RGB图像，对图像做预处理操作，把图像像素变化为128×128，并通过预设参数将其转化为3×128×128大小的张量，得到训练集和测试集。

步骤2、编码模块如图2所示，对步骤1训练集和测试集中的二维图像进行特征提取，2D特征提取使用卷积块对256×256×3大小的图像进行提取，得到256×16²、512×8²、1024×4²、1024×2²大小的特征图；

本实施例中，特征提取层使用ResNet50的前三个残差卷积模块把256×256×3的图像提取为512×32²的2D特征；其次使用卷积核为1²的2D卷积进行通道提取，生成128×32²的2D特征图；然后使用4个卷积网络使特征提取为256×16²、512×8²、1024×4²、1024×2²大小的特征图，每个卷积网络使用卷积核为3²，填充为1的二维卷积层，后面加入批处理归一化、ReLu激活和下采样倍数为2的MaxPooling层，这就实现把256×256×3的二维图像提取为128×32²、256×16²、512×8²、1024×4²、1024×2²大小的特征图。

步骤3、利用深度估计网络将多个二维特征融合生成三维特征

通过把步骤2提取的2D特征当作前层特征，使用Sigmoid生成2D特征空间概率，再使用残差网络对前层特征进行深度感知，然后把深度感知特征与特征空间概率相乘得到后层特征，最后把前后层特征拼接生成最终的3D特征。

步骤3中的深度估计模块结构图如图4所示，具体实施：

深度估计的计算过程如，如公式(1)、(2)所示

F′_i＝D(F_i)×S(F_i)(i＝1,2,...m) (1)

其中m为总通道数，F′_i表示第i个后层的二维特征，D(F_i)表示第i个深度感知二维特征，S(F_i)表示第i个特征的二维空间概率。

M_i＝F_i+F′_i(i＝1,2,...m) (2)

其中F′_i表示第i个深度估计的二维特征，F_i表示第i个融合二维特征，M_i表示第i个特征的三维空间概率。

步骤4、解码模块将Step3生成的三维基本单元组通过3D解码网络生成粗糙的三维体素，具体结构如图3所示，具体来说，通过3D特征升维网络与3D特征感知网络操作：

(1)3D特征升维网络

3D特征生成网络是由4个上采样网络组成，上采样网络先使用反卷积网络进行3D特征升维，再通过Reshape把深度估计生成的三维特征依次转化为4³、8³、16³、32³的3D特征，最后使用3D卷积网络把编码网络生成的3D特征与升维特征进行融合。若实现大小为643体素特征，需要5个上采样网络，把三维特征从23升维到4³、8³、16³、32³，64³。

(2)3D特征感知网络

完成3D特征升维后，首先使用感知网络把生成的3D特征调整为正视图下生成的3D特征，该感知网络使用卷积核为1×1的3D卷积，并在后面使用批处理归一化和Leaky ReLU激活，进行3次深度感知，分别生成8×32³、8×32³、8×32³的3D特征，再把每次感知的特征在通道上融合生成32×32³的特征。然后对融合后特征使用2个3D卷积网络使得特征通道变化为8和1，选择最优的通道特征。第一个卷积网络由卷积核为3³、填充为1的3D卷积，三维批处理归一化和ReLU激活函数组成；第二个卷积网络由卷积核为3³、填充为1的3D卷积，3D批处理归一化和Sigmoid激活函数组成。

步骤5、利用上下文特征感知模块，其结构如图5所示，进行多视图融合，将不同角度下的2D视图重建结果进行融合，丰富最终的3D体素特征，进而生成精确的重建效果。具体为：

(2)然后把4个特征感知块的特征在通道维度上相加；

Step6：对训练集重复执行步骤Step2～Step5的训练，直至整个模型收敛，具体为：利用训练集数据对多视图目标的三维重建模型进行训练，模型训练参数如表3所示。

在训练时使用Focal Loss损失函数作为损失函数，可以解决目标体素占比不平衡的问题，Focal Loss通过改进交叉熵函数，在交叉熵损失中增加类别权重和样本难度权重调因子(1-pt)γ。Focal Loss损失函数如公式(3)所示：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (3)

其中，当y＝1表示体素网格被占位，此时αt的权重为α；y＝0表示体素网格未被占位，α_t的权重为1-α，通过α_t可以更好优化体素占比不平衡的问题。然后是样本难度权重调因子p_t，当y＝1时，把p_t权值设置为p，当y＝0时，把p_t权值设置为1-p，最终通过(1-p_t)γ的组合因子，调节体素中难以区分是否被占用的网格。其中α和γ均根据先验知识和实验结果逐渐调整，最终设定适合该模型的参数值。

通过上述对y为1和0情况对αt以及p_t权值设置情况我们可以得到3DFocal Loss具体情况下的公式，如公式(4)所示。

Step7：把准确率最好的训练参数进行保存，用于测试集的验证。模型训练参数如表1所示。

表1模型训练参数表

在训练过程中保存平均准确率较高的模型权重，训练完毕后，将训练好的模型参数进行保存，当使用测试集进行三维重建时，直接使用已训练的模型生成三维体素，得到每类模型的平均准确率和整个测试集的平均准确率。重建结果如图6所示，重建后的准确率如表2所示。

表2模型与3D-R2N2、Pix2Vox-A平均IoU对比

可以看出本发明的深度学习模型可以较好的重建出目标的大致轮廓。对所有的数据集进行测试，得到模型的最终平均准确率0.667，并与3D-R2N2和pix2Vox-A进行比较，最终结果如表2所示。可以看出通过表2可以看出，本文模型平均准确率最高，比Pix2Vox-A高0.6％。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。