CN109993825B

CN109993825B - 一种基于深度学习的三维重建方法

Info

Publication number: CN109993825B
Application number: CN201910179121.XA
Authority: CN
Inventors: 孔德慧; 刘彩霞; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2023-06-20
Anticipated expiration: 2039-03-11
Also published as: CN109993825A; US11450066B2; US20200294309A1

Abstract

公开一种基于深度学习的三维重建方法，该方法包括：(1)将输入图像被约束的潜在向量重建出目标完整三维形状，学习部分和完整三维形状之间的映射，然后实现单幅深度图像的三维重建；(2)学习三维真实对象与重建对象之间的中间特征表示，从而获得步骤(1)中的目标潜在变量；(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值，完成高精度重建。

Description

一种基于深度学习的三维重建方法

技术领域

本发明涉及计算机视觉和三维重建的技术领域，尤其涉及一种基于深度学习的三维重建方法。

背景技术

基于视觉的三维重建是从视觉传感器获取的图像恢复对象的三维信息(形状，纹理等)的计算过程和技术。精确的三维重建对于许多应用至关重要，如文物修复、机器人抓取和自动避障等。目前传统的三维重建方法存在一定局限性，包括：需要精确校准的相机和高质量的视觉成像元件；重建过程包含图像预处理、点云配准、数据融合等多个步骤，易导致误差累积，降低重建精度；且难以重建出感知对象被遮挡或发生信息丢失部分的形状。这些缺陷导致传统方法的重建结果质量较低，使得它们在实践中不能被广泛应用，因此，基于视觉的高精度三维重建问题具有很大的挑战性。

近年来，深度学习的快速发展和大量三维几何模型数据库的公布，为高精度三维重建方法带来了新思路。目前较为多见的基于深度学习的方法利用深度生成模型，如生成对抗网络(Generative Adversarial Networks，GAN)，自编码器(AutoEncoder，AE)和变分自动编码器(Variational AutoEncoder，VAE)，从单视角图像进行三维重建。这些方法的主体框架包括编码和解码两个阶段，在编码阶段将输入数据编码为潜在特征，在解码阶段将此特征解码生成完整三维形状。基于GAN的重建方法采用随机噪声作为输入，通过判别器与生成器的对抗来保证重建精度，但由于随机噪声不能反映重建对象的先验信息，导致重建结果不具有特异性；而基于AE的重建方法仅将生成器的重建损失极小视为优化目标而没有考虑判别器的对抗性损失，使得重建结果受限于已知的输入信息而难以扩展出未知部分。自然地，将AE类方法保持的先验信息和GAN类方法具有的判别性相结合，即将AE的解码器设置为GAN的生成器，可以同时克服以上两类方法的缺陷。然而，这种基于GAN和AE融合的方法虽然改进了重建精度，但是不能完全恢复被遮挡和缺失的区域，并且会产生噪声，这在模型的跨类别重建过程中更为明显。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供一种基于深度学习的三维重建方法，其不需要人工设计复杂的特征算法，能够避免复杂的相机校准及精细的流程设计，并具备通过学习“所见”拓展“所知”，重建“所未知”的能力，可以弥补传统重建方法“所知即所见”的内在缺陷，使其不仅能够将输入的深度信息可以高度保真，还能够准确预测对象的缺失部分，从而实现高精度三维重建。

本发明的技术方案是：这种基于深度学习的三维重建方法，该方法包括以下步骤：

(1)将输入图像被约束的潜在向量重建出目标完整三维形状，学习部分和完整三维形状之间的映射，然后实现单幅深度图像的三维重建；

(2)学习三维真实对象与重建对象之间的中间特征表示，从而获得步骤(1)中的目标潜在变量；

(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值，完成高精度重建。

本发明利用深度神经网络进行了高性能的特征提取、避免了人工设计的多环节误差积累；通过学习三维形状的潜在信息约束了输入图像，使缺失部分能够准确预测；将预测的三维形状进行了深度投影一致性约束，使输入的信息可以高度保真；利用空间局部模式分类器将预测的三维形状进行了二值化重建，实现了高精度三维重建；因此模型不需要人工设计复杂的特征算法，也避免了复杂的相机校准及精细的流程设计，并具备了通过学习“所见”拓展“所知”，重建“所未知”的能力，弥补了传统重建方法“所知即所见”的内在缺陷，实验表明，基于三维GAN-LFPC模型的重建结果不仅能够重建对象未知的部分，同时还能避免噪声的引入，其定性及定量评价指标均优于目前主流重建算法。

附图说明

图1示出了根据本发明的基于深度学习的三维重建方法的框架，图1a是训练框架，图1b是测试框架。

图2示出了根据本发明的基于深度学习的三维重建方法的网络结构设计。

图3示出了根据本发明的基于深度学习的三维重建方法的流程图。

具体实施方式

如图3所示，这种基于深度学习的三维重建方法，该方法包括以下步骤：

优选地，所述步骤(1)包括以下分步骤：

(1.1)三维GAN重建和判别约束的实现；

(1.2)潜在特征一致性约束的实现；

(1.3)深度投影一致性约束的实现。

优选地，所述步骤(1.1)采用改进的Wasserstein GAN进行训练；

对于生成器，目标函数L_g通过公式(1)获得：

L_g＝η(-βy_tlog(y_p)-(1-β)(1-y_t)log(1-y_p))-(1-η)E[D(y_p|x)] (1)

其中，x为深度图像转化后的三维体素值，y_p是网络生成的三维对象值，实验中β被设置为0.85，η被设置为5；

对于判别器，通过缩小真实对和生成对之间的Wasserstein距离来训练，其目标函数L_d为公式(2)：

其中，

λ用来优化梯度惩罚和原始目标之间的权衡。

优选地，所述步骤(1.2)利用学习到的三维真实对象的潜在特征向量信息约束输入图像的潜在向量，以指导模型生成目标三维形状数据，使缺失部分能够准确预测，其损失函数L_l为公式(3)：

L_l＝E(Z_t)-E(Z_p) (3)

其中，Z_t是三维真实对象学习到的潜在向量，Z_p是单幅深度图像学习到的潜在向量，E(·)表示期望。

优选地，所述步骤(1.3)在预测的三维形状和输入的深度图像之间进行了投影约束，投影后的深度值与输入的深度值保持一致，提高输入信息的保真度，以便模型对生成的三维形状进行微调,其损失函数L_project为公式(4)：

其中，y_p(x,y,z)表示预测的三维形状y_p在位置(x,y,z)处的值，

y_p(x,y,z)∈{0,1}，d_x,y是输入图像x在位置(x,y)处的深度值。

优选地，所述步骤(2)采用一个具有跳跃连接的三维深度卷积AE，编码器的特征层会被相应地连接到解码器。

优选地，所述步骤(2)中网络结构包括编码器和解码器：编码器有四个三维卷积层，每个卷积层有一组4×4×4的滤波器，滑动步幅为1×1×1，接着是一个ReLU激活函数和一个最大池化层；然后有两个完全连接层，其中第二个完全连接层是学习到的潜在向量；解码器由四个对称的反卷积层组成，除最后一层使用Sigmoid激活函数外，其它反卷积层都使用ReLU激活函数，整个计算流程为：64³(1)→32³(64)→16³(128)→8³(256)→4³(512)→32768→5000→32768→4³(512)→8³(256)→16³(128)→32³(64)→64³(1)。

优选地，所述步骤(2)通过使预测的三维形状尽可能接近真实的三维形状来优化网络参数，其目标函数L_t为公式(5)：

L_t＝-αy_tlog(y_t')-(1-α)(1-y_t)log(1-y_t') (5)

其中，y_t是真实三维对象的体素值，y_t'是网络重构的三维对象的体素值，使用交叉熵来衡量重建的质量，对于每个对象的大多数体素网格是空值的情况，使用权重α对假阳性和假阴性样本进行了平衡，实验中α被设置为0.85。

优选地，所述步骤(3)利用ELM分类器思想对生成器输出的体素集合进行非线性二值化重建。

优选地，所述步骤(3)中网络有三层：输入层，隐藏层和输出层，输入是对象的每个体素网格的特征，提取了每个体素网格周围邻域的值作为特征值，建立了7维的特征向量，通过多次实验确定隐藏层节点的数量为11，输出是判断每个体素的标签是0还是1；

如果激励函数在任何实数区间内无限可微，则网络逼近任何非线性函数，分类器损失函数L_c为公式(6)：

其中，

是二值化重建后每个体素网格的值，/>

是真实对象的每个体素网格的值。

以下更详细地说明本发明。

本发明提出的三维GAN-LFPC模型由三个部分组成：1)三维GAN，将输入图像被约束的潜在向量重建出目标完整三维形状；2)三维深度卷积AE，学习三维真实对象与重建对象之间的中间特征表示，从而获得1)中的目标潜在变量；3)空间局部模式分类器，利用极限学习机(Extreme Learning Machine,ELM)将1)中预测的体素浮动值变换为二进制值，完成高精度重建。三维GAN-LFPC的训练和测试框架如图1所示，其网络结构设计如图2所示。

1)三维GAN：该部分主要是学习部分和完整三维形状之间的映射，然后实现单幅深度图像的三维重建。该部分的创新点主要有两点，其一是我们对输入图像的潜在特征向量进行了一致性约束，以便引导三维GAN能够准确预测出三维形状的缺失部分，其二是我们对预测的三维形状进行了深度投影一致性约束，以便提高输入信息的保真度，实现高精度的三维重建。该部分采用了基于三维深度卷积AE的三维GAN网络结构。

该部分的网络结构主要有三维生成器和三维判别器，如图2的三维GAN部分所示。其具体设计为：生成器的编码部分有四个三维卷积层，每个卷积层有一组4×4×4的滤波器，滑动步幅为1×1×1，接着是一个ReLU激活函数和一个最大池化层；然后有两个完全连接层；解码部分由四个对称的反卷积层组成，除最后一层使用Sigmoid激活函数外，其它反卷积层都使用ReLU激活函数，整个计算流程为：64³(1)→32³(64)→16³(128)→8³(256)→4³(512)→32768→5000→32768→4³(512)→8³(256)→16³(128)→32³(64)→64³(1)，其中括号内是卷积核的个数，即通道数。对于判别器，本发明将真实对和预测对输入其中，其网络结构是由四个三维卷积层组成的编码器，每个卷积层有一组4×4×4的滤波器，滑动步幅为2×2×2，接着是ReLU激活函数。然后有一个全连接层，最后采用了Sigmoid激活函数，整个计算流程为：64³(2)→32³(64)→16³(128)→8³(256)→4³(512)→32768。

该部分的损失函数主要有三维生成器损失L_g，三维判别器损失L_d，潜在特征损失L_l，深度投影损失L_depth。各部分细节详述如下。

i.三维GAN重建和判别约束的实现

鉴于原始GAN训练中梯度容易消失，网络难以收敛的问题，本发明采用了改进的Wasserstein GAN进行训练。对于生成器，本发明组合了AE和GAN的重建损失作为目标函数L_g：

L_g＝η(-βy_tlog(y_p)-(1-β)(1-y_t)log(1-y_p))-(1-η)E[D(y_p|x)] (1)

其中，x为深度图像转化后的三维体素值，y_p是网络生成的三维对象值，实验中β被设置为0.85，η被设置为5。

对于判别器，本发明通过缩小真实对和生成对之间的Wasserstein距离来训练，其目标函数L_d为：

其中，

λ用来优化梯度惩罚和原始目标之间的权衡。

ii.潜在特征一致性约束的实现

在无条件生成模型中，我们无法控制网络能够生成所需要的目标模型。对于三维重建来说，它的结果是通过潜在特征向量解码获得，其精度取决于潜在向量学习的好坏。事实上，一个好的潜在向量应该不仅能够重建三维对象而且可以从2D图像预测。因此，本发明创新地利用学习到的三维真实对象的潜在特征向量信息约束输入图像的潜在向量，以指导模型生成目标三维形状数据，使缺失部分能够准确预测。其损失函数L_l为：

L_l＝E(Z_t)-E(Z_p) (3)

iii.深度投影一致性约束的实现

预测的三维形状应该与二维视图保持一致，这对利用深度学习进行三维重建的训练具有直观的帮助。因此，在预测的三维形状和输入的深度图像之间进行了投影约束，即投影后的深度值与输入的深度值保持一致，提高输入信息的保真度，以便模型对生成的三维形状进行微调,其损失函数L_project为：

其中，y_p(x,y,z)表示预测的三维形状y_p在位置(x,y,z)处的值，y_p(x,y,z)∈{0,1}，d_x,y是输入图像x在位置(x,y)处的深度值。

2)三维深度卷积AE：该部分为了获得Z_t，利用AE图像生成的思想，学习了三维真实对象的一种好的潜在空间表示，即确保Z_t能够准确的包含完整的三维形状信息。本发明采用了一个具有跳跃连接的三维深度卷积AE，即编码器的特征层会被相应地连接到解码器，其中跳跃连接保证了单幅深度图像局部特征的传播，为学习合理的完整三维对象形状提供了更全面的信息。

该部分的网络结构主要有编码器和解码器，如图2的三维深度卷积AE部分所示。其具体设计为：编码器有四个三维卷积层，每个卷积层有一组4×4×4的滤波器，滑动步幅为1×1×1，接着是一个ReLU激活函数和一个最大池化层；然后有两个完全连接层，其中第二个完全连接层是学习到的潜在向量；解码器由四个对称的反卷积层组成，除最后一层使用Sigmoid激活函数外，其它反卷积层都使用ReLU激活函数。整个计算整个计算流程为：64³(1)→32³(64)→16³(128)→8³(256)→4³(512)→32768→5000→32768→4³(512)→8³(256)→16³(128)→32³(64)→64³(1)。

该部分通过使预测的三维形状尽可能接近真实的三维形状来优化网络参数，其目标函数L_t为：

L_t＝-αy_tlog(y_t')-(1-α)(1-y_t)log(1-y_t') (5)

其中，y_t是真实三维对象的体素值。y_t'是网络重构的三维对象的体素值。本发明使用交叉熵来衡量重建的质量。对于每个对象的大多数体素网格是空值的情况，本发明使用权重α对假阳性和假阴性样本进行了平衡，实验中α被设置为0.85。

3)非线性体素二值化：大多数文献采用线性分类器对生成器输出的三维体素进行二值化重建。然而，对应重建模型的体素空间二值化分类问题并不满足线性化约束。为充分利用来自训练集的先验信息并提升重建结果本发明利用ELM分类器思想对生成器输出的体素集合进行非线性二值化重建。这种基于学习的体素二值化重建方法，由于获取了来自训练集的对象先验知识而提升了对象缺失部分的预测精度。

该部分的网络有三层，输入层，隐藏层和输出层，如图2的二值化重建部分所示。输入是对象的每个体素网格的特征，本发明提取了每个体素网格周围邻域(上下左右，前后)的值作为特征值，建立了7维的特征向量，通过多次实验确定隐藏层节点的数量为11，输出是判断每个体素的标签是0还是1。

如果激励函数在任何实数区间内无限可微，则网络可以逼近任何非线性函数，分类器损失函数L_c：

其中，

是二值化重建后每个体素网格的值，/>

是真实对象的每个体素网格的值。

综上所述，本发明提出的三维GAN-LFPC包含三维GAN生成器损失(见公式(1))、判别器损失(见公式(2))、潜在特征损失(见公式(3)，(4))、深度投影损失(见公式(5))以及体素分类损失(见公式(6))，其模型优化都采用了Adam算法，优化顺序为(4)、(3)、(2)、(1)、(5)、(6)。

本发明使用公开的ModelNet数据库生成了训练和测试数据集。具体操作如下：对于每个CAD模型，本发明创建了一个虚拟深度相机，从125个不同的角度对其进行扫描，在每个俯仰角、偏航角和翻滚角方向均匀采样了5个视角。通过上述方式，本发明获得了深度图像和对应的完整三维形状，然后利用虚拟相机参数将深度图像和三维形状体素化为64×64×64尺寸的三维网格。每个三维体素网格被表示为二元张量：1表示体素被占用，0表示体素未被占用。

本发明使用了三维体素交并比(Intersection-over-Union,IoU)来评估三维重建的性能。IoU表示预测的三维体素网格与真实的体素网格之间的相似性，其定义如下：

其中，I()是指示符函数，(i,j,k)是三维体素网格的索引，(y_f)_ijk是在(i,j,k)体素处的预测值，y_ijk是(i,j,k)体素处的真实值。一个三维形状的IoU值在[0.1]取值，值越大重建效果越好。

本发明做了相关实验，将提出的三维GAN-LFPC与经典重建方法包括：泊松表面重建方法和Yang等人提出的基于三维-RecGAN框架的方法进行了比较。同时，为了验证本发明所提出的每个约束的有效性及性能，还提出了三维GAN-LFPC的两种简化版的重建模型三维GAN-LFC(只有潜在特征一致性约束)和三维GAN-PC(只有深度投影一致性约束)进行了对比实验。

(1)单类别对象重建的实验结果。在三个不同类别上分别进行了训练和测试，其网络配置相同，对比结果如表1所示。

表1

重建方法	椅子	高脚凳	马桶
				Possion	0.180	0.189	0.150
三维-RecGAN	0.219	0.196	0.195
				三维GAN-LFC	0.224	0.248	0.205
三维GAN-PC	0.319	0.269	0.202
				三维GAN-LFPC	0.358	0.380	0.279

(2)交叉类别实验。具体操作为：在第1组中，网络在椅子类别上训练，在凳子，马桶类别上进行测试；在第2组中，网络在凳子类别上训练，在椅子，马桶上类别进行测试；在第3组中，网络在马桶类别上进行训练，在椅子，凳子类别上进行测试。对比结果如表2所示。

表2

重建方法	第1组	第2组	第3组
				三维-RecGAN	0.254	0.217	0.130
三维GAN-LFC	0.285	0.234	0.177
				三维GAN-PC	0.292	0.269	0.206
三维GAN-LFPC	0.300	0.275	0.213

综上分析，本发明提出的三维GAN-LFPC优于传统的重建方法和基于深度学习的重建方法，即它在单幅深度图像的情况下，就能够以更高的精度恢复三维对象结构。三维GAN-LFPC在训练过程中通过学习三维真实对象的生成网络，优化了输入图像的潜在特征向量，为模型重建形状提供了方向。而且，三维GAN-LFPC用自编码器优化的潜在特征向量代替了GAN的随机输入，提高了模型的性能。此外，三维GAN-LFPC对预测的三维形状实施了深度投影一致性约束，避免了不相关噪声的产生，更好地捕获了对象表面的细节。最后，三维GAN-LFPC还利用非线性体素二值化进一步提升了重建质量。总而言之，本发明的模型能够更好地利用对象的先验知识，也就是说，它可以通过网络学习扩展“所见”，更好地重建出目标对象被遮挡和缺失的区域，更能够学习不同对象类之间几何特征的可变性和相关性。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于深度学习的三维重建方法，其特征在于：该方法包括以下步骤：

(2)学习三维真实对象与重建对象之间的中间特征表示，从而获得目标潜在变量；

(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值，完成高精度重建；

所述步骤(1)包括以下分步骤：

(1.1)三维GAN重建和判别约束的实现；

(1.2)潜在特征一致性约束的实现；

(1.3)深度投影一致性约束的实现；

所述步骤(1.1)采用改进的Wasserstein GAN进行训练；

对于生成器，目标函数L_g通过公式(1)获得：

L_g＝η(-βy_tlog(y_p)-(1-β)(1-y_t)log(1-y_p))-(1-η)Ε[D(y_p|x)] (1)

其中，

λ用来优化梯度惩罚和原始目标之间的权衡；

所述步骤(1.2)利用学习到的三维真实对象的潜在特征向量信息约束输入图像的潜在向量，以指导模型生成目标三维形状数据，使缺失部分能够准确预测，其损失函数L_l为公式(3)：

L_l＝Ε(Z_t)-Ε(Z_p) (3)

其中，Z_t是三维真实对象学习到的潜在向量，Z_p是单幅深度图像学习到的潜在向量，Ε(·)表示期望；

所述步骤(1.3)在预测的三维形状和输入的深度图像之间进行了投影约束，投影后的深度值与输入的深度值保持一致，提高输入信息的保真度，以便模型对生成的三维形状进行微调,其损失函数L_project为公式(4)：

2.根据权利要求1所述的基于深度学习的三维重建方法，其特征在于：所述步骤(2)采用一个具有跳跃连接的三维深度卷积AE，编码器的特征层会被相应地连接到解码器。

3.根据权利要求2所述的基于深度学习的三维重建方法，其特征在于：所述步骤(2)中网络结构包括编码器和解码器：编码器有四个三维卷积层，每个卷积层有一组4×4×4的滤波器，滑动步幅为1×1×1，接着是一个ReLU激活函数和一个最大池化层；然后有两个完全连接层，其中第二个完全连接层是学习到的潜在向量；解码器由四个对称的反卷积层组成，除最后一层使用Sigmoid激活函数外，其它反卷积层都使用ReLU激活函数，整个计算流程为：64³(1)→32³(64)→16³(128)→8³(256)→4³(512)→32768→5000→32768→4³(512)→8³(256)→16³(128)→32³(64)→64³(1)。

4.根据权利要求3所述的基于深度学习的三维重建方法，其特征在于：所述步骤(2)通过使预测的三维形状尽可能接近真实的三维形状来优化网络参数，其目标函数L_t为公式(5)：

L_t＝-αy_tlog(y′_t)-(1-α)(1-y_t)log(1-y′_t) (5)

其中，y_t是真实三维对象的体素值，y′_t是网络重构的三维对象的体素值，使用交叉熵来衡量重建的质量，对于每个对象的大多数体素网格是空值的情况，使用权重α对假阳性和假阴性样本进行了平衡，实验中α被设置为0.85。

5.根据权利要求1所述的基于深度学习的三维重建方法，其特征在于：所述步骤(3)利用ELM分类器思想对生成器输出的体素集合进行非线性二值化重建。

6.根据权利要求5所述的基于深度学习的三维重建方法，其特征在于：所述步骤(3)中网络有三层：输入层，隐藏层和输出层，输入是对象的每个体素网格的特征，提取了每个体素网格周围邻域的值作为特征值，建立了7维的特征向量，通过多次实验确定隐藏层节点的数量为11，输出是判断每个体素的标签是0还是1；

其中，

是二值化重建后每个体素网格的值，/>

是真实对象的每个体素网格的值。