CN109993825B - 一种基于深度学习的三维重建方法 - Google Patents

一种基于深度学习的三维重建方法 Download PDF

Info

Publication number
CN109993825B
CN109993825B CN201910179121.XA CN201910179121A CN109993825B CN 109993825 B CN109993825 B CN 109993825B CN 201910179121 A CN201910179121 A CN 201910179121A CN 109993825 B CN109993825 B CN 109993825B
Authority
CN
China
Prior art keywords
dimensional
reconstruction
voxel
dimensional shape
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910179121.XA
Other languages
English (en)
Other versions
CN109993825A (zh
Inventor
孔德慧
刘彩霞
王少帆
李敬华
王立春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910179121.XA priority Critical patent/CN109993825B/zh
Publication of CN109993825A publication Critical patent/CN109993825A/zh
Priority to US16/808,395 priority patent/US11450066B2/en
Application granted granted Critical
Publication of CN109993825B publication Critical patent/CN109993825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

公开一种基于深度学习的三维重建方法,该方法包括:(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。

Description

一种基于深度学习的三维重建方法
技术领域
本发明涉及计算机视觉和三维重建的技术领域,尤其涉及一种基于深度学习的三维重建方法。
背景技术
基于视觉的三维重建是从视觉传感器获取的图像恢复对象的三维信息(形状,纹理等)的计算过程和技术。精确的三维重建对于许多应用至关重要,如文物修复、机器人抓取和自动避障等。目前传统的三维重建方法存在一定局限性,包括:需要精确校准的相机和高质量的视觉成像元件;重建过程包含图像预处理、点云配准、数据融合等多个步骤,易导致误差累积,降低重建精度;且难以重建出感知对象被遮挡或发生信息丢失部分的形状。这些缺陷导致传统方法的重建结果质量较低,使得它们在实践中不能被广泛应用,因此,基于视觉的高精度三维重建问题具有很大的挑战性。
近年来,深度学习的快速发展和大量三维几何模型数据库的公布,为高精度三维重建方法带来了新思路。目前较为多见的基于深度学习的方法利用深度生成模型,如生成对抗网络(Generative Adversarial Networks,GAN),自编码器(AutoEncoder,AE)和变分自动编码器(Variational AutoEncoder,VAE),从单视角图像进行三维重建。这些方法的主体框架包括编码和解码两个阶段,在编码阶段将输入数据编码为潜在特征,在解码阶段将此特征解码生成完整三维形状。基于GAN的重建方法采用随机噪声作为输入,通过判别器与生成器的对抗来保证重建精度,但由于随机噪声不能反映重建对象的先验信息,导致重建结果不具有特异性;而基于AE的重建方法仅将生成器的重建损失极小视为优化目标而没有考虑判别器的对抗性损失,使得重建结果受限于已知的输入信息而难以扩展出未知部分。自然地,将AE类方法保持的先验信息和GAN类方法具有的判别性相结合,即将AE的解码器设置为GAN的生成器,可以同时克服以上两类方法的缺陷。然而,这种基于GAN和AE融合的方法虽然改进了重建精度,但是不能完全恢复被遮挡和缺失的区域,并且会产生噪声,这在模型的跨类别重建过程中更为明显。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供一种基于深度学习的三维重建方法,其不需要人工设计复杂的特征算法,能够避免复杂的相机校准及精细的流程设计,并具备通过学习“所见”拓展“所知”,重建“所未知”的能力,可以弥补传统重建方法“所知即所见”的内在缺陷,使其不仅能够将输入的深度信息可以高度保真,还能够准确预测对象的缺失部分,从而实现高精度三维重建。
本发明的技术方案是:这种基于深度学习的三维重建方法,该方法包括以下步骤:
(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;
(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;
(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。
本发明利用深度神经网络进行了高性能的特征提取、避免了人工设计的多环节误差积累;通过学习三维形状的潜在信息约束了输入图像,使缺失部分能够准确预测;将预测的三维形状进行了深度投影一致性约束,使输入的信息可以高度保真;利用空间局部模式分类器将预测的三维形状进行了二值化重建,实现了高精度三维重建;因此模型不需要人工设计复杂的特征算法,也避免了复杂的相机校准及精细的流程设计,并具备了通过学习“所见”拓展“所知”,重建“所未知”的能力,弥补了传统重建方法“所知即所见”的内在缺陷,实验表明,基于三维GAN-LFPC模型的重建结果不仅能够重建对象未知的部分,同时还能避免噪声的引入,其定性及定量评价指标均优于目前主流重建算法。
附图说明
图1示出了根据本发明的基于深度学习的三维重建方法的框架,图1a是训练框架,图1b是测试框架。
图2示出了根据本发明的基于深度学习的三维重建方法的网络结构设计。
图3示出了根据本发明的基于深度学习的三维重建方法的流程图。
具体实施方式
如图3所示,这种基于深度学习的三维重建方法,该方法包括以下步骤:
(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;
(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;
(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。
本发明利用深度神经网络进行了高性能的特征提取、避免了人工设计的多环节误差积累;通过学习三维形状的潜在信息约束了输入图像,使缺失部分能够准确预测;将预测的三维形状进行了深度投影一致性约束,使输入的信息可以高度保真;利用空间局部模式分类器将预测的三维形状进行了二值化重建,实现了高精度三维重建;因此模型不需要人工设计复杂的特征算法,也避免了复杂的相机校准及精细的流程设计,并具备了通过学习“所见”拓展“所知”,重建“所未知”的能力,弥补了传统重建方法“所知即所见”的内在缺陷,实验表明,基于三维GAN-LFPC模型的重建结果不仅能够重建对象未知的部分,同时还能避免噪声的引入,其定性及定量评价指标均优于目前主流重建算法。
优选地,所述步骤(1)包括以下分步骤:
(1.1)三维GAN重建和判别约束的实现;
(1.2)潜在特征一致性约束的实现;
(1.3)深度投影一致性约束的实现。
优选地,所述步骤(1.1)采用改进的Wasserstein GAN进行训练;
对于生成器,目标函数Lg通过公式(1)获得:
Lg=η(-βytlog(yp)-(1-β)(1-yt)log(1-yp))-(1-η)E[D(yp|x)] (1)
其中,x为深度图像转化后的三维体素值,yp是网络生成的三维对象值,实验中β被设置为0.85,η被设置为5;
对于判别器,通过缩小真实对和生成对之间的Wasserstein距离来训练,其目标函数Ld为公式(2):
Figure BDA0001990659820000041
其中,
Figure BDA0001990659820000042
λ用来优化梯度惩罚和原始目标之间的权衡。
优选地,所述步骤(1.2)利用学习到的三维真实对象的潜在特征向量信息约束输入图像的潜在向量,以指导模型生成目标三维形状数据,使缺失部分能够准确预测,其损失函数Ll为公式(3):
Ll=E(Zt)-E(Zp) (3)
其中,Zt是三维真实对象学习到的潜在向量,Zp是单幅深度图像学习到的潜在向量,E(·)表示期望。
优选地,所述步骤(1.3)在预测的三维形状和输入的深度图像之间进行了投影约束,投影后的深度值与输入的深度值保持一致,提高输入信息的保真度,以便模型对生成的三维形状进行微调,其损失函数Lproject为公式(4):
Figure BDA0001990659820000051
其中,yp(x,y,z)表示预测的三维形状yp在位置(x,y,z)处的值,
yp(x,y,z)∈{0,1},dx,y是输入图像x在位置(x,y)处的深度值。
优选地,所述步骤(2)采用一个具有跳跃连接的三维深度卷积AE,编码器的特征层会被相应地连接到解码器。
优选地,所述步骤(2)中网络结构包括编码器和解码器:编码器有四个三维卷积层,每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层;然后有两个完全连接层,其中第二个完全连接层是学习到的潜在向量;解码器由四个对称的反卷积层组成,除最后一层使用Sigmoid激活函数外,其它反卷积层都使用ReLU激活函数,整个计算流程为:643(1)→323(64)→163(128)→83(256)→43(512)→32768→5000→32768→43(512)→83(256)→163(128)→323(64)→643(1)。
优选地,所述步骤(2)通过使预测的三维形状尽可能接近真实的三维形状来优化网络参数,其目标函数Lt为公式(5):
Lt=-αytlog(yt')-(1-α)(1-yt)log(1-yt') (5)
其中,yt是真实三维对象的体素值,yt'是网络重构的三维对象的体素值,使用交叉熵来衡量重建的质量,对于每个对象的大多数体素网格是空值的情况,使用权重α对假阳性和假阴性样本进行了平衡,实验中α被设置为0.85。
优选地,所述步骤(3)利用ELM分类器思想对生成器输出的体素集合进行非线性二值化重建。
优选地,所述步骤(3)中网络有三层:输入层,隐藏层和输出层,输入是对象的每个体素网格的特征,提取了每个体素网格周围邻域的值作为特征值,建立了7维的特征向量,通过多次实验确定隐藏层节点的数量为11,输出是判断每个体素的标签是0还是1;
如果激励函数在任何实数区间内无限可微,则网络逼近任何非线性函数,分类器损失函数Lc为公式(6):
Figure BDA0001990659820000061
其中,
Figure BDA0001990659820000062
是二值化重建后每个体素网格的值,/>
Figure BDA0001990659820000063
是真实对象的每个体素网格的值。
以下更详细地说明本发明。
本发明提出的三维GAN-LFPC模型由三个部分组成:1)三维GAN,将输入图像被约束的潜在向量重建出目标完整三维形状;2)三维深度卷积AE,学习三维真实对象与重建对象之间的中间特征表示,从而获得1)中的目标潜在变量;3)空间局部模式分类器,利用极限学习机(Extreme Learning Machine,ELM)将1)中预测的体素浮动值变换为二进制值,完成高精度重建。三维GAN-LFPC的训练和测试框架如图1所示,其网络结构设计如图2所示。
1)三维GAN:该部分主要是学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建。该部分的创新点主要有两点,其一是我们对输入图像的潜在特征向量进行了一致性约束,以便引导三维GAN能够准确预测出三维形状的缺失部分,其二是我们对预测的三维形状进行了深度投影一致性约束,以便提高输入信息的保真度,实现高精度的三维重建。该部分采用了基于三维深度卷积AE的三维GAN网络结构。
该部分的网络结构主要有三维生成器和三维判别器,如图2的三维GAN部分所示。其具体设计为:生成器的编码部分有四个三维卷积层,每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层;然后有两个完全连接层;解码部分由四个对称的反卷积层组成,除最后一层使用Sigmoid激活函数外,其它反卷积层都使用ReLU激活函数,整个计算流程为:643(1)→323(64)→163(128)→83(256)→43(512)→32768→5000→32768→43(512)→83(256)→163(128)→323(64)→643(1),其中括号内是卷积核的个数,即通道数。对于判别器,本发明将真实对和预测对输入其中,其网络结构是由四个三维卷积层组成的编码器,每个卷积层有一组4×4×4的滤波器,滑动步幅为2×2×2,接着是ReLU激活函数。然后有一个全连接层,最后采用了Sigmoid激活函数,整个计算流程为:643(2)→323(64)→163(128)→83(256)→43(512)→32768。
该部分的损失函数主要有三维生成器损失Lg,三维判别器损失Ld,潜在特征损失Ll,深度投影损失Ldepth。各部分细节详述如下。
i.三维GAN重建和判别约束的实现
鉴于原始GAN训练中梯度容易消失,网络难以收敛的问题,本发明采用了改进的Wasserstein GAN进行训练。对于生成器,本发明组合了AE和GAN的重建损失作为目标函数Lg
Lg=η(-βytlog(yp)-(1-β)(1-yt)log(1-yp))-(1-η)E[D(yp|x)] (1)
其中,x为深度图像转化后的三维体素值,yp是网络生成的三维对象值,实验中β被设置为0.85,η被设置为5。
对于判别器,本发明通过缩小真实对和生成对之间的Wasserstein距离来训练,其目标函数Ld为:
Figure BDA0001990659820000081
其中,
Figure BDA0001990659820000082
λ用来优化梯度惩罚和原始目标之间的权衡。
ii.潜在特征一致性约束的实现
在无条件生成模型中,我们无法控制网络能够生成所需要的目标模型。对于三维重建来说,它的结果是通过潜在特征向量解码获得,其精度取决于潜在向量学习的好坏。事实上,一个好的潜在向量应该不仅能够重建三维对象而且可以从2D图像预测。因此,本发明创新地利用学习到的三维真实对象的潜在特征向量信息约束输入图像的潜在向量,以指导模型生成目标三维形状数据,使缺失部分能够准确预测。其损失函数Ll为:
Ll=E(Zt)-E(Zp) (3)
其中,Zt是三维真实对象学习到的潜在向量,Zp是单幅深度图像学习到的潜在向量,E(·)表示期望。
iii.深度投影一致性约束的实现
预测的三维形状应该与二维视图保持一致,这对利用深度学习进行三维重建的训练具有直观的帮助。因此,在预测的三维形状和输入的深度图像之间进行了投影约束,即投影后的深度值与输入的深度值保持一致,提高输入信息的保真度,以便模型对生成的三维形状进行微调,其损失函数Lproject为:
Figure BDA0001990659820000083
其中,yp(x,y,z)表示预测的三维形状yp在位置(x,y,z)处的值,yp(x,y,z)∈{0,1},dx,y是输入图像x在位置(x,y)处的深度值。
2)三维深度卷积AE:该部分为了获得Zt,利用AE图像生成的思想,学习了三维真实对象的一种好的潜在空间表示,即确保Zt能够准确的包含完整的三维形状信息。本发明采用了一个具有跳跃连接的三维深度卷积AE,即编码器的特征层会被相应地连接到解码器,其中跳跃连接保证了单幅深度图像局部特征的传播,为学习合理的完整三维对象形状提供了更全面的信息。
该部分的网络结构主要有编码器和解码器,如图2的三维深度卷积AE部分所示。其具体设计为:编码器有四个三维卷积层,每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层;然后有两个完全连接层,其中第二个完全连接层是学习到的潜在向量;解码器由四个对称的反卷积层组成,除最后一层使用Sigmoid激活函数外,其它反卷积层都使用ReLU激活函数。整个计算整个计算流程为:643(1)→323(64)→163(128)→83(256)→43(512)→32768→5000→32768→43(512)→83(256)→163(128)→323(64)→643(1)。
该部分通过使预测的三维形状尽可能接近真实的三维形状来优化网络参数,其目标函数Lt为:
Lt=-αytlog(yt')-(1-α)(1-yt)log(1-yt') (5)
其中,yt是真实三维对象的体素值。yt'是网络重构的三维对象的体素值。本发明使用交叉熵来衡量重建的质量。对于每个对象的大多数体素网格是空值的情况,本发明使用权重α对假阳性和假阴性样本进行了平衡,实验中α被设置为0.85。
3)非线性体素二值化:大多数文献采用线性分类器对生成器输出的三维体素进行二值化重建。然而,对应重建模型的体素空间二值化分类问题并不满足线性化约束。为充分利用来自训练集的先验信息并提升重建结果本发明利用ELM分类器思想对生成器输出的体素集合进行非线性二值化重建。这种基于学习的体素二值化重建方法,由于获取了来自训练集的对象先验知识而提升了对象缺失部分的预测精度。
该部分的网络有三层,输入层,隐藏层和输出层,如图2的二值化重建部分所示。输入是对象的每个体素网格的特征,本发明提取了每个体素网格周围邻域(上下左右,前后)的值作为特征值,建立了7维的特征向量,通过多次实验确定隐藏层节点的数量为11,输出是判断每个体素的标签是0还是1。
如果激励函数在任何实数区间内无限可微,则网络可以逼近任何非线性函数,分类器损失函数Lc
Figure BDA0001990659820000101
其中,
Figure BDA0001990659820000102
是二值化重建后每个体素网格的值,/>
Figure BDA0001990659820000103
是真实对象的每个体素网格的值。
综上所述,本发明提出的三维GAN-LFPC包含三维GAN生成器损失(见公式(1))、判别器损失(见公式(2))、潜在特征损失(见公式(3),(4))、深度投影损失(见公式(5))以及体素分类损失(见公式(6)),其模型优化都采用了Adam算法,优化顺序为(4)、(3)、(2)、(1)、(5)、(6)。
本发明使用公开的ModelNet数据库生成了训练和测试数据集。具体操作如下:对于每个CAD模型,本发明创建了一个虚拟深度相机,从125个不同的角度对其进行扫描,在每个俯仰角、偏航角和翻滚角方向均匀采样了5个视角。通过上述方式,本发明获得了深度图像和对应的完整三维形状,然后利用虚拟相机参数将深度图像和三维形状体素化为64×64×64尺寸的三维网格。每个三维体素网格被表示为二元张量:1表示体素被占用,0表示体素未被占用。
本发明使用了三维体素交并比(Intersection-over-Union,IoU)来评估三维重建的性能。IoU表示预测的三维体素网格与真实的体素网格之间的相似性,其定义如下:
Figure BDA0001990659820000111
其中,I()是指示符函数,(i,j,k)是三维体素网格的索引,(yf)ijk是在(i,j,k)体素处的预测值,yijk是(i,j,k)体素处的真实值。一个三维形状的IoU值在[0.1]取值,值越大重建效果越好。
本发明做了相关实验,将提出的三维GAN-LFPC与经典重建方法包括:泊松表面重建方法和Yang等人提出的基于三维-RecGAN框架的方法进行了比较。同时,为了验证本发明所提出的每个约束的有效性及性能,还提出了三维GAN-LFPC的两种简化版的重建模型三维GAN-LFC(只有潜在特征一致性约束)和三维GAN-PC(只有深度投影一致性约束)进行了对比实验。
(1)单类别对象重建的实验结果。在三个不同类别上分别进行了训练和测试,其网络配置相同,对比结果如表1所示。
表1
重建方法 椅子 高脚凳 马桶
Possion 0.180 0.189 0.150
三维-RecGAN 0.219 0.196 0.195
三维GAN-LFC 0.224 0.248 0.205
三维GAN-PC 0.319 0.269 0.202
三维GAN-LFPC 0.358 0.380 0.279
(2)交叉类别实验。具体操作为:在第1组中,网络在椅子类别上训练,在凳子,马桶类别上进行测试;在第2组中,网络在凳子类别上训练,在椅子,马桶上类别进行测试;在第3组中,网络在马桶类别上进行训练,在椅子,凳子类别上进行测试。对比结果如表2所示。
表2
重建方法 第1组 第2组 第3组
三维-RecGAN 0.254 0.217 0.130
三维GAN-LFC 0.285 0.234 0.177
三维GAN-PC 0.292 0.269 0.206
三维GAN-LFPC 0.300 0.275 0.213
综上分析,本发明提出的三维GAN-LFPC优于传统的重建方法和基于深度学习的重建方法,即它在单幅深度图像的情况下,就能够以更高的精度恢复三维对象结构。三维GAN-LFPC在训练过程中通过学习三维真实对象的生成网络,优化了输入图像的潜在特征向量,为模型重建形状提供了方向。而且,三维GAN-LFPC用自编码器优化的潜在特征向量代替了GAN的随机输入,提高了模型的性能。此外,三维GAN-LFPC对预测的三维形状实施了深度投影一致性约束,避免了不相关噪声的产生,更好地捕获了对象表面的细节。最后,三维GAN-LFPC还利用非线性体素二值化进一步提升了重建质量。总而言之,本发明的模型能够更好地利用对象的先验知识,也就是说,它可以通过网络学习扩展“所见”,更好地重建出目标对象被遮挡和缺失的区域,更能够学习不同对象类之间几何特征的可变性和相关性。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (6)

1.一种基于深度学习的三维重建方法,其特征在于:该方法包括以下步骤:
(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;
(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得目标潜在变量;
(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建;
所述步骤(1)包括以下分步骤:
(1.1)三维GAN重建和判别约束的实现;
(1.2)潜在特征一致性约束的实现;
(1.3)深度投影一致性约束的实现;
所述步骤(1.1)采用改进的Wasserstein GAN进行训练;
对于生成器,目标函数Lg通过公式(1)获得:
Lg=η(-βytlog(yp)-(1-β)(1-yt)log(1-yp))-(1-η)Ε[D(yp|x)] (1)
其中,x为深度图像转化后的三维体素值,yp是网络生成的三维对象值,实验中β被设置为0.85,η被设置为5;
对于判别器,通过缩小真实对和生成对之间的Wasserstein距离来训练,其目标函数Ld为公式(2):
Figure FDA0004102225630000011
其中,
Figure FDA0004102225630000012
λ用来优化梯度惩罚和原始目标之间的权衡;
所述步骤(1.2)利用学习到的三维真实对象的潜在特征向量信息约束输入图像的潜在向量,以指导模型生成目标三维形状数据,使缺失部分能够准确预测,其损失函数Ll为公式(3):
Ll=Ε(Zt)-Ε(Zp) (3)
其中,Zt是三维真实对象学习到的潜在向量,Zp是单幅深度图像学习到的潜在向量,Ε(·)表示期望;
所述步骤(1.3)在预测的三维形状和输入的深度图像之间进行了投影约束,投影后的深度值与输入的深度值保持一致,提高输入信息的保真度,以便模型对生成的三维形状进行微调,其损失函数Lproject为公式(4):
Figure FDA0004102225630000021
其中,yp(x,y,z)表示预测的三维形状yp在位置(x,y,z)处的值,yp(x,y,z)∈{0,1},dx,y是输入图像x在位置(x,y)处的深度值。
2.根据权利要求1所述的基于深度学习的三维重建方法,其特征在于:所述步骤(2)采用一个具有跳跃连接的三维深度卷积AE,编码器的特征层会被相应地连接到解码器。
3.根据权利要求2所述的基于深度学习的三维重建方法,其特征在于:所述步骤(2)中网络结构包括编码器和解码器:编码器有四个三维卷积层,每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层;然后有两个完全连接层,其中第二个完全连接层是学习到的潜在向量;解码器由四个对称的反卷积层组成,除最后一层使用Sigmoid激活函数外,其它反卷积层都使用ReLU激活函数,整个计算流程为:643(1)→323(64)→163(128)→83(256)→43(512)→32768→5000→32768→43(512)→83(256)→163(128)→323(64)→643(1)。
4.根据权利要求3所述的基于深度学习的三维重建方法,其特征在于:所述步骤(2)通过使预测的三维形状尽可能接近真实的三维形状来优化网络参数,其目标函数Lt为公式(5):
Lt=-αytlog(y′t)-(1-α)(1-yt)log(1-y′t) (5)
其中,yt是真实三维对象的体素值,y′t是网络重构的三维对象的体素值,使用交叉熵来衡量重建的质量,对于每个对象的大多数体素网格是空值的情况,使用权重α对假阳性和假阴性样本进行了平衡,实验中α被设置为0.85。
5.根据权利要求1所述的基于深度学习的三维重建方法,其特征在于:所述步骤(3)利用ELM分类器思想对生成器输出的体素集合进行非线性二值化重建。
6.根据权利要求5所述的基于深度学习的三维重建方法,其特征在于:所述步骤(3)中网络有三层:输入层,隐藏层和输出层,输入是对象的每个体素网格的特征,提取了每个体素网格周围邻域的值作为特征值,建立了7维的特征向量,通过多次实验确定隐藏层节点的数量为11,输出是判断每个体素的标签是0还是1;
如果激励函数在任何实数区间内无限可微,则网络逼近任何非线性函数,分类器损失函数Lc为公式(6):
Figure FDA0004102225630000031
其中,
Figure FDA0004102225630000032
是二值化重建后每个体素网格的值,/>
Figure FDA0004102225630000033
是真实对象的每个体素网格的值。
CN201910179121.XA 2019-03-11 2019-03-11 一种基于深度学习的三维重建方法 Active CN109993825B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910179121.XA CN109993825B (zh) 2019-03-11 2019-03-11 一种基于深度学习的三维重建方法
US16/808,395 US11450066B2 (en) 2019-03-11 2020-03-04 3D reconstruction method based on deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910179121.XA CN109993825B (zh) 2019-03-11 2019-03-11 一种基于深度学习的三维重建方法

Publications (2)

Publication Number Publication Date
CN109993825A CN109993825A (zh) 2019-07-09
CN109993825B true CN109993825B (zh) 2023-06-20

Family

ID=67129665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910179121.XA Active CN109993825B (zh) 2019-03-11 2019-03-11 一种基于深度学习的三维重建方法

Country Status (2)

Country Link
US (1) US11450066B2 (zh)
CN (1) CN109993825B (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3671660A1 (en) * 2018-12-20 2020-06-24 Dassault Systèmes Designing a 3d modeled object via user-interaction
US20220215511A1 (en) * 2019-04-29 2022-07-07 Deep Render Ltd System and method for lossy image and video compression and/or transmission utilizing a metanetwork or neural networks
CN110544297B (zh) * 2019-08-06 2023-06-20 北京工业大学 一种单幅图像的三维模型重建方法
CN110517352B (zh) * 2019-08-27 2022-06-03 电子科技大学 一种物体的三维重建方法、存储介质、终端及系统
CN110675488B (zh) * 2019-09-24 2023-02-28 电子科技大学 基于深度学习的创意三维体素模型的建模系统的构建方法
CN112634429B (zh) * 2019-10-09 2022-12-09 四川大学 基于混合深度生成模型的岩心三维图像重建方法
CN111091151B (zh) * 2019-12-17 2021-11-05 大连理工大学 用于目标检测数据增强的生成对抗网络的构建方法
CN111899328B (zh) * 2020-07-10 2022-08-09 西北工业大学 一种基于rgb数据与生成对抗网络的点云三维重建方法
US11763436B2 (en) * 2020-07-31 2023-09-19 Adobe, Inc. Facial reconstruction network
CN112395737A (zh) * 2020-10-09 2021-02-23 湖南工业大学 一种基于生成对抗网络高速列车量测数据缺失重建的方法
CN112414304B (zh) * 2020-11-18 2022-06-21 天津科技大学 基于激光光栅投射的焊后焊缝表面三维测量方法
CN112489218B (zh) * 2020-11-30 2024-03-19 江苏科技大学 一种基于半监督学习的单视图三维重建系统及其方法
CN112489168A (zh) * 2020-12-16 2021-03-12 中国科学院长春光学精密机械与物理研究所 一种图像数据集生成制作方法、装置、设备及存储介质
CN112634438A (zh) * 2020-12-24 2021-04-09 北京工业大学 基于对抗网络的单帧深度图像三维模型重建方法及装置
TWI792134B (zh) * 2020-12-30 2023-02-11 鴻海精密工業股份有限公司 圖像瑕疵檢測方法、裝置、電子設備及存儲介質
CN112560795B (zh) * 2020-12-30 2022-07-26 南昌航空大学 一种基于cn-gan与cnn的sar图像目标识别算法
CN112950494B (zh) * 2021-02-04 2022-09-30 华南理工大学 一种基于高动态范围的三维重建方法
CN112907730B (zh) * 2021-02-07 2023-03-14 北京理工大学 一种三维点云重建方法、装置和电子设备
CN113140033B (zh) * 2021-03-29 2022-10-04 北京航空航天大学 基于可微渲染的单张积云图像重建方法
CN113096239B (zh) * 2021-04-07 2022-07-19 天津大学 一种基于深度学习的三维点云重建方法
CN113034695B (zh) * 2021-04-16 2022-11-22 广东工业大学 一种基于Wasserstein距离的物体包络体多视图重建与优化方法
WO2022227073A1 (en) * 2021-04-30 2022-11-03 Google Llc Multiresolution deep implicit functions for three-dimensional shape representation
CN113139622B (zh) * 2021-05-14 2022-09-30 广西大学 一种基于大数据驱动的mf-ef-if制造系统特征提取方法
CN113435488B (zh) * 2021-06-17 2023-11-07 深圳大学 一种图像采样概率提升方法及其应用
CN113436314B (zh) * 2021-06-25 2022-10-04 北京理工大学 一种基于结构的计算机三维网格模型重建方法
CN113434918B (zh) * 2021-06-28 2022-12-02 北京理工大学 一种基于文本的三维体素模型生成方法
CN113628289B (zh) * 2021-07-21 2023-10-27 武汉大学 基于图卷积自编码器的高光谱影像非线性解混方法及系统
CN113476064B (zh) * 2021-07-23 2023-09-01 浙江大学 基于bcd-ed的单扫描双示踪剂pet信号分离方法
CN114445586B (zh) * 2021-07-30 2023-04-25 华东师范大学 一种基于生成对抗网络的三维仿生设计方法
CN113781324B (zh) * 2021-08-06 2023-09-29 天津大学 一种老照片修复方法
CN113706670B (zh) * 2021-08-17 2023-12-08 复旦大学 生成动态三维人体网格模型序列的方法及装置
CN113838064B (zh) * 2021-09-23 2023-12-22 哈尔滨工程大学 一种基于分支gan使用多时相遥感数据的云去除方法
CN114330514B (zh) * 2021-12-14 2024-04-05 深圳大学 一种基于深度特征与梯度信息的数据重建方法及系统
CN114494380A (zh) * 2022-04-18 2022-05-13 武汉大学 二进制形状上下文特征描述子构建方法及点云配准方法
CN114549768B (zh) * 2022-04-26 2022-07-22 苏州浪潮智能科技有限公司 一种三维重建效果检测方法、装置、设备及存储介质
CN115082616B (zh) * 2022-05-18 2023-05-12 北京大学深圳医院 一种基于深度学习的超声图像生成3d点云模型的方法
CN115270651B (zh) * 2022-06-20 2024-03-15 北京科技大学 一种面向单目视频的非牛顿流体仿真重建方法
CN115063542A (zh) * 2022-08-18 2022-09-16 江西科骏实业有限公司 一种几何不变量的预测和模型构建方法与系统
CN115661349B (zh) * 2022-10-26 2023-10-27 中国农业大学 基于样本图像的三维重建方法、系统、设备、介质及产品
CN116246039B (zh) * 2023-05-12 2023-07-14 中国空气动力研究与发展中心计算空气动力研究所 一种基于深度学习的三维流场网格分类分割方法
CN116363320B (zh) * 2023-06-01 2023-08-25 摩尔线程智能科技(北京)有限责任公司 重建模型的训练和三维模型重建方法、装置、设备及介质
CN116467570B (zh) * 2023-06-16 2023-09-05 西南交通大学 一种基于数据驱动的重载机车车钩摆角定量识别方法
CN116976011B (zh) * 2023-09-21 2023-12-15 中国空气动力研究与发展中心计算空气动力研究所 低高保真度气动数据特征关联深度复合网络模型及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305229A (zh) * 2018-01-29 2018-07-20 深圳市唯特视科技有限公司 一种基于深度学习轮廓网络的多视图重建方法
CN109255831A (zh) * 2018-09-21 2019-01-22 南京大学 基于多任务学习的单视图人脸三维重建及纹理生成的方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7486811B2 (en) * 1996-09-16 2009-02-03 The Research Foundation Of State University Of New York System and method for performing a three-dimensional virtual examination of objects, such as internal organs
US8131063B2 (en) * 2008-07-16 2012-03-06 Seiko Epson Corporation Model-based object image processing
EP3488413A4 (en) * 2016-07-22 2020-02-12 Université Laval SYSTEM AND METHOD FOR ESTIMATING SYNTHETIC QUANTITATIVE HEALTH VALUES FROM MEDICAL IMAGES
KR102631381B1 (ko) * 2016-11-07 2024-01-31 삼성전자주식회사 컨볼루션 신경망 처리 방법 및 장치
US10614557B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Digital image completion using deep learning
EP3477493A1 (en) * 2017-10-27 2019-05-01 Prowler.io Limited Machine learning system
US20200081912A1 (en) * 2018-04-17 2020-03-12 YesPlz, Inc. Identifying physical objects using visual search query
WO2019207524A1 (en) * 2018-04-25 2019-10-31 Seesure Single image completion from retrieved image collections
US11544591B2 (en) * 2018-08-21 2023-01-03 Google Llc Framework for a computing system that alters user behavior
US10826932B2 (en) * 2018-08-22 2020-11-03 General Electric Company Situation awareness and dynamic ensemble forecasting of abnormal behavior in cyber-physical system
KR20200052441A (ko) * 2018-10-29 2020-05-15 삼성전자주식회사 뉴럴 네트워크를 이용하여 3d 미세구조를 생성하는 방법 및 장치
TWI813820B (zh) * 2018-11-30 2023-09-01 大陸商上海耕岩智能科技有限公司 一種指紋重建方法與一種生物特徵分析方法、儲存介質及生物特徵分析神經網路程式產品
US10943352B2 (en) * 2018-12-17 2021-03-09 Palo Alto Research Center Incorporated Object shape regression using wasserstein distance
US20200202622A1 (en) * 2018-12-19 2020-06-25 Nvidia Corporation Mesh reconstruction using data-driven priors
JP7458405B2 (ja) * 2018-12-20 2024-03-29 パックサイズ リミティド ライアビリティ カンパニー 部分的視覚情報に基づく対象物寸法付けのためのシステムと方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305229A (zh) * 2018-01-29 2018-07-20 深圳市唯特视科技有限公司 一种基于深度学习轮廓网络的多视图重建方法
CN109255831A (zh) * 2018-09-21 2019-01-22 南京大学 基于多任务学习的单视图人脸三维重建及纹理生成的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3D Object Reconstruction from a Single Depth View with Adversarial Learning;Bo Yang 等;《2017 IEEE International Conference on Computer Vision Workshops (ICCVW)》;20180122;第679-688页 *
基于超限学习机2.5D-3D配准的脊椎手术导航;陈飞 等;《计算机仿真》;20171130;第34卷(第11期);第328-333页 *

Also Published As

Publication number Publication date
CN109993825A (zh) 2019-07-09
US11450066B2 (en) 2022-09-20
US20200294309A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
CN109993825B (zh) 一种基于深度学习的三维重建方法
Chen et al. Unpaired point cloud completion on real scans using adversarial training
Gao et al. SDM-NET: Deep generative network for structured deformable mesh
WO2021232687A1 (zh) 一种基于深度学习的点云上采样方法
CN110544297B (zh) 一种单幅图像的三维模型重建方法
Wu et al. 3d shapenets for 2.5 d object recognition and next-best-view prediction
CN110188836B (zh) 一种基于变分自编码器的脑功能网络分类方法
Wu et al. Point cloud super resolution with adversarial residual graph networks
Zeng et al. Pc-nbv: A point cloud based deep network for efficient next best view planning
Liu et al. TreePartNet: neural decomposition of point clouds for 3D tree reconstruction
Ganapathi-Subramanian et al. Parsing geometry using structure-aware shape templates
CN113693563B (zh) 一种基于超图注意力网络的脑功能网络分类方法
CN113361560B (zh) 一种基于语义的多姿势虚拟试衣方法
Zhao et al. DAR-Net: Dynamic aggregation network for semantic scene segmentation
Yang et al. Multiscale mesh deformation component analysis with attention-based autoencoders
Wang et al. CGNet: A Cascaded Generative Network for dense point cloud reconstruction from a single image
Zhao et al. Sharp feature consolidation from raw 3D point clouds via displacement learning
US20210150078A1 (en) Reconstructing an object
Hu et al. Learning structural graph layouts and 3D shapes for long span bridges 3D reconstruction
Alliegro et al. PolyDiff: Generating 3D Polygonal Meshes with Diffusion Models
Bai et al. BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling
CN114693873A (zh) 一种基于动态图卷积和注意力机制的点云补全方法
Tang et al. Prototype-aware heterogeneous task for point cloud completion
Notchenko et al. Scan2part: Fine-grained and hierarchical part-level understanding of real-world 3d scans
Tan et al. Active Learning of Neural Collision Handler for Complex 3D Mesh Deformations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant