CN110544297A - 一种单幅图像的三维模型重建方法 - Google Patents
一种单幅图像的三维模型重建方法 Download PDFInfo
- Publication number
- CN110544297A CN110544297A CN201910722716.5A CN201910722716A CN110544297A CN 110544297 A CN110544297 A CN 110544297A CN 201910722716 A CN201910722716 A CN 201910722716A CN 110544297 A CN110544297 A CN 110544297A
- Authority
- CN
- China
- Prior art keywords
- attention
- reconstruction
- feature
- discriminator
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
公开一种单幅图像的三维模型重建方法,其不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了通过学习所见拓展所知,重建所未知的能力;改进了预测不完整、噪声多,训练时间长的问题;不仅能够准确地重建图像,同时还能避免噪声的引入。该方法包括:(1)输入深度图像;(2)转换为2.5D体素网格;(3)在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,再将注意力的潜在变量解码生成3D重建形状;(4)在判别器部分,在3D重建形状上实施重构判别器,在可见部分形状上实施掩模判别器。
Description
技术领域
本发明涉及计算机视觉和计算机图形学的技术领域,尤其涉及一种单幅图像的三维模型重建方法。
背景技术
随着服务机器人、自主驾驶、虚拟现实和增强现实技术的发展,三维重建已成为计算机视觉领域的一个重要研究课题。传统重建方法存在一定的局限性,如运动恢复结构(Structure from Motion,SFM)、即时定位和地图构建(Simultaneous Localization andMapping,SLAM)等方法要求密集的视点图像,它们严重依赖于跨视图之间的特征匹配,重建过程涉及环节较多,导致误差累计,进而导致重建质量较低。近年来随着深度学习模型的迅速发展和大量3D几何模型数据库的公开,给传统的三维重建带来了新思路,其主要思想是希望通过设计的深度神经网络代替传统人工设计算法提取特征的方式,学习训练数据的先验知识,然后将其应用到测试数据,从而达到预定义的目标。由此可见将深度神经网络应用于三维重建,可以克服传统重建方法的一些局限。然而,深度神经网络的选择和设计对于3D形状的高效准确重建非常关键。
目前,最广泛应用于三维重建的网络模型形式是深度生成网络,如生成对抗网络(Generative Adversarial Network,GAN),自编码器(AutoEncoder,AE)和变分自动编码器(Variational AutoEncoder,VAE),它们在三维重建领域取得了显著进展。这些方法的主体框架包括编码和解码两个阶段,在编码阶段将输入数据编码为潜在特征,在解码阶段将此特征解码生成完整3D形状。基于GAN的重建方法采用随机噪声作为输入,通过判别器与生成器的对抗来保证重建精度,但由于随机噪声不能反映重建对象的先验信息,导致重建结果不具有特异性;而基于AE的重建方法仅将生成器的重建损失极小视为优化目标,而没有考虑能够度量重建结果与模型差异的判别器的对抗性损失,使得重建结果受限于已知的输入信息而难以准确预测出未知部分。
自然地,将AE类方法保持的先验信息和GAN类方法具有的判别性相结合,即将AE的解码器设置为GAN的生成器,可以同时克服以上两类方法的缺陷。然而,这种基于GAN和AE融合的方法虽然改进了重建精度,但还存在一定局限:
(1)这些方法仅利用特征图中的局部区域生成对象细节,却忽略了局部区域之间的相关性,从而阻碍了网络对被遮挡区域的学习和完整的恢复;
(2)这些方法在预测3D形状不可见部分时,不能保证可见部分的重建质量,从而导致生成的3D形状会出现很多不相关的噪声;
(3)这些方法网络框架中采用了传统的全连接层,导致网络产生大量参数,使得网络训练时间较长。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种单幅图像的三维模型重建方法,其不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了通过学习所见拓展所知,重建所未知的能力;改进了预测不完整、噪声多,训练时间长的问题;不仅能够准确地重建图像,同时还能避免噪声的引入。
本发明的技术方案是:这种单幅图像的三维模型重建方法,该方法包括以下步骤:
(1)输入深度图像;
(2)转换为2.5D体素网格;
(3)在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,再将注意力的潜在变量解码生成3D重建形状;
(4)在判别器部分,在3D重建形状上实施重构判别器,在可见部分形状上实施掩模判别器。
本发明是一种基于AE的GAN框架,它由两个主要网络组成:生成器和判别器,在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,最后将注意力的潜在变量解码生成3D重建形状,在判别器部分,分别在完整的3D形状和可见部分形状上实施了重构判别器和掩模判别器;因此不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了通过学习所见拓展所知,重建所未知的能力;改进了预测不完整、噪声多,训练时间长的问题;不仅能够准确地重建图像,同时还能避免噪声的引入。
附图说明
图1示出了根据本发明的单幅图像的三维模型重建方法的框架,图1a是训练框架,图1b是测试框架。
图2示出了根据本发明的单幅图像的三维模型重建方法的训练的详细流程。
图3示出了根据本发明的单幅图像的三维模型重建方法的AFCs的原理图。
图4示出了根据本发明的单幅图像的三维模型重建方法的流程图。
具体实施方式
如图4所示,这种单幅图像的三维模型重建方法,该方法包括以下步骤:
(1)输入深度图像;
(2)转换为2.5D体素网格;
(3)在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,再将注意力的潜在变量解码生成3D重建形状;
(4)在判别器部分,在3D重建形状上实施重构判别器,在可见部分形状上实施掩模判别器。
本发明是一种基于AE的GAN框架,它由两个主要网络组成:生成器和判别器,在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,最后将注意力的潜在变量解码生成3D重建形状,在判别器部分,分别在完整的3D形状和可见部分形状上实施了重构判别器和掩模判别器;因此不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了通过学习所见拓展所知,重建所未知的能力;改进了预测不完整、噪声多,训练时间长的问题;不仅能够准确地重建图像,同时还能避免噪声的引入。
优选地,所述步骤(3)中编码为:首先通过四个三维卷积层获得尺寸为4,通道数为512的特征图,其中每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层,四个卷积层的通道数分别为64,128,256,512。然后编码器将二维特征展平成为一个维数为32768的向量。
优选地,如图3所示,所述步骤(3)中利用注意力机制学习一个基于注意力的潜在向量通过基于注意力的全连接层(Attention Fully Connected Layers,AFCs)获得:
将编码后的特征X∈Rn×1划分为多个片段特征,然后每个片段特征
xi∈Rd×1(i=1,…,c)被转换为一个二维特征,接着将所有的二维特征x映射到两个新的特征空间f,g,从而计算其注意力图其中,
ajk=Fj TGk (2)
其中,Fj表示矩阵F的第j列,其每一列是特征向量fm中的第j个位置;Gk表示矩阵G的第k列,其每一列是特征向量gn中的第k个位置;sjk表示模型在合成第k个位置时对第j个位置的关注程度。
再次将所有的二维特征x映射到第3个新的特征空间h,通过c3组1×1的卷积核提取特征,并进行与上述方法相似的处理,得到矩阵H,那么基于注意力的特征为其中,
其中,Hj表示矩阵H的第j列,B=ST,bkj是矩阵B中第k行第j列的元素;设置
将O展平,得到基于注意力的全连接输出Z∈Rm×1,其中m=c3×d。
优选地,所述注意力图通过以下获得:对于特征空间f,首先通过c1组1×1的卷积核将所有二维特征处理成新特征,然后将每个新特征图展平成向量fm(m=1,…c1),再拼接得到矩阵F;通过c2组1×1的卷积核得到特征空间g下的新特征,然后将每个新特征图展平成向量gn(n=1,…c2),再拼接得到矩阵G;最后对两个矩阵进行乘法运算,得到注意力图
优选地,该方法包括两层AFCs:通过编码,得到一个特征向量X∈R32768×1,将特征向量划分为c=512个维度为d=64的片段特征,将每个片段特征xi转换为一个8×8的二维特征,然后将所有的二维特征x映射到三个特征空间,得到新特征F∈R10×d(c1=10),和通过F,G矩阵相乘计算得到一个64×64的注意力图o,通过H与o相乘计算得到一个基于注意力的特征,展平后输出Z∈R5120×1,这样就获得第一个基于注意力的全连接层fc1;对fc1进行了以上处理,其中参数设置不同的是c=80,d=64,c1=64,c2=64,c3=512,从而获得第二个基于注意力的特征,展平后输出Y∈R32768×1,这样就得到第二个基于注意力的全连接层fc2。
优选地,所述生成器的损失函数由AE的重建损失Lae和GAN的生成损失Lg两部分组成;Lae最小化旨在于提升预测结果的完整性,而Lg最小化旨在于提升重建结果的合理性;为了联合优化生成器,对Lae和Lg设置了权重系数因此,生成器的损失函数Lgen被定义为:
Lgen=(1-γ)Lae+γLg (4)
Lae=-βylog(y')-(1-β)(1-y)log(1-y') (5)
Lg=-E[Drec(y')] (6)
其中,y∈{0,1},y'∈(0,1)分别表示每个体素的真实值和预测值,Drec是重建判别器,E(·)表示求期望。
优选地,从AFCs中学习到一个维数为32768的向量,将其转换为尺寸为4,通道数为512的特征图,然后把这些特征图送到与编码器对称的四个反卷积层,其中除最后一层使用Sigmoid激活函数外,其它反卷积层都使用ReLU激活函数,最后通过解码器生成分辨率为643的3D形状。
优选地,所述步骤(4)的重建判别器Dres通过缩小真实3D形状与预测3D形状之间的Wasserstein距离来优化网络参数;损失定义为:
其中,λ控制优化梯度惩罚和原始目标之间的权衡。
优选地,所述步骤(4)的掩码判别器实现设置为编码器形式,该编码器由四个三维卷积层组成,每个卷积层都有一组4×4×4的滤波器,其步长为2×2×2,除最后一层使用Sigmoid激活函数外,其余层都使用ReLU激活函数,四个卷积层的通道数依次为64、128、256、512,将卷积层后的特征展平为一个维度为32768的向量;
掩码判别器Dmas通过输入的2.5D形状与预测2.5D形状之间的Wasserstein距离来优化网络参数,损失定义为:
其中,
优选地,该方法包含一个生成器损失、一个重建判别器损失、一个掩摸判别器损失,其目标函数优化都采用了Adam算法,优化顺序为重建判别器损失、掩摸判别器损失、生成器损失。
以下更详细地说明本发明。
本发明提出的3DAMAN是一种基于AE的GAN框架,它由两个主要网络组成:生成器和判别器。在生成器部分,3DAMAN首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,最后将注意力的潜在变量解码生成3D重建形状。在判别器部分,3DAMAN分别在完整的3D形状和可见部分形状上实施了重构判别器和掩模判别器。3DAMAN训练和测试的总体流程如图1所示,训练的详细流程如图2所示。
1. 3DAMAN的生成器
该生成器包括一个编码器、两个基于注意力的全连接层(Attention FullyConnected layers,AFCs)和一个解码器,生成器的网络设计如图2所示。接下来详细介绍了各部分的设计。
1.1.编码器和解码器
编码器:首先通过四个三维卷积层获得尺寸为4,通道数为512的特征图,其中每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层,四个卷积层的通道数分别为64,128,256,512。然后编码器将二维特征展平成为一个维数为32768的向量。
解码器:从AFCs中学习到一个维数为32768的向量,将其转换为尺寸为4,通道数为512的特征图,然后把这些特征图送到与编码器对称的四个反卷积层,其中除最后一层使用Sigmoid激活函数外,其它反卷积层都使用ReLU激活函数。最后通过解码器生成分辨率为643的3D形状。
1.2.基于注意力的全连接层(Attention Fully Connected Layers,AFCs)
大多数基于GAN和AE融合的三维重建框架是利用卷积层和全连接层建立的。然而卷积操作只能处理特征图的局部区域,因此仅使用卷积层会忽略了特征局部区域之间的依赖关系,这可能导致模型不能很好地恢复完整的3D形状。虽然全连接层将特征局部信息集成一个向量,但是局部区域之间的相关性还是没有建立起来。本节中,采用了非局部模型和自注意模型的思想,将注意机制引入GAN和AE融合框架中,设计了两个基于注意力的全连接层AFCs。实验中用AFCs替代传统的全连接层,帮助卷积层更好地学习对象的特征。AFCs的引入不仅能使网络有效地建立局部区域之间关系,而且能够帮助网络推断出更多被遮挡区域的潜在特征。此外,与传统的全连接层相比,AFCs还可以减少网络参数,从而降低网络的训练时间。接下来将详细介绍AFCs。
1.2.1.AFCs的原理
在网络中使用了两层AFCs,这两层的设计方法一样。因此,将阐述一个AFC的设计过程,其原理如图3所示。将编码后的特征X∈Rn×1划分为多个片段特征,然后每个片段特征xi∈Rd×1(i=1,…,c)被转换为一个二维特征,接着将所有的二维特征x映射到两个新的特征空间f,g,从而计算其注意力图,具体过程如下:对于特征空间f,首先通过c1组1×1的卷积核将所有二维特征处理成新特征,然后将每个新特征图展平成向量fm(m=1,…c1),再拼接得到矩阵F。同样地,通过c2组1×1的卷积核得到特征空间g下的新特征,然后将每个新特征图展平成向量gn(n=1,…c2),再拼接得到矩阵G。最后对两个矩阵进行乘法运算,得到注意力图其中,
ajk=Fj TGk (2)
其中,Fj表示矩阵F的第j列,其每一列是特征向量fm中的第j个位置。Gk表示矩阵G的第k列,其每一列是特征向量gn中的第k个位置。sjk表示模型在合成第k个位置时对第j个位置的关注程度。
再次将所有的二维特征x映射到第3个新的特征空间h,即通过c3组1×1的卷积核提取特征,并进行与上述方法相似的处理,得到矩阵H,那么基于注意力的特征为其中,
其中,Hj表示矩阵H的第j列,B=ST,bkj是矩阵B中第k行第j列的元素。实验中设置
最后,将O展平,得到基于注意力的全连接输出Z∈Rm×1,其中m=c3×d。
1.2.2.AFCs的设计
3DAMAN框架包含了两层AFCs,如图2所示。具体设计细节如下:通过编码器得到一个特征向量X∈R32768×1,将特征向量划分为c=512个维度为d=64的片段特征,将每个片段特征xi转换为一个8×8的二维特征,然后将所有的二维特征x映射到三个特征空间,得到新特征F∈R10×d(c1=10),和通过F,G矩阵相乘计算得到一个64×64的注意力图o,通过H与o相乘计算得到一个基于注意力的特征,展平后输出Z∈R5120×1,即获得第一个基于注意力的全连接层fc1。同样地,对fc1进行了相似的处理,其中参数设置不同的是c=80,d=64,c1=64,c2=64,c3=512,从而获得第二个基于注意力的特征,展平后输出Y∈R32768×1,即第二个基于注意力的全连接层fc2。
与传统的全连接层相比,AFC不仅可以学到特征图内局部点的信息,还可以有效地学到局部区域之间的相关性,也就是说,AFC比传统全连接学习到的特征更全面,更有利于三维对象重建。此外,AFC产生的参数远少于传统全连接,具体指标如表1所示。
3DAMAN生成器的损失函数由AE的重建损失(设为Lae)和GAN的生成损失(设为Lg)两部分组成。Lae最小化旨在于提升预测结果的完整性,而Lg最小化旨在于提升重建结果的合理性。为了联合优化生成器,对Lae和Lg设置了权重系数因此,3DAMAN生成器的损失函数Lgen被定义为:
Lgen=(1-γ)Lae+γLg (4)
Lae=-βylog(y')-(1-β)(1-y)log(1-y') (5)
Lg=-E[Drec(y')] (6)
其中,y∈{0,1},y'∈(0,1)分别表示每个体素的真实值和预测值,Drec是重建判别器,E(·)表示求期望。
2.3DAMAN的判别器
3DAMAN有两个判别器,一个称为重建判别器Dres,另一个称为掩码判别器Dmas。与原始GAN判别器将真实数据和伪数据按两类进行分类不同的是,设计这两种判别器输出一个表示真实和伪数据分布的向量。这种设计更有助于网络捕捉三维物体的几何细节。接下来将详细介绍这两个判别器。
2.1.重建判别器
重建判别器Dres用于判别预测的3D形状分布是否接近真实的3D形状分布,因而它可约束所预测的3D形状是否具有合理性。重建判别器的网络设计和掩码判别器的设置一致,如2.2节。
重建判别器Dres通过缩小真实3D形状与预测3D形状之间的Wasserstein距离来优化网络参数。损失定义为:
其中,λ控制优化梯度惩罚和原始目标之间的权衡。
2.2.掩码判别器
掩码判别器Dmas,是基于以下这两个想法提出的,其一:预测的3D形状应该与二维视图一致;其二:可见部分的重建结果可信度比不可见部分的高。因此,用真实的2.5D形状来约束预测的2.5D形状。掩码判别器提高了可见部分的信息保真度,使预测的2.5D形状可信度提高,并且减少了不相关噪声的产生。
将掩码判别器实现设置为编码器形式,其网络设计如图2所示。该编码器由四个三维卷积层组成。每个卷积层都有一组4×4×4的滤波器,其步长为2×2×2,除最后一层使用Sigmoid激活函数外,其余层都使用ReLU激活函数,四个卷积层的通道数依次为64、128、256、512。将卷积层后的特征展平为一个维度为32768的向量。
掩码判别器Dmas通过输入的2.5D形状与预测2.5D形状之间的Wasserstein距离来优化网络参数。损失定义为:
其中,其它参数设置与公式(7)一样。
综上所述,本发明提出的3DAMAN包含一个生成器损失(见公式(4))、一个重建判别器损失(见公式(7))、一个掩摸判别器损失(见公式(8),其目标函数优化都采用了Adam算法,优化顺序为(7)、(8)、(4)。
本发明使用公开的ModelNet40数据库生成了训练和测试数据集。具体操作如下:对于每个CAD模型,本发明创建了一个虚拟深度相机,分别在俯仰角、偏航角和翻滚角方向均匀采样了5个视角,并生成这125个视角下的深度图像。通过上述方式,本发明获得了深度图像和对应的完整3D形状,然后利用虚拟相机参数将深度图像和完整3D形状体素化为的3D网格。每个3D体素网格被表示为二值化张量:1表示体素被占用,0表示体素未被占用。
本发明使用了两个指标:3D体素交并比(Intersection-over-Union,IoU)和3D交叉熵(Cross Entropy,CE),来评估三维重建结果的性能。IoU表示预测的三维体素网格与真实的体素网格之间的相似性,其定义如下:
其中,I(·)是指示符函数,(i,j,k)是一个三维体素网格的索引,y'ijk是以(i,j,k)为索引的体素的预测值,yijk是以(i,j,k)为索引的体素的真实值。p是二值体素化的阈值,如果预测值y'ijk大于p,则说明该体素网格被占据,y'ijk=1,反之,y'ijk=0。实验中,寻找了最优的p值,即从0.2~1中每隔0.05进行取值。IoU值越大说明重建效果越好。
CE表示预测的三维体素网格与真实的体素网格之间的误差,其定义如下:
其中,(i,j,k)是一个三维体素网格的索引,y'ijk是以(i,j,k)为索引的体素的预测值,yijk是以(i,j,k)为索引的体素的真实值。(I,J,K)表示一个3D形状的大小。CE值越小说明重建效果越好。
本发明做了相关实验,将提出的3DAMAN与传统三维重建方法和基于深度学习模型的三维重建方法进行了比较。传统重建方法主要指Kazhdan等人提出的泊松表面重建方法,基于深度学习模型的重建方法主要包括Varley等人提出的重建方法,Yang等人提出的3D-RecAE和3D-RecGAN重建方法。为了验证基于注意力的全连接层(AFCs)和掩摸判别器(MD)对网络学习重建目标任务所起到的作用,还提出了3DAMAN的两种简化版重建模型3DAMAN(AFCs)和3DAMAN(MD)。从单类别、多类别和跨类别三个方面进行了实验,然后利用Iou、CE和FCs(AFCs)中产生参数数量,对上述方法和3DAMAN进行了评价。接下来将详细介绍实验。
(1)单类别对象重建的实验。在三个不同类别上分别进行了训练和测试,其网络配置相同,对比结果如表1所示。
表1
(2)多类别对象重建的实验。具体操作为:在第1组中,网络在椅子和高脚凳类别上训练和测试;在第2组中,网络在椅子、高脚凳和马桶类别上训练和测试,对比结果如表2所示。
表2
(3)交叉类别实验。具体操作为:在第1组中,网络在椅子类别上训练,在高脚凳、马桶、沙发、桌子和电视柜类别上进行测试;在第2组中,网络在高脚凳类别上训练,在椅子、马桶、沙发、桌子和电视柜类别进行测试;在第3组中,网络在马桶类别上进行训练,在椅子、高脚凳、沙发、桌子和电视柜类别上进行测试,对比结果如表3所示。
表3
从表1,表2和表3中可以看出3DAMAN对重建任务相对最优。这是因为3DAMAN采用了AFCs和MD。具体来说,MD约束预测2.5D形状接近输入2.5D形状,这使网络在预测完整3D形状时还可以保证输入可见部分的保真度。换句话说,MD是在三维重建损失上增加了可见部分的权重,从而减少了预测3D形状的不确定性。AFCs的核心部分是注意力图,它表示全连接层中片段特征之间的相似矩阵,即特征图中局部区域之间的依赖关系,它有利于网络在训练时捕捉不同类别3D形状的几何细节,使网络从输入的可见区域中推断出更多可靠的遮挡区域。与其它模型相比,3DAMAN可以更好地探究不同对象类别之间的相关性和可变性。此外,AFCs将原有全连接层的特征划分为片段特征处理,并使用1×1的卷积核来提取其注意力特征,因为片段特征内局部区域共享权重,所以AFCs比FCs减少了大约103的参数。
另外,为了验证AFCs中超参数c和d对重建结果的影响,在单类别上做了相关实验,对比结果如表4所示。
表4
由表4可以看出,当c=512,d=64时,3DAMAN的重建精度最高。这说明注意图的尺寸并不是越大,重建结果就越好。注意图是网络通过两组1×1的卷积核学到的,因为卷积的特点在于局部连接和权值共享。因此,如果注意图的尺寸越大,则说明全连接层中更多的特征节点共享权值,这会使网络无法学习到每个特征节点的功能;如果注意图的尺寸越小,则说明全连接层中越少的特征节点共享权值,这会使网络无法捕获局部区域的依赖关系。
综上所述,提出的3DAMAN优于传统的重建方法和基于深度学习的重建方法,即它在单幅深度图像的情况下,就能够以更高的精度恢复3D形状。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (10)
1.一种单幅图像的三维模型重建方法,其特征在于:该方法包括以下步骤:
(1)输入深度图像;
(2)转换为2.5D体素网格;
(3)在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,再将注意力的潜在变量解码生成3D重建形状;
(4)在判别器部分,在3D重建形状上实施重构判别器,在可见部分形状上实施掩模判别器。
2.根据权利要求1所述的单幅图像的三维模型重建方法,其特征在于:所述步骤(3)中编码为:首先通过四个三维卷积层获得尺寸为4,通道数为512的特征图,其中每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层,四个卷积层的通道数分别为64,128,256,512。然后编码器将二维特征展平成为一个维数为32768的向量。
3.根据权利要求2所述的单幅图像的三维模型重建方法,其特征在于:所述步骤(3)中利用注意力机制学习一个基于注意力的潜在向量通过基于注意力的全连接层AFCs获得:
将编码后的特征X∈Rn×1划分为多个片段特征,然后每个片段特征xi∈Rd×1 (i=1,…,c)被转换为一个二维特征,接着将所有的二维特征x映射到两个新的特征空间f,g,从而计算其注意力图其中,
ajk=Fj TGk (2)
其中,Fj表示矩阵F的第j列,其每一列是特征向量fm中的第j个位置;Gk表示矩阵G的第k列,其每一列是特征向量gn中的第k个位置;sjk表示模型在合成第k个位置时对第j个位置的关注程度。
再次将所有的二维特征x映射到第3个新的特征空间h,通过c3组1×1的卷积核提取特征,并进行与上述方法相似的处理,得到矩阵H,那么基于注意力的特征为其中,
其中,Hj表示矩阵H的第j列,B=ST,bkj是矩阵B中第k行第j列的元素;
设置
将O展平,得到基于注意力的全连接输出Z∈Rm×1,其中m=c3×d。
4.根据权利要求3所述的单幅图像的三维模型重建方法,其特征在于:所述注意力图通过以下获得:对于特征空间f,首先通过c1组1×1的卷积核将所有二维特征处理成新特征,然后将每个新特征图展平成向量fm(m=1,…c1),再拼接得到矩阵F;通过c2组1×1的卷积核得到特征空间g下的新特征,然后将每个新特征图展平成向量gn(n=1,…c2),再拼接得到矩阵G;最后对两个矩阵进行乘法运算,得到注意力图
5.根据权利要求4所述的单幅图像的三维模型重建方法,其特征在于:该方法包括两层AFCs:通过编码,得到一个特征向量X∈R32768×1,将特征向量划分为c=512个维度为d=64的片段特征,将每个片段特征xi转换为一个8×8的二维特征,然后将所有的二维特征x映射到三个特征空间,得到新特征F∈R10×d(c1=10),和通过F,G矩阵相乘计算得到一个64×64的注意力图o,通过H与o相乘计算得到一个基于注意力的特征,展平后输出Z∈R5120×1,这样就获得第一个基于注意力的全连接层fc1;对fc1进行了以上处理,其中参数设置不同的是c=80,d=64,c1=64,c2=64,c3=512,从而获得第二个基于注意力的特征,展平后输出Y∈R32768×1,这样就得到第二个基于注意力的全连接层fc2。
6.根据权利要求5所述的单幅图像的三维模型重建方法,其特征在于:所述生成器的损失函数由AE的重建损失Lae和GAN的生成损失Lg两部分组成;Lae最小化旨在于提升预测结果的完整性,而Lg最小化旨在于提升重建结果的合理性;为了联合优化生成器,对Lae和Lg设置了权重系数因此,生成器的损失函数Lgen被定义为:
Lgen=(1-γ)Lae+γLg (4)
Lae=-βylog(y')-(1-β)(1-y)log(1-y') (5)
Lg=-E[Drec(y')] (6)
其中,y∈{0,1},y'∈(0,1)分别表示每个体素的真实值和预测值,Drec是重建判别器,E(·)表示求期望。
7.根据权利要求6所述的单幅图像的三维模型重建方法,其特征在于:从AFCs中学习到一个维数为32768的向量,将其转换为尺寸为4,通道数为512的特征图,然后把这些特征图送到与编码器对称的四个反卷积层,其中除最后一层使用Sigmoid激活函数外,其它反卷积层都使用ReLU激活函数,最后通过解码器生成分辨率为643的3D形状。
8.根据权利要求3所述的单幅图像的三维模型重建方法,其特征在于:所述步骤(4)的重建判别器Dres通过缩小真实3D形状与预测3D形状之间的Wasserstein距离来优化网络参数;损失定义为:
其中,λ控制优化梯度惩罚和原始目标之间的权衡。
9.根据权利要求3所述的单幅图像的三维模型重建方法,其特征在于:所述步骤(4)的掩码判别器实现设置为编码器形式,该编码器由四个三维卷积层组成,每个卷积层都有一组4×4×4的滤波器,其步长为2×2×2,除最后一层使用Sigmoid激活函数外,其余层都使用ReLU激活函数,四个卷积层的通道数依次为64、128、256、512,将卷积层后的特征展平为一个维度为32768的向量;
掩码判别器Dmas通过输入的2.5D形状与预测2.5D形状之间的Wasserstein距离来优化网络参数,损失定义为:
其中,
10.根据权利要求9所述的单幅图像的三维模型重建方法,其特征在于:该方法包含一个生成器损失、一个重建判别器损失、一个掩摸判别器损失,其目标函数优化都采用了Adam算法,优化顺序为重建判别器损失、掩摸判别器损失、生成器损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722716.5A CN110544297B (zh) | 2019-08-06 | 2019-08-06 | 一种单幅图像的三维模型重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722716.5A CN110544297B (zh) | 2019-08-06 | 2019-08-06 | 一种单幅图像的三维模型重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110544297A true CN110544297A (zh) | 2019-12-06 |
CN110544297B CN110544297B (zh) | 2023-06-20 |
Family
ID=68710492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910722716.5A Active CN110544297B (zh) | 2019-08-06 | 2019-08-06 | 一种单幅图像的三维模型重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110544297B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145338A (zh) * | 2019-12-17 | 2020-05-12 | 桂林理工大学 | 一种基于单视角rgb图像的椅子模型重建方法及系统 |
CN111428091A (zh) * | 2020-03-19 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息推荐的方法以及相关装置 |
CN111985161A (zh) * | 2020-08-21 | 2020-11-24 | 广东电网有限责任公司清远供电局 | 一种变电站三维模型重构方法 |
CN112365581A (zh) * | 2020-11-17 | 2021-02-12 | 北京工业大学 | 一种基于rgb数据的单视角和多视角三维重建方法及装置 |
CN112634438A (zh) * | 2020-12-24 | 2021-04-09 | 北京工业大学 | 基于对抗网络的单帧深度图像三维模型重建方法及装置 |
CN112767539A (zh) * | 2021-01-12 | 2021-05-07 | 杭州师范大学 | 一种基于深度学习的图像三维重构方法及系统 |
CN112884030A (zh) * | 2021-02-04 | 2021-06-01 | 重庆邮电大学 | 一种基于交叉重建的多视角分类系统及方法 |
CN113112585A (zh) * | 2021-03-26 | 2021-07-13 | 西北工业大学 | 一种从单幅图像中重建高质量目标三维形状的方法 |
CN113313771A (zh) * | 2021-07-19 | 2021-08-27 | 山东捷瑞数字科技股份有限公司 | 一种工业复杂设备的全方位测量方法 |
CN113409384A (zh) * | 2021-08-17 | 2021-09-17 | 深圳市华汉伟业科技有限公司 | 一种目标物体的位姿估计方法和系统、机器人 |
CN113469172A (zh) * | 2020-03-30 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 目标定位、模型训练、界面交互方法及设备 |
CN113538604A (zh) * | 2020-04-21 | 2021-10-22 | 中移(成都)信息通信科技有限公司 | 图像生成方法、装置、设备及介质 |
CN113689547A (zh) * | 2021-08-02 | 2021-11-23 | 华东师范大学 | 一种跨视图视觉Transformer的超声或CT医学影像三维重建方法 |
CN115294349A (zh) * | 2022-06-29 | 2022-11-04 | 北京百度网讯科技有限公司 | 训练模型的方法、装置、电子设备及存储介质 |
WO2022236802A1 (zh) * | 2021-05-14 | 2022-11-17 | 中国科学院深圳先进技术研究院 | 一种物体模型的重建方法、装置、终端设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389671A (zh) * | 2018-09-25 | 2019-02-26 | 南京大学 | 一种基于多阶段神经网络的单图像三维重建方法 |
US20190130221A1 (en) * | 2017-11-02 | 2019-05-02 | Royal Bank Of Canada | Method and device for generative adversarial network training |
CN109712203A (zh) * | 2018-12-29 | 2019-05-03 | 福建帝视信息科技有限公司 | 一种基于自注意力生成对抗网络的图像着色方法 |
CN109993825A (zh) * | 2019-03-11 | 2019-07-09 | 北京工业大学 | 一种基于深度学习的三维重建方法 |
-
2019
- 2019-08-06 CN CN201910722716.5A patent/CN110544297B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130221A1 (en) * | 2017-11-02 | 2019-05-02 | Royal Bank Of Canada | Method and device for generative adversarial network training |
CN109389671A (zh) * | 2018-09-25 | 2019-02-26 | 南京大学 | 一种基于多阶段神经网络的单图像三维重建方法 |
CN109712203A (zh) * | 2018-12-29 | 2019-05-03 | 福建帝视信息科技有限公司 | 一种基于自注意力生成对抗网络的图像着色方法 |
CN109993825A (zh) * | 2019-03-11 | 2019-07-09 | 北京工业大学 | 一种基于深度学习的三维重建方法 |
Non-Patent Citations (1)
Title |
---|
BO YANG 等: "3D Object Reconstruction from a Single Depth View with Adversarial Learning", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS (ICCVW)》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145338A (zh) * | 2019-12-17 | 2020-05-12 | 桂林理工大学 | 一种基于单视角rgb图像的椅子模型重建方法及系统 |
CN111145338B (zh) * | 2019-12-17 | 2023-09-26 | 桂林理工大学 | 一种基于单视角rgb图像的椅子模型重建方法及系统 |
CN111428091A (zh) * | 2020-03-19 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息推荐的方法以及相关装置 |
CN111428091B (zh) * | 2020-03-19 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息推荐的方法以及相关装置 |
CN113469172A (zh) * | 2020-03-30 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 目标定位、模型训练、界面交互方法及设备 |
CN113469172B (zh) * | 2020-03-30 | 2022-07-01 | 阿里巴巴集团控股有限公司 | 目标定位、模型训练、界面交互方法及设备 |
CN113538604A (zh) * | 2020-04-21 | 2021-10-22 | 中移(成都)信息通信科技有限公司 | 图像生成方法、装置、设备及介质 |
CN113538604B (zh) * | 2020-04-21 | 2024-03-19 | 中移(成都)信息通信科技有限公司 | 图像生成方法、装置、设备及介质 |
CN111985161A (zh) * | 2020-08-21 | 2020-11-24 | 广东电网有限责任公司清远供电局 | 一种变电站三维模型重构方法 |
CN112365581A (zh) * | 2020-11-17 | 2021-02-12 | 北京工业大学 | 一种基于rgb数据的单视角和多视角三维重建方法及装置 |
CN112365581B (zh) * | 2020-11-17 | 2024-04-09 | 北京工业大学 | 一种基于rgb数据的单视角和多视角三维重建方法及装置 |
CN112634438A (zh) * | 2020-12-24 | 2021-04-09 | 北京工业大学 | 基于对抗网络的单帧深度图像三维模型重建方法及装置 |
CN112767539A (zh) * | 2021-01-12 | 2021-05-07 | 杭州师范大学 | 一种基于深度学习的图像三维重构方法及系统 |
CN112767539B (zh) * | 2021-01-12 | 2023-08-08 | 杭州师范大学 | 一种基于深度学习的图像三维重构方法及系统 |
CN112884030A (zh) * | 2021-02-04 | 2021-06-01 | 重庆邮电大学 | 一种基于交叉重建的多视角分类系统及方法 |
CN112884030B (zh) * | 2021-02-04 | 2022-05-06 | 重庆邮电大学 | 一种基于交叉重建的多视角分类系统及方法 |
CN113112585B (zh) * | 2021-03-26 | 2024-05-14 | 西北工业大学 | 一种从单幅图像中重建高质量目标三维形状的方法 |
CN113112585A (zh) * | 2021-03-26 | 2021-07-13 | 西北工业大学 | 一种从单幅图像中重建高质量目标三维形状的方法 |
WO2022236802A1 (zh) * | 2021-05-14 | 2022-11-17 | 中国科学院深圳先进技术研究院 | 一种物体模型的重建方法、装置、终端设备和存储介质 |
CN113313771B (zh) * | 2021-07-19 | 2021-10-12 | 山东捷瑞数字科技股份有限公司 | 一种工业复杂设备的全方位测量方法 |
CN113313771A (zh) * | 2021-07-19 | 2021-08-27 | 山东捷瑞数字科技股份有限公司 | 一种工业复杂设备的全方位测量方法 |
CN113689547B (zh) * | 2021-08-02 | 2023-06-23 | 华东师范大学 | 一种跨视图视觉Transformer的超声或CT医学影像三维重建方法 |
CN113689547A (zh) * | 2021-08-02 | 2021-11-23 | 华东师范大学 | 一种跨视图视觉Transformer的超声或CT医学影像三维重建方法 |
CN113409384A (zh) * | 2021-08-17 | 2021-09-17 | 深圳市华汉伟业科技有限公司 | 一种目标物体的位姿估计方法和系统、机器人 |
CN115294349B (zh) * | 2022-06-29 | 2023-06-02 | 北京百度网讯科技有限公司 | 训练模型的方法、装置、电子设备及存储介质 |
CN115294349A (zh) * | 2022-06-29 | 2022-11-04 | 北京百度网讯科技有限公司 | 训练模型的方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110544297B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110544297A (zh) | 一种单幅图像的三维模型重建方法 | |
CN109993825B (zh) | 一种基于深度学习的三维重建方法 | |
CN111310707B (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
CN111368662B (zh) | 一种人脸图像属性编辑方法、装置、存储介质及设备 | |
CN110390638B (zh) | 一种高分辨率三维体素模型重建方法 | |
CN113177882B (zh) | 一种基于扩散模型的单帧图像超分辨处理方法 | |
CN115482241A (zh) | 一种跨模态双分支互补融合的图像分割方法及装置 | |
CN110659727A (zh) | 一种基于草图的图像生成方法 | |
CN113361560B (zh) | 一种基于语义的多姿势虚拟试衣方法 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN111259904B (zh) | 一种基于深度学习和聚类的语义图像分割方法及系统 | |
CN110363068B (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
CN112634438A (zh) | 基于对抗网络的单帧深度图像三维模型重建方法及装置 | |
CN112084934A (zh) | 基于骨骼数据双通道深度可分离卷积的行为识别方法 | |
Zhao et al. | JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN114972794A (zh) | 基于多视图Pooling Transformer的三维对象识别方法 | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
CN116844004A (zh) | 一种面向数字孪生场景的点云自动语义化建模方法 | |
CN116091762A (zh) | 一种基于rgbd数据和视锥体的三维目标检测方法 | |
CN116246010A (zh) | 一种基于图像的人体三维重建方法 | |
CN114693873A (zh) | 一种基于动态图卷积和注意力机制的点云补全方法 | |
CN114240999A (zh) | 一种基于增强图注意力与时间卷积网络的运动预测方法 | |
CN114613011A (zh) | 基于图注意力卷积神经网络的人体3d骨骼行为识别方法 | |
CN114022362A (zh) | 一种基于金字塔注意力机制和对称网络的图像超分辨率方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |