CN112365581A - 一种基于rgb数据的单视角和多视角三维重建方法及装置 - Google Patents

一种基于rgb数据的单视角和多视角三维重建方法及装置 Download PDF

Info

Publication number
CN112365581A
CN112365581A CN202011281969.2A CN202011281969A CN112365581A CN 112365581 A CN112365581 A CN 112365581A CN 202011281969 A CN202011281969 A CN 202011281969A CN 112365581 A CN112365581 A CN 112365581A
Authority
CN
China
Prior art keywords
dimensional
view
voxel
voxels
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011281969.2A
Other languages
English (en)
Other versions
CN112365581B (zh
Inventor
孔德慧
高俊娜
王少帆
李敬华
王立春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011281969.2A priority Critical patent/CN112365581B/zh
Publication of CN112365581A publication Critical patent/CN112365581A/zh
Application granted granted Critical
Publication of CN112365581B publication Critical patent/CN112365581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Generation (AREA)

Abstract

一种基于RGB数据的单视角和多视角三维重建方法及装置,能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。方法包括:(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。

Description

一种基于RGB数据的单视角和多视角三维重建方法及装置
技术领域
本发明涉及图像处理的技术领域,尤其涉及一种基于RGB数据的单视角和多视角三维重建方法,以及基于RGB数据的单视角和多视角三维重建装置。
背景技术
基于计算机视觉技术的三维物体重建在人类生活的众多领域得到广泛应用,如人机交互、虚拟现实、增强现实和医疗诊断等。
目前,基于RGB的三维物体重建方法主要分为传统方法和基于深度学习的方法。
传统的三维重建方法的核心环节是多视图图像特征匹配,重建模型质量高度依赖特征匹配精度。但是,由于外观变化或自遮挡,使得不同视点图像差异较大,因此很难建立精确稠密的特征对应关系。而且,重构的三维形状通常是一个没有几何细节的稀疏点云,精度待提升。此外,传统的三维重建方法涉及的环节较多,一般主要包括图像预处理,特征的计算与配准,数据融合,纹理映射等,导致环节之间的误差传递积累,最后严重影响重建效果。
基于深度学习的特征提取及三维模型重建克服了上述传统方法中的弊端,从而受到广泛关注。与此同时此类方法随着大量三维计算机辅助设计模型的出现而飞速发展。例如基于循环神经网络的三维重建方法将三维重建看作序列学习问题,使用循环神经网络去融合从输入图像提取的深度特征从而去重建三维形状;但是这类方法在给定不同顺序的输入图像时,三维重建结果存在差异,不能保证三维重建形状的一致性。为了克服这个问题,基于编码器-解码器结构的生成网络的三维重建方法被提出,即用编码器映射二维图像得到潜在特征表示,解码器将潜在特征表示解码得到一个三维形状;但是此类方法是针对每个输入视图单独处理,提取当前输入独有的潜在特征,没有充分利用与特定类别关联的视图共有信息,同时也没有明确利用物体可见部分和遮挡部分相关的几何线索和感知线索,比如模型的几何对称性。这些局限性限制了精细化三维重建的实现。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于RGB数据的单视角和多视角三维重建方法,其能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。
本发明的技术方案是:这种基于RGB数据的单视角和多视角三维重建方法,包括以下步骤:
(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
本发明将输入视角的个性化特征和它属于特定类别的共性化特征相融合进行初始化三维体素重建,利用模型在特定视角下的先验对称性和三维体素本身具有的上下文依赖关系指导三维模型的图构建并利用精心设计的多尺度图卷积进行细化,从而得到完整的合理的三维体素,因此能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。
还提供了一种基于RGB数据的单视角和多视角三维重建装置,该装置包括:
三维体素重建模块,其融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
体素精细化模块,其在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
附图说明
图1示出了根据本发明的基于RGB数据的单视角和多视角三维重建装置的总体框架图。
图2示出了单视角的图连接关系。
图3示出了多视角的图连接关系。
图4示出了ShapeNet数据集上单视角重建结果。
图5示出了ShapeNet数据集上多视角重建结果。
具体实施方式
这种基于RGB数据的单视角和多视角三维重建方法,包括以下步骤:
(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
本发明将输入视角的个性化特征和它属于特定类别的共性化特征相融合进行初始化三维体素重建,利用模型在特定视角下的先验对称性和三维体素本身具有的上下文依赖关系指导三维模型的图构建并利用精心设计的多尺度图卷积进行细化,从而得到完整的合理的三维体素,因此能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。
如图1所示,还提供了一种基于RGB数据的单视角和多视角三维重建装置,该装置包括:
三维体素重建模块,其融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
体素精细化模块,其在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
优选地,所述三维体素重建模块包括两个编码-解码网络,一个融合模块;其中第一编码-解码网络中的编码器ECom从图像中学习潜在特征,并对其进行分类处理以获得属于特定类别的共性特征,送入第一编码-解码网络中的解码器DCom重建出共性粗糙三维体素;第二编码-解码网络中的编码器EInd-解码器DInd提取输入图像的个性化潜在特征并解码生成个性初始三维体素;融合模块利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。
优选地,所述第一编码-解码网络中,对于n个视角的输入图像
Figure BDA0002781090380000041
经过ECom得到潜在变量
Figure BDA0002781090380000042
分类该潜在变量到它所属的类别cj中,其分类损失为公式(1):
Figure BDA0002781090380000043
其中pk表示真实的类别,qk表示预测的类别;然后将潜在特征送入解码器DCom得到重建的
Figure BDA0002781090380000044
优选地,所述第二编码-解码网络中,将输入图像
Figure BDA0002781090380000045
经过EInd得到潜在特征
Figure BDA0002781090380000046
zi表示第i个视角的个性潜在特征,后将其送入解码器DInd得到重建的个性初始三维体素
Figure BDA0002781090380000047
优选地,所述融合模块中,分别通过共性和个性的上下文打分网络对
Figure BDA0002781090380000051
Figure BDA0002781090380000052
对打分,得到
Figure BDA0002781090380000053
Figure BDA0002781090380000054
然后将体素和相应的分数相乘再进行融合得到融合后的三维体素
Figure BDA0002781090380000055
为了评估重建的体素,在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量,定义为公式(2):
Figure BDA0002781090380000056
其中N表示三维物体中体素的数量,pi和gti代表预测体素的占用率和相应的真实体素的占用率。
优选地,所述体素精细化模块中,
使用图卷积公式:
Figure BDA0002781090380000057
其中σ表示激活函数,Xl和Xl+1分别表示图中节点在l层前后的特征矩阵,
Figure BDA0002781090380000058
表示可学习的权重矩阵,
Figure BDA0002781090380000059
表示图中对称的归一化邻接矩阵,
Figure BDA00027810903800000510
其中
Figure BDA00027810903800000511
Figure BDA00027810903800000512
表示对角节点度矩阵,
Figure BDA00027810903800000513
定义每个节点使用其他节点特征的程度,
Figure BDA00027810903800000514
表示图的邻接矩阵,当两边之间有连接关系将其置为1,否则置为0。
优选地,对于公开数据集ShapeNet,其中的大多数模型是呈对称性的,其x-y平面是对称面,其他两个x-z,y-z坐标平面都是非对称平面;对于每一个尺度dr 3下的三维体素进行基于GCN的多通道融合具体操作为:首先将其定义为V;然后定义
Figure BDA00027810903800000515
Figure BDA00027810903800000516
为切片方向,分别表示沿着y-z、x-z、x-y坐标平面对三维体素切片,得到
Figure BDA00027810903800000517
Figure BDA00027810903800000518
三个集合,其中每个集合表示一个dr×dr的二维切片序列,序列长度为dr;每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为图结构中每个节点的特征,那么图结构中节点的特征矩阵为Dl×dr;接下来随机打乱视图的顺序,将沿同一坐标平面的视图与随机另外一个视图进行组合,那么对于n个视角,则有n对组合且图结构大小固定为2dr×2dr;最终图的节点特征矩阵为
Figure BDA0002781090380000061
邻接矩阵表示为AK×K,其中Dl=dr×dr,K=2dr;在单视角图结构中,每个切片只与前后切片以及对称切片之间建立连接关系;在多视角图结构中,每个切片还额外与其他视角位置相同的切片建立连接关系;另外两个分支将三维体素沿着非对称平面即x-z、y-z平面进行切片构建图结构,不同之处在于不建立对称性连接;随后使用GCN对所构造的图进行细化;最后将同一视图对应的三个分支的特征进行融合并送到图池化层,得到另一个尺度的体素。
优选地,对于三维体素优化模块,损失函数包括重建损失和对称约束;重建损失为lossrec,对称约束项为:
Figure BDA0002781090380000062
其中k表示对称切片对的数量,sk和s31-k表示一对对称切片。
以下更详细地说明本发明。
本发明主要包括三个关键的技术点:1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;2)在初始化三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建;3)基于体素注意力图结构,利用精心设计的多尺度图卷积对初始体素进行细化处理。
1.融合个性潜在特征和共性潜在特征的三维体素重建模块
三维体素重建模块主要负责提取输入视图本身的个性潜在特征和其属于特定类别的共性潜在特征,生成个性初始三维体素和共性初始三维体素。这些潜在特征包含丰富的指导信息,消除了信息不足对恢复三维形状的影响。此外,为了获得共性潜在特征,从域自适应角度提出了一种有效的域混淆方法,通过约束潜在特征支持体素对象分类到特定的类别内,从而获取该体素所共有的类别共性特征。在得到个性初始三维体素和共性初始三维体素后,利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。
该模块主要由两个编码-解码网络,一个融合模块组成,具体如图1上部所示。其中编码器ECom从图像中学习潜在特征,并对其进行分类处理以获得属于特定类别的共性特征,送入解码器DCom重建出共性粗糙三维体素。具体来说,对于n个视角的输入图像
Figure BDA0002781090380000071
经过ECom得到潜在变量
Figure BDA0002781090380000072
分类该潜在变量到它所属的类别cj中,其分类损失为:
Figure BDA0002781090380000073
其中pk表示真实的类别,qk表示预测的类别。然后将潜在特征送入解码器DCom得到重建的
Figure BDA0002781090380000074
另一个编码器EInd-解码器DInd主要负责提取输入图像的个性化潜在特征并解码生成个性初始三维体素。具体来说,将输入图像
Figure BDA0002781090380000075
经过EInd得到潜在特征
Figure BDA0002781090380000076
zi表示第i个视角的个性潜在特征。然后将其送入解码器DInd得到重建的个性初始三维体素
Figure BDA0002781090380000077
在得到个性粗糙三维体素和共性粗糙三维体素后,利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。具体来说,分别通过共性和个性的上下文打分网络对
Figure BDA0002781090380000078
Figure BDA0002781090380000079
对打分得到
Figure BDA00027810903800000710
Figure BDA00027810903800000711
然后将体素和相应的分数相乘再进行融合得到融合后的三维体素
Figure BDA00027810903800000712
为了评估重建的体素,在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量。更具体地,它可以被定义为:
Figure BDA00027810903800000713
其中N表示三维物体中体素的数量。pi和gti代表预测体素的占用率和相应的真实体素的占用率。损失越小,预测结果越接近真实体素。
2.图卷积的体素精细化模块:
经过体素重建模块,得到同一物体不同视角下的初始化三维体素。三维对象具有局部连续性和内部关联性。为了获取这些关系,设计了多尺度图U-Net来精细化体素,这种方法可以捕获更丰富的三维体素局部之间的依赖关系,探索细节信息,最终得到完整的合理的三维体素。
使用的图卷积公式如下:
Figure BDA0002781090380000081
其中σ表示激活函数,Xl和Xl+1分别表示图中节点在l层前后的特征矩阵,
Figure BDA0002781090380000082
表示可学习的权重矩阵,
Figure BDA0002781090380000083
表示图中对称的归一化邻接矩阵,
Figure BDA0002781090380000084
其中
Figure BDA0002781090380000085
Figure BDA0002781090380000086
表示对角节点度矩阵。
Figure BDA0002781090380000087
简单地定义每个节点使用其他节点特征的程度。A∈[0,1]K×K表示图的邻接矩阵,当两边之间有连接关系将其置为1,否则置为0。
三维体素的局部特征之间具有关联关系,这对于三维体素细化也是必不可少的指导信息。因此,利用对称性将体素数据建模为二维切片序列来构造图结构,从而捕获相关依赖关系最终得到可靠的三维体素。设计的多尺度图U-Net网络结构如图1下部所示。编码器是由三个编码块组成,每个编码块包含一个GCN层和一个图池化层。解码器由三个解码块组成,每个解码块包含一个GCN层和一个图解池化层。在编码器和解码器的对应块之间有跳跃连接,它将空间信息从编码器传输到解码器以获得更好的解码性能。三维体素的尺度变化依次为323,163,83,43,83,163,323,这样一个多尺度的设计可以捕捉更细粒度的更具完整细节的三维体素。
日常物体往往具有全局对称性,这一性质有利于恢复被遮挡或局部观察到的部分。本发明实验所用的公开数据集ShapeNet中的大多数模型也是呈对称性的,其x-y平面是对称面。其他两个x-z,y-z坐标平面都是非对称平面。对于每一个尺度dr 3下的三维体素进行基于GCN的多通道融合具体操作如下,首先将其定义为V;然后定义
Figure BDA0002781090380000088
Figure BDA0002781090380000089
为切片方向,分别表示沿着y-z、x-z、x-y坐标平面对三维体素切片,得到
Figure BDA00027810903800000810
Figure BDA00027810903800000811
三个集合,其中每个集合表示一个dr×dr的二维切片序列,序列长度为dr。每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为图结构中每个节点的特征,那么图结构中节点的特征矩阵为Dl×dr。接下来随机打乱视图的顺序,将沿同一坐标平面的视图与随机另外一个视图进行组合,那么对于n个视角,则有n对组合且图结构大小固定为2dr×2dr。也就是说,最终图的节点特征矩阵为
Figure BDA0002781090380000091
邻接矩阵表示为AK×K,其中Dl=dr×dr,K=2dr。在单视角图结构中,每个切片只与前后切片以及对称切片之间建立连接关系,如图2所示。在多视角图结构中,每个切片还额外与其他视角位置相同的切片建立连接关系,如图3所示。类似地,另外两个分支将三维体素沿着非对称平面即x-z、y-z平面进行切片构建图结构,不同之处在于不建立对称性连接。随后使用GCN对所构造的图进行细化。最后将同一视图对应的三个分支的特征进行融合并送到图池化层,得到另一个尺度的体素。
本发明建立的单视角以及多视角的图结构,捕获了相邻,对称,以及不同视角相同位置的信息。这些信息对填补三维体素缺失或遮挡部分和重建一个具有细粒度的高质量三维体素产生巨大作用。最后输出的体素进行视角之间的平均融合,得到细化后的体素。对于三维体素优化模块,我们的损失函数包括重建损失和对称约束。重建损失如上所述的lossrec,对称约束项如下:
Figure BDA0002781090380000092
其中k表示对称切片对的数量。sk和s31-k表示一对对称切片。
本发明已经在公开数据集ShapeNet上得到验证,取得不错的实验效果。表1展示本发明在ShapeNet数据集上的单视角重建结果,可以看出,与其他方法相比,本方法已经达到了目前最好的效果。表2展示了本发明在ShapeNet数据集上的多视角重建结果,本方法同样是目前最好的结果。图4、5给出ShapeNet数据集上一些三维重建的主观效果,实验效果表明了在各类物体上,该方法都能取得较好的重建效果。
表1:ShapeNet数据集上单视角的重建精度(度量:IoU)
Figure BDA0002781090380000101
表2:ShapeNet数据集上多视角的重建精度(度量:IoU)
方法 1view 2views 3views 4views 5views 8views 12views 16views 20views
3D-R2N2 0.560 0.603 0.617 0.625 0.634 0.635 0.636 0.636 0.636
AttSets 0.642 0.662 0.670 0.675 0.677 0.685 0.688 0.692 0.693
Pix2Vox-F+ 0.634 0.653 0.661 0.666 0.668 0.672 0.674 0.675 0.676
Pix2Vox-F 0.634 0.660 0.668 0.673 0.676 0.680 0.682 0.684 0.684
Pix2Vox-A+ 0.661 0.678 0.684 0.687 0.689 0.692 0.694 0.695 0.695
Pix2Vox-A 0.661 0.686 0.693 0.697 0.699 0.702 0.704 0.705 0.706
本发明方法 0.670 0.693 0.701 0.706 0.709 0.713 0.716 0.718 0.719
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (9)

1.一种基于RGB数据的单视角和多视角三维重建方法,其特征在于:该方法包括以下步骤:
(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
2.一种基于RGB数据的单视角和多视角三维重建装置,其特征在于:其包括:
三维体素重建模块,其融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
体素精细化模块,其在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
3.根据权利要求2所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述三维体素重建模块包括两个编码-解码网络,一个融合模块;
其中第一编码-解码网络中的编码器ECom从图像中学习潜在特征,并对其进行分类处理以获得属于特定类别的共性特征,送入第一编码-解码网络中的解码器DCom重建出共性粗糙三维体素;第二编码-解码网络中的编码器EInd-解码器DInd提取输入图像的个性化潜在特征并解码生成个性初始三维体素;融合模块利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。
4.根据权利要求3所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述第一编码-解码网络中,对于n个视角的输入图像
Figure FDA0002781090370000021
经过ECom得到潜在变量
Figure FDA0002781090370000022
分类该潜在变量到它所属的类别cj中,其分类损失为公式(1):
Figure FDA0002781090370000023
其中pk表示真实的类别,qk表示预测的类别;然后将潜在特征送入解码器DCom得到重建的
Figure FDA0002781090370000024
5.根据权利要求4所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述第二编码-解码网络中,将输入图像
Figure FDA0002781090370000025
经过EInd得到潜在特征
Figure FDA0002781090370000026
zi表示第i个视角的个性潜在特征,后将其送入解码器DInd得到重建的个性初始三维体素
Figure FDA0002781090370000027
6.根据权利要求5所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述融合模块中,分别通过共性和个性的上下文打分网络对
Figure FDA0002781090370000028
Figure FDA0002781090370000029
对打分,得到
Figure FDA00027810903700000210
Figure FDA00027810903700000211
然后将体素和相应的分数相乘再进行融合得到融合后的三维体素
Figure FDA00027810903700000212
为了评估重建的体素,在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量,定义为公式(2):
Figure FDA00027810903700000213
其中N表示三维物体中体素的数量,pi和gti代表预测体素的占用率和相应的真实体素的占用率。
7.根据权利要求6所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述体素精细化模块中,
使用图卷积公式:
Figure FDA00027810903700000214
其中σ表示激活函数,Xl和Xl+1分别表示图中节点在l层前后的特征矩阵,
Figure FDA0002781090370000031
表示可学习的权重矩阵,
Figure FDA0002781090370000032
表示图中对称的归一化邻接矩阵,
Figure FDA0002781090370000033
其中
Figure FDA0002781090370000034
Figure FDA0002781090370000035
表示对角节点度矩阵,
Figure FDA0002781090370000036
定义每个节点使用其他节点特征的程度,A∈[0,1]K×K表示图的邻接矩阵,当两边之间有连接关系将其置为1,否则置为0。
8.根据权利要求7所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:对于公开数据集ShapeNet,其中的大多数模型是呈对称性的,其x-y平面是对称面,其他两个x-z,y-z坐标平面都是非对称平面;对于每一个尺度dr 3下的三维体素进行基于GCN的多通道融合具体操作为:首先将其定义为V;然后定义
Figure FDA0002781090370000037
Figure FDA0002781090370000038
为切片方向,分别表示沿着y-z、x-z、x-y坐标平面对三维体素切片,得到
Figure FDA0002781090370000039
Figure FDA00027810903700000310
三个集合,其中每个集合表示一个dr×dr的二维切片序列,序列长度为dr;每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为图结构中每个节点的特征,那么图结构中节点的特征矩阵为Dl×dr;接下来随机打乱视图的顺序,将沿同一坐标平面的视图与随机另外一个视图进行组合,那么对于n个视角,则有n对组合且图结构大小固定为2dr×2dr;最终图的节点特征矩阵为
Figure FDA00027810903700000311
邻接矩阵表示为AK×K,其中Dl=dr×dr,K=2dr;在单视角图结构中,每个切片只与前后切片以及对称切片之间建立连接关系;在多视角图结构中,每个切片还额外与其他视角位置相同的切片建立连接关系;另外两个分支将三维体素沿着非对称平面即x-z、y-z平面进行切片构建图结构,不同之处在于不建立对称性连接;随后使用GCN对所构造的图进行细化;最后将同一视图对应的三个分支的特征进行融合并送到图池化层,得到另一个尺度的体素。
9.根据权利要求8所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:对于三维体素优化模块,损失函数包括重建损失和对称约束;重建损失为lossrec,对称约束项为:
Figure FDA0002781090370000041
其中k表示对称切片对的数量,sk和s31-k表示一对对称切片。
CN202011281969.2A 2020-11-17 2020-11-17 一种基于rgb数据的单视角和多视角三维重建方法及装置 Active CN112365581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011281969.2A CN112365581B (zh) 2020-11-17 2020-11-17 一种基于rgb数据的单视角和多视角三维重建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011281969.2A CN112365581B (zh) 2020-11-17 2020-11-17 一种基于rgb数据的单视角和多视角三维重建方法及装置

Publications (2)

Publication Number Publication Date
CN112365581A true CN112365581A (zh) 2021-02-12
CN112365581B CN112365581B (zh) 2024-04-09

Family

ID=74515252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011281969.2A Active CN112365581B (zh) 2020-11-17 2020-11-17 一种基于rgb数据的单视角和多视角三维重建方法及装置

Country Status (1)

Country Link
CN (1) CN112365581B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538662A (zh) * 2021-07-05 2021-10-22 北京工业大学 一种基于rgb数据的单视角三维物体重建方法及装置
CN113658322A (zh) * 2021-07-30 2021-11-16 哈尔滨工业大学 一种基于视觉transformer的三维重建体素方法
CN113673444A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于角点池化的路口多视角目标检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003325A (zh) * 2018-06-01 2018-12-14 网易(杭州)网络有限公司 一种三维重建的方法、介质、装置和计算设备
CN110458939A (zh) * 2019-07-24 2019-11-15 大连理工大学 基于视角生成的室内场景建模方法
CN110544297A (zh) * 2019-08-06 2019-12-06 北京工业大学 一种单幅图像的三维模型重建方法
US20200027269A1 (en) * 2018-07-23 2020-01-23 Fudan University Network, System and Method for 3D Shape Generation
KR20200032651A (ko) * 2018-09-18 2020-03-26 서울대학교산학협력단 3차원 영상 재구성 장치 및 그 방법
WO2020075098A1 (en) * 2018-10-09 2020-04-16 Resonai Inc. Systems and methods for 3d scene augmentation and reconstruction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003325A (zh) * 2018-06-01 2018-12-14 网易(杭州)网络有限公司 一种三维重建的方法、介质、装置和计算设备
US20200027269A1 (en) * 2018-07-23 2020-01-23 Fudan University Network, System and Method for 3D Shape Generation
KR20200032651A (ko) * 2018-09-18 2020-03-26 서울대학교산학협력단 3차원 영상 재구성 장치 및 그 방법
WO2020075098A1 (en) * 2018-10-09 2020-04-16 Resonai Inc. Systems and methods for 3d scene augmentation and reconstruction
CN110458939A (zh) * 2019-07-24 2019-11-15 大连理工大学 基于视角生成的室内场景建模方法
CN110544297A (zh) * 2019-08-06 2019-12-06 北京工业大学 一种单幅图像的三维模型重建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HAOZHE XIE 等: "Pix2Vox Context-Aware 3D Reconstruction From Single and Multi-View Images", 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), pages 2690 - 2698 *
HAOZHE XIE 等: "Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from Single and Multiple Images", INTERNATIONAL JOURNAL OF COMPUTER VISION, pages 2919 - 2935 *
KUI FU 等: "Single image 3D object reconstruction based on deep learning: A review", MULTIMEDIA TOOLS AND APPLICATIONS, pages 463 - 498 *
胡旭阳: "基于合成多视图的单视图三维重建算法研究", 中国优秀硕士学位论文全文数据库(信息科技辑), pages 138 - 1164 *
赵增顺 等: "生成对抗网络理论框架、衍生模型与应用最新进展", 小型微型计算机系统, vol. 39, no. 12, pages 2602 - 2606 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538662A (zh) * 2021-07-05 2021-10-22 北京工业大学 一种基于rgb数据的单视角三维物体重建方法及装置
CN113538662B (zh) * 2021-07-05 2024-04-09 北京工业大学 一种基于rgb数据的单视角三维物体重建方法及装置
CN113658322A (zh) * 2021-07-30 2021-11-16 哈尔滨工业大学 一种基于视觉transformer的三维重建体素方法
CN113658322B (zh) * 2021-07-30 2024-08-27 哈尔滨工业大学 一种基于视觉transformer的三维重建体素方法
CN113673444A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于角点池化的路口多视角目标检测方法及系统

Also Published As

Publication number Publication date
CN112365581B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN112365581B (zh) 一种基于rgb数据的单视角和多视角三维重建方法及装置
CN110288697A (zh) 基于多尺度图卷积神经网络的3d人脸表示与重建方法
Tao et al. Point cloud projection and multi-scale feature fusion network based blind quality assessment for colored point clouds
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110852941A (zh) 一种基于神经网络的二维虚拟试衣方法
CN112891945B (zh) 数据处理方法、装置、电子设备及存储介质
CN114419412A (zh) 一种用于点云配准的多模态特征融合方法与系统
Liu et al. High-quality textured 3D shape reconstruction with cascaded fully convolutional networks
Zhou et al. 2D compressive sensing and multi-feature fusion for effective 3D shape retrieval
Kang et al. Competitive learning of facial fitting and synthesis using uv energy
CN116416376A (zh) 一种三维头发的重建方法、系统、电子设备及存储介质
Caliskan et al. Multi-view consistency loss for improved single-image 3d reconstruction of clothed people
Afifi et al. Pixel2Point: 3D object reconstruction from a single image using CNN and initial sphere
CN111915589A (zh) 基于空洞卷积的立体图像质量评价方法
CN114758070B (zh) 基于跨域多任务的单张图像三维人体精细重建方法
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
Gadasin et al. Application of Convolutional Neural Networks for Three-Dimensional Reconstruction of the Geometry of Objects in the Image
JP2023027782A (ja) 画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN113538662B (zh) 一种基于rgb数据的单视角三维物体重建方法及装置
Song et al. 3d visual saliency: An independent perceptual measure or a derivative of 2d image saliency?
CN114612618A (zh) 图像生成方法、装置、设备、存储介质及计算机程序产品
CN101510317A (zh) 一种三维卡通人脸生成方法及装置
Sun et al. Efficient ray sampling for radiance fields reconstruction
CN116843807A (zh) 虚拟形象生成、模型的训练方法、装置及电子设备
Bhardwaj et al. SingleSketch2Mesh: generating 3D mesh model from sketch

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant