CN113096234B - 利用多张彩色图片生成三维网格模型的方法及装置 - Google Patents
利用多张彩色图片生成三维网格模型的方法及装置 Download PDFInfo
- Publication number
- CN113096234B CN113096234B CN201911335173.8A CN201911335173A CN113096234B CN 113096234 B CN113096234 B CN 113096234B CN 201911335173 A CN201911335173 A CN 201911335173A CN 113096234 B CN113096234 B CN 113096234B
- Authority
- CN
- China
- Prior art keywords
- model
- dimensional
- grid
- network
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
- G06T17/205—Re-meshing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/275—Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明提供一种利用多张彩色图片生成三维网格模型的方法,用于基于形变推断对少量不同视角的彩色图片以及对应的相机参数进行处理从而生成相应的三维网格模型,其特征在于,包括如下步骤:步骤S1,对预先获取的三维模型数据集进行预处理从而得到训练样本;步骤S2,生成初始网格模板;步骤S3,构建用于提取所述二维图像的几何特征以及语义特征的图像特征提取网络;步骤S4,构建图卷积神经网络;步骤S5,构建损失函数;步骤S6,基于所述损失函数对由所述图像特征提取网络以及所述图卷积神经网络组成的三维模型生成模型进行训练;步骤S7,将多张所述彩色图片与对应的所述相机参数输入所述三维模型生成模型从而生成所述三维网格模型。
Description
技术领域
本发明属于三维计算机视觉领域,具体涉及一种基于形变推断的从多张图片生成三维网格模型的方法及装置。
背景技术
三维形状生成是连接图像与真实空间的重点问题,得益于深度神经网络的建模能力,仅从极少量几张图片生成三维模型已成为可能。但是仅从单张图片生成三维模型往往倾向于学习到粗略形状,对遮挡区域与跨语义类别形状生成效果不佳。此外,虽然现有的传统方法能利用跨视角信息推断三维形状,但需要大量有重叠部分的图片,无法处理少量有限数量图片作为输入的情况。
近年来,相关研究工作尝试解决此类问题,但由于三维模型的表示方式有多样性,处理多张图片特征的对应关系并非易事,造成现有的方法生成三维模型的效果较差。例如:
文[1]使用体素作为三维模型表示方式,进而使用长短期记忆网络(LSTM)序列的读入单张或多张图片来生成三维模型。但是一方面体素表示方式计算复杂且速度慢;另一方面有次序的序列性读入图片最终生成的模型将受到图片顺序的影响。
文[2]依然使用体素作为表示方式,但使用视线射线将多张图片的特征投影与反投影进行融合,利用几何约束推断形状先验,但递归融合网格特征所使用的量化操作也使得生成效果缺乏足够的精细度。
文[3]使用三角网格(Mesh)表示三维模型,提升了速度降低了模型计算消耗,但仅使用单张图片进行输入,缺乏对本遮挡区域的正确形状建模。
[1]Choy C B,Xu D,Gwak J Y,et al.3d-r2n2:A unified approach for singleand multi-view 3d object reconstruction[C]//European conference on computervision.Springer,Cham,2016:628-644.
[2]Kar A,C,Malik J.Learning a multi-view stereo machine[C]//Advances in neural information processing systems.2017:365-376.
[3]Wang N,Zhang Y,Li Z,et al.Pixel2mesh:Generating 3d mesh modelsfrom single rgb images[C]//Proceedings of the European Conference on ComputerVision(ECCV).2018:52-67.
发明内容
为解决上述问题,提供一种通过少量不同观察角度图片就能够生成光滑连续、对齐准确、精细化程度高的三维网格模型的方法,本发明采用了如下技术方案:
本发明提供了一种利用多张彩色图片生成三维网格模型的方法,用于基于形变推断对多张不同视角的彩色图片以及对应的相机参数进行处理从而生成相应的三维网格模型,其特征在于,包括如下步骤:步骤S1,对预先获取的三维模型数据集进行预处理从而得到训练样本,所述训练样本包含三维数据、对应的二维图片以及相机参数;步骤S2,生成初始网格模板;步骤S3,构建用于提取所述二维图像的几何特征以及语义特征的图像特征提取网络;步骤S4,构建图卷积神经网络,该图卷积神经模型包括粗略形状生成网络以及多视角形变网络,所述粗略形状生成网络用于根据所述初始网格模板以及所述语义特征并通过形变生成粗略网格模型,所述多视角形变网络用于根据所述几何特征对所述粗略网格模型的网格顶点的潜在移动位置进行采样,并利用图像感知特征的特征一致性进行加权评分从而将所述粗略网格模型形变生成精细化网格模型,所述多视角形变网络包括假设点采样层、跨视角感知特征投影层以及形变推断模块;步骤S5,构建损失函数;步骤S6,基于所述损失函数对由所述图像特征提取网络以及所述图卷积神经网络组成的三维模型生成模型进行训练;步骤S7,将多张所述彩色图片与对应的所述相机参数输入所述三维模型生成模型从而生成所述三维网格模型。
本发明提供的利用多张彩色图片生成三维网格模型的方法,还可以具有这样的技术特征,其中,所述三维数据为多个CAD模型,所述预处理包括:对所述CAD模型进行采样得到三维点云坐标;将所述三维点云坐标所在CAD模型的面的法向量设置为点云法向量;根据随机设置的相机外部参数与相同的相机内部参数渲染所述CAD模型,从而得到每个所述CAD模型对应的所述二维图像以及所述相机参数。
本发明提供的利用多张彩色图片生成三维网格模型的方法,还可以具有这样的技术特征,其中,多视角形变网络生成所述精细化网格模型的过程包括:将所述粗略网格模型作为所述多视角形变网络的输入网格模型;利用所述假设点采样层,对所述网格顶点的潜在移动位置进行采样并作为假设点;利用所述跨视角感知特征投影层,根据所述相机参数对所述输入网格模型的三维网格进行坐标变换,并计算所述三维网格中每一个顶点在不同视角图片的特征图中的统计量;利用所述形变推断模块,基于预设的打分推断机制以及所述统计量对所述输入网格模型的每一顶点对应的各个所述假设点的特征一致性进行加权评分,选择最可信点作为精细化调整后的网格模型的顶点位置;级联2次所述形变推断模块得到最终的所述精细化网格模型。
本发明提供的利用多张彩色图片生成三维网格模型的方法,还可以具有这样的技术特征,其中,所述打分推断机制为:使用软最大值层计算各个所述假设点的加权权重,并将所述加权权重与所述假设点的坐标相乘,以所有所述假设点的加权位置作为输出的所述最可信点。
本发明提供的利用多张彩色图片生成三维网格模型的方法,还可以具有这样的技术特征,其中,所述初始网格模板为椭球网格,所述椭球网格使用的椭球参数方程为:x2+2*y2+2*(z+0.8)2-0.08=0,式中,x、y、z为以椭球中心为原点的右手直角坐标系中空间任意一点的三维坐标,x轴为椭球最长轴平行方向,y轴为垂直向上方向,z轴为椭球最短轴平行方向。
本发明提供的利用多张彩色图片生成三维网格模型的方法,还可以具有这样的技术特征,其中,所述图像特征提取网络为由卷积层与最大池化层及线性整流单元组成的18层全卷积神经网络,所述图像特征提取网络的五个池化层前的特征图被提取为图像特征,其中第1、2、3个特征图作为所述几何特征,第3、4、5个特征图作为所述语义特征。
本发明提供的利用多张彩色图片生成三维网格模型的方法,还可以具有这样的技术特征,其中,所述粗略形状生成网络由从节点数不断增加的三个级联的图卷积神经网络模块组成,网络输出特征为3维,隐含层维度为192,并使用残差连接方式,每一个所述图卷积神经网络模块逐级更新所述初始网格模板的顶点位置,最终生成所述粗略网格模型。
本发明提供的利用多张彩色图片生成三维网格模型的方法,还可以具有这样的技术特征,其中,所述损失函数使用三维监督信号构建,包括倒角损失、边长损失、法向量损失以及拉普拉斯损失,所述倒角损失使用重参数化方法进行改进,即:基于2个独立的服从均匀分布的随机变量r1、r2~U[0,1],并利用顶点为v1、v2、v3的三角形的重参数化采样方程:得到随机采样点s并进一步进行损失计算。
本发明还提供了一种利用多张彩色图片生成三维网格模型的装置,其特征在于,包括:彩色图片获取部,用于获取待处理的多张不同视角的所述彩色图片以及对应的相机参数;三维网格模型生成部,存储预先训练完成的三维模型生成模型,用于通过所述三维模型生成模型对所述彩色图片以及相应的所述相机参数进行处理从而生成相应的所述三维网格模型,其中,所述三维模型生成模型的训练过程包括:步骤T1,获取训练用的三维模型数据集并完成预处理,所述三维模型数据集包含二维图片以及对应的三维数据;步骤T2,生成初始网格模板;步骤T3,构建用于提取所述二维图像的几何特征以及语义特征的图像特征提取网络;步骤T4,构建图卷积神经网络,该图卷积神经模型包括粗略形状生成网络以及多视角形变网络,所述粗略形状生成网络用于根据所述初始网格模板以及所述语义特征并通过形变生成粗略网格模型,所述多视角形变网络用于对所述粗略网格模型的网格顶点的潜在移动位置进行采样,并利用图像感知特征的特征一致性进行加权评分从而将所述粗略网格模型形变生成精细化网格模型,所述多视角形变网络包括假设点采样层、跨视角感知特征投影层以及形变推断模块;步骤T5,构建损失函数;步骤T6,基于所述损失函数对由所述图像特征提取网络以及所述图卷积神经网络组成的三维模型生成模型进行训练。
发明作用与效果
根据本发明的利用多张彩色图片生成三维网格模型的方法及装置,在获取三维数据、对应的二维图片以及相机参数后,由于通过图像特征提取网络提取二维图片中的几何特征以及语义特征,因此在仅具有少量的图片的情况下尽可能地获取了更多的几何信息,进一步通过构建图卷积神经网络中的粗略形状生成网络,从而基于初始网格模板进行形变生成了粗略网格模型,实现了通过少量图片生成网格模型的突破。进一步,还由于在图卷积神经网络中构建了多视角形变网络,采样粗略网格模型的顶点在不同图片中的特征并计算统计量,并利用该统计信息的一致性推断接下来可能的形变位置,从而对粗略模型进行精细化调整,最终完成三维模型的构建。因此通过本发明的利用多张彩色图片生成三维网格模型的方法及装置,可以针对输入少量不同视角图片的情况生成较好的模型,提升了多张图片生成物体三维网格模型的效果,同时,对添加噪声与平移等扰动后仍然可以生成较好的模型,还具有较好的鲁棒性和算法泛用性。
附图说明
图1是本发明实施例中利用多张彩色图片生成三维网格模型的方法的流程图;
图2是本发明实施例中三维模型生成模型的结构示意图;
图3是本发明实施例中网格模型的顶点以及假设点的示意图;
图4是本发明实施例中跨视角感知特征投影层的示意图;以及
图5是本发明实施例中形变推断模块的示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的利用多张彩色图片生成三维网格模型的方法及装置作具体阐述。
<实施例>
图1是本发明实施例中利用多张彩色图片生成三维网格模型的方法的流程图。
如图1所示,利用多张彩色图片生成三维网格(3D mesh)模型的方法包括如下步骤:
步骤S1,对预先获取的三维模型数据集进行预处理从而得到训练样本,训练样本包含三维数据、对应的二维图片以及相机参数。
本实施例中,三维模型数据集采用已经公开的ShapeNet数据集,该数据集包含常见的物体的计算机辅助设计生成的CAD模型,选取其中13个常见的类别,并按照80:20的比例划分训练用数据集与测试用数据集。
进一步,本实施例使用对训练用数据集完成预处理后得到的合成数据作为训练样本,该训练样本包括CAD模型、对应的根据随机位置的相机参数渲染CAD模型所得到的二维图像以及每张图像对应的相机参数。
步骤S1中进行的预处理的具体过程为:对CAD模型进行采样得到三维点云坐标;将三维点云坐标所在CAD模型的面的法向量设置为点云法向量;根据随机设置的相机外部参数与相同的相机内部参数渲染CAD模型,从而得到每个CAD模型对应的二维图像以及相机参数。
本实施例中,使用渲染软件Blender编程渲染图像,每个CAD模型选取2-5张渲染图片作为对应的二维图像,并获取渲染图片的相机内部参数和外部参数作为相机参数。另外,本实施例还需要带有法向量的点云作为训练网络所使用的标签,首先使用Meshlab软件提供的泊松盘采样在CAD模型上进行采样,得到顶点个数约3000-5000的点云。再使用凸包算法计算点云每个顶点所处的原始CAD模型三角面片的位置,将CAD模型面的法向量作为对应点云顶点的法向量。
步骤S2,生成初始网格模板。
本实施例中,初始网络模板为椭球网格,具体利用隐式参数方程(x2+2*y2+2*(z+0.8)2-0.08=0),使用Meshlab软件进行三角化,最终得到156顶点、308面的椭球网格。
图2是本发明实施例中三维模型生成模型的结构示意图。
本实施例中,在通过上述步骤准备好训练数据以及初始网格模板后,就开始构建能够对进行处理的三维模型生成模型。如图2所示,该模型包括图像特征提取网络以及图卷积神经网络,这两个网络将分别通过如下步骤S3以及步骤S4完成构建。
步骤S3,构建用于提取二维图像的几何特征以及语义特征的图像特征提取网络。
本实施例中,设计了一个18层的二维卷积神经网络作为图像特征提取网络,提取不同层的特征图用于粗略形状生成与精细化调整。图像特征提取网络由二维卷积层与最大池化层以及线性整流单元(ReLU)激活函数组成,每2-3层卷积层后连接池化层进行下采样。
进一步,抽取图像特征提取网络中池化层前的特征图作为输入图片的多尺度特征信息:其中抽取的前三层,包含较大空间尺度与低级信息,作为几何特征;其余因有更高特征维度与较小的空间尺度,作为语义特征。本实施例中,图像特征提取网络包含五个池化层,因此选取提取的第1、2、3层作为几何特征;3、4、5层作为语义特征。
步骤S4,构建用于对步骤S3提取的几何特征以及语义特征进行处理从而生成三维网格模型的图卷积神经网络。
本实施例中,图卷积神经模型包括粗略形状生成网络以及多视角形变网络。
关于粗略形状生成网络,该粗略形状生成网络用于根据步骤S2生成的初始网格模板以及图像特征提取网络提取的语义特征并通过形变生成粗略网格模型。
本实施例中,粗略形状生成网络由从节点数不断增加的三个级联的图卷积神经网络模块组成,网络输出特征为3维,隐含层维度为192,并使用残差连接方式。在椭球网格送入粗略形状生成网络时,每一个图卷积神经网络模块利用语义特征逐级更新椭球顶点位置(即形变椭球网络形状,同时增加网格顶点数量),使其生成粗略三角网格模型。
粗略网格由顶点、边、面组成,并可以有多种来源。本实施例中的粗略网格通过固定为椭球形状的形变模板,利用椭球参数方程三角化得到三维网格,再利用图卷积神经网络对椭球进行粗略形变得到的粗略三角网格模型。在其他实施例中,粗略网格也可以表示为体素模型,先利用三维卷积神经网络从图片特征提取的网络中提取特征,生成粗略的体素栅格,再利用行进立方体算法(Marching Cubes)转换为三角网格而来。
关于多视角形变网络,该多视角形变网络用于对粗略网格模型的网格顶点的潜在移动位置进行采样,并利用图像感知特征的特征一致性进行加权评分从而将粗略网格模型形变生成精细化网格模型。本实施例中,多视角形变网络包括假设点采样层、跨视角感知特征投影层以及形变推断模块。
具体地,跨视角感知特征提取层与假设点采样层用于融合二维与三维表示方式,
首先,为精细化粗略三维网格模型形状,需假设其可能移动位置。因此设计了假设点采样层,如图3所示,以粗略模型的各个顶点为中心,在半径为0.02的空间单位球上均匀采样42个假设候选位置(即假设点)。并以连接临近的采样点与球心,使得假设点直接以及顶点与假设点都组成三角网格,构建用于图卷积计算的局部图(graph)。
其次,由于三维网格表示为三维空间坐标,而图片提取的特征为二维图像坐标,所以需要利用图片相机参数投影三维网格,连接两种坐标。因此设计了跨视角感知特征投影层,利用相机参数,变换三维网格模型的坐标使其投影在对应的图像特征图平面(如图4所示)。以此投影得到的二维图像坐标在各个视角的对应位置的特征图的对应位置提取图像几何特征,最后计算所述三维网格中每一个顶点在不同视角图片(即对应的假设点)的特征图中的统计量作为跨视角的感知特征。
本实施例中,为解决任意数量输入图片问题,本发明计算每一个三维网格节点在不同视角图片特征图中的统计量,如平均值(average)、最大值(maximum)、标准差(standard diviation),并以此作为图神经网络节点的输入特征。
最后,设计形变推断模块,如图5所示,具体来说,以统计量作为输入,使用残差连接的6层图卷积网络进行特征信息交换,从而选取输出特征最一致的假设点,即为位置最可信的假设点,并以此作为精细化调整后的网格模型的顶点位置(即更新模型的顶点坐标)。
本实施例中,由于选取最一致特征需要打分推断机制,同时选取最大值会导致梯度不可导,因此使用软最大值(softmax)层计算对于每个顶点的各个假设点的权重,将所有假设点相对坐标于权重进行加权求和,再与当前顶点坐标相加即得到最可信更新三维网格模型顶点坐标。
将上述形变推断模块级联2次,最后的输出即为精细化后的三维网格模型。
步骤S5,使用三维监督信号构建损失函数。
本实施例中,损失函数包括倒角损失(Chamfer Loss)、边长损失(Edge LengthLoss)、法向量损失(Normal Loss)与拉普拉斯损失(Laplacian Loss)。其中,倒角损失使得顶点接近真实坐标,边长损失防止过长的边,法向量损失使得表面尽可能光滑,拉普拉斯损失使得相邻区域有相近的移动方向。
本实施例中,为针对输出顶点数量与标签顶点数量差异过大的问题,还使用重参数化方法对倒角损失进行改进,从而解决参与计算倒角损失函数顶点数不平衡问题。具体为:
利用2个独立的服从均匀分布的随机变量r1、r2~U[0,1],利用顶点为v1、v2、v3的三角形的重参数化采样方程: 得到随机采样点s。在生成的精细化调整后的三角网格上额外均匀采样4000个点,与2466个顶点共同作为预测值,与标签值进行计算损失。
步骤S6,基于损失函数对由图像特征提取网络以及图卷积神经网络组成的三维模型生成模型进行训练。
本实施例的步骤S6中,使用反向传播算法与梯度下降算法优化三维模型生成模型中的权重参数,从而完成训练。训练时使用Adam优化器对网络进行优化,系数betas=(0.9,0.999),权重衰减系数为1e-5。网络一共训练大约50轮直至收敛,前30轮初始学习率为1e-5,后20轮学习率设置为1e-6。
步骤S7,将多张彩色图片以及对应的相机参数输入三维模型生成模型从而生成三维网格模型。
本实施例中,在三维模型生成模型训练完成后,给定同一物体在不同视角的2-5张图片及对应的相机参数,模型可以直接输出三维网格生成结果。
通过评估生成结果的F-score以及倒角距离,本实施例的三维模型生成模型的性能超过现有多视角模型生成方法以及对单张图片生成三维网格模型的拓展方法。其中F-score评估标准最大值100,值越大越理想,倒角距离数值越小越理想。本实施例中通过测试用数据集进行了具体实验对比,相关实验数据为:
3D-R2N2方法(即背景技术中文[1]所使用的方法):F-score:46.37,倒角距离:1.455;
LSM方法(即背景技术中文[2]所使用的方法):F-score:49.73,倒角距离:0.664;
Pixel2Mesh方法拓展(即背景技术中文[3]所使用的方法):F-score:61.05,倒角距离:0.541;
本实施例的方法:F-score:66.48,倒角距离:0.486。
如上所示,本实施例中利用多张彩色图片生成三维网格模型的方法相对于过去的模型生成方法无疑具有更好的效果。同时,由于本实施例的方法单独分析多视角形变网络,将粗糙网格人工施加噪声或粗糙网格生成算法,模型均能精细化调整从而最终生成较好三维网格模型。即使对未见过的语义类别,也能将粗糙模型进行精细化调整,以得到精细化网格模型。
另外,为了实际使用时更为方便,通过上述步骤S1至S6训练得到的三维模型生成模型还可以打包形成一个三维网格模型生成部,该三维网格模型生成部可以与用于获取彩色图片以及对应的相机参数的彩色图片获取部构成利用多张彩色图片生成三维网格模型的装置(例如一台存储有对应三维网格模型生成部以及彩色图片获取部的可执行程序的计算机),使得彩色图片获取部在获取彩色图片以及相机参数后由三维网格模型生成部进行处理从而生成三维网格模型。
实施例作用与效果
根据本实施例提供的利用多张彩色图片生成三维网格模型的方法,在获取三维数据、对应的二维图片以及相机参数后,由于通过图像特征提取网络提取二维图片中的几何特征以及语义特征,因此在仅具有少量的图片的情况下尽可能地获取了更多的几何信息,进一步通过构建图卷积神经网络中的粗略形状生成网络,从而基于初始网格模板进行形变生成了粗略网格模型,实现了通过少量图片生成网格模型的突破。进一步,还由于在图卷积神经网络中构建了多视角形变网络,采样粗略网格模型的顶点在不同图片中的特征并计算统计量,并利用该统计信息的一致性推断接下来可能的形变位置,从而对粗略模型进行精细化调整,最终完成三维模型的构建。因此通过本实施例的方法,可以针对输入少量不同视角图片的情况生成较好的模型,提升了多张图片生成物体三维网格模型的效果,同时,对添加噪声与平移等扰动后仍然可以生成较好的模型,还具有较好的鲁棒性和算法泛用性。
另外,本实施例的方法中基于特征一致性推断形变的方法也可以应用到现有的其他网络模型中,或可以对粗略模型进行精细化调整,因此更具实用性。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (9)
1.一种利用多张彩色图片生成三维网格模型的方法,用于基于形变推断对多张不同视角的彩色图片以及对应的相机参数进行处理从而生成相应的三维网格模型,其特征在于,包括如下步骤:
步骤S1,对预先获取的三维模型数据集进行预处理从而得到训练样本,所述训练样本包含三维数据、对应的二维图片以及相机参数;
步骤S2,生成初始网格模板;
步骤S3,构建用于提取所述二维图片的几何特征以及语义特征的图像特征提取网络;
步骤S4,构建图卷积神经网络,该图卷积神经模型包括粗略形状生成网络以及多视角形变网络,
所述粗略形状生成网络用于根据所述初始网格模板以及所述语义特征并通过形变生成粗略网格模型,
所述多视角形变网络用于根据所述几何特征对所述粗略网格模型的网格顶点的潜在移动位置进行采样,并利用图像感知特征的特征一致性进行加权评分从而将所述粗略网格模型形变生成精细化网格模型,
所述多视角形变网络包括假设点采样层、跨视角感知特征投影层以及形变推断模块;
步骤S5,构建损失函数;
步骤S6,基于所述损失函数对由所述图像特征提取网络以及所述图卷积神经网络组成的三维模型生成模型进行训练;
步骤S7,将多张所述彩色图片与对应的所述相机参数输入所述三维模型生成模型从而生成所述三维网格模型。
2.根据权利要求1所述的利用多张彩色图片生成三维网格模型的方法,其特征在于:
其中,所述三维数据为多个CAD模型,
所述预处理包括:
对所述CAD模型进行采样得到三维点云坐标;
将所述三维点云坐标所在CAD模型的面的法向量设置为点云法向量;
根据随机设置的相机外部参数与相同的相机内部参数渲染所述CAD模型,从而得到每个所述CAD模型对应的所述二维图片以及所述相机参数。
3.根据权利要求1所述的利用多张彩色图片生成三维网格模型的方法,其特征在于:
其中,多视角形变网络生成所述精细化网格模型的过程包括:
将所述粗略网格模型作为所述多视角形变网络的输入网格模型;
利用所述假设点采样层,对所述网格顶点的潜在移动位置进行采样并作为假设点;
利用所述跨视角感知特征投影层,根据所述相机参数对所述输入网格模型的三维网格进行坐标变换,并计算所述三维网格中每一个顶点在不同视角图片的特征图中的统计量;
利用所述形变推断模块,基于预设的打分推断机制以及所述统计量对所述输入网格模型的每一顶点对应的各个所述假设点的特征一致性进行加权评分,选择最可信点作为精细化调整后的网格模型的顶点位置;
级联2次所述形变推断模块得到最终的所述精细化网格模型。
4.根据权利要求3所述的利用多张彩色图片生成三维网格模型的方法,其特征在于:
其中,所述打分推断机制为:
使用软最大值层计算各个所述假设点的加权权重,并将所述加权权重与所述假设点的坐标相乘,以所有所述假设点的加权位置作为输出的所述最可信点。
5.根据权利要求1所述的利用多张彩色图片生成三维网格模型的方法,其特征在于:
其中,所述初始网格模板为椭球网格,
所述椭球网格使用的椭球参数方程为:
x2+2*y2+2*(z+0.8)2-0.08=0
式中,x、y、z为以椭球中心为原点的右手直角坐标系中空间任意一点的三维坐标,x轴为椭球最长轴平行方向,y轴为垂直向上方向,z轴为椭球最短轴平行方向。
6.根据权利要求1所述的利用多张彩色图片生成三维网格模型的方法,其特征在于:
其中,所述图像特征提取网络为由卷积层与最大池化层及线性整流单元组成的18层全卷积神经网络,
所述图像特征提取网络的五个池化层前的特征图被提取为图像特征,其中第1、2、3个特征图作为所述几何特征,第3、4、5个特征图作为所述语义特征。
7.根据权利要求1所述的利用多张彩色图片生成三维网格模型的方法,其特征在于:
其中,所述粗略形状生成网络由从节点数不断增加的三个级联的图卷积神经网络模块组成,网络输出特征为3维,隐含层维度为192,并使用残差连接方式,
每一个所述图卷积神经网络模块逐级更新所述初始网格模板的顶点位置,最终生成所述粗略网格模型。
9.一种利用多张彩色图片生成三维网格模型的装置,其特征在于,包括:
彩色图片获取部,用于获取待处理的多张不同视角的所述彩色图片以及对应的相机参数;
三维网格模型生成部,存储预先训练完成的三维模型生成模型,用于通过所述三维模型生成模型对所述彩色图片以及相应的所述相机参数进行处理从而生成相应的所述三维网格模型,
其中,所述三维模型生成模型的训练过程包括:
步骤T1,获取训练用的三维模型数据集并完成预处理,所述三维模型数据集包含二维图片以及对应的三维数据;
步骤T2,生成初始网格模板;
步骤T3,构建用于提取所述二维图片的几何特征以及语义特征的图像特征提取网络;
步骤T4,构建图卷积神经网络,该图卷积神经模型包括粗略形状生成网络以及多视角形变网络,
所述粗略形状生成网络用于根据所述初始网格模板以及所述语义特征并通过形变生成粗略网格模型,
所述多视角形变网络用于对所述粗略网格模型的网格顶点的潜在移动位置进行采样,并利用图像感知特征的特征一致性进行加权评分从而将所述粗略网格模型形变生成精细化网格模型,
所述多视角形变网络包括假设点采样层、跨视角感知特征投影层以及形变推断模块;
步骤T5,构建损失函数;
步骤T6,基于所述损失函数对由所述图像特征提取网络以及所述图卷积神经网络组成的三维模型生成模型进行训练。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911335173.8A CN113096234B (zh) | 2019-12-23 | 2019-12-23 | 利用多张彩色图片生成三维网格模型的方法及装置 |
US16/882,477 US10885707B1 (en) | 2019-07-23 | 2020-05-23 | Network, system and method for multi-view 3D mesh generation via deformation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911335173.8A CN113096234B (zh) | 2019-12-23 | 2019-12-23 | 利用多张彩色图片生成三维网格模型的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096234A CN113096234A (zh) | 2021-07-09 |
CN113096234B true CN113096234B (zh) | 2022-09-06 |
Family
ID=74195209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911335173.8A Active CN113096234B (zh) | 2019-07-23 | 2019-12-23 | 利用多张彩色图片生成三维网格模型的方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10885707B1 (zh) |
CN (1) | CN113096234B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3671660A1 (en) * | 2018-12-20 | 2020-06-24 | Dassault Systèmes | Designing a 3d modeled object via user-interaction |
US11238650B2 (en) * | 2020-03-13 | 2022-02-01 | Nvidia Corporation | Self-supervised single-view 3D reconstruction via semantic consistency |
CN112861722B (zh) * | 2021-02-09 | 2022-02-22 | 中国科学院地理科学与资源研究所 | 一种半监督深度图卷积的遥感土地利用语义分割方法 |
US20220301205A1 (en) * | 2021-03-16 | 2022-09-22 | International Business Machines Corporation | Depth map generation from sparse depth samples in an augmented reality environment |
CN113011516A (zh) * | 2021-03-30 | 2021-06-22 | 华南理工大学 | 基于图拓扑的三维网格模型分类方法、装置和存储介质 |
CN113808006B (zh) * | 2021-09-01 | 2023-05-23 | 南京信息工程大学 | 一种基于二维图像重建三维网格模型的方法及装置 |
US20230081641A1 (en) * | 2021-09-10 | 2023-03-16 | Nvidia Corporation | Single-image inverse rendering |
CN113808275B (zh) * | 2021-09-24 | 2023-10-13 | 南京信息工程大学 | 一种基于gcn与拓扑修改的单图像三维重建方法 |
CN113780584B (zh) * | 2021-09-28 | 2024-03-05 | 京东科技信息技术有限公司 | 标签预测方法、设备、存储介质 |
US20230104702A1 (en) * | 2021-10-01 | 2023-04-06 | Disney Enterprises, Inc. | Transformer-based shape models |
CN114417021B (zh) * | 2022-01-24 | 2023-08-25 | 中国电子科技集团公司第五十四研究所 | 一种基于时、空、义多约束融合的语义信息精准分发方法 |
TWI817335B (zh) * | 2022-01-25 | 2023-10-01 | 宏碁股份有限公司 | 立體影像播放裝置及其立體影像產生方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510573A (zh) * | 2018-04-03 | 2018-09-07 | 南京大学 | 一种基于深度学习的多视点人脸三维模型重建的方法 |
CN110458957A (zh) * | 2019-07-31 | 2019-11-15 | 浙江工业大学 | 一种基于神经网络的图像三维模型构建方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101697184B1 (ko) * | 2010-04-20 | 2017-01-17 | 삼성전자주식회사 | 메쉬 생성 장치 및 그 방법, 그리고, 영상 처리 장치 및 그 방법 |
US8781552B2 (en) * | 2011-10-12 | 2014-07-15 | Siemens Aktiengesellschaft | Localization of aorta and left atrium from magnetic resonance imaging |
CN109715055B (zh) * | 2016-05-03 | 2022-01-04 | 阿库图森医疗有限公司 | 具有效率算法的心脏标测系统 |
CN111801708B (zh) * | 2017-12-22 | 2022-04-29 | 奇跃公司 | 使用光线投射和实时深度进行遮挡渲染的方法 |
CN109147048B (zh) * | 2018-07-23 | 2021-02-26 | 复旦大学 | 一种利用单张彩色图的三维网格重建方法 |
CN110021069B (zh) * | 2019-04-15 | 2022-04-15 | 武汉大学 | 一种基于网格形变的三维模型重建方法 |
CN110288695B (zh) * | 2019-06-13 | 2021-05-28 | 电子科技大学 | 基于深度学习的单帧图像三维模型表面重建方法 |
CN110443892B (zh) * | 2019-07-25 | 2021-06-04 | 北京大学 | 一种基于单张图像的三维网格模型生成方法及装置 |
CN110570522B (zh) * | 2019-08-22 | 2023-04-07 | 天津大学 | 一种多视图三维重建方法 |
CN110543581B (zh) * | 2019-09-09 | 2023-04-04 | 山东省计算中心(国家超级计算济南中心) | 基于非局部图卷积网络的多视图三维模型检索方法 |
-
2019
- 2019-12-23 CN CN201911335173.8A patent/CN113096234B/zh active Active
-
2020
- 2020-05-23 US US16/882,477 patent/US10885707B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510573A (zh) * | 2018-04-03 | 2018-09-07 | 南京大学 | 一种基于深度学习的多视点人脸三维模型重建的方法 |
CN110458957A (zh) * | 2019-07-31 | 2019-11-15 | 浙江工业大学 | 一种基于神经网络的图像三维模型构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113096234A (zh) | 2021-07-09 |
US10885707B1 (en) | 2021-01-05 |
US20210027536A1 (en) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113096234B (zh) | 利用多张彩色图片生成三维网格模型的方法及装置 | |
Kazhdan et al. | Poisson surface reconstruction with envelope constraints | |
CN111063021B (zh) | 一种空间运动目标的三维重建模型建立方法及装置 | |
CN108038906B (zh) | 一种基于图像的三维四边形网格模型重建方法 | |
Bischoff et al. | Automatic restoration of polygon models | |
CN104268934B (zh) | 一种由点云直接重建三维曲面的方法 | |
CN110443892B (zh) | 一种基于单张图像的三维网格模型生成方法及装置 | |
CN110223370B (zh) | 一种从单视点图片生成完整人体纹理贴图的方法 | |
CN106780751A (zh) | 基于改进的屏蔽泊松算法的三维点云重建方法 | |
EP3736776B1 (en) | Apparatus, system and method for the generation of polygonal meshes | |
Zhang et al. | Critical regularizations for neural surface reconstruction in the wild | |
JP7294788B2 (ja) | 3d配置のタイプに応じた2d画像の分類 | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
Häne et al. | Hierarchical surface prediction | |
CN116958453B (zh) | 基于神经辐射场的三维模型重建方法、设备和介质 | |
CN111028335B (zh) | 一种基于深度学习的点云数据的分块面片重建方法 | |
Wang et al. | Restricted delaunay triangulation for explicit surface reconstruction | |
CN108986210B (zh) | 三维场景重建的方法和设备 | |
US20220375163A1 (en) | Computationally-Efficient Generation of Simulations of Cloth-Like Materials Using Bilinear Element Models | |
CN116681839B (zh) | 一种基于改进NeRF的实景三维目标重建与单体化方法 | |
JP7177020B2 (ja) | 画像処理装置、方法及びプログラム | |
CN116758219A (zh) | 基于神经网络的区域感知多视角立体匹配三维重建方法 | |
CN113808006B (zh) | 一种基于二维图像重建三维网格模型的方法及装置 | |
Sahebdivani et al. | Deep learning based classification of color point cloud for 3D reconstruction of interior elements of buildings | |
Agarwal et al. | GAMesh: Guided and augmented meshing for deep point networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |