CN112927357A - 一种基于动态图网络的3d物体重建方法 - Google Patents

一种基于动态图网络的3d物体重建方法 Download PDF

Info

Publication number
CN112927357A
CN112927357A CN202110244678.4A CN202110244678A CN112927357A CN 112927357 A CN112927357 A CN 112927357A CN 202110244678 A CN202110244678 A CN 202110244678A CN 112927357 A CN112927357 A CN 112927357A
Authority
CN
China
Prior art keywords
layer
feature
graph
coordinate
relation matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110244678.4A
Other languages
English (en)
Other versions
CN112927357B (zh
Inventor
匡平
彭亮
顾小丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110244678.4A priority Critical patent/CN112927357B/zh
Priority to US17/243,594 priority patent/US11715258B2/en
Publication of CN112927357A publication Critical patent/CN112927357A/zh
Application granted granted Critical
Publication of CN112927357B publication Critical patent/CN112927357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态图网络的3D物体重建方法,物体的二维图像I首先经过图像特征提取;然后进行图网络输入数据准备:预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征得到特征输入X,并构建对应的关系矩阵A;然后将特征输入X及对应的关系矩阵A送入动态图网络对每个顶点的特征进行融合和推理,融合生成新的关系矩阵
Figure DDA0002963641360000011
最后根据动态图网络输出的特征输出Z经过3D坐标回归层回归出每个顶点的位置。本发明解决了图网络中初始关系矩阵A缺少必要邻居节点信息以及不能适应于对应物体的网格关系的缺点,这样提升重建的准确率以及效果,重建出来的3D网格模型具有完整、光滑等特点,能够适用于游戏,无人机,动画等实际应用中。

Description

一种基于动态图网络的3D物体重建方法
技术领域
本发明属于3D物体重建技术领域,更为具体地讲,涉及一种基于动态图网络的3D物体重建方法。
背景技术
3D物体重建目的是利用物体的二维图像推断出其三维结构,现有3D物体重建方法主要是利用多视角几何学的角度关系对三维结构进行推断,比如【Yasutaka Furukawa andJean Ponce.Accurate,dense,and robust multiview stereopsis.IEEE transactionson pattern analysis and machine intelligence,32(8):1362–1376,2010】。虽然该3D物体重建方法可以实现高质量的3D物体重建,但受限于专业的设备以及完整的多视角数据,无法推广到基于单张二维图像的3D物体重建中去。
近期,Nanyang Wang等人通过图卷积神经网络,建立一种端到端的深度学习架构,从单一彩色图像生成一个基于网格表示的三维模型,实现单张二维图像的3D物体重建【Nanyang Wang,Yinda Zhang,Zhuwen Li,Yanwei Fu,Wei Liu,and Yu-GangJiang.Pixel2mesh:Generating 3d mesh models from single rgb images.InProceedings of the European Conference on Computer Vision(ECCV),pages 52–67,2018.】。如图1所示,该3D物体重建方法基于图卷积神经网络,通过逐步变形初始椭球体,最后生成正确的几何形状即三维结构。但是该3D物体重建方法中,图卷积神经网络中的初始关系矩阵缺少必要邻居节点信息即初始图信息不全,导致其不能适应于对应物体的网格关系,限制了其推理效果。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于动态图网络的3D物体重建方法,通过健全初始图信息,以适应于对应物体的网格关系,从而提升重建的准确率和效果。
为实现上述发明目的,本发明基于动态图网络的3D物体重建方法,其特征在于,包括以下步骤:
(1)、图像特征提取
对物体的二维图像I进行图像特征提取,得到一张特征图,该特征图包括N个D维度的特征向量F1,F2,...,FN,以及每个特征向量Fn对应图像区域的中心位置坐标xn,yn(特征向量坐标),其中,特征向量Fn为列向量,n=1,2,..,N;
(2)、动态图网络输入数据准备
预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征:对于第k个顶点,根据其水平坐标x′k、垂直坐标y′k,在特征图上找到距离最近的特征向量坐标xk′,yk′,k′∈{1,2,...N},然后,将特征向量Fk′与第k个顶点的水平坐标x′k、垂直坐标y′k以及高度坐标z′k连接为一个特征向量Xk,其维度为c1,c1=D+3,得到特征输入X,X={X1,X2,...,XN};
构建特征输入X对应的关系矩阵A,其中,关系矩阵A=(Aij)N×N,对于关系矩阵A中元素Aij:如果第i个顶点、第j个顶点之间有边连接或第i个顶点的特征向量Xi、第j个顶点的特征向量Xj之间存在近邻关系(距离小于设定的阈值ε),则元素Aij=1,否则元素Aij=0;
(3)、动态图网络中进行特征映射和卷积
所述动态图网络(动态图卷积神经网络)包括动态图学习层以及两层图卷积层;
3.1)、在动态图学习层中,首先通过一组可学习的参数θ对特征输入X进行特征映射:对于特征输入X的第i个特征向量Xi,则映射得到特征向量hi:hi=θTXi,其中,参数θ为c1×c2大小的矩阵,c2为距离空间中的特征维度;然后度量顶点与顶点之间的距离,得到关系矩阵S,其中,关系矩阵S=(Sij)N×N,对于关系矩阵S中元素Sij,其值为:
Figure BDA0002963641340000021
其中,d2()为特征向量之间距离度量函数,exp{}为指数函数;
再对关系矩阵S进行归一化,对于归一化后的元素
Figure BDA0002963641340000022
Figure BDA0002963641340000023
并对每一行的N个元素
Figure BDA0002963641340000031
进行选取,保留最大的K个值,其余的置为0,这样得到关系矩阵
Figure BDA0002963641340000032
其中,关系矩阵
Figure BDA0002963641340000033
最后,将关系矩阵
Figure BDA0002963641340000034
与关系矩阵A融合,生成新的关系矩阵
Figure BDA0002963641340000035
Figure BDA0002963641340000036
其中,η为用来平衡关系矩阵A与关系矩阵
Figure BDA0002963641340000037
的超参数,根据具体实施情况确定;
3.2)、在两层图卷积层中,用新的关系矩阵
Figure BDA0002963641340000038
对特征输入X进行两层图卷积操作,得到特征输出Z:
Figure BDA0002963641340000039
其中,特征输出Z为N列向量构成的矩阵,
Figure BDA00029636413400000310
为第一层图卷积层的输出,并作为第二层图卷积层的输入,W(1)为第一层图卷积层的可学习线性映射参数,W(2)为第二层图卷积层的可学习线性映射参数,σ()激活函数;
(4)、3D坐标回归层中进行线性回归映射
将特征输出Z的N个列向量Zi,i=1,2,…,N,分别作为输入送入3D坐标回归层中进行线性回归映射,输出特征维度为3的坐标向量Pi,i=1,2,…,N,对应第i个顶点的预测3D坐标;
(5)、训练动态图网络
5.1)、构建图学习损失函数Lgraph
Figure BDA00029636413400000311
其中,Zi、Zj分别为特征输出Z的第i列向量、第j列向量,|Zi-Zj|表示求第i列向量、第j列向量的欧式距离,||||F表示求范数;
5.2)、不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)进行处理,然后依据图学习损失函数Lgraph,利用梯度下降算法进行反向传播,更新动态图学习层可学习参数θ以及两层图卷积层中的可学习线性映射参数W(1)、W(2),当图学习损失函数Lgraph的值不再减小(损失值收敛)时,停止更新,完成动态图网络训练;
(6)、训练3D坐标回归层
在完成动态图网络后,不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,使用Chamfer distance损失函数,度量各顶点预测3D坐标与各顶点真实3D坐标的距离,利用梯度下降算法进行反向传播,更新整个3D坐标回归层的网络参数,当Chamfer distance损失函数的值不再减小,停止更新,完成3D坐标回归层训练;
(7)、3D物体重建
在完成动态图网络、3D坐标回归层训练后,对于物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,得到N个顶点的预测3D坐标,得到物体的3D网格模型,从而完成3D物体重建。
本发明的目的是这样实现的。
本发明基于动态图网络的3D物体重建方法,物体的二维图像I首先经过图像特征提取,得到特征向量;然后进行图网络输入数据准备:预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征得到特征输入X,并构建对应的关系矩阵A;然后将特征输入X及对应的关系矩阵A送入动态图网络对每个顶点的特征进行融合和推理,融合,生成新的关系矩阵
Figure BDA0002963641340000041
并且根据基于图拉普拉斯正则化对图的边进行更新,发现潜在的边关系,用于后面的图卷积操作,改善初始图信息不全,不能很好地适用与对应物体的网格关系,从而提升重建的准确率以及效果;最后根据动态图网络输出的特征输出Z经过3D坐标回归层回归出每个顶点的位置即预测3D坐标。即给定一张物体的二维图像I,输出对应的N个顶点的预测3D坐标,得到物体的3D网格模型,从而完成3D物体重建。本发明重点解决了图网络中初始关系矩阵A缺少必要邻居节点信息以及不能适应于对应物体的网格关系的缺点,这样重建出来的3D网格模型具有完整、光滑等特点,能够适用于游戏,无人机,动画等实际应用中。
附图说明
图1是现有技术中一种端到端的深度学习架构示意图;
图2是本发明基于动态图网络的3D物体重建方法一种具体实施方式流程图;
图3是图1所示动态图网络输入数据准备的示意图
图4是图1所示3D物体重建的流程图;
图5是图1所示3D物体重建的原理示意图;
图6是采用本发明重建的物体的3D网格模型的效果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
在本实施例中,如图2所示,本发明基于动态图网络的3D物体重建方法包括以下步骤:
步骤S1:图像特征提取
对物体的二维图像I进行图像特征提取,得到一张特征图,该特征图包括N个D维度的特征向量F1,F2,...,FN,以及每个特征向量Fn对应图像区域的中心位置坐标xn,yn(特征向量坐标),其中,特征向量Fn为列向量,n=1,2,..,N。
在本实施例中,物体的二维图像I在进行图像特征提取之前需要进行图像预处理:用现有成熟算法,对物体的二维图像I进行增强、裁剪与统一。在本实施例中,具体裁剪与统一如下:①、将物体的二维图像I裁剪成大小为256×256的图像,通过边缘检测算法,去除背景区域颜色,用绿色填充;②、对物体的二维图像I进行色彩归一化,统一图像的像素值符合高斯分布。
在本实施例中,将预处理后的二维图像I图像,输入到已经用ImageNet图像数据库训练好的残差网络(Residual Network)ResNet50模型进行特征提取。ResNet50模型由多个3x3卷积层、激活函数层以及批量归一化层组成,同时包含短路连接,将上层特征与下层特征相连接。ResNet模型通常由多个块(Block)组成,在本实施例中,为了获取与图像区域对应的特征,去掉最后一个块(Block)Block,最后得到一张16×16个512维度的特征向量的特征图,该特征图包括N=16×16个D=512维度的特征向量F1,F2,...,F256,以及每个特征向量Fn对应图像区域的中心位置坐标xn,yn(特征向量坐标)。
步骤S2:动态图网络输入数据准备
如图3所示,预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征:对于第k个顶点,根据其水平坐标x′k、垂直坐标y′k,在特征图上找到距离最近的特征向量坐标xk′,yk′,k′∈{1,2,...N},然后,将特征向量Fk′与第k个顶点的水平坐标x′k、垂直坐标y′k以及高度坐标z′k连接为一个特征向量Xk,其维度为c1,c1=D+3,得到特征输入X,X={X1,X2,...,XN}。在本实施例中,维度c1=512+3=256。
构建特征输入X对应的关系矩阵A,其中,关系矩阵A=(Aij)N×N,对于关系矩阵A中元素Aij:如果第i个顶点、第j个顶点之间有边连接或第i个顶点的特征向量Xi、第j个顶点的特征向量Xj之间存在近邻关系(距离小于设定的阈值ε),则元素Aij=1,否则元素Aij=0。
在本实施例中,椭球体网格模型包括256个顶点以及6×256条边。
步骤S3:动态图网络中进行特征映射和卷积
所述动态图网络包括动态图学习层以及两层图卷积层;
步骤S3.1:在动态图学习层中,首先通过一组可学习的参数θ对特征输入X进行特征映射:对于特征输入X的第i个特征向量Xi,则映射得到特征向量hi:hi=θTXi,其中,参数θ为c1×c2大小的矩阵,c2为距离空间中的特征维度;然后度量顶点与顶点之间的距离,得到关系矩阵S,其中,关系矩阵S=(Sij)N×N,对于关系矩阵S中元素Sij,其值为:
Figure BDA0002963641340000061
其中,d2()为特征向量之间距离度量函数,exp{}为指数函数。
再对关系矩阵S进行归一化,对于归一化后的元素
Figure BDA0002963641340000062
Figure BDA0002963641340000063
并对每一行的N个元素
Figure BDA0002963641340000064
进行选取,保留最大的K个值,其余的置为0,这样得到关系矩阵
Figure BDA0002963641340000065
其中,关系矩阵
Figure BDA0002963641340000066
对于每个顶点,过多的邻居顶点,会在特征聚合的过程中造成图过度平滑问题,使得所有顶点的特征都趋于一样,导致动态图网络训练失败。因此,本发明从而对关系矩阵进行稀疏化:根据距离,归一化每个邻居顶点的权重,对每个顶点,保留和此顶点最近的K个顶点,去掉其余链接。
最后,将关系矩阵
Figure BDA0002963641340000067
与关系矩阵A融合,生成新的关系矩阵
Figure BDA0002963641340000068
Figure BDA0002963641340000069
其中,η为用来平衡关系矩阵A与关系矩阵
Figure BDA0002963641340000071
的超参数,根据具体实施情况确定。
步骤S3.2:在两层图卷积层中,用新的关系矩阵
Figure BDA0002963641340000072
对特征输入X进行两层图卷积操作,得到特征输出Z:
Figure BDA0002963641340000073
其中,特征输出Z为N列向量构成的矩阵,
Figure BDA0002963641340000074
为第一层图卷积层的输出,并作为第二层图卷积层的输入,W(1)为第一层图卷积层的可学习线性映射参数,W(2)为第二层图卷积层的可学习线性映射参数,σ()激活函数。
其中,特征输入X与W(1)相乘为线性映射,与关系矩阵
Figure BDA0002963641340000075
相乘为邻居节点特征聚合
步骤S4:3D坐标回归层中进行线性回归映射
将特征输出Z的N个列向量Zi,i=1,2,…,N,分别作为输入送入3D坐标回归层中进行线性回归映射,输出特征维度为3的坐标向量Pi,i=1,2,…,N,对应第i个顶点的预测3D坐标。
步骤S5:训练动态图网络
步骤S5.1:构建图学习损失函数Lgraph
Figure BDA0002963641340000076
其中,Zi、Zj分别为特征输出Z的第i列向量、第j列向量,|Zi-Zj|表示求第i列向量、第j列向量的欧式距离,||||F表示求范数。
步骤S5.2:不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)进行处理,然后依据图学习损失函数Lgraph,利用梯度下降算法进行反向传播,更新动态图学习层可学习参数θ以及两层图卷积层中的可学习线性映射参数W(1)、W(2),当图学习损失函数Lgraph的值不再减小(损失值收敛)时,停止更新,完成动态图网络训练。
传统的图网络(图卷积神经网络)需要输入特征输入X以及对应的关系矩阵A,关系矩阵A作为特征聚合的操作输入,而在整个过程中关系矩阵A是不变的、固定的。也就意味着初始的关系矩阵A对特征传递和聚合过程有很大的影响,而初始的关系矩阵A存在信息不全(比如缺少边)以及不能很好地对应于物体的网格关系的缺点,于是本发明设计和提出了一种基于动态图网络的3D物体重建方法。和传统的基于图卷积神经网络的3D物体重建方法不同,动态图网络会对每个顶点的特征进行一次映射,并且根据基于图拉普拉斯正则化对图的边进行更新,发现潜在的边关系,经过距离计算以及对生成的潜在图进行稀疏化,最后与初始的关系矩阵A进行融合得到新的关系矩阵
Figure BDA0002963641340000081
用于后面的图卷积操作。新的关系矩阵
Figure BDA0002963641340000082
相比与初始的关系矩阵A,改善了初始的关系矩阵A的信息不全,能够更好地适用于对应物体的网格关系,从而提升重建的准确率以及效果。
步骤S6:训练3D坐标回归层
在完成动态图网络后,不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,使用Chamfer distance损失函数,度量各顶点预测3D坐标与各顶点真实3D坐标的距离,利用梯度下降算法进行反向传播,更新整个3D坐标回归层的网络参数,当Chamfer distance损失函数的值不再减小(损失值收敛)时,停止更新,完成3D坐标回归层训练。
Chamfer distance损失函数用于度量预测值与真实值的距离,其表达式为:
Figure BDA0002963641340000083
其中,M代表预测顶点集合,G代表真实顶点集合。对于一个顶点集合中每一个顶点,Chamfer distance损失函数找到另一个顶点集合中最近的点,然后把距离的平方相加。第一项代表预测顶点集合中每个顶点p到真实顶点集合中最近点距离之和,第二项则表示真实顶点集合中每个顶点q到预测顶点集合最近点距离之和的。如果距离L较大,则说明预测顶点集合与真实顶点集合区别较大;如果距离L较小,则说明预测顶点集合与真实顶点集合区别较小,则说明重建效果较好。Chamfer distance倒角距离主要用于点云重建或者3D重建工作。
在本实施例中,Chamfer distance损失函数为Lregress
Figure BDA0002963641340000084
其中,Qi*为到第i坐标向量Pi最近的真实3D坐标构成的坐标向量,Pi*为到第i个顶点真实3D坐标对应的坐标向量Qi最近的坐标向量,Qi为第i个顶点真实3D坐标构成的坐标向量;
步骤S7:3D物体重建
如图4、5所示,在完成动态图网络、3D坐标回归层训练后,对于物体的二维图像I,按照步骤S0、S1、S2、S3、S4进行处理:图像预处理、图像特征提取、动态图网络输入数据准备、动态图网络中进行特征映射和卷积以及3D坐标回归层中进行线性回归映射,得到N个顶点的预测3D坐标即(x,y,z)的值,得到物体的3D网格模型,从而完成3D物体重建。
其中,图4所示,动态图网络包括动态学习层以及两层图卷积层。在动态学习层中进行特征映射、距离度量、稀疏化以及关系矩阵融合,学习得到新的关系矩阵
Figure BDA0002963641340000091
发现潜在的边关系;在图卷积层中,进行特征映射和邻居节点特征融合,得到特征输出Z。具体的3D物体重建的原理示意图如图5所示。
采用本发明,对部分物体的二维图像I进行处理,得到物体的3D网格模型,然后转换为重建效果图,如图6所示。从图6可以看出,本发明重建出来的3D网格模型具有完整、光滑等特点,能够适用于游戏,无人机,动画等实际应用中。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于动态图网络的3D物体重建方法,其特征在于,包括以下步骤:
(1)、图像特征提取
对物体的二维图像I进行图像特征提取,得到一张特征图,该特征图包括N个D维度的特征向量F1,F2,...,FN,以及每个特征向量Fn对应图像区域的中心位置坐标xn,yn(特征向量坐标),其中,特征向量Fn为列向量,n=1,2,..,N;
(2)、动态图网络输入数据准备
预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征:对于第k个顶点,根据其水平坐标x′k、垂直坐标y′k,在特征图上找到距离最近的特征向量坐标xk′,yk′,k′∈{1,2,...N},然后,将特征向量Fk′与第k个顶点的水平坐标x′k、垂直坐标y′k以及高度坐标z′k连接为一个特征向量Xk,其维度为c1,c1=D+3,得到特征输入X,X={X1,X2,...,XN};
构建特征输入X对应的关系矩阵A,其中,关系矩阵A=(Aij)N×N,对于关系矩阵A中元素Aij:如果第i个顶点、第j个顶点之间有边连接或第i个顶点的特征向量Xi、第j个顶点的特征向量Xj之间存在近邻关系(距离小于设定的阈值ε),则元素Aij=1,否则元素Aij=0;
(3)、动态图网络中进行特征映射和卷积
所述动态图网络(动态图卷积神经网络)包括动态图学习层以及两层图卷积层;
3.1)、在动态图学习层中,首先通过一组可学习的参数θ对特征输入X进行特征映射:对于特征输入X的第i个特征向量Xi,则映射得到特征向量hi:hi=θTXi,其中,参数θ为c1×c2大小的矩阵,c2为距离空间中的特征维度;然后度量顶点与顶点之间的距离,得到关系矩阵S,其中,关系矩阵S=(Sij)N×N,对于关系矩阵S中元素Sij,其值为:
Figure FDA0002963641330000011
其中,d2()为特征向量之间距离度量函数,exp{}为指数函数;
再对关系矩阵S进行归一化,对于归一化后的元素
Figure FDA0002963641330000012
Figure FDA0002963641330000021
并对每一行的N个元素
Figure FDA0002963641330000022
进行选取,保留最大的K个值,其余的置为0,这样得到关系矩阵
Figure FDA00029636413300000210
其中,关系矩阵
Figure FDA0002963641330000023
最后,将关系矩阵
Figure FDA00029636413300000211
与关系矩阵A融合,生成新的关系矩阵
Figure FDA0002963641330000024
Figure FDA0002963641330000025
其中,η为用来平衡关系矩阵A与关系矩阵S的超参数,根据具体实施情况确定;
3.2)、在两层图卷积层中,用新的关系矩阵
Figure FDA0002963641330000029
对特征输入X进行两层图卷积操作,得到特征输出Z:
Figure FDA0002963641330000026
其中,特征输出Z为N列向量构成的矩阵,
Figure FDA0002963641330000027
为第一层图卷积层的输出,并作为第二层图卷积层的输入,W(1)为第一层图卷积层的可学习线性映射参数,W(2)为第二层图卷积层的可学习线性映射参数,σ()激活函数;
(4)、3D坐标回归层中进行线性回归映射
将特征输出Z的N个列向量Zi,i=1,2,…,N,分别作为输入送入3D坐标回归层中进行线性回归映射,输出特征维度为3的坐标向量Pi,i=1,2,…,N,对应第i个顶点的预测3D坐标;
(5)、训练动态图网络
5.1)、构建图学习损失函数Lgraph
Figure FDA0002963641330000028
其中,Zi、Zj分别为特征输出Z的第i列向量、第j列向量,|Zi-Zj|表示求第i列向量、第j列向量的欧式距离,|| ||F表示求范数;
5.2)、不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)进行处理,然后依据图学习损失函数Lgraph,利用梯度下降算法进行反向传播,更新动态图学习层可学习参数θ以及两层图卷积层中的可学习线性映射参数W(1)、W(2),当图学习损失函数Lgraph的值不再减小(损失值收敛)时,停止更新,完成动态图网络训练;
(6)、训练3D坐标回归层
在完成动态图网络后,不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,使用Chamfer distance损失函数,度量各顶点预测3D坐标与各顶点真实3D坐标的距离,利用梯度下降算法进行反向传播,更新整个3D坐标回归层的网络参数,当Chamferdistance损失函数的值不再减小,停止更新,完成3D坐标回归层训练;
(7)、3D物体重建
在完成动态图网络、3D坐标回归层训练后,对于物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,得到N个顶点的预测3D坐标,得到物体的3D网格模型,从而完成3D物体重建。
2.根据权利要求1所述的基于动态图网络的3D物体重建方法,其特征在于,物体的二维图像I在进行图像特征提取之前需要进行图像预处理:
用现有成熟算法,对物体的二维图像I进行增强、裁剪与统一,所述裁剪与统一为:①、将物体的二维图像I裁剪成大小为256×256的图像,通过边缘检测算法,去除背景区域颜色;②、对物体的二维图像I进行色彩归一化,统一图像的像素值符合高斯分布。
CN202110244678.4A 2021-03-05 2021-03-05 一种基于动态图网络的3d物体重建方法 Active CN112927357B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110244678.4A CN112927357B (zh) 2021-03-05 2021-03-05 一种基于动态图网络的3d物体重建方法
US17/243,594 US11715258B2 (en) 2021-03-05 2021-04-29 Method for reconstructing a 3D object based on dynamic graph network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110244678.4A CN112927357B (zh) 2021-03-05 2021-03-05 一种基于动态图网络的3d物体重建方法

Publications (2)

Publication Number Publication Date
CN112927357A true CN112927357A (zh) 2021-06-08
CN112927357B CN112927357B (zh) 2022-04-19

Family

ID=76173452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110244678.4A Active CN112927357B (zh) 2021-03-05 2021-03-05 一种基于动态图网络的3d物体重建方法

Country Status (2)

Country Link
US (1) US11715258B2 (zh)
CN (1) CN112927357B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610711A (zh) * 2021-08-02 2021-11-05 南京信息工程大学 一种单图像引导的三维表面重建方法及装置
CN113808275A (zh) * 2021-09-24 2021-12-17 南京信息工程大学 一种基于gcn与拓扑修改的单图像三维重建方法
CN114972366A (zh) * 2022-07-27 2022-08-30 山东大学 基于图网络的大脑皮层表面全自动分割方法及系统
CN115761116A (zh) * 2022-11-03 2023-03-07 云南大学 一种基于单目相机的透视投影下三维人脸重建方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019161562A1 (en) * 2018-02-26 2019-08-29 Intel Corporation Object detection with image background subtracted
CN110866526A (zh) * 2018-08-28 2020-03-06 北京三星通信技术研究有限公司 图像分割方法、电子设备及计算机可读存储介质
EP3923183A1 (en) * 2020-06-11 2021-12-15 Tata Consultancy Services Limited Method and system for video analysis
US20220222852A1 (en) * 2020-12-03 2022-07-14 Tata Consultancy Services Limited Methods and systems for generating end-to-end model to estimate 3-dimensional(3-d) pose of object
CN113792980B (zh) * 2021-08-18 2023-07-18 国网四川省电力公司 一种工程设计文件工作量评估方法及系统
CN114373056A (zh) * 2021-12-17 2022-04-19 云南联合视觉科技有限公司 一种三维重建方法、装置、终端设备及存储介质
CN114842326B (zh) * 2022-03-21 2024-04-02 华南农业大学 一种免定标檀香树植株缺苗定位方法
CO2022011603A1 (es) * 2022-08-17 2024-02-26 Univ Simon Bolivar Proceso de inteligencia artificial para pronosticar el tamaño de objetos
CN116502548B (zh) * 2023-06-29 2023-09-15 湖北工业大学 一种基于深度学习的三维玩具设计方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101948A (zh) * 2018-08-28 2018-12-28 电子科技大学 一种基于时空及通道的多注意力机制视频描述方法
CN109544598A (zh) * 2018-11-21 2019-03-29 电子科技大学 目标跟踪方法、装置及可读存储介质
CN110352430A (zh) * 2017-04-07 2019-10-18 英特尔公司 使用合成数据和创新生成网络进行深度神经网络的高级和增强训练的方法和系统
CN110516681A (zh) * 2018-05-21 2019-11-29 孙民 影像特征提取方法及其显著物体预测方法
CN111506689A (zh) * 2020-04-13 2020-08-07 腾讯科技(深圳)有限公司 基于人工智能的电子地图渲染方法、装置及电子设备
WO2020200082A1 (zh) * 2019-03-29 2020-10-08 广州虎牙信息科技有限公司 直播互动方法、装置、直播系统及电子设备
CN112053391A (zh) * 2020-09-11 2020-12-08 中德(珠海)人工智能研究院有限公司 一种基于动态三维模型的监控预警方法、系统及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022096105A1 (en) * 2020-11-05 2022-05-12 Huawei Technologies Co., Ltd. 3d tongue reconstruction from single images
KR102352942B1 (ko) * 2021-01-13 2022-01-19 셀렉트스타 주식회사 객체 경계정보의 주석을 입력하는 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110352430A (zh) * 2017-04-07 2019-10-18 英特尔公司 使用合成数据和创新生成网络进行深度神经网络的高级和增强训练的方法和系统
CN110516681A (zh) * 2018-05-21 2019-11-29 孙民 影像特征提取方法及其显著物体预测方法
CN109101948A (zh) * 2018-08-28 2018-12-28 电子科技大学 一种基于时空及通道的多注意力机制视频描述方法
CN109544598A (zh) * 2018-11-21 2019-03-29 电子科技大学 目标跟踪方法、装置及可读存储介质
WO2020200082A1 (zh) * 2019-03-29 2020-10-08 广州虎牙信息科技有限公司 直播互动方法、装置、直播系统及电子设备
CN111506689A (zh) * 2020-04-13 2020-08-07 腾讯科技(深圳)有限公司 基于人工智能的电子地图渲染方法、装置及电子设备
CN112053391A (zh) * 2020-09-11 2020-12-08 中德(珠海)人工智能研究院有限公司 一种基于动态三维模型的监控预警方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG,DS 等: "3D RECONSTRUCTION BASED ON GAT FROM A SINGLE IMAGE", 《17TH INTERNATIONAL COMPUTER CONFERENCE ON WAVELET ACTIVE MEDIA TECHNOLOGY AND INFORMATION PROCESSING》 *
匡平等: "基于单目视觉的汽车自动导航技术研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 *
史振威 等: "图像超分辨重建算法综述", 《数据采集与处理》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610711A (zh) * 2021-08-02 2021-11-05 南京信息工程大学 一种单图像引导的三维表面重建方法及装置
CN113808275A (zh) * 2021-09-24 2021-12-17 南京信息工程大学 一种基于gcn与拓扑修改的单图像三维重建方法
CN113808275B (zh) * 2021-09-24 2023-10-13 南京信息工程大学 一种基于gcn与拓扑修改的单图像三维重建方法
CN114972366A (zh) * 2022-07-27 2022-08-30 山东大学 基于图网络的大脑皮层表面全自动分割方法及系统
CN114972366B (zh) * 2022-07-27 2022-11-18 山东大学 基于图网络的大脑皮层表面全自动分割方法及系统
CN115761116A (zh) * 2022-11-03 2023-03-07 云南大学 一种基于单目相机的透视投影下三维人脸重建方法
CN115761116B (zh) * 2022-11-03 2023-08-18 云南大学 一种基于单目相机的透视投影下三维人脸重建方法

Also Published As

Publication number Publication date
CN112927357B (zh) 2022-04-19
US20210248812A1 (en) 2021-08-12
US11715258B2 (en) 2023-08-01

Similar Documents

Publication Publication Date Title
CN112927357B (zh) 一种基于动态图网络的3d物体重建方法
CN110458939B (zh) 基于视角生成的室内场景建模方法
CN109685152B (zh) 一种基于dc-spp-yolo的图像目标检测方法
US11182644B2 (en) Method and apparatus for pose planar constraining on the basis of planar feature extraction
CN110223370B (zh) 一种从单视点图片生成完整人体纹理贴图的方法
CN108537837A (zh) 一种深度信息确定的方法及相关装置
CN111127538B (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN109005398B (zh) 一种基于卷积神经网络的立体图像视差匹配方法
US20230206603A1 (en) High-precision point cloud completion method based on deep learning and device thereof
CN111046767B (zh) 一种基于单目图像的3d目标检测方法
CN113705631B (zh) 一种基于图卷积的3d点云目标检测方法
CN114078151B (zh) 一种点云融合方法、装置、电子设备及存储介质
WO2024060395A1 (zh) 一种基于深度学习的高精度点云补全方法及装置
JP2020052543A (ja) 形状補完装置、形状補完学習装置、方法、及びプログラム
JP2019159940A (ja) 点群特徴抽出装置、点群特徴抽出方法及びプログラム
CN113052955A (zh) 一种点云补全方法、系统及应用
CN111028335A (zh) 一种基于深度学习的点云数据的分块面片重建方法
CN111401151A (zh) 一种精确的三维手部姿态估计方法
CN114494644A (zh) 一种基于双目立体匹配的空间非合作目标位姿估计与三维重建方法及系统
CN116452992B (zh) 一种最小路径管状结构中心线的提取方法
CN117315518A (zh) 一种增强现实目标初始注册方法及系统
CN113808006B (zh) 一种基于二维图像重建三维网格模型的方法及装置
CN115761125A (zh) 基于点云注意力和齿间碰撞损失的齿科数字化正畸方法
WO2022017129A1 (zh) 目标对象检测方法、装置、电子设备及存储介质
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant