CN112927354A - 基于实例分割的三维重建方法、系统、存储介质及终端 - Google Patents
基于实例分割的三维重建方法、系统、存储介质及终端 Download PDFInfo
- Publication number
- CN112927354A CN112927354A CN202110211949.6A CN202110211949A CN112927354A CN 112927354 A CN112927354 A CN 112927354A CN 202110211949 A CN202110211949 A CN 202110211949A CN 112927354 A CN112927354 A CN 112927354A
- Authority
- CN
- China
- Prior art keywords
- target image
- layer
- dimensional reconstruction
- dimensional
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000011218 segmentation Effects 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 41
- 238000011176 pooling Methods 0.000 claims description 35
- 238000001514 detection method Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于实例分割的三维重建方法、系统、存储介质及终端,方法包括提取目标图像的特征信息;获取目标图像的掩膜特征;将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征并进行聚合处理,生成目标图像的三维网格模型。本发明将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,使目标图像的三维网格模型生成过程中仅关注图片中包含目标对象的那一小块区域特征,目标对象不会受到图片中复杂背景的影响,即实现了图像中前景目标与背景对象的精准分割,对目标图像的对应区域特征进行聚合处理,即可实现低成本、快速地从单张真实室内场景图像中生成目标对象的三维网格模型,适用范围广,实用性强。
Description
技术领域
本发明涉及图像三维重建技术领域,尤其涉及一种基于实例分割的单幅图片中目标对象的三维重建方法、系统、存储介质及终端。
背景技术
对室内场景中的家具对象进行三维重建是3D游戏开发、AR/VR内容生成、家装、租房、VR看房等领域的重要部分,其效率和成本都是相关从业人员非常重视的问题。传统方法对真实室内场景中的家具对象进行三维重建需要专业人员先从包含家具对象的图片中找出需要建模的家具对象,再通过专业的3D建模引擎进行设计、建模、渲染等步骤才能得到精细的三维模型,这类方法往往需要大量的人力成本和时间成本。此外,使用基于Alice视觉摄影测量计算机视觉框架的三维重建软件MeshRoom,可以从一组无序的照片或视频中推断出家具的几何结构,这类方法需要专门学习如何操作该软件,并且需要非常强大的GPU资源来进行建模和渲染。
为减少人力成本和时间成本,相关研究人员开始尝试使用深度学习来进行三维重建,此类方法主要针对于无背景的RGB图片,即图片中只有需要建模的家具对象,不能受到复杂背景的干扰。然而,包含家具对象的图片基本都是真实室内场景,包含大量的背景对象,在复杂背景的干扰下,此类方法不能明确需要建模的家具对象,无法实现快速三维建模。此外,为解决背景对象对前景目标即家具的干扰问题,可通过人工从真实图片的复杂背景中分割出需要三维重建的家具对象,该方法耗时费力,显然不符合当下对三维重建的效率要求。
发明内容
本发明的目的在于克服现有技术中对单张图片中目标对象如家具进行三维重建的方法存在的需要耗费大量的人力成本、时间成本来学习、设计、建模以及渲染的问题,且现有基于深度学习的三维重建方法不能在单张真实室内场景的RGB图片中正确找到复杂背景下的目标对象并对其进行三维建模的问题,提供了一种基于实例分割的三维重建方法、系统、存储介质及终端,实现低成本地、快速地、明确地从单张真实室内场景图片中生成家具对象的三维网格模型。
本发明的目的是通过以下技术方案来实现的:基于实例分割的三维重建方法,方法具体包括:提取目标图像的特征信息;根据目标图像的特征信息获取目标图像的掩膜特征;将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,并对目标图像的对应区域特征进行聚合处理进而生成目标图像的三维网格模型。
作为一选项,所述获取目标图像的掩膜特征具体包括:对目标图像的特征信息依次进行卷积、反卷积、卷积处理,进而得到目标图像的掩膜特征。
作为一选项,所述将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征具体包括:对目标图像的特征信息、掩膜特征进行拼接并依次进行卷积、最大池化处理,进而得到目标图像的对应区域特征。
作为一选项,所述生成目标图像的三维网格模型过程中采用一个固定的椭球根据目标图像的对应区域特征形变为目标三维模型,并通过损失函数约束初始椭球面形变成目标三维模型,损失函数的计算公式具体为:
Ltotal=Lcls+Lbox+Lmask+λcd·Lcd+λnorm·Lnorm
+λedge·Ledge
其中,Lcls、Lbox、Lmask分别是获取目标图像的掩膜特征的实例分割网络的分类损失函数、边界框回归损失函数、掩码预测损失函数;Lcd、Lnorm、Ledge分别是用于约束生成目标图像的三维网格模型的三维重建网络的倒角距离损失函数、绝对法线距离损失函数、以及边损失函数;λcd、λnorm、λedge是三维重建网络损失函数的权重,其值分别设定为λcd=1、λnorm=0.1、λedge=1。
作为一选项,所述法线距离损失函数Lnorm的计算公式为:
其中,X为基于实例分割的三维重建方法的预测网格模型表面均匀采样的顶点集合,Y为图像目标的真实网格模型表面均匀采样的顶点集合,x、y分别定义为X、Y顶点集合中的某一点,υx、υy分别为x、y的法向量;
作为一选项,所述边损失函数的计算公式为:
需要进一步说明的是,上述方法各选项对应的技术特征可以相互组合或替换构成新的技术方案。
本发明还包括一种基于实例分割的三维重建系统,所述系统包括:目标检测网络,用于提取目标图像的特征信息;实例分割网络,用于根据目标图像的特征信息获取目标图像的掩膜特征;三维重建网络,用于将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,并对目标图像的对应区域特征进行聚合处理进而生成目标图像的三维网格模型。
作为一选项,所述实例分割网络包括顺次连接的第七卷积层、第一反卷积层、第八卷积层和第二最大池化层;所述三维重建网络包括顺次连接的第九卷积层、第三最大池化层、第三全连接层、第四全连接层、第一图卷积层、第二图卷积层和第三图卷积层。
作为一选项,所述目标检测网络包括顺次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第一平均池化层、第一全连接层、第二全连接层和激活层,所述第一平均池化层输出端与第七卷积层、第九卷积层连接。
需要进一步说明的是,上述系统各选项对应的技术特征可以相互组合或替换构成新的技术方案。
本发明还包括一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述基于实例分割的三维重建方法的步骤。
本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述基于实例分割的三维重建方法的步骤。
与现有技术相比,本发明有益效果是:
(1)本发明将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,使目标图像的三维网格模型生成过程中仅关注图片中包含目标对象的那一小块区域特征,目标对象不会受到图片中复杂背景的影响,即实现了图像中前景目标与背景对象的精准分割,对目标图像的对应区域特征进行聚合处理,即可实现低成本、快速地从单张真实室内场景图像中生成目标对象的三维网格模型,适用范围广,实用性强。
(2)本发明通过建立倒角距离损失函数用于提高预测网格模型表面均匀采样的顶点集合X、图像目标的真实网格模型表面均匀采样的顶点集合Y之间的相似性,保证了生成的三维网格模型的真实性;通过建立法线距离损失函数保证输出的三维网格模型的形状是平滑的,去除干扰点;通过建立边损失函数,进一步惩罚初始椭球面形成三维网格模型过程中不光滑的边和顶点,防止目标三维网格模型退化,进而保证目标三维网格模型的质量。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明实施例1的方法流程图;
图2为本发明实施例1的基于实例分割的单幅图片中家具对象的三维重建方法流程图;
图3为本发明实施例2的系统中网络模型结构图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明基本思想是基于深度学习设计一种有效结合实例分割网络和针对无背景图片的三维重建网络的方法、系统、存储介质及终端,并为整个网络设计适当的损失函数,实现低成本地、快速地从单张真实室内场景图片中生成目标对象的三维网格模型,在该具体实施方式中,以单张家具图像的三维网格模型生成为例进行说明。
实施例1
如图1-2所示,在实施例1中,一种基于实例分割的三维重建方法,方法推理阶段具体包括以下步骤:
S01:提取目标图像的特征信息;具体地,通过由103层的残差网络和特征金字塔构成的特征提取器实现对图像中家具的特征信息进行提取,家具图像为包含家具对象真实室内场景RGB图像,包括复杂的背景,且家具的特征信息包括了家具所处图像的区域信息。
S02:根据目标图像的特征信息获取目标图像的掩膜特征;
S03:将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,并对目标图像的对应区域特征进行聚合处理进而生成目标图像的三维网格模型。
本发明将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,使目标图像的三维网格模型生成过程中仅关注图片中包含目标对象的那一小块区域特征,目标对象不会受到图片中复杂背景的影响,即实现了图像中前景目标与背景对象的精准分割,对目标图像的对应区域特征进行聚合处理,即可实现低成本、快速地从单张真实室内场景图像中生成目标对象的三维网格模型,适用范围广,实用性强;进一步地,相较于现有技术仅根据掩模对目标图像进行三维重建,本发明根据掩模特征以及原始目标图像的特征信息进行三维重建,能够获取目标图像表面纹理、色彩等特征,能够实现更加准确的三维重建。
进一步地,步骤S01中,特征提取器中输入的是7*7@256(7*7表示特征的分辨率,256表示特征图通道数)的图像,经1次卷积层(7*7,2)卷积、1次最大池化层(3*3,2)池化、4次卷积层(3*3,1)卷积、1次卷积层(3*3,2)卷积、3次卷积层(3*3,1)卷积、1次卷积层(3*3,2)卷积、1次卷积层(3*3,1)卷积、1次平均池化层(1*1,1)池化处理后,输出14*14@256特征图,即家具图像的特征信息图。
进一步地,步骤S02中获取目标图像的掩膜特征具体包括:
对目标图像的特征信息依次进行卷积、反卷积、卷积处理,进而得到目标图像的掩膜特征。更为具体地,该步骤中家具图像的特征信息是14*14@256大小的特征图,经过4次(3*3,1)卷积操作和1次(2*2,2)反卷积后,得到的输出结果为28*28@6,因为数据集中包含6类家具对象,接着将其经过一次(1*1,1)卷积操作,输出28*28@1大小的特征图,即掩模特征,掩模特征再经过第二最大池化层(3*3,2)得到14*14@1大小的特征图。
进一步地,步骤S03中将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征具体包括:
对目标图像的特征信息、掩膜特征进行拼接并依次进行卷积、最大池化处理,进而得到目标图像的对应区域特征。具体地,从特征提取器中输入14*14@256的特征图与14*14@1大小的特征图(掩模特征)进行拼接,得到14*14@256大小的特征图,再经过三次卷积操作和第三最大池化层,得到7*7@256大小的特征图,使目标图像的三维网格模型生成过程中仅关注图片中包含目标对象的那一小块区域特征,目标对象不会受到图片中复杂背景的影响,再将7*7@256大小的特征图进行2次全连接、3次图卷积处理(聚合处理)即可得到家具的三维网格模型。
进一步地,本发明步骤S01前还包括:
S00:网络训练步骤;具体地,在该训练阶段中,先收集600张真实室内场景中包含家具对象的图片,分辨率均为224*224大小,对其中的家具对象进行手工标注,标注出家具对象的类别、边界框、掩模以及三维网格模型。其中家具类别包括以下六个大类:1、床;2、柜子;3、椅子;4、灯;5、沙发;6、桌子,每一类都包含100张图片和对应的标注信息。将所有数据按照9:1的比例划分为训练集和测试集。在训练集上以类别、边界框、掩模以及三维网格模型为监督训练整个网络:在训练过程中,将批处理大小Batch Size设置为8张图片为一批,总共完整训练60个轮次;使用衰减权重为2e-3的Adam梯度下降优化器;初始学习率设为4e-3,并采用阶梯下降策略,分别在第30、50个训练轮次时将学习率衰减到(4e-4,4e-5),直到模型的损失函数稳定收敛。训练结束后,在测试集上进行测试,判断提取目标图像的特征信息的网络输出的分类结果、边界框信息的准确性,当准确性大于阈值,使用该网络提取家具图像的特征信息。
进一步地,本发明生成目标图像的三维网格模型过程中采用一个固定的椭球根据目标图像的对应区域特征形变为目标三维模型,并通过损失函数约束初始椭球面形变成目标三维模型,损失函数的计算公式具体为:
Ltotal=Lcls+Lbox+Lmask+λcd·Lcd+λnorm·Lnorm
+λedge·Ledge
其中,Lcls、Lbox、Lmask分别是获取目标图像的掩膜特征的实例分割网络的分类损失函数、边界框回归损失函数、掩码预测损失函数;Lcd、Lnorm、Ledge分别是用于约束生成目标图像的三维网格模型的三维重建网络的倒角距离损失函数、绝对法线距离损失函数、以及边损失函数;λcd、λnorm、λedge是三维重建网络损失函数的权重,其值分别设定为λcd=1、λnorm=0.1、λedge=1。
进一步地,倒角距离损失函数Lcd用于提高预测网格模型表面均匀采样的顶点集合X、图像目标的真实网格模型表面均匀采样的顶点集合Y之间的相似性,保证了生成的三维网格模型的真实性,其计算公式为:
其中,X为基于实例分割的三维重建方法的预测网格模型表面均匀采样的顶点集合,Y为图像目标的真实网格模型表面均匀采样的顶点集合,x、y分别定义为X、Y顶点集合中的某一点。
进一步地,本发明设计了一个X和Y顶点集合之间的法线距离损失函数Lnorm用于确保输出形状的曲面是平滑的,去除干扰点。将p设为Y中q的最近邻点,然后设:
Δ=<x,y>={(p,q)|p∈X,q∈Y} (2)
Δ表示数据对<p,q>的集合,设ux为从目标模型上垂直于点x的观察表面,联合公式(2),则绝对法线距离损失函数Lnorm表示为以下公式:
其中,υx、υy分别为x、y的法向量;倒角距离、绝对法线距离约束两个顶点之间的不匹配的顶点和法线,对于家具对象这样规则的物体的三维网格建模,一味减小倒角距离和绝对法线距离会导致生成的家具三维网格模型退化。为了解决这个问题,本方法设计了一个边损失函数Ledge来惩罚不光滑的边和顶点,以保证生成高质量的家具三维网格模型,其表达公式如下:
进一步地,步骤S03中对目标图像的对应区域特征进行聚合处理具体包括:
将目标图像的特征信息、掩膜特征进行拼接得到7*7@256大小的特征图进行2次全连接、3次图卷积处理,并沿着网格边缘传播信息,给定输入顶点特征ti,它计算更新后的特征ti`如下公式所示:
上式中,N(i)表示三维网格中第i个顶点的邻居顶点的集合,M0和M1表示经过学习的权值矩阵。经过一次变形即可将一个由628个顶点组成的初始椭球面逐渐形变为家具对象的形状,输出一个628个顶点的三维网格模型,保存为.obj格式的文件。相较于传统三维建模方法需要专业人员使用专业3D引擎并且花费大量时间对家具对象进行设计、建模、渲染等繁杂步骤,本发明基于深度学习实现一种结合实例分割算法以及针对无背景图片的三维重建算法的方法,只需要输入单张RGB图片,即可快速、低成本地从图片中生成家具对象的.obj格式的三维网格模型文件。
实施例2
如图3所示,一种基于实例分割的三维重建系统,系统具体包括目标检测网络、实例分割网络和三维重建网络,目标检测网络、实例分割网络和三维重建网络构成本发明的预测网络,其中,目标检测网络,用于提取目标图像的特征信息;实例分割网络用于根据目标图像的特征信息获取目标图像的掩膜特征;三维重建网络,用于将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,并对目标图像的对应区域特征进行聚合处理进而生成目标图像的三维网格模型。
进一步地,实例分割网络包括顺次连接的第七卷积层、第一反卷积层、第八卷积层和第二最大池化层。其中,第七卷积层为顺次连接的4层(3*3,1)的卷积层,第一反卷积层为1层(3*3,1)的反卷积层,第二最大池化层为(1*1,1)的卷积层,第二最大池化层为(3*3,2)的最大池化层。14*14@256大小的家具特征图,经过4次(3*3,1)卷积操作和1次(2*2,2)反卷积后,得到的输出结果为28*28@6,因为数据集中包含6类家具对象,接着将其经过一次(1*1,1)卷积操作,输出28*28@1大小的特征图,即掩模特征,掩模特征再经过第二最大池化层(3*3,2)得到14*14@1大小的特征图。
进一步地,三维重建网络包括顺次连接的拼接网络以及图卷积神经网络,拼接网络包括顺次连接的第九卷积层、第三最大池化层,图卷积神经网络包括顺次连接的第三全连接层、第四全连接层、第一图卷积层、第二图卷积层和第三图卷积层。其中,第九卷积层具体为(3*3,1)卷积层,第三最大池化层具体为(3*3,2)池化层。14*14@256大小的家具特征图与14*14@1大小的特征图(掩模特征)进行拼接,得到14*14@256大小的特征图,再经过三次卷积操作和第三最大池化层,得到7*7@256大小的特征图,使目标图像的三维网格模型生成过程中(图像卷积神经网络)仅关注图片中包含目标对象的那一小块区域特征,目标对象不会受到图片中复杂背景的影响,图像卷积神经网络再将7*7@256大小的特征图进行2次全连接、3次图卷积处理(聚合处理)即可得到家具的三维网格模型。
进一步地,目标检测网络包括顺次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第一平均池化层、第一全连接层、第二全连接层和激活层,第一平均池化层输出端与第七卷积层、第九卷积层连接。具体地,目标检测网络输入的是7*7@256(7*7表示特征的分辨率,256表示特征图通道数)的图像,经1次第一卷积层(7*7,2)卷积、1次最大池化层(3*3,2)池化、4次卷积层(3*3,1)卷积、1次卷积层(3*3,2)卷积、3次卷积层(3*3,1)卷积、1次卷积层(3*3,2)卷积、1次卷积层(3*3,1)卷积、1次平均池化层(1*1,1)池化处理后,输出14*14@256特征图,即家具图像的特征信息图。更为具体地,14*14@256特征图在经第一全连接层、第二全连接层进行特征综合后,经一softmax函数进行激活处理,输出家具的类型以及边框信息,以此判断该目标检测网络的训练精度是否达到预期。
本发明相较于基于深度学习的三维重建方法不能正确找到复杂背景中的家具对象并对其进行建模的缺陷,引入改进的实例分割网络,以实现感兴趣区域特征与掩码特征的拼接,再通过图卷积神经网络实现只经过一次形变就能得到家具对象的三维网格模型,且视觉效果友好。且本发明自动化处理水平较高,可以极大地降低操作人员工作量,并减小对操作人员的知识水平要求,减少室内场景3D内容生成的人工成本和时间成本,可以便捷地、广泛地运用在3D游戏开发、AR/VR内容生成、家装、租房、VR看房等领域。
实施例3
本实施例提供了一种存储介质,与实施例1具有相同的发明构思,其上存储有计算机指令,所述计算机指令运行时执行实施例1中所述基于实例分割的三维重建方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例4
本实施例还提供一种终端,与实施例1具有相同的发明构思,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行实施例1中所述基于实例分割的三维重建方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于实例分割的三维重建方法,其特征在于:所述方法包括:
提取目标图像的特征信息;
根据目标图像的特征信息获取目标图像的掩膜特征;
将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,并对目标图像的对应区域特征进行聚合处理进而生成目标图像的三维网格模型。
2.根据权利要求1所述基于实例分割的三维重建方法,其特征在于:所述获取目标图像的掩膜特征具体包括:
对目标图像的特征信息依次进行卷积、反卷积、卷积处理,进而得到目标图像的掩膜特征。
3.根据权利要求1所述基于实例分割的三维重建方法,其特征在于:所述将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征具体包括:
对目标图像的特征信息、掩膜特征进行拼接并依次进行卷积、最大池化处理,进而得到目标图像的对应区域特征。
4.根据权利要求1所述基于实例分割的三维重建方法,其特征在于:所述生成目标图像的三维网格模型过程中采用一个固定的椭球根据目标图像的对应区域特征形变为目标三维模型,并通过损失函数约束初始椭球面形变成目标三维模型,损失函数的计算公式具体为:
Ltotal=Lcls+Lbox+Lmask+λcd·Lcd+λnorm·Lnorm+λedge·Ledge
其中,Lcls、Lbox、Lmask分别是获取目标图像的掩膜特征的实例分割网络的分类损失函数、边界框回归损失函数、掩码预测损失函数;Lcd、Lnorm、Ledge分别是用于约束生成目标图像的三维网格模型的三维重建网络的倒角距离损失函数、绝对法线距离损失函数、以及边损失函数;λcd、λnorm、λedge是三维重建网络损失函数的权重,其值分别设定为λcd=1、λnorm=0.1、λedge=1。
6.一种基于实例分割的三维重建系统,其特征在于:所述系统包括:
目标检测网络,用于提取目标图像的特征信息;
实例分割网络,用于根据目标图像的特征信息获取目标图像的掩膜特征;
三维重建网络,用于将目标图像的特征信息、掩膜特征进行拼接得到目标图像的对应区域特征,并对目标图像的对应区域特征进行聚合处理进而生成目标图像的三维网格模型。
7.根据权利要求6所述基于实例分割的三维重建系统,其特征在于:所述实例分割网络包括顺次连接的第七卷积层、第一反卷积层、第八卷积层和第二最大池化层;所述三维重建网络包括顺次连接的第九卷积层、第三最大池化层、第三全连接层、第四全连接层、第一图卷积层、第二图卷积层和第三图卷积层。
8.根据权利要求7所述基于实例分割的三维重建系统,其特征在于:所述目标检测网络包括顺次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第一平均池化层、第一全连接层、第二全连接层和激活层,所述第一平均池化层输出端与第七卷积层、第九卷积层连接。
9.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1-5任意一项所述基于实例分割的三维重建方法的步骤。
10.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于:所述处理器运行所述计算机指令时执行权利要求1-5任意一项所述基于实例分割的三维重建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110211949.6A CN112927354B (zh) | 2021-02-25 | 2021-02-25 | 基于实例分割的三维重建方法、系统、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110211949.6A CN112927354B (zh) | 2021-02-25 | 2021-02-25 | 基于实例分割的三维重建方法、系统、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927354A true CN112927354A (zh) | 2021-06-08 |
CN112927354B CN112927354B (zh) | 2022-09-09 |
Family
ID=76171848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110211949.6A Active CN112927354B (zh) | 2021-02-25 | 2021-02-25 | 基于实例分割的三维重建方法、系统、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927354B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781639A (zh) * | 2021-09-22 | 2021-12-10 | 交通运输部公路科学研究所 | 一种大场景道路基础设施数字化模型快速构建方法 |
CN113870439A (zh) * | 2021-09-29 | 2021-12-31 | 北京百度网讯科技有限公司 | 用于处理图像的方法、装置、设备以及存储介质 |
CN114913287A (zh) * | 2022-04-07 | 2022-08-16 | 北京拙河科技有限公司 | 一种三维人体模型重建方法及系统 |
CN115115726A (zh) * | 2022-05-10 | 2022-09-27 | 深圳市元甪科技有限公司 | 多频电阻抗层析成像图像的重建方法、装置、设备及介质 |
CN115222930A (zh) * | 2022-09-02 | 2022-10-21 | 四川蜀天信息技术有限公司 | 一种基于WebGL的3D模型的编排组合的方法 |
CN117291930A (zh) * | 2023-08-25 | 2023-12-26 | 中建三局第三建设工程有限责任公司 | 一种基于图片序列中目标物体分割的三维重建方法和系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399399A (zh) * | 2018-03-23 | 2018-08-14 | 武汉大学 | 一种基于夜光遥感影像的城市范围提取方法 |
CN108648197A (zh) * | 2018-04-12 | 2018-10-12 | 天津大学 | 一种基于图像背景掩膜的目标候选区域提取方法 |
CN109544457A (zh) * | 2018-12-04 | 2019-03-29 | 电子科技大学 | 基于致密链接神经网络的图像超分辨率方法、存储介质和终端 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109655019A (zh) * | 2018-10-29 | 2019-04-19 | 北方工业大学 | 一种基于深度学习和三维重建的货物体积测量方法 |
CN110598610A (zh) * | 2019-09-02 | 2019-12-20 | 北京航空航天大学 | 一种基于神经选择注意的目标显著性检测方法 |
CN111428726A (zh) * | 2020-06-10 | 2020-07-17 | 中山大学 | 基于图神经网络的全景分割方法、系统、设备及存储介质 |
CN111721470A (zh) * | 2019-03-19 | 2020-09-29 | 辉达公司 | 使用深度学习的力估计 |
CN111738318A (zh) * | 2020-06-11 | 2020-10-02 | 大连理工大学 | 一种基于图神经网络的超大图像分类方法 |
WO2020249076A1 (zh) * | 2019-06-14 | 2020-12-17 | 华为技术有限公司 | 一种人脸校正方法及电子设备 |
-
2021
- 2021-02-25 CN CN202110211949.6A patent/CN112927354B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399399A (zh) * | 2018-03-23 | 2018-08-14 | 武汉大学 | 一种基于夜光遥感影像的城市范围提取方法 |
CN108648197A (zh) * | 2018-04-12 | 2018-10-12 | 天津大学 | 一种基于图像背景掩膜的目标候选区域提取方法 |
CN109655019A (zh) * | 2018-10-29 | 2019-04-19 | 北方工业大学 | 一种基于深度学习和三维重建的货物体积测量方法 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109544457A (zh) * | 2018-12-04 | 2019-03-29 | 电子科技大学 | 基于致密链接神经网络的图像超分辨率方法、存储介质和终端 |
CN111721470A (zh) * | 2019-03-19 | 2020-09-29 | 辉达公司 | 使用深度学习的力估计 |
WO2020249076A1 (zh) * | 2019-06-14 | 2020-12-17 | 华为技术有限公司 | 一种人脸校正方法及电子设备 |
CN110598610A (zh) * | 2019-09-02 | 2019-12-20 | 北京航空航天大学 | 一种基于神经选择注意的目标显著性检测方法 |
CN111428726A (zh) * | 2020-06-10 | 2020-07-17 | 中山大学 | 基于图神经网络的全景分割方法、系统、设备及存储介质 |
CN111738318A (zh) * | 2020-06-11 | 2020-10-02 | 大连理工大学 | 一种基于图神经网络的超大图像分类方法 |
Non-Patent Citations (3)
Title |
---|
KUANG,P 等: "Masked 3D conditional generative adersarial network for rock mesh generation", 《CLUSTER COMPUTING-THE JOURNAL OF NETWORKS SOFTWARE TOOLS AND APPLICATIONS》 * |
LI XI 等: "3D SHAPE RECONSTRUCTION OF FURNITURE OBJECT FROM A SINGLE REAL INDOOR IMAGE", 《2020 17TH INTERNATIONAL COMPUTER CONFERENCE ON WAVELET ACTIVE MEDIA TECHNOLOGY AND INFORMATION PROCESSING (ICCWAMTIP)》 * |
冯爱民等: "基于核的单类分类器研究", 《南京师范大学学报(工程技术版)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781639A (zh) * | 2021-09-22 | 2021-12-10 | 交通运输部公路科学研究所 | 一种大场景道路基础设施数字化模型快速构建方法 |
CN113781639B (zh) * | 2021-09-22 | 2023-11-28 | 交通运输部公路科学研究所 | 一种大场景道路基础设施数字化模型快速构建方法 |
CN113870439A (zh) * | 2021-09-29 | 2021-12-31 | 北京百度网讯科技有限公司 | 用于处理图像的方法、装置、设备以及存储介质 |
CN114913287A (zh) * | 2022-04-07 | 2022-08-16 | 北京拙河科技有限公司 | 一种三维人体模型重建方法及系统 |
CN114913287B (zh) * | 2022-04-07 | 2023-08-22 | 北京拙河科技有限公司 | 一种三维人体模型重建方法及系统 |
CN115115726A (zh) * | 2022-05-10 | 2022-09-27 | 深圳市元甪科技有限公司 | 多频电阻抗层析成像图像的重建方法、装置、设备及介质 |
CN115115726B (zh) * | 2022-05-10 | 2024-06-07 | 深圳市元甪科技有限公司 | 多频电阻抗层析成像图像的重建方法、装置、设备及介质 |
CN115222930A (zh) * | 2022-09-02 | 2022-10-21 | 四川蜀天信息技术有限公司 | 一种基于WebGL的3D模型的编排组合的方法 |
CN115222930B (zh) * | 2022-09-02 | 2022-11-29 | 四川蜀天信息技术有限公司 | 一种基于WebGL的3D模型的编排组合的方法 |
CN117291930A (zh) * | 2023-08-25 | 2023-12-26 | 中建三局第三建设工程有限责任公司 | 一种基于图片序列中目标物体分割的三维重建方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112927354B (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112927354B (zh) | 基于实例分割的三维重建方法、系统、存储介质及终端 | |
CN111325851B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN108875935B (zh) | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 | |
CN105930382A (zh) | 一种用2d图片搜索3d模型的方法 | |
CN113096234B (zh) | 利用多张彩色图片生成三维网格模型的方法及装置 | |
CN112950775A (zh) | 一种基于自监督学习的三维人脸模型重建方法及系统 | |
CN111192226B (zh) | 一种图像融合去噪方法及装置、系统 | |
CN116958453B (zh) | 基于神经辐射场的三维模型重建方法、设备和介质 | |
CN111862278B (zh) | 一种动画获得方法、装置、电子设备及存储介质 | |
CN116416376A (zh) | 一种三维头发的重建方法、系统、电子设备及存储介质 | |
Kato et al. | Self-supervised learning of 3d objects from natural images | |
Uzolas et al. | Template-free articulated neural point clouds for reposable view synthesis | |
CN110322548B (zh) | 一种基于几何图像参数化的三维网格模型生成方法 | |
Maxim et al. | A survey on the current state of the art on deep learning 3D reconstruction | |
CN116452715A (zh) | 动态人手渲染方法、装置及存储介质 | |
US11803998B2 (en) | Method for computation of local densities for virtual fibers | |
CN115908712A (zh) | 基于图像的三维重建及模型训练方法、设备及存储介质 | |
CN115375839A (zh) | 一种基于深度学习的多视角头发建模方法及系统 | |
Jensen et al. | Deep Active Latent Surfaces for Medical Geometries | |
US20240078755A1 (en) | Face image generation with wrinkles | |
CN117523152B (zh) | 一种三维人脸重建方法、装置、计算机设备和存储介质 | |
Ma-Thi et al. | Image-Based Approach for Preparing Artifacts for Virtual Puppetry Museum | |
CN116363329B (zh) | 基于CGAN与LeNet-5的三维图像生成方法及系统 | |
CN114331827B (zh) | 风格迁移方法、装置、设备和存储介质 | |
Patino et al. | Level Set Mesher: Single-image to 3D reconstruction by following the level sets of the signed distance function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |