CN117408910A - 三维模型补全网络的训练方法、三维模型补全方法及装置 - Google Patents
三维模型补全网络的训练方法、三维模型补全方法及装置 Download PDFInfo
- Publication number
- CN117408910A CN117408910A CN202311277860.5A CN202311277860A CN117408910A CN 117408910 A CN117408910 A CN 117408910A CN 202311277860 A CN202311277860 A CN 202311277860A CN 117408910 A CN117408910 A CN 117408910A
- Authority
- CN
- China
- Prior art keywords
- dimensional model
- dimensional
- model
- network
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000012549 training Methods 0.000 title claims abstract description 76
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000009792 diffusion process Methods 0.000 claims abstract description 78
- 230000000295 complement effect Effects 0.000 claims abstract description 54
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000009467 reduction Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 230000005284 excitation Effects 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/10—Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开实施例提供了三维模型补全网络的训练方法、三维模型补全方法及装置,包括:预先构建待训练三维模型补全网络;待训练三维模型补全网络包括三维变分自编码器和扩散模型;获取用于网络训练的待训三维模型;将待训三维模型输入三维变分自编码器,将编码得到的隐向量输入扩散模型,经过扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型;基于预测的生成三维模型,对三维变分自编码器和扩散模型进行损失计算,对待训练三维模型补全网络进行训练。再利用完成训练的三维模型补全网络对待补全的三维模型进行补全。既保证了三维模型质量又提升了制作效率。
Description
技术领域
本公开涉及三维建模技术领域,尤其涉及三维模型补全网络的训练方法、三维模型补全方法及装置。
背景技术
三维(3D,3 Dimensional)建模在许多领域都有广泛的应用,包括动画制作、游戏开发、建筑设计、工业制造等。在传统的3D建模过程中,专业的建模师往往需要花费大量的时间和精力来构造精细、逼真的模型。目前,虽然扫描建模技术在一定程度上解决了建模效率的问题,但其输出的3D模型通常效果比较差,不够精细,也不易于后期编辑和修改。
这种情况导致了一个矛盾:人力手动进行精细化3D建模虽然能保证质量,但效率极低,而全自动的扫描建模则可能牺牲了精度。如何既保证质量又提升效率,成了亟待解决的问题。
发明内容
本公开实施例提供了三维模型补全网络的训练方法、三维模型补全方法及装置,用以解决现有的3D建模方式无法既保证质量又提升效率的问题。
基于上述问题,第一方面,提供一种三维模型补全网络的训练方法,包括:
预先构建待训练三维模型补全网络;所述待训练三维模型补全网络包括三维变分自编码器3D Variational Autoencoder和扩散Diffusion模型;
获取用于网络训练的待训三维模型;
将所述待训三维模型输入所述三维变分自编码器,将编码得到的隐向量输入所述扩散模型,经过所述扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型;
基于预测的生成三维模型,对所述三维变分自编码器和所述扩散模型进行损失计算,对所述待训练三维模型补全网络进行训练。
在结合第一方面的任一种可能的实施方式中,在将所述待训三维模型输入所述三维变分自编码器之前,所述方法还包括:通过缩放,使所述待训三维模型的包围盒尺寸最大程度靠近预设值;按照预设长宽高,将调整尺寸后的包围盒进行切块处理;将所述待训三维模型输入所述三维变分自编码器,包括:将所述待训三维模型包围盒切块中有效切块输入所述三维变分自编码器。
在结合第一方面的任一种可能的实施方式中,将编码得到的隐向量输入所述扩散模型,经过所述扩散模型的加噪和降噪处理,再输入解码器,包括:在三维变分自编码器的潜在空间中,将编码得到的隐向量通过噪声调度noise schedule进行噪声添加,得到噪声隐向量;将所述噪声隐向量进行逐级降噪处理,得到降噪后的隐向量,并将降噪后的隐向量输入解码器;其中,针对每一级降噪处理,将上一级输出的噪声隐向量输入用于本级降噪的三维U型网络U-Net中进行处理,输出本级噪声隐向量,作为下一级三维U型网络的输入,直到最后一级三维U-Net处理得到降噪后的隐向量。
在结合第一方面的任一种可能的实施方式中,在输入层之后,所述三维变分自编码器的编码器内,还包括:压缩和激励网络Squeeze-and-Excitation Networks模块;所述方法,还包括将编码过程中待训三维模型的多个通道数据输入所述压缩和激励网络对不同通道数据进行处理,输出包含不同通道重要性信息的多通道数据。
在结合第一方面的任一种可能的实施方式中,针对不同三维模型的表示方法,所述待训练三维模型补全网络包括针对不同三维模型表示方法的三维变分自编码器分支和共享扩散模型;将所述待训三维模型输入所述三维变分自编码器,将编码得到的隐向量输入所述扩散模型,经过所述扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型,包括:确定待训三维模型的表示方法;将所述待训三维模型输入所述表示方法对应的三维变分自编码器分支,将编码得到的隐向量输入所述共享扩散模型,经过所述共享扩散模型的加噪和降噪处理,再输入对应三维变分自编码器分支的解码器,得到预测的生成三维模型;基于预测的生成三维模型,对所述三维变分自编码器和所述扩散模型进行损失计算,对所述待训练三维模型补全网络进行训练,包括:基于预测的生成三维模型,分别对对应三维变分自编码器分支和所述共享扩散模型进行损失计算,对所述待训练三维模型补全网络进行训练。
在结合第一方面的任一种可能的实施方式中,确定待训三维模型的表示方法,包括:将所述待训三维模型输入预先训练的三维模型分类网络,得到所述待训三维模型的表示方法;其中,采用如下方式训练所述三维模型分类网络:将带有标签的三维模型样本输入预先构建的分类网络模型,根据输出的三维模型预测类型与三维模型样本携带的标签进行比较,并根据比较结果对所述三维模型分类网络进行训练。
在结合第一方面的任一种可能的实施方式中,在三维变分自编码器中采用全卷积神经网络FCN进行特征提取;所述三维变分自编码器包括:三维矢量量化变分自编码器Vector Quantised Variational AutoEncoder。
第二方面、提供一种三维模型补全方法,包括:
获取待补全三维模型;
将所述待补全三维模型输入三维模型补全网络,得到补全后的三维模型;
其中,所述三维模型补全网络按照如权利要求1-7任一项所述的三维模型补全网络的训练方法训练得到;且所述三维模型补全网络包括三维变分自编码器和扩散模型的降噪模块。
第三方面、提供一种三维模型补全相关装置,包括:提供如第一方面或者结合第一方面的任一种可能的实施方式所述的三维模型补全网络训练方法的步骤对应功能模块的三维模型补全网络训练装置;或者如第二方面所述的三维模型补全方法的步骤对应功能模块的三维模型补全装置。
第四方面、一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权第一方面或者结合第一方面的任一种可能的实施方式所述的三维模型补全网络训练方法的步骤,或者第二方面所述的三维模型补全方法的步骤。
本公开实施例的有益效果包括:
本公开实施例提供的三维模型补全网络的训练方法、三维模型补全方法及装置,包括:预先构建待训练三维模型补全网络;待训练三维模型补全网络包括三维变分自编码器和扩散模型;获取用于网络训练的待训三维模型;将待训三维模型输入三维变分自编码器,将编码得到的隐向量输入扩散模型,经过扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型;基于预测的生成三维模型,对三维变分自编码器和扩散模型进行损失计算,对待训练三维模型补全网络进行训练。再利用完成训练的三维模型补全网络对待补全的三维模型进行补全。本公开实施例提供的三维模型补全方法,将人工和人工智能方法相结合,通过人工进行部分精细化建模,设计师可以专注于创建模型的关键部分,再通过训练好的三维模型补全网络模型自动识别并完成模型的其余部分,既保证了三维模型质量又提升了制作效率。
附图说明
图1为本公开实施例提供的一种三维模型补全网络的训练方法的流程图;
图2为本公开实施例提供的待训练三维模型补全网络的网络结构示意图之一;
图3为本公开实施例提供的待训练三维模型补全网络的网络结构示意图之二;
图4为本公开实施例提供的待训练三维模型补全网络的网络结构示意图之三;
图5为本公开实施例提供的待训练三维模型补全网络的网络结构示意图之四;
图6为本公开实施例提供的一种三维模型补全方法的流程图;
图7为本公开实施例提供的三维模型补全网络的网络结构示意图之一;
图8为本公开实施例提供的三维模型补全网络的网络结构示意图之二;
图9为本公开实施例提供的一种三维模型补全网络的训练装置的示意图;
图10为本公开实施例提供的一种三维模型补全装置的示意图。
具体实施方式
本公开实施例提供了三维模型补全网络的训练方法、三维模型补全方法及装置,以下结合说明书附图对本公开的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本公开,并不用于限定本公开。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本公开实施例提供一种三维模型补全网络的训练方法,如图1所示,包括:
S101、预先构建待训练三维模型补全网络;该待训练三维模型补全网络包括三维变分自编码器(3D VAE,3D Variational Autoencoder)和扩散(Diffusion)模型;
S102、获取用于网络训练的待训三维模型;
S103、将待训三维模型输入三维变分自编码器,将编码得到的隐向量输入扩散模型,经过扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型;
S104、基于预测的生成三维模型,对三维变分自编码器和扩散模型进行损失计算,对待训练三维模型补全网络进行训练。
本公开实施例中,VAE模型是一种生成模型,3D VAE模型可以用于3D模型的生成。也就是说,由于输入的是3D模型,则可以将VAE模型中编码器和解码器中的特征提取模块设置为对3D模型进行特征提取,例如:输入的3D模型参数可以是L(长)*H(高)*W(宽)*C(通道数),采用3D立体矩阵作为卷积核对3D模型进行特征提取,生成特征立方体即可。另外,3D模型处理中,可以使每个体素对应一个向量。
进一步地,本公开实施例中,在3D VAE网络结构的基础上还加入了Diffusion模型,通过Diffusion模型对编码器输出的隐向量进行加噪和降噪的处理,能够进一步提升后续运行的三维模型补全网络的降噪能力,使得补全的三维模型更加清晰。
图2为本公开实施例提供的待训练三维模型补全网络的网络结构示意图。如图2所示,将待训3D模型输入3D模型输入层,经过3D VAE网络的编码器进行编码,得到隐向量z,将隐向量z输入Diffusion模型进行加噪处理,得到加噪后的隐向量ZT,再将ZT进行降噪处理,得到降噪后的隐向量z,将降噪后的隐向量z输入3D VAE网络的解码器进行解码,通过3D模型输出层输出,得到本次预测生成3D模型。
进一步地,可以对三维变分自编码器和扩散模型联合进行损失计算,例如:对三维变分自编码器的损失函数和扩散模型的损失函数求和,对待训练三维模型补全网络进行训练。
本公开实施例中,通过人工进行部分精细化建模: 设计师可以专注于创建模型的关键部分,例如:细致的表面纹理、复杂的结构组件等。这使得设计师可以确保模型的核心部分保持高质量和符合设计要求,而由人工智能自动高精度填充未完成部分: 通过完成训练的三维模型补全网络自动识别并完成模型的其余部分。这不仅减轻了人工的工作负担,还能够确保整体模型的连贯性和精度。通过将人工和AI相结合,既保证了3D建模的精度和质量,又显著提高了效率,打破了传统3D建模中效率和质量无法双全的矛盾。
本公开实施例适用于多种3D建模场景,包括但不限于电影特效、虚拟现实、增强现实、医学可视化、产品设计等。另外,人工与AI的结合不是一次性过程,而是一个迭代的过程。设计师可以在AI自动填充后,再次进行人工微调,而AI也可以根据人工的调整继续学习和优化。本公开实施例提供的三维模型补全网络训练方法和三维模型补全方法可以根据需要在人工与AI结合的迭代过程中穿插实施。
在本公开的又一实施例中,提供一种三维模型补全网络的训练方法,在将待训三维模型输入三维变分自编码器之前,还包括如下步骤:
步骤一、通过缩放,使待训三维模型的包围盒尺寸最大程度靠近预设值;
步骤二、按照预设长宽高,将调整尺寸后的包围盒进行切块处理;
则S103中“将所述待训三维模型输入所述三维变分自编码器”可以实施为:
将待训三维模型包围盒切块中有效切块输入三维变分自编码器。
本公开实施例中,在将待训三维模型输入三维变分自编码器之前,为了方便神经网络处理,还可以对待训三维模型进行预处理。可以将待训三维模型的包围盒进行缩放处理,使其尽可能最大程度靠近预设值,直到无法继续调整为止,或者使其等于预设值,例如:128*128*128,1024*1024*1024等,但需要注意的是:数据越大,越精细,但算力要求越高,可以根据实际情况确定调整的包围盒尺寸。然后可以确定切块的尺寸,例如:1*1*1、2*2*2等,这里并不限制。
那么,得到的切块有的可能为不包含三维模型的空块,可以将这些空块作为无效切块不输入模型,将有效的待训三维模型切块输入三维变分自编码器,以提高模型训练效率,加速收敛。
在本公开的又一实施例中,提供一种三维模型补全网络的训练方法,可以将步骤S103中“将编码得到的隐向量输入扩散模型,经过扩散模型的加噪和降噪处理,再输入解码器”实施为如下步骤:
步骤一、在三维变分自编码器的潜在空间中,将编码得到的隐向量通过噪声调度(noise schedule)进行噪声添加,得到噪声隐向量;
步骤二、将噪声隐向量进行逐级降噪处理,得到降噪后的隐向量,并将降噪后的隐向量输入解码器;
其中,针对每一级降噪处理,将上一级输出的噪声隐向量输入用于本级降噪的三维U型网络(U-Net)中进行处理,输出本级噪声隐向量,作为下一级3D U-Net的输入,直到最后一级3D U-Net处理得到降噪后的隐向量。
本公开实施例中,可以通过3D U-Net实现Diffusion模型中的降噪处理。针对多级降噪的每一级降噪,都可以通过3DU-Net实现。除了第一级降噪可以将加噪后的噪声隐向量直接输入第一级3D U-Net,后续每一级降噪都可以将前一级降噪结果作为本级降噪的输入,输入本级3D U-Net进行处理。
另外,由于处理的是3D模型,因此采用3D U-Net对三维数据进行处理。三维数据与二维数据相比多了一个维度的信息,在特征提取过程中进行卷积操作的时候采用3D立体矩阵作为卷积核对3D数据从(x,y,z)三个方向上进行编码即可。
图3为本公开实施例提供的待训练三维模型补全网络的网络又一结构示意图。如图3所示,在编码器输出的隐向量构成的隐空间中,可以通过noise schedule进行逐级噪声添加,得到添加噪声后的隐向量ZT,再将ZT进行逐级降噪处理。在降噪的过程中,可以经过多级降噪,每一级降噪都可以通过3D U-Net实现,图3中以隐向量ZT至隐向量ZT-1的一级降噪为例,将ZT和ZT对应的噪声添加级数(例如T)输入本级3D U-Net,输出本级3D U-Net预测的噪声,从隐向量ZT去掉该预测的噪声,得到下一级隐向量ZT-1,下一级ZT-1至ZT-2的降噪处理同理,逐级类推,直到得到去掉最后一级噪声的隐向量z。
在本公开的又一实施例中,提供一种三维模型补全网络的训练方法,在输入层之后,三维变分自编码器的编码器内,还包括:压缩和激励网络(SENet,Squeeze-and-Excitation Networks)模块;
所述方法,还包括
将编码过程中待训三维模型的多个通道数据输入SENet对不同通道数据进行处理,输出包含不同通道重要性信息的多通道数据。
本公开实施例中,待训三维模型通常是彩色的,因此可以具有多个通道(例如:三原色(RGB,Red Green Blue)三个通道)。如果能确定出不同通道的重要性信息,那么生成的三维模型具有更高的准确性。而SENet关心通道之间的关系,能够学习到各通道的重要性信息。因此,可以在三维变分自编码器的编码器内加入SENet模块,以增加多个通道的重要性信息。
实施时,可以将SENet模块添加在三维变分自编码器的编码器内任两层之间,或者输入层之后紧邻编码器的位置。SENet模块的数量可以根据实际需要以及执行神经网络训练的设备的性能进行设置。图4以输入层之后紧邻编码器的位置加一个SENet模块为例,并不限制本公开。
在本公开的又一实施例中,提供一种三维模型补全网络的训练方法,针对不同三维模型的表示方法,待训练三维模型补全网络包括针对不同三维模型表示方法的三维变分自编码器分支和共享扩散模型;
则“S103、将待训三维模型输入三维变分自编码器,将编码得到的隐向量输入扩散模型,经过扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型”可以实施为如下步骤:
步骤一、确定待训三维模型的表示方法;
步骤二、将待训三维模型输入确定的表示方法对应的三维变分自编码器分支,将编码得到的隐向量输入共享扩散模型,经过共享扩散模型的加噪和降噪处理,再输入对应三维变分自编码器分支的解码器,得到预测的生成三维模型;
“S104、基于预测的生成三维模型,对三维变分自编码器和扩散模型进行损失计算,对待训练三维模型补全网络进行训练”,可以实施为:
基于预测的生成三维模型,分别对对应三维变分自编码器分支和共享扩散模型进行损失计算,对待训练三维模型补全网络进行训练。
本公开实施例中,3D模型存在多种表示方法,包括:点云、体素、网格(mesh)、有符号距离函数(SDF,Signed Distance Filed)等。针对每种表示方法的3D模型,可以分别训练对应的三维变分自编码器分支,以及各种表示方法共用的共享扩散模型。图5示出了三维变分自编码器分支及共享扩散模型的结构示意图,假设存在n种3D模型的表示方法,则设置n个三维变分自编码器分支,以三维变分自编码器分支1为例,将采用该表示方法的待训3D模型输入3D模型输入层1,经过编码器1的编码得到隐变量z1,将隐变量z1输入共享扩散模块进行加噪得到加噪后的隐变量ZT1,对ZT1进行去噪处理得到去噪后的隐变量z1,将隐变量z1输入解码器1进行解码,并将解码后3D模型通过3D模型输出层1输出,得到三维变分自编码器分支1对应表示方法的预测生成3D模型。
在本公开的又一实施例中,提供一种三维模型补全网络的训练方法,可以采用如下步骤确定待训三维模型的表示方法:
将待训三维模型输入预先训练的三维模型分类网络,得到待训三维模型的表示方法;
其中,采用如下方式训练三维模型分类网络:将带有标签的三维模型样本输入预先构建的分类网络模型,根据输出的三维模型预测类型与三维模型样本携带的标签进行比较,并根据比较结果对三维模型分类网络进行训练。
本公开实施例中,可以训练三维模型分类网络来确定待训三维模型的表示方法,从而确定待训三维模型需要输入的三维变分自编码器分支。可以采用任何分类网络模型进行三维模型分类网络的训练,这里不再赘述。
在本公开的又一实施例中,提供一种三维模型补全网络的训练方法,在三维变分自编码器中采用全卷积神经网络(FCN,Fully Convolutional Network)进行特征提取;
所述三维变分自编码器包括:三维矢量量化变分自编码器(VQ-VAE,VectorQuantised Variational AutoEncoder)。
相关技术中,三维变分自编码器的特征提取通常通过卷积神经网络(CNN,Convolutional Neural Network)实施,但是会对输入的3D模型大小有所限制,为了对三维变分自编码器进行改进,可以将3DVAE中的CNN替换为FCN。
进一步地,本公开实施例中的三维变分自编码器除了3D VAE,还可以为3D VQ-VAE。
本公开实施例,还提供一种三维模型补全方法,如图6所示,包括:
S601、获取待补全三维模型;
S602、将待补全三维模型输入三维模型补全网络,得到补全后的三维模型;
其中,三维模型补全网络按照上述任一三维模型补全网络的训练方法实施例训练得到;且三维模型补全网络包括三维变分自编码器和扩散模型的降噪模块。
本公开实施例中,待训练三维模型补全网络在完成训练之后运行时,网络结构与待训练三维模型补全网络有所不同,去掉了扩散模型中的加噪流程,可以使VAE编码后的隐向量z直接输入扩散模型的降噪模块进行降噪。图7为本公开实施例提供的运行的三维模型补全网络结构示意图。如图7所示,可以将待补全三维模型输入三维模型补全网络的3D模型输入层,经过编码器编码得到隐向量z,通过扩散模型对隐向量z进行降噪处理,得到降噪后的隐向量z,将降噪后的隐向量z输入解码器解码,通过3D输出模型输出补全后的三维模型。
另外,针对不同表示方法的待补全三维模型,可以分别构建三维变分自编码器分支,并共享扩散模型的降噪处理,如图8所示,首先,确定待补全三维模型的表示方法,再将待补全三维模型输入其表示方法对应的三维变分自编码器分支,将编码得到的隐向量输入共享扩散模型,经过所述共享扩散模型的降噪处理,再输入对应三维变分自编码器分支的解码器,得到补全的三维模型。也可以在将待补全三维模型输入三维模型补全网络之前,通过三维模型分类网络,对待补全三维模型进行分类,以确定将其输入的三维变分自编码器分支。
本公开实施例提供的三维模型补全方法,将人工和人工智能方法相结合,通过人工进行部分精细化建模: 设计师可以专注于创建模型的关键部分,再通过训练好的三维模型补全网络模型自动识别并完成模型的其余部分,既保证了三维模型质量又提升了制作效率。
基于同一公开构思,本公开实施例还提供了三维模型补全网络的训练装置和三维模型补全装置,由于这些装置所解决问题的原理与前述三维模型补全网络的训练方法和三维模型补全方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
本公开实施例还提供了一种三维模型补全相关装置,包括:提供如上述任一三维模型补全网络训练方法实施例的步骤对应功能模块的三维模型补全网络训练装置;或者如上述任一三维模型补全方法实施例的步骤对应功能模块的三维模型补全装置。
本公开实施例提供的一种三维模型补全网络训练装置,如图9所示,包括:
网络构建模块901,用于预先构建待训练三维模型补全网络;所述待训练三维模型补全网络包括三维变分自编码器3D Variational Autoencoder和扩散Diffusion模型;
数据获取模块902,用于获取用于网络训练的待训三维模型;
训练模块903,用于将所述待训三维模型输入所述三维变分自编码器,将编码得到的隐向量输入所述扩散模型,经过所述扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型;以及基于预测的生成三维模型,对所述三维变分自编码器和所述扩散模型进行损失计算,对所述待训练三维模型补全网络进行训练。
在本公开提供的又一实施例中,如图9所示,所述装置还包括:数据预处理模块904;
数据预处理模块904,用于在将所述待训三维模型输入所述三维变分自编码器之前,通过缩放,使所述待训三维模型的包围盒尺寸最大程度靠近预设值;按照预设长宽高,将调整尺寸后的包围盒进行切块处理;
训练模块903,用于将所述待训三维模型包围盒切块中有效切块输入所述三维变分自编码器。
在本公开提供的又一实施例中,如图9所示,训练模块903,用于在三维变分自编码器的潜在空间中,将编码得到的隐向量通过噪声调度noise schedule进行噪声添加,得到噪声隐向量; 将所述噪声隐向量进行逐级降噪处理,得到降噪后的隐向量,并将降噪后的隐向量输入解码器;其中,针对每一级降噪处理,将上一级输出的噪声隐向量输入用于本级降噪的三维U型网络U-Net中进行处理,输出本级噪声隐向量,作为下一级三维U型网络的输入,直到最后一级U-Net网络处理得到降噪后的隐向量。
在本公开提供的又一实施例中,如图9所示,训练模块903,还用于将编码过程中待训三维模型的多个通道数据输入压缩和激励网络对不同通道数据进行处理,输出包含不同通道重要性信息的多通道数据;所述压缩和激励网络模块在输入层之后,所述三维变分自编码器的编码器内。
在本公开提供的又一实施例中,如图9所示,训练模块903,还用于确定待训三维模型的表示方法;将所述待训三维模型输入所述表示方法对应的三维变分自编码器分支,将编码得到的隐向量输入所述共享扩散模型,经过所述共享扩散模型的加噪和降噪处理,再输入对应三维变分自编码器分支的解码器,得到预测的生成三维模型;以及基于预测的生成三维模型,分别对对应三维变分自编码器分支和所述共享扩散模型进行损失计算,对所述待训练三维模型补全网络进行训练;其中,针对不同三维模型的表示方法,所述待训练三维模型补全网络包括针对不同三维模型表示方法的三维变分自编码器分支和共享扩散模型。
在本公开提供的又一实施例中,如图9所示,训练模块903,还用于将所述待训三维模型输入预先训练的三维模型分类网络,得到所述待训三维模型的表示方法;其中,采用如下方式训练所述三维模型分类网络:将带有标签的三维模型样本输入预先构建的分类网络模型,根据输出的三维模型预测类型与三维模型样本携带的标签进行比较,并根据比较结果对所述三维模型分类网络进行训练。
在本公开提供的又一实施例中,在三维变分自编码器中采用全卷积神经网络FCN进行特征提取;
所述三维变分自编码器包括:三维矢量量化变分自编码器Vector QuantisedVariational AutoEncoder。
本公开实施例提供的一种三维模型补全装置,如图10所示,包括:
获取模块1001,用于获取待补全三维模型;
补全模块1002,用于将所述待补全三维模型输入三维模型补全网络,得到补全后的三维模型;
其中,所述三维模型补全网络按照如上述任一三维模型补全网络的训练方法实施例训练得到;且所述三维模型补全网络包括三维变分自编码器和扩散模型的降噪模块。
本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述任一三维模型补全网络训练方法实施例的步骤,或者上述任一三维模型补全方法实施例的步骤。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任一三维模型补全网络训练方法实施例的步骤,或者上述任一三维模型补全方法实施例的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本公开实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
Claims (10)
1.一种三维模型补全网络的训练方法,其特征在于,包括:
预先构建待训练三维模型补全网络;所述待训练三维模型补全网络包括三维变分自编码器3D Variational Autoencoder和扩散Diffusion模型;
获取用于网络训练的待训三维模型;
将所述待训三维模型输入所述三维变分自编码器,将编码得到的隐向量输入所述扩散模型,经过所述扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型;
基于预测的生成三维模型,对所述三维变分自编码器和所述扩散模型进行损失计算,对所述待训练三维模型补全网络进行训练。
2.如权利要求1所述的方法,其特征在于,在将所述待训三维模型输入所述三维变分自编码器之前,所述方法还包括:
通过缩放,使所述待训三维模型的包围盒尺寸最大程度靠近预设值;
按照预设长宽高,将调整尺寸后的包围盒进行切块处理;
将所述待训三维模型输入所述三维变分自编码器,包括:
将所述待训三维模型包围盒切块中有效切块输入所述三维变分自编码器。
3.如权利要求1所述的方法,其特征在于,将编码得到的隐向量输入所述扩散模型,经过所述扩散模型的加噪和降噪处理,再输入解码器,包括:
在三维变分自编码器的潜在空间中,将编码得到的隐向量通过噪声调度noiseschedule进行噪声添加,得到噪声隐向量;
将所述噪声隐向量进行逐级降噪处理,得到降噪后的隐向量,并将降噪后的隐向量输入解码器;
其中,针对每一级降噪处理,将上一级输出的噪声隐向量输入用于本级降噪的三维U型网络U-Net中进行处理,输出本级噪声隐向量,作为下一级三维U型网络的输入,直到最后一级三维U-Net处理得到降噪后的隐向量。
4. 如权利要求1所述的方法,其特征在于,在输入层之后,所述三维变分自编码器的编码器内,还包括:压缩和激励网络Squeeze-and-Excitation Networks模块;
所述方法,还包括
将编码过程中待训三维模型的多个通道数据输入所述压缩和激励网络对不同通道数据进行处理,输出包含不同通道重要性信息的多通道数据。
5.如权利要求1-4任一项所述的方法,其特征在于,针对不同三维模型的表示方法,所述待训练三维模型补全网络包括针对不同三维模型表示方法的三维变分自编码器分支和共享扩散模型;
将所述待训三维模型输入所述三维变分自编码器,将编码得到的隐向量输入所述扩散模型,经过所述扩散模型的加噪和降噪处理,再输入解码器,得到预测的生成三维模型,包括:
确定待训三维模型的表示方法;
将所述待训三维模型输入所述表示方法对应的三维变分自编码器分支,将编码得到的隐向量输入所述共享扩散模型,经过所述共享扩散模型的加噪和降噪处理,再输入对应三维变分自编码器分支的解码器,得到预测的生成三维模型;
基于预测的生成三维模型,对所述三维变分自编码器和所述扩散模型进行损失计算,对所述待训练三维模型补全网络进行训练,包括:
基于预测的生成三维模型,分别对对应三维变分自编码器分支和所述共享扩散模型进行损失计算,对所述待训练三维模型补全网络进行训练。
6.如权利要求5所述的方法,其特征在于,确定待训三维模型的表示方法,包括:
将所述待训三维模型输入预先训练的三维模型分类网络,得到所述待训三维模型的表示方法;
其中,采用如下方式训练所述三维模型分类网络:将带有标签的三维模型样本输入预先构建的分类网络模型,根据输出的三维模型预测类型与三维模型样本携带的标签进行比较,并根据比较结果对所述三维模型分类网络进行训练。
7.如权利要求1或2所述的方法,其特征在于,在三维变分自编码器中采用全卷积神经网络FCN进行特征提取;
所述三维变分自编码器包括:三维矢量量化变分自编码器Vector QuantisedVariational AutoEncoder。
8.一种三维模型补全方法,其特征在于,包括:
获取待补全三维模型;
将所述待补全三维模型输入三维模型补全网络,得到补全后的三维模型;
其中,所述三维模型补全网络按照如权利要求1-7任一项所述的三维模型补全网络的训练方法训练得到;且所述三维模型补全网络包括三维变分自编码器和扩散模型的降噪模块。
9.一种三维模型补全相关装置,其特征在于,包括:提供如权利要求1至7任一所述的三维模型补全网络训练方法的步骤对应功能模块的三维模型补全网络训练装置;或者如权利要求8所述的三维模型补全方法的步骤对应功能模块的三维模型补全装置。
10.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的三维模型补全网络训练方法的步骤,或者权利要求8所述的三维模型补全方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311277860.5A CN117408910A (zh) | 2023-10-07 | 2023-10-07 | 三维模型补全网络的训练方法、三维模型补全方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311277860.5A CN117408910A (zh) | 2023-10-07 | 2023-10-07 | 三维模型补全网络的训练方法、三维模型补全方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117408910A true CN117408910A (zh) | 2024-01-16 |
Family
ID=89499175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311277860.5A Pending CN117408910A (zh) | 2023-10-07 | 2023-10-07 | 三维模型补全网络的训练方法、三维模型补全方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117408910A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808976A (zh) * | 2024-03-01 | 2024-04-02 | 之江实验室 | 一种三维模型构建方法、装置、存储介质及电子设备 |
-
2023
- 2023-10-07 CN CN202311277860.5A patent/CN117408910A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808976A (zh) * | 2024-03-01 | 2024-04-02 | 之江实验室 | 一种三维模型构建方法、装置、存储介质及电子设备 |
CN117808976B (zh) * | 2024-03-01 | 2024-05-24 | 之江实验室 | 一种三维模型构建方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583135B (zh) | 一种核预测神经网络蒙特卡罗渲染图像去噪方法 | |
Bergman et al. | Fast training of neural lumigraph representations using meta learning | |
WO2020263541A1 (en) | Portrait editing and synthesis | |
CN117408910A (zh) | 三维模型补全网络的训练方法、三维模型补全方法及装置 | |
CN115222630A (zh) | 图像生成方法、图像去噪模型的训练方法和设备 | |
US20220156987A1 (en) | Adaptive convolutions in neural networks | |
US20220414838A1 (en) | Image dehazing method and system based on cyclegan | |
CN111738435B (zh) | 一种基于移动设备的在线稀疏训练方法及系统 | |
CN112489183A (zh) | 基于Unity3D的骨骼动画渲染方法及系统 | |
CN115908109A (zh) | 人脸图像风格化模型训练方法、设备和存储介质 | |
Hu et al. | Node graph optimization using differentiable proxies | |
CN115934275A (zh) | 任务处理方法及对话任务处理方法 | |
CN117252984A (zh) | 三维模型生成方法、装置、设备、存储介质及程序产品 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
CN112990356B (zh) | 一种视频实例分割系统和方法 | |
CN112669431B (zh) | 图像处理方法、装置、设备、存储介质以及程序产品 | |
CN113781616A (zh) | 一种基于神经网络的面部动画绑定加速方法 | |
CN113469292A (zh) | 视频合成模型的训练方法、合成方法、装置、介质和设备 | |
CN115937516B (zh) | 一种图像语义分割方法、装置、存储介质及终端 | |
CN115812206A (zh) | 用于高质量图像处理的机器学习 | |
Sbai et al. | Unsupervised image decomposition in vector layers | |
KR102393761B1 (ko) | 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템 | |
CN114972695A (zh) | 一种点云生成方法、装置、电子设备及存储介质 | |
WO2021184380A1 (zh) | 点云编码方法和解码方法、编码器、解码器、及存储介质 | |
CN113160081A (zh) | 一种基于感知去模糊的深度人脸图像修复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |