CN112581593A - 神经网络模型的训练方法及相关设备 - Google Patents
神经网络模型的训练方法及相关设备 Download PDFInfo
- Publication number
- CN112581593A CN112581593A CN202011606464.9A CN202011606464A CN112581593A CN 112581593 A CN112581593 A CN 112581593A CN 202011606464 A CN202011606464 A CN 202011606464A CN 112581593 A CN112581593 A CN 112581593A
- Authority
- CN
- China
- Prior art keywords
- loss function
- generation layer
- training
- sample
- input sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Architecture (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种神经网络模型的训练方法及相关设备,用于训练三维建模的神经网络模型。本申请实施例的方法包括:获取初始神经网络并获取输入样本,使用UV贴图生成层生成输入样本的UV贴图,并根据输入样本的UV贴图与预设的第一训练样本计算第一损失函数;使用网格模型生成层生成输入样本的网格模型,并根据输入样本的网格模型与预设的第二训练样本计算第二损失函数;将输入样本的UV贴图与输入样本的网格模型进行结合,生成输入样本的目标三维模型;对所述目标三维模型进行可微分渲染,并根据渲染图像和输入样本计算第三损失函数;根据第一损失函数、第二损失函数、第三损失函数修正UV贴图生成层和网格模型生成层。
Description
技术领域
本申请实施例涉及机器学习领域,具体涉及神经网络模型的训练方法及相关设备。
背景技术
高度逼真的三维可视内容是沉浸式可视交互的核心,在沉浸式可视交互领域中,三维可视内容的分辨率越高,用户在交互中的沉浸感也就越强。
建立三维可视内容的一个重要方法是通过神经网络对物体图像进行加工处理,生成物体图像对应的UV贴图和网格模型后将其结合,得到物体对应的三维模型。目前存在基于生成对抗网络方法,使用生成对抗网络模型,根据物体的图像分别生成对应的UV贴图和网格模型,结合后得到物体的三维模型。
但是,按照普通生成对抗网络的训练方法,对神经网络进行UV贴图生成层和网格模型生成层进行训练后,神经网络只能根据物体图像得到高分辨率UV贴图和高分辨率的网格模型,但是无法保证UV贴图生成层和网格模型生成层的协同性。最终生成的高分辨率UV贴图与高分辨率网格模型结合后,得到的三维模型质量并不高。
发明内容
有鉴于此,本申请实施例提供了神经网络模型的训练方法及相关设备,用于训练三维建模领域的神经网络模型。
本申请第一方面提供一种神经网络模型的训练方法,该方法包括:
获取初始神经网络并获取输入样本,所述初始神经网络包括UV贴图生成层、网格模型生成层,所述UV贴图生成层和所述网格模型生成层为生成对抗网络,所述输入样本为无背景的物体图像;
使用所述UV贴图生成层生成所述输入样本的UV贴图,并根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数,所述第一训练样本为第一预设分辨率的UV贴图;
使用所述网格模型生成层生成所述输入样本的网格模型,并根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数,所述第二训练样本为第二预设分辨率的网格模型;
将所述输入样本的UV贴图与所述输入样本的网格模型进行结合,生成所述输入样本的目标三维模型;
对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,并根据所述渲染图像和所述输入样本计算第三损失函数;
根据所述第一损失函数和所述第三损失函数修正所述UV贴图生成层,得到目标UV贴图生成层;
根据所述第二损失函数和所述第三损失函数修正所述网格模型生成层,得到目标网格模型生成层;
其中,所述目标UV贴图生成层、所述目标网格模型生成层用于构成目标神经网络。
可选地,所述根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数,包括:
使用所述输入样本的UV贴图与所述第一训练样本对所述UV贴图生成层进行生成对抗训练,计算第一对抗损失函数;
提取所述输入样本的UV贴图特征和所述第一训练样本的UV贴图特征;
使用所述输入样本的UV贴图特征与所述第一训练样本的UV贴图特征对所述UV贴图生成层进行生成对抗训练,计算第二对抗损失函数;
综合所述第一对抗损失函数与所述第二对抗损失函数,得到第一损失函数。
可选地,所述第一对抗损失函数与所述第二对抗损失函数的在所述第一损失函数中的权重相同。
可选地,所述根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数,包括:
获取预设的第二训练样本;
提取所述输入样本的网格模型特征和所述第二训练样本的网格模型特征;
使用所述输入样本的网格模型特征与所述第二训练样本的网格模型特征,对所述网格模型生成层进行生成对抗训练,得到第二损失函数。
可选地,所述根据所述渲染图像和所述输入样本计算第三损失函数,包括:
根据所述渲染图像和所述输入样本,计算所述目标三维模型的重构损失函数;
获取预设的第三训练样本,所述第三训练样本为第三预设分辨率的物体图像;
使用所述渲染图像与所述第三训练样本,对所述UV贴图生成层和网格模型生成层进行生成对抗训练,得到第四对抗损失函数;
获取预设的第四训练样本,所述第四训练样本为无破面的物体图像;
使用所述渲染图像与所述第四训练样本,对所述UV贴图生成层和网格模型生成层进行生成对抗训练,得到第五对抗损失函数;
综合所述重构损失函数、所述第四对抗损失函数和所述第五对抗损失函数,得到第三损失损失函数。
可选地,所述根据所述渲染图像和所述输入样本,计算所述目标三维模型的重构损失函数,包括:
选取多张与输入样本视角相同的渲染图像;
基于所述多张与输入样本视角相同的渲染图像,计算所述目标三维模型的重构损失函数。
可选地,所述获取输入样本,包括:
获取未处理样本,所述未处理样本为包含背景的物体图像,使用所述神经网络模型的预处理层从所述未处理样本中过滤得到输入样本,得到输入样本。
可选地,所述对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,包括:
获取基于插值光栅化的微分渲染器;
将所述目标三维模型输入所述基于插值光栅化的微分渲染器进行渲染,得到所述目标三维模型对应的多个视角的渲染图像。
本申请第二方面提供一种神经网络模型的训练设备,包括:
获取单元,用于获取初始神经网络并获取输入样本,所述初始神经网络包括UV贴图生成层、网格模型生成层,所述UV贴图生成层和所述网格模型生成层为生成对抗网络,所述输入样本为无背景的物体图像;
第一计算单元,用于使用所述UV贴图生成层生成所述输入样本的UV贴图,并根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数,所述第一训练样本为第一预设分辨率的UV贴图;
第二计算单元,用于使用所述网格模型生成层生成所述输入样本的网格模型,并根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数,所述第二训练样本为第二预设分辨率的网格模型;
结合单元,用于将所述输入样本的UV贴图与所述输入样本的网格模型进行结合,生成所述输入样本的目标三维模型;
第三计算单元,用于对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,并根据所述渲染图像和所述输入样本计算第三损失函数;
第一修正单元,用于根据所述第一损失函数和所述第三损失函数修正所述UV贴图生成层,得到目标UV贴图生成层;
第二修正单元,用于根据所述第二损失函数和所述第三损失函数修正所述网格模型生成层,得到目标网格模型生成层。
本申请第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面中的任意一项神经网络模型的训练方法。
从以上技术方案可以看出,本申请实施例具有以下优点:本申请对三维建模神经网络的训练方法进行了改进,使得神经网络的UV生成层和网格模型生成层能够在保证各自生成分辨率提升的前提下,二者之间的协调性,使得生成的三维模型质量更高。
附图说明
图1是本申请神经网络模型的训练方法的一个实施例示意图;
图2是本申请神经网络模型的训练方法的一个实施例示意图;
图3是本申请神经网络模型的训练方法的一个实施例示意图;
图4是本申请神经网络模型的训练方法的一个实施例示意图;
图5是本申请神经网络模型的训练方法的一个实施例示意图;
图6是本申请神经网络模型的训练方法的一个实施例示意图;
图7是本申请神经网络模型的训练方法的一个实施例示意图;
图8是本申请神经网络模型的训练设备的一个实施例示意图。
具体实施方式
高度逼真的三维可视内容是沉浸式可视交互的核心,目前三维视觉内容的生成受到三个方面的制约与限制:
首先,依赖于激光扫描仪等复杂的高精度三维获取设备,虽然生成的模型精度较高,但是模型并没有生成贴图,而仅仅是点云,无法满足客户的需求,而另一种基于彩色扫描仪的重建,由于现阶段的精度并不是很高,同样也无法满足AR,VR,XR等领域的需求;
其次,需要内容创作者们通过专业的三维模型设计工具,付出大量的开发工作去构建高清晰的视觉内容。
最后,基于照片的重建,软件为了制造高精度的模型,需要大量的高清图像,而大量的高清图像会导致建模时间大幅度上升。除此之外,基于照片的重建,即使是高清的图像最后建模出来的效果也无法满足客户需求;基于照片的建模还会由于背景的原因,会使得背景也被重建出来,这就给三维建模带来后期繁杂的人工处理工作。
基于此,本申请提供了一种神经网络的训练方法,可以训练得到高精度的三维建模神经网络,自动对物体图像进行高精度的三维建模任务。
采用神经网络对物体进行三维建模还原时,大致分为两部分,一部分是UV贴图生成层根据物体图像生成对应的UV贴图,另一部分则是根据物体图像生成对应的网格模型。采用现有的对抗训练技术进行无监督训练,可以提升贴图分辨率。但是,最终生成的UV贴图与网格模型结合得到的三维模型分辨率并不理想,存在分辨率较低、还原度不高、破面较多等问题。主要是因为神经网络中负责网格模型生成的部分与负责UV贴图生成的部分协同性较差,在训练时没有有效的方法保证两者的协同性也得到提升。
本申请要训练的神经网络模型在进行物体图像的三维建模时,其建模流程如图1所示,
为了解决现有技术的问题,本申请实施例中提供的神经网络模型训练方法基于生成对抗网络的训练进行了改进,具体请参阅图1,该实施例包括:
101、获取初始神经网络并获取输入样本,所述初始神经网络包括UV贴图生成层、网格模型生成层;
获取需要训练的初始神经网络,该神经网络主要包括UV贴图生成层、网格模型生成层。其中,UV贴图生成层和网格模型生成层都是生成对抗网络,UV贴图生成层主要用于根据输入的物体图像,生成该物体对应的UV贴图;网格模型生成层则主要用于根据输入的物体图像,生成该物体对应的网格模型。此外需要获得用于训练该初始神经网络的样本,根据需要还原的物体不同,根据训练的目的不同,设置相应的样本输入样本。为了便于进行图像处理,这些输入样本应当不包含背景。
102、使用所述UV贴图生成层生成所述输入样本的UV贴图,并根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数;
按照生成对抗网络的训练方法,对UV贴图生成层进行训练。具体准备一些分辨率较高的第一预设分辨率的UV贴图,作为第一训练样本,对UV贴图层进行深度对抗训练,使得UV贴图生成层在对抗训练中,能根据输入样本生成分辨率更高的UV贴图。
103、使用所述网格模型生成层生成所述输入样本的网格模型,并根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数;
按照生成对抗网络的训练方法,对网格模型生成层进行训练。准备一些分辨率较高的第二预设分辨率的网格模型,作为第二训练样本,对网格模型生成层进行深度对抗训练,使得网格模型生成层在对抗训练中,能根据输入样本生成分辨率更高的网格模型。
104、将所述输入样本的UV贴图与所述输入样本的网格模型进行结合,生成所述输入样本的目标三维模型;
按照UV贴图与网格模型的建模规则,直接结合输入样本的UV贴图和网格模型,可以得到输入样本的目标三维模型。为了便于区分,此处生成的模型称为目标三维模型。
105、对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,并根据所述渲染图像和所述输入样本计算第三损失函数;
使用可微分渲染技术,如基于插值光栅化的微分渲染器(DIB-R),将输入样本的UV贴图和所述输入样本的网格模型输入到可微分渲染器中,从而基于目标三维模型进行多角度的可微分渲染,生成渲染图像。这些渲染图像基于可微分渲染技术生成,可以进行微分计算。需要注意的是,这些渲染图像中,包含多张与训练样本视角相同的渲染图像。,根据这些渲染图像,可以计算第三修正函数来评估神经网络所生成的目标三维模型的质量,得到第三修正函数。该第三修正函数的大小既体现了UV贴图生成层和网格模型生成层所生成的文件精度,又体现了UV贴图生成层和网格模型生成层的协调性好坏。可以理解的是,上述渲染过程还可以使用Softras或PyTorch3D等技术,具体此处不作限定,能够能把三维模型进行渲染,且该渲染操作是可微分的即可。
106、根据所述第一损失函数和所述第三损失函数修正所述UV贴图生成层,得到目标UV贴图生成层;
使用步骤102计算得到的第一损失函数和步骤105的第三损失函数,对UV贴图生成层进行参数修正。可以理解的是,第一损失函数和第三损失函数可以加权后再对UV贴图生成层进行参数修正,或者分别使用第一损失函数和第三损失函数修正UV贴图生成层,得到的就是目标UV贴图生成层。
107、根据所述第二损失函数和所述第三损失函数修正所述网格模型生成层,得到目标网格模型生成层;
使用步骤103计算得到的第一损失函数和步骤105的第三损失函数,对网格模型生成层进行参数修正。可以理解的是,第二损失函数和第三损失函数可以加权后再对网格模型生成层进行参数修正,或者分别使用第二损失函数和第三损失函数修正网格模型生成层,得到的就是目标网格模型生成层。
可以看到,本实施例的神经网络训练方法使用无监督的对抗训练方法,分别对初始神经网络的UV贴图生成层和网格模型生成层进行参数优化,还将输入样本的目标三维模型进行可微分渲染后的图像与输入样本进行比较评估,得到第三损失函数,基于第三损失函数来对UV贴图生成层和网格模型生成层进行了协调性的优化。
在一些实施例中,还出示了图1所示实施例的步骤102的一种较优的实施方式,以进一步提高UV贴图生成层的收敛速度。具体请参阅图2和图3,步骤102中,根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数的过程具体包括:
S1021、使用所述输入样本的UV贴图与所述第一训练样本对所述UV贴图生成层进行生成对抗训练,计算第一对抗损失函数;
准备一个对抗训练用的判别器D1,并且准备大量对抗训练用的第一训练样本,与UV贴图生成层进行对抗训练。这些第一训练样本为高分辨率的UV贴图,将UV贴图生成层生成的输入样本的UV贴图和第一训练样本进行标记后交叉输入到判别器D1中,对判别器D1进行训练。同时根据判别器D1的鉴别结果,计算第一对抗损失函数,以便对UV贴图生成层进行参数调整,使第一对抗损失函数减小。
S1022、提取所述输入样本的UV贴图特征和所述第一训练样本的UV贴图特征;
使用相同的UV贴图特征提取工具,分别提取输入样本的UV贴图特征和第一训练样本的UV贴图特征。
S1023、使用所述输入样本的UV贴图特征与所述第一训练样本的UV贴图特征对所述UV贴图生成层进行生成对抗训练,计算第二对抗损失函数;
准备一个对抗训练用的判别器D2。输入样本的UV贴图特征和第一训练样本的UV贴图特征进行标记后交叉输入到判别器D2中,对判别器D2进行训练。同时根据判别器D2的鉴别结果,计算第二对抗损失函数,以便对UV贴图生成层进行参数调整,使第二对抗损失函数减小。
S1024、综合所述第一对抗损失函数与所述第二对抗损失函数,得到第一损失函数。
按照一定权重,综合第一对抗损失函数和第二对抗损失函数,得到第一损失函数。第一损失函数体现了UV贴图生成层的所生成的UV贴图是否接近于高分辨率的第一训练样本,也就是说,第一损失函数越小,就表明UV贴图生成层的所生成的UV贴图分辨率越高。在一个较优的实施方式中,第一对抗损失函数和第二对抗损失函数在第一损失函数中的权重相同。
可以看到,本实施例中采用无监督的对抗训练来对UV贴图生成层进行优化,不必像传统的训练方式一样准备大量成对(同一物体的高分辨率UV贴图和低分辨率UV贴图)的输入样本。同时为了提高UV贴图生成层的收敛速度,同时采用了基于完整UV贴图的对抗训练和基于UV贴图特征的对抗训练,训练效果更好。在生成对抗网络模型中,图像的对抗部分能使得生成的UV贴图更加具有更加丰富的纹理信息,在特征的对抗部分主要是让UV贴图的特征表达从低精度的流形转移到高精度的流形,从而增强神经网络生成高精度UV贴图的能力
可以理解的是,本实施例仅仅出示了UV贴图生成层的损失函数计算的较佳实施例,本领域技术人员可以采用其他的无监督的对抗训练方式对UV贴图生成层进行参数优化,仍然属于本发明保护的范围。
在一些实施例中,还出示了图1所示实施例的步骤103的一种较优的实施方式,以进一步提高网格模型生成层的收敛速度。具体请参阅图4和图5,步骤103中,根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数的过程具体包括:
S1031、获取预设的第二训练样本;
准备一些高分辨率的网格模型,作为第二训练样本。
S1032、提取所述输入样本的网格模型特征和所述第二训练样本的网格模型特征;
使用相同的网格模型特征提取工具,分别提取输入样本的网格模型特征和所述第二训练样本的网格模型特征。所提取的网格模型特征与原本的网格模型相比,数据量更少。
S1033、使用所述输入样本的网格模型特征与所述第二训练样本的网格模型特征,对所述网格模型生成层进行生成对抗训练,得到第二损失函数。
准备一个对抗训练用的判别器D3。输入样本的网格模型特征和第二训练样本的网格模型特征进行标记后交叉输入到判别器D3中,对判别器D3进行训练。同时根据判别器D3的鉴别结果,计算第三损失函数,以便对网格模型生成层进行参数调整,使第二损失函数减小。
在本实施例中,同样采用了无监督的对抗训练来对网格模型生成层进行优化,不必像传统的训练方式一样准备大量成对(同一物体的高分辨率网格模型和低分辨率网格模型)的输入样本。更重要的是,本实施例的对抗训练中,输入网格模型生成层和判别器D3的数据是网格模型特征,而非完整的网格模型,减轻了因为网格模型因数据量过大而导致的计算缓慢问题。可以理解的是,本实施例仅仅出示了网格模型生成层的损失函数计算的较佳实施例,本领域技术人员可以采用其他的无监督的对抗训练方法对网格模型生成层进行优化,仍然属于本发明保护的范围。
在一些实施例中,还出示了图1所示实施例的步骤105的一种较优的实施方式,同时对UV贴图生成层和网格模型生成层进行优化。具体请参阅图6,步骤105中,对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,并根据所述渲染图像和所述输入样本计算第三损失函数的过程具体包括:
S1051、根据所述渲染图像和所述输入样本,计算所述目标三维模型的重构损失函数;
选取与输入样本相同视角的渲染图像,与输入样本进行比较,从而计算目标三维模型的重构损失函数,该重构损失函数大致反映了目标三维模型与原本的输入样本之间的相似度。如果输入样本是物体单个角度的图像,那么只需要选取与该输入样本视角相同的渲染图像来计算重构损失函数。如果输入样本包括物体N个视角的图像,那么最好选取N渲染图像,每个渲染图像与输入样本的一个视角对应,将N个渲染图像与输入样本的N个视角图像一一比较,计算重构损失函数。
S1052、获取预设的第三训练样本;
准备大量物体比输入样本分辨率更高的第三预设分辨率的物体图像作为第三训练样本。
S1053、使用所述目标三维模型与所述第三训练样本,对所述UV贴图生成层和网格模型生成层进行生成对抗训练,得到第四对抗损失函数;
准备一个对抗训练用的判别器D4,将输入样本的目标三维模型从一些角度渲染出的图像,和第三训练样本进行标记后交叉输入到判别器D4中,对判别器D4进行训练。同时根据判别器D4的鉴别结果,计算第四对抗损失函数,第四对抗损失函数越小,说明根据输入样本生成的目标三维模型分辨率越高。
S1054、获取预设的第四训练样本;
准备大量物体没有破面的物体图像作为第四训练样本。
S1055、使用所述目标三维模型与所述第四训练样本,对所述UV贴图生成层和网格模型生成层进行生成对抗训练,得到第五对抗损失函数;
准备一个对抗训练用的判别器D5,将输入样本的目标三维模型从一些角度渲染出的图像,和第四训练样本进行标记后交叉输入到判别器D5中,对判别器D5进行训练。同时根据判别器D5的鉴别结果,计算第五对抗损失函数,第五对抗损失函数越小,说明根据输入样本生成的目标三维模型破面越少。
S606、综合所述重构损失函数、所述第四对抗损失函数和所述第五对抗损失函数,得到第三损失函数。
综合步骤S1051的重构损失函数、S1053的第四对抗损失函数和S1055的第五对抗损失函数,按照一定权重结合得到第三损失函数。第三损失函数总体上反映了初始神经网络的对输入样本进行三维建模的性能。
在把图像的特征表达从低分辨率流形迁移到高分辨率流形的过程中,并没有保证迁移之后流形上的点是对应的(低分辨率的贴图的信息跟高分辨率的贴图信息基本一致,除了分辨率不同),所以在这里需要加入对应的监督信息,而可微分的渲染器可以把高低分辨率特征之间的损失函数传递到模型参数当中去,实现流形转换之间的监督。
可以看出,本实施中提供了第三损失函数的一种具体计算方法,该第三损失函数能够较为全面地反映初始神经网络对输入样本进行三维建模的质量好坏。可以理解的是,第三损失函数中,中间损失函数、第四对抗损失函数和第五对抗损失函数的权重可以根据实际需求进行修改,以侧重于提高神经网络的某一方面性能。第三损失函数的计算方法也不局限于实施例中所描述的方法,重要的是第三损失函数能够在反映UV贴图生成层和网格模型生成层的协调性。本实施例中,可以采用完全弗雷歇起始距离(Full FréchetInception Distance,Full FID)来评估神经网络模型的生成的目标三维模型的质量。神经网络可以在训练时,实时输出每次训练的Full FID供工作人员查看。Full FID主要有由网格弗雷歇起始距离(Mesh Fréchet Inception Distance,Mesh FID)和贴图弗雷歇起始距离(Texture Fréchet Inception Distance,Texture FID)构成,使用可微分渲染器从多个角度渲染出目标三维模型的渲染图像,并与高精度的样本进行计算,可以得到各个面的Mesh FID和Texture FID,综合起来的Full FID可以用来评估目标网络模型建模质量的好坏,Full FID越小,表明神经网络模型的建模质量越高。
在一些实施例中,为了进行全自动的训练流程,初始神经网络还可以包括预处理层。此时步骤101中获取输入样本的步骤包括:获取未处理样本,所述未处理样本为包含背景的物体图像;并使用所述神经网络模型的预处理层从所述未处理样本中过滤得到输入样本,得到输入样本。增加了预处理层后,输入样本的获取难度大大降低,可以从普通的三维模型截取图像或直接拍摄普通的物体照片作为输入样本,而不需要人工去除背景。
需要说明的是,上述可以将图2、图4、图6中的具体实施方式互相结合,组成更复杂的实施例作为本发明的较佳实施方式。但是本申请的保护范围仍应参照图1所示的实施例的说明范围,在此范围内的任何改动都未脱离本发明的保护范围。
为实现图1至图7的神经网络模型训练方法,图8还出示了一种神经网络模型的训练设备,该设备包括:
获取单元801,用于获取初始神经网络并获取输入样本,所述初始神经网络包括UV贴图生成层、网格模型生成层,所述UV贴图生成层和所述网格模型生成层为生成对抗网络,所述输入样本为无背景的物体图像;
第一计算单元802,使用所述UV贴图生成层生成所述输入样本的UV贴图,并根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数,所述第一训练样本为第一预设分辨率的UV贴图;
第二计算单元803,使用所述网格模型生成层生成所述输入样本的网格模型,并根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数,所述第二训练样本为第二预设分辨率的网格模型;
结合单元804,用于将所述输入样本的UV贴图与所述输入样本的网格模型进行结合,生成所述输入样本的目标三维模型;
第三计算单元805,用于用于对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,并根据所述渲染图像和所述输入样本计算第三损失函数。第一修正单元806,用于根据所述第一损失函数和所述第三损失函数修正所述UV贴图生成层,得到目标UV贴图生成层;
第二修正单元807,用于根据所述第二损失函数和所述第三损失函数修正所述网格模型生成层,得到目标网格模型生成层。
该神经网络模型的训练设备具体还可以实现图1至图7所示的神经网络模型的训练方法,具体工作过程可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述程序被处理器执行时实现图1至图7所示的任意一种的神经网络模型的训练方法
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种神经网络模型的训练方法,其特征在于,包括:
获取初始神经网络并获取输入样本,所述初始神经网络包括UV贴图生成层、网格模型生成层,所述UV贴图生成层和所述网格模型生成层为生成对抗网络,所述输入样本为无背景的物体图像;
使用所述UV贴图生成层生成所述输入样本的UV贴图,并根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数,所述第一训练样本为第一预设分辨率的UV贴图;
使用所述网格模型生成层生成所述输入样本的网格模型,并根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数,所述第二训练样本为第二预设分辨率的网格模型;
将所述输入样本的UV贴图与所述输入样本的网格模型进行结合,生成所述输入样本的目标三维模型;
对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,并根据所述渲染图像和所述输入样本计算第三损失函数;
根据所述第一损失函数和所述第三损失函数修正所述UV贴图生成层,得到目标UV贴图生成层;
根据所述第二损失函数和所述第三损失函数修正所述网格模型生成层,得到目标网格模型生成层;
其中,所述目标UV贴图生成层、所述目标网格模型生成层用于构成目标神经网络。
2.根据权利要求1所述的神经网络模型的训练方法,其特征在于,所述根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数,包括:
使用所述输入样本的UV贴图与所述第一训练样本对所述UV贴图生成层进行生成对抗训练,计算第一对抗损失函数;
提取所述输入样本的UV贴图特征和所述第一训练样本的UV贴图特征;
使用所述输入样本的UV贴图特征与所述第一训练样本的UV贴图特征对所述UV贴图生成层进行生成对抗训练,计算第二对抗损失函数;
综合所述第一对抗损失函数与所述第二对抗损失函数,得到第一损失函数。
3.根据权利要求2所述的神经网络模型的训练方法,其特征在于,所述第一对抗损失函数与所述第二对抗损失函数的在所述第一损失函数中的权重相同。
4.根据权利要求1所述的基于对抗网络的高精度模型生成方法,其特征在于,所述根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数,包括:
获取预设的第二训练样本;
提取所述输入样本的网格模型特征和所述第二训练样本的网格模型特征;
使用所述输入样本的网格模型特征与所述第二训练样本的网格模型特征,对所述网格模型生成层进行生成对抗训练,得到第二损失函数。
5.根据权利要求1所述的神经网络模型的训练方法,其特征在于,所述根据所述渲染图像和所述输入样本计算第三损失函数,包括:
根据所述渲染图像和所述输入样本,计算所述目标三维模型的重构损失函数;
获取预设的第三训练样本,所述第三训练样本为第三预设分辨率的物体图像;
使用所述渲染图像与所述第三训练样本,对所述UV贴图生成层和网格模型生成层进行生成对抗训练,得到第四对抗损失函数;
获取预设的第四训练样本,所述第四训练样本为无破面的物体图像;
使用所述渲染图像与所述第四训练样本,对所述UV贴图生成层和网格模型生成层进行生成对抗训练,得到第五对抗损失函数;
综合所述重构损失函数、所述第四对抗损失函数和所述第五对抗损失函数,得到第三损失函数。
6.根据权利要求5所述的神经网络模型的训练方法,其特征在于,所述根据所述渲染图像和所述输入样本,计算所述目标三维模型的重构损失函数,包括:
选取多张与输入样本视角相同的渲染图像;
基于所述多张与输入样本视角相同的渲染图像,计算所述目标三维模型的重构损失函数。
7.根据权利要求1至6中任一项所述的神经网络模型的训练方法,其特征在于,所述获取输入样本,包括:
获取未处理样本,所述未处理样本为包含背景的物体图像,使用所述神经网络模型的预处理层从所述未处理样本中过滤得到输入样本,得到输入样本。
8.根据权利要求1至7中任一项所述的神经网络模型的训练方法,其特征在于,所述对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,包括:
获取基于插值光栅化的微分渲染器;
将所述目标三维模型输入所述基于插值光栅化的微分渲染器进行渲染,得到所述目标三维模型对应的多个视角的渲染图像。
9.一种神经网络模型的训练设备,其特征在于,包括:
获取单元,用于获取初始神经网络并获取输入样本,所述初始神经网络包括UV贴图生成层、网格模型生成层,所述UV贴图生成层和所述网格模型生成层为生成对抗网络,所述输入样本为无背景的物体图像;
第一计算单元,用于使用所述UV贴图生成层生成所述输入样本的UV贴图,并根据所述输入样本的UV贴图与预设的第一训练样本计算第一损失函数,所述第一训练样本为第一预设分辨率的UV贴图;
第二计算单元,用于使用所述网格模型生成层生成所述输入样本的网格模型,并根据所述输入样本的网格模型与预设的第二训练样本计算第二损失函数,所述第二训练样本为第二预设分辨率的网格模型;
结合单元,用于将所述输入样本的UV贴图与所述输入样本的网格模型进行结合,生成所述输入样本的目标三维模型;
第三计算单元,用于对所述目标三维模型进行可微分渲染,生成所述目标三维模型多个视角的渲染图像,并根据所述渲染图像和所述输入样本计算第三损失函数;
第一修正单元,用于根据所述第一损失函数和所述第三损失函数修正所述UV贴图生成层,得到目标UV贴图生成层;
第二修正单元,用于根据所述第二损失函数和所述第三损失函数修正所述网格模型生成层,得到目标网格模型生成层。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8中任意一项所述的神经网络模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011606464.9A CN112581593B (zh) | 2020-12-28 | 2020-12-28 | 神经网络模型的训练方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011606464.9A CN112581593B (zh) | 2020-12-28 | 2020-12-28 | 神经网络模型的训练方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112581593A true CN112581593A (zh) | 2021-03-30 |
CN112581593B CN112581593B (zh) | 2022-05-31 |
Family
ID=75144400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011606464.9A Active CN112581593B (zh) | 2020-12-28 | 2020-12-28 | 神经网络模型的训练方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112581593B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223159A (zh) * | 2021-05-27 | 2021-08-06 | 哈尔滨工程大学 | 基于目标纹理虚拟化处理的单幅遥感图像三维建模方法 |
CN114049420A (zh) * | 2021-10-29 | 2022-02-15 | 马上消费金融股份有限公司 | 一种模型训练方法、图像渲染方法、装置和电子设备 |
CN114792359A (zh) * | 2022-06-24 | 2022-07-26 | 北京百度网讯科技有限公司 | 渲染网络训练和虚拟对象渲染方法、装置、设备及介质 |
CN116206046A (zh) * | 2022-12-13 | 2023-06-02 | 北京百度网讯科技有限公司 | 渲染处理方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100271371A1 (en) * | 2009-04-27 | 2010-10-28 | Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. | Data processing device and method for converting coordinates of a curved surface |
US20170064294A1 (en) * | 2015-08-28 | 2017-03-02 | Christie Digital Systems Usa, Inc. | Projection mapping video pipeline |
CN108805977A (zh) * | 2018-06-06 | 2018-11-13 | 浙江大学 | 一种基于端到端卷积神经网络的人脸三维重建方法 |
US20190355126A1 (en) * | 2018-05-21 | 2019-11-21 | National Tsing Hua University | Image feature extraction method and saliency prediction method using the same |
-
2020
- 2020-12-28 CN CN202011606464.9A patent/CN112581593B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100271371A1 (en) * | 2009-04-27 | 2010-10-28 | Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. | Data processing device and method for converting coordinates of a curved surface |
US20170064294A1 (en) * | 2015-08-28 | 2017-03-02 | Christie Digital Systems Usa, Inc. | Projection mapping video pipeline |
US20190355126A1 (en) * | 2018-05-21 | 2019-11-21 | National Tsing Hua University | Image feature extraction method and saliency prediction method using the same |
CN108805977A (zh) * | 2018-06-06 | 2018-11-13 | 浙江大学 | 一种基于端到端卷积神经网络的人脸三维重建方法 |
Non-Patent Citations (2)
Title |
---|
JIANKANG DENG 等: "UV-GAN: Adversarial Facial UV Map Completion for Pose-Invariant Face Recognition", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
王珊等: "三维人脸表情获取及重建技术综述", 《系统仿真学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223159A (zh) * | 2021-05-27 | 2021-08-06 | 哈尔滨工程大学 | 基于目标纹理虚拟化处理的单幅遥感图像三维建模方法 |
CN114049420A (zh) * | 2021-10-29 | 2022-02-15 | 马上消费金融股份有限公司 | 一种模型训练方法、图像渲染方法、装置和电子设备 |
CN114792359A (zh) * | 2022-06-24 | 2022-07-26 | 北京百度网讯科技有限公司 | 渲染网络训练和虚拟对象渲染方法、装置、设备及介质 |
CN114792359B (zh) * | 2022-06-24 | 2022-10-11 | 北京百度网讯科技有限公司 | 渲染网络训练和虚拟对象渲染方法、装置、设备及介质 |
CN116206046A (zh) * | 2022-12-13 | 2023-06-02 | 北京百度网讯科技有限公司 | 渲染处理方法、装置、电子设备及存储介质 |
CN116206046B (zh) * | 2022-12-13 | 2024-01-23 | 北京百度网讯科技有限公司 | 渲染处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112581593B (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112581593B (zh) | 神经网络模型的训练方法及相关设备 | |
Wang et al. | Hf-neus: Improved surface reconstruction using high-frequency details | |
Pittaluga et al. | Revealing scenes by inverting structure from motion reconstructions | |
CN110706152B (zh) | 基于生成对抗网络的人脸光照迁移方法 | |
Weiss et al. | Volumetric isosurface rendering with deep learning-based super-resolution | |
CN106796716B (zh) | 用于为低分辨率图像提供超分辨率的设备和方法 | |
CN113096234B (zh) | 利用多张彩色图片生成三维网格模型的方法及装置 | |
CN111462206B (zh) | 一种基于卷积神经网络的单目结构光深度成像方法 | |
CN110288697A (zh) | 基于多尺度图卷积神经网络的3d人脸表示与重建方法 | |
CN109859131A (zh) | 一种基于多尺度自相似性与共形约束的图像复原方法 | |
CN113298931B (zh) | 一种物体模型的重建方法、装置、终端设备和存储介质 | |
CN109410158B (zh) | 一种基于卷积神经网络的多焦点图像融合方法 | |
WO2023179091A1 (zh) | 三维模型渲染方法、装置、设备、存储介质及程序产品 | |
Yang et al. | Image inpainting using block-wise procedural training with annealed adversarial counterpart | |
Sheng et al. | A lightweight surface reconstruction method for online 3D scanning point cloud data oriented toward 3D printing | |
CN115375839A (zh) | 一种基于深度学习的多视角头发建模方法及系统 | |
Petersen et al. | Style Agnostic 3D Reconstruction via Adversarial Style Transfer | |
CN110322548B (zh) | 一种基于几何图像参数化的三维网格模型生成方法 | |
Zeng et al. | Multi-view self-supervised learning for 3D facial texture reconstruction from single image | |
EP4287134A1 (en) | Method and system for generating polygon meshes approximating surfaces using root-finding and iteration for mesh vertex positions | |
CN115953330B (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
US20240161362A1 (en) | Target-augmented material maps | |
Nader et al. | Adaptive multi‐scale analysis for point‐based surface editing | |
CN114494576A (zh) | 一种基于隐函数的快速高精度多视点人脸三维重建方法 | |
KR102648938B1 (ko) | 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |