CN111325832A - 建模方法、建模装置和电子设备 - Google Patents
建模方法、建模装置和电子设备 Download PDFInfo
- Publication number
- CN111325832A CN111325832A CN202010142321.0A CN202010142321A CN111325832A CN 111325832 A CN111325832 A CN 111325832A CN 202010142321 A CN202010142321 A CN 202010142321A CN 111325832 A CN111325832 A CN 111325832A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- data
- dimensional
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims description 329
- 238000000605 extraction Methods 0.000 claims description 43
- 238000013075 data extraction Methods 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 21
- 239000013598 vector Substances 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005477 standard model Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 101000742346 Crotalus durissus collilineatus Zinc metalloproteinase/disintegrin Proteins 0.000 description 1
- 101000872559 Hediste diversicolor Hemerythrin Proteins 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种建模方法、建模装置和电子设备,建模方法包括以下步骤:获取二维图像;确定所述二维图像中目标对象的二维关键点和蒙版,其中,所述蒙版的形状与所述目标对象的形状相对应;基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;根据所述目标对象的模型数据建立所述目标对象的三维模型。本发明实施例的技术方案通过确定目标对象在二维图像中的二维关键点,生成目标对象的模型数据以建立目标对象的三维模型,能够降低对于三维数据的依赖,从而简化建模过程,有助于降低建模成本。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种建模方法、建模装置和电子设备。
背景技术
三维模型重建是计算机视觉技术中一种任务,主要通过计算机技术从图片或视频中重建或恢复,然而现有三维模型重建任务需要对图片或视频中的对象进行的关键点进行标注,然而在三维模型上进行关键点的标注所需的计算量和标注成本较高,会导致建模成本显著增加。
发明内容
本发明实施例的目的在于提供一种建模方法、建模装置和电子设备,以实现降低基于图片或视频中的对象进行三维建模的成本。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种建模方法,包括以下步骤:
获取二维图像;
确定所述二维图像中目标对象的二维关键点和蒙版,其中,所述蒙版的形状与所述目标对象的形状相对应;
基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;
根据所述目标对象的模型数据建立所述目标对象的三维模型。
可选地,所述基于所述二维关键点和所述蒙版确定所述目标对象的模型数据,包括:
将所述目标对象的二维关键点和蒙版输入模型数据提取网络,获得所述目标对象的模型数据;
其中,所述模型数据提取网络是由训练对象的二维关键点和蒙版作为输入,所述训练对象的模型训练数据作为输出,并根据所述训练对象的模型训练数据与所述训练对象的模型数据进行反馈,以进行模型训练得到,所述训练对象的二维关键点和蒙版是根据所述训练对象的模型数据确定的,所述训练对象的模型数据包括所述训练对象的姿态信息数据、镜头信息数据和形状信息数据,所述模型训练数据包括所述训练对象的姿态信息训练数据、镜头信息训练数据和形状信息训练数据。
可选地,所述获取二维图像之前,还包括:
随机生成多组训练对象的模型数据;
根据所述训练对象的模型数据建立所述训练对象的三维模型,并根据所述三维模型确定所述训练对象的二维关键点和蒙版;
将所述训练对象的二维关键点和蒙版输入第一网络模型,以通过所述第一网络模型提取所述训练对象的模型训练数据;
根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,并将训练完成的所述第一网络模型作为所述模型数据提取网络。
可选地,所述根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,包括:
分别根据所述训练对象的姿态信息数据和姿态信息训练数据确定姿态信息的损失值,根据所述训练对象的镜头信息数据和镜头信息训练数据确定镜头信息的损失值,根据所述训练对象的形状信息数据和形状信息训练数据确定形状信息的损失值;
根据所述姿态信息的损失值、镜头信息的损失值和形状信息的损失值确定所述训练对象的模型数据和模型训练数据的总损失值,并根据所述总损失值调整所述第一网络模型的参数;
在所述训练对象的模型数据和模型训练数据的总损失值小于预设损失值阈值的情况下,将所述第一网络模型作为所述模型数据提取网络。
可选地,所述基于所述二维图像确定所述目标对象的二维关键点和蒙版,包括:
将所述二维图像输入标注提取网络,获得所述目标对象的二维关键点和蒙版,其中,所述标注提取网络是通过模型训练得到的。
在本发明实施的第二方面,还提供了一种建模装置,包括:
获取模块,用于获取二维图像;
确定模块,用于确定所述二维图像中目标对象的二维关键点和蒙版,其中,所述蒙版的形状与所述目标对象的形状相对应;
生成模块,用于基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;
建模模块,用于根据所述目标对象的模型数据建立所述目标对象的三维模型。
可选地,所述生成模块,具体用于将所述目标对象的二维关键点和蒙版输入模型数据提取网络,获得所述目标对象的模型数据;
其中,所述模型数据提取网络是由训练对象的二维关键点和蒙版作为输入,所述训练对象的模型训练数据作为输出,并根据所述训练对象的模型训练数据与所述训练对象的模型数据进行反馈,以进行模型训练得到,所述训练对象的二维关键点和蒙版是根据所述训练对象的模型数据确定的,所述训练对象的模型数据包括所述训练对象的姿态信息数据、镜头信息数据和形状信息数据,所述模型训练数据包括所述训练对象的姿态信息训练数据、镜头信息训练数据和形状信息训练数据。
可选地,还包括:
数据生成模块,用于随机生成多组训练对象的模型数据;
所述建模模块,还用于根据所述训练对象的模型数据建立所述训练对象的三维模型,并根据所述三维模型确定所述训练对象的二维关键点和蒙版;
输入模块,用于将所述训练对象的二维关键点和蒙版输入第一网络模型,以通过所述第一网络模型提取所述训练对象的模型训练数据;
训练模块,用于根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,并将训练完成的所述第一网络模型作为所述模型数据提取网络。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的建模方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的建模方法。
本发明实施例提供的建模方法,通过获取二维图像,并确定所述二维图像中目标对象的二维关键点和蒙版,然后基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;根据所述目标对象的模型数据建立所述目标对象的三维模型。这样,本发明实施例的技术方案通过确定目标对象在二维图像中的二维关键点,生成目标对象的模型数据以建立目标对象的三维模型,能够降低对于三维数据的依赖,从而简化建模过程,有助于降低建模成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中建模方法的流程图;
图2A为本发明实施例中蒙版的结构示意图;
图2B为本发明实施例中建模结果的示意图;
图3为本发明实施例中标注提取网络的训练过程示意图;
图4为本发明实施例中标注提取网络的结构示意图;
图5为本发明实施例中模型数据提取网络的训练集数据生成示意图;
图6为本发明实施例中模型数据提取网络的训练过程示意图;
图7为本发明实施例中模型数据提取网络的结构示意图;
图8为本发明实施例中建模方法的又一流程图;
图9为本发明实施例中建模装置的结构示意图;
图10为本发明实施例中电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明提供了一种建模方法。
如图1所示,在一个实施例中,该建模方法包括以下步骤:
步骤101:获取二维图像。
本实施例中,首先获取二维图像,该二维图像中包括目标对象,以根据该二维图像建立目标对象的模型。
该二维图像可以是图片,例如可以是包括但不限于RGB(Red、Green、Blue,红、绿、蓝)格式的二维图像,也可以是具有深度的图像,例如RGBD(Red、Green、Blue+Depth,红、绿、蓝、深度)格式的图像。此外,二维图像也可以来自视频,例如,截取视频中的某一帧图像或截取一段视频。
步骤102:确定所述二维图像中目标对象的二维关键点和蒙版,其中,所述蒙版的形状与所述目标对象的形状相对应。
在确定了二维图像后,在该二维图像中标注目标对象的二维关键点,二维关键点指的是二维图像中能够体现目标对象的特征的点,例如,可以是目标对象的关节、主要节点等,此处对二维关键点的具体选择不做进一步限定。
目标对象的蒙版的形状与目标对象的形状相对应,可以理解为,该蒙版实际上体现了目标对象的轮廓。
如图2A所示,在一个具体实施方式中,目标对象为一个人物,则生成的蒙版的形状与该人物的轮廓相同,具体的,在人物对应的区域和人物之外的区域,其像素值不同,例如,人物对应的区域其像素值为1,人物之外的区域,其像素值为0,这样,就能形成与人物的形状对应的蒙版。
步骤103:基于所述二维关键点和所述蒙版生成所述目标对象的模型数据。
在确定了目标对象的二维关键点和蒙版之后,根据该二维关键点和蒙版计算目标对象的模型数据。
针对不同的模型,所需的模型数据是不同的。
例如,在一个具体实施方式中,目标对象为人物,则所建立的模型为SMPL(ASkinned Multi-Person Linear Model,一种人体三维模型)模型,则所需要生成的模型数据包括姿态信息数据、镜头信息数据和形状信息数据,其中,姿态信息数据为一个72×1的向量,镜头信息数据为一个3×1的向量,形状信息数据为一个10×1的向量。
显然,当所建立的模型的格式不同时,所需的模型数据也应当有针对性的做出调整。
步骤104:根据所述目标对象的模型数据建立所述目标对象的三维模型。
如图2B所示,在确定了模型数据后,则可以根据这些模型数据建立相应的三维模型,也就实现了通过目标对象的二维图像生成目标对象的三维模型。
以上述SMPL模型为例说明,姿态信息数据包括人体的24个关节相对角度的72个参数,镜头信息数据包括人体整体运动位姿的3个参数,而形状信息数据包括人体的高矮胖瘦、头身比等比例的10个参数,在确定了这些参数后,也就可以根据这些参数建立人体的三维模型。
本发明实施例提供的建模方法,通过获取二维图像,并确定所述二维图像中目标对象的二维关键点和蒙版,然后基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;根据所述目标对象的模型数据建立所述目标对象的三维模型。这样,本发明实施例的技术方案通过确定目标对象在二维图像中的二维关键点,生成目标对象的模型数据以建立目标对象的三维模型,能够降低对于三维数据的依赖,从而简化建模过程,有助于降低建模成本。
在一个可选地具体实施方式中,上述步骤102中可以通过操作人员手动在二维图像上标注二维关键点,以及对图像进行处理获得二维图像的蒙版。
在另一个可选地具体实施方式中,则是有针对性的通过模型训练获得所需的网络模型,以提高二维关键点标注和蒙版提取的准确性。
具体的,上述步骤102包括:
将所述二维图像输入标注提取网络,获得所述目标对象的二维关键点和蒙版,其中,所述标注提取网络是通过模型训练得到的。
本实施例中,首先通过模型训练获得提取目标对象二维关键点和蒙版的标注提取网络400,该标注提取网络400是一个网络模型。
这一过程中,所使用的训练集数据可参考相关技术或由公知渠道获取,例如,同时包含关键点和人像分割数据的COCO数据集(common object in context,文中的公共对象,一种微软公司提供的数据集)、包含二维关键点的MPII数据集(一种包括人体姿势的数据集)等。
训练集数据主要包括二维图像、二维图像中的目标对象的二维关键点和目标对象的蒙版。
如图3所示,实施时,利用该网络模型由二维图像中提取目标对象的二维关键点和蒙版(称作预测二维关键点和预测蒙版),然后将该预测二维关键点和预测蒙版与训练集数据中的实际值(或称作真值二维关键点和真值蒙版)进行比较,然后获得相应的二维关键点损失值和蒙版损失值,再根据该二维关键点损失值和蒙版损失值获得总损失值,并根据该总损失值调整网络模型的参数,从而进行模型训练,最终获得符合要求的网络模型作为标注提取网络400。
也就是说,该网络模型的输入数据为训练集中的二维图像,输出数据为根据二维图像提取的预测二维关键点和预测蒙版,进一步的,将所提取的预测二维关键点和预测蒙版与训练集中的二维关键点和蒙版的真实值进行比较,从而进一步调节该网络模型的参数,以完成模型训练,获得符合要求的标注提取网络400。
该标注提取网络400可以选择各种结构的模型,例如ResNet(Residual Network,残差网络)、VGG(Visual Geometry Group Network,视觉几何群网络)、MobileNet(移动网络)等各种不同结构的网络模型。
如图4所示,在一个具体实施方式中,标注提取网络400具体包括特征提取网络401、关键点特征网络402和分割特征网络403,其中,特征提取网络401用于提取二维图像中的特征,关键点特征网络402用于从特征提取网络401提取的特征中个提取二维关键点,分割特征网络403则用于从特征提取网络401提取的特征中提取蒙版。
由于二维关键点的标注和蒙版的提取均是在二维层面进行的,所以其难度较低,也更加容易获取。
关键点特征网络402和分割特征网络403的输入维度与特征提取网络401的输出维度相同,特征网络和分割特征网的输出维度则分别与二维关键点和蒙版的维度一致,例如关键点特征网络402的输出要是K×2维,K表示关键点的个数。分割特征网络403的输出为度维度为w×h,w和h分别为蒙版的宽度和高度。
进一步的,在一个可选地具体实施方式中,上述步骤103包括:
将所述目标对象的二维关键点和蒙版输入模型数据提取网络,获得所述目标对象的模型数据。
本实施例中,通过模型数据提取网络实现对目标对象模型数据的提取。该模型数据提取网络是一个预先训练得到的网络模型。
在该网络模型的训练过程中,训练集数据包括多个训练对象的相关数据,其中,模型训练的输入数据包括训练对象的二维关键点和蒙版,模型训练的输出数据为训练对象的模型训练数据。
进一步的,将训练对象的模型训练数据与训练对象的模型数据进行反馈迭代,从而实现对于该网络模型的训练,训练完成的网络模型,即为所需要的模型数据提取网络。
其中,训练对象的二维关键点和蒙版是根据训练对象的模型数据确定的,训练对象的模型数据包括训练对象的姿态信息数据、镜头信息数据和形状信息数据,模型训练数据包括训练对象的姿态信息训练数据、镜头信息训练数据和形状信息训练数据。
可以理解为,提供的训练集的数据包括多个训练对象的模型数据,也就是训练对象的姿态信息数据、镜头信息数据和形状信息数据,这些模型数据对应训练对象的三维模型的相关数据,因此,通过这些模型数据能够较为准确和便利的确定训练对象的二维关键点和蒙版。
该网络模型用于根据训练对象的二维关键点和蒙版反推训练对象的模型数据。也就是说,所提供的模型数据实际上是训练对象的真实值,网络模型输出的模型训练数据实际上是根据训练对象的二维关键点和蒙版反推得到的模型数据,由于这些输出的数据可能并非训练对象的模型数据的准确值,因此,本实施例中将其称作模型训练数据。
进一步的,通过对上述提供的模型数据和网络模型输出的模型训练数据进行比较,其差异值实际上就是与真实值与网络模型的计算结果之间的差异。
显然,该差异值越小,则证明该网络模型的计算结果越精确,如果该差异值过大,则需要相应的对网络模型的参数进行调整,提高计算的精确程度。这样,通过不断的根据训练对象的模型训练数据和训练对象的模型数据对网络模型进行反馈,以对该网络模型进行模型训练,最终获得符合要求的模型数据提取网络。
本实施例的技术方案中,相对于现有技术,在进行模型训练过程中,摆脱了对于标注好的三维重建数据的依赖,从而能够降低了提供模型训练所需数据的成本,这样,如果维持训练数据的数据量相同,则能够降低模型训练成本,如果维持模型训练的成本相同,则可以提供更多的训练数据,从而提高模型训练效果。
应当理解的是,模型训练是预先进行的,例如,在上述步骤101之前进行,在一个具体实施方式中,模型训练的过程具体包括以下步骤:
随机生成多组训练对象的模型数据;
根据所述训练对象的模型数据建立所述训练对象的三维模型,并根据所述三维模型确定所述训练对象的二维关键点和蒙版;
将所述训练对象的二维关键点和蒙版输入第一网络模型,以通过所述第一网络模型提取所述训练对象的模型训练数据;
根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,并将训练完成的所述第一网络模型作为所述模型数据提取网络。
本实施例中,进行模型训练所需的训练集数据是随机产生的,实施时,按照建模的模型所需的模型数据的格式,生成对应的数据即可。
以需要建立的三维模型为上述SMPL模型为例说明,如图5所示,所需的模型数据包括一个72×1的向量作为姿态信息数据,一个3×1的向量作为镜头信息数据,一个10×1的向量作为形状信息数据。
相应的,如果需要提供包括M个训练对象(M为正整数)的训练集数据,则按照上述模型数据的格式生成M组数据。
应当理解的是,上述数据随机生成,随机生成的数据中可能存在非法数据,但是即使生成的数据为非法数据也并不会对模型训练结果造成较大的影响。
这里,非法的数据值得是不符合实际情况的数据,例如,实际的人体关节具有一定的弯曲角度,仅能够在一定范围内弯曲,随机生成的一个限定该关节角度的数据所体现出来的结果可能是使该关节反向弯曲,实际情况下,人体难以完成该动作,则该数据为一个非法数据。
这些随机生成的数据仅用于模型训练,而实际计算过程中,输入的二维关键点和蒙版是根据实际的目标对象产生的,所以必然是合法数据,因此,模型训练过程中的非法数据不会对最终的建模结果造成影响,这样,也不需要对训练数据进行额外的校验和处理,有助于降低训练数据的产生成本。
请继续参阅图5,当确定了模型数据之后,则可以根据该训练对象的模型数据确定其对应的三维模型的结构,从而进一步确定该训练对象的二维关键点和蒙版,这一过程主要基于三维数据提取二维数据,是依赖相关技术可以实现的。
进一步的,如图6所示,将该训练对象的二维关键点和蒙版输入到第一网络模型中,第一网络模型的输出结果为根据训练对象的二维关键点和蒙版计算的训练对象的模型数据,区别于上述提供的训练集中的数据,本实施例中将其称作模型训练数据。
也可以理解为,上述随机生成的训练对象的模型数据对应一个训练对象的模型数据的真实值,而该模型训练数据则是第一网络模型根据训练对象的二维关键点和蒙版提取的计算值。
进一步的,根据上述模型数据和模型训练数据对第一网络模型进行模型训练,训练完成的模型即为符合需求的模型数据提取网络。
具体的,分别根据模型数据和与之对应的模型训练数据确定相应的损失值,然后根据各个损失值计算总损失值,并根据该总损失值对第一网络模型进行训练。
如图7所示,在一个具体实施方式中,第一网络模型的结构包括多个特征提取网络。
实施时,首先输入二维关键点和蒙版,其中二维关键点的维度为K×2,其中K为关键点的个数;蒙版的维度是w×h×1,w和h分别代表蒙版的宽度和高度。
接下来,利用二维关键点生成热度图,热度图的维度是w×h×K。
第一特征提取网络用于由上述热度图提取特征向量,第一特征提取网络用由若干个全连接层组成,只要确保其输入维度为K×2,输出维度为f×1即可。
第二特征提取网络用于由训练对象的二维关键点提取特征向量,第二特征提取网络由若干个卷积网络和全连接层组成,其中,卷积网络的输入维度为w×h×1,输出维度为(w/s)×(h/s)×1,s为控制输出维度的参数。
进一步的,将输出的(w/s)×(h/s)×1向量压平为(w×h)/(s×s)×1的向量后,输入到后面的全连接层,保证全连接层的输出维度为f×1即可。
第三特征提取网络则用于由蒙版提取特征向量,第三特征提取网络由若干个卷积网络和全连接层组成。其中,卷积网络的输入维度为w×h×K,输出维度为(w/s)×(h/s)×K。
进一步的,将输出的(w/s)×(h/s)×1维向量压平为(w×h)/(s×s)×1维的向量后,输入到后面的全连接层,保证全连接层的输出维度为f×1即可。
应当理解的是,上述第一特征提取网络、第二特征提取网络和第三特征提取网络的中间过程可以做出适应性调整,此处不对中间过程的输入输出维度做进一步限定,只要其最初输入和最终输入的维度符合要求即可。
第四特征提取网络的输入是之前三个特征提取网络的输出,即三个f×1的向量,第四特征提取网络将其首位拼接组成混合向量,再经过若干全连接层,输出3f×1的编码向量。
接下来,将编码向量输入后续的子网络,以获得相应的模型数据。
所获得的3f×1的编码向量输入各第一全连接组,以实现对于编码向量维度的调节。例如,姿态信息数据为72×1维的向量,则相应的第一全连接组输出的结果为一个72×1维的向量。相应的,镜头信息数据对应的子网络中的第一全连接组输出的结果为一个3×1维的向量;形状信息数据对应的子网络中的第一全连接组输出的结果为一个10×1维的向量。
子网络中第二全连接组的输入端代表在t=1的时刻,也就是首次计算过程中,第一全连接组的输出与标准模型数据相加,在t>1的时刻,即后续计算过程中,与第二全连接组的前一次输出相叠加,即与前一次获得的模型数据相加。图7中ts的取值为1、2、3……,当t的取值为ts时,输出相应的计算结果。
例如,首次计算姿态信息数据时,第一全连接组输出的结果与标准姿态信息数据相加,能够获得姿态信息数据,第二次计算过程中,将第一全连接组输出的结果与第二全连接组第一次输出标准姿态信息数据相加获得第二个姿态信息数据结果。
所提供的标准模型数据是目标对象在标准姿势时的模型数据。其具体包括分别与姿态信息数据、镜头信息数据和形状信息数据对应的标准姿态信息数据、标准镜头信息数据和标准形状信息数据。
提供该标准模型数据的目的在于在首次计算过程中,可以快速让网络模型学习从标准状态到特定状态的变换,而不是从头学起。
这样,本实施例的技术方案在模型训练过程中,同样不需要使用带有标注三维信息的图像数据,有利于节约模型训练的成本,有助于提高模型训练效果。
进一步的,所述根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,包括:
分别根据所述训练对象的姿态信息数据和姿态信息训练数据确定姿态信息的损失值,根据所述训练对象的镜头信息数据和镜头信息训练数据确定镜头信息的损失值,根据所述训练对象的形状信息数据和形状信息训练数据确定形状信息的损失值;
根据所述姿态信息的损失值、镜头信息的损失值和形状信息的损失值确定所述训练对象的模型数据和模型训练数据的总损失值,并根据所述总损失值调整所述第一网络模型的参数;
在所述训练对象的模型数据和模型训练数据的总损失值小于预设损失值阈值的情况下,将所述第一网络模型作为所述模型数据提取网络。
本实施例中,首先根据各模型数据和各模型训练数据确定相应的损失值,然后可以根据姿态信息的损失值、镜头信息的损失值和形状信息的损失值确定模型数据总的损失值,例如,可以将姿态信息的损失值、镜头信息的损失值和形状信息的损失值直接相加作为总损失值,也可以分别赋予其不同的权重,并将其加权值作为总损失值,并进一步根据该总损失值有针对性的调整第一网络模型的参数,以使该总损失值降低。
当最终所获得的总损失值低于预设损失值阈值时,也就是说,当二维关键点和蒙版输入第一网络模型时,该第一网络模型计算获得的模型数据(上述模型训练数据)与真实值之间的差别较小,且处于可接受的程度,这样,将该第一网络模型作为模型数据提取网络,可以实现基于目标对象的二维关键点和蒙版提取目标对象的模型数据,且所提取的模型数据与真实值的误差在可接受的范围内,进一步的,基于所提取的模型数据可以实现建立目标对象的三维模型。
如图8所示,本实施例的技术方案可以概况为,首先获取二维图像,该二维图像可以是不具有深度的二维图,也可以是具有深度的二维图,然后将二维图像输入第一阶段网络,该第一阶段网络为上述标注提取网络,能够标注目标对象的二维关键点并提取目标对象的蒙版。
接下来,将二维关键点和蒙版输入第二阶段网络,该第二阶段网络为上述模型数据提取网络,这样,能够获得其姿态信息数据、镜头信息数据和形状信息数据,通过所获取的姿态信息数据、镜头信息数据和形状信息数据能够建立相应的SMPL模型,从而获得目标对象的三维模型。
本实施例的技术方案,通过将整体重建过程分为两个阶段,摆脱对标注好的三维重建数据的依赖,使其可以用数量更多的关键点数据和抠图数据进行训练,降低模型训练的数据获取成本。同时,整体通过两个阶段实现,通过二维关键点和蒙版实现了模型在两个阶段的解耦合,提高了建模的通用性。
本发明还提供了一种建模装置。
如图9所示,在一个实施例中,该建模装置900包括:
获取模块901,用于获取二维图像;
确定模块902,用于确定所述二维图像中目标对象的二维关键点和蒙版,其中,所述蒙版的形状与所述目标对象的形状相对应;
生成模块903,用于基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;
建模模块904,用于根据所述目标对象的模型数据建立所述目标对象的三维模型。
可选地,所述生成模块903,具体用于将所述目标对象的二维关键点和蒙版输入模型数据提取网络,获得所述目标对象的模型数据;
其中,所述模型数据提取网络是由训练对象的二维关键点和蒙版作为输入,所述训练对象的模型训练数据作为输出,并根据所述训练对象的模型训练数据与所述训练对象的模型数据进行反馈,以进行模型训练得到,所述训练对象的二维关键点和蒙版是根据所述训练对象的模型数据确定的,所述训练对象的模型数据包括所述训练对象的姿态信息数据、镜头信息数据和形状信息数据,所述模型训练数据包括所述训练对象的姿态信息训练数据、镜头信息训练数据和形状信息训练数据。
可选地,还包括:
数据生成模块,用于随机生成多组训练对象的模型数据;
所述建模模块904,还用于根据所述训练对象的模型数据建立所述训练对象的三维模型,并根据所述三维模型确定所述训练对象的二维关键点和蒙版;
输入模块,用于将所述训练对象的二维关键点和蒙版输入第一网络模型,以通过所述第一网络模型提取所述训练对象的模型训练数据;
训练模块,用于根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,并将训练完成的所述第一网络模型作为所述模型数据提取网络。
可选地,所述训练模块,包括:
损失值确定子模块,用于分别根据所述训练对象的姿态信息数据和姿态信息训练数据确定姿态信息的损失值,根据所述训练对象的镜头信息数据和镜头信息训练数据确定镜头信息的损失值,根据所述训练对象的形状信息数据和形状信息训练数据确定形状信息的损失值;
训练子模块,用于根据所述姿态信息的损失值、镜头信息的损失值和形状信息的损失值确定所述训练对象的模型数据和模型训练数据的总损失值,并根据所述总损失值调整所述第一网络模型的参数;
确定子模块,用于在所述训练对象的模型数据和模型训练数据的总损失值小于预设损失值阈值的情况下,将所述第一网络模型作为所述模型数据提取网络。
可选地,所述确定模块902,具体用于将所述二维图像输入标注提取网络,获得所述目标对象的二维关键点和蒙版,其中,所述标注提取网络是通过模型训练得到的。
本实施例的建模装置900能够实现上述建模方法实施例的各个步骤,并能实现基本相同的技术效果,此处不再赘述。
本发明实施例还提供了一种电子设备,如图10所示,包括处理器101、通信接口102、存储器103和通信总线104,其中,处理器101,通信接口102,存储器103通过通信总线104完成相互间的通信,
存储器103,用于存放计算机程序;
处理器101,用于执行存储器103上所存放的程序时,实现如下步骤:
获取二维图像;
确定所述二维图像中目标对象的二维关键点和蒙版,其中,所述蒙版的形状与所述目标对象的形状相对应;
基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;
根据所述目标对象的模型数据建立所述目标对象的三维模型。
可选地,所述基于所述二维关键点和所述蒙版确定所述目标对象的模型数据,包括:
将所述目标对象的二维关键点和蒙版输入模型数据提取网络,获得所述目标对象的模型数据;
其中,所述模型数据提取网络是由训练对象的二维关键点和蒙版作为输入,所述训练对象的模型训练数据作为输出,并根据所述训练对象的模型训练数据与所述训练对象的模型数据进行反馈,以进行模型训练得到,所述训练对象的二维关键点和蒙版是根据所述训练对象的模型数据确定的,所述训练对象的模型数据包括所述训练对象的姿态信息数据、镜头信息数据和形状信息数据,所述模型训练数据包括所述训练对象的姿态信息训练数据、镜头信息训练数据和形状信息训练数据。
可选地,所述获取二维图像之前,还包括:
随机生成多组训练对象的模型数据;
根据所述训练对象的模型数据建立所述训练对象的三维模型,并根据所述三维模型确定所述训练对象的二维关键点和蒙版;
将所述训练对象的二维关键点和蒙版输入第一网络模型,以通过所述第一网络模型提取所述训练对象的模型训练数据;
根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,并将训练完成的所述第一网络模型作为所述模型数据提取网络。
可选地,所述根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,包括:
分别根据所述训练对象的姿态信息数据和姿态信息训练数据确定姿态信息的损失值,根据所述训练对象的镜头信息数据和镜头信息训练数据确定镜头信息的损失值,根据所述训练对象的形状信息数据和形状信息训练数据确定形状信息的损失值;
根据所述姿态信息的损失值、镜头信息的损失值和形状信息的损失值确定所述训练对象的模型数据和模型训练数据的总损失值,并根据所述总损失值调整所述第一网络模型的参数;
在所述训练对象的模型数据和模型训练数据的总损失值小于预设损失值阈值的情况下,将所述第一网络模型作为所述模型数据提取网络。
可选地,所述基于所述二维图像确定所述目标对象的二维关键点和蒙版,包括:
将所述二维图像输入标注提取网络,获得所述目标对象的二维关键点和蒙版,其中,所述标注提取网络是通过模型训练得到的。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworK Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的建模方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的建模方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State DisK(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种建模方法,其特征在于,包括以下步骤:
获取二维图像;
确定所述二维图像中目标对象的二维关键点和蒙版,其中,所述蒙版的形状与所述目标对象的形状相对应;
基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;
根据所述目标对象的模型数据建立所述目标对象的三维模型。
2.根据权利要求1所述的建模方法,其特征在于,所述基于所述二维关键点和所述蒙版确定所述目标对象的模型数据,包括:
将所述目标对象的二维关键点和蒙版输入模型数据提取网络,获得所述目标对象的模型数据;
其中,所述模型数据提取网络是由训练对象的二维关键点和蒙版作为输入,所述训练对象的模型训练数据作为输出,并根据所述训练对象的模型训练数据与所述训练对象的模型数据进行反馈,以进行模型训练得到,所述训练对象的二维关键点和蒙版是根据所述训练对象的模型数据确定的,所述训练对象的模型数据包括所述训练对象的姿态信息数据、镜头信息数据和形状信息数据,所述模型训练数据包括所述训练对象的姿态信息训练数据、镜头信息训练数据和形状信息训练数据。
3.根据权利要求2所述的建模方法,其特征在于,所述获取二维图像之前,还包括:
随机生成多组训练对象的模型数据;
根据所述训练对象的模型数据建立所述训练对象的三维模型,并根据所述三维模型确定所述训练对象的二维关键点和蒙版;
将所述训练对象的二维关键点和蒙版输入第一网络模型,以通过所述第一网络模型提取所述训练对象的模型训练数据;
根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,并将训练完成的所述第一网络模型作为所述模型数据提取网络。
4.根据权利要求3所述的建模方法,其特征在于,所述根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,包括:
分别根据所述训练对象的姿态信息数据和姿态信息训练数据确定姿态信息的损失值,根据所述训练对象的镜头信息数据和镜头信息训练数据确定镜头信息的损失值,根据所述训练对象的形状信息数据和形状信息训练数据确定形状信息的损失值;
根据所述姿态信息的损失值、镜头信息的损失值和形状信息的损失值确定所述训练对象的模型数据和模型训练数据的总损失值,并根据所述总损失值调整所述第一网络模型的参数;
在所述训练对象的模型数据和模型训练数据的总损失值小于预设损失值阈值的情况下,将所述第一网络模型作为所述模型数据提取网络。
5.根据权利要求1所述的建模方法,其特征在于,所述基于所述二维图像确定所述目标对象的二维关键点和蒙版,包括:
将所述二维图像输入标注提取网络,获得所述目标对象的二维关键点和蒙版,其中,所述标注提取网络是通过模型训练得到的。
6.一种建模装置,其特征在于,包括:
获取模块,用于获取二维图像;
确定模块,用于确定所述二维图像中目标对象的二维关键点和蒙版,其中,所述蒙版的形状与所述目标对象的形状相对应;
生成模块,用于基于所述二维关键点和所述蒙版生成所述目标对象的模型数据;
建模模块,用于根据所述目标对象的模型数据建立所述目标对象的三维模型。
7.根据权利要求6所述的建模装置,其特征在于,所述生成模块,具体用于将所述目标对象的二维关键点和蒙版输入模型数据提取网络,获得所述目标对象的模型数据;
其中,所述模型数据提取网络是由训练对象的二维关键点和蒙版作为输入,所述训练对象的模型训练数据作为输出,并根据所述训练对象的模型训练数据与所述训练对象的模型数据进行反馈,以进行模型训练得到,所述训练对象的二维关键点和蒙版是根据所述训练对象的模型数据确定的,所述训练对象的模型数据包括所述训练对象的姿态信息数据、镜头信息数据和形状信息数据,所述模型训练数据包括所述训练对象的姿态信息训练数据、镜头信息训练数据和形状信息训练数据。
8.根据权利要求7所述的建模装置,其特征在于,还包括:
数据生成模块,用于随机生成多组训练对象的模型数据;
所述建模模块,还用于根据所述训练对象的模型数据建立所述训练对象的三维模型,并根据所述三维模型确定所述训练对象的二维关键点和蒙版;
输入模块,用于将所述训练对象的二维关键点和蒙版输入第一网络模型,以通过所述第一网络模型提取所述训练对象的模型训练数据;
训练模块,用于根据所述训练对象的模型数据和模型训练数据对所述第一网络模型进行模型训练,并将训练完成的所述第一网络模型作为所述模型数据提取网络。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至5任一所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一所述的建模方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010142321.0A CN111325832A (zh) | 2020-03-04 | 2020-03-04 | 建模方法、建模装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010142321.0A CN111325832A (zh) | 2020-03-04 | 2020-03-04 | 建模方法、建模装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111325832A true CN111325832A (zh) | 2020-06-23 |
Family
ID=71167442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010142321.0A Pending CN111325832A (zh) | 2020-03-04 | 2020-03-04 | 建模方法、建模装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325832A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801988A (zh) * | 2021-02-02 | 2021-05-14 | 上海交通大学 | 基于rgbd和深度神经网络的物体抓取位姿检测方法 |
CN115278080A (zh) * | 2022-07-28 | 2022-11-01 | 北京五八信息技术有限公司 | 一种蒙版生成方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292948A (zh) * | 2016-04-12 | 2017-10-24 | 香港理工大学 | 一种人体建模方法、装置及电子设备 |
CN108876893A (zh) * | 2017-12-14 | 2018-11-23 | 北京旷视科技有限公司 | 三维人脸重建的方法、装置、系统及计算机存储介质 |
CN108921929A (zh) * | 2018-06-26 | 2018-11-30 | 开放智能机器(上海)有限公司 | 一种识别系统及训练方法及单张单目图像的识别方法 |
CN109448090A (zh) * | 2018-11-01 | 2019-03-08 | 北京旷视科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-03-04 CN CN202010142321.0A patent/CN111325832A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292948A (zh) * | 2016-04-12 | 2017-10-24 | 香港理工大学 | 一种人体建模方法、装置及电子设备 |
CN108876893A (zh) * | 2017-12-14 | 2018-11-23 | 北京旷视科技有限公司 | 三维人脸重建的方法、装置、系统及计算机存储介质 |
CN108921929A (zh) * | 2018-06-26 | 2018-11-30 | 开放智能机器(上海)有限公司 | 一种识别系统及训练方法及单张单目图像的识别方法 |
CN109448090A (zh) * | 2018-11-01 | 2019-03-08 | 北京旷视科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801988A (zh) * | 2021-02-02 | 2021-05-14 | 上海交通大学 | 基于rgbd和深度神经网络的物体抓取位姿检测方法 |
CN112801988B (zh) * | 2021-02-02 | 2023-04-18 | 上海交通大学 | 基于rgbd和深度神经网络的物体抓取位姿检测方法 |
CN115278080A (zh) * | 2022-07-28 | 2022-11-01 | 北京五八信息技术有限公司 | 一种蒙版生成方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020620B (zh) | 一种大姿态下的人脸识别方法、装置及设备 | |
US20210174074A1 (en) | Human detection method and apparatus, computer device and storage medium | |
CN110909663B (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN113869293B (zh) | 车道线识别方法、装置、电子设备和计算机可读介质 | |
CN109948441B (zh) | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 | |
WO2021169740A1 (zh) | 图像修复方法、装置、计算机设备及存储介质 | |
CN112200057A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN114663593B (zh) | 三维人体姿态估计方法、装置、设备及存储介质 | |
CN111325832A (zh) | 建模方法、建模装置和电子设备 | |
CN111401193B (zh) | 获取表情识别模型的方法及装置、表情识别方法及装置 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
JP2023027782A (ja) | 画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN115331259A (zh) | 一种三维人体姿态估计方法、系统及存储介质 | |
CN113658091A (zh) | 一种图像评价方法、存储介质及终端设备 | |
CN111325212A (zh) | 模型训练方法、装置、电子设备和计算机可读存储介质 | |
CN114638375A (zh) | 视频生成模型训练方法、视频生成方法及装置 | |
CN111814811B (zh) | 图像信息提取方法、训练方法及装置、介质和电子设备 | |
CN117422851A (zh) | 虚拟换衣方法及其装置、电子设备 | |
CN115272667B (zh) | 农田图像分割模型训练方法、装置、电子设备和介质 | |
CN116258873A (zh) | 一种位置信息确定方法、对象识别模型的训练方法及装置 | |
CN115861401A (zh) | 一种双目与点云融合深度恢复方法、装置和介质 | |
CN111311736A (zh) | 建模方法、建模装置和电子设备 | |
CN115063713A (zh) | 视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质 | |
CN113014928A (zh) | 一种补偿帧生成方法及装置 | |
CN114821203B (zh) | 基于一致性损失的细粒度图像模型训练及识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200623 |