CN112184611A

CN112184611A - 图像生成模型训练方法以及装置

Info

Publication number: CN112184611A
Application number: CN202011211891.7A
Authority: CN
Inventors: 李顺恺; 王萌; 程远; 徐富荣; 高生兵; 葛官法; 程丹妮; 朱旻芸; 杨路光
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-01-05

Abstract

本说明书实施例提供图像生成模型训练方法以及装置，其中所述图像生成模型训练方法包括：获取目标对象的至少两张第一样本图像以及第一样本基准图像；计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵；将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像；基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型。

Description

图像生成模型训练方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及图像生成模型训练方法以及装置。

背景技术

随着计算机技术的发展，三维图像被广泛的应用到各个领域，比如，可以应用到身份识别领域、动画制作领域、以及特效制作领域等。然而用以构造三维图像的图像生成模型的制作需要用高精度的3D扫描仪进行对待构建的对象进行上百次的扫描，并通过复杂的后处理才能获得，制作成本在百万元级别，因此，需要提供更经济且有效的方案。

发明内容

有鉴于此，本说明书实施例提供了一种图像生成模型训练方法。本说明书一个或者多个实施例同时涉及一种图像生成模型训练装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本说明书实施例的第一方面，提供了一种图像生成模型训练方法，包括：

获取目标对象的至少两张第一样本图像以及第一样本基准图像；

计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵；

将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像；

基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型。

本说明书实施例的第二方面，提供了一种图像生成模型训练装置，包括：

获取模块，被配置为获取目标对象的至少两张第一样本图像以及第一样本基准图像；

计算模块，被配置为计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵；

深度估计模块，被配置为将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像；

训练模块，被配置为基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型。

本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述图像生成模型训练方法的步骤。

本说明书提供一种图像生成模型训练方法，包括：获取目标对象的至少两张第一样本图像以及第一样本基准图像；计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵；将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像；基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型，获得针对所述目标对象的三维图像的图像生成模型，实现了在计算第一样本图像的位姿变换以及深度图像的基础上，基于第一样本图像、第一样本图像对应的位姿变换以及对应的深度图像进行模型训练，获得可进行三维重建的图像生成模型，降低了图像生成模型的训练成本，并增加了图像生成模型的生成效率。

附图说明

图1是本说明书一个实施例提供的一种图像生成模型训练方法的处理流程图；

图2是本说明书一个实施例提供的一种图像生成模型训练过程的示意图；

图3是本说明书一个实施例提供的一种图像生成模型应用过程的示意图；

图4是本说明书一个实施例提供的一种应用于身份识别场景的图像生成模型训练方法的处理流程图；

图5是本说明书一个实施例提供的一种图像生成模型训练装置的示意图；

图6是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

3D形变模型(3D Morphable Model，3DMM)，一般应用于某种特定类别物体的3D重建，例如人脸、汽车模型、桌椅、沙发等。

在本说明书中，提供了一种图像生成模型训练方法，本说明书一个或者多个实施例同时涉及一种图像生成模型训练装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

本说明书提供的一种图像生成模型训练方法实施例如下：

图1示出了根据本说明书一个实施例提供的一种图像生成模型训练方法的处理流程图，具体包括以下步骤：

步骤102，获取目标对象的至少两张第一样本图像以及第一样本基准图像。

具体的，所述目标对象，包括：生物或非生物等具有三维形象的对象，比如，动物、人物、物品、虚拟动物、虚拟人物或虚拟物品等，其中动物，可以是宠物、野生动物等，此外，目标对象还可以是生物或非生物的组成部分，比如宠物头部、宠物手部、三维虚拟人物的头部等。

可选的，第一样本图像包括：所述目标对象的侧视角图像，所述第一样本基准图像，包括，所述目标对象的正视角图像，具体实施时，第一样本图像中也可以包括正视角图像。

具体的，所述侧视角图像，是指从所述目标对象的非正面对目标对象进行拍摄，获得的二维图像，相应的，所述正视角图像，是指从所述目标对象的正前方对目标对象进行正面拍摄，获得的二维图像。

需要说明的是，至少两张第一样本图像以及第一样本基准图像，可以不是同一特定的对象，而是同一类型的目标对象，比如目标对象可以不是针对某一只特定的哈士奇，而是针对哈士奇这个种类的宠物狗，即每只哈士奇长的不一样，但它们都是一类狗，就可以把这一类狗作为目标对象。

实际应用中，由于在对目标对象进行拍摄时，所拍摄获得的图像中往往除了目标对象的信息外，还包括背景信息，因此需要对所拍摄的图像进行处理，去除第一样本图像以及第一样本基准图像中的背景信息，以便提高对图像中的目标对象的处理效率，本说明书实施例提供的一种可选实施方式中，所述获取目标对象的至少两张第一样本图像以及第一样本基准图像，具体采用如下方式实现：

对所述第一样本图像进行目标对象检测，获得包含所述目标对象的第一图像区域，以及对所述第一样本基准图像进行目标对象检测，获得包含所述目标对象的第二图像区域；

对所述第一样本图像中的所述第一图像区域进行裁剪，将裁剪获得的所述第一图像区域对应的图像作为所述第一样本图像，以及对所述第一样本基准图像中的所述第二图像区域进行裁剪，将裁剪获得的所述第二图像区域对应的图像作为所述第一样本基准图像。

其中，所述第一样本图像以及所述第一样本基准图像中除目标对象之外，还包括背景信息。具体的，对所述第一样本图像进行目标对象检测，是指通过检测模型，对第一样本图像中的目标对象进行检测，获得目标对象所在的图像区域(即第一图像区域)。其中，所述检测模型，可以是单镜头多盒检测器(Single Shot MultiBox Detector，SSD)模型，此外，还可以是Faster R-CNN模型、YOLO模型等，在此不做限制。

相应的，对所述第一样本基准图像进行目标对象检测的具体实现方式与上述对所述第一样本图像进行目标对象检测的具体实现方式类似，参考上述对所述第一样本图像进行目标对象检测的具体实现即可，在此不再赘述。

本说明书实施例，通过将第一样本图像中检测出的包含目标对象的第一图像区域进行裁剪，获得第一图像区域对应的第一样本图像，以及将第一样本基准图像中检测出的包含目标对象的第二图像区域进行裁剪，获得第二图像区域对应的第一样本基准图像，排除了后续进行图像处理过程中的干扰，加快了后续的图像处理效率。

步骤104，计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵。

其中，所述第一样本位姿变换矩阵，是指第一样本图像对应的相机位姿相对于第一样本基准图像对应的基准相机位姿的变换矩阵，将基准相机位姿变换到相机位姿的变换矩阵。

具体的，所述第一样本位姿变换矩阵包含旋转自由度和平移自由度，由所述旋转自由度和所述平移自由度组成3×4维的位姿变换矩阵，其中，所述第一样本位姿变换矩阵中包含的三个元素为沿x轴、y轴、z轴方向的平移自由度，另外六个元素为沿x轴、y轴、z轴方向的旋转自由度。

具体实施时，可以通过将第一样本图像和所述第一样本基准图像中目标对象的关键点进行匹配，获得关键匹配点的基础上，求解第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵，增加了求解第一样本位姿变换矩阵的效率以及准确度，本说明书实施例提供的一种可选实施方式中，所述计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵，具体采用如下方式实现：

对所述每张第一样本图像进行关键点检测，获得第一关键点集合，并对所述第一样本基准图像进行关键点检测，获得基准关键点集合；

将所述第一关键点集合中第一关键点与所述基准关键点集合中的基准关键点进行关键点匹配，获得关键匹配点集合；

基于所述关键匹配点集合，计算所述第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵。

其中，所述第一关键点，是指第一样本图像中目标对象的关键区域位置的关键点，相应的，所述第一关键点集合，是指由至少一个第一关键点组成的集合，所述基准关键点，是指第一样本基准图像中目标对象的关键区域位置的关键点，相应的，所述基准关键点集合，是指由至少一个基准关键点组成的集合。

以目标对象为宠物的面部为例，宠物的面部包含的眼睛以及鼻子等部位，具体可分别对所述宠物的左眼、右眼以及鼻部的上、下、左、右以及中心点等15个关键点进行检测，需要说明的是，在宠物面部的正视角图像中可以检测到全部的关键点(即15个关键点)，而在宠物面部的侧视角图像中检测到的关键点可能不足15个。

具体的，所述关键点检测，可以采用高分辨率网络(High-ResolutionRepresentations，HRNet)对图像的中目标对象进行关键点检测，此外，还可以采用其他关键点检测模型对目标对象进行关键点检测，在此不做限制。

进一步的，在检测到第一样本图像以及第一样本基准图像中包含的目标对象的关键点之后，将第一样本图像中的关键点与第一样本基准图像中对应的关键点进行匹配，比如，将第一样本图像中左眼的关键点与第一样本基准图像中左眼上部的关键点进行匹配，若第一样本图像与第一样本基准图像都包含左眼上部的关键点，则将这两个关键点，作为关键匹配点，相应的，所述关键匹配点集合，为由至少一组关键匹配点组成的集合。

在获得关键匹配点集合的基础上，可以采用随机采样一致性(Random SampleConsensus，RANSAC)算法对关键匹配点集合进行基本矩阵求解，获得第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵。

步骤106，将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像。

具体的，可以采用卷积神经网络对每张第一样本图像进行单目深度估计，获得第一样本图像在上述第一样本位姿变换矩阵对应的拍摄视角的深度图像(即第一样本深度图像)。

其中，深度图像(depth image)也被称为距离影像(range image)，是指将从图像采集器到目标对象中各点的距离(深度)作为像素值的图像，它直接反映了目标对象的可见表面的几何形状。

具体实施时，本说明书实施例提供的一种可选实施方式中，所述将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像，具体采用如下方式实现：

将所述每张第一样本图像输入深度图像模型进行深度估计，获得所述每张第一样本图像的第一样本深度图像。

其中，所述深度图像模型，是指预先训练好的针对目标对象进行深度估计的模型，具体的，所述深度图像模型，可以是单目深度估计模型，单目深度估计模型是利用单一视角的图像数据作为输入，直接预测图像中每个像素对应的深度值，并将每个像素对应的深度值作为像素值进行组合，形成深度图像。

进一步的，本说明书实施例提供的一种可选实施方式中，所述深度图像模型，通过如下方式进行训练：

获取所述目标对象的至少两张第二样本图像以及第二样本基准图像；

计算每张第二样本图像相对于所述第二样本基准图像的第二样本位姿变换矩阵；

将所述每张第二样本图像输入初始深度图像模型进行深度估计，获得所述每张第一样本图像的训练深度图像；

基于所述第二样本图像与所述第二样本基准图像之间的关键匹配点，确定所述关键匹配点对应的深度值；

计算所述关键匹配点在所述训练深度图中对应的训练深度值；

基于所述训练深度值以及所述深度值之间的误差，对所述初始深度图像模型进行迭代训练，获得所述深度图像模型。

具体的，所述第二样本图像，与上述第一样本图像类似，是指目标对象的侧视角图像，所述第二样本基准图像，与上述第一样本基准图像类似，是指目标对象的正视角图像。

基于此，所述第二样本位姿变换矩阵的计算方法与步骤104中计算第一样本位姿变换矩阵的计算方式类似，参考上述计算第一样本位姿变换矩阵的具体计算方式即可，在此不再赘述。

所述训练深度图像，是指通过初始深度图像模型对第二样本图像进行深度估计，获得的深度图像，实际应用中，初始深度图像模型中的模型参数未经模型训练，因此，通过进行深度估计获得的深度图像(即训练深度图像)也并不准确，而基于第二样本图像以及第二样本基准图像之间的关键匹配点，计算第二样本图像中关键匹配点对应的关键的像素的深度值是准确的，基于此，将该关键点对应的深度值，与训练深度图像中与该关键点对应的关键点的训练深度值进行求差运算，将二者求差的计算式，作为训练初始深度图像模型的自监督的损失函数，并基于损失函数进行自监督学习，从而获得训练完成的深度图像模型，实际应用中，所述训练深度值以及深度值之间的误差小于预设阈值的情况下，则可停止训练，保障了针对深度图像模型的训练准确性。

步骤108，基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型。

可选的，所述图像生成模型，是指3D形变模型(3D Morphable Model，3DMM)，一般应用于某种特定类别物体的3D重建，例如人脸、汽车模型、桌椅、沙发等。通过调节3DMM的参数，可生成该类物体的各种3D结构。

实际应用中，3DMM包括变分自编码模型、或生成式对抗网络模型等，在此不做限制，具体的，图像生成模型，是用以对目标对象进行三维重建，获得目标对象的三维图像，其中，所述三维图像，是指用以表示目标对象的三维形象的三维表示，比如3D点云、3D体素、3D网格或八叉树等3D表示，在此不做限制。

具体实施时，在图像生成模型为编码-解码结构的模型的情况下，本说明书实施例提供的一种可选实施方式中，所述基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型，具体采用如下方式实现：

将所述第一样本图像、所述第一样本位姿变换矩阵、第一样本深度图像组成训练样本集；

将所述训练样本集中的训练样本输入所述初始图像生成模型的编码模块，生成中间三维形变向量；

将所述中间三维形变向量输入所述初始图像生成模型的解码模块进行解码，获得所述目标对象的中间三维图像；

确定所述中间三维图像在所述第一样本位姿变换矩阵对应的拍摄视角的中间深度图像；

计算所述中间深度图像和所述样本深度图像的误差，并根据计算结果对所述初始图像生成模型进行迭代训练，获得所述图像生成模型。

其中，所述中间三维形变向量中的每一个值，都可以理解针对目标对象提取的一种特征信息，具体的，中间三维形变向量为一个特定位数的一位向量，比如三维形变向量为256位的一维向量，则该向量中的每一个值都表示编码模块学习到的针对目标对象的一种特征信息。

本说明书实施例提供的一种图像生成模型训练过程的示意图如图2所示，获取目标对象的脸部图片，所述脸部图片中包含至少两张侧视角图片(即第一样本图像)以及正视角图片(即第一样本基准图像)，对这些脸部图片进行脸部检测，获得的包含脸部信息的至少两张侧视角图片，以及包含脸部信息的正视角图片，并对包含脸部信息的侧视角图片以及正视角图片进行脸部关键点检测，获得每张侧视角图片中包含的关键点，以及正视角图片中包含的关键点，将每张侧视角图片中包含的关键点与正视角图片中包含的关键点进行匹配，进而基于匹配的关键匹配点，求解相机视角，此外，在上述获得脸部信息的至少两张侧视角图片以及正视角图片之后，还可以通过将侧视角图片输入单目深度估计网络进行深度估计，获得每张侧视角图片对应的侧视角深度图，并将正视角图片输入单目深度估计网络进行深度估计，获得正视角图片对应的正视角深度图，并将包含脸部信息的至少两张侧视角图片以及正视角图片、各自对应的相机视角和深度图像，输入三维形变模型进行自监督学习，获得训练完成的三维形变模型。

进一步的，在获得图像生成模型之后，可以对训练完成的图像生成模型进行应用，以便实现通过单张图片实现对目标对象进行三维重建，本说明书实施例提供的一种可选实施方式中，所述图像生成模型训练方法，还包括：

获取所述目标对象的第一图像以及基准图像；

计算所述第一图像相对于所述基准图像的位姿变换矩阵；

将所述第一图像进行深度估计，获得所述第一图像的深度图像；

将所述位姿变换矩阵、所述深度图像以及所述第一图像输入所述图像生成模型进行三维重建，获得所述目标对象的目标三维图像。

具体的，所述第一图像，与上述第一样本图像类似，是指目标对象的侧视角图像，所述基准图像，与上述第一样本基准图像类似，是指目标对象的正视角图像。

所述目标三维图像，是指针对目标对象进行三维重建获得的目标对象的三维表示。

基于此，所述位姿变换矩阵的计算方法与步骤104中计算第一样本位姿变换矩阵的计算方式类似，参考上述计算第一样本位姿变换矩阵的具体计算方式即可，在此不再赘述，此外，将所述第一图像进行深度估计的具体实现，与上述将所述每张第一样本图像进行深度估计的具体实现类似，参考上述将所述每张第一样本图像进行深度估计的具体实现即可，在此不做限制。

进一步的，将获得的位姿变换矩阵、所述深度图像以及所述第一图像输入图像生成模型进行三维重建，获得目标对象的目标三维图像，增加了目标三维图像的生成效率。

具体的，在图像生成模型为编码-解码结构的情况下，本说明书实施例提供的一种可选实施方式中，所述将所述位姿变换矩阵、所述深度图像以及所述第一图像输入所述图像生成模型进行三维重建，获得所述目标对象的目标三维图像，具体采用如下方式实现：

将所述位姿变换矩阵、所述深度图像以及所述第一图像输入所述图像生成模型的编码模块进行特征编码，获得三维形变向量；

将所述三维形变向量输入所述图像生成模型的解码模块进行解码，获得所述目标对象的所述目标三维图像。

具体的，上述为图像生成模型的应用过程，本说明书实施例提供的一种图像生成模型应用过程的示意图如图3所示，基于对待识别的单张图片(宠物脸部的侧视角图片)针对宠物脸部的侧视角图片，求解其相对于正视角图像的相机位姿，再将所述单张图片输入单目深度估计网络，以获取所述单张图片在该相机位姿对应的视角的深度图像，并将单张图片、以及单张图片对应的深度图像输入图像生成模型的编码模块进行特征编码，获得所述目标对象对应的三维形变向量，并将三维形变向量输入图像生成模型的解码模块进行解码，获得目标对象的三维图像。

本说明书实施例，通过模型训练学习到的3DMM，可从单张图片中恢复出目标对象的3D结构，进而提升的针对目标对象的识别率，并可进行特效制作、动画制作等下游任务。同时，该方案可极大降低同一种类物体的3DMM的建模成本，便于推广到其他物体(动物脸部，桌椅，沙发，汽车，房屋的3D重建等)。

实际应用中，在获得目标对象的目标三维图像之后，还可以对生成的目标三维图像进行多种角度的打光，并在打光的基础上对目标三维图像进行渲染，生成目标对象的多光照图像。

下述结合附图4，以本说明书提供的图像生成模型训练方法在身份识别场景中的应用为例，对所述图像生成模型训练方法进行进一步说明。其中，图4示出了本说明书一个实施例提供的一种应用于身份识别场景中的图像生成模型训练方法的处理流程图，具体包括以下步骤：

步骤402，获取针对宠物狗的脸部的至少两张样本图像。

具体的，所述样本图像，包括第一样本图像以及第一样本基准图像，其中，第一样本图像包括：侧视角图像，所述第一样本基准图像，包括正视角图像。

步骤404，计算每张样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵。

步骤406，将所述每张样本图像进行深度估计，获得所述每张样本图像的第一样本深度图像。

步骤408，将所述样本图像、所述第一样本位姿变换矩阵、第一样本深度图像组成训练样本集。

步骤410，将所述训练样本集中的训练样本输入初始图像生成模型的编码模块，生成中间三维形变向量。

步骤412，将所述中间三维形变向量输入所述初始图像生成模型的解码模块进行解码，获得所述目标对象的中间三维图像。

步骤414，确定所述中间三维图像在所述第一样本位姿变换矩阵对应的拍摄视角的中间深度图像。

步骤416，计算所述中间深度图像和所述样本深度图像的误差，并根据计算结果对所述初始图像生成模型进行迭代训练，获得所述图像生成模型。

步骤418，获取所述宠物狗的脸部的第一图像以及基准图像。

步骤420，计算所述第一图像相对于所述基准图像的位姿变换矩阵。

步骤422，将所述第一图像进行深度估计，获得所述第一图像的深度图像；

步骤424，将所述位姿变换矩阵、所述深度图像以及所述第一图像输入所述图像生成模型进行三维重建，获得所述目标对象的目标三维图像。

步骤426，通过所述目标三维图像对所述宠物狗进行身份识别，获得身份识别结果。

具体的，可以将目标三维图像与宠物狗的图像或视频进行特征对比，进而对宠物狗进行身份识别。

本说明书提供一种图像生成模型训练方法，包括：获取宠物狗的脸部的至少两张第一样本图像以及第一样本基准图像；计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵；将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像；基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型，获得针对所述目标对象的三维图像的图像生成模型，实现了在计算第一样本图像的位姿变换以及深度图像的基础上，基于第一样本图像、第一样本图像对应的位姿变换以及对应的深度图像进行模型训练，获得可进行三维重建的图像生成模型，降低了图像生成模型的训练成本，并增加了图像生成模型的生成效率，并增加了针对宠物狗的识别准确率。

本说明书提供的一种图像生成模型训练装置实施例如下：

与上述方法实施例相对应，本说明书还提供了图像生成模型训练装置实施例，图5示出了本说明书一个实施例提供的一种图像生成模型训练装置的示意图。如图5所示，该装置包括：

获取模块502，被配置为获取目标对象的至少两张第一样本图像以及第一样本基准图像；

计算模块504，被配置为计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵；

深度估计模块506，被配置为将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像；

训练模块508，被配置为基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型。

可选的，所述训练模块508，进一步被配置为：

可选的，所述图像生成模型训练装置，还包括：

第二获取模块，被配置为获取所述目标对象的第一图像以及基准图像；

第二计算模块，被配置为计算所述第一图像相对于所述基准图像的位姿变换矩阵；

第二深度估计模块，被配置为将所述第一图像进行深度估计，获得所述第一图像的深度图像；

三维重建模块，被配置为将所述位姿变换矩阵、所述深度图像以及所述第一图像输入所述图像生成模型进行三维重建，获得所述目标对象的目标三维图像。

可选的，所述三维重建模块，进一步被配置为：

可选的，所述计算模块504，进一步被配置为：

可选的，所述深度估计模块506，进一步配置为：

可选的，所述深度图像模型，通过运行如下模块进行训练：

第三获取模块，被配置为获取所述目标对象的至少两张第二样本图像以及第二样本基准图像；

第三计算模块，被配置为计算每张第二样本图像相对于所述第二样本基准图像的第二样本位姿变换矩阵；

第三深度估计模块，被配置为将所述每张第二样本图像输入初始深度图像模型进行深度估计，获得所述每张第一样本图像的训练深度图像；

确定深度值模块，被配置为基于所述第二样本图像与所述第二样本基准图像之间的关键匹配点，确定所述关键匹配点对应的深度值；

计算深度值模块，被配置为计算所述关键匹配点在所述训练深度图中对应的训练深度值；

模型训练模块，被配置为基于所述训练深度值以及所述深度值之间的误差，对所述初始深度图像模型进行迭代训练，获得所述深度图像模型。

可选的，所述图像生成模型训练装置，还包括：

对象检测模块，被配置为对所述第一样本图像进行目标对象检测，获得包含所述目标对象的第一图像区域，以及对所述第一样本基准图像进行目标对象检测，获得包含所述目标对象的第二图像区域；

裁剪模块，被配置为对所述第一样本图像中的所述第一图像区域进行裁剪，将裁剪获得的所述第一图像区域对应的图像作为所述第一样本图像，以及对所述第一样本基准图像中的所述第二图像区域进行裁剪，将裁剪获得的所述第二图像区域对应的图像作为所述第一样本基准图像。

可选的，第一样本图像包括：侧视角图像，所述第一样本基准图像，包括正视角图像。

可选的，所述图像生成模型，包括变分自编码模型、或生成式对抗网络模型。

本说明书提供一种图像生成模型训练装置，包括：获取目标对象的至少两张第一样本图像以及第一样本基准图像；计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵；将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像；基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型，获得针对所述目标对象的三维图像的图像生成模型，实现了在计算第一样本图像的位姿变换以及深度图像的基础上，基于第一样本图像、第一样本图像对应的位姿变换以及对应的深度图像进行模型训练，获得可进行三维重建的图像生成模型，降低了图像生成模型的训练成本，并增加了图像生成模型的生成效率。

上述为本实施例的一种图像生成模型训练装置的示意性方案。需要说明的是，该图像生成模型训练装置的技术方案与上述的图像生成模型训练方法的技术方案属于同一构思，图像生成模型训练装置的技术方案未详细描述的细节内容，均可以参见上述图像生成模型训练方法的技术方案的描述。

本说明书提供的一种计算设备实施例如下：

图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令：

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像生成模型训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像生成模型训练方法的技术方案的描述。

本说明书提供的一种计算机可读存储介质实施例如下：

本说明书提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像生成模型训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像生成模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像生成模型训练方法，包括：

2.根据权利要求1所述的图像生成模型训练方法，所述基于所述第一样本图像、所述第一样本位姿变换矩阵以及所述第一样本深度图像对初始图像生成模型进行模型训练，获得针对所述目标对象的三维图像的图像生成模型，包括：

3.根据权利要求1所述的图像生成模型训练方法，还包括：

获取所述目标对象的第一图像以及基准图像；

计算所述第一图像相对于所述基准图像的位姿变换矩阵；

4.根据权利要求3所述的图像生成模型训练方法，所述将所述位姿变换矩阵、所述深度图像以及所述第一图像输入所述图像生成模型进行三维重建，获得所述目标对象的目标三维图像，包括：

5.根据权利要求1所述的图像生成模型训练方法，所述计算每张第一样本图像相对于所述第一样本基准图像的第一样本位姿变换矩阵，包括：

6.根据权利要求1所述的图像生成模型训练方法，所述将所述每张第一样本图像进行深度估计，获得所述每张第一样本图像的第一样本深度图像，包括：

7.根据权利要求6所述的图像生成模型训练方法，所述深度图像模型，通过如下方式进行训练：

8.根据权利要求1所述的图像生成模型训练方法，所述获取目标对象的至少两张第一样本图像以及第一样本基准图像之后，还包括：

9.根据权利要求1所述的图像生成模型训练方法，第一样本图像包括：侧视角图像，所述第一样本基准图像，包括正视角图像。

10.根据权利要求1所述的图像生成模型训练方法，所述图像生成模型，包括变分自编码模型、或生成式对抗网络模型。

11.一种图像生成模型训练装置，包括：

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

13.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至10任意一项所述图像生成模型训练方法的步骤。