CN111340913A

CN111340913A - 图片生成与模型训练方法、装置及存储介质

Info

Publication number: CN111340913A
Application number: CN202010111604.9A
Authority: CN
Inventors: 王波; 张骞
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-26
Anticipated expiration: 2040-02-24
Also published as: CN111340913B

Abstract

本发明实施例提供了一种图片生成与模型训练方法、装置及存储介质，其中，上述图片生成方法，包括：获取用户输入的分割图和条件向量；将所述分割图、所述条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片；其中，所述目标图片生成模型包括目标空间自适应归一化模块、目标解码器以及目标生成器。本发明实施例提供的图片生成方法无需使用素材对原始图片中的各个类别的属性特征进行匹配，能够有效提高生成的图片与用户输入内容的相关度，并有助于满足用户对图片生成的个性化需求。

Description

图片生成与模型训练方法、装置及存储介质

技术领域

本发明涉及图片处理技术领域，特别是涉及一种图片生成与模型训练方法、装置及存储介质。

背景技术

随着图片处理技术的发展，用户可以通过一些图片生成工具来生成个性化的图片，例如卡通化的个人图像、聊天表情等。

现有的图片生成工具以模板匹配的图片生成方式为主，即预先建立类别(例如五官、脸型、头发、眼镜等)的素材库，在进行图片生成时，从用户提供的原始图片中提取各个类别的属性特征，并基于属性特征从相关类别的素材库中选取最匹配的素材进行拼接，最终得到生成图片。模板匹配的图片生成方式的缺陷在于，预先建立的素材通常比较固定，且难以对原始图片中的类别属性特征进行修改，导致生成图片的相关度较差，且难以满足用户对图片生成的个性化需求。

发明内容

本发明实施例的目的在于提供一种图片生成与模型训练方法、装置及存储介质，以提高生成图片的相关度，并便于满足用户对图片生成的个性化需求。

具体技术方案如下：

在本发明实施的第一方面，首先提供了一种图片生成方法，包括：

获取用户输入的分割图和条件向量；

将所述分割图、所述条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片；

其中，所述目标图片生成模型包括目标空间自适应归一化模块、目标解码器以及目标生成器，所述目标解码器的输入端用于接收所述随机噪声与所述条件向量，所述目标空间自适应归一化模块的输入端用于接收所述分割图，所述目标生成器的输入用于接收所述目标空间自适应归一化模块的输出与所述目标解码器的输出。

在本发明实施的第二方面，还提供了一种图片生成模型训练方法，包括：

构建生成对抗网络，所述生成对抗网络包括原始图片生成模型与原始图片判别模型；

获取样本图片、预设的随机噪声以及用户输入的分割图和条件向量；

将所述分割图、所述条件向量和预设的随机噪声输入所述原始图片生成模型中，获得合成图片；其中，所述原始图片生成模型中构建有生成损失函数，且所述原始图片生成模型包括原始空间自适应归一化模块、原始解码器以及原始生成器，所述原始解码器的输入端用于接收所述随机噪声与所述条件向量，所述原始空间自适应归一化模块的输入端用于接收所述分割图，所述原始生成器的输入用于接收所述原始空间自适应归一化模块的输出与原始解码器的输出；

将所述合成图片与所述样本图片输入至所述原始图片判别模型，获得判别结果；

基于所述判别结果对所述原始图片生成模型的网络参数进行调整，直至依据所述判别结果得到的所述生成损失函数的函数值满足损失阈值，获得目标图片生成模型。

在本发明实施的第三方面，还提供了一种图片生成装置，包括：

第一获取模块，用于获取用户输入的分割图和条件向量；

第二获取模块，用于将所述分割图、所述条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片；

在本发明实施的第四方面，还提供了一种图片生成模型训练装置，包括：

构建模块，用于构建生成对抗网络，所述生成对抗网络包括原始图片生成模型与原始图片判别模型；

第一获取模块，用于获取样本图片、预设的随机噪声以及用户输入的分割图和条件向量；

第二获取模块，用于将所述分割图、所述条件向量和预设的随机噪声输入原始图片生成模型中，获得合成图片；其中，所述原始图片生成模型中构建有生成损失函数，且所述原始图片生成模型包括原始空间自适应归一化模块、原始解码器以及原始生成器，所述原始解码器的输入端用于接收所述随机噪声与所述条件向量，所述原始空间自适应归一化模块的输入端用于接收所述分割图，所述原始生成器的输入用于接收所述原始空间自适应归一化模块的输出与所述原始解码器的输出；

第三获取模块，用于将所述合成图片与所述样本图片输入至所述原始图片判别模型，获得判别结果；

第四获取模块，用于基于所述判别结果对所述原始图片生成模型的网络参数进行调整，直至依据所述判别结果得到的所述生成损失函数的函数值满足损失阈值，获得目标图片生成模型。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的图片生成方法或图片生成模型训练方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图片生成方法或图片生成模型训练方法。

本发明实施例提供的图片生成方法中，采用包括了目标空间自适应归一化模块、目标解码器以及目标生成器的目标图片生成模型进行目标图片的生成，仅需利用用户输入的条件向量与分割图，结合随机噪声即可获得目标图片；无需使用素材对原始图片中的各个类别的属性特征进行匹配，能够有效提高生成的图片与用户输入内容的相关度；而且用户可以同时通过分割图与条件向量对图片生成结果进行控制，提高了用户对生成图片的控制能力，并有助于满足用户对图片生成的个性化需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的图片生成方法的流程图；

图2为本发明实施例中目标空间自适应归一化模块的工作原理图；

图3为本发明实施例中目标生成器进行特征归一化处理的工作原理图；

图4为本分实施例中目标图片生成过程的工作原理图；

图5为本发明实施例提供的图片生成方法中获得目标图片的流程图；

图6为本发明实施例中第一目标生成器的工作原理图；

图7为本发明实施例中第二目标生成器的工作原理图；

图8为本发明实施例提供的图片生成模型训练方法的流程图；

图9为本发明实施例提供的图片生成模型训练方法中获得合成图片的流程图；

图10为本发明实施例提供的图片生成装置的结构示意图；

图11为本发明实施例提供的图片生成模型训练装置的结构示意图；

图12为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

如图1所示，本发明实施例提供的图片生成方法，包括：

步骤S110，获取用户输入的分割图和条件向量；

步骤S120，将所述分割图、所述条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片；

上述目标图片可以是例如人物图片、卡通动物图片、风景图片等等，此处不做具体限定。

对于分割图，可以对应为由用户简单绘制的草图，该草图中可以包括不同类别的轮廓界线或者大致位置等，此处的类别，可以理解为目标图片中需要表达的具体的内容，例如，对于人物图片，类别可以是头部以及五官等；对于风景图片，类别可以是树木、湖泊或者石头等。

条件向量中可以具有对一个或多个类别的属性的限定。此处的属性可以是颜色、形状或者是否存在配饰等等。例如，对于人物图片，条件向量可以用于限定眼睛或头发的颜色、是否佩戴眼镜等等；对于风景图片，条件向量可以用于限定树木颜色、湖泊颜色等等。

随机噪声通常为服从高斯分布的随机变量，是目标图片生成模型的输入量之一；上述预设的随机噪声主要是指预设维度或预设像素大小的随机噪声。

对于目标解码器，主要用于接收输入的随机噪声与条件向量，并对两者进行拼接，并输出预设像素大小的拼接图。例如，随机噪声的像素为128(例如1×1×128)，条件向量的像素为64(例如1×1×64，每个像素点可以分别对应一个类别属性)，目标解码器对随机噪声与条件向量进行拼接，可以得到一像素为192(例如1×1×192)的拼接图。

目标空间自适应归一化模块可以接收分割图。如图2所示，目标空间自适应归一化模块通过类似于空间自适应归一化(Spatially-adaptive normalization，SPADE)的方式，利用卷积层从分割图中提取反归一化参数(例如均值β和方差γ)，并将反归一化参数输入到目标生成器中指导反归一化。

目标生成器可以对目标解码器的输出(以下均简称拼接图)进行特征归一化处理。如图3所示，特征归一化处理可以分为归一化和反归一化两个阶段，其中，在归一化阶段中，目标生成器对拼接图的各个特征减去均值并除以方差，将特征归一化到零均值、单位方差的正态分布，并获得目标特征图；在反归一化阶段中，目标生成器引入与目标特征图相同尺度的反归一化参数(例如均值β和方差γ)，对目标特征图进行反归一化。当然，实际应用中，可能需要目标生成器对拼接图反复进行归一化与反归一化处理，才能得到目标图片。

目标图片可以是目标生成器最终的输出。通过引入目标空间自适应归一化模块输出的反归一化参数，可以使得目标图片中各个类别的轮廓界线或者位置与分割图一致，实现用户对目标图片整体布局的控制；与此同时，条件向量的使用，可以对各个类别的属性进行控制，便于用户对各个类别的属性(如颜色、形状等)进行设定。

本发明实施例提供的图片生成方法中，采用包括了目标空间自适应归一化模块、目标解码器以及目标生成器的目标图片生成模型进行目标图片的生成，仅需利用用户输入的条件向量与分割图，结合随机噪声即可获得目标图片；无需使用素材对原始图片中的各个类别的属性特征进行匹配，能够有效提高生成的图片与用户输入内容的相关度；而且用户可以同时通过分割图与条件向量对图片生成结果进行控制，提高了用户对生成图片的控制能力，有助于满足用户对图片生成的个性化需求；此外，相较于模板匹配的图片生成方式，本发明实施例也无需构建大量的素材，进而降低了图片生成的人力和时间成本。

在一个示例中，目标图片为人物头部图片，例如动画人物头部图片或者写实人物头部图片等，本示例将主要以动画人物头部图片(以下简称动画头像)为例进行说明。

为与动画头像相适应，本示例中，所述分割图包括头部轮廓信息与五官位置信息；

所述将所述分割图、所述条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片，包括：

将所述分割图输入到所述目标空间自适应归一化模块，获得反归一化参数；

控制所述目标生成器对将所述目标解码器的输出进行归一化，获得目标特征图；

控制所述目标生成器基于所述反归一化参数对所述目标特征图进行反归一化，获得目标图片，其中，所述目标图片包括头部坐标信息与五官坐标信息，所述头部坐标信息与所述头部轮廓信息匹配，所述五官坐标信息与所述五官位置信息相匹配。

参见图3与图4，用户可以在草图中勾勒出头发和脸的轮廓，并在脸的轮廓内部点四个点，分别代表双眼、鼻子以及嘴巴的位置，该草图可以作为分割图(记为s)输入到目标空间自适应归一化模块。目标空间自适应归一化模块通过卷积层的卷积运算可以从分割图中提取出反归一化参数(对应均值β和方差γ)，并将反归一化参数输入到目标生成器中。

而目标生成器的另一个输入端对应了目标解码器的输出，如上文所述，目标解码器主要用于对随机噪声(记为z)以及条件向量(记为c)等输入量进行拼接并输出拼接图。

本示例中，条件向量可以包括五官属性向量、脸部属性向量、头发属性向量以及头部配饰属性向量中的至少一项。换而言之，上述的类别可以是五官、脸部、头发、头部配饰等；而属性可以是指眼睛颜色、头发颜色、发型、脸色、嘴型、是否戴帽子、是否戴眼镜等；属性向量则用于对对应属性的限定，并对最终生成的动画头像进行控制。例如，通过条件向量，可以使得目标动画头像中头发颜色为黑色，眼睛颜色为蓝色等等。

目标生成器可以针对目标解码器的输出进行特征归一化处理，如上文所述，即首先对拼接图进行归一化，得到正态分布的特征图(即目标特征图)，然后使用目标空间自适应归一化模块提供的反归一化参数，对目标特征图进行反归一化，得到目标图片。通过以上处理方式，可以使得目标生成器生成的目标图片中，头发和脸的轮廓、双眼位置、鼻子位置、嘴巴位置则会与分割图匹配。

结合图4，目标生成器针对拼接图进行特征归一化处理得到目标图片的过程中，通常需要反复对拼接图进行归一化与反归一化。不同的归一化阶段得到的目标特征图的尺度可能不同，可以通过调整分割图的尺寸，在相应的反归一化阶段引入与该目标特征图相同尺度的反归一化参数，该过程可通过类似于SPADE的实现过程进行实现，此处不再赘述。

本示例中，通过引入目标空间自适应归一化模块输出的反归一化参数，可以实现动画头像中头部轮廓与五官位置与分割图一致，便于用户通过绘制草图来确定五官、头发等类别在动画头像上的分布；同时，条件向量的使用，可以对各个类别的属性进行控制，便于用户对五官、头发等类别的属性(如颜色、形状等)进行设定，进而充分满足用户对动画头像生成的个性化需求。

考虑从条件向量和分割图直接生成目标图片比较困难，且直接生成的目标图片的质量较低，因此，将可以将目标图片的生成步骤分为粗略阶段和精调阶段。

具体地，在本实施例中，所述目标空间自适应归一化模块包括第一目标空间自适应归一化模块与第二目标空间自适应归一化模块，所述目标解码器包括第一目标解码器与第二目标解码器，所述目标生成器包括第一目标生成器与第二目标生成器；

如图5所示，所述步骤S120，将所述分割图、所述条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片，包括：

步骤S121，将所述随机噪声与所述条件向量输入至所述第一目标解码器，获得第一拼接图；

步骤S122，将所述第一目标空间自适应归一化模块的输出与所述第一拼接图输入至所述第一目标生成器，获得颜色分布图；

步骤S123，将所述颜色分布图、所述随机噪声以及所述条件向量输入至所述第二目标解码器，获得第二拼接图；

步骤S124，将所述第二目标空间自适应归一化模块的输出与所述第二拼接图输入至所述第二目标生成器，获得目标图片。

为便于说明，记随机噪声、条件向量、分割图、颜色分布图分别为z、c、s、d。

如图6所示，在粗略阶段，将随机噪声z、条件向量c以及分割图s作为输入量，其中，随机噪声z与条件向量c输入至第一目标解码器中，得到一预设像素大小的第一拼接图，并将第一拼接图输入至第一目标生成器；第一目标空间自适应归一化模块的输出，主要指基于分割图s提取得到的反归一化参数为便于区分，此处的反归一化参数称为第一反归一化参数。第一目标生成器对第一拼接图进行归一化，并基于第一反归一化参数对第一拼接图进行反归一化，最终得到一粗略图，即上述颜色分布图d。

由于颜色分布图d的信息较少，很容易改变，因此能够方便地通过条件向量进行控制，比直接生成目标图片，可控性更高。换而言之，颜色分布图d容易与条件向量c的属性一致，基于颜色分布图d进一步生成目标图片，相较于直接生成目标图片，有助于提高目标图片与条件向量c的属性一致性。

在一示例中，颜色分布图d的分辨率可以与目标图片一致，且像素为192，分成3层8×8的网格，同一层网格中对应的像素点的颜色相同；而目标图片的像素则可以远远大于颜色分布图d的像素，例如，目标图片可以是一256×256×3的高像素值图片。当然，实际应用中，颜色分布图d与目标图片的像素大小可以根据实际需要进行设定。

颜色分布图d确定后，可进一步将其应用到精调阶段中。具体地，如图7所示，可将颜色分布图d、随机噪声z以及条件向量c输入至所述第二目标解码器，获得第二拼接图，将第二拼接图输入至第二目标生成器；第二目标生成器对第二拼接图进行归一化，并基于第二反归一化参数对第二拼接图进行反归一化，最终得到目标图片。其中，第二反归一化参数是通过第二目标空间自适应归一化模块依据输入分割图进行提取得到。

由于有颜色分布图d的输入，目标图片生成模型可以有颜色及其位置的参考，相比基于随机噪声z、分割图s等输入等直接得到目标图片，本实施例生成目标图片的运算处理过程更加简单，图片生成质量也更高。

当然，在实际应用中，获得颜色分布图或者目标图片的过程中，可能需要各个目标生成器对相应输入的拼接图反复进行归一化与反归一化处理，以上过程均可通过类似于SPADE的实现过程进行实现，此处不再赘述。

如图8所示，本发明实施例还提供了一种图片生成模型训练方法，包括：

步骤S210，构建生成对抗网络，所述生成对抗网络包括原始图片生成模型与原始图片判别模型；

步骤S220，获取样本图片、预设的随机噪声以及用户输入的分割图和条件向量；

步骤S230，将所述分割图、所述条件向量和预设的随机噪声输入所述原始图片生成模型中，获得合成图片；其中，所述原始图片生成模型中构建有生成损失函数，且所述原始图片生成模型包括原始空间自适应归一化模块、原始解码器以及原始生成器，所述原始解码器的输入端用于接收所述随机噪声与所述条件向量，所述原始空间自适应归一化模块的输入端用于接收所述分割图，所述原始生成器的输入用于接收所述原始空间自适应归一化模块的输出与原始解码器的输出；

步骤S240，将所述合成图片与所述样本图片输入至所述原始图片判别模型，获得判别结果；

步骤S250，基于所述判别结果对所述原始图片生成模型的网络参数进行调整，直至依据所述判别结果得到的所述生成损失函数的函数值满足损失阈值，获得目标图片生成模型。

生成对抗网络(Generative Adversarial Net，GAN)是一种深度学习模型，通常主要包括生成模型(Generative Model)与判别模型(Discriminative Model)，通过生成模型与判别模型的互相博弈学习产生较好的输出。

本实施例中，构建的生成对抗网络包括原始图片生成模型与原始图片判别模型，并基于样本图片、随机噪声以及用户输入的分割图和条件向量对生成对抗网络进行训练，而上文中的目标图片生成模型，可以认为是训练好的原始图片生成模型。

具体地，对于原始图片生成模型，包括原始空间自适应归一化模块、原始解码器以及原始生成器，将分割图、条件向量以及预设的随机噪声作为输入量，输入到原始图片生成模型中，即可输出得到合成图片。通过原始图片生成模型获得合成图片的工作原理，与上文中通过目标图片生成模型获得目标图片的工作原理相似，此处不再赘述。

对于原始图片判别模型，可以基于输入的合成图片与样本图片进行训练。简单来说，上述合成图片可以认为是假图片，样本图片可以认为是真图片，若将合成图片、样本图片以及相应的真假信息输入到原始图片判别模型中后，可以对原始图片判别模型的网络参数进行调整。

相应地，对于原始图片生成模型的训练，可以简单描述为：保持原始图片判别模型的调整后的网络参数不变，将合成图片输入到原始图片判别模型中(此时不输入合成图片对应的真假信息)，原始图片判别模型输出一包括真实度的判别结果，基于该判别结果可以对原始图片生成模型的网络参数进行调整，从而实现对原始图片生成模型的训练。

当然，以上只是对生成对抗网络的训练过程进行简单描述，实际应用中，通常需要对原始图片判别模型与原始图片生成模型进行反复交替训练，最终得到目标图片生成模型。

本实施例中，原始图片生成模型中还包括了原始解码器，并将条件向量作为输入之一，上述合成图片还应该符合条件向量。因此，原始图片判别模型还需对合成图片是否符合条件向量进行判别。

在一些可行的实施方式中，原始图片判别模型对合成图片是否符合条件向量进行判别，主要分为两种方式：一种是基于样本图片及样本图片对应的条件向量对原始图片判别模型进行训练，并建立多个类别，当合成图片输入到原始图片判别模型中后，可以针对合成图片进行分类，判别其属于哪些类别，并将类别判别结果发送至原始图片生成模型，基于类别判别结果，可间接实现对合成图片是否符合条件向量的判别。另一种是将条件向量与合成图片直接输入至原始图片判别模型中，直接对合成图片是否符合条件向量进行判别。其中，第一种判别方式，类似于辅助分类生成-对抗网络(Auxiliary ClassifierGenerative Adversarial Network，ACGAN)的判别方式，而第二种判别方式，类似于条件生成-对抗网络(Conditional Generative Adversarial Nets，CGAN)的判别方式。

也就是说，本实施例中，原始图片判别模型既要对合成图片的是否真实进行判别，还要对合成图片是否符合条件向量进行判别。原始图片生成模型需要基于以上的判别结果，对自身网络参数进行调整。

上述原始图片生成模型中构建有生成损失函数，当原始图片生成模型的网络参数调整到一定阶段，并使得依据判别结果得到的所述生成损失函数的函数值满足损失阈值时，将网络参数调整后的原始图片生成模型作为目标图片生成模型。

本发明实施例提供的图片生成模型训练方法，通过建立生成对抗网络对原始图片判别模型进行训练得到目标图片生成模型，其中，原始图片判别模型包括了原始空间自适应归一化模块、原始解码器以及原始生成器，一方面可以降低对原始图片判别模型的输入的要求，另一方面，有助于使得合成图片符合条件向量，提升用户对合成图片的控制能力。

可选地，所述原始空间自适应归一化模块包括第一原始空间自适应归一化模块与第二原始空间自适应归一化模块，所述原始解码器包括第一原始解码器与第二原始解码器，所述原始生成器包括第一原始生成器与第二原始生成器；

如图9所示，所述步骤S230，将所述分割图、所述条件向量和预设的随机噪声输入原始图片生成模型中，获得合成图片，包括：

步骤S231，将所述随机噪声与所述条件向量输入至所述第一原始解码器，获得第三拼接图；

步骤S232，将所述第一原始空间自适应归一化模块的输出与所述第三拼接图输入至所述第一原始生成器，获得第一合成图片；

步骤S233，将所述第一合成图片、所述随机噪声以及所述条件向量输入至所述第二原始解码器，获得第四拼接图；

步骤S234，将所述第二原始空间自适应归一化模块的输出与所述第四拼接图输入至所述原始生成器，获得第二合成图片。

与上文中将分割图、条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片的过程相似，本实施例中，获得合成图片的过程也分为粗略阶段和精调阶段。

在粗略阶段，将随机噪声z、条件向量c以及分割图s作为输入量，其中，随机噪声z与条件向量c输入至第一原始解码器中，得到一预设像素大小的第三拼接图，并将第三拼接图输入至第一原始生成器；第一目标空间自适应归一化模块的输出，主要指基于分割图s提取得到的反归一化参数(为示区别，称作第三反归一化参数)。第一原始生成器基于第三反归一化参数对第三拼接图进行特征归一化处理，得到第一合成图片。

第一合成图片是上述合成图片的组成之一，将第一合成图片输入到原始图片判别模型中，可以得到相应的第一判别结果。同时，可选地，在原始图片生成模型中可以拟合与第一判别结果相关的两个生成损失函数，分别是：第一合成图片相对于样本图片的第一判别损失函数、第一合成图片相对于条件向量的条件损失函数。其中，第一判别损失函数主要用于评价第一合成图片的颜色是否合理，即第一合成图片是否与样本图片的颜色分布一致；条件损失函数则用于评价第一合成图片的颜色分布是否符合输入的条件向量。

在精调阶段，可将第一合成图片、随机噪声z以及条件向量c输入至所述第二原始解码器，获得第四拼接图，将第四拼接图输入至第二原始生成器；第二原始生成器基于第二目标空间自适应归一化模块输出的第四反归一化参数对第四拼接图进行特征归一化处理，得到第二合成图片。

第二合成图片亦为上述合成图片的组成之一，将第二合成图片输入到原始图片判别模型中，可以得到相应的第二判别结果。同时，可选地，在原始图片生成模型中可以拟合与第二判别结果相关的两个生成损失函数，分别是：第二合成图片相对于样本图片的第二判别损失函数、第二合成图片相对于第一合成图片的颜色一致性损失函数。其中，第二判别损失函数主要用于评价第二合成图片是否真实(即是否能够令原始图片判别模型难判真假)；颜色一致性损失函数则主要评价第二合成图片的颜色分布是否与第一合成图片一致。

训练过程中，可以基于各个生成损失函数的函数值，对原始图片生成模型的网络参数进行调整，通常情况下，当上述函数值小于相应的损失阈值时，可以认为生成对抗网络已经得到充分训练，并可获得上述的目标图片生成模型。

当然，实际应用中，上述生成损失函数的数量与类型可以根据实际需要进行调整。

此外，实际应用中，原始图片判别模型对输入图片的像素大小可能有着一定的要求。比如，原始图片判别模型要求输入图片的像素为256×256×3；上述第二合成图片的像素为256×256×3，可以直接输入到原始图片判别模型中；而第一合成图片的像素可能只有16×16×3，此时可以使用条件向量将第一合成图片的像素扩展(即对条件向量与第一合成图片进行拼接)成256×256×3，然后输入到原始图片判别模型中。

本实施例中，从原始图片生成模型中获取两个阶段的合成图片，并可以进一步基于原始图片判别模型针对合成图片的判别结果，计算在原始图片生成模型中构建的各个生成损失函数的函数值，并将函数值作为原始图片生成模型的网络参数的调整或确定依据；有利于提高目标图片生成模型的网络参数的合理度。

在一具体应用实施例中，上述原始图片生成模型中，原始空间自适应归一化模块与原始生成器可以是应用高更生成对抗网络(Paul Gauguin and GenerativeAdversarial Net，GauGAN)的SPADE网络；而上述原始解码器可以是应用ACGAN的解码器；上述原始图片判别模型，可以采用ACGAN的判别模型。

本实施例中，将SPADE网络、ACGAN以及分粗略阶段和精调阶段两个阶段生成图片所对应网络框架进行结合，训练得到的目标图片生成模型能够对类别属性和精细位置进行控制，有效提高生成图片的质量，并满足用户对个性化图片需求。

如图10所示，本发明实施例还提供了一种图片生成装置300，包括：

第一获取模块310，用于获取用户输入的分割图和条件向量；

第二获取模块320，用于将所述分割图、所述条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片；

可选地，所述目标空间自适应归一化模块包括第一目标空间自适应归一化模块与第二目标空间自适应归一化模块，所述目标解码器包括第一目标解码器与第二目标解码器，所述目标生成器包括第一目标生成器与第二目标生成器；

所述第二获取模块320，包括：

第一获取单元，用于将所述随机噪声与所述条件向量输入至所述第一目标解码器，获得第一拼接图；

第二获取单元，用于将所述第一目标空间自适应归一化模块的输出与所述第一拼接图输入至所述第一目标生成器，获得颜色分布图；

第三获取单元，用于将所述颜色分布图、所述随机噪声以及所述条件向量输入至所述第二目标解码器，获得第二拼接图；

第四获取单元，用于将所述第二目标空间自适应归一化模块的输出与所述第二拼接图输入至所述第二目标生成器，获得目标图片。

可选地，所述分割图包括头部轮廓信息与五官位置信息；

所述第二获取模块，包括：

第五获取单元，用于将所述分割图输入到所述目标空间自适应归一化模块，获得反归一化参数；

第六获取单元，用于控制所述目标生成器对将所述目标解码器的输出进行归一化，获得目标特征图；

第七获取单元，用于控制所述目标生成器基于所述反归一化参数对所述目标特征图进行反归一化，获得目标图片，其中，所述目标图片包括头部坐标信息与五官坐标信息，所述头部坐标信息与所述头部轮廓信息匹配，所述五官坐标信息与所述五官位置信息相匹配。

可选地，所述条件向量包括五官属性向量、脸部属性向量、头发属性向量以及头部配饰属性向量中的至少一项。

需要说明的是，该图片生成装置是与上述图片生成方法对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

如图11所示，本发明实施例还提供了一种图片生成模型训练装置400，包括：

构建模块410，用于构建生成对抗网络，所述生成对抗网络包括原始图片生成模型与原始图片判别模型；

第一获取模块420，用于获取样本图片、预设的随机噪声以及用户输入的分割图和条件向量；

第二获取模块430，用于将所述分割图、所述条件向量和预设的随机噪声输入原始图片生成模型中，获得合成图片；其中，所述原始图片生成模型中构建有生成损失函数，且所述原始图片生成模型包括原始空间自适应归一化模块、原始解码器以及原始生成器，所述原始解码器的输入端用于接收所述随机噪声与所述条件向量，所述原始空间自适应归一化模块的输入端用于接收所述分割图，所述原始生成器的输入用于接收所述原始空间自适应归一化模块的输出与所述原始解码器的输出；

第三获取模块440，用于将所述合成图片与所述样本图片输入至所述原始图片判别模型，获得判别结果；

第四获取模块450，用于基于所述判别结果对所述原始图片生成模型的网络参数进行调整，直至依据所述判别结果得到的所述生成损失函数的函数值满足损失阈值，获得目标图片生成模型。

所述第二获取模块430，包括：

第一获取单元，用于将所述随机噪声与所述条件向量输入至所述第一原始解码器，获得第三拼接图；

第二获取单元，用于将所述第一原始空间自适应归一化模块的输出与所述第三拼接图输入至所述第一原始生成器，获得第一合成图片；

第三获取单元，用于将所述第一合成图片、所述随机噪声以及所述条件向量输入至所述第二原始解码器，获得第四拼接图；

第四获取单元，用于所述第二原始空间自适应归一化模块的输出与所述第四拼接图输入至所述第二原始生成器，获得第二合成图片。

可选地，所述生成损失函数包括以下至少一项：

所述第一合成图片相对于所述样本图片的第一判别损失函数；

所述第一合成图片相对于所述条件向量的条件损失函数；

所述第二合成图片相对于所述样本图片的第二判别损失函数；

所述第二合成图片相对于所述第一合成图片的颜色一致性损失函数。

需要说明的是，该图片生成模型训练装置是与上述图片生成模型训练方法对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明实施例还提供了一种电子设备，如图12所示，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信，

存储器1203，用于存放计算机程序；

处理器1201，用于执行存储器1203上所存放的程序时，实现如下步骤：

获取用户输入的分割图和条件向量；

可选地，所述将所述分割图、所述条件向量和预设的随机噪声输入到预先训练得到的目标图片生成模型中，获得目标图片，包括：

将所述随机噪声与所述条件向量输入至所述目标解码器，获得第一拼接图；

将所述目标空间自适应归一化模块的输出与所述第一拼接图输入至所述目标生成器，获得颜色分布图；

将所述颜色分布图、所述随机噪声以及所述条件向量输入至所述目标解码器，获得第二拼接图；

将所述目标空间自适应归一化模块的输出与所述第二拼接图输入至所述目标生成器，获得目标图片。

可选地，所述分割图包括头部轮廓信息与五官位置信息；

或者，处理器1201，用于执行存储器1203上所存放的程序时，实现如下步骤：

将所述分割图、所述条件向量和预设的随机噪声输入原始图片生成模型中，获得合成图片；其中，所述原始图片生成模型中构建有生成损失函数，且所述原始图片生成模型包括原始空间自适应归一化模块、原始解码器以及原始生成器，所述原始解码器的输入端用于接收所述随机噪声与所述条件向量，所述原始空间自适应归一化模块的输入端用于接收所述分割图，所述原始生成器的输入用于接收所述原始空间自适应归一化模块的输出与原始解码器的输出；

可选地，所述将所述分割图、所述条件向量和预设的随机噪声输入原始图片生成模型中，获得合成图片，包括：

将所述随机噪声与所述条件向量输入至所述原始解码器，获得第三拼接图；

将所述原始空间自适应归一化模块的输出与所述第三拼接图输入至所述原始生成器，获得第一合成图片；

将所述第一合成图片、所述随机噪声以及所述条件向量输入至所述原始解码器，获得第四拼接图；

将所述原始空间自适应归一化模块的输出与所述第四拼接图输入至所述原始生成器，获得第二合成图片。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图片生成方法，或者使得计算机执行上述实施例中任一所述的图片生成模型训练方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图片生成方法，或者使得计算机执行上述实施例中任一所述的图片生成模型训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图片生成方法，其特征在于，包括：

获取用户输入的分割图和条件向量；

2.根据权利要求1所述的方法，其特征在于，所述目标空间自适应归一化模块包括第一目标空间自适应归一化模块与第二目标空间自适应归一化模块，所述目标解码器包括第一目标解码器与第二目标解码器，所述目标生成器包括第一目标生成器与第二目标生成器；

将所述随机噪声与所述条件向量输入至所述第一目标解码器，获得第一拼接图；

将所述第一目标空间自适应归一化模块的输出与所述第一拼接图输入至所述第一目标生成器，获得颜色分布图；

将所述颜色分布图、所述随机噪声以及所述条件向量输入至所述第二目标解码器，获得第二拼接图；

将所述第二目标空间自适应归一化模块的输出与所述第二拼接图输入至所述第二目标生成器，获得目标图片。

3.根据权利要求1所述的方法，其特征在于，所述分割图包括头部轮廓信息与五官位置信息；

4.根据权利要求1所述的方法，其特征在于，所述条件向量包括五官属性向量、脸部属性向量、头发属性向量以及头部配饰属性向量中的至少一项。

5.一种图片生成模型训练方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述原始空间自适应归一化模块包括第一原始空间自适应归一化模块与第二原始空间自适应归一化模块，所述原始解码器包括第一原始解码器与第二原始解码器，所述原始生成器包括第一原始生成器与第二原始生成器；

所述将所述分割图、所述条件向量和预设的随机噪声输入原始图片生成模型中，获得合成图片，包括：

将所述随机噪声与所述条件向量输入至所述第一原始解码器，获得第三拼接图；

将所述第一原始空间自适应归一化模块的输出与所述第三拼接图输入至所述第一原始生成器，获得第一合成图片；

将所述第一合成图片、所述随机噪声以及所述条件向量输入至所述第二原始解码器，获得第四拼接图；

将所述第二原始空间自适应归一化模块的输出与所述第四拼接图输入至所述第二原始生成器，获得第二合成图片。

7.根据权利要求6所述的方法，其特征在于，所述生成损失函数包括以下至少一项：

所述第一合成图片相对于所述条件向量的条件损失函数；

8.一种图片生成装置，其特征在于，包括：

第一获取模块，用于获取用户输入的分割图和条件向量；

9.根据权利要求8所述的装置，其特征在于，所述目标空间自适应归一化模块包括第一目标空间自适应归一化模块与第二目标空间自适应归一化模块，所述目标解码器包括第一目标解码器与第二目标解码器，所述目标生成器包括第一目标生成器与第二目标生成器；

所述第二获取模块，包括：

第一获取单元，用于将所述随机噪声与所述条件向量输入至所述目标解码器，获得第一拼接图；

第二获取单元，用于将所述目标空间自适应归一化模块的输出与所述第一拼接图输入至所述目标生成器，获得颜色分布图；

第三获取单元，用于将所述颜色分布图、所述随机噪声以及所述条件向量输入至所述目标解码器，获得第二拼接图；

第四获取单元，用于将所述目标空间自适应归一化模块的输出与所述第二拼接图输入至所述目标生成器，获得目标图片。

10.一种图片生成模型训练装置，其特征在于，包括：

第二获取模块，用于将所述分割图、所述条件向量和预设的随机噪声输入所述原始图片生成模型中，获得合成图片；其中，所述原始图片生成模型中构建有生成损失函数，且所述原始图片生成模型包括原始空间自适应归一化模块、原始解码器以及原始生成器，所述原始解码器的输入端用于接收所述随机噪声与所述条件向量，所述原始空间自适应归一化模块的输入端用于接收所述分割图，所述原始生成器的输入用于接收所述原始空间自适应归一化模块的输出与所述原始解码器的输出；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1-4中任一项所述的图片生成方法。

12.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求5-7中任一项所述的图片生成模型训练方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1至4中任一项所述的图片生成方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求5-7中任一项所述的图片生成模型训练方法。