CN112132208A

CN112132208A - 图像转换模型的生成方法、装置、电子设备及存储介质

Info

Publication number: CN112132208A
Application number: CN202010990034.5A
Authority: CN
Inventors: 刘洁; 王涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-25
Anticipated expiration: 2040-09-18
Also published as: CN112132208B

Abstract

一种图像转换模型的生成方法、装置、电子设备及存储介质，属于图像处理领域。所述方法包括：基于获取到的第一样本图像集训练第一初始模型，直至达到第一停止训练条件得到第二初始模型，第一样本图像集包括多个真人图像和多个卡通图像，每个卡通图像的分类类别属于第一分类类别或第二分类类别，属于第二分类类别的卡通图像的卡通风格一致；将属于第一分类类别的真人图像集输入至第二初始模型中，得到属于第一分类类别的第一生成卡通图像集，以使第一生成卡通图像集与第一样本图像集的集合作为第二样本图像集；基于第二样本图像集训练第一初始模型，直至达到第二停止训练条件得到图像转换模型。本申请能够提高转换后的卡通图像与真人图像的相似度。

Description

图像转换模型的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像转换模型的生成方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展，神经网络模型可以具有图像转换功能，例如，神经网络模型可以对真人头像进行图像转换处理，得到具有卡通效果的头像；或者，神经网络模型可以对拍摄到的风景图像进行图像转换处理，得到具有油画效果的图像。常用的神经网络模型为Cycle-GAN(Cycle-Generative Adversarial Networks，循环生成对抗网络)。

然而，采用Cycle-GAN对真人图像进行图像卡通化处理时，存在转换后的卡通图像与真人图像的相似度低的问题。

发明内容

为了解决上述技术问题，本申请提供了一种图像转换模型的生成方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种图像转换模型的生成方法，所述方法包括：

获取第一样本图像集，所述第一样本图像集包括多个真人图像和多个卡通图像，每个所述卡通图像的分类类别属于第一分类类别或第二分类类别，属于所述第一分类类别的卡通图像的第一数量少于属于所述第二分类类别的卡通图像的第二数量，属于所述第二分类类别的卡通图像的卡通风格一致；

基于所述第一样本图像集训练第一初始模型，直至达到第一停止训练条件，得到第二初始模型，所述第一初始模型用于计算图像的注意力特征图，并基于所述注意力特征图设置归一化网络层的网络参数，基于完成网络参数设置的归一化网络层对所述注意力特征图进行解码，得到转换后的图像；

将属于所述第一分类类别的真人图像集输入至所述第二初始模型中，得到属于所述第一分类类别的第一生成卡通图像集，以使所述第一生成卡通图像集与所述第一样本图像集的集合作为第二样本图像集；

基于所述第二样本图像集训练所述第一初始模型，直至达到第二停止训练条件，得到图像转换模型。

可选的，所述第二样本图像集的生成方式包括：

在属于所述第一分类类别的卡通图像的卡通风格，与属于所述第二分类类别的卡通图像的卡通风格不一致的情况下，在所述第一生成卡通图像集中确定所述第二数量的目标生成卡通图像，所述目标生成卡通图像的卡通风格与属于所述第二分类类别的卡通图像的卡通风格一致；

将所述目标生成卡通图像、所述第一样本图像集中的所述多个真人图像和属于所述第二分类类别的卡通图像的集合，作为所述第二样本图像集。

可选的，所述第二样本图像集的生成方式包括：

在属于所述第一分类类别的卡通图像的卡通风格，与属于所述第二分类类别的卡通图像的卡通风格一致的情况下，计算所述第二数量与所述第一数量的差，得到第三数量；

在所述第一生成卡通图像集中确定所述第三数量的目标生成卡通图像，所述目标生成卡通图像的卡通风格与属于所述第二分类类别的卡通图像的卡通风格一致；

将所述目标生成卡通图像和所述第一样本图像集的集合作为所述第二样本图像集。

可选的，所述第一数量与所述第二数量的比值为预设比值。

可选的，所述基于所述第一样本图像集训练第一初始模型，直至达到第一停止训练条件，得到第二初始模型之后，还包括：

将属于第三分类类别的真人图像集输入至所述第二初始模型中，得到属于所述第三分类类别的第二生成卡通图像集，以使所述第一生成卡通图像集、所述第二生成卡通图像集与所述第一样本图像集的集合作为第二样本图像集。

可选的，所述基于所述第二样本图像集训练所述第一初始模型，直至达到第二停止训练条件，得到图像转换模型之后，还包括：

获取待转换的目标真人图像；

通过所述图像转换模型，计算所述目标真人图像的注意力特征图，并基于所述注意力特征图设置归一化网络层的网络参数，基于完成网络参数设置的归一化网络层对所述注意力特征图进行解码，得到与所述目标真人图像对应的卡通图像。

第二方面，本申请提供了一种图像转换模型的生成装置，所述装置包括：

第一获取模块，用于获取第一样本图像集，所述第一样本图像集包括多个真人图像和多个卡通图像，每个所述卡通图像的分类类别属于第一分类类别或第二分类类别，属于所述第一分类类别的卡通图像的第一数量少于属于所述第二分类类别的卡通图像的第二数量，属于所述第二分类类别的卡通图像的卡通风格一致；

第一训练模块，用于基于所述第一样本图像集训练第一初始模型，直至达到第一停止训练条件，得到第二初始模型，所述第一初始模型用于计算图像的注意力特征图，并基于所述注意力特征图设置归一化网络层的网络参数，基于完成网络参数设置的归一化网络层对所述注意力特征图进行解码，得到转换后的图像；

第一输入模块，用于将属于所述第一分类类别的真人图像集输入至所述第二初始模型中，得到属于所述第一分类类别的第一生成卡通图像集，以使所述第一生成卡通图像集与所述第一样本图像集的集合作为第二样本图像集；

第二训练模块，用于基于所述第二样本图像集训练所述第一初始模型，直至达到第二停止训练条件，得到图像转换模型。

可选的，所述装置还包括：

第一确定模块，用于在属于所述第一分类类别的卡通图像的卡通风格，与属于所述第二分类类别的卡通图像的卡通风格不一致的情况下，在所述第一生成卡通图像集中确定所述第二数量的目标生成卡通图像，所述目标生成卡通图像的卡通风格与属于所述第二分类类别的卡通图像的卡通风格一致；

第一生成模块，用于将所述目标生成卡通图像、所述第一样本图像集中的所述多个真人图像和属于所述第二分类类别的卡通图像的集合，作为所述第二样本图像集。

可选的，所述装置还包括：

计算模块，用于在属于所述第一分类类别的卡通图像的卡通风格，与属于所述第二分类类别的卡通图像的卡通风格一致的情况下，计算所述第二数量与所述第一数量的差，得到第三数量；

第二确定模块，用于在所述第一生成卡通图像集中确定所述第三数量的目标生成卡通图像，所述目标生成卡通图像的卡通风格与属于所述第二分类类别的卡通图像的卡通风格一致；

第二生成模块，用于将所述目标生成卡通图像和所述第一样本图像集的集合作为所述第二样本图像集。

可选的，所述第一数量与所述第二数量的比值为预设比值。

可选的，所述装置还包括：

第二输入模块，用于将属于第三分类类别的真人图像集输入至所述第二初始模型中，得到属于所述第三分类类别的第二生成卡通图像集，以使所述第一生成卡通图像集、所述第二生成卡通图像集与所述第一样本图像集的集合作为第二样本图像集。

可选的，所述装置还包括：

第二获取模块，用于获取待转换的目标真人图像；

图像转换模块，用于通过所述图像转换模型，计算所述目标真人图像的注意力特征图，并基于所述注意力特征图设置归一化网络层的网络参数，基于完成网络参数设置的归一化网络层对所述注意力特征图进行解码，得到与所述目标真人图像对应的卡通图像。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一第一方面所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一第一方面所述的方法步骤。

第五方面，本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一第一方面所述的方法步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，可以获取第一样本图像集，第一样本图像集包括多个真人图像和多个卡通图像，每个卡通图像的分类类别属于第一分类类别或第二分类类别，属于第一分类类别的卡通图像的第一数量少于属于第二分类类别的卡通图像的第二数量，属于第二分类类别的卡通图像的卡通风格一致。然后，可以基于第一样本图像集训练第一初始模型，直至达到第一停止训练条件，得到第二初始模型，第一初始模型用于计算图像的注意力特征图，并基于注意力特征图设置归一化网络层的网络参数，基于完成网络参数设置的归一化网络层对注意力特征图进行解码，得到转换后的图像。

然后，可以将属于第一分类类别的真人图像集输入至第二初始模型中，得到属于第一分类类别的第一生成卡通图像集，以使第一生成卡通图像集与第一样本图像集的集合作为第二样本图像集。之后，可以基于第二样本图像集训练第一初始模型，直至达到第二停止训练条件，得到图像转换模型。

由于第一初始模型通过计算注意力特征图以及设置归一化网络层的网络参数，能够在图像转换过程中控制图像的形状变化和纹理变化。并且，通过将第一生成卡通图像集与第一样本图像集的集合作为第二样本图像集，可以增加属于第一分类类别且卡通风格一致的卡通图像的数量，从而确保第二样本图像集包含更加全面的真实人物的图像特征、卡通人物的图像特征。

因此，采用第二样本图像集对第一初始模型进行训练，可以使得训练得到的图像转换模型在图像转换过程中，控制所转换真人图像的形状变化和纹理变化，进而实现将所转换真人图像包含的真实人物的图像特征，转换为对应的卡通图像特征。由此，可以提高转换后的卡通图像与真人图像相似度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像转换模型的生成方法的流程图；

图2a为本申请实施例提供的一种真人图像的示意图；

图2b为本申请实施例提供的一种卡通图像的示意图；

图3为本申请实施例提供的一种图像转换模型的生成装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种图像转换模型的生成方法，可以应用于电子设备。该电子设备具体可以包括台式计算机、便携式计算机、互联网电视、智能移动终端以及可穿戴式智能终端等，在此不作限定，任何可以实现本申请实施例的电子设备，均属于本申请实施例的保护范围。

本申请实施例中，图像转换可以指将包含真实人物的真人图像转换为包含与真实人物对应的卡通人物的卡通图像，也可以指将包含卡通人物的卡通图像，转换为包含与卡通人物对应的真实人物的真人图像。图像转换还可以指将包含真实人物的真人图像转换为包含卡通动物的卡通图像。本申请实施例对此不作具体限定。

下面将结合具体实施方式，对本申请实施例提供的一种图像转换模型的生成方法进行详细的说明，如图1所示，具体步骤如下：

步骤101、获取第一样本图像集。

其中，第一样本图像集包括多个真人图像和多个卡通图像，每个卡通图像的分类类别属于第一分类类别或第二分类类别，属于第一分类类别的卡通图像的第一数量少于属于第二分类类别的卡通图像的第二数量，属于第二分类类别的卡通图像的卡通风格一致，例如，属于第二分类类别的卡通图像的卡通风格可以均为简笔画风格，或者，均为写实油画风格。

在实施中，电子设备可以在接收到训练指令后，获取第一样本图像集。或者，电子设备可以在达到预设时间时，获取第一样本图像集。

本申请实施例中，电子设备可以通过多种方式获取第一样本图像集，在一种可行的实现方式中，电子设备中可以预先存储有第一样本图像集，电子设备可以获取本地存储的第一样本图像集。在另一种可行的实现方式中，电子设备可以通过从互联网中采集真人图像和卡通图像，获取第一样本图像集。或者，电子设备可以通过拍摄真实人物，得到真人图像。本申请实施例对真人图像的获取方式不作具体限定。

可选的，第一样本图像集中真人图像为真实人物的图像，卡通图像为卡通人物的图像。除真人图像外，第一样本图像集还可以包含风景、静物等景物的真实图像，相应的，第一样本图像集可以包括风景、静物等景物的卡通图像。由此，后续可以采用训练完成的图像转换模型对包含风景、静物等景物的真实图像进行图像转换，得到与该真实图像对应的卡通图像。

为进一步提高训练效果，第一样本图像集中的卡通图像和真人图像可以包含人物正面、人物五官完整的高清图像。

步骤102、基于第一样本图像集训练第一初始模型，直至达到第一停止训练条件，得到第二初始模型。

其中，第一初始模型用于计算图像的注意力特征图，并基于注意力特征图设置归一化网络层的网络参数，基于完成网络参数设置的归一化网络层对注意力特征图进行解码，得到转换后的图像。任何能够计算注意力特征图并包含归一化网络层的网络模型均可作为第一初始模型，本申请实施例对此不作具体限定。示例性的，第一初始模型可以是U-GAT-IT(Unsupervised-Generative attentional networks with Adaptive layer-instance normalization for Image-to-Image Translation，具有自适应层实例归一化的无监督生成注意网络)模型。

在实施中，电子设备可以获取第一初始模型。然后，电子设备可以基于第一样本图像集对第一初始模型进行训练，当达到第一停止训练条件时，电子设备可以将当前的第一初始模型作为第二初始模型。后续会对第一初始模型的具体训练过程进行详细说明。

电子设备可以通过多种方式获取第一初始模型。例如，电子设备可以从本地获取预先存储的第一初始模型。或者，电子设备可以接收获取指令，按照获取指令指示的存储地址获取第一初始模型。

可选的，第一停止训练条件可以是多种多样的，例如，第一停止训练条件可以是第一初始模型的预设损失函数的函数值达到第一预设阈值；第一停止训练条件也可以是已输入卡通图像的数量达到预设数量阈值。第一停止训练条件还可以是当前的第一初始模型的图像转换效果达到预期图像转换效果。图像转换效果指的是对图像转换得到的生成卡通图像进行人工评价，得到的评价结果。

本申请实施例中，U-GAT-IT模型以端到端的方式引入注意力模块和AdaLIN(Adaptive Layer-Instance Normalization，自适应层实例标准化)函数，可以无监督的实现图像转换。由于采用注意力模块计算表示图像中各区域的注意力权重的注意力特征图，因此，便于U-GAT-IT模型基于注意力特征图区分源域和目标域，辅助U-GAT-IT模型分辨图像转换过程中的各区域。同时，通过设置AdaLIN函数中的网络参数，可以帮助注意力模块灵活的控制形状变化和纹理变化。

因此，相比于采用其他模型作为第一初始模型，采用U-GAT-IT模型作为第一初始模型并进行训练，能够提高转换后的卡通图像与真人图像的相似度，图像转换效果更好。

步骤103、将属于第一分类类别的真人图像集输入至第二初始模型中，得到属于第一分类类别的第一生成卡通图像集。

在实施中，电子设备可以获取属于第一分类类别的真人图像集，真人图像集中每张真人图像的分类类别为第一分类类别。电子设备获取属于第一分类类别的真人图像集的过程，与上述电子设备获取真人图像的过程类似，此处不再赘述。

然后，电子设备可以分别将真人图像集中的每张真人图像输入至第二初始模型中，得到与该张真人图像对应的卡通图像。即，属于第一分类类别的卡通图像。为了便于区分，将该卡通图像称为第一生成卡通图像。由此，电子设备可以得到属于第一分类类别的第一生成卡通图像集。

之后，电子设备可以确定第一生成卡通图像集与第一样本图像集的集合，将该集合作为第二样本图像集。

步骤104、基于第二样本图像集训练第一初始模型，直至达到第二停止训练条件，得到图像转换模型。

在实施中，电子设备可以基于第二样本图像集对第一初始模型进行训练，直至达到第二停止训练条件，得到图像转换模型。后续会对第一初始模型的具体训练过程进行详细说明。

可选的，第二停止训练条件可以是多种多样的，例如，第二停止训练条件可以是第一初始模型的预设损失函数的函数值达到第二预设阈值。第二停止训练条件可以是已输入真人图像的数目达到预设数量阈值，和/或，已输入卡通图像的数目达到预设数量阈值。第二停止训练条件也可以是将第二样本图像集包含的全部真人图像和全部卡通图像都输入至第一初始模型中。第二停止训练条件还可以是当前的第一初始模型的图像转换效果达到预期图像转换效果。第二停止训练条件可以与第一停止训练条件相同，也可以不同，本申请实施例不作具体限定。

本申请实施例中，电子设备可以获取第一样本图像集，再基于第一样本图像集训练第一初始模型，直至达到第一停止训练条件，得到第二初始模型。然后，电子设备可以将属于第一分类类别的真人图像集输入至第二初始模型中，得到属于第一分类类别的第一生成卡通图像集，再将第一生成卡通图像集与第一样本图像集的集合作为第二样本图像集。之后，电子设备可以基于第二样本图像集训练第一初始模型，直至达到第二停止训练条件，得到图像转换模型。

因此，采用第二样本图像集对第一初始模型进行训练，可以使得训练得到的图像转换模型在图像转换过程中，控制所转换真人图像的形状变化和纹理变化，进而实现将所转换真人图像包含的真实人物的图像特征，转换为对应的卡通图像特征。由此，可以提高转换后的卡通图像与真人图像相似度，实现千人前面的图像转换效果。

此外，采用本申请实施例提供的技术方案，可以在各分类类别的卡通图像的数量差异较大时，针对数量较少的分类类别，通过图像转换的方式获取该分类类别的卡通图像，从而增加该分类类别的卡通图像的数量。进一步的，将获取到的卡通图像作为第二样本图像集的组成部分，再基于第二样本图像集训练第一初始模型，可以提高训练得到的图像转换模型的图像转换效果。

可选的，开发人员研究发现，训练所使用的各卡通图像之间存在卡通风格不一致的问题时，训练得到的图像转换模型难以收敛。而且，图像转换模型的图像转换效果不稳定，即，转换出多个图像的卡通风格不一致。因此，应确保第二样本图像集包含的多个卡通图像的卡通风格一致。

基于此，在得到第一生成卡通图像集后，电子设备可以通过多种方式确定第一生成卡通图像集和第一样本图像集的集合，并将该集合作为第二样本图像集。下面针对第一样本图像集中属于第一分类类别的卡通图像的卡通风格，与属于第二分类类别的卡通图像的卡通风格是否一致这两种情况，对第二样本图像集的生成过程进行说明。

为了便于描述，将第一样本图像集中属于第一分类类别的卡通图像的卡通风格，与属于第二分类类别的卡通图像的卡通风格一致的情况，称为一致情况；将第一样本图像集中属于第一分类类别的卡通图像的卡通风格，与属于第二分类类别的卡通图像的卡通风格不一致的情况，称为非一致情况。

在一致情况下，由于第二初始模型是基于第一样本图像集训练得到的，因此，第二初始模型在进行图像转换时可以生成具有同一卡通风格的第一生成卡通图像。由此，电子设备可以确定第一生成卡通图像集包含的全部图像、第一样本图像集包含的全部图像的集合，再将确定出的集合作为第二样本图像集。

在非一致情况下，第二初始模型在进行图像转换时可能生成具有不同卡通风格的第一生成卡通图像，由此，电子设备可以在第一生成卡通图像集中确定目标生成卡通图像。其中，目标生成卡通图像的卡通风格与属于第二分类类别的卡通图像的卡通风格一致。为进一步提高训练效果，目标生成卡通图像可以为卡通风格与属于第二分类类别的卡通图像的卡通风格一致、高清的图像。

然后，电子设备可以确定目标生成卡通图像、第一样本图像集中的多个真人图像和属于第二分类类别的卡通图像的集合，再将确定出的集合作为第二样本图像集。

本申请实施例中，电子设备确定目标生成卡通图像的方式可以是多种多样的。例如，电子设备可以通过接收人工挑选指令的方式在第一生成卡通图像集中确定目标生成卡通图像。或者，电子设备可以通过图像打分算法在第一生成卡通图像集中确定目标生成卡通图像。图像打分算法可以是任一具有图像打分功能的算法，例如，图像打分算法可以是FID(Frechet Inception Distance，弗雷歇初始距离)算法，本申请实施例在此不作具体限定。

进一步的，在确保第二样本图像集所包含多个卡通图像的卡通风格一致的情况下，还可以实现第二样本图像集中各分类类别的卡通图像的数量均衡。由此，能够提高对于卡通图像数量较少的分类类别的训练效果，从而进一步提高图像转换模型的图像转换效果。

在非一致情况下，电子设备可以在第一生成卡通图像集中确定第二数量的目标生成卡通图像。然后，电子设备可以将第二数量的目标生成卡通图像、第一样本图像集中的多个真人图像和第二数量的属于第二分类类别的卡通图像的集合，作为第二样本图像集。

以第一分类类别为男性、第二分类类别为女性，第一数量为200、第二数量为1000为例，在属于女性的卡通图像的卡通风格，与属于男性的卡通图像的卡通风格不一致的情况下，电子设备可以在第一生成卡通图像集中，确定1000张与女性的卡通图像的卡通风格一致的图像，作为目标生成卡通图像。然后，电子设备可以将1000张属于男性的目标生成卡通图像、第一样本图像集中的多个真人图像和1000张属于女性的卡通图像的集合，作为第二样本图像集。

由此，不仅可以确保第二样本图像集中多个卡通图像的卡通风格一致，而且可以实现第二样本图像集中属于各分类类别的卡通图像的数量均衡。

在一致情况下，电子设备可以计算第二数量与第一数量的差，得到第三数量。然后，电子设备可以在第一生成卡通图像集中确定第三数量的目标生成卡通图像。之后，电子设备可以将第三数量的目标生成卡通图像和第一样本图像集的集合作为第二样本图像集。

仍以第一分类类别为男性、第二分类类别为女性，第一数量为200、第二数量为1000为例，在属于女性的卡通图像的卡通风格，与属于男性的卡通图像的卡通风格一致的情况下，电子设备可以计算第二数量与第一数量的差，得到第三数量800。然后，电子设备可以在第一生成卡通图像集中，确定800张与女性的卡通图像的卡通风格一致的图像，作为目标生成卡通图像。然后，电子设备可以将800张属于男性的目标生成卡通图像、第一样本图像集中的多个真人图像、200张属于男性的卡通图像、1000张属于女性的卡通图像的集合，作为第二样本图像集。

本申请实施例中，一方面，通过实现第二样本图像集中属于各分类类别的卡通图像的数量均衡，能够提高对于卡通图像数量较少的分类类别的训练效果，从而进一步提高图像转换模型的图像转换效果。另一方面，通过保持第二样本图像集中各分类类别的卡通图像的卡通风格一致，可以使得训练得到的图像转换模型转换出相同卡通风格的图像，图像转换的稳定性高。

可选的，第一数量与第二数量的比值为预设比值。例如，预设比值可以为800：3000。

开发人员研究发现，如果第一数量与第二数量的比值小于预设比值，则第一样本图像集包含的目标图像特征少，会影响训练效果，导致第二初始模型进行图像转换时的图像转换效果差。其中，目标图像特征为属于第一分类类别的卡通图像所包含卡通人物的图像特征。在非一致情况下，如果第一数量与第二数量的比值大于预设比值，则卡通风格不一致的卡通图像数量过多，会影响训练效果，导致第二初始模型转换出的第一生成卡通图像的卡通风格不稳定。

由此，第一数量与第二数量的比值为预设比值，可以确保第二初始模型图像转换效果的稳定性、所转换出卡通图像的卡通风格的稳定性。

可选的，在卡通图像存在至少三种分类类别的情况下，电子设备还可以通过增加卡通图像的分类类别的方式生成第二样本图像集，处理过程包括：将属于第三分类类别的真人图像集输入至第二初始模型中，得到属于第三分类类别的第二生成卡通图像集。确定第一生成卡通图像集、第二生成卡通图像集与第一样本图像集的集合，得到第二样本图像集。

在实施中，电子设备可以获取属于第三分类类别的真人图像集，然后，电子设备可以将真人图像集中属于第三分类类别的每张真人图像输入至第二初始模型中，得到与该张真人图像对应的卡通图像。即，属于第三分类类别的卡通图像。为了便于区分，将该卡通图像称为第二生成卡通图像。由此，电子设备可以得到属于第三分类类别的第二生成卡通图像集。

之后，电子设备可以确定第一生成卡通图像集、第二生成卡通图像集与第一样本图像集的集合，得到第二样本图像集。具体确定过程与上述确定第一生成卡通图像集与第一样本图像集的集合的过程类似，此处不再赘述。

以第一分类类别为男性，第二分类类别为女性，第三分类类别为儿童为例，电子设备可以获取属于儿童的真人图像集，将属于儿童的真人图像集输入至第二初始模型中，得到属于儿童的第二生成卡通图像集。然后，电子设备确定第一生成卡通图像集、第二生成卡通图像集与第一样本图像集的集合，得到第二样本图像集。第二样本图像集包括多张真人图像、属于男性的卡通图像、属于女性的卡通图像和属于儿童的卡通图像。

本申请实施例中，采用第二初始模型对属于第三分类类别的真人图像集进行图像转换，得到属于第三分类类别的第二生成卡通图像集，可以确保第二生成卡通图像集的卡通风格与原有卡通图像的卡通风格一致。进一步的，将第一生成卡通图像集、第二生成卡通图像集与第一样本图像集的集合，作为第二样本图像集，可以丰富第二样本图像集包含的卡通人物的图像特征。由此，可以提高基于第二样本图像集进行训练得到的图像转换模型的图像转换效果。

可选的，为确保第二样本图像集中各分类类别的卡通图像的数量均衡，电子设备可以从第二生成卡通图像集中确定第二数量个目标生成卡通图像，将确定出的第二数量个目标生成卡通图像作为第二样本图像集的组成部分。

以第一分类类别为男性，第二分类类别为女性为例，本申请实施例提供了一种第二样本图像集的生成过程的示例，包括：

第一样本图像集可以包括：从selfie2anime(自拍转动漫)数据集中采集到的3400张女性的卡通图像和男性的卡通图像。男性的卡通图像可以通过从iCartoonFace(爱卡通脸)数据集中筛选900张男性的卡通图像得到；和/或，可以从动漫网站中爬取2000张男性的卡通图像，再通过人工挑选的方式确定出800张男性的卡通图像。

基于第一样本图像集对第一初始模型进行训练，在训练过程中，分别利用当前的第一初始模型对真人图像进行图像转换，得到生成的卡通图像。然后，由开发人员基于生成的卡通图像评价第一初始模型的图像转换效果。当图像转换效果达到预期图像转换效果时，电子设备可以将当前的第一初始模型作为第二初始模型。

电子设备可以获取包含多个男性的真人图像的真人图像集，再分别将真人图像集包含的真人图像输入至第二初始模型中，得到第一生成卡通图像集。然后，开发人员可以从第一生成卡通图像集中挑选图像转换效果好的目标生成卡通图像，从而得到数量足够、且与女性卡通图像的卡通风格一致的男性卡通图像。之后，电子设备可以将挑选出的目标生成卡通图像和第一样本图像集的集合作为第二样本图像集。基于此，能够解决难以收集卡通风格一致的男性卡通图像的问题。

除上述通过增加卡通图像的方式生成第二样本图像集外，电子设备还可以通过增加真人图像的方式生成第二样本图像集。在基于第一样本图像集生成第二样本图像集时，电子设备可以采用增加真人图像、增加卡通图像等方式中的任一种方式或同时采用多种方式，本申请实施例对此不作具体限定。

第一样本图像集包含的多个真人图像可以属于不同的分类类别，属于同一分类类别的真人图像包含相同的人物特征。真人图像的分类类别可以是黄种人、白种人、男人、女人、老人、小孩、戴眼镜和戴帽子等。例如，多个真人图像的分类类别为N个，N为正整数。

基于此，电子设备可以通过多种方式增加真人图像。在一种可行的实现方式中，电子设备可以增加真人图像的分类类别，使得第二样本图像集中真人图像的分类类别达到M个，M大于N。为了便于区分，将第一样本图像集中的N个分类类别称为已有分类类别，将M个分类类别中除N个分类类别以外的分类类别，称为新增分类类别。在另一种可行的实现方式中，电子设备可以增加已有分类类别的真人图像的数量。

可选的，本申请实施例提供了一种增加真人图像的分类类别的实现方式，处理过程包括：

步骤1、在接收到真人图像生成请求的情况下，确定真人图像生成请求指示的目标人物特征。

其中，目标人物特征为新增分类类别的真人图像所包含的人物特征。目标人物特征可以为单个人物特征，例如，目标人物特征可以是戴眼镜或戴帽子。目标人物特征也可以是多个人物特征的组合，例如，目标人物特征可以是女性、戴眼镜，或者，目标人物特征可以是女性、戴眼镜和戴帽子。

在实施中，开发人员可以执行预设操作，以向电子设备发送真人图像生成请求。预设操作可以是在预设控制页面，点击表示生成真人图像的命令图标。预设操作也可以是输入表示生成真人图像的命令代码。

真人图像生成请求可以携带有目标人物特征的标识，在接收到真人图像生成请求后，电子设备可以根据真人图像生成请求携带的标识，确定目标人物特征。

本申请实施例中，在新增分类类别的数量为多个的情况下，电子设备可以接收到多个真人图像生成请求，每个真人图像生成请求可以指示1个新增分类类别、该新增分类类别对应的目标人物特征。或者，电子设备可以接收到1个真人图像生成请求，该真人图像生成请求可以指示有多个新增分类类别、每个新增分类类别对应的目标人物特征。

步骤2、在具有对应关系的人物特征与人脸生成网络模型中，查找与目标人物特征对应的人脸生成网络模型。

在实施中，电子设备中可以预先存储有人物特征与人脸生成网络模型的对应关系，电子设备可以在该对应关系中，查找与目标人物对应的人脸生成网络模型。

本申请实施例中，可以预先设置有多个人脸生成网络模型，每个人脸生成网络模型用于生成包含一种人物特征的真人图像，或，包含多种人物特征的真人图像。例如，人脸生成网络模型A用于生成包含戴眼镜这一人物特征的真人图像，人脸生成网络模型B用于生成包含长发、大眼睛这两种人物特征的真人图像。

用于生成包含某一种人物特征或多种人物特征的真人图像的人脸生成网络模型，可以是基于多个包含相应人物特征的图像进行训练得到的。

人脸生成网络模型可以是任一具有人脸生成功能的网络模型。示例性的，人脸生成网络模型可以是GAN(Generative Adversarial Networks，基于样式的生成对抗网络)模型、Style-GAN(Style-Based Generator Architecture for Generative AdversarialNetworks，基于样式的生成对抗网络)。

与传统生成器相比，Style-GAN模型包含的生成器具有更好的插值属性、能够更好的处理隐式变量，因此，Style-GAN模型可以无监督的分割人脸姿势和身份等高级属性、以及分割雀斑和头发等随机变化，实现对所生成图像中特定尺度的属性的控制。由此，采用Style-GAN模型生成真人图像，不仅可以保证所生成真人图像的多样性，还可以保证所生成真人图像的真实性。

步骤3、基于查找到的人脸生成网络模型生成包含目标人物特征的真人图像，得到新增分类类别的真人图像。

在实施中，电子设备可以基于查找到的人脸生成网络模型生成包含目标人物特征的真人图像，即，生成新增分类类别的真人图像。电子设备基于人脸生成网络模型生成包含目标人物特征的真人图像的处理过程，可以参考相关技术中，基于人脸生成网络模型生成真人图像的处理过程，此处不再赘述。

步骤4、将新增分类类别的真人图像、第一生成卡通图像集与第一样本图像集的集合作为第二样本图像集。

在实施中，在生成新增分类类别的真人图像后，电子设备可以确定新增分类类别的真人图像、第一生成卡通图像集与第一样本图像集的集合，将该集合作为第二样本图像集。具体确定过程与上述确定第一生成卡通图像集与第一样本图像集的集合的过程类似，此处不再赘述。

进一步的，为确保第二样本图像集中各分类类别的真人图像的数量均衡，电子设备可以在新增分类类别的真人图像的数量达到预设数目阈值后，将新增分类类别的真人图像、第一生成卡通图像集与第一样本图像集的集合作为第二样本图像集。

本申请实施例中，由于生成新增分类类别的真人图像，并以新增分类类别的真人图像作为第二样本图像集的组成部分，因此，能够提高真人图像所包含人物特征的数据覆盖度，从而确保第二样本图像集所包含真实人物的图像特征的全面性。进一步的，能够提高基于第二样本图像集训练得到的图像转换模型的图像转换效果。

本申请实施例还提供了一种第二样本图像集的示例，其中，真人图像的分类类别包括5种，分别为黄种人、男人、老人、小孩、戴眼镜。真人图像的数量分布为：13000张黄种人的真人图像、4000张男人的真人图像、4000张老人的真人图像、3000张小孩的真人图像和2000张戴眼镜的真人图像。分类类别为黄种人的真人图像可以由电子设备从ffhq(Flickr-Faces-HQ，高质量人脸图像)数据集中读取。分类类别为男人、老人、小孩和戴眼镜的真人图像可以基于Style-GAN模型生成。由此，第二样本图像集不仅覆盖了各式各样的真人图像，还能够保持各分类类别真人图像之间的数量均衡。

可选的，本申请实施例提供了一种第一初始模型，第一初始模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器，第一生成器用于将卡通图像转换为真人图像，第二生成器用于将真人图像转换为卡通图像，第一鉴别器用于对输入的图像为第一生成器生成的卡通图像或真实的卡通图像进行分类，第二鉴别器用于对输入的图像为第二生成器生成的真人图像或真实的真人图像进行分类。

下面将对基于第二样本图像集，对上述第一初始模型进行训练的训练过程进行说明，包括：

分别将每个真人图像输入至第一生成器中，得到该真人图像对应的第三生成卡通图像，并将第三生成卡通图像输入至第二生成器中，得到该第三生成卡通图像对应的第一生成真人图像。

分别将每个卡通图像输入至第二生成器中，得到该卡通图像对应的第二生成真人图像，并将第二生成真人图像输入至第一生成器中，得到该第二生成真人图像对应的第四生成卡通图像。

通过第一鉴别器分别对第三生成卡通图像、第四生成卡通图像是否为生成的卡通图像进行分类，并通过第二鉴别器分别对第一生成真人图像、第二生成真人图像是否为生成的真人图像进行分类。

基于真人图像、第一生成真人图像、卡通图像、第四生成卡通图像、第一鉴别器的分类结果和第二鉴别器的分类结果，调整第一初始模型的模型参数，直至达到第二停止训练条件，得到图像转换模型。

通过不断的调整第一初始模型的模型参数，可以达到无法识别出第一生成真人图像和真人图像、第四生成卡通图像和卡通图像的效果。由此，通过实现真实人物的图像特征与卡通人物的图像特征之间的相互转换，能够建立真实人物的图像特征与卡通人物的图像特征之间的映射关系。进一步的，图像转换模型可以基于该映射关系对真人图像进行图像转换得到卡通图像，卡通图像与真人图像的相似度高。

本申请实施例提供了一种基于第二样本图像集训练第一初始模型的示例，第二样本图像集中，真人图像包括对真实人物拍摄得到的真实人物图像和基于Style-GAN模型生成的真实人物图像；卡通图像包括女性卡通图像、采用上述步骤101～步骤104生成的男性卡通图像。

将U-GAT-IT模型作为第一初始模型，采用Adam(大规模分布式机器学习框架)对第一初始模型进行训练。训练参数设置如下：以0.5的概率水平翻转图像，将图像的像素尺寸大小调整为286*286，随机剪裁为256*256，批大小为4。

可选的，在训练得到图像转换模型后，可以采用图像转换模型对真人图像进行图像转换，也可以采用图像转换模型对卡通图像进行图像转换。

本申请实施例以采用图像转换模型对真人图像进行图像转换为例，对图像转换过程进行说明，包括：

步骤一、获取待转换的目标真人图像。

在实施中，电子设备可以将预先存储的某一真人图像，作为目标真人图像。或者，电子设备可以通过拍摄装置对处于预设拍摄区域中的人物进行拍摄，得到目标真人图像。

如图2a所示，为本申请实施例提供的一种真人图像的示意图。

步骤二、通过图像转换模型，计算目标真人图像的注意力特征图，并基于注意力特征图设置归一化网络层的网络参数，基于完成网络参数设置的归一化网络层对注意力特征图进行解码，得到与目标真人图像对应的卡通图像。

如图2b所示，为本申请实施例提供的一种卡通图像的示意图，该卡通图像是采用图像转换模型对图2a所示的真人图像进行图像转换得到的。

本申请实施例中，采用图像转换模型对真人图像进行图像转换，可以实现用户照片的隐私保护，能够广泛应用于动漫素材制作、用户体验提升等领域中。

基于相同的技术构思，本申请实施例还提供了一种图像转换模型的生成装置，如图3所示，该装置包括：

第一获取模块310，用于获取第一样本图像集，所述第一样本图像集包括多个真人图像和多个卡通图像，每个所述卡通图像的分类类别属于第一分类类别或第二分类类别，属于所述第一分类类别的卡通图像的第一数量少于属于所述第二分类类别的卡通图像的第二数量，属于所述第二分类类别的卡通图像的卡通风格一致；

第一训练模块320，用于基于所述第一样本图像集训练第一初始模型，直至达到第一停止训练条件，得到第二初始模型，所述第一初始模型用于计算图像的注意力特征图，并基于所述注意力特征图设置归一化网络层的网络参数，基于完成网络参数设置的归一化网络层对所述注意力特征图进行解码，得到转换后的图像；

第一输入模块330，用于将属于所述第一分类类别的真人图像集输入至所述第二初始模型中，得到属于所述第一分类类别的第一生成卡通图像集，以使所述第一生成卡通图像集与所述第一样本图像集的集合作为第二样本图像集；

第二训练模块340，用于基于所述第二样本图像集训练所述第一初始模型，直至达到第二停止训练条件，得到图像转换模型。

可选的，所述装置还包括：

可选的，所述第一数量与所述第二数量的比值为预设比值。

可选的，所述装置还包括：

第二获取模块，用于获取待转换的目标真人图像；

本申请实施例提供的该装置，由于第一初始模型通过计算注意力特征图以及设置归一化网络层的网络参数，能够在图像转换过程中控制图像的形状变化和纹理变化。并且，通过将第一生成卡通图像集与第一样本图像集的集合作为第二样本图像集，可以增加属于第一分类类别且卡通风格一致的卡通图像的数量，从而确保第二样本图像集包含更加全面的真实人物的图像特征、卡通人物的图像特征。

基于相同的技术构思，本申请实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

可选的，所述第二样本图像集的生成方式包括：

可选的，所述第一数量与所述第二数量的比值为预设比值。

获取待转换的目标真人图像；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一图像转换模型的生成方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一图像转换模型的生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像转换模型的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第二样本图像集的生成方式包括：

3.根据权利要求1所述的方法，其特征在于，所述第二样本图像集的生成方式包括：

4.根据权利要求1所述的方法，其特征在于，所述第一数量与所述第二数量的比值为预设比值。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本图像集训练第一初始模型，直至达到第一停止训练条件，得到第二初始模型之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二样本图像集训练所述第一初始模型，直至达到第二停止训练条件，得到图像转换模型之后，还包括：

获取待转换的目标真人图像；

7.一种图像转换模型的生成装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

确定模块，用于在属于所述第一分类类别的卡通图像的卡通风格，与属于所述第二分类类别的卡通图像的卡通风格不一致的情况下，在所述第一生成卡通图像集中确定所述第二数量的目标生成卡通图像，所述目标生成卡通图像的卡通风格与属于所述第二分类类别的卡通图像的卡通风格一致；

生成模块，用于将所述目标生成卡通图像、所述第一样本图像集中的所述多个真人图像和属于所述第二分类类别的卡通图像的集合，作为所述第二样本图像集。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一所述的方法步骤。