CN113838159B

CN113838159B - 用于生成卡通图像的方法、计算设备和存储介质

Info

Publication number: CN113838159B
Application number: CN202111076749.0A
Authority: CN
Inventors: 刘思远; 甘启; 章子维; 张良国
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-08-04
Anticipated expiration: 2041-09-14
Also published as: CN113838159A

Abstract

本公开提供了一种生成卡通图像方法、计算设备和计算机可读存储介质。该方法包括：获取关于目标对象的目标对象图像和关于卡通对象的卡通图像；基于目标区域的属性信息，针对目标对象图像和卡通图像进行分类；确定具有相同的属性信息的目标对象输入图像和卡通输入图像；经由第一生成器，将目标对象输入图像转化为卡通转化图像以便生成目标对象重建图像；经由第二生成器，将卡通输入图像转化为目标对象转化图像以便生成卡通重建图像；以及经由第一判别器和第二判别器，分别确定目标对象重建图像和卡通重建图像的真伪，以用于训练第一神经网络模型。本公开能够显著提高用于人像转换的模型的学习效率、以及提升所生成卡通图像与人像原图的相似度。

Description

用于生成卡通图像的方法、计算设备和存储介质

技术领域

本发明概括而言涉及机器学习领域，更具体地，涉及一种用于生成卡通图像的方法、计算设备和计算机可读存储介质。

背景技术

随着各种社交平台的不断发展，越来越多的用户将自拍图像转换成具有卡通化人像效果的图像。传统的生成卡通图像的方案例如是利用人像原图和卡通图作为训练数据，对基于神经网络所构建的人像转换模型进行训练，以便生成卡通化人像图像。

在上述传统的生成卡通图像的方案中，通常随机选取人像原图和卡通图作为训练数据，采用无监督学习的训练方式，对人像转换模型进行训练。由于随机选取的人像原图和卡通图通常存在较大差异，一方面这种差异性引导会给网络的学习增加难度、降低模型的学习效果；另一方面显著降低了所生成的卡通图像与真人图像的相似度。

综上，传统的生成卡通图像的方案存在的不足之处在于：人像转换模型的网络学习难度较高、学习效率较低，并且所生成的卡通图像与人像原图的相似度较低。

发明内容

针对上述问题，本发明提供了一种用于生成卡通图像的方法、计算设备和计算机可读存储介质，能够显著提高用于人像转换的模型的学习效率、以及提升所生成卡通图像与人像原图的相似度。

根据本发明第一方面，提供了一种生成卡通图像方法。该方法包括：获取关于目标对象的目标对象图像和关于卡通对象的卡通图像；基于目标对象和卡通对象的目标区域的属性信息，针对目标对象图像和卡通图像进行分类，以用于生成目标对象输入图像和卡通输入图像；确定具有相同的属性信息的目标对象输入图像和卡通输入图像，以用于训练第一神经网络模型，第一神经网络模型包括第一生成器、第二生成器、第一判别器和第二判别器；经由第一生成器，将目标对象输入图像转化为卡通转化图像，以用于基于卡通转化图像生成目标对象重建图像；经由第二生成器，将卡通输入图像转化为目标对象转化图像，以用于基于目标对象转化图像生成卡通重建图像；以及经由第一判别器和第二判别器，分别确定目标对象转化图像和卡通转化图像的真伪，以用于训练第一神经网络模型，经训练的第一神经网络模型用于基于所获取的用户图像生成关于用户的卡通图像。

根据本发明的第二方面，提供了一种计算设备。该计算设备包括：至少一个处理器；以及至少一个存储器，该至少一个存储器被耦合到该至少一个处理器并且存储用于由该至少一个处理器执行的指令，该指令当由该至少一个处理器执行时，使得该计算设备执行根据本公开第一方面的方法。

根据本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序代码，该计算机程序代码在被运行时执行根据本公开第一方面的方法。

在一些实施例中，用于生成卡通图像还包括：交替地利用具有不同属性信息的多个输入图像组来训练第一神经网络模型，多个输入图像组中的每一个输入图像组中所包括的目标对象输入图像和卡通输入图像具有相同的属性信息。

在一些实施例中，基于卡通转化图像生成目标对象重建图像包括：将卡通转化图像输入第二生成器的编码器，以便生成第一编码；经由第二生成器的残差注意力模块，提取第一编码的特征；以及经由第二生成器的解码器，将所提取的第一编码的特征转化为目标对象重建图像。

在一些实施例中，基于目标对象转化图像生成卡通重建图像包括：将目标对象转化图像输入第一生成器的编码器，以便生成第二编码；经由第一生成器的残差注意力模块，提取第二编码的特征；以及经由第一生成器的解码器，将所提取的第二编码的特征转化为卡通重建图像。

在一些实施例中，经由第一判别器和第二判别器分别确定目标对象转化图像和卡通转化图像的真伪包括：经由第一判别器，提取目标对象重建图像和目标对象输入图像的特征，以便生成关于目标对象转化图像的真伪；以及经由第二判别器，提取卡通重建图像和卡通输入图像的特征，以便生成关于卡通转化图像的真伪。

在一些实施例中，基于目标对象和卡通对象的目标区域的属性信息，针对目标对象图像和卡通图像进行分类以用于生成目标对象输入图像和卡通输入图像包括：经由第二神经网络模型，提取目标对象图像的图像特征，以便识别目标对象的目标区域的第一位置信息，目标区域为脸部区域；基于第一位置信息，裁剪目标对象图像，以便生成目标对象输入图像，以用于基于目标对象输入图像确定目标对象的目标区域的第一属性信息；经由第三神经网络模型，提取卡通图像的图像特征，识别卡通对象的目标区域的第二位置信息；基于目标区域的第二位置信息，裁剪卡通图像，以便生成卡通输入图像，以用于基于卡通输入图像确定卡通对象的目标区域的第二属性信息；响应于确定第一属性信息和第二属性信息相匹配，基于第一属性信息或第二属性信息索引目标对象输入图像和卡通输入图像；以及基于经索引目标对象输入图像和卡通输入图像，分别生成目标对象图像空间和卡通图像空间。

在一些实施例中，生成卡通图像的方法还包括：基于第一属性信息，生成第一属性特征向量；融合第一属性特征向量和与第一属性信息相关联的目标对象输入图像，以便生成用于输入神经网络模型的目标对象输入数据；基于第二属性信息，生成第二属性特征向量，第一属性信息和第二属性信息相匹配；以及融合第二属性特征向量和与第二属性相关联的卡通输入图像，以便生成用于输入神经网络模型的卡通输入数据。

在一些实施例中，目标区域为目标对象和卡通对象的脸部区域，目标区域的属性信息包括关于目标区域的发型的属性信息、关于眼镜的属性信息以及关于表情的属性信息。

附图说明

通过参考下列附图所给出的本发明的具体实施方式的描述，将更好地理解本发明，并且本发明的其他目的、细节、特点和优点将变得更加显而易见。

图1示出了用于实现根据本发明的实施例的生成卡通图像方法的系统的示意图。

图2示出了根据本公开的实施例的用于生成卡通图像的方法的流程图。

图3示出了根据本发明实施例的第一神经网络模型的部分网络结构示意图。

图4示出了根据本发明实施例的第一神经网络模型的部分网络结构示意图。

图5示出了根据本发明实施例的第一神经网络模型的第一生成器的网络结构示意图。

图6示出了根据本发明实施例的第一神经网络模型的第二判别器的网络结构示意图。

图7示出了根据本发明一些实施例的生成目标对象输入图像和卡通输入图像的方法的流程图。

图8示出了根据本公开的实施例的用于生成目标对象输入数据和卡通输入数据的方法的流程图。

图9示出了适合实现本发明的实施例的计算设备的结构方框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整的传达给本领域的技术人员。

在下文的描述中，出于说明各种发明的实施例的目的阐述了某些具体细节以提供对各种发明实施例的透彻理解。但是，相关领域技术人员将认识到可在无这些具体细节中的一个或多个细节的情况来实践实施例。在其它情形下，与本申请相关联的熟知的装置、结构和技术可能并未详细地示出或描述从而避免不必要地混淆实施例的描述。

除非语境有其它需要，在整个说明书和权利要求中，词语“包括”和其变型，诸如“包含”和“具有”应被理解为开放的、包含的含义，即应解释为“包括，但不限于”。

在整个说明书中对“一个实施例”或“一些实施例”的提及表示结合实施例所描述的特定特点、结构或特征包括于至少一个实施例中。因此，在整个说明书的各个位置“在一个实施例中”或“在一些实施例”中的出现不一定全都指相同实施例。另外，特定特点、结构或特征可在一个或多个实施例中以任何方式组合。

此外，说明书和权利要求中所用的第一、第二等术语，仅仅出于描述清楚起见来区分各个对象，而并不限定其所描述的对象的大小或其他顺序等。

如前文描述，传统的生成卡通图像的方案中，通常随机选取人像原图和卡通图作为训练数据，采用无监督学习的训练方式，对人像转换模型进行训练。例如，如若训练一个人像转化模型时，需要获取许多人像原图和卡通图像作为训练数据输入人像转化模型。当模型的输入的人像原图为一张短发、无眼镜、微笑的女性人像原图时，而学习的目标图像为一张长发、戴眼镜、难过的女性卡通图像时，一方面这会使得网络的学习增加难度，降低模型的学习效率与效果；另一方面也会使得卡通化后的图像和真人图像的偏差较大，严重降低了与真人的相似度。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开提供了一种生成卡通图像方案。通过基于目标对象和卡通对象的目标区域的属性信息，针对所获取的关于目标对象的多个目标对象图像和关于卡通对象的多个卡通图像进行分类，以便生成目标对象输入图像间和卡通输入图像；以及确定具有相同属性的目标对象输入图像和卡通输入图像；本公开可以使得输入第一神经网络模型的输入的人像原图数据和卡通图像数据更具有关联性。此外，本公开经由第一神经网络模型的第一生成器将目标对象输入图像生成卡通转化图像以便进一步生成目标对象重建图像；经由神经网络模型的第二生成器将卡通输入图像转化至目标对象转化图像以便进一步生成科通重建图像；以及经由神经网络模型的第一判别器和第二判别器确定目标对象转化图像和卡通转化图像的真伪以用于训练神经网络模型。本公开可以使得在训练前对目标对象图像和卡通图像按照目标区域的属性进行分类，保证在学习过程中，待转化的目标对象输入图像和卡通输入图像具有相同的目标区域的属性信息，从而能够显著提高用于人像转换的模型的学习效率、以及提升所生成卡通图像与人像原图的相似度。

图1示出了用于实现根据本发明的实施例的生成卡通图像方法的系统100的示意图。如图1中所示，系统100包括用户终端110、计算设备120和网络140。用户终端110、计算设备120可以通过网络140进行数据交互。

关于用户终端110，其例如用于向计算设备120发送信息或者自计算设备120接收信息，所发送信息例如包括待卡通化的用户图像，所接收的信息例如包括，经转化的卡通图像。用户终端110可以是移动终端或固定终端，如手机、平板电脑、台式机等。用户终端110例如可以通过其上安装的社交平台应用程序与社交平台的计算设备120进行数据交互。

计算设备120，其例如用于将所获取的用户图像转换为关于用户的卡通图像。具体而言，计算设备120可以获取关于目标对象的多个目标对象图像和关于卡通对象的多个卡通图像；针对目标对象图像和卡通图像进行分类；以及确定具有相同的属性信息的目标对象输入图像和卡通输入图像，以用于训练第一神经网络模型。计算设备120还可以经由第一神经网络模型的第一生成器和第二生成器生成卡通转化图像和目标对象转化图像；以及经由神经网络模型的第一判别器和第二判别器，分别确定目标对象转化图像和卡通转化图像的真伪，以用于训练第一神经网络模型。计算设备120可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。计算设备120例如至少包括：目标对象图像和卡通图像获取单元122、目标区域的属性分类单元124、目标对象输入图像和卡通输入图像生成单元126、卡通转化图像生成单元128、目标对象转化图像生成单元130、卡通转化图像和目标对象转化图像真伪确定单元132。

关于目标对象图像和卡通图像获取单元122，其用于获取关于目标对象的目标对象图像和关于卡通对象的卡通图像。

关于目标区域的属性分类单元124，其用于基于目标对象和卡通对象的目标区域的属性信息，针对目标对象图像和卡通图像进行分类，以用于生成目标对象输入图像和卡通输入图像。

关于目标对象输入图像和卡通输入图像生成单元126，其用于确定具有相同的属性信息的目标对象输入图像和卡通输入图像，以用于训练第一神经网络模型，第一神经网络模型包括第一生成器、第二生成器、第一判别器和第二判别器。

关于卡通转化图像生成单元128，其用于经由第一生成器，将目标对象输入图像转化为卡通转化图像，以用于基于卡通转化图像生成目标对象重建图像。

关于目标对象转化图像生成单元130，其用于经由第二生成器，将卡通输入图像转化为目标对象转化图像，以用于基于目标对象转化图像生成卡通重建图像。

关于卡通转化图像和目标对象转化图像真伪确定单元132，其用于经由第一判别器和第二判别器，分别确定目标对象转化图像和卡通转化图像的真伪，以用于训练第一神经网络模型，经训练的第一神经网络模型用于基于所获取的用户图像生成关于用户的卡通图像。

以下将结合图2描述根据本公开的实施例的用于生成卡通图像的方法200。图2示出了根据本公开的实施例的用于生成卡通图像的方法200的流程图。应当理解，方法200例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备120处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤202处，计算设备120获取关于目标对象的目标对象图像和关于卡通对象的卡通图像。目标对象图像例如是人像原图。卡通对象的卡通图像例如是指示卡通人物的卡通图像。目标对象图像和卡通图像例如来自用户终端110。

在步骤204处，计算设备120基于目标对象和卡通对象的目标区域的属性信息，针对目标对象图像和卡通图像进行分类，以用于生成目标对象输入图像和卡通输入图像。

关于针对目标对象图像和卡通图像进行分类的方法例如包括：经由第二神经网络模型，提取目标对象图像的图像特征，以便识别目标对象的目标区域的第一位置信息，目标区域为脸部区域；基于第一位置信息，裁剪目标对象图像，以便生成目标对象输入图像，以用于基于目标对象输入图像确定目标对象的目标区域的第一属性信息；经由第三神经网络模型，提取卡通图像的图像特征，识别卡通对象的目标区域的第二位置信息；基于目标区域的第二位置信息，裁剪卡通图像，以便生成卡通输入图像，以用于基于卡通输入图像确定卡通对象的目标区域的第二属性信息；响应于确定第一属性信息和第二属性信息相匹配，基于第一属性信息或第二属性信息索引目标对象输入图像和卡通输入图像；以及基于经索引目标对象输入图像和卡通输入图像，分别生成目标对象图像空间和卡通图像空间。关于上述生成目标对象输入图像和卡通输入图像的方法，下文将结合图7进行说明，在此不再赘述。

关于第二神经网络，其用于确定目标对象图像中目标区域(例如脸部区域)在目标对象图像中的位置信息。第二神经网络例如而不限于是基于RetinaFace模型而构建的。

关于第三神经网络模型，其用于确定卡通图像中卡通对象的目标区域(例如人脸区域)在卡通图像中的位置信息。第三神经网络模型例如而不限于是基于lbpcascade_animeface模型而构建的。

关于目标区域的属性信息例如包括关于目标区域的发型的属性信息、关于眼镜的属性信息以及关于表情的属性信息。

在步骤206处，计算设备120确定具有相同的属性信息的目标对象输入图像和卡通输入图像，以用于训练第一神经网络模型，第一神经网络模型包括第一生成器、第二生成器、第一判别器和第二判别器。

关于第一神经网络，其用于将所获取的用户图像转化为关于用户的卡通图像。图3示出了根据本发明实施例的第一神经网络模型的部分网络结构300的示意图。图4示出了根据本发明实施例的第一神经网络模型的部分网络结构400的示意图。如图3和图4所示，第一神经网络例如是基于循环生成对抗网络所构建。第一神经网络模型包括第一生成器、第二生成器、第一判别器和第二判别器。

图5示出了根据本发明实施例的第一神经网络模型的第一生成器500的网络结构示意图。如图5所示，第一生成器例如包括编码器510、残差注意力模块520和解码器540。编码器510用于将输入图像转化为编码。残差注意力模块520用于提取编码器510所转化的编码的特征。解码器540用于基于所提取的特征生成转化图像。残差注意力模块520例如包括多个残差注意力单元，例如第n-1残差注意力单元522、第n残差注意力单元524、和第n+1残差注意力单元526。在一些实施例中，残差注意力模块520例如包括9个残差注意力单元(n＝9)。以第n残差注意力单元524为例，其例如包括多个卷积层(例如标记530所指示)、通道注意力模块532、空间注意力模块534。

第一神经网络模型包括从目标对象空间(记为X)中的目标对象输入图像转化至卡通对象空间(记为Y)中的卡通转化图像，再转化至目标对象空间(记为X)的目标对象重建图像的第一图像转化过程(记为X-Y-X转化过程)；以及从卡通对象空间(记为Y)的卡通输入图像转化至目标对象空间(记为X)中的目标对象转化图像，再转化至卡通对象空间(记为Y)的卡通重建图像的第二图像转化过程(记为Y-X-Y转化过程)。

对于第一图像转化过程(即，X-Y-X转化过程)，配置有重建损失函数loss_recon和对抗损失函数loss_adv_g和loss_adv_d。重建损失函数loss_recon用于更新第一生成器(例如标识为GeneratorX2Y)和第二生成器(例如标识为GeneratorY2X)中的参数。第一判别器(例如标识为DiscriminatorX)则通过对抗损失函数loss_adv_d来更新参数。同理，第二图像转化过程(即，Y-X-Y转化过程)也是一个类似的训练过程。以下结合公式(1)说明第一图像转化过程的重建损失函数loss_recon的计算方式。

loss_recon＝||X-G_Y2X(G_X2Y(X))||₁＝||X-X′|₁ (1)

在上述公式(1)中，loss_recon代表重建损失函数。X代表目标对象输入图像数据，X’代表目标对象重建图像数据。G_Y2X(G_X2Y(X))＝X’。G_X2Y(X)代表利用第一生成器转化目标对象输入图像后所生成的图像数据。G_Y2X(G_X2Y(X))代表利用第二生成器转化G_X2Y(X)所生成的图像数据。

以下结合公式(2)和(3)说明重建对抗损失函数loss_adv_g和loss_adv_d的计算方式。

loss_adv_d＝max(|D_Y(Y)|₂+|1-D_Y(G_X2Y(X))|₂) (2)

loss_adv_g＝min(|1-D_Y(G_X2Y(X))|₂) (3)

在上述公式(2)和(3)中，loss_adv_g和loss_adv_d代表重建对抗损失函数。G_X2Y(X)代表利用第一生成器转化目标对象输入图像后所生成的图像数据。X代表目标对象输入图像数据。D_Y(G_X2Y(X))代表经由第二判别器生成关于G_X2Y(X)所生成的图像数据的真伪的判别结果。D_Y(Y)代表经由第二判别器生成关于卡通输入图像的真伪的判别结果。为了保证生成的关于用户的卡通图像和所获取的用户图像具有相似的颜色分布，本公开还采用了身份损失函数loss_identity。以下结合公式(4)说明身份损失函数loss_identity的计算方式。

loss_identity＝||Y-G_X2Y(Y)|₁ (4)

在上述公式(4)中，loss_identity代表身份损失函数。G_X2Y(Y)代表利用第一生成器转化卡通输入图像后所生成的图像数据。Y代表卡通输入图像数据。

对于第二图像转化过程(即，Y-X-Y转化过程)，类似的也配置有重建损失函数loss_recon和对抗损失函数loss_adv_g和loss_adv_d。以下结合公式(5)说明第二图像转化过程的重建损失函数loss_recon的计算方式。

loss_recon＝|Y-G_X2Y(GY_2X(X))|₁＝|Y-Y′|₁ (5)

在上述公式(5)中，loss_recon代表第二图像转化过程的重建损失函数。Y代表卡通输入图像数据，Y’代表卡通重建图像数据。G_X2Y(G_Y2X(X))＝Y’。G_Y2X(X)代表利用第二生成器转化目标对象输入图像后所生成的图像数据。G_X2Y(G_Y2X(X))代表利用第一生成器转化G_Y2X(X)所生成的图像数据。

以下结合公式(6)和(7)说明第二图像转化过程的重建对抗损失函数loss_adv的计算方式。

loss_adv_d＝max(||D_X(X)|₂+|1-D_X(G_Y2X(Y))||₂) (6)

loss_adv_g＝min(|1-D_X(G_Y2X(Y))|₂) (7)

在上述公式(6)和(7)中，loss_adv_g和loss_adv_d代表第二图像转化过程的重建对抗损失函数。G_Y2X(Y)代表利用第二生成器转化卡通输入图像后所生成的图像数据。D_X(G_Y2X(Y))代表经由第一判别器生成关于G_Y2X(Y)所生成的图像数据的真伪的判别结果。D_X(X)代表经由第一判别器生成关于目标对象输入图像的真伪的判别结果。

为了保证生成的关于用户的卡通图像和输入用户图像具有相似的颜色分布，本公开还采用了身份损失函数loss_identity。以下结合公式(8)说明第二图像转化过程的身份损失函数loss_identity的计算方式。

loss_identity＝|X-G_Y2X(X)|₁ (8)

在上述公式(8)中，loss_identity代表身份损失函数。G_Y2X(X)代表利用第二生成器转化目标对象输入图像后所生成的图像数据。

在步骤208处，计算设备120经由第一生成器，将目标对象输入图像转化为卡通转化图像，以用于基于卡通转化图像生成目标对象重建图像。

如图3所示，将目标对象输入图像310输入第一生成器312，经由第一生成器312生成卡通转化图像314。例如，目标对象输入图像310经过一个编码器进行编码，之后经过残差注意力模块(例如为ResCBAM_blocks)进行特征提取，然后再通过一个解码器将提取到的特征转化为卡通转化图像314。

关于生成目标对象重建图像的方式例如包括：经由第二生成器，基于卡通转化图像而生成目标对象重建图像。例如，将卡通转化图像314再输入第二生成器322，经由第二生成器322生成目标对象重建图像320。

在步骤210处，计算设备120经由第二生成器，将卡通输入图像转化为目标对象转化图像，以用于基于目标对象转化图像生成卡通重建图像。如图4所示，将卡通输入图像410输入第二生成器322，经由第二生成器322生成目标对象转化图像414。例如，卡通输入图像410经过第二生成器322的编码器进行编码，之后经过残差注意力模块(例如为ResCBAM_blocks)进行特征提取，然后再通过第二生成器322的解码器将提取到的特征转化为目标对象转化图像。

关于生成目标对象重建图像的方式例如包括：经由第一生成器，基于目标对象转化图像而生成卡通重建图像。例如，将目标对象转化图像414再输入第一生成器312，经由第一生成器312生成卡通重建图像420。

在步骤212处，计算设备120经由第一判别器和第二判别器，分别确定目标对象转化图像和卡通转化图像的真伪，以用于训练第一神经网络模型，经训练的第一神经网络模型用于基于所获取的用户图像生成关于用户的卡通图像。

关于分别确定卡通转化图像和目标对象转化图像的真伪的方式，其例如包括：经由第一判别器，提取目标对象重建图像和目标对象输入图像的特征，以便生成关于目标对象转化图像的真伪；以及经由第二判别器，提取卡通重建图像和卡通输入图像的特征，以便生成关于卡通转化图像的真伪。例如，如图4所示，将目标对象转化图像414和目标对象输入图像430输入第一判别器330，经由第一判别器330生成关于目标对象转化图像414的真伪的判别结果。如图3所示，将卡通转化图像314和卡通输入图像330输入第二判别器332，经由第二判别器332生成关于卡通转化图像314的真伪的判别结果。

图6示出了根据本发明实施例的第一神经网络模型的第二判别器的网络结构示意图。关于第二判别器332，如图6所示，将经由图3中第一生成器312所生成的卡通转化图像314(例如Y’所指示)和真实的卡通输入图像330(例如Y所指示)输入到第二判别器332中，经过第二判别器332的五个卷积层(conv layer)后，输出关于卡通转化图像314的真伪的判别结果610，如果输入的图像为真实的卡通输入图像，则第二判别器332的判别结果610为“1”，如果输入的图像为卡通重建图像，则第二判别器332的判别结果610为“0”。

关于第一判别器330，其与上述第二判别器332的网络结构类似，所不同的是，第一判别器330的输入数据分别为经由图4中第二生成器322所生成的目标对象转化图像414和目标对象输入图像430。如果第一判别器330所输入的图像为真实的目标对象输入图像，则第一判别器330的判别结果为“1”，如果所输入的图像为目标对象重建图像，则第一判别器330的判别结果为“0”。

本公开提供了一种生成卡通图像方案。通过基于目标对象和卡通对象的目标区域的属性信息，针对所获取的关于目标对象的多个目标对象图像和关于卡通对象的多个卡通图像进行分类，以便生成目标对象输入图像间和卡通输入图像；以及确定具有相同属性的目标对象输入图像和卡通输入图像；本公开可以使得输入第一神经网络模型的输入的人像原图数据和卡通图像数据更具有关联性。此外，本公开经由第一神经网络模型的第一生成器将目标对象输入图像生成卡通转化图像以便进一步生成目标对象重建图像；经由神经网络模型的第二生成器将卡通输入图像转化至目标对象转化图像以便进一步生成卡通重建图像；以及经由神经网络模型的第一判别器和第二判别器确定目标对象转化图像和卡通转化图像的真伪以用于训练神经网络模型。本公开可以使得在训练前对目标对象图像和卡通图像按照目标区域的属性进行分类，保证在学习过程中，待转化的目标对象输入图像和卡通输入图像具有相同的目标区域的属性信息，从而能够显著提高用于人像转换的模型的学习效率、以及提升所生成卡通图像与人像原图的相似度。

在一些实施例中，方法200还包括：交替地利用具有不同属性信息的多个输入图像组来训练第一输入神经网络模型，多个输入图像组中的每一个输入图像组中所包括的目标对象输入图像和卡通输入图像具有相同的属性信。

例如以两种不同的目标区域的属性信息为例，一种是关于眼镜的属性信息，另一种是关于发型的属性信息。关于眼镜的属性信息例如是：“0”表示目标对象或者卡通对象不戴眼睛，“1”表示目标对象或者卡通对象戴眼睛。关于发型的属性信息例如是：“0”表示目标对象或者卡通对象的发型为短发，“1”表示目标对象或者卡通对象的发型为长发。例如第一组输入图像(其包括：第一目标对象输入图像和第一卡通输入图像)的目标区域的属性信息的数学表示为(10，10)，第二组输入图像(其包括：第二目标对象输入图像和第二卡通输入图像)的目标区域的属性信息的数学表示为(00，00)，该目标区域的属性信息指示第二目标对象输入图像的目标对象为不戴眼镜、并且发型为短发，同时，第二卡通输入图像的卡通对象也为不戴眼镜、并且发型为短发。第三组输入图像(其包括：第三目标对象输入图像和第三卡通输入图像)的目标区域的属性信息的数学表示为(11，11)，该目标区域的属性信息指示第三目标对象输入图像的目标对象为戴眼镜、并且发型为长发，同时，第三卡通输入图像的卡通对象也为戴眼镜、并且发型为长发。第四组输入图像(其包括：第四目标对象输入图像和第四卡通输入图像)的目标区域的属性信息的数学表示为(01，01)，该目标区域的属性信息指示第四目标对象输入图像的目标对象为不戴眼镜、并且发型为长发，同时，第四卡通输入图像的卡通对象也为不戴眼镜、并且发型为长发。通过重复选择以上多个输入图像组来输入第一神经网络模型以更新网络参数，即，通过交替地将具有不同的目标区域的属性信息的第一组输入图像、第二组输入图像、第三组输入图像、第四组输入图像输入第一神经网络模型进行训练。

通过采用上述手段，能够使得一个模型可自适应地实现不同属性的转化，提升了模型的表达能力和多样性。

图7示出了根据本发明一些实施例的生成目标对象输入图像和卡通输入图像的方法的流程图。应当理解，方法700例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备120处执行。应当理解，方法700还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤702处，计算设备120经由第二神经网络模型，提取目标对象图像的图像特征，以便识别目标对象的目标区域的第一位置信息，目标区域为脸部区域。

第二神经网络例如而不限于是基于RetinaFace模型而构建的。应当理解，第二神经网络也可以是其它经过人脸图像训练的目标检测算法。RetinaFace模型是基于RetinaNet网络结构，采用了特征金字塔的技术。经由RetinaFace模型所构建的第二神经网络模型，提取目标对象图像的人脸区域在图片中的位置。RetinaFace模型的网络结构例如包括特征金字塔网络(feature pyramid network，FPN)和上下文模块(context module)。

在步骤704处，计算设备120基于第一位置信息，裁剪目标对象图像，以便生成目标对象输入图像，以用于基于目标对象输入图像确定目标对象的目标区域的第一属性信息。

关于确定目标对象的目标区域的第二属性信息的方式可以包括多种，在一些实施例中，可以人为确定目标对象输入图像的脸部区域的第一属性信息。在一些实施例中，可以通过神经网络模型，例如RetinaFace模型来确定目标对象的目标区域的第以属性信息。

在步骤706处，计算设备120经由第三神经网络模型，提取卡通图像的图像特征，识别卡通对象的目标区域的第二位置信息。关于第三神经网络模型，其用于确定卡通图像中卡通对象的目标区域(例如人脸区域)在卡通图像中的位置信息。第三神经网络模型例如而不限于是基于lbpcascade_animeface模型而构建的。

在步骤708处，计算设备120基于目标区域的第二位置信息，裁剪卡通图像，以便生成卡通输入图像，以用于基于卡通输入图像确定卡通对象的目标区域的第二属性信息。

关于确定卡通对象的目标区域的第二属性信息的方式可以包括多种，在一些实施例中，可以认为确定卡通输入图像的卡通对象的目标区域的第二属性信息。在一些实施例中，可以通过现有的神经网络模型来确定卡通对象的目标区域的第二属性信息。

在步骤710处，计算设备120确定第一属性信息和第二属性信息是否相匹配。如果计算设备120确定第一属性信息和第二属性信息不相匹配，则跳转至步骤702。

在步骤712处，如果计算设备120确定第一属性信息和第二属性信息相匹配，基于第一属性信息或第二属性信息索引目标对象输入图像和卡通输入图像。

在步骤714处，计算设备120基于经索引目标对象输入图像和卡通输入图像，分别生成目标对象图像空间和卡通图像空间。

通过采用上述手段，能够准确并高效地形成属性信息相同的多组输入数据。

以下将结合图8描述根据本公开的实施例的用于生成目标对象输入数据和卡通输入数据的方法800。图8示出了根据本公开的实施例的用于生成目标对象输入数据和卡通输入数据的方法800的流程图。应当理解，方法800例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备120处执行。应当理解，方法800还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤802处，计算设备120基于第一属性信息，生成第一属性特征向量。

在步骤804处，计算设备120融合第一属性特征向量和与第一属性信息相关联的目标对象输入图像，以便生成用于输入神经网络模型的目标对象输入数据。

在步骤806处，计算设备120基于第二属性信息，生成第二属性特征向量，第一属性信息和第二属性信息相匹配。

在步骤808处，计算设备120融合第二属性特征向量和与第二属性相关联的卡通输入图像，以便生成用于输入神经网络模型的卡通输入数据。

通过采用上述手段，本公开不仅目标对象输入图像和卡通输入图像具有相同的目标区域的属性信息，即，图像内容中指示相同的属性信息，而且输入数据中也融合了相同的属性信息特征向量，因此，能够进一步提高用户人像图像与转换后的卡通图像的相似度。

图9示意性示出了适于用来实现本公开实施例的电子设备(或者计算设备)900的框图。设备900可以是用于实现执行图2、图7至8所示的方法200、700至800的设备。如图9所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机存取存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可存储设备900操作所需的各种程序和数据。CPU、ROM以及RAM通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906、输出单元907、存储单元908，中央处理单元901执行上文所描述的各个方法和处理，例如执行方法200、700至800。例如，在一些实施例中，方法200、700至800可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法200、700至800的一个或多个操作。备选地，在其他实施例中，CPU可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、700至800的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表1个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于生成卡通图像的方法，包括：

获取关于目标对象的目标对象图像和关于卡通对象的卡通图像；

基于目标对象和卡通对象的目标区域的属性信息，针对目标对象图像和卡通图像进行分类，以用于生成目标对象输入图像和卡通输入图像；

确定具有相同的属性信息的目标对象输入图像和卡通输入图像，以用于训练第一神经网络模型，所述第一神经网络模型包括第一生成器、第二生成器、第一判别器和第二判别器；

经由所述第一生成器，将所述目标对象输入图像转化为卡通转化图像，以用于基于所述卡通转化图像生成目标对象重建图像；

经由所述第二生成器，将所述卡通输入图像转化为目标对象转化图像，以用于基于目标对象转化图像生成卡通重建图像；以及

经由所述第一判别器和第二判别器，分别确定所述目标对象转化图像和所述卡通转化图像的真伪，以用于训练所述第一神经网络模型，经训练的第一神经网络模型用于基于所获取的用户图像生成关于用户的卡通图像。

2.根据权利要求1所述的方法，还包括：

交替地利用具有不同属性信息的多个输入图像组来训练所述第一神经网络模型，所述多个输入图像组中的每一个输入图像组中所包括的目标对象输入图像和卡通输入图像具有相同的属性信息。

3.根据权利要求1所述的方法，其中基于所述卡通转化图像生成目标对象重建图像包括：

将所述卡通转化图像输入所述第二生成器的编码器，以便生成第一编码；

经由第二生成器的残差注意力模块，提取所述第一编码的特征；以及

经由第二生成器的解码器，将所提取的第一编码的特征转化为所述目标对象重建图像。

4.根据权利要求1所述的方法，其中基于目标对象转化图像生成卡通重建图像包括：

将所述目标对象转化图像输入所述第一生成器的编码器，以便生成第二编码；

经由第一生成器的残差注意力模块，提取所述第二编码的特征；以及

经由第一生成器的解码器，将所提取的第二编码的特征转化为所述卡通重建图像。

5.根据权利要求1所述的方法，其中经由所述第一判别器和第二判别器分别确定所述目标对象转化图像和所述卡通转化图像的真伪包括：

经由所述第一判别器，提取所述目标对象重建图像和所述目标对象输入图像的特征，以便生成关于所述目标对象转化图像的真伪；以及

经由所述第二判别器，提取所述卡通重建图像和所述卡通输入图像的特征，以便生成关于卡通转化图像的真伪。

6.根据权利要求1所述的方法，其中基于目标对象和卡通对象的目标区域的属性针对目标对象图像和卡通图像进行分类以便分别生成目标对象图像空间和卡通图像空间包括：

经由第二神经网络模型，提取目标对象图像的图像特征，以便识别目标对象的目标区域的第一位置信息，所述目标区域为脸部区域；

基于所述第一位置信息，裁剪目标对象图像，以便生成目标对象输入图像，以用于基于所述目标对象输入图像确定目标对象的目标区域的第一属性信息；

经由第三神经网络模型，提取卡通图像的图像特征，识别卡通对象的目标区域的第二位置信息；

基于所述目标区域的第二位置信息，裁剪卡通图像，以便生成卡通输入图像，以用于基于所述卡通输入图像确定卡通对象的目标区域的第二属性信息；

响应于确定所述第一属性信息和所述第二属性信息相匹配，基于所述第一属性信息或所述第二属性信息索引所述目标对象输入图像和卡通输入图像；以及

基于经索引所述目标对象输入图像和卡通输入图像，分别生成目标对象图像空间和卡通图像空间。

7.根据权利要求6所述的方法，还包括：

基于所述第一属性信息，生成第一属性特征向量；

融合所述第一属性特征向量和与所述第一属性信息相关联的目标对象输入图像，以便生成用于输入神经网络模型的目标对象输入数据；

基于所述第二属性信息，生成第二属性特征向量，所述第一属性信息和所述第二属性信息相匹配；以及

融合所述第二属性特征向量和与所述第二属性相关联的卡通输入图像，以便生成用于输入神经网络模型的卡通输入数据。

8.根据权利要求1所述的方法，其中目标区域为目标对象和卡通对象的脸部区域，所述目标区域的属性信息包括关于目标区域的发型的属性信息、关于眼镜的属性信息以及关于表情的属性信息。

9.一种计算设备，包括：

存储器，被配置为存储一个或多个计算机程序；以及

处理器，耦合至所述存储器并且被配置为执行所述一个或多个计算机程序以使计算设备执行根据权利要求1-8任一项所述的方法。

10.一种非暂态机器可读存储介质，其上存储有机器可读程序指令，所述机器可读程序指令被配置为使得机器执行根据权利要求1-8中任一项所述的方法。