CN113570689B

CN113570689B - 人像卡通化方法、装置、介质和计算设备

Info

Publication number: CN113570689B
Application number: CN202110859134.9A
Authority: CN
Inventors: 金强; 朱一闻; 曹偲; 刘华平
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2024-03-01
Anticipated expiration: 2041-07-28
Also published as: CN113570689A

Abstract

本公开的实施方式提供了一种人像卡通化方法、装置、介质和计算设备。该方法应用于搭载了轻量级的第一生成对抗网络模型的移动终端，包括：在检测到视频帧图像包括人脸特征时，对视频帧图像进行图像分割处理，得到包含人脸特征的真实人脸图像和背景图像；将真实人脸图像输入第一生成对抗网络模型，以对真实人脸图像进行人像卡通化处理，并获取第一生成对抗网络模型输出的卡通人脸图像；其中，第一生成对抗网络模型的模型参数为通过模型蒸馏的方式，从与移动终端对应的服务端上搭载的全量级的第二生成对抗网络模型中迁移出的模型参数；将由第一生成对抗网络模型生成的卡通人脸图像与背景图像进行图像融合处理，得到人像卡通化处理后的视频帧图像。

Description

人像卡通化方法、装置、介质和计算设备

技术领域

本公开的实施方式涉及计算机应用领域，更具体地，本公开的实施方式涉及一种人像卡通化方法、装置、介质和计算设备。

背景技术

本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着移动终端技术的发展，移动终端的设备性能逐渐提高，运行在移动终端上的图像拍摄APP(Application，应用程序)、视频录制APP等软件也开始涌现。在现实生活中，这些软件使用先进的图像处理技术和机器学习技术，为用户提供了各种各样的拍摄特效，例如：人像美颜、人像美妆，以及人像卡通化、三维动画化等。

具体地，人像卡通化是指利用图像处理技术对图像或视频中的真实人脸图像部分进行卡通化处理，得到卡通样式的人脸图像。

发明内容

在本上下文中，本公开的实施方式期望提供一种人像卡通化方法、装置、介质和计算设备。

在本公开实施方式的第一方面中，提供了一种人像卡通化方法，应用于移动终端，所述移动终端上搭载了用于生成与真实人脸图像对应的卡通人脸图像的轻量级的第一生成对抗网络模型；所述方法包括：

检测采集到的视频帧图像是否包括人脸特征；

如果所述视频帧图像包括人脸特征，对所述视频帧图像进行图像分割处理，得到包含所述人脸特征的真实人脸图像和与所述真实人脸图像对应的背景图像；

将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理，并获取所述第一生成对抗网络模型输出的与所述真实人脸图像对应的卡通人脸图像；其中，所述第一生成对抗网络模型的模型参数为通过模型蒸馏的方式，从与所述移动终端对应的服务端上搭载的用于生成与真实人脸图像对应的卡通人脸图像的全量级的第二生成对抗网络模型中迁移出的模型参数；

将由所述第一生成对抗网络模型生成的所述卡通人脸图像与所述背景图像进行图像融合处理，得到人像卡通化处理后的所述视频帧图像，以完成针对所述视频帧图像的人像卡通化处理。

可选地，所述第一生成对抗网络模型在所述服务端上训练完成；

所述第一生成对抗网络模型的训练过程包括：

基于预设的训练样本集对作为教师模型的所述第二生成对抗网络模型进行对抗训练；其中，所述训练样本集包括由若干真实人脸图像样本构成的真实人脸样本集和由若干卡通人脸图像样本构成的第一卡通人脸样本集；

获取训练完成的所述第二生成对抗网络模型输出的与所述真实人脸样本集中的真实人脸图像样本对应的卡通人脸图像样本，以由所述卡通人脸图像样本构成第二卡通人脸样本集；

将所述训练样本集和所述第二卡通人脸样本集作为蒸馏样本集，对作为学生模型的所述第一生成对抗网络模型进行模型蒸馏训练，以从所述第二生成对抗网络模型中迁移出模型参数，作为所述第一生成对抗网络模型的模型参数。

可选地，所述生成对抗网络模型包括循环生成对抗网络模型。

可选地，所述循环生成对抗网络模型为UGATIT模型。

可选地，所述第二生成对抗网络模型包括以下示出的多个子模型：

卡通人像生成子模型，用于生成与真实人脸图像对应的卡通人脸图像；

全局卡通人像鉴别子模型，用于基于卡通人脸图像的全部图像，鉴别所述卡通人脸图像是否为由所述卡通人像生成子模型生成的卡通人脸图像；

局部卡通人像鉴别子模型，用于基于对卡通人脸图像进行裁剪得到的局部图像，鉴别所述卡通人脸图像是否为由所述卡通人像生成子模型生成的卡通人脸图像；

真实人像生成子模型，用于生成与卡通人脸图像对应的真实人脸图像；

全局真实人像鉴别子模型，用于基于真实人脸图像的全部图像，鉴别所述真实人脸图像是否为由所述真实人像生成子模型生成的真实人脸图像；

局部真实人像鉴别子模型，用于基于对真实人脸图像进行裁剪得到的局部图像，鉴别所述真实人脸图像是否为由所述真实人像生成子模型生成的真实人脸图像。

可选地，所述第一生成对抗网络模型包括以下示出的多个子模型：

局部卡通人像鉴别子模型，用于基于对卡通人脸图像进行裁剪得到的局部图像，鉴别所述卡通人脸图像是否为由所述卡通人像生成子模型生成的卡通人脸图像。

可选地，所述第一生成对抗网络模型中的全局卡通人像鉴别子模型的模型参数的初始值，为训练完成的所述第二生成对抗网络模型中的全局卡通人像鉴别子模型的模型参数；

所述第一生成对抗网络模型中的局部卡通人像鉴别子模型的模型参数的初始值，为训练完成的所述第二生成对抗网络模型中的局部卡通人像鉴别子模型的模型参数。

可选地，所述第一生成对抗网络模型中的局部卡通人像鉴别子模型包括：

眼部特征鉴别子模型，用于基于对卡通人脸图像进行裁剪得到的包含眼部特征的局部图像，鉴别所述卡通人脸图像是否为由所述卡通人像生成子模型生成的卡通人脸图像；和/或，

口鼻特征鉴别子模型，用于基于对卡通人脸图像进行裁剪得到的包含口鼻特征的局部图像，鉴别所述卡通人脸图像是否为由所述卡通人像生成子模型生成的卡通人脸图像。

可选地，所述移动终端上还搭载了用于对图像进行人像分割处理的人像分割模型；其中，所述真实人脸样本集中的真实人脸图像样本中被标注了包含人脸特征的人脸特征区域；所述人像分割模型为将所述第一生成对抗网络模型中的卡通人像生成子模型从所述真实人脸图像样本中提取出的人脸特征作为训练样本，将所述真实人脸图像样本中被标注的人脸特征区域作为约束，进行有监督训练得到的机器学习模型；

所述对所述视频帧图像进行图像分割处理，包括：

将所述第一生成对抗网络模型中的卡通人像生成子模型从所述视频帧图像中提取出的人脸特征输入所述人像分割模型，以由所述人像分割模型从所述视频帧图像中分割出包含所述人脸特征的人脸特征区域，作为包含所述人脸特征的真实人脸图像，并获取所述视频帧图像中与所述真实人脸图像对应的背景图像。

可选地，针对所述人像分割模型的训练与针对所述第一生成对抗网络模型的模型蒸馏训练同步进行。

可选地，将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理之前，所述方法还包括：

确定基于所述第一生成对抗网络模型对所述视频帧图像的上一帧图像进行人像卡通化处理的用时时长是否达到预设阈值；

如果所述用时时长未达到所述阈值，进一步将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理。

可选地，所述方法还包括：

如果所述用时时长达到所述阈值，将人像卡通化处理后的所述上一帧图像，确定为人像卡通化处理后的所述视频帧图像。

可选地，所述预设阈值包括所述上一帧图像的采集时刻与所述视频帧图像的采集时刻之间的时间间隔。

在本公开实施方式的第二方面中，提供了一种人像卡通化装置，应用于移动终端，所述移动终端上搭载了用于生成与真实人脸图像对应的卡通人脸图像的轻量级的第一生成对抗网络模型；所述装置包括：

检测模块，用于检测采集到的视频帧图像是否包括人脸特征；

分割模块，用于在所述视频帧图像包括人脸特征时，对所述视频帧图像进行图像分割处理，得到包含所述人脸特征的真实人脸图像和与所述真实人脸图像对应的背景图像；

处理模块，将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理，并获取所述第一生成对抗网络模型输出的与所述真实人脸图像对应的卡通人脸图像；其中，所述第一生成对抗网络模型的模型参数为通过模型蒸馏的方式，从与所述移动终端对应的服务端上搭载的用于生成与真实人脸图像对应的卡通人脸图像的全量级的第二生成对抗网络模型中迁移出的模型参数；

融合模块，将由所述第一生成对抗网络模型生成的所述卡通人脸图像与所述背景图像进行图像融合处理，得到人像卡通化处理后的所述视频帧图像，以完成针对所述视频帧图像的人像卡通化处理。

所述第一生成对抗网络模型的训练过程包括：

可选地，所述循环生成对抗网络模型为UGATIT模型。

所述分割模块具体用于：

可选地，所述装置还包括：

第一确定模块，用于将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理之前，确定基于所述第一生成对抗网络模型对所述视频帧图像的上一帧图像进行人像卡通化处理的用时时长是否达到预设阈值；

所述处理模块具体用于：

可选地，所述装置还包括：

第二确定模块，用于在所述用时时长达到所述阈值时，将人像卡通化处理后的所述上一帧图像，确定为人像卡通化处理后的所述视频帧图像。

在本公开实施方式的第三方面中，提供了一种介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人像卡通化方法。

在本公开实施方式的第四方面中，提供了一种计算设备，包括：

处理器；

用于存储处理器可执行程序的存储器；

其中，所述处理器通过运行所述可执行程序以实现上述任一人像卡通化方法。

根据本公开实施方式的人像卡通化方法，在移动终端上，可以在确定采集到的视频帧图像包括人脸特征时，先从该视频帧图像中分割出包含该人脸特征的真实人脸图像和与该真实人脸图像对应的背景图像，再将该真实人脸图像输入部署在该移动终端上的轻量级的第一生成对抗网络模型进行人像卡通化处理，最后将由该第一生成对抗网络模型生成的与该真实人脸图像对应的卡通人脸图像，与该背景图像融合成人像卡通化处理后的视频帧图像。

其中，该第一生成对抗网络模型的模型参数为通过模型蒸馏的方式，从与该移动终端对应的服务端上搭载的全量级的第二生成对抗网络模型中迁移出的模型参数。

采用这样的方式，由于最终用于生成与真实人脸图像对应的卡通人脸图像的生成对抗网络模型为轻量级的模型，模型参数较少，计算耗时也较短，因此可以保证人像卡通化的实时性，从而可以适用于针对实时视频的人像卡通化处理，并且可以为移动终端上的软件提供人像卡通化服务。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开实施方式的一种人像卡通化的应用场景的示意图；

图2示意性地示出了根据本公开实施方式的一种人像卡通化方法的流程图；

图3示意性地示出了根据本公开实施方式的一种视频帧图像的示意图；

图4示意性地示出了根据本公开实施方式的一种卡通人脸图像的示意图；

图5示意性地示出了根据本公开实施方式的一种第一生成对抗网络的训练方法的流程图；

图6示意性地示出了根据本公开实施方式的一种介质的示意图；

图7示意性地示出了根据本公开实施方式的一种人像卡通化装置的框图；

图8示意性地示出了根据本公开实施方式的一种计算设备的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种人像卡通化方法、装置、介质和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本公开人发现，随着生成对抗网络(Generative Adversarial Networks，GAN)技术的发展，逐渐出现了使用生成对抗网络模型来将真实人脸图像转换成卡通人脸图像的人像卡通化方法。

然而，在相关技术中，常用的生成对抗网络模型的模型参数量较大，计算耗时也较长。在这种情况下，一方面，使用这种生成对抗网络模型进行人像卡通化处理的实时性较差，因此对于视频通话、视频直播等情况而言，难以实现针对这些情况下的实时视频的人像卡通化处理；另一方面，这种生成对抗网络模型需要占用较多的存储资源、计算资源等设备资源，因此难以在移动终端上运行，也就无法为运行移动终端上的软件提供人像卡通化服务。

为此，非常需要一种改进的人像卡通化方法，以提高人像卡通化的实时性，实现针对实时视频的人像卡通化处理，并为移动终端上的软件提供人像卡通化服务。

为了解决上述问题，根据本公开实施方式的人像卡通化方法，在移动终端上，可以在确定采集到的视频帧图像包括人脸特征时，先从该视频帧图像中分割出包含该人脸特征的真实人脸图像和与该真实人脸图像对应的背景图像，再将该真实人脸图像输入部署在该移动终端上的轻量级的第一生成对抗网络模型进行人像卡通化处理，最后将由该第一生成对抗网络模型生成的与该真实人脸图像对应的卡通人脸图像，与该背景图像融合成人像卡通化处理后的视频帧图像。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1，图1示意性地示出了根据本公开实施方式的一种人像卡通化的应用场景的示意图。

如图1所示，在人像卡通化的应用场景中，可以包括至少一个移动终端，例如：移动终端1、移动终端2、移动终端N，以及与这些移动终端对应的服务端；该服务端与各个移动终端之间可以分别进行数据传输。

上述服务端上可以搭载用于生成与真实人脸图像对应的卡通人脸图像的全量级的生成对抗网络模型(称为第二生成对抗网络模型)；上述移动终端上可以搭载用于生成与真实人脸图像对应的卡通人脸图像的轻量级的生成对抗网络模型(称为第一生成对抗网络模型)。其中，该第一生成对抗网络模型的模型参数为通过模型蒸馏的方式，从该第二生成对抗网络模型中迁移出的模型参数。

此外，上述移动终端上还可以安装前置摄像头、后置摄像头等用于采集图像或视频的摄像硬件，以及图像拍摄APP、视频录制APP等软件。用户可以通过这些软件，调用移动终端上安装的摄像硬件，实现图像或视频的采集。后续，可以使用移动终端搭载的上述第一生成对抗网络模型，对采集到的图像或视频中的真实人脸图像部分进行人像卡通化处理。

示例性方法

下面结合图1的应用场景，参考图2-5来描述根据本公开示例性实施方式的人像卡通化方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

参考图2，图2示意性地示出了根据本公开实施方式的一种人像卡通化方法的流程图。

该人像卡通化方法可以应用于图1所示的任一移动终端；该人像卡通化方法可以包括以下步骤：

步骤201：检测采集到的视频帧图像是否包括人脸特征。

在本实施例中，可以在一段时间内，按照一定的时间间隔采集多张图像，并按照采集时刻的先后顺序对这些图像进行排序，以由排列好的这些图像组合成视频。其中，这些图像均为该视频所包含的视频帧图像。

举例来说，假设在2秒内，按照50毫秒的时间间隔进行视频采集，则可以采集到40张图像，这40张图像可以按照采集时刻的先后顺序组合成视频；该视频包含40张视频帧图像，时长为2秒，帧率为20帧/秒。

为了实现针对视频的人像卡通化处理，在采集到一张视频帧图像时，首先可以检测该视频帧图像是否包括人脸特征。

步骤202：如果所述视频帧图像包括人脸特征，对所述视频帧图像进行图像分割处理，得到包含所述人脸特征的真实人脸图像和与所述真实人脸图像对应的背景图像。

在本实施例中，如果确定采集到的视频帧图像包括人脸特征，则说明可以对该视频帧图像进行人像卡通化处理。在这种情况下，可以对该视频帧图像进行图像分割处理，以得到包含该人脸特征的真实人脸图像和与该真实人脸图像对应的背景图像。

以图3所示的视频帧图像为例，在该视频帧图像中，区域301内的图像即为真实人脸图像，除区域301外的其它区域内的图像即为与该真实人脸图像对应的背景图像。

步骤203：将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理，并获取所述第一生成对抗网络模型输出的与所述真实人脸图像对应的卡通人脸图像；其中，所述第一生成对抗网络模型的模型参数为通过模型蒸馏的方式，从与所述移动终端对应的服务端上搭载的用于生成与真实人脸图像对应的卡通人脸图像的全量级的第二生成对抗网络模型中迁移出的模型参数。

在本实施例中，上述移动终端上搭载了上述第一生成对抗网络模型，与该移动终端对应的上述服务端上搭载了上述第二生成对抗网络模型；该第一生成对抗网络模型的模型参数为通过模型蒸馏的方式，从该第二生成对抗网络模型中迁移出的模型参数。

在示出的一种实施方式中，上述第一生成对抗网络模型可以包括循环生成对抗网络(Cycle Generative Adversarial Networks)模型，上述第二生成对抗网络模型也可以包括循环生成对抗网络模型。

进一步地，上述循环生成对抗网络模型可以包括UGATIT(UnsupervisedGenerative Attentional Networks with Adaptive Layer-Instance Normalizationfor Image-to-Image Translation)模型。

需要说明的是，上述第一生成对抗网络模型为轻量级的生成对抗网络模型，上述第二生成对抗网络模型为全量级的生成对抗网络模型。也即，该第一生成对抗网络模型的模型参数量少于该第二生成对抗网络模型的模型参数量，因此，该第一生成对抗网络模型的计算耗时少于该第二生成网络的计算耗时，从而使得该第一生成对抗网络模型可以在移动终端上运行。

在实际应用中，可以先对上述服务端上搭载的上述第二生成对抗网络模型进行训练。在得到训练完成的第二生成对抗网络模型后，可以通过模型蒸馏的方式，从训练完成的第二生成对抗网络模型中迁移出模型参数，作为上述第一生成对抗网络模型的模型参数，并将确定了模型参数的第一生成对抗网络模型部署在上述移动终端上。

在通过图像分割得到上述真实人脸图像的情况下，可以将该真实人脸图像输入上述第一生成对抗网络模型，以由该第一生成对抗网络模型对该真实人脸图像进行人像卡通化处理，即生成与该真实人脸图像对应的卡通人脸图像，并输出生成的该卡通人脸图像；后续，可以获取该第一生成对抗网络模型输出的该卡通人脸图像。

步骤204：将由所述第一生成对抗网络模型生成的所述卡通人脸图像与所述背景图像进行图像融合处理，得到人像卡通化处理后的所述视频帧图像，以完成针对所述视频帧图像的人像卡通化处理。

在本实施例中，在获取到由该第一生成对抗网络模型生成的该卡通人脸图像的情况下，可以将该卡通人脸图像与上述背景图像进行图像融合处理，得到人像卡通化后的上述视频帧图像，以完成针对该视频帧图像的人像卡通化处理。

继续以图3所示的视频帧图像为例，在将区域301内的真实人脸图像输入上述第一生成对抗网络模型，以由该第一生成对抗网络模型输出与该真实人脸图像对应的卡通人脸图像后，可以将该卡通人脸图像与除区域301外的其它区域内的背景图像进行图像融合处理，得到人像卡通化后的该视频帧图像。

下面分别对上述第二生成对抗网络模型和上述第一生成对抗网络模型的训练过程进行描述。其中，对该第一生成对抗网络模型进行训练，即为通过模型蒸馏的方式，从该第二生成对抗网络模型中迁移出模型参数，作为该第一生成对抗网络模型的模型参数。

(1)上述第二生成对抗网络模型的训练过程

在实际应用中，可以预先将由若干真实人脸图像样本构成的真实人脸样本集，以及由若干卡通人脸图像样本构成的卡通人脸样本集(称为第一卡通人脸样本集)，都作为用于训练上述第二生成对抗网络模型的训练样本集。也即，该训练样本集包括该真实人脸样本集和该第一卡通人脸样本集。

后续，可以基于该训练样本集，对上述第二生成对抗网络模型进行对抗训练。

需要说明的是，上述真实人脸样本集中的真实人脸图像样本与上述第一卡通人脸样本集中的卡通人脸图像样本可以是一一对应的关系(此时该真实人脸样本集中的真实人脸图像样本的数量与该第一卡通人脸样本集中的卡通人脸图像样本的数量相同)，也可以不是一一对应的关系(此时该真实人脸样本集中的真实人脸图像样本的数量与该第一卡通人脸样本集中的卡通人脸图像样本的数量可以不同)，对此不作限制。

在示出的一种实施方式中，上述第二生成对抗网络模型可以包括以下示出的多个子模型：

全局卡通人像鉴别子模型，用于基于卡通人脸图像的全部图像，鉴别该卡通人脸图像是否为由该第二生成对抗网络模型中的卡通人像生成子模型生成的卡通人脸图像；

局部卡通人像鉴别子模型，用于基于对卡通人脸图像进行裁剪得到的局部图像，鉴别该卡通人脸图像是否为由该第二生成对抗网络模型中的卡通人像生成子模型生成的卡通人脸图像；

全局真实人像鉴别子模型，用于基于真实人脸图像的全部图像，鉴别该真实人脸图像是否为由该第二生成对抗网络模型中的真实人像生成子模型生成的真实人脸图像；

局部真实人像鉴别子模型，用于基于对真实人脸图像进行裁剪得到的局部图像，鉴别该真实人脸图像是否为由该第二生成对抗网络模型中的真实人像生成子模型生成的真实人脸图像。

在这种情况下，一方面，可以将上述真实人脸样本集中的各张真实人脸图像样本输入上述卡通人像生成子模型，以由该卡通人像生成子模型生成与该真实人脸图像样本对应的卡通人脸图像；并且，可以将上述第一卡通人脸样本集中的各张卡通人脸图像样本输入上述真实人像生成子模型，以由该真实人像生成子模型生成与该卡通人脸图像样本对应的真实人脸图像。

另一方面，可以将由上述卡通人像生成子模型生成的各张卡通人脸图像输入上述真实人像生成子模型，以由该真实人像生成子模型生成与该卡通人脸图像对应的真实人脸图像；并且，可以将由该真实人像生成子模型生成的各张真实人脸图像输入该卡通人像生成子模型，以由该卡通人像生成子模型生成与该真实人脸图像对应的卡通人脸图像。

上述全局卡通人像鉴别子模型可以基于各张卡通人脸图像的全部图像，鉴别该卡通人脸图像是上述第一卡通人脸样本集中的卡通人脸图像样本，还是由上述卡通人像生成子模型生成的卡通人脸图像；上述局部卡通人像鉴别子模型可以基于对各张卡通人脸图像进行裁剪得到的局部图像，鉴别该卡通人脸图像是该第一卡通人脸样本集中的卡通人脸图像样本，还是由该卡通人像生成子模型生成的卡通人脸图像。

需要说明的是，上述第二生成对抗网络模型可以包括一个上述全局卡通人像鉴别子模型，以及多个上述局部卡通人像鉴别子模型。

以图4所示的卡通人脸图像为例，在该卡通人脸图像中，区域401内的图像即为该卡通人脸图像的全部图像，区域402内的图像即为该卡通人脸图像中包含左眼特征的局部图像，区域403内的图像即为该卡通人脸图像中包含右眼特征的局部图像，区域404内的图像即为该卡通人脸图像中包含口鼻特征的局部图像，区域405内的图像即为该卡通人脸图像中包含左眉特征的局部图像，区域406内的图像即为该卡通人脸图像中包含右眉特征的局部图像。其中，各个区域内的图像的大小可以相同，也可以不同，对此不作限制。

针对该卡通人脸图像，上述全局卡通人像鉴别子模型可以基于区域401内的全部图像，鉴别该卡通人脸图像是上述第一卡通人脸样本集中的卡通人脸图像样本，还是由上述卡通人像生成子模型生成的卡通人脸图像；与眼部特征对应的局部卡通人像鉴别子模型1，可以基于区域402和区域403内的局部图像，鉴别该卡通人脸图像是该第一卡通人脸样本集中的卡通人脸图像样本，还是由该卡通人像生成子模型生成的卡通人脸图像；与口鼻特征对应的局部卡通人像鉴别子模型2，可以基于区域404内的局部图像，鉴别该卡通人脸图像是该第一卡通人脸样本集中的卡通人脸图像样本，还是由该卡通人像生成子模型生成的卡通人脸图像；与眉毛特征对应的局部卡通人像鉴别子模型3，可以基于区域405和区域406内的局部图像，鉴别该卡通人脸图像是该第一卡通人脸样本集中的卡通人脸图像样本，还是由该卡通人像生成子模型生成的卡通人脸图像。

类似地，上述全局真实人像鉴别子模型可以基于各张真实人脸图像的全部图像，鉴别该真实人脸图像是上述真实人脸样本集中的真实人脸图像样本，还是由上述真实人像生成子模型生成的真实人脸图像；上述局部真实人像鉴别子模型可以基于对各张真实人脸图像进行裁剪得到的局部图像，鉴别该真实人脸图像是该真实人脸样本集中的真实人脸图像样本，还是由该真实人像生成子模型生成的真实人脸图像。

其中，上述第二生成对抗网络模型可以包括一个上述全局真实人像鉴别子模型，以及多个上述局部真实人像鉴别子模型。

在实际应用中，针对上述第二生成对抗网络模型，可以采用常用的生成对抗网络的损失函数，构造与该第二生成对抗网络模型对应的损失函数，并基于构造出的损失函数计算该第二生成对抗网络模型的损失，以根据计算出的损失对该第二生成对抗网络模型的模型参数进行调整，直至该第二生成对抗网络模型的计算效果达到要求(例如：损失最小)。

具体地，在上述第二生成对抗网络模型为循环生成对抗网络模型的情况下，可以构造出与该循环生成对抗网络模型对应的对抗损失函数、循环一致性损失函数、身份损失函数和辅助分类损失函数，并按照由技术人员预先设置的权重对这四个损失函数进行加权求和处理，以得到最终的损失函数；后续，可以基于该最终的损失函数计算该循环生成对抗网络模型的损失，以根据计算出的损失对该循环生成对抗网络模型的模型参数进行调整，直至该循环生成对抗网络模型的计算效果达到要求。

(2)上述第一生成对抗网络模型的训练过程

在得到训练完成的上述第二生成对抗网络模型后，可以通过模型蒸馏的方式，从训练完成的第二生成对抗网络模型中迁移出模型参数，作为上述第一生成对抗网络模型的模型参数，即对该第一生成对抗网络模型进行训练。

在示出的一种实施方式中，参考图5，图5示意性地示出了根据本公开实施方式的一种第一生成对抗网络的训练方法的流程图。

该第一生成对抗网络的训练方法可以包括以下步骤：

步骤501，基于预设的训练样本集对作为教师模型的所述第二生成对抗网络模型进行对抗训练；其中，所述训练样本集包括由若干真实人脸图像样本构成的真实人脸样本集和由若干卡通人脸图像样本构成的第一卡通人脸样本集；

步骤502，获取训练完成的所述第二生成对抗网络模型输出的与所述真实人脸样本集中的真实人脸图像样本对应的卡通人脸图像样本，以由所述卡通人脸图像样本构成第二卡通人脸样本集；

步骤503，将所述训练样本集和所述第二卡通人脸样本集作为蒸馏样本集，对作为学生模型的所述第一生成对抗网络模型进行模型蒸馏训练，以从所述第二生成对抗网络模型中迁移出模型参数，作为所述第一生成对抗网络模型的模型参数。

为了实现模型蒸馏，可以将上述第二生成对抗网络模型作为教师(teacher)模型，并将上述第一生成对抗网络模型作为学生(student)模型，由该学生模型“学习”该教师模型，从而使该学生模型的计算效果达到该教师模型的的计算效果。

上述步骤501的具体实现方式可以参考上述第二生成对抗网络模型的训练过程，在此不再赘述。

在对作为教师模型的上述第二生成对抗网络模型的训练完成后，可以获取训练完成的第二生成对抗网络模型输出的与上述真实人脸样本集中的各张真实人脸图像样本分别对应的卡通人脸图像，即由训练完成的第二生成对抗网络生成的与该真实人脸样本集中的各张真实人脸图像样本分别对应的卡通人脸图像，并将这些卡通人脸图像作为新的卡通人脸图像样本，以由这些卡通人脸图像样本构成新的卡通人脸样本集(称为第二卡通人脸样本集)。

后续，可以将上述训练样本集和上述第二卡通人脸样本集都作为蒸馏样本集，对作为学生模型的上述第一生成对抗网络模型进行模型蒸馏训练，以从上述第二生成对抗网络模型中迁移出的模型参数，作为该第一生成对抗网络的模型参数。

需要说明的是，由于在对上述第一生成对抗网络模型进行训练时的计算量较大，因此为了提高训练效率，可以在与上述移动终端对应的如图1所示的服务端上，完成对该第一生成对抗网络的训练。

在示出的一种实施方式中，上述第一生成对抗网络模型可以包括以下示出的多个子模型：

全局卡通人像鉴别子模型，用于基于卡通人脸图像的全部图像，鉴别该卡通人脸图像是否为由该第一生成对抗网络模型中的卡通人像生成子模型生成的卡通人脸图像；

局部卡通人像鉴别子模型，用于基于对卡通人脸图像进行裁剪得到的局部图像，鉴别该卡通人脸图像是否为由该第一生成对抗网络模型中的卡通人像生成子模型生成的卡通人脸图像。

在这种情况下，可以将上述真实人脸样本集中的各张真实人脸图像样本输入上述卡通人像生成子模型，以由该卡通人像生成子模型生成与该真实人脸图像样本对应的卡通人脸图像。

上述全局卡通人像鉴别子模型可以基于各张卡通人脸图像的全部图像，鉴别该卡通人脸图像是上述第一卡通人脸样本集或上述第二卡通人脸样本集中的卡通人脸图像样本，还是由上述卡通人像生成子模型生成的卡通人脸图像；上述局部卡通人像鉴别子模型可以基于对各张卡通人脸图像进行裁剪得到的局部图像，鉴别该卡通人脸图像是该第一卡通人脸样本集或该第二卡通人脸样本集中的卡通人脸图像样本，还是由该卡通人像生成子模型生成的卡通人脸图像。

需要说明的是，上述第一生成对抗网络模型可以包括一个上述全局卡通人像鉴别子模型，以及多个上述局部卡通人像鉴别子模型。

在对真实人脸图像进行人像卡通化处理时，生成的卡通人脸图像与该真实人脸图像相比，眼部区域和口鼻区域的形状变化通常较大，因此为了保证人像卡通化的处理效果，可以对这两个区域进行加强优化。

具体地，在示出的一种实施方式中，上述第一生成对抗网络模型中的上述局部卡通人像鉴别子模型可以包括：

眼部特征鉴别子模型，用于基于对卡通人脸图像进行裁剪得到的包含眼部特征的局部图像，鉴别该卡通人脸图像是否为由该第一生成对抗网络模型中的卡通人像生成子模型生成的卡通人脸图像；和/或，

口鼻特征鉴别子模型，用于基于对卡通人脸图像进行裁剪得到的包含口鼻特征的局部图像，鉴别该卡通人脸图像是否为由该第一生成对抗网络模型中的卡通人像生成子模型生成的卡通人脸图像。

继续以图4所示的卡通人脸图像为例，针对该卡通人脸图像，上述眼部特征鉴别子模型，可以基于区域402和区域403内的局部图像，鉴别该卡通人脸图像是上述第一卡通人脸样本集或上述第二卡通人脸样本集中的卡通人脸图像样本，还是由该卡通人像生成子模型生成的卡通人脸图像；上述口鼻特征鉴别子模型，可以基于区域404内的局部图像，鉴别该卡通人脸图像是该第一卡通人脸样本集或该第二卡通人脸样本集中的卡通人脸图像样本，还是由该卡通人像生成子模型生成的卡通人脸图像。

在实际应用中，上述卡通人像生成子模型可以包括编码端和解码端。其中，编码端完成对输入图像的特征提取和压缩编码，解码端则逐层进行上采样以得到最终的卡通人像。该卡通人像生成子模型可以采用深度可分离卷积(depthwise separableconvolution)层作为卷积层。

需要说明的是，上述第一生成对抗网络模型中的卡通人像生成子模型，与上述第二生成对抗网络模型中的卡通人像生成子模型相比，卷积层数可以相同，但卷积核的大小更小，并且通道数更少，因此，该第一生成对抗网络模型为轻量级的生成对抗网络模型，可以在移动终端上运行。

此外，上述第一生成对抗网络模型中的全局卡通人像鉴别子模型和局部卡通人像鉴别子模型，与上述第二生成对抗网络模型中的全局卡通人像鉴别子模型和局部卡通人像鉴别子模型相比，模型结构可以相同。

在示出的一种实施方式中，上述第一生成对抗网络模型中的全局卡通人像鉴别子模型的模型参数的初始值，为训练完成的上述第二生成对抗网络模型中的全局卡通人像鉴别子模型的模型参数；并且，该第一生成对抗网络模型中的局部卡通人像鉴别子模型的模型参数的初始值，为训练完成的该第二生成对抗网络模型中的局部卡通人像鉴别子模型的模型参数。

举例来说，该第一生成对抗网络模型中的眼部特征鉴别子模型的模型参数的初始值，为训练完成的该第二生成对抗网络模型中的眼部特征鉴别子模型的模型参数；该第一生成对抗网络模型中的口鼻特征鉴别子模型的模型参数的初始值，为训练完成的该第二生成对抗网络模型中的口鼻特征鉴别子模型的模型参数。

在实际应用中，针对上述第一生成对抗网络模型，一方面，可以构造如下损失函数，作为蒸馏损失函数：

其中，L_distill表示蒸馏损失，i表示卷积层数，L表示总的卷积层数，表示上述第一生成对抗网络模型中的卡通人像生成子模型中的第i层卷积层的输出，/>表示上述第二生成对抗网络模型中的卡通人像生成子模型中的第i层卷积层的输出；

表示将通过一个1×1的卷积层f_i，将/>的通道数提升至与/>相同。

另一方面，可以构造如下损失函数，作为重建损失函数：

L_recon＝|Cartoon_t-Cartoon_s|

其中，L_recon表示重建损失，Cartoon_t表示上述第二生成对抗网络模型中的卡通人像生成子模型的最终的输出，Cartoon_s表示上述第一生成对抗网络模型中的卡通人像生成子模型的最终的输出。

再一方面，可以构建与上述第一生成对抗网络模型中的全局卡通人像鉴别子模型对应的全局对抗损失函数(全局对抗损失表示为)、与该第一生成对抗网络模型中的眼部特征鉴别子模型对应的眼部对抗损失函数(眼部对抗损失表示为/>)和与该第一生成对抗网络模型中的口鼻特征鉴别子模型对应的口鼻对抗损失函数(口鼻对抗损失表示为)。

进一步地，可以按照由技术人员预先设置的权重对L_distill、L_recon、和/>这五个损失函数进行加权求和处理，以得到最终的损失函数；后续，可以基于该最终的损失函数计算上述第一生成对抗网络模型的损失，以根据计算出的损失对该第一生成对抗网络模型的模型参数进行调整，直至该第一生成对抗网络模型的计算效果达到要求。

为了提升卡通人脸图像和背景图像的图像融合的效果，在示出的一种实施方式中，还可以在上述移动终端上搭载用于图像进行人像分割处理的人像分割模型。

此时，上述真实人脸样本集中的各张真实人脸图像样本中可以被标注包含人脸特征的人脸特征区域，即人脸掩膜。

相应地，可以将上述第一生成对抗网络模型中的卡通人像生成子模型从该真实人脸图像样本中提取出的人脸特征作为训练样本，将该真实人脸图像样本中被标注的人脸掩膜作为约束，对预先设置的机器学习模型进行有监督训练，并将训练完成的机器学习模型作为上述人像分割模型。

在实际应用中，由于上述卡通人像生成子模型的最后一层卷积层输出的是生成的卡通人脸图像，因此，该卡通人像生成子模型从上述真实人脸图像样本中提取出的人脸特征，具体可以是该卡通人像生成子模型的倒数第二层卷积层输出的数据。

在这种情况下，在对上述视频帧图像进行图像分割处理时，可以将上述第一生成对抗网络模型中的卡通人像生成子模型从该视频帧图像中提取出的人脸特征输入上述人像分割模型，以由该人像分割模型从该视频帧图像中分割出包含上述人脸特征的人脸掩膜，作为包含该人脸特征的真实人脸图像，并获取该视频帧图像中与该真实人脸图像对应的背景图像。

在生成与该真实人脸图像对应的卡通人脸图像后，可以采用泊松融合或alpha融合的方式，将该卡通人脸图像与上述背景图像进行图像融合处理，得到人像卡通化处理后的所述视频帧图像。

在实际应用中，针对上述人像分割模型，可以构造如下损失函数：

其中，L_mask表示蒸馏损失，i表示真实人脸图像样本的序号，n表示上述真实人脸样本集中的真实人脸图像样本的总数量，G(x_i)表示上述人像分割模型从第i个真实人脸图像样本中分割出的人脸掩膜，Label_i表示第i个真实人脸图像样本中被标注的人脸掩膜。

后续，可以基于该损失函数计算上述人像分割模型的损失，以根据计算出的损失对该第人像分割模型的模型参数进行调整，直至该人像分割模型的计算效果达到要求。

进一步地，在示出的一种实施方式中，针对上述人像分割模型的训练与针对上述第一生成对抗网络模型的模型蒸馏训练可以同步进行，以提高模型的计算精度和计算效果。

在示出的一种实施方式中，在将从上述视频帧图像中分割出的真实人脸图像输入上述第一生成对抗网络模型进行人像卡通化处理之前，可以先确定基于该第一生成对抗网络模型对该视频帧图像的上一帧图像进行人像卡通化处理的用时时长是否达到预设阈值。

如果该用时时长未达到该阈值，则可以进一步将该真实人脸图像输入该第一生成对抗网络模型，以对该真实人脸图像进行人像卡通化处理。

进一步地，在示出的一种实施方式中，如果上述用时时长达到上述阈值，则可以直接将人像卡通化处理后的上述上一帧图像，确定为人像卡通化处理后的上述视频帧图像。

在实际应用中，上述阈值可以是上述上一帧图像的采集时刻与上述视频帧图像的采集时刻之间的时间间隔。

举例来说，假设在采集视频时所采用的帧率为20帧/秒，则对于该视频而言，相邻的两帧图像的采集时刻之间的时间间隔为50毫秒，因此，该阈值也可以是50毫秒。

综上所述，根据本公开实施方式的人像卡通化方法，在移动终端上，可以在确定采集到的视频帧图像包括人脸特征时，先从该视频帧图像中分割出包含该人脸特征的真实人脸图像和与该真实人脸图像对应的背景图像，再将该真实人脸图像输入部署在该移动终端上的轻量级的第一生成对抗网络模型进行人像卡通化处理，最后将由该第一生成对抗网络模型生成的与该真实人脸图像对应的卡通人脸图像，与该背景图像融合成人像卡通化处理后的视频帧图像。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图6对本公开示例性实施方式的介质进行说明。

本示例性实施方式中，可以通过程序产品实现上述方法，如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RE等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图7对本公开示例性实施方式的装置进行说明。

下述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。

图7示意性地示出了根据本公开实施方式的一种人像卡通化装置，应用于移动终端，所述移动终端上搭载了用于生成与真实人脸图像对应的卡通人脸图像的轻量级的第一生成对抗网络模型；所述装置包括：

检测模块701，用于检测采集到的视频帧图像是否包括人脸特征；

分割模块702，用于在所述视频帧图像包括人脸特征时，对所述视频帧图像进行图像分割处理，得到包含所述人脸特征的真实人脸图像和与所述真实人脸图像对应的背景图像；

处理模块703，将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理，并获取所述第一生成对抗网络模型输出的与所述真实人脸图像对应的卡通人脸图像；其中，所述第一生成对抗网络模型的模型参数为通过模型蒸馏的方式，从与所述移动终端对应的服务端上搭载的用于生成与真实人脸图像对应的卡通人脸图像的全量级的第二生成对抗网络模型中迁移出的模型参数；

融合模块704，将由所述第一生成对抗网络模型生成的所述卡通人脸图像与所述背景图像进行图像融合处理，得到人像卡通化处理后的所述视频帧图像，以完成针对所述视频帧图像的人像卡通化处理。

所述第一生成对抗网络模型的训练过程包括：

可选地，所述循环生成对抗网络模型为UGATIT模型。

所述分割模块702具体用于：

可选地，所述装置还包括：

第一确定模块705，用于将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理之前，确定基于所述第一生成对抗网络模型对所述视频帧图像的上一帧图像进行人像卡通化处理的用时时长是否达到预设阈值；

所述处理模块703具体用于：

可选地，所述装置还包括：

第二确定模块706，用于在所述用时时长达到所述阈值时，将人像卡通化处理后的所述上一帧图像，确定为人像卡通化处理后的所述视频帧图像。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图8对本公开示例性实施方式的计算设备进行说明。

图8显示的计算设备800仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，计算设备800以通用计算设备的形式表现。计算设备800的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802，连接不同系统组件(包括处理单元801和存储单元802)的总线803。

总线803包括数据总线、控制总线和地址总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备800也可以与一个或多个外部设备804(例如键盘、指向设备等)通信。

这种通信可以通过输入/输出(I/O)接口805进行。并且，计算设备800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器806通过总线803与计算设备800的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了人像卡通化装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种人像卡通化方法，应用于移动终端，所述移动终端上搭载了用于生成与真实人脸图像对应的卡通人脸图像的轻量级的第一生成对抗网络模型；所述方法包括：

检测采集到的视频帧图像是否包括人脸特征；

如果所述视频帧图像包括人脸特征，确定基于所述第一生成对抗网络模型对所述视频帧图像的上一帧图像进行人像卡通化处理的用时时长是否达到预设阈值；

如果所述用时时长未达到所述阈值，进一步将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理，并获取所述第一生成对抗网络模型输出的与所述真实人脸图像对应的卡通人脸图像；

将所述第一生成对抗网络模型从所述视频帧图像中提取出的人脸特征输入人像分割模型，以由所述人像分割模型从所述视频帧图像中分割出包含所述人脸特征的人脸掩膜，作为包含所述人脸特征的真实人脸图像，并获取所述视频帧图像中与所述真实人脸图像对应的背景图像；

基于所述人脸掩膜，将由所述第一生成对抗网络模型生成的所述卡通人脸图像与所述背景图像进行图像融合处理，得到人像卡通化处理后的所述视频帧图像，以完成针对所述视频帧图像的人像卡通化处理；

其中，与所述移动终端对应的服务端上搭载了用于生成与真实人脸图像对应的卡通人脸图像的全量级的第二生成对抗网络模型；所述第一生成对抗网络模型在所述服务端上训练完成；

所述第一生成对抗网络模型的训练过程包括：

2.根据权利要求1所述的方法，所述生成对抗网络模型包括循环生成对抗网络模型。

3.根据权利要求2所述的方法，所述循环生成对抗网络模型为UGATIT模型。

4.根据权利要求1所述的方法，所述第二生成对抗网络模型包括以下示出的多个子模型：

5.根据权利要求4所述的方法，所述第一生成对抗网络模型包括以下示出的多个子模型：

6.根据权利要求5所述的方法，所述第一生成对抗网络模型中的全局卡通人像鉴别子模型的模型参数的初始值，为训练完成的所述第二生成对抗网络模型中的全局卡通人像鉴别子模型的模型参数；

7.根据权利要求5所述的方法，所述第一生成对抗网络模型中的局部卡通人像鉴别子模型包括：

8.根据权利要求5所述的方法，所述移动终端上还搭载了用于对图像进行人像分割处理的人像分割模型；其中，所述真实人脸样本集中的真实人脸图像样本中被标注了包含人脸特征的人脸掩膜；所述人像分割模型为将所述第一生成对抗网络模型中的卡通人像生成子模型从所述真实人脸图像样本中提取出的人脸特征作为训练样本，将所述真实人脸图像样本中被标注的人脸掩膜作为约束，进行有监督训练得到的机器学习模型；

所述将所述第一生成对抗网络模型从所述视频帧图像中提取出的人脸特征输入所述人像分割模型，包括：

将所述第一生成对抗网络模型中的卡通人像生成子模型从所述视频帧图像中提取出的人脸特征输入所述人像分割模型。

9.根据权利要求8所述的方法，针对所述人像分割模型的训练与针对所述第一生成对抗网络模型的模型蒸馏训练同步进行。

10.根据权利要求1所述的方法，所述方法还包括：

11.根据权利要求1所述的方法，所述预设阈值包括所述上一帧图像的采集时刻与所述视频帧图像的采集时刻之间的时间间隔。

12.一种人像卡通化装置，应用于移动终端，所述移动终端上搭载了用于生成与真实人脸图像对应的卡通人脸图像的轻量级的第一生成对抗网络模型；所述装置包括：

第一确定模块，用于在所述视频帧图像包括人脸特征时，将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理之前，确定基于所述第一生成对抗网络模型对所述视频帧图像的上一帧图像进行人像卡通化处理的用时时长是否达到预设阈值；

处理模块，用于如果所述用时时长未达到所述阈值，进一步将所述真实人脸图像输入所述第一生成对抗网络模型，以对所述真实人脸图像进行人像卡通化处理，并获取所述第一生成对抗网络模型输出的与所述真实人脸图像对应的卡通人脸图像；

分割模块，用于将所述第一生成对抗网络模型从所述视频帧图像中提取出的人脸特征输入人像分割模型，以由所述人像分割模型从所述视频帧图像中分割出包含所述人脸特征的人脸掩膜，作为包含所述人脸特征的真实人脸图像，并获取所述视频帧图像中与所述真实人脸图像对应的背景图像；

融合模块，用于基于所述人脸掩膜，将由所述第一生成对抗网络模型生成的所述卡通人脸图像与所述背景图像进行图像融合处理，得到人像卡通化处理后的所述视频帧图像，以完成针对所述视频帧图像的人像卡通化处理；

所述第一生成对抗网络模型的训练过程包括：

13.根据权利要求12所述的装置，所述生成对抗网络模型包括循环生成对抗网络模型。

14.根据权利要求13所述的装置，所述循环生成对抗网络模型为UGATIT模型。

15.根据权利要求12所述的装置，所述第二生成对抗网络模型包括以下示出的多个子模型：

16.根据权利要求15所述的装置，所述第一生成对抗网络模型包括以下示出的多个子模型：

17.根据权利要求16所述的装置，所述第一生成对抗网络模型中的全局卡通人像鉴别子模型的模型参数的初始值，为训练完成的所述第二生成对抗网络模型中的全局卡通人像鉴别子模型的模型参数；

18.根据权利要求16所述的装置，所述第一生成对抗网络模型中的局部卡通人像鉴别子模型包括：

19.根据权利要求16所述的装置，所述移动终端上还搭载了用于对图像进行人像分割处理的人像分割模型；其中，所述真实人脸样本集中的真实人脸图像样本中被标注了包含人脸特征的人脸掩膜；所述人像分割模型为将所述第一生成对抗网络模型中的卡通人像生成子模型从所述真实人脸图像样本中提取出的人脸特征作为训练样本，将所述真实人脸图像样本中被标注的人脸掩膜作为约束，进行有监督训练得到的机器学习模型；

所述分割模块具体用于：

20.根据权利要求19所述的装置，针对所述人像分割模型的训练与针对所述第一生成对抗网络模型的模型蒸馏训练同步进行。

21.根据权利要求12所述的装置，所述装置还包括：

22.根据权利要求12所述的装置，所述预设阈值包括所述上一帧图像的采集时刻与所述视频帧图像的采集时刻之间的时间间隔。

23.一种介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述的方法。

24.一种计算设备，包括：

处理器；

用于存储处理器可执行程序的存储器；

其中，所述处理器通过运行所述可执行程序以实现如权利要求1-11中任一项所述的方法。