CN117218466A

CN117218466A - 模型训练方法及相关设备

Info

Publication number: CN117218466A
Application number: CN202310097097.1A
Authority: CN
Inventors: 陈浩锟; 严宇轩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-12-12

Abstract

本申请实施例公开了一种模型训练方法及相关设备，其中，模型训练方法包括：获取训练样本，训练样本包括目标样本组，目标样本组中的第三样本人脸图像用于为第一样本人脸图像和第二样本人脸图像之间的融合处理提供参考；调用图像处理模型对目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像；其具备第一样本人脸图像中的身份属性，且具备第二样本人脸图像中的非身份属性；基于预测人脸图像与第三样本人脸图像之间的差异对图像处理模型进行训练，训练好的图像处理模型用于对任意源人脸图像与任意目标人脸图像进行融合处理。通过本申请实施例可训练得到通用性更高的图像处理模型，进而极大地丰富模型应用场景。

Description

模型训练方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型训练方法、一种模型训练装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

背景技术

随着人工智能技术的发展，深度学习所使用的各种网络模型纷繁多样。在计算机视觉领域中，存在各式各样的图像处理模型用于处理图像，包括但不限于：人脸识别模型、图像分割模型、视觉感知模型等等。采用人脸图像可训练出具有融合处理能力的图像处理模型，通过融合处理可实现对象的身份迁移，例如将源人脸图像中对象的人脸迁移至目标人脸图像中，以替换目标人脸图像中对象的人脸，从而变换目标人脸图像所具备的身份属性。

然而，经实践发现，受限于图像处理模型所采用的模型训练方式，训练好的图像处理模型的通用性较差，限制了模型应用场景。

发明内容

本申请实施例提供一种模型训练方法及相关设备，可以训练得到通用性更高的图像处理模型，进而极大地丰富模型应用场景。

一方面，本申请实施例提供了一种模型训练方法，包括：

获取训练样本，训练样本包括目标样本组，目标样本组中包括第一样本人脸图像、第二样本人脸图像和第三样本人脸图像；第三样本人脸图像用于为第一样本人脸图像和第二样本人脸图像之间的融合处理提供参考；

调用图像处理模型对目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像；预测人脸图像具备第一样本人脸图像中的身份属性，且具备第二样本人脸图像中的非身份属性；

基于预测人脸图像与第三样本人脸图像之间的差异对图像处理模型进行训练，训练好的图像处理模型用于对任意源人脸图像与任意目标人脸图像进行融合处理。

一方面，本申请实施例提供了一种模型训练装置，其特征在于，包括：

获取模块，用于获取训练样本，训练样本包括目标样本组，目标样本组中包括第一样本人脸图像、第二样本人脸图像和第三样本人脸图像；第三样本人脸图像用于为第一样本人脸图像和第二样本人脸图像之间的融合处理提供参考；

处理模块，用于调用图像处理模型对目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像；预测人脸图像具备第一样本人脸图像中的身份属性，且具备第二样本人脸图像中的非身份属性；

训练模块，用于基于预测人脸图像与第三样本人脸图像之间的差异对图像处理模型进行训练，训练好的图像处理模型用于对任意源人脸图像与任意目标人脸图像进行融合处理。

相应地，本申请实施例提供了一种计算机设备，包括：

处理器，适用于执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时，执行本申请实施例的模型训练方法。

相应地，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时，执行本申请实施例的模型训练方法。

相应地，本申请实施例提供了一种计算机程序产品，计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令被处理器执行时实现本申请实施例的模型训练方法。

在本申请实施例中，可采用训练样本包括的目标样本组来训练图像处理模型。目标样本组包括第一样本人脸图像、第二样本人脸图像以及第三样本人脸图像。在训练过程中，可调用图像处理模型对第一样本人脸图像与第二样本人脸图像进行融合，得到预测人脸图像，该预测人脸图像既具备第一样本人脸图像中的身份属性，又具备第二样本人脸图像中的非身份属性。这得益于图像处理模型所具备的基础的融合处理能力，实现了将第一样本人脸图像所具备的身份属性迁移至第二样本人脸图像中。基于第三样本人脸图像为第一样本人脸图像和第二样本人脸图像之间的融合处理所提供的参考，第三样本人脸图像可作为图像处理模型的监督数据来评判图像处理模型的融合处理能力的优劣。因此，可基于预测人脸图像与第三样本人脸图像之间的差异对图像处理模型进行训练，得到训练好的图像处理模型。相较于训练阶段的图像处理模型，训练好的图像处理模型具有更好的融合能力，能够显著提升对不同图像进行融合处理的效果，从而应对各种复杂的身份迁移任务。此外，训练好的图像处理模型还可用于对任意源人脸图像与任意目标人脸图像进行融合处理。可见，训练好的图像处理模型具备较高的通用性，能够为任意源人脸图像提供通用的身份迁移服务，使得任意源人脸图像的身份属性能够被迁移至任意目标人脸图像中。这样，训练好的图像处理模型并不受限于处理固定身份属性的源人脸图像，而是可以灵活地处理任意目标人脸图像以及任意身份属性的源人脸图像，从而极大地扩展了图像处理模型进行融合处理的场景，丰富图像处理模型的应用场景。

附图说明

图1是本申请一个示例性实施例提供的一种模型训练系统的架构图；

图2是本申请一个示例性实施例提供的一种模型训练方法的流程示意图；

图3a是本申请一个示例性实施例提供的一种目标样本组所包含的各个样本人脸图像之间的关联关系的示意图；

图3b是本申请一个示例性实施例提供的一种预测人脸图像的生成示意图；

图4是本申请一个示例性实施例提供的一种训练样本获取方法的流程示意图；

图5a是本申请一个示例性实施例提供的一种进行光影变换的效果示意图；

图5b本申请一个示例性实施例提供的一种构建目标样本组的示意图；

图6是本申请一个示例性实施例提供的另一种模型训练方法的流程示意图；

图7a是本申请一个示例性实施例提供的一种生成网络的结构示意图；

图7b是本申请一个示例性实施例提供的一种模型训练的框架示意图；

图8是本申请一个示例性实施例提供的一种应用训练好的图像处理模型进行融合处理的流程示意图；

图9a是本申请一个示例性实施例提供的一种协作融合的示意图；

图9b是本申请一个示例性实施例提供的另一种协作融合的示意图；

图9c是本申请一个示例性实施例提供的一种排列显示的结果图像的示意图；

图9d是本申请一个示例性实施例提供的一种轮流显示的结果图像的示意图；

图9e是本申请一个示例性实施例提供的一种显示结果图像的缩略图像的示意图；

图9f是本申请一个示例性实施例提供的一种视频序列的示意图；

图9g是本申请一个示例性实施例提供的一种对结果图像进行个性化编辑的示意图；

图10是本申请一个示例性实施例提供的另一种应用训练好的图像处理模型进行融合处理的流程示意图；

图11是本申请一个示例性实施例提供的一种模型训练装置的结构示意图；

图12是本申请一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上；例如：至少一个人脸图像是指该一个、两个或两个以上的人脸图像。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

一、人脸图像

人脸图像顾名思义就是指包含人脸的图像，人脸图像中的人脸可以用于表示对象，即人脸图像中包含对象的人脸。该对象可以是真实对象，即真实世界中的对象，例如真实世界中的人。该对象也可以是虚拟对象，即虚拟世界中的对象，例如漫画人物、社交场景中的虚拟角色、游戏中的英雄角色等等。

二、身份属性/非身份属性

人脸图像中包括身份属性和非身份属性。所谓身份属性是指人脸图像中用于指示对象身份的属性信息，通常地，身份属性是人脸图像中与人脸的脸部固有特征相关的属性信息；此处的脸部固有特征是指通常情况下不会发生变化的特征，例如眼睛形状、嘴巴形状、脸部纹理等等。示意性的，身份属性可包括但不限于：五官在脸部中的分布位置、五官的形状、五官的特征、脸部纹理等等。所谓非身份属性是指人脸图像中不用于指示对象身份的属性信息；通常地，身份属性是人脸图像中与人脸的脸部动态特征相关的属性信息；此处的脸部动态特征是指可以按需发生变化的特征，例如表情(如可从笑变为哭)、光照(如可由暗变亮)、环境等等。示意性的，非身份属性可包括但不限于：光照、环境、表情、姿态、装扮等等。

如前述，人脸图像中的人脸可用于表示对象，更为具体地，人脸图像通过身份属性(与人脸的脸部固有特征相关的属性信息)来表示对象，不同的对象具备不同的身份属性；例如：对象A具备身份属性a，对象B具备身份属性b，身份属性a和身份属性b不同，以用来区分不同的对象A和对象B。同一对象的不同人脸图像包含相同的身份属性(即该对象的身份属性)，但可以包含相同或不同的非身份属性。不同对象的人脸图像包含不同的身份属性(即分别为各个对象的身份属性)，但可以具备相同或不同的非身份属性。

三、人脸对齐

由于受图像拍摄角度、制作方法或拍摄参数等的影响，人脸图像中的人脸的呈现角度可能并不统一，例如有些人脸图像中的人脸呈现为侧面人脸，有些人脸图像中的人脸呈现为正面人脸。人脸对齐就是一种对人脸图像中的人脸的呈现角度进行统一的技术。人脸对齐的处理流程大致为：首先定义一个标准人脸呈现位置(例如标准正面人脸位置)，再确定待对齐的人脸图像中的人脸位置与该定义的标准人脸呈现位置之间的变换矩阵，基于该变换矩阵对待对齐的人脸图像中的人脸进行平移、旋转、缩放等操作，最后将待对齐的人脸图像中的人脸归一化到与标准人脸呈现位置一致的形态。人脸对齐也可以反向进行，即对齐后的人脸图像中的人脸可以基于变换矩阵进行平移、旋转、缩放等操作的逆操作还原到原始的人脸图像中的人脸形态。

四、融合处理

本申请实施例涉及的融合处理是指采用一个人脸图像X_s中的对象A的人脸去替换另一个人脸图像X_t中的对象B的人脸，从而得到一个融合图像Y_s,t的过程，该融合图像Y_s,t是一个新的人脸图像，融合图像Y_s,t中的人脸具备对象A的身份属性(例如五官、脸部纹理等)，且具备人脸图像X_t中的非身份属性(例如光照、背景等)。上述融合处理的过程实现了将对象A的身份从人脸图像X_s中迁移至人脸图像X_t中，因此，融合处理可理解为身份迁移处理。另外，上述融合处理的过程实现了将人脸图像X_t中的对象B的人脸替换为人脸图像X_s中的对象A的人脸，所以融合处理也可称为“换脸”处理。上述的人脸图像X_s和人脸图像X_t是指任意两张人脸图像，对象A和对象B是指任意两个对象。在本申请实施例中，在模型训练阶段进行融合处理所得到的预测人脸图像也是一个融合图像。本申请中，对于图像的数量描述，“张”和“个”代表相同的度量，例如“一张”与“一个”是等价的描述。

除特别说明外，本申请后续实施例中所涉及的人脸图像，包括用于模型训练的各个样本人脸图像、应用模型所处理的人脸图像均是经过人脸对齐后的图像。示意性的，通过人脸对齐可将人脸图像中的人脸的呈现角度调整为正面角度，这样既便于后续执行诸如定位面部关键特征点、遮罩处理等工作，还由于人脸对齐可使得图像处理过程是基于归一化后的人脸图像来进行的，能够提升图像处理的准确性。

五、生成对抗网络

生成对抗网络(Generative Adversarial Network，GAN)是非监督式学习的一种方法，由生成模型(Generative Model，也可称为生成网络)和判别模型(DiscriminativeModel，也可称为判别网络)两部分组成，生成对抗网络通过让生成网络和判别网络相互博弈的方式进行学习。生成对抗网络的基本原理可参见如下描述：生成网络可以用于从隐空间(Latent Space)中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本；判别网络可以将真实样本或生成网络的输出结果作为输入，其目的是将生成网络的输出结果从真实样本中尽可能分辨出来；也就是说，生成网络要尽可能地欺骗判别网络，从而生成网络与判别网络之间相互对抗，不断调整参数，最终生成以假乱真的图片。

六、人工智能技术

人工智能(Artificial Intelligence，AI)技术是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请实施例可基于AI技术进行图像处理模型的训练。

七、计算机视觉技术

计算机视觉(Computer Vision，CV)技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括模型训练、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例所提供的模型训练方案涉及计算机视觉技术CV，例如：对不同样本人脸图像进行的融合处理，涉及CV中的对图像的识别以及图像语义理解等技术内容。

需要特别说明的是，在本申请的具体实施方式中，涉及到人脸图像、对象身份、身份属性等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请提出了一种模型训练方案，该方案涉及模型训练系统、方法及相关设备，该方案可通过训练样本中的目标样本组对图像处理模型进行训练。具体可融合处理目标样本组中的第一样本人脸图像和第二样本人脸图像，并通过目标样本组中的第三样本人脸图像对图像处理模型所执行的融合处理过程进行监督，从而得到融合能力更强、通用性更高的图像处理模型，训练过程简单高效。基于训练好的图像处理模型所具备的通用性，能够融合任意源人脸图像与任意目标人脸图像，从而更加灵活地处理任意身份属性的人脸图像，而不限制于固定身份属性的源人脸图像。这样，训练好的图像处理模型便可被应用于各种互联网场景下，模型应用场景能够得到极大地扩展和丰富。

下面将结合附图，对本申请实施例提供的模型训练系统的架构进行介绍。

请参见图1，图1是本申请一个示例性实施例提供的一种模型训练系统的架构图。如图1所示，该模型训练系统包括数据库101和计算机设备102；数据库101可以和计算机设备102之间通过有线或无线的方式建立通信连接。其中，计算机设备102用于执行模型训练流程；数据库101用于为计算机设备102的模型训练过程提供数据支持。

按照部署位置划分，数据库101可以是计算机设备102的本地数据库，也可以是能够与计算机设备102建立连接的云数据库。按照属性划分，数据库101可以是公有数据库，即向所有计算机设备开放的数据库；也可以是私有数据库，即仅向特定的计算机设备(如计算机设备102)开放的数据库。数据库101中可存储有图像、视频等数据，或者以集合方式分类存储图像数据集、视频数据集等等。示意性的，数据库101中存储的图像数据集可以是开源的人脸图像集，例如开源的FFHQ数据集(一种高质量的人脸数据集)。数据库101中存储的图像数据集也可以由开发者自制的人脸图像集，例如通过互联网、应用程序等获取到的人脸图像构建的人脸图像集；或者从各种视频中提取到的人脸图像构建的人脸图像集；此处的视频可以包括但不限于：影视剧视频、时尚类视频、直播类视频、旅行类视频、短视频、流视频等等。

按照数据集的属性区分，数据库101中存储的数据集包括但不限于：素材场景数据集、第一身份数据集、第二身份数据集以及参考数据集。该素材场景数据集包括不同场景下任意对象的素材人脸图像；第一身份数据集包括至少一个图像组，且每个图像组包括相应身份标识下的至少两个人脸图像；第二身份数据集包括不同身份标识下的一个人脸图像；参考数据集包括至少一个参考人脸图像，且任一参考人脸图像可以是素材场景数据集中的任意素材人脸图像和第一身份数据集中任一图像组中的任意人脸图像融合得到的。

计算机设备102执行的模型训练流程大致可包括：

(1)获取训练样本。

训练样本可包括至少一个样本组，目标样本组是指至少一个样本组中的任一个样本组；目标样本组包括第一样本人脸图像、第二样本人脸图像和第三样本人脸图像。由于目标样本组包括三个样本人脸图像，因此，目标样本组也可称为三元组，或者图像三元对，或者样本三元组。对于目标样本组所包含的各个样本人脸图像，基于身份属性以及非身份属性可具备如下关联关系：①第一样本人脸图像与第二样本人脸图像具备不同的身份属性；②第一样本人脸图像和第三样本人脸图像可以具备相同或不同的身份属性；③第二样本人脸图像和第三样本人脸图像可具备相同的非身份属性，而不同的身份属性。

训练样本所包括的目标样本组可以是计算机设备从数据库101中直接获取到的，也可以是基于从数据库101中获取到的各个数据集(如素材场景数据集、第一身份数据集、第二身份数据集以及参考数据集)构建得到，还可以是计算机设备从数据库101之外的其他设备、其他库中获取得到；等等，本申请并不对计算设备102获取训练样本中样本组的方式进行限定。

(2)调用图像处理模型对目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像。

其中，预测人脸图像具备第一样本人脸图像中的身份属性以及第二样本人脸图像中的非身份属性。也即，预测人脸图像既具备第一样本人脸图像中对象的身份属性，还具备第二样本人脸图像中对象所关联的非身份属性。或者说，预测人脸图像中既包括第一样本人脸图像中对象的人脸的脸部固有特征，例如：预测人脸图像中包括第一样本人脸图像中对象的五官形态(如五官在脸部呈现的大小)，还包括第二样本人脸图像中与该图像中的对象关联的非身份属性，例如：预测人脸图像中包括第二样本人脸图像中对象所处的环境、着装。由此，预测人脸图像与第一样本人脸图像具备相同的身份属性，且与第二样本人脸图像具备相同的非身份属性。

图像处理模型包括但不限于：自编码器、变分自编码器、生成网络等等。该图像处理模型具备初步的融合处理能力。所谓初步的融合处理能力是指能够实现对任意两张人脸图像进行融合处理，但其融合处理的效果可能还欠佳。调用图像处理模型执行融合处理的逻辑大致包括：分别提取第一样本人脸图像的第一属性特征和提取第二样本人脸图像的第二属性特征，然后融合第一属性特征和第二属性特征，基于所融合的特征生成预测人脸图像。其中，第一属性特征用于表征第一样本人脸图像中的身份属性(例如眼睛的形状、嘴的弯曲度等等)，第二属性特征用于表征第二样本人脸图像中的非身份属性(例如面部的姿势、轮廓、面部表情、发型等等)。

(3)基于预测人脸图像与第三样本人脸图像之间的差异对图像处理模型进行训练。

由于第三样本人脸图像可用于为第一样本人脸图像和第二样本人脸图像之间的融合处理提供参考，因此，可使用预测人脸图像和第三样本人脸图像之间的差异训练图像处理模型。具体可将该差异作为反向传播参数来更新处理模型的模型参数，进而实现对图像处理模型的训练。随着第一图像处理模型的不断训练，第一图像处理模型的模型参数被不断地更新，第一图像处理模型处理得到的预测人脸图像与第三样本人图像之间的差异将越来越小；直至图像处理模型达到收敛，便可得到训练好的图像处理模型。其中，图像处理模型达到收敛，可以包括以下任一种或多种：图像处理模型在训练过程中的损失达到最小；图像处理模型在训练过程中的损失达到稳定，随着训练次数的增加该损失不再变化或变化幅度小于预设阈值；图像处理模型处理得到的图像与样本人脸图像的差异小于预设差异阈值；图像处理模型的训练时长达到预设训练时长；图像处理模型的迭代训练次数达到预设训练次数；等等。训练好的图像处理模型相较于处于训练阶段的图像处理模型，在融合处理能力上有显著的提升，能够融合出效果更佳自然、真实的图像。

可理解的是，在图像处理模型训练好之前，可基于不同的目标样本组对图像处理模型进行训练，并重复执行以上(1)-(2)所描述的步骤或者(2)-(3)所描述的步骤，直至图像处理模型达到收敛。训练好的图像处理模型可用于对任意源人脸图像与任意目标人脸图像进行融合处理。也即，训练好的图像处理模型并不受限于融合处理固定的目标人脸图像和固定身份属性的源人脸图像，而是能够灵活地处理任意身份属性的源人脸图像，将其与任意目标人脸图像进行融合，通用性更高，应用场景更广。

计算机设备102可以包括服务器和终端设备中的任一者或两者。其中，终端设备可以包括但不限于：智能手机、平板电脑、智能可穿戴设备、智能语音交互设备、智能家电、个人电脑、车载终端、虚拟现实设备(如VR)等等设备，本申请对此不作限制。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。对于计算机设备的数量，本申请不做限制。当计算机设备102包括服务器以及终端设备时，模型训练可由服务器执行上述内容，终端设备辅助服务器执行模型训练，例如在终端设备驱动训练过程的执行、设置迭代次数、对模型的训练效果进行可视化(如查看人脸变换过程及结果)等等。

此外，本申请实施例中所提供的模型训练方案还可应用于丰富的互联网场景中，该互联网场景可包括但不限于：视频制作或图像制作(如影视制作、虚拟形象制作、证件照制作)场景、购物体验场景等等。训练好的图像处理模型可应用在以上任一互联网场景中，且能够实现任意两张人脸图像之间的融合，而对人脸图像的身份属性没有限制，通用性较高。示意性地，若一个视频中包含多个目标人脸图像，那么任意目标人脸图像均可与任意源人脸图像进行融合，从而生成既具备目标人脸图像中的非身份属性还具备源人脸图像中的身份属性的融合图像，实现视频中对象的换脸。

应用本申请实施例提供的模型训练方案，可较为容易地获取到大批量的训练样本进行训练，基于在训练过程中所构建的目标样本组，可使得模型准确地学习到有关身份属性以及非身份属性的信息，增强图像处理模型对人脸图像的理解，进而提升图像处理模型的融合处理能力。另外，图像处理模型训练过程中无需匹配不同身份属性，模型训练过程更加简单、高效。训练好的图像处理模型用于融合任意源人脸图像与任意目标人脸图像，即可给任意身份属性的源人脸图像提供身份迁移服务，实现任意对象的源人脸图像至任意目标人脸图像的变换，而不再受限于对固定身份属性的人脸图像与单一目标人脸图像的融合处理，具备较高的通用性以及灵活性。

接下来对本申请实施例提供的模型训练方法进行介绍。

请参见图2，是本申请一个示例性实施例提供的一种模型训练方法的流程示意图。该模型训练方法可以由计算机设备(如图1所示系统中的计算机设备102)来执行，该模型训练方法可以包括以下步骤：

S201，获取训练样本，训练样本包括目标样本组。

训练样本可包括至少一个样本组，目标样本组是指所述至少一个样本组中的任一个样本组。该目标样本组包括第一样本人脸图像、第二样本人脸图像和第三样本人脸图像。由于目标样本组包括三个样本人脸图像，因此，目标样本组也可称为三元组，或者图像三元对，或者样本三元组。

第一样本人脸图像具备第一身份属性，该第一身份属性可用于表示第一对象，即第一身份属性是指第一对象的身份属性。第二样本人脸图像具备第二身份属性，该第二身份属性可用于表示第二对象，即第二身份属性是指第二对象的身份属性。第三样本人脸图像具备第三身份属性，该第三身份属性可用于表示第三对象，即第三身份属性是指第三对象的身份属性。其中，身份属性可包括但不限于：五官在脸部中的分布位置、五官的形状、五官的特征、脸部纹理等等。第一对象是指任一对象，第二对象和第一对象是不同对象，第三对象和第一对象可相同或不同。

基于各个样本人脸图像所具备的身份属性，对于第一样本人脸图像、第二样本人脸图像和第三样本人脸图像可包括以下(1)-(3)所描述的关联关系：

(1)第一样本人脸图像与第二样本人脸图像具备不同的身份属性。如前述第一样本人脸图像具备第一身份属性，第二样本人脸图像具备第二身份属性。第一样本人脸图像和第二样本人脸图像可以是从区分了身份属性的不同数据集中获取到的具备身份属性的人脸图像。例如：从数据集dataA中获取到任一人脸图像作为第一样本人脸图像，从数据集dataB中获取到任一人脸图像作为第二样本人脸图像。

(2)第三样本人脸图像和第一样本人脸图像具备相同的身份属性。即第三人脸图像可具备第一样本人脸图像中的身份属性。或者说，第三样本人脸图像中包括第一样本人脸图像中对象的人脸的脸部固有特征，例如：第三样本人脸图像中包括第一样本人脸图像中对象的五官形态(如五官在脸部呈现的大小)。第三样本人脸图像和第一样本人脸图像也可具备不同的身份属性。例如，第三人脸图像具备对象U1的身份属性(如对象U1的人脸)，第一样本人脸图像具备对象U2的身份属性(如对象U2的人脸)。

(3)第三样本人脸图像和第二样本人脸图像具备相同的非身份属性。

非身份属性包括但不限于：图像中的面部的姿势、轮廓、面部表情、背景、场景照明等等。第三样本人脸图像和第二样本人脸图像可来自区分了身份属性的相同的数据集。例如：第二样本人脸图像和第三样本人脸图像均是数据集dataC中的人脸图像。第三样本人脸图像和第二样本人脸图像还可具备不同的身份属性。示例性地，第三样本人脸图像和第二样本人脸图像具备相同的背景以及对象的装扮相同，但第三样本人脸图像为对象A的人脸，第二样本人脸图像为对象B的人脸。

基于上述关联关系的描述，示意性地，可参考图3a所示出的目标样本组所包含的各个样本人脸图像之间的关联关系的示意图。如图3a所示，第一样本人脸图像和第三样本人脸图像有相同的五官形态，表示身份属性相同，第二样本人脸图像和第三样本人脸图像有相同的背景，表示非身份属性相同。第一样本人脸图像和第二样本人脸图像中人脸的五官形态以及对象所处的背景均不同，表示身份属性和非身份属性均不相同。

S202，调用图像处理模型对目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像。

此处的融合处理可理解为将第一样本人脸图像对应身份属性的图像内容与第二样本人脸图像中对应非身份属性的图像内容进行融合，从而得到一个新的人脸图像，即预测人脸图像。这样，预测人脸图像不仅具备第一样本人脸图像中的身份属性，还具备第二样本人脸图像中的非身份属性。

在一个实施例中，调用图像处理模型执行融合处理的逻辑大致包括：分别提取第一样本人脸图像的第一属性特征和提取第二样本人脸图像的第二属性特征，然后融合第一属性特征和第二属性特征，基于所融合的特征生成预测人脸图像。其中，第一属性特征用于表征第一样本人脸图像中的身份属性(例如眼睛的形状、嘴的弯曲度等等)，第二属性特征用于表征第二样本人脸图像中的非身份属性(例如面部的姿势、轮廓、面部表情、发型等等)。

示意性地，如图3b所示的预测人脸图像的生成示意图。该预测人脸图像不仅具备第二样本人脸图像中的人物的着装、背景、发型等，还具备第一样本人脸图像中人物的五官形态，如眼睛的形状、嘴的弯曲度等等。

S203，基于预测人脸图像与第三样本人脸图像之间的差异对图像处理模型进行训练。

第三样本人脸图像用于为第一样本人脸图像和第二样本人脸图像之间的融合处理提供参考。此处为融合处理提供参考是指第三样本人脸图像可作为融合处理得到的预测人脸图像的标签数据(或称为监督数据)，其可用于评判图像处理模型进行融合处理所得到的预测人脸图像的优劣。基于此，预测人脸图像与第三样本人脸图像可进行比对，进而确定出预测人脸图像和第三样本人脸图像之间的差异，并基于该差异对图像处理模型进行训练。图像处理模型训练的目标便是最小化差异，差异越小，表明预测人脸图像与第三样本人脸图像之间越相似，也表明图像处理模型的融合处理能力越高，融合得到的图像更加真实。

在一种实现方式中，为提升图像处理模型的训练效果，使得图像处理模型能够融合出更加自然、真实的人脸图像，可从不同维度获取预测人脸图像和第三样本人脸图像之间的差异。该差异包括但不限于：图像结构维度上的差异、图像内容维度上的差异、图像视觉维度上的差异、图像色彩维度的差异、判别差异等等。此外，预测人脸图像和第一样本人脸图像可以具有相同的身份属性，因此，在对图像处理模型进行训练时，还可纳入预测人脸图像与该第一样本人脸图像之间的差异，该差异具体是身份属性差异，通过身份属性差异可对图像中对象身份的属性信息进行约束，使得图像处理模型能够更为准确地提取出第一样本人脸图像中对象身份的属性信息，从而实现更优异的融合处理。

可理解的是，在该图像处理模型达到收敛之前，对图像处理模型的训练是不断重复的过程，即可在图像处理模型更新模型参数后重复执行上述S202-S203或者S201-S203所描述的过程。随着图像处理模型的不断训练，图像处理模型的模型参数被不断地更新，图像处理模型处理得到的图像之间的差异将越来越小；直至图像处理模型达到收敛，便可得到训练好的图像处理模型，可理解的是，经迭代训练得到的图像处理模型的融合处理能力相较于图像处理模型有了较大提升。上述提及的达到收敛包括但不限于：图像处理模型在训练过程中的损失达到最小；图像处理模型在训练过程中的损失达到稳定，随着训练次数的增加该损失不再变化或变化幅度小于预设阈值；图像处理模型处理得到的图像与样本人脸图像之间的差异小于预设差异阈值；图像处理模型的训练时长达到预设训练时长；图像处理模型的迭代训练次数达到预设训练次数；等等。本申请对此不做限制。

图像处理模型训练结束后，可得到训练好的图像处理模型。该训练好的图像处理模型用于对任意源人脸图像与任意目标人脸图像进行融合处理。举例来说，使用训练好的图像处理模型可融合源人脸图像(包括表示对象S1的身份属性)与目标人脸图像(包括表示对象T1的身份属性)，得到融合图像，该融合图像中包括对象T1的人脸以及源人脸图像中除对象S1的人脸之外的其他内容(包括对象S1所处的环境、对象S1着装等等)。

上述任意源人脸图像可以是任意身份属性的源人脸图像，该身份属性所表示的对象可以是真实对象，如真实世界中的人。该身份属性所表示的对象也可以是虚拟对象，如动漫人物、游戏中的英雄角色、社交场景中的虚拟角色。在一个实施例中，源人脸图像包括但不限于：①视频素材中包含人脸的任意视频图像；②系统提供的人脸图像；③对象上传的任意人脸图像。

任意目标人脸图像是指包含目标对象的人脸的图像。该目标对象和源人脸图像中身份属性所表示的对象可以不同。例如：目标对象为漫画人物，源人脸图像中身份属性所表示的对象为真实世界中的人。目标人脸图像可以是对象选择的任一风格下的素材人脸图像，例如：田园风格的素材人脸图像，也可以是视频中的一个视频帧图像。本申请对目标人脸图像的类型不做限制。

在一些业务场景下，应用本申请实施例提供的模型训练方案可得到训练好的图像处理模型，进而使用该训练好的图像处理模型可实现任意人物的脸变换到任意素材(如视频、图片或动图)中。在运营端可使用任意的素材人脸图像作为目标人脸图像与对象上传的任意身份属性的源人脸图像进行融合处理，而不用针对不同身份属性或者素材人脸图像重新训练图像处理模型，可有效节省训练资源，对于素材人脸图像和上传的图像也没有限制，可任意选择。此外，由于训练好的图像处理模型具备更强的融合处理能力，因此基于该训练好的图像处理模型融合得到的融合图像也能够具有更佳的自然度，例如人物表情自然变化。

本申请实施例提供的模型训练方案，可采用训练样本包括的目标样本组来训练图像处理模型。目标样本组包括第一样本人脸图像、第二样本人脸图像以及第三样本人脸图像。在训练过程中，可调用图像处理模型对第一样本人脸图像与第二样本人脸图像进行融合，可得到预测人脸图像，该预测人脸图像既具备第一样本人脸图像中的身份属性，又具备第二样本人脸图像中的非身份属性。可见，图像处理模型所具备的基础的融合处理能力，能够实现将第一样本人脸图像所具备的身份属性迁移至第二样本人脸图像中。基于第三样本人脸图像为第一样本人脸图像和第二样本人脸图像之间的融合处理所提供的参考，第三样本人脸图像可作为图像处理模型的监督数据来评判图像处理模型的融合处理能力的优劣。因此，可基于预测人脸图像与第三样本人脸图像之间的差异可对图像处理模型进行训练，得到训练好的图像处理模型。相较于训练阶段的图像处理模型，训练好的图像处理模型具有更好的融合能力，能够显著提升对不同图像进行融合处理的效果，从而应对各种复杂多样的身份迁移任务。此外，训练好的图像处理模型还可用于对任意源人脸图像与任意目标人脸图像进行融合处理。可见，训练好的图像处理模型具备较高的通用性，能够为任意源人脸图像提供通用的身份迁移服务，使得任意源人脸图像的身份属性能够被迁移至任意目标人脸图像中。这样，训练好的图像处理模型并不受限于处理固定身份属性的源人脸图像，而是可以灵活地处理任意身份属性的源人脸图像，从而极大地扩展了图像处理模型进行融合处理的场景，丰富图像处理模型的应用场景。

请参见图4，是本申请一个示例性实施例提供的一种训练样本获取方法的流程示意图。该方法可以由计算机设备(如图1所示系统中的计算机设备102)来执行，该方法可以包括以下步骤：

S401，构建训练数据集。

在一个实施例中，训练数据集包括：①素材场景数据集；②第一身份数据集；③第二身份数据集；④参考数据集。对于每个数据集所包含的内容以及获取方式可参见如下(1)-(4)所介绍的内容。

(1)素材场景数据集中包括N₁个素材人脸图像，N₁为正整数。

素材人脸图像是指包含对象在任一场景下的人脸的图像。所谓场景是指对象所处的环境，例如：教室、操场、海边、草原等等。不同素材人脸图像中的场景和/或对象可不同。通俗地说，素材场景数据集中所包括的N₁个素材人脸图像，可涵盖不同场景下任意对象的人脸图像。

对于素材场景数据集中素材人脸图像的获取，可以包括以下两种获取方式：①从任意网站或应用程序中获取至少一个视频(如影视剧视频片段、直播回放视频等等)。然后对各个视频进行逐帧截图，得到多帧视频图像。接着，对各帧视频图像进行人脸识别，得到人脸图像并将其作为素材人脸图像。②从网络中获取任意人脸图像，并将获取到的人脸图像直接作为素材人脸图像，或者截取其中包含人脸的图像区域得到。本申请在此不做限制。

(2)第一身份数据集包括N₂个身份标识，N₂为正整数。N₂个身份标识中的每个身份标识均对应一个图像组；任一个图像组均由多个人脸图像组成。

身份标识用于指示对象的身份属性。身份属性可用于表示对象，身份属性例如是对象的人脸。本申请中身份标识可记为ID，身份标识ID包括但不限于：对象的名称、对象的账号。第一身份数据集中可包括至少一个身份标识各自对应的图像组，一个身份标识与一个图像组对应。任一图像组包括至少两个人脸图像。换而言之，第一身份数据集中同一身份标识下存在至少两个人脸图像。

任一个图像组中的每个人脸图像均具备相应身份标识所指示的身份属性；第一身份数据集中属于不同图像组的人脸图像具备不同身份属性。基于身份标识与图像组之间的对应关系，身份标识与人脸图像也可对应，以表示人脸图像具备该身份标识所指示的身份属性。同一图像组中各个人脸图像对应的身份标识相同，即同一图像组中各个人脸图像具有相同的身份属性；不同图像组的人脸图像对应的身份标识不同，即属于不同图像组的人脸图像具备不同的身份属性。为便于理解，可参见下表1所示的第一身份数据集的构成结构。

表1第一身份数据集

参见上述表1，包括N₂个对象ID(即身份标识)，一个对象ID对应一个图像组，一个图像组包含至少两个人脸图像；不同图像组对应的对象ID不同。总的来说，第一身份数据集中每个对象ID对应的图像组中均有至少两个该对象ID的人脸图像。例如：对象ID为U₂的图像组包含3个人脸图像，且各个人脸图像具有对象U₂的身份属性，如对象的人脸。

对于第一身份数据集的构建方式，可包括但不限于以下(一)和(二)两种：

(一)获取至少一个视频，并从视频中确定具备目标身份标识所指示的身份属性的参考人脸图像，将参考人脸图像添加至第一身份数据集中目标身份标识对应的图像组中。然后，对视频进行抽帧处理，得到一个或多个备选人脸图像，并分别计算各个备选人脸图像和参考人脸图像之间的人脸相似度。之后，将人脸相似度大于或等于相似度阈值的备选人脸图像添加至目标身份标识对应的图像组中，按照上述方式可构建出不同身份标识对应的图像组，进而得到第一身份数据集。其中，目标身份标识可以是任一身份标识。

(二)获取至少两个人脸图像，每个人脸图像均具备身份标识所指示的身份属性。将获取到的各个人脸图像中具备相同身份属性的人脸图像进行聚类，得到至少一个图像组，再将每个图像组添加至第一身份数据集中。可理解的是，本申请对于第一身份数据集的构建方式并不做限制。例如：还可以先获取指定对象的视频，然后通过逐帧截图的方式快速获取到第一身份数据集。

可见，第一身份数据集中人脸图像以图像组进行归类，且每个图像组可与身份标识关联，这样在基于第一身份数据集中的人脸图像构建目标样本组时，可基于身份标识快捷地查找到相应图像组中的人脸图像，从而高效地构建出目标样本组。另外，第一身份数据集中人脸图像所属图像组对应的身份标识还可为目标样本组中其他样本人脸图像的生成提供身份属性的参考。

(3)第二身份数据集包括N₃个身份标识，N₃为正整数，N₃个身份标识中的每个身份标识均对应一个人脸图像，且第二身份数据集中的任一个人脸图像具备相应身份标识所指示的身份属性；第二身份数据集中不同的人脸图像具备不同的身份属性。

第二身份数据集包括N₃个身份标识，N₃与N₂可以相等或不相等。第二身份数据集所包括的任一身份标识与第一身份数据集中所包括的各个身份标识可以不同，例如对象ID不同。

在第二身份数据集中一个身份标识下存在一个人脸图像，该人脸图像具备对应身份标识所指示的身份属性。这样，在第二身份数据集中不同人脸图像具备不同的身份属性。示意性地，人脸图像P1对应的身份标识为S1，该人脸图像P1具备身份标识S1指示的身份属性，例如包括身份标识S1对应对象的人脸。人脸图像P2对应的身份标识为S2，该人脸图像P2具备身份标识S2指示的身份属性，例如包括身份标识S2对应对象的人脸。

在一种实现方式中，第二身份数据集中获取方式与第一身份数据集的获取类似。获取第二身份数据集的大致过程可以包括：首先聚类出同一身份属性的人脸图像，然后在同一身份属性下的人脸图像的数量为1时，将该人脸图像添加至第二身份数据集中。在另一种实现方式中，也可以从互联网、应用程序中获取视频或者图像，再从中选择出不同身份属性的人脸图像，并将其直接添加至第二身份数据集中。第一身份数据集和第二身份数据集可同步处理中获取到，例如在同一身份属性下的人脸图像的数量大于1时，将该一身份属性下的人脸图像所有人脸图像添加至第一身份数据集。当然也可分别采用不同的方式获取。例如：第一身份数据集通过对同一身份属性的人脸图像进行聚类得到，而第二身份数据集可通过直接获取图像或者截取视频中的视频图像得到。

(4)参考数据集包括N₄个参考人脸图像，N₄为正整数；参考数据集中的任一个参考人脸图像X_4-i是对第一身份数据集中的任一个身份标识对应图像组中的任一个人脸图像X_2-j与素材场景数据集中的任一个素材人脸图像X_1-k进行融合处理得到的；参考人脸图像X_4-i具备人脸图像X_2-j对应的身份标识所指示的身份属性，且具备素材人脸图像X_1-k中的非身份属性。

参考数据集可基于第一身份数据集和素材场景数据集构建得到。参考数据集中包括至少一个参考人脸图像；对于该参考数据集中的任一参考人脸图像X_4-i，可基于第一身份数据集中的任一人脸图像和素材场景数据集中的任一素材人脸图像进行融合处理得到。在一个实施例中，可调用身份迁移模型对人脸图像X_2-j和任一素材人脸图像X_1-k进行融合处理。该身份迁移模型是专属于人脸图像X_2-j对应身份标识所指示身份属性的模型，可用于处理人脸图像X_2-j的身份标识对应图像组中的任一人脸图像。其中，i为小于或等于N₄的正整数，j为小于或等于N₂的正整数，k为小于或等于N₁的正整数。

身份迁移模型是利用素材场景数据集和第一身份数据集，在预训练模型基础上训练得到的。其中，预训练模型是利用包括至少一个模板样本人脸图像的模板集(如开源的FFHQ数据集)进行预训练得到的，该预训练模型例如是：自编码器、变分自编码器。本申请对于预训练模型的结构不做限定。基于身份数据集包含的身份标识的数量，可训练得到N₂个身份迁移模型。即训练得到的身份迁移模型的数量和第一身份数据集中身份标识的数量相同，且一个身份标识对应一个身份迁移模型。一个身份标识对应的身份迁移模型用于处理对应身份标识的图像组中的任一人脸图像。因此，可利用各个身份迁移模型对素材场景数据集中的素材人脸图像与相应身份标识对应的图像组的人脸图像进行融合处理，得到参考人脸图像，并将其添加至参考数据集中。

举例来说，调用身份标识U1对应的身份迁移模型对素材场景数据集中的素材人脸图像进行推理，此处的推理是指对第一身份数据集中身份标识U1对应图像组中的人脸图像分别与素材场景数据集中N₁个素材人脸图像进行融合，得到N₁个参考人脸图像。融合得到的每个参考人脸图像均具备身份标识U1所指示的身份属性；例如：身份标识U1所表示的对象的人脸。还具备相应素材人脸图像中的非身份属性；例如：背景、姿态、着装等。由此，在参考数据集中，对于素材场景数据中的任一素材人脸图像，均存在第一身份数据集中任意身份标识的表现形式(即具备任意身份标识指示的身份属性的参考人脸图像)。换而言之，对于素材场景数据集中的任意素材人脸图像，均能够从参考数据集中获取到该素材人脸图像与具备身份标识U1所指示的身份属性的人脸图像融合得到的参考人脸图像。采用身份迁移模型对素材场景数据集进行上述推理，能够更加高效便捷地产生参考人脸数据，快速构建出参考数据集，进而有效推进目标样本组的构建进度。

S402，基于训练数据集构建训练样本。

基于训练数据集所包括的素材场景数据集、第一身份数据集、第二身份数据集和参考数据集，可构建出训练样本。在一个实施例中，训练样本包括至少一个正样本组，目标样本组是训练样本中的任一个正样本组。该正样本组包含的第一样本人脸图像和第三样本人脸图像具备相同的身份属性，第二样本人脸图像和第三样本人脸图像具备相同的非身份属性。

基于训练数据集构建训练样本包括构建该训练样本中的正样本组，对于正样本组的构建，可包括以下步骤1-步骤4。

步骤1：从第一身份数据集中选择身份标识ID_s和身份标识ID_t，并从身份标识ID_s对应的图像组中选择一个人脸图像X_s。

可从第一身份数据集包括的N₂个身份标识中任意选择两个身份标识，分别为身份标识ID_s和身份标识ID_t。基于这两个不同的身份标识，可从第一身份数据集中获取到相应身份标识对应的图像组，包括ID_s对应的图像组以及ID_t对应的图像组。然后，可从ID_s对应的图像组中随机选择一个人脸图像X_s，该人脸图像X_s可被作为正样本组中的第一样本人脸图像。

步骤2：从素材场景数据集中随机选择一个素材人脸图像，并从参考数据集中获取参考人脸图像GT和参考人脸图像X_t。

与此，可从素材场景数据集中随机选择一个素材人脸图像。该素材人脸图像和身份标识可共同作用，用于从参考数据集中锁定参考人脸图像。一方面，基于素材人脸图像和身份标识ID_s，可从参考数据集中获取到参考人脸图像GT。该参考人脸图像GT是由身份标识ID_s对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的。其中，融合处理所使用的身份标识ID_s对应图像组中的任一个人脸图像可以是上述人脸图像X_s，也可以是身份标识ID_s对应图像组中除人脸图像X_s之外的任一人脸图像。本申请对此不作限制。另一方面，基于素材人脸图像和身份标识ID_t，还可从参考数据集中获取到参考人脸图像X_t。其中，参考人脸图像X_t是由身份标识ID_t对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的。至此，从参考数据集中获取到的不同参考人脸图像均是融合处理得到的，且其融合处理使用了相同的素材人脸图像，这使得两个参考人脸图像具备相同的非身份属性。另外，基于同一素材人脸图像与不同身份标识对应图像组中的人脸图像的融合，而使得两个参考人脸图像具备不同的身份属性。

步骤3：基于人脸图像X_s、参考人脸图像X_t和参考人脸图像GT，构建目标样本组。

在得到人脸图像X_s、参考人脸图像X_t和参考人脸图像GT之后，可将其直接作为目标样本组中的样本人脸图像，也可以对执行光影变换之后，再作为目标样本组中的样本人脸图像。

基于此，在一个实施例中，所构建得到的目标样本组，具体可包括以下两种：

第一种：人脸图像X_s为目标样本组中的第一样本人脸图像，参考人脸图像X_t为目标样本组中的第二样本人脸图像，参考人脸图像GT为目标样本组中的第三样本人脸图像。所构建的目标样本组可表示为：{人脸图像X_s，参考人脸图像X_t，参考人脸图像GT}。

第二种：对人脸图像X_s和参考人脸图像X_t分别进行光影变换，光影变换后的人脸图像X_s为目标样本组中的第一样本人脸图像，光影变换后的参考人脸图像X_t为目标样本组中的第二样本人脸图像，参考人脸图像GT为目标样本组中的第三样本人脸图像。所构建的目标样本组可表示为：{光影变换后的人脸图像X_s，光影变换后的参考人脸图像X_t，参考人脸图像GT}。

对人脸图像X_s和参考人脸图像X_t所进行的光影变换可以是相同的光影变换，例如：为人脸图像X_s和参考人脸图像X_t随机打上相同的光影。在另一种实现中，所进行的光影变换也可以是不同的光影变换。例如：为人脸图像X_s添加光影1，而为参考人脸图像X_t打上光影2。本申请对图像进行光影变换的方式不做限制。示意性地，如图5a所示的光影变换的示意图。图5a中的(1)是人脸图像X_s，图5a中的(2)和(3)分别是为人脸图像X_s打上不同光影的效果示意图。

通过对人脸图像进行光影变换，并将光影变换后的图像(包括光影变换后的人脸图像X_s和光影变换后的参考人脸图像X_t)作为目标样本组中的样本人脸图像，可有效增加训练样本的多样性。在一种可行的实现方式中，训练样本中可包括按照上述方式构建的两种样本组中的一种或两种，如样本组sample_group1＝{人脸图像X_s，参考人脸图像X_t，参考人脸图像GT}，样本组sample_group2＝{光影变换后的人脸图像X_s，光影变换后的参考人脸图像X_t，参考人脸图像GT}。

对于存在光影变换的样本组，可按照一定的概率与未设置光影变换的样本组进行混合，以进一步增加训练样本的多样性。基于多样化的样本组，具体是多样化的样本人脸图像对图像处理模型进行训练，可提升图像处理模型对处于不同光影下的人脸图像的识别能力，使得图像处理模型能够处理更为复杂的样本人脸图像，有助于提升图像处理模型的融合处理能力。

需说明的是，本申请实施例中步骤中所携带的序号，并不构成对执行顺序的限制，例如上述步骤1和步骤2中，对于素材人脸图像的选择和从图像组中选择人脸图像可同时执行，或者存在先后顺序。

在另一实施例中，训练样本包括至少一个伪样本组，目标样本组是训练样本中的任一个伪样本组。伪样本组中第三样本人脸图像和第一样本人脸图像具有不同的身份属性，第三样本人脸图像和第二样本人脸图像具有相同的身份属性。

基于训练数据集构建训练样本包括构建该训练样本中的伪样本组，对于伪样本组的构建，可包括以下步骤1-步骤3：

步骤1：从第一身份数据集中选择身份标识ID_s和身份标识ID_t，并从素材场景数据集中随机选择一个素材人脸图像。

此步骤可参考正样本组的构建过程。构建伪样本组所选择的各个身份标识、与构建正样本组中所选择的身份标识可相同，即包括身份标识ID_s和身份标识ID_r。从素材场景数据集中素材人脸图像与构建正样本组中所选择的素材人脸图像则可以相同或者不同。

步骤2：从参考数据集中获取参考人脸图像GT_fake和参考人脸图像X_t，并从第二身份数据集中选择一个人脸图像X_sfake。

素材人脸图像和身份标识可共同作用，用于从参考数据集中锁定参考人脸图像。一方面，基于所选择的素材人脸图像和身份标识ID_s，可从参考数据集中获取到参考人脸图像GT_fake。参考人脸图像GT_fake是由身份标识ID_s对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的。另一方面，基于所选择的素材人脸图像和身份标识ID_t，还可从参考数据集中获取到参考人脸图像X_t。参考人脸图像X_t是由身份标识ID_t对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的。由此，参考人脸图像GT_fake和参考人脸图像X_t具有相同的非身份属性以及不同的身份属性。

可理解的是，若构建伪样本组所选择的素材人脸图像和构建正样本组所选择的素材人脸图像不同，那么所得到的参考人脸图像GT_fake和上述参考人脸图像GT具有不同的非身份属性。反之，参考人脸图像GT_fake和上述参考人脸图像GT具有的身份属性相同。参考人脸图像X_t同理。

步骤3：基于人脸图像X_sfake、参考人脸图像X_t和参考人脸图像GT_fake，构建目标样本组。

在得到人脸图像X_sfake、参考人脸图像X_t和参考人脸图像GT_fake之后，可将其直接作为伪样本组中的样本人脸图像，也可以对执行光影变换处理之后，再作为伪样本组中的样本人脸图像。基于此，在一个实施例中，所构建得到的伪样本组，具体可包括以下两种：

第一种：人脸图像X_sfake为目标样本组中的第一样本人脸图像，参考人脸图像X_t为目标样本组中的第二样本人脸图像，参考人脸图像GT_fake为目标样本组中的第三样本人脸图像。所构建的目标样本组可表示为：{人脸图像X_sfake，参考人脸图像X_t，参考人脸图像GT_fake}。

第二种：对人脸图像X_sfake和参考人脸图像X_t分别进行光影变换，光影变换后的人脸图像X_sfake为目标样本组中的第一样本人脸图像，光影变换后的参考人脸图像X_t为目标样本组中的第二样本人脸图像，参考人脸图像GT_fake为目标样本组中的第三样本人脸图像。所构建的目标样本组可表示为：{光影变换后的人脸图像X_sfake，光影变换后的参考人脸图像X_t，参考人脸图像GT_fake}。

对人脸图像X_sfake和参考人脸图像X_t所进行的光影变换可以是相同的光影变换，例如：为人脸图像X_sfake和参考人脸图像X_t随机打上相同的光影，在另一种实现中，所进行的光影变换也可以是不同的光影变换。例如：为人脸图像X_sfake添加光影1，而为参考人脸图像X_t打上光影2。本申请对图像进行光影变换的方式不做限制。通过光影变换可增加训练样本的多样性，进而提升模型训练效果，增强图像处理模型的融合处理能力。

在一种实现方式中，鉴于正样本组的构建方式，此处对伪样本组的构建，还可以是：将正样本组中的人脸图像X_s直接替换为第二身份数据集中的任一人脸图像X_sfake，而正样本组中其他人脸图像X_s保持相同。即伪样本组中的参考人脸图像GT_fake与正样本组中的参考人脸图像GT相同，正样本组和伪样本组中的参考人脸图像X_t相同。由于第三样本人脸图像是基于人脸图像X_s所属图像组中的任一人脸图像与所选择的素材人脸图像之间融合得到的，因此，第三样本人脸图像与第一样本人脸图像(即人脸图像X_sfake)所具备的身份属性并不相同。基于此，可将包括人脸图像X_sfake所构建的样本组称为伪样本组。图像处理模型对伪样本组中的样本人脸图像进行融合处理所得到的预测人脸图像具备该人脸图像X_sfake中的身份属性。结合上述对正样本组和伪样本组的构建方式的介绍，为便于更加直观地理解，提供如图5b所示的构建过程的示意图。

在一种实现方式中，训练样本中可包括至少一个正样本组，基于该正样本组可对图像处理模型进行训练。为进一步提升图像处理模型的训练效果，训练样本中可包括至少一个正样本组和至少一个伪样本组，在训练过程中可分别对正样本组和伪样本组进行处理，通过伪样本组和正样本组的混合，基于伪样本组可辅助正样本组对图像处理模型进行训练，使得图像处理模型对正样本组所包含的样本人脸图像所包含的信息进行更为准确地提取，基于模型对样本人脸图像的学习准确度，进而提升图像处理模型的融合处理能力。

本申请实施例基于各个数据集可构建训练样本，具体是构建训练样本中的目标样本组。各个数据集是易于获取到的，尤其是参考数据集能够采用已有的模型对已有数据集进行自动化处理，快速准确地得到其所包含的参考人脸图像，提升目标样本组的构建效率。此外，目标样本组包含正样本组和伪样本组中一者或两者的构建，这样，可为模型训练提供更加多样化的样本组，有益于模型训练中更加准确以及多元化地学习，以增强最终训练好的图像处理模型的融合处理能力，提升融合效果。

请参见图6，是本申请一个示例性实施例提供的另一种模型训练方法的流程示意图。该方法可以由计算机设备(如图1所示系统中的计算机设备102)来执行，该方法可以包括以下步骤：

S601，获取训练样本，训练样本包括目标样本组。

S602，调用图像处理模型对目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像。

在一个实施例中，图像处理模型包括生成网络，可调用该生成网络对第一样本人脸图像和第二样本人脸图像进行融合处理。也即，第一样本人脸图像和第二样本人脸图像可作为生成网络的输入，经过生成网络的融合处理，该生成网络可输出预测人脸图像。上述生成网络可采用AEI-Net网络，也可采用其他神经网络，例如卷积神经网络。本申请对于该生成网络的网络结构并不做限制。

为更好地理解融合处理的过程，以生成网络为AEI-Net网络为例，结合图7a所示出的AEI-Net网络对融合处理的过程进行示例性地说明。如图7a所示，生成网络包含身份编码器、多级属性编码器以及ADD生成器(即自适应注意非规范化生成器)。其中，身份编码器是一种将第一样本人脸图像嵌入到描述图像中人脸身份的空间的编码器，身份编码器用于提取图像中与身份属性相关的特征；多级属性编码器是一种将第二样本人脸图像嵌入到一个空间中的编码器，该空间描述了交换面时要保留的属性。多级属性编码器用于提取图像中与非身份属性相关的特征。ADD生成器用于为需关注的属性特征提供更高的注意力，可集成多级属性编码器的输出和身份编码器的输出，构建出人脸图像。

该生成网络的输入包括第一样本人脸图像和第二样本人脸图像，例如伪样本组中的X_t和X_sfake，或者正样本组中的X_s和X_t。对于生成网络的处理逻辑，大致包括以下内容：首先可调用身份编码器对第一样本人脸图像进行编码处理，得到第一属性特征，该第一属性特征是与第一样本人脸图像中身份属性相关的特征。还可调用多级属性编码器对第二样本人脸图像进行编码处理，得到第二属性特征，该第二属性特征是与第二样本人脸图像中的非身份属性相关的特征。接着，可调用ADD生成器对第一属性特征和第二属性特征进行融合，最终可得到融合特征，再基于该融合特征可得到预测人脸图像Yst。也即，生成网络可输出预测人脸图像Yst，该预测人脸图像中包括第二样本人脸图像中的非身份属性，还包括第一样本人脸图像中的身份属性，例如预测人脸图像中人脸的五官形态为第一样本人脸图像中对象的人脸的五官形态。

S603，获取预测人脸图像与第三样本人脸图像之间的差异。

在一个实施例中，差异包括相似差异和判别差异。相似差异用于指示对不同图像之间的相似度。相似差异越小，预测人脸图像与第三样本人脸图像之间的相似度越大，预测人脸图像与第三样本人脸图像之间越相似。反之，相似差异越大，预测人脸图像与第三样本人脸图像之间的相似度越小，预测人脸图像与第三样本人脸图像之间越不相似。判别差异用于指示预测人脸图像与第三样本人脸图像之间在视觉维度上的相似度。判别差异越小，预测人脸图像与第三样本人脸图像视觉维度上越相似。

在一种可行的实施方式中，相似差异包括内容相似差异；或者，相似差异包括内容相似差异及以下至少一项：感知相似差异、对抗相似差异、色彩相似差异。例如：相似差异包括内容相似差异与对抗相似差异，再例如：相似差异包括内容相似差异、感知相似差异以及对抗相似差异。本申请对于相似差异所包括的内容不做限制。

在差异包括相似差异的情况下，对于相似差异所包括的各个差异内容的获取方式，可参见以下(一)至(四)的介绍。

(一)相似差异包括内容相似差异。内容相似差异用于指示预测人脸图像和第三样本人脸图像之间的内容相似度，内容相似差异越小，表明预测人脸图像和第三样本人脸图像之间的内容相似度越高，即在图像内容维度两者越相似。反之，内容相似差异越大，表明预测人脸图像和第三样本人脸图像之间的内容相似度越低，即在图像内容维度两者越不相似。

获取预测人脸图像与第三样本人脸图像之间的差异，包括：计算预测人脸图像与第三样本人脸图像之间的内容绝对差值，内容绝对值差用于表示内容相似差异。

计算内容绝对差值具体可以是计算图像的像素值之间的绝对差值。在一种方式中，预测人脸图像与第三样本人脸图像之间的内容绝对差值可以是预测人脸图像的原始像素值与第三人脸图像的对应原始像素值之间差值的绝对值。在另一种实现方式中，内容绝对差值也可以是对预测人脸图像和第三人脸图像分别进行一些像素级别的处理后，再计算得到的像素值之间的绝对差值。上述像素级别的处理包括但不限于：二值化处、灰度化处理，等等，本申请对此不做限制。

内容相似差异可通过该内容绝对差值表示。基于此，相似损失包括内容相似损失L1，内容相似损失L1根据内容绝对差值构建得到。换而言之，根据内容绝对差值可构建内容相似损失L1。示意性地，基于内容绝对差值构建的内容相似损失L1的表达式可如下式(1)。

L1＝|X_fake-GT| 式(1)

其中，X_fake表示预测人脸图像，GT表示第三样本人脸图像。

又或者，基于内容绝对差值构建的内容相似损失L1的表达式可如下式(2)

L1＝|X_fake-GT|*λ_l1 式(2)

其中，X_fake表示预测人脸图像，GT表示第三样本人脸图像，λ_l1表示一个权重系数，可以按需设置。

(二)相似差异还包括感知相似差异。感知相似差异用于指示预测人脸图像与第三样本人脸图像之间在人眼视觉感知上的相似度。感知相似差异越小，表明预测人脸图像与第三样本人脸图像在人脸视觉感知上的相似度越高，主观感知上两者区别较小。反之，感知相似差异越大，表明预测人脸图像与第三样本人脸图像在人脸视觉感知上的相似度越低，主观感知上两者区别较大。

获取预测人脸图像与第三样本人脸图像之间的差异，包括：调用固定权重网络对预测人脸图像进行内容识别处理，得到预测人脸图像对应的第一识别结果；调用固定权重网络对第三样本人脸图像进行内容识别处理，得到第三样本人脸图像对应的第二识别结果；获取预测人脸图像对应的第一识别结果与第三样本人脸图像对应的第二识别结果之间的感知绝对差值；感知绝对值差用于表示感知相似差异。

所谓固定权重网络是指一个权重固定的网络，或者说，网络参数固定的网络。该固定权重网络是已训练好的一个网络，例如：vgg(Visual Geometry Group，视觉几何网络)网络，或者其他网络(如卷积神经网络)。本申请对于固定权重网络不做限制。通过固定权重网络对预测人脸图像进行内容识别处理，所得到的第一识别结果可以是该固定权重网络所包含的中间层的输出，例如：中间一些卷积层输出的特征向量。该第一识别结果可用于表示预测人脸图像中容易被感知到的图像内容。调用固定权重网络对第三样本人脸图像进行内容识别，所得到的第二识别结果可用于表示第三样本人脸图像中容易被感知到的图像内容。第二识别结果和第一识别结果为相同维度的数据，例如均为：中间一些卷积层输出的特征向量。接着，可计算第一识别结果和第二识别结果之间的感知绝对差值，该感知绝对差值可以是第一识别结果和第二识别结果之间的差值的绝对值。示意性地，以固定权重网络为vgg网络为例，感知绝对差值的计算表达式可参见下式(3)。

感知绝对差值absolute1＝|vgg(X_fake)-vgg(GT)| 式(3)

其中，vgg是固定权重网络，vgg(x)表示将x送入vgg网络中得到识别结果。X_fake表示预测人脸图像，GT表示第三样本人脸图像。

感知相似差异可通过该感知绝对差值来表示。基于此，相似损失包括感知相似损失，感知相似损失根据感知绝对差值构建得到。具体地，可将上述感知绝对差值直接作为感知相似损失，也可为该感知绝对差值设置相应的权重系数，该权重系数和感知绝对差值之间的乘积可作为感知相似损失。示意性地，感知相似损失Loss_vgg的表达式可如下式(4)所示。

Loss_vgg＝|vgg(X_fake)-vgg(GT)|*λ_vgg 式(4)

其中，vgg是固定权重网络，vgg(x)表示将x送入vgg网络中得到识别结果。X_fake表示预测人脸图像，GT表示第三样本人脸图像，λ_vgg表示一个权重系数，可以按需设置。

(三)相似差异还包括对抗相似差异；对抗相似差异用于指示预测人脸图像与第三样本人脸图像之间的逼近程度。对抗相似差异越小，表明预测人脸图像越逼近于第三样本人脸图像，预测人脸图像与第三样本人脸图像之间越相似。反之，对抗相似差异越大，表明预测人脸图像越远离于第三样本人脸图像，即预测人脸图像第三样本人脸图像之间区别越大。

获取预测人脸图像与第三样本人脸图像之间的差异，包括：调用第一判别网络对预测人脸图像进行判别处理，得到对抗结果，对抗结果用于表示对抗相似差异。

调用第一判别网络对预测人脸图像进行判别处理得到对抗结果，该对抗结果可指示预测人脸图像的真实性。具体可以是预测人脸图像属于真实人脸图像的概率。该概率是0-1范围内的数值，0表示所判别的预测人脸图像属于虚假人脸图像，1表示所判别的预测人脸图像是真实人脸图像。上述真实人脸图像可作为判别基准，具体可以是第三样本人脸图像。对抗结果越接近于1，表示所判别的预测人脸图像越接近于第三样本人脸图像，这表明所判别的预测人脸图像与第三样本人脸图像之间的差异越小。反之，对抗结果越接近于0，表示所判别的预测人脸图像越远离第三样本人脸图像，这表明所判别的预测人脸图像与第三样本人脸图像之间的差异越大。当该对抗结果越接近于0.5，表明第一判别网络对于预测人脸图像的真假不容易准确地判别得到，此时可表示预测人脸图像已经很好地逼近第三人脸图像，也可表明图像处理模型的训练已经达到欺骗判别网络的目标，图像处理模型的融合处理能力较佳。

对抗相似差异可通过上述得到的对抗结果表示。相似损失包括对抗相似损失，对抗相似损失根据对抗结果构建得到。具体的，可直接将该对抗结果作为对抗相似损失；或者对该对抗结果进行一些处理，例如：用数值1减去对抗结果后的值作为对抗相似损失；或者为对抗结果设置相应的权重系数之后，与权重系数的乘积作为对抗相似损失。示意性地，对于对抗相似损失的表示可如下式(5)。

Loss_adv＝(1-D(X_fake))*λ_advG 式(5)

其中，D表示第一判别网络，D(·)表示对抗结果，X_fake表示预测人脸图像。λ_advG表示一个权重系数，可按需设置。

通过对抗相似损失，可辅助生成网络进行训练。通过判别处理对生成网络所融合处理得到的预测人脸图像的效果进行评估，从而确定生成网络的参数是否达到当前最佳。

(四)相似差异还包括色彩相似差异；色彩相似差异可用于指示预测人脸图像与第三样本人脸图像之间的色彩相似度。色彩相似差异越小，预测人脸图像与第三样本人脸图像之间的色彩相似度越大，即两者在色彩维度上的相似度越高。反之，色彩相似差异越大，预测人脸图像与第三样本人脸图像之间的色彩相似度越小，即两者在色彩维度上的相似度越低。

获取预测人脸图像与第三样本人脸图像之间的差异，包括：将预测人脸图像从第一色彩空间变换至第二色彩空间，得到预测人脸在第二色彩空间中的第一图像信息；将第三样本人脸图像从第一色彩空间变换至第二色彩空间，得到第三样本人脸图像在第二色彩空间中的第二图像信息；计算第一图像信息与第二图像信息之间的色彩绝对差值；色彩绝对值差用于表示色彩相似差异。

第一色彩空间和第二色彩空间具有不同色彩衡量标准。第二色彩空间可以是比第一色彩空间具备更为丰富色彩的色彩空间。示意性地，第一色彩空间可以是RGB色彩空间，第二色彩空间可以是CIELAB color space色彩空间(也可简称Lab色彩空间)。当然，上述第一色彩空间或者第二色彩空间也可以是其他色彩空间，例如YUV色彩空间、CMY色彩空间、HSV色彩空间等等。一个图像可以在不同色彩空间之间进行变换，进而得到图像在相应色彩空间中的图像信息，如此处：预测人脸图像和第三样本人脸图像均可从第一色彩空间变换至第二色彩空间，进而得到预测人脸图像在第二色彩空间中的第一图像信息以及第三人脸图像在第二色彩空间中的第二图像信息。第一图像信息具体可以是预测人脸图像在第二色彩空间中的色彩信息，第二图像信息具体可以是第三人脸图像在第二色彩空间中的色彩信息。上述色彩信息例如亮度信息、颜色信息，等等。然后，可计算出第一图像信息与第二图像信息之间的差值的绝对值作为色彩绝对差值。示意性地，对于色彩绝对差值的表达式可如下式(6)所示。

色彩绝对差值absolute color＝|Lab(X_fake)-Lab(GT)| 式(6)

其中，Lab代表将一张图片从RGB色彩空间调整到CIELAB color space空间。X_fake表示预测人脸图像，GT表示第三样本人脸图像。

色彩相似差异可通过该色彩绝对差值表示，这样可匹配人类对图像的色彩感知，从而进一步约束图像在感知上的差异。相似损失包括色彩相似损失L_{color_lab}，色彩相似损失L_{color_lab}根据色彩绝对差值构建得到。具体的，可将上述色彩绝对差值直接作为色彩相似损失，也可为该色彩绝对差值设置相应的权重系数，再将权重系数和色彩绝对差值之间的乘积作为色彩相似损失。示意性地，色彩相似损失的表达式可如下式(7)所示。

Loss_color＝|Lab(X_fake)-Lab(GT)|*λ_lab 式(7)

其中，Lab代表将一张图片从RGB色彩空间(第一色彩空间)调整到CIELAB colorspace空间(第二色彩空间)。X_fake表示预测人脸图像，GT表示第三样本人脸图像。λ_lab表示一个权重系数，可按需设置。

基于上述相似差异和判别差异可对图像处理模型进行训练，具体可包括以下步骤S604-S606。

S604，根据预测人脸图像与第三样本人脸图像之间的相似差异，构建相似损失，并根据预测人脸图像与第三样本人脸图像之间的判别差异，构建判别损失。

在一个实施例中，相似差异包括内容相似差异，可根据内容相似差异构建相似损失，具体可基于预测人脸图像与第三样本人脸图像之间的内容绝对差异构建相似损失。例如：将该内容绝对差值作为内容相似损失，相似损失可包括该内容相似损失。在另一个实施例中，相似差异不仅包括内容相似差异，还包括：感知相似差异、对抗相似差异、色彩相似差异中的一种或多种。那么，所构建的相似损失可包括内容相似损失，还可包括其他维度的相似损失。例如：相似损失包括：内容相似损失、感知相似损失、对抗相似损失、色彩相似损失。在一种可行的方式中，可将内容相似损失和其他维度的相似损失之和作为相似损失。示意性地，相似差异包括内容相似差异、感知相似损失、对抗相似损失以及色彩相似损失，那么相似损失可基于以上差异直接求和得到，相似损失的表达式可如下式(8)所示。

loss_sim＝L1+Loss_vgg+Loss_adv+Loss_color 式(8)

其中，L1表示内容相似损失，Loss_vgg表示感知相似损失，Loss_adv表示对抗相似损失，Loss_color表示色彩相似损失。对于各个相似差异可参见前述介绍的内容。可理解的是，为区别基于正样本组和伪样本组的训练，当处理的目标样本组是伪样本组时，前述有关相似损失的表达式中，对应的λ_l1、λ_vgg、λ_id可替换为λ_l1f、λ_vggf、λ_idf。在一种实现方式中，为减小伪样本组的影响，可将对应权重系数设置得较低，例如λ_l1f、λ_vggf、λ_idf均小于对应的λ_l1、λ_vgg、λ_id。此外，若目标样本组中包括的经过光影变换后的人脸图像，那么还可计算光影维度的相似损失。

通过多种维度的损失构建出相似损失，可从不同维度对预测人脸图像与第三样本人脸图像之间的相似度进行更为全面、精准的评估。该相似损失可从不同维度约束图像处理模型的训练，使得图像处理模型具备更好的融合处理能力，实现不同人脸图像之间更为自然的融合。

在一个实施例中，差异包括判别差异，根据预测人脸图像与第三样本人脸图像之间的判别差异，构建判别损失，包括：调用第二判别网络对预测人脸图像进行判别处理，得到第一判别结果；调用第二判别网络对第三样本人脸图像进行判别处理，得到第二判别结果；第一判别结果和第二判别结果共同表示判别差异；其中，判别损失L_D根据第一判别结果和第二判别结果构建得到。

判别结果用于指示所判别的图像的真实性，具体可以是所判别的图像属于真实人脸图像(或者说真实样本)的概率。该概率是0-1范围内的数值，0表示所判别的图像属于虚假人脸图像，1表示所判别的图像是真实人脸图像。对图像的判别以该真实人脸图像为基准，判别结果越接近于1，表示所判别的图像越接近于真实人脸图像，这表明所判别的图像与真实人脸图像之间的差异越小。反之，判别结果越接近于0，表示所判别的图像越远离真实人脸图像，这表明所判别的图像与真实人脸图像的差异越大。本申请中真实人脸图像是指第三样本人脸图像。具体地，第一判别结果用于表示预测人脸图像的真实性，具体可以是预测人脸图像属于第三人脸图像的概率。第二判别结果用于表示第三样本人脸图像的真实性，具体可以是第三人脸图像属于自身的概率。

第二判别网络和第一判别网络可以是不同网络参数的判别网络，例如：第二判别网络是第一判别网络的参数调整之前的网络，又例如：第二判别网络是对第一判别网络的网络参数调整之后得到的网络。

判别差异可通过第一判别结果和第二判别结果共同表示，基于第一判别结果和第二判别结果可构建判别损失。示意性地，对于判别损失的构建表达式，可如下式(9)所示。该判别损失可用于训练第二判别网络。

Loss_av2＝D₂(X_fake)*λ_advG+(1-D₂(GT))*λ_advD 式(9)

其中，D₂表示第二判别网络，λ_advG表示第一权重系数，λ_advD表示第二权重系数，以上两个权重系数可按需设置。X_fake表示预测人脸图像，GT表示第三样本人脸图像。

S605，基于相似损失和判别损失构建图像处理模型的联合损失。

在一个实施例中，构建得到的联合损失包括相似损失和判别损失。在另一个实施例中，构建联合损失所需的损失除了相似损失和判别损失，还可包括预测人脸图像和第一样本人脸图像之间的身份属性相似损失。对于联合损失的构建，还可包括以下内容：首先，可获取预测人脸图像和第一样本人脸图像之间的身份属性相似差异，然后基于该身份属性相似差异构建身份属性相似损失，并将身份属性相似损失添加至联合损失中。

具体地，预测人脸图像和第一样本人脸图像之间的身份属性相似差异可用于表示预测人脸图像和第一样本人脸图像之间所具备的身份属性的相似度，例如人脸中五官的相似度。身份属性相似差异越小，预测人脸图像和第一样本人脸图像之间所具备的身份属性的相似度越高，预测人脸图像和第一样本人脸图像在身份属性维度上所具备的图像内容的相似度越高，两者的身份属性越接近。反之，身份属性相似差异越大，预测人脸图像和第一样本人脸图像之间所具备的身份属性的相似度越低，预测人脸图像和第一样本人脸图像在身份属性维度上所具备的图像内容的相似度越低，两者的身份属性区别越大。

在一种实现方式中，预测人脸图像和第一样本人脸图像之间的身份属性相似差异的获取方式可包括：调用人脸识别网络对预测人脸图像进行识别处理，得到预测人脸图像对应的第一识别向量；调用人脸识别网络对第一样本人脸图像进行识别处理，得到第一样本人脸图像对应的第二识别向量；获取第一识别向量与第二识别向量之间的向量相似度，向量相似度用于表示身份属性相似差异；其中，身份属性相似损失L_ID根据向量相似度构建得到。

上述人脸识别网络诸如是：arcface网络、facenet网络，等等。人脸识别网络的权重也是固定的，即人脸识别网络是训练好的网络，具备较好的识别处理能力。预测人脸图像可作为人脸识别图像的输入，通过人脸识别网络的识别处理，该人脸识别网络可输出第一识别向量。同理，通过人脸识别网络对第一样本人脸图像的识别处理，可得到第二样本人脸图像的第二识别向量。接着，可计算第一识别向量和第二识别向量之间的向量相似度；例如：两个向量之间的余弦相似度，又例如：1减去该余弦相似度的结果。身份属性相似差异可通过该向量相似度表示。若该向量相似度为余弦相似度，那么该余弦相似度越大，表明两个向量之间越接近，从而表示预测人脸图像与第一样本人脸图像之间越相似，身份属性相似差异越小。

可将身份属性相似差异作为身份属性相似损失，采用上述方式计算出的向量相似度可构建身份属性相似损失。示意性地，若采用余弦相似度，那么身份属性相似损失的表达式可如下式(10)所示。

loss_ID＝(1-cos(arcface(X_fake),arcface(X_s)))*λ_id 式(10)

其中，arcface代表了一个人脸识别网络，其权重是固定的，a(·)表示人脸识别网络输出的识别向量。Cos代表计算两个识别向量之间的相似度，其值为0-1的范围，1代表相似度最高，0代表相似度最低。γ_id表示一个系数，可以按需设置。

得到的身份属性相似损失可被添加至联合损失，此处的添加是指：基于相似损失、判别损失以及身份属性相似损失构建联合损失。具体地，该身份属性相似损失和相似损失可作为用于训练生成网络的损失。

基于相似损失所包含的多维度的损失、身份属性相似损失、判别损失，可综合多种维度的损失构建出联合损失，并将其用于对图像处理模型的训练中，以进一步优化图像处理模型的参数的更新，提升图像处理模型对人脸图像的融合能力，从而在应用中输出更加真实、自然的融合图像。

S606，按照减小联合损失的方向，对图像处理模型的模型参数进行更新直至图像处理模型达到收敛，得到训练好的图像处理模型。

在图像处理模型的一次训练中，减小联合损失可以是减小相似损失以及身份属性相似损失，或者减小判别损失。在一个实施例中，图像处理模型包括生成网络和判别网络。按照S607的实现方式可对该生成网络和判别网络进行训练，从而得到训练好的图像处理模型。

基于联合损失训练图像处理模型的训练可按照以下方式执行：保持判别网络的参数不变化，按照减小相似损失和身份属性相似损失的方向，对生成网络的参数进行更新；以及，保持生成网络的参数不变化，按照减小判别损失的方向，对判别网络的参数进行更新；对生成网络的参数和判别网络的参数之间进行交替更新，直至生成网络与判别网络均达到收敛，得到训练好的图像处理模型。

在对图像处理模型的训练中，可采用交替迭代的方式训练其所包含的生成网络和判别网络。具体地，在训练生成网络阶段，保持判别网络的参数不变，采用相似损失和身份属性相似损失构建出用于训练生成网络的第一损失，并将其反向传播给生成网络，以更新生成网络的参数。此处身份属性相似损失可以是基于第一判别网络对预测人脸图像进行判别得到的判别结果构建。在训练判别网络时，保持生成网络的参数不变，可将判别损失反向传播给判别网络，以更新判别网络的参数。此处所更新的判别网络可以是第二判别网络。

在图像处理模型的一次训练中，可使用联合损失包括的相似损失和身份属性相似损失作为反向传播参数来训练生成网络，而判别网络不参与本次的训练，仅作为对生成网络训练的辅助(即对生成网络输出的预测人脸图像进行判别)。或者，可使用联合损失所包括的判别损失作为反向传播参数来训练判别网络，而生成网络所生成的预测人脸图像用于作为判别网络的训练样本。这样，在不同次训练中对判别网络和生成网络进行交替迭代训练，不同网络的参数也可被交替更新，在两个网络均达到收敛时，可得到训练好的图像处理模型。

对于生成网络和判别网络交替迭代训练的顺序，本申请在此不做限制，例如：可先训练判别网络，固定生成网络，在判别网络训练好之后，再训练生成网络，固定判别网络。

在训练判别网络时，期望判别网络对真假样本进行较为准确的判别，可采用生成网络输出的预测人脸图像作为虚假样本，第三样本人脸图像作为真实样本，然后为虚假样本打上标签(label)0，给真实样本分别打上标签(label)1，再将真实样本和虚假样本送入判别网络进行训练，训练完的判别网络对真实样本的判别结果接近于1，对虚假样本的判别结果接近0。在训练生成网络时，期望生成网络生成尽可能逼真的图像，而图像的逼真程度即可借助于训练好的判别网络进行判别得到，因此，在训练生成网络时，可联合判别网络实现。在此阶段，对于生成网络生成的预测人脸样本，可为其打上标签1，即暂且认为在生成网络训练过程中产生的预测人脸样本为真实样本，然后，通过判别网络判别来得到对抗损失，进而对生成网络进行训练。例如：判别网络判别预测人脸图像的结果接近于0，但是该预测人脸图像的标签却为1，那么会形成较大的对抗损失并将其反向传播给生成网络，从而对生成网络的参数进行较大的更新。反之，判别网络判别预测人脸图像的结果接近于1，该预测人脸图像的标签为1，那么对抗损失较小，对生成网络的参数也是微调。这样，便可将预测人脸图像向着真实的第三样本人脸图像逐渐逼近，得到新的生成网络。接着，新的生成网络可应用于生成新的预测人脸图像，得到新的虚假样本，只是该虚假样本相比于之前的虚假样本会更加真实，结合新的虚假样本和已有的真实样本，便可重复上述训练过程，依次交替迭代训练，最终得到的图像处理模型便可包括训练好的生成网络。

基于上述所描述的训练样本中目标样本组的构建以及模型的训练，可提供图7b所示的模型训练的框架示意图。在训练数据集准备阶段，可建立素材场景数据集dataA、第一身份数据集dataB、参考数据集dataC以及第二身份数据集dataD；调用身份迁移模型对素材场景数据集dataA中的人脸图像和第一身份数据集dataB中的人脸图像进行融合处理。然后，可基于素材场景数据集dataA、第一身份数据集dataB、参考数据集dataC构建正样本组，基于素材场景数据集dataA、第一身份数据集dataB、参考数据集dataC以及第二身份数据集dataD构建伪样本组，具体构建方式可参见图4实施例对应介绍的内容。接着可基于按照一定概率混合正样本组和伪样本组，并将其用于训练图像处理模型中的生成网络以及判别网络，进而得到训练好的图像处理模型。

可见，本申请实施例中图像处理模型可基于生成对抗网络训练，得到用于变换对象的身份属性的通用的生成网络，基于该生成网络可将任意源人脸图像与任意目标人脸图像融合，从而将任意源人脸图像具备的身份属性变换至目标人脸图像上。这样，一个图像处理模型便可应用于任意身份属性的源人脸图像的身份迁移任务上，极大地扩展模型的应用场景，提升模型的利用率，还可节省训练资源。此外，基于丰富且准确的训练样本进行模型训练，以及在模型训练过程中对图像处理模型所参考的多维度的差异，训练好的图像处理模型对于一些比较复杂场景下的人脸图像(例如表情快速变化的场景下的目标人脸图像)，源人脸图像与该目标人脸图像也能够实现较为自然的融合，自然的完成换脸，从而得到更加真实的融合图像。

请参见图8，是本申请一个示例性实施例提供的一种应用训练好的图像处理模型进行融合处理的流程示意图。该方法可以由计算机设备(如图1所示系统中的计算机设备102，其部署有训练好的图像处理模型)来执行，该方法可以包括以下步骤：

S801，获取待处理的源人脸图像和目标人脸图像。

源人脸图像可以是具备任意身份属性的人脸图像，即任意对象的人脸图像。获取源人脸图像的实现方式包括以下至少一种：从计算机设备的本地存储空间中获取，基于计算机设备的拍摄功能实时拍摄得到，从获取到的视频中截取包含人脸的视频图像。

目标人脸图像具备目标身份属性，目标身份属性所表示的目标对象与源人脸图像中身份属性所表示的对象可以不同。在一种实现方式中，目标人脸图像包括但不限于以下①-⑥任一种。

①目标人脸图像包括一种或多种风格下的素材人脸图像；其中，风格包括但不限于：古装风格、二次元风格、现实主义风格、极简风格、田园风格，等等。风格是指人物图像中的特点，可通过图像中的背景、对象装扮等区别。例如：在古装风格下，对象的装扮为古代的服饰、头饰等。又例如：在二次元风格下，包括二次元人物的装扮。一种风格下可包括至少一个素材人脸图像，目标人脸图像可包括一个人脸图像，目标人脸图像可包括任一种风格下的任意素材人脸图像。目标人脸图像也可包括多个，目标人脸图像也可包括多种风格下分别对应的任意素材人脸图像或者同一风格下的多个素材人脸图像。举例来说，古装风格下的任一素材人脸图像、二次元风格下的任一素材人脸图像以及田园风格下的任一素材人脸图像均可作为目标人脸图像。

②目标人脸图像包括对素材人脸图像进行个性化编辑得到的人脸图像。任意素材人脸图像可支持个性化编辑，此处的个性化编辑包括但不限于：光影编辑、表情编辑、场景编辑、装饰编辑以及动作编辑。编辑可包括添加、修改以及删除中的任一种或多种。光影编辑例如是对素材人脸图像中原有的光影进行调整，或者为素材人脸图像添加光影，或者删除原有的光影。表情编辑例如是修改素材人脸图像中人脸的表情，如将大笑的表情修改为大哭的表情。场景编辑例如是修改素材人脸图像中对象所处的背景，例如将海滩的背景修改为草坪的背景。装饰编辑例如是添加新的装饰，如给素材人脸图像中的对象变换服装，或者去除素材人脸图像中已有的装饰，如去掉将素材人脸图像中的对象的眼镜。动作编辑例如是修改素材人脸图像中对象的动作姿态，例如将挥手的动作改为跳跃的动作。素材人脸图像可应用上述一种或多种个性化编辑，得到编辑后的素材人脸图像，如素材人脸图像不仅改变了表情，还更换了场景。个性化编辑后的素材人脸图像可作为目标人脸图像，用于和源人脸图像进行融合。通过个性化编辑，可使得素材人脸图像被定制化，以满足对象的个性化需求，提升融合的趣味性。

③目标人脸图像是视频中的一个或多个视频帧图像；④目标人脸图像是从视频帧图像中截取到的包含指定对象人脸的图像。视频可包括顺序排列的K个视频帧图像，K为大于2的整数。所谓视频帧图像是指视频中的一帧图像。在一种实现方式中，任一视频帧图像具备身份属性，即视频帧图像中包含该身份属性所表示的对象，那么K个视频帧图像中的一个或多个视频帧图像均可被作为目标人脸图像，具体可覆盖视频中所有视频帧图像或者部分视频帧图像。在另一种实现方式中，K个视频帧图像中具备身份属性的一个或多个视频帧图像可被作为目标人脸图像。基于以上任一方式，目标人脸图像可包括一个或多个视频帧图像。

对于视频中的任一个视频帧图像可具备至少一个身份属性，身份属性可表示视频帧图像中的对象，也即，视频帧图像包括至少一个对象。可对视频帧图像进行人脸识别处理，得到所包含的指定对象，指定对象可以是至少一个对象中的任一对象，可由具有融合需求的对象指定或者由系统随机指定。示意性地，可提供选择指定对象的功能，例如提供对象名称，通过选择对象名称可指定对象。接着，可对视频帧图像中包含该指定对象的人脸图像区域进行截取，并将截取到的图像作为目标人脸图像。由此，得到的目标人脸图像是从视频帧图像中截取到的包含指定对象人脸的图像。

⑤目标人脸图像是包含真实对象人脸的图像；⑥目标人脸图像是包含虚拟对象人脸的图像。按照对象人脸属性进行区别，目标人脸图像可以是包括真实对象人脸的图像，或者包含虚拟对象人脸的图像。所谓真实对象人脸是指真实对象的人脸，真实对象是指真实世界中的对象，例如真实世界中的人。所谓虚拟对象人脸是指虚拟对象的人脸，虚拟对象是指虚拟世界中的对象，例如动漫人物。

S802，调用训练好的图像处理模型对源人脸图像与目标人脸图像进行融合处理，得到融合图像。

在一个实现方式中，源人脸图像和目标人脸图像均是经过人脸对齐后，再被输入图像处理模型中进行融合处理的。训练好的图像处理模型包括训练好的生成网络，通过训练好的生成网络对源人脸图像处理可得到源属性特征，以及对目标人脸图像进行处理可得到目标属性特征。源属性特征可用于表示源人脸图像中的身份属性，以及目标属性可用于表示目标人脸图像中的非身份属性。将源属性特征和目标属性特征进行融合，可得到目标融合特征，进而基于目标融合特征可生成融合图像。融合图像具备源人脸图像中的身份属性，且具备目标人脸图像中的非身份属性。这样，融合图像与源人脸图像具备相同的身份属性，且融合图像与目标人脸图像具备相同的非身份属性，实现了源人脸图像至目标人脸图像的身份迁移。

S803，将融合图像与目标人脸图像进行对齐处理，得到结果图像。

由于源人脸图像和目标人脸图像均经过人脸对齐，融合处理也是处理的经过人脸对齐后的人脸图像，因此，调用图像处理模型融合得到的融合图像与目标人脸图像对于人脸的呈现角度可能不同。为完全还原出与目标人脸图像相同的人脸的呈现角度，可将融合图像和目标人脸图像进行对齐处理。

具体地，对于融合图像和目标人脸图像的对齐处理逻辑可以是：获取目标人脸图像经过人脸对齐处理所使用的对齐参数，该对齐参数例如是对齐矩阵。然后，再基于该对齐参数对融合图像进行反向人脸对齐处理，得到结果图像，该结果图像与目标人脸图像便是相同人脸角度的图像。在直观的效果上，结果图像与目标人脸图像之间的区别在于脸部所包括的五官的形态上的区别。

在一个实施例中，目标人脸图像支持被多个协作者进行协作融合。通过协作融合可使得不同身份属性的多个源人脸图像与同一个目标人脸图像中的不同人脸进行融合，或者，不同身份属性的多个源人脸图像与属于同一视频的不同目标人脸图像。对于协作融合包括但不限于以下(1)和(2)所介绍的内容。

(1)目标人脸图像包含P个人脸图像，源人脸图像包括多个协作者分别上传的P个源人脸图像。其中，P为大于1的整数。即目标人脸图像的数量为至少两个，源人脸图像的数量与目标人脸图像的数量相同。P个目标人脸图像和P个源人脸图像之间的融合可由至少两个协作者协作完成。

协作融合是指：将目标人脸图像中的一个人脸图像与一个源人脸图像进行融合处理，得到P个结果图像。P个结果图像中每个结果图像具备相应源人脸图像中的身份属性。

不同结果图像具备的身份属性可相同或不同，这取决于相应源人脸图像具备的身份属性是否相同。示例性地，如图9a所示的协作融合的示意图。目标人脸图像包括同一视频中的2个人脸图像(包括人脸图像P_T1、人脸图像P_T2)，协作者A上传有源人脸图像P_S1且人脸图像P_S1具备身份属性DT1)，协作者B上传有源人脸图像P_S2且源人脸图像P_S2具备身份属性DT2。那么，一个人脸图像与一个源人脸图像可对应进行融合处理，可得到2张结果图像，包括：人脸图像P_T1与源人脸图像P_S1进行融合处理得到的结果图像P_R1，人脸图像P_T2与源人脸图像P_S2进行融合处理得到的结果图像P_R2。结果图像P_R1具备源人脸图像P_S1中的身份属性DT1，结果图像P_R2具备源人脸图像P_S2中的身份属性DT2。

(2)目标人脸图像中包含Q个对象，源人脸图像包括多个协作者分别上传的Q个源人脸图像。其中，Q为大于1的整数。一张目标人脸对象可包含至少两个对象，具体可包含至少两个对象分别对应的人脸图像区域。Q个源人脸图像可以包括每个协作者的一个或多个源人脸图像。例如包括协作者A的2个源人脸图像，以及包括协作者B的1个源人脸图像。一个协作者的源人脸图像支持与一个或多个对象的人脸图像区域进行融合。源人脸图像所支持融合的人脸图像区域对应的对象可由协作者指定或者系统为协作者随机分配。

协作融合是指：将目标人脸图像中一个对象对应的人脸图像区域与一个源人脸图像进行融合处理，得到结果图像；结果图像具备Q个源人脸图像中的身份属性。

与相同对象对应的人脸图像区域进行融合的源人脸图像具备相同身份属性。与不同对象对应的人脸图像区域进行融合的源人脸图像可具备相同身份属性或不同身份属性。示例性地，如图9b所示的协作融合的示意图。目标人脸图像中包含2个对象(包括对象A_T和对象B_T)的人脸图像区域，源人脸图像包括协作者A_s的源人脸图像以及协作者B_s的源人脸图像。可将协作者A_s的源人脸图像与目标人脸图像中的对象A_T的人脸图像区域进行融合，将协作者B_s的源人脸图像与对象B_T的人脸图像区域进行融合，从而得到结果图像，该结果图像同时具备2个源人脸图像中的身份属性。在直观表示上，例如：结果图像包括两个对象的人脸区域，一个对象的人脸图像区域中包括协作者A_s的源人脸图像中的人脸，另一个人脸图像区域中包括协作者B_s的源人脸图像的人脸。

上述任一协作融合方式得到的结果图像可以图像或者视频的方式分别输出给各个协作者。通过协作融合可为不同协作者提供更加高效地融合，还可提升互联场景下融合的趣味性和互动性，增强不同对象之间的交流。

S804，输出结果图像。

该结果图像可以是不同协作者进行协作融合得到的，也可以是采用非协作的方式融合得到的。示意性地，训练好的图像处理模型用于为任一应用程序提供身份迁移功能，应用程序提供至少一个人脸图像，那么应用程序的对象可选择人脸图像，且所选择的人脸图像可被作为目标人脸图像，应用程序的对象还可通过应用程序上传本地照片或者实时拍照上传图片，从而得到源人脸图像。然后可调用训练好的图像处理模型对目标人脸图像和源人脸图像进行融合，进而输出结果图像。

在一个实施例中，目标人脸图像的数量为M，结果图像的数量为M，M为正整数；当M>1时，输出结果图像可以包括以下方式1和方式2。

方式1、按照预设显示方式显示M个结果图像。

M个目标人脸图像与源人脸图像可分别进行融合处理，得到M个结果图像。M个目标人脸图像可具备相同身份属性，例如来自同一视频的人脸图像，且各个人脸图像包含同一对象的人脸。基于此，融合得到的M个结果图像也可以具备相同身份属性。M个目标人脸图像也可具备不同身份属性，例如5个目标人脸图像是分别来自五种风格下的素材人脸图像，且不同素材人脸图像包括不同对象的人脸。基于此，融合得到的M个结果图像具备对应目标人脸图像中的身份属性，不同结果图像具备的身份属性可不同。

计算机设备可按照预设显示方式直接显示融合得到的M个结果图像。在一种可行的实现方式中，预设显示方式包括以下(1)至(4)任一种。

(1)排列显示M个结果图像。此处的排列显示包括但不限于：按照结果图像的大小进行顺序排列显示、按照结果图像的生成时间点进行顺序排列显示、按照融合结果图像所使用的素材人脸图像所属的风格分类显示、随机排列显示，等等。示意性地，如图9c为排列显示的结果图像的示意图。包括3个随机排列显示的结果图像。

(2)轮流显示M个结果图像。在一实现方式中，可为每个结果图像设置显示时长，每个结果图像的显示时长可相同或不同。按照对应结果图像的显示时长可轮流显示M个结果图像。示意性地，结果图像包括图像P1、图像P2以及图像P3，按照图像P1—>图像P2—>图像P3的轮流顺序，相应显示时长的到达可将当前显示的图像切换为相应顺序的图像，如当前所显示的图像P2的显示时长(如1秒)达到，可显示图像P3，达到图像P3的显示时长(如2秒)，可显示图像P1，达到图像P1的显示时长(如1秒)，可显示图像P2……以此循环来轮流显示各个结果图像。在另一实现方式中，还可为每个结果图像设置显示时间区间，设有相同显示时间区间的结果图像可同时显示，设有不同显示时间区间的结果图像可轮流显示。通过轮流显示可自动展示各个结果图像。示意性地，如图9d为轮流显示的结果图像的示意图。在轮流显示时，还可暂停查看当前显示的结果图像。

(3)显示M个结果图像对应的缩略图像。结果图像对应的缩略图像是对结果图像经过压缩处理后的图像。该缩略图像可包含指向结果图像的信息。触发所显示的任一缩略图像，可完整地显示对应结果图像。通过缩略图像可快速地预览所生成的结果图像。示意性地，如图9e为显示结果图像的缩略图像的示意图。

(4)显示M个结果图像中的任一结果图像，并根据接收到的切换指令切换显示M个结果图像。切换指令是基于对象的切换需求产生的，例如对象发起滑动手势操作，即可产生该切换指令。通过切换指令可将当前显示的结果图像切换为M个结果图像中的任一对象进行显示。如上述图9d所示的结果图像可被对象手动切换。

以上显示方式为结果图像的输出提供了更为多样化的方式，进而使得结果图像的呈现方式更为丰富。

方式2、根据M个目标人脸图像在视频中的播放顺序，对M个结果图像转换为视频序列进行输出。

M个目标人脸图像可以包括视频中连续的视频帧图像或者非连续的视频帧图像。在一种实现方式中，M个结果图像可对该视频中对应的目标人脸图像进行替换，得到一个视频序列进行输出。此时，该视频序列不仅包括M个结果图像，还包括视频中除M个目标人脸图像之外的视频帧图像。在另一种实现方式中，可以直接将M个结果图像组合为一个视频序列进行输出，此时，该视频序列中包括M个结果图像而不包括目标人脸图像所属视频的其他视频帧图像。对于任一方式下生成的视频序列，M个结果图像在视频序列中的播放顺序与M个目标人脸图像在视频中的播放顺序相同或者不同(如相反)。对于播放顺序的反向设置可提升视频序列制作的趣味性。示例性地，请参见图9f所示的视频序列的示意图。其中视频序列1是结果图像以目标人脸图像所属视频中的其他图像所构成，视频序列2则是由结果图像构成。

在一个实施例中，结果图像支持个性化编辑，此处个性化编辑包括但不限于：光影编辑、表情编辑、场景编辑、装饰编辑以及动作编辑。在结果图像输出之前或之后，还可以：对结果图像或编辑后的结果图像进行分享。编辑后的结果图像例如是经过场景变换后的结果图像。对于结果图像或者编辑后的结果图像的分享方式包括但不限于：发送至不同的应用程序的对象，发布至不同应用程序中(例如以图文形式发布该结果图像)、压缩后分享，等等。示意性地，如图9g所示的个性化编辑的示意图，在得到结果图像之后，可显示编辑控件，并在点击该编辑控件可选择相应的个性化编辑，编辑结果图像。

基于上述训练好的图像处理模型的应用，可提供如图10所示的应用训练好的图像处理模型进行融合处理的流程示意图。示意性地，源人脸图像可以是对象上传的一张自拍图(包括对象自己的人脸)。该源人脸图像经过人脸对齐后，与经过人脸对齐的目标人脸图像(例如任意素材人脸图像)一起送入生成网络器，获得一个输出，即融合图像，然后可将该融合图像反对齐到目标人脸图像，获得最终结果图像，且该结果图像可以通过图片或者视频的方式输出。相比于目标人脸图像，此结果图像的身份属性已经变为了源人脸图像中的身份属性，但是其他与目标人脸图像保持相同。

本申请实施例提供应用训练好的图像处理模型，可将任意待处理的源人脸图像和任意目标人脸图像进行融合处理，得到融合图像，实现源人脸图像中对象的身份迁移至目标人脸图像中。由于人脸对齐可能改变目标人脸图像中的非身份属性，如人脸的呈现角度，影响最终输出呈现。为此，可通过将融合图像与目标人脸图像进行对齐处理，使得融合图像贴回与目标人脸图像相同的角度，得到更加自然、真实的结果图像。这样，直观上对比目标人脸图像和输出的结果图像，便是变换了目标人脸图像中的身份属性而保持非身份属性，融合效果自1110结果图像最终可以直接输出或者以视频序列的方式输出，提供了较为丰富的输出方式。

接下来对本申请实施例所提供的模型训练装置进行相关阐述。

请参见图11，图11是本申请一个示例性实施例提供的一种模型训练装置的结构示意图。上述模型训练装置可以是运行于计算机设备(如图1所示的模型训练系统中的任一终端设备)的一个计算机程序(包括程序代码)，例如该模型训练装置为一个应用软件；该模型训练装置可以用于执行本申请实施例提供的模型训练方法中的相应步骤。如图11所示，该模型训练装置1100包括：获取模块1101、处理模块1102、训练模块1103、输出模块1104以及分享模块1105。

获取模块1101，用于获取训练样本，训练样本包括目标样本组，目标样本组中包括第一样本人脸图像、第二样本人脸图像和第三样本人脸图像；第三样本人脸图像用于为第一样本人脸图像和第二样本人脸图像之间的融合处理提供参考；

处理模块1102，用于调用图像处理模型对目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像；预测人脸图像具备第一样本人脸图像中的身份属性，且具备第二样本人脸图像中的非身份属性；

训练模块1103，用于基于预测人脸图像与第三样本人脸图像之间的差异对图像处理模型进行训练，训练好的图像处理模型用于对任意源人脸图像与任意目标人脸图像进行融合处理。

在一个实施例中，获取模块1101，用于：构建训练数据集，训练数据集包括素材场景数据集、第一身份数据集、第二身份数据集和参考数据集；基于训练数据集构建训练样本；其中，素材场景数据集中包括N₁个素材人脸图像；第一身份数据集包括N₂个身份标识，N₂个身份标识中的每个身份标识均对应一个图像组；任一个图像组均由多个人脸图像组成，且任一个图像组中的各人脸图像均具备相应身份标识所指示的身份属性；第一身份数据集中属于不同图像组的人脸图像具备不同身份属性；第二身份数据集包括N₃个身份标识，N₃个身份标识中的每个身份标识均对应一个人脸图像，且第二身份数据集中的任一个人脸图像具备相应身份标识所指示的身份属性；第二身份数据集中不同的人脸图像具备不同的身份属性；参考数据集包括N₄个参考人脸图像；参考数据集中的任一个参考人脸图像X_4-i是对第一身份数据集中的任一个身份标识对应图像组中的任一个人脸图像X_2-j与素材场景数据集中的任一个素材人脸图像X_1-k进行融合处理得到的；参考人脸图像X_4-i具备人脸图像X_2-j对应的身份标识所指示的身份属性，且具备素材人脸图像X_1-k中的非身份属性；其中，N₁、N₂、N₃以及N₄为正整数，i为小于或等于N₄的正整数，j为小于或等于N₂的正整数，k为小于或等于N₁的正整数。

在一个实施例中，训练样本包括至少一个正样本组，目标样本组是训练样本中的任一个正样本组；获取模块1101，用于：从第一身份数据集中选择身份标识ID_s和身份标识ID_t，并从身份标识ID_s对应的图像组中选择一个人脸图像X_s；从素材场景数据集中随机选择一个素材人脸图像；从参考数据集中获取参考人脸图像GT和参考人脸图像X_t；其中，参考人脸图像GT是由身份标识ID_s对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；参考人脸图像X_t是由身份标识ID_t对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；基于人脸图像X_s、参考人脸图像X_t和参考人脸图像GT，构建目标样本组；

其中，人脸图像X_s为目标样本组中的第一样本人脸图像，参考人脸图像X_t为目标样本组中的第二样本人脸图像，参考人脸图像GT为目标样本组中的第三样本人脸图像；或者，对人脸图像X_s和参考人脸图像X_t分别进行光影变换，光影变换后的人脸图像X_s为目标样本组中的第一样本人脸图像，光影变换后的参考人脸图像X_t为目标样本组中的第二样本人脸图像，参考人脸图像GT为目标样本组中的第三样本人脸图像。

在一个实施例中，训练样本包括至少一个伪样本组，目标样本组是训练样本中的任一个伪样本组；获取模块1101，用于：从第一身份数据集中选择身份标识ID_s和身份标识ID_t；从素材场景数据集中随机选择一个素材人脸图像；从参考数据集中获取参考人脸图像GT_fake和参考人脸图像X_t；参考人脸图像GT_fake是由身份标识ID_s对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；参考人脸图像X_t是由身份标识ID_t对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；从第二身份数据集中选择一个人脸图像X_sfake；基于人脸图像X_sfake、参考人脸图像X_t和参考人脸图像GT_fake，构建目标样本组；

其中，人脸图像X_sfake为目标样本组中的第一样本人脸图像，参考人脸图像X_t为目标样本组中的第二样本人脸图像，参考人脸图像GT_fake为目标样本组中的第三样本人脸图像；或者，对人脸图像X_sfake和参考人脸图像X_t分别进行光影变换，光影变换后的人脸图像X_sfake为目标样本组中的第一样本人脸图像，光影变换后的参考人脸图像X_t为目标样本组中的第二样本人脸图像，参考人脸图像GT_fake为目标样本组中的第三样本人脸图像。

在一个实施例中，获取模块1101，用于获取预测人脸图像与第三样本人脸图像之间的差异，差异包括相似差异和判别差异；训练模块1103，用于：根据预测人脸图像与第三样本人脸图像之间的相似差异，构建相似损失；根据预测人脸图像与第三样本人脸图像之间的判别差异，构建判别损失；基于相似损失和判别损失构建图像处理模型的联合损失；按照减小联合损失的方向，对图像处理模型的模型参数进行更新直至图像处理模型达到收敛条件，得到训练好的图像处理模型；其中，相似差异包括内容相似差异；或者，相似差异包括内容相似差异及以下至少一项：感知相似差异、对抗相似差异、色彩相似差异。

在一个实施例中，差异包括相似差异；获取模块1101，用于：计算预测人脸图像与第三样本人脸图像之间的内容绝对差值，内容绝对值差用于表示内容相似差异；其中，相似损失包括内容相似损失L1，内容相似损失L1根据内容绝对差值构建得到。

在一个实施例中，差异包括相似差异，相似差异还包括感知相似差异；获取模块1101，用于：调用固定权重网络对预测人脸图像进行内容识别处理，得到预测人脸图像对应的第一识别结果；调用固定权重网络对第三样本人脸图像进行内容识别处理，得到第三样本人脸图像对应的第二识别结果；获取预测人脸图像对应的第一识别结果与第三样本人脸图像对应的第二识别结果之间的感知绝对差值；感知绝对值差用于表示感知相似差异；其中，相似损失包括感知相似损失L_vgg，感知相似损失L_vgg根据感知绝对差值构建得到。

在一个实施例中，差异包括相似差异，相似差异还包括对抗相似差异；获取模块1101，用于：调用第一判别网络对预测人脸图像进行判别处理，得到对抗结果，对抗结果用于表示对抗相似差异；其中，相似损失包括对抗相似损失L_adv，对抗相似损失L_adv根据对抗结果构建得到。

在一个实施例中，差异包括相似差异，相似差异还包括色彩相似差异；获取模块1101，用于：将预测人脸图像从第一色彩空间变换至第二色彩空间，得到预测人脸在第二色彩空间中的第一图像信息；将第三样本人脸图像从第一色彩空间变换至第二色彩空间，得到第三样本人脸图像在第二色彩空间中的第二图像信息；计算第一图像信息与第二图像信息之间的色彩绝对差值；色彩绝对值差用于表示色彩相似差异；其中，相似损失包括色彩相似损失L_{color_lab}，色彩相似损失L_{color_lab}根据色彩绝对差值构建得到。

在一个实施例中，获取模块1101，用于：获取预测人脸图像与第一样本人脸图像之间的身份属性相似差异；根据身份属性相似差异构建身份属性相似损失；将身份属性相似损失添加至联合损失中。

在一个实施例中，获取模块1101，用于：调用人脸识别网络对预测人脸图像进行识别处理，得到预测人脸图像对应的第一识别向量；调用人脸识别网络对第一样本人脸图像进行识别处理，得到第一样本人脸图像对应的第二识别向量；获取第一识别向量与第二识别向量之间的向量相似度，向量相似度用于表示身份属性相似差异；其中，身份属性相似损失L_ID根据向量相似度构建得到。

在一个实施例中，差异包括判别差异，获取模块1101，用于：调用第二判别网络对预测人脸图像进行判别处理，得到第一判别结果；调用第二判别网络对第三样本人脸图像进行判别处理，得到第二判别结果；第一判别结果和第二判别结果共同表示判别差异；其中，判别损失L_D根据第一判别结果和第二判别结果构建得到。

在一个实施例中，图像处理模型包括生成网络和判别网络，训练模块1103，用于：保持判别网络的参数不变化，按照减小相似损失和身份属性相似损失的方向，对生成网络的参数进行更新；以及，保持生成网络的参数不变化，按照减小判别损失的方向，对判别网络的参数进行更新；对生成网络的参数和判别网络的参数之间进行交替更新，直至生成网络与判别网络均达到收敛条件，得到训练好的图像处理模型。

在一个实施例中，获取模块1101，用于：获取待处理的源人脸图像和目标人脸图像；处理模块1102，用于：调用训练好的图像处理模型对源人脸图像与目标人脸图像进行融合处理，得到融合图像；融合图像具备源人脸图像中的身份属性，且具备目标人脸图像中的非身份属性；以及将融合图像与目标人脸图像进行对齐处理，得到结果图像；输出模块1104，用于输出结果图像。

在一个实施例中，目标人脸图像包括以下至少一种：目标人脸图像包括一种或多种风格下的素材人脸图像；目标人脸图像包括对素材人脸图像进行个性化编辑得到的人脸图像；目标人脸图像是视频中的一个或多个视频帧图像；目标人脸图像是从视频帧图像中截取到的包含指定对象人脸的图像；目标人脸图像是包含真实对象人脸的图像；目标人脸图像是包含虚拟对象人脸的图像；其中，风格包括以下至少一种：古装风格、二次元风格、现实主义风格、极简风格、田园风格；个性化编辑包括以下至少一种：光影编辑、表情编辑、场景编辑、装饰编辑以及动作编辑。

在一个实施例中，目标人脸图像的数量为M，结果图像的数量为M，M为正整数；当M>1时，输出模块1104，用于：按照预设显示方式显示M个结果图像；或者，根据M个目标人脸图像在视频中的播放顺序，对M个结果图像转换为视频序列进行输出；其中，预设显示方式包括以下任一种：排列显示M个结果图像；轮流显示M个结果图像；显示M个结果图像对应的缩略图像；显示M个结果图像中的任一结果图像，并根据接收到的切换指令切换显示M个结果图像。

在一个实施例中，结果图像支持个性化编辑；分享模块1105，还用于：对结果图像或编辑后的结果图像进行分享。

在一个实施例中，目标人脸图像支持被多个协作者进行协作融合；

目标人脸图像包含P个人脸图像，源人脸图像包括多个协作者分别上传的P个源人脸图像；协作融合是指：将目标人脸图像中的一个人脸图像与一个源人脸图像进行融合处理，得到P个结果图像；其中，P为大于1的整数，P个结果图像中每个结果图像具备相应源人脸图像中的身份属性；或者，

目标人脸图像中包含Q个对象，源人脸图像包括多个协作者分别上传的Q个源人脸图像；协作融合是指：将目标人脸图像中一个对象对应的人脸图像区域与一个源人脸图像进行融合处理，得到结果图像；其中，Q为大于1的整数；一个协作者的源人脸图像支持与一个或多个对象的人脸图像区域进行融合；结果图像具备Q个源人脸图像中的身份属性。

可以理解的是，本申请实施例所描述的模型训练装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

接下来对本申请实施例所提供的计算机设备进行相关阐述。

请参见图12，图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示，该计算机设备1200具体可以包括输入设备1201、输出设备1202、处理器1203、存储器1204、网络接口1205和至少一个通信总线1206。其中：处理器1203可以是中央处理器(Central Processing Unit，CPU)。处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(Programmable Logic Device，PLD)等。上述PLD可以是现场可编程逻辑门阵列(Field-Programmable Gate Array，FPGA)，通用阵列逻辑(Generic Array Logic，GAL)等。

存储器1204可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random-Access Memory，RAM)；存储器1204也可以包括非易失性存储器(Non-VolatileMemory)，例如快闪存储器(Flash Memory)，固态硬盘(Solid-State Drive，SSD)等；存储器1204可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。存储器1204可选的还可以是至少一个位于远离前述处理器1203的存储装置。存储器1204还可以包括上述种类的存储器的组合。如图12所示，作为一种计算机可读存储介质的存储器1204中可以包括操作系统、网络通信模块、接口模块以及设备控制应用程序。

网络接口1205可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口作为通信接口，可用于提供数据通信功能；通信总线1206负责连接各个通信元件；输入设备1203接收对象输入的指令，以产生与计算机设备的对象设置以及功能控制有关的信号输入，在一个实施例中，输入设备1203包括但不限于触控面板、物理键盘或虚拟键盘(Keyboard)、功能键、鼠标等中的一种或多种；输出设备1202用于输出数据信息，在本申请实施例中输出设备1202可用于播放视频等，输出设备1202可以包括显示屏(Display)或其他显示设备；处理器1203是计算机设备的控制中心，由各种接口和线路连接整个计算机设备的各个部分，通过调度运行存储在存储器1204中的计算机程序，执行各种功能。

其中，处理器1203可以用于调用存储器1204中的计算机程序，以执行如下操作：获取训练样本，训练样本包括目标样本组，目标样本组中包括第一样本人脸图像、第二样本人脸图像和第三样本人脸图像；第三样本人脸图像用于为第一样本人脸图像和第二样本人脸图像之间的融合处理提供参考；调用图像处理模型对目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像；预测人脸图像具备第一样本人脸图像中的身份属性，且具备第二样本人脸图像中的非身份属性；基于预测人脸图像与第三样本人脸图像之间的差异对图像处理模型进行训练，训练好的图像处理模型用于对任意源人脸图像与任意目标人脸图像进行融合处理。

在一个实施例中，处理器1203，用于：构建训练数据集，训练数据集包括素材场景数据集、第一身份数据集、第二身份数据集和参考数据集；基于训练数据集构建训练样本；其中，素材场景数据集中包括N₁个素材人脸图像；第一身份数据集包括N₂个身份标识，N₂个身份标识中的每个身份标识均对应一个图像组；任一个图像组均由多个人脸图像组成，且任一个图像组中的各人脸图像均具备相应身份标识所指示的身份属性；第一身份数据集中属于不同图像组的人脸图像具备不同身份属性；第二身份数据集包括N₃个身份标识，N₃个身份标识中的每个身份标识均对应一个人脸图像，且第二身份数据集中的任一个人脸图像具备相应身份标识所指示的身份属性；第二身份数据集中不同的人脸图像具备不同的身份属性；参考数据集包括N₄个参考人脸图像；参考数据集中的任一个参考人脸图像X_4-i是对第一身份数据集中的任一个身份标识对应图像组中的任一个人脸图像X_2-j与素材场景数据集中的任一个素材人脸图像X_1-k进行融合处理得到的；参考人脸图像X_4-i具备人脸图像X_2-j对应的身份标识所指示的身份属性，且具备素材人脸图像X_1-k中的非身份属性；其中，N₁、N₂、N₃以及N₄为正整数，i为小于或等于N₄的正整数，j为小于或等于N₂的正整数，k为小于或等于N₁的正整数。

在一个实施例中，训练样本包括至少一个正样本组，目标样本组是训练样本中的任一个正样本组；处理器1203，用于：从第一身份数据集中选择身份标识ID_s和身份标识ID_t，并从身份标识ID_s对应的图像组中选择一个人脸图像X_s；从素材场景数据集中随机选择一个素材人脸图像；从参考数据集中获取参考人脸图像GT和参考人脸图像X_t；其中，参考人脸图像GT是由身份标识ID_s对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；参考人脸图像X_t是由身份标识ID_t对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；基于人脸图像X_s、参考人脸图像X_t和参考人脸图像GT，构建目标样本组；

在一个实施例中，训练样本包括至少一个伪样本组，目标样本组是训练样本中的任一个伪样本组；处理器1203，用于：从第一身份数据集中选择身份标识ID_s和身份标识ID_t；从素材场景数据集中随机选择一个素材人脸图像；从参考数据集中获取参考人脸图像GT_fake和参考人脸图像X_t；参考人脸图像GT_fake是由身份标识ID_s对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；参考人脸图像X_t是由身份标识ID_t对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；从第二身份数据集中选择一个人脸图像X_sfake；基于人脸图像X_sfake、参考人脸图像X_t和参考人脸图像GT_fake，构建目标样本组；

在一个实施例中，处理器1203，用于：获取预测人脸图像与第三样本人脸图像之间的差异，差异包括相似差异和判别差异；根据预测人脸图像与第三样本人脸图像之间的相似差异，构建相似损失；根据预测人脸图像与第三样本人脸图像之间的判别差异，构建判别损失；基于相似损失和判别损失构建图像处理模型的联合损失；按照减小联合损失的方向，对图像处理模型的模型参数进行更新直至图像处理模型达到收敛条件，得到训练好的图像处理模型；其中，相似差异包括内容相似差异；或者，相似差异包括内容相似差异及以下至少一项：感知相似差异、对抗相似差异、色彩相似差异。

在一个实施例中，差异包括相似差异；处理器1203，用于：计算预测人脸图像与第三样本人脸图像之间的内容绝对差值，内容绝对值差用于表示内容相似差异；其中，相似损失包括内容相似损失L1，内容相似损失L1根据内容绝对差值构建得到。

在一个实施例中，差异包括相似差异，相似差异还包括感知相似差异；处理器1203，用于：调用固定权重网络对预测人脸图像进行内容识别处理，得到预测人脸图像对应的第一识别结果；调用固定权重网络对第三样本人脸图像进行内容识别处理，得到第三样本人脸图像对应的第二识别结果；获取预测人脸图像对应的第一识别结果与第三样本人脸图像对应的第二识别结果之间的感知绝对差值；感知绝对值差用于表示感知相似差异；其中，相似损失包括感知相似损失L_vgg，感知相似损失L_vgg根据感知绝对差值构建得到。

在一个实施例中，差异包括相似差异，相似差异还包括对抗相似差异；处理器1203，用于：调用第一判别网络对预测人脸图像进行判别处理，得到对抗结果，对抗结果用于表示对抗相似差异；其中，相似损失包括对抗相似损失L_adv，对抗相似损失L_adv根据对抗结果构建得到。

在一个实施例中，差异包括相似差异，相似差异还包括色彩相似差异；处理器1203，用于：将预测人脸图像从第一色彩空间变换至第二色彩空间，得到预测人脸在第二色彩空间中的第一图像信息；将第三样本人脸图像从第一色彩空间变换至第二色彩空间，得到第三样本人脸图像在第二色彩空间中的第二图像信息；计算第一图像信息与第二图像信息之间的色彩绝对差值；色彩绝对值差用于表示色彩相似差异；其中，相似损失包括色彩相似损失L_{color_lab}，色彩相似损失L_{color_lab}根据色彩绝对差值构建得到。

在一个实施例中，处理器1203，用于：获取预测人脸图像与第一样本人脸图像之间的身份属性相似差异；根据身份属性相似差异构建身份属性相似损失；将身份属性相似损失添加至联合损失中。

在一个实施例中，处理器1203，用于：调用人脸识别网络对预测人脸图像进行识别处理，得到预测人脸图像对应的第一识别向量；调用人脸识别网络对第一样本人脸图像进行识别处理，得到第一样本人脸图像对应的第二识别向量；获取第一识别向量与第二识别向量之间的向量相似度，向量相似度用于表示身份属性相似差异；其中，身份属性相似损失L_ID根据向量相似度构建得到。

在一个实施例中，差异包括判别差异，处理器1203，用于：调用第二判别网络对预测人脸图像进行判别处理，得到第一判别结果；调用第二判别网络对第三样本人脸图像进行判别处理，得到第二判别结果；第一判别结果和第二判别结果共同表示判别差异；其中，判别损失L_D根据第一判别结果和第二判别结果构建得到。

在一个实施例中，图像处理模型包括生成网络和判别网络，处理器1203，用于：保持判别网络的参数不变化，按照减小相似损失和身份属性相似损失的方向，对生成网络的参数进行更新；以及，保持生成网络的参数不变化，按照减小判别损失的方向，对判别网络的参数进行更新；对生成网络的参数和判别网络的参数之间进行交替更新，直至生成网络与判别网络均达到收敛条件，得到训练好的图像处理模型。

在一个实施例中，处理器1203，用于：获取待处理的源人脸图像和目标人脸图像；调用训练好的图像处理模型对源人脸图像与目标人脸图像进行融合处理，得到融合图像；融合图像具备源人脸图像中的身份属性，且具备目标人脸图像中的非身份属性；以及将融合图像与目标人脸图像进行对齐处理，得到结果图像；输出结果图像。

在一个实施例中，目标人脸图像的数量为M，结果图像的数量为M，M为正整数；当M>1时，处理器1203，用于：按照预设显示方式显示M个结果图像；或者，根据M个目标人脸图像在视频中的播放顺序，对M个结果图像转换为视频序列进行输出；其中，预设显示方式包括以下任一种：排列显示M个结果图像；轮流显示M个结果图像；显示M个结果图像对应的缩略图像；显示M个结果图像中的任一结果图像，并根据接收到的切换指令切换显示M个结果图像。

在一个实施例中，结果图像支持个性化编辑；处理器1203，还用于：对结果图像或编辑后的结果图像进行分享。

应当理解，本申请实施例中所描述的计算机设备1200可执行前文所对应实施例中对该数据处理方法的描述，也可执行前文图11所对应实施例中对模型训练装置1100的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，还应指出，本申请一个示例性实施例还提供了一种存储介质，该存储介质中存储了前述数据处理方法的计算机程序，该计算机程序包括程序指令，当一个或多个处理器加载并执行该程序指令，可以实现实施例中对模型训练方法的描述，这里不再赘述，对采用相同方法的有益效果描述，也在此不再赘述。可以理解的是，程序指令可以被部署在一个或能够互相通信的多个计算机设备上执行。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，包括：

获取训练样本，所述训练样本包括目标样本组，所述目标样本组中包括第一样本人脸图像、第二样本人脸图像和第三样本人脸图像；所述第三样本人脸图像用于为所述第一样本人脸图像和所述第二样本人脸图像之间的融合处理提供参考；

调用图像处理模型对所述目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像；所述预测人脸图像具备所述第一样本人脸图像中的身份属性，且具备所述第二样本人脸图像中的非身份属性；

基于所述预测人脸图像与所述第三样本人脸图像之间的差异对所述图像处理模型进行训练，训练好的图像处理模型用于对任意源人脸图像与任意目标人脸图像进行融合处理。

2.如权利要求1所述的方法，其特征在于，所述获取训练样本，包括：

构建训练数据集，所述训练数据集包括素材场景数据集、第一身份数据集、第二身份数据集和参考数据集；

基于所述训练数据集构建训练样本；

其中，所述素材场景数据集中包括N₁个素材人脸图像；

所述第一身份数据集包括N₂个身份标识，所述N₂个身份标识中的每个身份标识均对应一个图像组；任一个图像组均由多个人脸图像组成，且所述任一个图像组中的各人脸图像均具备相应身份标识所指示的身份属性；所述第一身份数据集中属于不同图像组的人脸图像具备不同身份属性；

所述第二身份数据集包括N₃个身份标识，所述N₃个身份标识中的每个身份标识均对应一个人脸图像，且所述第二身份数据集中的任一个人脸图像具备相应身份标识所指示的身份属性；所述第二身份数据集中不同的人脸图像具备不同的身份属性；

所述参考数据集包括N₄个参考人脸图像；所述参考数据集中的任一个参考人脸图像X_4-i是对所述第一身份数据集中的任一个身份标识对应图像组中的任一个人脸图像X_2-j与所述素材场景数据集中的任一个素材人脸图像X_1-k进行融合处理得到的；所述参考人脸图像X_4-i具备所述人脸图像X_2-j对应的身份标识所指示的身份属性，且具备所述素材人脸图像X_1-k中的非身份属性；

其中，N₁、N₂、N₃以及N₄为正整数，i为小于或等于N₄的正整数，j为小于或等于N₂的正整数，k为小于或等于N₁的正整数。

3.如权利要求2所述的方法，其特征在于，所述训练样本包括至少一个正样本组，所述目标样本组是所述训练样本中的任一个正样本组；所述基于所述训练数据集构建训练样本，包括：

从所述第一身份数据集中选择身份标识ID_s和身份标识ID_t，并从所述身份标识ID_s对应的图像组中选择一个人脸图像X_s；

从所述素材场景数据集中随机选择一个素材人脸图像；

从所述参考数据集中获取参考人脸图像GT和参考人脸图像X_t；其中，所述参考人脸图像GT是由所述身份标识ID_s对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；所述参考人脸图像X_t是由所述身份标识ID_t对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；

基于所述人脸图像X_s、所述参考人脸图像X_t和所述参考人脸图像GT，构建所述目标样本组；

其中，所述人脸图像X_s为所述目标样本组中的第一样本人脸图像，所述参考人脸图像X_t为所述目标样本组中的第二样本人脸图像，所述参考人脸图像GT为所述目标样本组中的第三样本人脸图像；或者，

对所述人脸图像X_s和所述参考人脸图像X_t分别进行光影变换，光影变换后的人脸图像X_s为所述目标样本组中的第一样本人脸图像，光影变换后的参考人脸图像X_t为所述目标样本组中的第二样本人脸图像，所述参考人脸图像GT为所述目标样本组中的第三样本人脸图像。

4.如权利要求2所述的方法，其特征在于，所述训练样本包括至少一个伪样本组，所述目标样本组是所述训练样本中的任一个伪样本组；所述基于所述训练数据集构建训练样本，包括：

从所述第一身份数据集中选择身份标识ID_s和身份标识ID_t；

从所述素材场景数据集中随机选择一个素材人脸图像；

从所述参考数据集中获取参考人脸图像GT_fake和参考人脸图像X_t；所述参考人脸图像GT_fake是由所述身份标识ID_s对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；所述参考人脸图像X_t是由所述身份标识ID_t对应图像组中的任一个人脸图像与所选择的素材人脸图像进行融合处理得到的；

从所述第二身份数据集中选择一个人脸图像X_sfake；

基于所述人脸图像X_sfake、所述参考人脸图像X_t和所述参考人脸图像GT_fake，构建所述目标样本组；

其中，所述人脸图像X_sfake为所述目标样本组中的第一样本人脸图像，所述参考人脸图像X_t为所述目标样本组中的第二样本人脸图像，所述参考人脸图像GT_fake为所述目标样本组中的第三样本人脸图像；或者，

对所述人脸图像X_sfake和所述参考人脸图像X_t分别进行光影变换，光影变换后的人脸图像X_sfake为所述目标样本组中的第一样本人脸图像，光影变换后的参考人脸图像X_t为所述目标样本组中的第二样本人脸图像，所述参考人脸图像GT_fake为所述目标样本组中的第三样本人脸图像。

5.如权利要求1所述的方法，其特征在于，所述基于所述预测人脸图像与所述第三样本人脸图像之间的差异，对所述图像处理模型进行训练，包括：

获取所述预测人脸图像与所述第三样本人脸图像之间的差异，所述差异包括相似差异和判别差异；

根据所述预测人脸图像与所述第三样本人脸图像之间的相似差异，构建相似损失；

根据所述预测人脸图像与所述第三样本人脸图像之间的判别差异，构建判别损失；

基于所述相似损失和所述判别损失构建所述图像处理模型的联合损失；

按照减小所述联合损失的方向，对所述图像处理模型的模型参数进行更新直至所述图像处理模型达到收敛条件，得到训练好的图像处理模型；

其中，所述相似差异包括内容相似差异；或者，所述相似差异包括内容相似差异及以下至少一项：感知相似差异、对抗相似差异、色彩相似差异。

6.如权利要求5所述的方法，其特征在于，所述差异包括相似差异；所述获取所述预测人脸图像与所述第三样本人脸图像之间的差异，包括：

计算所述预测人脸图像与所述第三样本人脸图像之间的内容绝对差值，所述内容绝对值差用于表示所述内容相似差异；

其中，所述相似损失包括内容相似损失L1，所述内容相似损失L1根据所述内容绝对差值构建得到。

7.如权利要求5所述的方法，其特征在于，所述差异包括相似差异，所述相似差异还包括感知相似差异；所述获取所述预测人脸图像与所述第三样本人脸图像之间的差异，包括：

调用固定权重网络对所述预测人脸图像进行内容识别处理，得到所述预测人脸图像对应的第一识别结果；

调用所述固定权重网络对所述第三样本人脸图像进行内容识别处理，得到所述第三样本人脸图像对应的第二识别结果；

获取所述预测人脸图像对应的第一识别结果与所述第三样本人脸图像对应的第二识别结果之间的感知绝对差值；所述感知绝对值差用于表示所述感知相似差异；

其中，所述相似损失包括感知相似损失L_vgg，所述感知相似损失L_vgg根据所述感知绝对差值构建得到。

8.如权利要求5所述的方法，其特征在于，所述差异包括相似差异，所述相似差异还包括对抗相似差异；所述获取所述预测人脸图像与所述第三样本人脸图像之间的差异，包括：

调用第一判别网络对所述预测人脸图像进行判别处理，得到对抗结果，所述对抗结果用于表示所述对抗相似差异；

其中，所述相似损失包括对抗相似损失L_adv，所述对抗相似损失L_adv根据所述对抗结果构建得到。

9.如权利要求5所述的方法，其特征在于，所述差异包括相似差异，所述相似差异还包括色彩相似差异；所述获取所述预测人脸图像与所述第三样本人脸图像之间的差异，包括：

将所述预测人脸图像从第一色彩空间变换至第二色彩空间，得到所述预测人脸在所述第二色彩空间中的第一图像信息；

将所述第三样本人脸图像从所述第一色彩空间变换至所述第二色彩空间，得到所述第三样本人脸图像在所述第二色彩空间中的第二图像信息；

计算所述第一图像信息与所述第二图像信息之间的色彩绝对差值；所述色彩绝对值差用于表示所述色彩相似差异；

其中，所述相似损失包括色彩相似损失L_{color_lab}，所述色彩相似损失L_{color_lab}根据所述色彩绝对差值构建得到。

10.如权利要求5所述的方法，其特征在于，所述基于所述预测人脸图像与所述第三样本人脸图像之间的差异，对所述图像处理模型进行训练，包括：

获取所述预测人脸图像与所述第一样本人脸图像之间的身份属性相似差异；

根据所述身份属性相似差异构建身份属性相似损失；

将所述身份属性相似损失添加至所述联合损失中。

11.如权利要求10所述的方法，其特征在于，所述获取所述预测人脸图像与所述第一样本人脸图像之间的身份属性相似差异，包括：

调用人脸识别网络对所述预测人脸图像进行识别处理，得到所述预测人脸图像对应的第一识别向量；

调用所述人脸识别网络对所述第一样本人脸图像进行识别处理，得到所述第一样本人脸图像对应的第二识别向量；

获取所述第一识别向量与所述第二识别向量之间的向量相似度，所述向量相似度用于表示所述身份属性相似差异；

其中，所述身份属性相似损失L_ID根据所述向量相似度构建得到。

12.如权利要求5所述的方法，其特征在于，所述差异包括判别差异，所述根据所述预测人脸图像与所述第三样本人脸图像之间的判别差异，构建判别损失，包括：

调用第二判别网络对所述预测人脸图像进行判别处理，得到第一判别结果；

调用所述第二判别网络对所述第三样本人脸图像进行判别处理，得到第二判别结果；所述第一判别结果和所述第二判别结果共同表示所述判别差异；

其中，所述判别损失L_D根据所述第一判别结果和所述第二判别结果构建得到。

13.如权利要求10所述的方法，其特征在于，所述图像处理模型包括生成网络和判别网络，所述按照减小所述联合损失的方向，对所述图像处理模型的模型参数进行更新直至所述图像处理模型达到收敛条件，得到训练好的图像处理模型，包括：

保持所述判别网络的参数不变化，按照减小所述相似损失和所述身份属性相似损失的方向，对所述生成网络的参数进行更新；以及，

保持所述生成网络的参数不变化，按照减小所述判别损失的方向，对所述判别网络的参数进行更新；

对所述生成网络的参数和所述判别网络的参数之间进行交替更新，直至所述生成网络与所述判别网络均达到收敛条件，得到训练好的图像处理模型。

14.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取待处理的源人脸图像和目标人脸图像；

调用训练好的图像处理模型对所述源人脸图像与所述目标人脸图像进行融合处理，得到融合图像；所述融合图像具备所述源人脸图像中的身份属性，且具备所述目标人脸图像中的非身份属性；

将所述融合图像与所述目标人脸图像进行对齐处理，得到结果图像；

输出所述结果图像。

15.如权利要求14所述的方法，其特征在于，所述目标人脸图像包括以下至少一种：

所述目标人脸图像包括一种或多种风格下的素材人脸图像；

所述目标人脸图像包括对素材人脸图像进行个性化编辑得到的人脸图像；

所述目标人脸图像是视频中的一个或多个视频帧图像；

所述目标人脸图像是从视频帧图像中截取到的包含指定对象人脸的图像；

所述目标人脸图像是包含真实对象人脸的图像；

所述目标人脸图像是包含虚拟对象人脸的图像；

其中，所述风格包括以下至少一种：古装风格、二次元风格、现实主义风格、极简风格、田园风格；所述个性化编辑包括以下至少一种：光影编辑、表情编辑、场景编辑、装饰编辑以及动作编辑。

16.如权利要求14所述的方法，其特征在于，所述目标人脸图像的数量为M，所述结果图像的数量为所述M，M为正整数；当M>1时，所述输出所述结果图像，包括：

按照预设显示方式显示M个结果图像；或者，

根据所述M个目标人脸图像在视频中的播放顺序，对M个结果图像转换为视频序列进行输出；

其中，所述预设显示方式包括以下任一种：

排列显示所述M个结果图像；

轮流显示所述M个结果图像；

显示所述M个结果图像对应的缩略图像；

显示所述M个结果图像中的任一结果图像，并根据接收到的切换指令切换显示所述M个结果图像。

17.如权利要求14所述的方法，其特征在于，所述结果图像支持个性化编辑；所述方法还包括：对所述结果图像或编辑后的结果图像进行分享；

其中，所述目标人脸图像支持被多个协作者进行协作融合；

所述目标人脸图像包含P个人脸图像，所述源人脸图像包括所述多个协作者分别上传的P个源人脸图像；所述协作融合是指：将所述目标人脸图像中的一个人脸图像与一个源人脸图像进行融合处理，得到P个结果图像；其中，P为大于1的整数，所述P个结果图像中每个结果图像具备相应源人脸图像中的身份属性；或者，

所述目标人脸图像中包含Q个对象，所述源人脸图像包括所述多个协作者分别上传的Q个源人脸图像；所述协作融合是指：将所述目标人脸图像中一个对象对应的人脸图像区域与一个源人脸图像进行融合处理，得到所述结果图像；其中，Q为大于1的整数；一个协作者的源人脸图像支持与一个或多个对象的人脸图像区域进行融合；所述结果图像具备所述Q个源人脸图像中的身份属性。

18.一种模型训练装置，其特征在于，包括：

获取模块，用于获取训练样本，所述训练样本包括目标样本组，所述目标样本组中包括第一样本人脸图像、第二样本人脸图像和第三样本人脸图像；所述第三样本人脸图像用于为所述第一样本人脸图像和所述第二样本人脸图像之间的融合处理提供参考；

处理模块，用于调用图像处理模型对所述目标样本组中的第一样本人脸图像和第二样本人脸图像进行融合处理，得到预测人脸图像；所述预测人脸图像具备所述第一样本人脸图像中的身份属性，且具备所述第二样本人脸图像中的非身份属性；

训练模块，用于基于所述预测人脸图像与所述第三样本人脸图像之间的差异对所述图像处理模型进行训练，训练好的图像处理模型用于对任意源人脸图像与任意目标人脸图像进行融合处理。

19.一种计算机设备，其特征在于，包括：

处理器，适用于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，执行如权利要求1-17任一项所述的模型训练方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，执行如权利要求1-17任一项所述的模型训练方法。