CN111353546A

CN111353546A - 图像处理模型的训练方法、装置、计算机设备和存储介质

Info

Publication number: CN111353546A
Application number: CN202010156852.5A
Authority: CN
Inventors: 朱俊伟; 倪辉; 邰颖; 曹赟; 陈旭; 葛彦昊; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-06-30
Anticipated expiration: 2040-03-09
Also published as: CN111353546B

Abstract

本申请涉及一种图像处理模型的训练方法、装置、计算机设备和存储介质。方法包括：获取三元组样本，三元组样本包括源图像、第一图像和目标图像；源图像和目标图像对应相同的身份属性，第一图像和源图像对应不同的身份属性；第一图像和目标图像对应相同的非身份属性；将源图像和第一图像输入图像处理模型中的生成器，得到输出图像；将源图像、第一图像、目标图像和输出图像输入图像处理模型中的判别器，得到图像属性判别结果；根据图像属性判别结果调整生成器的参数和判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型。采用本方法训练得到的图像处理模型能够提高图像和合成视频的质量。

Description

图像处理模型的训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像处理模型的训练方法、装置、计算机设备和存储介质。

背景技术

随着人工智能和计算机技术的发展，出现了人脸转换技术，人脸转换是指将目标图像中的人脸的身份换成源图像中的人，同时保持目标图像的姿态、表情、妆容、背景等元素。用户通过人脸转换可以体验虚拟换服装、换发型和视频换脸等，给用户带了乐趣。

由于视频是连续的图像序列，自然拍摄的视频通常在形状、光照、动作等因素的变化上都比较自然流畅，而现有的人脸转换通常会把脸部区域抠出进行单独处理，之后再把结果融合回原视频，会导致合成视频中的换脸区域在形状、光照、动作等方面与原视频不一致的情况。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高合成图像或合成视频质量的图像处理模型的训练方法、装置、计算机设备和存储介质。

一种图像处理模型的训练方法，所述方法包括：

获取三元组样本，所述三元组样本包括源图像、第一图像和目标图像；所述源图像和所述目标图像对应相同的身份属性，所述第一图像和所述源图像对应不同的身份属性；所述第一图像和所述目标图像对应相同的非身份属性；

将所述源图像和所述第一图像输入图像处理模型中的生成器，得到输出图像；

将所述源图像、所述第一图像、所述目标图像和所述输出图像输入所述图像处理模型中的判别器，得到图像属性判别结果；所述图像属性包括伪造图像和非伪造图像；

根据所述图像属性判别结果调整所述生成器的参数和所述判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型。

在一个实施例中，所述获取所述输出图像和所述目标图像之间的特征向量相似度，包括：

将所述输出图像和所述目标图像转换为对应的特征向量，得到所述输出图像的特征向量和所述目标图像的特征向量；

确定所述输出图像的特征向量和所述目标图像的特征向量之间的相似度，得到所述输出图像和所述目标图像之间的特征向量相似度。

在一个实施例中，获取所述输出图像和所述源图像之间的特征向量相似度，包括：

将所述输出图像和所述源图像转换为对应的特征向量，得到所述输出图像的特征向量和所述源图像的特征向量；

确定所述输出图像的特征向量和所述源图像的特征向量之间的相似度，得到所述输出图像和所述源图像之间的特征向量相似度。

一种图像处理模型的训练装置，所述装置包括：

获取模块，用于获取三元组样本，所述三元组样本包括源图像、第一图像和目标图像；所述源图像和所述目标图像对应相同的身份属性，所述第一图像和所述源图像对应不同的身份属性；所述第一图像和所述目标图像对应相同的非身份属性；

生成模块，用于将所述源图像和所述第一图像输入图像处理模型中的生成器，得到输出图像；

判别模块，用于将所述源图像、所述第一图像、所述目标图像和所述输出图像输入所述图像处理模型中的判别器，得到图像属性判别结果；所述图像属性包括伪造图像和非伪造图像；

训练模块，用于根据所述图像属性判别结果调整所述生成器的参数和所述判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述图像处理模型的训练方法、装置、计算机设备和存储介质，获取三元组样本，三元组样本包括源图像、第一图像和目标图像，源图像和目标图像对应相同的身份属性，第一图像和源图像对应不同的身份属性；第一图像和目标图像对应相同的非身份属性。将源图像和第一图像输入图像处理模型中的生成器，得到输出图像，将源图像、第一图像、目标图像和输出图像输入图像处理模型中的判别器，得到图像属性判别结果；根据图像属性判别结果调整生成器的参数和判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型，从而能够根据真实的三元组样本数据对图像处理模型进行训练，从而实现图像处理模型的在图像对象替换、视频对象替换场景下的有监督训练，实现图像处理模型的稳定性和鲁棒性。该训练好的图像处理模型能够保证图像、视频中替换对象时，合成部位在形状、光照、动作等各方面与非合成部分能够保持连贯性、流畅性，得到高质量的图像或视频。

一种图像处理方法，所述方法包括：

获取待处理图像和待处理视频，将所述待处理图像和所述待处理视频输入训练好的图像处理模型；所述图像处理模型根据三元组样本训练得到，所述三元组样本包括源图像、第一图像和目标图像；所述源图像和所述目标图像对应相同的身份属性，所述第一图像和所述源图像对应不同的身份属性；所述第一图像和所述目标图像对应相同的非身份属性；

通过所述训练好的图像处理模型中的生成器将所述待处理视频中的第一对象替换为所述待处理图像中的第二对象，输出包含所述第二对象的目标视频。

一种图像处理装置，所述装置包括：

输入模块，用于获取待处理图像和待处理视频，将所述待处理图像和所述待处理视频输入训练好的图像处理模型；所述图像处理模型根据三元组样本训练得到，所述三元组样本包括源图像、第一图像和目标图像；所述源图像和所述目标图像对应相同的身份属性，所述第一图像和所述源图像对应不同的身份属性；所述第一图像和所述目标图像对应相同的非身份属性；

输出模块，用于通过所述训练好的图像处理模型中的生成器将所述待处理视频中的第一对象替换为所述待处理图像中的第二对象，输出包含所述第二对象的目标视频。

上述图像处理方法、装置、计算机设备和存储介质，通过三元组样本训练得到的图像处理模型能够保证第二图像在待处理视频中的合成区域在形状、光照、动作等各方面与待处理视频中的非合成区域能够保持连贯性、流畅性，从而得到高质量的视频。

附图说明

图1为一个实施例中图像处理模型的训练方法的应用环境图；

图2为一个实施例中图像处理模型的训练方法的流程示意图；

图3为一个实施例中获取三元组样本步骤的流程示意图；

图4为一个实施例中生成三元组样本的示意图；

图5为另一个实施例中获取三元组样本步骤的流程示意图；

图6为一个实施例中将源图像、第一图像、目标图像和输出图像输入该图像处理模型中的判别器，得到图像属性判别结果步骤的流程示意图；

图7为一个实施例中训练图像处理模型中的生成器的流程示意图；

图8为一个实施例中获取输出图像和目标图像之间的多层次特征相似度的步骤的流程示意图；

图9为一个实施例中基于第二损失函数训练图像处理模型中的生成器的步骤的流程示意图；

图10为一个实施例中图像处理模型的训练方法的整体架构图；

图11为一个实施例中根据图像属性判别结果调整生成器的参数和判别器的参数的流程示意图；

图12为一个实施例中图像处理模型的迭代训练的架构图；

图13为一个实施例中图像处理方法的流程示意图；

图14为一个实施例中传统换脸模型和本方案的图像处理模型的应用于视频换脸的场景的对比示意图；

图15为一个实施例中图像处理模型的训练装置的结构框图；

图16为一个实施例中图像处理装置的结构框图；

图17为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像处理模型的训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。在本实施例中，三元组样本可存储在服务器104中，终端102从服务器104获取三元组样本。该三元组样本包括源图像、第一图像和目标图像；该源图像和该目标图像对应相同的身份属性，该第一图像和该源图像对应不同的身份属性；该第一图像和该目标图像对应相同的非身份属性。该三元组样本在服务器中以组合的形式存储。终端102将源图像和第一图像输入图像处理模型中的生成器，得到输出图像。终端102将源图像、第一图像、目标图像和输出图像输入该图像处理模型中的判别器，得到图像属性判别结果；该图像属性包括伪造图像和非伪造图像。终端102根据图像属性判别结果调整生成器的参数和判别器的参数并继续训练。当满足预设条件时停止训练，得到训练好的图像处理模型。在本实施例中，训练好的图像处理模型可以安装在终端102中，也可以安装在服务器104中。在训练中引入了真实样本进行训练，即通过三元组样本训练图像处理模型，实现该图像处理模型的有监督训练，能够提高该图像处理模型的稳定性和鲁棒性。通过该三元组样本训练得到的图像处理模型能够保证合成的区域和原图像或者原视频在形状、光照、动作等方面保持一致，从而提高图像和合成视频的质量。

在一个实施例中，图像处理模型的训练方法应用于视频换脸场景中，该应用场景的应用如下：

终端获取源图像、目标图像和第二图像，源图像和目标图像对应相同的身份属性，第二图像和目标图像对应不同的身份属性。

接着，终端将目标图像和第二图像输入图像处理模型。图像处理模型中的生成器将目标图像中的人脸替换为第二图像中的人脸，得到第一图像；第一图像和源图像对应不同的身份属性；第一图像和目标图像对应相同的非身份属性。

接着，终端将源图像、第一图像和目标图像作为三元组样本；将三元组样本中的源图像和第一图像输入图像处理模型中的生成器，得到输出图像。

进一步地，终端将源图像、第一图像、目标图像作为第一组合输入图像处理模型中的判别器，得到第一组合对应的第一判别概率；第一判别概率表征第一组合为非伪造图像的概率。

接着，终端将源图像、第一图像、输出图像作为第二组合输入判别器，得到第二组合对应的第二判别概率；第二判别概率表征第二组合为伪造图像的概率；图像属性包括伪造图像和非伪造图像。

进一步地，终端获取第一组合对应的标签和第二组合对应的第一标签，根据第一组合对应的标签、第一判别概率、第二组合对应的第一标签和第二判别概率确定第一损失函数。

接着，终端基于第一损失函数训练判别器，满足训练停止条件时得到训练好的判别器。

接着，终端将输出图像和源图像转换为对应的特征向量，得到输出图像的特征向量和源图像的特征向量；确定输出图像的特征向量和源图像的特征向量之间的相似度，得到输出图像和源图像之间的特征向量相似度。

并且，终端将输出图像和目标图像转换为对应的特征向量，得到输出图像的特征向量和目标图像的特征向量；确定输出图像的特征向量和目标图像的特征向量之间的相似度，得到输出图像和目标图像之间的特征向量相似度。

接着，终端确定输出图像对应的通道矩阵和目标图像对应的通道矩阵；确定输出图像对应的通道矩阵和目标图像对应的通道矩阵之间的相似度。

进一步地，终端对输出图像和目标图像进行特征提取，得到输出图像的特征和目标图像的特征；确定相同层次的输出图像的特征和目标图像的特征之间的相似度，得到各层次的特征相似度；根据各层次的相似度确定输出图像和目标图像之间的多层次特征相似度。

进一步地，终端根据输出图像和目标图像之间的特征向量相似度、通道空间相似度、多层次特征相似度，以及输出图像和源图像之间的特征向量相似度构建第二损失函数。

接着，终端使用训练好的判别器对第二组合进行判别，得到第二组合对应的第三判别概率。

接着，终端获取第二组合对应的第二标签，第二标签表示第二组合为非伪造图像；第二组合对应的第一标签表示第二组合为伪造图像；终端根据第二组合对应的第三判别概率和第二标签，确定第三判别概率和第二标签之间的损失误差。

进一步地，终端基于损失误差和第二损失函数构建目标损失函数，并基于目标损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器，从而得到调整后的图像处理模型。

接着，终端获取源图像、目标图像和第三图像，将目标图像和第三图像输入调整后的图像处理模型，得到第四图像；将源图像、第四图像和目标图像作为三元组图像。

接着，终端根据三元组图像更新三元组样本，并基于更新后的三元组样本继续训练图像处理模型。当满足预设条件时停止训练，得到训练好的图像处理模型。

接着，终端获取待换脸图像和待换脸视频，将该待换脸图像和待换脸视频输入训练好的图像处理模型。图像处理模型中的生成器将待换脸视频中的人脸全部替换为待换脸图像中的人脸，从而得到目标视频。

通过本实施例中的图像处理模型的训练方法训练得到的图像处理模型，能够将用户的人脸替换到想要替换的视频中，并保证替换的人脸区域在形状、光照、动作等各方面与视频中的其它部分能够保持连贯性、流畅性，得到高质量的换脸视频。

在一个实施例中，该图像处理模型的训练方法训练得到的图像处理模型可以用于影视制作。在游戏中，玩家可以通过该图像处理模型将自己定制化成游戏人物，提升玩家体验。而在虚拟换装换发场景中，买家可以通过该图像处理模型来查看自己试穿试戴某些服饰的整体效果。另外，在直播或发布视频时，用户可以利用该图像处理模型将自己的人脸和虚拟人物的人脸进行换脸，从而保护自己的隐私，并且不破坏视频的效果。可以理解的是，该图像处理模型的训练方法的应用场景包括但不限于上述举例。

在一个实施例中，如图2所示，提供了一种图像处理模型的训练方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取三元组样本，该三元组样本包括源图像、第一图像和目标图像；源图像和目标图像对应相同的身份属性，第一图像和源图像对应不同的身份属性，第一图像和目标图像对应相同的非身份属性。

其中，身份属性是指图像中的对象的身份，例如图像中的对象为人脸，则身份属性是指同一张人脸。图像中的对象可以是图像中的人体的各个部位，或者各个部位的组合。例如，图像中的对象可以是指人脸、眼睛、鼻子、上半身或者整个人体，但不限于此。非身份属性是指图像中的对象的姿态、表情、妆容和背景等属性。

具体地，源图像和目标图像对应相同的身份属性，则终端可获取同一对象的图像分别作为源图像和目标图像，该源图像和目标图像中对象的姿态、表情、妆容和背景等非身份属性可以相同，也可以不相同。例如，在视频换脸场景中，源图像的人脸和目标图像人脸为同一个人的人脸，但是人脸的表情、妆容、该人的姿态和图像中的背景可以部分相同，可以完全不同，也可完全相同。可以理解的是，源图像和目标图像可以为相同的一张图像。

接着，第一图像和源图像对应不同的身份属性，第一图像和目标图像对应相同的非身份属性。则终端需要选择与源图像中的对象不相同另一对象的图像作为第一图像，并且，第一图像的对象的姿态、表情、妆容和背景等非身份属性和目标图像中的姿态、表情、妆容和背景等非身份属性相同。

例如，源图像和目标图像中为男士人脸A，源图像中的男士人脸A和目标图像中的男士人脸A的姿态、表情、妆容和背景等不相同。则终端需要选择非男士人脸A的人脸图像，该人脸图像中为女士人脸B，且该人脸图像中的女士人脸B的姿态、表情、妆容、背景与目标图像中的男士人脸A的姿态、表情、妆容、背景相同，则该包含女士人脸B的人脸图像作为第一图像。

步骤204，将源图像和第一图像输入图像处理模型中的生成器，得到输出图像。

具体地，终端源图像和第一图像输入图像处理模型中的生成器，通过该生成器将该源图像中的对象替换到第一图像中，得到输出图像。则该输出图像和该目标图像具有相同的身份属性，并且具有相同的非身份属性。例如，终端将源图像中的男士人脸A替换掉第一图像中的女士人脸B，得到输出图像，则该输出图像为男士人脸A，且该输出图像中的男士人脸A的姿态、表情、妆容、背景与目标图像中的男士人脸A的姿态、表情、妆容、背景相同。

步骤206，将源图像、第一图像、目标图像和输出图像输入图像处理模型中的判别器，得到图像属性判别结果；该图像属性包括伪造图像和非伪造图像。

其中，判别器用于判别图像为伪造图像或者非伪造图像，非伪造图像为真实图像，并非合成图像。伪造图像为假图像，即换脸、替换各部位后的合成图像。

具体地，终端将源图像、第一图像、目标图像和输出图像输入图像处理模型中的判别器，判别器对源图像、第一图像、目标图像作为一个组合进行判别，以确定该包含源图像、第一图像、目标图像的组合的图像属性判别结果。即确定该包含源图像、第一图像、目标图像的组合是伪造图像还是非伪造图像。

接着，判别器对源图像、第一图像、输出图像作为一个组合进行判别，以确定该包含源图像、第一图像、输出图像的组合的图像属性判别结果。即确定该包含源图像、第一图像、输出图像的组合是伪造图像还是非伪造图像。

步骤208，根据图像属性判别结果调整生成器的参数和判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型。

具体地，图像处理模型在训练过程中交替调整判别器的参数和生成器的参数，即交替训练判别器和生成器。终端在训练生成器时，固定判别器的参数。终端根据图像属性判别结果与对应的标签之间的差异调整判别器的参数，得到调整后的判别器。接着，终端使用调整后的判别器对包含源图像、第一图像、输出图像的组合进行识别，得到对应的图像属性判别结果。基于属性判别结果和对应的标签之间的差异调整生成器的参数，从而得到调整参数后生成器，从而得到调整后的图像处理模型。

接着，终端基于调整参数后的图像处理模型继续进行训练，直到满足预设条件时停止训练，得到训练好的图像处理模型。

在本实施例中，预设条件可以是图像处理模型得到的损失值小于或等于损失阈值。当图像处理模型得到的损失值小于或等于损失阈值时，停止训练，得到训练好的图像处理模型。

上述图像处理模型的训练方法中，获取三元组样本，三元组样本包括源图像、第一图像和目标图像，源图像和目标图像对应相同的身份属性，第一图像和源图像对应不同的身份属性；第一图像和目标图像对应相同的非身份属性。将源图像和第一图像输入图像处理模型中的生成器，得到输出图像，将源图像、第一图像、目标图像和输出图像输入图像处理模型中的判别器，得到图像属性判别结果；根据图像属性判别结果调整生成器的参数和判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型，从而能够根据真实的三元组样本数据对图像处理模型进行训练，从而实现图像处理模型的在图像对象替换、视频对象替换场景下的有监督训练，提高图像处理模型的稳定性和鲁棒性。

并且，将三元组样本中的目标图像为真实图像，非伪造图像，以目标图像作为参照使得图像处理模型生成器的输出图像不断接近目标图像。该训练好的图像处理模型能够保证图像、视频中替换对象时，合成部位在形状、光照、动作等各方面与非合成部分能够保持连贯性、流畅性，得到高质量的图像或视频。

在一个实施例中，如图3所示，该获取三元组样本，包括：

步骤302，获取源图像、目标图像和第二图像，该第二图像和该目标图像对应不同的身份属性。

具体地，终端可随机获取源图像，确定源图像中的对象的身份属性。接着，终端获取与该源图像中的对象相同身份属性的图像作为目标图像。例如，终端随机获取的源图像的身份属性为对象A，则终端选择包含对象A的图像作为目标图像。

在本实施例中，源图像和目标图像对应相同的身份属性，源图像和目标图像可以对应相同的非身份属性，也可以对应不同的非身份属性。例如，源图像和目标图像中的对象均为对象A，但是源图像中的对象A和目标图像中的对象A的姿态、表情、妆容和背景等可以相同，也可以不相同。

接着，终端可随机获取第二图像，该第二图像和该目标图像对应不同的身份属性，即该第二图像中的对象和该目标图像中的对象并非同一对象。进一步地，第二图像和源图像可以对应相同的非身份属性，也可以对应不同的非身份属性。第二图像和目标图像可以对应相同的非身份属性，也可以对应不同的非身份属性。

步骤304，将目标图像中的对象替换为第二图像中的对象，得到第一图像；该第一图像和该第二图像对应相同的身份属性。

具体地，终端可将该第二图像和该目标图像输入图像处理模型，通过图像处理模型中的生成器将该目标图像中的对象替换为第二图像中的对象，同时保持目标图像中的对象的姿态、表情、妆容和背景等非身份属性不变，从而得到生成器输出的第一图像。该第一图像和该第二图像对应相同的身份属性，即第一图像中的对象即为第二图像中的对象。该第一图像中的对象的姿态、表情、妆容和背景等非身份属性即为该目标图像中的对象的姿态、表情、妆容和背景等非身份属性。

步骤306，将源图像、第一图像和目标图像作为三元组样本。

具体地，终端可该源图像、第一图像和目标图像作为三元组样本。该三元组样本中的目标图像为真实的图像样本，并非合成的图像，基于该三元组样本对图像处理模型进行训练，可在训练过程中将该目标图像作为参照物，根据目标图像和图像处理模型生成的图像进行对比，以确定生成的图像和真实的图像之间的差异，从而更准确地调整图像处理模型的参数。

在本实施例中，解决了传统方式中三元组样本中的目标样本为合成的图像，并非真实参照数据，因此无法获取真实的参照数据，只能对图像处理模型进行无监督训练的问题。而本实施例中的方案通过获取源图像、目标图像和第二图像，该第二图像和该目标图像对应不同的身份属性，将目标图像中的对象替换为第二图像中的对象，得到第一图像；该第一图像和该第二图像对应相同的身份属性，该第一图像和该目标图像对应相同的非身份属性，将源图像、第一图像和目标图像作为三元组样本，从而能够构造出三元组样本，将该目标图像作为参照物实现三元组样本对图像处理模型的有监督训练。

如图4所示，source为源图像，Target为目标图像，source和Target中的人脸是同一位男士的人脸，但在两张图像中人脸的姿态、表情、妆容和背景等并不相同。Temp source为第二图像，Temp source中为一位女士的人脸，该Temp source中的女士的姿态、表情、妆容、背景均与source、Target中的男士的姿态、表情、妆容和背景不相同。终端将Tempsource和Target输出图像处理模型，图像处理模型中的生成器用Temp source中的女士的人脸替换掉Target中男士的人脸，同时保持男士的姿态、表情、妆容、背景，即可得到第一图像，即Fake target。从图4中的Fake target可看出，Fake target中是女士的人脸，但是姿态、表情、妆容、背景与Target中的男士的姿态、表情、妆容和背景保持一致。将source、Faketarget和Target作为三元组样本，以训练图像处理模型。

接着，终端将source、Fake target输入待训练的图像处理模型。通过待训练的图像处理模型将source中的男士人脸替掉Fake target中的女士人脸，并保持Fake target中的女士人脸的姿态、表情、妆容、背景，得到输出图像Output。该输出图像Output和Target中的人脸是同一位男士的人脸，并且在两张图像中男士人脸的姿态、表情、妆容和背景等均相同。但是，输出图像是待训练的图像处理模型合成的图像，该Target是真实的图像，非合成图像。图4中的Ground Truth即为Target图像。终端将该Ground Truth作为参照图像，通过比较输出图像Output和Ground Truth之间的差异来调整图像处理模型的参数并继续训练。当输出图像Output中的人脸区域的形状、光照、表情、动作和目标图像Target中的人脸区域的形状、光照、表情、动作的相似度达到一定阈值时，确定图像处理模型输出的合成图像达到真实图像的效果，即输出图像Output达到与Ground Truth(即目标图像Target)相同的效果，从而完成训练。

在一个实施例中，如图5所示，该获取三元组样本，包括：

步骤502，获取原始视频和目标视频，该原始视频和该目标视频对应相同的非身份属性，该原始视频和该目标视频对应不同的身份属性。

其中，原始视频是指未替换对象的视频，目标视频是指将原始视频中的对象替换为另一对象的视频，同时保持目标视频和原始视频中的对象姿态、表情、妆容和背景等非身份属性一致。例如，原始视频中的对象A，目标视频将原始视频中对象A替换为对象B后得到的，即目标视频中为对象B。

具体地，终端可获取原始视频和该原始视频对应的目标视频，原始视频中的对象可以是整个人体、或者上半身、人脸或者任一部位，则将原始视频中的整个人体、或者上半身、人脸或者任一部位替换为另一个对象的整个人体、或者上半身、人脸，从而得到对应的目标视频。例如，原始视频中是人脸A，换脸之后的视频即目标视频中是人脸B。

步骤504，从原始视频中获取包含同一对象的图像作为源图像和目标图像。

具体地，终端可从从原始视频中随机抽取一帧包含对象的图像作为源图像，并随机获取一帧包含与源图像同一对象的图像作为目标图像。该源图像和目标图像可以是同一帧图像，也可以是不同帧的同一对象的图像。

步骤506，从目标视频中获取与原始视频中的目标图像相同帧的图像作为第一图像。

具体地，终端确定原始视频中的目标图像之后，确定该目标图像在原始图像中的帧号，并在目标视频中查找相同的帧号。该原始视频中的与目标图像相同帧号的图像作为第一图像。该第一图像中的对象与该目标图像中的对象不同，该第一图像中的对象的姿态、表情、妆容和背景等非身份属性和该目标图像中的对象的姿态、表情、妆容和背景等非身份属性一致。

步骤508，将源图像、第一图像和目标图像作为三元组样本。

具体地，终端将该源图像、第一图像和目标图像作为一个三元组样本。进一步地，终端按照相同的处理方式，可从原始视频中获取指定数量的源图像和目标图像，并从目标视频中获取与每个目标图像相同帧号的图像作为第一图像。按照源图像、目标图像，该目标图像对应的第一图像构成三元组样本，从而得到指定数量的三元组样本。

例如，原始视频换脸之后得到目标视频，终端在原始视频里随机取一帧(帧号为i)含人脸图像作为源图像，并随机抽取取一帧(帧号为j)含人脸图像作为目标图像，从换脸后视频中取对应原始视频中的目标图像的帧(帧号为j)含人脸图像作为第一图像。则帧号为i的源图像、帧号为j的目标图像和帧号为j第一图像构成三元组样本。

在本实施例中，获取原始视频和目标视频，所述原始视频和所述目标视频对应相同的非身份属性，所述原始视频和所述目标视频对应不同的身份属性，从所述原始视频中获取包含同一对象的图像作为源图像和目标图像，从所述目标视频中获取与所述原始视频中的目标图像相同帧的图像作为第一图像，将所述源图像、所述第一图像和所述目标图像作为三元组样本，使得能够从原始视频和对应的替换对象之后的视频中简单快速地获取大量的三元组样本。并且，三元组样本中的目标图像为真实数据，非合成数据，通过三元组样本能够实现图像处理模型的有监督训练，能够提高图像换脸、视频换脸或者替换对象后的替换区域与非替换区域之间的整体关联性，从而提高了合成视频或者合成图像的质量。

在一个实施例中，终端可从目标视频中获取包含同一对象的图像作为源图像和目标图像；从原始视频中获取与目标视频中的目标图像相同帧的图像作为第一图像；将源图像、第一图像和目标图像作为三元组样本。

例如，终端获取原始视频(人脸A)和换脸之后的视频(人脸B)。从换脸后的视频里随机取一帧(帧号为i)含人脸图像作为源图像，并从换脸后的视频中随机取一帧(帧号为j)含人脸图像作为目标图像。再从原始视频中取对应换脸后的视频的帧(帧号为j)含人脸图像作为第一图像，这就构成了一个样本组，其中，源图像和目标图像是相同的人，第一图像和目标图像有相同的背景、姿态、表情、光照，从这两个视频对中采样能够简单快速地获取更多的三元组样本。

在一个实施例中，如图6所示，该将源图像、第一图像、目标图像和该输出图像输入该图像处理模型中的判别器，得到图像属性判别结果，包括：

步骤602，将源图像、第一图像、目标图像作为第一组合输入该图像处理模型中的判别器，得到第一组合对应的第一判别概率；该第一判别概率表征第一组合为非伪造图像的概率。

具体地，三元组样本作为真实的训练样本，训练好的判别器应该将包含源图像、第一图像和目标图像的第一组合识别为非伪造图像，即真实图像。输出图像是根据源图像和第一图像合成得到的，训练好的判别器应该将包含源图像、第一图像和输出图像的第二组合识别为伪造图像。

则在训练过程中，终端将源图像、第一图像、目标图像作为第一组合，并将该第一组合输入该图像处理模型中的判别器。判别器对该第一组合进行判别，以确定该第一组合属于非伪造图像的概率。该判别器通过对第一组合进行判别，输出该第一组合属于非伪造图像的概率，即第一判别概率。

步骤604，将源图像、第一图像、输出图像作为第二组合输入该判别器，得到第二组合对应的第二判别概率；该第二判别概率表征第二组合为伪造图像的概率。

具体地，终端将源图像、第一图像、输出图像作为第二组合，并将该第二组合输入该图像处理模型中的判别器。判别器对该第二组合进行判别，以确定该第二组合属于伪造图像的概率。该判别器通过对第二组合进行判别，输出该第二组合属于伪造图像的概率，即第二判别概率。

可以理解的是，不限定步骤602和步骤604之间的执行顺序，先执行步骤604，再执行步骤602，或者可以同时执行步骤602和步骤604均可实现。

该根据该图像属性判别结果调整该生成器的参数和该判别器的参数并继续训练，包括：

步骤606，根据第一判别概率和第二判别概率调整生成器的参数和判别器的参数并继续训练。

具体地，终端根据第一组合属于非伪造图像的概率和对应的标签之间的差异，第二组合属于伪造图像的概率和对应的标签之间的差异，调整判别器的参数并继续训练，从而得到训练好的判别器。接着，固定训练好的判别器的参数，基于训练好的判别器对生成器进行训练，并在训练过程中调整生成器的参数，以得到训练好的生成器。

在本实施例中，将源图像、第一图像、目标图像作为第一组合输入该图像处理模型中的判别器，得到第一组合对应的第一判别概率，将源图像、第一图像、输出图像作为第二组合输入该判别器，得到第二组合对应的第二判别概率，从而能够确定预测的概率和预设期望之间的差异。根据第一判别概率和第二判别概率调整生成器的参数和判别器的参数并继续训练，从而能够基于三元组样本对判别器和生成器进行训练，在训练过程中增加了监督样本，使得对生成器和判别器的调整更符合预设期望，从而使得训练好的模型更符合实际情况。

在一个实施例中，根据该第一判别概率和该第二判别概率调整该判别器的参数，包括：获取第一组合对应的标签和第二组合对应的第一标签，根据第一组合对应的标签、第一判别概率、第二组合对应的第一标签和第二判别概率确定第一损失函数；基于第一损失函数训练判别器，满足训练停止条件时得到训练好的判别器。

其中，终端预先设置了包含源图像、第一图像、目标图像的组合对应的标签，即第一组合对应的标签。该第一组合对应的标签即为第一组合对应的图像属性标签，表示第一组合为非伪造图像。第二组合包含了两个对应的标签，即为第二组合对应的图像属性标签，即第一标签和第二标签，该第二组合对应的第一标签表示第二组合为伪造图像。第二组合对应的第二标签表示第二组合为非伪造图像。

具体地，在判别器的训练过程中，使用到该第一组合对应的标签和该第二组合对应的第一标签。例如，在判别器的训练过程中，将第一组合对应的标签设置为1，即表示第一组合为非伪造图像。将第二组合对应的第一标签设置为0，即表示第二组合为伪造图像。

接着，终端根据第一组合对应的第一判别概率和第一组合对应的标签，可确定判别器输出的第一组合识别结果和对应的标签之间的差异。终端根据第二组合对应的第二判别概率和第二组合对应的第一标签，可确定判别器输出的第二组合的识别结果和对应的第一标签之间的差异。接着，终端可根据第一组合识别结果和对应的标签之间的差异、第二组合识别结果和对应的第一标签之间的差异构建第一损失函数。

接着，终端基于该第一损失函数训练该判别器，计算该判别器的训练过程中每次的损失值。当损失值小于或等于损失阈值时，判定满足训练停止条件，则停止对判别器的训练，并确定最后一次训练时该判别器的参数为训练好的判别器的目标参数。

在本实施例中，终端根据第一组合对应的第一判别概率和第一组合对应的标签，可计算出第一判别概率和第一组合对应的标签之间的第一误差。例如，第一判别概率为a，第一组合对应的标签为1，则终端计算a和1之间的误差。终端根据第二组合对应的第二判别概率和第二组合对应的第一标签，可计算出第二判别概率和对应的第一标签之间的第二误差。例如，第二判别概率为b，第二组合对应的第一标签为0，则终端计算b和0之间的误差。接着，终端计算第一误差和第二误差之间的均方误差，得到该判别器在本次训练中的损失值。

在本实施例中，获取第一组合对应的标签和第二组合对应的第一标签，根据第一组合对应的标签、第一判别概率、第二组合对应的第一标签和第二判别概率确定第一损失函数，能够计算三个图像的组合所确定判别器的损失函数更准确，包含更多的图像信息。基于该第一损失函数训练判别器，能够检测判别器的鉴别性能是否达到要求，从而得到训练好的判别器。通过训练好的判别器能够指导生成器的训练，从而得到训练好的生成器。

在一个实施例中，如图7所示，该图像处理模型中的生成器的训练方式包括：

步骤702，获取输出图像和目标图像之间的特征向量相似度、通道空间相似度、多层次特征相似度，以及该输出图像和该源图像之间的特征向量相似度。

其中，通道空间相似度是指输出图像和目标图像在通道维度上的相似度。例如，输出图像和目标图像均为彩色图像时，计算输出图像和目标图像在RGB(Red，Green，Blue)三通道上的特征相似度。

具体地，终端可获取输出图像和目标图像之间的特征向量相似度、输出图像和目标图像之间的通道空间相似度、输出图像和目标图像之间的多层次特征相似度，以及输出图像和该源图像之间的特征向量相似度。

步骤704，根据输出图像和目标图像之间的特征向量相似度、通道空间相似度、多层次特征相似度，以及输出图像和源图像之间的特征向量相似度构建第二损失函数。

具体地，终端可获取各特征向量相似度对应的权重，通道空间相似度对应的权重和多层次特征相似度对应的权重。接着，终端将输出图像和目标图像之间的特征向量相似度和对应的权重相乘，将输出图像和源图像之间的特征向量相似度和对应的权重相乘，通道空间相似度和对应的权重相乘，多层次特征相似度和对应的权重相乘，并将各相乘的结果相加得到第二损失函数。

步骤706，基于第二损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器。

具体地，终端通过该第二损失函数训练图像处理模型中的生成器，并根据训练结果调整生成器的参数。基于调整参数后的生成器继续进行训练，直到满足训练停止条件时停止训练，得到训练好的生成器。

在本实施例中，训练停止条件可以是通过第二损失函数训练生成器得到的损失值小于或等于损失阈值。当通过该第二损失函数训练的生成器得到的损失值小于或等于损失阈值时，停止训练，得到训练好的生成器。

本实施例中，获取输出图像和目标图像之间的特征向量相似度、通道空间相似度、多层次特征相似度，能够确定输出图像和目标图像的整体特征相似度、在通道维度上的相似度以及在多层次特征上的相似度，从而能够从多方面比较输出图像和目标图像之间的特征差异。获取该输出图像和该源图像之间的特征向量相似度，能够确定输出图像和源图像的在整体上的特征相似度，从而结合了多方面的特征相似度构建损失函数以训练生成器，使得对生成器的训练更全面。使得训练好的生成器的参数融合了多方面的特征相似度的考量，使得训练好的生成器在应用过程中能够采集图像多方面的特征，以更准确地实现图像中的对象替换，使得合成部位在形状、光照、动作等各方面与非合成部位能够保持连贯性、流畅性，提高合成图像或合成视频的质量。

在一个实施例中，获取该输出图像和该源图像之间的特征向量相似度，包括：将输出图像和源图像转换为对应的特征向量，得到输出图像的特征向量和源图像的特征向量；确定输出图像的特征向量和源图像的特征向量之间的相似度，得到输出图像和源图像之间的特征向量相似度。

具体地，终端将输出图像和源图像输入生成器，通过生成器将输出图像和源图像转化为对应特征向量，得到输出图像的特征向量和源图像的特征向量。接着，终端可计算输出图像的特征向量和源图像的特征向量之间的余弦相似度。将该预先相似度作为输出图像和源图像之间的特征向量相似度。

例如，终端可按照公式(1)计算出输出图像和源图像之间的特征向量相似度：

L_id(x,y)＝1-cos(z_id(x),z_id(y)) (1)

其中，x为源图像，y为输出图像，或者，x为源图像对应的特征向量，y为输出图像对应的特征向量。

本实施例中，将输出图像和源图像转换为对应的特征向量，得到输出图像的特征向量和源图像的特征向量。输出图像的特征向量表示输出图像的整体特征信息，源图像的特征向量表示源图像的整体特征信息。通过计算输出图像的特征向量和源图像的特征向量之间的相似度，能够确定输出图像和源图像的在整体特征上的相似度，从而能够确定输出图像和源图像之间的整体差异。

在一个实施例中，该获取该输出图像和该目标图像之间的特征向量相似度，包括：将输出图像和目标图像转换为对应的特征向量，得到输出图像的特征向量和目标图像的特征向量；确定输出图像的特征向量和目标图像的特征向量之间的相似度，得到输出图像和目标图像之间的特征向量相似度。

具体地，终端将输出图像和目标图像输入生成器，通过生成器将输出图像和目标图像转化为对应特征向量，得到输出图像的特征向量和目标图像的特征向量。接着，终端可计算输出图像的特征向量和目标图像的特征向量之间的余弦相似度。将该预先相似度作为输出图像和目标图像之间的特征向量相似度。

例如，终端可按照公式(1)计算出输出图像和目标图像之间的特征向量相似度：

L_id(x,y)＝1-cos(z_id(x),z_id(y)) (1)

在本实施例中，x为目标图像，y为输出图像，或者，x为目标图像对应的特征向量，y为输出图像对应的特征向量。

本实施例中，将输出图像和目标图像转换为对应的特征向量，得到输出图像的特征向量和目标图像的特征向量。输出图像的特征向量表示输出图像的整体特征信息，目标图像的特征向量表示目标图像的整体特征信息。通过计算输出图像的特征向量和目标图像的特征向量之间的相似度，能够确定输出图像和目标图像的在整体特征上的相似度，从而能够确定输出图像和目标图像之间的整体差异。

在一个实施例中，获取该输出图像和该目标图像之间的通道空间相似度，包括：确定输出图像对应的通道矩阵和目标图像对应的通道矩阵；确定输出图像对应的通道矩阵和目标图像对应的通道矩阵之间的相似度。

其中，输出图像对应的通道矩阵是指输出图像在R、G、B三通道上的权重矩阵。目标图像对应的通道矩阵是指目标图像在R、G、B三通道上的权重矩阵。

具体地，终端可根据输出图像中各颜色通道对应的像素点确定输出图像对应的通道矩阵。进一步地，终端可确定输出图像中颜色通道为红色的像素点、颜色通道为绿色的像素点和颜色通道为蓝色的像素点，根据颜色通道为红色、绿色和蓝色的像素点确定输出图像对应的通道矩阵。

终端可根据目标图像中各颜色通道对应的像素点确定目标图像对应的通道矩阵。进一步地，终端可确定目标图像中颜色通道为红色的像素点、颜色通道为绿色的像素点和颜色通道为蓝色的像素点，根据颜色通道为红色、绿色和蓝色的像素点确定目标图像对应的通道矩阵。

接着，终端可通过范数方式计算输出图像对应的通道矩阵和目标图像对应的通道矩阵之间的相似度，得到输出图像和目标图像在通道矩阵上的相似度，从而得出输出图像和目标图像在通道维度上的差异，进而能够确定输出图像和目标图像对应的像素点之间的颜色差异。

例如，终端可按照公式(2)计算出输出图像和目标图像在通道维度上的相似度：

L_rec(x,y)＝||x-y||₁ (2)

其中，x为目标图像，y为输出图像，或者，x为目标图像对应的通道矩阵，y为输出图像对应的通道矩阵。

在一个实施例中，如图8所示，获取输出图像和目标图像之间的多层次特征相似度，包括：

步骤802，对输出图像和目标图像进行特征提取，得到输出图像的特征和目标图像的特征。

具体地，终端通过图像处理模型中的生成器对输出图像和目标图像进行特征提取，得到输出图像的特征和目标图像的特征。进一步地，通过生成器对输出图像进行卷积处理，得到输出图像对应的多层次特征。通过生成器对目标图像进行卷积处理，得到目标图像对应的多层次特征。多层次特征中的各层次特征中所包含的特征的细化程度不相同，例如，第二层次特征由第一层次特征进行卷积处理得到，第二层次特征比第一层次特征更细化，包含更多的关键信息或者细节信息。

步骤804，确定相同层次的输出图像的特征和目标图像的特征之间的相似度，得到各层次的特征相似度。

具体地，终端可计算每个相同层次的输出图像的特征和目标图像的特征之间的相似度，得到输出图像和目标图像在每个层次上的特征相似度。

例如，输出图像对应3个层次的特征，目标图像对应3个层次的特征，则终端计算输出图像的第一层次特征和目标图像的第一层次特征之间的特征相似度。计算输出图像的第二层次特征和目标图像的第二层次特征之间的特征相似度。计算输出图像的第三层次特征和目标图像的第三层次特征之间的特征相似度，从而得到输出图像和目标图像在三个层次上的特征相似度。

在本实施例中，终端可确定相同层次相同尺寸的输出图像的特征和目标图像的特征之间的相似度，得到各层次的特征相似度。

具体地，终端可确定相同层次的输出图像的特征和目标图像的特征，并确定该相同层次中与该输出图像的特征的尺寸相同的目标图像的特征。接着，终端计算在该同一层次中相同尺寸的输出图像的特征和目标图像的特征之间的特征相似度。

例如，输出图像对应3个层次的特征，目标图像对应3个层次的特征，则终端计算输出图像的第一尺寸的第一层次特征和目标图像的第一尺寸的第一层次特征之间的特征相似度。计算输出图像的第二尺寸的第二层次特征和目标图像的第二尺寸的第二层次特征之间的特征相似度。计算输出图像的第三尺寸的第三层次特征和目标图像的第三尺寸的第三层次特征之间的特征相似度，从而得到输出图像和目标图像在三个层次上的特征相似度。

步骤806，根据各层次的相似度确定输出图像和目标图像之间的多层次特征相似度。

具体地，终端将输出图像和目标图像在各层次的特征相似度求和，得到输出图像和目标图像之间的多层次特征相似度。

例如，终端可根据公式(3)计算出输出图像和目标图像在各层次特征上的相似度：

其中，x为目标图像，y为输出图像。F_i表示第i层特征，C_iH_iW_i表示第i层特征的尺寸。

在本实施例中，对输出图像和目标图像进行特征提取，得到各层次的输出图像的特征和各层次的目标图像的特征，从而得到输出图像和目标图像的浅层特征信息和深层特征信息。确定相同层次的输出图像的特征和目标图像的特征之间的相似度，能够确定输出图像和目标图像在浅层特征信息上的差异，以及在深层特征信息上的差异。根据各层次的相似度确定输出图像和目标图像之间的多层次特征相似度，从而能够准确确定输出图像和目标图像之间由浅入深的特征差异。

在一个实施例中，如图9所示，该基于该第二损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器，包括：

步骤902，使用训练好的判别器对第二组合进行判别，得到第二组合对应的第三判别概率。

其中，该第三判别概率表征第二组合为非伪造图像的概率。

具体地，图像处理模型在训练的时候交替调整判别器的参数和生成器的参数，即交替训练判别器和生成器。终端在训练生成器时，固定判别器的参数。终端将源图像、第一图像、输出图像作为第二组合，并将该第二组合输入该图像处理模型中的训练好的判别器。训练好的判别器对该第二组合进行判别，以确定该第二组合属于非伪造图像的概率。该判别器通过对第二组合进行判别，输出该第二组合属于非伪造图像的概率，即第三判别概率。

步骤904，获取第二组合对应的第二标签，该第二标签表示第二组合为非伪造图像；该第二组合对应的第一标签表示第二组合为伪造图像。

具体地，终端预先设置了第二组合对应的标签，该第二组合可对应两个标签。该第二组合对应的第一标签表示第二组合为伪造图像。第二组合对应的第二标签表示第二组合为非伪造图像。在判别器的训练过程中，使用到该第二组合对应的第一标签。而在生成器的训练过程中，使用到该第二组合对应的第二标签。例如，在生成器的训练过程中，将第二组合对应的第二标签设置为1，即表示第二组合为非伪造图像。

步骤906，根据第二组合对应的第三判别概率和第二标签，确定第三判别概率和第二标签之间的损失误差。

具体地，终端可根据第三判别概率和第二标签计算第二组合的识别结果和对应的第二标签之间的差异。例如，第三判别概率为c，第二组合对应的第二标签为1，则终端计算c和1之间的误差，得到损失误差。

步骤908，基于损失误差和第二损失函数构建目标损失函数，并基于目标损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器。

具体地，终端可获取第三判别概率和第二标签之间的损失误差对应的权重，将该损失误差和对应的权重相乘。接着，终端将乘积和第二损失函数相加可得到目标损失函数。

接着，终端基于该目标损失函数训练该生成器，计算该生成器的训练过程中每次的损失值。当生成器输出的损失值小于或等于损失阈值时，判定满足训练停止条件，则停止对生成器的训练，并将最后一次训练时该生成器的参数作为训练好的生成器的目标参数。

本实施例中，通过使用训练好的判别器对第二组合进行判别，得到第二组合对应的第三判别概率，获取第二组合对应的第二标签，根据第二组合对应的第三判别概率和第二标签，确定第三判别概率和第二标签之间的损失误差，从而能够确定预测的概率和预设期望之间的差异。基于损失误差和第二损失函数构建目标损失函数，目标损失函数中结合了第二组合的属性识别结果和标签之间的差异，输出图像和目标图像的整体特征相似度、在通道维度上的相似度以及在多层次特征上的相似度，从而能够从多方面结合多因素比较输出图像和目标图像之间的特征差异。基于目标损失函数训练图像处理模型中的生成器，使得生成器的输出图像不断接近参照图像(即目标图像)。当满足训练停止条件时停止训练，得到训练好的生成器，该训练好的生成器能够保证图像、视频中替换对象时，合成部位在形状、光照、动作等各方面与非合成部位能够保持连贯性、流畅性，从而提高合成图像或合成视频的质量。

如图10所示，为一个实施例中图像处理模型的训练方法的整体架构图。

终端从正样本数据池中随机获取第二图像，并从脸部身份数据池中获取目标图像以及源图像，目标图像和源图像对应相同的身份属性。第二图像和目标图像对应不同的身份属性。接着，终端将第二图像和目标图像输入图像处理模型中，基础图像处理模型将目标图像中的对象替换为第二图像中的对象，得到第一图像。该第一图像和第二图像对应相同的身份属性，该第一图像和目标图像对应相同的非身份属性。该源图像、第一图像和目标图像构成一个三元组图像。接着，终端将源图像和第一图像输入图像处理模型的训练单元中，训练单元将第一图像中的对象替换为源图像中的对象，得到输出图像。

接着，训练单元将源图像、第一图像、目标图像作为第一组合输入图像处理模型中的判别器，得到第一组合对应的第一判别概率；第一判别概率表征第一组合为非伪造图像的概率。将源图像、第一图像、输出图像作为第二组合输入判别器，得到第二组合对应的第二判别概率；第二判别概率表征第二组合为伪造图像的概率。获取第一组合对应的标签和第二组合对应的第一标签，根据第一组合对应的标签、第一判别概率、第二组合对应的第一标签和第二判别概率确定第一损失函数。基于第一损失函数训练判别器，满足训练停止条件时得到训练好的判别器。

接着，训练单元根据使用训练好的判别器对第二组合进行判别，得到第二组合对应的图像属性判别结果，并确定该图像属性判别结果和对应的第二标签之间的损失误差。

训练单元根据输出图像和源图像之间的特征向量相似约束、输出图像和目标图像之间的的特征向量相似约束、输出图像和目标图像之间的通道空间相似约束、输出图像和目标图像之间的多层次特征相似约束，以及第二组合对应的图像属性判别结果与第二标签之间的损失误差训练图像处理模型中的生成器，当满足预设条件时停止训练，得到训练好的图像处理模型。

在一个实施例中，如图11所示，根据图像属性判别结果调整生成器的参数和判别器的参数并继续训练，包括：

步骤1102，根据图像属性判别结果调整生成器的参数和判别器的参数，得到调整后的图像处理模型。

具体地，图像处理模型在训练的时候交替调整判别器的参数和生成器的参数，即交替训练判别器和生成器。终端在训练生成器时，固定判别器的参数。终端根据图像属性判别结果与对应的标签之间的差异调整判别器的参数，得到调整后的判别器。接着，终端使用调整后的判别器对包含源图像、第一图像、输出图像的组合进行识别，得到对应的图像属性判别结果。基于属性判别结果和对应的标签之间的差异调整生成器的参数，从而得到调整参数后生成器。可以理解的是，完成一次判别器和生成器的参数调整，即完成一次图像处理模型的参数调整，得到调整后的图像处理模型。

步骤1104，获取源图像、目标图像和第三图像，将目标图像和第三图像输入调整后的图像处理模型，得到第四图像。

具体地，终端根据图像属性判别结果调整生成器的参数和判别器的参数后，得到调整后的图像处理模型。接着，终端获取第三图像，该第三图像和该目标图像对应不同的身份属性，即该第三图像中的对象和该目标图像中的对象并非同一对象。进一步地，第三图像和源图像可以对应相同的非身份属性，也可以对应不同的非身份属性。第三图像和目标图像可以对应相同的非身份属性，也可以对应不同的非身份属性。

在本实施中，可以将第二图像作为第三图像，第三图像也可以是除第二图像以外的其它图像。

具体地，终端可将该第三图像和该目标图像输入图像处理模型，通过调整后的图像处理模型中的生成器将该目标图像中的对象替换为第三图像中的对象，同时保持目标图像中的对象的姿态、表情、妆容和背景等非身份属性不变，从而得到生成器输出的第四图像。该第四图像和该第三图像对应相同的身份属性，即第四图像中的对象即为第三图像中的对象。该第四图像中的对象的姿态、表情、妆容和背景等非身份属性即为该目标图像中的对象的姿态、表情、妆容和背景等非身份属性。

步骤1106，将源图像、第四图像和目标图像作为三元组图像。

具体地，终端将一个源图像、一个第四图像和第一目标图像组合为一个三元组图像。进一步地，终端将预设数量的第三图像和预设数量的目标图像输入图像处理模型，得到预设数量的第四图像。并将对应的源图像、第四图像和目标图像组合为三元组图像，得到预设数量的三元组图像。

步骤1108，根据三元组图像更新三元组样本，并基于更新后的三元组样本继续训练图像处理模型。

具体地，终端将通过调整后的图像处理模型生成的三元组图像加入三元组样本中，以扩充训练样本。接着，终端基于更新后的三元组样本对调整后的图像处理模型继续进行训练，并根据训练结果调整参数。

在本实施例中，根据图像属性判别结果调整生成器的参数和判别器的参数，得到调整后的图像处理模型，获取源图像、目标图像和第三图像，将目标图像和第三图像输入调整后的图像处理模型，得到第四图像，将源图像、第四图像和目标图像作为三元组图像，能够通过调整后的模型生成新的三元组样本，以更新三元组样本，从而实现训练样本的扩充。且无需额外采集训练数据，节省训练成本。

如图12所示，为一个实施例中图像处理模型的迭代训练的架构图。基础图像处理模型为待训练的图像处理模型，终端从正样本数据池中随机获取第二图像，并从脸部身份数据池中获取目标图像以及源图像，目标图像和源图像对应相同的身份属性。第二图像和目标图像对应不同的身份属性。接着，终端将第二图像和目标图像输入基础图像处理模型中，基础图像处理模型将目标图像中的对象替换为第二图像中的对象，得到第一图像1。该第一图像1和第二图像对应相同的身份属性，该第一图像1和目标图像对应相同的非身份属性。该源图像、第一图像1和目标图像构成一个三元组图像。接着，终端将源图像和第一图像1输入图像处理模型的训练单元中，训练单元将第一图像1中的对象替换为源图像中的对象，得到输出图像。该输出图像和目标图像对应相同的身份属性和相同的非身份属性，但是输出图像是图像处理模型合成的图像，目标图像为真实图像。则终端根据输出图像和目标图像之间的差异调整图像处理模型的参数，得到调整后的图像处理模型1。

接着，按照上述相同的处理方法，将终端将第二图像和目标图像输入像处理模型1中，图像处理模型1将目标图像中的对象替换为第二图像中的对象，得到第一图像2。该源图像、第一图像2和目标图像构成一个三元组图像。从而可得到图像处理模型2输出的第一图像3，该源图像、第一图像3和目标图像构成一个三元组图像。

可以理解的是，每完成一次图像处理模型的训练，则利用训练的新图像处理模型生成一部分三元组图像。将新的三元组图像和之前的三元组样本混合，新样本占三元组样本的30％，然后使用这些混合样本来继续训练图像处理模型。迭代的次数可根据具体需求设置。一般来说，迭代2到3次即可得到较为稳定的模型。

如图13所示，提供了一种图像处理方法，以该方法应用于图1中的终端为例进行说明，包括：

步骤1302，获取待处理图像和待处理视频，将待处理图像和待处理视频输入训练好的图像处理模型；该图像处理模型根据三元组样本训练得到，该三元组样本包括源图像、第一图像和目标图像；该源图像和该目标图像对应相同的身份属性，该第一图像和该源图像对应不同的身份属性；该第一图像和该目标图像对应相同的非身份属性。

其中，待处理图像是指需要替换对象的图像，待处理视频是指需要替换对象的视频。该待处理图像中的对象与待处理视频中的对象可以对应相同的身份属性，也可以对应不同的身份属性。待处理图像中的对象和待处理视频中的对象可以是图像或视频中的人体的各个部位，或者各个部位的组合。例如，对象可以是指人脸、眼睛、鼻子、上半身或者整个人体，但不限于此。非身份属性是指图像或视频中的对象的姿态、表情、妆容和背景等属性。

具体地，终端获取三元组样本，该三元组样本包括源图像、第一图像和目标图像；源图像和目标图像对应相同的身份属性，第一图像和源图像对应不同的身份属性；第一图像和目标图像对应相同的非身份属性。接着，终端将源图像和第一图像输入图像处理模型中的生成器，得到输出图像。接着，终端将源图像、第一图像、目标图像和输出图像输入该图像处理模型中的判别器，得到图像属性判别结果；该图像属性包括伪造图像和非伪造图像。接着，终端根据图像属性判别结果调整生成器的参数和该判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型。进一步地，训练好的图像处理模型中包含生成器。

接着，终端可以本地或网络上或者其它设备上获取待处理图像和待处理视频。接着，终端将该待处理图像和待处理视频输出到训练好的图像处理模型中。

步骤1304，通过训练好的图像处理模型中的生成器将待处理视频中的第一对象替换为待处理图像中的第二对象，输出包含第二对象的目标视频。

其中，目标视频与该待处理视频对应不同的身份属性，且对应相同的非身份属性。

具体地，终端通过训练好的图像处理模型中的生成器对待处理图像进行对象识别，得到待处理图像中的包含的对象，即第二对象。终端通过训练好的图像处理模型中的生成器对待处理视频进行对象识别，得到待处理视频中的包含的同一对象，即第一对象。接着，终端通过生成器将待处理视频中的第一对象替换为第二对象，得到包含第二对象的目标视频。该目标视频中的第二对象的姿态、表情、妆容和背景等非身份属性与该待处理视频中的第一对象的姿态、表情、妆容和背景等非身份属性相同。

在本实施例中，通过训练好的图像处理模型将待处理视频中的第一对象替换为待处理图像中的第二对象，从而得到包含第二对象的目标视频。通过三元组样本训练得到的图像处理模型能够保证第二图像在待处理视频中的合成区域在形状、光照、动作等各方面与待处理视频中的非合成区域能够保持连贯性、流畅性，从而得到高质量的视频。

如图14所示，为一个实施例中传统换脸模型和本方案的图像处理模型的应用于视频换脸的场景的对比示意图。通过本方案的图像处理模型的训练方法训练得到图像处理模型。其中，图14中的第一行是传统换脸模型处理的图像，第二行是本方案的图像处理模型处理的图像。第一列和第五列是源图像，第二列和第六列是目标图像，第三列和第七列是模型输出的图像，第四列和第八列是输出图像和目标图像的差异图，输出图像和目标图像的差别越大差异越亮。

从图14中的第一行和第一行的差异图可以很明显看出，传统换脸模型生成的图像和目标图像整体差异较大，应用到视频领域时，很难保持稳定性。而采用本方案训练得到图像处理模型生成的图像和目标图像之间的变化基本集中在脸部区域，说明背景一致性较好。另外，即使只看脸部区域，本方案训练得到图像处理模型输出的图像和目标图像之间的姿态、表情、妆容的差异更小。

在一个实施例中，提供了一种图像处理模型的训练方法，包括：

接着，终端将目标图像中的对象替换为第二图像中的对象，得到第一图像；第一图像和源图像对应不同的身份属性；第一图像和目标图像对应相同的非身份属性。

接着，终端获取待处理图像和待处理视频，将待处理图像和待处理视频输入训练好的图像处理模型。

接着，终端通过训练好的图像处理模型中的生成器将待处理视频中的第一对象替换为待处理图像中的第二对象，输出包含第二对象的目标视频。

本实施例中，通过第二图像和目标图像构造第一图像，将源图像、第一图像和该目标图像作为三元组样本，从而能够构造出三元组样本。基于三元组样本对判别器和生成器进行训练，在训练过程中通过计算输出图像和目标图像的整体特征相似度、在通道维度上的相似度以及在多层次特征上的相似度，使得能够从多方面比较输出图像和目标图像之间的特征差异，并确定输出图像和源图像的在整体上的特征相似度，从而结合了多方面的特征相似度构建损失函数以训练生成器和判别器。通过调整后的模型生成新的三元组样本，从而实现训练样本的扩充。且无需额外采集数据，节省训练成本。将三元组样本中的目标图像作为参照物实现三元组样本对图像处理模型的有监督训练。通过三元组样本训练得到的图像处理模型能够保证第二图像在待处理视频中的合成区域在形状、光照、动作等各方面与待处理视频中的非合成区域能够保持连贯性、流畅性，从而得到高质量的视频。

应该理解的是，虽然图2-图13的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图13中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图15所示，提供了一种图像处理模型的训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1502、生成模块1504、判别模块1506和训练模块1508，其中：

获取模块1502，用于获取三元组样本，该三元组样本包括源图像、第一图像和目标图像；该源图像和该目标图像对应相同的身份属性，该第一图像和该源图像对应不同的身份属性；该第一图像和该目标图像对应相同的非身份属性。

生成模块1504，用于将该源图像和该第一图像输入图像处理模型中的生成器，得到输出图像。

判别模块1506，用于将该源图像、该第一图像、该目标图像和该输出图像输入该图像处理模型中的判别器，得到图像属性判别结果；该图像属性包括伪造图像和非伪造图像。

训练模块1508，用于根据该图像属性判别结果调整该生成器的参数和该判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型。

本实施例中，获取三元组样本，三元组样本包括源图像、第一图像和目标图像，源图像和目标图像对应相同的身份属性，第一图像和源图像对应不同的身份属性；第一图像和目标图像对应相同的非身份属性。将源图像和第一图像输入图像处理模型中的生成器，得到输出图像，将源图像、第一图像、目标图像和输出图像输入图像处理模型中的判别器，得到图像属性判别结果；根据图像属性判别结果调整生成器的参数和判别器的参数并继续训练，当满足预设条件时停止训练，得到训练好的图像处理模型，从而能够根据真实的三元组样本数据对图像处理模型进行训练，从而实现图像处理模型的在图像对象替换、视频对象替换场景下的有监督训练，实现图像处理模型的稳定性和鲁棒性。

在一个实施例中，该获取模块1502还用于：获取源图像、目标图像和第二图像，该第二图像和该目标图像对应不同的身份属性；将该目标图像中的对象替换为第二图像中的对象，得到第一图像；该第一图像和该第二图像对应相同的身份属性，该第一图像和该目标图像对应相同的非身份属性；将该源图像、该第一图像和该目标图像作为三元组样本。

在一个实施例中，该获取模块1502还用于：获取原始视频和目标视频，该原始视频和该目标视频对应相同的非身份属性，该原始视频和该目标视频对应不同的身份属性；从原始视频中获取包含同一对象的图像作为源图像和目标图像；从目标视频中获取与原始视频中的目标图像相同帧的图像作为第一图像；将源图像、第一图像和目标图像作为三元组样本。

在一个实施例中，判别模块1506还用于：将源图像、第一图像、目标图像作为第一组合输入图像处理模型中的判别器，得到第一组合对应的第一判别概率；第一判别概率表征第一组合为非伪造图像的概率；将源图像、第一图像、输出图像作为第二组合输入判别器，得到第二组合对应的第二判别概率；第二判别概率表征第二组合为伪造图像的概率；

训练模块1508还用于：根据第一判别概率和第二判别概率调整生成器的参数和判别器的参数并继续训练。

在一个实施例中，训练模块1508还用于：获取第一组合对应的标签和第二组合对应的第一标签，根据第一组合对应的标签、第一判别概率、第二组合对应的第一标签和第二判别概率确定第一损失函数；基于第一损失函数训练判别器，满足训练停止条件时得到训练好的判别器。

在一个实施例中，训练模块1508还用于：获取输出图像和目标图像之间的特征向量相似度、通道空间相似度、多层次特征相似度，以及输出图像和源图像之间的特征向量相似度；根据输出图像和目标图像之间的特征向量相似度、通道空间相似度、多层次特征相似度，以及输出图像和源图像之间的特征向量相似度构建第二损失函数；基于第二损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器。

在一个实施例中，训练模块1508还用于：将输出图像和源图像转换为对应的特征向量，得到输出图像的特征向量和源图像的特征向量；确定输出图像的特征向量和源图像的特征向量之间的相似度，得到输出图像和源图像之间的特征向量相似度。

在一个实施例中，训练模块1508还用于：将输出图像和目标图像转换为对应的特征向量，得到输出图像的特征向量和目标图像的特征向量；确定输出图像的特征向量和目标图像的特征向量之间的相似度，得到输出图像和目标图像之间的特征向量相似度。

在一个实施例中，训练模块1508还用于：确定输出图像对应的通道矩阵和目标图像对应的通道矩阵；确定输出图像对应的通道矩阵和目标图像对应的通道矩阵之间的相似度。

在本实施例中，通过确定输出图像对应的通道矩阵和目标图像对应的通道矩阵之间的相似度，得出输出图像和目标图像在通道维度上的差异，进而能够确定输出图像和目标图像对应的像素点之间的颜色差异。

在一个实施例中，训练模块1508还用于：对输出图像和目标图像进行特征提取，得到输出图像的特征和目标图像的特征；确定相同层次的输出图像的特征和目标图像的特征之间的相似度，得到各层次的特征相似度；根据各层次的相似度确定输出图像和目标图像之间的多层次特征相似度。

在一个实施例中，该该训练模块1508还用于：使用训练好的判别器对该第二组合进行判别，得到该第二组合对应的第三判别概率；获取该第二组合对应的第二标签，该第二标签表示该第二组合为非伪造图像；该第二组合对应的第一标签表示该第二组合为伪造图像；根据该第二组合对应的第三判别概率和该第二标签，确定该第三判别概率和该第二标签之间的损失误差；基于该损失误差和该第二损失函数构建目标损失函数，并基于该目标损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器。

在一个实施例中，训练模块1508还用于：根据图像属性判别结果调整生成器的参数和判别器的参数，得到调整后的图像处理模型；获取源图像、目标图像和第三图像，将目标图像和第三图像输入调整后的图像处理模型，得到第四图像；将源图像、第四图像和目标图像作为三元组图像；根据三元组图像更新三元组样本，并基于更新后的三元组样本继续训练图像处理模型。

关于图像处理模型的训练装置的具体限定可以参见上文中对于图像处理模型的训练方法的限定，在此不再赘述。上述图像处理模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图16所示，提供了一种图像处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：输入模块1602和输出模块1604，其中：

输入模块1602，用于获取待处理图像和待处理视频，将待处理图像和待处理视频输入训练好的图像处理模型；该图像处理模型根据三元组样本训练得到，该三元组样本包括源图像、第一图像和目标图像；该源图像和该目标图像对应相同的身份属性，该第一图像和该源图像对应不同的身份属性；该第一图像和该目标图像对应相同的非身份属性。

输出模块1604，用于通过训练好的图像处理模型中的生成器将待处理视频中的第一对象替换为待处理图像中的第二对象，输出包含第二对象的目标视频。

关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定，在此不再赘述。上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像处理模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取三元组样本，包括：

获取源图像、目标图像和第二图像，所述第二图像和所述目标图像对应不同的身份属性；

将所述目标图像中的对象替换为第二图像中的对象，得到第一图像；所述第一图像和所述第二图像对应相同的身份属性；

将所述源图像、所述第一图像和所述目标图像作为三元组样本。

3.根据权利要求1所述的方法，其特征在于，所述获取三元组样本，包括：

获取原始视频和目标视频，所述原始视频和所述目标视频对应相同的非身份属性，所述原始视频和所述目标视频对应不同的身份属性；

从所述原始视频中获取包含同一对象的图像作为源图像和目标图像；

从所述目标视频中获取与所述原始视频中的目标图像相同帧的图像作为第一图像；

4.根据权利要求1所述的方法，其特征在于，所述将所述源图像、所述第一图像、所述目标图像和所述输出图像输入所述图像处理模型中的判别器，得到图像属性判别结果，包括：

将所述源图像、所述第一图像、所述目标图像作为第一组合输入所述图像处理模型中的判别器，得到所述第一组合对应的第一判别概率；所述第一判别概率表征所述第一组合为非伪造图像的概率；

将所述源图像、所述第一图像、所述输出图像作为第二组合输入所述判别器，得到所述第二组合对应的第二判别概率；所述第二判别概率表征所述第二组合为伪造图像的概率；

所述根据所述图像属性判别结果调整所述生成器的参数和所述判别器的参数并继续训练，包括：

根据所述第一判别概率和所述第二判别概率调整所述生成器的参数和所述判别器的参数并继续训练。

5.根据权利要求4所述的方法，其特征在于，根据所述第一判别概率和所述第二判别概率调整所述判别器的参数，包括：

获取所述第一组合对应的标签和所述第二组合对应的第一标签，根据所述第一组合对应的标签、所述第一判别概率、所述第二组合对应的第一标签和所述第二判别概率确定第一损失函数；

基于所述第一损失函数训练所述判别器，满足训练停止条件时得到训练好的判别器。

6.根据权利要求1所述的方法，其特征在于，所述图像处理模型中的生成器的训练方式包括：

获取所述输出图像和所述目标图像之间的特征向量相似度、通道空间相似度、多层次特征相似度，以及所述输出图像和所述源图像之间的特征向量相似度；

根据所述输出图像和所述目标图像之间的特征向量相似度、通道空间相似度、多层次特征相似度，以及所述输出图像和所述源图像之间的特征向量相似度构建第二损失函数；

基于所述第二损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器。

7.根据权利要求6所述的方法，其特征在于，获取所述输出图像和所述目标图像之间的通道空间相似度，包括：

确定所述输出图像对应的通道矩阵和所述目标图像对应的通道矩阵；

确定所述输出图像对应的通道矩阵和所述目标图像对应的通道矩阵之间的相似度。

8.根据权利要求6所述的方法，其特征在于，获取所述输出图像和所述目标图像之间的多层次特征相似度，包括：

对所述输出图像和所述目标图像进行特征提取，得到所述输出图像的特征和所述目标图像的特征；

确定相同层次的所述输出图像的特征和所述目标图像的特征之间的相似度，得到各层次的特征相似度；

根据所述各层次的相似度确定所述输出图像和所述目标图像之间的多层次特征相似度。

9.根据权利要求6所述的方法，其特征在于，所述基于所述第二损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器，包括：

使用训练好的判别器对所述第二组合进行判别，得到所述第二组合对应的第三判别概率；

获取所述第二组合对应的第二标签，所述第二标签表示所述第二组合为非伪造图像；所述第二组合对应的第一标签表示所述第二组合为伪造图像；

根据所述第二组合对应的第三判别概率和所述第二标签，确定所述第三判别概率和所述第二标签之间的损失误差；

基于所述损失误差和所述第二损失函数构建目标损失函数，并基于所述目标损失函数训练图像处理模型中的生成器，当满足训练停止条件时停止训练，得到训练好的生成器。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述根据所述图像属性判别结果调整所述生成器的参数和所述判别器的参数并继续训练，包括：

根据所述图像属性判别结果调整所述生成器的参数和所述判别器的参数，得到调整后的图像处理模型；

获取所述源图像、所述目标图像和第三图像，将所述目标图像和所述第三图像输入调整后的图像处理模型，得到第四图像；

将所述源图像、所述第四图像和所述目标图像作为三元组图像；

根据所述三元组图像更新所述三元组样本，并基于所述更新后的三元组样本继续训练图像处理模型。

11.一种图像处理方法，其特征在于，所述方法包括：

12.一种图像处理装置，其特征在于，所述装置包括：

13.一种图像处理模型的训练装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。