CN116704588B

CN116704588B - 面部图像的替换方法、装置、设备及存储介质

Info

Publication number: CN116704588B
Application number: CN202310969507.7A
Authority: CN
Inventors: 贺珂珂; 朱俊伟; 邰颖; 汪铖杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-09-29
Anticipated expiration: 2043-08-03
Also published as: CN116704588A

Abstract

本申请公开了一种面部图像的替换方法、装置、设备及存储介质，涉及计算机技术领域。该方法包括：获取第一样本图像、第二样本图像以及样本替换图像；以样本噪声数据对样本替换图像进行n次加噪得到样本加噪图像；在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，基于样本加噪图像预测得到预测噪声数据；以样本噪声数据和预测噪声数据对面部图像替换模型进行训练。通过以上方式，能够在去除噪声的同时实现面部替换过程，避免由于图像清晰度较低而导致面部替换生成效果较差的问题，提高训练后的面部图像替换模型的鲁棒性。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

面部图像的替换方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种面部图像的替换方法、装置、设备及存储介质。

背景技术

面部图像替换有着广泛的应用场景，如影视人像制作、游戏人物设计、虚拟形象创造等场景。以在影视制作场景为例，当演员无法完成专业动作时，可由专业人员先完成，后期利用面部图像替换过程将演员替换，以在保证安全的前提下完成更针对性的影视制作。

相关技术中，通常在获取得到用于进行面部图像替换的第一图像和第二图像后，通过对第一图像和第二图像分别进行面部关键点提取的方式，确定第一图像上与第一面部区域对应的多个第一面部关键点，以及确定第二图像上与第二面部区域对应的多个第二面部关键点，进而根据第一图像和第二图像的图像配准结果，以及多个第一面部关键点以及多个第二面部关键点的对应关系，实现将第一图像上的第一面部区域替换至第二图像的第二面部区域的面部替换过程。

然而，上述方法并未充分考虑第一图像和第二图像的图像清晰度情况，当第一图像和第二图像的图像清晰度较低时，上述面部关键点的提取结果的准确性也会较低，进而在根据面部关键点对应关系实现面部替换过程后，得到的面部替脸图像的生成质量较差，大大影响面部替换效果。

发明内容

本申请实施例提供了一种面部图像的替换方法、装置、设备及存储介质，能够在去除噪声的同时实现面部替换过程，避免由于图像清晰度较低而导致面部替换生成效果较差的问题，提高训练后的面部图像替换模型的鲁棒性。所述技术方案如下。

一方面，提供了一种面部图像的替换方法，所述方法包括：

获取第一样本图像、第二样本图像以及样本替换图像，所述样本替换图像是将所述第一样本图像中的第一面部区域替换至所述第二样本图像中的第二面部区域得到的参考图像；

以样本噪声数据在时间维度上对所述样本替换图像进行n次加噪，得到样本加噪图像，n为正整数；

在通过面部图像替换模型对所述第一样本图像和所述第二样本图像进行面部区域替换的过程中，基于所述样本加噪图像预测得到预测噪声数据；

以所述样本噪声数据和所述预测噪声数据之间的差异对所述面部图像替换模型进行训练，得到训练后的面部图像替换模型，所述训练后的面部图像替换模型用于将第一图像中的面部区域替换至第二图像。

另一方面，提供了一种面部图像的替换方法，所述方法包括：

获取第一图像和第二图像，所述第一图像用于将第一面部区域替换至所述第二图像上；

获取噪声图，所述噪声图用于通过减噪处理将所述第一面部区域替换至所述第二图像；

在通过训练后的面部图像替换模型对所述第一图像和所述第二图像进行面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于对所述噪声图的减噪处理得到所述面部替换图像。

另一方面，提供了一种面部图像的替换装置，所述装置包括：

图像获取模块，用于获取第一样本图像、第二样本图像以及样本替换图像，所述样本替换图像是将所述第一样本图像中的第一面部区域替换至所述第二样本图像中的第二面部区域得到的参考图像；

图像加噪模块，用于以样本噪声数据在时间维度上对所述样本替换图像进行n次加噪，得到样本加噪图像，n为正整数；

噪声预测模块，用于在通过面部图像替换模型对所述第一样本图像和所述第二样本图像进行面部区域替换的过程中，基于所述样本加噪图像预测得到预测噪声数据；

模型训练模块，用于以所述样本噪声数据和所述预测噪声数据之间的差异对所述面部图像替换模型进行训练，得到训练后的面部图像替换模型，所述训练后的面部图像替换模型用于将第一图像中的面部区域替换至第二图像。

图像获取模块，用于获取第一图像和第二图像，所述第一图像用于将第一面部区域替换至所述第二图像上；

噪声获取模块，用于获取噪声图，所述噪声图用于通过减噪处理将所述第一面部区域替换至所述第二图像；

减噪处理模块，用于在通过训练后的面部图像替换模型对所述第一图像和所述第二图像进行面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于对所述噪声图的减噪处理得到所述面部替换图像。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的面部图像的替换方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的面部图像的替换方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的面部图像的替换方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，基于以样本噪声数据对样本替换图像进行n次加噪后的样本加噪图像得到预测噪声数据，进而通过样本噪声数据以及预测噪声数据之间的差异对面部图像替换模型进行训练。借助面部图像替换模型对样本加噪图像进行噪声分布的预测过程，有利于使得面部图像替换模型学习到样本图像（第一样本图像和第二样本图像）与样本加噪图像之间的噪声关系，结合样本替换图像与第一样本图像和第二样本图像之间的参考替换情况，有利于提高面部图像替换模型对噪声的针对性分析过程，进而借助噪声预测过程对清晰度较低的图像进行针对性的调整，以在去除噪声的同时实现面部替换过程，避免由于图像清晰度较低而导致面部替换生成效果较差的问题，提高训练后的面部图像替换模型的鲁棒性，有利于将训练后的面部图像替换模型应用于更广泛的面部替换场景下。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的面部图像的替换方法的流程图；

图3是本申请另一个示例性实施例提供的面部图像的替换方法的流程图；

图4是本申请一个示例性实施例提供的获取样本替换图像的示意图；

图5是本申请一个示例性实施例提供的加噪处理的示意图；

图6是本申请一个示例性实施例提供的获取预测噪声数据的流程图；

图7是本申请再一个示例性实施例提供的面部图像的替换方法的流程图；

图8是本申请一个示例性实施例提供的面部图像替换模型的结构示意图；

图9是本申请一个示例性实施例提供的编码网络和解码网络的示意图；

图10是本申请又一个示例性实施例提供的面部图像的替换方法的流程图；

图11是本申请一个示例性实施例提供的减噪处理的示意图；

图12是本申请一个示例性实施例提供的面部图像的替换装置的结构框图；

图13是本申请另一个示例性实施例提供的面部图像的替换装置的结构框图；

图14是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍。

人工智能（Artificial Intelligence，AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

相关技术中，通常在获取得到用于进行面部图像替换的第一图像和第二图像后，通过对第一图像和第二图像分别进行面部关键点提取的方式，确定第一图像上与第一面部区域对应的多个第一面部关键点，以及确定第二图像上与第二面部区域对应的多个第二面部关键点，进而根据第一图像和第二图像的图像配准结果，以及多个第一面部关键点以及多个第二面部关键点的对应关系，实现将第一图像上的第一面部区域替换至第二图像的第二面部区域的面部替换过程。然而，上述方法并未充分考虑第一图像和第二图像的图像清晰度情况，当第一图像和第二图像的图像清晰度较低时，上述面部关键点的提取结果的准确性也会较低，进而在根据面部关键点对应关系实现面部替换过程后，得到的面部替脸图像的生成质量较差，大大影响面部替换效果。

在本申请实施例中，除获取表征参考情况的样本替换图像外，以样本噪声数据在时间维度上对样本替换图像进行n次加噪得到样本加噪图像，在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，以样本加噪图像预测面部区域替换过程对应的预测噪声数据，进而通过样本噪声数据以及预测噪声数据之间的差异对面部图像替换模型进行训练。借助面部图像替换模型对样本加噪图像进行噪声分布的预测过程，有利于使得面部图像替换模型学习到样本图像（第一样本图像和第二样本图像）与样本加噪图像之间的噪声关系，结合样本替换图像与第一样本图像和第二样本图像之间的参考替换情况，有利于提高面部图像替换模型对噪声的针对性分析过程，进而借助噪声预测过程对清晰度较低的图像进行针对性的调整，以在去除噪声的同时实现面部替换过程，避免由于图像清晰度较低而导致面部替换生成效果较差的问题，提高训练后的面部图像替换模型的鲁棒性，有利于将训练后的面部图像替换模型应用于更广泛的面部替换场景下。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。例如，本申请中涉及到的第一样本图像、第二样本图像、样本替换图像、面部图像替换模型、第一图像、第二图像等内容都是在充分授权的情况下获取的。

其次，对本申请实施例中涉及的实施环境进行说明，本申请实施例提供的面部图像的替换方法可以由终端单独执行实现，也可以由服务器执行实现，或者由终端和服务器通过数据交互实现，本申请实施例对此不加以限定。可选地，以终端和服务器交互执行面部图像的替换方法为例进行说明。

示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接。

在一些实施例中，终端110具有图像获取功能，用于获取第一样本图像、第二样本图像以及样本替换图像中的至少一种。其中，样本替换图像是将第一样本图像中的第一面部区域替换至第二样本图像中的第二面部区域得到的参考图像。示意性的，终端110获取到第一样本图像以及第二样本图像后，通过预先训练后的模型对第一样本图像和第二样本图像进行面部替换，得到样本替换图像。

可选地，终端110在获取得到第一样本图像、第二样本图像以及样本替换图像后，将第一样本图像、第二样本图像以及样本替换图像通过通信网络130发送至服务器120，以使得服务器120获取得到第一样本图像、第二样本图像以及样本替换图像；或者，终端110在获取得到第一样本图像和第二样本图像后，将第一样本图像和第二样本图像通过通信网络130发送至服务器120，服务器120通过预先训练后的模型对第一样本图像和第二样本图像进行面部替换，得到作为参考图像的样本替换图像，从而使得服务器120获取得到第一样本图像、第二样本图像以及样本替换图像等。

在一些实施例中，服务器120以样本噪声数据在时间维度上对样本替换图像进行n次加噪，得到样本加噪图像，n为正整数。

可选地，服务器120上配置有面部图像替换模型121，该面部图像替换模型121为待训练的模型，且面部图像替换模型121通过第一样本图像、第二样本图像以及对样本替换图像进行n次加噪后的样本加噪图像进行训练。

示意性的，在通过面部图像替换模型121对第一样本图像和第二样本图像进行面部区域替换的过程中，基于样本加噪图像预测得到预测噪声数据。此外，服务器120通过样本噪声数据和预测噪声数据之间的差异，对面部图像替换模型121进行训练，得到训练后的面部图像替换模型121。其中，训练后的面部图像替换模型121用于将第一图像中的面部区域替换至第二图像。上述过程是面部图像替换模型121训练过程的不唯一情形的举例。

在一些实施例中，终端110将需要进行面部替换的第一图像和第二图像通过通信网络130发送至服务器120，服务器120借助训练后的面部图像替换模型121对第一图像和第二图像进行面部替换过程，并生成面部替换后的面部替换图像，该面部替换图像能够在较大程度上排除面部替换的过程中可能存在的噪声干扰问题，即便在第一图像和第二图像清晰度较低的情况下，也能够生成面部替换质量较高的面部替换图像。可选地，服务器120可以将生成的面部替换图像通过通信网络130发送至终端110，以便终端110能够将面部替换图像渲染显示在终端110对应的屏幕上。

值得注意的是，上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端，也可以实现为台式电脑等；上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术（Cloud technology）是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景，对本申请提供的面部图像的替换方法进行说明，以该方法应用于服务器为例进行说明，如图2所示，该方法包括如下步骤210至步骤240。

步骤210，获取第一样本图像、第二样本图像以及样本替换图像。

示意性的，第一样本图像和第二样本图像为包含有面部区域的图像。

可选地，第一样本图像和第二样本图像是预先存储在图像库中的图像；或者，第一样本图像和第二样本图像为使用对象采集的图像；或者，第一样本图像和第二样本图像为从网络上随机获取的图像等。

可选地，第一样本图像和第二样本图像还可以视频作品中的图像帧。示意性的，第一样本图像和第二样本图像实现为影视作品、综艺作品、动画作品等视频作品中预先选取或随机选取的图像帧等。

其中，样本替换图像是将第一样本图像中的第一面部区域替换至第二样本图像中的第二面部区域得到的参考图像。

示意性的，将第一样本图像中包含的面部区域称为第一面部区域，将第二样本图像中包含的面部区域称为第二面部区域。面部区域用于表示面部所占据的区域，用于大致指代进行面部替换的区域。

可选地，基于第一样本图像是用于替换至第二样本图像的图像，因此可以将第一样本图像称为源（source）图像，将第二样本图像称为目标（target）图像。

在一些实施例中，样本替换图像是通过预先训练的模型获取得到的图像。

示意性的，获取经过大量样本图像进行训练后的、预先训练的模型，该模型具有一定的面部替换功能，能够基于两个样本图像进行准确度较高的面部替换过程。通过将第一样本图像和第二样本图像输入该模型中，得到与第一样本图像和第二样本图像对应的样本替换图像。将样本替换图像作为参考图像，以便基于样本替换图像进行对本申请实施例提供的面部图像替换模型进行训练。

可选地，样本替换图像标注有样本标签，样本标签实现为真标签和伪标签中的至少一种。

示意性的，将通过预先训练的模型得到的样本替换图像作为上述参考图像，样本标签实现为伪标签；在通过预先训练的模型得到样本替换图像后，基于人工对样本替换图像进行准确度分析及样本标签的标注后，将准确度符合预设要求的样本替换图像作为上述参考图像，则样本标签实现为真标签等。

在一个可选的实施例中，获取多张样本图像，若将其中任意一张图像作为第一样本图像，则可以将多张样本图像中除第一样本图像之外的样本图像作为第二样本图像，进而基于第一样本图像和第二样本图像获取相应面部替换后的样本替换图像，也即：样本替换图像与第一样本图像和第二样本图像之间存在面部替换关系。

示意性的，获取的多张样本图像包括样本图像A、样本图像B以及样本图像C，若将样本图像A作为第一样本图像，则样本图像B以及样本图像C均可以作为与第一样本图像进行面部替换的第二样本图像；以样本图像A和样本图像B进行面部替换为例，则第二样本图像为样本图像B，基于样本图像A和样本图像B进行面部替换得到样本替换图像1，该样本替换图像1与样本图像A和样本图像B存在面部替换关系；同理，以样本图像A和样本图像C进行面部替换为例，则第二样本图像为样本图像C，基于样本图像A和样本图像C进行面部替换得到样本替换图像2，该样本替换图像2与样本图像A和样本图像C存在面部替换关系。

同理，若将样本图像B作为第一样本图像，则样本图像A以及样本图像C均可以作为与第一样本图像进行面部替换的第二样本图像，基于上述过程还可以获取与样本图像B和样本图像A具有面部替换关系的样本替换图像3，和/或，获取与样本图像B和样本图像C具有面部替换关系的样本替换图像4。

其中，基于对第一样本图像和第二样本图像的选择不同会影响面部替换的方向，因此两个样本图像所相应的两个样本替换图像也会存在差异。例如：当上述样本图像A为第一样本图像，样本图像B为第二样本图像时，是将样本图像A替换至样本图像B；当上述样本图像B为第一样本图像，样本图像A为第二样本图像时，是将样本图像B替换至样本图像A，因此样本替换图像1和样本替换图像3所分别表征的面部替换关系并不相同。

值得注意的是，以上仅为示意性的举例，上述第一样本图像、第二样本图像以及样本替换图像等图像都是在得到充分授权情况下获取的图像，本申请实施例对此不加以限定。

步骤220，以样本噪声数据在时间维度上对样本替换图像进行n次加噪，得到样本加噪图像。

示意性的，在获取得到样本替换图像后，以样本噪声数据在时间维度上对样本替换图像进行n次加噪，并将第n次加噪后的图像称为样本加噪图像。

可选地，样本噪声数据是预先选定的噪声数据。

示意性的，样本噪声数据实现为固定噪声数值，在通过样本噪声数据在时间维度上对样本替换图像进行n次加噪时，每次加噪过程所采用的样本噪声数据的数值是固定的，即：任意相邻两个加噪图像之间的噪声差值为固定数值的样本噪声数据；

或者，样本噪声数据实现为具有一定变化规律的噪声数值，在通过样本噪声数据在时间维度上对样本替换图像进行n次加噪时，每次加噪过程所采用的样本噪声数据的数值根据变化规律而确定，即：任意相邻两个加噪图像之间的噪声差值是基于变化规律确定的数值，可能相同也可能不同。例如：变化规律表示在10次加噪过程中，前5次加噪过程采用的样本噪声数据为第一噪声数值，后5次加噪过程采用的样本噪声数据为与第一噪声数值不同的第二噪声数值等。

在一些实施例中，以样本噪声数据在时间序列分布所表征的n个时刻的每个时刻上，分别对应一个加噪图像，该加噪图像是综合时刻（时序信息）和样本噪声数据确定的图像内容。

示意性的，相邻两个加噪图像是相邻两个时刻分别对应的加噪图像，因此相邻两个加噪图像在时间维度上相邻。例如：在时间维度上时刻t5和时刻t6相邻，n个加噪图像中与时刻t5对应的加噪图像为加噪图像P5，n个加噪图像中与时刻t6对应的加噪图像为加噪图像P6，则加噪图像P5和加噪图像P6是在时间维度上相邻的两个加噪图像。

在一些实施例中，当在时间维度上对样本替换图像进行n次加噪时，采用n次迭代的迭代加噪方式，对样本替换图像进行加噪处理。例如：在时刻t1下对样本替换图像进行加噪处理，得到加噪图像P1，之后，在时刻t2下对加噪图像P1进行加噪处理，得到加噪图像P2等，从而在n次迭代后将第n次迭代加噪后的第n个加噪图像作为样本加噪图像。

在一些实施例中，当在时间维度上对样本替换图像进行n次加噪时，在时间维度上以时间序列分布情况选取n个时刻点，并在n个时刻点下以预设加噪策略对样本替换图像进行加噪处理，预设加噪策略是综合与时刻相关的时刻参数和与样本噪声数据相关的噪声参数确定的策略。例如：选取n个时刻点，在时刻t1下通过预设加噪策略对样本替换图像进行加噪处理，得到加噪图像P1；之后，在时刻t2下通过预设加噪策略对样本替换图像进行加噪处理，得到加噪图像P2，基于预设加噪策略中时刻参数，从而使得不同的时刻t2和时刻t1，会使得对应加噪处理后的加噪图像P1和加噪图像P2并不相同。其中，样本加噪图像是在tn时刻下通过预设加噪策略对样本替换图像进行加噪处理后得到的加噪图像，基于预设加噪策略与tn时刻和样本噪声数据相关，因此样本加噪图像与tn时刻和样本噪声数据存在关联关系。

可选地，在以时间序列分布的n个加噪图像中，噪声强度与时间序列分布呈现正相关关系。例如：时间序列分布为时刻t1、时刻t2等，时刻t2对应的加噪图像P2的噪声强度高于时刻t1对应的加噪图像P1的噪声强度，时刻tn对应的样本加噪图像具有最高的噪声强度。

在一些实施例中，加噪处理通过增加噪声的方式实现。可选地，噪声实现为高斯噪声，通过增加高斯噪声的方式实现加噪处理过程，通过改变影响高斯噪声的参数调整高斯噪声的强度，参数包括平均值、标准差、噪声强度、平滑程度中的至少一种。

步骤230，在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，基于样本加噪图像预测得到预测噪声数据。

示意性的，面部图像替换模型是对稳定扩展（Stable Diffusion）模型进行改进后得到的模型结构，面部图像替换模型中保留了Stable Diffusion模型内的用于生物医学图像分割的卷积网络（Convolutional Networks for Biomedical Image Segmentation，UNet），以借助UNet实现Stable Diffusion模型表征的反向去噪过程。

示意性的，基于时间序列分布对应n个时刻，每个时刻对应一个加噪图像，每个加噪图像都可以称为经过该次加噪处理后的图像。

在一些实施例中，将第n次加噪后的加噪图像用于模型训练过程，也即：通过第n次加噪处理后得到的样本加噪图像对面部图像替换模型进行模型训练。

其中，面部图像替换模型是待训练的模型，在模型训练过程中用于进行第一样本图像和第二样本图像之间的面部替换过程。

示意性的，在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，基于样本加噪图像预测得到预测噪声数据。

其中，预测噪声数据用于基于样本加噪图像还原得到样本替换图像。示意性的，预测噪声数据用于对样本加噪图像进行减噪处理，以尽可能借助第一样本图像和第二样本图像还原得到样本替换图像。

示意性的，在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，预测对样本加噪图像进行至少一次减噪处理时的减噪噪声数值，将该减噪噪声数值作为预测噪声数据。

在一些实施例中，通过面部图像替换模型对第一样本图像和第二样本图像进行n次面部区域替换的过程中，基于样本加噪图像预测得到n个预测噪声数据。

示意性的，预测噪声数据用于表征将样本加噪图像逐步还原至样本替换图像时，每一次还原过程对应的预测结果。示意性的，预测噪声数据用于对样本加噪图像进行多次迭代减噪处理，以尽可能借助第一样本图像和第二样本图像逐步减弱样本加噪图像上的噪声，并还原得到样本替换图像。

例如：n个预测噪声数据是对n次加噪过程中增加的噪声进行的预测结果，每个预测噪声数据是对与之对应次加噪过程中增加的噪声进行的预测结果。

基于此，至少一个预测噪声数据与样本噪声数据存在对应关系，能够基于预测噪声数据和样本噪声数据对面部图像替换模型进行训练过程。

在一个可选的实施例中，借助n个加噪图像对面部图像替换模型进行训练，通过每一个加噪图像对面部图像替换模型进行一次训练，借助存在时序序列分布关系的n个加噪图像对面部图像替换模型进行n次迭代训练，以实现在一个样本替换图像下对面部图像替换模型进行n次迭代训练的过程。

示意性的，以通过第i个加噪图像对面部图像替换模型进行第i次训练的过程为例，基于面部图像替换模型用于训练以对第一样本图像和第二样本图像进行面部区域替换过程，因此对面部图像替换模型的第i次训练过程，也为通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程。也即：在通过面部图像替换模型对第一样本图像和第二样本图像进行第i次面部区域替换的过程中，将第一样本图像、第二样本图像和第i个加噪图像作为面部图像替换模型的输入，以便综合第一样本图像、第二样本图像和第i个加噪图像，确定第i个加噪图像参与模型训练的第i次面部区域替换过程对应的预测噪声数据。

在一个可选的实施例中，在已知样本加噪图像的情况下，面部图像替换模型的目标在于：学习减少样本加噪图像上的多少噪声，才能够使得噪声减少后的图像与第一样本图像和第二样本图像之间存在更为准确的图像替换关系，以便于还原得到样本替换图像。

示意性的，图像替换关系用于表征通过第一样本图像和第二样本图像获取面部替换图像时遵循的替换条件。图像替换关系包括面部关键点替换关系、背景替换关系、表情替换关系等多种图像信息替换关系中的至少一种。

示意性的，在第一样本图像和第二样本图像之间，面部关键点替换关系实现为在所需获得的面部替换图像中，需要将第一样本图像中第一面部区域对应的面部关键点替换至第二样本图像中第二面部区域；

背景替换关系实现为在所需获得的面部替换图像中，不显示第一样本图像的图像背景，保留显示第二样本图像的图像背景；

表情替换关系实现为在所需获得的面部替换图像中，保留显示第二样本图像中第二面部区域的面部表情，如：第一样本图像中第一面部区域的面部表情为平静，第二样本图像中第二面部区域的面部表情为大笑，表情替换关系指示面部替换图像的面部表情应为大笑等。

在一些实施例中，基于第一样本图像和第二样本图像所表征的图像替换关系，面部图像替换模型基于样本加噪图像预测得到预测噪声数据，该预测噪声数据用于预测得到样本替换图像。

可选地，基于第一样本图像和第二样本图像所表征的图像替换关系，面部图像替换模型基于样本加噪图像预测得到预测噪声数据，该预测噪声数据用于预测得到样本替换图像。

在一个可选的实施例中，通过面部图像替换模型对第一样本图像和第二样本图像进行n次面部区域替换的过程，基于样本加噪图像预测得到与n次面部区域替换过程分别对应的预测噪声数据。

示意性的，通过样本加噪图像预测得到n个预测噪声数据，每个预测噪声数据用于还原得到加噪处理前的加噪图像，从而以借助n个预测噪声数据预测得到样本替换图像。例如：对样本替换图像进行3次加噪过程后，得到加噪图像1、加噪图像2和样本加噪图像（加噪图像3），通过样本加噪图像预测得到3个预测噪声数据，分别代表预测从样本加噪图像还原至加噪图像2时的预测噪声数据，以及，代表预测从加噪图像2还原至加噪图像1时的预测噪声数据，以及，代表预测从加噪图像1还原至样本替换图像时的预测噪声数据等。

示意性的，面部图像替换模型中保留了Stable Diffusion模型内用于预测噪声的UNet网络，在基于样本加噪图像预测得到预测噪声数据时，以第一样本图像和第二样本图像所表征的图像替换关系，借助面部图像替换模型内的UNet网络进行噪声预测过程，从而得到预测噪声数据。

可选地，面部图像替换模型能够基于预测噪声数据和样本加噪图像，以对样本加噪图像进行至少一次减噪处理的目的，预测得到预测噪声数据。

在一些实施例中，预测噪声数据实现为预测噪声图。基于噪声在图像上常表现为引起较强视觉效果的孤立像素点或像素块，因此在描述样本加噪图像上的噪声时，可以通过预测噪声图表征对样本加噪图像进行分析时，不同像素点位置分别对应的噪声情况。例如：预测噪声图的图像尺寸与样本加噪图像的图像尺寸相同。

示意性的，以预测噪声数据为预测噪声图为例，基于预测噪声数据是在第一样本图像和第二样本图像所表征的图像替换关系的条件下，对样本加噪图像进行分析后得到的，因此基于图像替换关系所表征的信息，预测噪声图中不同像素点位置对应的噪声值可能不同。

例如：在图像替换关系中的面部关键点替换关系中，指示样本加噪图像中像素点1应实现为第一样本图像中鼻子处的信息a，基于此信息a确定预测噪声图中与像素点1对应的像素点1'的噪声值，该噪声值指示：若在样本加噪图像中的像素点1处去除该噪声值，会得到更有利于清楚展现鼻子处的信息a的图像。

可选地，基于上述过程，借助图像替换关系确定多个像素点分别对应的噪声值，从而得到预测噪声图。预测噪声图中的多个像素点与样本加噪图像中的多个像素点一一对应，且预测噪声图中多个像素点分别对应的噪声值是基于图像替换关系确定的数值，以便于在预测噪声的情况下更精准地实现面部替换过程。

值得注意的是，以上仅为示意性的举例，本申请实施例对此不加以限定。

步骤240，以样本噪声数据和预测噪声数据之间的差异对面部图像替换模型进行训练，得到训练后的面部图像替换模型。

示意性的，在得到样本噪声数据和预测噪声数据后，确定样本噪声数据和预测噪声数据之间的差异，得到噪声损失值。

可选地，样本噪声数据实现为样本噪声图，预测噪声数据实现为预测噪声图，由于样本噪声图和预测噪声图都是基于样本加噪图像得到的噪声图，因此样本噪声图中的多个像素点与预测噪声图中的多个像素点一一对应；基于像素点之间的对应关系确定不同像素点分别对应的像素值差异，从而综合多个像素点分别对应的像素值差异得到样本噪声数据和预测噪声数据之间的噪声损失值。

示意性的，通过噪声损失值对面部图像替换模型进行训练，直至得到训练后的面部图像替换模型。

在一些实施例中，基于噪声损失值对面部图像替换模型的模型参数进行调整，得到中间模型；响应于基于噪声损失值对中间模型的训练达到训练目标，得到训练后的面部图像替换模型。

示意性的，以降低噪声损失值为目标对面部图像替换模型的模型参数进行调整，如：采用梯度下降法降低噪声损失值；或者，采用反向传播算法降低噪声损失值等。

可选地，在通过噪声损失值对中间模型进行训练的过程中，会因为对中间模型的训练达到训练目标而得到训练后的面部图像替换模型。

示意性的，响应于噪声损失值达到收敛状态，将最近一次迭代训练得到的中间模型作为训练后的面部图像替换模型。

示意性的，噪声损失值达到收敛状态用于指示通过损失函数得到的噪声损失值的数值不再变化或者变化幅度小于预设阈值。

其中，训练后的面部图像替换模型用于将第一图像中的面部区域替换至第二图像。

示意性的，在得到训练后的面部图像替换模型后，将用于进行面部替换的第一图像和第二图像输入至训练后的面部图像替换模型中，以便通过第一图像和第二图像进行面部替换过程。

其中，基于训练后的面部图像替换模型是用于在实现减噪的过程中，通过第一图像和第二图像之间的图像替换关系进行面部替换过程的，因此除向训练后的面部图像替换模型输入第一图像和第二图像外，还将随机的噪声数据输入训练后的面部图像替换模型中，以使得训练后的面部图像替换模型在随机的噪声数据的基础上，借助第一图像和第二图像之间的图像替换关系，对随机的噪声数据进行多次减噪处理，从而将第一图像中的面部区域替换至第二图像。

可选地，将第一图像中的面部区域替换至第二图像后的图像称为面部替换图像，该面部替换图像是通过第一图像和第二图像为引导，对随机的噪声数据进行减噪处理后得到的图像，不仅能够避免在第一图像和第二图像之间进行面部替换过程中的噪声干扰，还能够在第一图像和第二图像具有较低清晰度的情况下关注到更本质的信息（图像替换关系所表征的信息），使得面部替换图像具有较强的稳定性。

综上所述，借助面部图像替换模型对样本加噪图像进行噪声分布的预测过程，有利于使得面部图像替换模型学习到样本图像与样本加噪图像之间的噪声关系，结合样本替换图像与第一样本图像和第二样本图像之间的参考替换情况，有利于提高面部图像替换模型对噪声的针对性分析过程，进而借助噪声预测过程对清晰度较低的图像进行针对性的调整，以在去除噪声的同时实现面部替换过程，避免由于图像清晰度较低而导致面部替换生成效果较差的问题，提高训练后的面部图像替换模型的鲁棒性，有利于将训练后的面部图像替换模型应用于更广泛的面部替换场景下。

在一个可选的实施例中，在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，通过第一样本图像和第二样本图像中所表征的至少一种信息获取预测噪声数据。示意性的，如图3所示，上述图2所示出的实施例还可以实现为如下步骤310至步骤360；步骤230还可以实现为如下步骤330至步骤350。

步骤310，获取第一样本图像、第二样本图像以及样本替换图像。

在一些实施例中，在获取第一样本图像和第二样本图像前，获取包括面部区域的图像。考虑到图像中面部区域往往占据一个较小位置，所以在获取得到图像后，首先对图像进行面部检测，获得面部区域；之后在面部区域内进行面部配准，获得面部的关键点，重点是眼睛和嘴角的关键点；此外，根据面部关键点，获得裁剪后的面部图像作为上述第一样本图像和第二样本图像，即：对图像进行预处理后得到面部区域更为鲜明的面部图像作为第一样本图像和第二样本图像。

在一个可选的实施例中，基于第一样本图像、第二样本图像和样本替换图像之间的面部替换关系，确定用于生成样本替换图像的第一样本图像以及第二样本图像，并将第一样本图像、第二样本图像以及样本替换图像组成一个三元组，当存在多个样本图像，会基于该过程得到多个三元组。

可选地，确定用于生成样本替换图像1的第一样本图像为样本图像A，第二样本图像为样本图像B，则组成的三元组可以表示为“样本图像A-样本图像B-样本替换图像1”。

示意性的，如图4所示，为借助第一样本图像410和第二样本图像420获取样本替换图像的示意图。在保证第一样本图像410所表征的身份的基础上，分析第二样本图像420所表征的表情、角度和背景，从而在将第一样本图像410替换至第二样本图像420时，以保持身份的基础上，将第一样本图像410内面部所表征的五官等信息替换至第二样本图像420上，以得到样本替换图像430。

步骤320，以样本噪声数据在时间维度上对样本替换图像进行n次加噪，得到样本加噪图像。

其中n为正整数。

在一个可选的实施例中，以相同噪声数值的样本噪声数据在时间维度上对样本替换图像进行n次迭代加噪，得到n个加噪图像，其中第n个加噪图像为样本加噪图像。

其中，n个加噪图像中相邻两个加噪图像之间的噪声差值为所述样本噪声数据。

示意性的，在时间维度上对样本替换图像进行n次迭代加噪的过程中，首先对样本替换图像进行加噪处理，之后对加噪之后的样本替换图像进行加噪处理。例如：第一次加噪过程中（如：实现为表征时序信息的t1时刻），对样本替换图像进行加噪处理，得到加噪图像P1；第二次加噪过程中（如：实现为表征时序信息的t2时刻），对加噪图像P1进行加噪处理，得到加噪图像P2等，从而在n次迭代加噪后得到样本加噪图像，其中，n个加噪图像以时间序列分布。

在一个可选的实施例中，以不同噪声数值的样本噪声数据在时间维度上对样本替换图像进行n次迭代加噪，得到以时间序列分布的n个加噪图像，其中第n个加噪图像样本加噪图像。

其中，第v个加噪图像与第v+1个加噪图像之间的噪声差值为第v次迭代加噪过程中采用的样本噪声数据，v为不大于n的正整数。

在一个可选的实施例中，在时间维度上以时间序列分布情况选取n个时刻；在n个时刻下，以预设加噪策略对样本替换图像进行加噪处理，得到以时间序列分布的n个加噪图像，其中第n个加噪图像为样本加噪图像。

示意性的，在时间维度上以时间序列分布情况选取n个时刻，n个时刻彼此之间互不相同，不同的时刻表征不同的时序信息。

可选地，预设加噪策略实现为预先设定的加噪公式，加噪公式中包括表征时序信息的时刻参数，不同时刻所对应的时刻参数的取值不同；在通过n个时刻和预设加噪策略对样本替换图像进行加噪处理时，基于n个时刻的差异，使得基于加噪公式对样本替换图像进行加噪处理后得到的加噪图像不同。

示意性的，预设加噪策略（加噪公式）中还存在表征样本噪声数据的噪声参数，噪声参数实现为噪声强度，相邻两个时刻之间的样本噪声数据基于预设的噪声变化规律确定，可能相同也可能不同。可选地，在通过加噪公式对样本替换图像进行n次加噪处理时，每一次加噪处理过程中表征噪声强度的噪声参数的数值不变；或者，在通过加噪公式对样本替换图像进行n次加噪处理时，不同次加噪处理过程中表征噪声强度的噪声参数的数值可以存在变化。

示意性的，加噪公式实现为如下公式一。

公式一：

其中，用于表征时刻下加噪处理后得到的样本加噪图像；用于表征时刻对应的时序信息；用于表征样本替换图像；用于表征噪声参数（如：高斯噪声的噪声强度）。

在一些实施例中，如图5所示，用于表征加噪处理的示意图。加噪处理过程是基于样本替换图像510进行的过程，图5既可以实现为在样本替换图像510上进行迭代加噪的示意图，也可以实现为通过预设加噪策略在样本替换图像510上进行加噪的示意图。

示意性的，以图5实现为在样本替换图像510上进行迭代加噪的示意图为例。在第一次加噪处理过程中（步骤1），在样本替换图像510上增加噪声1后得到加噪图像511；在第二次加噪处理过程中（步骤2），在加噪图像511上增加噪声2后得到加噪图像512；同理，在第三次加噪处理过程中（步骤3），在加噪图像512上增加噪声3后得到加噪图像513；同理，在第四次加噪处理过程中（步骤4），在加噪图像513上增加噪声4后得到加噪图像514，如加噪图像514为最后一次加噪处理后得到的图像，则加噪图像514为样本加噪图像。

值得注意的是，以上四次加噪处理过程仅为示意性的举例，加噪处理次数可以随机设定或预先设定，此处不加以限定。

步骤330，在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，获取第一样本图像中的面部关键点信息。

示意性的，面部图像替换模型中保留了Stable Diffusion模型内的UNet网络，以借助UNet实现Stable Diffusion模型表征的反向去噪过程。

可选地，借助样本加噪图像对面部图像替换模型进行训练，通过样本加噪图像对面部图像替换模型进行至少一次训练。例如：借助n次加噪过程所表征的n次处理情况，通过样本加噪图像对面部图像替换模型进行n次训练，以实现在一个样本加噪图像下对面部图像替换模型进行n次迭代训练的过程。

示意性的，面部图像替换模型的输入包括第一样本图像、第二样本图像以及样本加噪图像，面部图像替换模型基于第一样本图像和第二样本图像对样本加噪图像进行减噪处理的同时，学习第一样本图像和第二样本图像之间进行面部替换的过程中的信息。

可选地，面部图像替换模型对第一样本图像进行分析，并获取第一样本图像中的面部关键点信息。

其中，面部关键点信息中包括多个面部关键点，面部关键点用于描述第一面部区域中五官的关键点。

示意性的，在获取得到第一样本图像后，通过面部图像替换模型对第一面部区域对应的面部关键点进行识别，以获取在第一面部区域中表征五官的面部关键点。

可选地，借助多个面部关键点能够知悉五官的大致信息。

步骤340，获取第二样本图像中的图像全局信息。

其中，图像全局信息包括图像角度信息、图像背景信息和面部表情信息中的至少一种。

示意性的，图像角度信息用于表征第二样本图像中第二面部区域内面部的朝向，如：正朝向、侧朝向等；图像背景信息用于表征第二样本图像中除第二面部区域之外的背景区域所表征背景；面部表情信息用于表征第二样本图像中第二面部区域内面部的表情，如：喜、怒、哀、乐等。

在一些实施例中，通过面部图像替换模型对第二样本图像进行分析，从而得到第二样本图像对应的图像全局信息。

示意性的，通过面部图像替换模型对第二样本图像的图像背景进行分析，从而得到第二样本图像对应的图像背景信息；通过面部图像替换模型对第二样本图像的面部角度进行分析，从而得到第二样本图像对应的图像角度信息；通过面部图像替换模型对第二样本图像的面部表情进行分析，从而得到第二样本图像对应的面部表情信息。

步骤350，基于面部关键点信息和图像全局信息中的至少一种信息，以及样本加噪图像，预测得到预测噪声数据。

示意性的，基于面部关键点信息以及样本加噪图像，预测得到预测噪声数据；或者，基于图像全局信息以及样本加噪图像，预测预测噪声数据；或者，综合面部关键点信息和图像全局信息以及样本加噪图像，预测得到预测噪声数据。

在一个可选的实施例中，将面部关键点信息和图像全局信息中的至少一个信息作为图像引导信息。

示意性的，确定面部关键点信息和图像全局信息的目的在于：通过第一样本图像和第二样本图像之间所表征的图像替换关系，确定面部关键点信息和图像全局信息在合成得到面部替换图像时的作用。

例如：面部关键点信息用于确定在合成面部替换图像时表征第一面部区域的五官情况；图像全局信息用于确定在合成面部替换图像时表征第二样本图像中的背景情况、表情情况、面部角度情况等。

可选地，在通过面部图像替换模型对第一样本图像和第二样本图像进行面部区域替换的过程中，以面部关键点信息为图像引导信息；或者，以图像全局信息为图像引导信息；或者，综合面部关键点信息和图像全局信息为图像引导信息。

其中，图像引导信息用于确定对样本加噪图像进行减噪处理时的噪声预测情况。

示意性的，以第一样本图像对应的面部关键点和第二样本图像对应的图像全局信息为图像引导信息，使得面部图像替换模型尽可能准确地预测有利于更全面展现图像引导信息的噪声。

在一个可选的实施例中，在以图像引导信息为参考信息的条件下，以减小样本加噪图像中的噪声为目标，预测得到预测噪声数据。

可选地，在选择至少一种信息为图像引导信息后，将图像引导信息作为参考信息，该参考信息用于在学习第一样本图像和第二样本图像的同时，作为减弱样本加噪图像中噪声的参考依据。

示意性的，在确定图像引导信息后，将样本加噪图像向图像引导信息趋近，从而尽可能使得对样本加噪图像进行减噪处理后的图像，能够较样本加噪图像相比更好地展现图像引导信息（面部关键点和/或图像全局信息），并将该趋近过程中预测的、需要对样本加噪图像进行减噪处理的噪声称为预测噪声数据，该预测噪声数据是基于图像引导信息为引导条件下，针对样本加噪图像确定的预测噪声数据。

步骤360，以样本噪声数据和预测噪声数据之间的差异对面部图像替换模型进行训练，得到训练后的面部图像替换模型。

示意性的，在得到样本噪声数据和预测噪声数据后，确定样本噪声数据和预测噪声数据之间的差异，得到噪声损失值；通过噪声损失值对面部图像替换模型进行训练，直至得到训练后的面部图像替换模型。

在一些实施例中，获取随机噪声数据；将随机噪声数据、第一图像和第二图像输入训练后的面部图像替换模型；通过训练后的面部图像替换模型在随机的噪声数据的基础上，分析第一图像对应的面部关键点信息和/或第一图像对应的图像全局信息；借助第一图像和第二图像之间的图像替换关系，以第一图像对应的面部关键点信息和/或第一图像对应的图像全局信息为引导信息，对随机的噪声数据进行多次减噪处理，从而将第一图像中的面部区域替换至第二图像，得到面部替换图像。

在本申请实施例中，训练后的面部图像替换模型是从减噪和面部替换两个角度训练得到的模型，能够具有更强的鲁棒性以及预测准确性，进而有利于获得面部替换效果受干扰影响更小的面部替换图像，避免仅仅通过第一图像和第二图像进行面部替换过程。通过第一图像和第二图像为引导，以尽可能提高面部图像替换模型通过样本加噪图像还原得到样本替换图像的准确性，对减噪处理过程中的预测噪声数据进行更针对性的分析，不仅能够避免在第一图像和第二图像之间进行面部替换过程中的噪声干扰，还能够在第一图像和第二图像具有较低清晰度的情况下关注到更本质的信息（图像替换关系所表征的信息），使得面部替换图像具有较强的稳定性。

在一个可选的实施例中，当通过面部图像替换模型获取预测噪声数据时，还可以通过对第一样本图像的面部标识分析以及对第二样本图像的面部区域分析，在一定条件下对预测噪声数据进行更精准地获取过程。示意性的，如图6所示，针对上述图2所示出的步骤230，当通过对第一样本图像进行面部标识分析以获取预测噪声数据时可以实现为如下步骤611至步骤612；当通过对第二样本图像的面部区域分析以获取预测噪声数据时可以实现为如下步骤621至步骤622。

步骤611，基于第一面部区域在第一样本图像的分布情况，从第一样本图像中获取面部标识信息。

其中，面部标识信息用于表征第一面部区域所表征的身份信息。

在一个可选的实施例中，将第一样本图像通过标识识别网络得到第一标识特征表示。

其中，标识识别网络为预先训练的网络。

示意性的，标识识别网络包括预先训练的如下模型中的至少一种：用于深度人脸识别的附加边缘损失（Additive Angular Margin Loss for Deep Face Recognition，ArcFace）模型、用于深度人脸识别的大余量余弦损耗（Large Margin Cosine Loss forDeep Face Recognition，CosFace）模型、用于人脸识别的深度超球体嵌入（DeepHypersphere Embedding for Face Recognition，SphereFace）模型等。

示意性的，将第一样本图像输入上述标识识别网络，从而得到表征第一面部区域身份信息的第一标识特征表示。

在一个可选的实施例中，在特征维度对第一标识特征表示进行归一化处理，得到第二标识特征表示作为第一样本图像对应的面部标识信息。

示意性的，将第一标识特征表示经过5层转化层（transformer）网络进行多层非线性映射，得到编码后的特征表示，编码后的特征表示和面部替换任务更加相关。

可选地，编码后的特征表示呈现为矩阵形式，输入到标识识别网络的第一样本图像的数量为至少一个。若输入到标识识别网络的第一样本图像的数量为多个，如：1组（batch）包括20个第一样本图像等，则矩阵形式中的不同列代表不同的第一样本图像。

示意性的，将编码后的特征表示通过归一化层（layerNorm），以在特征维度对编码后的特征表示进行归一化处理；在通过layerNorm对矩阵形式的编码后的特征表示进行归一化处理时，以针对单个第一样本图像的不同特征进行操作，即：以列为分析对象对第一样本图像进行分析。

例如：以针对任意一个第一样本图像x对应的编码后的特征表示进行分析为例，确定编码后的特征表示中与第一样本图像x对应的特征值，并基于第一样本图像x对应的多个特征值分别计算一个均值和方差，进而得到对编码后的特征表示进行归一化处理后的归一化特征表示，如下公式二所示。

公式二：

其中，和为额外学习的参数；是一个保证方差不为0的较小参数。

在一个可选的实施例中，将归一化特征表示通过一个全连接层，从而第一样本图像对应的面部标识信息。

示意性的，面部标识信息实现为以矩阵形式表示的第二标识特征表示。

步骤612，在以面部标识信息为参考信息的条件下，以减小样本加噪图像中的噪声为目标，预测得到预测噪声数据。

示意性的，在确定面部标识信息后，将样本加噪图像向面部标识信息趋近，从而尽可能使得对样本加噪图像进行减噪处理后的图像，能够较样本加噪图像相比更好地展现面部标识信息，并将该趋近过程中预测的、需要对样本加噪图像进行减噪处理的噪声称为预测噪声数据，该预测噪声数据是基于面部标识信息为引导条件下，针对样本加噪图像确定的预测噪声数据。

可选地，上述面部标识信息实现为上述的图像引导信息，图像引导信息用于确定对样本加噪图像进行减噪处理时的噪声预测情况。

示意性的，以第一样本图像对应的面部关键点、第二样本图像对应的图像全局信息以及面部标识信息为图像引导信息，将样本加噪图像向图像引导信息趋近，从而尽可能使得对样本加噪图像进行减噪处理后的图像，能够较样本加噪图像相比更好地展现图像引导信息，使得面部图像替换模型尽可能准确地预测有利于更全面展现图像引导信息的噪声。

借助上述步骤611至步骤612所涉及的面部标识信息的获取过程，能够在提升身份信息准确性的同时进行面部替换。

步骤621，对第二样本图像进行面部分割，得到第二样本图像对应的第二面部区域。

示意性的，通过预先训练的图像分割模型对第二样本图像进行面部分割，从而得到第二样本图像对应的第二面部区域。

其中，图像分割模型用于对第二样本图像中确定第二面部区域。

步骤622，在第二面部区域的区域范围内，基于样本加噪图像预测得到预测噪声数据。

示意性的，在确定第二面部区域后，以第二面部区域的区域范围为限定，通过第一样本图像和第二样本图像生成面部替换图像。

可选地，以第一样本图像对应的面部关键点和第二样本图像对应的图像全局信息为图像引导信息，在第二面部区域的限制内进行面部替换过程，将样本加噪图像向图像引导信息趋近，从而尽可能使得对样本加噪图像进行减噪处理后的图像，较样本加噪图像相比更好地展现图像引导信息，不仅能够使得面部图像替换模型尽可能准确地预测有利于更全面展现图像引导信息的噪声，还能够将生成的面部替换图像内的面部区域限定在第二面部区域内，提高面部替换图像的生成准确性。

可选地，将面部标识信息实现为上述的图像引导信息，以第一样本图像对应的面部关键点、第二样本图像对应的图像全局信息以及面部标识信息为图像引导信息，在第二面部区域的限制内进行面部替换过程，将样本加噪图像向图像引导信息趋近，从而尽可能使得对样本加噪图像进行减噪处理后的图像，不仅能够较样本加噪图像相比更好地展现图像引导信息，还能够将生成的面部替换图像内的面部区域限定在第二面部区域内，使得面部图像替换模型尽可能准确地预测有利于更全面展现图像引导信息的噪声，即：预测噪声数据。

借助上述步骤621至步骤622所涉及的第二面部区域的确定过程，能够在提高区域规范性的同时进行面部替换。

值得注意的是，上述步骤611至步骤612以及步骤621至步骤622既可以实现为先后关系（如：先步骤611至步骤612，后步骤621至步骤622；或者，先步骤621至步骤622，后步骤611至步骤612）；还可以实现为并行关系（如：执行步骤611至步骤612；或，执行步骤621至步骤622）等。本申请实施例对此不加以限定。

在本申请实施例中，介绍了对第一样本图像和第二样本图像进一步分析，从而还能够将第一样本图像对应的面部标识信息和/或第二样本图像对应的第二面部区域作为图像引导信息，从而在通过面部图像替换模型对第一样本图像和第二样本图像进行面部替换时，对第一样本图像和第二样本图像进行更全面地分析，从而有利于面部图像替换模型学习到更丰富的图像信息，以提高面部图像替换模型对预测噪声数据的获取准确性。

在一个可选的实施例中，面部图像替换模型中包括编码网络、噪声预测网络以及解码网络，编码网络用于对第一样本图像、第二样本图像以及样本加噪图像进行深层特征表示的提取过程。以当前时刻下通过样本加噪图像得到预测噪声数据为例。示意性的，如图7所示，上述图2所示出的步骤230还可以实现为如下步骤710至步骤740；上述图2所示出的步骤240还可以实现为如下步骤750至步骤770。

步骤710，将样本替换图像输入编码网络，得到样本替换图像对应的图像特征表示；以样本噪声数据在时间维度上对图像特征表示进行n次加噪，得到加噪图像特征表示。

示意性的，在得到第一样本图像和第二样本图像对应的样本替换图像后，将样本替换图像输入编码网络，编码网络对样本替换图像进行特征提取，从而得到与样本替换图像对应的图像特征表示，进而通过样本噪声数据在时间维度上对图像特征表示进行n次加噪，并将其中第n个加噪后的图像特征表示作为加噪图像特征表示。

步骤720，将第一样本图像和第二样本图像输入编码网络，得到表征第一样本图像和第二样本图像的样本图像特征表示。

其中，样本图像特征表示是将第一样本图像对应的第一样本特征表示和第二样本图像对应的第二样本特征表示进行特征融合后的特征矩阵。

如图8所示，为面部图像替换模型的模型结构示意图，在对面部图像替换模型进行模型训练时，通过第一样本图像、第二样本图像以及样本替换图像实现该过程。

示意性的，将样本替换图像830（未示出图像，以yt表示）输入面部图像替换模型，得到对样本替换图像830进行n次加噪处理后的样本加噪图像对应的加噪图像特征表示。

示意性的，将第一样本图像810和第二样本图像820输入面部图像替换模型。可选地，第一样本图像810、第二样本图像820以及样本替换图像830的图像尺寸被裁减为512*512，考虑到第一样本图像810、第二样本图像820以及样本替换图像830为彩色（三通道）图像，以3*512*512表示每个图像。其中，6*512*512用于综合表示第一样本图像810的3*512*512和第二样本图像820的3*512*512；scr为第一样本图像810所表征的source的缩写；tar为第二样本图像820所表征的target的缩写；yt用于表征样本替换图像830。

通过面部图像替换模型中的编码网络（encoder）对第一样本图像810、第二样本图像820以及样本替换图像830加噪后的样本加噪图像进行深层特征提取。

示意性的，如图9所示，为编码网络——解码网络的框架结构示意图。将原图910输入编码网络920（图像编码网络）后，编码网络920用于将高分辨率的图像转化为低维空间的隐层特征表示（latent space）；该隐层特征表示经过其他网络的处理后得到低维特征表示，进而将低维特征表示输入解码网络930，恢复为高分辨率的生成图像940。

在图8所示的面部图像替换模型中，编码网络和解码网络对称设置，下述过程对图8中编码网络和解码网络中间的网络结构进行说明。

如图8所示，在通过编码网络对第一样本图像810和第二样本图像820进行深层特征提取后，得到表征第一样本图像和第二样本图像的样本图像特征表示，即：8*64*64，样本图像特征表示是第一样本图像对应的第一样本特征表示和第二样本图像对应的第二样本特征表示进行特征融合后的特征矩阵，即：样本图像特征表示8*64*64即为第一样本特征表示4*64*64和第二样本特征表示4*64*64融合后得到的特征矩阵。

此外，通过编码网络对样本替换图像830加噪后的样本加噪图像进行深层特征提取后，得到表征样本加噪图像的加噪图像特征表示，即：4*64*64。

在一些实施例中，如图8所示，其中示出了预训练好的换脸网络800，该预训练好的换脸网络800用于基于第一样本图像810和第二样本图像820得到样本替换图像。

示意性的，通过预训练好的换脸网络800对第一样本图像810和第二样本图像820进行面部替换，得到样本替换图像；之后，在时间维度上对样本替换图像进行n次加噪，得到样本加噪图像，n为正整数。

步骤730，对第二样本图像中的第二面部区域进行尺寸变换，得到第二面部区域对应的掩膜特征表示。

示意性的，将第二样本图像820图送入预训练的图像分割网络（图8中未示出），获得面部对应的第二面部区域（mask），mask用于表征需要换脸的区域。

可选地，将mask进行尺寸变换（resize），得到尺寸为64*64大小的图像，表征为1*64*64，将1*64*64称为掩膜特征表示，1为单通道含义。

步骤740，将样本图像特征表示、加噪图像特征表示和掩膜特征表示输入噪声预测网络，得到预测噪声数据。

示意性的，如图8所示，将样本图像特征表示8*64*64、加噪图像特征表示4*64*64以及掩膜特征表示1*64*64输入噪声预测网络，以通过样本图像特征表示8*64*64、掩膜特征表示1*64*64以及加噪图像特征表示4*64*64进行噪声预测。

可选地，以样本图像特征表示8*64*64和掩膜特征表示1*64*64为图像引导信息，将加噪图像特征表示4*64*64向图像引导信息趋近，预测得到预测噪声数据。

在一个可选的实施例中，将样本图像特征表示和掩膜特征表示作为图像引导信息，确定加噪图像特征表示和样本图像特征表示之间的第一特征距离，以及确定加噪图像特征表示和掩膜特征表示之间的第二特征距离。

示意性的，将样本图像特征表示和掩膜特征表示作为图像引导信息，在尽可能使得加噪图像特征表示和样本图像特征表示趋近的同时，使得加噪图像特征表示和掩膜特征表示趋近。可选地，在向量空间中确定加噪图像特征表示和样本图像特征表示之间的第一特征距离，以及，加噪图像特征表示和掩膜特征表示之间的第二特征距离。

在一些实施例中，以减小第一特征距离和第二特征距离为目标，得到预测噪声数据。

示意性的，在减小第一特征距离的同时，减小第二特征距离，从而预测得到预测噪声数据；或者，确定第一特征距离与第二特征距离之和，以减小第一特征距离与第二特征距离之和为目标，预测得到预测噪声数据。

在一个可选的实施例中，面部图像替换模型中还包括标识获取层；通过标识获取层对第一样本图像进行标识分析，得到第一样本图像对应的图像标识特征表示。

如图8所示，面部图像替换模型中还包括标识获取层，标识获取层用于对第一样本图像810进行标识分析。

示意性的，标识获取层采用预先训练好的ArcFace模型进行身份标识（IDentity，ID）的分析过程，将标识获取层表示为ID ArcFace。在通过ID ArcFace获取第一样本图像对应的图像标识特征表示时包括如下四个步骤。

（1）经过预训练好的识别网络（net Arc），获得1*512维度的ID特征（第一标识特征表示）；

（2）对ID特征经过mapper（5层transformer网络）进行多层非线性映射，使得编码后的特征表示和换脸任务更加相关；

（3）进行layerNorm，对编码后的特征表示在特征维度进行归一化，得到归一化特征表示；

（4）鉴于需要通过噪声预测网络对图像标识特征表示进行分析，且噪声预测网络的条件（condition）模块的特征表示的输入大小为768，因此可以通过一个全连接层，将归一化特征表示最终映射到768维，即：Proj_out到768维，从而使得第一样本图像对应的第二标识特征表示表征为1*1*768。

其中，第二标识特征表示用于表征第一样本图像所描绘的面部标识情况，如：第二标识特征表示是基于五官分布、面部宽度大小等情况确定的特征表示，用于对第一样本图像中所展现的人物进行更针对性的身份确认；第一样本图像对应的第一样本特征表示用于表征第一样本图像整体的图像信息，不仅包括第一样本图像中所展现的人物，还包括第一样本图像中所展现的建筑物、所处位置等背景信息。

示意性的，噪声预测网络采用Stable diffusion内的UNet网络，将图像标识特征表示1*1*768送入到UNet网络，作为UNet网络的条件（Condition）。

在一个可选的实施例中，将图像标识特征表示、样本图像特征表示、加噪图像特征表示和掩膜特征表示输入噪声预测网络，得到预测噪声数据。

可选地，以图像标识特征表示1*1*768、样本图像特征表示8*64*64和掩膜特征表示1*64*64为图像引导信息，将加噪图像特征表示4*64*64向图像引导信息趋近，预测得到预测噪声数据。

在一个可选的实施例中，将样本图像特征表示、掩膜特征表示和第二标识特征表示作为图像引导信息，确定加噪图像特征表示和样本图像特征表示之间的第一特征距离，确定加噪图像特征表示和掩膜特征表示之间的第二特征距离，以及确定加噪图像特征表示和第二标识特征表示之间的第三特征距离。

示意性的，将样本图像特征表示和掩膜特征表示作为图像引导信息，在尽可能使得加噪图像特征表示和样本图像特征表示趋近的同时，使得加噪图像特征表示和掩膜特征表示趋近，以及，使得加噪图像特征表示和第二标识特征表示趋近。

在一些实施例中，以减小第一特征距离、第二特征距离和第三特征距离为目标，得到预测噪声数据。

示意性的，在减小第一特征距离的同时，减小第二特征距离以及第三特征距离，从而预测得到预测噪声数据；或者，确定第一特征距离、第二特征距离以及第三特征距离之和，以减小第一特征距离、第二特征距离以及第三特征距离之和为目标，预测得到预测噪声数据。

步骤750，基于样本噪声数据和预测噪声数据之间的差异，获取噪声损失值。

示意性的，在获取得到预测噪声数据，以及对样本替换图像进行加噪处理时的样本噪声数据，确定样本噪声数据与预测噪声数据之间的差异作为噪声损失值。

在一些实施例中，将样本图像特征表示、加噪图像特征表示和掩膜特征表示输入噪声预测网络，得到n个预测噪声数据，n个噪声预测数据与n次加噪过程一一对应，n次加噪过程分别对应一个样本噪声数据，则n次加噪过程对应n个样本噪声数据，n个预测噪声数据与n个样本噪声数据一一对应。

可选地，当n个样本噪声数据相同，即代表针对样本替换图像进行n次迭代加噪的过程中，每次加噪所采用的样本噪声数据的噪声数值都是相同的。基于n个预测噪声数据与样本噪声数据之间的差异，得到n个噪声损失值。

可选地，当n个样本噪声数据不同，即代表针对样本替换图像进行n次迭代加噪的过程中，每次加噪所采用的样本噪声数据的噪声数值可能存在差异。确定n个预测噪声数据与n个样本噪声数据之间一一对应的对应关系，基于对应关系确定预测噪声数据和存在对应关系的样本噪声数据之间的差异，从而得到噪声损失值，并确定n个噪声损失值。

在一些实施例中，当n个样本噪声数据不同时，还可以利用n个加噪图像之间的噪声差异关系确定n个样本噪声数据。示意性的，基于样本替换图像和第一个加噪图像，确定第一个样本噪声数据；基于第i个加噪图像和第i+1个加噪图像，确定第i个样本加噪数据；基于第n-1个加噪图像和第n个加噪图像，确定第n个样本加噪数据等，其中，i为不大于n的正整数。

如下公式三所示，为噪声损失值的损失函数计算公式。

公式三：

其中，用于表示噪声损失值；用于表示时序信息，在此处视为任一时刻下的面部区域替换过程；表示样本加噪图像；为噪声；用于表征基于时序信息、样本加噪图像以及噪声计算得到的均方误差；用于表示噪声预测网络（UNet网络），用于表示将样本加噪图像、第一样本图像、第二样本图像、第二面部区域、图像标识特征表示、时序信息输入UNet网络后，以第二面部区域和图像标识特征表示为条件，以第一样本图像和第二样本图像为图像引导信息（也可称为以第二面部区域、图像标识特征表示、第一样本图像和第二样本图像为图像引导信息）预测的在时序信息下的噪声损失值；用于表征样本噪声数据。

步骤760，以噪声损失值对面部图像替换模型中的噪声预测网络进行训练，直至得到训练后的噪声预测网络。

示意性的，在得到噪声损失值后，以噪声损失值对面部图像替换模型中的噪声预测网络进行训练。

可选地，基于对面部图像替换模型进行n次模型训练得到n个噪声损失值；以n个噪声损失值对面部图像替换模型中的噪声预测网络进行训练，并在n次训练结束后得到训练后的噪声预测网络。

如图8所示，通过样本加噪图像对面部图像替换模型中的噪声预测网络UNet进行n次训练，以得到训练后的噪声预测网络。

步骤770，基于训练后的噪声预测网络得到训练后的面部图像替换模型。

示意性的，将包括训练后的噪声预测网络的面部图像替换模型称为训练后的面部图像替换模型。

在本申请实施例中，对面部图像替换模型的模型结构进行说明，借助编码网络获取到第一样本图像和第二样本图像中更深层次的隐层特征表示，进而综合样本图像特征表示、加噪图像特征表示、掩膜特征表示以及图像标识特征表示，实现对第一样本图像和第二样本图像的更全面分析目的，从而有利于在借助Stable diffusion模型中UNet网络的情况下，以样本图像特征表示、掩膜特征表示以及图像标识特征为图像引导信息（条件），对加噪图像特征表示进行更针对性的分析，从而借助预测噪声数据对噪声预测网络进行更全面地训练，以获得训练后的面部图像替换模型。

在一个可选的实施例中，在训练得到训练后的面部图像替换模型后，通过训练后的面部图像替换模型对待进行面部替换的第一图像和第二图像进行面部替换过程，借助获取的噪声图，以第一图像和第二图像为引导信息，通过对噪声图的去噪过程实现获取稳定性更强的面部替换图像的过程。示意性的，如图10所示，上述图2所示出的步骤240之后还可以实现为如下步骤1010至步骤1060。

步骤1010，获取第一图像和第二图像。

其中，第一图像用于将第一面部区域替换至第二图像上。

示意性的，第一图像为源图像，第二图像为目标图像，通过第一图像和第二图像生成面部替换图像，在面部替换图像上，需要尽可能准确地保留第一图像上的五官信息、身份信息等，并尽可能地保留第二图像上的表情信息、背景信息、角度信息等。

可选地，第一图像和第二图像为随机选取的两张带有面部区域的图像。如：通过采集设备采集得到第一图像和第二图像；或者，通过视频截图方式采集得到第一图像和第二图像；或者，通过网络下载的方式采集得到第一图像和第二图像等。

步骤1020，获取噪声图。

示意性的，噪声图是随机获取的表征噪声数据的图；或者，噪声图是预先设定的表征噪声数据的图等。

其中，噪声图用于通过减噪处理将第一面部区域替换至第二图像。

在一些实施例中，第一图像的图像尺寸和第二图像的图像尺寸相同。例如：经过裁减方式使得第一图像的图像尺寸和第二图像的图像尺寸相同。

示意性的，噪声图的尺寸与第一图像和第二图像的图像尺寸相同。

在一个可选的实施例中，在通过训练后的面部图像替换模型对第一图像和第二图像进行面部图像替换的过程中，以第一图像和第二图像为图像引导信息，基于对噪声图的减噪处理得到面部替换图像。

示意性的，确定与噪声图相关的噪声预测数据并进行减噪处理的过程如下步骤1030至步骤1060所示。

步骤1030，在通过训练后的面部图像替换模型对第一图像和第二图像进行第一次面部图像替换的过程中，以第一图像和第二图像为图像引导信息，基于噪声图获取噪声预测数据。

其中，噪声预测数据是训练后的面部图像替换模型预测得到的、表征噪声情况的数据。

示意性的，将第一图像、第二图像以及噪声图作为面部图像替换模型的输入，以第一图像和第二图像为图像引导信息，确定如何对噪声图进行更针对性的减噪处理的噪声预测数据。

可选地，获取第一图像中的面部关键点信息，以及第二图像中的图像全局信息，以面部关键点信息和图像全局信息中的至少一个信息为图像引导信息，将噪声图向图像引导信息趋近，预测得到噪声预测数据。

可选地，获取第一图像中的面部标识信息和面部关键点信息，以及第二图像中的图像全局信息，以面部标识信息、面部关键点信息和图像全局信息为图像引导信息，将噪声图向所述图像引导信息趋近，预测得到噪声预测数据。

可选地，获取第一图像中的面部标识信息和面部关键点信息，以及第二图像中的图像全局信息和第二面部区域，以面部标识信息、面部关键点信息、图像全局信息和第二面部区域为图像引导信息，将噪声图向所述图像引导信息趋近，预测得到噪声预测数据等。

如图8所示，在对面部图像替换模型训练完毕后得到训练后的面部图像替换模型，在应用训练后的面部图像替换模型时，通过UNet网络接收来自编码网络输出的样本图像特征表示8*64*64和加噪图像特征表示4*64*64，还接收尺寸变换后的掩膜特征表示1*64*64以及来自标识获取层ID ArcFace的图像标识特征表示1*1*768，从而综合多个特征表示预测得到应用过程的噪声预测数据。

步骤1040，以噪声预测数据对噪声图进行减噪处理，得到减噪预测数据。

如图11所示，为减噪处理的示意图。在初始阶段（第零阶段）包括噪声图1110和预测噪声数据1120，基于预测噪声数据1120对噪声图1110进行减噪处理，得到第一阶段下的减噪预测数据1130。

步骤1050，在通过训练后的面部图像替换模型对第一图像和第二图像进行第m次面部图像替换的过程中，以第一图像和第二图像为图像引导信息，基于第m-1次的减噪预测数据获取第m次的噪声预测数据。

其中，m为大于1的正整数。

示意性的，在得到第一次面部替换过程后的噪声预测数据以及减噪预测数据后，第一次面部替换过程后的减噪预测数据称为第一次的减噪预测数据，将第一次的减噪预测数据作为第二次面部图像替换过程的输入，即：综合第一次的减噪预测数据、第一图像和第二图像进行第二次面部图像替换的过程，从而以第一图像和第二图像为图像引导信息，基于第一次的减噪预测数据获取第二次面部替换过程后的噪声预测数据，称为第二次的噪声预测数据。

以第二次的噪声预测数据对噪声图进行减噪处理，得到第二次的减噪预测数据。

同理，在得到第二次的噪声预测数据以及第二次的减噪预测数据后，将第二次的减噪预测数据作为第三次面部图像替换过程的输入，即：综合第二次的减噪预测数据、第一图像和第二图像进行第二次面部图像替换的过程，从而以第一图像和第二图像为图像引导信息，基于第二次的减噪预测数据获取第三次面部替换过程后的噪声预测数据，称为第三次的噪声预测数据等。

步骤1060，响应于第m次的噪声预测数据达到预设替换条件，得到将第一图像上的第一面部区域替换至第二图像后的面部替换图像。

示意性的，预设替换条件为预先设定的替换条件，例如：预设替换条件为预设次数，如预设次数为50次；当得到50次噪声预测数据后，得到将第一面部区域替换至第二图像后的面部替换图像。

也即：上述基于第一图像和第二图像对噪声图进行减噪处理的过程为一个迭代过程，还可以将该迭代过程概述为如下步骤。

（1）将尺寸为512*512的第一图像Xsrc和第二图像Xtar送入到训练后的面部图像替换模型中的encoder，获得8*64*64的图像特征表示；

（2）将第二图像Xtar图送入预训练的图像分割网络，获得64*64的图像区域mask；

（3）将第一图像Xsrc送入到训练后的面部图像替换模型中的IDArcFace网络，获得1*768维的标识特征表示；

（4）在第一次通过训练后的面部图像替换模型对第一图像和第二图像进行面部替换的过程中，获取噪声图（如：随机噪声数据组成的噪声图），将噪声图送入到encoder中，获得4*64*64的减噪特征表示；

（5）将减噪特征表示、图像特征表示、图像区域mask和标识特征表示送入到UNet，以图像特征表示、图像区域mask和标识特征表示为图像引导信息，基于减噪特征表示预测得到噪声预测数据；

（6）以噪声预测数据对噪声图进行处理，得到减噪预测数据（预测结果Xt）；

（7）在第一次之后，通过训练后的面部图像替换模型对第一图像和第二图像进行面部替换的过程中，将减噪预测数据送入到encoder中，获得4*64*64的减噪特征表示；

（8）将减噪特征表示、图像特征表示、图像区域mask和标识特征表示送入到UNet，以图像特征表示、图像区域mask和标识特征表示为图像引导信息，基于减噪特征表示预测得到噪声预测数据；

（9）以噪声预测数据对减噪预测数据进行处理，得到下一次的减噪预测数据；Xt-1=Xt–noise，其中noise为噪声预测数据；

（10）重复上述步骤7至步骤9，直至达到预设次数（如：50次、100次等）获得X0；

（11）将X0送入到decoder网络，获得512*512的面部替换图像。

在一个可选的实施例中，面部图像替换模型中包括编码网络、噪声预测网络以及解码网络；通过编码器对第一图像和第二图像进行特征提取；通过解码网络基于特征提取结果得到噪声预测数据，从而基于预测噪声数据得到减噪预测数据；当第m次的噪声预测数据达到预设替换条件，通过解码网络对第m次的噪声预测数据进行解码处理，从而得到将第一图像上的第一面部区域替换至第二图像后的面部替换图像。

在一个可选的实施例中，将上述方法应用于视频场景下的面部替换过程中，通过视频采集得到图像，将图像输入图像分割模型，确定面部区域，并进行面部区域的裁剪，之后基于上述训练后的面部图像替换模型进行基于stable diffusion的面部替换过程，并得到面部替换图像，以作为结果进行展示。

示意性的，在实际使用过程中，训练后的面部图像替换模型可以与其他模块进行合作交互。例如：首先从视频采集模块中接收图像输入，然后进行面部检测并且裁剪出面部区域，之后通过上述方法进行面部替换，并最后进行结果展示。

在本申请实施例中，借助第一图像和第二图像为基础的图像引导信息，通过减噪处理的方式从噪声图中还原得到面部替换图像，能够避免在第一图像和第二图像具有较低图像质量的情况下，无法准确且高质量地生成面部替换图像的问题。通过噪声图的减噪处理过程能够更大程度地避免噪声干扰，即便在大姿态场景和遮挡场景下，也能够借助鲁棒性更强的训练后的面部图像替换模型，生成稳定性更好的面部替换图像，具有更为广泛的应用场景。

图12是本申请一个示例性实施例提供的面部图像的替换装置的结构框图，如图12所示，该装置包括如下部分：

图像获取模块1210，用于获取第一样本图像、第二样本图像以及样本替换图像，所述样本替换图像是将所述第一样本图像中的第一面部区域替换至所述第二样本图像中的第二面部区域得到的参考图像；

图像加噪模块1220，用于以样本噪声数据在时间维度上对所述样本替换图像进行n次加噪，得到样本加噪图像，n为正整数；

噪声预测模块1230，用于在通过面部图像替换模型对所述第一样本图像和所述第二样本图像进行面部区域替换的过程中，基于所述样本加噪图像预测得到预测噪声数据，所述预测噪声数据用于基于所述样本加噪图像还原得到所述样本替换图像。

模型训练模块1240，用于以所述样本噪声数据和所述预测噪声数据之间的差异对所述面部图像替换模型进行训练，得到训练后的面部图像替换模型，所述训练后的面部图像替换模型用于将第一图像中的面部区域替换至第二图像。

在一个可选的实施例中，所述噪声预测模块1230还用于获取所述第一样本图像中的面部关键点信息，所述面部关键点信息中包括多个面部关键点，所述面部关键点用于描述所述第一面部区域中五官的关键点；获取所述第二样本图像中的图像全局信息，所述图像全局信息包括图像角度信息、图像背景信息和面部表情信息中的至少一种；基于所述面部关键点信息和所述图像全局信息中的至少一种信息，以及所述样本加噪图像，预测得到预测噪声数据。

在一个可选的实施例中，所述噪声预测模块1230还用于将所述面部关键点信息和所述图像全局信息中的至少一个信息作为图像引导信息，所述图像引导信息用于确定对所述样本加噪图像进行减噪处理时的噪声预测情况；在以所述图像引导信息为参考信息的条件下，以减小所述样本加噪图像中的噪声为目标，预测得到所述预测噪声数据。

在一个可选的实施例中，所述噪声预测模块1230还用于基于所述第一面部区域在所述第一样本图像的分布情况，从所述第一样本图像中获取面部标识信息，所述面部标识信息用于表征所述第一面部区域所表征的身份信息；在以所述面部标识信息为参考信息的条件下，以减小所述样本加噪图像中的噪声为目标，预测得到所述预测噪声数据。

在一个可选的实施例中，所述噪声预测模块1230还用于将所述第一样本图像通过标识识别网络得到第一标识特征表示，所述标识识别网络为预先训练的网络；在特征维度对所述第一标识特征表示进行归一化处理，得到第二标识特征表示作为所述第一样本图像对应的所述面部标识信息。

在一个可选的实施例中，所述噪声预测模块1230还用于通过预先训练的图像分割模型对所述第二样本图像进行面部分割，得到所述第二样本图像对应的所述第二面部区域；在所述第二面部区域的区域范围内，基于所述样本加噪图像预测得到所述预测噪声数据。

在一个可选的实施例中，所述面部图像替换模型中包括编码网络和噪声预测网络；

所述噪声预测模块1230还用于将所述样本替换图像输入所述编码网络，得到所述样本替换图像对应的图像特征表示；以所述样本噪声数据在时间维度上对所述图像特征表示进行n次加噪，得到加噪图像特征表示；将所述第一样本图像和所述第二样本图像输入所述编码网络，得到表征所述第一样本图像和所述第二样本图像的样本图像特征表示，所述样本图像特征表示是将所述第一样本图像对应的第一样本特征表示和所述第二样本图像对应的第二样本特征表示进行特征融合后的特征矩阵；对所述第二样本图像中的所述第二面部区域进行尺寸变换，得到所述第二面部区域对应的掩膜特征表示；将所述样本图像特征表示、所述加噪图像特征表示和所述掩膜特征表示输入所述噪声预测网络，得到所述预测噪声数据。

在一个可选的实施例中，所述图像替换模型中还包括标识获取层；

所述噪声预测模块1230还用于通过所述标识获取层对所述第一样本图像进行标识分析，得到所述第一样本图像对应的第二标识特征表示；将所述第二标识特征表示、所述样本图像特征表示、所述加噪图像特征表示和所述掩膜特征表示输入所述噪声预测网络，得到所述预测噪声数据。

在一个可选的实施例中，所述图像加噪模块1220还用于在所述时间维度上对所述样本替换图像进行n次迭代加噪，得到以时间序列分布的所述n个加噪图像，其中第n个加噪图像为所述样本加噪图像。

在一个可选的实施例中，所述图像加噪模块1220还用于在所述时间维度上以时间序列分布情况选取n个时刻；在所述n个时刻下，以预设加噪策略对所述样本替换图像进行加噪处理，得到以时间序列分布的所述n个加噪图像，其中第n个加噪图像为所述样本加噪图像，所述预设加噪策略是综合与时刻相关的时刻参数和与所述样本噪声数据相关的噪声参数确定的策略。

在一个可选的实施例中，所述模型训练模块1240还用于基于所述样本噪声数据和所述预测噪声数据之间的差异，获取噪声损失值；以所述噪声损失值对所述面部图像替换模型中的噪声预测网络进行训练，直至得到训练后的噪声预测网络；基于所述训练后的噪声预测网络得到所述训练后的面部图像替换模型。

图13是本申请另一个示例性实施例提供的面部图像的替换装置的结构框图，如图13所示，该装置包括如下部分：

图像获取模块1310，用于获取第一图像和第二图像，所述第一图像用于将第一面部区域替换至所述第二图像上；

噪声获取模块1320，用于获取噪声图，所述噪声图用于通过减噪处理将所述第一面部区域替换至所述第二图像；

减噪处理模块1330，用于在通过训练后的面部图像替换模型对所述第一图像和所述第二图像进行面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于对所述噪声图的减噪处理得到所述面部替换图像。

在一个可选的实施例中，所述减噪处理模块1330还用于在通过所述训练后的面部图像替换模型对所述第一图像和所述第二图像进行第一次面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于所述噪声图获取噪声预测数据；以所述噪声预测数据对所述噪声图进行减噪处理，得到减噪预测数据；在通过所述训练后的面部图像替换模型对所述第一图像和所述第二图像进行第m次面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于第m-1次的减噪预测数据获取第m次的噪声预测数据，其中m为大于1的正整数；响应于所述第m次的噪声预测数据达到预设替换条件，得到将所述第一图像上的所述第一面部区域替换至所述第二图像后的面部替换图像。

需要说明的是：上述实施例提供的面部图像的替换装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的面部图像的替换装置与面部图像的替换方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1400包括中央处理单元（Central Processing Unit，CPU）1401、包括随机存取存储器（RandomAccess Memory，RAM）1402和只读存储器（Read Only Memory，ROM）1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。服务器1400还包括用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1406。

大容量存储设备1406通过连接到系统总线1405的大容量存储控制器（未示出）连接到中央处理单元1401。大容量存储设备1406及其相关联的计算机可读介质为服务器1400提供非易失性存储。也就是说，大容量存储设备1406可以包括诸如硬盘或者紧凑型光盘只读存储器（Compact Disc Read Only Memory，CD-ROM）驱动器之类的计算机可读介质（未示出）。

失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。上述的系统存储器1404和大容量存储设备1406可以统称为存储器。

根据本申请的各种实施例，服务器1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统（未示出）。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的面部图像的替换方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的面部图像的替换方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的面部图像的替换方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种面部图像的替换方法，其特征在于，所述方法包括：

在通过面部图像替换模型对所述第一样本图像和所述第二样本图像进行面部区域替换的过程中，基于所述样本加噪图像预测得到预测噪声数据，所述预测噪声数据用于基于所述样本加噪图像还原得到所述样本替换图像；

2.根据权利要求1所述的方法，其特征在于，所述基于所述样本加噪图像预测得到预测噪声数据，包括：

获取所述第一样本图像中的面部关键点信息，所述面部关键点信息中包括多个面部关键点，所述面部关键点用于描述所述第一面部区域中五官的关键点；

获取所述第二样本图像中的图像全局信息，所述图像全局信息包括图像角度信息、图像背景信息和面部表情信息中的至少一种；

基于所述面部关键点信息和所述图像全局信息中的至少一种信息，以及所述样本加噪图像，预测得到所述预测噪声数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述面部关键点信息和所述图像全局信息中的至少一种信息，以及所述样本加噪图像，预测得到所述预测噪声数据，包括：

将所述面部关键点信息和所述图像全局信息中的至少一个信息作为图像引导信息，所述图像引导信息用于确定对所述样本加噪图像进行减噪处理时的噪声预测情况；

在以所述图像引导信息为参考信息的条件下，以减小所述样本加噪图像中的噪声为目标，预测得到所述预测噪声数据。

4.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述样本加噪图像预测得到预测噪声数据，包括：

基于所述第一面部区域在所述第一样本图像的分布情况，从所述第一样本图像中获取面部标识信息，所述面部标识信息用于表征所述第一面部区域所表征的身份信息；

在以所述面部标识信息为参考信息的条件下，以减小所述样本加噪图像中的噪声为目标，预测得到所述预测噪声数据。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一面部区域在所述第一样本图像的分布情况，从所述第一样本图像中获取面部标识信息，包括：

将所述第一样本图像通过标识识别网络得到第一标识特征表示，所述标识识别网络为预先训练的网络；

在特征维度对所述第一标识特征表示进行归一化处理，得到第二标识特征表示作为所述第一样本图像对应的所述面部标识信息。

6.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述样本加噪图像预测得到预测噪声数据，包括：

通过预先训练的图像分割模型对所述第二样本图像进行面部分割，得到所述第二样本图像对应的所述第二面部区域；

在所述第二面部区域的区域范围内，基于所述样本加噪图像预测得到所述预测噪声数据。

7.根据权利要求1至3任一所述的方法，其特征在于，所述面部图像替换模型中包括编码网络和噪声预测网络；

所述以样本噪声数据在时间维度上对所述样本替换图像进行n次加噪，得到样本加噪图像，包括：

将所述样本替换图像输入所述编码网络，得到所述样本替换图像对应的图像特征表示；以所述样本噪声数据在时间维度上对所述图像特征表示进行n次加噪，得到加噪图像特征表示；

所述基于所述样本加噪图像预测得到预测噪声数据，包括：

将所述第一样本图像和所述第二样本图像输入所述编码网络，得到表征所述第一样本图像和所述第二样本图像的样本图像特征表示，所述样本图像特征表示是将所述第一样本图像对应的第一样本特征表示和所述第二样本图像对应的第二样本特征表示进行特征融合后的特征矩阵；

对所述第二样本图像中的所述第二面部区域进行尺寸变换，得到所述第二面部区域对应的掩膜特征表示；

将所述样本图像特征表示、所述加噪图像特征表示和所述掩膜特征表示输入所述噪声预测网络，得到所述预测噪声数据。

8.根据权利要求7所述的方法，其特征在于，所述面部图像替换模型中还包括标识获取层；

所述将所述样本图像特征表示、所述加噪图像特征表示和所述掩膜特征表示输入所述噪声预测网络，得到所述预测噪声数据，包括：

通过所述标识获取层对所述第一样本图像进行标识分析，得到所述第一样本图像对应的第二标识特征表示；

将所述第二标识特征表示、所述样本图像特征表示、所述加噪图像特征表示和所述掩膜特征表示输入所述噪声预测网络，得到所述预测噪声数据。

9.根据权利要求1至3任一所述的方法，其特征在于，所述以样本噪声数据在时间维度上对所述样本替换图像进行n次加噪，得到样本加噪图像，包括：

以相同噪声数值的所述样本噪声数据在所述时间维度上对所述样本替换图像进行n次迭代加噪，得到以时间序列分布的n个加噪图像，其中第n个加噪图像为所述样本加噪图像，所述n个加噪图像中相邻两个加噪图像之间的噪声差值为所述样本噪声数据；

或者，

以不同噪声数值的所述样本噪声数据在所述时间维度上对所述样本替换图像进行n次迭代加噪，得到以时间序列分布的n个加噪图像，其中第n个加噪图像为所述样本加噪图像；其中，第v个加噪图像与第v+1个加噪图像之间的噪声差值为第v次迭代加噪过程中采用的所述样本噪声数据，v为不大于n的正整数。

10.根据权利要求1至3任一所述的方法，其特征在于，所述以样本噪声数据在时间维度上对所述样本替换图像进行n次加噪，得到样本加噪图像，包括：

在所述时间维度上以时间序列分布情况选取n个时刻；

在所述n个时刻下，以预设加噪策略对所述样本替换图像进行加噪处理，得到以时间序列分布的n个加噪图像，其中第n个加噪图像为所述样本加噪图像，所述预设加噪策略是综合与时刻相关的时刻参数和与所述样本噪声数据相关的噪声参数确定的策略。

11.根据权利要求1至3任一所述的方法，其特征在于，所述以所述样本噪声数据和所述预测噪声数据之间的差异对所述面部图像替换模型进行训练，得到训练后的面部图像替换模型，包括：

基于所述样本噪声数据和所述预测噪声数据之间的差异，获取噪声损失值；

以所述噪声损失值对所述面部图像替换模型中的噪声预测网络进行训练，直至得到训练后的噪声预测网络；

基于所述训练后的噪声预测网络得到所述训练后的面部图像替换模型。

12.一种面部图像的替换方法，其特征在于，所述方法包括：

在通过训练后的面部图像替换模型对所述第一图像和所述第二图像进行面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于对所述噪声图的减噪处理得到面部替换图像；

其中，所述训练后的面部图像替换模型是根据权利要求1至11任一所述的面部图像的替换方法得到的。

13.根据权利要求12所述的方法，其特征在于，所述在通过训练后的面部图像替换模型对所述第一图像和所述第二图像进行面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于对所述噪声图的减噪处理得到面部替换图像，包括：

在通过所述训练后的面部图像替换模型对所述第一图像和所述第二图像进行第一次面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于所述噪声图获取噪声预测数据；

以所述噪声预测数据对所述噪声图进行减噪处理，得到减噪预测数据；

在通过所述训练后的面部图像替换模型对所述第一图像和所述第二图像进行第m次面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于第m-1次的减噪预测数据获取第m次的噪声预测数据，其中m为大于1的正整数；

响应于所述第m次的噪声预测数据达到预设替换条件，得到将所述第一图像上的所述第一面部区域替换至所述第二图像后的面部替换图像。

14.一种面部图像的替换装置，其特征在于，所述装置包括：

噪声预测模块，用于在通过面部图像替换模型对所述第一样本图像和所述第二样本图像进行面部区域替换的过程中，基于所述样本加噪图像预测得到预测噪声数据，所述预测噪声数据用于基于所述样本加噪图像还原得到所述样本替换图像；

15.一种面部图像的替换装置，其特征在于，所述装置包括：

减噪处理模块，用于在通过训练后的面部图像替换模型对所述第一图像和所述第二图像进行面部图像替换的过程中，以所述第一图像和所述第二图像为图像引导信息，基于对所述噪声图的减噪处理得到面部替换图像；

16.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至13任一所述的面部图像的替换方法。

17.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至13任一所述的面部图像的替换方法。