CN117808854B

CN117808854B - 图像生成方法、模型训练方法、装置及电子设备

Info

Publication number: CN117808854B
Application number: CN202410225428.XA
Authority: CN
Inventors: 叶虎
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-14
Anticipated expiration: 2044-02-29
Also published as: CN117808854A

Abstract

本申请实施例公开了一种图像生成方法、模型训练方法、装置及电子设备，通过对原始脸部图像进行第一编码得到脸部标识特征，进行第二编码得到脸部结构特征，将脸部标识特征与脸部结构特征融合得到脸部融合特征，接着将脸部标识特征映射得到第一脸部映射特征，将目标内容特征与第一脸部映射特征拼接得到第一拼接特征，将脸部融合特征以及第一拼接特征输入至扩散模型，利用基于脸部融合特征以及第一拼接特征构建的注意力机制进行扩散处理，能够结合原始脸部图像以及目标内容生成目标脸部图像，从而有效地提升原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性，可广泛应用于云技术、人工智能、智慧交通等场景。

Description

图像生成方法、模型训练方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像生成方法、模型训练方法、装置及电子设备。

背景技术

随着人工智能技术的发展，目前可以利用模型来生成脸部图像，通常需要收集特定脸部的原始脸部图像，然后将原始脸部图像输入至预训练好的模型，进而生成与原始脸部图像中的脸部相一致或者相类似的目标脸部图像。然而，相关技术中，原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性仍然有待提升。

发明内容

以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种图像生成方法、模型训练方法、装置及电子设备，能够在基于原始脸部图像生成目标脸部图像时，提升原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性。

一方面，本申请实施例提供了一种图像生成方法，包括：

获取原始脸部图像，对所述原始脸部图像进行第一编码，得到所述原始脸部图像的脸部标识特征，对所述原始脸部图像进行第二编码，得到所述原始脸部图像的脸部结构特征；

将所述脸部标识特征与所述脸部结构特征进行融合，得到脸部融合特征；

获取目标内容的目标内容特征，对所述脸部标识特征进行映射，得到第一脸部映射特征，将所述目标内容特征与所述第一脸部映射特征进行拼接，得到第一拼接特征；

将所述脸部融合特征以及所述第一拼接特征输入至扩散模型，利用基于所述脸部融合特征以及所述第一拼接特征构建的注意力机制进行扩散处理，生成目标脸部图像。

另一方面，本申请实施例还提供了一种图像生成装置，包括：

第一编码模块，用于获取原始脸部图像，对所述原始脸部图像进行第一编码，得到所述原始脸部图像的脸部标识特征，对所述原始脸部图像进行第二编码，得到所述原始脸部图像的脸部结构特征；

第一融合模块，用于将所述脸部标识特征与所述脸部结构特征进行融合，得到脸部融合特征；

第一拼接模块，用于获取目标内容的目标内容特征，对所述脸部标识特征进行映射，得到第一脸部映射特征，将所述目标内容特征与所述第一脸部映射特征进行拼接，得到第一拼接特征；

第一处理模块，用于将所述脸部融合特征以及所述第一拼接特征输入至扩散模型，利用基于所述脸部融合特征以及所述第一拼接特征构建的注意力机制进行扩散处理，生成目标脸部图像。

进一步地，上述第一融合模块具体用于：

对所述脸部标识特征进行映射，得到第二脸部映射特征；

初始化待学习特征，将所述第二脸部映射特征与所述待学习特征进行拼接，得到第二拼接特征；

利用基于所述脸部结构特征构建的注意力机制对所述第二拼接特征进行注意力处理，得到脸部融合特征。

进一步地，上述第一融合模块还用于：

调用多个依次级联的注意力网络基于所述脸部结构特征对所述第二拼接特征进行注意力处理，得到脸部融合特征；

其中，所述第二拼接特征被配置为首个所述注意力网络的输入，所述脸部结构特征被配置为各个所述注意力网络的输入。

进一步地，上述第一融合模块还用于：

调用多个依次级联的注意力网络；

对于各个所述注意力网络，对所述注意力网络的输入进行自注意力处理，得到自注意力特征，基于所述脸部结构特征对所述自注意力特征进行交叉注意力处理，得到第一交叉注意力特征，对所述第一交叉注意力特征进行映射后输入至下一个所述注意力网络；

根据最后一个所述注意力网络的输出得到脸部融合特征。

进一步地，上述第一融合模块还用于：

确定所述第二拼接特征对应的第一特征权重，以及所述脸部结构特征对应的第二特征权重；

基于所述第一特征权重对所述第二拼接特征进行加权得到第一加权特征，基于所述第二特征权重对所述脸部结构特征进行加权，得到第二加权特征；

将所述第一加权特征与所述第二加权特征进行拼接，得到第三拼接特征；

调用多个依次级联的注意力网络对所述第三拼接特征进行自注意力处理，根据最后一个所述注意力网络的输出得到脸部融合特征。

进一步地，所述脸部融合特征是基于脸部特征提取器将所述脸部标识特征与所述脸部结构特征进行融合得到的，所述第一脸部映射特征是基于第一线性层对所述脸部标识特征进行映射得到的，上述第一融合模块还用于：

将所述第二拼接特征与所述脸部结构特征分别输入至第一回归模型进行回归处理，得到所述第二拼接特征对应的第一特征权重，以及所述脸部结构特征对应的第二特征权重；

其中，所述第一回归模型是与所述脸部特征提取器、所述第一线性层联合训练得到的。

进一步地，所述扩散模型包括Unet网络，上述第一处理模块具体用于：

对所述原始脸部图像进行前向加噪，得到加噪图像，将所述加噪图像输入至所述Unet网络进行后向去噪，生成目标脸部图像；

在进行后向去噪的过程中，对于所述Unet网络中的任意一个卷积层，基于所述脸部融合特征对当前的所述卷积层的输出进行交叉注意力处理，得到第二交叉注意力特征，基于所述第一拼接特征对当前的所述卷积层的输出进行交叉注意力处理，得到第三交叉注意力特征，将所述第二交叉注意力特征和所述第三交叉注意力特征进行融合，得到第四交叉注意力特征，将所述第四交叉注意力特征输入至下一个所述卷积层。

进一步地，所述脸部融合特征是基于脸部特征提取器将所述脸部标识特征与所述脸部结构特征进行融合得到的，所述第一脸部映射特征是基于第一线性层对所述脸部标识特征进行映射得到的，上述第一处理模块还用于：

将所述第二交叉注意力特征与所述第三交叉注意力特征分别输入至第二回归模型进行回归处理，得到所述第二交叉注意力特征对应的第三特征权重，以及所述第三交叉注意力特征对应的第四特征权重；

基于所述第三特征权重以及所述第四特征权重，对所述第二交叉注意力特征以及所述第三交叉注意力特征进行加权，得到第四交叉注意力特征；

其中，所述第二回归模型是与所述脸部特征提取器、所述第一线性层联合训练得到的。

进一步地，所述扩散模型包括Unet网络，上述第一处理模块还用于：

在进行后向去噪的过程中，对于所述Unet网络中的任意一个卷积层，确定所述第一拼接特征对应的第五特征权重，以及所述脸部融合特征对应的第六特征权重，基于所述第五特征权重对所述第一拼接特征进行加权得到第三加权特征，基于所述第六特征权重对所述脸部融合特征进行加权，得到第四加权特征，将所述第三加权特征与所述第四加权特征进行拼接，得到第四拼接特征，基于所述第四拼接特征对当前的所述卷积层的输出进行交叉注意力处理，得到第五交叉注意力特征，将所述第五交叉注意力特征输入至下一个所述卷积层。

将所述第一拼接特征与所述脸部融合特征分别输入至第三回归模型进行回归处理，得到所述第一拼接特征对应的第五特征权重，以及所述脸部融合特征对应的第六特征权重；

其中，所述第三回归模型是与所述脸部特征提取器、所述第一线性层联合训练得到的。

另一方面，本申请实施例还提供了一种模型训练方法，包括：

获取样本脸部图像，对所述样本脸部图像进行第一编码，得到所述样本脸部图像的样本标识特征，对所述样本脸部图像进行第二编码，得到所述样本脸部图像的样本结构特征；

基于脸部特征提取器将所述样本标识特征与所述样本结构特征进行融合，得到样本融合特征；

获取样本内容的样本内容特征，基于第一线性层对所述样本标识特征进行映射，得到第一样本映射特征，将所述样本内容特征与所述第一样本映射特征进行拼接，得到样本拼接特征；

将所述样本脸部图像、所述样本融合特征以及所述样本拼接特征输入至扩散模型，利用基于所述样本融合特征以及所述样本拼接特征构建的注意力机制对所述样本脸部图像进行扩散处理；

冻结所述扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对所述脸部特征提取器以及所述第一线性层进行联合训练。

另一方面，本申请实施例还提供了一种模型训练装置，包括：

第二编码模块，用于获取样本脸部图像，对所述样本脸部图像进行第一编码，得到所述样本脸部图像的样本标识特征，对所述样本脸部图像进行第二编码，得到所述样本脸部图像的样本结构特征；

第二融合模块，用于基于脸部特征提取器将所述样本标识特征与所述样本结构特征进行融合，得到样本融合特征；

第二拼接模块，用于获取样本内容的样本内容特征，基于第一线性层对所述样本标识特征进行映射，得到第一样本映射特征，将所述样本内容特征与所述第一样本映射特征进行拼接，得到样本拼接特征；

第二处理模块，将所述样本脸部图像、所述样本融合特征以及所述样本拼接特征输入至扩散模型，利用基于所述样本融合特征以及所述样本拼接特征构建的注意力机制对所述样本脸部图像进行扩散处理；

参数调整模块，用于冻结所述扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对所述脸部特征提取器以及所述第一线性层进行联合训练。

进一步地，所述扩散模型包括Unet网络、用于基于所述样本融合特征构建注意力机制的第一注意力模块，以及用于基于所述样本拼接特征构建注意力机制的第二注意力模块，上述参数调整模块具体用于：

冻结所述Unet网络以及所述第二注意力模块的参数，基于扩散处理过程中预测的噪声对所述脸部特征提取器、所述第一线性层以及所述第一注意力模块进行联合训练。

另一方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的图像生成方法或者模型训练方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的图像生成方法或者模型训练方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的图像生成方法或者模型训练方法。

本申请实施例至少包括以下有益效果：通过获取原始脸部图像，对原始脸部图像进行第一编码，得到原始脸部图像的脸部标识特征，对原始脸部图像进行第二编码，得到原始脸部图像的脸部结构特征，将脸部标识特征与脸部结构特征进行融合，得到脸部融合特征，因此，最终得到的脸部融合特征能够将脸部标识特征和脸部结构特征相结合，丰富脸部融合特征携带的特征信息，另外，通过获取目标内容的目标内容特征，对脸部标识特征进行映射，得到第一脸部映射特征，将目标内容特征与第一脸部映射特征进行拼接，得到第一拼接特征，能够将脸部标识特征与目标内容特征关联起来，可见，后续将脸部融合特征以及第一拼接特征输入至扩散模型，利用基于脸部融合特征以及第一拼接特征构建的注意力机制进行扩散处理，能够结合原始脸部图像以及目标内容生成目标脸部图像，从而有效地提升原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性。

在进行模型训练时，通过冻结扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对脸部特征提取器以及第一线性层进行联合训练，可以保留扩散模型至少一部分的结构，有利于提升训练效率。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的实施环境的一种可选的示意图；

图2a为本申请实施例提供的图像生成方法应用在个性化图像生成场景下的一种可选的示意图；

图2b为本申请实施例提供的图像生成方法应用在摄影场景下的一种可选的示意图；

图2c为本申请实施例提供的图像生成方法应用在多风格图像生成场景下的一种可选的示意图；

图3为本申请实施例提供的图像生成方法的一种可选的流程示意图；

图4为本申请实施例提供的脸部特征提取器中得到脸部融合图像过程的一种可选的示意图；

图5为本申请实施例提供的脸部特征提取器一种可选的内部结构示意图；

图6为本申请实施例提供的通过多个依次级联的注意力网络得到脸部融合图像过程一种可选的示意图；

图7为本申请实施例提供的通过多个依次级联的注意力网络得到脸部融合图像过程另一种可选的示意图；

图8为本申请实施例提供的通过扩散模型生成目标脸部图像的过程的一种可选的示意图；

图9为本申请实施例提供的得到第四交叉注意力特征过程的一种可选的示意图；

图10为本申请实施例提供的通过扩散模型生成目标脸部图像的过程的另一种可选的示意图；

图11为本申请实施例提供的模型训练方法的一种可选的流程示意图；

图12为本申请实施例提供的图像生成装置的一种可选的结构示意图；

图13为本申请实施例提供的模型训练装置的一种可选的结构示意图；

图14为本申请实施例提供的终端的部分结构框图；

图15为本申请实施例提供的服务器的部分结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。其中，目标对象可以是用户。此外，当本申请实施例需要获取目标对象属性信息时，会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

相关技术中，由于原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性仍然有待提升，基于此，本申请实施例提供了一种图像生成方法、模型训练方法、装置及电子设备，能够在基于原始脸部图像生成目标脸部图像时，提升原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性。

参照图1，图1为本申请实施例提供的实施环境的一种可选的示意图，该实施环境包括终端101和服务器102，其中，终端101和服务器102之间通过通信网络连接。

示例性地，服务器102在图像生成阶段中，可以获取原始脸部图像，对原始脸部图像进行第一编码，得到原始脸部图像的脸部标识特征，对原始脸部图像进行第二编码，得到原始脸部图像的脸部结构特征；将脸部标识特征与脸部结构特征进行融合，得到脸部融合特征；获取目标内容的目标内容特征，对脸部标识特征进行映射，得到第一脸部映射特征，将目标内容特征与第一脸部映射特征进行拼接，得到第一拼接特征；将脸部融合特征以及第一拼接特征输入至扩散模型，利用基于脸部融合特征以及第一拼接特征构建的注意力机制进行扩散处理，生成目标脸部图像。其中，原始脸部图像和目标内容都可以是终端101发送过来的。

示例性地，服务器102在模型训练阶段中，还可以获取样本脸部图像，对样本脸部图像进行第一编码，得到样本脸部图像的样本标识特征，对样本脸部图像进行第二编码，得到样本脸部图像的样本结构特征；基于脸部特征提取器将样本标识特征与样本结构特征进行融合，得到样本融合特征；获取样本内容的样本内容特征，基于第一线性层对样本标识特征进行映射，得到第一样本映射特征，将样本内容特征与第一样本映射特征进行拼接，得到样本拼接特征；将样本脸部图像、样本融合特征以及样本拼接特征输入至扩散模型，利用基于样本融合特征以及样本拼接特征构建的注意力机制对样本脸部图像进行扩散处理；冻结扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对脸部特征提取器以及第一线性层进行联合训练。其中，样本脸部图像和样本内容可以是终端101发送过来的。

终端101可以是手机、电脑、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。另外，服务器102还可以是区块链网络中的一个节点服务器。

示例性地，本申请实施例中的图像生成方法适用于多种具体的应用场景，如个性化图像生成、替代人像摄影、多风格图像生成等场景。其中：

（1）个性化图像生成场景

参照图2a，图2a为本申请实施例提供的图像生成方法应用在个性化图像生成场景下的一种可选的示意图。当目标对象需要进行个性化图像生成时，可以给定一张脸部图像和输入要生成图像的个性化文本描述（如穿着西装办公），该脸部图像作为原始脸部图像，个性化文本描述作为目标内容，并将该脸部图像和个性化文本描述传输到服务器中进行处理。服务器在对脸部图像进行处理后，可以生成个性化图像（如图中的西装办公图像），该个性化图像是在根据个性化文本描述的内容后，所形成的该脸部在身穿不同服装下的图像，因此，图像生成方法大大增强了图像合成的个性化和多样化，满足了目标对象对个性化图像的需求。

（2）摄影场景

参照图2b，图2b为本申请实施例提供的图像生成方法应用在摄影场景下的一种可选的示意图。当目标对象需要进行摄影时，可以给定一张摄影所需的脸部图像和输入要生成图像的摄影文本描述（如证件照），该脸部图像作为原始脸部图像，摄影文本描述作为目标内容，并将该脸部图像和摄影目标内容传输到服务器中进行处理。服务器在对脸部图像进行处理后，可以生成摄影图像（如图中的证件照图像），该摄影图像是所给定的脸部在根据摄影文本描述的内容后，所形成的该脸部在身穿摄影所需服装下的图像，因此，图像生成方法节省了拍摄和制作人像照片的时间和成本，同时也避免了因模特不合适或者服装不合适等问题导致拍摄困难。

（3）多风格图像生成场景

参照图2c，图2c为本申请实施例提供的图像生成方法应用在多风格图像生成场景下的一种可选的示意图。当目标对象需要进行多风格图像生成时，可以给定一张脸部图像和输入要生成图像的多风格文本描述（如动漫风格的卡通人物），该脸部图像作为原始脸部图像，多风格文本描述作为目标内容，并将该脸部图像和多风格文本描述传输到服务器中进行处理。服务器在对脸部图像进行处理后，可以生成多风格图像（如图中的卡通人物图像），该多风格图像是在根据多风格文本描述的内容后，所形成的该脸部其他风格的图像，如动漫风格等，这为目标对象提供了更多的选择，可以满足不同目标对象的不同喜好。

因此，本申请实施例可以应用于生成个性化头像、也可以应用于其他需要图像合成的场景，如电影、游戏、广告等，具有广泛的应用前景。通过使用本申请实施例的技术，可以快速生成高质量的目标脸部图像，提高了图像生成的效率，同时也提高了使用体验。

需要说明的是，本申请实施例中的图像生成方法也可以部署在终端本地运行，这样就无需将原始脸部图像和目标内容发送到服务器中运行，在本地即可根据原始脸部图像和目标内容生成所需要的目标脸部图像，对此本申请实施例不做具体限制。

除此之外，本申请实施例提供的方法可应用于不同的场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。

参照图3，图3为本申请实施例提供的图像生成方法的一种可选的流程示意图，该图像生成方法可以由服务器或终端单独执行，或者由终端与服务器配合执行，该图像生成方法包括但不限于以下步骤301至步骤304。

步骤301，获取原始脸部图像，对原始脸部图像进行第一编码，得到原始脸部图像的脸部标识特征，对原始脸部图像进行第二编码，得到原始脸部图像的脸部结构特征。

其中，原始脸部图像是一张包含脸部的照片或图像，用于后续的图像处理和合成等任务。在图像生成方法中，原始脸部图像是第一步的输入，通过对其进行编码和处理，提取出脸部标识特征和脸部结构特征，进而生成脸部融合特征和其他相关的特征，这些特征可以用于后续的图像生成、编辑和识别等任务，以实现特定的目标。本申请实施例的目标是基于输入的原始脸部图像进行个性化合成，以得到满足要求的目标脸部图像。

需要说明的是，在获取原始脸部图像后，需要对原始脸部图像进行第一编码，第一编码是对原始脸部图像进行的一种编码方式，通过第一编码后，可以得到原始脸部图像的脸部标识特征，因此，第一编码是对原始脸部图像进行标识编码，以提取脸部标识特征的过程。所得到的脸部标识特征是用于区分不同原始脸部图像的标识（Identity document，ID）特征，这些特征表征脸部的唯一标识，用于判定脸部的相似度，所以这个特征可以表征脸部的高级语义，进一步地，脸部标识特征可以是一组数字组成的向量特征（如当采用ArcFace模型编码后得到一个维度为512的向量）。

除此之外，本申请实施例还需要对原始脸部图像进行第二编码，第二编码是对原始脸部图像进行的另一种编码方式，与第一编码不同的是，通过第二编码后，可以得到原始脸部图像的脸部结构特征，因此，第二编码是对原始脸部图像进行结构编码，以提取脸部结构特征的过程。所得到的脸部结构特征可以表征脸部结构信息的细粒度特征，如面部轮廓、眼睛、鼻子、嘴巴等组成部分的位置和形状，是脸部的外貌特征，这些特征可以用来区分图像中不同的脸部结构，进一步地，脸部结构特征可以是抽象的、高维度的向量表示，表示捕捉到的脸部图像中的各种细微特征（如当采用DINOv2模型编码时得到257个特征）。

其中，在对原始脸部图像进行第一编码和第二编码时，可以从原始脸部图像中提取出脸部所在的子图像，再基于提取得到的子图像进行第一编码和第二编码，从而去除背景，提升第一编码和第二编码的准确性。

示例性地，本申请实施例中可以设置有脸部标识编码器，通过脸部标识编码器可以对原始脸部图像进行第一编码，得到所需要的脸部标识特征。脸部标识编码器的类型可以有多种，例如，脸部标识编码器可以是基于深度学习的脸部识别模型，如ArcFace模型或FaceNet模型，能够将脸部图像映射到一个高维度的特征空间，使得同一个人的脸部特征在特征空间中更加接近，不同人的特征则更加分散，通过基于深度学习的脸部识别模型可以对原始脸部图像进行编码得到脸部标识特征；或者，脸部标识编码器还可以是基于角度余弦距离的脸部识别模型，可以通过强化同一类别内样本的相似性，增大不同类别间样本的差异性，提高脸部识别的准确性，通过基于角度余弦距离的脸部识别模型可以对原始脸部图像进行编码得到脸部标识特征。本申请实施例中对脸部标识编码器的类型不做具体限制。

示例性地，本申请实施例中可以设置有图像编码器，通过图像编码器可以对原始脸部图像进行第二编码，得到所需要的脸部结构特征。图像编码器的类型可以有多种，例如，图像编码器可以是基于深度学习得到的模型，如基于卷积神经网络（ConvolutionalNeural Networks,CNN）的图像处理模型，具体可以是DINOv2模型或对比语言-图像预训练（Contrastive Language-Image Pre-Training，CLIP）中的图像编码器，可以通过多层卷积和池化操作提取图像的特征，得到所需要的脸部结构特征；或者，图像编码器还可以是自编码器（Autoencoder）模型，通过编码器将输入图像压缩为低维编码，再通过解码器重构原始图像，而其中的编码器部分可以用来提取图像特征，得到所需要的脸部结构特征。本申请实施例中对图像编码器的类型不做具体限制。

步骤302，将脸部标识特征与脸部结构特征进行融合，得到脸部融合特征。

需要说明的是，在得到脸部标识特征和脸部结构特征后，需要将脸部标识特征与脸部结构特征进行融合，由于脸部标识特征通常包含了个体身份相关的信息，如脸部的唯一特征等，而脸部结构特征则包含了脸部的形态、轮廓等结构性信息，将这两种不同类型的特征融合在一起，可以使得生成的结果更加丰富多样，既包含个体的独特特征，又保留了脸部的整体结构，融合之后可以得到脸部融合特征。此外，脸部标识特征和脸部结构特征各自代表了不同方面的脸部信息，它们的融合可以相互补充，有助于提升模型对脸部图像的准确性和稳定性，能够更好地将个体身份信息与脸部结构信息联系起来，增强关联性，通过综合考虑不同方面的特征，生成的结果更容易符合真实的脸部特征。因此，最终得到的脸部融合特征能够将脸部标识特征和脸部结构特征相结合，丰富脸部融合特征携带的特征信息。

示例性地，本申请实施例中可以设置有脸部特征提取器，通过脸部特征提取器可以将脸部标识特征与脸部结构特征进行融合，得到脸部融合特征。脸部特征提取器的类型可以有多种，例如，脸部特征提取器可以包含多个依次级联的注意力网络，每个注意力网络包含自注意力层、交叉注意力层和前馈神经网络，自注意力能够捕捉输入序列内部的依赖关系，交叉注意力可以实现不同输入序列之间的交互，而前馈神经网络则增强了模型的非线性建模能力，三者共同作用于每层，使得模型能够更好地学习和表征复杂的特征关系，最终融合得到所需要的脸部融合特征；或者，每个注意力网络还可以包含拼接层、自注意力层和前馈神经网络，与上述实施例不同的是，该脸部特征提取器可以先对特征进行拼接，拼接之后再输入到自注意力层中捕捉输入序列内部的依赖关系，随后便输入到前馈神经网络进行线性或非线性处理，最终融合得到所需要的脸部融合特征。本申请实施例中对脸部特征提取器的类型不做具体限制。

步骤303，获取目标内容的目标内容特征，对脸部标识特征进行映射，得到第一脸部映射特征，将目标内容特征与第一脸部映射特征进行拼接，得到第一拼接特征。

其中，目标内容是在图像生成过程中，除了原始脸部图像之外，需要合并或融合进去的其他内容或信息，这些内容可以是来自不同图像的特征、文本描述、风格信息等，是使用者提供的特定要求或指示，用于指导或影响最终的图像生成结果，因此，目标内容可以是目标对象与原始脸部图像一起输入的。目标内容特征是从目标内容中提取出来的特征表示，这些特征描述了目标内容的属性、风格、形状或其他相关信息，用于与原始脸部图像的特征进行融合或映射，以指导最终的图像生成。需要说明的是，目标内容特征可以是终端或服务器在获取目标内容后，对目标特征进行特征提取得到的。

示例性地，目标内容的形式可以有多种，同样的目标内容特征也可以有相应的多种，具体取决于目标内容的性质和所需的图像生成效果。例如，如果目标内容是一种特定的艺术风格或视觉效果，那么目标内容特征可以包括该风格的代表性纹理、颜色分布、笔触模式等；或者，如果目标内容是文本描述或语音片段，那么目标内容特征可以是从文本或语音中解析出来的关键词、标签或属性；或者，如果目标内容是一个图像，包含关于脸部姿态或表情的变化，那么目标内容特征可以包括目标姿态或表情的关键点坐标、肌肉动作单元等；或者，当目标内容是图像，目标内容特征还可以包括像素级的颜色、纹理或形状信息，用于指导图像生成过程中的细节处理。本申请实施例中对目标内容和目标内容特征的类型不做具体限制。

需要说明的是，在得到脸部标识特征后，需要对脸部标识特征进行映射，将其转换到一个新的特征空间，这个空间可与目标内容特征的空间更加接近或兼容，得到第一脸部映射特征，这种映射操作可以帮助提取出脸部标识特征中与目标内容相关的部分，并使其能够在后续的融合过程中发挥更大的作用。映射后就可以将目标内容特征与第一脸部映射特征进行拼接，可以结合两者的信息，从而生成一个更加丰富和全面的特征表示，得到第一拼接特征，使得第一拼接特征不仅包含了脸部标识信息，还包含了目标内容的属性或风格信息，可以用于后续的图像处理或生成任务。同时，无须向目标内容的特征空间中嵌入脸部结构特征，相较于相关技术中向目标内容的特征空间中嵌入脸部结构特征的处理方式，能够实现模型主体架构（如下述的扩散模型、第二注意力模块）无微调的效果，提升模型整体的泛化性能。

示例性地，对脸部标识特征进行映射得到第一脸部映射特征的方式有多种。例如，本申请实施例中可以设置有线性层（如第二线性层），线性层可以进行线性映射，将脸部标识特征映射到与目标内容特征相同或更相近的特征空间，最终得到第一脸部映射特征；或者，本申请实施例可以设置一个映射神经网络，可以学习从脸部标识特征到目标内容特征的复杂映射关系，通过训练网络，可以将脸部标识特征转换为目标内容特征空间中的表示，从而得到第一脸部映射特征。本申请实施例中对映射得到第一脸部映射特征的方式不做具体限制。

示例性地，将目标内容特征与第一脸部映射特征进行拼接得到第一拼接特征的方式有多种。例如，可以将目标内容特征和第一脸部映射特征在特征维度上进行直接拼接，形成一个新的、更长的向量；或者，在直接拼接的基础上，给每种特征赋予一个权重，这个权重可以根据实际情况进行调整；或者，还可以使用一种特征融合网络（如卷积神经网络、全连接网络等）来融合目标内容特征和第一脸部映射特征；或者，还可以使用注意力机制来动态地调整目标内容特征和第一脸部映射特征的重要性，通过注意力机制可以学习一个权重分布，这个权重分布用于决定在生成第一拼接特征时，应该更多地关注哪种特征。本申请实施例中对拼接得到第一拼接特征的方式不做具体限制。

步骤304，将脸部融合特征以及第一拼接特征输入至扩散模型，利用基于脸部融合特征以及第一拼接特征构建的注意力机制进行扩散处理，生成目标脸部图像。

其中，扩散模型是一个生成模型，扩散模型可以通过预先训练的方式得到，在训练完毕后，扩散模型可以接收脸部融合特征以及第一拼接特征作为输入，并利用基于脸部融合特征以及第一拼接特征构建的注意力机制进行扩散处理，通过这种方式，扩散模型能够结合原始脸部图像以及目标内容生成目标脸部图像，从而有效地提升原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性。

需要说明的是，扩散模型中构建有相应的多层结构，并基于脸部融合特征以及第一拼接特征构建有注意力机制，这种注意力机制能够帮助模型在生成目标脸部图像时，更加关注原始脸部图像中的关键特征以及目标内容中的相关特征，将更多的“注意力”或权重分配给更重要的部分，因此，可以基于该注意力机制进行扩散处理，最终模型可以输出得到目标脸部图像。

需要说明的是，目标脸部图像是通过图像生成方法最终生成的新图像，结合了原始脸部图像中的脸部特征以及目标内容特征，所以，能够在保持原始脸部图像的基本特征的同时，融入目标内容的影响，从而提升了原始脸部图像与目标脸部图像之间的一致性。

综上，本申请实施例的图像生成方法，通过获取原始脸部图像，对原始脸部图像进行第一编码，得到原始脸部图像的脸部标识特征，对原始脸部图像进行第二编码，得到原始脸部图像的脸部结构特征，将脸部标识特征与脸部结构特征进行融合，得到脸部融合特征，因此，最终得到的脸部融合特征能够将脸部标识特征和脸部结构特征相结合，丰富脸部融合特征携带的特征信息，另外，通过获取目标内容的目标内容特征，对脸部标识特征进行映射，得到第一脸部映射特征，将目标内容特征与第一脸部映射特征进行拼接，得到第一拼接特征，能够将脸部标识特征与目标内容特征关联起来，可见，后续将脸部融合特征以及第一拼接特征输入至扩散模型，利用基于脸部融合特征以及第一拼接特征构建的注意力机制进行扩散处理，能够结合原始脸部图像以及目标内容生成目标脸部图像，从而有效地提升原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性。

上面，通过步骤301至304介绍了本申请实施例中图像生成方法整体流程的详细内容，下面，对其中步骤302进一步包括的内容进行详细描述：

在一种可能的实现方式中，需要将脸部标识特征与脸部结构特征输入到脸部特征提取器中进行融合处理，得到所需要的脸部融合特征。具体可以对脸部标识特征进行映射，得到第二脸部映射特征；初始化待学习特征，将第二脸部映射特征与待学习特征进行拼接，得到第二拼接特征；利用基于脸部结构特征构建的注意力机制对第二拼接特征进行注意力处理，得到脸部融合特征。

其中，待学习特征是需要通过训练数据学习到的参数，也可以理解为需要自动学习得到的特征表示，待学习特征在整个脸部特征提取过程中起着至关重要的作用，通过学习这些特征，可以更好地提取脸部的高级语义和结构特征，从而实现更精准的脸部识别和表征。示例性地，待学习特征可以为31个。

需要说明的是，在将脸部标识特征和脸部结构特征输入到脸部特征提取器后，也需要对脸部标识特征进行映射，将其转换到一个新的特征空间，这个空间可与待学习特征的空间更加接近或兼容，得到第二脸部映射特征，这种映射操作可以帮助提取出脸部标识特征中与待学习特征相关的部分，并使其能够在后续的融合过程中发挥更大的作用。映射后就可以将初始化后的待学习特征与第二脸部映射特征进行拼接，可以结合两者的信息，从而生成一个更加丰富和全面的特征表示，得到第二拼接特征，使得第二拼接特征不仅包含了脸部标识信息，还包含了待学习特征的相关信息，提升特征表达的多样性和准确性。示例性地，当待学习特征有31个，则拼接后的第二拼接特征有32个特征。

示例性地，对脸部标识特征进行映射得到第二脸部映射特征的方式有多种，其实施例与上述映射得到第一脸部映射特征的方式相似，在此不再赘述。示例性地，将待学习特征与第二脸部映射特征进行拼接得到第二拼接特征的方式有多种，其实施例与上述拼接得到第一拼接特征的方式相似，在此不再赘述。

参照图4，图4为本申请实施例提供的脸部特征提取器中得到脸部融合图像过程的一种可选的示意图。具体地，本申请实施例中通过在脸部特征提取器中设置第一线性层，通过第一线性层将脸部标识特征映射到与待学习特征相同或更相近的特征空间，最终得到第二脸部映射特征，并且，本申请实施例通过直接拼接的方式，将待学习特征（如有n个）与第二脸部映射特征进行拼接得到第二拼接特征，随后在脸部特征提取器中利用基于脸部结构特征构建的注意力机制对第二拼接特征进行注意力处理，得到脸部融合特征。

需要说明的是，在脸部特征提取器中，注意力机制是根据脸部结构特征来构建的，以便后续生成脸部融合特征时，会特别关注与脸部结构相关的部分，因此，后续将第二拼接特征作为输入，通过注意力机制进行处理，就可以根据脸部结构特征来决定在生成脸部融合特征时，应该重点关注第二拼接特征中的哪些部分，最后，通过注意力处理，脸部特征提取器会生成脸部融合特征，这个特征融合了脸部标识特征和脸部结构特征的信息，进一步地，所生成的脸部融合特征还根据脸部结构特征进行了优化和调整。

在一种可能的实现方式中，脸部特征提取器包含多个依次级联的注意力网络，得到脸部融合特征的过程具体还可以调用多个依次级联的注意力网络基于脸部结构特征对第二拼接特征进行注意力处理，得到脸部融合特征；其中，第二拼接特征被配置为首个注意力网络的输入，脸部结构特征被配置为各个注意力网络的输入。

参照图5，图5为本申请实施例提供的脸部特征提取器一种可选的内部结构示意图。脸部特征提取器包含多个（如M个）依次级联的注意力网络，注意力网络可以是Transformer结构，每个注意力网络都会对其输入的特征进行处理，并将处理后的特征传递给下一个注意力网络，且这种级联的结构允许每个注意力网络专注于提取特定类型的特征或信息，从而逐步构建出更加丰富和精细的脸部特征表示。

因此，第二拼接特征被配置为首个注意力网络的输入，脸部结构特征被配置为各个注意力网络的输入，在融合过程中，首个注意力网络根据输入的脸部结构特征构建注意力机制，并通过该注意力机制对输入的第二拼接特征进行注意力处理，所得到的特征被输入到下一个注意力网络中。接着，下一个注意力网络根据输入的脸部结构特征再构建注意力机制，并通过该注意力机制对上一层注意力网络的输出特征进行注意力处理，所得到的特征再输入到下一个注意力网络中。最终，通过依次级联的注意力网络一层一层的提炼，从而逐步从原始数据中提炼出更加高级和抽象的信息，最终得到脸部融合特征。

此外，脸部特征提取器还可以是单层的，也即脸部特征提取器包含唯一的一层注意力网络，在计算资源和模型复杂度受限的情况下，只有一层注意力网络的结构可变得更加简单和高效，因此可以通过优化这一层注意力网络的结构和参数，使其能够在有限的资源下实现较好的特征提取效果。进一步地，脸部特征提取器的设计可以根据具体任务和需求进行调整。

在一种可能的实现方式中，每个注意力网络内可以进行自注意力处理和交叉注意力处理，因此得到脸部融合特征的过程具体还可以调用多个依次级联的注意力网络；对于各个注意力网络，对注意力网络的输入进行自注意力处理，得到自注意力特征，基于脸部结构特征对自注意力特征进行交叉注意力处理，得到第一交叉注意力特征，对第一交叉注意力特征进行映射后输入至下一个注意力网络；根据最后一个注意力网络的输出得到脸部融合特征。

参照图6，图6为本申请实施例提供的通过多个依次级联的注意力网络得到脸部融合图像过程一种可选的示意图。在脸部特征提取器中，待学习特征有31个，通过设置有多个依次级联的注意力网络，如12个，可以提取最终的特征。其中，每个注意力网络包含自注意力层和交叉注意力层，通过调用多个依次级联的注意力网络，在每层注意力网络中，可以将该层注意力网络的输入特征输入到自注意力层中进行自注意力处理，如在自注意力层中计算输入特征之间的相似度，从而生成一个自注意力权重矩阵，进而用于加权输入特征以生成自注意力特征。

具体地，可以根据自注意力特征构建交叉注意力的查询矩阵，根据脸部结构特征构建交叉注意力的键矩阵以及交叉注意力的值矩阵，根据查询矩阵、键矩阵以及值矩阵确定第一交叉注意力特征。

最终，每个注意力网络都会对输入特征进行自注意力处理和交叉注意力处理，从而逐步提炼和增强脸部特征的表示能力，并根据最后一个注意力网络的输出得到脸部融合特征。这种处理方式使得脸部特征提取器能够逐步关注到脸部特征的不同方面，并融合多种类型的脸部信息来生成更加全面和精确的脸部融合特征。示例性地，当待学习特征有31个，则脸部特征提取器在将脸部标识特征和脸部结构特征进行融合后，最终得到32个特征作为脸部融合特征。

进一步地，每个注意力网络中还可以包含有前馈神经网络，前馈神经网络则增强了模型的非线性建模能力，三者共同作用于每层，使得模型能够更好地学习和表征复杂的特征关系，最终融合得到所需要的脸部融合特征，在此不做具体限制。

进一步地，前面解释了在脸部特征提取器中对输入的特征进行自注意处理和交叉注意力处理后，得到所需要的脸部融合特征的过程，除此之外，本申请实施例中还提供了另一种脸部特征提取器，可以先对输入的特征进行加权拼接后，再进行自注意处理，得到所需要的脸部融合特征，具体如下：

在一种可能的实现方式中，还可以先对输入的特征进行加权拼接后，再进行自注意力处理，得到所需要的脸部融合特征。具体可以确定第二拼接特征对应的第一特征权重，以及脸部结构特征对应的第二特征权重；基于第一特征权重对第二拼接特征进行加权得到第一加权特征，基于第二特征权重对脸部结构特征进行加权，得到第二加权特征；将第一加权特征与第二加权特征进行拼接，得到第三拼接特征；调用多个依次级联的注意力网络对第三拼接特征进行自注意力处理，根据最后一个注意力网络的输出得到脸部融合特征。

需要说明的是，脸部特征提取器还可以确定第二拼接特征对应的第一特征权重和脸部结构特征对应的第二特征权重。在脸部特征提取过程中，脸部标识特征和脸部结构特征都是重要的，然而，这两种特征对于最终生成的脸部图像的影响可能不同，通过为它们分配不同的权重，可以确保在融合过程中，重要的特征不会被忽视，而次要的特征也不会过于突出。此外，还可以希望突出脸部标识特征或脸部结构特征中的某些部分。因此，本申请实施例通过确定第二拼接特征对应的第一特征权重和脸部结构特征对应的第二特征权重，可以优化最终生成的脸部图像的质量。

示例性地，确定第二拼接特征对应的第一特征权重和脸部结构特征对应的第二特征权重的方式有多种。例如，可以将第二拼接特征和脸部结构特征输入到一个权重分配模型中，通过该权重分配模型来分配合适的权重，权重分配模型可以是任意的神经网络模型，如回归模型；或者，可以根据先验知识或经验来手动设置权重；或者，在复杂的场景中，权重可以作为模型参数的一部分，并通过训练过程自动学习得到；或者，可以设计一个注意力网络来计算每个特征的重要性，并据此分配权重；或者，可以通过评估每个特征对最终任务的贡献来确定权重。本申请实施例中对确定第一特征权重和第二特征权重的方式不做具体限制。

在得到第一特征权重和第二特征权重后，就可以基于第一特征权重对第二拼接特征进行加权得到第一加权特征，基于第二特征权重对脸部结构特征进行加权，得到第二加权特征，随后将第一加权特征与第二加权特征进行拼接。由于第一加权特征与第二加权特征分别代表了脸部标识特征和脸部结构特征在融合过程中的重要性，通过为它们分配不同的权重并进行加权处理，脸部特征提取器能够在特征层面上平衡这两种特征的影响，因此，拼接操作则将加权后的特征组合在一起，形成一个更丰富的特征表示，这个表示同时包含了脸部标识和结构的信息，最终拼接可以得到第三拼接特征。

接着，调用多个依次级联的注意力网络对第三拼接特征进行自注意力处理，可以进一步强调和提炼特征中的关键信息，而自注意力机制允许模型在特征内部进行交互，学习不同特征位置之间的依赖关系，因此，通过级联多个注意力网络，模型能够逐层深入地捕捉和提炼特征中的细节和上下文信息。

最终，根据最后一个注意力网络的输出得到脸部融合特征。脸部融合特征是对原始脸部图像中标识和结构信息的综合表示，它融合了不同特征的重要性，并通过注意力机制进行了优化和提炼，所得到的脸部融合特征将用于后续的扩散处理，以结合原始脸部图像和目标内容生成目标脸部图像，从而提升原始脸部图像与目标脸部图像之间的一致性。

在一种可能的实现方式中，脸部融合特征是基于脸部特征提取器将脸部标识特征与脸部结构特征进行融合得到的，第一脸部映射特征是基于第一线性层对脸部标识特征进行映射得到的，而第一回归模型是与脸部特征提取器、第一线性层联合训练得到的，且第一特征权重和第二特征权重是通过第一回归模型得到的，具体可以将第二拼接特征与脸部结构特征分别输入至第一回归模型进行回归处理，得到第二拼接特征对应的第一特征权重，以及脸部结构特征对应的第二特征权重。

为了确定第一特征权重和第二特征权重，本申请实施例中还引入了第一回归模型，第一回归模型是一个机器学习模型，第一回归模型与脸部特征提取器、第一线性层联合训练，可以实现特征的有效提取和融合，优化整个去噪和脸部融合过程，提高整体性能。这种联合训练的方式有助于确保不同组件之间的协调性和一致性，使模型更加适应实际任务需求。

第一回归模型接收第二拼接特征和脸部结构特征作为输入，并输出与这些特征相对应的权重，这些权重反映了在生成脸部融合特征时，第二拼接特征和脸部结构特征的重要性和贡献程度。在训练过程中，第一回归模型的目标是最小化损失函数，该函数衡量了模型预测的权重与真实或理想的权重之间的差异，通过调整模型参数（包括第一特征权重和第二特征权重），第一回归模型最小化这个损失，从而提高其预测准确性，随着训练的进行，模型会学习到如何为不同的输入特征分配合适的权重，因此，对于给定的第二拼接特征和脸部结构特征，第一回归模型能够自动确定它们在生成脸部融合特征时应该占据的比重。

需要说明的是，训练脸部特征提取器时，可以调整脸部特征提取器的参数，具体地，可以是调整里面的第一线性层、自注意力层、交叉注意力层和前馈神经网络的参数。

参照图7，图7为本申请实施例提供的通过多个依次级联的注意力网络得到脸部融合图像过程另一种可选的示意图。在将第二拼接特征和脸部结构特征输入到脸部特征提取器中的多层注意力网络之前，先将第二拼接特征与脸部结构特征分别输入至第一回归模型进行回归处理，得到第二拼接特征对应的第一特征权重，以及脸部结构特征对应的第二特征权重。随后，通过训练得到的第一特征权重和第二特征权重分别对第二拼接特征与脸部结构特征进行加权拼接，从而得到包含更丰富信息的第三拼接特征。最终，再调用脸部特征提取器中的多个依次级联的注意力网络对第三拼接特征进行自注意力处理，并根据最后一个注意力网络的输出得到脸部融合特征。

前面介绍了步骤302中进一步包括的详细内容，下面对步骤304中进一步包括的内容进行详细描述：

在一种可能的实现方式中，扩散模型包括Unet网络，扩散模型可以用于前向加噪和后向去噪，Unet网络可以对前向加噪时生成的加噪图像进行后向去噪，最终得到目标脸部图像。具体可以随机生成加噪图像，从而使得后续生成的目标脸部图像更加多样化，接着将加噪图像输入至Unet网络进行后向去噪，生成目标脸部图像；其中，在进行后向去噪的过程中，对于Unet网络中的任意一个卷积层，基于脸部融合特征对当前的卷积层的输出进行交叉注意力处理，得到第二交叉注意力特征，基于第一拼接特征对当前的卷积层的输出进行交叉注意力处理，得到第三交叉注意力特征，将第二交叉注意力特征和第三交叉注意力特征进行融合，得到第四交叉注意力特征，将第四交叉注意力特征输入至下一个卷积层。

需要说明的是，扩散模型用于图像生成任务，而Unet网络结构适合用于密集预测任务，如图像分割，它能够捕获各个尺度的特征信息，并且在上采样时将底层和顶层的特征进行连接，有助于保留更多的细节信息。所以，在图像生成任务中，Unet网络可以被用作扩散模型，通过学习从低分辨率图像到高分辨率图像的映射关系。具体来说，在图像生成任务中，可以将原始低分辨率图像输入Unet网络的编码器部分进行特征提取，然后通过解码器部分进行上采样操作，最终生成高分辨率的图像，通过训练过程，Unet网络学习到了如何从低分辨率图像重建出高分辨率图像，从而实现图像的扩散生成。

示例性地，扩散模型是一个预训练好的文生图模型，可以采用Stable Diffusion模型作为扩散模型，其包括一个Unet网络，采用一个自编码器模型将图像压缩成低分辨率的隐空间，可以提升计算效率。Stable Diffusion模型采用预训练好的文本编码器提取文本特征，然后通过交叉注意力将文本特征融入扩散模型Unet网络的各个模块中。在满足本申请实施例要求的前提下，还可以采用其它类型的文生图模型作为扩散模型，比如Imagen模型等，本申请实施例不做具体限制。

参照图8，图8为本申请实施例提供的通过扩散模型生成目标脸部图像的过程的一种可选的示意图，图中加噪图像会被输入到Unet网络中，如输入到Unet网络的编码器部分，经过特征提取和解码器部分进行上采样操作，以进行后向去噪，逐步提取并还原图像的特征，最终得到去噪图像，也就是目标脸部图像。

如图8所示，在Unet网络的后向去噪过程中，对于网络中的每一个卷积层，都进行了交叉注意力处理。具体地，利用脸部融合特征对当前的卷积层输出进行交叉注意力处理，交叉注意力处理可以帮助模型更加关注图像中的关键区域，提高去噪的准确性。其次，使用第一拼接特征再次对当前的卷积层输出进行交叉注意力处理。因此，本申请实施例中在Unet网络中进行了两个独立的交叉注意力处理，增强模型的特征提取能力。经过上述两次交叉注意力处理后，得到了第二交叉注意力特征和第三交叉注意力特征，接下来，将这两个特征进行融合，得到第四交叉注意力特征。最终，将融合后的第四交叉注意力特征输入到下一个卷积层中，继续进行去噪处理。这个过程在整个Unet网络中是逐层进行的，直到最终输出目标脸部图像。

示例性地，将第二交叉注意力特征和第三交叉注意力特征融合得到第四交叉注意力特征的方式有多种，可以与上述拼接得到第一拼接特征的过程类似，在此不再赘述。

具体地，对于Unet网络中的任意一个卷积层，基于脸部融合特征对当前的卷积层的输出进行交叉注意力处理时，可以根据当前的卷积层的输出构建交叉注意力的查询矩阵，根据脸部融合特征构建交叉注意力的键矩阵以及交叉注意力的值矩阵，根据查询矩阵、键矩阵以及值矩阵确定第二交叉注意力特征；基于第一拼接特征对当前的卷积层的输出进行交叉注意力处理时，可以根据当前的卷积层的输出构建交叉注意力的查询矩阵，根据第一拼接特征构建交叉注意力的键矩阵以及交叉注意力的值矩阵，根据查询矩阵、键矩阵以及值矩阵确定第三交叉注意力特征。

示例性地，假定融合得到的脸部融合特征为F1，拼接得到的第一拼接特征为F2，上一个卷积层的输出为query特征，定义为Q，因此所得到的第二交叉注意力特征为cross_attention_1(Q,F1)，所得到的第三交叉注意力特征为cross_attention_2(Q,F2)，将两个交叉注意力模块的结果相加得到第四交叉注意力特征Output，具体可以表示为：

Output=cross_attention_1(Q,F1)+cross_attention_2(Q,F2)

在一种可能的实现方式中，第二交叉注意力特征和第三交叉注意力特征不是简单的拼接得到第四交叉注意力特征，还可以通过加权的方式得到。具体地，脸部融合特征是基于脸部特征提取器将脸部标识特征与脸部结构特征进行融合得到的，第一脸部映射特征是基于第一线性层对脸部标识特征进行映射得到的，而第二回归模型是与脸部特征提取器、第一线性层联合训练得到的，通过第二回归模型可以得到第二交叉注意力特征和第三交叉注意力特征的特征权重，再进行加权得到第四交叉注意力特征。具体可以将第二交叉注意力特征与第三交叉注意力特征分别输入至第二回归模型进行回归处理，得到第二交叉注意力特征对应的第三特征权重，以及第三交叉注意力特征对应的第四特征权重；基于第三特征权重以及第四特征权重，对第二交叉注意力特征以及第三交叉注意力特征进行加权，得到第四交叉注意力特征。

需要说明的是，Unet网络中还可以先确定第二交叉注意力特征与第三交叉注意力特征的权重。不同的特征可能包含互补的信息，即它们在某些方面可能相互补充。通过调整权重，可以平衡这些特征之间的互补性，使得融合后的特征更加全面和准确，通过为它们分配不同的权重，可以确保在融合过程中，重要的特征不会被忽视，而次要的特征也不会过于突出。此外，还可以希望突出第二交叉注意力特征或第三交叉注意力特征中的某些部分。因此，本申请实施例通过确定第二交叉注意力特征对应的第三特征权重和第三交叉注意力特征对应的第四特征权重，可以优化最终生成的第四交叉注意力特征的质量。

示例性地，确定第二交叉注意力特征对应的第三特征权重和第三交叉注意力特征对应的第四特征权重的方式有多种，这里以通过第二回归模型来获取相应的权重为例子。为了确定第三特征权重和第四特征权重，本申请实施例中还引入了第二回归模型，与第一回归模型一样，第二回归模型也是一个机器学习模型，第二回归模型与脸部特征提取器、第一线性层联合训练，可以实现特征的有效提取和融合，优化整个去噪和脸部融合过程，提高整体性能。这种联合训练的方式有助于确保不同组件之间的协调性和一致性，使模型更加适应实际任务需求。

第二回归模型接收第二交叉注意力特征与第三交叉注意力特征作为输入，并输出与这些特征相对应的权重，这些权重反映了在生成第四交叉注意力特征时，第二交叉注意力特征与第三交叉注意力特征的重要性和贡献程度。在训练过程中，第二回归模型与第一回归模型类似，在此不再赘述。

参照图9，图9为本申请实施例提供的得到第四交叉注意力特征过程的一种可选的示意图。在将第二交叉注意力特征和第三交叉注意力特征融合得到第四交叉注意力特征之前，需要先将第二交叉注意力特征和第三交叉注意力特征分别输入至第二回归模型进行回归处理，得到第二交叉注意力特征对应的第三特征权重，以及第三交叉注意力特征对应的第四特征权重。随后，通过训练得到的第三特征权重和第四特征权重分别对第二交叉注意力特征与第四交叉注意力特征进行加权拼接，从而得到包含更丰富信息的第四交叉注意力特征。最终，再输入到下一个卷积层中进行处理。

进一步地，前面解释了在Unet网络内通过两个独立的交叉注意力处理，以得到所需要的目标脸部图像的过程，除此之外，本申请实施例中还提供了另一种Unet网络的处理方式，可以先对输入的特征进行加权拼接后，再进行交叉注意力处理，最终得到所需要的目标脸部图像，具体如下：

在一种可能的实现方式中，另一种Unet网络还可以先对输入的特征进行加权拼接后，再进行交叉注意力处理，最终得到所需要的目标脸部图像。具体可以随机生成加噪图像，将加噪图像输入至Unet网络进行后向去噪，生成目标脸部图像；其中，在进行后向去噪的过程中，对于Unet网络中的任意一个卷积层，确定第一拼接特征对应的第五特征权重，以及脸部融合特征对应的第六特征权重，基于第五特征权重对第一拼接特征进行加权得到第三加权特征，基于第六特征权重对脸部融合特征进行加权，得到第四加权特征，将第三加权特征与第四加权特征进行拼接，得到第四拼接特征，基于第四拼接特征对当前的卷积层的输出进行交叉注意力处理，得到第五交叉注意力特征，将第五交叉注意力特征输入至下一个卷积层。

具体地，加噪图像会被输入到Unet网络中，如输入到Unet网络的编码器部分，经过特征提取和解码器部分进行上采样操作，以进行后向去噪，逐步提取并还原图像的特征，最终得到去噪图像，也就是目标脸部图像。

但是，与之前实施例不同的是，本例子中，在Unet网络的后向去噪过程中，对于网络中的每一个卷积层，都进行了交叉注意力处理，但是在进行交叉注意力处理之前，需要对特征进行拼接。具体地，Unet网络中还可以确定第一拼接特征对应的第五特征权重和脸部融合特征对应的第六特征权重。不同的特征可能包含互补的信息，即它们在某些方面可能相互补充。通过调整权重，可以平衡这些特征之间的互补性，使得融合后的特征更加全面和准确，通过为它们分配不同的权重，可以确保在融合过程中，重要的特征不会被忽视，而次要的特征也不会过于突出。此外，还可以希望突出第一拼接特征或脸部融合特征中的某些部分。因此，本申请实施例通过确定第二拼接特征对应的第五特征权重和脸部融合特征对应的第六特征权重，可以优化最终生成的第四拼接特征的质量，形成一个更丰富的特征表示。

在得到第四拼接特征之后，基于第四拼接特征对当前的卷积层的输出进行交叉注意力处理，交叉注意力处理可以帮助模型更加关注图像中的关键区域，提高去噪的准确性。因此，本申请实施例中在Unet网络中进行了单独一个独立的交叉注意力处理。经过上述交叉注意力处理后，得到了第五交叉注意力特征，接下来，将第五交叉注意力特征输入到下一个卷积层中，继续进行去噪处理。这个过程在整个Unet网络中是逐层进行的，直到最终输出目标脸部图像。

示例性地，确定第一拼接特征对应的第五特征权重和脸部融合特征对应的第二特征权重的方式有多种，该实施例与上述实施例中确定第一特征权重和第二特征权重的方式类似，在此不再赘述。

在一种可能的实现方式中，脸部融合特征是基于脸部特征提取器将脸部标识特征与脸部结构特征进行融合得到的，第一脸部映射特征是基于第一线性层对脸部标识特征进行映射得到的，而第三回归模型是与脸部特征提取器、第一线性层联合训练得到的，且第五特征权重和第六特征权重是通过第三回归模型得到的，具体可以将第一拼接特征与脸部融合特征分别输入至第三回归模型进行回归处理，得到第一拼接特征对应的第五特征权重，以及脸部融合特征对应的第六特征权重。

为了确定第五特征权重和第六特征权重，本申请实施例中还引入了第三回归模型，与第一回归模型一样，第三回归模型也是一个机器学习模型，第三回归模型与脸部特征提取器、第一线性层联合训练，可以实现特征的有效提取和融合，优化整个去噪和脸部融合过程，提高整体性能。这种联合训练的方式有助于确保不同组件之间的协调性和一致性，使模型更加适应实际任务需求。

第三回归模型接收第一拼接特征与脸部融合特征作为输入，并输出与这些特征相对应的权重，这些权重反映了在生成第四拼接特征时，第一拼接特征与脸部融合特征的重要性和贡献程度。在训练过程中，第三回归模型与第一回归模型类似，在此不再赘述。

本实施例中扩散模型在整体上获取加噪图像，并输入到模型中进行处理后，得到去噪图像，也就是目标脸部图像的过程与上述图8类似，但是在模型输入时的处理不同。参照图10，图10为本申请实施例提供的通过扩散模型生成目标脸部图像的过程的另一种可选的示意图，在将第一拼接特征和脸部融合特征输入到Unet网络之前，先将第一拼接特征与脸部融合特征分别输入至第三回归模型进行回归处理，得到第一拼接特征对应的第五特征权重，以及脸部融合特征对应的第六特征权重。随后，通过训练得到的第五特征权重和第六特征权重分别对第一拼接特征与脸部融合特征进行加权拼接，从而得到包含更丰富信息的第四拼接特征。最终，在得到第四拼接特征之后，基于第四拼接特征对当前的卷积层的输出进行交叉注意力处理，得到了第五交叉注意力特征，接下来，将第五交叉注意力特征输入到下一个卷积层中，继续进行去噪处理。这个过程在整个Unet网络中是逐层进行的，直到最终输出目标脸部图像。

参照图11，图11为本申请实施例提供的模型训练方法的一种可选的流程示意图，该模型训练方法可以由服务器执行，或者由终端与服务器配合执行，该模型训练方法包括但不限于以下步骤1101至步骤1105。

步骤1101，获取样本脸部图像，对样本脸部图像进行第一编码，得到样本脸部图像的样本标识特征，对样本脸部图像进行第二编码，得到样本脸部图像的样本结构特征。

其中，样本脸部图像与原始脸部图像类似，不同的是样本脸部图像是应用在训练过程的一张包含脸部的照片或图像，用于后续的图像处理和合成等任务。在模型训练方法中，样本脸部图像是第一步的输入，通过对其进行编码和处理，提取出样本标识特征和样本结构特征，进而生成样本融合特征和其他相关的特征，这些特征可以用于后续的训练任务，以实现特定的目标。

需要说明的是，在获取样本脸部图像后，需要对样本脸部图像进行第一编码，第一编码与上述实施例中对原始脸部图像进行的第一编码相同，在此不再赘述。通过第一编码后，可以得到样本脸部图像的样本标识特征，样本标识特征与上述实施例中脸部标识特征类似，不同的是样本标识特征是应用在训练过程中的标识特征，在此不再赘述。

除此之外，本申请实施例还需要对样本脸部图像进行第二编码，第二编码与上述实施例中对原始脸部图像进行的第二编码相同，在此不再赘述。通过第二编码后，可以得到样本脸部图像的样本结构特征，样本结构特征与上述实施例中脸部结构特征类似，不同的是样本结构特征是应用在训练过程中的标识特征，在此不再赘述。

类似地，在训练过程中对样本脸部图像进行第一编码和第二编码时，可以从样本脸部图像中提取出脸部所在的子图像，再基于提取得到的子图像进行第一编码和第二编码，从而去除背景，提升第一编码和第二编码的准确性。

步骤1102，基于脸部特征提取器将样本标识特征与样本结构特征进行融合，得到样本融合特征。

需要说明的是，在得到样本标识特征和样本结构特征后，需要将样本标识特征与样本结构特征进行融合，融合过程与上述实施例中将脸部标识特征与脸部结构特征进行融合的方式类似，在此不再赘述。通过融合后，可以得到脸部融合特征。

步骤1103，获取样本内容的样本内容特征，基于第一线性层对样本标识特征进行映射，得到第一样本映射特征，将样本内容特征与第一样本映射特征进行拼接，得到样本拼接特征。

需要说明的是，样本内容与上述实施例中的目标内容类似，样本内容特征与上述实施例中的目标内容特征类似，第一样本映射特征与上述实施例中的第一脸部映射特征类似，不同的是样本内容、样本内容特征和第一样本映射特征是在训练过程的，最终将样本内容特征与第一样本映射特征进行拼接，可以得到样本拼接特征。

步骤1104，将样本脸部图像、样本融合特征以及样本拼接特征输入至扩散模型，利用基于样本融合特征以及样本拼接特征构建的注意力机制对样本脸部图像进行扩散处理。

在训练过程中，扩散模型可以接收样本脸部图像、样本融合特征以及样本拼接特征作为输入，并利用基于样本融合特征以及样本拼接特征构建的注意力机制对样本脸部图像进行扩散处理，其处理过程与前述实施例中的类似，不同的是本实施例是应用在训练过程中的，扩散模型的加噪图像是通过对样本脸部图像进行加噪得到的。可以理解的是，通过这种方式，扩散模型能够结合样本脸部图像以及样本内容生成样本脸部图像，后续可以基于样本脸部图像进行损失值的计算。

步骤1105，冻结扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对脸部特征提取器以及第一线性层进行联合训练。

从上述实施例可知，脸部特征提取器在训练过程中负责从样本脸部图像中提取关键的脸部特征，而第一线性层则对这些特征进行映射，以得到更适合后续处理的特征表示。通过联合训练，二者在图像生成任务中同样重要，因此，脸部特征提取器和第一线性层是模型中的关键组件，它们的性能直接影响到整个模型的去噪和融合效果。所以，对脸部特征提取器以及第一线性层进行联合训练，可以确保脸部特征提取器提取的特征与第一线性层的映射方式在语义上是一致的，从而提高特征的一致性和互补性，使它们更好地协同工作，从而提高整体性能。

需要说明的是，扩散模型是预先训练好的，在训练过程中可能已经学习到了有效的特征提取和表示能力，本申请引入了脸部特征提取器，不改变扩散模型的结构，通过冻结其至少一部分参数，可以在随后的联合训练中保留这些有效特征，实现无微调效果，避免在训练脸部特征提取器和第一线性层时破坏这些已经学习到的特征，减少过拟合的风险，这有助于确保模型在训练过程中学习到的是泛化性能更好的特征表示，且有利于提升训练效率。

进一步地，预测的噪声可以用于计算交叉熵损失。训练过程可以采用AdamW优化器进行训练，并设置训练过程的学习速率为1e-4。训练完毕后，还可以对训练后的扩散模型进行推理，因此，在推理阶段中，目标对象可以给定一张脸部图像和要生成图像的文本描述，送入训练好的扩散模型中，生成对应的脸部图像，并检测生成的脸部图像的准确性。

在一种可能的实现方式中，扩散模型包括Unet网络、用于基于样本融合特征构建注意力机制的第一注意力模块，以及用于基于样本拼接特征构建注意力机制的第二注意力模块，因此上述冻结扩散模型的至少一部分参数是冻结Unet网络以及第二注意力模块的参数。具体可以冻结Unet网络以及第二注意力模块的参数，基于扩散处理过程中预测的噪声对脸部特征提取器、第一线性层以及第一注意力模块进行联合训练。

在上述实施例的描述中，详细解释了Unet网络中两个独立的交叉注意力处理的过程。而在训练过程的Unet网络中，同样针对样本数据进行两个独立的交叉注意力处理，处理过程与上述实施例类似，在此不再赘述。其中，基于样本融合特征构建的注意力机制为第一注意力模块，基于样本拼接特征构建的注意力机制为第二注意力模块。

Unet网络和第二注意力模块是预先训练好的，通过冻结Unet网络和第二注意力模块的参数，可以保留这些组件在特征提取和注意力机制方面的有效能力，这样做有助于确保在联合训练过程中，这些已经学习到的特征提取和注意力机制不会被破坏，并且，通过冻结Unet网络和第二注意力模块的参数，可以专注于训练脸部特征提取器、第一线性层以及第一注意力模块，可以使得脸部融合特征的提取以及扩散处理更加准确。

需要补充说明的是，当引入第一回归模型、第二回归模型和第三回归模型中的至少之一时，对第一回归模型、第二回归模型和第三回归模型中的至少之一、脸部特征提取器、第一线性层、第二线性层、脸部特征交叉注意力进行联合训练。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图12，图12为本申请实施例提供的图像生成装置的一种可选的结构示意图，该图像生成装置1200包括：

第一编码模块1201，用于获取原始脸部图像，对原始脸部图像进行第一编码，得到原始脸部图像的脸部标识特征，对原始脸部图像进行第二编码，得到原始脸部图像的脸部结构特征；

第一融合模块1202，用于将脸部标识特征与脸部结构特征进行融合，得到脸部融合特征；

第一拼接模块1203，用于获取目标内容的目标内容特征，对脸部标识特征进行映射，得到第一脸部映射特征，将目标内容特征与第一脸部映射特征进行拼接，得到第一拼接特征；

第一处理模块1204，用于将脸部融合特征以及第一拼接特征输入至扩散模型，利用基于脸部融合特征以及第一拼接特征构建的注意力机制进行扩散处理，生成目标脸部图像。

进一步地，上述第一融合模块1202具体用于：

对脸部标识特征进行映射，得到第二脸部映射特征；

初始化待学习特征，将第二脸部映射特征与待学习特征进行拼接，得到第二拼接特征；

利用基于脸部结构特征构建的注意力机制对第二拼接特征进行注意力处理，得到脸部融合特征。

进一步地，上述第一融合模块1202还用于：

调用多个依次级联的注意力网络基于脸部结构特征对第二拼接特征进行注意力处理，得到脸部融合特征；

其中，第二拼接特征被配置为首个注意力网络的输入，脸部结构特征被配置为各个注意力网络的输入。

进一步地，上述第一融合模块1202还用于：

调用多个依次级联的注意力网络；

对于各个注意力网络，对注意力网络的输入进行自注意力处理，得到自注意力特征，基于脸部结构特征对自注意力特征进行交叉注意力处理，得到第一交叉注意力特征，对第一交叉注意力特征进行映射后输入至下一个注意力网络；

根据最后一个注意力网络的输出得到脸部融合特征。

进一步地，上述第一融合模块1202还用于：

确定第二拼接特征对应的第一特征权重，以及脸部结构特征对应的第二特征权重；

基于第一特征权重对第二拼接特征进行加权得到第一加权特征，基于第二特征权重对脸部结构特征进行加权，得到第二加权特征；

将第一加权特征与第二加权特征进行拼接，得到第三拼接特征；

调用多个依次级联的注意力网络对第三拼接特征进行自注意力处理，根据最后一个注意力网络的输出得到脸部融合特征。

进一步地，脸部融合特征是基于脸部特征提取器将脸部标识特征与脸部结构特征进行融合得到的，第一脸部映射特征是基于第一线性层对脸部标识特征进行映射得到的，上述第一融合模块1202还用于：

将第二拼接特征与脸部结构特征分别输入至第一回归模型进行回归处理，得到第二拼接特征对应的第一特征权重，以及脸部结构特征对应的第二特征权重；

其中，第一回归模型是与脸部特征提取器、第一线性层联合训练得到的。

进一步地，扩散模型包括Unet网络，上述第一处理模块1204具体用于：

随机生成加噪图像，将加噪图像输入至Unet网络进行后向去噪，生成目标脸部图像；

在进行后向去噪的过程中，对于Unet网络中的任意一个卷积层，基于脸部融合特征对当前的卷积层的输出进行交叉注意力处理，得到第二交叉注意力特征，基于第一拼接特征对当前的卷积层的输出进行交叉注意力处理，得到第三交叉注意力特征，将第二交叉注意力特征和第三交叉注意力特征进行融合，得到第四交叉注意力特征，将第四交叉注意力特征输入至下一个卷积层。

进一步地，脸部融合特征是基于脸部特征提取器将脸部标识特征与脸部结构特征进行融合得到的，第一脸部映射特征是基于第一线性层对脸部标识特征进行映射得到的，上述第一处理模块1204还用于：

将第二交叉注意力特征与第三交叉注意力特征分别输入至第二回归模型进行回归处理，得到第二交叉注意力特征对应的第三特征权重，以及第三交叉注意力特征对应的第四特征权重；

基于第三特征权重以及第四特征权重，对第二交叉注意力特征以及第三交叉注意力特征进行加权，得到第四交叉注意力特征；

其中，第二回归模型是与脸部特征提取器、第一线性层联合训练得到的。

进一步地，扩散模型包括Unet网络，上述第一处理模块1204还用于：

在进行后向去噪的过程中，对于Unet网络中的任意一个卷积层，确定第一拼接特征对应的第五特征权重，以及脸部融合特征对应的第六特征权重，基于第五特征权重对第一拼接特征进行加权得到第三加权特征，基于第六特征权重对脸部融合特征进行加权，得到第四加权特征，将第三加权特征与第四加权特征进行拼接，得到第四拼接特征，基于第四拼接特征对当前的卷积层的输出进行交叉注意力处理，得到第五交叉注意力特征，将第五交叉注意力特征输入至下一个卷积层。

将第一拼接特征与脸部融合特征分别输入至第三回归模型进行回归处理，得到第一拼接特征对应的第五特征权重，以及脸部融合特征对应的第六特征权重；

其中，第三回归模型是与脸部特征提取器、第一线性层联合训练得到的。

综上，本申请实施例中的图像生成装置1200，通过获取原始脸部图像，对原始脸部图像进行第一编码，得到原始脸部图像的脸部标识特征，对原始脸部图像进行第二编码，得到原始脸部图像的脸部结构特征，将脸部标识特征与脸部结构特征进行融合，得到脸部融合特征，因此，最终得到的脸部融合特征能够将脸部标识特征和脸部结构特征相结合，丰富脸部融合特征携带的特征信息，另外，通过获取目标内容的目标内容特征，对脸部标识特征进行映射，得到第一脸部映射特征，将目标内容特征与第一脸部映射特征进行拼接，得到第一拼接特征，能够将脸部标识特征与目标内容特征关联起来，可见，后续将脸部融合特征以及第一拼接特征输入至扩散模型，利用基于脸部融合特征以及第一拼接特征构建的注意力机制进行扩散处理，能够结合原始脸部图像以及目标内容生成目标脸部图像，从而有效地提升原始脸部图像中的脸部与目标脸部图像中的脸部之间的一致性。

参照图13，图13为本申请实施例提供的模型训练装置的一种可选的结构示意图，该模型训练装置1300包括：

第二编码模块1301，用于获取样本脸部图像，对样本脸部图像进行第一编码，得到样本脸部图像的样本标识特征，对样本脸部图像进行第二编码，得到样本脸部图像的样本结构特征；

第二融合模块1302，用于基于脸部特征提取器将样本标识特征与样本结构特征进行融合，得到样本融合特征；

第二拼接模块1303，用于获取样本内容的样本内容特征，基于第一线性层对样本标识特征进行映射，得到第一样本映射特征，将样本内容特征与第一样本映射特征进行拼接，得到样本拼接特征；

第二处理模块1304，将样本脸部图像、样本融合特征以及样本拼接特征输入至扩散模型，利用基于样本融合特征以及样本拼接特征构建的注意力机制对样本脸部图像进行扩散处理；

参数调整模块1305，用于冻结扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对脸部特征提取器以及第一线性层进行联合训练。

进一步地，扩散模型包括Unet网络、用于基于样本融合特征构建注意力机制的第一注意力模块，以及用于基于样本拼接特征构建注意力机制的第二注意力模块，上述参数调整模块1305具体用于：

冻结Unet网络以及第二注意力模块的参数，基于扩散处理过程中预测的噪声对脸部特征提取器、第一线性层以及第一注意力模块进行联合训练。

综上，本申请实施例中的模型训练装置1300，在进行模型训练时，通过冻结扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对脸部特征提取器以及第一线性层进行联合训练，可以保留扩散模型至少一部分的结构，有利于提升训练效率。

本申请实施例提供的用于执行上述图像生成方法或者模型训练方法的电子设备可以是终端，参照图14，图14为本申请实施例提供的终端的部分结构框图，该终端包括：摄像头组件1410、第一存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity，简称WiFi)模块1470、第一处理器1480、以及第一电源1490等部件。本领域技术人员可以理解，图14中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

摄像头组件1410可用于采集图像或视频。可选地，摄像头组件1410包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。

第一存储器1420可用于存储软件程序以及模块，第一处理器1480通过运行存储在第一存储器1420的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。

输入单元1430可用于接收输入的数字或字符信息，以及产生与终端的设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触摸面板1431以及其他输入装置1432。

显示单元1440可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元1440可包括显示面板1441。

音频电路1460、扬声器1461，传声器1462可提供音频接口。

第一电源1490可以是交流电、直流电、一次性电池或可充电电池。

传感器1450的数量可以为一个或者多个，该一个或多个传感器1450包括但不限于：加速度传感器、陀螺仪传感器、压力传感器、光学传感器等等。其中：

加速度传感器可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器可以用于检测重力加速度在三个坐标轴上的分量。第一处理器1480可以根据加速度传感器采集的重力加速度信号，控制显示单元1440以横向视图或纵向视图进行用户界面的显示。加速度传感器还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器可以检测终端的机体方向及转动角度，陀螺仪传感器可以与加速度传感器协同采集用户对终端的3D动作。第一处理器1480根据陀螺仪传感器采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器可以设置在终端的侧边框和/或显示单元1440的下层。当压力传感器设置在终端的侧边框时，可以检测用户对终端的握持信号，由第一处理器1480根据压力传感器采集的握持信号进行左右手识别或快捷操作。当压力传感器设置在显示单元1440的下层时，由第一处理器1480根据用户对显示单元1440的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器用于采集环境光强度。在一个实施例中，第一处理器1480可以根据光学传感器采集的环境光强度，控制显示单元1440的显示亮度。具体地，当环境光强度较高时，调高显示单元1440的显示亮度；当环境光强度较低时，调低显示单元1440的显示亮度。在另一个实施例中，第一处理器1480还可以根据光学传感器采集的环境光强度，动态调整摄像头组件1410的拍摄参数。

在本实施例中，该终端所包括的第一处理器1480可以执行前面实施例的图像生成方法或者模型训练方法。

本申请实施例提供的用于执行上述图像生成方法或者模型训练方法的电子设备也可以是服务器，参照图15，图15为本申请实施例提供的服务器的部分结构框图，服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上第二处理器1522和第二存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储装置)。其中，第二存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器1500中的一系列指令操作。更进一步地，第二处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上第二电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows ServerTM，Mac OS XTM，UnixTM ，LinuxTM，FreeBSDTM等等。

服务器1500中的第二处理器1522可以用于执行图像生成方法或者模型训练方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，计算机程序用于执行前述各个实施例的图像生成方法或者模型训练方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的图像生成方法或者模型训练方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便描述本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

应了解，在本申请实施例的描述中，多个（或多项）的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解，本申请实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims

1.一种图像生成方法，其特征在于，包括：

获取原始脸部图像，对所述原始脸部图像进行第一编码，得到所述原始脸部图像的脸部标识特征，对所述原始脸部图像进行第二编码，得到所述原始脸部图像的脸部结构特征，其中，所述脸部标识特征是用于区分不同所述原始脸部图像的标识特征，用于判定脸部的相似度，所述脸部结构特征表征脸部结构信息的细粒度特征，用于区分不同的脸部结构；

对所述脸部标识特征进行映射，得到第二脸部映射特征，初始化待学习特征，将所述第二脸部映射特征与所述待学习特征进行拼接，得到第二拼接特征，调用多个依次级联的注意力网络基于所述脸部结构特征对所述第二拼接特征进行注意力处理，得到脸部融合特征，其中，所述第二拼接特征被配置为首个所述注意力网络的输入，所述脸部结构特征被配置为各个所述注意力网络的输入；

获取目标内容的目标内容特征，对所述脸部标识特征进行映射，得到第一脸部映射特征，将所述目标内容特征与所述第一脸部映射特征进行拼接，得到第一拼接特征，其中，所述目标内容是在图像生成过程中除了所述原始脸部图像之外需要合并或融合的其他内容或信息，所述目标内容特征是从所述目标内容中提取出来的特征表示；

2.根据权利要求1所述的图像生成方法，其特征在于，所述调用多个依次级联的注意力网络基于所述脸部结构特征对所述第二拼接特征进行注意力处理，得到脸部融合特征，包括：

调用多个依次级联的注意力网络；

根据最后一个所述注意力网络的输出得到脸部融合特征。

3.根据权利要求1所述的图像生成方法，其特征在于，所述调用多个依次级联的注意力网络基于所述脸部结构特征对所述第二拼接特征进行注意力处理，得到脸部融合特征，包括：

4.根据权利要求3所述的图像生成方法，其特征在于，所述脸部融合特征是基于脸部特征提取器将所述脸部标识特征与所述脸部结构特征进行融合得到的，所述第一脸部映射特征是基于第一线性层对所述脸部标识特征进行映射得到的，所述确定所述第二拼接特征对应的第一特征权重，以及所述脸部结构特征对应的第二特征权重，包括：

5.根据权利要求1所述的图像生成方法，其特征在于，所述扩散模型包括Unet网络，所述利用基于所述脸部融合特征以及所述第一拼接特征构建的注意力机制进行扩散处理，生成目标脸部图像，包括：

随机生成加噪图像，将所述加噪图像输入至所述Unet网络进行后向去噪，生成目标脸部图像；

6.根据权利要求5所述的图像生成方法，其特征在于，所述脸部融合特征是基于脸部特征提取器将所述脸部标识特征与所述脸部结构特征进行融合得到的，所述第一脸部映射特征是基于第一线性层对所述脸部标识特征进行映射得到的，所述将所述第二交叉注意力特征和所述第三交叉注意力特征进行融合，得到第四交叉注意力特征，包括：

7.根据权利要求1所述的图像生成方法，其特征在于，所述扩散模型包括Unet网络，所述利用基于所述脸部融合特征以及所述第一拼接特征构建的注意力机制进行扩散处理，生成目标脸部图像，包括：

8.根据权利要求7所述的图像生成方法，其特征在于，所述脸部融合特征是基于脸部特征提取器将所述脸部标识特征与所述脸部结构特征进行融合得到的，所述第一脸部映射特征是基于第一线性层对所述脸部标识特征进行映射得到的，所述确定所述第一拼接特征对应的第五特征权重，以及所述脸部融合特征对应的第六特征权重，包括：

9.一种模型训练方法，其特征在于，包括：

获取样本脸部图像，对所述样本脸部图像进行第一编码，得到所述样本脸部图像的样本标识特征，对所述样本脸部图像进行第二编码，得到所述样本脸部图像的样本结构特征，其中，所述样本标识特征是用于区分不同所述样本脸部图像的标识特征，用于判定脸部的相似度，所述样本结构特征表征脸部结构信息的细粒度特征，用于区分不同的脸部结构；

对所述样本标识特征进行映射，得到第二脸部映射特征，初始化待学习特征，将所述第二脸部映射特征与所述待学习特征进行拼接，得到第二拼接特征，调用多个依次级联的注意力网络基于所述样本结构特征对所述第二拼接特征进行注意力处理，得到样本融合特征，其中，所述第二拼接特征被配置为首个所述注意力网络的输入，所述样本结构特征被配置为各个所述注意力网络的输入；

获取样本内容的样本内容特征，基于第一线性层对所述样本标识特征进行映射，得到第一样本映射特征，将所述样本内容特征与所述第一样本映射特征进行拼接，得到样本拼接特征，其中，所述样本内容是在图像生成过程中除了所述样本脸部图像之外需要合并或融合的其他内容或信息，所述样本内容特征是从所述样本内容中提取出来的特征表示；

冻结所述扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对脸部特征提取器以及所述第一线性层进行联合训练。

10.根据权利要求9所述的模型训练方法，其特征在于，所述扩散模型包括Unet网络、用于基于所述样本融合特征构建注意力机制的第一注意力模块，以及用于基于所述样本拼接特征构建注意力机制的第二注意力模块，所述冻结所述扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对所述脸部特征提取器以及所述第一线性层进行联合训练，包括：

11.一种图像生成装置，其特征在于，包括：

第一编码模块，用于获取原始脸部图像，对所述原始脸部图像进行第一编码，得到所述原始脸部图像的脸部标识特征，对所述原始脸部图像进行第二编码，得到所述原始脸部图像的脸部结构特征，其中，所述脸部标识特征是用于区分不同所述原始脸部图像的标识特征，用于判定脸部的相似度，所述脸部结构特征表征脸部结构信息的细粒度特征，用于区分不同的脸部结构；

第一融合模块，用于对所述脸部标识特征进行映射，得到第二脸部映射特征，初始化待学习特征，将所述第二脸部映射特征与所述待学习特征进行拼接，得到第二拼接特征，调用多个依次级联的注意力网络基于所述脸部结构特征对所述第二拼接特征进行注意力处理，得到脸部融合特征，其中，所述第二拼接特征被配置为首个所述注意力网络的输入，所述脸部结构特征被配置为各个所述注意力网络的输入；

第一拼接模块，用于获取目标内容的目标内容特征，对所述脸部标识特征进行映射，得到第一脸部映射特征，将所述目标内容特征与所述第一脸部映射特征进行拼接，得到第一拼接特征，其中，所述目标内容是在图像生成过程中除了所述原始脸部图像之外需要合并或融合的其他内容或信息，所述目标内容特征是从所述目标内容中提取出来的特征表示；

12.一种模型训练装置，其特征在于，包括：

第二编码模块，用于获取样本脸部图像，对所述样本脸部图像进行第一编码，得到所述样本脸部图像的样本标识特征，对所述样本脸部图像进行第二编码，得到所述样本脸部图像的样本结构特征，其中，所述样本标识特征是用于区分不同所述样本脸部图像的标识特征，用于判定脸部的相似度，所述样本结构特征表征脸部结构信息的细粒度特征，用于区分不同的脸部结构；

第二融合模块，用于对所述样本标识特征进行映射，得到第二脸部映射特征，初始化待学习特征，将所述第二脸部映射特征与所述待学习特征进行拼接，得到第二拼接特征，调用多个依次级联的注意力网络基于所述样本结构特征对所述第二拼接特征进行注意力处理，得到样本融合特征，其中，所述第二拼接特征被配置为首个所述注意力网络的输入，所述样本结构特征被配置为各个所述注意力网络的输入；

第二拼接模块，用于获取样本内容的样本内容特征，基于第一线性层对所述样本标识特征进行映射，得到第一样本映射特征，将所述样本内容特征与所述第一样本映射特征进行拼接，得到样本拼接特征，其中，所述样本内容是在图像生成过程中除了所述样本脸部图像之外需要合并或融合的其他内容或信息，所述样本内容特征是从所述样本内容中提取出来的特征表示；

参数调整模块，用于冻结所述扩散模型的至少一部分参数，基于扩散处理过程中预测的噪声，对脸部特征提取器以及所述第一线性层进行联合训练。

13.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的图像生成方法，或者实现权利要求9至10任意一项所述的模型训练方法。

14.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任意一项所述的图像生成方法，或者实现权利要求9至10任意一项所述的模型训练方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任意一项所述的图像生成方法，或者实现权利要求9至10任意一项所述的模型训练方法。