CN116958324A

CN116958324A - 图像生成模型的训练方法、装置、设备及存储介质

Info

Publication number: CN116958324A
Application number: CN202310915103.XA
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-27

Abstract

本申请公开了一种图像生成模型的训练方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取图像生成模型的训练样本集，训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本；通过图像生成模型根据原始图像和原始图像对应的编辑文本，生成原始图像对应的编辑后图像；根据原始图像、编辑后图像、描述文本以及编辑文本，确定图像生成模型的第一损失函数值，第一损失函数值用于评估图像生成模型的图像生成效果；根据第一损失函数值对图像生成模型的参数进行调整，得到训练后的图像生成模型。上述方法提升了生成的编辑后图像的准确度。

Description

图像生成模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能(Artificial Intelligence，简称AI)技术领域，特别涉及一种图像生成模型的训练方法、装置、设备及存储介质。

背景技术

随着图生图(image-to-image)技术的持续发展，用户可以同时输入编辑文本和原始图像，得到针对原始图像的编辑后图像。例如，原始图像是一张夏天的图像，编辑文本是变成冬天，则通过模型能够得到一张编辑后图像，该编辑后图像是将原始图像中的场景变成冬天的场景。

相关技术中，需要利用三元组样本(原始图像、编辑后图像、编辑文本)来对模型进行上述图生成能力的训练，训练后的模型能够实现根据输入的编辑文本来对原始图像进行编辑，得到编辑后图像。

然而，上述训练方法中三元组样本的数量较少，且三元组样本中的编辑后图像可能会存在偏差，导致三元组样本自身的准确度不高。因此通过三元组样本训练出来的模型生成的编辑后图像的准确度也较低。

发明内容

本申请实施例提供了一种图像生成模型的训练方法、装置、设备及存储介质，能够提升生成的编辑后图像的准确度。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种图像生成模型的训练方法，所述方法包括：

获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的描述文本以及所述原始图像对应的至少一条编辑文本，所述描述文本用于描述所述原始图像的内容，所述编辑文本用于通过所述图像生成模型对所述原始图像进行编辑；

通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本，生成所述原始图像对应的编辑后图像；

根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本，确定所述图像生成模型的第一损失函数值，所述第一损失函数值用于评估所述图像生成模型的图像生成效果；

根据所述第一损失函数值对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。

根据本申请实施例的一个方面，提供了一种图像生成模型的训练装置，所述装置包括：

样本获取模块，用于获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的描述文本以及所述原始图像对应的至少一条编辑文本，所述描述文本用于描述所述原始图像的内容，所述编辑文本用于通过所述图像生成模型对所述原始图像进行编辑；

图像生成模块，用于通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本，生成所述原始图像对应的编辑后图像；

损失确定模块，用于根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本，确定所述图像生成模型的第一损失函数值，所述第一损失函数值用于评估所述图像生成模型的图像生成效果；

参数调整模块，用于根据所述第一损失函数值对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述图像生成模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法。

本申请实施例提供的技术方案可以带来如下有益效果：

一方面，通过一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本来构建图文对，利用该图文对组成的训练样本集来对图像生成模型进行训练。由于该训练样本集中的图文对的构建比较简单，因此，训练样本集的获取成本较低。另外图文对中每一个元素的准确度都相对较高，进而使得利用该训练样本集训练的图像生成模型生成的编辑后图像比较符合编辑文本的要求，准确度较高。

另一方面，根据原始图像、编辑后图像、描述文本以及编辑文本，确定出来的图像生成模型的第一损失函数值用于评估图像生成模型的图像生成效果，相比于相关技术中简单的利用编辑后图像和原始图像的图像差异来确定损失，本申请实施例中的第一损失函数值表征的内容更加丰富，其实现了从文本和图像两方面出发，综合评估图像生成效果。由于本申请从图像生成的实际情况出发来设计损失，能够实现可靠的损失计算。因此，基于该第一损失函数值训练的图像生成模型能够允许生成效果随编辑文本变化，侧面提升了图像生成模型的图像生成效果。

附图说明

图1是本申请一个实施例提供的方案实施环境的示意图；

图2是本申请一个实施例提供的图像生成模型的训练及应用方法的示意图；

图3是相关技术中提供的三元组样本的示意图；

图4是本申请一个实施例提供的图像生成模型的训练方法的流程图；

图5是本申请另一个实施例提供的图像生成模型的训练方法的流程图；

图6是本申请一个实施例提供的图像生成模型的结构示意图；

图7是本申请一个实施例提供的QKV网络的结构示意图；

图8是本申请一个实施例提供的图像生成模型的第二次训练的训练方法的示意图；

图9是本申请另一个实施例提供的图像生成模型的训练方法的流程图；

图10是本申请一个实施例提供的图像生成模型的第一次训练的训练方法的示意图；

图11是本申请一个实施例提供的图像生成模型的使用方法的示意图；

图12是本申请一个实施例提供的图像生成方法的示意图；

图13是本申请一个实施例提供的图像生成模型的训练装置的框图；

图14是本申请另一个实施例提供的图像生成模型的训练装置的框图；

图15是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在介绍本申请技术方案之前，先对本申请涉及的一些背景技术知识进行介绍说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，简称CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT(Vision Transformers)，V-MOE(Vision Mixture of Expert)，MAE(Masked AutoEncoder)等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(three Dimensions，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(Artificial Intelligence GeneratedContent，简称AIGC)、对话式交互、智能医疗、智能客服、游戏AI、虚拟现实(VirtualReality，简称VR)、增强现实(Augmented Reality，简称AR)等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、深度学习等技术，本申请实施例中通过原始图像、描述文本以及编辑文本来对图像生成模型进行训练，训练后的图像生成模型能够根据原始图像和编辑文本来生成编辑后图像。具体通过如下实施例进行说明。

在介绍本申请技术方案之前，先对本申请涉及的一些名词进行解释说明。以下相关解释作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。

预训练模型(Pre-Training Model，简称PTM)：也称基石模型、大模型，是指具有大参量的深度神经网络(Deep Neural Network，简称DNN)，在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调(fine tune)、参数高效微调、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型、视觉模型(swin-transformer、ViT、V-MOE)、语音模型、多模态模型等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容重要工具，也可以作为连接多个具体任务模型的通用接口。

扩散模型文生图：基于扩散过程的生成模型，输入目标文本text，模型对一个随机噪声图x经过一系列操作，并在目标文本的交叉注意力下，产生与文本相关的预测图像Y。

场景时间氛围渲染：目标是对场景进行时间、四季、早晚等操作，如原图是白天经过渲染后变成黑夜，原图是春天渲染后变成秋天，渲染前后图像内容不变仅季节相关内容被改变。场景渲染是图像编辑的一种情况，本申请实施例提供的技术方案既可用于场景渲染也可以用于场景编辑。

图像生成模型出图率：指通过图像生成模型产生的图像结果中被采用的图像的比例，相关技术中的图像生成模型由于容易出现人物畸形、物体缺失等问题，出图率常常不高。

请参考图1，其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。

模型训练设备10可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备，或者是其他一些具有较强计算能力的电子设备，本申请对此不作限定。模型训练设备10用于对图像生成模型30进行训练。

在本申请实施例中，图像生成模型30是机器学习模型。可选地，模型训练设备10可以采用机器学习的方式对该图像生成模型30进行训练，以使得其具备较好的性能。可选地，图像生成模型30的训练过程如下(此处仅为简述，具体的训练过程参见下述实施例，此时不作赘述)：根据获取到的原始图像、原始图像对应的描述文本以及原始图像对应的编辑文本，构建训练样本集。可选地，通过图像生成模型30根据原始图像和编辑文本，确定出原始图像对应的编辑后图像。根据原始图像、编辑后图像、描述文本以及编辑文本，确定图像生成模型30的第一损失函数值，第一损失函数值用于评估图像生成模型30的图像生成效果；根据第一损失函数值对图像生成模型30的参数进行调整，得到训练后的图像生成模型。在一些实施例中，图像生成模型30中包括表征提取模块和预训练的扩散模型。在一些实施例中，表征提取模块用于提取描述文本或者编辑文本分别对应的文本表征。在另一些实施例中，扩散模型用于根据编辑文本对应的文本表征和原始图像，生成编辑后图像。具体的扩散模型的内部处理流程参见下述实施例的解释说明，此处不再赘述。在一些实施例中，表征提取模块和扩散模型都是机器学习模型。

在一些实施例中，模型使用设备20可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备，或者是其他一些具有较强计算能力的电子设备备，本申请对此不作限定。示例性地，训练好的图像生成模型30可以用于针对编辑文本来对原始图像进行编辑，生成符合编辑文本的编辑后图像。

模型训练设备10和模型使用设备20可以是两个独立存在的设备，也可以是同一个设备。

本申请实施例提供的方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备。其中，在该电子设备是服务器时，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。计算机设备可以是图1中的模型训练设备10，也可以是模型使用设备20。

请参考图2，其示出了本申请一个实施例提供的图像生成模型的训练及应用方法的示意图。

如图2所示，图像生成模型的训练过程包括第一次训练210和第二次训练220中的至少之一，图像生成模型的应用过程包括应用230。

示例性地，第一次训练210的具体训练流程如下：将原始图像和原始图像对应的描述文本输入至图像生成模型中，得到原始图像对应的生成图像，根据生成图像和原始图像的差异，对图像生成模型的参数进行调整，得到调整后的图像生成模型。

示例性地，第二次训练220的具体训练流程如下：将原始图像和原始图像对应的编辑文本输入至调整后的图像生成模型中，得到原始图像对应的编辑后图像，根据原始图像、编辑后图像、描述文本以及编辑文本，对调整后的图像生成模型的参数继续进行调整，得到训练后的图像生成模型。

示例性地，应用过程230的具体流程如下：将原始图像和编辑文本输入至训练后的图像生成模型中，得到目标编辑后图像。

当然，也可以直接进行第二次训练220，而不进行第一次训练210。在直接进行第二训练220时，需要获取原始图像、原始图像对应的描述文本以及原始图像对应的编辑文本。将原始图像和原始图像对应的编辑文本输入至图像生成模型中，得到原始图像对应的编辑后图像，根据原始图像、编辑后图像、描述文本以及编辑文本，对图像生成模型的参数进行调整，得到训练后的图像生成模型。

下面对相关技术中的图像生成模型的训练方法进行解释说明。

在相关技术的一些实施例中，存在一种图像生成模型，是开源的instructpix2pix基于stablediffusion模型。其训练样本集收集方式为：通过提示词1-生成图像1，通过对提示词1输入编辑文本(如make it rainy)，然后经过开源的prompt-to-prompt方法进行模型推理产生新结果图像2，以及记录编辑结果提示词2，最终得到图像1、图像2、编辑文本三元组训练。收集图像需要对大规模目标待编辑的文本进行样本收集。若采用此开源方法收集中文场景训练数据，考虑到prompt-to-prompt推理后图像2和图像1内容可能会有偏差，故整个训练样本集带有较大噪声样本。如图3所示，图3的子图a认为是上述图像1(原始图像)，图3的子图b认为是上述图像2(编辑后图像)，编辑文本是“秋天”。不难看出，在图像1的基础上，经过编辑文本“秋天”，得到的图像2的天空中出现了较多的枫叶，而图像1中并没有枫树，因此根据编辑文本生成的图像2是不合理的，也即这是不真实的生成。综上，如果将该图像1、图像2以及编辑文本作为三元组，该三元组是不准确的。而基于不准确的三元组构成的训练样本集对图像生成模型进行训练，得到的训练效果并不好。

相关技术中，在对中文小说插图生成中有时候需要对相同的场景进行日夜、下雨下雪等不同时间转变，即场景时间氛围渲染。相关技术中的基于stable diffusion的开源模型instruct pix2pix图像编辑可以一定程度实现场景的图像变换，然而该方法需要大规模收集编辑前后的图像作为训练样本耗费巨大资金，而现实中编辑前后的图像非常缺乏，同时该方法收集的训练图像带有较多噪声(如上述图2的天空中不准确地出现了枫叶)，导致训练集不准确，从而最终训练的场景氛围渲染效果差。因此，相关技术中的方法，一方面保证三元组样本中图像1图像2的主要内容不变，例如可能改变了图像中的不应该发生改变的某些物体，另一方面，该方法仅依赖大规模编辑训练集，不对编辑任务进行理解，可能在不恰当的位置生成渲染结果，如天空中出现秋天的树叶，最终训练结果出现不准确的编辑效果。再一方面，该方法需要大规模收集渲染前后训练样本，成本极高。

基于此，本申请实施例提供的技术方案中设计了一种基于生成效果评估的训练方法，相比起相关技术中直接采用渲染后图像直接监督训练的方法，本申请通过对生成图像与编辑文本的图文相关性、原图一致性、编辑前后差异性监督，实现图像渲染编辑的控制，不需要收集渲染后的图像做训练集；仅需要在编辑前对模型采用待编辑图像进行一定微调。具体来说，首先收集原始图像、图像简单描述以及编辑指令，然后对模型微调编辑相关信息，接着对微调后的模型采用上述生成效果评估的方法来训练模型，最终可实现对图像的编辑。在计算生成效果评估时，由于生成图像必定与原图有一定程度变化，但又不可明确具体变化，故本申请实施例提供的技术方案通过在生成效果评价上设计部分图像损失提升监督信息的准确性。

本申请实施例提供的技术方案，(1)通过上述第二次训练，降低成本提升整体效率。通过生成效果评估作为监督信息，约束生成的图像，在避免大规模复杂样本收集的同时提供了有效的监督信息，从而可提升生成效果；(2)通过上述第一次训练预先提升图像生成模型对当前编辑图像(原始图像)的理解。对图像待编辑的信息(原始图像对应的描述文本)预先微调到图像生成模型中从而提升文本描述指令中的图文概念的相关性，提升图像生成模型对编辑指令响应的能力；(3)根据第二次训练中的第一损失函数值来训练图像生成模型，避免生成编辑的定向错误。根据图像渲染的实际情况设计部分损失，实现可靠的损失计算，从而允许生成效果随编辑变化的可能性。

请参考图4，其示出了本申请一个实施例提供的图像生成模型的训练方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(410～450)中的至少一个步骤。

步骤410，获取图像生成模型的训练样本集，训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本，描述文本用于描述原始图像的内容，编辑文本用于通过图像生成模型对原始图像进行编辑。

在介绍具体步骤之前，先对本申请实施例中的图像生成模型的训练时机进行解释说明。

在一些实施例中，本申请实施例中的训练过程是完全独立于应用过程的，也即，先利用大批量的训练样本集对图像生成模型进行训练，当图像生成模型训练完成之后，该图像生成模型用于应用。在应用过程中，完全不会再涉及图像生成模型的训练，图像生成模型只需根据输入的原始图像和编辑文本，即可生成编辑后图像。

在另一些实施例中，本申请实施例中涉及的图像生成模型的训练过程和使用过程是彼此关联的。可选地，响应于获取到的用户输入的原始图像、原始图像对应的描述文本以及原始图像对应的编辑文本，先利用原始图像、原始图像对应的描述文本以及原始图像对应的编辑文本对图像生成模型进行训练，将训练后的图像生成模型用来根据用户输入的原始图像和原始图像对应的编辑文本来生成编辑后图像。在一些实施例中，每一次应用过程(使用过程)对应一次训练过程。在另一些实施例中，当一次应用过程中对应有多个编辑文本时，则编辑文本的数量和训练过程的次数相对应。示例性地，用户输入的编辑文本包括编辑文本1和编辑文本2，则利用编辑文本1根据上述训练过程对图像生成模型进行训练，再利用编辑文本2根据上述训练过程对图像生成模型进行又一次训练。当图像生成模型训练好之后，根据用户输入的原始图像、编辑文本1以及编辑文本2，来生成用户想要的编辑后图像。此时，步骤410也可以表述为“获取一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本，描述文本用于描述原始图像的内容，编辑文本用于通过图像生成模型对原始图像进行编辑”。

原始图像：是用户想要编辑的图像。本申请实施例对于原始图像的来源同样不作限定，原始图像可以是真实的拍摄出来的图像，也可以是通过文生图模型基于描述文本生成的图像。当然，本申请实施例中对于原始图像的显示类型、显示样式、显示尺寸等等不作限定。

原始图像对应的描述文本：用于描述原始图像的内容。本申请实施例中原始图像对应的描述文本可以是用户输入的真实文本，也可以是通过模型从原始图像中提炼出来的文本，本申请实施例对于描述文本的获取方式不作限定。当然，本申请实施例中对于描述文本的字数、显示类型、显示样式等等不作限定。该描述文本可以表征该原始图像的整体场景特征，也可以表征针对该原始图像中的主要对象的特征，本申请对此也不作限定。

原始图像对应的编辑文本：是通过图像生成模型来对原始图像进行编辑以达到想要的编辑后图像的文本。本申请实施例在训练过程中原始图像对应的编辑文本可以是用户输入的真实文本，也可以是基于模型随机生成的编辑文本，本申请实施例对于编辑文本的获取方式不作限定。当然，本申请实施例中对于编辑文本的字数、显示类型、显示样式等等不作限定。该编辑文本可以是针对原始图像中的场景给出的文本，也可以是针对原始图像中的对象给出的文本，本申请对此也不作限定。具体来说，该编辑文本可以是风格改变、人物动作改变或者物体替换等等。示例性地，描述文本是“春天”，编辑文本是“秋天”。示例性地，描述文本是“鸭舌帽”，编辑文本是“渔夫帽”。

步骤420，通过图像生成模型根据原始图像和原始图像对应的编辑文本，生成原始图像对应的编辑后图像。

本申请实施例中对于图像生成模型的具体架构不作限定，该图像生成模型是机器学习模型。示例性地，该图像生成模型的输入是原始图像和原始图像对应的编辑文本，该图像生成模型的输出是原始图像对应的编辑后图像。示例性地，该图像生成模型中包括编码模块、特征提取模块、特征融合模块以及解码模块中的至少之一。其中，编码模块用于对原始图像进行编码得到图像特征，特征提取模块用于提取编辑文本的文本表征，融合模块用于融合图像特征和文本表征得到融合特征，解码模块用于基于融合特征解码出编辑后图像。

当然，针对图像生成模型中的具体架构也可以参见下述实施例的解释说明，此处不再赘述。

步骤430，根据原始图像、编辑后图像、描述文本以及编辑文本，确定图像生成模型的第一损失函数值，第一损失函数值用于评估图像生成模型的图像生成效果。

本申请实施例中提出的第一损失函数，是基于原始图像、编辑后图像、描述文本以及编辑文本确定的。本申请实施例对于第一损失函数的具体构成不作限定，下面仅列举几种以作示例。

在一些实施例中，根据原始图像和编辑后图像的差异，确定图像子损失；根据描述文本和编辑文本的差异，确定文本子损失；对图像子损失和文本子损失加权求和，确定出第一损失函数值。

在另一些实施例中，根据原始图像和描述文本分别对应的表征的乘积，确定出第一跨模态子损失；根据编辑后图像和编辑文本分别对应的表征的乘积，确定出第二跨模态子损失；对第一跨模态子损失和第二跨模态子损失加权求和，确定出第一损失函数值。

在又一些实施例中，根据原始图像和编辑文本分别对应的表征的乘积，确定出第三跨模态子损失；根据编辑后图像和描述文本分别对应的表征的乘积，确定出第四跨模态子损失；将第三跨模态子损失和第四跨模态子损失的差值，确定为第一损失函数值。

综上，本申请实施例对于第一损失函数的架构不作限定，在本申请各实施例中，该第一损失函数值是基于原始图像、编辑后图像、描述文本以及编辑文本确定的，该第一损失函数值能评估图像生成效果。任何其他同样基于是基于原始图像、编辑后图像、描述文本以及编辑文本确定的第一损失函数值应当纳入本申请保护范围之内。

步骤440，根据第一损失函数值对图像生成模型的参数进行调整，得到训练后的图像生成模型。

本申请实施例对于参数调整的方式不作限定。示例性地，通过最小化第一损失函数值为目标，对图像生成模型的参数进行调整，得到训练后的图像生成模型。示例性地，根据第一损失函数值以反向梯度传播的方式，对图像生成模型的参数进行调整，得到训练后的图像生成模型。示例性地，根据第一损失函数值以正向梯度传播的方式，对图像生成模型的参数进行调整，得到训练后的图像生成模型。

在一些实施例中，当模型的训练过程与使用过程完全独立时，训练后的图像生成模型直接用于图像生成即可，而无需进行额外的训练。在另一些实施例中，当模型的训练过程与使用过程交错时，利用原始图像、原始图像对应的描述文本、原始图像对应的编辑文本对图像生成模型进行训练之后，也即步骤440之后，还可以包括步骤450(图中未示出)——“通过训练后的图像生成模型根据原始图像和原始图像对应的编辑文本，生成目标编辑后图像”。其中，目标编辑后图像认为是在应用过程中模型生成的图像。

本申请实施例提供的技术方案中，一方面，通过一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本来构建图文对，利用该图文对组成的训练样本集来对图像生成模型进行训练。由于该训练样本集中的图文对的构建比较简单，因此，训练样本集的获取成本较低。另外图文对中每一个元素的准确度都相对较高，进而使得利用该训练样本集训练的图像生成模型生成的编辑后图像比较符合编辑文本的要求，准确度较高。

请参考图5，其示出了本申请另一个实施例提供的图像生成模型的训练方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(510～570)中的至少一个步骤。

步骤510，获取图像生成模型的训练样本集，训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本，描述文本用于描述原始图像的内容，编辑文本用于通过图像生成模型对原始图像进行编辑。

步骤520，通过图像生成模型根据原始图像和原始图像对应的编辑文本，生成原始图像对应的编辑后图像。

在一些实施例中，图像生成模型包括表征提取模块和预训练的扩散模型，步骤520包括以下步骤521～524(图中未示出)中的至少一个步骤。

步骤521，通过表征提取模块生成编辑文本对应的文本表征。

本申请实施例中的表征提取模块可以是CLIP模型(多模态模型的一种)，也可以是其他预训练模型，本申请对此不作限定。在一些实施例中，将编辑文本输入至表征提取模块，生成编辑文本对应的文本表征。本申请实施例对于文本表征的维度、尺寸等不作限定。示例性地，文本表征是文本向量、文本矩阵等等。

在一些实施例中，本申请实施在对图像生成模型中的参数进行调整时，并不改变表征提取模块中的参数，而仅调整图像生成模型中除去文本表征模块以外的其他模块的参数。通过此种方式，能够最大限度保证文本表征提取的准确性，同时减少模型的训练成本。

步骤522，在原始图像上叠加随机噪声图像，得到带噪声的原始图像。

在一些实施例中，基于随机数来生成随机噪声图像。示例性地，该随机噪声图像的尺寸和原始图像的尺寸相同，将原始图像和随机噪声图像中对应位置像素点的像素值之间的和，确定为带噪声的原始图像中对应位置像素点的像素值。

步骤523，通过扩散模型的前向过程，生成带噪声的原始图像对应的隐空间表征。

扩散模型的前向过程又称为扩散过程(diffusion process)，用于逐次往输入数据中加入噪声，直至输入数据趋近于纯噪声。示例性地，扩散过程整体可以是一个参数化的马尔可夫链(Markov chain)。需要注意的是，本申请实施例中的扩散模型是经过预训练的扩散模型，具有一定的基于噪声图像生成编辑后图像的能力。扩散模型的模型参数可以采用开源的模型结构和模型参数，本申请对此不作限定，对于扩散模型的预训练过程，也不再进行过多阐述。

在一些实施例中，通过第一编码器对带噪声的原始图像进行编码，得到带噪声的原始图像的初始特征向量；通过扩散模型的前向过程对初始特征向量进行T次加噪，生成带噪声的原始图像对应的隐空间表征，T为正整数。

在一些实施例中，随机噪声图像是指随机生成的一个噪声图像，随机噪声图像可以由随机数对应生成，不同的随机数对应于不同的随机噪声图像，随机数是指任意一个数字。不同随机数对应的随机噪声图像具有不同的图像特征，可以是图像不同的风格特征，例如，可以是画面色彩浓烈的风格特征，也可以是画面色彩浅淡的风格特征，也可以是图像不同的场景特征，例如，可以是城市的场景特征，也可以是草原的场景特征。

第一编码器是指任意一个编码器，带噪声的原始图像的初始特征向量中不仅具有原始图像的特征，还具有随机噪声图像的特征。带噪声的原始图像的初始特征作为扩散模型的前向过程的输入数据，通过扩散过程逐次向初始特征向量中添加噪声，初始特征向量则逐次失去其特征，进行T次加噪后，初始特征向量将变成没有任何特征的隐空间表征。即隐空间表征是指带噪声的原始图像对应的不具有图像特征的纯噪声图像的表征。隐空间表征的形式与文本表征的形式相同，可以是向量形式的表征，也可以是矩阵形式的表征。

步骤524，通过扩散模型的后向过程，根据编辑文本对应的文本表征和隐空间表征，生成原始图像对应的编辑后图像。

在一些实施例中，扩散模型的前向过程对初始特征向量进行T次加噪，生成了随机噪声图像对应的隐空间表征，扩散模型的后向过程，根据文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征。扩散模型的后向过程用于根据约束条件，逐次对输入数据去除噪声，从而生成编辑后图像。示例性地，扩散模型的后向过程整体也可以是一个参数化的马尔可夫链。在一些实施例中，隐空间表征和文本表征作为扩散模型的后向过程的输入数据，扩散模型的后向过程基于文本表征对隐空间特征进行逐次去噪约束，使生成的编辑后图像满足文本表征的约束要求。

在一些实施例中，通过扩散模型的后向过程，根据编辑文本对应的文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对去噪后的隐空间表征进行解码，生成原始图像对应的编辑后图像。

在一些实施例中，扩散模型包括T个去噪网络，去噪网络包括下采样网络和上采样网络。T个去噪网络采用串联的方式进行连接。扩散模型的后向过程根据文本表征对隐空间表征进行一次去噪，是通过一个去噪网络对隐空间表征进行去噪，进行T次去噪后得到去噪后的隐空间表征。图6示出了图像生成模型600的结构示意图。通过编码器对输入图像进行编码，得到输入图像的初始特征向量Z。表征提取模块根据输入文本生成输入文本对应的文本表征，以作为去噪网络的输入数据。通过扩散模型的前向过程对初始特征向量进行T次加噪，生成输入图像对应的隐空间表征Z_T。隐空间表征Z_T和文本表征作为去噪网络的下采样网络的输入数据，根据下采样网络的输出数据，得到上采样网络的输入数据，上采样网络根据文本表征和上采样网络的输入数据，得到一次去噪后的输出特征Z_T-1′。再经过T-1次去噪网络的作用，得到去噪后的隐空间表征Z^′，通过解码器对去噪后的隐空间表征Z^′进行解码，生成输出图像Y。

具体来说，在第i次去噪的过程中，将文本表征和第i个输入表征分别输入第i个去噪网络的下采样网络，得到第i个去噪网络的下采样网络的输出数据。第i个输入表征是指经过i-1次去噪后的隐空间表征，第1个输入表征为隐空间表征。通过将文本表征和第i个输入表征输入第i个去噪网络的下采样网络，基于文本表征对第i个输入表征进行去噪，得到第i个去噪网络的下采样网络的输出数据。在一些实施例中，第i个去噪网络的下采样网络包括N个级联的网络单元，N为大于1的整数。在一些实施例中，网络单元是指QKV单元，第i个去噪网络包括N个级联的QKV单元、M个级联的残差模块和一个空间转换器。在一些实施例中，下采样网络包括3个级联的QKV单元、3个级联的残差模块和一个空间转换器，上采样网络包括3个级联的残差模块和3个级联的QKV单元。在第i次去噪的过程中，将文本表征和第i个输入表征作为第i个去噪网络的下采样网络的输入数据，得到第i个去噪网络的下采样网络的空间转换器的输出数据。

图7示出了QKV网络的结构示意图，一个QKV网络中可以包括多个堆叠的残差模块和空间转换器，残差网络用于学习更多层次的特征，空间转换器用于实现QKV的计算过程。其中，Q(Query)是指to match others，表示要控制的信息，K(Key)是指to be matched，表示被控制的信息，V(Value)是指information to be extracted，表示输入特征的信息。在本申请实施例中，输入的Q是指第i个输入表征，KV是指文本表征，通过KV对Q进行控制，得到经KV控制后的Q。在图7的第一个QKV的计算过程中，KV与输入的Q相同，用于防止QKV网络训练过拟合，将KV控制后的Q输出第二个残差模块。在第二个QKV的计算过程中，Q是上一个QKV计算过程的输出，KV是指文本表征，得到经文本表征控制后的输入表征，再将第二个QKV计算过程的输出作为下采样网络中的其他模块的输入。在一些实施例中，下采样网络的空间转换器的输出数据可以为去噪网络的上采样网络的输入数据。同时，下采样网络的QKV和残差模块的输出数据也将分别作为上采样网络的残差模块和QKV的输入数据。

在一些实施例中，通过第i个去噪网络的上采样网络，根据文本表征和第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，i为小于或等于T的正整数，第1个输入表征为隐空间表征，第i个输出表征作为第i+1个输入表征，第T个输出表征为去噪后的隐空间表征。

在一些实施例中，通过第一解码器对去噪后的隐空间表征进行解码，生成原始图像对应的编辑后图像。第一解码器是指任意一个解码器，通过第一解码器对去噪后的隐空间表征进行解码，得到去噪后的隐空间表征对应的图像。

步骤530，根据图像表征差异与文本表征差异之间的相似度，确定第一子损失；其中，图像表征差异是指编辑后图像对应的图像表征与原始图像对应的图像表征之间的差值，文本表征差异是指编辑文本对应的文本表征与描述文本对应的文本表征之间的差值，第一子损失用于表征图像生成过程中图像和文本的对齐程度。

在一些实施例中，将编辑后图像对应的图像表征与原始图像对应的图像表征之间的差值确定为图像表征差异。在另一些实施例中，将编辑文本对应的文本表征与描述文本对应的文本表征之间的差值确定为文本表征。

在一些实施例中，通过表征提取模块提取原始图像和编辑后图像分别对应的图像表征、描述文本和编辑文本分别对应的文本表征。在一些实施例中，通过第一表征提取模块提取原始图像和编辑后图像分别对应的图像表征。在另一些实施例中，通过第二表征提取模块提取描述文本和编辑文本分别对应的文本表征。其中，第一表征提取模块和第二表征提取模块对应不同的表征提取模块。示例性地，该第一表征提取模块和第二表征提取模块均是预训练模型，并且在对图像生成模型的训练过程中不改变该表征提取模块中的参数。

在一些实施例中，第一子损失的计算如下：计算编辑后图像对应的图像表征与原始图像对应的图像表征之间的差值，得到第一差值信息；计算编辑文本对应的文本表征与描述文本对应的文本表征之间的差值，得到第二差值信息；根据第一差值信息与第二差值信息之间的相似度，确定第一子损失。

在一些实施例中，原始图像为img1，编辑后图像为img2，描述文本为t1，编辑文本为t2。相对应地，原始图像对应的图像表征为E_img1，编辑后图像对应的图像表征为E_img2，描述文本对应的文本表征为E_t1，编辑文本对应的文本表征为E_t2。第一差值信息为编辑后图像对应的图像表征与原始图像对应的图像表征之间的差值，为E_img2-E_img1，第二差值信息为编辑文本对应的文本表征与描述文本对应的文本表征之间的差值，为E_t2-E_t1。

示例性地，第一子损失L_edit＝-Similarity(E_img2-E_img1，E_t2-E_t1)。在一些实施例中，第一子损失等于第一差值信息与第二差值信息之间的相似度。

在一些实施例中，相似度包括但不限于余弦相似度、欧氏距离等等。

下面对相似度的计算作示例性说明。其中，Ai、Bi分别代表A、B的各个分量。

本申请实施例中的第一子损失是产生编辑监督信息的重要来源，通过编辑前后文本差异产生第二差值信息，并使得模型生成的编辑后图像与原始图像的差异(第一差值信息)对齐文本提供的编辑信息(第二差值信息)，由于图像表征和文本表征尺度不同，本申请采用余弦相似度的方式通过度量两个差异向量在单位圆上的方向来度量向量差异。另外，当两个向量越相似则相似度越大，由于模型优化往损失变小的方向变化，故第一子损失采用负相似度。

步骤540，根据编辑后图像与原始图像之间的差异，确定第二子损失，第二子损失用于表征编辑后图像与原始图像之间的一致性。

在一些实施例中，第二子损失的计算如下：根据编辑后图像与原始图像中至少一个对应位置像素点的像素值之间的差值，确定第二子损失。

在一些实施例中，第二子损失L_consist＝MSE(img2，img1)。在计算第二子损失时，并不需要对应位置的全部像素点，而是选择其中部分像素点。示例性地，选择比例为全部像素点的a％。从全部像素点中随机选择出a％的像素点来计算第二子损失。其中，a是0到100之间的数。在一些实施例中，第二子损失L_consist＝MSE(img2_selected，img1_selected)。

本申请实施例中，为了保证图像生成结果与原图保持相同，尤其在不需要被编辑的地方，故需要图像一致性损失，实际上图像需要编辑的部位常常并非全图像，故图像上大部分部位都需要与原图相同。本申请在引入与原图一致性的同时，进行一致性图像比例控制，不需要全部图像都一致。倘若全部生成图像像素都与原图相同，则模型编辑能力为0，即对于某个输入图像，不做任何编辑输出，这不是本申请图像编辑的目标。本申请对于编辑后图像，随机选择30％比例像素，使该像素与原始图像对应像素保持一致即可。第二子损失L_consist中，先选择图像像素的位置，然后取这些位置计算MSE损失即可。L_consist在全部损失中的权重较小，是因为考虑到该损失存在一定噪声(由于选择的像素未必是图像编辑必须改变的像素)，故该项损失等同于图像编辑的正则化损失，起到限制编辑变化过大的效果。

步骤550，根据编辑后图像对应的图像表征和编辑文本对应的文本表征，确定第三子损失，第三子损失用于表征编辑后图像与编辑文本之间的一致性。

在一些实施例中，第三子损失的计算如下：根据编辑后图像对应的图像表征和编辑文本对应的文本表征之间的乘积，确定第三子损失。在一些实施例中，第三子损失L_cross＝E_img2·E_t2。第三损失也认为是编辑后的跨模态相似度，该损失作为编辑监督信息的另一来源，即要求编辑后图像与编辑文本描述一致。采用编辑后图像对应的图像表征，以及编辑文本对应的文本表征计算一致性。示例性地，利用CLIP模型的图像表征提取分支提取编辑后图像对应的图像表征，利用CLIP模型的文本表征提取分支提取编辑文本对应的文本表征。

步骤560，根据第一子损失、第二子损失和第三子损失，确定图像生成模型的第一损失函数值。

本申请实施例对于根据第一子损失、第二子损失和第三子损失，确定图像生成模型的第一损失函数值的方式不作限定。示例性地，将第一子损失、第二子损失、第三子损失的和，确定为图像生成模型的第一损失函数值。示例性地，将第一子损失、第二子损失、第三子损失的乘积，确定为图像生成模型的第一损失函数值。示例性地，将第一子损失、第二子损失的乘积与第三子损失的和，确定为图像生成模型的第一损失函数值。

在一些实施例中，第一损失函数值的计算如下：对第一子损失、第二子损失和第三子损失进行加权求和，确定图像生成模型的第一损失函数值。在一些实施例中，第一损失函数值Loss＝w₁L_edit+w₂L_consist+w₃L_cross。其中，w₁是第一子损失对应的权重值，w₂是第二子损失对应的权重值，w₃是第三子损失对应的权重值。本申请实施例对于权重值的具体数值不作限定。在一些实施例中，w₂的值最小，而其他两个权重值相对较大。

当然，本申请实施例在计算上述原始图像和编辑后图像的损失时，原始图像也可以认为是带噪声的原始图像，也即计算带噪声的原始图像和编辑后图像之间的差异，从而确定损失，本申请对此不作限定。

步骤570，根据第一损失函数值对图像生成模型的参数进行调整，得到训练后的图像生成模型。

在一些实施例中，如图8所示，是本申请一个实施例提供的图像生成模型的第二次训练的训练方法的示意图。将原始图像叠加随机噪声图像，得到带噪声的原始图像C。图像生成模型800根据带噪声的原始图像C和编辑文本，生成原始图像对应的编辑后图像。根据原始图像、编辑后图像、描述文本以及编辑文本，确定损失，从而实现对图像生成模型的训练。

本申请实施例中，在对图像生成模型进行训练时，从不同的维度设计了三种子损失，分别是表征图像生成过程中图像和文本的对齐程度的第一子损失，表征所述编辑后图像与所述原始图像之间的一致性的第二子损失，表征所述编辑后图像与所述编辑文本之间的一致性的第三子损失。通过设计三种子损失来得到用于训练图像生成模型的第一子损失函数，使得第一子损失函数用来评估生成效果的能力较好，从而使得训练后的图像生成模型能够提升图像生成能力。

另一方面，通过对三种子损失赋予不同的权重值，来对三种子损失进行加权求和得到第一损失函数值，由于不同的子损失来评估生成效果的能力是不同的，通过加权求和的方式，能够既满足不同维度的需求，也能有侧重的确定第一子损失函数值。

请参考图9，其示出了本申请另一个实施例提供的图像生成模型的训练方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(910～960)中的至少一个步骤。

步骤910，获取图像生成模型的训练样本集，训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本，描述文本用于描述原始图像的内容，编辑文本用于通过图像生成模型对原始图像进行编辑。

步骤920，通过图像生成模型根据原始图像和原始图像对应的描述文本，生成原始图像对应的生成图像。

在一些实施例中，通过表征提取模块生成描述文本对应的文本表征；在原始图像上叠加随机噪声图像，得到带噪声的原始图像；通过扩散模型的前向过程，生成带噪声的原始图像对应的隐空间表征；通过扩散模型的后向过程，根据描述文本对应的文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对去噪后的隐空间表征进行解码，生成原始图像对应的生成图像。在一些实施例中，原始图像对应的生成图像的生成方法可以参考上述原始图像对应的编辑后图像的生成方法，此处不再赘述。

图10示出了图像生成模型的第一次训练的训练方法的示意图，图10中图像生成模型1000包括扩散模型和表征提取模块。根据任意一个随机数，得到随机数对应的随机噪声图像，将原始图像和随机噪声图像叠加，得到带噪声的原始图像C，通过编码器对带噪声的原始图像进行编码，得到带噪声的原始图像的初始特征向量Z。表征提取模块根据描述文本生成描述文本对应的文本表征，以作为去噪网络的输入数据。通过扩散模型的前向过程对初始特征向量进行T次加噪，生成带噪声的原始图像对应的隐空间表征Z_T。隐空间表征Z_T和文本表征作为去噪网络的下采样网络的输入数据，根据下采样网络的输出数据，得到上采样网络的输入数据，上采样网络根据文本表征和上采样网络的输入数据，得到一次去噪后的输出特征Z_T-1′。再经过T-1次去噪网络的作用，得到去噪后的隐空间表征Z′，通过解码器对去噪后的隐空间表征Z′进行解码，生成原始图像经过描述文本之后对应的生成图像Y。

步骤930，根据生成图像与原始图像之间的差异，对图像生成模型的参数进行调整，得到调整后的图像生成模型。

在一些实施例中，具体调整过程如下：根据生成图像与原始图像中至少一个对应位置像素点的像素值之间的差值，确定第二损失函数值，第二损失函数值用于表征生成图像与原始图像之间的一致性；根据第二损失函数值对图像生成模型的参数进行调整，得到调整后的图像生成模型。

在一些实施例中，同上述第二子损失一样，在计算第二损失函数值时，并不需要对应位置的全部像素点，而是选择其中部分像素点。示例性地，选择比例为全部像素点的a％。从全部像素点中随机选择出a％的像素点来计算第二损失函数值。其中，a是0到100之间的数。

示例性地，可以采用MSE损失计算生成图像和原始图像之间的差异，第二损失函数值可以表示为如下公式：其中，y表示图像中各点的像素值，y_i表示原始图像中各点的像素值，/>表示生成图像中各点的像素值，n表示图像中像素的数量。可选地，若将训练样本集分为多个批次分别进行训练，则分别可以计算各个批次样本的损失，将多个批次的损失之和作为该轮训练的第二损失函数值。

当然，本申请实施例在计算上述原始图像和生成图像的损失时，原始图像也可以认为是带噪声的原始图像，也即计算带噪声的原始图像和生成图像之间的差异，从而确定损失，本申请对此不作限定。

步骤940，通过调整后的图像生成模型根据原始图像和原始图像对应的编辑文本，生成原始图像对应的编辑后图像。

本申请实施例中的模型训练过程包括第一次训练和第二次训练，其中第一次训练是上述步骤920到步骤940，第二次训练包括步骤950和960。此处参数调整过程同样可以参考上述实施例中的参数调整方式，不作赘述。

在另一些实施例中，第一次训练的训练次数为1次，而第二次训练的训练次数可以有多次。当编辑文本包括多个时，第二次训练可以针对不同的编辑文本作不同的训练。当然，本申请实施例中，也可以不进行第一次训练，而直接进行第二次训练，本申请对此不作限定。

步骤950，根据原始图像、编辑后图像、描述文本以及编辑文本，确定调整后的图像生成模型的第一损失函数值，第一损失函数值用于评估调整后的图像生成模型的图像生成效果。

步骤960，根据第一损失函数值对调整后的图像生成模型的参数再次进行调整，得到训练后的图像生成模型。

本申请实施例提供的技术方案在进行第二次训练之前，先通过描述文本对图像生成模型进行第一次训练，使得图像生成模型能够将原始图像和描述文本对齐，从而提升图像生成模型对于原始图像的理解，有利于后续的图像生成任务的顺利进行。

请参考图11，其示出了本申请一个实施例提供的图像生成模型的使用方法的示意图。在得到训练后的图像生成模型之后，根据任意一个随机数，得到随机数对应的随机噪声图像，将原始图像和随机噪声图像叠加，得到带噪声的原始图像C，通过编码器对带噪声的原始图像进行编码，得到带噪声的原始图像的初始特征向量Z。表征提取模块1120根据编辑文本生成编辑文本对应的文本表征，以作为去噪网络的输入数据。通过扩散模型1110的前向过程对初始特征向量进行T次加噪，生成带噪声的原始图像对应的隐空间表征Z_T。隐空间表征Z_T和文本表征作为去噪网络的下采样网络的输入数据，根据下采样网络的输出数据，得到上采样网络的输入数据，上采样网络根据文本表征和上采样网络的输入数据，得到一次去噪后的输出特征Z_T-1′。再经过T-1次去噪网络的作用，得到去噪后的隐空间表征Z′，通过解码器对去噪后的隐空间表征Z′进行解码，生成原始图像经过编辑文本之后对应的目标编辑后图像Y。

在一些实施例中，在使用过程中针对编辑文本进行有限次编辑，选择损失最小的1次编辑结果作为任务输出，本申请实施例提供的技术方案生成的图像的出图率较高。

请参考图12，其示出了本申请一个实施例提供的图像生成方法的示意图。在一些实施例中，用户能够自定义图像输入也即输入的原始图像，用户可以针对图像进行描述也即输入的描述文本，用户可以针对图像的编辑指令进行描述也即编辑文本，展示的生成结果也即生成的目标编辑图像。如图12的子图a所示，描述文本是“海边山洞”，编辑文本是“变成黄昏”。如图12的子图b所示，描述文本是“海边山洞”，编辑文本是“变成卡通风”。

本申请实施例提供的技术方案，降低图像编辑数据收集成本：通过生成效果评估作为监督信息约束生成图像，避免大规模复杂样本收集。提升图像编辑的效果，避免生成编辑定向错误：通过预先提升模型对当前编辑图文的理解以及根据图像编辑的实际情况设计损失和正则化信息，实现更可靠的损失计算，从而允许生成效果随编辑变化的可能性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图13，其示出了本申请一个实施例提供的图像生成模型的训练装置的框图。如图13所示，该装置1300可以包括：样本获取模块1310、图像生成模块1320、损失确定模块1330和参数调整模块1340。

样本获取模块1310，用于获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的描述文本以及所述原始图像对应的至少一条编辑文本，所述描述文本用于描述所述原始图像的内容，所述编辑文本用于通过所述图像生成模型对所述原始图像进行编辑。

图像生成模块1320，用于通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本，生成所述原始图像对应的编辑后图像。

损失确定模块1330，用于根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本，确定所述图像生成模型的第一损失函数值，所述第一损失函数值用于评估所述图像生成模型的图像生成效果。

参数调整模块1340，用于根据所述第一损失函数值对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。

在一些实施例中，如图14所示，所述损失确定模块1330包括第一损失确定单元1331、第二损失确定单元1332、第三损失确定单元1333以及损失值确定单元1334。

在一些实施例中，第一损失确定单元1331，用于根据图像表征差异与文本表征差异之间的相似度，确定第一子损失；其中，所述图像表征差异是指所述编辑后图像对应的图像表征与所述原始图像对应的图像表征之间的差值，所述文本表征差异是指所述编辑文本对应的文本表征与所述描述文本对应的文本表征之间的差值，所述第一子损失用于表征图像生成过程中图像和文本的对齐程度。

第二损失确定单元1332，用于根据所述编辑后图像与所述原始图像之间的差异，确定第二子损失，所述第二子损失用于表征所述编辑后图像与所述原始图像之间的一致性。

第三损失确定单元1333，用于根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征，确定第三子损失，所述第三子损失用于表征所述编辑后图像与所述编辑文本之间的一致性。

损失值确定单元1334，用于根据所述第一子损失、所述第二子损失和所述第三子损失，确定所述图像生成模型的第一损失函数值。

在一些实施例中，第一损失确定单元1331，用于计算所述编辑后图像对应的图像表征与所述原始图像对应的图像表征之间的差值，得到第一差值信息；计算所述编辑文本对应的文本表征与所述描述文本对应的文本表征之间的差值，得到第二差值信息；根据所述第一差值信息与所述第二差值信息之间的相似度，确定所述第一子损失。

在一些实施例中，第二损失确定单元1332，用于根据所述编辑后图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定所述第二子损失。

在一些实施例中，第三损失确定单元1333，用于根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征之间的乘积，确定所述第三子损失。

在一些实施例中，损失值确定单元1334，用于对所述第一子损失、所述第二子损失和所述第三子损失进行加权求和，确定所述图像生成模型的第一损失函数值。

在一些实施例中，图像生成模块1320，还用于通过所述图像生成模型根据所述原始图像和所述原始图像对应的描述文本，生成所述原始图像对应的生成图像。

参数调整模块1340，还用于根据所述生成图像与所述原始图像之间的差异，对所述图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，所述调整后的图像生成图像用于生成所述原始图像对应的编辑后图像。

在一些实施例中，参数调整模块1340，用于根据所述生成图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定第二损失函数值，所述第二损失函数值用于表征所述生成图像与所述原始图像之间的一致性；根据所述第二损失函数值对所述图像生成模型的参数进行调整，得到所述调整后的图像生成模型。

在一些实施例中，所述图像生成模型包括表征提取模块和预训练的扩散模型。

在一些实施例中，图像生成模块1320，用于通过所述表征提取模块生成所述编辑文本对应的文本表征；在所述原始图像上叠加随机噪声图像，得到带噪声的原始图像；通过所述扩散模型的前向过程，生成所述带噪声的原始图像对应的隐空间表征；通过所述扩散模型的后向过程，根据所述编辑文本对应的文本表征和所述隐空间表征，生成所述原始图像对应的编辑后图像。

在一些实施例中，图像生成模块1320，用于通过所述扩散模型的后向过程，根据所述编辑文本对应的文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对所述去噪后的隐空间表征进行解码，生成所述原始图像对应的所述编辑后图像。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图15，其示出了本申请一个实施例提供的计算机设备1500的结构框图。该计算机设备1500可以是任何具备数据计算、处理和存储能力的电子设备。该计算机设备1500可用于实现上述实施例中提供的图像生成模型的训练方法。

通常，计算机设备1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储计算机程序，所述计算机程序经配置以由一个或者一个以上处理器执行，以实现上述图像生成模型的训练方法。

本领域技术人员可以理解，图15中示出的结构并不构成对计算机设备1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被处理器执行时以实现上述图像生成模型的训练方法。可选地，该计算机可读存储介质可以包括：ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随机存取存储器)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取存储器可以包括ReRAM(Resistance Random Access Memory，电阻式随机存取存储器)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序，所述处理器执行所述计算机程序，使得所述计算机设备执行上述图像生成模型的训练方法。

需要说明的是，本申请中相关数据(包括原始图像、描述文本以及编辑文本)收集处理在实例应用时应该严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本，确定所述图像生成模型的第一损失函数值，包括：

根据图像表征差异与文本表征差异之间的相似度，确定第一子损失；其中，所述图像表征差异是指所述编辑后图像对应的图像表征与所述原始图像对应的图像表征之间的差值，所述文本表征差异是指所述编辑文本对应的文本表征与所述描述文本对应的文本表征之间的差值，所述第一子损失用于表征图像生成过程中图像和文本的对齐程度；

根据所述编辑后图像与所述原始图像之间的差异，确定第二子损失，所述第二子损失用于表征所述编辑后图像与所述原始图像之间的一致性；

根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征，确定第三子损失，所述第三子损失用于表征所述编辑后图像与所述编辑文本之间的一致性；

根据所述第一子损失、所述第二子损失和所述第三子损失，确定所述图像生成模型的第一损失函数值。

3.根据权利要求2所述的方法，其特征在于，所述根据图像表征差异与文本表征差异之间的相似度，确定第一子损失，包括：

计算所述编辑后图像对应的图像表征与所述原始图像对应的图像表征之间的差值，得到第一差值信息；

计算所述编辑文本对应的文本表征与所述描述文本对应的文本表征之间的差值，得到第二差值信息；

根据所述第一差值信息与所述第二差值信息之间的相似度，确定所述第一子损失。

4.根据权利要求2所述的方法，其特征在于，所述根据所述编辑后图像与所述原始图像之间的差异，确定第二子损失，包括：

根据所述编辑后图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定所述第二子损失。

5.根据权利要求2所述的方法，其特征在于，所述根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征，确定第三子损失，包括：

根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征之间的乘积，确定所述第三子损失。

6.根据权利要求2所述的方法，其特征在于，所述根据所述第一子损失、所述第二子损失和所述第三子损失，确定所述图像生成模型的第一损失函数值，包括：

对所述第一子损失、所述第二子损失和所述第三子损失进行加权求和，确定所述图像生成模型的第一损失函数值。

7.根据权利要求1所述的方法，其特征在于，所述通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本，生成所述原始图像对应的编辑后图像之前，还包括：

通过所述图像生成模型根据所述原始图像和所述原始图像对应的描述文本，生成所述原始图像对应的生成图像；

根据所述生成图像与所述原始图像之间的差异，对所述图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，所述调整后的图像生成图像用于生成所述原始图像对应的编辑后图像。

8.根据权利要求7所述的方法，其特征在于，所述根据所述生成图像与所述原始图像之间的差异，对所述图像生成模型的参数进行调整，得到调整后的图像生成模型，包括：

根据所述生成图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定第二损失函数值，所述第二损失函数值用于表征所述生成图像与所述原始图像之间的一致性；

根据所述第二损失函数值对所述图像生成模型的参数进行调整，得到所述调整后的图像生成模型。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述图像生成模型包括表征提取模块和预训练的扩散模型；

所述通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本，生成所述原始图像对应的编辑后图像，包括：

通过所述表征提取模块生成所述编辑文本对应的文本表征；

在所述原始图像上叠加随机噪声图像，得到带噪声的原始图像；

通过所述扩散模型的前向过程，生成所述带噪声的原始图像对应的隐空间表征；

通过所述扩散模型的后向过程，根据所述编辑文本对应的文本表征和所述隐空间表征，生成所述原始图像对应的编辑后图像。

10.根据权利要求9所述的方法，其特征在于，所述通过所述扩散模型的后向过程，根据所述编辑文本对应的文本表征和所述隐空间表征，生成所述原始图像对应的编辑后图像，包括：

通过所述扩散模型的后向过程，根据所述编辑文本对应的文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；

对所述去噪后的隐空间表征进行解码，生成所述原始图像对应的所述编辑后图像。

11.一种图像生成模型的训练装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的图像生成模型的训练方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的图像生成模型的训练方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的图像生成模型的训练方法。