CN116721334B

CN116721334B - 图像生成模型的训练方法、装置、设备及存储介质

Info

Publication number: CN116721334B
Application number: CN202311007976.7A
Authority: CN
Inventors: 陈春全
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-21
Anticipated expiration: 2043-08-11
Also published as: CN116721334A

Abstract

本申请公开了一种图像生成模型的训练方法、装置、设备及存储介质，涉及人工智能技术领域。上述方法包括：获取至少一个训练样本，训练样本中包括原始图像对应的复杂描述文本和简单描述文本；通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征；通过文本编码模块，提取复杂描述文本对应的标准文本表征；根据综合文本表征和复杂描述文本对应的标准文本表征，对图像生成模型的参数进行调整，得到训练后的图像生成模型。上述方法在描述文本为简单描述文本的情况下，提高了生成的预测图像的准确性。

Description

图像生成模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能（Artificial Intelligence，简称AI）技术领域，特别涉及一种图像生成模型的训练方法、装置、设备及存储介质。

背景技术

随着文生图（Text to Image）技术的持续发展，在例如扩散模型这样的文生图模型中，实现了将用户输入的描述文本，转换为与该描述文本对应的预测图像。

相关技术中，需要利用三元组样本（原始图像、预测图像、描述文本）来对模型进行上述图生成能力的训练，训练后的模型能够实现根据输入的描述文本来生成预测图像。为了提升模型的训练效果，在构建三元组样本中的描述文本时通常需要获取针对原始图像的复杂且详细的描述文本，也即需要复杂描述文本。

然而，上述训练方法中基于复杂描述文本而训练完成的模型针对用户输入的简单描述文本而生成的预测图像的精度较低。

发明内容

本申请实施例提供了一种图像生成模型的训练方法、装置、设备及存储介质，能够在描述文本为简单描述文本的情况下，提升生成的预测图像的准确性。所述技术方案包括如下几个方面。

根据本申请实施例的一个方面，提供了一种图像生成模型的训练方法，所述图像生成模型包括神经网络模块、经过预训练的文本编码模块以及经过预训练的扩散模块，所述技术方案包括如下几个步骤。

获取至少一个训练样本，所述训练样本中包括原始图像对应的复杂描述文本和简单描述文本；

通过所述文本编码模块和所述神经网络模块，提取所述简单描述文本对应的综合文本表征；其中，所述文本编码模块用于提取所述简单描述文本对应的浅层表征，所述神经网络模块用于提取所述简单描述文本对应的深层表征，所述综合文本表征用于反映所述浅层表征和所述深层表征，所述综合文本表征用于结合所述原始图像通过所述扩散模块生成所述原始图像对应的预测图像；

通过所述文本编码模块，提取所述复杂描述文本对应的标准文本表征；

根据所述综合文本表征和所述复杂描述文本对应的标准文本表征，对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。

根据本申请实施例的一个方面，提供了一种基于图像生成模型的图像生成方法，所述图像生成模型包括神经网络模块、文本编码模块以及扩散模块，所述技术方案包括如下几个步骤。

获取原始图像和所述原始图像对应的简单描述文本；

通过所述文本编码模块和所述神经网络模块，提取所述简单描述文本对应的综合文本表征；其中，所述文本编码模块用于提取所述简单描述文本对应的浅层表征，所述神经网络模块用于提取所述简单描述文本对应的深层表征，所述综合文本表征用于反映所述浅层表征和所述深层表征；

通过所述扩散模块根据所述原始图像和所述综合文本表征，生成所述原始图像对应的预测图像。

根据本申请实施例的一个方面，提供了一种图像生成模型的训练装置，所述图像生成模型包括神经网络模块、经过预训练的文本编码模块以及经过预训练的扩散模块，所述技术方案包括如下几个模块。

样本获取模块，用于获取至少一个训练样本，所述训练样本中包括原始图像对应的复杂描述文本和简单描述文本；

表征提取模块，用于通过所述文本编码模块和所述神经网络模块，提取所述简单描述文本对应的综合文本表征；其中，所述文本编码模块用于提取所述简单描述文本对应的浅层表征，所述神经网络模块用于提取所述简单描述文本对应的深层表征，所述综合文本表征用于反映所述浅层表征和所述深层表征，所述综合文本表征用于结合所述原始图像通过所述扩散模块生成所述原始图像对应的预测图像；

所述表征提取模块，还用于通过所述文本编码模块，提取所述复杂描述文本对应的标准文本表征；

参数调整模块，用于根据所述综合文本表征和所述复杂描述文本对应的标准文本表征，对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。

根据本申请实施例的一个方面，提供了一种基于图像生成模型的图像生成装置，所述图像生成模型包括神经网络模块、文本编码模块以及扩散模块，所述技术方案包括如下几个步骤。

获取模块，用于获取原始图像和所述原始图像对应的简单描述文本；

表征提取模块，用于通过所述文本编码模块和所述神经网络模块，提取所述简单描述文本对应的综合文本表征；其中，所述文本编码模块用于提取所述简单描述文本对应的浅层表征，所述神经网络模块用于提取所述简单描述文本对应的深层表征，所述综合文本表征用于反映所述浅层表征和所述深层表征；

图像生成模块，用于通过所述扩散模块根据所述原始图像和所述综合文本表征，生成所述原始图像对应的预测图像。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述图像生成方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法，或实现上述基于图像生成模型的图像生成方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法，或实现上述基于图像生成模型的图像生成方法。

本申请实施例提供的技术方案可以带来如下有益效果。

在预训练的文本编码模块的基础上，引入神经网络模块，通过简单描述文本对应的综合文本表征和复杂描述文本对应的标准文本表征来对图像生成模型的参数进行调整，使得调整后的模型中简单描述文本对应的综合文本表征能够对齐复杂描述文本对应的标准文本表征，从而实现了当用户输入是简单描述文本时，经过文本编码模块和神经网络模块之后得到的综合文本表征能够具备和复杂描述文本对应的标准文本表征一样语义丰富的文本表征，提升了图像生成模型的语义理解和知识推理能力，从而提升了后续生成的预测图像的图像精度。

附图说明

图1是本申请一个实施例提供的方案实施环境的示意图；

图2是本申请一个实施例提供的图像生成模型的训练和使用方法的示意图；

图3是本申请一个实施例提供的图像生成模型的训练方法的流程图；

图4是本申请另一个实施例提供的图像生成模型的训练方法的流程图；

图5是本申请又一个实施例提供的图像生成模型的训练方法的流程图；

图6是本申请一个实施例提供的图像生成模型的训练方法的示意图；

图7是本申请再一个实施例提供的图像生成模型的训练方法的流程图；

图8是本申请一个实施例提供的简单描述文本的确定方法的示意图；

图9是本申请另一个实施例提供的图像生成模型的训练方法的示意图；

图10是本申请一个实施例提供的基于图像生成模型的图像生成方法的流程图；

图11是本申请一个实施例提供的图像生成模型的示意图；

图12是本申请一个实施例提供的图像生成模型的训练装置的框图；

图13是本申请一个实施例提供的基于图像生成模型的图像生成装置的框图；

图14是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在介绍本申请技术方案之前，先对本申请涉及的一些背景技术知识进行介绍说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。

计算机视觉技术（Computer Vision，简称CV）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT（Vision Transformers），V-MOE（Vision Mixture of Expert），MAE（Masked AutoEncoder）等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR（Optical Character Recognition，光学字符识别）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D（three Dimensions，三维）技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习（Machine Learning，简称ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（Artificial Intelligence GeneratedContent，简称AIGC）、对话式交互、智能医疗、智能客服、游戏AI、虚拟现实（VirtualReality，简称VR）、增强现实（Augmented Reality，简称AR）等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、深度学习等技术，本申请实施例中先通过作为训练样本的原始图像对应的简单描述文本和复杂描述文本对图像生成模型进行调整，再利用调整后的图像生成模型根据简单描述文本生成预测图像。具体通过如下实施例进行说明。

在介绍本申请技术方案之前，先对本申请涉及的一些名词进行解释说明。以下相关解释作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。

预训练模型（Pre-Training Model，简称PTM）：也称基座模型、大模型，是指具有大规模参数量的深度神经网络（Deep Neural Network，简称DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（finetune）、参数高效微调（包括prompt tuning、prefix tuning、adapter、LoRA等方法）等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型、视觉模型（swin-transformer、ViT、V-MOE）、语音模型、多模态模型等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容重要工具，也可以作为连接多个具体任务模型的通用接口。预训练模型是输出人工智能生成内容重要工具，也可以作为连接多个具体任务模型的通用接口。本申请实施例中经过预训练的模型可以认为是预训练模型。

文生图模型：基于扩散过程的生成模型，输入描述文本text，模型对一个随机噪声图像x经过一系列操作，并在目标文本的交叉注意力下，产生与文本相关的预测图像Y。扩散模型（Diffusion Models）是一种生成模型，用于从噪声样本中逐步扩散处理生成图像。

稳定扩散模型（Stable Diffusion Models）：是一种基于潜在空间的扩散模型，属于文生图模型，通过对初始化噪声图像进行一步步地迭代降噪并采样来生成图像。本申请实施例中的稳定扩散模型包括经过预训练的文本编码模块和经过预训练的扩散模块。当然，本申请实施例中的图像生成模型是在稳定扩散模型的基础上，额外增加了神经网络模块。

提示词（prompt）：输入给稳定扩散模型的描述文本。

请参考图1，其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。

模型训练设备10可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备，或者是其他一些具有较强计算能力的电子设备，本申请对此不作限定。模型训练设备10用于对图像生成模型30进行训练。

在本申请实施例中，图像生成模型30是机器学习模型。可选地，模型训练设备10可以采用机器学习的方式对该图像生成模型30进行训练，以使得其具备较好的性能。可选地，图像生成模型30的训练过程如下（此处仅为简述，具体的训练过程参见下述实施例，此时不作赘述）：获取至少一个训练样本，训练样本中包括原始图像对应的复杂描述文本和简单描述文本；通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征；通过文本编码模块，提取复杂描述文本对应的标准文本表征；根据综合文本表征和复杂描述文本对应的标准文本表征，对图像生成模型30的参数进行调整，得到训练后的图像生成模型30。在一些实施例中，图像生成模型30中包括文本编码模块、神经网络模块以及扩散模块。在一些实施例中，文本编码模块用于结合神经网络模块提取描述文本对应的综合文本表征。在另一些实施例中，扩散模块用于根据描述文本的文本表征和原始图像，生成预测图像。具体的扩散模型的内部处理流程参见下述实施例的解释说明，此处不再赘述。在一些实施例中，文本编码模块和扩散模块都是机器学习模型。

在一些实施例中，模型使用设备20可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备，或者是其他一些具有较强计算能力的电子设备，本申请对此不作限定。示例性地，训练好的图像生成模型30可以用于基于简单描述文本而生成预测图像。可选地，图像生成模型30的图像生成过程如下（此处仅为简述，具体的使用过程参见下述实施例，此时不作赘述）：获取原始图像和原始图像对应的简单描述文本；通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征；其中，文本编码模块用于提取简单描述文本对应的浅层表征，神经网络模块用于提取简单描述文本对应的深层表征，综合文本表征用于反映浅层表征和深层表征；通过扩散模块根据原始图像和综合文本表征，生成原始图像对应的预测图像。

模型训练设备10和模型使用设备20可以是两个独立存在的设备，也可以是同一个设备。

本申请实施例提供的方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备。其中，在该电子设备是服务器时，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。计算机设备可以是图1中的模型训练设备10，也可以是模型使用设备20。

请参考图2，其示出了本申请一个实施例提供的图像生成模型的训练和使用方法的示意图。

如图2所示，图像生成模型的训练和使用方法包括训练过程210和使用过程220。

示例性地，训练过程210的具体训练流程如下：获取至少一个训练样本，训练样本中包括原始图像对应的复杂描述文本和简单描述文本；通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征；通过文本编码模块，提取复杂描述文本对应的标准文本表征；通过经过预训练的语言模型，提取简单描述文本对应的标准文本表征；根据综合文本表征和复杂描述文本对应的标准文本表征之间的差异，确定第一损失函数值；根据简单描述文本对应的深层表征和简单描述文本对应的标准文本表征之间的差异，确定第二损失函数值；根据第一损失函数值和第二损失函数值，得到综合损失函数值；根据综合损失函数值对图像生成模型中的神经网络模块的参数进行调整，得到训练后的神经网络模块。图像生成模型中的经过预训练的文本编码模块和预训练的扩散模块以及训练后的神经网络模块的参数不发生变化。

训练后的图像生成模型包括经过预训练的文本编码模块、预训练的扩散模块以及训练后的神经网络模块。

示例性地，使用过程220的具体流程如下：获取原始图像和原始图像对应的简单描述文本；通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征；通过扩散模块根据原始图像和综合文本表征，生成原始图像对应的预测图像。此处的原始图像也可以认为是噪声图像，或者是其他相关或者不相关的图像。

下面对相关技术中的图像生成方法进行解释说明。

在相关技术中，用户需要人工编写包含很多关键词的复杂提示词（复杂描述文本），作为稳定扩散模型的输入，才能生成质量比较高的图像。当用户输入简短的叙述性提示词（简单描述文本）时，由于稳定扩散模型的语义理解能力和知识推理能力有限，导致生成的图像质量较差，难以满足用户的需要。相关技术中，用户需要编写冗长的复杂提示词，作为稳定扩散模型的输入，才能生成高质量的图像。而编写复杂的提示词对非资深用户很不友好，需要一定的专业知识素养，门槛比较高，这会导致不好的用户体验。而当用户输入简短的叙述性提示词时，由于稳定扩散模型的语义理解能力和知识推理能力有限，导致生成的图像质量比较差，不能满足用户的需要。总的来说，编写复杂的提示词作为稳定扩散模型的输入能生成高质量的图像，但复杂提示词编写难度大，用户门槛高；而输入简洁的提示词，稳定扩散模型生成图像的质量不好。

本申请实施例提供的技术方案，基于大语言模型（预训练的语言模型）出色的语义理解和知识推理能力，在稳定扩散模型中插入额外的神经网络层（神经网络模块）作为语义适配器，通过对大语言模型的知识蒸馏，对齐简单提示词和复杂提示词的语义表示（文本表征），提升稳定扩散模型对简短提示词的语义理解和知识推理能力。稳定扩散模型的文本编码器可以构建高质量的文本语义表示，用来生成图像，从而提升了简洁提示词生成图像的效果。另外，在微调稳定扩散模型时，冻结预训练好的模型参数，只训练新插入的额外神经网络层，减少了需要训练的模型参数量，实现了参数高效的微调。这不仅减少了微调阶段的显存占用，降低了硬件资源的要求，而且加快了训练速度，缩短了训练耗时。总的来说，利用大语言模型出色的语义理解和知识推理能力，在稳定扩散模型中插入用于语义适配的额外神经网络层，对齐了简洁提示词和复杂提示词的语义表示，提升了简短提示词生成图像的效果。通过本申请实施例提供的技术方案，通过大语言模型的知识蒸馏，弥补简单提示词和复杂提示词之间语义差距，提升了为稳定扩散模型输入简单提示词的生成图像效果。可以用在文生图任务上，例如生成头像、生成封面图等。

请参考图3，其示出了本申请一个实施例提供的图像生成模型的训练方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（310~340）中的至少一个步骤。

步骤310，获取至少一个训练样本，训练样本中包括原始图像对应的复杂描述文本和简单描述文本。

在模型训练过程中，认为原始图像是与复杂描述文本对应的图像，也即原始图像中所表征的内容是符合复杂描述文本的。而简单描述文本认为是想要基于图像生成模型生成该原始图像的文本。原始图像对应的描述文本：用于描述原始图像的内容。本申请实施例中原始图像对应的描述文本可以是用户输入的真实文本，也可以是通过模型从原始图像中提炼出来的文本，本申请实施例对于描述文本的获取方式不作限定。当然，本申请实施例中对于描述文本的字数、显示类型、显示样式等等不作限定。该描述文本可以表征该原始图像的整体场景特征，也可以表征针对该原始图像中的主要对象的特征，本申请对此也不作限定。在一些实施例中，原始图像对应的描述文本分为简单描述文本和复杂描述文本。

本申请实施例中对于复杂描述文本和简单描述文本的获取来源不作限定。示例性地，从图文数据库网站中，爬取原始图像和原始图像对应的复杂描述文本。示例性的，基于该原始图像，获取该原始图像对应的简单描述文本。例如，通过人工描述的方式，得到该原始图像对应的简单描述文本。再例如，通过简单的图生文模型，根据该原始图像，得到该原始图像对应的简单描述文本，其中图生文模型是机器学习模型，输入是原始图像，输出是该原始图像对应的简单描述文本。

在一些实施例中，简单描述文本和复杂描述文本分别对应的文本内容不同。可选地，简单描述文本的文字长度小于第一阈值，而复杂描述文本的文字长度大于第二阈值，其中第一阈值小于或等于第二阈值，对于第一阈值或者第二阈值的具体数值本申请不作限定。可选地，复杂描述文本和原始图像的匹配分数大于简单描述文本和原始图像的匹配分数。可选地，通过文生图模型基于复杂描述文本生成的第一图像与通过文生图模型基于简单描述文本生成的第二图像分别对应的分辨率不同，第一图像的分辨率大于第二图像的分辨率。在一些实施例中，复杂描述文本中包括的文字内容完全包括简单描述文本包括的文字内容。在一些实施例中，复杂描述文本中包括的文字内容不完全包括简单描述文本包括的文字内容。在一些实施例中，针对同一张原始图像，复杂描述文本为“一只小兔子在繁星点点的夜空下穿过草原。银河在头顶上发出明亮的光芒，投下一道柔和的光芒。兔子的皮毛在无数星星的照耀下闪闪发光，它跳过田野，它的小身躯在高高的草丛中优雅地移动着。远处，流星划过天空，在它们的身后留下一道光的痕迹。兔子停顿了一会儿，敬畏地抬头看着天上的奇观，然后继续在宁静的荒野中嬉戏”，而简单描述文本为“一只坐在星空下的草地上的白色兔子”。

步骤320，通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征；其中，文本编码模块用于提取简单描述文本对应的浅层表征，神经网络模块用于提取简单描述文本对应的深层表征，综合文本表征用于反映浅层表征和深层表征，综合文本表征用于结合原始图像通过扩散模块生成原始图像对应的预测图像。

本申请实施例中的图像生成模型中包括神经网络模块、经过预训练的文本编码模块以及经过预训练的扩散模块。其中，文本编码模块和扩散模块均是经过预训练的，本申请实施例对于文本编码模块和扩散模块的具体预训练过程不作限定。示例性地，基于随机噪声种子生成噪声图，对噪声图进行编码，并通过扩散模块的正向过程对编码后的特征进行多次加噪，得到隐空间表征。通过文本编码模块根据描述文本，得到文本表征。通过扩散模型的反向过程，基于文本表征，对该隐空间表征和进行多次去噪，得到去噪后的特征，并经过解码得到预测图像。根据作为训练样本的原始图像和生成的预测图像的差异，对该文本编码模块和扩散模块进行参数调整，得到经过预训练的文本编码模块和经过预训练的扩散模块。本申请实施例对于文本编码模块和扩散模块的具体架构不作限定，二者均是机器学习模块，文本编码模块的输入是文本，输出是文本表征；扩散模块输入是原始图像和文本表征，输出是预测图像。

本申请实施例中神经网络模块和文本编码模块均是用于提取文本表征的模块，本申请实施例中对于神经网络模块和文本编码模块的连接方式不作限定。示例性地，文本编码模块和神经网络模块串联，或者，文本编码模块和神经网络模块并联。在一些实施例中，文本编码模块用于提取文本的浅层表征，而神经网络模块用于提取文本的深层文本表征。

在一些实施例中，文本编码模块和神经网络模块并联。示例性地，文本编码模块中包括的卷积层的层数小于神经网络模块中包括的卷积层的层数，或文本编码模块中包括的池化层的层数小于神经网络模块中包括的池化层的层数。在一些实施例中，由于文本编码模块中包括的卷积层的层数小于神经网络模块中包括的卷积层的层数，或文本编码模块中包括的池化层的层数小于神经网络模块中包括的池化层的层数，则导致了文本编码模块用于提取文本的浅层表征，而神经网络模块用于提取文本的深层文本表征。

在另一些实施例中，文本表征模块和神经网络模块串联，文本表征模块的输出作为神经网络模块的输入，则文本表征模块的输出可以认为是浅层表征，而神经网络模块基于浅层表征得到的输出认为是深层表征。

在一些实施例中，通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征。示例性地，当文本编码模块和神经网络模块并联时，综合考虑文本编码模块针对输入文本输出的浅层表征和神经网络模块针对输入文本输出的深层表征，得到综合文本表征。示例性地，当文本编码模块和神经网络模块串联时，综合考虑文本编码模块针对输入文本输出的浅层表征和神经网络模块针对浅层表征输出的深层表征，得到综合文本表征。

本申请实施例对于综合文本表征的确定方式不作限定。示例性地，将浅层表征和深层表征进行维度对齐后，直接进行相加得到综合文本表征。示例性地，将浅层表征和深层表征进行维度对齐后，进行加权求和得到综合文本表征。示例性地，将浅层表征和深层表征进行相乘得到综合文本表征。

步骤330，通过文本编码模块，提取复杂描述文本对应的标准文本表征。

在一些实施例中，将复杂描述文本输入至文本编码模块，提取复杂描述文本对应的标准文本表征。由于文本编码模块是基于以复杂描述文本为部分训练样本进行预训练的，因此，文本编码模块对于复杂描述文本的文本表征的提取结果是相对较为准确的，也即，可以认为文本编码模块对复杂描述文本提取出来的文本表征是标准文本表征。

步骤340，根据综合文本表征和复杂描述文本对应的标准文本表征，对图像生成模型的参数进行调整，得到训练后的图像生成模型。

本申请实施例中对于通过综合文本表征和标准文本表征，对图像生成模型的参数进行调整的调整方式不作限定。示例性地，通过综合文本表征和复杂描述文本对应的标准文本表征确定损失函数值，根据损失函数值对图像生成模型的参数进行调整，得到训练后的图像生成模型。本申请实施例中，在经过预训练的文本编码模块的基础上增加了额外的神经网络模块，使得在完成训练后，基于文本编码模块和神经网络针对简单描述文本所提取的综合文本表征可以媲美文本编码模块针对复杂描述文本的标准文本表征，从而提升了图像生成精度。

本申请实施例对于对图像生成模型的参数进行调整的调整方式不作限定。示例性地，根据综合文本表征和复杂描述文本对应的标准文本表征，对图像生成模型中的所有参数进行调整，得到训练后的图像生成模型。示例性地，根据综合文本表征和复杂描述文本对应的标准文本表征，对图像生成模型中的部分参数进行调整，得到训练后的图像生成模型。例如，根据综合文本表征和复杂描述文本对应的标准文本表征，对图像生成模型中的额外增加的神经网络模块的参数进行调整，而不改变其他经过预训练的模块的参数，得到训练后的图像生成模型。通过此种方式，能够减少参数调整成本，提升模型训练效率。再例如，根据综合文本表征和复杂描述文本对应的标准文本表征，对图像生成模型中的神经网络模块和文本编码模块的参数进行调整，而不改变扩散模块的参数，得到训练后的图像生成模型。通过此种方式，能够保证简单描述文本对应的综合文本表征和复杂描述文本对应的标准文本表征的一致性。

本申请实施例提供的技术方案，通过在预训练的文本编码模块的基础上，引入神经网络模块，通过简单描述文本对应的综合文本表征和复杂描述文本对应的标准文本表征来对图像生成模型的参数进行调整，使得调整后的模型中简单描述文本对应的综合文本表征能够对齐复杂描述文本对应的标准文本表征，从而实现了当用户输入是简单描述文本时，经过文本编码模块和神经网络模块之后得到的综合文本表征能够具备和复杂描述文本对应的标准文本表征一样语义丰富的文本表征，提升了图像生成模型的语义理解和知识推理能力，从而提升了后续生成的预测图像的图像精度。

请参考图4，其示出了本申请另一个实施例提供的图像生成模型的训练方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（410~470）中的至少一个步骤。

步骤410，获取至少一个训练样本，训练样本中包括原始图像对应的复杂描述文本和简单描述文本。

在一些实施例中，简单提示词（简单描述文本）记为，复杂提示词（复杂描述文本）记为，文本编码器（文本编码模块）记为函数，经过预训练的语言模型记为，新插入的adapter模块（神经网络模块）记为。简单提示词经过稳定扩散模型的文本编码器表示后，再送入新插入的adapter模块。

步骤420，通过文本编码模块，提取简单描述文本对应的浅层表征。

在一些实施例中，文本编码模块的输入是简单描述文本，输出是简单描述文本对应的浅层表征。本申请实施例对于浅层表征的尺寸不作限定，浅层表征可以认为是经过文本编码模块输出的特征向量、向量矩阵等等。

在一些实施例中，简单描述文本对应的浅层表征表示为。

步骤430，通过神经网络模块根据浅层表征，得到简单描述文本对应的深层表征。

在一些实施例中，神经网络模块的输入是浅层表征，输出是简单描述文本对应的深层表征。本申请实施例对于深层表征的尺寸不作限定，深层表征可以认为是经过神经网络模块输出的特征向量、向量矩阵等等。

在一些实施例中，简单描述文本对应的深层表征表示为。

步骤440，对浅层表征和深层表征进行加权求和，得到综合文本表征。

在一些实施例中，简单描述文本对应的综合文本表征。

本申请实施例对于权重值的具体数值不作限定。

步骤450，通过文本编码模块，提取复杂描述文本对应的标准文本表征。

在一些实施例中，文本编码模块的输入是复杂描述文本，输出是复杂描述文本对应的标准文本表征。本申请实施例对于标准文本表征的尺寸不作限定，标准文本表征可以认为是经过文本编码模块输出的特征向量、向量矩阵等等。

在一些实施例中，复杂描述文本对应的标准文本表征表示为。

步骤460，根据综合文本表征和复杂描述文本对应的标准文本表征之间的差异，确定第一损失函数值。

在一些实施例中，对于根据综合文本表征和复杂描述文本对应的标准文本表征之间的差异，确定第一损失函数值的方式不作限定。可选地，损失函数包括但不限于交叉熵损失函数、均方误差损失函数、Huber损失函数等等。

在一些实施例中，损失函数为KL散度（Kullback-Leibler divergence）函数，也称为相对熵函数。示例性地，第一损失函数值。

在一些实施例中，步骤470之前，还包括：通过经过预训练的语言模型，提取简单描述文本对应的标准文本表征；根据简单描述文本对应的深层表征和简单描述文本对应的标准文本表征之间的差异，确定第二损失函数值。

在一些实施例中，经过预训练的语言模型的输入是简单描述文本，输出是简单描述文本对应的标准文本表征。本申请实施例对于标准文本表征的尺寸不作限定，标准文本表征可以认为是经过预训练的语言模型输出的特征向量、向量矩阵等等。

本申请实施例对于经过预训练的语言模型的具体架构不作限定以及预训练方式不作限定。示例性地，该经过预训练的语言模型是大语言模型。在一些实施例中，这里的大语言模型可以采用开源的LLaMA模型或BLOOM模型。

在一些实施例中，简单描述文本对应的标准文本表征。

在一些实施例中，根据综合文本表征和简单描述文本对应的标准文本表征之间的差异，确定第二损失函数值。在一些实施例中，对于根据简单描述文本对应的深层表征和简单描述文本对应的标准文本表征之间的差异，确定第二损失函数值的方式不作限定。可选地，损失函数包括但不限于交叉熵损失函数、均方误差损失函数、Huber损失函数等等。

在一些实施例中，损失函数为KL散度（Kullback-Leibler divergence）函数，也称为相对熵函数。示例性地，第二损失函数值。

步骤470，根据第一损失函数值，对图像生成模型的参数进行调整，得到训练后的图像生成模型。

本申请实施例中，对于根据第一损失函数值对图像生成图像进行参数调整的方式不作限定。示例性地，以最小化第一损失函数值为目标，对图像生成模型的参数进行调整，得到训练后的图像生成模型。示例性地，参数调整包括正向梯度更新或者反向梯度更新，本申请同样不限定。

本申请实施例通过第一损失函数值对图像生成模型的参数进行调整，能够对齐复杂描述文本的文本表征和简单描述文本的文本表征，从而提升图像生成图像基于文本表征而生成的预测图像的准确性。

在一些实施例中，步骤470还包括步骤471（图中未示出）。

步骤471，根据第一损失函数值和第二损失函数值，对图像生成模型的参数进行调整，得到训练后的图像生成模型。

在一些实施例中，对于根据第一损失函数值和第二损失函数值对图像生成图像进行参数调整的方式不作限定。

在一些实施例中，步骤471还包括：对第一损失函数值和第二损失函数值进行加权求和，得到综合损失函数值；根据综合损失函数值，对图像生成模型的参数进行调整，得到训练后的图像生成模型。

在一些实施例中，综合损失函数。本申请实施例对于权重值的具体数值不作限定。

当然，在计算综合损失函数值时，除了采用加权求和的方式，还可以采用其他方式。示例性地，直接将第一损失函数值和第二损失函数值进行相加，得到综合损失函数值。示例性地，将第一损失函数值和第二损失函数值进行相乘，得到综合损失函数值。

本申请实施例中，对于根据综合损失函数值对图像生成图像进行参数调整的方式不作限定。示例性地，以最小化综合损失函数值为目标，对图像生成模型的参数进行调整，得到训练后的图像生成模型。示例性地，参数调整包括正向梯度更新或者反向梯度更新，本申请同样不限定。

在另一些实施例中，对图像生成模型的参数进行调整时，对神经网络模块的参数进行调整，图像生成模型中文本编码模块和扩散模块的参数保持不变。

本申请实施例中，引入第二损失函数值的目的是为了使得经过额外的神经网络模块能够向经过预训练的语言模型对齐，使得经过神经网络模块得到的简单描述文本的深层表征能够具备和大语言模型输出的标准文本特征一样的丰富的语义，从而提升神经网络模块对于文本的理解能力，实现对大语言模型的知识蒸馏。

当然，本申请实施例中在对图像生成模型进行调整时，对神经网络模块的参数进行调整，图像生成模型中文本编码模块和扩散模块的参数保持不变，也即在微调阶段，冻结稳定扩散模型预训练好的模型参数，只训练新插入的用于语义适配的额外神经网络模块，实现参数高效的微调。

请参考图5，其示出了本申请又一个实施例提供的图像生成模型的训练方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（510~550）中的至少一个步骤。

步骤510，获取至少一个训练样本，训练样本中包括原始图像对应的复杂描述文本和简单描述文本。

步骤510之后，还包括：通过经过预训练的语言模型，提取简单描述文本对应的标准文本表征。通过文本编码模块，提取简单描述文本对应的浅层表征，通过神经网络模块根据浅层表征，得到简单描述文本对应的深层表征，对浅层表征和深层表征进行加权求和，得到综合文本表征。通过文本编码模块，提取复杂描述文本对应的标准文本表征。

步骤520，根据简单描述文本对应的深层表征和简单描述文本对应的标准文本表征之间的差异，确定第二损失函数值。

步骤530，根据简单描述文本对应的综合文本表征和复杂描述文本对应的标准文本表征之间的差异，确定第一损失函数值。

步骤540，对第一损失函数值和第二损失函数值进行加权求和，得到综合损失函数值。

步骤550，根据综合损失函数值，对图像生成模型的参数进行调整，得到训练后的图像生成模型。

请参考图6，其示出了本申请一个实施例提供的图像生成模型的训练方法的示意图。如图6的600所示，为了提升稳定扩散模型（图像生成模型）的语义理解和知识推理能力，在稳定扩散模型的文本编码器（文本编码模块）之后插入一个用于语义适配的额外神经网络模块（也即适配器）。Adapter（适配器）中包括至少一个全连接层和至少一个非线性激活函数层。可选地，神经网络模块中包括两个全连接层和一个非线性激活函数层。具体的调整过程如下：简单提示词经过稳定扩散模型的文本编码器得到浅层表征之后，再送入新插入的adapter模块，得到深层表征，将浅层表征和深层表征进行加权，得到简单提示词对应的综合文本表征。简单提示词经过大语言模型（经过预训练的语言模型）之后，得到简单提示词对应的标准文本表征。复杂提示词经过大语言模型之后，得到复杂提示词对应的标准文本表征。根据复杂提示词对应的标准文本表征和简单提示词对应的综合文本表征之间的KL散度，确定第一损失函数值。根据简单提示词对应的深层表征和简单提示词对应的标准文本表征之间的KL散度，确定第二损失函数值。对第一损失函数值和第二损失函数值进行加权求和，得到综合损失函数值，利用综合损失函数值对图像生成模型中的adapter模块（神经网络模块）的参数进行调整。

本申请实施例提供的技术方案，利用了大语言模型出色的语义理解能力，在稳定扩散模型中插入用于语义适配的额外神经网络层，弥合简单提示词和复杂提示词之间语义表示的差距，提升了稳定扩散模型对简短提示词的语义理解和知识推理能力，从而提升了简洁提示词生成图像的效果。另外，在微调稳定扩散模型时，只训练新插入的额外神经网络层，实现了参数高效的微调。这不仅减少了微调阶段的显存占用，降低了硬件资源的要求，而且加快了训练速度，缩短了训练耗时。总的来说，利用大语言模型杰出的语义理解和知识推理能力，在稳定扩散模型中插入额外的神经网络层作为语义适配器，对齐了简洁提示词和复杂提示词的语义表示，提升了简短提示词生成图像的效果。

请参考图7，其示出了本申请再一个实施例提供的图像生成模型的训练方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（710~760）中的至少一个步骤。

步骤710，获取至少一个图文对，图文对中包括一张原始图像和原始图像对应的复杂描述文本。

在一些实施例中，在步骤710之后还包括：根据各个图文对中原始图像对应的复杂描述文本的长度，对至少一个图文对进行筛选，得到筛选后的至少一个图文对，筛选后的至少一个图文对用于构建训练样本。

在一些实施例中，将长度小于第三阈值的复杂描述文本提出，而保留长度大于第三阈值的复杂描述文本，本申请实施例对于第三阈值的具体数值不作限定。在清除掉提示词中包含的控制参数的指令文本后，由于这些提示词的长短不一，过短的提示词不适合作为复杂的提示词。因此，过滤掉提示词长度小于某个固定阈值的训练样例数据。保留的训练数据中的提示词作为复杂提示词，每条训练数据是一个二元组，（复杂提示词，原始图像）。

步骤720，生成原始图像对应的简单描述文本。

在一些实施例中，直接通过图生文模型生成原始图像对应的简单描述文本。

在一些实施例中，步骤720包括步骤721~722（图中未示出）中的至少一个步骤。

步骤721，通过文图匹配模型根据至少一个简单文本和原始图像，得到至少一个简单文本分别对应的匹配得分，匹配得分用于表征简单文本和原始图像的匹配程度。

本申请实施例对于文图匹配模型的具体架构不作限定，该文图匹配模型是机器学习模型。在一些实施例中，文图匹配模型的输入是文本和图像，输出是该文本与图像的语义匹配度分数，也即匹配得分。在一些实施例中，文图匹配模型的输入是一张图像和n个简单文本，输出是与n个简单文本分别对应的分数，也即n个分数。

步骤722，根据至少一个简单文本分别对应的匹配得分，从至少一个简单文本中确定原始图像对应的简单描述文本。

在一些实施例中，从至少一个简单文本分别对应的匹配得分中选择匹配得分最高的一个或者最高的多个匹配得分分别对应的简单文本作为简单描述文本。

在一些实施例中，在确定为简单描述文本的简单文本对应的匹配得分不满足条件的情况下，剔除简单文本所构建的训练样本。

在一些实施例中，在为原始图像筛选简单描述文本时，还需要考虑到复杂描述文本和原始图像的匹配得分应当小于简单描述文本和原始图像的匹配得分，因此，筛选出来作为简单描述文本的匹配得分应该大于复杂描述文本和原始图像的匹配得分。也即，在确定为简单描述文本的简单文本对应的匹配得分不大于复杂描述文本和原始图像的匹配得分的情况，剔除简单文本所构建的训练样本。

在一些实施例中，调用开源的BLIP（Bootstrapping Language-Image Pre-training，统一理解和生成的多模态模型）模型为每张图片生成简短的描述文本。在一些实施例中，调用开源的CLIP（Contrastive Language-Image Pre-Training）模型计算图片（原始图像）在简单提示词和复杂提示词上的语义匹配分数（匹配得分），由于复杂提示词不仅包含了与图片内容相关的文本，还包含了与图片内容不相关的文本，例如描述图片分辨率和图片风格的文本。简单提示词的语义匹配度分数通常要高于复杂提示词。如果简单提示词的语义匹配分数过低，说明BLIP模型生成的简单提示词跟图片之间的匹配程度不够，这样的训练数据需要过滤掉。这样经过多次数据清洗和过滤后，就可以得到一份高质量的训练数据，每条数据是一个三元组（包括简单提示词，复杂提示词，原始图像），当然在对图像生成模型进行训练时，仅需简单提示词和复杂提示词即可。

在一些实施例中，如图8的800所示，通过图生文模型-BLIP模型为原始图像生成多个简单文本，利用文图匹配模型-CLIP模型计算每个简单文本和原始图像的匹配得分，选择分数最高且不低于复杂描述文本对应的匹配得分的简单文本作为该原始图像的简单描述文本。

步骤730，根据至少一张原始图像分别对应的复杂描述文本和简单描述文本，得到至少一个训练样本。

步骤740，通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征；其中，文本编码模块用于提取简单描述文本对应的浅层表征，神经网络模块用于提取简单描述文本对应的深层表征，综合文本表征用于反映浅层表征和深层表征，综合文本表征用于结合原始图像通过扩散模块生成原始图像对应的预测图像。

步骤750，通过文本编码模块，提取复杂描述文本对应的标准文本表征。

步骤760，根据综合文本表征和复杂描述文本对应的标准文本表征，对图像生成模型的参数进行调整，得到训练后的图像生成模型。

本申请实施例中，在构建训练样本集时，通过匹配得分确定出与原始图像匹配的简单描述文本，从而提升了简单描述文本和原始图像的匹配程度，提升了训练样本的精度。进一步地，对训练数据进行至少两次过滤，一次是过滤掉长度较短的复杂提示词，另一次是过滤掉匹配得分不够的简单描述文本，这二者均是为了提高训练样本的准确性，从而提升模型训练效果。

请参考图9，其示出了本申请一个实施例提供的图像生成模型的训练方法的示意图，该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。

如图9的900所示，计算机设备先从网站上抓取原始数据，也即抓取原始图像和原始图像对应的复杂提示词。基于midjourney、Stable Diffusion Online等公开的线上图像生成网站，这些开源的图像生成网址有着用户精心编写的可靠提示词和高质量的生成图像。这些提示词是资深用户精心编写的复杂提示词，生成的图像也是语义正确的，可以作为原始数据。计算机设备从这些公开的线上图像生成网站爬取原始数据，每条数据包含一个用户编写的提示词，以及一张高质量的图片。为了保证训练数据的质量，需要对抓取的原始数据进行清洗。用户编写的提示词中包含了一些参数控制的指令文本，比如从midjourney抓取的数据中，“--version”或“--v”参数用来控制模型的版本，需要清理掉这些用于控制参数的指令文本。接着计算机设备根据提示词的长度过滤训练数据，利用BLIP模型根据原始图像生成简单提示词，利用CLIP模型过滤掉语义不匹配的训练数据，将筛选之后的数据构建训练数据集（训练样本集）。接着，在构建训练样本集之后，引入额外的神经网络模块和大语言模型来对稳定扩散模型的参数高效微调，利用完成训练的模型来基于简单描述文本来生成预测图像。

请参考图10，其示出了本申请一个实施例提供的基于图像生成模型的图像生成方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型使用设备。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（1010~1030）中的至少一个步骤。

步骤1010，获取原始图像和原始图像对应的简单描述文本。

本申请实施例提供的技术方案中至少包括两种应用场景。其一，完全根据简单描述文本生成预测图像，此时模型使用过程中的原始图像可以认为是噪声图像，该噪声图像是基于随机种子生成的。其二，根据一张原始图像和简单描述文本，生成预测图像。此时，图像生成模型在原始图像的基础上，根据简单描述文本，对原始图像进行预测或修改，得到预测图像。此时模型使用过程中的原始图像可以认为是待修改的图像。当然，在第二种情况中，如果获取的原始图像是待修改的图像，则也可以在该原始图像的基础上叠加噪声图像，得到输入到扩散模块的输入图像。示例性地，该噪声图像的尺寸和原始图像的尺寸相同，将原始图像和噪声图像中对应位置像素点的像素值之间的和，确定为输入图像中对应位置像素点的像素值。

在一些实施例中，在模型使用过程中认为简单描述文本就是用户输入的文本，也即，不论用户输入的是复杂描述文本还是简单描述文本，都可以应用本申请提供的图像生成方法，且得到的预测图像的精度还相对较高。

步骤1020，通过文本编码模块和神经网络模块，提取简单描述文本对应的综合文本表征；其中，文本编码模块用于提取简单描述文本对应的浅层表征，神经网络模块用于提取简单描述文本对应的深层表征，综合文本表征用于反映浅层表征和深层表征。

在一些实施例中，步骤1020包括步骤1021~1023（图中未示出）中的至少一个步骤。

步骤1021，通过文本编码模块提取简单描述文本对应的浅层表征。

步骤1022，通过神经网络模块根据浅层表征，得到简单描述文本对应的深层表征。

步骤1023，对浅层表征和深层表征进行加权求和，得到综合文本表征。

本申请实施例中的步骤1020到1023参见上述模型训练侧的实施例中的解释说明，此处不再赘述。

步骤1030，通过扩散模块根据原始图像和综合文本表征，生成原始图像对应的预测图像。

在一些实施例中，扩散模块的前向过程又称为扩散过程，用于逐次往输入数据中加入噪声，直至输入数据趋近于纯噪声。示例性地，扩散过程整体可以是一个参数化的马尔可夫链（Markov chain）。在一些实施例中，通过第一编码器对带噪声的原始图像进行编码，得到带噪声的原始图像的初始特征向量；通过扩散模块的前向过程对初始特征向量进行T次加噪，生成带噪声的原始图像对应的隐空间表征，T为正整数。在一些实施例中，扩散模块的前向过程对初始特征向量进行T次加噪，生成了随机噪声图像对应的隐空间表征，扩散模块的后向过程，根据文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征。扩散模块的后向过程用于根据约束条件，逐次对输入数据去除噪声，从而生成预测图像。示例性地，扩散模块的后向过程整体也可以是一个参数化的马尔可夫链。在一些实施例中，隐空间表征和文本表征作为扩散模块的后向过程的输入数据，扩散模块的后向过程基于文本表征对隐空间特征进行逐次去噪约束，使预测图像满足文本表征的约束要求。在一些实施例中，输入扩散模块的文本表征可以认为是简单描述文本对应的饿综合文本表征。

在一些实施例中，如图11所示，图11示出了图像生成模型1100的结构示意图。通过编码器对输入图像（噪声图像或者叠加了噪声图像的原始图像）进行编码，得到输入图像的初始特征向量Z。文本编码模块根据简单描述文本生成简单描述文本对应的浅层表征，神经网络模块根据浅层表征生成简单描述文本对应的深层表征，对该浅层表征和深层表征进行加权求和，得到综合文本表征。将该综合文本表征作为去噪网络的输入数据。通过扩散模块的前向过程对初始特征向量进行T次加噪，生成输入图像对应的隐空间表征。隐空间表征和文本表征作为去噪网络的下采样网络的输入数据，根据下采样网络的输出数据，得到上采样网络的输入数据，上采样网络根据文本表征和上采样网络的输入数据，得到一次去噪后的输出特征。再经过T-1次去噪网络的作用，得到去噪后的隐空间表征，通过解码器对去噪后的隐空间表征进行解码，生成预测图像Y。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图12，其示出了本申请一个实施例提供的图像生成模型的训练装置的框图，所述图像生成模型包括神经网络模块、经过预训练的文本编码模块以及经过预训练的扩散模块。如图12所示，该装置1200可以包括：样本获取模块1210、表征提取模块1220和参数调整模块1230。

样本获取模块1210，用于获取至少一个训练样本，所述训练样本中包括原始图像对应的复杂描述文本和简单描述文本。

表征提取模块1220，用于通过所述文本编码模块和所述神经网络模块，提取所述简单描述文本对应的综合文本表征；其中，所述文本编码模块用于提取所述简单描述文本对应的浅层表征，所述神经网络模块用于提取所述简单描述文本对应的深层表征，所述综合文本表征用于反映所述浅层表征和所述深层表征，所述综合文本表征用于结合所述原始图像通过所述扩散模块生成所述原始图像对应的预测图像。

表征提取模块1220，还用于通过所述文本编码模块，提取所述复杂描述文本对应的标准文本表征。

参数调整模块1230，用于根据所述综合文本表征和所述复杂描述文本对应的标准文本表征，对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。

在一些实施例中，表征提取模块1220，用于通过所述文本编码模块提取所述简单描述文本对应的浅层表征；通过所述神经网络模块根据所述浅层表征，得到所述简单描述文本对应的深层表征；对所述浅层表征和所述深层表征进行加权求和，得到所述综合文本表征。

在一些实施例中，参数调整模块1230，用于根据所述综合文本表征和所述复杂描述文本对应的标准文本表征之间的差异，确定第一损失函数值；根据所述第一损失函数值，对所述图像生成模型的参数进行调整，得到所述训练后的图像生成模型。

在一些实施例中，表征提取模块1220，还用于通过经过预训练的语言模型提取所述简单描述文本对应的标准文本表征。

在一些实施例中，参数调整模块1230，还用于根据所述简单描述文本对应的深层表征和所述简单描述文本对应的标准文本表征之间的差异，确定第二损失函数值。

在一些实施例中，参数调整模块1230，还用于根据所述第一损失函数值和所述第二损失函数值，对所述图像生成模型的参数进行调整，得到所述训练后的图像生成模型。

在一些实施例中，参数调整模块1230，还用于对所述第一损失函数值和所述第二损失函数值进行加权求和，得到综合损失函数值；根据所述综合损失函数值，对所述图像生成模型的参数进行调整，得到所述训练后的图像生成模型。

在一些实施例中，参数调整模块1230，用于对所述神经网络模块的参数进行调整，所述图像生成模型中所述文本编码模块和所述扩散模块的参数保持不变。

在一些实施例中，样本获取模块1210，用于获取至少一个图文对，所述图文对中包括一张所述原始图像和所述原始图像对应的复杂描述文本；生成所述原始图像对应的简单描述文本；根据至少一张所述原始图像分别对应的复杂描述文本和简单描述文本，得到至少一个所述训练样本。

在一些实施例中，样本获取模块1210，用于通过文图匹配模型根据至少一个简单文本和所述原始图像，得到所述至少一个简单文本分别对应的匹配得分，所述匹配得分用于表征所述简单文本和所述原始图像的匹配程度；根据所述至少一个简单文本分别对应的匹配得分，从所述至少一个简单文本中确定所述原始图像对应的简单描述文本。

在一些实施例中，样本获取模块1210，还用于在确定为所述简单描述文本的简单文本对应的匹配得分不满足条件的情况下，剔除所述简单文本所构建的训练样本。

在一些实施例中，样本获取模块1210，还用于根据各个所述图文对中所述原始图像对应的复杂描述文本的长度，对所述至少一个图文对进行筛选，得到筛选后的至少一个图文对，所述筛选后的至少一个图文对用于构建所述训练样本。

请参考图13，其示出了本申请一个实施例提供的基于图像生成模型的图像生成装置的框图，所述图像生成模型包括神经网络模块、文本编码模块以及扩散模块。如图13所示，该装置1300可以包括：获取模块1310、表征提取模块1320以及图像生成模块1330。

获取模块1310，用于获取原始图像和所述原始图像对应的简单描述文本。

表征提取模块1320，用于通过所述文本编码模块和所述神经网络模块，提取所述简单描述文本对应的综合文本表征；其中，所述文本编码模块用于提取所述简单描述文本对应的浅层表征，所述神经网络模块用于提取所述简单描述文本对应的深层表征，所述综合文本表征用于反映所述浅层表征和所述深层表征。

图像生成模块1330，用于通过所述扩散模块根据所述原始图像和所述综合文本表征，生成所述原始图像对应的预测图像。

在一些实施例中，表征提取模块1320，用于通过所述文本编码模块提取所述简单描述文本对应的浅层表征；通过所述神经网络模块根据所述浅层表征，得到所述简单描述文本对应的深层表征；对所述浅层表征和所述深层表征进行加权求和，得到所述综合文本表征。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本申请一个实施例提供的计算机设备1400的结构框图。该计算机设备1400可以是任何具备数据计算、处理和存储能力的电子设备。该计算机设备1400可用于实现上述图像生成模型的训练方法，或实现上述基于图像生成模型的图像生成方法。

通常，计算机设备1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（FieldProgrammable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储计算机程序，所述计算机程序经配置以由一个或者一个以上处理器执行，以实现上述图像生成模型的训练方法，或实现上述基于图像生成模型的图像生成方法。

本领域技术人员可以理解，图14中示出的结构并不构成对计算机设备1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被处理器执行时以实现上述图像生成模型的训练方法，或实现上述基于图像生成模型的图像生成方法。可选地，该计算机可读存储介质可以包括：ROM（Read-Only Memory，只读存储器）、RAM（Random Access Memory，随机存取存储器）、SSD（Solid State Drives，固态硬盘）或光盘等。其中，随机存取存储器可以包括ReRAM（Resistance Random Access Memory，电阻式随机存取存储器）和DRAM（Dynamic RandomAccess Memory，动态随机存取存储器）。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序，所述处理器执行所述计算机程序，使得所述计算机设备执行上述图像生成模型的训练方法，或实现上述基于图像生成模型的图像生成方法。

需要说明的是，本申请中相关数据（包括原始图像、简单描述文本或复杂描述文本）收集处理在实例应用时应该严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成模型的训练方法，其特征在于，所述图像生成模型包括神经网络模块、经过预训练的文本编码模块以及经过预训练的扩散模块，所述方法包括：

通过经过预训练的语言模型，提取所述简单描述文本对应的标准文本表征；

根据所述综合文本表征和所述复杂描述文本对应的标准文本表征之间的差异，确定第一损失函数值；

根据所述简单描述文本对应的深层表征和所述简单描述文本对应的标准文本表征之间的差异，确定第二损失函数值；

根据所述第一损失函数值和所述第二损失函数值，对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。

2.根据权利要求1所述的方法，其特征在于，所述通过所述文本编码模块和所述神经网络模块，提取所述简单描述文本对应的综合文本表征，包括：

通过所述文本编码模块，提取所述简单描述文本对应的浅层表征；

通过所述神经网络模块根据所述浅层表征，得到所述简单描述文本对应的深层表征；

对所述浅层表征和所述深层表征进行加权求和，得到所述综合文本表征。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失函数值和所述第二损失函数值，对所述图像生成模型的参数进行调整，得到训练后的图像生成模型，包括：

对所述第一损失函数值和所述第二损失函数值进行加权求和，得到综合损失函数值；

根据所述综合损失函数值，对所述图像生成模型的参数进行调整，得到所述训练后的图像生成模型。

4.根据权利要求1所述的方法，其特征在于，所述对所述图像生成模型的参数进行调整，包括：

对所述神经网络模块的参数进行调整，所述图像生成模型中所述文本编码模块和所述扩散模块的参数保持不变。

5.根据权利要求1所述的方法，其特征在于，所述获取至少一个训练样本，包括：

获取至少一个图文对，所述图文对中包括一张所述原始图像和所述原始图像对应的复杂描述文本；

生成所述原始图像对应的简单描述文本；

根据至少一张所述原始图像分别对应的复杂描述文本和简单描述文本，得到至少一个所述训练样本。

6.根据权利要求5所述的方法，其特征在于，所述生成所述原始图像对应的简单描述文本，包括：

通过文图匹配模型根据至少一个简单文本和所述原始图像，得到所述至少一个简单文本分别对应的匹配得分，所述匹配得分用于表征所述简单文本和所述原始图像的匹配程度；

根据所述至少一个简单文本分别对应的匹配得分，从所述至少一个简单文本中确定所述原始图像对应的简单描述文本。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在确定为所述简单描述文本的简单文本对应的匹配得分不满足条件的情况下，剔除所述简单文本所构建的训练样本。

8.根据权利要求5所述的方法，其特征在于，所述获取至少一个图文对之后，还包括：

根据各个所述图文对中所述原始图像对应的复杂描述文本的长度，对所述至少一个图文对进行筛选，得到筛选后的至少一个图文对，所述筛选后的至少一个图文对用于构建所述训练样本。

9.一种基于图像生成模型的图像生成方法，其特征在于，所述图像生成模型包括神经网络模块、文本编码模块以及扩散模块，所述图像生成模型是采用如权利要求1至8任一项所述的方法训练的，所述方法包括：

获取原始图像和所述原始图像对应的简单描述文本；

10.根据权利要求9所述的方法，其特征在于，所述通过所述文本编码模块和所述神经网络模块，提取所述简单描述文本对应的综合文本表征，包括：

通过所述文本编码模块提取所述简单描述文本对应的浅层表征；

11.一种图像生成模型的训练装置，其特征在于，所述图像生成模型包括神经网络模块、经过预训练的文本编码模块以及经过预训练的扩散模块，所述装置包括：

所述表征提取模块，还用于通过经过预训练的语言模型，提取所述简单描述文本对应的标准文本表征；

参数调整模块，用于根据所述综合文本表征和所述复杂描述文本对应的标准文本表征之间的差异，确定第一损失函数值；根据所述简单描述文本对应的深层表征和所述简单描述文本对应的标准文本表征之间的差异，确定第二损失函数值；根据所述第一损失函数值和所述第二损失函数值，对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。

12.一种基于图像生成模型的图像生成装置，其特征在于，所述图像生成模型包括神经网络模块、文本编码模块以及扩散模块，所述图像生成模型是采用如权利要求1至8任一项所述的方法训练的，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的图像生成模型的训练方法，或实现如权利要求9至10任一项所述的基于图像生成模型的图像生成方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至8任一项所述的图像生成模型的训练方法，或实现如权利要求9至10任一项所述的基于图像生成模型的图像生成方法。