CN117173504A

CN117173504A - 一种文生图模型的训练方法、装置、设备及存储介质

Info

Publication number: CN117173504A
Application number: CN202311044371.5A
Authority: CN
Inventors: 谢苁; 卢健祥; 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-12-05

Abstract

一种文生图模型的训练方法、装置、设备及存储介质，涉及人工智能；基于图文样本对训练集，对待训练文生图模型执行迭代训练，获得目标文本生模型；一次训练过程中：从图文样本对训练集中选取图文样本对，图文样本对包括样本图像和描述文本，样本图像中包括至少两个物体；获得至少两个物体各自对应的掩码图像及关联的物体类名，掩码图像用于区别物体在样本图像中的位置区域；将样本图像以及描述文本，输入待训练文生图模型，获得样本图像的图像预测噪声，将至少两个掩码图像以及关联的物体类名，输入待训练文生图模型，获得至少两个掩码图像各自关联的物体预测噪声；基于图像预测噪声和物体预测噪声构建的损失函数，对待训练文生图模型进行调参。

Description

一种文生图模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文生图模型的训练方法、装置、设备及存储介质。

背景技术

在人工智能(Artificial Intelligence，AI)长期发展中，文生图模型有了显著提升；其中，文生图模型能够依照给定的文本提示实现高质量和多样化的图像输出。而为了文生图模型输出的准确性，需要对文生图模型进一步微调。

目前，对文生图模型进行微调的方式至少包括：方式一、基于图像以及物体概念对文生图模型进行微调，方式二、基于物体概念图片转换后的提示词对文生图模型进行微调。

但是，不论采用方式一还是方式二，在对文生图模型进行微调时，均是使文生图模型专注于单一物体的嵌入，忽视了多物体场景的复杂性，且在微调过程中，使用的训练样本中包含复杂的背景信息，会对模型的训练造成干扰，导致文生图模型训练不准确。

因此，如何在多物体场景下，获得准确的文生图模型是目前需要解决的技术问题。

发明内容

本申请实施例提供一种文生图模型的训练方法、装置、设备及存储介质，用以在多物体场景下，获得准确的文生图模型，以扩展文生图模型的应用场景。

第一方面，本申请实施例提供一种文生图模型的训练方法，该方法包括：

基于图文样本对训练集，对待训练文生图模型执行循环迭代训练，获得目标文生图模型；其中，在一次循环迭代过程中执行：

从图文样本对训练集中选取图文样本对；其中，图文样本对包括：样本图像和样本图像的描述文本，样本图像中包括至少两个物体；

获得至少两个物体各自对应的掩码图像及关联的物体类名；其中，掩码图像用于区别相应物体在样本图像中的位置区域；

将样本图像以及描述文本，输入待训练文生图模型，获得样本图像的图像预测噪声；以及，将至少两个掩码图像及关联的物体类名，输入待训练文生图模型，获得至少两个物体预测噪声，其中一个物体预测噪声对应一个掩码图像；

基于图像预测噪声和至少两个物体预测噪声构建的损失函数，对待训练文生图模型进行调参。

第二方面，本申请实施例提供一种文生图模型的训练装置，该装置包括：训练单元，训练单元中包括：获取子单元、获得子单元、预测子单元以及调参子单元；其中：

训练单元，用于基于图文样本对训练集，对待训练文生图模型执行循环迭代训练，获得目标文生图模型；其中，在一次循环迭代过程中执行：

获取子单元，用于从图文样本对训练集中选取图文样本对；其中，图文样本对包括：样本图像和样本图像的描述文本，样本图像中包括至少两个物体；

获得子单元，用于获得至少两个物体各自对应的掩码图像及关联的物体类名；其中，掩码图像用于区别相应物体在样本图像中的位置区域；

预测子单元，用于将样本图像以及描述文本，输入待训练文生图模型，获得样本图像的图像预测噪声；以及，将至少两个掩码图像及关联的物体类名，输入待训练文生图模型，获得至少两个物体预测噪声，其中一个物体预测噪声对应一个掩码图像；

调参子单元，用于基于图像预测噪声和至少两个物体预测噪声构建的损失函数，对待训练文生图模型进行调参。

在一种可能的实现方式中，预测子单元具体通过待训练文生图模型执行如下操作：

获得样本图像的原始图像特征，以及描述文本的第一文本特征；

对原始图像特征进行加噪处理，获得第一噪声图像特征；

通过待训练文生图模型中的去噪网络，结合第一文本特征和第一噪声图像特征，预测样本图像的图像预测噪声。

在一种可能的实现方式中，预测子单元具体用于：

针对至少两个掩码图像中的各个掩码图像，分别构建相应的掩码图文对；其中，掩码图文对中包括一个掩码图像及关联的物体类名；

通过待训练文生图模型，对掩码图文对执行如下操作：

获得掩码图像的掩码图像特征，以及物体类名的第二文本特征；

对掩码图像特征进行加噪处理，获得第二噪声图像特征；

通过待训练文生图模型中的去噪网络，结合第二文本特征和第二噪声图像特征，预测掩码图像的物体预测噪声。

在一种可能的实现方式中，调参子单元，具体用于：

获得图像预测噪声和关联的图像目标噪声之间的第一差异信息；

针对至少两个物体预测噪声中的每个物体预测噪声，分别获得物体预测噪声和关联的物体目标噪声之间的第二差异信息；

基于第一差异信息，以及至少两个第二差异信息，构建损失函数。

在一种可能的实现方式中，每个掩码图像关联的物体目标噪声是通过如下方式确定的：

根据图像目标噪声和掩码图像，确定关联的掩码区域的第一目标噪声；

根据图像预测噪声和掩码图像，确定除掩码区域外的第二目标噪声；

基于第一目标噪声和第二目标噪声，确定掩码图像关联的物体目标噪声。

在一种可能的实现方式中，调参子单元，具体用于：

对待训练文生图模型中的文本编码器进行调参；以及

对待训练文生图模型中去噪网络中，各个注意力线性层上的低秩自适应权重进行调整。

在一种可能的实现方式中，该装置还包括生成单元，生成单元具体用于：

获取指定文本；其中，指定文本中包含至少两个目标类名；

通过目标文生图模型，基于指定文本，基于指定文本，结合至少两个目标类名各自关联的历史参考对象，获得指定文本对应的目标图像。

在一种可能的实现方式中，生成单元还用于：

将指定文本输入到目标文生图模型之前，确定图文样本对训练集以及历史参考图像中包括至少两个目标类名各自关联的历史参考对象。

第三方面，本申请实施例提供一种计算设备，包括：存储器和处理器，其中，存储器，用于存储计算机程序；处理器，用于执行计算机程序以实现本申请实施例提供的文生图模型的训练方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本申请实施例提供的文生图模型的训练方法的步骤。

第五方面，本申请实施例提供一种计算机程序产品，其包括计算机程序，计算机程序存储在计算机可读存储介质中；当计算设备的处理器从计算机可读存储介质读取计算机程序时，处理器执行计算机程序，使得计算设备执行本申请实施例提供的文生图模型的训练方法的步骤。

本申请有益效果如下：

本申请实施例提供一种文生图模型的训练方法、装置、设备及存储介质，涉及人工智能领域，涉及图像处理领域。考虑到相关技术中的文生图模型仅适用于在图像中进行单物体嵌入，忽视了多物体场景的复杂性，限制了文生图模型在图像中进行多物体嵌入上的生成能力；因此，本申请实施例提出一种适用于多物体场景的文生图模型的训练方法。为了保证模型训练的准确性，基于图文样本对训练集，对待训练文生图模型执行循环迭代训练，以获得目标文生图模型。

在训练过程中，首先获取输入待训练文生图模型的输入信息。具体的，从图文样本对训练集中选取图文样本对，图文样本对中包括样本图像和描述文本，由于要针对多物体场景训练文生图模型，使文生图模型能够处理复杂的多物体场景，提升对多物体的生成能力，因此要保证样本图像中包括至少两个物体。同时，考虑到样本图像中除了至少两个物体外，还包含复杂的背景信息，背景信息对模型训练造成干扰，使模型训练不准确，以及考虑到在样本图像中存在至少两个物体时，物体与文本的准确对应也是模型训练准确的主要因素，因此在选取图文样本对后，获取样本图像中至少两个物体各自对应的掩码图像及关联的物体类名，掩码图像用于区别物体在样本图像中的位置区域，使物体与背景区别开，防止背景信息对模型训练造成干扰，以及获得掩码图像与物体类名之间的对应关系，有助于增强物体与文本之间的对象关系，使模型训练过程中可以更好的理解文本描述并将其准确的映射到响应的物体上，保证文生图模型的准确性。因此，输入信息除了样本图像和描述文本外，还包括掩码图像和关联的物体类名。

在获得输入信息后，将输入信息输入到待训练文生图模型，并根据文生图的输出结果对模型参数进行调整。具体的，首先将样本图像以及描述文本，输入待训练文生图模型，获得样本图像的图像预测噪声，以及将至少两个掩码图像以及关联的物体类名输入待训练文生图模型，获得至少两个掩码图像各自关联的物体预测噪声；然后，基于图像预测噪声和至少两个物体预测噪声构建损失函数；最后，采用构建的损失函数对待训练文生图模型进行调参。可见，本申请实施例中，引用了多物体局部区域增加损失，该损失能够将物体与其他区域分别开，使模型更专注于物体的细节和边界，从而减少背景干扰对文生图模型的影响，提升文生模型在多物体场景的准确性，进一步提高基于文生图模型生成图像的一致性和准确性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的一种文生图模型的结构示意图；

图3为本申请实施例提供的一种去噪网络的示意图；

图4为本申请实施例提供的一种文生图模型的具体结构示意图；

图5为本申请实施例提供的一种物体标注确定掩码图像的示意图；

图6为本申请实施例提供的一种文生图模型训练方法的流程示意图；

图7为本申请实施例提供的一种噪声预测示意图；

图8为本申请实施例提供的一种文生图模型训练的示意图；

图9为本申请实施例提供的一种生成目标图像的方法流程图；

图10为本申请实施例提供的一种基于目标文生图模型生成目标图像的示意图；

图11为本申请实施例提供的一种基于目标文生图模型生成目标图像的示意图；

图12为本申请实施例提供的一种文生图模型的训练装置结构图；

图13为本申请实施例提供的一种计算设备结构图。

具体实现方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

文生图模型又称文生图扩散模型，是一种深度学习模型，用于文本生成图像任务。一个文生图模型，经过对自然图像的扩散过程的反转训练之后，可从一张完全随机的噪声图像在文本的引导下开始逐步生成新的自然图像。噪声图像是在拍摄或传输时受到随机信号干扰后产生的，表现为图像信息或者像素亮度的随机变化。

变分自编码器(Variational AutoEncoder，VAE)是一种基于变分推断(Variational Inference)的概率模型(Probabilistic Model)，属于生成模型；其架构设计中包括编码器(Encoder)和解码器(Decoder)。

Encoder用于将原始的高维数据映射到低维特征空间，这个特征维度一般比原始数据维度要小，起到压缩或者降维的目的，这个低维特征也往往成为中间隐含特征(latentrepresentation)；Decoder用于基于压缩后的低维特征来重建原始数据。

掩码(Mask)图像与原始图像大小相同，用于区分物体在原始图像中的位置区域，掩码图像中仅包含0或1，1表示感兴趣区域的部分或表示物体区域的部分。

低秩自适应(Low-Rank Adaptation，LoRA)权重，lora即大型语言模型的低秩适应。它冻结了预训练模型的权重，并将可训练的秩分解矩阵注入到Transformer架构的每一层中，大大减少了下游任务的可训练参数数量。在本申请实施例中，lora主要是将可训练的网络参数注入到了文生图模型中的去噪网络中，去噪网络层用于将图像与描述文本联系起来，而lora权重影响的则是去噪网络层对应的网络参数，如去噪网络层的权重矩阵部分。

微调是利用预训练好的模型，去定制化地训练某些任务，针对具体的任务修正网络。本申请实施例中的待训练文生图模型，就是一种预训练模型，通过本申请实施例中的方法进行调参后，则可获得目标文生图模型，用于实现基于文本条件生成图像的任务。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

目前，对文生图模型进行微调的方式至少包括：方式一、采用梦想照相亭(DreamBooth)基于提供的图像以及物体概念对文生图模型进行微调，方式二、采用文本倒置(Textual Inversion)基于提供的物体概念图片对文生图模型进行微调。

采用DreamBooth对提供的图像以及物体概念在文生图模型(例如稳定扩散(Stable Diffusion，SD)开源模型)上微调时，给定几张图片和这些图片的文本“a[V][class name]”，[class name]是物体类名，[V]是特殊标识，微调后会得到一个包含给定物体绑定的[V]的文生图扩散模型。在推理阶段，使用这个特殊标识就可以进行图像生成。

采用Textual Inversion，使用提供的3～5张物体概念图片，通过学习文生图模型文本嵌入(Text Embeddings)空间中的伪词来表示这些概念，并把这些伪词组合成自然语言的句子，指导新物体的生成。

因此，相关技术中在文生图模型训练过程中，存在如下缺点：

单物体嵌入限制：仅专注于单一物体的嵌入，忽视了多物体场景的复杂性，限制了文生图模型在多物体嵌入上的生成能力。

训练样本背景干扰：训练样本若包含复杂的背景信息，会对文生图模型的学习造成干扰，文生图模型可能会将背景中的细节误认为是物体中的一部分，导致文生图模型训练不准确，进一步导致基于目标文生图模型生成的图像中物体与背景的边界模糊。

综上，如何在多物体场景下，获得准确的文生图模型是目前需要解决的技术问题。

有鉴于此，本申请实施例提供一种文生图模型的训练方法、装置、设备及存储介质。考虑到相关技术中的文生图模型仅适用于在图像中进行单物体嵌入，忽视了多物体场景的复杂性，限制了文生图模型在图像中进行多物体嵌入上的生成能力；因此，本申请实施例提出一种适用于多物体场景的文生图模型的训练方法。为了保证模型训练的准确性，基于图文样本对训练集，对待训练文生图模型执行循环迭代训练，以获得目标文生图模型。

在获得输入信息后，将输入信息输入到待训练文生图模型，并根据文生图的输出结果对模型参数进行调整。具体的，首先将样本图像以及描述文本，输入待训练文生图模型，获得样本图像的图像预测噪声，以及将至少两个掩码图像以及关联的物体类名输入待训练文生图模型，获得至少两个掩码图像各自关联的物体预测噪声；然后，基于图像预测噪声和至少两个物体预测噪声构建损失函数；最后，采用构建的损失函数对待训练文生图模型进行调参。可见，本申请实施例中，引用了多物体局部区域增加损失，该损失能够将物体与其他区域分别开，使模型更专注于物体的细节和边界，从而减少背景干扰对待训练文生图模型的影响，提升文生模型在多物体场景的准确性，进一步提高基于待训练文生图模型生成图像的一致性和准确性。

本申请实施例涉及人工智能(Artificial Intelligence，AI)和机器学习技术，基于人工智能中的语音技术、自然语言处理技术和机器学习(Machine Learning，ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域获得应用，并发挥越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言，机器学习更加注重算法的设计，让计算机能够自动地从数据中“学习”规律，并利用规律对未知数据进行预测。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

下面对本申请设置的应用场景进行简要说明。需要说明的是，以下场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

参见图1，图1为本申请实施例提供的一种应用场景示意图。该应用场景中包括终端设备110和服务器120，终端设备110和服务器120之间可以通过通信网络进行通信。

在一种可选的实现方式中，通信网络可以是有线网络或无线网络。因此，终端设备110和服务器120可以通过有线或无线通信方式进行直接或间接地连接。比如，终端设备110可以通过无线接入点与服务器120间接地连接，或终端设备110通过因特网与服务器120直接地连接，本申请在此不做限制。

其中，终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备上可以安装有各种客户端，该客户端可以支持文本输入，基于输入文本生成图像功能的在线平台、应用程序，也可以是网页、小程序等；即，客户端支持文生图模型的应用。例如，客户端为智能创作系统，智能创作系统支持文生图模型的应用，且通过文生图模型可为使用者提供个性化的图片定制功能。

在智能创作系统通过待训练文生图模型为使用者提供个性化的图片定制功能时，需要使用者先上传一张图像，并对图像中的物体进行标注，以获得物体的掩码图像，同时还要设定每个掩码图像关联物体的物体类名，以进一步指导智能创作系统对图像进行定制。例如：

室内设计与家居定制场景：使用者可以上传室内空间照片，并通过物体的掩码图像和关联的物体类名，精确指定家具、装饰品等物体。智能创作系统根据使用者的需求和风格偏好，生成个性化的室内设计方案，帮助使用者进行家居定制。

时尚搭配与服装设计场景：使用者可以上传照片，通过物体的掩码图像和关联的物体类名，指定衣物、饰品等物体。系统根据使用者的身形、风格喜好等信息，提供个性化的时尚搭配建议，帮助使用者进行服装设计和搭配选择。

广告创意与品牌定制创景：广告公司或品牌可以利用该技术为其客户提供个性化的广告创意和品牌定制服务。使用时上传与其品牌相关的图像，通过物体的掩码图像和关联的物体类名，指定需要突出展示的产品或元素，以生成与品牌形象一致的定制化广告素材，帮助品牌提升宣传效果和品牌认知度。

礼品定制与个性化制品场景：使用者可以上传特定的图像，通过物体的掩码图像和关联的物体类名，指定需要个性化定制的礼品或制品的特定要素。智能创作系统基于使用者的指定，生成个性化的礼品定制方案，帮助使用者制作独一无二的礼品或个性化产品。

因此，通过本申请实施例提供的文生图模型，能够根据提供的图像、物体的掩码图像和关联的物体类名，实现个性化的图片定制，满足在各种场景下的创作需求和定制化要求。

服务器120是与终端设备110中安装的客户端相对应的后台服务器。其可以提供智能创作系统的后台服务功能，例如实现本申请实施例所提供的文生图模型的训练方法以及基于文生图模型生成图像的步骤。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一种可能的应用场景中，终端设备获取图像以及文本信息，将图像和文本信息传输至服务器，服务器基于文生图模型生成图像，再将生成图像下发给终端设备，通过终端设备展示给使用者。

在一种可能的应用场景中，本申请实施例中涉及的相关数据(如图文样本对等)以及模型参数可以采用云存储(cloud storage)技术进行存储。云存储是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(或称存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

需要说明的是，图1所示只是举例说明，实际上终端设备110和服务器120的数量不受限制，在本申请实施例中不做具体限定。本申请实施例中，当服务器120的数量为多个时，多个服务器120可组成为一区块链，而服务器120为区块链上的节点。

需要说明的是，本申请实施例中的文生图模型的训练方法可以由计算设备执行，该计算设备可以为服务器120或者终端设备110，即，该方法可以由服务器120或者终端设备110单独执行，也可以由服务器120和终端设备110共同执行。

为进一步说明本申请实施例提供的技术方案，下面以服务器单独执行为例，并结合附图来描述本申请示例性实现方式提供的文生图模型的训练方法，以及文生图模型的应用。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实现方式在此方面不受任何限制。此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

为了使文生图模型可应用于多物体场景，且保证在多物体场景下文生图模型的准确性，本申请实施例提供一种文生图模型的训练方法。同时，为了验证基于目标文生图模型生成图像的一致性和准确性，本申请实施例在获得目标文生图模型后，提出模型应用方法，具体的：利用目标文生图模型，结合包含至少两个目标类名的指定文本，生成指定文本关联的目标图像。

下面，分别从模型训练过程以模型应用过程，对本申请实施例的整体实现方式进行说明。

实施例一、模型训练过程

本申请实施例中，训练过程是一个利用训练样本对待训练文生图模型进行多次循环迭代训练的过程，其主要可以包括模型设计阶段、数据准备阶段和迭代训练阶段，下面将对各阶段分别进行介绍。

一、模型设计阶段

参见图2，图2为本申请实施例中提供的一种文生图模型的结构示意图。文生图模型包括：加噪网络、去噪网络、文本编码网络、图像编码网络、图像解码网络；其中：

图像编码网络，用于对获取的随机图像(也可以称为随机种子)进行图像编码，获得相应的图像特征；在一种可能的实现方式中，图像编码网络可以采用但不限于变分自编码(Variational AutoEncoder，VAE)，VAE将随机图像映射到潜在特征空间，获得相应的图像特征。

加噪网络，用于对图像特征进行扩散加噪，获得相应的加噪后的图像特征；在一种可能的实现方式中，加噪网络对图像特征随机添加高斯特征，该过程可以是一个固定的马尔科夫链过程，通过不断添加高斯噪声将原始数据分布变为正态分布。

文本编码网络，用于对获取的描述文本(可以是一组关键词，称为多标签信息)进行文本编码，获得相应的文本特征；在一种可能的实现方式中，文本编码网络可以采用但不限于对比文本-图像预训练模型(Contrastive Language-Image Pre-training，CLIP)。

去噪网络，用于根据获得的文本特征，对获得的加噪后的图像特征进行去噪处理，获得去噪后的图像特征；在一种可能的实现方式中，去噪网络通过迭代去噪过程将高斯噪声转换为已知数据分布的内容，如使用神经网络将数据从正态分布恢复到原始数据分布，以使生成的图像具有较好的多样性和写实性。

在一种可能的实现方式中，去噪网络可以采用但不限于U-Net网络，U-Net网络是编码-解码结构，U-Net网络可以采用但不限于注意力机制实现。

参见图3，图3为本申请实施例中一种去噪网络的示意图；示例性的，该去噪网络为U-Net网络，U-Net网络中包含多个交叉注意力(QKV)模块(又称交叉注意力层)，且U-Net网络所包含的交叉注意力(QKV)模块，可根据该网络的功能，又命名为去噪网络层。用于建模文本与图像之间的联系，并以文本为条件，对图像进行去噪处理。

其中，图3列举了U-Net网络不同层的结构，且受篇幅限制，图3仅示例了部分。从图3可知，去噪网络层分为三大部分：输入部分(IN)31，中间部分(MID)32和输出部分(OUT)33。此外，还外加一个文本编码器(BASE)34。

除文本编码器(BASE)外，输入部分(IN)，中间部分(MID)和输出部分(OUT)都可理解为是文生图模型中的去噪网络层。

如图3所示，其中输入部分31仅简单示例了4层，分别为残差模块311、注意力模块312、残差模块313和注意力模块314；中间部分32仅简单示例了3层，分别为残差模块321、注意力模块322、残差模块323；输出部分33仅简单示例了4层，分别为残差模块331、注意力模块332、残差模块333和注意力模块334。需要说明的是，图3所列举的Unet结构只是简单示例。

其中，U-Net网络中还可以包含跳跃连接(skip connection)结构，每一次下采样可以有一个skip connection与对应的上采样进行级联，使得U-Net网络在每一次上采样中，将编码器对应位置的特征在通道上进行融合，通过不同尺寸的特征的融合，提升检测精度。

图像解码网络，用于对获得的去噪后的图像特征进行解码，获得一组关键词对应的预测图像，即输出图像。

参见图4，图4为本申请实施例提供的一种文生图模型的具体结构示意图；如图4所示：针对随机图像x，通过图像编码网络(E)，获得图像特征(Z)，然后，通过加噪网络对图像特征(Z)进行扩散加噪，投射到隐空间中得到隐空间向量，即噪声图像特征(Z_T)，同时，一个描述文本(Text)，经文本编码网络(τ)，获得文本特征；之后，文本特征和噪声图像特征(Z_T)输入至去噪网络中，噪声图像特征(Z_T)经过去噪网络在文本特征的约束下进行T次去噪预测，最终产生隐空间预测向量(Z’)，即产生预测图像特征；最后，通过图像解码网络(D)对隐空间预测向量(Z’)进行解码，输出图像图像/>即为预测图像。

在加噪网络中，针对图像特征(Z)经过T次扩散(diffusion)过程产生噪声图像特征(Z_T)，Z_T表示T时刻的隐空间值，相应的，去噪网络中，通过去噪(denoising)过程，对噪声图像特征(Z_T)进行T次去噪预测，获得预测图像特征(Z’)。以第一次去噪过程为例：文本特征作为QKV模块中的KV，噪声图像特征(Z_T)作为QKV模块中的Q，文本特征用于约束加噪图像特征(Z_T)的去噪，使得QKV模块在T次去噪后输出与输入的描述文本相关的预测图像特征(Z’)。

需要说明的是，图4仅示出了一种可能的层级关系，在实际应用过程中，QKV模块的数量、连接关系均可以基于实际情况进行设计。

本申请实施例中，通过扩散网络将随机图像经VAE编码的特征，映射到T时刻的隐空间表征，后续通过去噪网络学习产生噪声表征的拟合(即图像预测噪声)，从而减去图像预测噪声，得到真实需要的图像表征，进而经过解码器得到预测图像。

二、数据准备阶段

数据收集在机器学习中是重中之重，可以说最重要的一个环节，本申请实施例的收据准备阶段主要包括：图文样本对的准备过程、图文样本对中样本图像内的物体标注过程。

图文样本对的准备过程：

在一种可能的实现方式中，图文样本对中的样本图像以及相应的描述文本是使用者上传的；其中，样本图像中包含至少两个物体。

在另一种可能的实现方式中，图文样本对是针对目标应用场景，获取目标应用场景下的各候选图像以及关联的描述文本。目标场景可以是根据指定文本生成对应的影视剧海报，此时影视剧海报为图文样本对中的样本图像，指定文本为图文样本对中的描述文本；目标场景还可以是根据指定文本生成对应的短视频封面、文章封面等。

物体标注过程：

对于样本图像内的每个物体进行标注，并生成相应物体的掩码图像；在一种可能的实现方式中，物体标注可以采用手动绘制的方式，或则使用自动标注算法生成。

在针对样本图像中的每个物体进行标注的同时，还针对该物体设置物体类名，因此可以确定物体的掩码图像与物体类名的对应关系。

参见图5，图5为本申请实施例提供的一种物体标注确定掩码图像的示意图；

图5示例性的以一张包含“花”和“鸟”的样本图像为例：首先分别对“花”和“鸟”进行标注，确定“花”和“鸟”各自在图像中的位置；然后确定“花”的掩码图像和“鸟”的掩码图像，其中“花”的掩码图像中仅显示“花”的轮廓示意，确定“花”在样本图像中的位置区域，“鸟”的掩码图像中仅显示“鸟”的轮廓示意，确定“鸟”在样本图像中的位置区域；最后，确定各个物体的掩码图像和物体类名。

这样，在本申请实施例中，样本数据中除了图文样本对外，还包括有样本图像内各个物体关联的掩码图像和物体类名，在设置了掩码图像的基础上，可以区分物体的细节和边界，减少背景干扰，提升模型训练的准确性。

三、迭代训练阶段

本申请实施例中，通过对待训练文生图模型进行循环迭代训练，获得目标文生图模型。在模型训练过程中，对全量图文样本对(即图文样本对训练集)一共进行多轮(如100)循环迭代，其中，全量图文样本对在待训练文生图模型中均被训练完一次称为一轮迭代。在每一轮迭代中，由于训练机器的显存资源有限，不能把全量样本对一次性输入到模型中进行训练，故对所有样本对需要分批次(batch)训练，通过如随机划分等方式产生各批次样本，并将各批次样本分别输入到模型中，进行前向计算、后向计算、模型参数更新等训练。

在一种可能的实现方式中，首先，从图文样本对训练集中，选取图文样本对，并根据图文样本对中的样本图像，获取样本图像中至少两个物体的掩码图像以及关联的物体类名；然后，将图文样本对，以及物体的掩码图像与物体类型的对应关系作为训练输入，针对待训练文生图模型在多物体嵌入场景下进行多次循环迭代训练，每次循环迭代过程中根据损失调整待训练文生图模型中的文本编码网络，以及去噪网络上交叉注意力(QKV)模块中CrossAttention线性层的LoRA模块，以得到每个物体的Text Embeddings和LoRA权重，并根据物体的Text Embeddings和LoRA权重确定已训练的目标文生图模型。使得模型能够处理复杂的多物体场景，并提升对多物体的生成能力。

在第一轮训练前，需要对待训练文生图模型的参数进行初始化。具体的，针对不需要调整的模型参数(如图像编码网络、加噪网络、文本编码网络、去噪网络、图像解码网络各自包含的模型参数)采用相应的预训练模型的模型参数；且在每轮训练过程中不断更新，并随机初始化注入网络的LoRA权重。进一步的，分别设置好批次(batch)、迭代次数(epoch)和学习率(learning rate)等超参数。在设置完毕后，开始训练，以得到目标文生图模型。学习率设置为1e-4。

由于每次循环迭代执行的操作一致，因此以一次循环迭代为例，对待训练文生图模型的训练进行说明。参见图6所示，为本申请实施例提供的一种文生图模型训练方法的流程示意图，包括如下步骤：

步骤S601，从图文样本对训练集中选取图文样本对；其中，图文样本对包括：样本图像和样本图像的描述文本，样本图像中包括至少两个物体。

步骤S602，获得至少两个物体各自对应的掩码图像及关联的物体类名；其中，掩码图像用于区别相应物体在样本图像中的位置区域。

步骤S603，将样本图像以及描述文本，输入待训练文生图模型，获得样本图像的图像预测噪声；以及，将至少两个掩码图像及关联的物体类名，输入待训练文生图模型，获得至少两个物体预测噪声，一个物体预测噪声对应一个掩码图像。

在一种可能的实现方式中，将样本图像以及描述文本，输入待训练文生图模型，通过待训练文生图模型获得样本图像的图像预测噪声时：首先通过图像编码网络获得样本图像的原始图像特征，同时通过文本编码网络获得描述文本的第一文本特征；然后，通过加噪网络对原始图像特征进行加噪处理，获得第一噪声图像特征；最后，将第一噪声图像特征和第一文本特征输入到去噪网络，通过去噪网络，结合第一文本特征和第一噪声图像特征，预测样本图像的图像预测噪声。

同理，获得各个掩码图像关联的物体预测噪声时：首先针对每个掩码图像，构建相应的掩码图文对，掩码图文对中包括一个掩码图像及关联的物体类名；然后，通过图像编码网络获得掩码图像的掩码图像特征，同时通过文本编码网络获得物体类名的第二文本特征；然后，通过加噪网络对掩码图像特征进行加噪处理，获得第二噪声图像特征；最后，将第二噪声图像特征和第二文本特征输入到去噪网络，通过去噪网络，结合第二文本特征和第二噪声图像特征，预测掩码图像的物体预测噪声。

在加噪过程中，对原始图像特征整体进行加噪处理，对掩码图像特征进行加噪处理时，仅对物体所在位置区域的部分进行加噪处理，且为了保证预测的准确性，针对物体所在区域增加的噪声与针对图像增加的噪声一致。

在去噪过程中，本申请实施例中的去噪网络主要用于建模文本与图像之间的关系，因而，通过去噪网络中的去噪网络层，以每个文本为条件，对图像进行去噪处理。去噪处理的过程首先进行噪声预测，然后在加噪处理后获得噪声图像特征的基础上，减去预测的噪声，因此，通过去噪网络可以确定预测噪声。

在一种可能的实现方式中，去噪网络层为待训练文生图模型中的去噪网络所包含的交叉注意力层；在本申请实施例中，交叉注意力层用于建模文本与图像之间的联系，而交叉注意力层中的LoRA权重可在交叉注意力层中注意可训练的部分，因而，通过LoRA权重控制交叉注意力层的网络参数，并以每个文本为条件，对图像进行去噪处理。

以图像预测噪声为例，参见图7，图7为本申请实施例提供的一种噪声预测示意图。图7中样本图像为描述“一只鸟在花上(a brid in the flowers)”的图像，描述文本为“一只鸟在花上(a brid in the flowers)”。此时，样本图像通过图像编码网络(VAE_encoder)获得原始图像特征(又称为潜空间向量)，同时描述文本分割为多个提示词，提示词通过文本编码网络(CLIP)，获得第一文本特征(又称context文本向量)；然后，对原始图像特征进行前向加噪，获得第一噪声图像特征；接着，将第一噪声图像特征和第一文本特征输入去噪网络(U-Net)，获得图像预测噪声。

需要说明的是，图像编码网络又称图像编码器，文本编码网络又称文本编码器。

步骤S604，基于图像预测噪声和至少两个物体预测噪声构建的损失函数，对待训练文生图模型进行调参。

在一种可能的实现方式中，基于图像预测噪声和至少两个物体预测噪声构建损失函数时：获得图像预测噪声和关联的图像目标噪声之间的第一差异信息；以及针对至少两个物体预测噪声中的每个物体预测噪声，分别获得物体预测噪声和关联的物体目标噪声之间的第二差异信息；并基于第一差异信息，以及至少两个第二差异信息，构建损失函数。

在本申请实施例中，每个掩码图像关联的物体目标噪声是通过如下方式确定的：根据图像目标噪声∈和掩码图像m，确定关联的掩码区域的第一目标噪声，即第一目标噪声为根据图像预测噪声∈_θ和掩码图像m，确定除掩码区域外的第二目标噪声，即第二目标噪声为/>基于第一目标噪声和所述第二目标噪声，确定掩码图像关联的物体目标噪声，因此，物体掩码噪声/>

综上，本申请实施例构建的损失函数为：

其中，是掩码图像关联的物体目标噪声，c_m，i是掩码图像关联的物体类名，/>是掩码图像的潜在表示/>i是掩码图像的数量，i＝1,2……S。

在一种可能的实现方式中，采用损失函数，对待训练文生图模型进行调参时，对待训练文生图模型中的文本编码器进行调参；以及对待训练文生图模型中去噪网络中，各个注意力线性层上的低秩自适应权重进行调整。

参见图8，图8为本申请实施例提供的一种文生图模型训练的示意图。从图8中可知，将样本图像以及描述文本，输入待训练文生图模型，获得样本图像的图像预测噪声；以及，将至少两个掩码图像及关联的物体类名，输入待训练文生图模型，获得至少两个掩码图像各自关联的物体预测噪声；基于图像预测噪声和图像目标噪声，以及至少两个物体预测噪声和关联的物体目标噪声构建的损失函数，采用损失函数，反向调整待训练文生图模型中的参数。

需要说明的是，在完成一个批次训练的训练后，结束一次迭代过程。

在本申请实施例中，在进行模型参数调整前，还可以判断是否满足模型收敛条件。示例性的，模型收敛条件可以包括如下条件的至少一个：模型损失不大于预设的损失值阈值；迭代次数达到预设的次数上限值。

在本申请中，由于输入信息中包括样本图像和描述文本，且样本图像中包括有至少两个物体，因此使待训练文生图模型向多物体场景进行学习，使待训练文生图模型能够处理复杂的多物体场景，提升对多物体的生成能力；输入信息还设置掩码图像和关联的物体类名，掩码图像用于区别物体在样本图像中的位置区域，使物体与背景区别开，防止背景信息对模型训练造成干扰，以及获得掩码图像与物体类名之间的对应关系，有助于增强物体与文本之间的对象关系，使模型训练过程中可以更好的理解文本描述并将其准确的映射到响应的物体上，保证待训练文生图模型的准确性；同时引用了多物体局部区域增加损失，该损失能够将物体与其他区域分别开，使模型更专注于物体的细节和边界，从而减少背景干扰对待训练文生图模型的影响，提升文生模型在多物体场景的准确性，进一步提高基于待训练文生图模型生成图像的一致性和准确性。

实施例二、模型应用过程

在一种可能的实现方式中，还可以利用模型训练得到的目标文生图模型，生成指定文本对应的目标图像。具体的：首先，获取目标对象输入的指定文本，指定文本中包含至少两个目标类名；然后，基于指定文本，利用目标文生图模型，结合至少两个目标类名各自关联的历史参考对象，获得指定文本对应的目标图像。

本申请实施例中，指定文本输入方式包括但不是语音、文字等，若目标对象通过语音输入指定文本，则可利用语音技术，将输入的语音信息转换为指定文本。

在本申请实施例中，基于指定文本，利用目标文生图模型，结合至少两个目标类名各自关联的历史参考对象，获得指定文本对应的目标图像时：首先，对指定文本进行分词，获得指定文本中包含的至少一个关键词，其中至少一个关键词中包括指定文本中所有的目标类名；然后，将获得的至少一个关键词输入至目标文生图模型中，利用目标文生图模型，结合至少两个目标类名各自关联的历史参考对象，获得指定文本对应的目标图像。本申请实施例中，对关键词的提取方式不作限定，在此不再赘述。

在本申请实施例中，目标文生图模型可以针对指定文本生成多张候选图像，在生成多张候选图像时，基于各个候选图像各自对应的美观度评价信息，从至少一张候选生成图像中，按照取值从高到低的顺序，将前topK张候选生成图像，作为目标图像。

需要说明的是，美观度评价信息是利用美观度评价模型确定的；且在存在多张候选图像时，目标图像的数目可以是一个，也可以是多个，对此不作限制。

在一种可能的实现方式中，将指定文本输入到目标文生图模型之前，确定图文样本对训练集以及历史参考图像中包括至少两个目标类名各自关联的历史参考对象。

在另一种可能的实现方式中，将指定文本输入到目标文生图模型之前，确定图文样本对训练集以及历史参考图像中未包括至少两个目标类名各自关联的历史参考对象时，将包含目标类名关联的参考对象的图像以及指定文本输入目标文生图模型，通过目标文生图模型，基于指定文本，结合图像中的至少两个目标类名各自关联的参考对象，获得指定文本对应的目标图像。

下面以服务器单独执行为例，对基于上述模型训练方法获得的目标文生图模型生成目标图像的实现方式进行说明。参见图9，图9为本申请实施例提供的一种生成目标图像的方法流程图，包括如下步骤：

步骤S900，获取指定文本；其中，指定文本中包含至少两个目标类名；

步骤S901，判断图文样本对训练集以及历史参考图像是否中包括至少两个目标类名各自关联的历史参考对象；若是，则执行步骤S902，否则执行步骤S903；

步骤S902，将指定文本输入目标文生图模型，通过目标文生图模型，基于指定文本，结合至少两个目标类名各自关联的历史参考对象，获得指定文本对应的目标图像；

参见图10，图10为本申请实施例提供的一种基于目标文生图模型生成目标图像的示意图。从图10中可知，服务器通过客户端获取到目标对象输入的至少两个目标类名的指定文本，指定文本为：一个带着耳机，拿着杯子的男人“a man with headphone,holding acup”后，确定图文样本对训练集以及历史参考图像中包括：目标类名(耳机“headphone”)关联的历史参考对象、目标类名(杯子“cup”)关联的历史参考对象，以及目标类名(男人“man”)关联的历史参考对象时，将指定文本输入至目标文生图模型中，获得指定文本对应的目标图像。然后，服务器将生成的目标图像返回给客户端呈现。

步骤S903，将包含目标类名关联的参考对象的图像以及指定文本输入目标文生图模型，通过目标文生图模型，基于指定文本，结合图像中的至少两个目标类名各自关联的参考对象，获得指定文本对应的目标图像。

在一种可能的实现方式中，若图文样本对训练集以及历史参考图像未包括指定文本中所有的目标类名关联的参考对象时，需要获取一张图像，该图像中至少包括指定文本中出现但图文样本对训练集以及历史参考图像未出现的物体，然后基于该图像和指定文本进行目标图像预测。

参见图11，图11为本申请实施例提供的一种基于目标文生图模型生成目标图像的示意图。从图11中可知，服务器通过客户端获取到目标对象输入的至少两个目标类名的指定文本，指定文本为：一个带着耳机，拿着杯子的男人“a man with headphone,holding acup”后，确定图文样本对训练集以及历史参考图像中不包括：目标类名(耳机“headphone”)关联的历史参考对象、目标类名(杯子“cup”)关联的历史参考对象时，获取一张同时包含杯子“cup”和耳机“headphone”的目标参考图像，并将同时包含杯子“cup”和耳机“headphone”的目标参考图像以及指定文本输入目标文生图模型，通过目标文生图模型，基于指定文本，结合图像中的杯子“cup”关联的参考对象、图像中耳机“headphone”关联的参考对象，以及男人“man”关联的历史参考对象，获得指定文本对应的目标图像。然后，服务器将生成的目标图像返回给客户端呈现。

在本申请中，由于训练过程中对输入数据和损失函数进行了改进，使文生图模型可应用于多物体场景，且保证文生图模型的准确性，因此基于文生图模型可以准确获取包含有多个物体的目标图像，且提高图像的一致性和准确性。

基于同一发明构思，本申请实施例还提供了一种文生图模型的训练装置；如图12所示，该文生图模型的训练装置1200包括：

训练单元1201，训练单元1201中包括：获取子单元12010、获得子单元12011、预测子单元12012以及调参子单元12013；其中：

训练单元1201，用于基于图文样本对训练集，对待训练文生图模型执行循环迭代训练，获得目标文生图模型；其中，在一次循环迭代过程中执行：

获取子单元12010，用于从图文样本对训练集中选取图文样本对；其中，图文样本对包括：样本图像和样本图像的描述文本，样本图像中包括至少两个物体；

获得子单元12011，用于获得至少两个物体各自对应的掩码图像及关联的物体类名；其中，掩码图像用于区别相应物体在样本图像中的位置区域；

预测子单元12012，用于将样本图像以及描述文本，输入待训练文生图模型，获得样本图像的图像预测噪声；以及，将至少两个掩码图像及关联的物体类名，输入待训练文生图模型，获得至少两个掩码图像各自关联的物体预测噪声；

调参子单元12013，用于基于图像预测噪声和至少两个物体预测噪声构建的损失函数，对待训练文生图模型进行调参。

在一种可能的实现方式中，预测子单元12012具体通过待训练文生图模型执行如下操作：

对原始图像特征进行加噪处理，获得第一噪声图像特征；

在一种可能的实现方式中，预测子单元12012具体用于：

通过待训练文生图模型，对掩码图文对执行如下操作：

对掩码图像特征进行加噪处理，获得第二噪声图像特征；

在一种可能的实现方式中，调参子单元12013，具体用于：

对待训练文生图模型中的文本编码器进行调参；以及

在一种可能的实现方式中，该装置还包括生成单元1202，生成单元1202具体用于：

获取指定文本；其中，指定文本中包含至少两个目标类名；

在一种可能的实现方式中，生成单元1202还用于：

应当注意，尽管在上文详细描述中提及了装置的若干单元(或模块)，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实现方式，上文描述的两个或更多单元(或模块)的特征和功能可以在一个单元(或模块)中具体化。反之，上文描述的一个单元(或模块)的特征和功能可以进一步划分为由多个单元(或模块)来具体化。当然，在实施本申请时，也可以把各单元(或模块)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实现方式的文生图模型的训练方法及装置后，接下来介绍本申请的另一示例性实现方式计算设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实现方式、完全的软件实现方式(包括固件、微代码等)，或硬件和软件方面结合的实现方式，这里可以统称为“电路”、“模块”或“系统”。

在一种可能的实现方式中，本申请实施例提供的计算设备可以至少包括处理器和存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本申请中各种示例性实现方式的文生图模型的训练方法中的任一步骤。

在该实施例中，计算设备的结构可以如图13所示，包括存储器1301，通讯模块1303以及一个或多个处理器1302。

存储器1301，用于存储处理器1302执行的计算机程序。存储器1301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1301可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1301也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1301是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1301可以是上述存储器的组合。

处理器1302，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1302，用于调用存储器1301中存储的计算机程序时实现上述文生图模型的训练方法。

通讯模块1303用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1301、通讯模块1303和处理器1302之间的具体连接介质。本申请实施例在图13中以存储器1301和处理器1302之间通过总线1304连接，总线1304在图13中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1304可以分为地址总线、数据总线、控制总线等。为便于描述，图13中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1301中存储有计算机存储介质，计算机存储介质中存储有计算机程序，计算机程序用于实现本申请实施例的文生图模型的训练方法。处理器1302用于执行上述的文生图模型的训练方法。

此外需要注意的是，在本申请的具体实施方式中，涉及到与用户相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在一些可能的实现方式中，本申请提供的文生图模型的训练方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当计算机程序在计算设备上运行时，计算机程序用于使计算设备执行本说明书上述描述的根据本申请各种示例性实现方式的文生图模型的训练方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实现方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在使用者计算装置上执行、部分地在使用者设备上执行、作为一个独立的软件包执行、部分在使用者计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到使用者计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序命令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品，该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序命令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文生图模型的训练方法，其特征在于，所述方法包括：

从所述图文样本对训练集中选取图文样本对；其中，所述图文样本对包括：样本图像和所述样本图像的描述文本，所述样本图像中包括至少两个物体；

获得所述至少两个物体各自对应的掩码图像及关联的物体类名；其中，所述掩码图像用于区别相应物体在所述样本图像中的位置区域；

将所述样本图像以及所述描述文本，输入所述待训练文生图模型，获得所述样本图像的图像预测噪声；以及，将所述至少两个掩码图像及关联的物体类名，输入所述待训练文生图模型，获得至少两个物体预测噪声，其中一个物体预测噪声对应一个掩码图像；

基于所述图像预测噪声和所述至少两个物体预测噪声构建的损失函数，对所述待训练文生图模型进行调参。

2.如权利要求1所述的方法，其特征在于，将所述样本图像以及所述描述文本，输入所述待训练文生图模型，获得所述样本图像的图像预测噪声，包括：

通过所述待训练文生图模型执行如下操作：

获得所述样本图像的原始图像特征，以及所述描述文本的第一文本特征；

对所述原始图像特征进行加噪处理，获得第一噪声图像特征；

通过所述待训练文生图模型中的去噪网络，结合所述第一文本特征和所述第一噪声图像特征，预测所述样本图像的图像预测噪声。

3.如权利要求1所述的方法，其特征在于，所述将所述至少两个掩码图像及关联的物体类名，输入所述待训练文生图模型，获得至少两个物体预测噪声，包括：

针对所述至少两个掩码图像中的各个掩码图像，分别构建相应的掩码图文对；其中，所述掩码图文对中包括一个掩码图像及关联的物体类名；

通过所述待训练文生图模型，对所述掩码图文对执行如下操作：

获得所述掩码图像的掩码图像特征，以及所述物体类名的第二文本特征；

对所述掩码图像特征进行加噪处理，获得第二噪声图像特征；

通过所述待训练文生图模型中的去噪网络，结合所述第二文本特征和所述第二噪声图像特征，预测所述掩码图像的物体预测噪声。

4.如权利要求1所述的方法，其特征在于，基于所述图像预测噪声和所述至少两个物体预测噪声构建损失函数，包括：

获得所述图像预测噪声和关联的图像目标噪声之间的第一差异信息；

针对所述至少两个物体预测噪声中的每个物体预测噪声，分别获得所述物体预测噪声和关联的物体目标噪声之间的第二差异信息；

基于所述第一差异信息，以及至少两个第二差异信息，构建损失函数。

5.如权利要求4所述的方法，其特征在于，每个所述掩码图像关联的物体目标噪声是通过如下方式确定的：

根据所述图像目标噪声和所述掩码图像，确定关联的掩码区域的第一目标噪声；

根据所述图像预测噪声和所述掩码图像，确定除所述掩码区域外的第二目标噪声；

基于所述第一目标噪声和所述第二目标噪声，确定所述掩码图像关联的物体目标噪声。

6.如权利要求1-5任一所述的方法，其特征在于，所述采用所述损失函数，对所述待训练文生图模型进行调参，包括：

对所述待训练文生图模型中的文本编码器进行调参；以及

对所述待训练文生图模型中去噪网络中，各个注意力线性层上的低秩自适应权重进行调整。

7.如权利要求1-5任一所述的方法，其特征在于，所述获得目标文生图模型之后，还包括：

获取指定文本；其中，所述指定文本中包含至少两个目标类名；

通过所述目标文生图模型，基于所述指定文本，结合所述至少两个目标类名各自关联的历史参考对象，获得所述指定文本对应的目标图像。

8.如权利要求7所述的方法，其特征在于，所述将所述指定文本输入到所述目标文生图模型之前，还包括：

确定所述图文样本对训练集以及历史参考图像中包括所述至少两个目标类名各自关联的历史参考对象。

9.一种文生图模型的训练装置，其特征在于，所述装置包括：训练单元，所述训练单元中包括：获取子单元、获得子单元、预测子单元以及调参子单元；其中：

所述训练单元，用于基于图文样本对训练集，对待训练文生图模型执行循环迭代训练，获得目标文生图模型；其中，在一次循环迭代过程中执行：

所述获取子单元，用于从所述图文样本对训练集中选取图文样本对；其中，所述图文样本对包括：样本图像和所述样本图像的描述文本，所述样本图像中包括至少两个物体；

所述获得子单元，用于获得所述至少两个物体各自对应的掩码图像及关联的物体类名；其中，所述掩码图像用于区别相应物体在所述样本图像中的位置区域；

所述预测子单元，用于将所述样本图像以及所述描述文本，输入所述待训练文生图模型，获得所述样本图像的图像预测噪声；以及，将所述至少两个掩码图像及关联的物体类名，输入所述待训练文生图模型，获得至少两个物体预测噪声，其中一个物体预测噪声对应一个掩码图像；

所述调参子单元，用于基于所述图像预测噪声和至少两个物体预测噪声构建的损失函数，对所述待训练文生图模型进行调参。

10.如权利要求9所述的装置，其特征在于，所述调参子单元，具体用于：

针对至少两个物体预测噪声中的每个物体预测噪声，分别获得所述物体预测噪声和关联的物体目标噪声之间的第二差异信息；

11.如权利要求10所述的装置，其特征在于，每个所述掩码图像关联的物体目标噪声是通过如下方式确定的：

12.如权利要求9-11任一所述的装置，其特征在于，所述调参子单元，具体用于：

对所述待训练文生图模型中的文本编码器进行调参；以及

13.一种计算设备，其特征在于，所述计算设备包括：处理器和存储器，其中：

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，实现权利要求1-8任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现权利要求1-8任一项所述的方法。

15.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-8任一项所述的方法。