CN116611496A

CN116611496A - 文本到图像的生成模型优化方法、装置、设备及存储介质

Info

Publication number: CN116611496A
Application number: CN202310617190.0A
Authority: CN
Inventors: 熊艺华; 张睿
Original assignee: Light Control Tesilian Chongqing Information Technology Co ltd
Current assignee: Light Control Tesilian Chongqing Information Technology Co ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-18

Abstract

本公开的实施例提供了文本到图像的生成模型优化方法、装置、设备及存储介质。应用于深度学习技术领域，所述方法包括获取与主题对应的参考图像组，其中，参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述；将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。以此方式，可以解决图像生成模型无法实现主题重新语境化的技术问题。

Description

文本到图像的生成模型优化方法、装置、设备及存储介质

技术领域

本公开涉及深度学习技术领域，尤其涉及一种文本到图像的生成模型优化方法、装置、设备及存储介质。

背景技术

文本到图像合成任务旨在生成清晰、照片逼真的图像，与相应的文本引导具有高度语义相关性。由于文本描述通常是模糊的，这项任务非常具有挑战性。目前的模型虽然可以根据文本描述生成照片，但由于语义本身的多义性和不确定性，在不同情况下生成的图像可能具有较大差异，无法实现主题重新语境化。

针对图像生成模型无法实现主题重新语境化的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开提供了一种文本到图像的生成模型优化方法、装置、设备及存储介质。

根据本公开的第一方面，提供了一种文本到图像的生成模型优化方法。该方法包括：获取与主题对应的参考图像组，其中，参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述；将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，包括：将参考图像组输入至预训练的文本到图像生成模型中；通过反向传播和梯度下降法来优化预训练的文本到图像生成模型的参数，直至损失函数收敛。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，损失函数按照如下公式确定：

其中，λ为超参数且为正实数，c_i表示源文本提示的嵌入，c_j表示目标文本提示的嵌入,l为嵌入数量，W_k和W_v为参数矩阵，k^*为交叉注意层中的键向量，v^*为交叉注意层中的值向量。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，预训练的文本到图像生成模型是通过以下步骤训练得到的：初始化包括生成器和判别器的生成对抗网络；基于训练数据集对生成器和判别器进行交替训练，直到对抗损失函数收敛，其中，训练数据集中包括真实图像以及与真实图像对应的描述信息，描述信息用于描述预期生成的图像；将生成器作为预训练的文本到图像生成模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，基于训练数据集对生成器和判别器进行交替训练，直到对抗损失函数收敛，包括：

固定生成器，训练判别器，包括：在生成器中利用随机噪声和描述信息生成虚假图像；将虚假图像和真实图像输入至判别器，计算判别器损失函数；利用判别器损失函数进行反向传播求取梯度，采用梯度下降法更新判别器中的参数；循环执行以上步骤直至判别器损失函数最小化；

以及，

固定判别器，训练生成器，包括：在生成器中利用随机噪声和描述信息生成虚假图像；将虚假图像和真实图像输入至判别器，计算生成器损失函数；利用生成器损失函数进行反向传播求取梯度，采用梯度下降法更新生成器中的参数；循环执行以上步骤直至生成器损失函数最小化。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，生成器包括文本编码层、图像编码层、融合层和反卷积神经网络，文本编码层用于将输入描述信息中的文本转换成文本向量，图像编码层用于将输入描述信息中的图像转换成图像向量，融合层用于将文本向量与图像向量在交叉注意力模块中融合后输入Adapter层以得到融合特征，反卷积神经网络用于根据输入的融合特征生成图像。Adapter层是一种特殊的神经网络层，用于在不同的网络模块之间进行信息交换和特征提取，其作用类似于一个中间接口，可以将不同的特征数据转换为适合特定模块的形式，以便更好地融合和利用这些特征。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，生成器还包括上下文编码层，上下文编码层用于对输入描述信息中的上下文信息进行编码以得到上下文向量，融合层还用于将文本向量、图像向量以及上下文向量在交叉注意力模块中融合后输入Adapter层以得到融合特征。

根据本公开的第二方面，提供了一种文本到图像的生成模型优化装置。该装置包括：

获取模块，用于获取与主题对应的参考图像组，其中，参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述；

优化模块，用于将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。

本公开通过包含源文本提示、主题标识和目标文本提示的参考图像组对预训练的文本到图像生成模型进行优化，从而使得优化后的模型能够根据主题所在语境的描述信息生成图像，能够在参考图像中未出现的各种场景、姿势、视图和照明条件下合成参考图像组对应主题的画面，实现主题重新语境化。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的文本到图像的生成模型优化方法的流程图；

图2示出了根据本公开的实施例的文本到图像的生成模型优化装置的框图；

图3示出了能够实施本公开的实施例的示例性电子设备的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开中，通过包含源文本提示、主题标识和目标文本提示的参考图像组对预训练的文本到图像生成模型进行优化，从而使得优化后的模型能够根据主题所在语境的描述信息生成图像，实现主题重新语境化。

图1示出了根据本公开实施例的文本到图像的生成模型优化方法100的流程图。如图1所示，方法100包括：

步骤S110，获取与主题对应的参考图像组，其中，参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述；

步骤S120，将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。

每个参考图像组中的参考图像具有相同的主题，主题所代表的可以是预期生成图像的画面中任意对象，包括但不限于特定人、特定动物、特定物品。

源文本提示(source prompt)，是用来描述主题图像的原始文本，在生成图像时起到了引导和约束的作用。目标文本提示(target prompt)则是用来指导模型生成该主题的图像的具体细节的文本，例如颜色、形状、表情、动作、场景、风格等方面的特征。通常情况下，源文本提示符是简短的、包含图像核心信息的文本，比如“一只牧羊犬”、“一副墨镜”等。目标文本提示则是对源文本提示的扩展描述，用来指导模型生成图像的具体细节，例如“一只黑白相间的牧羊犬”、“餐桌上的一副墨镜”。

主题所在语境用于描述预期生成主题图像中的视觉特征，作用相当于目标文本提示，可以为主题对应对象的动作、表情，也可以为主题对应对象的颜色、形状，也可以为主题对应对象所在的环境、场景，还可以为图像风格。例如，主题为“牧羊犬”，主题所在语境的描述信息可以为“草原上奔跑的牧羊犬”、“微笑的牧羊犬”、“牧羊犬油画”等，优化后模型，能够根据这些主题所在语境生成相应的目标图像。

用于输入至文本到图像生成模型的“主题所在语境的描述信息”包括但不限于文本信息、图像信息、音频信息、视频信息的多模态信息，只要能够描述预期生成主题图像中的视觉特征即可。

预训练的文本到图像模型由于数据源或数据标注颗粒度的限制，可能无法生成准确逼真的图像，通过参考图像组针对给定主题进行优化，使得优化后的模型能够生成该主题的准确逼真的图像。

例如，预训练的文本到图像生成模型能够根据输入描述信息中的“犬”“狗”等语义输出包含犬类动物的图像，但无法很好地区别不同犬类，在输入包含“牧羊犬”的描述信息时，模型所生成的图像中的犬类有可能并不是牧羊犬，需要通过参考图像组对模型进行优化。与“牧羊犬”这一主题对应的参考图像组中包括多张参考图像，每张参考图像都是主题“牧羊犬”的图像，每张参考图像中“牧羊犬”的动作、所在的场景等视觉特征不同。通过利用参考图像组进行模型优化，使得模型扩展其所能生成的主题，即在输入的描述信息中包含“牧羊犬”的情况下，能够精确合成该“牧羊犬”主题的图像。

可选地，源文本提示和目标文本提示中还可以包括主题类名，主题标识是与主题关联的唯一标识，而主题类名表示该主题所属的分类，如主题为“牧羊犬”，主题类名为“犬类”，以便于将模型中该主题类名的先验知识与该主题进行关联。

在一些实施例中，步骤S120，将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，包括：

将参考图像组输入至预训练的文本到图像生成模型中；

通过反向传播和梯度下降法来优化预训练的文本到图像生成模型的参数，直至损失函数收敛。

通过损失函数进行反向传播求取梯度，采用梯度下降法对模型的参数进行调整。可选地，对模型的优化的终止条件可以为损失函数收敛，也可以通过设置预设次数，以参数调整次数达到预设次数为终止条件。

根据本公开的实施例，通过损失函数进行反向传播求取梯度，采用梯度下降法对模型的参数进行调整，使模型逐渐学习到更好地捕获目标文本提示的能力，以提高文本到图像生成模型的准确性，提高生成图像的质量和视觉关联性。

在一些实施例中，损失函数按照如下公式确定：

其中，λ为超参数且为正实数，||x||₂表示二范数，c_i表示源文本提示的嵌入，c_j表示目标文本提示的嵌入，l为嵌入数量，W_k和W_v为参数矩阵，k^*为交叉注意层中的键向量，v^*为交叉注意层中的值向量。

对于每一个源自标记w_i的源嵌入c_i，识别出与同一标记相对应的目标嵌入，并将其标记为c*，在模型的每个交叉注意层中，计算目标提示符的键向量k^*＝W_kc*，值向量v^*＝W_vc*。

损失函数中的第一项表示源文本提示与目标文本提示之间在键方面的距离，该项的作用是通过调整源嵌入来使其更接近与相应的目标嵌入相对应的键，同时，更接近目标嵌入的键将有助于模型更好地对图像中的物体进行定位；损失函数中的第二项表示源文本提示和目标文本提示之间在值方面的距离，该项的作用是通过调整源嵌入来使其更接近与相应的目标嵌入相对应的值，有助于模型更好地识别和分类图像中的物体；损失函数中的第三项和第四项与第一项和第二项相似，但它们是针对目标文本提示的，这两项是为了确保源文本提示和目标文本提示之间的一致性，通过将源文本提示和目标文本提示中的每个嵌入进行比较，损失函数可以调整模型以更好地捕捉两个之间的关系和相似性。

根据本公开的实施例，损失函数用于拉近源文本提示和目标文本提示之间的距离，从而使得它们的生成行为相似，同时保持与原始投影矩阵的接近性，从而提高模型的性能。具体来说，通过计算源文本提示和目标文本提示嵌入之间的距离差异，来衡量它们之间的相似程度，同时，通过使用键和值的参数矩阵，来控制键和值之间的权衡关系，从而更加准确地计算距离差异，超参数λ可以用来平衡键和值之间的重要性，整个损失函数的目的是最小化嵌入之间的距离差异，从而提高模型的准确性。

在一些实施例中，预训练的文本到图像生成模型是通过以下步骤训练得到的：

初始化包括生成器和判别器的生成对抗网络；

基于训练数据集对生成器和判别器进行交替训练，直到对抗损失函数收敛，其中，训练数据集中包括真实图像以及与真实图像对应的描述信息，描述信息用于描述预期生成的图像；

将生成器作为预训练的文本到图像生成模型。

对抗损失函数是生成对抗网络中重要的组成部分，用于衡量生成器和判别器之间的对抗性关系，并通过优化其值来提高生成器的性能。

根据本公开的实施例，为了生成更真实的图像，本本公开的实施例将对抗训练引入文本到图像生成模型中，通过引入对抗性损失函数，可以让生成的图像更接近真实图像，从而提高生成图像的质量。

在一些实施例中，基于训练数据集对生成器和判别器进行交替训练，直到对抗损失函数收敛，包括：

以及，

训练生成器的目标是使判别器将生成的虚假图像误判为真实图像的概率最大化，而训练判别器的目标是将生成器生成的虚假图像与真实图像区分开来，尽量减小误判率。

对抗损失函数可以是生成器损失函数与判别器损失函数之和，交替训练生成器和判别器直到对抗损失函数收敛。

根据本公开的实施例，通过判别器损失函数和生成器损失函数交替训练判别器和生成器，并在交替训练后确定出对抗损失函数，通过对抗损失函数衡量生成器和判别器之间的对抗性关系，并通过优化其值来提高生成器的性能，从而得到性能最优的生成器。

在一些实施例中，生成器包括文本编码层、图像编码层、融合层和反卷积神经网络，文本编码层用于将输入描述信息中的文本转换成文本向量，图像编码层用于将输入描述信息中的图像转换成图像向量，融合层用于将文本向量与图像向量在交叉注意力模块中融合后输入Adapter层以得到融合特征，反卷积神经网络用于根据输入的融合特征生成图像。

Adapter层是一种特殊的神经网络层，用于在不同的网络模块之间进行信息交换和特征提取，其作用类似于一个中间接口，可以将不同的特征数据转换为适合特定模块的形式，以便更好地融合和利用这些特征。Adapter层可以根据具体的任务和数据特征进行自适应调整，并增强整个网络的泛化能力和效果。在融合多模态信息时，Adapter层可以帮助网络更好地学习并结合来自文本和图像的特征，以生成更准确和完整的输出。

根据本公开的实施例，文本和图像是两种不同的模态，为了生成更真实的图像，将文本信息和图像信息融合起来，即将图像和文本编码后的特征经过交叉注意力模块进行融合，在其之后引入由非线性层形成的Adapter层进一步提炼融合特征。

在一些实施例中，生成器还包括上下文编码层，上下文编码层用于对输入描述信息中的上下文信息进行编码以得到上下文向量，融合层还用于将文本向量、图像向量以及上下文向量在交叉注意力模块中融合后输入Adapter层以得到融合特征。

根据本公开的实施例，解决了传统的文本到图像生成模型通常只考虑单个句子，而忽略了句子之间的关系的问题，将多个句子结合起来，利用上下文信息生成更准确的图像。

下面以具体的实施案例来对本公开实施例的方法100进行说明：

人类能够自然而然地能根据文本或音频描述对场景进行成像。然而，对于计算机而言，由于视觉线索和真实图像之间的模态内差异和非视觉线索和真实图像之间的跨模态差异，人工智能存在视觉感知上的模态隔阂。从不同模态的数据中有效地检索和融合异构信息仍然是图像合成和编辑中的一大挑战。多模态图像合成和编辑任务旨在模拟现实世界中的人类想象力和创造力，为深入了解神经网络如何将多模态信息与图像属性相关联提供了深刻的见解。图像合成和编辑旨在创建真实图像或编辑具有自然纹理的真实图像。虽然目前的模型可以生成令人惊叹的照片，但它们无法重新绘制给定参考集合中主体的外观，也无法在不同情况下合成相同主体的画面。通过利用embedding(嵌入)在模型中的语义先验和特定先验保留损失，本公开实施例提出的方法能够在参考图像中未出现的各种场景、姿势、视图和照明条件下合成主体。本公开实施例提出的方法可以应用于多种任务，包括主题重新语境化，文本引导图像合成，外观修改和艺术渲染等等。

信息的每一种来源或形式都可以称为一种模态。例如，人们有触觉、听觉、视觉和嗅觉；信息媒介包括语音、视频、文本等，以及由各种传感器(例如雷达、红外和加速度计)记录的数据。上述每个数据形式都可以称为一种模态(或模式)。在图像合成和编辑方面，可以将引导模态分为视觉引导、文本引导、音频引导和其他模态。文本到图像合成任务旨在生成清晰、照片逼真的图像，与相应的文本引导具有高度语义相关性。这项任务非常具有挑战性，因为文本描述通常是模糊的，并且可能导致大量具有正确语义的图像。此外，图像和文本具有异构特征，这使得很难学习跨两种模式的精确和可靠映射。因此，学习文本描述的精确embedding在文本引导的图像合成和编辑中起着重要作用。用文本引导合成和编辑图像首先需要从文本表示中学习有用的编码，传统文本编码器有Word2Vec、Bag-of-Words，随着深度神经网络的普及，有学者提出使用字符级卷积递归神经网络char-CNN-RNN随着自然语言处理领域中预训练模型的发展，一些研究也探索了利用大规模预训练语言模型(如BERT)进行文本编码。此外，对比语言图像预训练(如CLIP)通过从大量图像和文本对中学习图像和相应字幕的对齐，实现了SOTA。具体而言，CLIP联合优化了文本编码器和图像编码器，以最大化正对之间的余弦相似度，并最小化负对的余弦相似性，从而产生信息性文本embedding。

本公开实施例提出一种方法，使得在重构相同的主题时，在参考图片的指导下，在不同的环境中，在提示的指导下，它们的创建性能优于大部分主流模型，比如Dall-E2和Imagen。本公开实施例提出的方法主要分为两个步骤：

1)使用一组带有特定文本提示注释的参考图像，微调低分辨率文本到图像模型，这些图像包含一个源文本提示，后跟主题的类名(例如，“A[V]dog”)。以及一个类似的更具体的目标文本提示(例如，“A black[V]dog”)。这样做的目标是改变源文本提示的视觉关联，使之与目标文本提示相似。

2)本公开实施例使用改进的文本-图像扩散模型生成图像。本公开实施例主要对扩散模型进行了以下改进：

引入上下文信息。传统的文本-图像扩散模型通常只考虑单个句子，而忽略了句子之间的关系。为了解决这个问题，本公开实施例尝试将多个句子结合起来，利用上下文信息生成更准确的图像。

融合多模态信息。文本和图像是两种不同的模态，为了生成更真实的图像，本公开实施例将文本信息和图像信息融合起来，具体是将图片和文本编码后的特征经过交叉注意力模块进行融合，在其之后引入由非线性层形成的Adapter，进一步提炼融合特征。

引入对抗训练。为了生成更真实的图像，本公开实施例将对抗训练引入文本-图像扩散模型中。通过引入对抗性损失函数，可以让生成的图像更接近真实图像，从而提高生成图像的质量。

为了进一步强化目标文本提示的编辑作用，本公开实施例设计了一种新型的损失函数，用于拉近源文本提示和目标文本提示。

设c_i、c_j分别为源文本提示和目标文本提示的嵌入。对于每一个源自标记wi的源嵌入c_i，我们识别出与同一标记相对应的目标嵌入，并将其标记为c*i。注意，来自目的地提示符中附加标记的嵌入将被丢弃。然而，通过文本编码器体系结构，它们的影响存在于其他目标标记中。在扩散模型的每个交叉注意层中，我们计算目标提示符的键和值为：

本公开实施例提出的损失函数为：

其中λ∈R+是超参数，‖·‖2是2范数。这个损失函数鼓励源提示生成与目标提示生成行为相似，同时保持与原始投影矩阵的接近性。

本公开实施例通过上述的改进的文本-图像扩散模型(即文本到图像生成模型)，即可得到最终编辑后的图片，实现了基于预训练文本图像生成模型的微调方法，将文本图像生成模型迁移到图像编辑任务上。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图2示出了根据本公开的实施例的文本到图像的生成模型优化装置200的框图。如图2所示，装置200包括：

获取模块210，用于获取与主题对应的参考图像组，其中，参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，目标文本提示是对源文本提示中对参考图像中主题所在语境的扩展描述；

优化模块220，用于将参考图像组输入至预训练的文本到图像生成模型中，对预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图3示出了能够实施本公开的实施例的示例性电子设备300的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

电子设备300包括计算单元301，其可以根据存储在ROM302中的计算机程序或者从存储单元308加载到RAM303中的计算机程序，来执行各种适当的动作和处理。在RAM303中，还可存储电子设备300操作所需的各种程序和数据。计算单元301、ROM302以及RAM303通过总线304彼此相连。I/O接口305也连接至总线304。

电子设备300中的多个部件连接至I/O接口305，包括：输入单元306，例如键盘、鼠标等；输出单元307，例如各种类型的显示器、扬声器等；存储单元308，例如磁盘、光盘等；以及通信单元309，例如网卡、调制解调器、无线通信收发机等。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理，例如方法100。例如，在一些实施例中，方法100可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM302和/或通信单元309而被载入和/或安装到电子设备300上。当计算机程序加载到RAM303并由计算单元301执行时，可以执行上文描述的方法100的一个或多个步骤。备选地，在其他实施例中，计算单元301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法100。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本到图像的生成模型优化方法，其特征在于，包括：

获取与主题对应的参考图像组，其中，所述参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，所述目标文本提示是对所述源文本提示中对参考图像中主题所在语境的扩展描述；

将所述参考图像组输入至预训练的文本到图像生成模型中，对所述预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，所述优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。

2.根据权利要求1所述的方法，其特征在于，所述将所述参考图像组输入至预训练的文本到图像生成模型中，对所述预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，包括：

将所述参考图像组输入至所述预训练的文本到图像生成模型中；

通过反向传播和梯度下降法来优化所述预训练的文本到图像生成模型的参数，直至损失函数收敛。

3.根据权利要求2所述的方法，其特征在于，所述损失函数按照如下公式确定：

4.根据权利要求1所述的方法，其特征在于，所述预训练的文本到图像生成模型是通过以下步骤训练得到的：

初始化包括生成器和判别器的生成对抗网络；

基于训练数据集对所述生成器和所述判别器进行交替训练，直到对抗损失函数收敛，其中，所述训练数据集中包括真实图像以及与真实图像对应的描述信息，所述描述信息用于描述预期生成的图像；

将所述生成器作为所述预训练的文本到图像生成模型。

5.根据权利要求4所述的方法，其特征在于，所述基于训练数据集对所述生成器和所述判别器进行交替训练，直到对抗损失函数收敛，包括：

以及，

6.根据权利要求4所述的方法，其特征在于，所述生成器包括文本编码层、图像编码层、融合层和反卷积神经网络，所述文本编码层用于将输入描述信息中的文本转换成文本向量，所述图像编码层用于将输入描述信息中的图像转换成图像向量，所述融合层用于将所述文本向量与所述图像向量在交叉注意力模块中融合后输入Adapter层以得到融合特征，所述反卷积神经网络用于根据输入的所述融合特征生成图像。

7.根据权利要求6所述的方法，其特征在于，所述生成器还包括上下文编码层，所述上下文编码层用于对输入描述信息中的上下文信息进行编码以得到上下文向量，所述融合层还用于将所述文本向量、所述图像向量以及所述上下文向量在交叉注意力模块中融合后输入Adapter层以得到融合特征。

8.一种文本到图像的生成模型优化装置，其特征在于，包括：

获取模块，用于获取与主题对应的参考图像组，其中，所述参考图像组中的每个参考图像携带有包含主题标识的源文本提示和目标文本提示，所述目标文本提示是对所述源文本提示中对参考图像中主题所在语境的扩展描述；

优化模块，用于将所述参考图像组输入至预训练的文本到图像生成模型中，对所述预训练的文本到图像生成模型进行优化，得到优化后文本到图像生成模型，其中，所述优化后文本到图像生成模型用于根据主题所在语境的描述信息生成目标图像。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一权利要求所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至7中任一权利要求所述的方法。