CN115908641A

CN115908641A - 一种基于特征的文本到图像生成方法、装置及介质

Info

Publication number: CN115908641A
Application number: CN202211703322.3A
Authority: CN
Inventors: 周媛; 王鹏
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-04-04

Abstract

本发明公开了一种基于特征的文本到图像生成方法、装置及介质，其方法包括获取测试文本，进行编码处理生成文本特征；随机生成分布噪声并作为图像特征；将文本特征和图像特征输入训练好的图像生成模型，获取输出的生成图像；其中，图像生成模型的训练包括：获取由大量训练文本及对应的真实图像构成的数据集；基于生成对抗网络设计图像生成模块，图像生成模块包括生成器和判别器；从数据集中取出训练文本及其对应的真实图像；对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征，并计算对抗性损失和相似性比较损失，根据对抗性损失和相似性比较损失优化生成器和判别器，并进行迭代训练；本发明能够提升图像生成的准确性。

Description

一种基于特征的文本到图像生成方法、装置及介质

技术领域

本发明涉及一种基于特征的文本到图像生成方法、装置及介质，属于图像合成技术领域。

背景技术

文本到图像合成(T2I)，以文本描述为输入，输出与描述对应的具有高度语义相关性的图像，将自然语言与计算机视觉连接起来，从而促进人工智能在“看”和“理解”上的应用。从文本描述中自动生成图像因其在许多应用中的重要性而吸引了许多努力的兴趣。根据外观描述生成肖像，使用给定的样式标签设计所需的图像，在零样本学习中基于类描述合成看不见的特征。根据是否使用生成对抗网络(GAN)作为主要框架，T2I方法可以大致分为两类：基于非GAN的模型和基于GAN的模型。

现有技术虽然基于GAN的工作取得了显著成果，但多阶段或循环的训练策略使得在现实世界中应用T2I变得很麻烦。古语有云，“一望千言”。这些模型将带有来自标准正态分布的随机样本的文本作为输入，与真实图像相比，文本和随机噪声都无法覆盖足够的信息。因此，使用来自标准正态分布的样本进行生成并不是最佳选择。此外，这些模型考虑了生成的图像和文本之间的语义匹配，但忽略了与真实图像的一致性。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于特征的文本到图像生成方法、装置及介质，考虑真实图像的一致性，保证生成的图像服从真实的图像分布。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于特征的文本到图像生成方法，包括：

获取测试文本，对测试文本进行编码处理生成文本特征；

随机生成分布噪声，将随机生成的分布噪声作为图像特征；

将文本特征和图像特征输入训练好的图像生成模型，获取输出的生成图像；

其中，所述图像生成模型的训练包括：

获取由大量训练文本及对应的真实图像构成的数据集；

基于生成对抗网络设计图像生成模块，所述图像生成模块包括生成器和判别器；

从数据集中取出训练文本及其对应的真实图像；

对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征；

将文本特征和图像特征输入生成器，获取输出的生成图像；

将文本特征、生成图像和真实图像输入判别器，并根据判别器的输出计算对抗性损失；

将文本特征、生成图像和真实图像输入相似性比较器，计算相似性比较损失；

根据对抗性损失和相似性比较损失优化生成器和判别器；

返回步骤：从数据集中取出训练文本及其对应的真实图像，对图像生成模块进行迭代训练。

可选的，所述生成文本特征包括：

采用由预训练的CLIP模型作为文本编码器，所述文本编码器将文本编码为文本特征，所述文本特征包括句子级特征和单词级特征，其表达式为：

(f_s，f_w)＝E_T(t)

式中，E_T为文本编码器，t为文本，f_s∈R⁵¹²为句子级特征，R⁵¹²为512大小的实数向量，f_w∈R^512×seq_^len为单词级特征，R^512×seq_^len为512×seq_len大小的实数矩阵，seq_len为序列长度。

可选的，所述生成图像特征包括：

采用由预训练的ViT-B/32模型作为图像编码器，所述图像编码器将真实图像编码为初始的图像特征，其表达式为：

f_x＝E_I(x)

式中，E_I为图像编码器，x为真实图像，f_x为初始的图像特征；

采用预设的分布编码器将图像特征映射成一个连续流形，用独立的高斯分布表示：N(μ(f_x)，σ(f_x))；对所述分布编码器添加正则化以确保连续流形的平滑度；

基于初始的图像特征根据连续流形生成最终的图像特征，其表达式为：

z＝E_z(f_x)＝μ(f_x)+∈×σ(f_x)

式中，E_z为分布编码器，f_x为初始的图像特征，z为最终的图像特征，∈～N(0，I)。

可选的，所述对抗性损失L_adv为：

式中，

为数学期望，(t，x)为训练文本及对应的真实图像，P_data为数据集，D(x,f_s)为真实图像x和对应训练文本的句子级特征f_s输入判别器D的输出结果，

为生成图像

和对应训练文本的句子级特征f_s输入判别器D的输出结果。

可选的，所述相似性比较损失L_sim为：

式中，

为数据集中第i个训练文本对应的真实图像和生成图像输入相似性比较器C的输出结果，

为数据集中第i个训练文本的句子级特征和生成图像输入相似性比较器C的输出结果，n为数据集中训练文本的数量。

可选的，所述根据对抗性损失和相似性比较损失优化生成器和判别器包括：

生成器和判别器通过交替最大化和最小化的对抗性损失进行优化；

在生成器的对抗性损失优化后，通过相似性比较损失再次优化。

第二方面，本发明提供了一种基于特征的文本到图像生成装置，包括：

测试文本模块，用于获取测试文本，对测试文本进行编码处理生成文本特征；

噪声生成模块，用于随机生成分布噪声，将随机生成的分布噪声作为图像特征；

模型运行模块，用于将文本特征和图像特征输入训练好的图像生成模型，获取输出的生成图像；

其中，所述图像生成模型的训练包括：

数据获取模块，用于获取由大量训练文本及对应的真实图像构成的数据集；

模型构建模块，用于基于生成对抗网络设计图像生成模块，所述图像生成模块包括生成器和判别器；

数据取出模块，用于从数据集中取出训练文本及其对应的真实图像；

特征生成模块，用于对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征；

图像生成模块，用于将文本特征和图像特征输入生成器，获取输出的生成图像；

对抗损失模块，用于将文本特征、生成图像和真实图像输入判别器，并根据判别器的输出计算对抗性损失；

相似性损失模块，用于将文本特征、生成图像以及真实图像输入相似性比较器，计算相似性比较损失；

模型优化模块，用于根据对抗性损失和相似性比较损失优化生成器和判别器；

迭代训练模块，用于返回数据取出模块，对图像生成模块进行迭代训练。

第三方面，本发明提供了一种基于特征的文本到图像生成装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行上述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供的一种基于特征的文本到图像生成方法、装置及介质，采用分布编码器来近似真实图像的分布，从而保证生成的图像服从真实的图像分布；提出了一种相似性比较器，为目标函数引入了最坏情况优化的相似度损失；这减少了生成图像在语义和视觉空间中与真实图像之间的差异，从而使生成的图像不仅符合文本描述，而且也符合真实样本图像；综上，本发明考虑了文本、生成图像以及真实图像之间的一致性，从而提高生成图像的准确性。

附图说明

图1是本发明实施例一提供的基于特征的文本到图像生成方法的流程图；

图2是本发明实施例一提供的图像生成模型的训练的流程图；

图3是本发明实施例一提供的生成器的生成网络的结构图；

图4是本发明实施例一提供的基于特征的文本到图像生成方法的框架图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，本发明实施例提供了一种基于特征的文本到图像生成方法，包括以下步骤：

1、获取测试文本，对测试文本进行编码处理生成文本特征；

2、随机生成分布噪声，将随机生成的分布噪声作为图像特征；

3、将文本特征和图像特征输入训练好的图像生成模型，获取输出的生成图像(即通过图像生成模型中的生成器输出生成图像)；

如图2所示，图像生成模型的训练包括：

S1、获取由大量训练文本及对应的真实图像构成的数据集；

S2、基于生成对抗网络设计图像生成模块，图像生成模块包括生成器和判别器；

S3、从数据集中取出训练文本及其对应的真实图像；

S4、对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征；

S4.1、生成文本特征包括：

采用由预训练的CLIP模型作为文本编码器，文本编码器将文本编码为文本特征，文本特征包括句子级特征和单词级特征，其表达式为：

(f_s，f_w)＝E_T(t)

式中，E_T为文本编码器，t为文本，f_s∈R⁵¹²为句子级特征，R⁵¹²为512大小的实数向量，f_w∈R^512×seq_len为单词级特征，R^512×seq_len为512×seq_len大小的实数矩阵，seq_len为序列长度。

S4.2、生成图像特征包括：

采用由预训练的ViT-B/32模型作为图像编码器，图像编码器将真实图像编码为初始的图像特征，其表达式为：

f_x＝E_I(x)

采用预设的分布编码器将图像特征映射成一个连续流形，用独立的高斯分布表示：N(μ(f_x)，σ(f_x))；对分布编码器添加正则化以确保连续流形的平滑度；

z＝E_z(f_x)＝μ(f_x)+∈×σ(f_x)

S5、将文本特征和图像特征输入生成器，获取输出的生成图像；

生成器包括多个级联的生成网络，每个生成网络包括两个方向上进行卷积池化以提取图像特征，最后将两个方向的图像特征进行残差处理；如图3所示，第一个方向包括AveragePooling层、1×1Conv层、Concat层，AveragePooling层的输出连接1×1Conv层和Concat层，1×1Conv层的输出连接Concat层；第二个方向包括依次连接的ReLU层、1×1Conv层、ReLU层、3×3Conv层、ReLU层、3×3Conv层、ReLU层、AveragePooling层、1×1Conv层；将句子级特征f_s和图像特征z作为生成器的输入，将单词级特征f_w和生成器倒数第二个生成网络的图像特征计算注意力，将注意力用应于图像特征，在最后一个生成网络细化生成图像。

S6、将文本特征、生成图像和真实图像输入判别器，并根据判别器的输出计算对抗性损失；

对抗性损失L_adv为：

式中，

为数学期望，(t,x)为训练文本及对应的真实图像，P_data为数据集，D(x，f_s)为真实图像x和对应训练文本的句子级特征f_s输入判别器D的输出结果，

为生成图像

和对应训练文本的句子级特征f_s输入判别器D的输出结果。

S7、将文本特征、生成图像和真实图像输入相似性比较器，计算相似性比较损失；

相似性比较损失L_sim为：

式中，

相似性比较器C采用余弦相似性方法计算，其计算公式如下：

式中，[x₁，y₁]、[x₂，y₂]为两个向量；

对于编码器，ET和EI在训练时是固定的，并且真实图像和文本对保证它们的特征向量彼此接近。因此，我们只考虑等式中两个距离的最坏的情况，即最大距离

在真实图像和文本的监督下，最小化最坏情况推动生成图像在特征空间中逼近文本和真实图像。

S8、根据对抗性损失和相似性比较损失优化生成器和判别器；

S9、返回步骤：从数据集中取出训练文本及其对应的真实图像，对图像生成模块进行迭代训练(即重复步骤S3-S8，对生成器和判别器进行迭代优化，迭代的结束条件一般为到达预设的最大迭代次数，或损失到达预设阈值)。

本发明与其他方法做了对比实验，在CUB和COCO数据集上的比较结果，FID的值达到了19.08，IS的值达到了4.79，得到了比其他方法更加优异的分数。

实施例二：

本发明实施例提供了一种基于特征的文本到图像生成装置，包括：

其中，图像生成模型的训练包括：

模型构建模块，用于基于生成对抗网络设计图像生成模块，图像生成模块包括生成器和判别器；

相似性损失模块，用于将文本特征、生成图像和真实图像输入相似性比较器，计算相似性比较损失；

实施例三：

基于实施例一，本发明实施例提供了一种基于特征的文本到图像生成装置，包括处理器及存储介质；

存储介质用于存储指令；

处理器用于根据指令进行操作以执行上述方法的步骤。

实施例四：

基于实施例一，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。