CN116797681A

CN116797681A - 渐进式多粒度语义信息融合的文本到图像生成方法及系统

Info

Publication number: CN116797681A
Application number: CN202310561184.8A
Authority: CN
Inventors: 戚萌; 金德虎; 李光举; 于琦; 于澜
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-09-22

Abstract

本发明提出了渐进式多粒度语义信息融合的文本到图像生成方法及系统，利用生成器融合文本描述的不同粒度的语义信息，能够生成更符合文本描述的图像，解决了现有单阶段模型生成图像存在的语义不一致的问题。对于生成器，增加了文本‑生成图像一致性损失，以监督生成器生成符合文本描述的图像，增强了图像的真实感和语义一致性。

Description

渐进式多粒度语义信息融合的文本到图像生成方法及系统

技术领域

本发明属于计算机视觉与自然语言处理技术领域，尤其涉及渐进式多粒度语义信息融合的文本到图像生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

文本到图像生成是根据给定的文本描述生成图片逼真和语义一致的图像。这项研究是一项有前途且重要的任务，具有广泛的应用前景，例如艺术生成、图像编辑、虚拟现实、视频游戏和计算机辅助设计等。由于其广泛的应用和挑战。文本到图像生成已经成为计算机视觉和自然语言处理中的一个活跃领域。

现有的文本到图像生成方法多是基于生成对抗网络(GAN)实现的，该方法大致可分为两类：多阶段模型和单阶段模型。

多阶段模型由多个生成器/鉴别器对组成，每个对分别处理不同尺度的特征图，并细化低分辨率图像来获得高分辨率且视觉真实的图像。具体地，初始网络生成一幅低分辨率的粗略草图，该草图被馈入到下一阶段的网络作为输入。下一阶段的网络输出具有丰富细节的高分辨率图像。虽然这种文本到图像方法被广泛认可与使用，并被证明足以用于生成任务，但是仍然存在几个局限性。(1)多个独立的生成器/鉴别器对之间的纠缠会导致生成的图像类似于模糊形状与一些细节的简单组合。(2)在低分辨率到高分辨率图像的生成过程当中，全局句子向量仅仅用于初始图像的生成，细粒度文本向量用于后续图像的细化，每个阶段的网络仅融合了单粒度的文本信息，忽略了其他粒度文本信息的约束，降低了文本-图像的一致性。(3)同时训练多个网络不仅耗时，而且不利于模型的收敛。(4)最终图像的质量很大程度上依赖初始图像的好坏。

与多阶段模型不同，单阶段模型仅使用一个生成器/鉴别器对生成与给定文本描述一致的具有真实感的图像。文本-图像融合的过程集成于一个生成器当中，模型结构简单且易于收敛，能够高效地完成图像生成任务。虽然单阶段模型表现出了卓越的性能，但是仍然存在两个问题。(1)该类模型通常只使用了句子级这种粗粒度的文本信息作为文本输入，忽略了单词级等细粒度的文本信息，阻止了高质量图像的生成。在生成具有复杂场景的图片时，该问题会变得更加严重。(2)该类模型只使用全连接层在全局区域上连接特征图和句子向量，缺乏精确的针对局部区域的融合方法，这影响最终生成图像的分辨率。

发明内容

为克服上述现有技术的不足，本发明提供了渐进式多粒度语义信息融合的文本到图像生成方法及系统，利用生成器融合文本描述的不同粒度的语义信息，能够生成更符合文本描述的图像，解决了现有单阶段模型生成图像存在的语义不一致的问题。增加了文本-生成图像一致性损失，以监督生成器生成符合文本描述的图像，增强了图像的真实感和语义一致性。

为实现上述目的，本发明的第一个方面提供渐进式多粒度语义信息融合的文本到图像生成方法，包括：

获取文本描述，将所述文本描述输入至文本编码器中得到不同粒度的语义信息；

通过所构建的对抗性网络的生成器对不同粒度的语义信息进行不同尺度的融合，得到文本描述所对应的生成图像；

通过所构建的对抗性网络的鉴别器对所述生成图像、文本描述与真实图像进行鉴别并计算文本-生成图像一致性损失，基于文本-生成图像一致性损失训练所述对抗性网络的生成器；

利用训练好的对抗性网络的生成器生成与待处理文本描述对应的生成图像。

本发明的第二个方面提供渐进式多粒度语义信息融合的文本到图像生成系统，包括：

获取单元：获取文本描述，将所述文本描述输入至文本编码器中得到不同粒度的语义信息；

训练单元：通过所构建的对抗性网络的生成器对不同粒度的语义信息进行不同尺度的融合，得到文本描述所对应的生成图像；通过所构建的对抗性网络的鉴别器对所述生成图像、文本描述与真实图像进行鉴别并计算文本-生成图像一致性损失；基于文本-生成图像一致性损失训练所述对抗性网络的生成器；

图像生成单元：利用训练好的对抗性网络的生成器生成与待处理文本描述对应的生成图像。

本发明的第三个方面提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行渐进式多粒度语义信息融合的文本到图像生成方法。

本发明的第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行渐进式多粒度语义信息融合的文本到图像生成方法。

以上一个或多个技术方案存在以下有益效果：

在本发明中，采用生成器-鉴别器单阶段模型形式，可以跳过生成低分辨率图像的过程，直接生成高分辨率图像，避免了多分阶段模型的多个生成器/鉴别器对之间的纠缠，且更利于模型收敛，减少了训练模型的时间花销。

在本发明中，利用生成器融合文本描述的不同粒度的语义信息，能够生成更符合文本描述的图像，解决了现有单阶段模型生成图像存在的语义不一致的问题。对于生成器，增加了文本-生成图像一致性损失，以监督生成器生成符合文本描述的图像，增强了图像的真实感和语义一致性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中所构建的对抗性网络结构示意图；

图2为本发明实施例一中自适应句子注意力融合模块示意图；

图3为本发明实施例一中自适应词注意力融合模块示意图；

图4为本发明实施例一中DownBlock模块示意图。

图5为AttnGAN、DFGAN和本实施例模型在Bird数据集上的比较结果示意图；

图6为AttnGAN、DFGAN和本实施例模型在COCO数据集上的比较结果示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例公开了渐进式多粒度语义信息融合的文本到图像生成方法，包括：

通过所构建的对抗性网络的鉴别器对所生成的生成图像、文本描述与真实图像进行一致性鉴别并计算文本-生成图像一致性损失；基于文本-生成图像一致性损失训练所述对抗性网络的生成器；

在本实施例中，文本编码器采用双向长短时记忆网络(Bi-LSTM)来学习给定文本描述的语义表示。具体的，在Bi-LSTM层当中，使用两个隐藏状态表示不同粒度的语义信息，其中中间状态被表示为词特征w∈R^256,18，最后的隐藏状态表示为句子特征s∈R²⁵⁶。

本实施例所构建的对抗性网络包括生成器和鉴别器，生成器网络由7个处理不同尺度特征图的FBlock模块组成。每个FBlock模块包括依次连接的第一卷积层、第一归一化层、自适应句子注意力融合模块(ASAF)、第二卷积层、第二归一化层和自适应词注意力融合模块(AWAF)。

其中，第一卷积层和第二卷积层的卷积核均为3×3，第一归一化层和第二归一化层均包括自适应层实例归一化(AdaILN)和仿射变换(Affine)，AdaILN用于对特征图的层和通道进行归一化，以稳定GAN的训练，Affine从全局句子向量中获取语义线索，并对归一化后的特征图进行调制操作，以融合全局句子向量于生成过程当中。归一化层能够帮助控制基于输入的自然语言文本的形状和纹理的变化量。

生成器网络以噪声向量、全局句子向量和词向量作为输入，其中噪声向量是采样来自高斯分布，n∈R¹⁰⁰。首先，全局句子向量和噪声向量拼接被输入到生成器网络当中，先经过一层全连接层，被重塑为4*4大小的特征图。然后依次经过第一FBlock模块至第七FBlock模块，最后输出为256×256的高分辨率图像。

如图2所示，为本实施例所提出的自适应句子注意力融合模块(ASAF)，自适应句子注意力融合模块的输入有两个，即第一归一化层所输出的特征图F_s∈R^C×H×W(其中C，H，W分别表示F_s的通道维度，高和宽)，以及全局句子向量s∈R^M(其中M表示句子嵌入的维度)。利用两个一维全局平均池化操作将F_s沿着水平和竖直方向分别聚合为两个单独的位置感知特征图：f_sx∈R^C×H×1和f_sy∈R^C×1×W，数学表达上为：

f_sx＝GAP_X(F_s) (1)

f_sy＝GAP_Y(F_s) (2)

其中，GAP_X表示水平方向全局平均池化，GAP_Y表示竖直方向全局平均池化。

为了建模这两个特定方向的特征图(第一水平感知特征图f_sx、第一垂直感知特征图f_sy)的远距离依赖关系，使在两个特定方向上的特征图能够捕获更大的局部信息，以利于关注输入文本相关的特征区域。本实施例将两个特征图即f_sx、f_sy通过concat层进行拼接，然后通过1×1的卷积层来压缩通道，然后依次通过AdaLIN和Non-linear来编码水平和竖直方向上的空间信息得到第一特征图，最后再将第一特征图分为两个具有远程依赖关系的且包括通道和空间信息的特征：第一水平方向query F_sxq∈R^C×H和第一竖直方向query F_syq∈E^C×W，数学上为：

F_sxq,F_syq＝split(L(AdaLIN(G(f_sx+f_sy)))) (3)

其中，f_sx+f_sy表示两个特定方向向量的拼接操作；G表示卷积层；AdaILN为自适应层-实例归一化；L为非线性层；split表示分割操作，将一个向量分割为两个特定方向上的向量。

对于全局句子向量，类似于自注意力机制机制，通过两个不同的1×1的卷积层，得到两个向量：句子级key F_sk∈R^C和value F_sv∈R^C。被定义为：

F_sk＝W_sks,F_sv＝W_svs (4)

其中，W_k和W_v表示两个映射矩阵，他们由两个不同的1×1卷积来实现。

为了建模文本向量和特征图之间的语义相关性，将两个特定方向向量第一水平方向query F_sxq和第一竖直方向query F_syq分别与reshape后的文本向量key F_sk做点积操作，然后经过softmax函数得到在两个方向上的注意力得分：第一水平方向注意力得分S_sx∈R^H ^×H和第一垂直方向注意力得分S_sy∈R^W×W，用来表示句子和特定方向子区域之间的相关度。

S_sx＝Softmax(D(F_sxq ^T·F_sk)) (5)

S_sy＝Softmax(D(F_syq ^T·F_sk)) (6)

其中，F_sxq ^T和F_syq ^T表示两个查询向量F_sxq和F_syq的转置，D(·)表示点积操作。

将得到的注意力得分S_sx和S_sy分别与reshape后的F_sv做点积操作以得到输入文本向量和特征向量的注意力权重图：W_sx∈R^C×H×1和W_sy∈R^C×1×W。

W_sx＝Softmax(D(F_sv·S_sx ^T)) (7)

W_sy＝Softmax(D(F_sv·S_sy ^T)) (8)

其中，S_sx ^T和S_sy ^T分别表示两个注意力得分S_sx和S_sy的转置。

在得到注意力权重图(W_sx、W_sy)之后，将其与自适应句子注意力融合模块的输入相乘得到微调特征图。由于原始特征图即自适应句子注意力融合模块的输入中存在充足的信息，因此做了一个残差操作保留原始信息。将原始特征图和微调特征图做和操作后得到融合句子信息后的新特征图F_sn∈R^C×H×W。

F_sn＝λ_s·F_s⊙W_sx⊙W_sy+F_s (9)

其中λ_s是一个自适应参数，可以使网络自适应地调整微调特征图的权重，以获得更合适的特征表示，⊙为按元素积操作。

ASAF模块通过注意力机制突出特征图中与输入文本中语义相符的区域，微调原始特征图，达到将文本信息融合到生成过程中的目的。ASAF模块在每个Fblock模块中使用一次，作用于不同尺度的特征图，增强语义一致性。

如图3所示，本实施例所提出的自适应词注意力融合模块(AWAF)有两个输入：第二归一化层输出的特征图F_e∈R^C×H×W，以及词上下文向量e＝R^M×T，其中，M为单词嵌入的维度，T为单词的个数。

对于特征图F_e进行如自适应句子注意力融合模块的输入相同的操作，具体的，在两个特定方向上使用全局平均池化得到第二水平感知特征图f_ex∈R^C×H×1和第二垂直感知特征图f_ey∈R^C×1×W；然后将两个特征图即f_ex、f_ey通过concat层进行拼接，然后通过1×1的卷积层来压缩通道，然后依次通过AdaLIN和Non-linear来编码水平和竖直方向上的空间信息得到第二特征图，最后再将第二特征图分为两个具有远程依赖关系的且位置信息的query特征图：第二水平方向query F_exq∈R^C×H和第二竖直方向query F_eyq∈R^C×W。

f_ex＝GAP_X(F_e) (10)

f_ey＝GAP_Y(F_e) (11)

F_exq,F_eyq＝split(L(AdaLIN(G(f_ax+f_ey)))) (12)

其中，GAP_X和GAP_Y分别表示在水平和竖直方向上的全局平均池化；f_sx+f_sy表示两个特定方向向量的拼接操作；G表示卷积层；AdaILN为自适应层-实例归一化，L为非线性层；split表示分割操作。

对于词上下文向量e，与句子向量处理的方式相似，先由两个不同的1×1的卷积层处理，分别得到词级key F_ek∈R^C×T和value F_ev∈R^C×T。

F_ek＝W_eke,F_ev＝W_eve (13)

其中，W_ek和W_ev是两个可学习的映射矩阵，由两个不同的1×1卷积来实现。

为建模每个单词与特征图子区域之间的语义相关度，将query和reshape后的F_ek做点积操作，再通过softmax函数得到方向向量子区域和每个单词之间的相似度得分：S_ex∈R^H ^×T和S_ey∈E^W×RW。表示如下：

S_ex＝Softmax(D(F_exq ^T·F_ek)) (14)

S_ey＝Softmax(D(F_eyq ^T·F_ek)) (15)

其中，D(·)表示点积操作，F_sxq ^T和F_syq ^T表示两个query F_exq和query F_exq的转置矩阵。

然后，将相似度得分和reshape后的F_ev做点积操作再通过softmax函数来计算注意力权重。获得注意力权重图W_ex∈R^C×H×1和W_ey∈R^C×1×W的过程如下：

W_ex＝Softmax(D(F_ev·S_ex ^T)) (16)

W_ey＝Softmax(D(F_ev·S_ey ^T)) (17)

其中，S_ex ^T和S_ey ^T分别表示两个注意力得分S_ex和S_ey的转置。

在得到注意力权重图W_ew、W_ey之后，将其与原始特征图即自适应词注意力融合模块的输入相乘，得到融合词上下文信息后的加权特征图。因为原始信息也尤为重要，所以使用一个残差结构将其保留，将加权特征图和原始特征图即自适应词注意力融合模块的输入相加。通过这样做，既保留了原始信息又完成了词上下文信息的融合。获得新特征图F_en∈R^C ^×H×W的过程如下：

F_en＝λ_e·F_e⊙W_ex⊙W_ey+F_e (18)

其中，λ_e是一个自适应参数，可以使网络自适应的调节权重的大小，保留合适的微调特征，⊙为按元素积操作。

自适应词注意力融合模块通过注意力机制使网络关注与单词相关的子区域，并分配更大的权重，因此生成的图像会更符合文本描述。同样地，它在每个Fblock模块中使用一次，作用于不同尺度的特征图。

如图4所示，本实施例中对抗性网络的鉴别器网络有6个依次连接的DownBlock模块组成，DownBlock模块采用残差结构，DownBlock模块一层由依次连接的4×4卷积层、第一ReLU层、3×3卷积层和第二ReLU层组成，shortcut由一个1×1的卷积层和平均池化层组成，以保留原始特征，利于模型收敛。每经过一个DownBlock，输入特征图的大小减小一倍，经过6层之后，输出的一个4×4大小的特征图。

鉴别器网络输入为真实图像、生成图像，依次经过卷积层、6个DownBlock模块进行特征提取得到视觉特征I∈R^256×4×4；全局句子向量经过空间复制为S∈R^256×4×4，和视觉特征I∈R^256×4×4拼接后经过两层卷积得到对抗损失。

本实施例提出一个文本-图像一致性损失，来监督生成器生成更符合文本描述的图像，采用余弦相似度损失作为衡量标准，其被定义为：

L_sc＝1-cos(avg(f(I)),s) (19)

其中，I表示生成图像，s表示全局句子向量，f(I)∈R^c×4×4表示鉴别器提取的生成图像的图像特征。avg(·)表示平均池化操作，对图像特征执行平均池化操作以压缩信息到句子向量相同的维度。cos(·)表示余弦相似度操作，最小化生成图像向量f(I)和输入文本向量s之间的余弦相似度。f(I)与s越相似，L_sc越小，说明生成图像和输入文本的语义一致性越高。

鉴别器网络的损失为：

其中，e是给出的文本描述，e'是不匹配的文本描述。x是真实图像，z是噪声向量。P_r，P_g分别表示真实数据分布和生成数据分布。变量k和p是MA-GP的超参数，分别设为6和2用于平衡梯度惩罚的有效性。

本实施中生成器的损失包括对抗损失和文本-图像一致性损失：

其中，L_sc表示所提出的文本-图像一致性损失，λ_sc是语义一致性损失的权重，本实施例中设置为0.2。

为了验证本实施例模型的生成性能，在两个基准数据集上与现有的先进的文本到图像生成模型进行了比较，结果如表1所示。

这里简单介绍一下所使用的数据集和文本到图像生成中两类常见的评价指标。

数据集：(1)CUB鸟类数据集。其中包含11788张鸟类的图片，包括200个类，，每张图片有10个对应的文本描述，其中8855张图片(150个类)作为训练集，2933张图片(50个类)用于测试集。(2)COCO数据集。它由一个80k图像的训练集和一个包含40k的测试集组成。COCO中每张图片有5个对应的文本描述。COCO数据集不同于CUB鸟类数据集，图像中包含的类别更多，场景分布更复杂，对于T2I生成任务来说是一项更加艰巨的任务。

评价指标：采用两个最常见的评价指标Inception Score(IS)和FréchetInception Distance(FID)。更高的IS表示生成的图像更加清晰且对于所有类别都具有高度的多样性，并且生成的每张图像都可以清楚地识别为特定类别而不是模糊类别。FID越低，表明生成模型的效果越好，图像清晰度高且多样性丰富，说明模型更加有效。

表1

从定量结果来看，在CUB和COCO数据集上，本实施例的模型和现有的最先进的GAN方法在文本到图像合成方面进行了比较。如表1所示，很明显本实施例提出的模型实现了高度可比的性能。在具有充满描述细节的CUB数据集上，具有高度语义理解的模型往往比粗粒度模型生成的结果更好，这取决于更细粒度的语义融合。从第二列可以看出，与最先进的方法DF-GAN相比，本实施例的模型得到了CUB数据集的FID的显著改进(从14.81到11.77)。原因在于本实施例的模型渐进式融合了句子级和词级语义信息，学习了全面的文本语义，生成图像更加贴近于真实世界分布。在具有多个对象、复杂的布局和简单的细节的COCO数据集上，本实施例的模型也强于其他基准模型。实验结果表明，本实施例的模型还能合成具有多对象和复杂布局的图像。

从定性结果来看，图5展示了AttnGAN、DFGAN和本实施例模型在Bird数据集上的比较结果。两个基准模型出现了语义不一致、形状怪异、模糊不真实的缺点，而本实施例的GMF-GAN相比于另外两个基准模型，生成的鸟具有更丰富的细节和最合适的颜色分布，且语义一致性更高，这取决于本实施例所提出的两个新型的注意力模块，两个模块根据输入的文本，匹配到最合适的特征区域加以融合，以渐进的方式分别将句子信息和词信息融合于生成过程。另外，本实施例的文本语义一致性损失，使得生成图像与输入文本更加匹配。

图6展示了AttnGAN、DFGAN和本实施例模型在COCO数据集上的比较结果。从图中可以看出本实施例的GMF-GAN在COCO数据集上产生高质量、视觉逼真且语义一致性高的结果，说明本实施例的模型对具有复杂布局和多对象的图像也具有良好的生成能力。

为了验证本实施例提出的ASAF、AWAF和文本-图像一致性损失(SCL)对模型性能的提升，在Bird数据集上进行了对比试验，结果如表2所示：

表2

本实施例模型中的新组件包括自适应句子注意力融合模块(ASFM)、自适应词注意力融合模块(AWFM)和文本-图像一致性损失(SCL)。本实施例通过逐步去除模型中相应的部分来定量地测试每个组成部分的重要性。(1)完整模型(2)只去除SCL(3)只去除AWAF(4)只去除ASAF(5)去除ASAF和AWAF。在表2中报告了所有的结果。

通过比较模型1(完整模型)和模型2(只去除SCL)，SCL显著提高了模型的IS(从4.66提高到4.76)和FID(从13.30提高到11.77)。这表明采用SCL能显著提高生成图像的质量。为了测试AWAF，模型1在IS：4.44和FID：16.05上显著优于模型3(只去除AWAF)，证实了AWAF对于融合细粒度词级信息的必要性。模型1和模型4(只去除ASAF)作比较的实验结果IS：4.37和FID：15.38说明了ASAF对于粗粒度的句子级信息融合的有效性。最后，实验5(去除ASAF和AWAF)表明了两个新的注意力模块通过渐进式融合句子级和词级信息，能够生成更加真实可靠且语义一致的图像。验证了本实施例提出的模块有利于文本信息的融合，且能生成符合文本描述的图像。

调整了ASAF和AWAF两个模块在Fblock中的添加顺序，以验证从渐进式地粗到细融合文本特征对结果的影响，测试结果如表3所示。

表3

融合顺序	IS↑	FID↓
			Norm→ASAF→Norm→ASAF	4.57±0.20	14.84
Norm→AWAF→Norm→AWAF	4.62±0.14	14.03
			Norm→ASAF→Norm→AWAF	4.76±0.12	11.77

调整了网络中句子和单词约束的顺序，并在CUB数据集上分别得到了定量和定性结果。如表3所示，将句子和单词的顺序调整分别调整为Norm→ASAF→Norm→ASAF，Norm→AWAF→Norm→AWAF和Norm→ASAF→Norm→AWAF，从定量的结果来看，以渐进式融合句子级和单词级语义信息，在IS上提高从4.57±0.20提高到4.76±0.12，FID从14.84提高到11.77。说明渐进式融合语义信息的方式更加有效。

实施例二

本实施例的目的是提供渐进式多粒度语义信息融合的文本到图像生成系统，包括：

训练单元：通过所构建的对抗性网络的生成器对不同粒度的语义信息进行不同尺度的渐进式融合，得到文本描述所对应的生成图像；通过所构建的对抗性网络的鉴别器对所述生成图像、文本描述与真实图像进行鉴别并计算文本-生成图像一致性损失；基于文本-生成图像一致性损失训练所述对抗性网络的生成器；

图像生成单元：将待处理的文本描述输入至训练好的对抗性网络的生成器，得到对应的生成图像。

实施例三

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.渐进式多粒度语义信息融合的文本到图像生成方法，其特征在于，包括：

通过所构建的对抗性网络的鉴别器对所述生成图像、文本描述与真实图像进行鉴别并计算文本-生成图像一致性损失；基于文本-生成图像一致性损失训练所述对抗性网络的生成器；

2.如权利要求1所述的渐进式多粒度语义信息融合的文本到图像生成方法，其特征在于，所述文本编辑器采用双向长短时记忆网络，利用双向长短时记忆网络提取文本描述的全局句子向量和词向量。

3.如权利要求1所述的渐进式多粒度语义信息融合的文本到图像生成方法，其特征在于，所述对抗性网络的生成器包括依次连接的多个相同的FBlock模块，所述FBlock模块包括卷积层、归一化层、自适应句子注意力融合模块和自适应词注意力融合模块；

所述自适应句子注意力融合模块通过注意力机制将全局句子向量与自适应句子注意力融合模块的输入特征图进行融合；

所述自适应词注意力融合模块通过注意力机制将词向量与自适应词注意力融合模块的输入特征图进行融合。

4.如权利要求3所述的渐进式多粒度语义信息融合的文本到图像生成方法，其特征在于，所述自适应句子注意力融合模块通过注意力机制将全局句子向量与自适应句子注意力融合模块的输入特征图进行融合，具体包括：

将自适应句子注意力融合模块的输入通过两个一维全局平均池化操作，得到第一水平感知特征图和第一垂直感知特征图；

将第一水平感知特征图和第一垂直感知特征图进行拼接，通过自适应层实例归一化和仿射变换编码水平和竖直方向上的空间信息；

将编码后的第一特征图分割为第一水平方向查询特征图和第一垂直方向查询特征图；

全局句子向量通过不同的卷积层分别得到文本key向量和文本value向量；

将第一水平方向查询特征图、第一垂直方向查询特征图分别与文本key向量做点积操作后经过归一化指数函数得到第一水平方向注意力得分和第一垂直方向注意力得分；

将所述第一水平方向注意力得分、第一垂直方向注意力得分分别与文本value向量做点积操作得到对应的注意力权重图；

将所得到的注意力权重图与自适应句子注意力融合模块的输入相乘，得到自适应句子注意力融合模块的输出。

5.如权利要求3所述的渐进式多粒度语义信息融合的文本到图像生成方法，其特征在于，所述自适应词注意力融合模块通过注意力机制将词向量与自适应词注意力融合模块的输入特征图进行融合，具体包括：

将自适应词注意力融合模块的输入通过两个一维全局平均池化操作，得到第二水平感知特征图和第二垂直感知特征图；

将第二水平感知特征图和第二垂直感知特征图进行拼接，通过自适应层实例归一化和仿射变换编码水平和竖直方向上的空间信息；

将编码后的第二特征图分割为第二水平方向查询特征图和第二垂直方向查询特征图；

词向量通过不同的卷积层分别得到词级key向量和词级value向量；

将第二水平方向查询特征图、第二垂直方向查询特征图分别与词级key向量做点积操作后经过归一化指数函数得到第二水平方向注意力得分和二垂直方向注意力得分；

将所述二水平方向注意力得分、第二垂直方向注意力得分分别与词级value向量做点积操作得到对应的注意力权重图；

将所得到的注意力权重图与自适应词注意力融合模块的输入相乘，得到自适应词注意力融合模块的输出。

6.如权利要求1所述的渐进式多粒度语义信息融合的文本到图像生成方法，其特征在于，所述对抗性网络的鉴别器包括多个DownBlock模块，所述DownBlock模块为残差结构，利用多个DownBlock模块提取所述生成图像的视觉特征，将所述视觉特征与全局句子向量进行平均池化操作；然后将平均池化操作的结果进行余弦相似度操作，得到文本-生成图像一致性损失。

7.如权利要求1所述的渐进式多粒度语义信息融合的文本到图像生成方法，其特征在于，所述对抗性网络的生成器的损失函数为对抗性损失与文本-生成图像一致性损失之和。

8.渐进式多粒度语义信息融合的文本到图像生成系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的渐进式多粒度语义信息融合的文本到图像生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的渐进式多粒度语义信息融合的文本到图像生成方法。