CN113361250A

CN113361250A - 一种基于语义一致性的双向文本生成图像方法及系统

Info

Publication number: CN113361250A
Application number: CN202110516474.1A
Authority: CN
Inventors: 刘丽; 崔怀磊; 王泽康; 马跃; 张化祥
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-09-07

Abstract

本发明提供了一种基于语义一致性的双向文本生成图像方法及系统，包括：获取自然语言，将自然语言输入文本编码器，提取单词向量和句子向量；分别将句子向量输入到图像生成网络，单词向量输入到词级空间注意力机制模块，并将生成网络中每个阶段产生的图像特征与经过注意力机制调整后的单词向量进行串联，作为生成网络的下一个阶段的输入，经过多个阶段细化，最终生成图像；再将生成的图像输入图像编码器，提取图像特征；将图像特征输入带有哨兵机制的长短期记忆网络，输出重描述的文本；采用两个对抗损失函数对图像和重描述文本进行优化后，引入基于交叉熵的语义文本重建损失进一步对图像进行优化，直到图像重描述的文本与自然语言一致，输出图像。

Description

一种基于语义一致性的双向文本生成图像方法及系统

技术领域

本发明属于跨模态图像生成技术领域，尤其涉及一种基于语义一致性的双向文本生成图像方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

文本生成图像是根据给定的自然语言描述生成与之相匹配的高分辨率且视觉真实的图像，其在虚拟现实、娱乐、电子竞技游戏以及计算机辅助设计等领域中有着广泛的应用前景。近年来，生成对抗性网络(GAN)已经在生成逼真的图像方面取得了很大进展，利用生成对抗网络的框架，文本生成图像已经提出诸多的生成高质量图像的方法。通过实现条件对抗生成网络，文本到图像生成取得了显著的进步，它们能够根据给定的自然语言描述生成逼真的图像。例如，Attn GAN借助注意力机制，通过关注自然语言描述中的相关单词来生成图像各个子区域的细粒度细节，实现注意力驱动多阶段细化生成高质量的图像。StackGAN将图像生成过程分解为更易于分析和解决的子问题，并进一步提出两个阶段的生成对抗网络架构，实现生成图像的多阶段细化，以生成高分辨率的图像。HD GAN通过引入可扩展的生成器体系结构，在图像生成过程中辅助生成器获取到更多的图像信息，以提高生成图像的分辨率。尽管在上述方法中使用生成对抗网络框架在生成视觉真实的图像方面已经取得了重大进展，但在保证生成的图像与给定的文本描述之间的语义一致性方面仍然面临着诸多挑战。

文本描述在文本生成图像方面发挥着重要作用，这与其他的图像生成问题有所不同，因此生成图像与给定文本描述之间的语义一致性问题更值得关注。在以往的方法中，文本生成图像主要依靠鉴别器来对抗生成图像，但是只依靠鉴别器并不能很好保证文本与生成图像之间的语义一致性。由于文本与图像之间的跨模态差异，仅仅利用生成对抗网络(GAN)框架并不能很好地解决生成图像与给定文本之间的语义不一致问题。其实，文本生成图像可以是图像描述(图像生成文本)的逆问题，图像描述问题是根据给定的图像去生成相匹配的文本描述。最近，Mirror GAN提出用文本到图像再到文本的框架来解决生成图像的语义不一致问题。Mirror GAN由语义文本嵌入模块，全局-局部级联生成模块以及语义文本再生和对齐模块构成。其中，语义文本再生和对齐模块是根据生成的图像重新生成文本描述，使得图像在语义上与给定的文本描述保持一致。但是，Mirror GAN在图像重新生成文本描述阶段中使用的是比较常见的编码器-解码器框架，这不能保证重描述文本的真实性。因此在语义文本再生和对齐方面还有很大的改进和提升空间。此外，注意力机制在文本生成图像领域得到广泛的应用，但是传统的注意力机制只关注整个句子的全局向量，却忽视了对词级局部信息的关注。

由上述分析可得，目前文本生成图像的重点在于保证生成图像的视觉真实性，但是生成图像与文本之间的语义不一致问题并未得到解决。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于语义一致性的双向文本生成图像方法及系统，通过引入词级空间通道注意力机制和文本再描述框架构造了一个双向文本生成图像网络模型：在第一模块，即文本生成图像模块，通过多阶段生成网络将句子级注意力和单词级注意力融合，根据文本描述生成图像，保证生成图像的视觉真实性；在第二模块，即图像再生成文本模块，通过文本再描述框架把第一阶段生成的图像再描述生成文本，并将再生成的文本与初始文本进行比对，通过引入误差函数，使得图像在底层语义上与初始文本保持一致，确保生成图像的语义一致性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于语义一致性的双向文本生成图像方法。

一种基于语义一致性的双向文本生成图像方法，包括：

获取自然语言，将自然语言输入文本编码器，提取出单词向量和句子向量；

分别将句子向量输入到图像生成网络，单词向量输入到词级空间注意力机制模块，并将生成网络中每个阶段产生的图像特征与经过注意力机制模块调整后的单词向量进行串联，作为生成网络的下一个阶段的输入，经过多个阶段细化，最终生成图像；

将上一阶段生成的图像输入到图像编码器，获取图像特征；

将获取的图像特征输入到带有哨兵机制的长短期记忆网络，输出重描述的文本；

采用两种对抗损失函数对图像和重描述文本进行优化后，引入基于交叉熵的语义文本重建损失对图像进行优化，直到图像的底层语义与初始文本相一致后，输出图像。

本发明的第二个方面提供一种基于语义一致性的双向文本生成图像系统。

一种基于语义一致性的双向文本生成图像系统，包括：

采集和编码模块，其被配置为：获取自然语言，将自然语言输入文本编码器，提取出单词向量和句子向量；

文本生成图像模块，其被配置为：分别将句子向量输入到图像生成网络，单词向量输入到词级空间注意力机制模块，并将生成网络中每个阶段产生的图像特征与经过注意力机制模块调整后的单词向量进行串联，作为生成网络的下一个阶段的输入，经过多个阶段细化，最终生成图像；

图像特征提取模块，其被配置为：将文本生成图像模块生成的图像输入图像编码器中，提取图像特征；

图像再生成文本模块，其被配置为：将图像特征输入带有哨兵机制的长短期记忆网络，输出重描述的文本；

优化输出模块，其被配置为：采用两个对抗损失函数对图像和重描述文本进行优化后，引入基于交叉熵的语义文本重建损失进一步对图像进行优化，直到图像重描述的文本与自然语言一致，输出图像。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于语义一致性的双向文本生成图像方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于语义一致性的双向文本生成图像方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明通过构造文本生成图像模块和图像再生成文本模块，解决图像与文本之间的语义不一致性问题。文本生成图像模块通过引入词级注意力机制能够区分不同单词的视觉属性，并根据文本描述多阶段地生成图像。图像再生成文本模块通过构建文本再描述框架，引入带有哨兵机制的长短期记忆网络对生成图像进行文本重描述，使重描述文本与初始文本尽可能一致，从而提升图像与文本之间的语义一致性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中基于语义一致性的双向文本生成图像方法流程图；

图2是本发明实施例中基于语义一致性的双向文本生成图像系统结构图；

图3是本发明实施例中卷积神经网络提取文本特征图；

图4是本发明实施例中多阶段生成网络图；

图5是本发明实施例中词级空间通道注意力机制图；

图6是本发明实施例中哨兵机制图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于语义一致性的双向文本生成图像方法方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

一种基于语义一致性的双向文本生成图像方法，包括：

S101：获取自然语言，将自然语言输入文本编码器，提取单词向量和句子向量；

具体的，将自然语言输入到文本编码器之中，文本编码器使用预先训练的卷积神经网络(CNN)，卷积神经网络的输入是一个文本序列。根据给定的文本描述T＝{T_l|l＝0，1.....L-1}，获取句子级别的特征向量s∈R和单词级别特征矩阵w＝{w^l|l＝0,1.....L-1}∈R^M×L，其中M是单词嵌入的维数，L是句子的长度。

预先训练的卷积神经网络包括输入层、卷积层、池化层和全连接层，卷积的过程就是文本特征提取的过程(如图3)。卷积神经网络输入的就是一个M×L的矩阵，该矩阵的行列像素之间的相关性是不一样的，矩阵的同一行为一个词的向量表征，而不同行表示不同的词。

在卷积层中，卷积核具有非常重要的作用，卷积层中包含多个卷积核，每个卷积核提取不同的特征，卷积核的大小为D×K，其中K是卷积核指定的窗口大小，D是单词嵌入的维度。卷积窗口依次通过每一个输入，它捕获到的是单词的片段信息，这些片段信息就是卷积神经网络捕获到的特征。卷积层之后的池化层，这里采用最大池化方法，主要起到降维的作用。最后通过非线性变换，将输入转换为某个特定值。随着卷积的不断进行，不断产生特征值，最终形成特征向量。

S102：分别将句子向量输入到图像生成网络，单词向量输入到词级空间注意力机制模块，并将生成网络中每个阶段产生的图像特征与经过注意力机制调整后的单词向量进行串联，作为生成网络的下一个阶段的输入，经过多个阶段细化，最终生成图像；

作为一个或多个技术方案，所述生成图像的过程包括：

S102a：将句子向量经过条件增强后与随机向量串联，然后输入到图像生成网络中的初始阶段，产生初始阶段视觉图像特征；

其中条件增强原因和做法如下：

文本嵌入向量通常是高维的，在数据量有限的情况下容易引起数据流的不稳定。为了解决这个问题，引入条件增强技术来产生额外的条件变量，以标准高斯分布和正态高斯分布之间的KL散度这一正则化项添加到目标向量中。这里使用条件增强方法将s转化为

即

其中F_CA表示条件增强函数。

S102b：将单词向量分别输入第一词级空间通道注意力机制模块和第二词级空间通道注意力机制模块；经第一词级空间通道注意力机制调整的单词向量与初始视觉图像特征进行串联后，输入图像生成网络中的第一阶段；

S102c：图像生成网络中的第一阶段产生的第一视觉图像特征，与经第二词级空间通道注意力机制调整的单词向量，进行串联后，输入到图像生成网络中的第二阶段，最终输出生成图像。

示例的，在生成网络中只使用上采样层并不能很好地提高生成图像的质量，所以我们引入一个多阶段生成网络(如图4)，整个生成网络模型从粗到细地多阶段生成图像。

提取文本特征结束后，将提取的文本特征输入到生成网络中。初始阶段生成精度(64×64)的图像，该阶段利用反卷积操作进行上采样，此阶段主要关注的是图像的基本信息；在第一阶段中，先使用全连接层进行连接，将初始阶段的输出作为输入，并经过网络残差层提高数据传送的准确性，再进行反卷积操作获得精准(128×128)的图像细节信息；第二阶段利用第一阶段获得的图像信息和网络残差作为输入，并最终生成(256×256)的更加精细图像。

从文本描述中提取的句子向量s经过条件增强后得到

并与随机向量z串联，共同作为图像生成网络中初始阶段的输入；而单词向量w通过词级注意力和空间通道注意力模块中进行调整得到注意力特征f_i ^A，并用作下一阶段的输入。在初始阶段中，经过条件增强的句子向量

与随机向量z串联后作为输入，生成视觉特征f₀，且在每个阶段中生成网络都会生成隐藏的视觉特征f_i作为相应生成器G_i的输入。公式表达如下：

在生成网络中，输入句子向量与随机向量后，产生初始阶段的图像特征f₀，在第一阶段中，初始阶段产生图像特征f₀和词级通道注意力特征f₀ ^A共同作为输入，输出第一阶段的产生图像特征f₁。此后的每个阶段产生的图像特征f_i和词级通道注意力特征f_i ^A串联后作为下一阶段的输入。以此类推，经过多个阶段的生成细化产生高质量且视觉逼真的图像。

作为一种或多种实施方式，词级空间通道注意力机制包括：词级注意力机制和空间通道注意力机制。

示例的，为了提高生成图像在细节处的真实性，在生成网络中引入词注意力机制(如图5)，词注意力机制有两个输入：单词特征w和视觉特征f_i。在第i阶段，注意力机制将单词特征w和视觉特征

作为输入，其中H_i和W_i分别表示第i阶段图像的高度和宽度。单词特征w通过感知层P_i转换到公共语义空间中，即w'＝P_i w，其中

同时将其与视觉特征f_i相乘获得注意力矩阵

通过softmax函数进行归一化操作得到

它表示视觉特征f_i中的第i个通道与句子s中的第y个词之间的相关性，这个值越高意味着相关性越大。

根据注意力矩阵

最终得到注意力特征

表示为

该表示是单词和视觉特征中相应通道之间的相关性加权。词级空间注意模块可以帮助生成器学习不同的视觉特征属性，并使其专注于最相关的子区域和通道，通过多阶段生成网络和词级注意力机制可以获得高质量的细粒度图像。

S103：将图像输入图像编码器，提取图像特征；

具体的，图像编码器使用预先训练的卷积神经网络，将生成的图像通过图像编码器进行编码得到图像特征F_im，然后将图像特征作为长短期记忆网络的输入。

S104：将图像特征输入带有哨兵机制的长短期记忆网络，输出重描述的文本；

在图像描述时，由于非视觉性单词(the,of等)会降低视觉信息的有效性，因此这里采用带有哨兵机制的长短期记忆网络对视觉信息加以控制，以保证再描述文本的真实性(如图6)。

在生成每个单词时引入哨兵机制，先计算单词属于视觉性单词还是上下文单词的概率，即生成单词与图像的相似性，再根据权重计算总体的特征。这里引入上下文向量c_t＝g(F_im,h_t)，其中g表示该阶段的注意力函数，

表示第K个区域的图像特征，h_t表示t时刻长短期记忆网络的隐藏特征。由此可得到K个区域的注意力分布：

其中1∈R^k为所有元素为1的向量，目的是得到K×K大小的矩阵，最终这里的

利用哨兵机制就要对长短期记忆网络进行拓展，这里引入哨兵门g_t：

其中x_t是长短期记忆网络的输入，g_t为t时刻的哨兵门，决定模型关注视觉单词还是上下文单词。与此同时K个区域的注意力分布α_t被扩展为

具体做法如下:

因此，上述公式可以简化为：

其中，

为自适应注意力模型中的上下文向量；β_t∈[0,1]是真正意义上的哨兵门。长短期记忆网络作为语句生成器，将图像转化为文本描述，公式表达如下：

其中，x_-1是开始时的输入的视觉特征，用来告知长短期记忆网络图像内容，W_e表示一个词级嵌入矩阵，将词特征映射到视觉特征中，p_t是最终的单词概率分布。哨兵机制能够极大地增强视觉性信息的有效性，保证图像描述的真实性。

S105：采用两个对抗损失函数对图像和重描述文本进行优化后，引入基于交叉熵的语义文本重建损失进一步对图像进行优化，直到图像重描述的文本与自然语言一致，输出图像。

作为一种或多种实施方式，所述两个对抗损失函数包括：真实对抗损失函数和语义一致性对抗损失函数。

为了更好地训练该网络模型，这里引入两个对抗性损失：视觉的真实性对抗损失和语义一致性对抗性损失。此外利用文本到图像和图像再到文本之间的双重调节，引入基于交叉熵的语义文本重建损失，继续优化生成图像。在网络模型训练的每个阶段，图像生成器G和鉴别器D交替训练。在第i阶段，图像生成器通过最小化损失来进行训练：

上述公式是第i阶段从分布p_i采样生成的图像，第一项是视觉真实性对抗损失函数，用于区分图像的真假性，第二项是文本语义一致对抗损失函数，用于确定生成图像和句子的语义一致性。进一步提出基于交叉熵的文本语义重建损失函数是保证重描述文本和给定的文本描述之间底层语义的对齐，基于交叉熵的文本语义重建损失函数可以表示为：

生成器的最终目标函数定义为：

其中λ是文本语义重构损失的权重。同理，图像鉴别器的目标函数包括视觉真实性对抗损失函数和语义文本一致性对抗损失函数，表达式如下：

其中

来自第i阶段的真实图像分布

所以鉴别器的最终目标函数为：

考虑到文本图像之间的跨模态差异在引入视觉真实性对抗损失和文本图像语义一致性对抗性后，引入的基于交叉熵的语义文本重构损失，这样就确保了生成图像的视觉真实性和语义一致性。

实施例二

本实施例提供了一种基于语义一致性的双向文本生成图像系统。

一种基于语义一致性的双向文本生成图像系统，包括：

采集和编码模块，其被配置为：获取自然语言，将自然语言输入文本编码器，提取单词向量和句子向量；

文本生成图像模块，其被配置为：分别将句子向量输入到图像生成网络，单词向量输入到词级空间注意力机制模块，并将生成网络中每个阶段产生的图像特征与经过注意力机制调整后的单词向量进行串联，作为生成网络的下一个阶段的输入，经过多个阶段细化，最终生成图像；

其中，在文本生成图像模块中，自然语言被输入到文本编码器中，经过编码器提取出单词向量和句子向量。其中，单词向量通过词级空间通道注意力机制中进行调整；而句子向量则经过条件增强后与随机向量进行串联后作为图像生成网络中初始阶段的输入。在生成网络中，输入句子向量与随机向量后，产生初始阶段的图像特征，此后的每个阶段产生的图像特征和经过注意力机制调整的单词向量进行串联后作为下一阶段的输入，经过多个阶段的生成细化最终生成高质量且视觉逼真的图像。

图像特征提取模块，其被配置为：将图像输入图像编码器，提取图像特征；

基于语义一致性的双向文本生成图像网络系统主要包括：文本生成图像模块和图像再生成文本两大模块(如图2)。文本生成图像模块负责生成视觉逼真的图像，保证生成图像的视觉真实性，图像再生成文本模块负责将生成图像再转换为文本，并与初始文本进行比对，通过引入误差函数，保证再生成文本与初始文本之间的底层语义一致性，确保生成图像的视觉真实性和语义一致性。

此处需要说明的是，上述采集和编码模块、文本生成图像模块、图像特征提取模块、图像再生成文本模块和优化输出模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。本实施例的具体应用实现过程与实施例二相同，但不限于上述实施例二所公开的内容。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于语义一致性的双向文本生成图像方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于语义一致性的双向文本生成图像方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含本发明的保护范围之内。

Claims

1.一种基于语义一致性的双向文本生成图像方法，其特征在于，包括：

获取自然语言，将自然语言输入文本编码器，提取单词向量和句子向量；

分别将句子向量输入到图像生成网络，单词向量输入到词级空间注意力机制模块，并将生成网络中每个阶段产生的图像特征与经过注意力机制调整后的单词向量进行串联，作为生成网络的下一个阶段的输入，经过多个阶段细化，最终生成图像；

将所述图像输入图像编码器，提取图像特征；

将图像特征输入带有哨兵机制的长短期记忆网络，输出重描述的文本；

采用两个对抗损失函数对图像和重描述文本进行优化后，引入基于交叉熵的语义文本重建损失进一步对图像进行优化，直到图像重描述的文本与自然语言一致，输出图像。

2.根据权利要求1所述的基于语义一致性的双向文本生成图像方法，其特征在于，所述生成图像的过程包括：

将句子向量经过条件增强后与随机向量串联，然后输入图像生成网络中的初始阶段，产生初始视觉图像特征；

将单词向量分别输入第一词级空间通道注意力机制和第二词级空间通道注意力机制；经第一词级空间通道注意力机制调整的单词向量与初始视觉图像特征进行串联后，输入图像生成网络中的第一阶段；

图像生成网络中的第一阶段产生的第一视觉图像特征，与经第二词级空间通道注意力机制调整的单词向量，进行串联后，输入图像生成网络中的第二阶段，输出图像。

3.根据权利要求1所述的基于语义一致性的双向文本生成图像方法，其特征在于，所述文本编码器使用预先训练的卷积神经网络。

4.根据权利要求1所述的基于语义一致性的双向文本生成图像方法，其特征在于，所述词级空间通道注意力机制包括：词级注意力机制和空间通道注意力机制。

5.根据权利要求1所述的基于语义一致性的双向文本生成图像方法，其特征在于，所述将图像特征输入带有哨兵机制的长短期记忆网络，包括：

将图像特征输入双向长短期记忆网络，生成的单词引入哨兵机制，分别计算每个单词属于视觉性单词、上下文单词的概率。

6.根据权利要求1所述的基于语义一致性的双向文本生成图像方法，其特征在于，所述两个对抗损失函数包括：真实对抗损失函数和语义一致性对抗损失函数。

7.根据权利要求6所述的基于语义一致性的双向文本生成图像方法，其特征在于，所述真实对抗损失函数，用于区分图像的真假性；所述语义一致性对抗损失函数用于确定生成图像和自然语言的语义一致性；所述基于交叉熵的语义文本重建损失函数，用于保证重描述文本和给定的自然语言描述之间底层语义的对齐。

8.一种基于语义一致性的双向文本生成图像系统，其特征在于，包括：

图像特征提取模块，其被配置为：将文本生成图像模块生成的图像输入图像编码器，提取图像特征；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于语义一致性的双向文本生成图像方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于语义一致性的双向文本生成图像方法中的步骤。