CN113343705A

CN113343705A - 一种基于文本语义的细节保持图像生成方法及系统

Info

Publication number: CN113343705A
Application number: CN202110455323.XA
Authority: CN
Inventors: 刘丽; 马跃; 崔怀磊; 王泽康; 张化祥; 冯珊珊
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-09-03
Anticipated expiration: 2041-04-26
Also published as: CN113343705B

Abstract

本公开公开的一种基于文本语义的细节保持图像生成方法及系统，包括：获取文本信息；提取文本信息的文本特征、句子特征和单词特征；将文本特征、句子特征和单词特征输入训练好的图像生成对抗网络中，输出文本图像；其中，图像生成对抗网络包括基于混合注意力模块与细节优化模块的生成网络和基于深度注意力多态相似模型的判别网络。保证了生成的文本图像的准确率。

Description

一种基于文本语义的细节保持图像生成方法及系统

技术领域

本发明涉及跨模态文本生成图像技术领域，尤其涉及一种基于文本语义的细节保持图像生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

生成在语义上与给定文本描述相匹配的高细粒度图像是一个具有挑战性的问题，并且具有巨大的潜在应用，包括照片编辑，图像修复，图像着色，风格迁移，计算机辅助设计等。近来，由于生成对抗网络(GAN)的提出，文本到图像的生成已取得了显着进展。

文本生成图像的方法中，Reed等人提出的生成对抗网络(GAN)大大提高了文本生成图像的效果，并成为后来的主流思想。Zhang等人提出了堆叠生成对抗网络(StackGANs),采用多阶段GAN来分步生成图像，旨在生成高分辨率的真实感图片。更进一步，其后续提出的堆叠生成对抗网络(StackGAN++)，将GAN扩充成一个树状的结构，采用了多个生成器和多个鉴别器并行训练，保证了逐步提取更加精细的文本信息。Xu提出注意力对抗生成网络(AttnGAN)，利用一种新颖的注意力生成网络，允许注意力驱动的、多阶段的细化来生成细粒度高的的图像。MirrorGAN实现图像到文本的转换来增强语义一致性，该过程将重新生成的文本与原始文本描述进行比较以获得精准的梯度信息。Park等人提出了一种多条件生成对抗网络(MC-GAN)，它可以根据文本描述在不包含类似对象的基础图像上绘制目标对象。

现有的文本到图像方法生成的样本可以大致反映给定描述的含义，但是，训练GAN从文本描述生成高分辨率的逼真的图像并不容易，在最新的GAN模型中简单地添加更多的上采样层以生成高分辨率图像通常会导致训练不稳定，无法包含一些必要的细节和生动的图像部分并且产生无意义的输出。细节优化旨在修改图像的某些方面，使其生成一些必要的细节和生动的图像来满足需求，生成高细粒度，高语义一致性的图像。于是，Li等人提出了一种可控的文本图像生成对抗网络(ControlGAN)，该网络根据自然语言描述控制图像生成的各个细节部分。更进一步，Li等人提出的文字引导的图像处理生成网络(ManiGAN)，实现在语义上编辑图像的各个部分，以匹配描述给定文本的各个细节部分。然而，通过融合文本和图像信息，实现以文本描述为指导的有效图像处理，需要同时利用文本和图像跨模态信息，生成与给定文本匹配的新属性，现有方法通常选择沿通道方向直接合并图像和全局句子特征，无法将细粒度词与需要细节修正的相应视觉属性精确关联，从而导致不准确和粗略的细节修正。例如，模型无法生成详细的视觉属性，例如眼圈颜色等。

发明内容

本公开为了解决上述问题，提出了一种基于文本语义的细节保持图像生成方法及系统，能够将文本准确的转换为图像。

为实现上述目的，本公开采用如下技术方案：

第一方面，提出了一种基于文本语义的细节保持图像生成方法，包括：

获取文本信息；

提取文本信息的文本特征、句子特征和单词特征；

将文本特征、句子特征和单词特征输入训练好的图像生成对抗网络中，输出文本图像；

其中，图像生成对抗网络中的生成网络包括多阶段图像特征转换网络，在每一阶段网络中添加细节优化模块，细节优化模块对每一阶段网络的隐藏特征进行优化，输出隐藏的视觉特征，隐藏的视觉特征输入生成器中，输出合成图像，除最后一阶段外的其余阶段网络的细节优化模块输出的隐藏的视觉特征还与单词特征一起输入混合注意力模块中，输出注意力单词语境特征，注意力单词语境特征与当前阶段网络生成的隐藏特征连接后输入下一阶段网络中。

第二方面，提出了一种基于文本语义的细节保持图像生成系统，包括：

文本信息获取模块，用于获取文本信息；

特征提取模块，用于提取文本信息的文本特征、句子特征和单词特征；

文本图像获取模块，用于将文本特征、句子特征和单词特征输入训练好的图像生成对抗网络中，输出文本图像；

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于文本语义的细节保持图像生成方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于文本语义的细节保持图像生成方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开通过细节优化模块修正图片与文本不匹配的部分，从而增强图像细节，提高图像细粒度与匹配度，保证生成图像的准确度。

2、本公开引入混合注意力机制，增强具有高相关性的通道，避免无区别地对待所有通道，以便可以充分利用视觉特征中最相关的通道，进一步保证生成图像的准确度。

3、本公开构造深度注意力多态相似模型，使用句子级别信息和词级信息来计算生成的图像和句子之间的相似度，从而生成细粒度与匹配度较好的图像，保证了生成图像的准确度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开的生成对抗网络模型图；

图2为本公开实施例1公开的引入注意力机制的长短时记忆神经网络图；

图3为本公开实施例1公开的细节增强模块图；

图4为本公开实施例1公开的细节修正模块图；

图5为本公开实施例1公开的图像编码器图像特征提取流程图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

为了将文本准确转化为图像，在该实施例中，公开了一种基于文本语义的细节保持图像生成方法，包括：

获取文本信息；

提取文本信息的文本特征、句子特征和单词特征；

进一步的，将文本信息输入引入注意力机制的长短时记忆神经网络中，获取文本特征、句子特征和单词特征。

进一步的，最后一阶段网络中的细节优化模块为细节修正模块，细节修正模块的输入为单词特征、文本特征和当前阶段网络的隐藏特征，输出为隐藏的视觉特征。

进一步的，除最后一阶段外的其余阶段网络中的细节优化模块为细节增强模块，细节增强模块的输入为文本特征和当前阶段网络的隐藏特征，输出为隐藏的视觉特征。

进一步的，生成网络的第一阶段网络的输入为增强后的句子特征。

进一步的，图像生成对抗网络中的判别网络采用图像编码器从生成网络输出的合成图像中提取图像子区域，基于深度注意力多态相似模型计算图像编码器生成的图像子区域和从文本句子中提取的单词特征的相似度。

进一步的，深度注意力多态相似模型将图像编码器提取的图像子区域和文本句子的单词特征映射到公共语义空间，从而在单词级别测量图像-文本相似度。

结合图1-5对本实施例公开的一种基于文本语义的细节保持图像生成方法进行详细说明。

S1：获取文本信息。

S2：提取文本信息的文本特征、句子特征和单词特征。

在具体实施时，将文本信息输入文本编码器中，输出文本特征、句子特征和单词特征。

其中，文本编码器采用引入注意力机制的长短时记忆神经网络(LSTM-Attention)，从文本信息中提取语义向量，引入注意力机制的长短时记忆神经网络如图2所示，文本信息d由n个句子组成即d＝{s₁,s₂,…,s_n}，每个句子由m个单词组成,则样本中的第i个句子s_i可以表示成s_i＝{w_i1,w_i2,…,w_im}。模型对文本进行向量化,得到词向量矩阵由

表示,通过文本向量化层实现文本向量化。对于一个句子，可以将句子看成是由词语组成的序列信息。首先通过LSTM网络对向量化的句子序列x_i1,x_i2,…,x_it作为LSTM的输入节点数据,在t时刻输人到网络的句子根据t-1时刻的LSTM细胞状态c_t-1和隐层状态h_t-1进行更新得到h_i。这里的x_i1,x_i2,…,x_it是指句子中的每个词语,在不同的时刻LSTM会输出对应节点的隐层输出值h_i1,h_i2,…,h_it。x_it经过LSTM得到h_it，得到h_it作为一个句子的特征向量,输入到下一网络层。

通过这样的方式将句子序列的前后信息进行学习，得到句子词语之间的前后信息,对文本句子进行语义编码。在文本中，每一个词语对于文本类别的贡献度是不一样的，为了实现对重要词语的特征进行提取，增加这层可以进一步地提取文本之间的更深层的信息，在此使用了注意力机制，首先将LSTM隐层的输出信息h_it经过非线性变换得到其隐含表示u_it，通过随机初始化注意力机制矩阵u_w与u_it进行点乘运算并对其使用softmax进行归一化操作，最终得到词级别LSTM隐层输出的权重系数。同样，可以把文本看成是由句子组成的序列信息。为了得到整个文本的语义关系特征,将上一网络层得到的句子向量s_i输入到LSTM网络,在t时刻输人到网络的句子根据t-1时刻的LSTM细胞状态c_t-1和隐层状态h_t-1进行更新得到h_i。通过该网络层得到句子之间的语义关联信息,实现文本特征信息的提取。在一个文本中，不同句子对文本信息重要程度的贡献也是不同的。采用和词级别同样的方式进行对重要句子给予不同权重参数的操作,通过上述方法也可以得到句子的注意力机制矩阵。在LSTM-Attention中，每个单词对应两个隐藏状态，每个方向对应一个隐藏状态。因此，将其两个隐藏状态连接起来以表示一个单词的语义。所有单词的特征矩阵由

表示，w_i是第i^th单词的特征向量，D是单词向量的维数，L是单词的个数。同时，最后隐藏状态与句子向量相连接，用

表示。

S2：将文本特征、句子特征和单词特征输入训练好的图像生成对抗网络中，输出文本图像。

在具体实施时，图像生成对抗网络的结构如图1所示，包括：基于混合注意力模块与细节优化模块的生成网络和基于深度注意力多态相似模型的判别网络。通过逐级细节优化机制纠正不匹配的属性，修复图像的缺失内容；引入深度注意力多态相似模型，利用注意力机制，使用全局句子级别信息和细粒度词级别信息来计算生成的图像和句子之间的相似度。

其中，生成网络包括多阶段图像特征转换模块，多变率图像获取模块和图像细节修正模块，第一阶段网络的输入为条件增强后的句子特征。

给定一个句子S，文本编码器将句子S编码为一个句子特征s，维度为D，单词特征w，其长度为L(即单词数)，维度为D。将句子特征s输入应用条件增强(CA)中，增强句子特征s进一步与随机向量z相连，以用作第一阶段网络的输入。整个生成网络框架在多个阶段生成分辨率从低到高的图像，并且在每个阶段，通过细节优化机制纠正不匹配的属性，并修复图像的缺失内容，会生成隐藏的视觉特征v_i，这是相应生成器G_i的输入，从而生成合成图像。

混合注意力模块将单词特征w和细节加强模块输出的隐藏特征v_k作为输入，输出注意力单词语境特征，这些注意力单词语境特征与当前阶段网络的隐藏特征连接起来，然后作为下一阶段网络的输入，最终生成质量更高的最高分辨率图像，图像的尺寸为256×256。

关于混合注意力模块进行详细说明，在第k个阶段，混合注意力模块有两个输入：单词特征w和隐藏的视觉特征v_k。单词特征w首先通过感知层F_k映射到与视觉特征v_k相同的语义空间中，得到

然后，通过将转换后的词特征

和视觉特征v_k，来计算通道级注意力矩阵m^k，用

来表示。因此，m^k聚集了所有空间位置上的通道与单词之间的相关值。接下来，由softmax函数将m^k归一化生成归一化的通道注意力矩阵α^k：

其中，

表示在第k个阶段的视觉特征v_k中的第i个通道与句子中的第j个单词之间的相关性，值越高表示相关性越大。依据通道注意力矩阵α^k，最终得到通道级注意力特征

用

来表示。在

中的每个通道都有一个动态表示，该表示由单词和图像特征中相应通道之间的相关性加权。因此，增强了具有高相关值的通道，从而导致对相应单词的高响应，这可以促进将单词属性分解成不同的通道，并通过分配较低的相关性来减少来自不相关通道的影响。空间注意力仅将单词与部分区域相关联，而不会把通道信息考虑在内。此外，CNN中不同的特征通道可能具有不同的用途，避免无区别地对待所有通道，可以充分利用视觉特征中最相关的通道。

关于细节增强模块的说明，细节增强模块用于融合从编码的文本表示和在每个阶段结束时每个上采样块之前的隐藏特征。对于除最后阶段外其余各阶段网络，文本功能都经过几个卷积层的精炼，以产生隐藏特征。细节增强模块进一步与隐藏特征相结合，以便有效地选择与给定文本相对应的图像区域，然后将那些区域与文本信息相关联以进行准确的操作。同时，它还对隐藏特征进行编码，以实现稳定的重建。

细节增强模块如图3所示，整个框架逐渐生成与给定文本描述相匹配的新视觉属性，细节增强模块接受两个输入：(1)当前阶段网络的隐藏特征

其中C是通道数，H和D分别是特征图的高度和宽度；(2)从由LSTM-Attention神经网络编码器中提取的文本特征

然后，对v进行上采样并用两个卷积层进行进一步处理，同大小的学习权重W(v)和偏差b(v)进行计算。最后，将这两种表示融合，获得隐藏的视觉特征h’：

h′＝h⊙W(v)+b(v) (2)

其中,W(v)和b(v)是基于权重的学习权重和偏差，⊙表示哈达玛积，即两个矩阵的对应元素相乘。乘法运算使文本表示能够重新加权图像特征图，以帮助模型精确地识别与给定文本匹配的所需属性，同时，属性和语义之间的相关性建立有效操作的单词。偏差项对图像信息进行编码，以帮助模型稳定地重建与文本无关的内容。哈达玛积操作使文本特征h变成重新加权后的特征图，即隐藏的视觉特征h’，这可以作为区域选择目的，以帮助模型准确识别与给定文本匹配的所需属性，同时建立属性和语义词之间的相关性，以进行有效的操作。

对于细节修正模块进行说明，细节修正模块如图4所示，利用单词级文本信息和隐藏特征，增强最后一阶段网络图像中的细节并弥补缺失的内容。细节修正模块接受三个输入：(1)来自最后一阶段网络提取的隐藏特征

(2)由文本编码器编码的单词特征w，其中每个词都相关带有特征向量；(3)从LSTM-Attention神经网络编码器中提取的文本特征

首先，为了将细粒度的词级表示形式进一步整合到隐藏特征中，引入了混合来生成空间和通道注意特征

和

分别与h_last进一步连接以产生中间特征a。中间特征a可以进一步帮助模型完善与给定文本有关的视觉属性，有助于对与给定描述相对应的内容进行更准确和有效的修改。对引入的文本特征以进行高质量的重建，将其进一步上采样为与a相同的大小，称为文本表示

然后，通过第一个细节增强模块来融合中间特征a和文本特征V’,产生特征

将产生的特征

和文本表示

输入第二个细节增强模块中，输出隐藏的视觉特征h’。细节修正模块旨在通过增加细节和修复缺失内容来完善图像细粒度。单词级的空间和通道注意将紧密的单词级信息与中间特征图紧密关联起来，从而增强了详细的属性修改，使其包含更详细的颜色，纹理和边缘信息。

对基于深度注意力多态相似模型的判别网络进行详细说明。该判别网络中图像编码器是将图像映射到语义向量的卷积神经网络(CNN)。CNN的中间层学习图像的不同子区域的局部特征，后面的层学习图像的全局特征。图像编码器如图5所示，是基于ImageNet预训练的Inception-v3模型构建的，首先将输入图像缩放为299×299像素。

通过CNN从生成网络生成图像中提取局部特征矩阵

特征矩阵f的每列是图像的子区域的特征向量。766是局部特征向量的维，288是图像中子区域的数量。同时，从Inception-v3的最后平均池化层中提取全局特征向量

通过添加感知层将图像特征转换到文本特征的公共语义空间：

其中，v是图像各子区域的视觉特征向量，

表示整个图像的全局向量。

深度注意力多态相似模型，利用注意力机制，使用整个句子和句子中的单词来计算生成的图像和句子之间的相似度。所以，深度注意力多态相似模型为训练生成器提供了额外的细粒度图文匹配损失。深度注意力多态相似模型学习了提取文本特征的长短时记忆神经网络和提取图像特征的卷积神经网络，它们将图像的子区域和句子的单词映射到公共语义空间，从而在单词级别测量图像-文本相似度。

为了更好地训练该网络模型，引入两个对抗性损失：视觉的真实性对抗损失和语义一致性对抗性损失。在网络模型训练的每个阶段，图像生成器G和判别器D交替训练。通过最小化生成器损失

和判别器损失

来训练生成器和判别器。使生成器能够合成更真实和文本图像语义一致的图像。同时在生成网络中加入额外的视觉损失，强化了生成图像与真实图像的相似度，使得生成图像具有更高的真实性。

生成器损失：整个生成器损失函数包含对抗性损失

文本图像相关损失

感知损失

和文本图像匹配损失

其中，K是阶段数，I_k是从真实图像分布P_data在阶段k采样的真实图像，I′_k是在第k阶段从模型分布

采样的生成图像，λ₂，λ₃，λ₄是控制不同损耗的超参数。

用于测量文本-图像匹配度，

反映了生成的图像与给定文本描述之间的相关性。

无条件和有条件的对抗损失组成的对抗损失

应用无条件的对抗损失使合成图像真实，并利用有条件的对抗损失使生成的图像与给定文本相匹配。

判别器损失：

用于训练判别器的最终损失函数

定义为：

其中，

是相关损失，用于确定图像中是否存在与单词相关的视觉属性，S'是从数据集中随机采样且与I_k不相关的不匹配文本描述，λ₁是控制附加损失重要性的超参数。

对抗损失

包含两个组成部分：

无条件对抗损失确定图像是否为真实图像，条件对抗损失确定给定图像是否与文本描述匹配。

本实施例通过细节优化模块修正图片与文本不匹配的部分，从而增强图像细节，提高图像细粒度与匹配度，通过引入混合注意力机制，增强具有高相关性的通道，避免无区别地对待所有通道，以便可以充分利用视觉特征中最相关的通道，通过构造深度注意力多态相似模型，使用句子级别信息和词级信息来计算生成的图像和句子之间的相似度，从而生成细粒度与匹配度较好的图像。有效保证了生成文本图像的准确率。

实施例2

在该实施例中，公开了一种基于文本语义的细节保持图像生成系统，包括：

文本信息获取模块，用于获取文本信息；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于文本语义的细节保持图像生成方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于文本语义的细节保持图像生成方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于文本语义的细节保持图像生成方法，其特征在于，包括：

获取文本信息；

提取文本信息的文本特征、句子特征和单词特征；

2.如权利要求1所述的基于文本语义的细节保持图像生成方法，其特征在于，将文本信息输入引入注意力机制的长短时记忆神经网络中，获取文本特征、句子特征和单词特征。

3.如权利要求1所述的基于文本语义的细节保持图像生成方法，其特征在于，图像生成对抗网络中的判别网络采用图像编码器从生成网络输出的合成图像中提取图像子区域，基于深度注意力多态相似模型计算图像编码器生成的图像子区域和从文本句子中提取的单词特征的相似度。

4.如权利要求3所述的基于文本语义的细节保持图像生成方法，其特征在于，深度注意力多态相似模型将图像编码器提取的图像子区域和文本句子的单词特征映射到公共语义空间，从而在单词级别测量图像-文本相似度。

5.如权利要求1所述的基于文本语义的细节保持图像生成方法，其特征在于，最后一阶段网络中的细节优化模块为细节修正模块，细节修正模块的输入为单词特征、文本特征和当前阶段网络的隐藏特征，输出为隐藏的视觉特征。

6.如权利要求1所述的基于文本语义的细节保持图像生成方法，其特征在于，除最后一阶段外的其余阶段网络中的细节优化模块为细节增强模块，细节增强模块的输入为文本特征和当前阶段网络的隐藏特征，输出为隐藏的视觉特征。

7.如权利要求1所述的基于文本语义的细节保持图像生成方法，其特征在于，生成网络的第一阶段网络的输入为增强后的句子特征。

8.一种基于文本语义的细节保持图像生成系统，其特征在于，包括：

文本信息获取模块，用于获取文本信息；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种基于文本语义的细节保持图像生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的一种基于文本语义的细节保持图像生成方法的步骤。