CN115797495A

CN115797495A - 一种句子-字符语义空间融合感知的文本生成图像的方法

Info

Publication number: CN115797495A
Application number: CN202310073911.6A
Authority: CN
Inventors: 刘春�; 胡劲松; 张超杰; 王禧; 林泓
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-03-14
Anticipated expiration: 2043-02-07
Also published as: CN115797495B

Abstract

本发明公开了一种句子‑字符语义空间融合感知的文本生成图像的方法，包括步骤：S1）使用文本编码器对文本信息进行编码，输出句子嵌入向量和词嵌入向量；S2）采用生成器生成初步的图像特征；S3）句子嵌入向量和初步的图像特征通过句子层级感知模块提取粗粒度信息，并在坐标掩码预测期的引导下生成图像的全局特征；S4）词嵌入向量和图像的全局特征通过字符层级感知模块利用细粒度信息调整图像的细节特征，生成最终的图像特征；S5）将最终的图像特征输入至图像转换模块，转化为RGB图像。采用本发明方法能够生成更为清晰生动、细节更加丰富、多样性更高的图像。

Description

一种句子-字符语义空间融合感知的文本生成图像的方法

技术领域

本发明涉及计算机视觉和多媒体领域，具体涉及一种句子-字符语义空间融合感知的文本生成图像方法。

背景技术

从文本生成图像是多模态深度学习的子任务，其不仅需要解析文本的语义信息，还要挖掘文本和图像之间的潜在联系，合成信息完整、细节丰富的高质量图像，是一项有趣且极具挑战性的任务，在视觉推理、图像编辑、广告设计、风格迁移领域具有广阔应用前景。

在文本生成图像中，文本以字词为单位表达语义，图像以像素为单位组合排列，两者具有异构的信息来源，在实际任务中，文本特征是循环神经网络提取的序列信息，图像特征是卷积神经网络提取的空间信息，两者在特征表达上又具有模态隔阂，这使得生成模型很难协同处理和关联两种模态的信息。文本生成图像的核心就是挖掘文本和图像两种模态之间的转译关系，搭建文本和图像之间的跨模态数据映射桥梁。生成对抗网络（GenerativeAdversarial Networks, GAN）由于其生成器-判别器结构，能够根据给定条件生成对应的逼真图像，在跨模态任务中发挥着重要作用。

为了解决文本到图像的跨模态约束问题，现有生成对抗网络引入了条件仿射变换，DF-GAN利用句子文本描述中的语言线索通过堆叠多个仿射变换块，每个变换块采用两个多层感知器从句子特征出发，分别学习自适应于给定文本语义条件的缩放参数和移位参数，对视觉特征图各区域进行尺度缩放和偏移；SSAGAN在其基础上设计了一种掩码预测器来计算掩码预测图，生成模型参照预测图为权重大的地方分配更多的文本信息，重点调整这些区域从而增强图像与文本的语义一致性。以上方法均能促进生成器更好的学习文本描述中的信息，从而生成较好的图像。上述方法存在以下问题：

（1）目前基于条件仿射变换的文本生成图像方法仅使用了句子级全局文本特征，没有利用到单词级信息，而文本具有很强的描述多样性，模型难以仅仅依靠全局句子级特征解析文本的细节特征，有限粗粒度的信息约束很难精准地实现文本语义与图像语义的对应；

（2）SSAGAN设计的掩码预测器卷积表征能力不足，局部感受野的限制使其难以准确地感知图像的全局信息。

发明内容

为了解决上述技术问题，本发明针对粗粒度信息的有限约束难以准确建立文本到图像的语义映射，以及普通掩码预测器没有足够的表示能力来准确地感知图像的全局信息的不足，设计了一种句子-字符语义空间融合感知的文本生成图像方法，该方法能够生成更为清晰生动、细节更加丰富、多样性更高的图像。

为实现上述目的，本发明所设计的一种句子-字符语义空间融合感知的文本生成图像的方法，其特殊之处在于，所述方法包括如下步骤：

S1）输入描述性文本信息，使用文本编码器对文本信息进行编码，输出句子嵌入向量和词嵌入向量，分别用于表达全局语义特征和局部语义特征；

S2）采用生成器将以高斯分布采样的随机噪声z传入全连接层FC，生成初步的图像特征；

S3）所述句子嵌入向量和所述初步的图像特征通过句子层级感知模块提取粗粒度信息，并在坐标掩码预测期的引导下生成图像的全局特征；

S4）所述词嵌入向量和所述图像的全局特征通过字符层级感知模块利用细粒度信息调整图像的细节特征，生成最终的图像特征；

S5）将所述最终的图像特征输入至图像转换模块，转化为RGB图像。

优选地，步骤S1）中输出句子嵌入向量和词嵌入向量的过程为：将描述性文本信息按词汇顺序作为序列信息分别接入向前和向后两个方向的长短期记忆网络LSTM中，每个词汇的语义由两个隐藏状态进行表达，将所述隐藏状态组合后形成单词嵌入向量w∈R ^N×L×D，将完全接入网络后的最终隐藏状态进行编码后形成句子嵌入向量s∈R ^N×D，其中N表示批量大小，L表示文本描述的词汇长度，D表示词特征的维度，R表示特征矩阵，即上述w是维数为(N, L, D)的一种特征矩阵，s是维数为(N, L)的一种特征矩阵。

优选地，步骤S3）中，所述句子层级感知模块包括坐标掩码预测器和两个句子层级语义空间感知子模块；所述坐标掩码预测器用于生成图像坐标注意力掩码图m _i，所述句子层级语义空间感知子模块将所述句子嵌入向量s作为语义条件在所述图像坐标注意力掩码图上建立两段句子层级语义空间感知模块SSATM，最后以残差的形式与当前层输入的图像特征f _i-1连接，生成新的图像特征f _i∈R ^N×C×Hi×Wi。

优选地，所述句子层级语义空间感知子模块包括多个句子级别仿射变换模块、LeakyRelu激活层和卷积层，输入是图像坐标注意力掩码图m _i和句子嵌入向量s，句子级别仿射变换模块利用文本信息约束图像合成，LeakyReLU激活层引入非线性关系，卷积层提取隐层特征，扩大仿射变换块的条件表示空间。

优选地，所述句子级别仿射变换模块先将尺度参数γ与m _i相乘进行尺度缩放操作，再加上偏移参数β进行偏移操作，所述句子级别仿射变换模块的输入是坐标注意力掩码图m _i，多层感知器MLP的维数为N×C，仿射变换的过程如下式所示：

SenAff(m _ij |s) =γ _i·m _ij+β _j

SenAff是句子级别的仿射变换，m _ij表示的是坐标注意力掩码图m _i的第j个通道，γ _j表示的是尺度参数γ的第j个通道，β _j表示的是偏移参数β的第j个通道，j∈[1,C] 。

优选地，步骤S4）中，所述字符层级感知模块包括坐标掩码预测器和两个字符层级语义空间感知子模块，两个输入分别为字符特征w∈R ^N×L×D和初步的图像特征f _i-1∈R ^N ^{×C×Hi-1×W i-1}，初步的图像特征f _i-1经过双三次插值算法进行上采样后变为f’ _i-1∈R ^N ^{×C×(2×Hi-1)×(2×W i-1)}，最后以残差的形式与当前层输入的图像特征f _i-1连接，生成新的图像特征f _i∈R ^N×C×Hi×Wi。

优选地，步骤S4）中，所述字符层级语义空间感知子模块由多个字符级别仿射变换模块、LeakyReLU激活层和卷积层堆叠而成；所述字符级别仿射变换模块根据词嵌入向量直接指导图像特征的特征表达，关注生成图像局部纹理、属性等细节特征，在字符级别仿射变换模块中，词嵌入向量w首先经过重塑和Linear变换层变为w’∈R ^N×D×Li，然后进行字符级的仿射变换：

γ=MLP ₁(w’),β=MLP ₂(w’)

WordAff(f _ij |s) =γ _i·f _ij+β _j

WordAff是字符级别的仿射变换，f _ij表示的是特征图f _i的第j个通道。

优选地，步骤S5）生成RGB图像后执行以下步骤：

S6）将所述RGB图像输入至卷积层和下采样块中，转化为图像特征；

S7）将所述图像特征与步骤S1）中句子嵌入向量连接，计算对抗损失，计算损失函数值，所述损失函数值符合预设范围则RGB图像符合设定，流程结束，否则返回步骤S1）。

优选地，步骤S5）中，所述图像转换模块包括LeakyRelu激活层、卷积层和Tanh激活层。

本发明另外提出一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述一种句子-字符语义空间融合感知的文本生成图像的方法。

本发明与现有技术相比具有如下优点和有益效果：

(1) 本发明针对粗粒度信息的有限约束难以准确建立文本到图像的语义映射，以及目前设计的掩码预测器没有足够的表示能力来准确地感知图像的全局信息的问题，设计了一种句子-字符语义空间融合感知的文本生成图像方法，该方法能够生成更为清晰生动、细节更加丰富、多样性更高的图像；

(2) 本发明将生成模型的语义感知分为句子和字符两大层级，句子层级在坐标注意力掩码图上建立句子层级感知模块，句子层级感知模块利用粗粒度信息，在其内部的坐标掩码预测器的引导下生成图像的全局特征，字符层级建立字符层级感知模块，利用细粒度信息调整图像纹理、属性等局部细节特征，在保证语义一致性的同时进一步增强生成网络的感受野；

(3)本发明方法使用的模型与基准模型相比，在IS和FID指标上分别提升了0.98%和12.69%，不同数据集上的实验结果和消融研究结果显示了本模型的有效性。

附图说明

图1是本发明方法的整体网络模型结构示意图；

图2是图1中句子层级感知模块结构示意图；

图3是图1中的字符层级感知模块结构示意图；

图4是图1中的弱监督坐标掩码预测器结构示意图；

图5是本发明方法与AttnGAN、DF-GAN、SSA-GAN模型算法的视觉效果对比图；

图6是本发明方法的字符级细粒度视觉对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。

本发明方法的整体网络模型和处理流程如图1所示。

本发明提出的一种句子-字符语义空间融合感知的文本生成图像的方法，包括如下步骤：

文本描述按词汇顺序作为序列信息分别接入向前和向后两个方向的长短期记忆网络LSTM中，在网络中，每个词的语义由两个隐藏状态进行表达，将这些隐藏状态组合后形成单词嵌入，最后的隐藏状态输出形成句子嵌入。当所有单词被输入到该双向长短期记忆网络LSTM，生成句子嵌入为s∈R ^N×D，生成单词嵌入为w∈R ^N×L×D，其中N表示批量大小，L表示文本描述的词汇长度，D表示词特征的维度，R表示矩阵，即上述w是维数为(N, L, D)的一种特征矩阵，s是维数为(N, L)的一种特征矩阵。

S2）采用生成器将以高斯分布采样的随机噪声z传入全连接层FC，生成初步的图像特征。

S3）句子嵌入向量和初步的图像特征通过句子层级感知模块提取粗粒度信息，并在坐标掩码预测期的引导下生成图像的全局特征。

采用句子-字符语义空间融合感知模块将生成模型的语义感知分为句子和字符两大层级，如图2所示，句子层级感知模块包括坐标掩码预测器和两个句子层级语义空间感知子模块，坐标掩码预测器用于生成图像坐标注意力掩码图m _i，句子层级语义空间感知子模块将句子嵌入向量s作为语义条件在图像坐标注意力掩码图上建立两段句子层级语义空间感知模块SSATM，最后以残差的形式与当前层输入的图像特征f _i-1连接。

坐标掩码预测器用于生成图像坐标注意力掩码图，坐标注意力掩码图沿垂直和水平方向提取跨通道的方向感知特征和位置特征，使句子层级能更准确地定位和生成目标对象的结构，为图像关键主体分配更多语义信息。

坐标掩码预测器，能基于当前的图像特征映射生成坐标注意力掩码图，直观地指示当前图像特征的哪些部分需要着重生成，鼓励生成模型在图像复杂的布局中更多关注主体结构，并在生成器初始阶段为图像的主体区域分配更多的文本信息。如图4所示，其具体过程如下：

坐标掩码预测器首先分别使用两个大小为（H,1）和（1,W）自适应平均池化核沿水平和垂直提取图像的位置特征，其中输入为图像特征f _i∈R ^N×C×H×W，f _ik表示图像特征f _i的第k个通道，f ^x _ik(h)表示图像特征f _i的第k个通道的第h行(0≤h＜H)的水平特征，f ^y _ik(w)表示图像特征f _i的第k个通道的第w行(0≤w＜W)的垂直特征，输出为一对方向感知特征坐标f ^x _i∈R ^N×C×H×1和f ^y _i(w) ∈R ^N×C×1×W；

f ^x _ik(h) =1/W×Σ^W _k=0 f _ik(h,k)

f ^y _ik(w)=1/H×Σ^H _k=0 f _ik(k,w)

将f ^x _i维度翻转为N×C×1×H，之后与f ^y _i通过Cat(f ^x _i,f ^y _i)相连接形成f’ _i∈R ^N ^{×C×1×(H×W)}，再经过共享卷积层、归一化和激活层生成特征f’’ _i∈R ^{N×(C/r)×1×(H×W)}，r表示矩阵，将f’’ _i沿空间维度进行拆分，生成两个独立的张量f’’ _ix∈R ^N×C×H×1和f’’ _iy∈R ^N×C×1×W，再分别经过一次卷积和激活m _ix= σ(Conv(f’’ _ix)) ，m _iy=σ(Conv(f’’ _iy))，Conv表示卷积，σ表示激活函数，生成图像水平和垂直方向的注意力权重坐标：m _ix∈^N×C×H×1和m _iy∈R ^N×C×1×W，最后用原图像特征乘以两个方向的感知特征图m _i=f _i×m _ix×m _iy，生成坐标注意力掩码图m _i∈R ^N ^×C×H×W，掩码预测图m _i从水平和垂直两个方向建立了坐标权重图，权重大的地方代表图像值得关注的地方，即目标对象区域，句子层级感知模块在这些权重高的区域建立句子级别仿射变换，着重约束合成图像的主体结构。

句子层级感知模块的两个输入分别为字符特征w∈R ^N×L×D和初步的图像特征f ₀∈R ^N ^{×C×Hi-1×W i-1}，输入初步的图像特征f ₀由步骤S2）产生，经过双三次插值算法进行上采样后变为f’ _i-1∈R ^{N×C×(2×Hi-1)×(2×W i-1)}，然后使用坐标掩码预测器计算图像坐标注意力掩码图，m _i∈R ^N×C×Hi×Wi其中H _i=2×H _i-1，句子嵌入向量s作为语义条件在该坐标注意力掩码图上建立两段句子层级语义空间感知模块(SSATM)，最后以残差的形式与当前层输入的图像特征f _i-1连接，生成新的图像特征f _i∈R ^N×C×Hi×Wi，其中i∈{1, 2, 3}，输入为由步骤S2）产生的初步图像特征f ₀，输出为图像的全局特征f ₃。

其中句子层级语义空间感知子模块包括多个句子级别仿射变换模块、LeakyRelu激活层和卷积层，输入是图像坐标注意力掩码图m _i和句子嵌入向量s，句子级别仿射变换模块利用文本信息约束图像合成，LeakyReLU激活层引入非线性关系，卷积层提取隐层特征，扩大仿射变换块的条件表示空间。

仿射变换是线性变换和平移变换的叠加，对于每个基于句子语义的仿射变换，采用两个多层感知器（MLP），在文本编码器生成的句子向量约束下学习尺度因子γ和偏移因子β，公式如下：

γ=MLP ₁(s),β=MLP ₂(s)

仿射变换模块输入的是坐标注意力掩码图m _i∈R ^{N×C×(2×Hi-1)×(2×W i-1)} 故MLP的维数为N×C，仿射变换的过程如下式所示：

SenAff(m _ij |s) =γ _i·m _ij+β _j

式中，SenAff是句子级别的仿射变换，m _ij表示的是坐标注意力掩码图m _i的第j个通道，γ _j表示的是尺度参数γ的第j个通道，β _j表示的是偏移参数β的第j个通道，j∈[1,C] 。

仿射变换模块首先将尺度参数γ与m _i相乘进行尺度缩放操作，之后将加上偏移参数β进行偏移操作，尺度缩放操作是对注意力掩码图做线性变换，偏移操作是对注意力掩码图做平移变换。通过句子级仿射变换，生成器可以根据句子嵌入调整坐标注意力掩码图各通道的特征点从而利用条件信息指导图像的特征表达，关注生成图像主体的全局关键特征。

S4）词嵌入向量和图像的全局特征通过字符层级感知模块利用细粒度信息调整图像的细节特征，生成最终的图像特征。

如图3所示，字符层级感知模块包括坐标掩码预测器和两个字符层级语义空间感知子模块，两个输入分别为字符特征w∈R ^N×L×D和由步骤S3）产生图像的全局特征f ₃∈R ^N ^{×C×Hi-1×Wi-1}，初步的图像特征f ₃经过双三次插值算法进行上采样后变为f’ _i-1∈R ^N ^{×C×(2×Hi-1)×(2×W i-1)}，与句子层级不同的是，字符层级感知模块直接使用原图像特征作为字符层级语义空间感知模块的输入，最后以残差的形式与原图像特征连接，生成新的图像特征f _i∈R ^N×C×Hi×Wi，其中i∈{4, 5, 6}，输入为由步骤S3）产生的图像的全局特征f ₃，输出为最终图像特征f ₆。

具体地，字符层级语义空间感知子模块由多个字符级别仿射变换模块、LeakyReLU激活层和卷积层堆叠而成。与句子层级语义空间感知子模不同，由于文本编码器生成的维度原因，词嵌入向量w首先经过重塑和Linear变换层变为w’∈R ^N×D×Li，然后进行字符级的仿射变换：

γ=MLP ₁(w’),β=MLP ₂(w’)

WordAff(f _ij |s) =γ _i·f _ij+β _j

式中，WordAff是字符级别的仿射变换，f _ij表示的是特征图f _i的第j个通道。字符级仿射变换根据字符嵌入直接指导图像特征的特征表达，关注生成图像局部纹理、属性等细节特征。

S5）将最终的图像特征输入至图像转换模块，转化为RGB图像，图像转换模块包括LeakyRelu激活层、卷积层和Tanh激活层，如图1所示。

S6）将RGB图像输入至卷积层和下采样块中，转化为图像特征。

S7）将图像特征与步骤S1）中句子嵌入向量连接，计算对抗损失，计算损失函数值，损失函数值符合预设范围则RGB图像符合设定，流程结束，否则返回步骤S1）。

本实施例中本发明方法的实施过程如下：

本发明实验的配置为： CPU为Intel (R) Core (TM) CPU (2.50GHz)，内存16G，GPU为Tesla V100，操作系统为Ubuntu，实验框架采用PyTorch，采用Python语言编写完成。实验过程具体包括以下步骤：

步骤1，数据收集与处理

（1.1）本发明在CUB-200-2011数据集和COCO-2014数据集上进行了大量实验。CUB数据集包含来自200种鸟类的11788张图像，每张鸟类图像都有对应的十句不同英文描述。COCO数据集包含具有多个对象和复杂背景的图像，每个图像有对应的五句不同英文描述；

（1.2）在获取到数据集之后，首先对文本进行预处理。随机选取一条图像对应的描述性文本，通过填充或者删除单词使每个句子长度一致。

步骤2，文本编码器预训练，将文本输入到一个双向长短期记忆网络进行预训练，预训练后得到的网络能够对文本进行编码，生成句子嵌入向量和单词嵌入向量。

步骤3，模型构建，主体为基于句子-字符语义空间融合感知的文本生成图像的模型。

（3.1）生成器接受一个随机噪声，利用全连接层将其扩充成初步视觉特征图；

（3.2）使用句子-字符语义空间融合感知模块将输入转化成最终图像特征，将其转为RGB图像；

（3.3）判别器接受该图像和它对应的描述语句作为输入，计算该图像与其对应的语句之间的相似性损失，然后利用梯度下降算法依据损失函数更新模型的参数，逐渐提升模型合成图像的质量。

步骤4，效果验证，为了体现本发明方法的有效性和优越性，本发明设计了四个验证实验：

（4.1）将本文设计的基于句子-字符语义空间融合感知的文本生成图像模型与各个文本生成图像模型进行定量指标评估衡量模型的优劣。挑选30000张文本生成图像并计算评估指标IS和FID的得分。

（4.2）将本文设计的基于句子-字符语义空间融合感知的文本生成图像模型与主流的AttnGAN模型、DF-GAN模型、SSA-GAN模型等进行了视觉效果对比分析，如图5所示，其中AttnGAN模型是经典的多阶段文本生成图像生成方法，DF-GAN模型是一种流行的单阶段文本生成图像方法，SSA-GAN模型是目前的SOTA模型；

（4.3）设计实验对比细粒度信息变化后的视觉效果，用于体现模型的字符层级感知能力，如图6所示；

（4.4）设计消融实验进一步验证本文提出模块的有效性。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

实验结果表明：本文提出的句子-字符语义空间融合感知的生成对抗网络模型能够生成更为清晰生动、细节更加丰富的图像，与基准模型相比，本模型在IS和FID指标上分别提升了0.98%和12.69%，不同数据集上的实验结果和消融研究结果显示了我们模型的有效性。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

最后需要说明的是，以上具体实施方式仅用以说明本专利技术方案而非限制，尽管参照较佳实施例对本专利进行了详细说明，本领域的普通技术人员应当理解，可以对本专利的技术方案进行修改或者等同替换，而不脱离本专利技术方案的精神和范围，其均应涵盖在本专利的权利要求范围当中。

Claims

1.一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：步骤S1）中输出句子嵌入向量和词嵌入向量的过程为：将描述性文本信息按词汇顺序作为序列信息分别接入向前和向后两个方向的长短期记忆网络LSTM中，每个词汇的语义由两个隐藏状态进行表达，将所述隐藏状态组合后形成单词嵌入向量w∈R ^N×L×D，将完全接入网络后的最终隐藏状态进行编码后形成句子嵌入向量s∈R ^N×D，其中N表示批量大小，L表示文本描述的词汇长度，D表示词特征的维度，R表示特征矩阵，即上述w是维数为(N, L,D)的特征矩阵，s是维数为(N, L)的特征矩阵。

3.根据权利要求1所述的一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：步骤S3）中，所述句子层级感知模块包括坐标掩码预测器和两个句子层级语义空间感知子模块；所述坐标掩码预测器用于生成图像坐标注意力掩码图m _i，所述句子层级语义空间感知子模块将所述句子嵌入向量s作为语义条件在所述图像坐标注意力掩码图上建立两段句子层级语义空间感知模块SSATM，最后以残差的形式与当前层输入的图像特征f _i-1连接，生成新的图像特征f _i∈R ^N×C×Hi×Wi。

4.根据权利要求3所述的一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：所述句子层级语义空间感知子模块包括多个句子级别仿射变换模块、LeakyRelu激活层和卷积层，输入是图像坐标注意力掩码图m _i和句子嵌入向量s，句子级别仿射变换模块利用文本信息约束图像合成，LeakyReLU激活层引入非线性关系，卷积层提取隐层特征，扩大仿射变换块的条件表示空间。

5.根据权利要求4所述的一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：所述句子级别仿射变换模块先将尺度参数γ与m _i相乘进行尺度缩放操作，再加上偏移参数β进行偏移操作，所述句子级别仿射变换模块的输入是坐标注意力掩码图m _i，多层感知器MLP的维数为N×C，仿射变换的过程如下式所示：

SenAff(m _ij |s)=γ _i·m _ij+β _j

6.根据权利要求1所述的一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：步骤S4）中，所述字符层级感知模块包括坐标掩码预测器和两个字符层级语义空间感知子模块，两个输入分别为字符特征w∈R ^N×L×D和初步的图像特征f _i-1∈R ^{N×C×Hi-1×W i-1}，初步的图像特征f _i-1经过双三次插值算法进行上采样后变为f’ _i-1∈R ^{N×C×(2×Hi-1)×(2×W i-1)}，最后以残差的形式与原图像特征连接，生成新的图像特征f _i∈R ^N×C×Hi×Wi。

7.根据权利要求6所述的一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：步骤S4）中，所述字符层级语义空间感知子模块由多个字符级别仿射变换模块、LeakyReLU激活层和卷积层堆叠而成；所述字符级别仿射变换模块根据词嵌入向量直接指导图像特征的特征表达，关注生成图像局部纹理、属性等细节特征，在字符级别仿射变换模块中，词嵌入向量w首先经过重塑和Linear变换层变为w’∈R ^N×D×Li，然后进行字符级的仿射变换：

γ=MLP ₁(w’), β= MLP ₂(w’)

WordAff(f _ij |s)=γ _i·f _ij+β _j

8.根据权利要求1所述的一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：步骤S5）生成RGB图像后执行以下步骤：

9.根据权利要求1所述的一种句子-字符语义空间融合感知的文本生成图像的方法，其特征在于：步骤S5）中，所述图像转换模块包括LeakyRelu激活层、卷积层和Tanh激活层。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法。