CN113140023A

CN113140023A - 一种基于空间注意力的文本到图像生成方法及系统

Info

Publication number: CN113140023A
Application number: CN202110474295.6A
Authority: CN
Inventors: 季薇; 罗盛耀; 李云
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-20
Anticipated expiration: 2041-04-29
Also published as: CN113140023B

Abstract

本发明提供一种基于空间注意力的文本到图像生成方法及系统，将文本描述输入文本编码器输出句子向量；生成服从高斯分布的随机噪声向量；生成器包括三个空间注意力模块和六个依次连接的上模块，其中位于第一个的上模块连接全连接层，位于最后三个的上模块分别连接一个空间注意力模块，三个空间注意力模块共同连接一个特征组通道归并模块，特征组通道归并模块连接卷积层，在生成器中引入了空间注意力机制，对特征图中不同区域分配不同程度的注意力，加强特征图中最有用的特征，抑制无用的特征，避免了产生伪像的问题；引入了特征组通道归并模块，充分融合文本信息，以增强提取得到特征的表达能力，使生成的图像更加清晰，并且符合给定的文本描述。

Description

一种基于空间注意力的文本到图像生成方法及系统

技术领域

本发明属于计算机视觉以及人工智能技术领域，具体涉及一种基于空间注意力的文本到图像生成方法。

背景技术

图像在日常生活中发挥着举足轻重的作用，人们可通过搜索引擎查找想要的图像。但由于一个关键词可能对应许多不同的图像，所以准确地找到想要的图像非常困难。如果计算机能将输入的文本自动合成对应的图像，那么不仅能够减少图像创作者的工作负担，也能提高人们搜寻图片的效率。这种所谓的“文本到图像生成技术”除了图像检索领域的应用之外，在艺术创作、计算机辅助设计等方面同样具有巨大的应用潜力。因此，利用计算机技术将文本所表达的语义信息转化为其所对应的图像成为一个具有重要意义的研究课题。

文本到图像生成是指一种将给定的文本描述生成一幅图像的技术，该技术不仅要保证生成的图像真实，还要使生成的图像符合给定的文本描述。该技术是一项涉及到自然语言处理和计算机视觉这两个领域的综合性任务，不仅要求计算机能够剖析文本所传达的语义信息，还要求其将这些语义信息转变为真实且细节丰富的图像，因而是一项极具挑战且极具研究价值的任务。

近年来，深度学习在人工智能领域取得了巨大的成功，并迅速成为人工智能领域的主导技术。究其本质，深度学习就是使用许多非线性函数的组合来建模输入要素和标签之间的复杂依存关系。循环神经网络和卷积神经网络的相继出现极大地提高了神经网络在计算机视觉、自然语言处理等方面的性能。

2014年，生成器的出现更是极大地推动了深度学习技术的发展。生成器由生成器和判别器两个神经网络组成：生成器试图通过生成伪造的训练样本来欺骗判别器；而判别器的作用则是对生成器生成的样本进行判别，并从中分辨出真实的和伪造的训练样本。二者通过上述博弈过程，使生成器得以模拟真实数据的分布，使判别器无法区分真实数据和伪造数据，最终达到纳什平衡。计算机视觉领域中存在的一些问题随着生成器的出现得以解决，例如人脸的高分辨率合成、图像超分辨率分析、图像修复、数据增强、样式转换、图像到图像翻译等。生成器在自然语言处理领域也有很多应用，例如文本生成、机器翻译等。生成器在上述领域的应用和技术突破，为文本到图像生成提供了更多的可能性。

文本到图像生成方法有变分自编码器、深度递归注意力写入器和生成器。鉴于生成器在图像合成方面展现的巨大优势，主流的文本到图像生成方法大多是基于生成器来实现的。现有的文本到图像生成方法大多采用相似的框架，即利用预训练的文本编码器将输入的文本描述编码为句子向量，然后将条件生成器训练为图像解码器，再结合句子向量和符合正态分布的噪声向量来生成符合文本描述的图像。具体的框架包括StackGAN、AttnGAN、MirrorGAN等。StackGAN的模型中，使用3对“生成器-判别器”组合，逐渐生成高分辨率的图像，可有效解决生成图像分辨率不高的问题。StackGAN也成为了之后一些模型的主流框架。AttnGAN则通过引入注意力机制，使生成图像的细节更加准确。MirrorGAN使用对偶的思想，在模型中加入了图像描述模块，使生成的图像与给定的文本更加匹配。

然而，现有网络结构中的卷积运算受局部感受野的限制，无法处理整个像素空间内大范围、多层次的依赖关系，从而使生成的图像整体不协调。且为了生成高分辨率的图像，现有模型大多采用堆叠或者嵌套的结构，而这种结构很容易使生成的图像产生伪像，图像中的某些细节不真实。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于空间注意力的文本到图像生成方法，在生成器中引入了空间注意力机制，对特征图中不同区域分配不同程度的注意力，加强特征图中最有用的特征，抑制无用的特征，避免了产生伪像的问题；引入了特征组通道归并模块，充分融合文本信息，以增强提取得到特征的表达能力，使生成的图像更加清晰，并且符合给定的文本描述。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于空间注意力的文本到图像生成方法，其特征在于，包括：

将文本描述输入预先构建的文本编码器得到句子向量；

生成服从高斯分布的随机噪声向量；

将所述句子向量输入预先训练好的生成器，所述生成器输出与文本描述对应的图像；

其中，所述句子向量和随机噪声向量用于训练所述生成器。

进一步地，还包括将所述句子向量和所述生成器输出的图像输入预先构造的判别器，所述判别器用于判断所述生成器输出的图像是否符合文本描述。

进一步地，

所述生成器的训练过程包括：

随机噪声向量输入所述生成器获取维度为W₀×H₀×C₀的特征图，其中，W₀表示特征图的宽度、H₀表示特征图的高度、C₀表示特征图的通道数；

将维度为W₀×H₀×C₀的特征图以及所述句子向量输入生成器，维度为W₀×H₀×C₀的特征图的宽度和高度每次递增2倍，特征图的通道数保持不变，共递增6次，在第4、5和6次递增后；分别输出维度为W₂₄×H₂₄×C₂₄的特征图，其中W₂₄＝16W₀，H₂₄＝16H₀，C₂₄＝64；维度为W₂₅×H₂₅×C₂₅的特征图，其中W₂₅＝32W₀，H₂₅＝32H₀，C₂₅＝64；维度为W₂₆×H₂₆×C₂₆的特征图其中W₂₆＝64W₀，H₂₆＝64H₀，C₂₆＝64；

对维度为W₂₄×H₂₄×C₂₄、W₂₅×H₂₅×C₂₅和W₂₆×H₂₆×C₂₆的特征图上的特征点在空间维度上以加权的形式进行自适应的调整，得到维度分别为W₃×H₃×C₃、2W₃×2H₃×C₃和4W₃×4H₃×C₃的特征图，其中W₃＝16W₀，H₃＝16H₀，C₃＝64；

对维度分别为W₃×H₃×C₃、2W₃×2H₃×C₃和4W₃×4H₃×C₃的特征图进行特征组通道归并，最终得到维度为4W₃×4H₃×(C₃×3)的特征图；

将维度为4W₃×4H₃×(C₃×3)的特征图传入卷积核为3×3的卷积层得到最终关于文本描述的生成图像。

进一步地，维度为W₀×H₀×C₀的特征图递增过程为：

步骤1：对维度为W₀×H₀×C₀的特征图依次进行尺度因子为2的上采样操作得到一次变换后的特征图；

步骤2：将所述句子向量进行仿射变换，得到尺度偏移向量γ和β，向量γ和β的维度与一次变换后的特征图的通道数保持一致，将一次变换后的特征图沿着通道轴与向量γ相乘，再加上向量β，得到二次变换后的特征图；

步骤3：将二次变换后的特征图输入Leaky Relu激活函数；

步骤4：将Leaky Relu激活函数输出的特征图重复进行步骤2和3，得到三次变换后的特征图；

步骤5：将三次变换后的特征图进行卷积；得到四次变换后的特征图；

步骤6：将四次变换后的特征图重复进行步骤2-5，得到五次变换后的特征图；

步骤7：将五次变换后的特征图与一次变换后的特征图沿通道轴合并，得到六次变换后的特征图；

步骤8：将步骤1-7重复执行5次，最终得到维度为W₁×H₁×C₁的特征图，其中W₁＝64W₀，H₁＝64H₀，C₁＝64。

进一步地，维度为4W3×4H3×(C3×3)的特征图获取过程为：

对维度为W₃×H₃×C₃的特征图进行4倍上采样操作，得到维度为4W₃×4H₃×C₃的特征图，对维度为2W₃×2H₃×C₃的特征图进行2倍上采样操作，得到维度为4W₃×4H₃×C₃的特征图，将维度为4W₃×4H₃×C₃的特征图传入卷积核为1×1的卷积层，得到维度为4W₃×4H₃×C₃的特征图，其中W₃＝16W₀，H₃＝16H₀，C₃＝64，将维度为4W₃×4H₃×C₃的特征图沿着通道轴进行拼接，融合高低层特征，最后得到维度为4W₃×4H₃×(C₃×3)的特征图。

进一步地，一种基于空间注意力的文本到图像生成系统，包括：

文本编码器，被配置用于根据文本描述输出句子向量；

随机噪声向量生成模块，被配置用于生成服从高斯分布的随机噪声向量；

生成器，被配置用于基于输入的文本描述输出对应的图像；所述生成器包括全连接层、特征组通道归并模块、卷积层模块、三个空间注意力模块和六个依次连接的上模块，其中位于第一个的上模块连接所述全连接层，位于最后三个的上模块分别连接一个空间注意力模块，三个空间注意力模块共同连接一个特征组通道归并模块，所述特征组通道归并模块连接卷积层模块，随机噪声向量输入全连接层输出维度为W₀×H₀×C₀的特征图，其中，W₀表示特征图的宽度、H₀表示特征图的高度、C₀表示特征图的通道数，将维度为W₀×H₀×C₀的特征图和句子向量输入上模块，每通过一个上模块维度为W₀×H₀×C₀的特征图的宽度和高度递增2倍，特征图的通道数保持不变，通过第4个上模块向对应的空间注意力模块输出维度为W₂₄×H₂₄×C₂₄的特征图，其中W₂₄＝16W₀，H₂₄＝16H₀，C₂₄＝64；通过第5个上模块向对应的空间注意力模块输出维度为W₂₅×H₂₅×C₂₅的特征图，其中W₂₅＝32W₀，H₂₅＝32H₀，C₂₅＝64；通过第6个上模块向对应的空间注意力模块输出维度为W₂₆×H₂₆×C₂₆的特征图，其中W₂₆＝64W₀，H₂₆＝64H₀，C₂₆＝64；三个空间注意力模块对维度为W₂₄×H₂₄×C₂₄、W₂₅×H₂₅×C₂₅和W₂₆×H₂₆×C₂₆的特征图上的特征点在空间维度上以加权的形式进行自适应的调整，得到维度分别为W₃×H₃×C₃、2W₃×2H₃×C₃和4W₃×4H₃×C₃的特征图，其中W₃＝16W₀，H₃＝16H₀，C₃＝64；并输入特征图进行特征组通道归并模块，特征图进行特征组通道归并模块对维度分别为W₃×H₃×C₃、2W₃×2H₃×C₃和4W₃×4H₃×C₃的特征图进行特征组通道归并，最终得到维度为4W₃×4H₃×(C₃×3)的特征图，并输入到卷积层模块，卷积层模块输出最终关于文本描述的生成图像。

进一步地，每个上模块包括1个上采样层和2个深度文本图像融合模块，每个深度文本图像融合模块包括依次连接的第一仿射变换层、第一Leaky Relu激活函数、第二仿射变换层、第二Leaky Relu激活函数和卷积核为3×3的卷积层。

进一步地，每个空间注意力模块包括最大池化层、平局池化层、卷积核为7×7的卷积层和softmax层

最大池化层和平局池化层用于将维度为W_i×H_i×C_i的特征图沿着通道轴通过最大池化层和平局池化层得到两个维度为W_i×H_i×1的特征图，沿着通道轴将两个维度为W_i×H_i×1的特征图拼接起来得到一个维度为W_i×H_i×2的特征图；

卷积核为7×7的卷积层用于将维度为W_i×H_i×2的特征图生成维度为W_i×H_i×1的特征图；softmax层用于将维度为W_i×H_i×1的特征图上的点归一化到0-1之间，得到空间注意力图；空间注意力图沿着通道轴逐层与维度为W_i×H_i×C_i的特征图相乘得到加权之后的特征图，加权之后的特征图的维度为W_i×H_i×C_i，其中i＝24、25或26。

进一步地，所述特征组通道归并模块包括4倍上采样模块、2倍上采样模块、卷积核为1×1的卷积层和通道轴拼接模块，

4倍上采样模块用于对维度为W₃×H₃×C₃的特征图进行4倍上采样操作，得到维度为4W₃×4H₃×C₃的特征图；

2倍上采样模块用于对维度为2W₃×2H₃×C₃的特征图进行2倍上采样操作，得到维度为4W₃×4H₃×C₃的特征图；

卷积核为1×1的卷积层用于对维度为4W₃×4H₃×C₃的特征图卷积操作，得到维度为4W₃×4H₃×C₃的特征图；

通道轴拼接模块用于将三组维度为4W₃×4H₃×C₃的特征图沿通道轴进行拼接，得到维度为4W₃×4H₃×(C₃×3)的特征图。

进一步地，还包括用于判断所述生成器输出的图像是否符合文本描述的判别器。

本发明具备的有益效果：

(1)在生成器中引入了空间注意力机制，对特征图中不同区域分配不同程度的注意力，加强特征图中最有用的特征，抑制无用的特征，避免了产生伪像的问题；

(2)引入了特征组通道归并模块，充分融合文本信息，以增强提取得到特征的表达能力，使生成的图像更加清晰，并且符合给定的文本描述。

附图说明

图1是本发明所述一种基于空间注意力的文本到图像生成方法的流程示意图；

图2是本发明所述一种基于空间注意力的文本到图像生成系统的结构示意图；

图3是本发明所述上模块的结构示意图；

图4是本发明所述空间注意力模块的结构示意图；

图5是本发明所述特征组通道归并模块的结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图2-5所示，本发明的一种基于空间注意力的文本到图像生成系统，包括：

文本编码器，将文本描述输入文本编码器输出句子向量；

随机噪声向量生成模块，用于生成服从高斯分布的随机噪声向量；

生成器，所述生成器包括全连接层、特征组通道归并模块、卷积层模块、三个空间注意力模块和六个依次连接的上模块，其中位于第一个的上模块连接所述全连接层，位于最后三个的上模块分别连接一个空间注意力模块，三个空间注意力模块共同连接一个特征组通道归并模块，所述特征组通道归并模块连接卷积层，每个上模块包括1个上采样层和2个深度文本图像融合模块，每个深度文本图像融合模块包括依次连接的第一仿射变换层、第一Leaky Relu激活函数、第二仿射变换层、第二Leaky Relu激活函数和卷积核为3×3的卷积层。每个空间注意力模块包括最大池化层、平局池化层、卷积核为7×7的卷积层、softmax层和通道轴逐层，所述特征组通道归并模块包括4倍上采样模块、2倍上采样模块、卷积核为1×1的卷积层和通道轴拼接模块。

如图1-5所示，为本发明提供的一种基于空间注意力的文本到图像生成方法，包括如下步骤：

步骤1：将包含被描述物体的颜色、形状、位置等信息的文本描述输入预训练的由双向长短期记忆网络构成的通用文本编码器得到句子向量，从而将“文本-图像”对转换成“句子向量-图像”对；

步骤2：生成一个维数为100且服从高斯分布的随机噪声向量；

步骤3：利用“句子向量-图像”对及步骤2中生成的“随机噪声向量”用于训练基于空间注意力的生成器，具体过程如下：

步骤3.1：将步骤2中生成的随机噪声向量送入全连接层得到维度为W₀×H₀×C₀的特征图，其中，W₀表示特征图的宽度、H₀表示特征图的高度、C₀表示特征图的通道数。

步骤3.2：将维度为W₀×H₀×C₀的特征图及句子向量输入上模块。如图3所示，上模块是由1个上采样层和2个深度文本图像融合模块组成的残差结构。

上述步骤3.2具体如下：

步骤3.2.1：将维度为W₀×H₀×C₀的特征图输入尺度因子为2的上采样层，输出一次变换后的特征图，并将一次变换后的特征图传入第一仿射变换层。

步骤3.2.2：将步骤1中生成的句子向量传入仿射变换层，每个仿射变换层由两个独立的全连接层组成。通过全连接层训练得到尺度偏移向量γ和β，向量γ和β的维度与一次变换后的特征图的通道数保持一致。将一次变换后的特征图沿着通道轴与向量γ相乘，再加上偏置β，得到二次变换后的特征图。

步骤3.2.3：将二次变换后的特征图输入Leaky Relu激活函数。

步骤3.2.4：Leaky Relu激活函数输出的特征图传入第二仿射变换层，重复步骤3.2.2和步骤3.2.3，得到三次变换后的特征图。

步骤3.2.5：将三次变换后的特征图传入卷积核为3×3的卷积层，得到四次变换后的特征图。

步骤3.2.6：将四次变换后的特征图输入第二个深度文本图像融合模块，重复步骤3.2.2、步骤3.2.3、步骤3.2.4和步骤3.2.5，得到六次变换后的特征图。

步骤3.2.7：将六次变换后的特征图与一次变换后的特征图沿着通道轴合并，得到七次变换后的特征图。

步骤3.3：将七次变换后的特征图传入下一个上模块，将步骤3.2重复执行5次，最终得到维度为W₁×H₁×C₁的特征图，其中W₁＝64W₀，H₁＝64H₀，C₁＝64。

步骤3.4：将步骤3.3中最后三个上模块的输出分别通过三个空间注意力模块。空间注意力模块可以对上模块输出得到的特征图上的特征点在空间维度上以加权的形式进行自适应的调整。其中，第四个上模块输出维度为W₂₄×H₂₄×C₂₄的特征图，W₂₄＝16W₀，H₂₄＝16H₀，C₂₄＝64；第五个上模块输出维度为W₂₅×H₂₅×C₂₅的特征图，W₂₅＝32W₀，H₂₅＝32H₀，C₂₅＝64；第六个上模块的输出维度为W₂₆×H₂₆×C₂₆的特征图，W₂₆＝64W₀，H₂₆＝64H₀，C₂₆＝64。

如图4所示，上述步骤3.4中针对每个空间注意力模块具体操作如下：

步骤3.4.1：三个空间注意力模块分别输入维度为W₂₄×H₂₄×C₂₄的特征图、维度为W₂₅×H₂₅×C₂₅的特征图和维度为W₂₆×H₂₆×C₂₆的特征图，为了计算空间注意力，对输入的特征图沿着通道轴分别进行最大池化和平局池化操作，得到两个维度为W_i×H_i×1的特征图，然后沿着通道轴将它们拼接起来得到一个维度为W_i×H_i×2的特征图，i＝24、25或26。

步骤3.4.2：将步骤3.4.1所得的特征图输入一个卷积核为7×7的卷积层生成维度为W_i×H_i×1的特征图，再将特征图通过softmax层，此时特征图上的点被归一化到0-1之间，得到空间注意力图，该空间注意力图编码了需要加强或减弱的空间位置。

步骤3.4.3：将空间注意力图沿着通道轴逐层与步骤3.4.1中输入的原始特征图相乘，得到加权之后的特征图。加权之后的特征图的维度与步骤3.4.1中输入的原始特征图的维度保持一致。这个模块能够自动地对特征结构进行调整，以增强有用特征的表达能力，同时降低无用特征的表达能力。

如图5所示，步骤3.5：分别将三个空间注意力模块输出、维度分别为W₃×H₃×C₃、2W₃×2H₃×C₃和4W₃×4H₃×C₃的特征图，其中W₃＝16W₀，H₃＝16H₀，C₃＝64；送入特征组通道归并模块。

上述步骤3.5具体如下：

步骤3.5.1：特征组通道归并模块首先对维度为W₃×H₃×C₃的特征图进行4倍上采样操作，得到维度为4W₃×4H₃×C₃的特征图，然后对维度为2W₃×2H₃×C₃的特征图进行2倍上采样操作，得到维度为4W₃×4H₃×C₃的特征图，再对维度为4W₃×4H₃×C₃的特征图传入卷积核为1×1的卷积层，得到维度为4W₃×4H₃×C₃的特征图。其中W₃＝16W₀，H₃＝16H₀，C₃＝64。

步骤3.5.2：将步骤3.5.1输出的三组特征图沿着通道轴进行拼接从而融合高低层特征，最后得到维度为4W₃×4H₃×(C₃×3)的特征图。使用这种方式可以融合高低层特征从而增强输出特征的表达能力，使最终生成的图片细节更加丰富，并且符合给定的文本描述。

步骤3.6：将步骤3.5输出的图像特征传入卷积核为3×3的卷积层得到最终关于文字描述的生成图像。

步骤3.7：将步骤3.6生成的图像与步骤1中生成的句子向量输入判别器，判断生成的图像是否真实及是否匹配给定的文本描述，得到对抗损失，优化下一次图像生成。

上述步骤3.7具体如下：

步骤3.7.1：判别器通过一系列的下采样层将步骤3.6生成的图像转换为图像特征。

步骤3.7.2：对步骤1中生成的句子向量进行空间复制，得到与步骤3.7.1中图像特征相同维度的句子特征。

步骤3.7.3：将步骤3.7.1生成的图像特征与步骤3.7.2生成的句子特征沿着通道轴进行拼接，之后传入卷积核分别为3×3、4×4的两个卷积层，以评估图像质量及文本-图像的一致性，得到对抗损失。

步骤3.7.4：使用Adam优化器优化网络，其中β₁＝0.0，β₂＝0.9。生成器的学习率设为0.0001，判别器的学习率设为0.0004。

步骤4：将用户输入的文本描述编码成句子向量并输入训练好的基于空间注意力的生成式网络，最终得到与文本描述相一致的图像。

本发明的上述实施例仅是为说明本发明所列举的实例，而并非是对本发明的实施方式的限定。本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于空间注意力的文本到图像生成方法，其特征在于，包括：

将文本描述输入预先构建的文本编码器得到句子向量；

生成服从高斯分布的随机噪声向量；

其中，所述句子向量和随机噪声向量用于训练所述生成器。

2.根据权利要求1所述的一种基于空间注意力的文本到图像生成方法，其特征在于：还包括将所述句子向量和所述生成器输出的图像输入预先构建的判别器，所述判别器用于判断所述生成器输出的图像是否符合文本描述。

3.根据权利要求1所述的一种基于空间注意力的文本到图像生成方法，其特征在于，所述生成器的训练过程包括：

将维度为W₀×H₀×C₀的特征图以及所述句子向量输入生成器，维度为W₀×H₀×C₀的特征图的宽度和高度每次递增2倍，特征图的通道数保持不变，共递增6次，在第4、5和6次递增后；分别输出维度为W₂₄×H₂₄×C₂₄的特征图，其中W₂₄＝16 W₀，H₂₄＝16 H₀，C₂₄＝64；维度为W₂₅×H₂₅×C₂₅的特征图，其中W₂₅＝32W₀，H₂₅＝32 H₀，C₂₅＝64；维度为W₂₆×H₂₆×C₂₆的特征图，其中W₂₆＝64W₀，H₂₆＝64H₀，C₂₆＝64；

对维度为W₂₄×H₂₄×C₂₄、W₂₅×H₂₅×C₂₅和W₂₆×H₂₆×C₂₆的特征图上的特征点在空间维度上以加权的形式进行自适应的调整，得到维度分别为W₃×H₃×C₃、2W₃×2H₃×C₃和4W₃×4H₃×C₃的特征图，其中W₃＝16 W₀，H₃＝16 H₀，C₃＝64；

4.根据权利要求3所述的一种基于空间注意力的文本到图像生成方法，其特征在于，维度为W₀×H₀×C₀的特征图递增过程为：

步骤3：将二次变换后的特征图输入Leaky Relu激活函数；

步骤8：将步骤1-7重复执行5次，最终得到维度为W₁×H₁×C₁的特征图，其中W₁＝64 W₀，H₁＝64 H₀，C₁＝64。

5.根据权利要求3所述的一种基于空间注意力的文本到图像生成方法，其特征在于，维度为4W₃×4H₃×(C₃×3)的特征图获取过程为：

对维度为W₃×H₃×C₃的特征图进行4倍上采样操作，得到维度为4W₃×4H₃×C₃的特征图，对维度为2W₃×2H₃×C₃的特征图进行2倍上采样操作，得到维度为4W₃×4H₃×C₃的特征图，将维度为4W₃×4H₃×C₃的特征图传入卷积核为1×1的卷积层，得到维度为4W₃×4H₃×C₃的特征图，其中W₃＝16 W₀，H₃＝16 H₀，C₃＝64，将维度为4W₃×4H₃×C₃的特征图沿着通道轴进行拼接，融合高低层特征，最后得到维度为4W₃×4H₃×(C₃×3)的特征图。

6.一种基于空间注意力的文本到图像生成系统，其特征在于，包括：

文本编码器，被配置用于根据文本描述输出句子向量；

生成器，被配置用于基于输入的文本描述输出对应的图像；所述生成器包括全连接层、特征组通道归并模块、卷积层模块、三个空间注意力模块和六个依次连接的上模块，其中位于第一个的上模块连接所述全连接层，位于最后三个的上模块分别连接一个空间注意力模块，三个空间注意力模块共同连接一个特征组通道归并模块，所述特征组通道归并模块连接卷积层模块，随机噪声向量输入全连接层输出维度为W₀×H₀×C₀的特征图，其中，W₀表示特征图的宽度、H₀表示特征图的高度、C₀表示特征图的通道数，将维度为W₀×H₀×C₀的特征图和句子向量输入上模块，每通过一个上模块维度为W₀×H₀×C₀的特征图的宽度和高度递增2倍，特征图的通道数保持不变，通过第4个上模块向对应的空间注意力模块输出维度为W₂₄×H₂₄×C₂₄的特征图，其中W₂₄＝16 W₀，H₂₄＝16 H₀，C₂₄＝64；通过第5个上模块向对应的空间注意力模块输出维度为W₂₅×H₂₅×C₂₅的特征图，其中W₂₅＝32W₀，H₂₅＝32 H₀，C₂₅＝64；通过第6个上模块向对应的空间注意力模块输出维度为W₂₆×H₂₆×C₂₆的特征图，其中W₂₆＝64W₀，H₂₆＝64H₀，C₂₆＝64；三个空间注意力模块对维度为W₂₄×H₂₄×C₂₄、W₂₅×H₂₅×C₂₅和W₂₆×H₂₆×C₂₆的特征图上的特征点在空间维度上以加权的形式进行自适应的调整，得到维度分别为W₃×H₃×C₃、2W₃×2H₃×C₃和4W₃×4H₃×C₃的特征图，其中W₃＝16 W₀，H₃＝16 H₀，C₃＝64；并输入特征图进行特征组通道归并模块，特征图进行特征组通道归并模块对维度分别为W₃×H₃×C₃、2W₃×2H₃×C₃和4W₃×4H₃×C₃的特征图进行特征组通道归并，最终得到维度为4W₃×4H₃×(C₃×3)的特征图，并输入到卷积层模块，卷积层模块输出最终关于文本描述的生成图像。

7.根据权利要求6所述的一种基于空间注意力的文本到图像生成系统，其特征在于，每个上模块包括1个上采样层和2个深度文本图像融合模块，每个深度文本图像融合模块包括依次连接的第一仿射变换层、第一Leaky Relu激活函数、第二仿射变换层、第二Leaky Relu激活函数和卷积核为3×3的卷积层。

8.根据权利要求6所述的一种基于空间注意力的文本到图像生成系统，其特征在于，每个空间注意力模块包括最大池化层、平局池化层、卷积核为7×7的卷积层和softmax层，

9.根据权利要求6所述的一种基于空间注意力的文本到图像生成系统，其特征在于，所述特征组通道归并模块包括4倍上采样模块、2倍上采样模块、卷积核为1×1的卷积层和通道轴拼接模块，

10.根据权利要求6所述的一种基于空间注意力的文本到图像生成系统，其特征在于，还包括用于判断所述生成器输出的图像是否符合文本描述的判别器。