CN113362416B

CN113362416B - 基于目标检测的文本生成图像的方法

Info

Publication number: CN113362416B
Application number: CN202110754919.XA
Authority: CN
Inventors: 杨雨嫣; 谢海永; 吴曼青
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2024-05-17
Anticipated expiration: 2041-07-01
Also published as: CN113362416A

Abstract

本发明提供了一种基于目标检测的文本生成图像的方法，包括：输入一段描述性的文本；利用文本编码器进行编码，得到每一个单词的特征向量和整个句子的特征向量；通过训练好的生成模型输出与文本语义一致的逼真的图像，其中，所述生成模型是生成对抗网络模型，包括一个生成器和一个判别器，所述生成器中增加了注意力机制，所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别。本发明技术的生成模型只包含一个生成器和一个判别器，在保证生成图像质量的同时提高了模型的训练效率。

Description

基于目标检测的文本生成图像的方法

技术领域

本发明涉及计算机视觉、自然语言处理和生成对抗网络领域，尤其涉及一种基于目标检测的文本生成图像的方法。

背景技术

文本生成图像是计算机视觉领域的一个热点问题，它旨在基于一段描述性的文本语句生成语义相关的逼真的图像，在图像编辑、视频游戏和计算机辅助设计等方面都具有巨大的应用潜力。目前最经典最前沿的文本生成图像技术，都是以生成对抗网络(GAN)作为生成模型，它们先将自然语言文本编码为文本特征向量，GAN网络的生成器据此生成图像，而判别器通过提取图像特征来区分生成图像和真实图像，然后损失函数反向传播交替训练生成器和判别器，以促进生成器生成逼真的图像。

因为文本特征到图像特征是一个跨模态的转换，所以直接映射会比较困难，并且生成的图像分辨率越高，所需要得到的图像特征的空间维度越高，直接映射也会更加困难。此外，在使用深度神经网络进行映射时，训练很容易发生模式崩溃，并且网络越深，在映射过程中很容易丢失语义信息，很难保证语义一致性。因此，文本生成图像主要有两个难点：一是生成的图像和输入的文本要保持语义一致性；第二点是要生成尽可能逼真的高分辨率图像。

在目前已有的方法中，Stackgan提出了堆叠式的GAN网络结构，采用了三个生成器和判别器从低分辨率逐渐生成高分辨率图像。而AttnGAN则提出在编码文本时，不仅仅只生成整个句子的特征向量，还要生成每个单词的特征向量。句子特征作为生成器的输入，而单词特征则作为堆叠式的GAN网络中的注意力机制的输入，使得生成的图像包含更多的逼真细节。但是这些方法在处理具有多个物体的复杂语句时(如COCO数据集)，往往达不到预期的效果，可能会出现生成的图像完全失真，难以分辨物体形状的情况。

CPGAN在AttnGAN的基础上，提出了一个memory-attented文本编码器，通过目标检测和Botton-Up and Top-Down Attention模型提取出给定图像中与词对应的视觉特征，然后将此特征和文本组合在一起输入文本编码器中，从而增强文本特征的代表性。此外CPGAN还将目标检测用于判别器提取图像特征的过程中——提取图像中每个物体的图像特征，与文本特征中的每个单词一一对应，达到提高文本图像的语义一致性的效果。尽管额外使用这些网络可以大幅度提高生成图像的质量，但是同时也会造成模型的冗余，尤其是三个生成器和判别器的结构，会拖慢模型训练的速度。

DF-GAN则提出了一种新型的只具有单个生成器和判别器就能生成高分辨率图像的模型结构，它通过仿射变换将文本特征作为条件多次应用到生成图像的过程中，提高了文本和图像的语义一致性，此外还采用了新颖的匹配感知零中信梯度惩罚(matching-aware zero-centered gradient penalty)稳定这个深度网络的训练。但是在生成复杂图像时，缺少注意力机制会降低图像的质量。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于目标检测的文本生成图像的方法，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，本发明提供了一种基于目标检测的文本生成图像的方法，包括：

输入一段描述性的文本；

利用文本编码器进行编码，得到每一个单词的特征向量和整个句子的特征向量；

通过训练好的生成模型输出与文本语义一致的逼真的图像，其中，所述生成模型是生成对抗网络模型，包括一个生成器和一个判别器，所述生成器中增加了注意力机制，所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别。

其中，所述文本编码器采用双向卷积长短期记忆人工神经网络或双向GRU模型。

其中，所述生成器的输入为句子特征、随机噪声和单词特征，包括：

将句子特征和随机噪声通过全连接层压缩到同样大小，级联两个向量输入卷积层，得到初始的图像特征；将特征图输入一系列上采样模块，直到图像特征的尺寸为256*256；

将所述初始的图像特征输入通道注意力机制层；

将生成的倒数第二个图像特征输入空间注意力机制层；

得到经过处理的图像特征，将其输入到卷积层中转换为生成图像。

其中，所述生成器包括上采样模块、通道注意力机制模块和空间注意力机制模块。

其中，所述上采样模块包括上采样层和残差网络；其中，所述上采样层是为了得到通道数减小、每张特征图的大小翻倍的图像特征；所述残差网络则是为了防止深度网络出现梯度消失的情况发生。

其中，所述通道注意力机制模块的输入为单词特征和上一层图像特征，基于单词特征为输入图像特征的每个通道计算权重，权重反应了每个单词和生成的图像特征的各个通道的相关程度，输出为加权后的图像特征。

其中，所述空间注意力机制模块的输入为单词特征和上一层的图像特征，基于单词特征时为输入特征图的各个子区域计算权重，权重反应的是每个单词和生成的图像各个子区域的相关程度，输出加权后的图像特征。

其中，所述判别器包括目标检测模块和判别模块。

其中，所述目标检测模块的输入为真实的图像或者生成的图像，输出为图像中检测到的概率最高的前10个物体的视觉特征。

其中，所述判别模块有两种情况的输入：

若输入只有图像中的各个物体的视觉特征，那么需要判别输入的是真实图像还是生成图像，输出0表示生成图像，输出1表示真实图像；

若输入是图像的视觉特征和单词特征，那么需要判断图像的每个物体的视觉特征和每个单词的特征是否相匹配；有以下三种判别的情况：生成图像，匹配文本，真实图像，不匹配文本，真实图像，匹配文本；前两种情况都认为是不匹配，输出为0，最后一种情况被认为是匹配，输出为1。

基于上述技术方案可知，本发明的基于目标检测的文本生成图像的方法相对于现有技术至少具有如下有益效果之一：

1.与现有的文本生成图像的方法相比，本发明技术的生成模型只包含一个生成器和一个判别器，在保证生成图像质量的同时提高了模型的训练效率。

2.在本发明中的条件卷积网络、空间注意力机制、通道注意力机制以及基于目标检测的判别器判别生成图像中各个物体的视觉特征和单词特征是否匹配，都提高了文本和图像的语义一致性。

3.判别器判别生成图像中各个物体是否真实，这样的细化判别可以促进网络生成各个物体都更加真实的图像，提高图像的质量。

附图说明

图1为本发明实施例提供的文本生成图像的流程图；

图2为本发明实施例提供的生成器的结构图；

图3为本发明实施例提供的上采样模块结构图；

图4为本发明实施例提供的判别器的结构图；

图5为本发明实施例提供的生成模型训练流程图。

具体实施方式

针对现有技术所存在的问题，本发明提出了一种基于目标检测的单流文本生成图像的方法，文本编码器编码文本得到整个句子的特征向量和每个单词的特征向量，构建具有一个生成器和判别器的生成模型，在生成器中引入注意力机制并充分利用句子特征和单词特征，在判别器中引入目标检测模型提取图像中每个物体的视觉特征，再和单词特征、真实图像中每个物体的视觉特征相匹配，从而达到提高图像质量和文本图像语义一致性的目标。

本发明仅依赖于文本生成视觉上真实的高分辨率图像，并且保证文本和图像的语义一致性，且致力于提高生成模型的训练效率和生成效率。

为了提高生成图像的质量和训练的效率，本发明提供了一种基于目标检测的文本生成图像的方法，该方法的生成模型中只包含一个生成器和一个判别器，生成器多次将句子特征和生成的图像特征进行融合，同时引入空间注意力机制和通道注意力机制，用单词特征向量指导图像生成更多的细节；判别器通过目标检测，得到生成图像中每个物体的视觉特征，并将其与真实图像的每个物体的视觉特征和单词特征匹配，从而提高生成图像的质量和文本图像语义一致性。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

如图1所示，为本发明的文本生成图像的流程图，包括以下步骤：

输入一段描述性的文本；

在本发明进一步的实施例中，对于输入的文本，首先用文本编码器进行编码，通常使用的是的双向卷积长短期记忆人工神经网络(LSTM)，它输出每一个单词的特征向量和整个句子的特征向量，再基于此通过训练好的生成模型的生成器生成与文本语义一致的逼真的图像。

本发明的生成模型是生成对抗网络模型，包含一个生成器和一个判别器，但是生成器中额外增加了注意力机制，判别器基于目标检测实现了针对图像中每个目标物体的细化判别。其中生成器的主要结构如图2所示，包括上采样模块，通道注意力机制、空间注意力机制，各个模块的主要结构和作用如下：

1.上采样模块的结构如图3所示，包含一个上采样层和残差网络，输入为句子特征和上一层输出的三维图像特征，大小为C_i*W_i*H_i，其中，C_i为特征图的通道数，W_i*H_i是每张特征图的尺寸。输出为这一层的图像特征S_i，S_i-1经过上采样层后，得到通道数减小、每张特征图的大小翻倍的图像特征S_i′，残差网络则是为了防止深度网络出现梯度消失的情况发生，残差网络中包含3*3的条件卷积层和激活层，条件卷积层以句子特征为条件生成与文本相关的卷积层的动态参数，然后作用在S_i′上，得到与之维度大小相同的S_i″，当前上采样模块输出的图像特征大小为/>为矩阵加法。

2.通道注意力机制的输入为单词特征和上一层图像特征，它基于单词特征为输入图像特征的每个通道计算权重，权重反应了每个单词和生成的图像特征的各个通道的相关程度，输出为加权后的图像特征。

3.空间注意力机制的输入同样为单词特征和上一层的图像特征，但是它基于单词特征时为输入特征图的各个子区域计算权重，这个权重反应的是每个单词和生成的图像各个子区域的相关程度，输出加权后的图像特征。

生成器的输入为句子特征、随机噪声、单词特征，我们首先将句子特征和随机噪声通过全连接层压缩到同样大小，然后级联两个向量输入3*3的卷积层，得到初始的大小为C₁*4*4的图像特征S₁，随后将特征图输入一系列上采样模块，直到图像特征的尺寸为256*256。而为了让图像特征包含更多的细节，我们将初始的图像特征输入通道注意力机制层，因为这个图像特征的通道数较大，此外，我们还将生成的倒数第二个图像特征输入空间注意力机制层，因为这里的特征图尺寸较大，这样可以给图像特征补充更多与文本相关的细节。最后得到大小为C₇*4*4的图像特征，再将其出入到卷积层中转换为生成图像。

判别器的结构如图4所示包含一个目标检测模块和一个判别模块：

1.目标检测模块的输入为真实的图像或者生成的图像，输出为图像中检测到的概率最高的前10个物体的视觉特征。目标检测模块可以采用预训练的yolov3模型。

2.判别模块有两种情况的输入：

(1)若输入只有图像中的各个物体的视觉特征，那么需要判别输入的是真实图像还是生成图像，输出0表示生成图像，输出1表示真实图像；

(2)若输入是图像的视觉特征和单词特征，那么需要判断图像的每个物体的视觉特征和每个单词的特征是否相匹配。有三种判别的情况：(生成图像，匹配文本)，(真实图像，不匹配文本)，(真实图像，匹配文本)。前两种情况都认为是不匹配，输出为0，最后一种情况被认为是匹配，输出为1。

在本发明进一步的实施例中，本发明的方法只适用于软件的开发，设计软件存储训练好的生成器模型，模型结构如图3所示。同时能够捕获一段输入文本并呈现生成的图像。本发明的生成模型的训练过程如图5所示，生成器根据输入的句子特征和单词特征生成与文本语义一致性的图像，判别器根据真实图像和单词特征判别生成图像的质量，然后将结果以loss函数的形式反馈给生成器，促进生成器生成质量更高、更符合文本语义的图像，具体来说：

步骤1：固定生成器，对判别器进行训练，使得判别器能够更加准确地判别是图像中的每个目标物体是否真实、图像中的物体与文本是否匹配。

步骤2：固定判别器，对生成器进行训练，使得生成图像的每个物体都更加接近真实图像并且与文本保持语义一致性。

步骤3：交替进行步骤1和步骤2，直到生成的图像数据分布和真实的图像数据分布基本吻合，判别模型处于纳什均衡，无法判断输入图像是生成图像还是真实图像。

生成模型训练完毕后，不再需要判别器，对于一段输入的文本，文本编码器编码得到句子特征和单词特征，随后将其输入生成模型的生成器中，得到生成图像。

上述技术方案中能被替代的部分如下：

1.从文本生成单词特征和句子特征时，使用的模型也可以采用双向GRU模型；

2.生成器中多次融合句子特征和单词特征时，除了条件卷积网络，还可以采用放射网络、条件批处理归一化。

本发明以只有一对生成器和判别器的生成对抗网络为基础，充分利用句子特征和单词特征，在提高图像生成质量的同时提高网络的训练效率。

本发明的判别器基于目标检测为图像中的每个物体进行判别，这样细化的判别比传统的方式更能提高生成图像和文本之间的语义一致性，并使生成的图像的每个物体都更加逼真。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于目标检测的文本生成图像的方法，包括：

输入一段描述性的文本；

所述每一个单词的特征向量和整个句子的特征向量通过训练好的生成模型输出与文本语义一致的逼真的图像，其中，所述生成模型是生成对抗网络模型，包括一个生成器和一个判别器，所述生成器中增加了注意力机制，所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别；

所述生成器的输入为句子特征、随机噪声和单词特征，包括：

将所述初始的图像特征输入通道注意力机制层；

将生成的倒数第二个图像特征输入空间注意力机制层；

得到经过处理的图像特征，将其输入到卷积层中转换为生成图像；

所述生成器包括上采样模块、通道注意力机制模块和空间注意力机制模块；

所述上采样模块包括上采样层和残差网络；其中，所述上采样层是为了得到通道数减小、每张特征图的大小翻倍的图像特征；所述残差网络则是为了防止深度网络出现梯度消失的情况发生；

所述通道注意力机制模块的输入为单词特征和上一层图像特征，基于单词特征为输入图像特征的每个通道计算权重，权重反应了每个单词和生成的图像特征的各个通道的相关程度，输出为加权后的图像特征；

所述空间注意力机制模块的输入为单词特征和上一层的图像特征，基于单词特征时为输入特征图的各个子区域计算权重，权重反应的是每个单词和生成的图像各个子区域的相关程度，输出加权后的图像特征。

2.根据权利要求1所述的文本生成图像的方法，所述文本编码器采用双向卷积长短期记忆人工神经网络或双向GRU模型。

3.根据权利要求1所述的文本生成图像的方法，所述判别器包括目标检测模块和判别模块。

4.根据权利要求3所述的文本生成图像的方法，所述目标检测模块的输入为真实的图像或者生成的图像，输出为图像中检测到的概率最高的前10个物体的视觉特征。

5.根据权利要求3所述的文本生成图像的方法，所述判别模块有两种情况的输入：