CN114332288A

CN114332288A - 基于短语驱动生成对抗网络的文本生成图像的方法及网络

Info

Publication number: CN114332288A
Application number: CN202210250078.3A
Authority: CN
Inventors: 肖春霞; 方菲; 罗飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-04-12
Anticipated expiration: 2042-03-15
Also published as: CN114332288B

Abstract

本发明公开了一种基于短语驱动生成对抗网络的文本生成图像的方法及网络。利用一种基于Transformer的文本编码器将输入文本编码成单词特征矩阵和句子特征向量，并得到一种基于文本相关性分析的短语特征矩阵。同时，建立了一个基于图卷积网络的文本生成图像相似度模型。该模型可以评估文本与生成的场景图像之间的细粒度短语物体相似度，并建模不同物体之间的相对位置约束。此外，通过设计的短语物体判别器来判断生成的物体的真实性，并检查短语和物体之间的一致性。实验结果表明我们所提出的方法能够比目前最先进的方法生成更好的场景图像。

Description

基于短语驱动生成对抗网络的文本生成图像的方法及网络

技术领域

本发明涉及计算机视觉和多媒体领域，尤其涉及一种基于短语驱动生成对抗网络的文本生成图像的方法及网络。

背景技术

文本生成图像是一项跨模态的转换任务，旨在从文本描述生成逼真的图像。生成的图像应该在视觉上是真实的，并且在语义上与输入的文本一致。文本到图像的生成是多媒体和计算机视觉领域的一个活跃的研究领域，在多媒体内容生成和计算机辅助设计方面有着广泛的应用。在本发明中，主要关注场景图像的生成，它不同于单目标图像的生成。单目标图像的生成方法主要集中于生成一种特定的真实感物体。此物体在数据集中经过精心标注，因此更容易生成。为了生成场景图像，我仅需要生成由数据集简要标注的多个种类的物体，还需要处理物体之间的各种位置关系，如在……之上、在……旁边。

以前很多基于生成对抗网络的文本生成图像方法都可以生成高质量的单目标图像。但是，这些方法在生成场景图像方面都比较薄弱。这是因为他们以相似的方式处理文本生成单目标图像和文本生成场景图像。另有一些方法专门处理文本生成场景图像，其中第一类方法在生成场景图像之前，会先构建额外的网络来先生成场景布局图，采用由粗到精的方法生成场景图片；第二类方法直接利用训练数据集中的图片特征和已经标注的场景信息。

第一类方法中，ObjGAN首先通过建立两个额外的生成网络为场景中的所有物体生成边界框和形状。物体的边界框和形状构成了场景图像的布局。然后将布局和输入文本输入到多级生成对抗网络中，通过对抗性训练生成场景图像。这种方法可以产生较好的场景图像。但这种方法训练和生成过程复杂，可能会产生多步生成偏差。第二类方法中，OPGAN从数据集图片标注中导入物体的边界框和标签来生成场景图像中的所有物体。然后将物体路径生成的前景物体，与全局路径生成的背景图片融合，从而生成场景图像。CPGAN通过在训练数据集中融合每个单词及其对应的物体特征，为词汇表中的每个单词构建了记忆信息，然后用这样的单词特征来指导场景图片生成。这类方法利用了从训练数据集图片中检测的物体信息，可以生成较好的场景图像。

然而，这些文本生成场景图像方法都忽略了对单词之间文本相关性的分析。描述一个物体的属性和特征的单词应该被视为一个短语，组成该短语的所有单词应视为一个整体，对应于一个特定的物体。同时，还需要对输入文本中位置介词的和生成的场景图像中物体之间的相对距离进行一致性建模，以往的方法并没有对物体相对位置关系建模的先例。

发明内容

本发明针对现有技术的不足，如不能进行短语物体匹配和物体之间位置关系无法建模等问题，提出了用于文本图像生成的短语驱动生成对抗方法及网络，能够从短语层面分析输入文字，推动短语和物体的匹配，并在判别器中对更难生成的前景物体进行监督，从而促进生成更好的场景图片。

本发明的技术方案为一种基于短语驱动生成对抗网络的文本生成图像的方法，其特殊之处在于：

步骤1，输入描述场景的文字信息，对输入文字编码为单词特征矩阵；

步骤2，根据上一步得到的单词特征矩阵计算句子特征向量，并将得到的句子特征向量串联一个从正态分布中采样的噪声向量，输入到对抗生成网络的生成器中生成初步场景图片；

步骤3，对单词之间的相关性进行分析，并根据步骤1得到的单词向量矩阵计算短语特征矩阵，短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督，以生成更加清晰的场景图片；

步骤4，对输入文字进行依存关系分析，检测并提取当前生成图片中的物体特征；

步骤5，利用步骤4的结果，为输入文本中的短语建立语义关系图，为检测到的物体建立空间关系图；

步骤6，将语义关系图和空间关系图分别进行编码，得到文字上下文特征和视觉上下文特征；

步骤7，计算基于注意力的文字上下文特征和视觉上下文特征的文字生成图片相似度，作为损失训练文字编码器和生成器；

步骤8，检测当前生成图片中包含的物体并提取物体特征；

步骤9，用注意力机制，计算每个物体的短语上下文向量，然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中，得到对抗损失用来更新生成器。

进一步地，步骤2的具体过程为：基于上一步得到的单词特征矩阵E，首先计算每个单词的权重:

其中

代表第i个单词的特征向量，exp()是对数函数，

是第i个单词的权重，所有单词的权重组成权重向量W，根据权重向量和单词矩阵，得到句子特征向量：

其中T表示矩阵的转置。

进一步地，步骤3中相关性分析包括邻接性分析和相似性分析，邻接性分析是决定哪些词属于相同的短语，相似性分析是衡量不同单词之间的相似程度。

进一步地，步骤5的具体过程为：

语义关系图G _u表示输入文本中的不同短语之间的语义相对位置关系，G _u是一个有向图，图中的节点为每一个短语向量，图中的边为输入文本中提到的位置关系，边的权值是表示位置关系的单词向量；

空间关系图G _v表示生成图片中检测到物体之间的空间位置关系，G _v同样是一个有向图，图中的节点为提取的每个区域的特征，图中的边也是文本中提到的位置关系，边的权值用相对极坐标计算，包括相对距离和相对方向；相对距离是检测到的物体的包围盒中心之间的欧几里得距离，相对方向表示空间关系的类别。

基于同一发明构思，本发明还设计了一种用于实现上述任一基于短语驱动生成对抗网络的文本生成图像方法的网络，其特殊之处在于：

包括基于Transformer的文字编码模块，基于GCN的文字生成图片相似度模块和短语物体判别器模块；

所述基于Transformer的文字编码模块处理过程如下：

输入描述场景的文字信息，用Transformer的编码器模块对输入文字编码为单词特征矩阵；

根据得到的单词特征矩阵计算句子特征向量，并将得到的句子特征向量串联一个从正态分布中采样的噪声向量，输入到对抗生成网络的生成器中生成初步场景图片；

利用自然语言处理工具对单词之间的相关性进行分析，并根据所述单词向量矩阵计算短语特征矩阵，短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督，以生成更加清晰的场景图片；

所述基于GCN的文字生成图片相似度模块局图处理过程如下：

首先使用自然语言处理工具Stanford Core NLP对输入文字进行依存关系分析，并使用物体检测器YOLOv4检测当前生成图片中的物体并提取物体特征；

利用提取的物体特征，为输入文本中的短语建立语义关系图，为检测到的物体建立空间关系图；

将语义关系图和空间关系图分别输入到两个图卷积网络中进行编码，得到文字上下文特征和视觉上下文特征；

上一步得到的两种上下文特征，用注意力多模态相似度模型计算基于注意力的文字生成图片相似度，作为损失训练文字编码器和生成器；

短语物体判别器模块的判别过程主要包含以下步骤：

用物体检测器YOLOv4检测当前生成图片中包含的物体并提取物体特征；

用注意力机制，计算每个物体的短语上下文向量，然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中，得到对抗损失用来更新生成器。

进一步地，基于GCN的文字生成图片相似度模块的相似度计算过程中，

将语义关系图G _u和短语特征矩阵，以及空间关系图G _v和物体特征矩阵分别输入两个图卷积网络中，用来计算包含空间位置关系的文本生成图片相似度：

其中

是第i个短语特征的邻域节点集合，

是第i个物体特征的邻域节点集合，

是第j个短语特征向量，

是第j个物体特征向量，

是需要学习的缩放和平移参数，

是ReLU激活函数，K是GCN卷积核函数的个数。通过以上两个公式，得到短语上下文特征

和物体上下文特征

。

更进一步地，用注意力机制，计算每个物体的短语上下文向量，然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中，得到对抗损失用来更新生成器，具体如下：

首先通过下面的公式计算第i个短语特征向量与第j个物体区域特征之间的归一化文本生成图像相似度：

其中

是检测到的物体的数量，然后计算对于第j个区域来讲，第i个短语的权重：

其中n是短语的数量，下一步通过计算所有短语的加权和，得到第j个物体的短语上下文特征：

最后，将物体特征

，物体的短语上下文特征

和句子编码S串联成同一个特征，输入到判别器中，判断物体是否与相应的短语一致。

本发明的优点在于：基于Transformer的文字编码模块将输入的文字信息编码为单词特征矩阵、短语特征矩阵和句子特征向量，用于后续步骤的计算；基于GCN的文字生成图片相似度模块，不仅能够提高短语特征和生成场景图像中前景物体特征的相似度，同时能够提高输入文字和生成图片中前景物体相对位置关系的相似性；短语物体判别器模块是从整体图片和局部前景物体两个方面衡量生成图片的质量，不仅能够提高整体图片和局部前景物体生成的真实感，而且能够进一步提高整体图片和局部前景物体与对应的文字信息的一致性。

附图说明

图1是本发明用于文字生成图片的整体流程图。

图2是本发明基于GCN的文字生成图片相似度模块的流程示意图。

图3是本发明短语物体判别器模块的示意图。

具体实施方式

下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员理解本发明，并不对本发明作任何的限制。

术语解释：

Transformer：是一种编码器解码器架构，该网络架构中，编码器和解码器没有采用 RNN 或 CNN 等网络架构，而是采用完全依赖于注意力机制的架构。编码器的输入是一句话的单词嵌入表示和其对应的位置编码信息，模型的核心层是一个多头注意力机制。多头注意力机制就是使用多个注意力机制进行单独计算，以获取更多层面的语义信息，然后将各个注意力机制获取的结果进行拼接组合，得到编码结果。解码器比编码器多一种掩膜多头注意力机制，用来保证生成时的依赖关系。Transformer是将输入序列转换为输出序列的工具。

图卷积网络（Graph Convolutional Network，GCN）：是一种用来提取拓扑图的空间特征的网络。在拓扑图中每个顶点的相邻顶点数目都可能不同，无法使用同样尺寸的卷积核来进行运算。GCN的输入是用向量表示的节点特征和表示节点之间关系的边信息。用GCN在拓扑图的结构上有效地提取空间特征来进行机器学习。

生成对抗网络（Generative Adversarial Network, GAN）生成对抗网络主要包括两个部分，即生成器网络与判别器网络。生成器主要用来学习真实图像分布从而让自身生成的图像更加真实，以骗过判别器。判别器则需要对生成的图片进行真假判别。在整个过程中，生成器努力地让生成的图像更加真实，而判别器则努力地去识别出图像的真假，这个过程相当于一个二人博弈，随着时间的推移，生成器和判别器在不断地进行对抗，最终两个网络达到了一个动态均衡：生成器生成的图像接近于真实图像分布，而判别器识别不出真假图像。

注意力多模态相似度模型（Deep Attentional Multimodal Similarity Model,DAMSM）：是由经典文字生成图片的方法AttnGAN提出的多模态相似度模型。该模型将输入文字编码文单词特征矩阵，并用图片分类网络将生成图片分为多个网格图片块，每个图片块提取特征，用注意力机制计算两种特征之间的相似度，从而促进文本和图片的细粒度相似性。

YOLO物体检测器：基本原理就是采用不同大小和比例(宽高比)的窗口在整张图片上以一定的步长进行滑动，然后对这些窗口对应的区域做图像分类。YOLO将物体检测重新定义为一个回归问题。它将单个卷积神经网络(CNN)应用于整个图像，将图像分成网格。然后，对于每个网格，网络都会预测一个边界框和与每个类别（汽车，行人，交通信号灯等）相对应的概率。

Stanford Core NLP：是一个由斯坦福大学提供的自然语言处理工具包。它集成了很多非常实用的功能，包括分词，词性标注，句法分析等等。它是一个已经训练好的模型，可以当做一个软件使用。该工具具有功能多，操作方便，支持多种语言的特点。

本发明是基于短语驱动生成对抗网络的文本生成图像的方法，包括以下步骤：

步骤8，检测当前生成图片中包含的物体并提取物体特征；

基于以上方法，本发明设计的网络，如图1所示，包括基于Transformer的文字编码模块，基于GCN的文字生成图片相似度模块和短语物体判别器模块，其中基于Transformer的文字编码模块的编码过程包含以下步骤：

步骤1，输入描述场景的文字信息，用Transformer的编码器模块对输入文字编码为单词特征矩阵，其中Transformer的编码器模块是一个多层编码器，每层包含两个子层，即多头自注意层和位置感知的全连接前馈层。得到的单词特征矩阵表示为

，其中t是单词个数，d是每个单词的特征维度；

步骤2，根据上一步得到的单词特征矩阵计算句子特征向量，并将得到的句子特征向量串联一个从正态分布中采样的噪声向量，输入到对抗生成网络的生成器中生成初步场景图片，具体如下：

基于上一步得到的单词特征矩阵E，首先计算每个单词的权重:

其中

代表第i个单词的特征向量，exp()是对数函数，

其中T表示矩阵的转置；

步骤3，利用自然语言处理NLP工具对单词之间的相关性进行分析，并根据第1步得到的单词向量矩阵计算短语特征矩阵，短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督，以生成更加清晰的场景图片，具体如下：

首先对输入文字进行文本相关性分析，这是一种分析单词之间相关程度的方法，包括邻接性分析和相似性分析。邻接性分析的目的是决定哪些词属于相同的短语，相似性分析是衡量不同单词之间的相似程度。对于邻接性分析，用Stanford Core NLP自然语言处理工具对输入文字做成分分析和依存关系分析，从而决定哪些词语描述同一个物体，描述同一个物体的单词叫做语义相关的单词，这些单词组成同一个短语。对于相似性分析，分析不同单词之间的相关程度：

其中

为相似性矩阵

的第i行第j列的元素值。根据邻接性分析和相似性分析的结果，用如下公式得到短语特征矩阵：

其中

是邻接性分析的结果矩阵，P为短语特征矩阵。

基于GCN的文字生成图片相似度模块的相似度计算过程主要包含以下步骤：

步骤4，首先使用自然语言处理工具Stanford Core NLP对输入文字进行依存关系分析，这一步的重点是从依存关系分析的结果中，得到不同物体之间的位置关系。然后，使用物体检测器YOLOv4检测当前生成图片中可信度最高的物体并提取物体特征。这里用到的YOLOv4模型是在Microsoft COCO 2014数据集中预训练过的模型；

步骤5，利用上一步的结果，为输入文本中的短语建立语义关系图，并为检测到的物体建立空间关系图，具体如下：

语义关系图G _u表示输入文本中的不同短语之间的语义相对位置关系，G _u是一个有向图，图中的节点为每一个短语向量，图中的边为输入文本中提到的位置关系，边的权值是表示位置关系的单词向量。

空间关系图G _v表示生成图片中检测到物体之间的空间位置关系，G _v同样是一个有向图，图中的节点为提取的每个区域的特征，图中的边也是文本中提到的位置关系，边的权值用相对极坐标计算，因为相对极坐标既可以表示两个物体之间的相对距离，又可以表示相对距离的方向。相对距离是检测到的物体的包围盒中心之间的欧几里得距离，方向表示空间关系的类别，如在……左边，在……下方等。

步骤6，将语义关系图和空间关系图分别输入到两个图卷积网络GCN中进行编码，得到文字上下文特征和视觉上下文特征，具体如下：

将上一步得到的语义关系图G _u和短语特征矩阵，以及空间关系图G _v和物体特征矩阵分别输入两个图卷积网络GCN中：

其中

是第i个短语特征的邻域节点集合，

是第i个物体特征的邻域节点集合，

是第j个短语特征向量，

是第j个物体特征向量，

是需要学习的缩放和平移参数，

是ReLU激活函数，K是GCN卷积核函数的个数，在本发明中我们设置K=8。通过以上两个公式，得到短语上下文特征

和物体上下文特征

。

步骤7，上一步得到的两种上下文特征，用注意力多模态相似度模型计算基于注意力的文字生成图片相似度，作为损失训练文字编码器和生成器。具体地，用AttnGAN方法中的DAMAM模型计算两种上下文特征的相似度，因为两种上下文特征已经考虑了不同短语之间的语义关系以及不同物体之间的空间位置关系，因此本发明中这一模块既能衡量文字和图片的相似度，又能衡量不同模态特征之间关系的相似度。

短语物体判别器模块的判别过程包含以下步骤：

步骤8，用物体检测器YOLOv4检测当前生成图片中包含的物体，并提取物体特征；

步骤9，用注意力机制，计算每个物体的短语上下文向量，然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中，得到对抗损失用来更新生成器，具体如下：

非条件短语物体判别器是将检测到的物体特征输入到下采样网络中，根据输出值判断生成图片中物体的真实感。条件短语物体判别器需要结合文字信息判断生成图片中的物体是否与输入文字信息一致。通过注意机制计算每个物体的短语上下文特征。具体地，首先通过下面的公式计算第i个短语特征向量与第j个物体区域特征之间的归一化文本生成图像相似度：

其中

是检测到的物体的数量。然后计算对于第j个区域来讲，第i个短语的权重：

其中n是短语的数量。下一步通过计算所有短语的加权和，得到第j个物体的短语上下文特征：

最后，将物体特征

，物体的短语上下文特征

应当理解的是，这里所讨论的实施方案及实例只是为了说明，对本领域技术人员来说，可以加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。