CN114332288A - 基于短语驱动生成对抗网络的文本生成图像的方法及网络 - Google Patents

基于短语驱动生成对抗网络的文本生成图像的方法及网络 Download PDF

Info

Publication number
CN114332288A
CN114332288A CN202210250078.3A CN202210250078A CN114332288A CN 114332288 A CN114332288 A CN 114332288A CN 202210250078 A CN202210250078 A CN 202210250078A CN 114332288 A CN114332288 A CN 114332288A
Authority
CN
China
Prior art keywords
phrase
feature
vector
similarity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210250078.3A
Other languages
English (en)
Other versions
CN114332288B (zh
Inventor
肖春霞
方菲
罗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210250078.3A priority Critical patent/CN114332288B/zh
Publication of CN114332288A publication Critical patent/CN114332288A/zh
Application granted granted Critical
Publication of CN114332288B publication Critical patent/CN114332288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于短语驱动生成对抗网络的文本生成图像的方法及网络。利用一种基于Transformer的文本编码器将输入文本编码成单词特征矩阵和句子特征向量,并得到一种基于文本相关性分析的短语特征矩阵。同时,建立了一个基于图卷积网络的文本生成图像相似度模型。该模型可以评估文本与生成的场景图像之间的细粒度短语物体相似度,并建模不同物体之间的相对位置约束。此外,通过设计的短语物体判别器来判断生成的物体的真实性,并检查短语和物体之间的一致性。实验结果表明我们所提出的方法能够比目前最先进的方法生成更好的场景图像。

Description

基于短语驱动生成对抗网络的文本生成图像的方法及网络
技术领域
本发明涉及计算机视觉和多媒体领域,尤其涉及一种基于短语驱动生成对抗网络的文本生成图像的方法及网络。
背景技术
文本生成图像是一项跨模态的转换任务,旨在从文本描述生成逼真的图像。生成的图像应该在视觉上是真实的,并且在语义上与输入的文本一致。文本到图像的生成是多媒体和计算机视觉领域的一个活跃的研究领域,在多媒体内容生成和计算机辅助设计方面有着广泛的应用。在本发明中,主要关注场景图像的生成,它不同于单目标图像的生成。单目标图像的生成方法主要集中于生成一种特定的真实感物体。此物体在数据集中经过精心标注,因此更容易生成。为了生成场景图像,我仅需要生成由数据集简要标注的多个种类的物体,还需要处理物体之间的各种位置关系,如在……之上、在……旁边。
以前很多基于生成对抗网络的文本生成图像方法都可以生成高质量的单目标图像。但是,这些方法在生成场景图像方面都比较薄弱。这是因为他们以相似的方式处理文本生成单目标图像和文本生成场景图像。另有一些方法专门处理文本生成场景图像,其中第一类方法在生成场景图像之前,会先构建额外的网络来先生成场景布局图,采用由粗到精的方法生成场景图片;第二类方法直接利用训练数据集中的图片特征和已经标注的场景信息。
第一类方法中,ObjGAN首先通过建立两个额外的生成网络为场景中的所有物体生成边界框和形状。物体的边界框和形状构成了场景图像的布局。然后将布局和输入文本输入到多级生成对抗网络中,通过对抗性训练生成场景图像。这种方法可以产生较好的场景图像。但这种方法训练和生成过程复杂,可能会产生多步生成偏差。第二类方法中,OPGAN从数据集图片标注中导入物体的边界框和标签来生成场景图像中的所有物体。然后将物体路径生成的前景物体,与全局路径生成的背景图片融合,从而生成场景图像。CPGAN通过在训练数据集中融合每个单词及其对应的物体特征,为词汇表中的每个单词构建了记忆信息,然后用这样的单词特征来指导场景图片生成。这类方法利用了从训练数据集图片中检测的物体信息,可以生成较好的场景图像。
然而,这些文本生成场景图像方法都忽略了对单词之间文本相关性的分析。描述一个物体的属性和特征的单词应该被视为一个短语,组成该短语的所有单词应视为一个整体,对应于一个特定的物体。同时,还需要对输入文本中位置介词的和生成的场景图像中物体之间的相对距离进行一致性建模,以往的方法并没有对物体相对位置关系建模的先例。
发明内容
本发明针对现有技术的不足,如不能进行短语物体匹配和物体之间位置关系无法建模等问题,提出了用于文本图像生成的短语驱动生成对抗方法及网络,能够从短语层面分析输入文字,推动短语和物体的匹配,并在判别器中对更难生成的前景物体进行监督,从而促进生成更好的场景图片。
本发明的技术方案为一种基于短语驱动生成对抗网络的文本生成图像的方法,其特殊之处在于:
步骤1,输入描述场景的文字信息,对输入文字编码为单词特征矩阵;
步骤2,根据上一步得到的单词特征矩阵计算句子特征向量,并将得到的句子特征向量串联一个从正态分布中采样的噪声向量,输入到对抗生成网络的生成器中生成初步场景图片;
步骤3,对单词之间的相关性进行分析,并根据步骤1得到的单词向量矩阵计算短语特征矩阵,短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督,以生成更加清晰的场景图片;
步骤4,对输入文字进行依存关系分析,检测并提取当前生成图片中的物体特征;
步骤5,利用步骤4的结果,为输入文本中的短语建立语义关系图,为检测到的物体建立空间关系图;
步骤6,将语义关系图和空间关系图分别进行编码,得到文字上下文特征和视觉上下文特征;
步骤7,计算基于注意力的文字上下文特征和视觉上下文特征的文字生成图片相似度,作为损失训练文字编码器和生成器;
步骤8,检测当前生成图片中包含的物体并提取物体特征;
步骤9,用注意力机制,计算每个物体的短语上下文向量,然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中,得到对抗损失用来更新生成器。
进一步地,步骤2的具体过程为:基于上一步得到的单词特征矩阵E,首先计算每个单词的权重:
Figure 727215DEST_PATH_IMAGE001
其中
Figure 473716DEST_PATH_IMAGE002
代表第i个单词的特征向量,exp()是对数函数,
Figure 519033DEST_PATH_IMAGE003
是第i个单词的权重, 所有单词的权重组成权重向量W,根据权重向量和单词矩阵,得到句子特征向量:
Figure 445400DEST_PATH_IMAGE004
其中T表示矩阵的转置。
进一步地,步骤3中相关性分析包括邻接性分析和相似性分析,邻接性分析是决定哪些词属于相同的短语,相似性分析是衡量不同单词之间的相似程度。
进一步地,步骤5的具体过程为:
语义关系图G u 表示输入文本中的不同短语之间的语义相对位置关系,G u 是一个有向图,图中的节点为每一个短语向量,图中的边为输入文本中提到的位置关系,边的权值是表示位置关系的单词向量;
空间关系图G v 表示生成图片中检测到物体之间的空间位置关系,G v 同样是一个有向图,图中的节点为提取的每个区域的特征,图中的边也是文本中提到的位置关系,边的权值用相对极坐标计算,包括相对距离和相对方向;相对距离是检测到的物体的包围盒中心之间的欧几里得距离,相对方向表示空间关系的类别。
基于同一发明构思,本发明还设计了一种用于实现上述任一基于短语驱动生成对抗网络的文本生成图像方法的网络,其特殊之处在于:
包括基于Transformer的文字编码模块,基于GCN的文字生成图片相似度模块和短语物体判别器模块;
所述基于Transformer的文字编码模块处理过程如下:
输入描述场景的文字信息,用Transformer的编码器模块对输入文字编码为单词特征矩阵;
根据得到的单词特征矩阵计算句子特征向量,并将得到的句子特征向量串联一个从正态分布中采样的噪声向量,输入到对抗生成网络的生成器中生成初步场景图片;
利用自然语言处理工具对单词之间的相关性进行分析,并根据所述单词向量矩阵计算短语特征矩阵,短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督,以生成更加清晰的场景图片;
所述基于GCN的文字生成图片相似度模块局图处理过程如下:
首先使用自然语言处理工具Stanford Core NLP对输入文字进行依存关系分析,并使用物体检测器YOLOv4检测当前生成图片中的物体并提取物体特征;
利用提取的物体特征,为输入文本中的短语建立语义关系图,为检测到的物体建立空间关系图;
将语义关系图和空间关系图分别输入到两个图卷积网络中进行编码,得到文字上下文特征和视觉上下文特征;
上一步得到的两种上下文特征,用注意力多模态相似度模型计算基于注意力的文字生成图片相似度,作为损失训练文字编码器和生成器;
短语物体判别器模块的判别过程主要包含以下步骤:
用物体检测器YOLOv4检测当前生成图片中包含的物体并提取物体特征;
用注意力机制,计算每个物体的短语上下文向量,然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中,得到对抗损失用来更新生成器。
进一步地,基于GCN的文字生成图片相似度模块的相似度计算过程中,
将语义关系图G u 和短语特征矩阵,以及空间关系图G v 和物体特征矩阵分别输入两个图卷积网络中,用来计算包含空间位置关系的文本生成图片相似度:
Figure 587669DEST_PATH_IMAGE005
Figure 675711DEST_PATH_IMAGE006
其中
Figure 473902DEST_PATH_IMAGE007
是第i个短语特征的邻域节点集合,
Figure 203961DEST_PATH_IMAGE008
是第i个物体特征的邻域节点集 合,
Figure 433692DEST_PATH_IMAGE009
是第j个短语特征向量,
Figure 958214DEST_PATH_IMAGE010
是第j个物体特征向量,
Figure 243702DEST_PATH_IMAGE011
是需要学习的缩放和平移参数,
Figure 511872DEST_PATH_IMAGE012
是ReLU激活函数,K是GCN卷积核函数的个数。通过以上两 个公式,得到短语上下文特征
Figure 363153DEST_PATH_IMAGE013
和物体上下文特征
Figure 58577DEST_PATH_IMAGE014
更进一步地,用注意力机制,计算每个物体的短语上下文向量,然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中,得到对抗损失用来更新生成器,具体如下:
首先通过下面的公式计算第i个短语特征向量与第j个物体区域特征之间的归一化文本生成图像相似度:
Figure 332826DEST_PATH_IMAGE015
其中
Figure 139108DEST_PATH_IMAGE016
是检测到的物体的数量,然后计算对于第j个区域来讲,第i个短语的权重:
Figure 110475DEST_PATH_IMAGE017
其中n是短语的数量,下一步通过计算所有短语的加权和,得到第j个物体的短语上下文特征:
Figure 976800DEST_PATH_IMAGE018
最后,将物体特征
Figure 971300DEST_PATH_IMAGE019
,物体的短语上下文特征
Figure 581273DEST_PATH_IMAGE020
和句子编码S串联成同一个特 征,输入到判别器中,判断物体是否与相应的短语一致。
本发明的优点在于:基于Transformer的文字编码模块将输入的文字信息编码为单词特征矩阵、短语特征矩阵和句子特征向量,用于后续步骤的计算;基于GCN的文字生成图片相似度模块,不仅能够提高短语特征和生成场景图像中前景物体特征的相似度,同时能够提高输入文字和生成图片中前景物体相对位置关系的相似性;短语物体判别器模块是从整体图片和局部前景物体两个方面衡量生成图片的质量,不仅能够提高整体图片和局部前景物体生成的真实感,而且能够进一步提高整体图片和局部前景物体与对应的文字信息的一致性。
附图说明
图1是本发明用于文字生成图片的整体流程图。
图2是本发明基于GCN的文字生成图片相似度模块的流程示意图。
图3是本发明短语物体判别器模块的示意图。
具体实施方式
下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员理解本发明,并不对本发明作任何的限制。
术语解释:
Transformer:是一种编码器解码器架构,该网络架构中,编码器和解码器没有采用 RNN 或 CNN 等网络架构,而是采用完全依赖于注意力机制的架构。编码器的输入是一句话的单词嵌入表示和其对应的位置编码信息,模型的核心层是一个多头注意力机制。多头注意力机制就是使用多个注意力机制进行单独计算,以获取更多层面的语义信息,然后将各个注意力机制获取的结果进行拼接组合,得到编码结果。解码器比编码器多一种掩膜多头注意力机制,用来保证生成时的依赖关系。Transformer是将输入序列转换为输出序列的工具。
图卷积网络(Graph Convolutional Network,GCN):是一种用来提取拓扑图的空间特征的网络。在拓扑图中每个顶点的相邻顶点数目都可能不同,无法使用同样尺寸的卷积核来进行运算。GCN的输入是用向量表示的节点特征和表示节点之间关系的边信息。用GCN在拓扑图的结构上有效地提取空间特征来进行机器学习。
生成对抗网络(Generative Adversarial Network, GAN)生成对抗网络主要包括两个部分,即生成器网络与判别器网络。生成器主要用来学习真实图像分布从而让自身生成的图像更加真实,以骗过判别器。判别器则需要对生成的图片进行真假判别。在整个过程中,生成器努力地让生成的图像更加真实,而判别器则努力地去识别出图像的真假,这个过程相当于一个二人博弈,随着时间的推移,生成器和判别器在不断地进行对抗,最终两个网络达到了一个动态均衡:生成器生成的图像接近于真实图像分布,而判别器识别不出真假图像。
注意力多模态相似度模型(Deep Attentional Multimodal Similarity Model,DAMSM):是由经典文字生成图片的方法AttnGAN提出的多模态相似度模型。该模型将输入文字编码文单词特征矩阵,并用图片分类网络将生成图片分为多个网格图片块,每个图片块提取特征,用注意力机制计算两种特征之间的相似度,从而促进文本和图片的细粒度相似性。
YOLO物体检测器:基本原理就是采用不同大小和比例(宽高比)的窗口在整张图片上以一定的步长进行滑动,然后对这些窗口对应的区域做图像分类。YOLO将物体检测重新定义为一个回归问题。它将单个卷积神经网络(CNN)应用于整个图像,将图像分成网格。然后,对于每个网格,网络都会预测一个边界框和与每个类别(汽车,行人,交通信号灯等)相对应的概率。
Stanford Core NLP:是一个由斯坦福大学提供的自然语言处理工具包。它集成了很多非常实用的功能,包括分词,词性标注,句法分析等等。它是一个已经训练好的模型,可以当做一个软件使用。该工具具有功能多,操作方便,支持多种语言的特点。
本发明是基于短语驱动生成对抗网络的文本生成图像的方法,包括以下步骤:
步骤1,输入描述场景的文字信息,对输入文字编码为单词特征矩阵;
步骤2,根据上一步得到的单词特征矩阵计算句子特征向量,并将得到的句子特征向量串联一个从正态分布中采样的噪声向量,输入到对抗生成网络的生成器中生成初步场景图片;
步骤3,对单词之间的相关性进行分析,并根据步骤1得到的单词向量矩阵计算短语特征矩阵,短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督,以生成更加清晰的场景图片;
步骤4,对输入文字进行依存关系分析,检测并提取当前生成图片中的物体特征;
步骤5,利用步骤4的结果,为输入文本中的短语建立语义关系图,为检测到的物体建立空间关系图;
步骤6,将语义关系图和空间关系图分别进行编码,得到文字上下文特征和视觉上下文特征;
步骤7,计算基于注意力的文字上下文特征和视觉上下文特征的文字生成图片相似度,作为损失训练文字编码器和生成器;
步骤8,检测当前生成图片中包含的物体并提取物体特征;
步骤9,用注意力机制,计算每个物体的短语上下文向量,然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中,得到对抗损失用来更新生成器。
基于以上方法,本发明设计的网络,如图1所示,包括基于Transformer的文字编码模块,基于GCN的文字生成图片相似度模块和短语物体判别器模块,其中基于Transformer的文字编码模块的编码过程包含以下步骤:
步骤1,输入描述场景的文字信息,用Transformer的编码器模块对输入文字编码 为单词特征矩阵,其中Transformer的编码器模块是一个多层编码器,每层包含两个子层, 即多头自注意层和位置感知的全连接前馈层。得到的单词特征矩阵表示为
Figure 610409DEST_PATH_IMAGE021
,其 中t是单词个数,d是每个单词的特征维度;
步骤2,根据上一步得到的单词特征矩阵计算句子特征向量,并将得到的句子特征向量串联一个从正态分布中采样的噪声向量,输入到对抗生成网络的生成器中生成初步场景图片,具体如下:
基于上一步得到的单词特征矩阵E,首先计算每个单词的权重:
Figure 208487DEST_PATH_IMAGE022
其中
Figure 690284DEST_PATH_IMAGE023
代表第i个单词的特征向量,exp()是对数函数,
Figure 838369DEST_PATH_IMAGE024
是第i个单词的权重, 所有单词的权重组成权重向量W,根据权重向量和单词矩阵,得到句子特征向量:
Figure 722011DEST_PATH_IMAGE025
其中T表示矩阵的转置;
步骤3,利用自然语言处理NLP工具对单词之间的相关性进行分析,并根据第1步得到的单词向量矩阵计算短语特征矩阵,短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督,以生成更加清晰的场景图片,具体如下:
首先对输入文字进行文本相关性分析,这是一种分析单词之间相关程度的方法,包括邻接性分析和相似性分析。邻接性分析的目的是决定哪些词属于相同的短语,相似性分析是衡量不同单词之间的相似程度。对于邻接性分析,用Stanford Core NLP自然语言处理工具对输入文字做成分分析和依存关系分析,从而决定哪些词语描述同一个物体,描述同一个物体的单词叫做语义相关的单词,这些单词组成同一个短语。对于相似性分析,分析不同单词之间的相关程度:
Figure 992456DEST_PATH_IMAGE026
其中
Figure 961549DEST_PATH_IMAGE027
为相似性矩阵
Figure 414789DEST_PATH_IMAGE028
的第i行第j列的元素值。根据邻接性分析和相似性 分析的结果,用如下公式得到短语特征矩阵:
Figure 418517DEST_PATH_IMAGE029
其中
Figure 797546DEST_PATH_IMAGE030
是邻接性分析的结果矩阵,P为短语特征矩阵。
基于GCN的文字生成图片相似度模块的相似度计算过程主要包含以下步骤:
步骤4,首先使用自然语言处理工具Stanford Core NLP对输入文字进行依存关系分析,这一步的重点是从依存关系分析的结果中,得到不同物体之间的位置关系。然后,使用物体检测器YOLOv4检测当前生成图片中可信度最高的物体并提取物体特征。这里用到的YOLOv4模型是在Microsoft COCO 2014数据集中预训练过的模型;
步骤5,利用上一步的结果,为输入文本中的短语建立语义关系图,并为检测到的物体建立空间关系图,具体如下:
语义关系图G u 表示输入文本中的不同短语之间的语义相对位置关系,G u 是一个有向图,图中的节点为每一个短语向量,图中的边为输入文本中提到的位置关系,边的权值是表示位置关系的单词向量。
空间关系图G v 表示生成图片中检测到物体之间的空间位置关系,G v 同样是一个有向图,图中的节点为提取的每个区域的特征,图中的边也是文本中提到的位置关系,边的权值用相对极坐标计算,因为相对极坐标既可以表示两个物体之间的相对距离,又可以表示相对距离的方向。相对距离是检测到的物体的包围盒中心之间的欧几里得距离,方向表示空间关系的类别,如在……左边,在……下方等。
步骤6,将语义关系图和空间关系图分别输入到两个图卷积网络GCN中进行编码,得到文字上下文特征和视觉上下文特征,具体如下:
将上一步得到的语义关系图G u 和短语特征矩阵,以及空间关系图G v 和物体特征矩阵分别输入两个图卷积网络GCN中:
Figure 253935DEST_PATH_IMAGE031
Figure 806139DEST_PATH_IMAGE032
其中
Figure 398794DEST_PATH_IMAGE007
是第i个短语特征的邻域节点集合,
Figure 948724DEST_PATH_IMAGE008
是第i个物体特征的邻域节点集 合,
Figure 390945DEST_PATH_IMAGE009
是第j个短语特征向量,
Figure 746840DEST_PATH_IMAGE010
是第j个物体特征向量,
Figure 459581DEST_PATH_IMAGE033
是 需要学习的缩放和平移参数,
Figure 180412DEST_PATH_IMAGE012
是ReLU激活函数,K是GCN卷积核函数的个数,在本发明中我 们设置K=8。通过以上两个公式,得到短语上下文特征
Figure 345814DEST_PATH_IMAGE013
和物体上下文特征
Figure 443083DEST_PATH_IMAGE014
步骤7,上一步得到的两种上下文特征,用注意力多模态相似度模型计算基于注意力的文字生成图片相似度,作为损失训练文字编码器和生成器。具体地,用AttnGAN方法中的DAMAM模型计算两种上下文特征的相似度,因为两种上下文特征已经考虑了不同短语之间的语义关系以及不同物体之间的空间位置关系,因此本发明中这一模块既能衡量文字和图片的相似度,又能衡量不同模态特征之间关系的相似度。
短语物体判别器模块的判别过程包含以下步骤:
步骤8,用物体检测器YOLOv4检测当前生成图片中包含的物体,并提取物体特征;
步骤9,用注意力机制,计算每个物体的短语上下文向量,然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中,得到对抗损失用来更新生成器,具体如下:
非条件短语物体判别器是将检测到的物体特征输入到下采样网络中,根据输出值判断生成图片中物体的真实感。条件短语物体判别器需要结合文字信息判断生成图片中的物体是否与输入文字信息一致。通过注意机制计算每个物体的短语上下文特征。具体地,首先通过下面的公式计算第i个短语特征向量与第j个物体区域特征之间的归一化文本生成图像相似度:
Figure 574113DEST_PATH_IMAGE034
其中
Figure 200266DEST_PATH_IMAGE016
是检测到的物体的数量。然后计算对于第j个区域来讲,第i个短语的权重:
Figure 118543DEST_PATH_IMAGE035
其中n是短语的数量。下一步通过计算所有短语的加权和,得到第j个物体的短语上下文特征:
Figure 816241DEST_PATH_IMAGE035
最后,将物体特征
Figure 237995DEST_PATH_IMAGE036
,物体的短语上下文特征
Figure 566208DEST_PATH_IMAGE020
和句子编码S串联成同一个特 征,输入到判别器中,判断物体是否与相应的短语一致。
应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种基于短语驱动生成对抗网络的文本生成图像的方法,其特征在于:
步骤1,输入描述场景的文字信息,对输入文字编码为单词特征矩阵;
步骤2,根据上一步得到的单词特征矩阵计算句子特征向量,并将得到的句子特征向量串联一个从正态分布中采样的噪声向量,输入到对抗生成网络的生成器中生成初步场景图片;
步骤3,对单词之间的相关性进行分析,并根据步骤1得到的单词向量矩阵计算短语特征矩阵,短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督,以生成更加清晰的场景图片;
步骤4,对输入文字进行依存关系分析,检测并提取当前生成图片中的物体特征;
步骤5,利用步骤4的结果,为输入文本中的短语建立语义关系图,为检测到的物体建立空间关系图;
步骤6,将语义关系图和空间关系图分别进行编码,得到文字上下文特征和视觉上下文特征;
步骤7,计算基于注意力的文字上下文特征和视觉上下文特征的文字生成图片相似度,作为损失训练文字编码器和生成器;
步骤8,检测当前生成图片中包含的物体并提取物体特征;
步骤9,用注意力机制,计算每个物体的短语上下文向量,然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中,得到对抗损失用来更新生成器。
2.根据权利要求1所述的基于短语驱动生成对抗网络的文本生成图像的方法,其特征在于:
步骤2的具体过程为:基于上一步得到的单词特征矩阵E,首先计算每个单词的权重:
Figure 338405DEST_PATH_IMAGE001
Figure 777476DEST_PATH_IMAGE002
代表第i个单词的特征向量,exp()是对数函数,
Figure 116054DEST_PATH_IMAGE003
是第i个单词的权重,所有单词 的权重组成权重向量W,t单词个数,根据权重向量和单词矩阵,得到句子特征向量:
Figure 615168DEST_PATH_IMAGE004
其中T表示矩阵的转置。
3.根据权利要求1所述的基于短语驱动生成对抗网络的文本生成图像的方法,其特征在于:
步骤3中相关性分析包括邻接性分析和相似性分析,邻接性分析是决定哪些词属于相同的短语,相似性分析是衡量不同单词之间的相似程度。
4.根据权利要求1所述的基于短语驱动生成对抗网络的文本生成图像的方法,其特征在于:步骤5的具体过程为:
语义关系图G u 表示输入文本中的不同短语之间的语义相对位置关系,G u 是一个有向图,图中的节点为每一个短语向量,图中的边为输入文本中提到的位置关系,边的权值是表示位置关系的单词向量;
空间关系图G v 表示生成图片中检测到物体之间的空间位置关系,G v 同样是一个有向图,图中的节点为提取的每个区域的特征,图中的边也是文本中提到的位置关系,边的权值用相对极坐标计算,包括相对距离和相对方向;相对距离是检测到的物体的包围盒中心之间的欧几里得距离,相对方向表示空间关系的类别。
5.一种用于实现权利要求1-4任一所述的基于短语驱动生成对抗网络的文本生成图像的方法的网络,其特征在于:
包括基于Transformer的文字编码模块,基于GCN的文字生成图片相似度模块和短语物体判别器模块;
所述基于Transformer的文字编码模块处理过程如下:
输入描述场景的文字信息,用Transformer的编码器模块对输入文字编码为单词特征矩阵;
根据得到的单词特征矩阵计算句子特征向量,并将得到的句子特征向量串联一个从正态分布中采样的噪声向量,输入到对抗生成网络的生成器中生成初步场景图片;
利用自然语言处理工具对单词之间的相关性进行分析,并根据所述单词向量矩阵计算短语特征矩阵,短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督,以生成更加清晰的场景图片;
所述基于GCN的文字生成图片相似度模块局图处理过程如下:
首先使用自然语言处理工具Stanford Core NLP对输入文字进行依存关系分析,并使用物体检测器YOLOv4检测当前生成图片中的物体并提取物体特征;
利用提取的物体特征,为输入文本中的短语建立语义关系图,为检测到的物体建立空间关系图;
将语义关系图和空间关系图分别输入到两个图卷积网络中进行编码,得到文字上下文特征和视觉上下文特征;
上一步得到的两种上下文特征,用注意力多模态相似度模型计算基于注意力的文字生成图片相似度,作为损失训练文字编码器和生成器;
短语物体判别器模块的判别过程主要包含以下步骤:
用物体检测器YOLOv4检测当前生成图片中包含的物体并提取物体特征;
用注意力机制,计算每个物体的短语上下文向量,然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中,得到对抗损失用来更新生成器。
6.根据权利要求5所述的网络,其特征在于:
基于GCN的文字生成图片相似度模块的相似度计算过程中,
将语义关系图G u 和短语特征矩阵,以及空间关系图G v 和物体特征矩阵分别输入两个图卷积网络中,用来计算包含空间位置关系的文本-图片相似度:
Figure 475415DEST_PATH_IMAGE005
Figure 514915DEST_PATH_IMAGE006
其中
Figure 645682DEST_PATH_IMAGE007
是第i个短语特征的邻域节点集合,
Figure 112435DEST_PATH_IMAGE008
是第i个物体特征的邻域节点集合,
Figure 961443DEST_PATH_IMAGE009
是第j个短语特征向量,
Figure 742317DEST_PATH_IMAGE010
是第j个物体特征向量,
Figure 760214DEST_PATH_IMAGE011
是需要 学习的缩放和平移参数,
Figure 601131DEST_PATH_IMAGE012
是ReLU激活函数,K是GCN卷积核函数的个数;
通过以上两个公式,我们得到短语上下文特征
Figure 999751DEST_PATH_IMAGE013
和物体上下文特征
Figure 318737DEST_PATH_IMAGE014
7.根据权利要求6所述的网络,其特征在于:
用注意力机制,计算每个物体的短语上下文向量,然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中,得到对抗损失用来更新生成器,具体如下:
首先通过下面的公式计算第i个短语特征向量与第j个物体区域特征之间的归一化文本-图像相似度:
Figure 689675DEST_PATH_IMAGE015
其中
Figure 498231DEST_PATH_IMAGE016
是检测到的物体的数量,然后计算对于第j个区域来讲,第i个短语的权重:
Figure 820366DEST_PATH_IMAGE017
其中n是短语的数量,下一步通过计算所有短语的加权和,得到第j个物体的短语上下文特征:
Figure 943043DEST_PATH_IMAGE018
最后,将物体特征
Figure 965225DEST_PATH_IMAGE019
,物体的短语上下文特征
Figure 147945DEST_PATH_IMAGE020
和句子编码S串联成同一个特征,输 入到判别器中,判断物体是否与相应的短语一致。
CN202210250078.3A 2022-03-15 2022-03-15 基于短语驱动生成对抗网络的文本生成图像的方法及网络 Active CN114332288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210250078.3A CN114332288B (zh) 2022-03-15 2022-03-15 基于短语驱动生成对抗网络的文本生成图像的方法及网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210250078.3A CN114332288B (zh) 2022-03-15 2022-03-15 基于短语驱动生成对抗网络的文本生成图像的方法及网络

Publications (2)

Publication Number Publication Date
CN114332288A true CN114332288A (zh) 2022-04-12
CN114332288B CN114332288B (zh) 2022-06-14

Family

ID=81034090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210250078.3A Active CN114332288B (zh) 2022-03-15 2022-03-15 基于短语驱动生成对抗网络的文本生成图像的方法及网络

Country Status (1)

Country Link
CN (1) CN114332288B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240120A (zh) * 2022-09-21 2022-10-25 中山大学深圳研究院 一种基于对抗网络的行为识别方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200066A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Semantic Natural Language Vector Space
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
WO2020218111A1 (ja) * 2019-04-24 2020-10-29 富士フイルム株式会社 学習方法及び装置、プログラム、学習済みモデル並びにテキスト生成装置
CN113343705A (zh) * 2021-04-26 2021-09-03 山东师范大学 一种基于文本语义的细节保持图像生成方法及系统
CN113361251A (zh) * 2021-05-13 2021-09-07 山东师范大学 一种基于多阶段生成对抗网络的文本生成图像方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200066A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Semantic Natural Language Vector Space
WO2020218111A1 (ja) * 2019-04-24 2020-10-29 富士フイルム株式会社 学習方法及び装置、プログラム、学習済みモデル並びにテキスト生成装置
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN113343705A (zh) * 2021-04-26 2021-09-03 山东师范大学 一种基于文本语义的细节保持图像生成方法及系统
CN113361251A (zh) * 2021-05-13 2021-09-07 山东师范大学 一种基于多阶段生成对抗网络的文本生成图像方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JING YU KOH等: "《Text-to-Image Generation Grounded by Fine-Grained User Attention》", 《2021 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
JINGCONG SUN等: "《MCA-GAN: Text-to-Image Generation Adversarial Network Based on Multi-Channel Attention》", 《2019 IEEE 4TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC 2019)》 *
ZHENXING ZHANG等: "《DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse Text-to-Image Generation》", 《NEUROCOMPUTING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240120A (zh) * 2022-09-21 2022-10-25 中山大学深圳研究院 一种基于对抗网络的行为识别方法及电子设备
CN115240120B (zh) * 2022-09-21 2022-12-13 中山大学深圳研究院 一种基于对抗网络的行为识别方法及电子设备

Also Published As

Publication number Publication date
CN114332288B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
US11657230B2 (en) Referring image segmentation
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN111598183B (zh) 一种多特征融合图像描述方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112734881A (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN114612767B (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN111177402A (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN114548099A (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN113378919B (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
Li et al. Caption generation from road images for traffic scene modeling
CN114332288B (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
CN114529552A (zh) 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
Song et al. Exploring explicit and implicit visual relationships for image captioning
CN115018215B (zh) 基于多模态认知图谱的人口居住预测方法、系统和介质
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN112926569B (zh) 一种社交网络中的自然场景图像文本检测方法
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant