CN112348911B - 基于语义约束的堆叠文本生成细粒度图像方法及系统 - Google Patents

基于语义约束的堆叠文本生成细粒度图像方法及系统 Download PDF

Info

Publication number
CN112348911B
CN112348911B CN202011170331.1A CN202011170331A CN112348911B CN 112348911 B CN112348911 B CN 112348911B CN 202011170331 A CN202011170331 A CN 202011170331A CN 112348911 B CN112348911 B CN 112348911B
Authority
CN
China
Prior art keywords
image
semantic
fine
grained
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011170331.1A
Other languages
English (en)
Other versions
CN112348911A (zh
Inventor
刘丽
田甜
王萍
张静静
张化祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202011170331.1A priority Critical patent/CN112348911B/zh
Publication of CN112348911A publication Critical patent/CN112348911A/zh
Application granted granted Critical
Publication of CN112348911B publication Critical patent/CN112348911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明属于图像生成领域,提供了一种基于语义约束的堆叠文本生成细粒度图像方法及系统。其中,基于语义约束的堆叠文本生成细粒度图像方法包括提取语义文本的句嵌入特征向量和词嵌入特征矩阵,均输入至堆叠细粒度图像生成网络中,生成细粒度图像;所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。其能够保证最终生成的图像具有良好的语义一致性。

Description

基于语义约束的堆叠文本生成细粒度图像方法及系统
技术领域
本发明属于图像生成领域,尤其涉及一种基于语义约束的堆叠文本生成细粒度图像方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
根据文本描述生成图像在诸多领域得到了广泛的应用,并逐渐成为计算机视觉领域最活跃的研究课题之一。由于不同模态之间的异构性,很难根据文本直接生成匹配的图像。近年来,许多学者提出了基于生成对抗网络的根据文本生成图像的方法,该方法在生成具有视觉真实性的图像方面具有良好的性能。尽管生成具有较高视觉真实性的图像方面的研究已经取得了一定成果,但是在生成图像与对应文本的语义一致性方面仍有较大的提升空间。
从不同的语言描述中提取高级语义特征是比较困难的。张等人提出了草图-细化方法,将困难问题分解为更易于解决的子问题。在第一阶段生成低分辨率图像,并将其生成结果和隐层向量输入到图像生成的下一阶段来生成具有更加丰富的语义信息的细粒度图像。徐等人提出了注意力机制,根据自然语言描述中的相关词汇来获取不同子区域的细粒度细节图像。这种方法使得生成图像的视觉真实性和分辨率显著提高。乔等人提出的MirrorGAN模型,根据模型生成的图像重新生成文本描述,通过最小化该描述与真实文本之间的差异损失来增强生成图像与对应文本的语义一致性。然而,发明人发现,仅在图像生成的最后阶段计算该损失并不能获得最好的结果。生成图像与给定文本描述之间的语义一致性还有很大的改进空间。
发明内容
为了解决上述问题,本发明提供一种基于语义约束的堆叠文本生成细粒度图像方法及系统,其能够保证最终生成的图像具有良好的语义一致性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于语义约束的堆叠文本生成细粒度图像方法,其包括:
提取语义文本的句嵌入特征向量和词嵌入特征矩阵,均输入至堆叠细粒度图像生成网络中,生成细粒度图像;
所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。
本发明的第二个方面提供一种基于语义约束的堆叠文本生成细粒度图像系统,其包括:
文本特征提取模块,其用于提取语义文本的句嵌入特征向量和词嵌入特征矩阵;
细粒度图像生成模块,其用于将提取语义文本的相应特征均输入至堆叠细粒度图像生成网络中,生成细粒度图像;
所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。
本发明的有益效果是:
本发明提取语义文本的句嵌入特征向量和词嵌入特征矩阵,并输入至堆叠细粒度图像生成网络中,生成细粒度图像;堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。运用深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束使生成图像在保证图像视觉真实性的同时最大程度地与输入文本的高级语义匹配。我们提出的堆叠细粒度图像生成网络生成的图像在视觉真实性和语义一致性上明显优于之前的方法,并在数据集上取得了良好的效果。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的堆叠细粒度图像生成网络结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于语义约束的堆叠文本生成细粒度图像方法,其包括:
提取语义文本的句嵌入特征向量和词嵌入特征矩阵,均输入至堆叠细粒度图像生成网络中,生成细粒度图像。
句嵌入特征向量和词嵌入特征矩阵是基于语义文本嵌入模块提取的。
在第一个图像特征转换网络中输入词嵌入特征矩阵
Figure BDA0002747081300000041
和句嵌入特征向量
Figure BDA0002747081300000042
生成低分辨率图像。我们使用条件增强方法来生成更多的文本模型数据,以降低有限的文本-图像数据对对模型训练过程的影响。条件增强函数Fca可以表示为:
Figure BDA0002747081300000043
其中,
Figure BDA0002747081300000044
表示条件增强后的句嵌入特征向量,D′是
Figure BDA0002747081300000045
的向量维度。
参照图1,所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。
如图1所示,将句嵌入特征向量和词嵌入特征矩阵输入到第一个图像特征转换网络中,得到初始的粗粒度图像。根据图像特征向量计算出图像各子区域的文本相关度特征向量。将图像特征向量和相应的文本相关度特征矩阵输入到下一个图像特征转换网络中,生成较细粒度的图像。依次访问每个图像特征转换网络,得到最终的细粒度图像。
在具体实施中,利用注意力机制提出的词级注意力模型生成每个图像子区域的文本相关度特征向量。
堆叠细粒度图像生成网络是基于注意力机制的图像生成网络,其有两个输入:词嵌入矩阵
Figure BDA0002747081300000051
以及上一阶段生成的隐层特征向量
Figure BDA0002747081300000052
其中D′是向量维度,N是生成图像的子区域个数。
通过增加一个新的感知器层U,将词嵌入特征矩阵w与图像特征向量映射到一个公共的语义空间。
w′=Uw (2)
我们使用{F0,F1,...,Fm-1}表示m个图像特征转换器,{G0,G1,…,Gm-1}表示m个图像生成器,z表示引入的随机噪声。由多阶段网络逐步生成最终的细粒度图像的过程可以表示为:
Figure BDA0002747081300000053
Figure BDA0002747081300000054
Ii=Gi(fi),i∈{0,1,2,…,m-1} (3)
首先将词嵌入特征矩阵w和前一阶段的隐层特征向量输入图像特征转换器,然后利用注意力机制提出的词级注意力模型生成每个图像子区域的文本相关度向量。将词嵌入特征矩阵w与图像特征向量映射到一个公共的语义空间w′,然后根据图像的隐藏层特征fi计算出图像每个子区域的文本相关度特征向量。f的每一列表示图像的一个子区域对应的特征向量,Ii表示第i个阶段生成器根据隐藏层特征fi生成的图像。
Figure BDA0002747081300000061
其中,βj,i表示模型在生成图像的第j个子区域时文本中第i个单词的权重,cj表示根据单词权重加权后的词嵌入特征矩阵。
图像特征向量的文本相关度特征矩阵可被定义如下:
Fattn(f,w)=(c0,c1,c2,...,cN-1) (5)
其中,{c0,c1,...,cN-1}表示生成图像的N个子区域对应的文本相关度特征向量。f和Fattn(f,w)可以输入到下一个图像特征转换器中,以获得更高像素级的细粒度图像。
所述堆叠细粒度图像生成网络还包括语义文本再生成模块,其用于根据生成的图像来编码出与该图像语义匹配的文本描述,进而形成语义再生成对齐约束。语义文本再生成模块根据生成图像编码出与之语义匹配的文本描述。通过一个基于Inception-v3模型的卷积神经网络(CNN)对生成图像进行编码,该模型将图像特征向量编码为语义特征向量。通过CNN的中间层学习图像不同子区域的局部特征,并通过最后一层学习图像的全局特征。语义文本再生成模块的解码器采用循环神经网络(RNN)。
r-1=CNN(Im-1)
ri=WeTt,i∈{0,...,m-1}
pi=RNN(ri),i∈{0,...,m-1}t∈{0,...,L-1} (6)
其中,Im-1是由网络中最后一个生成器生成的图像,r-1是开始时输入RNN的视觉特征,We是一个词嵌入特征矩阵,用于将词级特征映射到图像特征空间。Tt表示句子T中的第t个单词,L表示句子中单词的个数,pi是一个预测的概率分布,ri表示第i个阶段的视觉特征。我们计算出基于交叉熵的文本语义重构损失,以保证新生成的文本描述的底层语义与给定的文本描述相匹配。
基于语义约束的堆叠细粒度图像生成网络有三个重要约束:深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束。如果网络生成的图像在高级语义上与输入的文本描述一致,那么根据生成图像编码得到的再生成文本与输入的文本描述具有完全相同的语义。由于用于训练的文本-图像对的数目有限,训练生成对抗网络变得非常困难,我们使用条件增强方法来生成更多的文本模型数据,从而增强生成图像对文本流形上小扰动的鲁棒性。
深度多模态注意约束将图像编码器生成的图像特征向量映射到词嵌入语义空间,从而根据每个单词来衡量自然语言描述与生成图像的相似度,并计算细粒度损失。图像编码器是将生成的图像I映射到词嵌入语义空间的三维卷积神经网络,映射过程表示为:
Figure BDA0002747081300000071
其中,
Figure BDA0002747081300000072
是生成图像的全局特征,
Figure BDA0002747081300000073
中的每一个vi表示图像的第i个子区域的隐藏层特征向量,D是词嵌入语义空间的维度,N是图像的子区域个数。通过感知层U将词嵌入特征矩阵w和句嵌入特征向量
Figure BDA0002747081300000076
映射到视觉特征的的底层公共语义空间,计算自然语言描述中的词与生成图像的子区域之间的相关度特征矩阵。我们将相关度特征矩阵规范化如下:
Figure BDA0002747081300000074
图像子区域特征向量定义为:
Figure BDA0002747081300000075
其中,γ1是由实验决定的注意力因子,αi,j表示生成器在生成图像的第j个子区域时语义描述中第i个单词的权重。整个图像特征向量的文本相关度特征矩阵可由(c0,c1,c2,...,cN-1)表示,N表示图像中子区域的个数。自然语言描述中的第i个单词wi和图像的第i个子区域之间的余弦相似度为:
Figure BDA0002747081300000081
结合最小分类误差公式,我们将自然语言描述Te与整个生成图像之间的匹配度定义为:
Figure BDA0002747081300000082
其中,γ2是由实验决定的相关系数。深度多模态注意约束是一种基于半监督学习的注意力模型,监督信息是自然语言描述w与整个生成图像的匹配度。第i个阶段只有Tei的语义描述与图像I相匹配。
我们将词级损失
Figure BDA0002747081300000087
定义为图像与其对应的文本描述之间匹配度的负对数后验概率:
Figure BDA0002747081300000083
句级损失
Figure BDA0002747081300000084
可通过将R(Ioi,Tei)修改为
Figure BDA0002747081300000085
来计算,由此可以得到深度多模态注意约束的损失函数如下:
Figure BDA0002747081300000086
在生成网络的每个阶段都要考虑语义再生成对齐损失,以提高生成图像与输入文本的语义一致性。如果生成模型生成的图像与给定的文本描述在语义上一致,那么根据生成图像编码得到的再生成文本应该具有与输入文本完全相同的高级语义。语义再生成对齐模块尝试根据生成图像编码生成与输入的文本描述具有一致语义的再生成文本描述。语义再生成对齐约束计算了基于交叉熵的文本语义重构损失,来保证再生成文本描述的底层语义与输入的文本描述一致。语义再生成对齐模型的最终损失函数表示如下:
Figure BDA0002747081300000091
其中,Tet是整个自然语言描述Te中的第t个单词,pt是预测概率分布,L是句中的单词数。我们根据自然语言描述利用该约束计算每个阶段的语义再生成对齐损失,将每个阶段的语义再生成对齐损失相加作为该次生成的最终语义再生成对齐损失。网络最终的语义再生成对齐损失定义如下:
Figure BDA0002747081300000092
其中,
Figure BDA0002747081300000093
表示第i个阶段的语义再生成对齐损失,F表示网络模型的迭代次数。
文本语义嵌入约束计算两种对抗损失:视觉真实性对抗损失和图像语义一致性对抗损失。在生成网络的第i个阶段,生成器Gi的对抗损失定义如下:
Figure BDA0002747081300000094
其中,ui表示此阶段使用的高斯条件变量,无条件损失
Figure BDA0002747081300000095
表示图像在视觉上的真假,条件损失
Figure BDA0002747081300000096
表示图像在高级语义上与输入文本的匹配程度。我们将生成器和鉴别器进行交替训练,最小化交叉熵以提高鉴别器判断输入图像真实性的能力。对抗性损失定义如下:
Figure BDA0002747081300000097
其中,xi表示在第i个阶段服从真实图像分布Pdata的图像,
Figure BDA0002747081300000098
表示在第i个阶段服从生成图像分布PGi的图像。
我们在生成网络的每个阶段都进行一次语义对齐,语义对齐损失定义如下:
Figure BDA0002747081300000101
其中,Tet,i表示在第i个阶段自然语言描述Te中的第t个单词,L表示句中的单词数,pt,i表示在第i个阶段第t个单词的预测概率分布。
语义校对损失可表示如下:
Figure BDA0002747081300000102
本实施例提出的堆叠细粒度图像生成网络有三个方面的贡献:(1)根据文本描述中每个单词对图像不同子区域的影响程度生成图像各子区域的细粒度图像。(2)根据模型生成的图像重新编码得到再生成文本描述,通过最小化该描述与真实文本之间的差异损失来增强生成图像与对应文本的语义一致性。(3)最终的损失函数由每个阶段的文本对齐损失组成,以保证最终生成的图像具有良好的语义一致性。
虽然现有的模型可以基于全局约束(如类标签或标题)来生成图像,但在生成图像与对应文本的视觉真实性和语义一致性上仍有较大的提升空间。我们提出了一个新颖的堆叠细粒度图像生成网络,该网络将图像的生成划分为三个阶段,首先根据文本内容生成基于句嵌入的粗粒度图像,然后运用注意力机制计算出文本描述中每个单词对图像各子区域的影响程度,结合由生成图像编码得到的再生成的文本与原始文本间的匹配损失,在每个阶段逐步生成具有更高视觉真实性和语义一致性的细粒度图像。生成器的训练基于三个约束:深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束。我们的方法在生成图像的视觉真实性和语义一致性方面明显优于之前的方法,并且优于当前CUB数据集上相关生成模型的最佳结果。
实施例二
本实施例提供了一种基于语义约束的堆叠文本生成细粒度图像系统,其包括:
文本特征提取模块,其用于提取语义文本的句嵌入特征向量和词嵌入特征矩阵;
细粒度图像生成模块,其用于将提取语义文本的相应特征均输入至堆叠细粒度图像生成网络中,生成细粒度图像;
所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。
本实施例的基于语义约束的堆叠文本生成细粒度图像系统与基于语义约束的堆叠文本生成细粒度图像方法中的步骤一一对应,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,包括:
提取语义文本的句嵌入特征向量和词嵌入特征矩阵,均输入至堆叠细粒度图像生成网络中,生成细粒度图像;在生成细粒度图像的过程中,将句嵌入特征向量和词嵌入特征矩阵输入到第一个图像特征转换网络中,得到初始粗粒度图像;
所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性;
深度多模态注意约束的损失函数:
将词级损失
Figure FDA0004053428500000011
定义为图像与其对应的文本描述之间匹配度的负对数后验概率:
Figure FDA0004053428500000012
句级损失
Figure FDA0004053428500000013
可通过将R(Ioi,Tei)修改为
Figure FDA0004053428500000014
来计算,由此可以得到深度多模态注意约束的损失函数如下:
Figure FDA0004053428500000015
在生成网络的每个阶段都进行一次语义对齐,语义对齐损失定义如下:
Figure FDA0004053428500000016
其中,Tet,i表示在第i个阶段自然语言描述Te中的第t个单词,L表示句中的单词数,pt,i表示在第i个阶段第t个单词的预测概率分布;
语义校对损失可表示如下:
Figure FDA0004053428500000017
2.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,在得到初始的粗粒度图像之后,还包括:
提取当前粒度图像的图像特征向量,计算出当前粒度图像各子区域的文本相关度特征向量;
将当前粒度图像的图像特征向量和相应的文本相关度特征矩阵输入到下一个图像特征转换网络中,生成较细粒度的图像。
3.如权利要求2所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,利用注意力机制提出的词级注意力模型生成每个图像子区域的文本相关度特征向量。
4.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,基于图像特征向量和相应的文本相关度特征矩阵依次访问每个图像特征转换网络,得到最终的细粒度图像。
5.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,所述堆叠细粒度图像生成网络还包括语义文本再生成模块,其用于根据生成的图像来编码出与该图像语义匹配的文本描述,进而形成语义再生成对齐约束。
6.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,深度多模态注意约束用于将图像编码器生成的图像特征向量映射到词嵌入语义空间,根据每个单词来衡量自然语言描述与生成图像的相似度,并计算细粒度损失;
或文本语义嵌入约束用于计算两种对抗损失:视觉真实性对抗损失和图像语义一致性对抗损失。
7.一种基于语义约束的堆叠文本生成细粒度图像系统,其特征在于,包括:
文本特征提取模块,其用于提取语义文本的句嵌入特征向量和词嵌入特征矩阵;
细粒度图像生成模块,其用于将提取语义文本的相应特征均输入至堆叠细粒度图像生成网络中,生成细粒度图像;在生成细粒度图像的过程中,将句嵌入特征向量和词嵌入特征矩阵输入到第一个图像特征转换网络中,得到初始粗粒度图像;
所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性;
深度多模态注意约束的损失函数:
将词级损失
Figure FDA0004053428500000031
定义为图像与其对应的文本描述之间匹配度的负对数后验概率:
Figure FDA0004053428500000032
句级损失
Figure FDA0004053428500000033
可通过将R(Ioi,Tei)修改为
Figure FDA0004053428500000034
来计算,由此可以得到深度多模态注意约束的损失函数如下:
Figure FDA0004053428500000035
在生成网络的每个阶段都进行一次语义对齐,语义对齐损失定义如下:
Figure FDA0004053428500000036
其中,Tet,u表示在第u个阶段自然语言描述Te中的第t个单词,L表示句中的单词数,pt,i表示在第i个阶段第t个单词的预测概率分布;
语义校对损失可表示如下:
Figure FDA0004053428500000041
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。
CN202011170331.1A 2020-10-28 2020-10-28 基于语义约束的堆叠文本生成细粒度图像方法及系统 Active CN112348911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011170331.1A CN112348911B (zh) 2020-10-28 2020-10-28 基于语义约束的堆叠文本生成细粒度图像方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011170331.1A CN112348911B (zh) 2020-10-28 2020-10-28 基于语义约束的堆叠文本生成细粒度图像方法及系统

Publications (2)

Publication Number Publication Date
CN112348911A CN112348911A (zh) 2021-02-09
CN112348911B true CN112348911B (zh) 2023-04-18

Family

ID=74358821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011170331.1A Active CN112348911B (zh) 2020-10-28 2020-10-28 基于语义约束的堆叠文本生成细粒度图像方法及系统

Country Status (1)

Country Link
CN (1) CN112348911B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926671B (zh) * 2021-03-12 2024-04-19 云知声智能科技股份有限公司 一种图像文本匹配的方法、装置、电子设备和存储介质
CN113158630B (zh) * 2021-03-15 2024-02-06 苏州科技大学 一种文本编辑图像方法、存储介质、电子设备及系统
CN114610893B (zh) * 2021-03-19 2024-07-23 山东大学 基于深度学习的剧本到故事板序列自动生成方法及系统
CN113343705B (zh) * 2021-04-26 2022-07-05 山东师范大学 一种基于文本语义的细节保持图像生成方法及系统
CN113254694B (zh) * 2021-05-21 2022-07-15 中国科学技术大学 一种文本转图像方法和装置
CN114329034B (zh) * 2021-12-31 2024-08-09 武汉大学 基于细粒度语义特征差异的图像文本匹配判别方法及系统
CN114298057B (zh) * 2022-01-04 2024-08-09 中国人民解放军国防科技大学 一种基于数据增强的视觉语义嵌入方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN110443863A (zh) * 2019-07-23 2019-11-12 中国科学院深圳先进技术研究院 文本生成图像的方法、电子设备和存储介质
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110706302A (zh) * 2019-10-11 2020-01-17 中山市易嘀科技有限公司 一种文本合成图像的系统及方法
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN110443863A (zh) * 2019-07-23 2019-11-12 中国科学院深圳先进技术研究院 文本生成图像的方法、电子设备和存储介质
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110706302A (zh) * 2019-10-11 2020-01-17 中山市易嘀科技有限公司 一种文本合成图像的系统及方法
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks;Tao Xu 等;《IEEE》;20181216;第1316-1323页 *
Controllable Text-to-Image Generation;Bowen Li等;《33rd Conference on Neural Information Processing Systems (NeurIPS 2019)》;20191231;第1-9页 *

Also Published As

Publication number Publication date
CN112348911A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112348911B (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN110929515A (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN113987187B (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
JP7315065B2 (ja) 質問生成装置、質問生成方法及びプログラム
CN110210032A (zh) 文本处理方法及装置
CN115221846A (zh) 一种数据处理方法及相关设备
CN109711465A (zh) 基于mll和asca-fr的图像字幕生成方法
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113128232A (zh) 一种基于albert与多重词信息嵌入的命名实体识别方法
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN112000809A (zh) 一种文本类别的增量学习方法及装置、可读存储介质
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN111597815A (zh) 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN112069809A (zh) 一种缺失文本生成方法及系统
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN113987162A (zh) 文本摘要的生成方法、装置及计算机设备
CN116226357A (zh) 一种输入中包含错误信息场景下的文档检索方法
CN113779244B (zh) 文档情感分类方法、装置、存储介质以及电子设备
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113536797B (zh) 一种切片文档关键信息单模型抽取方法及系统
Zhao et al. Commented content classification with deep neural network based on attention mechanism
CN112818688B (zh) 文本处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant