CN110490946A - 基于跨模态相似度和生成对抗网络的文本生成图像方法 - Google Patents
基于跨模态相似度和生成对抗网络的文本生成图像方法 Download PDFInfo
- Publication number
- CN110490946A CN110490946A CN201910635075.XA CN201910635075A CN110490946A CN 110490946 A CN110490946 A CN 110490946A CN 201910635075 A CN201910635075 A CN 201910635075A CN 110490946 A CN110490946 A CN 110490946A
- Authority
- CN
- China
- Prior art keywords
- text
- representation
- global
- image
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 31
- 238000009826 distribution Methods 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 5
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于跨模态相似度和生成对抗网络的文本生成图像方法,包括:步骤S1:使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型,其中,三个模型分别用于得到文本与图像的全局表示、局部表示和关系表示;步骤S2:利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示;步骤S3:将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示;步骤S4:利用Fca条件增强模块待处理文本的文本表示转换为条件向量;步骤S5:将条件向量输入生成器得到生成的图像。与现有技术相比,本发明具有考虑了局部和关系信息等优点。
Description
技术领域
本发明涉及图像检索匹配技术,尤其是涉及一种基于跨模态相似度和生成对抗网络的文本生成图像方法。
背景技术
近年来,深度神经网络DNNs取得了巨大的成功,尤其是针对判别任务而训练的神经网络模型。例如,卷积神经网络CNNs在计算机视觉中展现了伟大的前景。但是判别模型专注于表征学习,而不能够捕捉到数据分布。学习可以解释复杂数据分布的生成模型是深度学习领域一个长期的难题。作为它的一个子问题,基于生成对抗网络GANs的文本生成图像取得了一系列进展。
将文本作为条件送入生成器和判别器中,这些基于生成对抗网络GANs的深度学习模型可以产生和输入文本语义上相近且丰富多彩的图像结果。但是这些条件生成对抗网络只基于总体的文本表达而缺少详细的局部信息,从而无法生成清晰的高质量图像。因此,现有的基于GAN的成功只局限于小型样本库,对于有很多物体的复杂图像生成,仍然是一个挑战。
但不同于普通的文本生成图像问题,本发明基于多层级的文本描述,分别是全局描述、局部描述和关系描述,生成有很多物体和关系的复杂图像。这使得本发明不仅可以捕捉到全局信息,同时可以注意到详细的局部信息。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于跨模态相似度和生成对抗网络的文本生成图像方法。
本发明的目的可以通过以下技术方案来实现:
一种基于跨模态相似度和生成对抗网络的文本生成图像方法,包括:
步骤S1:使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型,其中,所述全局一致性模型、局部一致性模型和关系一致性模型分别用于得到文本与图像的全局表示、局部表示和关系表示;
步骤S2:利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示;
步骤S3:将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示;
步骤S4:利用Fca条件增强模块待处理文本的文本表示转换为条件向量;
步骤S5:将条件向量输入生成器得到生成的图像。
对于全局表示:
每个输入图像被调整为299×299的大小,然后被送入卷积神经网络,获得一个高级的全局视觉特征;
使用递归神经网络来处理文本数据,所述递归神经网络为双向LSTM模型来,所述双向LSTM模型抽取语义向量,在双向LSTM模型中,每个单词对应两个潜在状态,串联这两个潜在状态来表示每个单词的语义信息。
对于局部表示:
每个图像被送入基于VGG-16的Fater R-CNN模型,得到多个边界框,将边界框中的图像从原图中裁出,并当作单个子图像处理,送入卷积神经网络得到各单个子图像的全局表示,并将所有单个子图像的全局表示组合得到图像的局部表示;
分解文本得到多个单词,利用双向LSTM和注意力机制得到文本的局部表示。
所述卷积神经网络是基于Inception-v3网络设计的,并使用Inception-v3最后的平均池化层结果作为图像的全局表示。
所述文本的局部表示为:
其中:lt为文本t的局部表示,m为文本中的单词个数,为单词k的注意力权重,为单词k的语义表示向量。
所述文本的关系表示为:
其中:rt为文本t的关系表示,m为文本中的单词个数,为单词k的注意力权重,为单词k的语义表示向量。
所述步骤S1中的训练过程中,总损失函数为:
其中:为总损失函数,为全局表示匹配的损失函数,λg为全局表示匹配的权重,为局部表示匹配的损失函数,λl为局部表示匹配的权重,为关系表示匹配的损失函数,λr为关系表示匹配的权重。
所述全局表示匹配的损失函数为:
其中:为局表示匹配的损失函数,N是样本数量,为匹配图像,为匹配文本,为不匹配文本,为使用匹配文本图像对和不匹配文本图像对(匹配图像,不匹配文本)的损失函数,为使用匹配文本图像对和不匹配文本图像对(不匹配图像,匹配文本)的损失函数,α表示边际向量,d(·)为点乘计算,表示全局表示的匹配对,和是全局表示的不匹配对。
所述局部表示匹配的损失函数为:
其中:为局部表示匹配的损失函数,K为最近邻的个数,为局部表示的匹配对,为局部表示的不匹配对.
所述关系表示匹配的损失函数为:
其中:为关系表示匹配的损失函数,为关系表示的匹配对,为关系表示的不匹配对。
与现有技术相比,本发明具有以下有益效果:
1)综合考虑了全部、局部和关系信息,从而使得最终生成的图像更加丰富,提高了图像生成、检索的能力。
2)研究面向具有很多物体和关系的复杂图像生成问题,采用合适的条件生成对抗网络模型及其训练优化理论算法,输出高质量的复杂图像。
附图说明
图1为本发明方法的主要步骤流程示意图;
图2为跨模态相似度模型的示意图;
图3为跨模态相似度模型CRAN训练示意图;
图4为条件增强模块的示意图;
图5为文本生成图像模型RAGAN示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一种基于跨模态相似度和生成对抗网络的文本生成图像方法,该方法以计算机程序的形式由计算机系统实现,实现时,如图1所示,包括以下步骤:
步骤S1:使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型,其中,全局一致性模型、局部一致性模型和关系一致性模型分别用于得到文本与图像的全局表示、局部表示和关系表示;
如图3所示的多层级匹配来计算文本和图像的语义相似性得到如图2所示的跨模态相似度模型。
使用D={T,I}表示数据库,其中文本表示为图像表示为每个模型都有N个样本。
如图2所示,跨模型相似度模型主要包括以下三个子模型,分别是全局一致性模型、局部一致性模型和关系一致性模型。本申请对文本和图像抽取全局表示、局部表示和关系表示,以对文本-图像匹配提供大量信息。
首先,对于全局表示,每个输入图像ip被调整为299×299的大小,然后被送入卷积网络,获得一个高级的全局视觉特征。具体来说,卷积神经网络是基于Inception-v3网络设计的。本发明使用Inception-v3最后的平均池化层结果作为图像的全局表示。每个文本tq被看作一个字符串,使用递归神经网络来处理文本数据。具体来说,使用双向LSTM模型来抽取语义向量。在双向LSTM模型中,每个单词对应两个潜在状态。因此,串联这两个潜在状态来表示每个单词的语义信息,例如因此,文本的全局表示可以表示为
其次,对于图像的局部表示,使用Faster R-CNN模型来获得候选图像区域,其有很大概率包含视觉物体,例如人或是桌子。具体来说,每个ip被送入基于VGG-16的Faster R-CNN模型。这样,可以得到几个边界框,将边界框中的图像从原图中裁出,并当作单个图像处理,送入卷积神经网络,抽取Inception-v3最后的平均池化层结果作为图像的视觉特征。这样,就形成了一个图像的局部表示对于文本的局部表示,使用双向LSTM来获得一串输出。在双向LSTM中,每个单词对应两个潜在状态。因此,串联这两个潜在状态来表示每个单词的语义信息。因此,对于m个不同的文本块,特征矩阵被表示为此外,需要使模型专注于必要的细粒度部分,采用注意力机制来捕捉有用的文本块。使用带有softmax函数的前馈网络来计算注意力权重,如下所示:
其中,al表示每个文本块的注意力权重。注意力权重越大的文本块更有可能包含一些描述相关视觉物体的关键单词。因此,得到文本局部表示:
其中:lt为文本t的局部表示,m为文本中的单词个数,为单词k的注意力权重,为单词k的语义表示向量。
最后,对于关系表示,需要综合考虑图像区域之间的关系,和文本块之间的关系。对于图像区域来说,使用上述提到的从Faster RCNN中抽取出的视觉特征,构建一个图像中的区域之间的成对组合,以考虑它们之间的关系。因此,图像关系表示为j,k=1,...,n,,其中{.;.}表示第j个和第k个局部图像表示的串联。对于文本关系,同样使用注意力机制和双向LSTM模型来获得一组特征注意力机制被用在双向LSTM的顶部输出。对不同文本块,计算其注意力权重ar,注意力权重越大,其文本内容就有更大概率包含关系表达,例如旁边,下面等等,其表达了关键词之间的关系。因此,最后产生文本关系表示为:
其中:rt为文本t的关系表示,m为文本中的单词个数,为单词k的注意力权重,为单词k的语义表示向量。
已经获得了图像和文本的三类表示,分别是全局、局部和关系表示,通过学习多层级匹配来探索其跨模态的相似性。
对于全局匹配,我们的目标是学习不同模态类型之间的成对跨模态相关性,如图像gi和文本gt。我们设计了用于全局对齐的跨模态损失函数。考虑到匹配文本图像对的相似性与不匹配对的相似性之间的差异应尽可能大。因此,全局表示匹配的损失函数为:
其中:为局表示匹配的损失函数,N是样本数量,为匹配图像,为匹配文本,为不匹配文本,为使用匹配文本图像对和不匹配文本图像对(匹配图像,不匹配文本)的损失函数,为使用匹配文本图像对和不匹配文本图像对(不匹配图像,匹配文本)的损失函数,α表示边际向量,d(·)为点乘计算,表示全局表示的匹配对,和是全局表示的不匹配对。
对于局部匹配,在文本局部表示lt和多个图像局部表示中找到最匹配的对。具体来说,对于每个文本局部表示,从多个图像局部表示选择K个近邻(KNN)。并给出如下损失函数定义,
其中:为局部表示匹配的损失函数,K为最近邻的个数,为局部表示的匹配对,为局部表示的不匹配对,匹配对中的K个近邻局部对的平均值应该尽可能大,相比于不匹配对。
对于关系匹配,在文本关系表示rt和多个图像关系表示中找到最匹配的对。
类似于局部匹配,对于每个文本关系表达,从多个图像关系表示选择K个近邻(KNN)。并给出如下损失函数定义,
其中:为关系表示匹配的损失函数,为关系表示的匹配对,为关系表示的不匹配对,匹配对中的K个近邻关系对的平均值应该尽可能大,相比于不匹配对。
最终,CRAN模型损失函数被定义为:
其中:为总损失函数,为全局表示匹配的损失函数,λg为全局表示匹配的权重,为局部表示匹配的损失函数,λl为局部表示匹配的权重,为关系表示匹配的损失函数,λr为关系表示匹配的权重。
本发明使用的CRAN模型通过最小化来对真实图像-文本对进行预训练。给定一对文本和图像,CRAN模型的目的就是计算出文本tq和图像ip的跨模态相似性sim(tq,ip)。综上所述,使用CRAN计算生成图像样本sm和输入文本t的相似度值:
其中:sim(tq,ip)为文本tq和图像ip的跨模态相似性,gi为图像的全局表示,gt为文本的全局表示,为图像的局部表示,lt为文本的局部表示,为图像的关系表示,rt为文本的关系局部表示。
步骤S2:利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示;
步骤S3:将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示;
步骤S4:利用Fca条件增强模块待处理文本的文本表示转换为条件向量;
本申请提出了一种新的变种生成对抗网络GAN架构,称作关系注意力生成网络RAGAN,在RAGAN中,每个生成的图像样本都有一个相应的文本描述t和噪音z。调用CRAN中的文本编码器,每个文本描述有三个表示,分别是全局表示gt,局部表示lt和关系表示rt。
如图5所示,条件文本描述t由CRAN中的文本编码器编码,生成文本描述的全局表示gt,局部表示lt和关系表示rt,将三者串联起来获得文本向量之前,对文本向量进行非线性转化从而产生生成器的条件变量。但是,以文本为条件的潜在空间通常是高维度的(>100维)。在有限的数据量情况下,通常会导致数据的不连续性,对于生成器而言,这是不可取的。
为了解决这个问题,采用了条件增强技术,如图4所示,来为生成器产生更多的条件变量。从独立高斯分布进行采样,其中均值和协方差是文本变量的函数。图4中的Fca是条件增强模块,将文本向量转换为条件向量。
步骤S5:将条件向量输入生成器得到生成的图像。
以文本描述为条件,不直接生成高分辨率图像,将生成图像任务简化,分层从低到高分辨率模拟图像分布。为了使生成对抗网络更具普遍性,本发明使用一种端到端的模型,来模拟一系列多尺度图像分布。如图5所示,RAGAN包含一个树状结构的许多个生成器和判别器。不同分辨率的图像在树的各个分支上生成。在每个分支上,生成器捕捉相应分辨率上的图像分布,判别器判别生成样本和相应尺寸的真实图像。联合训练生成器,来逼近多层分布。
本申请探讨了多尺寸图像分布。RAGAN使用条件变量c和噪音z~pnoise作为输入,并使用多层生成器来产生不同尺寸的图像。pnoise是一个先验分布,通常采用标准正态分布。潜在变量z一层一层被转换为隐层特征。使用一个非线性转换来计算每个生成器Gi的隐层特征hi。
h0=F0(z);
hi=Fi(hi-1,z),i=1,2,...,m-1,
其中,hi表示第i个分支的隐层特征,一共有m个生成器,Fi是神经网络模型。为了捕捉之前分支产生的信息,条件向量c和噪音z串联在隐层特征hi-1作为Fi的输入,从而计算hi。基于不同层的隐层特征(h0,h1,...,hm-1),生成器产生从小到大尺寸的样本(s0,s1,...,sm-1),
si=Gi(hi),i=0,1,...,m-1,
其中,Gi是第i个分支的生成器。
每个生成器Gi有一个对应的判别器Di,通过最小化如下交互熵损失函数来训练。
其中si是每个生成器Gi产生的图像样本。通过已训练好的判别器的指导,生成器通过最小化如下损失函数,联合逼近多尺度图像分布进行优化。
其中,是逼近第i个分支的图像分布的损失函数,sim(t,sm)是文本描述和第m个分支的生成图像样本的相似度值。在实际训练中,生成器和判别器依次优化直至收敛。
最后,综合考虑文本图像相似性、图像多样性、图像清晰度,本发明提出一种面向文本生成图像算法的评价指标,使用该评价指标对模型所生成的图像质量进行评价。
Index=λ1Inception Score+λ2Similarity Score
其中,Inception Score评价图像的多样性和清晰度,Similarity Score描述文本图像的相似性。本专利将生成图像样本送入Inception模型,获得条件标签分布p(y|x)。图像清晰度高的生成图像样本的条件标签分布p(y|x)的熵比较低。图像多样性好的生成图像样本的边际和的熵更高。综合考虑图像多样性和清晰度,使用作为Inception Score。本专利将生成图像样本送入预训练好的跨模态相似度模型,使用计算得到的跨模态多层相似度值作为Similarity Score。
Claims (10)
1.一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,包括:
步骤S1:使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型,其中,所述全局一致性模型、局部一致性模型和关系一致性模型分别用于得到文本与图像的全局表示、局部表示和关系表示;
步骤S2:利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示;
步骤S3:将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示;
步骤S4:利用Fca条件增强模块待处理文本的文本表示转换为条件向量;
步骤S5:将条件向量输入生成器得到生成的图像。
2.根据权利要求1所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,对于全局表示:
每个输入图像被调整为299×299的大小,然后被送入卷积神经网络,获得一个高级的全局视觉特征;
使用递归神经网络来处理文本数据,所述递归神经网络为双向LSTM模型来,所述双向LSTM模型抽取语义向量,在双向LSTM模型中,每个单词对应两个潜在状态,串联这两个潜在状态来表示每个单词的语义信息。
3.根据权利要求1所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,对于局部表示:
每个图像被送入基于VGG-16的Fater R-CNN模型,得到多个边界框,将边界框中的图像从原图中裁出,并当作单个子图像处理,送入卷积神经网络得到各单个子图像的全局表示,并将所有单个子图像的全局表示组合得到图像的局部表示;
分解文本得到多个单词,利用双向LSTM和注意力机制得到文本的局部表示。
4.根据权利要求2或3所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,所述卷积神经网络是基于Inception-v3网络设计的,并使用Inception-v3最后的平均池化层结果作为图像的全局表示。
5.根据权利要求3所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,所述文本的局部表示为:
其中:lt为文本t的局部表示,m为文本中的单词个数,为单词k的注意力权重,为单词k的语义表示向量。
6.根据权利要求1所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,所述文本的关系表示为:
其中:rt为文本t的关系表示,m为文本中的单词个数,为单词k的注意力权重,为单词k的语义表示向量。
7.根据权利要求1所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,所述步骤S1中的训练过程中,总损失函数为:
其中:为总损失函数,为全局表示匹配的损失函数,λg为全局表示匹配的权重,为局部表示匹配的损失函数,λl为局部表示匹配的权重,为关系表示匹配的损失函数,λr为关系表示匹配的权重。
8.根据权利要求7所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,所述全局表示匹配的损失函数为:
其中:为局表示匹配的损失函数,N是样本数量,为匹配图像,为匹配文本,为不匹配文本,为使用匹配文本图像对和匹配图像但不匹配文本的不匹配文本图像对的损失函数,为使用匹配文本图像对和不匹配图像但匹配文本的不匹配文本图像对的损失函数,α表示边际向量,d(·)为点乘计算,表示全局表示的匹配对,和是全局表示的不匹配对。
9.根据权利要求8所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,所述局部表示匹配的损失函数为:
其中:为局部表示匹配的损失函数,K为最近邻的个数,为局部表示的匹配对,为局部表示的不匹配对。
10.根据权利要求9所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法,其特征在于,所述关系表示匹配的损失函数为:
其中:为关系表示匹配的损失函数,为关系表示的匹配对,为关系表示的不匹配对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635075.XA CN110490946B (zh) | 2019-07-15 | 2019-07-15 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635075.XA CN110490946B (zh) | 2019-07-15 | 2019-07-15 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110490946A true CN110490946A (zh) | 2019-11-22 |
CN110490946B CN110490946B (zh) | 2023-07-04 |
Family
ID=68547266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910635075.XA Active CN110490946B (zh) | 2019-07-15 | 2019-07-15 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110490946B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532571A (zh) * | 2017-09-12 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
CN110717555A (zh) * | 2019-12-12 | 2020-01-21 | 江苏联著实业股份有限公司 | 一种基于自然语言和生成对抗网络的图片生成系统及装置 |
CN111126597A (zh) * | 2019-12-17 | 2020-05-08 | 武汉大学 | 一种用于条件文本生成的深度学习模型的构建方法以及条件文本的生成方法 |
CN111199208A (zh) * | 2019-12-31 | 2020-05-26 | 上海昌投网络科技有限公司 | 一种基于深度学习框架的头像性别识别方法及系统 |
CN111339734A (zh) * | 2020-02-20 | 2020-06-26 | 青岛联合创智科技有限公司 | 一种基于文本生成图像的方法 |
CN111402365A (zh) * | 2020-03-17 | 2020-07-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111666753A (zh) * | 2020-05-11 | 2020-09-15 | 清华大学深圳国际研究生院 | 基于全局和局部匹配的短文本匹配方法及系统 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111918071A (zh) * | 2020-06-29 | 2020-11-10 | 北京大学 | 数据压缩的方法、装置、设备及存储介质 |
CN112364195A (zh) * | 2020-10-22 | 2021-02-12 | 天津大学 | 一种基于属性引导对抗哈希网络的零样本图像检索方法 |
CN112906392A (zh) * | 2021-03-23 | 2021-06-04 | 北京天融信网络安全技术有限公司 | 一种文本增强方法、文本分类方法及相关装置 |
CN113140020A (zh) * | 2021-05-13 | 2021-07-20 | 电子科技大学 | 一种基于伴随监督生成对抗网络的文本生成图像的方法 |
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN113742556A (zh) * | 2021-11-03 | 2021-12-03 | 南京理工大学 | 一种基于全局和局部对齐的多模态特征对齐方法 |
CN113792207A (zh) * | 2021-09-29 | 2021-12-14 | 嘉兴学院 | 一种基于多层次特征表示对齐的跨模态检索方法 |
WO2022007685A1 (en) * | 2020-07-06 | 2022-01-13 | Ping An Technology (Shenzhen) Co., Ltd. | Method and device for text-based image generation |
CN114332288A (zh) * | 2022-03-15 | 2022-04-12 | 武汉大学 | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 |
CN114998607A (zh) * | 2022-05-11 | 2022-09-02 | 北京医准智能科技有限公司 | 超声图像的特征提取方法、装置、电子设备及存储介质 |
CN115175089A (zh) * | 2022-06-07 | 2022-10-11 | 同济大学 | 一种基于均匀圆阵的无人机协同目标感知网络部署方法 |
CN116128438A (zh) * | 2022-12-27 | 2023-05-16 | 江苏巨楷科技发展有限公司 | 一种基于大数据记录信息的智慧社区管理系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
-
2019
- 2019-07-15 CN CN201910635075.XA patent/CN110490946B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
Non-Patent Citations (3)
Title |
---|
PENGHUI JIANG等: "Rotational Invariant LBP-SURF for Fast and Robust Image Matching", 《IEEE》 * |
TAO XU等: "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
袁爱红: "图像内容的语义描述与理解", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532571B (zh) * | 2017-09-12 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
CN110532571A (zh) * | 2017-09-12 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
CN110717555A (zh) * | 2019-12-12 | 2020-01-21 | 江苏联著实业股份有限公司 | 一种基于自然语言和生成对抗网络的图片生成系统及装置 |
CN111126597A (zh) * | 2019-12-17 | 2020-05-08 | 武汉大学 | 一种用于条件文本生成的深度学习模型的构建方法以及条件文本的生成方法 |
CN111199208A (zh) * | 2019-12-31 | 2020-05-26 | 上海昌投网络科技有限公司 | 一种基于深度学习框架的头像性别识别方法及系统 |
CN111339734B (zh) * | 2020-02-20 | 2023-06-30 | 青岛联合创智科技有限公司 | 一种基于文本生成图像的方法 |
CN111339734A (zh) * | 2020-02-20 | 2020-06-26 | 青岛联合创智科技有限公司 | 一种基于文本生成图像的方法 |
CN111402365A (zh) * | 2020-03-17 | 2020-07-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
CN111402365B (zh) * | 2020-03-17 | 2023-02-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111476294B (zh) * | 2020-04-07 | 2022-03-22 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111666753A (zh) * | 2020-05-11 | 2020-09-15 | 清华大学深圳国际研究生院 | 基于全局和局部匹配的短文本匹配方法及系统 |
CN111918071A (zh) * | 2020-06-29 | 2020-11-10 | 北京大学 | 数据压缩的方法、装置、设备及存储介质 |
WO2022007685A1 (en) * | 2020-07-06 | 2022-01-13 | Ping An Technology (Shenzhen) Co., Ltd. | Method and device for text-based image generation |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111897913B (zh) * | 2020-07-16 | 2022-06-03 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN112364195A (zh) * | 2020-10-22 | 2021-02-12 | 天津大学 | 一种基于属性引导对抗哈希网络的零样本图像检索方法 |
CN112364195B (zh) * | 2020-10-22 | 2022-09-30 | 天津大学 | 一种基于属性引导对抗哈希网络的零样本图像检索方法 |
CN112906392A (zh) * | 2021-03-23 | 2021-06-04 | 北京天融信网络安全技术有限公司 | 一种文本增强方法、文本分类方法及相关装置 |
CN113140020A (zh) * | 2021-05-13 | 2021-07-20 | 电子科技大学 | 一种基于伴随监督生成对抗网络的文本生成图像的方法 |
CN113220919B (zh) * | 2021-05-17 | 2022-04-22 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN113792207A (zh) * | 2021-09-29 | 2021-12-14 | 嘉兴学院 | 一种基于多层次特征表示对齐的跨模态检索方法 |
CN113792207B (zh) * | 2021-09-29 | 2023-11-17 | 嘉兴学院 | 一种基于多层次特征表示对齐的跨模态检索方法 |
CN113742556A (zh) * | 2021-11-03 | 2021-12-03 | 南京理工大学 | 一种基于全局和局部对齐的多模态特征对齐方法 |
CN114332288A (zh) * | 2022-03-15 | 2022-04-12 | 武汉大学 | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 |
CN114332288B (zh) * | 2022-03-15 | 2022-06-14 | 武汉大学 | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 |
CN114998607A (zh) * | 2022-05-11 | 2022-09-02 | 北京医准智能科技有限公司 | 超声图像的特征提取方法、装置、电子设备及存储介质 |
CN114998607B (zh) * | 2022-05-11 | 2023-01-31 | 北京医准智能科技有限公司 | 超声图像的特征提取方法、装置、电子设备及存储介质 |
CN115175089A (zh) * | 2022-06-07 | 2022-10-11 | 同济大学 | 一种基于均匀圆阵的无人机协同目标感知网络部署方法 |
CN115175089B (zh) * | 2022-06-07 | 2024-04-19 | 同济大学 | 一种基于均匀圆阵的无人机协同目标感知网络部署方法 |
CN116128438A (zh) * | 2022-12-27 | 2023-05-16 | 江苏巨楷科技发展有限公司 | 一种基于大数据记录信息的智慧社区管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110490946B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
CN111260740B (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN110765966B (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN112241468A (zh) | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
CN113191375B (zh) | 一种基于联合嵌入的文本到多对象图像生成方法 | |
CN114821050B (zh) | 一种基于transformer的指称图像分割方法 | |
CN113673535B (zh) | 一种多模态特征融合网络的图像描述生成方法 | |
CN114022372B (zh) | 一种引入语义损失上下文编码器的掩膜图像修补方法 | |
CN113157919B (zh) | 语句文本方面级情感分类方法及系统 | |
CN115512368B (zh) | 一种跨模态语义生成图像模型和方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN113140020A (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN114022582A (zh) | 一种文本生成图像方法 | |
Zhang et al. | CNN-transformer based generative adversarial network for copy-move source/target distinguishment | |
CN111858984A (zh) | 一种基于注意力机制哈希检索的图像匹配方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
Elleuch et al. | The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |