CN113869007B - 一种基于深度学习的文本生成图像学习方法 - Google Patents

一种基于深度学习的文本生成图像学习方法 Download PDF

Info

Publication number
CN113869007B
CN113869007B CN202111183091.3A CN202111183091A CN113869007B CN 113869007 B CN113869007 B CN 113869007B CN 202111183091 A CN202111183091 A CN 202111183091A CN 113869007 B CN113869007 B CN 113869007B
Authority
CN
China
Prior art keywords
image
word
text
generated
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111183091.3A
Other languages
English (en)
Other versions
CN113869007A (zh
Inventor
姚晨辉
赵亮
李欣炜
黄平达
马希达
刘卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111183091.3A priority Critical patent/CN113869007B/zh
Publication of CN113869007A publication Critical patent/CN113869007A/zh
Application granted granted Critical
Publication of CN113869007B publication Critical patent/CN113869007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于深度学习的文本生成图像学习方法,属于计算机视觉领域。我们提出TRGAN学习模型,TRGAN包含两个模块:联合注意堆叠生成模块和文本生成模块反向修正和校正模块。在JASGM模块中,从词级信息中提取详细的特征信息图像是基于全局句子注意力生成的。在TGOCM模块中,文本描述反向生成,可以通过匹配词级特征向量来提高初始图像的质量。本发明依照上述特征所构建的模型推导出了一种行之有效的算法来处理上述问题,通过大量实验验证,本发明所得到的数据表示性能优于现阶段相关模型。

Description

一种基于深度学习的文本生成图像学习方法
技术领域
本发明属于计算机视觉领域,涉及一种基于深度学习的文本生成图像的学习方法,尤其涉及一种通过优化初始图像来做从文本到图像生成的学习模型。
背景技术
过去几年见证了生成对抗网络(GANs)在各种应用上的巨大成功。目前,文本-图像的合成是GAN的重要应用之一,也是近年来最活跃的研究领域之一。大多数早期提出的文本到图像的一步直接生成结果的方法。最近的方法也在不断探索多阶段从文本描述生成图像。典型的是,他们将整句文本描述编码为单个向量,作为图像生成的条件,并在第一阶段生成56*56低分辨率图像。在下一阶段,基于低分辨率的图像,生成128*128的高分辨率图像。最后,通过前面两个阶段的信息得到256*256的真实图像。随着文本到图像合成方法的探索,文本生成图像分为两个方向。第一个是根据给定的原始图像和目标文本改变图像的相应属性。第二个是生成器根据给定的文本描述,直接从语义中获取信息,生成相应的图像表示。
Seonghyeon Nam等人建立了TAGAN模型,使用文本自适应生成对抗网络对图像进行语义操作。通过这样做,TAGAN学会了在保留原始图像中不相关内容的同时生成特定的视觉属性。郝东等人提出了SISGAN模型,该模型可以将图像和文本描述中包含的语义解纠缠,同时保留与文本描述无关的其他图像特征。Bowen Li等人建立了ManiGAN模型。他们利用仿射组合模块根据给定的文本选择图像区域,然后将这些区域与相应的语义词关联起来进行有效的操作。同时,细节校正模块对不匹配的视觉属性进行校正,完善合成图像中缺失的内容。此类算法的面临的挑战就是在捕捉更改的属性的同时需要保留原有属性,大多数的算法都可以捕捉相应的属性,但很少能将更改属性和原有属性很好的结合起来。
然后Tao Xu等人使用AttnGAN模型构建新的注意生成网络。该模型可以通过多阶段处理生成高质量的图像,并计算细粒度的图像-文本匹配损失,用于训练AttnGAN生成器。该模型对文本生成的方向也有重要影响。Tingting Qiao等人提出的STREAM模块,它试图从生成的图像中重新生成文本描述,这在语义上与给定的文本描述保持一致。Minfeng Zhu等人使用一个动态记忆组件来精炼初始生成的图像,一个记忆写入门来突出重要的文本信息,以及一个休息门来融合图像和记忆表示。此外,还有从空间布局生成图像的研究。WenboLi等人在每个阶段都有一个新的对象驱动的注意层,它们的生成器能够利用细粒度的对象级信息来逐步细化合成图像。而Fuwen Tan等人提出了Text2Scene。通过关注输入文本的不同部分和生成场景的当前状态,它学会在每个时间步骤中依次生成对象及其属性(位置、大小、外观等)。此类的算法面临的挑战是既要生成文本描述的具有细节的图像,又要生成符合文本描述的背景图像。即使现在的算法都可以生成相应的图像,但是还有提升的空间。
虽然以上多阶段生成的模型,可以在简单的数据集(如花和鸟)上取得很好的结果,但对于由多个对象和不同连接组成的复杂而真实的场景来说,却有很大的挑战。因此有些研究者以整个句子编码为基础,然后对每个词向量进行相应的属性更改。在每个阶段都重复这个过程,不同的是,其他研究人员在最后阶段进行优化,例如反向生成文本。但是,如果图像不是真实的(即生成低质量、低分辨率的图像,形状不规则,色彩奇特与实体关系不现实),那么下一阶段的质量就不会有太大的提高。因此,文本到图像的生成不仅需要多阶段的生成,还需要在不同的阶段实现不同的功能来生成更逼真的图像,因此最终的图像在很大程度上取决于生成的初始图像的质量。
发明内容
针对以上问题,为了从文本描述中更好地生成图像,本文提出了一种文本-图像模型,通过多阶段的文本来合成图像,称为TRGAN。此学习模型是一个复杂的结构,有三个生成阶段。三个阶段共组成两个模块,一个是联合注意叠加生成模块(JASGM),另一个是反向文本生成和修正模块(TGOCM)。首先,每个阶段对TRGAN中不同的功能执行不同的生成任务。其次,要提高生成质量,在生成图像的第二阶段设计一个处理层,将生成的图像编码到图像向量中,作为文本生成向量的条件。再其次,该方法利用鉴别器来区分ground truth文本向量和生成的文本向量。具体来说,使用结果来指导下一阶段的生成。最后,利用该方法将整个文本描述编码为一个句子向量,以确保整个生成过程的全局一致。此外,利用真实词向量和生成的词向量来保证生成图像在每个阶段的局部特征。
针对现有技术存在的问题,本发明提供一种基于深度学习的文本生成图像的学习模型。构建利用优化初始生成图像的思想,多方面结合修正图像,以达到生成高质量高分辨率的图像。
为了达到上述目的,本发明采用的技术方案为:
基于以往的研究,一些基于GAN的文本图像生成模型将整句文本描述编码为生成图像的条件,大量实验表明忽略了小细节。有一些文本图像生成模型同时编码整个句子和每个单词,但是模型变得复杂。因此,我们在这个模块使用一个简单的词级注意机制。我们主要关注细节属性,并将给定的文本描述嵌入到本地单词级特征中。我们利用循环神经网络(RNN)从给定的文本描述T中提取单词嵌入。
一个基于神经网络的联合注意叠加生成学习模块,具体包括如下步骤:
第一步,对现实的文本描述编码,利用RNN编码器将输入的文本编码为词级特征向量和句子特征向量,首先是sentence features提取condition,然后与随机噪声向量z结合产生低分辨率的图像以及对应的图像特征h0.从而生成56*56的低分辨率图像。
第一阶段生成的56*56低分辨率的图像,通过鉴别器,将生成图像和句子向量进行匹配对比,鉴别真假。
第二步,从低分辨率的图像生成高分别率图像的过程中,利用低分辨率的图像信息和词级上下文信息产生下一阶段的图像。通过注意力机制从词级特征向量中提取词级上下文信息,再结合h0隐藏信息生成下一阶段的图像,即128*128高分辨率图像。
第二阶段生成的128*128高分辨率图像,通过鉴别器,将生成图像和句子向量进行匹配对比,鉴别真假。
第三步,为了让最后生成的256x256大小的图像与文本的语义一致,在此添加了一步处理,将第二阶段生成的128*128的图像,利用CNN提取图像特征,然后将提取出的特征再经过LSTM层的处理,生成对应的文本描述,最后将生成的文本描述和真实的文本描述进行匹配对比,将对比结果进行单词级别的施加注意分数,根据得出的分数通过注意力机制的处理,提取下一阶段的特征。这一举措额外加了一个文本-图像匹配的监督信息,使生成的图像能像真实图像那样与相应的文本匹配。将通过注意力机制提取的特征向量,结合h1信息,生成第三阶段的图像,即256*256的高分辨率图像。
第三阶段生成的256*256高分辨率图像,通过鉴别器,将生成图像和句子向量进行匹配对比,鉴别真假。以此类推,循环往复,使生成的图像变得真实可靠。
本发明的有益效果:本发明依照上述特征所构建的模型推导出了一种行之有效的算法来处理上述问题,通过大量实验验证,本发明所得到的数据表示性能优于现阶段相关模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实例中的一种基于深度学习的文本生成图像学习模型的整体结构示意图;
图2是本发明展示的一种基于深度学习的文本生成图像学习模型在现实数据集的性能效果。
图3是本发明流程图。
图4是本发明模型参数α,β以及λ调整过程和结果。具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种基于深度学习的文本生成图像学习模型,具体包括如下步骤:
第一步,对现实的文本描述编码
在词级注意模型中,通过注意词级机制生成一个注意词级特征矩阵/>将注意词级特征矩阵/>和视觉特征fi作为感知器Fi的输入,然后感知层将词级特征转换为视觉特征的公共语义空间;同时,也将输入的现实文本通过注意句子级编码器生成句子级特征,句子级特征和随机噪声向量共同作用生成隐藏特征h(query);并且基于隐藏特征h计算每个词向量的权重,根据权重绘制每个区域的图像;初始图像的每一部分都是根据每个单词的权重绘制;最后,通过计算注意词级权重矩阵/>和视觉特征fi-1,进一步生成下一阶段的视觉特征fi
其中,z是噪声向量,从标准正态分布中采样, 是词级注意模型,引用AttnGAN中的模型;Fi是感知器;w是词向量;Gi是生成器;
第二步,首先添加文本以纠正生成的图像,并通过文本和图像的损失对抗来训练生成器和鉴别器,生成器和鉴别器的结构包括三个部分:a)Feature Extractor,提取的图像特征大小为2048个,层数密集,将其减小到256个节点;b)序列处理器,嵌入层处理文本输入,后面是LSTM层;c)解码器,然后将以上CNN和LSTM两层的输出结合起来,将它们处理为稠密层,做出最终的预测;
其中,是视觉特征,作为输入通知LSTM层关于图像内容;/>表示一个单词嵌入矩阵,将单词特征映射到视觉特征空间;Tt是公共特征空间;pt+1是一个预测单词的概率分布;
第三步,比较真实的语义和生成的语义;通过计算两个语义之间的相似度,不仅可表示确定生成图像的质量,还能定位每个字的丢失;根据单词的相似度,给予每个单词一个相应的权重;
其中,xi代表实际的文本,yi代表生成的文本,如果cosθ接近1,意味着它们之间的夹角是接近0度,意味着两个向量更相似;如果它们之间的夹角等于0,意味着两个向量相等;h的每一列都是图像的一个子区域的特征向量;对于第jth个子区域,其词上下文向量是与hj相关的词向量的动态表示Cj为:
其中βj,i表示模型对第i项所占的权重生成图像的第j个子区域;S′j,k将词向量映射到公共语义空间;通过单词的相似度权重矩阵和区域单词权重矩阵共同作用,为生成更高质量的图像做出贡献;
同时,从匹配和词级注意模块中给予每个词相应的权重。它不仅可以定位具体的区域,而且可以聚焦词向量,损失很大。在上述工作的基础上,我们将两个矩阵相乘。它基于前两个注意矩阵,将结果应用到上一代阶段。这为生成的最后阶段指明了方向。最后阶段根据注意机制对生成的图像进行校正和优化。我们的模型使细节更加清晰,整体更加完美。这样有针对性的优化生成将使生成的图像质量较高。
基于深度学习的文本生成图像学习模型中分三个阶段计算生成器的损失,损失函数包括:
第一阶段,损失函数定义为图像的负对数后验概率与对应的文本描述匹配:
LG1=Lw+Ls
其中,W代表单词,S代表句子,Q代表图像,i代表第i阶段;
第二阶段,使用重新描述的文本与真实文本在对齐语义空间进行匹配,计算损失:
其中,Tt是公共特征空间;
第三阶段,在这个阶段,通过匹配整个图像和一个单词序列来计算分数:
其中,是生成的图像;/>从第i阶段的分布中抽取的样本;/>是单词序列;
总的来说,生成器损失定义为:
其中,LG1、Lcap和Lws分别代表的三个阶段鉴别器的损失,α,β,λ是三个参数;通过与生成器的对抗来判别图像是否为真实;
最后,鉴别器损失可定义为:
其中,xi来自于真实图像分布的第i比例;/>来自于模型分布/>的相同比例;
以上多阶段的生成,循环修复文本生成的损失,通过生成器和鉴别器的对抗生成,获得高质量,高分辨率的图像。
结合本发明的方案,进行实验分析如下:
为了验证本发明提出模型TRGAN的有效性,将TRGAN和目前较为典型的模型GAN-INT-CLS、GAWWN、StackGAN、AttnGAN和MirrorGAN在IS和R-Precision评价指标上进行对比,如表1和表2,同时本发明模型参数α,β以及λ调整过程和结果如图4所示。
表1:CUB数据集对比结果
Dataset method IS R-Precision
CUB GAN-INT-CLS 2.88±0.04 /
CUB GAWWN 3.62±0.07 /
CUB StackGAN 4.04±0.06 /
CUB AttnGAN 4.36±0.03 67.82±4.43
CUB MirrorGAN 4.56±0.05 60.42±2.75
CUB TRGAN 4.66±0.13 69.05±2.25
表2:COCO数据集对比结果
Dataset method IS R-Precision
COCO StackGAN 1.09±0.12 /
COCO AttnGAN 1.69±0.09 56.95±0.45
COCO MirrorGAN 4.46±0.20 60.78±0.41
COCO TRGAN 4.52±0.11 62.3±0.33
实验数据情况如下:文本到图像的研究大多是基于CUB和复杂的COCO数据集。在CUB数据集中,每个鸟类图像有10个文本描述;而在COCO数据集中,每个图像有5个文本描述。
实验硬件环境配置为:在具体实验中,由于实验室的硬件和软件限制,我们在复杂的COCO数据集中,随机从训练集80000和测试集40000中取四分之一数据进行实验,同时也保证对比的模型在同样数据集上复现,并且测试相应的分数;CUB数据集保持原有数据,不进行预处理。
表1和2分别显示了实验模型的IS和R-Precision结果。实验表明TRGAN在每个数据集上明显优于其他模型。本发明不仅利用深度学习的模型来模拟文本生成图像的结构,更重要的是,TRGAN通过优化初始图像的质量来约束整体生成图像的高质量。总之,本发明的TRGAN模型在IS和R-Precision方面优于其他比较模型。
实验过程中对三个参数进行动态调整(如图4所示),确保每个部分实现最优结果。
本领域普通技术人员可以理解上述实施例的各种模型中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上对本发明实施所提供的一种深度学习的文本呢生成图像的学习模型进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的模型及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (1)

1.一种基于深度学习的文本生成图像学习方法,其特征在于,具体包括如下步骤:
第一步,对现实的文本描述编码
在词级注意模型中,通过注意词级机制生成一个注意词级特征矩阵/>将注意词级特征矩阵/>和视觉特征fi作为感知器Fi的输入,然后感知层将词级特征转换为视觉特征的公共语义空间;同时,也将输入的现实文本通过注意句子级编码器生成句子级特征,句子级特征和随机噪声向量共同作用生成隐藏特征h(query);并且基于隐藏特征h计算每个词向量的权重,根据权重绘制每个区域的图像;初始图像的每一部分都是根据每个单词的权重绘制;最后,通过计算注意词级权重矩阵/>和视觉特征fi-1,进一步生成下一阶段的视觉特征fi
f0=F0(z,Fca(s));
其中,z是噪声向量,从标准正态分布中采样, 是词级注意模型,引用AttnGAN中的模型;Fi是感知器;w是词向量;Gi是生成器;
第二步,首先添加文本以纠正生成的图像,并通过文本和图像的损失对抗来训练生成器和鉴别器,生成器和鉴别器的结构包括三个部分:a)Feature Extractor,提取的图像特征大小为2048个,层数密集,将其减小到256个节点;b)序列处理器,嵌入层处理文本输入,后面是LSTM层;c)解码器,然后将以上Feature Extractor和LSTM两层的输出结合起来,将它们处理为稠密层,做出最终的预测;
其中,是视觉特征,作为输入通知LSTM层关于图像内容;/>表示一个单词嵌入矩阵,将单词特征映射到视觉特征空间;Tt是公共特征空间;pt+1是一个预测单词的概率分布;
第三步,比较真实的语义和生成的语义;通过计算两个语义之间的相似度,不仅可表示确定生成图像的质量,还能定位每个字的丢失;根据单词的相似度,给予每个单词一个相应的权重;
其中,xi代表实际的文本,yi代表生成的文本,如果cosθ接近1,意味着它们之间的夹角是接近0度,意味着两个向量更相似;如果它们之间的夹角等于0,意味着两个向量相等;h的每一列都是图像的一个子区域的特征向量;对于第jth个子区域,其词上下文向量是与hj相关的词向量的动态表示Cj为:
其中βj,i表示模型对第i项所占的权重生成图像的第j个子区域;S′j,k将词向量映射到公共语义空间;通过单词的相似度权重矩阵和区域单词权重矩阵共同作用,为生成更高质量的图像做出贡献;
基于深度学习的文本生成图像学习模型中分三个阶段计算生成器的损失,损失函数包括:
第一阶段,损失函数定义为图像的负对数后验概率与对应的文本描述匹配:
LG1=Lw+Ls
其中,W代表单词,S代表句子,Q代表图像,i代表第i阶段;
第二阶段,使用重新描述的文本与真实文本在对齐语义空间进行匹配,计算损失:
其中,Tt是公共特征空间;
第三阶段,在这个阶段,通过匹配整个图像和一个单词序列来计算分数:
其中,是生成的图像;/>从第i阶段的分布中抽取的样本;/>是单词序列;
总的来说,生成器损失定义为:
其中,LG1、Lcap和Lws分别代表的三个阶段鉴别器的损失,α,β,λ是三个参数;通过与生成器的对抗来判别图像是否为真实;
最后,鉴别器损失可定义为:
其中,xi来自于真实图像分布的第i比例;/>来自于模型分布/>的相同比例;
以上多阶段的生成,循环修复文本生成的损失,通过生成器和鉴别器的对抗生成,获得高质量,高分辨率的图像。
CN202111183091.3A 2021-10-11 2021-10-11 一种基于深度学习的文本生成图像学习方法 Active CN113869007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111183091.3A CN113869007B (zh) 2021-10-11 2021-10-11 一种基于深度学习的文本生成图像学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111183091.3A CN113869007B (zh) 2021-10-11 2021-10-11 一种基于深度学习的文本生成图像学习方法

Publications (2)

Publication Number Publication Date
CN113869007A CN113869007A (zh) 2021-12-31
CN113869007B true CN113869007B (zh) 2024-04-23

Family

ID=78998996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111183091.3A Active CN113869007B (zh) 2021-10-11 2021-10-11 一种基于深度学习的文本生成图像学习方法

Country Status (1)

Country Link
CN (1) CN113869007B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797495B (zh) * 2023-02-07 2023-04-25 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法
CN116523799B (zh) * 2023-07-03 2023-09-19 贵州大学 基于多粒度图文语义学习的文本引导图像修复模型及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465929A (zh) * 2020-12-17 2021-03-09 江南大学 一种基于改进图卷积网络的图像生成方法
CN113140023A (zh) * 2021-04-29 2021-07-20 南京邮电大学 一种基于空间注意力的文本到图像生成方法及系统
CN113191375A (zh) * 2021-06-09 2021-07-30 北京理工大学 一种基于联合嵌入的文本到多对象图像生成方法
CN113361250A (zh) * 2021-05-12 2021-09-07 山东师范大学 一种基于语义一致性的双向文本生成图像方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465929A (zh) * 2020-12-17 2021-03-09 江南大学 一种基于改进图卷积网络的图像生成方法
CN113140023A (zh) * 2021-04-29 2021-07-20 南京邮电大学 一种基于空间注意力的文本到图像生成方法及系统
CN113361250A (zh) * 2021-05-12 2021-09-07 山东师范大学 一种基于语义一致性的双向文本生成图像方法及系统
CN113191375A (zh) * 2021-06-09 2021-07-30 北京理工大学 一种基于联合嵌入的文本到多对象图像生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户生成标签的多视角特征学习方法;田枫;尚福华;刘卓炫;沈旭昆;;系统仿真学报;20161008(第10期);2362-2368 *

Also Published As

Publication number Publication date
CN113869007A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
Han et al. A survey on vision transformer
Han et al. A survey on visual transformer
Seo et al. Visual reference resolution using attention memory for visual dialog
CN111260740B (zh) 一种基于生成对抗网络的文本到图像生成方法
Bao et al. Towards open-set identity preserving face synthesis
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
Yao et al. Describing videos by exploiting temporal structure
US20220004744A1 (en) Human posture detection method and apparatus, device and storage medium
CN113869007B (zh) 一种基于深度学习的文本生成图像学习方法
CN103336957B (zh) 一种基于时空特征的网络同源视频检测方法
CN111325660B (zh) 一种基于文本数据的遥感图像风格转换方法
Peng et al. A fast and accurate fully convolutional network for end-to-end handwritten Chinese text segmentation and recognition
CN115222998B (zh) 一种图像分类方法
CN114387366A (zh) 一种感知联合空间注意力文本生成图像方法
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN113298816A (zh) 一种遥感图像语义分割方法、装置和计算机设备
CN113362416A (zh) 基于目标检测的文本生成图像的方法
CN116453199B (zh) 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法
Zhan et al. FA-ResNet: Feature affine residual network for large-scale point cloud segmentation
Zhang et al. Speaker-independent lipreading by disentangled representation learning
CN115205640A (zh) 一种面向谣言检测的多层次图文融合方法及系统
CN117058673A (zh) 文本生成图像模型训练方法、系统以及文本生成图像方法、系统
Zhao et al. Aligned visual semantic scene graph for image captioning
Alnaim et al. DFFMD: a deepfake face mask dataset for infectious disease era with deepfake detection algorithms
Gao et al. Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant