CN113869007A - 一种基于深度学习的文本生成图像学习模型 - Google Patents
一种基于深度学习的文本生成图像学习模型 Download PDFInfo
- Publication number
- CN113869007A CN113869007A CN202111183091.3A CN202111183091A CN113869007A CN 113869007 A CN113869007 A CN 113869007A CN 202111183091 A CN202111183091 A CN 202111183091A CN 113869007 A CN113869007 A CN 113869007A
- Authority
- CN
- China
- Prior art keywords
- image
- word
- text
- generated
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 11
- 230000000007 visual effect Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 2
- 238000002474 experimental method Methods 0.000 abstract description 7
- 238000012937 correction Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 13
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 5
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于深度学习的文本生成图像学习模型,属于计算机视觉领域。我们提出TRGAN学习模型,TRGAN包含两个模块:联合注意堆叠生成模块和文本生成模块反向修正和校正模块。在JASGM模块中,从词级信息中提取详细的特征信息图像是基于全局句子注意力生成的。在TGOCM模块中,文本描述反向生成,可以通过匹配词级特征向量来提高初始图像的质量。本发明依照上述特征所构建的模型推导出了一种行之有效的算法来处理上述问题,通过大量实验验证,本发明所得到的数据表示性能优于现阶段相关模型。
Description
技术领域
本发明属于计算机视觉领域,涉及一种基于深度学习的文本生成图像的学习模型,尤其 涉及一种通过优化初始图像来做从文本到图像生成的学习模型。
背景技术
过去几年见证了生成对抗网络(GANs)在各种应用上的巨大成功。目前,文本-图像的 合成是GAN的重要应用之一,也是近年来最活跃的研究领域之一。大多数早期提出的文本 到图像的一步直接生成结果的方法。最近的方法也在不断探索多阶段从文本描述生成图像。 典型的是,他们将整句文本描述编码为单个向量,作为图像生成的条件,并在第一阶段生成 56*56低分辨率图像。在下一阶段,基于低分辨率的图像,生成128*128的高分辨率图像。 最后,通过前面两个阶段的信息得到256*256的真实图像。随着文本到图像合成方法的探索, 文本生成图像分为两个方向。第一个是根据给定的原始图像和目标文本改变图像的相应属性。 第二个是生成器根据给定的文本描述,直接从语义中获取信息,生成相应的图像表示。
Seonghyeon Nam等人建立了TAGAN模型,使用文本自适应生成对抗网络对图像进行语 义操作。通过这样做,TAGAN学会了在保留原始图像中不相关内容的同时生成特定的视觉 属性。郝东等人提出了SISGAN模型,该模型可以将图像和文本描述中包含的语义解纠缠, 同时保留与文本描述无关的其他图像特征。Bowen Li等人建立了ManiGAN模型。他们利用 仿射组合模块根据给定的文本选择图像区域,然后将这些区域与相应的语义词关联起来进行 有效的操作。同时,细节校正模块对不匹配的视觉属性进行校正,完善合成图像中缺失的内 容。此类算法的面临的挑战就是在捕捉更改的属性的同时需要保留原有属性,大多数的算法 都可以捕捉相应的属性,但很少能将更改属性和原有属性很好的结合起来。
然后Tao Xu等人使用AttnGAN模型构建新的注意生成网络。该模型可以通过多阶段处 理生成高质量的图像,并计算细粒度的图像-文本匹配损失,用于训练AttnGAN生成器。该 模型对文本生成的方向也有重要影响。Tingting Qiao等人提出的STREAM模块,它试图从生 成的图像中重新生成文本描述,这在语义上与给定的文本描述保持一致。MinfengZhu等人使 用一个动态记忆组件来精炼初始生成的图像,一个记忆写入门来突出重要的文本信息,以及 一个休息门来融合图像和记忆表示。此外,还有从空间布局生成图像的研究。Wenbo Li等人 在每个阶段都有一个新的对象驱动的注意层,它们的生成器能够利用细粒度的对象级信息来 逐步细化合成图像。而Fuwen Tan等人提出了Text2Scene。通过关注输入文本的不同部分和 生成场景的当前状态,它学会在每个时间步骤中依次生成对象及其属性(位置、大小、外观等)。 此类的算法面临的挑战是既要生成文本描述的具有细节的图像,又要生成符合文本描述的背 景图像。即使现在的算法都可以生成相应的图像,但是还有提升的空间。
虽然以上多阶段生成的模型,可以在简单的数据集(如花和鸟)上取得很好的结果,但 对于由多个对象和不同连接组成的复杂而真实的场景来说,却有很大的挑战。因此有些研究 者以整个句子编码为基础,然后对每个词向量进行相应的属性更改。在每个阶段都重复这个 过程,不同的是,其他研究人员在最后阶段进行优化,例如反向生成文本。但是,如果图像 不是真实的(即生成低质量、低分辨率的图像,形状不规则,色彩奇特与实体关系不现实), 那么下一阶段的质量就不会有太大的提高。因此,文本到图像的生成不仅需要多阶段的生成, 还需要在不同的阶段实现不同的功能来生成更逼真的图像,因此最终的图像在很大程度上取 决于生成的初始图像的质量。
发明内容
针对以上问题,为了从文本描述中更好地生成图像,本文提出了一种文本-图像模型,通 过多阶段的文本来合成图像,称为TRGAN。此学习模型是一个复杂的结构,有三个生成阶 段。三个阶段共组成两个模块,一个是联合注意叠加生成模块(JASGM),另一个是反向文 本生成和修正模块(TGOCM)。首先,每个阶段对TRGAN中不同的功能执行不同的生成任务。其次,要提高生成质量,在生成图像的第二阶段设计一个处理层,将生成的图像编码到图像向量中,作为文本生成向量的条件。再其次,该方法利用鉴别器来区分ground truth文本 向量和生成的文本向量。具体来说,使用结果来指导下一阶段的生成。最后,利用该方法将 整个文本描述编码为一个句子向量,以确保整个生成过程的全局一致。此外,利用真实词向 量和生成的词向量来保证生成图像在每个阶段的局部特征。
针对现有技术存在的问题,本发明提供一种基于深度学习的文本生成图像的学习模型。 构建利用优化初始生成图像的思想,多方面结合修正图像,以达到生成高质量高分辨率的图 像。
为了达到上述目的,本发明采用的技术方案为:
基于以往的研究,一些基于GAN的文本图像生成模型将整句文本描述编码为生成图像 的条件,大量实验表明忽略了小细节。有一些文本图像生成模型同时编码整个句子和每个单 词,但是模型变得复杂。因此,我们在这个模块使用一个简单的词级注意机制。我们主要关 注细节属性,并将给定的文本描述嵌入到本地单词级特征中。我们利用循环神经网络(RNN) 从给定的文本描述T中提取单词嵌入。
一个基于神经网络的联合注意叠加生成学习模块,具体包括如下步骤:
第一步,对现实的文本描述编码,利用RNN编码器将输入的文本编码为词级特征向量和 句子特征向量,首先是sentence features提取condition,然后与随机噪声向量z结合产生低分 辨率的图像以及对应的图像特征h0.从而生成56*56的低分辨率图像。
第一阶段生成的56*56低分辨率的图像,通过鉴别器,将生成图像和句子向量进行匹配 对比,鉴别真假。
第二步,从低分辨率的图像生成高分别率图像的过程中,利用低分辨率的图像信息和词 级上下文信息产生下一阶段的图像。通过注意力机制从词级特征向量中提取词级上下文信息, 再结合h0隐藏信息生成下一阶段的图像,即128*128高分辨率图像。
第二阶段生成的128*128高分辨率图像,通过鉴别器,将生成图像和句子向量进行匹配 对比,鉴别真假。
第三步,为了让最后生成的256x256大小的图像与文本的语义一致,在此添加了一步处 理,将第二阶段生成的128*128的图像,利用CNN提取图像特征,然后将提取出的特征再经 过LSTM层的处理,生成对应的文本描述,最后将生成的文本描述和真实的文本描述进行匹 配对比,将对比结果进行单词级别的施加注意分数,根据得出的分数通过注意力机制的处理, 提取下一阶段的特征。这一举措额外加了一个文本-图像匹配的监督信息,使生成的图像能像 真实图像那样与相应的文本匹配。将通过注意力机制提取的特征向量,结合h1信息,生成第 三阶段的图像,即256*256的高分辨率图像。
第三阶段生成的256*256高分辨率图像,通过鉴别器,将生成图像和句子向量进行匹配 对比,鉴别真假。以此类推,循环往复,使生成的图像变得真实可靠。
本发明的有益效果:本发明依照上述特征所构建的模型推导出了一种行之有效的算法来 处理上述问题,通过大量实验验证,本发明所得到的数据表示性能优于现阶段相关模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图获得其它的附图。
图1是本发明实例中的一种基于深度学习的文本生成图像学习模型的整体结构示意图;
图2是本发明展示的一种基于深度学习的文本生成图像学习模型在现实数据集的性能效 果。
图3是本发明流程图。
图4是本发明模型参数α,β以及λ调整过程和结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都 属于本发明保护的范围。
一种基于深度学习的文本生成图像学习模型,具体包括如下步骤:
第一步,对现实的文本描述编码
在词级注意模型中,通过注意词级机制生成一个注意词级特征矩阵将注意词 级特征矩阵和视觉特征fi作为感知器Fi的输入,然后感知层将词级特征转换为视觉特征 的公共语义空间;同时,也将输入的现实文本通过注意句子级编码器生成句子级特征,句子 级特征和随机噪声向量共同作用生成隐藏特征h(query);并且基于隐藏特征h计算每个词向 量的权重,根据权重绘制每个区域的图像;初始图像的每一部分都是根据每个单词的权重绘 制;最后,通过计算注意词级权重矩阵和视觉特征fi-1,进一步生成下一阶段的视觉特 征fi:
第二步,首先添加文本以纠正生成的图像,并通过文本和图像的损失对抗来训练生成器 和鉴别器,生成器和鉴别器的结构包括三个部分:a)Feature Extractor,提取的图像特征大小 为2048个,层数密集,将其减小到256个节点;b)序列处理器,嵌入层处理文本输入,后面 是LSTM层;c)解码器,然后将以上CNN和LSTM两层的输出结合起来,将它们处理为稠 密层,做出最终的预测;
第三步,比较真实的语义和生成的语义;通过计算两个语义之间的相似度,不仅可表示 确定生成图像的质量,还能定位每个字的丢失;根据单词的相似度,给予每个单词一个相应 的权重;
其中,xi代表实际的文本,yi代表生成的文本,如果cosθ接近1,意味着它们之间的夹角 是接近0度,意味着两个向量更相似;如果它们之间的夹角等于0,意味着两个向量相等; h的每一列都是图像的一个子区域的特征向量;对于第jth个子区域,其词上下文向量是与hj相 关的词向量的动态表示Cj为:
其中andβj,i,βj,i表示模型对第i项所占的权重生成图像的第j个子区域;S′j,k将词向量 映射到公共语义空间;通过单词的相似度权重矩阵和区域单词权重矩阵共同作用,为生成更 高质量的图像做出贡献;
同时,从匹配和词级注意模块中给予每个词相应的权重。它不仅可以定位具体的区域, 而且可以聚焦词向量,损失很大。在上述工作的基础上,我们将两个矩阵相乘。它基于前两 个注意矩阵,将结果应用到上一代阶段。这为生成的最后阶段指明了方向。最后阶段根据注 意机制对生成的图像进行校正和优化。我们的模型使细节更加清晰,整体更加完美。这样有 针对性的优化生成将使生成的图像质量较高。
基于深度学习的文本生成图像学习模型中分三个阶段计算生成器的损失,损失函数包 括:
第一阶段,损失函数定义为图像的负对数后验概率与对应的文本描述匹配:
LG1=Lw+Ls
其中,W代表单词,S代表句子,Q代表图像,i代表第i阶段;
第二阶段,使用重新描述的文本与真实文本在对齐语义空间进行匹配,计算损失:
其中,Tt是公共特征空间;
第三阶段,在这个阶段,通过匹配整个图像和一个单词序列来计算分数:
总的来说,生成器损失定义为:
其中,LG1、Lcap和Lws分别代表的三个阶段鉴别器的损失,α,β,入是三个参数;通过与生 成器的对抗来判别图像是否为真实;
最后,鉴别器损失可定义为:
以上多阶段的生成,循环修复文本生成的损失,通过生成器和鉴别器的对抗生成,获得 高质量,高分辨率的图像。
结合本发明的方案,进行实验分析如下:
为了验证本发明提出模型TRGAN的有效性,将TRGAN和目前较为典型的模型 GAN-INT-CLS、GAWWN、StackGAN、AttnGAN和MirrorGAN在IS和R-Precision评价指 标上进行对比,如表1和表2,同时本发明模型参数α,β以及入调整过程和结果如图4所 示。
表1:CUB数据集对比结果
Dataset | method | IS | R-Precision |
CUB | GAN-INT-CLS | 2.88±0.04 | / |
CUB | GAWWN | 3.62±0.07 | / |
CUB | StackGAN | 4.04±0.06 | / |
CUB | AttnGAN | 4.36±0.03 | 67.82±4.43 |
CUB | MirrorGAN | 4.56±0.05 | 60.42±2.75 |
CUB | TRGAN | 4.66±0.13 | 69.05±2.25 |
表2:COCO数据集对比结果
Dataset | method | IS | R-Precision |
COCO | StackGAN | 1.09±0.12 | / |
COCO | AttnGAN | 1.69±0.09 | 56.95±0.45 |
COCO | MirrorGAN | 4.46±0.20 | 60.78±0.41 |
COCO | TRGAN | 4.52±0.11 | 62.3±0.33 |
实验数据情况如下:文本到图像的研究大多是基于CUB和复杂的COCO数据集。在CUB 数据集中,每个鸟类图像有10个文本描述;而在COCO数据集中,每个图像有5个文本描述。
实验硬件环境配置为:在具体实验中,由于实验室的硬件和软件限制,我们在复杂的 COCO数据集中,随机从训练集80000和测试集40000中取四分之一数据进行实验,同时也保证对比的模型在同样数据集上复现,并且测试相应的分数;CUB数据集保持原有数据,不进行预处理。
表1和2分别显示了实验模型的IS和R-Precision结果。实验表明TRGAN在每个数据集 上明显优于其他模型。本发明不仅利用深度学习的模型来模拟文本生成图像的结构,更重要 的是,TRGAN通过优化初始图像的质量来约束整体生成图像的高质量。总之,本发明的TRGAN模型在IS和R-Precision方面优于其他比较模型。
实验过程中对三个参数进行动态调整(如图4所示),确保每个部分实现最优结果。
本领域普通技术人员可以理解上述实施例的各种模型中的全部或部分步骤是可以通过程 序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括: 只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、 磁盘或光盘等。
以上对本发明实施所提供的一种深度学习的文本呢生成图像的学习模型进行了详细介 绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是 用于帮助理解本发明的模型及其核心思想;同时,对于本领域的一般技术人员,依据本发明 的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解 为对本发明的限制。
Claims (1)
1.一种基于深度学习的文本生成图像学习模型,其特征在于,具体包括如下步骤:
第一步,对现实的文本描述编码
在词级注意模型中,通过注意词级机制生成一个注意词级特征矩阵将注意词级特征矩阵和视觉特征fi作为感知器Fi的输入,然后感知层将词级特征转换为视觉特征的公共语义空间;同时,也将输入的现实文本通过注意句子级编码器生成句子级特征,句子级特征和随机噪声向量共同作用生成隐藏特征h(query);并且基于隐藏特征h计算每个词向量的权重,根据权重绘制每个区域的图像;初始图像的每一部分都是根据每个单词的权重绘制;最后,通过计算注意词级权重矩阵和视觉特征fi-1,进一步生成下一阶段的视觉特征fi:
第二步,首先添加文本以纠正生成的图像,并通过文本和图像的损失对抗来训练生成器和鉴别器,生成器和鉴别器的结构包括三个部分:a)Feature Extractor,提取的图像特征大小为2048个,层数密集,将其减小到256个节点;b)序列处理器,嵌入层处理文本输入,后面是LSTM层;c)解码器,然后将以上CNN和LSTM两层的输出结合起来,将它们处理为稠密层,做出最终的预测;
第三步,比较真实的语义和生成的语义;通过计算两个语义之间的相似度,不仅可表示确定生成图像的质量,还能定位每个字的丢失;根据单词的相似度,给予每个单词一个相应的权重;
其中,xi代表实际的文本,yi代表生成的文本,如果cosθ接近1,意味着它们之间的夹角是接近0度,意味着两个向量更相似;如果它们之间的夹角等于0,意味着两个向量相等;h的每一列都是图像的一个子区域的特征向量;对于第jth个子区域,其词上下文向量是与hj相关的词向量的动态表示Cj为:
基于深度学习的文本生成图像学习模型中分三个阶段计算生成器的损失,损失函数包括:
第一阶段,损失函数定义为图像的负对数后验概率与对应的文本描述匹配:
其中,W代表单词,S代表句子,Q代表图像,i代表第i阶段;
第二阶段,使用重新描述的文本与真实文本在对齐语义空间进行匹配,计算损失:
其中,Tt是公共特征空间;
第三阶段,在这个阶段,通过匹配整个图像和一个单词序列来计算分数:
总的来说,生成器损失定义为:
其中,LG1、Lcap和Lws分别代表的三个阶段鉴别器的损失,α,β,λ是三个参数;通过与生成器的对抗来判别图像是否为真实;
最后,鉴别器损失可定义为:
以上多阶段的生成,循环修复文本生成的损失,通过生成器和鉴别器的对抗生成,获得高质量,高分辨率的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111183091.3A CN113869007B (zh) | 2021-10-11 | 2021-10-11 | 一种基于深度学习的文本生成图像学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111183091.3A CN113869007B (zh) | 2021-10-11 | 2021-10-11 | 一种基于深度学习的文本生成图像学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113869007A true CN113869007A (zh) | 2021-12-31 |
CN113869007B CN113869007B (zh) | 2024-04-23 |
Family
ID=78998996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111183091.3A Active CN113869007B (zh) | 2021-10-11 | 2021-10-11 | 一种基于深度学习的文本生成图像学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869007B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797495A (zh) * | 2023-02-07 | 2023-03-14 | 武汉理工大学 | 一种句子-字符语义空间融合感知的文本生成图像的方法 |
CN116523799A (zh) * | 2023-07-03 | 2023-08-01 | 贵州大学 | 基于多粒度图文语义学习的文本引导图像修复模型及方法 |
CN118468943A (zh) * | 2024-07-09 | 2024-08-09 | 深圳市翻江倒海互动娱乐有限公司 | 基于文本的图像生成方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN112465929A (zh) * | 2020-12-17 | 2021-03-09 | 江南大学 | 一种基于改进图卷积网络的图像生成方法 |
CN113140023A (zh) * | 2021-04-29 | 2021-07-20 | 南京邮电大学 | 一种基于空间注意力的文本到图像生成方法及系统 |
CN113191375A (zh) * | 2021-06-09 | 2021-07-30 | 北京理工大学 | 一种基于联合嵌入的文本到多对象图像生成方法 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
-
2021
- 2021-10-11 CN CN202111183091.3A patent/CN113869007B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN112465929A (zh) * | 2020-12-17 | 2021-03-09 | 江南大学 | 一种基于改进图卷积网络的图像生成方法 |
CN113140023A (zh) * | 2021-04-29 | 2021-07-20 | 南京邮电大学 | 一种基于空间注意力的文本到图像生成方法及系统 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113191375A (zh) * | 2021-06-09 | 2021-07-30 | 北京理工大学 | 一种基于联合嵌入的文本到多对象图像生成方法 |
Non-Patent Citations (1)
Title |
---|
田枫;尚福华;刘卓炫;沈旭昆;: "基于用户生成标签的多视角特征学习方法", 系统仿真学报, no. 10, 8 October 2016 (2016-10-08), pages 2362 - 2368 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797495A (zh) * | 2023-02-07 | 2023-03-14 | 武汉理工大学 | 一种句子-字符语义空间融合感知的文本生成图像的方法 |
CN116523799A (zh) * | 2023-07-03 | 2023-08-01 | 贵州大学 | 基于多粒度图文语义学习的文本引导图像修复模型及方法 |
CN116523799B (zh) * | 2023-07-03 | 2023-09-19 | 贵州大学 | 基于多粒度图文语义学习的文本引导图像修复模型及方法 |
CN118468943A (zh) * | 2024-07-09 | 2024-08-09 | 深圳市翻江倒海互动娱乐有限公司 | 基于文本的图像生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113869007B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | A survey on vision transformer | |
Cheng et al. | Perturbation-seeking generative adversarial networks: A defense framework for remote sensing image scene classification | |
CN111260740B (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
Han et al. | A survey on visual transformer | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
Aneja et al. | Convolutional image captioning | |
Bao et al. | Towards open-set identity preserving face synthesis | |
CN113869007B (zh) | 一种基于深度学习的文本生成图像学习方法 | |
Seo et al. | Visual reference resolution using attention memory for visual dialog | |
US20220004744A1 (en) | Human posture detection method and apparatus, device and storage medium | |
Yao et al. | Describing videos by exploiting temporal structure | |
CN109325242B (zh) | 基于词对和翻译判断句子是否对齐的方法、装置及设备 | |
Peng et al. | A fast and accurate fully convolutional network for end-to-end handwritten Chinese text segmentation and recognition | |
CN115690522B (zh) | 一种基于多池化融合通道注意力的目标检测方法及其应用 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN111861945A (zh) | 一种文本引导的图像修复方法和系统 | |
Zhan et al. | FA-ResNet: Feature affine residual network for large-scale point cloud segmentation | |
CN113298816A (zh) | 一种遥感图像语义分割方法、装置和计算机设备 | |
CN115690152A (zh) | 一种基于注意力机制的目标追踪方法 | |
Azuh et al. | Towards Bilingual Lexicon Discovery From Visually Grounded Speech Audio. | |
Tang et al. | Visual-semantic transformer for scene text recognition | |
CN115984700A (zh) | 一种基于改进Transformer孪生网络的遥感图像变化检测方法 | |
Zhao et al. | Aligned visual semantic scene graph for image captioning | |
Xue et al. | Lcsnet: End-to-end lipreading with channel-aware feature selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |