CN110930469B - 一种基于过渡空间映射的文本生成图像方法和系统 - Google Patents

一种基于过渡空间映射的文本生成图像方法和系统 Download PDF

Info

Publication number
CN110930469B
CN110930469B CN201911022919.XA CN201911022919A CN110930469B CN 110930469 B CN110930469 B CN 110930469B CN 201911022919 A CN201911022919 A CN 201911022919A CN 110930469 B CN110930469 B CN 110930469B
Authority
CN
China
Prior art keywords
text
image
representing
input
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911022919.XA
Other languages
English (en)
Other versions
CN110930469A (zh
Inventor
彭宇新
袁明宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201911022919.XA priority Critical patent/CN110930469B/zh
Publication of CN110930469A publication Critical patent/CN110930469A/zh
Application granted granted Critical
Publication of CN110930469B publication Critical patent/CN110930469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于过渡空间映射的文本生成图像方法和系统。该方法包括以下步骤:1.利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型。2.对于用户输入的文本,利用训练好的文本生成图像模型,生成与输入文本内容相符的图像。与现有方法相比,本发明能够显著提高生成图像的质量,并增强生成图像和输入文本的语义一致性。

Description

一种基于过渡空间映射的文本生成图像方法和系统
技术领域
本发明涉及图像生成领域,具体涉及一种基于过渡空间映射的文本生成图像方法和系统。
背景技术
近年来,随着互联网和多媒体技术的快速发展,多媒体数据的总量不断增长,已经成为大数据的主要内容。人们通常会采用一些传统的计算机视觉方法处理大量信息,例如常见的图像分类。然而这些方法只能为用户提供有限的信息,例如图像分类只能提供类别标签这种信息量很少的内容。因此具有数据生成能力的方法应运而生,它们不仅可以提供更多样本,更好地满足用户需求;同时也可以进行灵活创作,更加易于用户使用。文本生成图像是指,用户提供一段文本描述,系统能够自动生成内容与文本描述一致的图像。其大大提高了图像信息获取的灵活性和全面性,有着良好的发展前景和重要意义,例如:教育领域的概念启蒙、文学领域的插画生成、艺术领域的视觉创作等。
现有的文本生成图像方法主要是基于生成式对抗网络(Generative AdversarialNetworks,简称GAN)的深度模型方法。GAN是一种强大的神经网络模型,最初由Goodfellow等人提出。其通过对抗式训练的方式可以获得强大的图像样本生成能力,因此被广泛应用于图像生成的研究领域中。GAN由一个生成网络与一个判别网络组成。其中,生成网络以随机变量作为输入来生成图像,而判别网络则对该图像进行解析,判断该图像的真实性。由于生成网络希望生成的图像内容真实,判别网络希望区分生成图像与真实图像。两者形成对抗式训练,互相促进,最终使得生成网络具有生成图像的能力。
Reed等人提出了首个基于GAN的文本生成图像方法——GAN-INT-CLS,其延续了条件式生成对抗网络的思想,以文本向量作为条件输入生成图像。该方法首先提出了一种可以表达文本中视觉信息的特征,然后将这种特征作为输入,利用一个生成网络生成一幅图像,再利用一个判别网络对该图像进行解析,在真实图像的参考下判断该生成图像与输入文本的关联性与真实性。通过对抗式训练,最终使得生成网络具有文本生成图像的能力。Zhang等人提出StackGAN方法,该方法将两个GAN模型级联在一起,从而实现更大尺寸图像的生成。该方法首先建立了一个以文本向量为条件输入的图像生成模型,可以生成较小尺寸的图像。之后将该生成模型的输出作为另一个生成模型的输入,用来生成较大尺寸的图像。Xu等人提出AttnGAN方法,该方法引入注意力驱动模型和多阶段精化模型,实现细粒度的文本生成图像。通过注意力驱动模型,可以通过关注自然语言描述中的相关单词来合成图像的不同子区域的细粒度细节;同时多阶段精化模型可以迭代地提高生成图像的视觉质量,最终生成接近真实的图像。
尽管以上基于生成式对抗网络的方法可以取得一定效果,但由于其生成式网络具有较多网络层,训练仅依靠单一的对抗损失函数约束文本和图像之间的一致性,忽略了文本和图像之间大量的关联信息,限制了生成图像的效果。
发明内容
本发明提出了一种基于过渡空间映射的文本生成图像方法和系统,能够建立文本特征向量空间到过渡空间可解释性特征表达的映射,再通过一个生成式对抗网络,以可解释性特征表达作为条件约束生成内容与文本一致的图像。与现有方法相比,能够显著提高生成图像的质量,并增强生成图像和输入文本的语义一致性。
为达到以上目的,本发明采用的技术方案如下:
一种基于过渡空间映射的文本生成图像方法,包括以下步骤:
(1)利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型;
(2)对于用户输入的文本,利用训练完成的文本生成图像模型,生成与输入文本内容相符的图像。
进一步,上述一种基于过渡空间映射的文本生成图像方法,所述步骤(1)中的过渡空间映射网络包含多层全连接层;生成式对抗网络包含一个生成器与一个判别器,生成器可以以文本特征作为输入生成高分辨率的图像,判别器可以以图像作为输入判别其真实性和与输入文本向量之间的相关性。
进一步,所述文本生成图像模型中,过渡空间映射网络M能够结合随机噪声z将文本
Figure GDA0003238810800000021
映射到过渡空间,产生可解释性特征表达
Figure GDA0003238810800000022
然后,将可解释性特征表达
Figure GDA0003238810800000023
输入到生成式对抗网络中的生成器G中,通过生成器G的多层卷积层运算后,得到生成图像
Figure GDA0003238810800000024
将生成图像
Figure GDA0003238810800000025
数据库中的成对图像i、不成对图像i′与成对文本
Figure GDA0003238810800000026
一同输入至生成式对抗网络中的判别器D中,计算不同的对抗损失函数。
基于同一发明构思,本发明还提供一种基于过渡空间映射的文本生成图像系统,其包括:
模型训练模块,负责利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型;
图像生成模块,负责对于用户输入的文本,利用训练完成的文本生成图像模型,生成与输入文本内容相符的图像。
本发明的效果在于:与现有方法相比,本方法设计了一个过渡空间映射网络来学习可解释性特征表达,同时利用多种损失函数来约束输入文本、可解释性特征表达与生成图像三者的语义一致性,从而显著提高生成图像的质量,并增强生成图像和输入文本的语义一致性。
本方法之所以具有上述发明效果,其原因在于:本方法设计的过渡空间映射网络可以建立输入文本到可解释性特征表达的映射,在这个映射过程中可以充分挖掘输入文本中包含的视觉信息,利用这些视觉信息可以更加有效地提高生成图像的质量。同时,本方法中的多种损失函数可以有效约束输入文本、可解释性特征表达与生成图像三者的语义一致性,从而增强生成图像和输入文本的语义一致性。
附图说明
图1是本发明的一种基于过渡空间映射的文本生成图像方法流程图。
图2是本发明的网络结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述。
本发明的基于过渡空间映射的文本生成图像方法,其流程如图1所示,包含以下步骤:
(1)利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型。
该步骤的过程如图2所示。本发明设计了一个过渡空间映射网络M,该网络由多层全连接层构成,能够结合随机噪声z将输入文本
Figure GDA0003238810800000031
映射到过渡空间产生可解释性特征表达
Figure GDA0003238810800000032
然后,本发明将可解释性特征表达
Figure GDA0003238810800000033
输入到生成式对抗网络中的生成器G中,通过生成器G的多层卷积层运算后,可以得到生成图像
Figure GDA0003238810800000034
本发明将生成图像
Figure GDA0003238810800000035
数据库中的成对图像i、不成对图像i′与成对文本
Figure GDA0003238810800000036
一同输入至生成式对抗网络中的判别器D中,计算不同的对抗损失函数。
其中,“可解释性特征表达”是指语义明确的特征表达,在本发明中具体是指利用专门设计的一组三元互信息约束损失函数来约束训练得到的特征表达,该三元互信息约束损失函数约束了该特征表达与输入文本和生成图像之间的语义一致性,具有语义明确的性质。结合随机噪声z将输入文本
Figure GDA0003238810800000041
映射到过渡空间产生可解释性特征表达
Figure GDA0003238810800000042
的具体实现过程是:将随机噪声z与输入文本
Figure GDA0003238810800000043
并联输入至过渡空间映射网络M;该网络中的多个全连接层是串联结构,每层会对该层的输入进行非线性映射,即先利用可训练的网络层参数对输入进行线性变换,再使用非线性激活函数进行处理,然后输出映射后的特征表达;过渡空间映射网络M会将该输入进行串联式映射,经由各个全连接层,最终输出可解释性特征表达
Figure GDA0003238810800000044
其中,成对图像是指与输入文本
Figure GDA0003238810800000045
标注上具有关联关系的图像;不成对图像是指与输入文本
Figure GDA0003238810800000046
标注上不具有关联关系的图像;成对文本是指输入文本
Figure GDA0003238810800000047
训练的损失函数包括:
Figure GDA0003238810800000048
Figure GDA0003238810800000049
Figure GDA00032388108000000410
其中,LossD-VRAdv表示对应判别器的真实性对抗损失函数,用来训练判别器鉴别真实图像与生成图像的能力;LossD-CCAdv表示对应判别器的内容一致性对抗损失函数,用来训练判别器度量图像与文本内容关联性的能力,即给定输入文本鉴别其成对图像与不成对图像的能力;LossG-Adv表示对应生成器的对抗损失函数,用来训练生成器生成图像,并约束其生成图像数据分布与真实图像相近;Ε表示期望值;i表示数据库中的成对图像,i′表示数据库中的不成对图像,t表示数据库中的成对文本,pdata表示真实数据的概率分布值,pz表示随机噪声的概率分布值,
Figure GDA00032388108000000411
表示判别器对输入的成对图像i与成对文本t的特征表达
Figure GDA00032388108000000412
的预测值。
除此之外,为了进一步加强文本、可解释性特征表达与图像之间的内容一致性,本发明设计了一组三元互信息约束损失函数,其计算方式如下:
Figure GDA00032388108000000413
Figure GDA00032388108000000414
其中,LossInfo-TI表示输入文本
Figure GDA00032388108000000418
与生成图像
Figure GDA00032388108000000415
之间的互信息约束损失函数,LossInfo-TS表示输入文本
Figure GDA00032388108000000416
与可解释性特征表达
Figure GDA00032388108000000417
之间的互信息约束损失函数,Ε表示期望值,
Figure GDA0003238810800000051
表示输入文本
Figure GDA0003238810800000052
的概率分布值,x表示服从生成图像
Figure GDA0003238810800000053
数据分布的变量,“~”表示服从某一数据分布,
Figure GDA0003238810800000054
表示输入文本
Figure GDA0003238810800000055
的信息熵,
Figure GDA0003238810800000056
表示生成图像
Figure GDA0003238810800000057
的观测模拟全连接层Q的输出,
Figure GDA0003238810800000058
表示可解释性特征表达
Figure GDA0003238810800000059
的观测模拟全连接层Q′的输出。
最终,通过组合以上损失函数,本发明提出了针对判别器D的总损失函数,如下:
Figure GDA00032388108000000510
以及针对过渡空间映射网络M和生成器G的总损失函数,如下:
Figure GDA00032388108000000511
其中,λ1表示互信息约束损失函数在针对判别器D的总损失函数中的权值,λ2表示互信息约束损失函数在针对过渡空间映射网络M和生成器G的总损失函数中的权值。通过迭代地计算以上损失函数的梯度,可以得到完成训练的模型。
本发明中,生成器G、判别器D可以采用现有的网络结构实现。
(2)对于用户输入的文本,利用训练好的文本生成图像模型,生成与输入文本内容相符的图像。
当文本生成图像模型训练完毕之后,可以为用户提供的文本提取特征向量,利用该模型生成与输入文本生成内容一致的图像。
下面的实验结果表明,与现有方法相比,本发明基于过渡空间映射的文本生成图像方法,能够取得更好的图像视觉质量与图像文本内容一致性。
本实施例采用CUB-200-2011数据集进行实验,包括上文提到的训练数据库和评测用的测试数据库。该数据集由文献“The Caltech-UCSD Birds-200-2011Dataset”(作者Catherine Wah,Steve Branson,Peter Welinder,Pietro Perona和Serge Belongie)提出,其中包含200种不同种类的鸟,共11788张图像,每张图像包含10段描述文本,其中8855张图像为训练数据库,2933张图像为测试数据库。测试了以下4种方法作为实验对比:
现有方法一:文献“Generative adversarial text to image synthesis”(作者Scott Reed,Zeynep Akata,Xinchen Yan,Lajanugen Logeswaran,Bernt Schiele和Honglak Lee)中的GAN-INT-CLS方法;
现有方法二:文献“Learning what and where to draw”(作者Scott E Reed,Zeynep Akata,Santosh Mohan,Samuel Tenka,Bernt Schiele和Honglak Lee)中的GAWWN方法。
现有方法三:文献“StackGAN:Text to photo-realistic image synthesis withstacked generative adversarial networks”(作者Han Zhang,Tao Xu,Hongsheng Li,Shaoting Zhang,Xiaogang Wang,Xiaolei Huang和Dimitris Metaxas)中的StackGAN方法。
现有方法四:文献“Photographic text-to-image synthesis with ahierarchically-nested adversarial network”(作者Zizhao Zhang,Yuanpu Xie和LinYang)中的HDGAN方法。
本发明:本实施例的方法。
实验采用Inception score指标来评测生成图像的视觉质量,采用VS Similarity指标来评测生成图像与输入文本的内容一致性。其中,Inception score是一种通用的生成图像评估标准,其利用一个Inception图像分类模型对生成的多张图像(本实施例中为每个方法生成29330张图像)计算类别概率向量,然后对这多个类别概率向量计算KL散度,以此表示生成图像的质量,得分值越高越好。VS Similarity是图像质量评估算法,可以将生成图像与输入文本映射到一个可进行统一度量的共同空间,然后计算两者的视觉语义相似度(本实施例中为每个方法生成了29330张图像,与29330个输入文本成对计算相似度),从而体现两者的内容一致性,得分值也是越高越好。
表1.本发明的实验结果展示
Inception score VS Similarity
现有方法一 2.88±0.04 0.082±0.147
现有方法二 3.62±0.07 0.114±0.151
现有方法三 3.70±0.04 0.228±0.162
现有方法四 4.15±0.05 0.246±0.157
本发明 4.74±0.04 0.298±0.146
从表1可以看出,本发明在生成图像的视觉质量以及文本内容一致性上都比现有方法取得了很大提高。四种现有方法也同样使用生成式对抗网络生成图像,尽管这些方法在训练过程中可以收敛并取得一定效果,但由于其生成式网络具有很多网络层,训练仅依靠一个对抗损失函数导致训练过程不完全,限制了生成图像的效果。本发明能够充分利用过渡空间映射学习可解释性特征表达,利用这种方式稳定地在该生成式网络中建立文本特征向量空间到图像像素空间的映射,生成在内容上与文本一致的图像。
基于同一发明构思,本发明的另一个实施例提供一种基于过渡空间映射的文本生成图像系统,其包括:
模型训练模块,负责利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型;
图像生成模块,负责对于用户输入的文本,利用训练完成的文本生成图像模型,生成与输入文本内容相符的图像。
基于同一发明构思,本发明的另一个实施例提供一种计算机/服务器,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于过渡空间映射的文本生成图像方法,包括以下步骤:
利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型;
对于用户输入的文本,利用训练完成的文本生成图像模型,生成与输入文本内容相符的图像;
所述文本生成图像模型中,过渡空间映射网络M能够结合随机噪声z将文本的特征表达
Figure FDA0003238810790000011
映射到过渡空间,产生可解释性特征表达
Figure FDA0003238810790000012
然后,将可解释性特征表达
Figure FDA0003238810790000013
输入到生成式对抗网络中的生成器G中,通过生成器G的多层卷积层运算后,得到生成图像
Figure FDA0003238810790000014
将生成图像
Figure FDA0003238810790000015
数据库中的成对图像i、不成对图像i′与成对文本t一同输入至生成式对抗网络中的判别器D中,计算不同的对抗损失函数;
所述文本生成图像模型中训练的损失函数包括:
Figure FDA0003238810790000016
Figure FDA0003238810790000017
Figure FDA0003238810790000018
其中,LossD-VRAdv表示对应判别器的真实性对抗损失函数;LossD-CCAdv表示对应判别器的内容一致性对抗损失函数;LossG-Adv表示对应生成器的对抗损失函数;Ε表示期望值;i表示数据库中的成对图像,i′表示数据库中的不成对图像,t表示数据库中的成对文本,pdata表示真实数据的概率分布值,pz表示随机噪声的概率分布值,
Figure FDA0003238810790000019
表示判别器对输入的成对图像i与成对文本t的特征表达
Figure FDA00032388107900000110
的预测值;
Figure FDA00032388107900000111
表示判别器对输入的不成对图像i′与成对文本t的特征表达
Figure FDA00032388107900000112
的预测值;
所述文本生成图像模型中训练的损失函数还包括一组三元互信息约束损失函数,其计算方式如下:
Figure FDA00032388107900000113
Figure FDA00032388107900000114
其中,LossInfo-TI表示输入文本的特征表达
Figure FDA00032388107900000115
与生成图像
Figure FDA00032388107900000116
之间的互信息约束损失函数,LossInfo-TS表示输入文本的特征表达
Figure FDA00032388107900000117
与可解释性特征表达
Figure FDA00032388107900000118
之间的互信息约束损失函数,Ε表示期望值,
Figure FDA0003238810790000021
表示输入文本的特征表达
Figure FDA0003238810790000022
的概率分布值,x表示服从生成图像
Figure FDA0003238810790000023
数据分布的变量,“~”表示服从某一数据分布,
Figure FDA0003238810790000024
表示输入文本的特征表达
Figure FDA0003238810790000025
的信息熵,
Figure FDA0003238810790000026
表示生成图像
Figure FDA0003238810790000027
的观测模拟全连接层Q的输出,
Figure FDA0003238810790000028
表示可解释性特征表达
Figure FDA0003238810790000029
的观测模拟全连接层Q′的输出。
2.如权利要求1所述的方法,其特征在于,所述过渡空间映射网络包含多层全连接层;生成式对抗网络包含一个生成器与一个判别器,生成器以文本特征作为输入生成高分辨率的图像,判别器以图像作为输入判别其真实性和与输入文本向量之间的相关性。
3.如权利要求1所述的方法,其特征在于,通过组合各损失函数,提出针对判别器D的总损失函数,如下:
Figure FDA00032388107900000210
以及针对过渡空间映射网络M和生成器G的总损失函数,如下:
Figure FDA00032388107900000211
其中,λ1表示互信息约束损失函数在针对判别器D的总损失函数中的权值,λ2表示互信息约束损失函数在针对过渡空间映射网络M和生成器G的总损失函数中的权值;通过迭代地计算以上总损失函数的梯度,得到完成训练的模型。
4.一种基于过渡空间映射的文本生成图像系统,其特征在于,包括:
模型训练模块,负责利用数据库中的图像和文本,训练由一个过渡空间映射网络和一个生成式对抗网络级联组成的文本生成图像模型;
图像生成模块,负责对于用户输入的文本,利用训练完成的文本生成图像模型,生成与输入文本内容相符的图像;
所述文本生成图像模型中,过渡空间映射网络M能够结合随机噪声z将文本的特征表达
Figure FDA00032388107900000212
映射到过渡空间,产生可解释性特征表达
Figure FDA00032388107900000213
然后,将可解释性特征表达
Figure FDA00032388107900000214
输入到生成式对抗网络中的生成器G中,通过生成器G的多层卷积层运算后,得到生成图像
Figure FDA00032388107900000215
将生成图像
Figure FDA00032388107900000216
数据库中的成对图像i、不成对图像i′与成对文本t一同输入至生成式对抗网络中的判别器D中,计算不同的对抗损失函数;
所述文本生成图像模型中训练的损失函数包括:
Figure FDA00032388107900000217
Figure FDA0003238810790000031
Figure FDA0003238810790000032
其中,LossD-VRAdv表示对应判别器的真实性对抗损失函数;LossD-CCAdv表示对应判别器的内容一致性对抗损失函数;LossG-Adv表示对应生成器的对抗损失函数;Ε表示期望值;i表示数据库中的成对图像,i′表示数据库中的不成对图像,t表示数据库中的成对文本,pdata表示真实数据的概率分布值,pz表示随机噪声的概率分布值,
Figure FDA0003238810790000033
表示判别器对输入的成对图像i与成对文本t的特征表达
Figure FDA0003238810790000034
的预测值;
Figure FDA0003238810790000035
表示判别器对输入的不成对图像i′与成对文本t的特征表达
Figure FDA0003238810790000036
的预测值;
所述文本生成图像模型中训练的损失函数还包括一组三元互信息约束损失函数,其计算方式如下:
Figure FDA0003238810790000037
Figure FDA0003238810790000038
其中,LossInfo-TI表示输入文本的特征表达
Figure FDA0003238810790000039
与生成图像
Figure FDA00032388107900000310
之间的互信息约束损失函数,LossInfo-TS表示输入文本的特征表达
Figure FDA00032388107900000311
与可解释性特征表达
Figure FDA00032388107900000312
之间的互信息约束损失函数,Ε表示期望值,
Figure FDA00032388107900000313
表示输入文本的特征表达
Figure FDA00032388107900000314
的概率分布值,x表示服从生成图像
Figure FDA00032388107900000315
数据分布的变量,“~”表示服从某一数据分布,
Figure FDA00032388107900000316
表示输入文本的特征表达
Figure FDA00032388107900000317
的信息熵,
Figure FDA00032388107900000318
表示生成图像
Figure FDA00032388107900000319
的观测模拟全连接层Q的输出,
Figure FDA00032388107900000320
表示可解释性特征表达
Figure FDA00032388107900000321
的观测模拟全连接层Q′的输出。
5.如权利要求4所述的系统,其特征在于,所述过渡空间映射网络包含多层全连接层;生成式对抗网络包含一个生成器与一个判别器,生成器以文本特征作为输入生成高分辨率的图像,判别器以图像作为输入判别其真实性和与输入文本向量之间的相关性。
6.一种计算机,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~3中任一权利要求所述方法中各步骤的指令。
CN201911022919.XA 2019-10-25 2019-10-25 一种基于过渡空间映射的文本生成图像方法和系统 Active CN110930469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911022919.XA CN110930469B (zh) 2019-10-25 2019-10-25 一种基于过渡空间映射的文本生成图像方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911022919.XA CN110930469B (zh) 2019-10-25 2019-10-25 一种基于过渡空间映射的文本生成图像方法和系统

Publications (2)

Publication Number Publication Date
CN110930469A CN110930469A (zh) 2020-03-27
CN110930469B true CN110930469B (zh) 2021-11-16

Family

ID=69849522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911022919.XA Active CN110930469B (zh) 2019-10-25 2019-10-25 一种基于过渡空间映射的文本生成图像方法和系统

Country Status (1)

Country Link
CN (1) CN110930469B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539184A (zh) * 2020-04-29 2020-08-14 上海眼控科技股份有限公司 基于深度学习的文本数据制造方法、装置、终端及存储介质
CN113642673B (zh) * 2021-08-31 2023-12-22 北京字跳网络技术有限公司 图像生成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090521A (zh) * 2018-01-12 2018-05-29 广州视声智能科技有限公司 一种生成式对抗网络模型的图像融合方法和判别器
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法
KR20190080415A (ko) * 2017-12-28 2019-07-08 주식회사 엔씨소프트 이미지 생성 시스템 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614979B (zh) * 2018-10-11 2023-05-02 北京大学 一种基于选择与生成的数据增广方法及图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190080415A (ko) * 2017-12-28 2019-07-08 주식회사 엔씨소프트 이미지 생성 시스템 및 방법
CN108090521A (zh) * 2018-01-12 2018-05-29 广州视声智能科技有限公司 一种生成式对抗网络模型的图像融合方法和判别器
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CM-GANs: Cross-modal Generative Adversarial Networks;彭宇新 等;《ACM Transactions》;20190228;第15卷(第1期);全文 *
Text-to-image Synthesis via Symmetrical Distillation Networks;彭宇新 等;《2018 ACM Multimedia Conference》;20181026;全文 *

Also Published As

Publication number Publication date
CN110930469A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
Zhao et al. Open vocabulary scene parsing
Turhan et al. Recent trends in deep generative models: a review
CN111368078A (zh) 一种模型训练的方法、文本分类的方法、装置及存储介质
CN113094596A (zh) 一种基于双向传播图的多任务谣言检测方法
CN110287354A (zh) 一种基于多模态神经网络的高分遥感图像语义理解方法
CN110930469B (zh) 一种基于过渡空间映射的文本生成图像方法和系统
CN116844179A (zh) 基于多模态交叉注意力机制图文融合的情感分析方法
CN113392640A (zh) 一种标题确定方法、装置、设备及存储介质
CN117094291A (zh) 基于智能写作的自动新闻生成系统
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
Zhang et al. Multiscale visual-attribute co-attention for zero-shot image recognition
CN114332565A (zh) 一种基于分布估计的条件生成对抗网络文本生成图像方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN108985385A (zh) 基于生成对抗学习的快速弱监督目标检测方法
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.
CN113806545B (zh) 基于标签描述生成的评论文本情感分类方法
Jocic et al. Image tagging with an ensemble of deep convolutional neural networks
CN113705197A (zh) 一种基于位置增强的细粒度情感分析方法
CN113111267A (zh) 一种基于双向传播图的多任务谣言检测方法
Ji [Retracted] Research on Recognition Effect of DSCN Network Structure in Hand‐Drawn Sketch
Song Aspect-Based Sentiment Analysis on Mobile Game Reviews Using Deep Learning
CN116050428B (zh) 意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant