CN111402365B - 一种基于双向架构对抗生成网络的由文字生成图片的方法 - Google Patents

一种基于双向架构对抗生成网络的由文字生成图片的方法 Download PDF

Info

Publication number
CN111402365B
CN111402365B CN202010185829.9A CN202010185829A CN111402365B CN 111402365 B CN111402365 B CN 111402365B CN 202010185829 A CN202010185829 A CN 202010185829A CN 111402365 B CN111402365 B CN 111402365B
Authority
CN
China
Prior art keywords
pictures
sentence
text
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010185829.9A
Other languages
English (en)
Other versions
CN111402365A (zh
Inventor
全哲
胡新健
王梓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202010185829.9A priority Critical patent/CN111402365B/zh
Publication of CN111402365A publication Critical patent/CN111402365A/zh
Application granted granted Critical
Publication of CN111402365B publication Critical patent/CN111402365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于双向架构对抗生成网络的由文字生成图片的方法,首先使用一个预训练的文字编码网络来分析文本含义,并将之映射至一个语义向量空间,然后双向架构对抗生成网络模型就可以利用语义向量来生成一张与之对应的图片。与相关技术相比,本发明具有如下优点:利用了双向架构思想,结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程,并且通过改进注意力机制和调整batch normalization达到了加强图片和文本之间的语义一致性的目的,实验证明,这种模型架构可以显著提高合成图片的质量以及多样性。

Description

一种基于双向架构对抗生成网络的由文字生成图片的方法
【技术领域】
本发明涉及文字处理技术领域,尤其涉及一种基于双向架构对抗生成网络的由文字生成图片的方法。
【背景技术】
基于文字的语义来生成一张与之对应并符合现实的图片涉及多个领域,在文字处理步骤需要使用自然语言处理领域的技术,在生成图片时又需要计算机视觉的相关知识。所以目前已有的技术大多都是分为两个部分来实现:
1.文字编码,此步骤一般使用两个神经网络来分别处理文字与图片,通过学习将之映射至同一个向量空间。比如在AttnGAN网络中使用了一个CNN网络来处理图片,使用了一个LSTM网络来处理文字,然后通过特定的目标函数来优化两者之间的相似度,以达到文字的语义能过与图片相对应的目的。
2.生成图片,在获得文字编码模型之后就可以将文字转换为向量,然后将之作为对抗生成网络中生成器的输入,即可得到一张生成的图片。通过训练对抗生成网络,我们就可以得到一个能过根据语义生成与之对应并足够真实的生成模型。
在上述的过程中,非常依赖于对抗生成网络的能力,现有的方法大多都是通过叠加多个生成器或者添加注意力机制来提高图片的生成质量。然而,文本自身的语义与图片自身的视觉内容之间还存在着难以跨越的鸿沟,难以建立语义一致性。Qiao等人通过引入一个图像标注模型来解决这个问题,但是此方法太过于依赖图像标注模型的表现;Yin等人利用siamese网络,从文本描述中直接提取语义一致性,但是这种方法又太过于依赖训练数据集的文本丰富度,在实际使用中并不理想。
总的来说,现有的方法都存在一定的局限性,难以推广。
【发明内容】
本发明的目的在于提供一种基于双向架构对抗生成网络的由文字生成图片的方法,其能够凭借一段文本描述生成与之相对应的且符合真实环境的图片,并显著提升生成图片的质量。
为了实现上述目的,本发明的技术方案如下:
一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:
步骤一、准备数据集,分为训练集和测试机;
步骤二、对数据集中的数据进行预处理;
步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;
步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;
步骤五、对句子编码进行CA操作,得到Fca向量;
步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器;
步骤七、生成器输出生成图片;
步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;
步骤九、计算损失函数;
步骤十、优化损失函数,继续训练;
步骤十一、经过多次迭代计算,得到训练后的模型;
步骤十二、将测试集中的文字经过同样的文本特征提取工作,输入模型得到测试结果;
步骤十三、实验结果及评估。
优选的:在步骤一中,数据集的划分是根据原数据集提供的划分。
优选的:在步骤一中,所述数据集为CUB鸟类数据集和COCO数据集。
优选的:在步骤二中,预处理具体包括:
构建词典,在词典中添加NULL;
构建文本向量,采用长度为18的一维向量,单词数不足18的句子在句末补NULL,单词数大于18的句子将随机进行选取18个单词,再将每个单词映射至其在词典中的下标;
预处理图片,采用随机翻转、裁剪,然后通过缩放得到64x64、128x128以及256x256的图片。
优选的:在步骤三中,采用Attngan中文本编码部分的预训练模型作为文本编码器,其采用的是RNN网络,用公式表达为:
w,s=RNN(Text)
其中w为单词编码,是一个D×L的矩阵,其中D代表维度,L代表单词个数即句子长度;s为句子编码,是一个长度为D的一维向量。
优选的:在步骤五中,CA操作具体包括:
将句子编码通过两层全连接层;
使用一个独立的高斯分布N(μ(s),σ(s))对其进行重采样,用公式表达为:
Fca=CA(s)
其中Fca是提取出来的d维的语义特征向量,s为句子编码,CA(s)代表对句子编码进行CA操作。
优选的:在步骤六中,所述生成器的数量为三个,且上一个生成器的输出作为下一个生成器的输入,分别可以生成64×64、128×128和256×256的图片。
优选的:三个所述生成器的网络结构相同,但其中的网络层使用的参数不同,具体的网络结构由SEAttn层、卷积层、上采样层和SEBN层组成。
优选的:在步骤九中,采用以下函数计算损失函数:
Figure BDA0002414145370000031
其中h1(t)=max(0,1-t)和h2(t)=max(0,1+t)叫做“hinge”损失,其用来正则化判别器的输出,x代表来自训练集中或者生成器生成的图片,来自训练集中的图片服从图像数据分布Pdata,而生成图片的分布用PG表示,Di代表判别器,E代表图像编码器,s为句子编码,sca是Fca向量。
优选的:在步骤十中,训练具体包括:
将处理后的文本数据输入文本编码器,得到句子编码和单词编码;
将处理后的图像输入至图像编码器,然后将图像编码器的输出作类似CA操作中重采样;
将句子编码、单词编码、噪声、输入生成器,分别得到64x64、128x128和256x256的生成图片;
将生成的图片、生成图片的分布作为对应的一组输入判别器,将真实图片、真实图片的分布作为对应的一组输出判别器;
计算判别器的损失,并反向传播更新参数;
固定住判别器的参数,计算图像编码器的损失,并反向传播更新参数;
固定住判别器与图像编码器的参数,计算生成器的损失,并反向传播更新参数;
另选一组数据,重复以上步骤,直至模型收敛。
与相关技术相比,本发明具有如下优点:利用了双向架构思想,结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程,并且通过改进注意力机制和调整batchnormalization达到了加强图片和文本之间的语义一致性的目的,实验证明,这种模型架构可以显著提高合成图片的质量以及多样性。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明基于双向架构对抗生成网络的由文字生成图片的方法的流程图;
图2为本发明生成器的网络结构图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明提供了一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:
步骤一、准备数据集,分为训练集和测试机;
具体的,在本发明中,该数据集的划分是根据原数据集提供的划分,本发明使用的数据集为CUB鸟类数据集和COCO数据集。其中CUB鸟类数据集中的训练集包含150个分类共8855张图片,测试集共50个分类共包含2933张图片,数据集中的每一张图片分别对应10句描述文本。其中COCO数据集中的训练集包含8万张图片,测试机包含4万张图片,数据集中的每张图片分别对应5句文本描述。
步骤二、对数据集中的数据进行预处理;
具体的,预处理包括:
构建词典,在词典中添加NULL;
构建文本向量,采用长度为18的一维向量,单词数不足18的句子在句末补NULL,单词数大于18的句子将随机进行选取18个单词,再将每个单词映射至其在词典中的下标;
预处理图片,采用随机翻转、裁剪,然后通过缩放得到64x64、128x128以及256x256的图片。
步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;
具体的,采用Attngan中文本编码部分的预训练模型作为文本编码器,其采用的是RNN网络,用公式表达为:
w,s=RNN(Text)
其中w为单词编码,是一个D×L的矩阵,其中D代表维度,L代表单词个数即句子长度;s为句子编码,是一个长度为D的一维向量。
步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;
步骤五、对句子编码进行CA(Condition Augment)操作,得到Fca向量;
需要进一步说明的是,CA操作具体包括:
将句子编码通过两层全连接层;
使用一个独立的高斯分布N(μ(s),σ(s))对其进行重采样,用公式表达为:
Fca=CA(s)
其中Fca是提取出来的d维的语义特征向量,s为句子编码,CA(s)代表对句子编码进行CA操作。
步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器;
具体的,所述生成器的数量为三个,且上一个生成器的输出作为下一个生成器的输入,分别可以生成64×64、128×128和256×256的图片。再结合图2所示,三个所述生成器的网络结构相同,但其中的网络层使用的参数不同,具体的网络结构由SEAttn层、卷积层、上采样层和SEBN层组成。需要注意的是,本发明采用的是均值为0,方差为1的正态分布,然后将其分成了三份,分别在每一个生成器的开始与输入矩阵拼接。
另外,需要进一步说明的是,本发明提出了一个用于加强语义的注意力机制模块来提升语义一致性。Semantic-Enhanced Attention(SEAttn)采用了“门”控制的思想,可以在实行注意力机制之前计算单词特征与语义特征之间的重要性。使用Sca来代替Fca,公式表达为:
Impi(sca,wi)=σ(Wimp*concat(sca,wi))
其中σ表示sigmoid函数,wimp是一个1×(D+d)的矩阵,D是单词编码的维度,d是Fca向量的维度,sca是Fca向量,wi表示单词编码,concat表示拼接操作。
然后,可以特定的细化单词特征:
w′i=Impi*Mw(wi)+1-Impi)*Ms(sca)
其中Mw(·)和Ms(·)代表一个1×1的卷积操作,风别用来提取单词编码和进行CA操作之后句子编码的特征至相同的维度空间,wi表示单词编码,sca是Fca向量。
在上述操作过程之后,就可以使用wi’来替换Attngan中attention机制中的wi矩阵。
在SD-GAN中提到,对句子特征的翻转、拉伸等操作有助于提高图像的多样性,但是语言描述是非常主观的,通常带有很多非本质的特征,所以为了不过多的移动视觉内容,此发明使用Semantic-Enhanced Batch Normalization(SEBN)整合了语义特征。值得注意的是,这个地方还将噪声合并了进来,这有利于提升生成器生成图片的质量。该层用公式表达为:
γc=fγ(concate(s,sca,z)),βc=fβ(concate(s,sca,z))
Figure BDA0002414145370000061
其中concate代表连接拼接操作,s代表句子编码,sca是Fca向量,z是噪声;μ(x)为x的均值,σ(x)代表x的方差,fγ和fβ分别表示映射网络,βc和γc分别代表缩放尺度与偏移尺度。
图像编码器是本发明重要的一部分,该图像编码器将文字生成图片的过程逆转,变成从图片中提取语义特征。图像编码器的网络结构与生成器的结构相似,但是移除了batch normalization中Fca。此外,也对图像编码器的输出执行了像CA操作一样的重采样。
步骤七、生成器输出生成图片;
步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;
需要进一步说明的是,判别器也是三个,分别与生成器一一对应,以便接收不同分辨率的图片。
步骤九、计算损失函数;
需要进一步说明的是,本发明的本质是从文本描述中提取精确的语义特征,来生成合成图像。所以本发明提出了两种对抗损失,分别为语义特征损失和条件语义特征损失,利用这两个目标函数可以在全局优化中学习联合分布,所以生成器可以精确的提取语义特征。像以往的方法一样,采用来了两类损失来进行逼近条件分布和非条件分布。在训练中的每一步,生成器、图像编码器和判别器都是分开训练,具体在每一层中,最小化以下损失函数:
Figure BDA0002414145370000071
其中h1(t)=max(0,1-t)和h2(t)=max(0,1+t)叫做“hinge”损失,其用来正则化判别器的输出,x代表来自训练集中或者生成器生成的图片,来自训练集中的图片服从图像数据分布Pdata,而生成图片的分布用PG表示,Di代表判别器,E代表图像编码器,s为句子编码,sca是Fca向量。
这里使用“hinge”损失可以提升模型的稳定性,并且可以避免训练中的梯度消失问题。对于生成器部分的目标函数,加入了Attngan中的conditioning augmentation损失和DAMSM损失。
步骤十、优化损失函数,继续训练;
需要进一步说明的是,每次从训练集中读取小批次数据进行数据预处理,批次大小一般视GPU内存大小决定。并生成批次大小相等,服从均值为0,方差为1的正态分布Tensor。
训练具体包括:
将处理后的文本数据输入文本编码器,得到句子编码和单词编码;
将处理后的图像输入至图像编码器,然后将图像编码器的输出作类似CA操作中重采样;
将句子编码、单词编码、噪声、输入生成器,分别得到64x64、128x128和256x256的生成图片;
将生成的图片、生成图片的分布作为对应的一组输入判别器,将真实图片、真实图片的分布作为对应的一组输出判别器;
计算判别器的损失,并反向传播更新参数;
固定住判别器的参数,计算图像编码器的损失,并反向传播更新参数;
固定住判别器与图像编码器的参数,计算生成器的损失,并反向传播更新参数;
另选一组数据,重复以上步骤,直至模型收敛。
步骤十一、经过多次迭代计算,得到训练后的模型;
步骤十二、将测试集中的文字经过同样的文本特征提取工作,输入模型得到测试结果;
步骤十三、实验结果及评估。
具体的,实验中采用了三种评价指标,分别为:Inception Score(IS)、FréchetInception Distance(FID)。评价方法为每个对比模型使用没有训练的测试集数据随机生成30000张图片来计算这两个指标。具体包括:
1、IS值的计算需要借助预训练的Inception v3网络来计算条件种类分布和边缘种类分布之间的KL散度。IS值越大表示图像的多样性越高,并且每一张图片都能够清晰的区别他们的类别。
2、FID值也是借助预训练的Inception v3网络来计算真实图片与生成图片之间的距离,FID的值越低表示生成图片越接近真实环境下的图片。
评估结果如下:
将本发明得到的测试结果与目前表现最好的几个模型方法进行了对比,在评价指标IS值上的结果如下表1:
表1
Figure BDA0002414145370000091
其中,表1记载了IS4对比试验结果,可以看到,本发明模型TIBi-GAN在CUB数据集上获得了5.03IS分数,在COCO数据集上获得了31.03IS分数。可以注意到,此模型在COCO数据集上的表现要差于SD-GAN,但是SD-GAN存在着严重的缺陷,因为他利用siamese网络来从一对描述中提取语义一致性,这非常依赖于文本描述的多样性,所以他不具有广泛的适用性。
本专利模型与AttnGAN、DM-GAN在评价指标FID上的对比结果如下表2:
表2
Figure BDA0002414145370000092
Figure BDA0002414145370000101
其中,表2记载了FID值对比实验结果,可以看到,本专利模型在CUB上的分数从16.09降低到了11.83,在COCO上的分数从32.64降低到了31.97。
综上可见,本专利所提出的TIBi-GAN模型在两个数据集上都表现的非常好,这代表着本专利方法能够有效的生成多样且高质量的图片。
与相关技术相比,本发明具有如下优点:利用了双向架构思想,结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程,并且通过改进注意力机制和调整batchnormalization达到了加强图片和文本之间的语义一致性的目的,实验证明,这种模型架构可以显著提高合成图片的质量以及多样性。
尽管本发明的实施方案已公开如上,但并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。

Claims (9)

1.一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:
步骤一、准备数据集,分为训练集和测试机;
步骤二、对数据集中的数据进行预处理;
步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;
步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;
步骤五、对句子编码进行CA操作,得到Fca向量;
步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器,所述生成器的数量为三个,且上一个生成器的输出作为下一个生成器的输入,三个所述生成器的网络结构相同,但其中的网络层使用的参数不同,具体的网络结构由SEAttn层、卷积层、上采样层和SEBN层组成;
SEAttn层用公式表达为:Impi(sca,wi)=σ(Wimp*concat(sca,wi)),其中σ表示sigmoid函数,W imp是一个1×(D+d)的矩阵,D是单词编码的维度,d是Fca向量的维度,sca是Fca向量,wi表示单词编码,concat表示拼接操作;w′i=Impi*Mw(wi)+(1-Impi)*Ms(sca),其中Mw(·)和Ms(·)代表一个1×1的卷积操作,分别用来提取单词编码和进行CA操作之后句子编码的特征至相同的维度空间,wi表示单词编码,sca是Fca向量;
SEBN层用公式表达为:γc=fγ(concate(s,sca,z)),βc=fβ(concate(s,sca,z)),
Figure FDA0003836444020000011
其中concate代表连接拼接操作,s代表句子编码,sca是Fca向量,z是噪声;μ(x)为x的均值,σ(x)代表x的方差,fγ和fβ分别表示映射网络,βc和γc分别代表缩放尺度与偏移尺度;
步骤七、生成器输出生成图片;
步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;
步骤九、计算损失函数;
步骤十、优化损失函数,继续训练;
步骤十一、经过多次迭代计算,得到训练后的模型;
步骤十二、将测试集中的文字经过同样的文本特征提取工作,输入模型得到测试结果;
步骤十三、实验结果及评估。
2.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤一中,数据集的划分是根据原数据集提供的划分。
3.根据权利要求1或2所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤一中,所述数据集为CUB鸟类数据集和COCO数据集。
4.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤二中,预处理具体包括:
构建词典,在词典中添加NULL;
构建文本向量,采用长度为18的一维向量,单词数不足18的句子在句末补NULL,单词数大于18的句子将随机进行选取18个单词,再将每个单词映射至其在词典中的下标;
预处理图片,采用随机翻转、裁剪,然后通过缩放得到64x64、128x128以及256x256的图片。
5.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤三中,采用Attngan中文本编码部分的预训练模型作为文本编码器,其采用的是RNN网络,用公式表达为:
w,s=RNN(Text)
其中w为单词编码,是一个D×L的矩阵,其中D代表维度,L代表单词个数即句子长度;s为句子编码,是一个长度为D的一维向量。
6.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤五中,CA操作具体包括:
将句子编码通过两层全连接层;
使用一个独立的高斯分布N(μ(s),σ(s))对其进行重采样,用公式表达为:
Fca=CA(s)
其中Fca是提取出来的d维的语义特征向量,s为句子编码,CA(s)代表对句子编码进行CA操作。
7.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤六中,所述生成器分别可以生成64×64、128×128 和256×256的图片。
8.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤九中,采用以下函数计算损失函数:
Figure FDA0003836444020000031
其中h1(t)=max(0,1-t)和h2(t)=max(0,1+t)叫做“hinge”损失,其用来正则化判别器的输出,x代表来自训练集中或者生成器生成的图片,来自训练集中的图片服从图像数据分布Pdata,而生成图片的分布用PG表示,Di代表判别器,E代表图像编码器,s为句子编码,sca是Fca向量。
9.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤十中,训练具体包括:
将处理后的文本数据输入文本编码器,得到句子编码和单词编码;
将处理后的图像输入至图像编码器,然后将图像编码器的输出作类似CA操作中重采样;
将句子编码、单词编码、噪声、输入生成器,分别得到64x64、128x128和256x256的生成图片;
将生成的图片、生成图片的分布作为对应的一组输入判别器,将真实图片、真实图片的分布作为对应的一组输出判别器;
计算判别器的损失,并反向传播更新参数;
固定住判别器的参数,计算图像编码器的损失,并反向传播更新参数;
固定住判别器与图像编码器的参数,计算生成器的损失,并反向传播更新参数;
另选一组数据,重复以上步骤,直至模型收敛。
CN202010185829.9A 2020-03-17 2020-03-17 一种基于双向架构对抗生成网络的由文字生成图片的方法 Active CN111402365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185829.9A CN111402365B (zh) 2020-03-17 2020-03-17 一种基于双向架构对抗生成网络的由文字生成图片的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185829.9A CN111402365B (zh) 2020-03-17 2020-03-17 一种基于双向架构对抗生成网络的由文字生成图片的方法

Publications (2)

Publication Number Publication Date
CN111402365A CN111402365A (zh) 2020-07-10
CN111402365B true CN111402365B (zh) 2023-02-10

Family

ID=71432585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185829.9A Active CN111402365B (zh) 2020-03-17 2020-03-17 一种基于双向架构对抗生成网络的由文字生成图片的方法

Country Status (1)

Country Link
CN (1) CN111402365B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359423B (zh) * 2020-10-13 2023-09-12 四川大学 一种基于深度对抗生成网络的文本生成人脸方法
CN112489152A (zh) * 2020-11-04 2021-03-12 湖南大学 一种基于远程相关注意力生成对抗网络的文本生成图像方法
CN113537487B (zh) * 2021-06-25 2023-08-04 北京百度网讯科技有限公司 模型训练的方法、生成图片的方法及其装置
CN116863034B (zh) * 2023-07-11 2024-05-14 华院计算技术(上海)股份有限公司 一种提升扩散模型图片生成效果的方法
CN117635275B (zh) * 2023-12-19 2024-05-24 浙江博观瑞思科技有限公司 基于大数据的智能电商运营商品管理平台及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460717A (zh) * 2018-03-14 2018-08-28 儒安科技有限公司 一种基于双判别器的生成对抗网络的图像生成方法
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110717555A (zh) * 2019-12-12 2020-01-21 江苏联著实业股份有限公司 一种基于自然语言和生成对抗网络的图片生成系统及装置
CN110751698A (zh) * 2019-09-27 2020-02-04 太原理工大学 一种基于混和网络模型的文本到图像的生成方法
CN110866958A (zh) * 2019-10-28 2020-03-06 清华大学深圳国际研究生院 一种文本到图像的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
JP7023669B2 (ja) * 2017-10-26 2022-02-22 株式会社Preferred Networks 画像生成方法、画像生成装置、及び画像生成プログラム
CN110111399B (zh) * 2019-04-24 2023-06-30 上海理工大学 一种基于视觉注意力的图像文本生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460717A (zh) * 2018-03-14 2018-08-28 儒安科技有限公司 一种基于双判别器的生成对抗网络的图像生成方法
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110751698A (zh) * 2019-09-27 2020-02-04 太原理工大学 一种基于混和网络模型的文本到图像的生成方法
CN110866958A (zh) * 2019-10-28 2020-03-06 清华大学深圳国际研究生院 一种文本到图像的方法
CN110717555A (zh) * 2019-12-12 2020-01-21 江苏联著实业股份有限公司 一种基于自然语言和生成对抗网络的图片生成系统及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks;Tao Xu,etc;《Computer Vision Foundation》;20181217;P1316-1324 *

Also Published As

Publication number Publication date
CN111402365A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110598713B (zh) 基于深度神经网络的智能图像自动描述方法
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
WO2022007685A1 (en) Method and device for text-based image generation
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN113140020B (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN114638228A (zh) 一种基于词集自注意力的中文命名实体识别方法
CN114048290A (zh) 一种文本分类方法及装置
CN112465929A (zh) 一种基于改进图卷积网络的图像生成方法
CN115512368B (zh) 一种跨模态语义生成图像模型和方法
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN113421314B (zh) 一种基于生成对抗网络的多尺度双模态文本生成图像方法
CN115577720A (zh) 一种基于深度残差收缩网络和seq2seq的蒙汉机器翻译方法
Kasi et al. A Deep Learning Based Cross Model Text to Image Generation using DC-GAN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant