CN114329025A - 基于对抗生成网络的跨模态文本到图像生成方法 - Google Patents

基于对抗生成网络的跨模态文本到图像生成方法 Download PDF

Info

Publication number
CN114329025A
CN114329025A CN202111271415.9A CN202111271415A CN114329025A CN 114329025 A CN114329025 A CN 114329025A CN 202111271415 A CN202111271415 A CN 202111271415A CN 114329025 A CN114329025 A CN 114329025A
Authority
CN
China
Prior art keywords
sentence
text
image
feature vector
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111271415.9A
Other languages
English (en)
Other versions
CN114329025B (zh
Inventor
鲍秉坤
袁博闻
盛业斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nanyou Institute Of Information Technovation Co ltd
Original Assignee
Nanjing Nanyou Institute Of Information Technovation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nanyou Institute Of Information Technovation Co ltd filed Critical Nanjing Nanyou Institute Of Information Technovation Co ltd
Priority to CN202111271415.9A priority Critical patent/CN114329025B/zh
Publication of CN114329025A publication Critical patent/CN114329025A/zh
Application granted granted Critical
Publication of CN114329025B publication Critical patent/CN114329025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于对抗生成网络的跨模态文本到图像生成方法,通过在再生成模块引入对抗学习,提高了优化缺陷图片的效果;另外使用语义距离度量优化来保证图片对之间语义的一致性,所生成的图片有更好的语义一致性表现,将输入的文本与真实图片进行融合,生成与对应描述文本间找到良好的语义关联的优化图像。

Description

基于对抗生成网络的跨模态文本到图像生成方法
技术领域
本发明涉及计算机图像生成技术领域,特别是涉及基于对抗生成网络的跨模 态文本到图像生成方法。
背景技术
随着信息技术的发展和多媒体技术的应用,我们接受到的信息,对世界的体 验逐渐变为多模态的,我们看见物品的同时便会想到物品的名字,视觉信息和文 字信息同时地被我们经历。而多模式机器学习旨在建立能够处理和关联来自多种 模式的信息的模型。这是一个日益重要且具有潜力的充满活力的领域。在该领域 中生成符合给定文本描述的真实图像(text-to-image)是多模态任务之一,该 任务有很好的应用前景,在图像编辑,视频编辑,用户个性化生成,个性化推荐 等领域有很好的发展潜力。由于生成对抗网络(GANs)在生成真实感图像方面的成 功,文本到图像的生成取得了显著进展。文本到图像的生成创作需要对被创造的 事物有深刻的理解,无论是单一种类的物件或者是包含各种人物的事件,要求计 算机能够理解文本与图片不同模态下的语义信息,并保证生成的图片能与对应的 文本有较好的一致性。自动图像生成可以帮助设计类的工作。未来定制图像和视 频的算法可能会取代图像和视频搜索引擎或简单的图片设计修改软件,以响应每 个用户的个人喜好。文本生成图像的相关工作相较于图像描述,图像所包含的信 息更为复杂,因此生成图像任务的提出晚于图像描述,但目前也取得了较为显著 的进步。
在本发明中,训练集和测试集来自于MSCOCO2014数据集以及CUB2011鸟类 数据集,每张MSCOCO图片对应5条描述,每张CUB图片对应10条描述。目前对 文本到图像生成的研究,使用了对称式的再生成网络来保证再生成文本与原始图 片保留语义上的一致性,而这种方法在优化生成有缺陷的图片时,可能会导致优 化距离的不准确,从而误导生成器生成了语义含义与原始文本不一致的图片,且 常规的判别器结构往往是以拟合图像分布为目的,忽略了图片对之间语义的一致 性。
本发明需要解决的技术问题主要为:如何利用对抗学习与语义距离度量在文 本生成图像任务上保证更好的语义一致性,即能够在生成图片与对应描述文本间 找到良好的语义关联。
发明内容
为了克服上述现有技术的不足,本发明提供了一种该通过在再生成模块引入 对抗学习,提高了优化缺陷图片的效果;另外使用语义距离度量优化来保证图片 对之间语义的一致性,所生成的图片有更好的语义一致性表现的基于对抗生成网 络的跨模态文本到图像生成方法。
本发明所采用的技术方案是:
基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:包括如下步 骤:
S100.提取文本的句向量:
将文本分别输入至协同注意力编码器和BERT预训练编码器进行句子级特征 提取,分别获得协同注意力句子级特征向量S1,以及预训练BERT句子级特征向量 S2
S200.线性优化协同注意力句子级特征向量S1和预训练BERT句子级特征向量 S2,并且将S100步骤获得的句子级特征向量S1和句子级特征向量S2优化为优 化文本句子向量St,假定与协同注意力句子级特征向量S1相关的线性系数λ1, 预训练BERT句子级特征向量S2的线性系数为λ2,进行线性优化得到优化的优
化文本句子向量St
S1=TextEncoder(X)
S2=Bert(T)
St=λ1*S12*S2
S300.将步骤S200的线性文字句子向量St与随机噪声Z一起输入至深度语 义融合生成器生成图片,并且将生成的图片通过Top-Down反向生成模型负
样本句子级特征向量Sn
S400.将真实图片通过Top-Down反向生成模型生成正样本句子特征向量Sp
S500.将步骤S300生成的负样本句子级特征向量Sn和步骤S400生成的正样 本句子特征向量Sp、步骤S200形成的优化文本句子向量St形成对抗网络, 并且进行对抗训练,具体训练步骤如下:
S501.定义负样本句子级特征向量Sn和优化文本句子向量St之间的语义距离 的得分函数为L(Sn,St)=L1,正样本句子特征向量Sp和优化文本句子向量 St之间的语义距离的得分函数L(Sp,St)=L2,则:
Figure BDA0003328118340000031
Figure BDA0003328118340000032
其中:Csent为提取全局句子特征向量的句子编码器,在此处分别为正样本句 子特征向量Sp和负样本句子级特征向量Sn,τ为超参数;
S502.使用步骤S501的得分函数分别训练负样本句子级特征向量Sn和正样 本句子特征向量Sp
当L1的数值趋近于1并且得分值不再上升,L2的数值趋近于0并且得分值不 再下降时,则生成符合文本描述的优化图片。
优选地,步骤S502在训练负样本句子级特征向量Sn时,如果L1的数值未达 到预定目标,则将负样本句子级特征向量Sn通过计算损失函数LD再次生成图 像,生成的图像再次通过Top-Down反向生成模型与负样本句子级特征向量 Sn’反复训练,如此往复循环,直至符合图像生成满足步骤S502的图像生成 条件。
优选地,在步骤S502中生成优化图片时,使用Faster-RCNN和预先训练好 的VGG-16网络分别从深度语义融合器生成的生成图像和真实图像中提取图 像特征,并且进行图像描述之间的匹配分数L3
Figure BDA0003328118340000033
Limg=|f(G(zf,si))-f(xi)|L2
其中xi为来自数据集的真实图像,G(zi.si)为生成图像,图像间距离采用欧式 距离Limg来衡量;
当L3的数值趋近于0并且得分值不再下降时,生成符合文本描述的图片,否 则将获取的图像特征使用损失函数计算之后,输入深度语义融合生成器再次生成 图片,然后反复循环进行图像特征匹配。
优选地,针对真实图片xi和生成图片G(zi,si))以及真实文本St、正样本句子特 征向量Sp和优化文本句子向量St之间的还可利用以下目标优化函数V(φ,θ)进 行优化:
Figure BDA0003328118340000041
其中:xi为来自数据集的真实图像,G(zi,si)为生成图像。
优选地,为了更好地计算文本特征之间的差距,为了让正样本文本特征和St更接近负样本句子级特征向量Sn和更远离正样本句子特征向量Sp,使用以下
欧氏距离Lθ、Lφ来确定:
Lθ=|f(G(zi,si))-f(xi)|2
Figure BDA0003328118340000042
Lθ、Lφ分别生成图像G(zi,si)、真实图像xi数据集的文本向量之间的欧式距离以及图像特征向量之间的欧氏距离。
优选地,所述损失函数LD的计算公式为:
Figure BDA0003328118340000043
Figure BDA0003328118340000044
其中
Figure BDA0003328118340000045
为优化文本句子向量St与正样本句子特征向量Sp的数据对;
Es~C(G(z))为优化文本句子向量St与负样本句子级特征向量Sn的数据对;
Figure BDA0003328118340000051
为生成图像的图像特征与真实图像的图像特征数据对;
L(Sp,St)为优化文本句子向量St与反向生成的正样本句子特征向量Sp的距 离度量;
L(Sn,St)为中优化文本句子向量St与反向生成的负样本句子级特征向量Sn
的距离度量;
Limg(X,Xreal)为生成图片与真实图片的语义距离,其中X为生成的真实图片, Xreal为数据集中真实的图片;λ1,、λ2,、λ3均为超参数。
优选地,步骤S100中将文本转换为句子级特征的协同注意力编码器为
AttnGAN的预训练文本编码器。
优选地,步骤S502在进行语义判别时,判断生成图像文本和原生图像反向
后的文本与文本之间的距离Ly的是否趋近于0:
Ly=minθ Lθ=|f(G(zi,si))-f(xi)|2
其中:θ是为了区分图片间的距离和文本间距离的差别,这里指的是图片间 的语义距离,xi是真实图片,G(zi,si)是深度语义融合器融合生成的图片,Lθ为 欧式距离。
优选地,步骤S400获得真实图片来自于MSCOCO2014数据集以及CUB2011鸟 类数据集,每张COCO图片对应5条描述,每张CUB图片对应10条描述。
与现有技术相比,本发明的有益效果是:
本发明基于对抗生成网络的跨模态文本到图像生成方法,在GAN网络的再生 成模块中引入对抗学习,提出了基于对抗网络再生成模块的语义距离度量学习, 并最终有效提高了文本生成图像任务中原始文本与生成图像之间的语义一致性。 通过计算并优化不同文本对,图片对之间的语义距离并分别优化,有效地提高了 图片生成的质量与多样性。
该发明的生成方法,通过在再生成模块引入对抗学习,提高了优化缺陷图片 的效果;另外使用语义距离度量优化来保证图片对之间语义的一致性,所生成的 图片有更好的语义一致性表现。
附图说明
图1为基于对抗生成网络的跨模态文本到图像生成方法的一个实施例的流 程图;
图2为基于对抗生成网络的跨模态文本到图像生成方法的另一个实施例的 流程图;
图3为图像生成模块以及重描述模块的结构图;
图4为使用本发明的跨模态文本到图像生成方法从一组CUB数据集生成的样 本图片实施例;
图5为使用本发明的跨模态文本到图像生成方法从一组MSCOCO数据集生成 的样本图片;
图6现有方法与本发明生成图片之间的对比图;
图7为用本发明的跨模态文本到图像生成方法从一组MSCOCO数据集生成的 另一组样本图片;
图8为基于对抗生成网络的跨模态文本到图像生成方法的流程;
图9为基于对抗生成网络的跨模态文本到图像生成方法的S500的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始 至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下 面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对 本发明的限制。
如图1和图8所示,基于对抗生成网络的跨模态文本到图像生成方法,其 特征在于:包括如下步骤:
S100.提取文本的句向量:文本到图像生成任务中,模型需要做的第一步往 往是理解文本内容,在对抗生成网络中,已有工作是通过提取文本的句向量与词 向量来对文本进行表述,因为句向量相比于句子本身有更好的特征表示,在训练 中更能找到文本与图片间的跨模态关系。本发明采用预训练的基于协同注意力的 文本编码器以及大规模预训练模型对文本进行句向量的提取,前者为了能提取与 MSCOCO数据集更相关的语义信息,后者则在这一基础上丰富了细节。在该模块 中,本发明中图片生成模块输入为随机的高斯分布与如下公式计算的文本句向量: 将文本分别输入至协同注意力编码器和BERT预训练编码器进行句子级特征 提取,分别获得协同注意力句子级特征向量S1,以及预训练BERT句子级特征 向量S2;利用协同注意力的文本编码器和预训练的BERT模型提取文本的句 向量;
S200.线性优化协同注意力句子级特征向量S1和预训练BERT句子级特征向量 S2,并且将S100步骤获得的句子级特征向量S1和句子级特征向量S2优化为优 化文本句子向量St,假定与协同注意力句子级特征向量S1相关的线性系数λ1, 预训练BERT句子级特征向量S2的线性系数为λ2,进行线性优化得到优化的优 化文本句子向量St
S1=TextEncoder(X)
S2=Bert(T)
St=λ1*S12*S2
对两部分的句向量进行线性相加,参数λ1,λ2在该实施中设置可设置为 0.5,0.5。此外本发明采用了One-Stage的生成-优化结构,相比于常见的多 层生成模型,该发明更加轻量级,但也能生成高质量与多样性的图片。 S300.将步骤S200的线性文字句子向量St与随机噪声Z一起输入至深度语 义融合生成器生成图片,并且将生成的图片通过Top-Down反向生成模型负 样本句子级特征向量Sn;相比于以往工作的再生成模块,此发明使用了预训练的Top-Down attentional LSTM来替代之前的再生成网络。在这个描述模 型中,LSTM每个时间步的输入包含了上一个时间步的LSTM输出,平均池化 的图像特征以及一个之前生成单词对应的编码。
S400.将真实图片通过Top-Down反向生成模型生成正样本句子特征向量Sp
S500.将步骤S300生成的负样本句子级特征向量Sn和步骤S400生成的正样 本句子特征向量Sp、步骤S200形成的优化文本句子向量St形成对抗网络, 并且进行对抗训练,结合图1、图8和图9所示,具体训练步骤如下:
S501.定义负样本句子级特征向量Sn和优化文本句子向量St之间的语义距离 的得分函数为L(Sn,St)=L1,正样本句子特征向量Sp和优化文本句子向量 St之间的语义距离的得分函数L(Sp,St)=L2,则:
Figure BDA0003328118340000081
Figure BDA0003328118340000082
其中:Csent为提取全局句子特征向量的句子编码器,在此处分别 为正样本句子特征向量Sp和负样本句子级特征向量Sn,r为超参数;
S502.使用步骤S501的得分函数分别训练负样本句子级特征向量Sn和正样 本句子特征向量Sp
当L1的数值趋近于1并且得分值不再上升,L2的数值趋近于0并且得分值不 再下降时,则生成符合文本描述的优化图片。
基于对抗生成网络的跨模态文本到图像生成方法,步骤S502在训练负 样本句子级特征向量Sn时,如果L1的数值未达到预定目标,则将负样本句子 级特征向量Sn通过计算损失函数LD再次生成图像,生成的图像再次通过 Top-Down反向生成模型与负样本句子级特征向量Sn’反复训练,如此往复循 环,直至符合图像生成满足步骤S502的图像生成条件。
从图2的实施例中能够看出来,基于对抗生成网络的跨模态文本到图像 生成方法,在步骤S502中生成优化图片时,需要同时考虑生成图像和真实 图像之间的关系,使用Faster-RCNN和预先训练好的VGG-16网络分别从深 度语义融合器生成的生成图像和真实图像中提取图像特征,并且进行图像描 述之间的匹配分数L3
Figure BDA0003328118340000083
Limg=|f(G(zi,si))-f(xi)|2
其中xi为来自数据集的真实图像,G(zi.si)为生成图像,图像间距离采用欧式 距离Limg来衡量,使用该距离来最小化生成图片与真实图片对之间的距离,在全 局上监督图片的生成;
当L3的数值趋近于0并且得分值不再下降时,生成符合文本描述的图片,否 则将获取的图像特征使用损失函数计算之后,输入深度语义融合生成器再次生成 图片,然后反复循环进行图像特征匹配,使用该方法生成的图像能够同时兼顾图 像特征和文本特征,可以更好的表达输入文本语义的一致性。
从图1和图2的流程图中还能看出来,在句向量经过图像生成模型后,我们 将得到真实图像和由生成器生成的生成图像;在考虑了原始的文本描述、生成图 像合成文本、真实图像合成文本三者之间的关系。我们提出了一个基于两种图片 与三种文本之间关系的优化方式:基于对抗生成网络的跨模态文本到图像生成 方法,针对真实图片xi和生成图片G(zi,si))以及真实文本St、正样本句子特征向 量Sp和优化文本句子向量St之间的还可利用以下目标优化函数V(φ,θ)进行优化, 计算真实图片特征和生成图片特征的差距,以确保最终生成的图片更贴合输入文 本的文字描述以及真实图片:
Figure BDA0003328118340000091
其中:xi为来自数据集的真实图像,G(zi,si)为生成图像。
基于对抗生成网络的跨模态文本到图像生成方法,为了更好地计算文本特征 之间的差距,为了让正样本文本特征和St更接近负样本句子级特征向量Sn和更远离正样本句子特征向量Sp,使用以下欧氏距离Lθ、Lφ来确定:
Lθ=|f(G(zi,si))-f(xi)|2
Figure BDA0003328118340000092
Lθ、Lφ分别生成图像G(zi,si)、真实图像xi数据集的文本向量之间的欧式距离以及图像特征向量之间的欧氏距离,Lθ、Lφ生成图片能与真实图片的距离更短, 从生成图像反向生成的文本要和原始文本距离更远,从真实图片反向生成的文本 要和原始文本距离更远,即使生成器生成了一张有缺陷的图片反向生成了良好的 文本描述,我们也将其视作负样本,而真实图片生成的文本我们将其试做正样本, 我们可以以此来保证不同的图片通过相同的后向网络产生区分性,这样回传给生 成器的参数就能一直让图片趋于真实的图片,训练将会更有效。
基于对抗生成网络的跨模态文本到图像生成方法,所述损失函数LD的计算 公式为:应用几个UPblock对图像特征进行上采样。UPBlock由上采样层、残差 块和DFBlocks组成,用于融合文本和图像特征。最后利用卷积层将图像特征转 换为图像。在如图3所示的重描述模块中,我们应用了一个文本到图像的损失函 数,这是受到最近为非监督图像生成和对比损失提出的模型的启发,以确保生成 的图像能在语义上反映原始描述文本。
Figure BDA0003328118340000101
Figure BDA0003328118340000102
其中
Figure BDA0003328118340000103
为优化文本句子向量St与正样本句子特征向量Sp的数据对;
Es~C(G(z))为优化文本句子向量St与负样本句子级特征向量Sn的数据对;
Figure BDA0003328118340000104
为生成图像的图像特征与真实图像的图像特征数据对;
L(Sp,St)为优化文本句子向量St与反向生成的正样本句子特征向量Sp的距 离度量;
L(Sn,St)为中优化文本句子向量St与反向生成的负样本句子级特征向量Sn的距离度量;
Limg(X,Xreal)为生成图片与真实图片的语义距离,其中X为生成的真实图片, Xreal为数据集中真实的图片;λ1,、λ2,、λ3均为超参数。
基于对抗生成网络的跨模态文本到图像生成方法,步骤S100中将文本转换 为句子级特征的协同注意力编码器为AttnGAN的预训练文本编码器,可以很好地 实现多阶段多模态的图像细化,为后面进行对抗式网络提供较好的句子级特征向 量协同注意力句子级特征向量S1打下良好的数据基础。
基于对抗生成网络的跨模态文本到图像生成方法,步骤S502在进行语义判 别时,判断生成图像文本和原生图像反向后的文本与文本之间的距离Ly的是否 趋近于0,从而在重描述模块通过输入图像反向生成文本,并对比地最大化/最 小化这些正样本/负样本文本与真实文本之间的距离,语义距离优化更侧重于生 成语义内容一致性的图像,而不是仅仅判断生成图像分布是否接近真实图像,这 种方法可以在图片内容上做到更好的优化:
minθ Lθ=|f(G(zi,si))-f(xi)|2
其中:θ是为了区分图片间的距离和文本间距离的差别,这里指的是图片间 的语义距离,xi是真实图片,G(zi,si)是深度语义融合器融合生成的图片,Lθ为 欧式距离。
基于对抗生成网络的跨模态文本到图像生成方法,步骤S400获得真实图片 来自于MSCOC02014数据集以及CUB2011鸟类数据集,每张COCO图片对应5 条描述,每张CUB图片对应10条描述,均可以获得较好的训练效果,生成 较为一致的图像。具体的实施例,可以参见图4、图5和图7的各个实施例 中,均能看到对应的实施效果。
本发明适用于CUB与MSCOCO2014数据集中的数据源。为了评估本发明,本 发明参照T2I的常见做法,选择Inception Score(IS)引用和Frechet Inception Distance(FID)来评估我们模型的性能。具体来说,Inception Score是基于谷 歌训练的Inception Net-V3网络。通过计算KL散度来确定生成图像的质量和多 样性。较高的IS意味着较高的合成图像的质量,每一幅图像明确属于特定的类 别。
FID计算真实图像分布和合成图像分布之间的差值,它计算合成图像和真实 图像分布在预先训练的Inception v3网络的特征空间中的Frechet距离。较低 的FID意味着更真实的合成图像。为了计算IS和FID,每个模型从测试数据集 中随机选择的文本描述生成40000张图像。
图5显示了该发明在两个数据集上IS和FID指标与现有模型的对比,可以 看到FID和IS均有较为显著的提升。在图片的生成效果上也明显与给出文本有 更高的语义相关性,例如第一列中我们模型的生成更好地关注了雪地和天空的差 异。第二列中我们的生成更关注了“pizza on the plate”这一语义信息,最后 一列中对“horses”这一语义的生成与其原本语义更一致。图6的对比表中显 示,衡量图片质量和多样性的两个指标,IS指标是越大越好,FID指标是越小越 好,可以看出本发明的总体指标均不错。
本发明的实施例公布的是较佳的实施例,但并不局限于此,本领域的普通技 术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化, 但只要不脱离本发明的精神,都在本发明的保护范围内。

Claims (9)

1.基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:包括如下步骤:
S100.提取文本的句向量:
将文本分别输入至协同注意力编码器和BERT预训练编码器进行句子级特征提取,分别获得协同注意力句子级特征向量S1,以及预训练BERT句子级特征向量S2
S200.线性优化协同注意力句子级特征向量S1和预训练BERT句子级特征向量S2,并且将S100步骤获得的句子级特征向量S1和句子级特征向量S2优化为优化文本句子向量St,假定与协同注意力句子级特征向量s1相关的线性系数λ1,预训练BERT句子级特征向量S2的线性系数为λ2,进行线性优化得到优化的优化文本句子向量St
S1=TextEncoder(X)
S2=Bert(T)
St=λ1*S12*S2
S300.将步骤S200的线性文字句子向量St与随机噪声Z一起输入至深度语义融合生成器生成图片,并且将生成的图片通过Top-Down反向生成模型负样本句子级特征向量Sn
S400.将真实图片通过Top-Down反向生成模型生成正样本句子特征向量Sp
S500.将步骤S300生成的负样本句子级特征向量Sn和步骤S400生成的正样本句子特征向量Sp、步骤S200形成的优化文本句子向量St形成对抗网络,并且进行对抗训练,具体训练步骤如下:
S501.定义负样本句子级特征向量Sn和优化文本句子向量St之间的语义距离的得分函数为L(Sn,St)=L1,正样本句子特征向量Sp和优化文本句子向量
St之间的语义距离的得分函数L(Sp,St)=L2,则:
Figure FDA0003328118330000011
Figure FDA0003328118330000012
其中:Csent为提取全局句子特征向量的句子编码器,在此处分别为正样本句子特征向量Sp和负样本句子级特征向量Sn,τ为超参数;
S502.使用步骤S501的得分函数分别训练负样本句子级特征向量Sn和正样本句子特征向量Sp
当l1的数值趋近于1并且得分值不再上升,l2的数值趋近于0并且得分值不再下降时,则生成符合文本描述的优化图片。
2.根据权利要求1所述的基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:
步骤S502在训练负样本句子级特征向量Sn时,如果L1的数值未达到预定目标,则将负样本句子级特征向量Sn通过计算损失函数LD再次生成图像,生成的图像再次通过Top-Down反向生成模型与负样本句子级特征向量Sn’反复训练,如此往复循环,直至符合图像生成满足步骤S502的图像生成条件。
3.根据权利要求2所述的基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:
在步骤S502中生成优化图片时,使用Faster-RCNN和预先训练好的VGG-16网络分别从深度语义融合器生成的生成图像和真实图像中提取图像特征,并且进行图像描述之间的匹配分数L3
Figure FDA0003328118330000021
Limg=|f(G(zi,si))-f(xi)|L2
其中xi为来自数据集的真实图像,G(zi.si)为生成图像,图像间距离采用欧式距离Limg来衡量;
当L3的数值趋近于0并且得分值不再下降时,生成符合文本描述的图片,否则将获取的图像特征使用损失函数计算之后,输入深度语义融合生成器再次生成图片,然后反复循环进行图像特征匹配。
4.根据权利要求3所述的基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:
针对真实图片xi和生成图片G(zi,si))以及真实文本St、正样本句子特征向量Sp和优化文本句子向量St之间的还可利用以下目标优化函数V(φ,θ)进行优化:
Figure FDA0003328118330000031
其中:xi为来自数据集的真实图像,G(zi,si)为生成图像。
5.根据权利要求4所述的基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:
为了更好地计算文本特征之间的差距,为了让正样本文本特征和St更接近负样本句子级特征向量Sn和更远离正样本句子特征向量Sp,使用以下
欧氏距离Lθ、Lφ来确定:
Lθ=|f(G(zi,si))-f(xi)|2
Figure FDA0003328118330000032
Lθ、Lφ分别生成图像G(zi,si)、真实图像xi数据集的文本向量之间的欧式距离以及图像特征向量之间的欧氏距离。
6.根据权利要求2-5任意一项所述的基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:
所述损失函数LD的计算公式为:
Figure FDA0003328118330000033
LG=-EG(z)~s[G(z),St)]
其中
Figure FDA0003328118330000034
为优化文本句子向量St与正样本句子特征向量Sp的数据对;
Es~C(G(z))为优化文本句子向量St与负样本句子级特征向量Sn的数据对;
Figure FDA0003328118330000035
为生成图像的图像特征与真实图像的图像特征数据对;
L(Sp,St)为优化文本句子向量St与反向生成的正样本句子特征向量Sp的距离度量;
L(Sn,St)为中优化文本句子向量St与反向生成的负样本句子级特征向量Sn的距离度量;
Limg(X,Xreal)为生成图片与真实图片的语义距离,其中X为生成的真实图片,Xreal为数据集中真实的图片;λ1,、λ2,、λ3均为超参数。
7.根据权利要求6所述的基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:
步骤S100中将文本转换为句子级特征的协同注意力编码器为AttnGAN的预训练文本编码器。
8.根据权利要求7所述的基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:
步骤S502在进行语义判别时,判断生成图像文本和原生图像反向后的文本与文本之间的距离Ly的是否趋近于0:
Ly=minθLθ=|f(G(zi,si))-f(xi)|2
其中:θ是图片间的语义距离,xi是真实图片,G(zi,si)是深度语义融合器融合生成的图片,Lθ为欧式距离。
9.根据权利要求8所述的基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:
步骤S400获得真实图片来自于MSCOCO2014数据集以及CUB2011鸟类数据集,每张COCO图片对应5条描述,每张CUB图片对应10条描述。
CN202111271415.9A 2021-10-29 2021-10-29 基于对抗生成网络的跨模态文本到图像生成方法 Active CN114329025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111271415.9A CN114329025B (zh) 2021-10-29 2021-10-29 基于对抗生成网络的跨模态文本到图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111271415.9A CN114329025B (zh) 2021-10-29 2021-10-29 基于对抗生成网络的跨模态文本到图像生成方法

Publications (2)

Publication Number Publication Date
CN114329025A true CN114329025A (zh) 2022-04-12
CN114329025B CN114329025B (zh) 2024-10-18

Family

ID=81044483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111271415.9A Active CN114329025B (zh) 2021-10-29 2021-10-29 基于对抗生成网络的跨模态文本到图像生成方法

Country Status (1)

Country Link
CN (1) CN114329025B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117635275A (zh) * 2023-12-19 2024-03-01 浙江博观瑞思科技有限公司 基于大数据的智能电商运营商品管理平台及方法
CN117726908A (zh) * 2024-02-07 2024-03-19 青岛海尔科技有限公司 图片生成模型的训练方法及装置、存储介质、电子装置
CN117853859A (zh) * 2022-09-30 2024-04-09 北京瑞莱智慧科技有限公司 图像处理方法、相关装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN110502743A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN110868598A (zh) * 2019-10-17 2020-03-06 上海交通大学 基于对抗生成网络的视频内容替换方法及系统
CN111402365A (zh) * 2020-03-17 2020-07-10 湖南大学 一种基于双向架构对抗生成网络的由文字生成图片的方法
US20200356810A1 (en) * 2019-05-06 2020-11-12 Agora Lab, Inc. Effective Structure Keeping for Generative Adversarial Networks for Single Image Super Resolution
CN113361250A (zh) * 2021-05-12 2021-09-07 山东师范大学 一种基于语义一致性的双向文本生成图像方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
US20200356810A1 (en) * 2019-05-06 2020-11-12 Agora Lab, Inc. Effective Structure Keeping for Generative Adversarial Networks for Single Image Super Resolution
CN110502743A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN110868598A (zh) * 2019-10-17 2020-03-06 上海交通大学 基于对抗生成网络的视频内容替换方法及系统
CN111402365A (zh) * 2020-03-17 2020-07-10 湖南大学 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN113361250A (zh) * 2021-05-12 2021-09-07 山东师范大学 一种基于语义一致性的双向文本生成图像方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853859A (zh) * 2022-09-30 2024-04-09 北京瑞莱智慧科技有限公司 图像处理方法、相关装置及存储介质
CN117635275A (zh) * 2023-12-19 2024-03-01 浙江博观瑞思科技有限公司 基于大数据的智能电商运营商品管理平台及方法
CN117635275B (zh) * 2023-12-19 2024-05-24 浙江博观瑞思科技有限公司 基于大数据的智能电商运营商品管理平台及方法
CN117726908A (zh) * 2024-02-07 2024-03-19 青岛海尔科技有限公司 图片生成模型的训练方法及装置、存储介质、电子装置
CN117726908B (zh) * 2024-02-07 2024-05-24 青岛海尔科技有限公司 图片生成模型的训练方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN114329025B (zh) 2024-10-18

Similar Documents

Publication Publication Date Title
CN108959396B (zh) 机器阅读模型训练方法及装置、问答方法及装置
CN111897933B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN109783657A (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN107832432A (zh) 一种搜索结果排序方法、装置、服务器和存储介质
WO2019056628A1 (zh) 关注点文案的生成
CN114419387A (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN114329025A (zh) 基于对抗生成网络的跨模态文本到图像生成方法
CN115186110B (zh) 基于关系增强负采样的多模态知识图谱补全方法与系统
CN112400186A (zh) 图像生成
CN115601772B (zh) 一种基于多模态学习的美学质量评价模型和方法
CN113343705A (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN114595306B (zh) 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN110263218A (zh) 视频描述文本生成方法、装置、设备和介质
CN114912020A (zh) 一种基于用户偏好图的多子目标对话推荐方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统
CN112801217B (zh) 文本相似度判断方法、装置、电子设备以及可读存储介质
CN117151052A (zh) 一种基于大语言模型和图算法的专利查询报告生成方法
CN114579606B (zh) 预训练模型数据处理方法、电子设备及计算机存储介质
CN112598662A (zh) 一种基于隐藏信息学习的图像美学描述生成方法
CN117807995B (zh) 一种情绪引导的摘要生成方法、系统、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant