CN113837229A - 一种知识驱动型的文本到图像生成方法 - Google Patents

一种知识驱动型的文本到图像生成方法 Download PDF

Info

Publication number
CN113837229A
CN113837229A CN202111005846.0A CN202111005846A CN113837229A CN 113837229 A CN113837229 A CN 113837229A CN 202111005846 A CN202111005846 A CN 202111005846A CN 113837229 A CN113837229 A CN 113837229A
Authority
CN
China
Prior art keywords
features
image
knowledge
text
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111005846.0A
Other languages
English (en)
Other versions
CN113837229B (zh
Inventor
纪荣嵘
周奕毅
彭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111005846.0A priority Critical patent/CN113837229B/zh
Publication of CN113837229A publication Critical patent/CN113837229A/zh
Application granted granted Critical
Publication of CN113837229B publication Critical patent/CN113837229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

一种知识驱动型的文本到图像生成方法,属于图像生成技术领域。在基于特定自然语言描述生成图像的过程中引入视觉知识库,提供视觉先验知识,指导生成与自然语言描述相符的图像。图像生成模型将以Query‑Key‑Value的形式从视觉知识库中查询与描述文本相关的视觉特征,作为图像生成的先验知识。为充分利用先验知识,提供两种新的相关知识读取方式:弱读取和强读取。设计一种新的语义一致性度量标准“伪图灵测试”。不同多媒体任务的“专家”直接或间接地评估合成图像与给定的自然语言描述之间的语义一致性程度。提高生成的图像质量、生成图像和输入文本之间的语义一致性,避免生成图像中出现一些违背自然规律或者常识的现象。

Description

一种知识驱动型的文本到图像生成方法
技术领域
本发明属于图像生成技术领域,尤其是涉及以先验知识作为驱动的多阶段逐步优化的一种知识驱动型的文本到图像生成方法。
背景技术
文本生成图像(Text-to-Image Generation,T2I)是涉及语言和图像的多模态任务。给出一段描述,文本生成图像技术将生成这段描述相对应的图像,即“依文绘图”,它是“看图说话”的逆过程。近些年来,随着生成对抗网络的日渐发展,文本到图像的生成技术也得以迅猛进步。
目前,大多数现有的T2I模型通常使用编码器-解码器架构将文本描述转换为合成的图像。文本生成图像的主要挑战是如何有效、准确地将文本信息映射到一个有效的视觉空间中,在此基础上合成具有照片真实感和语义一致性的图像。为此,早期的方法使用对抗生成网络的编码器-解码器结构,在该结构中,使用鉴别器来判断生成的图像是否真实,至此为单阶段文本生成图像的方式。在最近的一些方法中,单阶段的生成方式扩展为多阶段逐步优化的方式,这种多阶段方式直观地模仿人的绘画,即先画草图,然后不断地修改优化。
尽管文本生成图像技术已经取得很大的进步,但是其性能仍然不能令人满意,特别是与无条件的图像生成和图像到图像的生成任务相比,这主要归因于如下三方面:第一,根据文本信息生成图像会引入很多随机性,未被提及的图像属性将有更多样化的表示,这就导致合成图像与真实图像之间往往会存在巨大的差距;第二,大多数现有的文本生成图像技术仅以给定文本为条件生成图像,并未考虑到先验图像分布和已知的视觉环境来进行更加合理的图像生成;第三,文本生成图像技术的现有评估指标(如IS和FID)基本上是为视觉质量评估而设计的,而合成图像和描述之间的语义一致性被忽略从而导致无法评估;因此引入图像先验知识对于生成更加符合常识的图像十分重要,同时引入新的语义一致性评价标准对于文本生成图像领域来说十分必要。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提供以先验知识作为驱动的多阶段逐步优化的一种基于图像先验知识的文本生成图像方法,该方法以对抗生成网络为基础,可以有效提升生成图像的合理性;同时引入一种“伪图灵测试”的语义一致性度量标准,更加准确地度量根据文本生成的图像的质量。
本发明包括以下步骤:
1)输入一段语言描述和一个随机噪声;
2)提取语言的全局特征和单词特征;
3)对于全局语言特征进行重采样得到新的全局语言特征;
4)拼接全局语言特征与随机噪声,得到初始图像特征;
5)从视觉知识库中获得先验知识并进行整合,得到视觉特征;
6)将初始图像特征与视觉先验特征进行融合,通过卷积模块得到第一阶段的图像;
7)将上一阶段的图像特征与视觉先验特征融合后,与单词特征进行多模态融合得到当前阶段的图像特征,并通过卷积模块得到当前阶段的图像;
8)进行生成图像与输入文本之间语义一致性的评价。
在步骤1)中,所述语言描述最大长度可设为40,噪声维度可设为256;
在步骤2)中,所述提取语言的全局特征和单词特征,可利用在CUB或者COCO数据集上训练好的双向LSTM提取文本的全局特征和单词特征,首先通过双向LSTM提取语言的全局特征
Figure BDA0003237192470000021
和局部单词特征
Figure BDA0003237192470000022
其中,NT为语言描述的长度,全局特征和单词特征的维度dt=300。
在步骤3)中,所述重采样具体过程如下:
步骤3-1,基于全局语言特征fs预测均值μ(fs)和协方差矩阵∑(fs);
步骤3-2,从高斯分布
Figure BDA0003237192470000023
中随机采样得到全局语言特征
Figure BDA0003237192470000024
在步骤4)中,所述得到初始图像特征的具体步骤为:拼接语言特征
Figure BDA0003237192470000025
与随机噪声z,经过下列算式得到初始图像特征
Figure BDA0003237192470000026
Figure BDA0003237192470000027
其中,
Figure BDA0003237192470000028
是可训练的映射权重,σ为GLU激活函数;
在步骤5),所述视觉知识库由训练集中与文本描述最相近的M张图像构成,并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue;其中,将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取(Soft-Reading)和强读取(Hard-Reading);
所述从视觉知识库中获得先验知识并进行整合,得到视觉特征的具体方法可为:
用语言特征fs,根据下列算式从视觉知识库中弱读取(Soft-Reading)得到视觉特征
Figure BDA0003237192470000031
α=Softmax(Wsfs,(WkeyFkey)T)
Figure BDA0003237192470000032
其中,Ws、Wkey是两个可训练的映射权重,Fkey、Fvalue是知识库中的索引关键特征与视觉知识特征,M是知识库大小,即视觉知识特征的数量;或
根据下列算式通过强读取(Hard-Reading)得到视觉特征
Figure BDA0003237192470000033
Figure BDA0003237192470000034
βi=1if i=argmax(α)else 0。
在步骤7)中,所述融合可利用Dynamic Memory方式对多模态特征进行融合;所述卷积模块的训练过程中可采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
在步骤8)中,所述评价的指标包括IS(Inception Score)、FID(FréchetInception Distance)、PTT(Pseudo Turing Test);
使用PTT进行语义一致性的评价,具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell(XuK,et al.Show,attend and tell:Neural image caption generation with visualattention,2015)与BUTD(Anderson P,et al.Bottom-up and top-down attention forimage captioning and visual question answering,2018)作为“专家”来描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度。
本发明通过引入视觉知识库(VKB)为图像生成提供额外的先验知识,视觉知识库将以key-value的形式被存储以便于知识读取操作。为更好地利用先验知识,提供两种新的相关知识读取方式:弱读取(Soft-Reading)和强读取(Hard-Reading)。最后,设计一种“伪图灵测试”(Pseudo Turing Test,PTT)的语义一致性度量标准,在不同多媒体任务(例如图像字幕生成、文本匹配等)的“专家”的帮助下,直接或间接地评估合成图像与给定文本的语义一致性。
采用上述方案后,本发明的有益效果是:
(1)本发明提供一种用于文本生成图像的知识驱动型对抗生成网络,该网络旨在利用图像先验知识逐步优化图像生成质量,通过弱读取或强读取的先验知识整合方式,使得生成的图像逼真且合理。
(2)本发明提供一种“伪图灵测试”的度量标准,可以更加方便、有效地评价给定描述与生成图像的语义一致性,一定程度上解决先前使用纯视觉质量评估的窘境。
附图说明
图1是本发明的基本流程图;左图为传统文本生成图像流程,右图为知识驱动型的文本生成图像流程;
图2是视觉知识库构建示意图;
图3是知识驱动型文本生成图像的网络架构图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
步骤1,设置输入大的语言描述最大长度为40,噪声维度为256;
步骤2,提取语言的全局特征
Figure BDA0003237192470000041
和单词特征
Figure BDA0003237192470000042
步骤3,对于全局语言特征fs进行重采样得到新的全局语言特征
Figure BDA0003237192470000043
步骤4,拼接语言特征
Figure BDA0003237192470000044
与随机噪声z,经过下列算式得到初始图像特征
Figure BDA0003237192470000045
Figure BDA0003237192470000046
其中,
Figure BDA0003237192470000047
是可训练的映射权重,σ为GLU激活函数;
步骤5,用语言特征fs,根据下列算式从视觉知识库中弱读取(Soft-Reading)得到视觉特征
Figure BDA0003237192470000048
α=Softmax(Wsfs,(WkeyFkey)T)
Figure BDA0003237192470000049
其中,Ws、Wkey是两个可训练的映射权重,Fkey、Fvalue是知识库中的索引关键特征与视觉知识特征,M是知识库大小,即视觉知识特征的数量。也可以根据下列算式通过强读取(Hard-Reading)得到视觉特征
Figure BDA0003237192470000051
Figure BDA0003237192470000052
βi=1if i=argmax(α)else 0
步骤6,将初始图像特征
Figure BDA0003237192470000053
与视觉先验特征
Figure BDA0003237192470000054
进行融合,通过卷积模块得到第一阶段的图像
Figure BDA0003237192470000055
步骤7,上一阶段的图像特征
Figure BDA0003237192470000056
与视觉先验特征
Figure BDA0003237192470000057
融合后,与单词特征Fw进行多模态融合得到当前阶段的图像特征
Figure BDA0003237192470000058
并通过卷积模块得到当前阶段的图像
Figure BDA0003237192470000059
步骤8,出常见的IS、FID评价指标外,使用提出的PTT进行生成图像与输入文本之间语义一致性的评估。
步骤2中利用在CUB或者COCO数据集上上训练好的双向LSTM提取文本的全局特征和单词特征。
步骤3中的重采样具体过程如下:
步骤3-1,基于全局语言特征fs预测均值μ(fs)和协方差矩阵∑(fs)
步骤3-2,从高斯分布
Figure BDA00032371924700000510
中随机采样得到全局语言特征
Figure BDA00032371924700000511
步骤5中的视觉知识库由训练集中与文本描述最相近的M张图像构成。并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue。其中将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取(Soft-Reading)和强读取(Hard-Reading)。
步骤7中利用DynamicMemory方式对多模态特征进行融合。
所述卷积神经网络的训练过程中采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
步骤8中使用PseudoTuringTest(PTT)进行语义一致性的评价。具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell(XuK,et al.Show,attendandtell:Neural image caption generation withvisualattention,2015)与BUTD(Anderson P,et al.Bottom-up and top-down attention forimage captioning and visual question answering,2018)作为“专家”来描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度;
步骤8-3,用生成图像在100个(其中,1个为输入文本,其余99个是随机的数据集中其他文本)文本中检索匹配文本,计算R-precision。
如图1所示,本发明提供一种用于基于先验知识的文本生成图像方法(右图),与传统的文本生成图像方法(左图)相比,本发明在生成过程中引入图像先验知识,使得生成的图像更加逼真、更加符合常识,相当于人类在进行绘画之前已经拥有一定的知识存储,因此在绘画时会绘出更加符合事实的图像。本发明的实现包括如下步骤:
一、视觉知识库的构建
如图2所示为视觉知识库(VKB)的构建示意图,视觉知识库的构建将有利于本发明提出的知识驱动型文本生成图像方法(KD-GAN)的实施。对于每个文本-图像对,即一个自然语言描述和相应的真实图像,VKB包含一个由M个相关图像组成的小型知识库,该知识库将用作该文本-图像对的先验知识,这些先验知识通过文本到文本的匹配过程收集得到。
首先,给定一个文本-图像对,利用预先训练好的语言编码器分别提取该文本-图像对中的文本和训练集中文本的句子特征,计算它们之间的余弦相似度,从而检索出与给定文本最相关的M个描述;然后,将这些被选取的句子对应的图像作为参考知识,形成该文本-图像对的小型知识库。然后,KD-GAN可以根据不同的策略读取训练或测试过程中的图像信息。
为有利于后续的知识读取,上述得到的视觉知识将通过key-value的形式进行存储。使用ResNet50将每个图像编码为key和value特征,将ResNet50最后一个池化层之后得到的特征向量作为key用于查询,将最后一个卷积得到的特征图作为value用于读取。通过上述过程,一个给定的文本-图像对由两部分组成:
Figure BDA0003237192470000061
其中,M表示视觉知识的数目,rv表示用于存储的特征图的尺寸,dk和dv分别表示key和value特征的深度,设置key和value的特征维度均为2048、value的特征图分辨率为7x7;。
得到上述视觉知识库后,Fkey将作为图像的全局表示,可以用于文本到图像的匹配,从而从知识库中选择最相关的视觉知识;Fvalue保留所有区域的属性和特征,可以为图像合成提供足够的先验参考信息。
二、模型实施过程
2.1模型的输入:
如图3所示为模型的网络架构图,可以看出模型的输入为一段语言描述和一个随机噪声
Figure BDA0003237192470000071
其中最长语言描述设置为40,噪声向量的长度设置为256。
2.2语言特征编码器:
对于输入的语言描述,首先通过双向LSTM(可参见A.Graves andJ.Schmidhuber.Framewise phoneme classification with bidirectional lstm andother neural network architectures.In Neural networks.2005.)提取语言的全局特征
Figure BDA0003237192470000072
和局部单词特征
Figure BDA0003237192470000073
其中NT为语言描述的长度。使用与训练的双向LSTM编码输入的语言描述,设置全局特征和单词特征的维度均为dt=300。
2.3条件增强:
对于得到的语言描述的全局特征表示,通过条件增强(ConditioningAugmentation,CA)进行重采样。对于语言全局特征
Figure BDA0003237192470000074
通过全连接层学习到该特征的均值μ和方差σ,再引入一个均匀分布的噪声对全局特征进行重采样(可参见H.Zhang,T.Xu,H.Li,S.Zhang,X.Wang,X.Huang,and D.N.Metaxas.Stackgan:Text to photo-realisticimage synthesis with stacked generative adversarial networks.In ICCV.2017)
2.4初始图像生成:
初始阶段使用DM-GAN(可参见M.Zhu,P.Pan,W.Chen,and Y.Yang.Dm-gan:Dynamicmemory generative adversarial networks for text-to-image synthesis.InCVPR.2019)来生成初始图像。具体来说,对于条件增强后的全局语言描述特征CA(fs),将其与随机噪声向量进行拼接从而得到初始隐藏状态
Figure BDA0003237192470000075
Figure BDA0003237192470000076
其中,σ表示激活函数,||表示拼接操作,
Figure BDA0003237192470000077
为权重矩阵,设置d0=1024、r0=4×4。
在得到初始隐藏状态后,将从视觉知识库中获得先验知识并进行整合,本发明提出两种读取整合先验知识的方式,分别为弱读取和强读取。弱读取估计句子与对应小型知识库中每个知识的相关性,然后返回所有知识特征的加权和。即给定句子全局特征
Figure BDA0003237192470000078
以及对应小型知识库中存储的
Figure BDA0003237192470000079
计算每个key对应的权重
Figure BDA00032371924700000710
α=Softmax(Wsfs(WkeyFkey)T,
其中,Ws和Wkey分别是两个投影权值矩阵。根据上述得到的权重α,可以计算得到相应的视觉先验知识
Figure BDA0003237192470000081
Figure BDA0003237192470000082
其中,Fvalue来自同一小型知识库。以上读取整合视觉知识的方式成为弱读取,其与软注意力机制类似,旨在将所有相关的视觉知识进行整合。然而,计算加权和的方式可能会阻碍视觉知识的独立性和完整性,当权重较小时,由于小权重对应的知识与给定句子无关,会引入不必要的噪声。为此,进一步引入强读取策略,它只选择最匹配的知识,并保持信息的完整性和独立性,视觉先验知识
Figure BDA0003237192470000083
计算如下:
Figure BDA0003237192470000084
其中,
Figure BDA0003237192470000085
但这种强读取方式会导致β不可求导,通过重参数化解决这个问题,重参数化β为β′:
Figure BDA0003237192470000086
得到句子相应的先验知识后,将其与初始隐藏状态
Figure BDA0003237192470000087
进行融合,并利用基于CNN的解码器来得到初始图像
Figure BDA0003237192470000088
Figure BDA0003237192470000089
其中,Up表示一种用于融合先验知识特征和潜在状态的上采样卷积层。
2.5多阶段图像优化及生成:
根据上述生成的初始图像,KD-GAN进行多阶段优化生成以获得更高质量的图像,对于第i个阶段,首先将
Figure BDA00032371924700000810
与上一阶段输出的隐藏状态
Figure BDA00032371924700000811
融合,并在此基础上与相应的单词特征Fw融合以获得多模态特征
Figure BDA00032371924700000812
Figure BDA00032371924700000813
其中,MultimodalFusion可以是任何多模态融合方式,这里使用Dynamic Memory方式(可参见M.Zhu,P.Pan,W.Chen,andY.Yang.Dm-gan:Dynamic memory generativeadversarial networks for text-to-image synthesis.In CVPR.2019)进行融合。与初始阶段一样,使用基于CNN的解码器生成相应图像
Figure BDA00032371924700000814
Figure BDA00032371924700000815
其中,设i=1,2、
Figure BDA00032371924700000816
2.6多阶段判别器:
对于每个阶段,设置相应的判别器用于判断该阶段生成图像的真假,这里使用与DM-GAN类似的基于CNN的编码器,用来计算该阶段所生成图像为真的得分,该分值用于后续损失函数的计算。
三、模型训练过程
3.1损失函数的计算:
模型的损失函数
Figure BDA0003237192470000091
包括四部分,分别计算判别器、生成器、语义一致性和条件增强的损失,即:
Figure BDA0003237192470000092
其中,Di、Gi分别表示第i个阶段的判别器和生成器,
Figure BDA0003237192470000093
Figure BDA0003237192470000094
为相应的对抗loss,即:
Figure BDA0003237192470000095
Figure BDA0003237192470000096
Figure BDA0003237192470000097
为多模态一致性损失(可参见T.Xu,P.Zhang,Q.Huang,H.Zhang,Z.Gan,X.Huang,and X.He.Attngan:Fine-grained text to image generation withattentional generative adversarial networks.In CVPR.2018),
Figure BDA0003237192470000098
为条件增强损失,用于最小化学习到的分布和标准高斯分布之间的发散程度。
Figure BDA0003237192470000099
μ(fs)和∑(fs)为句子全局特征的均值和对角协方差矩阵。
3.2模型训练参数设置:
在训练过程中,使用Adam优化器,并设置学习率为0.0002,超参为β1=0.5、β2=0.999。
3.3模型的训练:
对于模型的训练,首先将输入的图片和语言经过步骤二得到模型的输出结果,接着通过步骤3.1来计算模型的损失函数,最后,利用损失函数的梯度反向传播来更新步骤二中的模型参数,训练和迭代过程的设置如步骤3.2所描述。最终完成整个模型的训练。
四、模型评价:
IS和FID是T2I中广泛使用的两个指标,都旨在评估合成图像的清晰度和多样性,这两个指标的公式如下:
Figure BDA0003237192470000101
FID=||μrg||2+Tr(∑r+∑g-2(∑rg)1/2
其中,
Figure BDA0003237192470000102
是所有类别所有生成图像的边缘分布,μr和μg分别是真实图像和生成图像的均值,∑r和∑g分别是真实图像和生成图像的协方差矩阵。FID越低,生成图像与真实图像在特征层的距离越近。
尽管IS和FID被广泛使用,但是它们都是为视觉质量评估而设计的,提出一种叫做“伪图灵测试”(PTT)的质量评估方式,旨在测量文本描述与生成图像之间的语义一致性。PTT包括两个图像字幕伪专家ShowAttendTell和UpDown,间接评估生成图像在语义上是否与给定的句子一致。两位伪专家对不同的T2I方法生成的图像进行重新描述,然后用BLEU,CIDEr和ROUGE来衡量重新描述的图像与输入文本的匹配程度。
此外还提供另外一种伪专家用来进行文本到图像的匹配,叫做
Figure BDA0003237192470000105
它直接衡量不同T2I方法的输出与相同输入之间的相关性。对于第i种T2I方法合成的N张图像,
Figure BDA0003237192470000106
评估第j个输入文本的特征fi.j与输出图像的特征vi,j之间的相关性。平均相关性计算如下:
Figure BDA0003237192470000103
这里用余弦相似度来定义相关性,即
Figure BDA0003237192470000104
五、模型部署过程:
在经过步骤三的模型训练后,对于训练完毕的模型,将输入的语言经过步骤二即可得到模型的输出作为相对应的生成结果,即输入某段语言描述,模型输出最符合描述的图像。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.一种知识驱动型的文本到图像生成方法,其特征在于包括以下步骤:
1)输入一段语言描述和一个随机噪声;
2)提取语言的全局特征和单词特征;
3)对于全局语言特征进行重采样得到新的全局语言特征;
4)拼接全局语言特征与随机噪声,得到初始图像特征;
5)从视觉知识库中获得先验知识并进行整合,得到视觉特征;
6)将初始图像特征与视觉先验特征进行融合,通过卷积模块得到第一阶段的图像;
7)将上一阶段的图像特征与视觉先验特征融合后,与单词特征进行多模态融合得到当前阶段的图像特征,并通过卷积模块得到当前阶段的图像;
8)进行生成图像与输入文本之间语义一致性的评价。
2.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤1)中,所述语言描述最大长度设为40,噪声维度设为256。
3.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤2)中,所述提取语言的全局特征和单词特征,利用在CUB或者COCO数据集上训练好的双向LSTM提取文本的全局特征和单词特征,首先通过双向LSTM提取语言的全局特征
Figure FDA0003237192460000011
和局部单词特征
Figure FDA0003237192460000012
其中,NT为语言描述的长度,全局特征和单词特征的维度dt=300。
4.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤3)中,所述重采样的具体过程如下:
步骤3-1,基于全局语言特征fs预测均值μ(fs)和协方差矩阵∑(fs);
步骤3-2,从高斯分布
Figure FDA0003237192460000013
中随机采样得到全局语言特征
Figure FDA0003237192460000014
5.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤4)中,所述得到初始图像特征的具体步骤为:拼接语言特征
Figure FDA0003237192460000015
与随机噪声z,经过下列算式得到初始图像特征
Figure FDA0003237192460000016
Figure FDA0003237192460000017
其中,
Figure FDA0003237192460000018
是可训练的映射权重,σ为GLU激活函数。
6.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤5),所述视觉知识库由训练集中与文本描述最相近的M张图像构成,并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue;其中,将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取(Soft-Reading)和强读取(Hard-Reading)。
7.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤5),所述从视觉知识库中获得先验知识并进行整合,得到视觉特征的具体方法可为:
用语言特征fs,根据下列算式从视觉知识库中弱读取(Soft-Reading)得到视觉特征
Figure FDA0003237192460000021
α=Softmax(Wsfs,(WkeyFkey)T)
Figure FDA0003237192460000022
其中,Ws、Wkey是两个可训练的映射权重,Fkey、Fvalue是知识库中的索引关键特征与视觉知识特征,M是知识库大小,即视觉知识特征的数量;或
根据下列算式通过强读取(Hard-Reading)得到视觉特征
Figure FDA0003237192460000023
Figure FDA0003237192460000024
βi=1 if i=argmax(α)else 0。
8.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤7)中,所述融合利用Dynamic Memory方式对多模态特征进行融合;所述卷积模块的训练过程中可采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
9.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤8)中,所述评价的指标包括IS、FID、PTT。
10.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于使用指标PTT进行语义一致性的评价,具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell与BUTD描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度。
CN202111005846.0A 2021-08-30 2021-08-30 一种知识驱动型的文本到图像生成方法 Active CN113837229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111005846.0A CN113837229B (zh) 2021-08-30 2021-08-30 一种知识驱动型的文本到图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005846.0A CN113837229B (zh) 2021-08-30 2021-08-30 一种知识驱动型的文本到图像生成方法

Publications (2)

Publication Number Publication Date
CN113837229A true CN113837229A (zh) 2021-12-24
CN113837229B CN113837229B (zh) 2024-03-15

Family

ID=78961654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005846.0A Active CN113837229B (zh) 2021-08-30 2021-08-30 一种知识驱动型的文本到图像生成方法

Country Status (1)

Country Link
CN (1) CN113837229B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648681A (zh) * 2022-05-20 2022-06-21 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质
CN115155058A (zh) * 2022-09-06 2022-10-11 北京澜舟科技有限公司 一种捏脸方法、捏脸系统及存储介质
CN117874706A (zh) * 2024-03-12 2024-04-12 之江实验室 一种多模态知识蒸馏学习方法及装置
CN118013069A (zh) * 2024-04-09 2024-05-10 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置、存储介质和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US20150113597A1 (en) * 2009-12-22 2015-04-23 Disney Enterprises, Inc. Human Verification by Contextually Iconic Visual Public Turing Test
US20170068809A1 (en) * 2015-09-07 2017-03-09 Voicebox Technologies Corporation System and method of providing and validating enhanced captchas
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN110866958A (zh) * 2019-10-28 2020-03-06 清华大学深圳国际研究生院 一种文本到图像的方法
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111858954A (zh) * 2020-06-29 2020-10-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
CN112017255A (zh) * 2020-08-21 2020-12-01 上海志唐健康科技有限公司 一种根据食谱生成食物图像的方法
CN112308081A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 一种基于注意力机制的图像目标预测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US20150113597A1 (en) * 2009-12-22 2015-04-23 Disney Enterprises, Inc. Human Verification by Contextually Iconic Visual Public Turing Test
US20170068809A1 (en) * 2015-09-07 2017-03-09 Voicebox Technologies Corporation System and method of providing and validating enhanced captchas
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN110866958A (zh) * 2019-10-28 2020-03-06 清华大学深圳国际研究生院 一种文本到图像的方法
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111858954A (zh) * 2020-06-29 2020-10-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
CN112017255A (zh) * 2020-08-21 2020-12-01 上海志唐健康科技有限公司 一种根据食谱生成食物图像的方法
CN112308081A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 一种基于注意力机制的图像目标预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648681A (zh) * 2022-05-20 2022-06-21 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质
CN115155058A (zh) * 2022-09-06 2022-10-11 北京澜舟科技有限公司 一种捏脸方法、捏脸系统及存储介质
CN115155058B (zh) * 2022-09-06 2023-02-03 北京澜舟科技有限公司 一种捏脸方法、捏脸系统及存储介质
CN117874706A (zh) * 2024-03-12 2024-04-12 之江实验室 一种多模态知识蒸馏学习方法及装置
CN117874706B (zh) * 2024-03-12 2024-05-31 之江实验室 一种多模态知识蒸馏学习方法及装置
CN118013069A (zh) * 2024-04-09 2024-05-10 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN113837229B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
CN113010693B (zh) 融合指针生成网络的知识图谱智能问答方法
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
Yang et al. Multi-sentence auxiliary adversarial networks for fine-grained text-to-image synthesis
CN113035311B (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN112734881B (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN110069656A (zh) 一种基于生成对抗网络的二维图片检索三维模型的方法
CN115601772B (zh) 一种基于多模态学习的美学质量评价模型和方法
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN115186110B (zh) 基于关系增强负采样的多模态知识图谱补全方法与系统
CN113343705A (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN113254694B (zh) 一种文本转图像方法和装置
CN108665055A (zh) 一种图说生成方法及装置
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN115858847A (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN118013069B (zh) 一种图像检索方法、装置、存储介质和电子设备
CN115690245A (zh) 一种基于属性驱动gan的文本生成图像的方法
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
CN116541520A (zh) 一种情感分析方法、装置、电子设备及存储介质
CN114332565A (zh) 一种基于分布估计的条件生成对抗网络文本生成图像方法
Kasi et al. A deep learning based cross model text to image generation using DC-GAN
CN117392284B (zh) 自适应条件增强的文本图像生成方法、系统、装置及介质
CN117972484B (zh) 一种可解释性的多模态自然语言情感分析方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant