CN113837229B - 一种知识驱动型的文本到图像生成方法 - Google Patents

一种知识驱动型的文本到图像生成方法 Download PDF

Info

Publication number
CN113837229B
CN113837229B CN202111005846.0A CN202111005846A CN113837229B CN 113837229 B CN113837229 B CN 113837229B CN 202111005846 A CN202111005846 A CN 202111005846A CN 113837229 B CN113837229 B CN 113837229B
Authority
CN
China
Prior art keywords
features
image
knowledge
visual
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111005846.0A
Other languages
English (en)
Other versions
CN113837229A (zh
Inventor
纪荣嵘
周奕毅
彭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111005846.0A priority Critical patent/CN113837229B/zh
Publication of CN113837229A publication Critical patent/CN113837229A/zh
Application granted granted Critical
Publication of CN113837229B publication Critical patent/CN113837229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

一种知识驱动型的文本到图像生成方法,属于图像生成技术领域。在基于特定自然语言描述生成图像的过程中引入视觉知识库,提供视觉先验知识,指导生成与自然语言描述相符的图像。图像生成模型将以Query‑Key‑Value的形式从视觉知识库中查询与描述文本相关的视觉特征,作为图像生成的先验知识。为充分利用先验知识,提供两种新的相关知识读取方式:弱读取和强读取。设计一种新的语义一致性度量标准“伪图灵测试”。不同多媒体任务的“专家”直接或间接地评估合成图像与给定的自然语言描述之间的语义一致性程度。提高生成的图像质量、生成图像和输入文本之间的语义一致性,避免生成图像中出现一些违背自然规律或者常识的现象。

Description

一种知识驱动型的文本到图像生成方法
技术领域
本发明属于图像生成技术领域,尤其是涉及以先验知识作为驱动的多阶段逐步优化的一种知识驱动型的文本到图像生成方法。
背景技术
文本生成图像(Text-to-Image Generation,T2I)是涉及语言和图像的多模态任务。给出一段描述,文本生成图像技术将生成这段描述相对应的图像,即“依文绘图”,它是“看图说话”的逆过程。近些年来,随着生成对抗网络的日渐发展,文本到图像的生成技术也得以迅猛进步。
目前,大多数现有的T2I模型通常使用编码器-解码器架构将文本描述转换为合成的图像。文本生成图像的主要挑战是如何有效、准确地将文本信息映射到一个有效的视觉空间中,在此基础上合成具有照片真实感和语义一致性的图像。为此,早期的方法使用对抗生成网络的编码器-解码器结构,在该结构中,使用鉴别器来判断生成的图像是否真实,至此为单阶段文本生成图像的方式。在最近的一些方法中,单阶段的生成方式扩展为多阶段逐步优化的方式,这种多阶段方式直观地模仿人的绘画,即先画草图,然后不断地修改优化。
尽管文本生成图像技术已经取得很大的进步,但是其性能仍然不能令人满意,特别是与无条件的图像生成和图像到图像的生成任务相比,这主要归因于如下三方面:第一,根据文本信息生成图像会引入很多随机性,未被提及的图像属性将有更多样化的表示,这就导致合成图像与真实图像之间往往会存在巨大的差距;第二,大多数现有的文本生成图像技术仅以给定文本为条件生成图像,并未考虑到先验图像分布和已知的视觉环境来进行更加合理的图像生成;第三,文本生成图像技术的现有评估指标(如IS和FID)基本上是为视觉质量评估而设计的,而合成图像和描述之间的语义一致性被忽略从而导致无法评估;因此引入图像先验知识对于生成更加符合常识的图像十分重要,同时引入新的语义一致性评价标准对于文本生成图像领域来说十分必要。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提供以先验知识作为驱动的多阶段逐步优化的一种基于图像先验知识的文本生成图像方法,该方法以对抗生成网络为基础,可以有效提升生成图像的合理性;同时引入一种“伪图灵测试”的语义一致性度量标准,更加准确地度量根据文本生成的图像的质量。
本发明包括以下步骤:
1)输入一段语言描述和一个随机噪声;
2)提取语言的全局特征和单词特征;
3)对于全局语言特征进行重采样得到新的全局语言特征;
4)拼接全局语言特征与随机噪声,得到初始图像特征;
5)从视觉知识库中获得先验知识并进行整合,得到视觉特征;
6)将初始图像特征与视觉先验特征进行融合,通过卷积模块得到第一阶段的图像;
7)将上一阶段的图像特征与视觉先验特征融合后,与单词特征进行多模态融合得到当前阶段的图像特征,并通过卷积模块得到当前阶段的图像;
8)进行生成图像与输入文本之间语义一致性的评价。
在步骤1)中,所述语言描述最大长度可设为40,噪声维度可设为256;
在步骤2)中,所述提取语言的全局特征和单词特征,可利用在CUB或者COCO数据集上训练好的双向LSTM提取文本的全局特征和单词特征,首先通过双向LSTM提取语言的全局特征和局部单词特征/>其中,NT为语言描述的长度,全局特征和单词特征的维度dt=300。
在步骤3)中,所述重采样具体过程如下:
步骤3-1,基于全局语言特征fs预测均值μ(fs)和协方差矩阵∑(fs);
步骤3-2,从高斯分布中随机采样得到全局语言特征/>
在步骤4)中,所述得到初始图像特征的具体步骤为:拼接语言特征与随机噪声z,经过下列算式得到初始图像特征/>
其中,是可训练的映射权重,σ为GLU激活函数;
在步骤5),所述视觉知识库由训练集中与文本描述最相近的M张图像构成,并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue;其中,将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取(Soft-Reading)和强读取(Hard-Reading);
所述从视觉知识库中获得先验知识并进行整合,得到视觉特征的具体方法可为:
用语言特征fs,根据下列算式从视觉知识库中弱读取得到视觉特征
α=Softmax(Wsfs,(WkeyFkey)T)
其中,Ws、Wkey是两个可训练的映射权重,Fkey、Fvalue是知识库中的索引关键特征与视觉知识特征,M是知识库大小,即视觉知识特征的数量;或
根据下列算式通过强读取得到视觉特征
α、β分别表示弱读取策略和强读取策略下语言特征fs和视觉知识库中索引关键特征Fkey的相关性权重;弱读取和强读取也分别被称为软读取和硬读取。
在步骤7)中,所述融合可利用Dynamic Memory方式对多模态特征进行融合;所述卷积模块的训练过程中可采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
在步骤8)中,所述评价的指标包括IS(Inception Score)、FID(FréchetInception Distance)、PTT(Pseudo Turing Test);
使用PTT进行语义一致性的评价,具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell(XuK,et al.Show,attend and tell:Neural image caption generation with visualattention,2015)与BUTD(Anderson P,et al.Bottom-up and top-down attention forimage captioning and visual question answering,2018)作为“专家”来描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度。
本发明通过引入视觉知识库(VKB)为图像生成提供额外的先验知识,视觉知识库将以key-value的形式被存储以便于知识读取操作。为更好地利用先验知识,提供两种新的相关知识读取方式:弱读取(Soft-Reading)和强读取(Hard-Reading)。最后,设计一种“伪图灵测试”(Pseudo Turing Test,PTT)的语义一致性度量标准,在不同多媒体任务(例如图像字幕生成、文本匹配等)的“专家”的帮助下,直接或间接地评估合成图像与给定文本的语义一致性。
采用上述方案后,本发明的有益效果是:
(1)本发明提供一种用于文本生成图像的知识驱动型对抗生成网络,该网络旨在利用图像先验知识逐步优化图像生成质量,通过弱读取或强读取的先验知识整合方式,使得生成的图像逼真且合理。
(2)本发明提供一种“伪图灵测试”的度量标准,可以更加方便、有效地评价给定描述与生成图像的语义一致性,一定程度上解决先前使用纯视觉质量评估的窘境。
附图说明
图1是本发明的基本流程图;左图为传统文本生成图像流程,右图为知识驱动型的文本生成图像流程;
图2是视觉知识库构建示意图;
图3是知识驱动型文本生成图像的网络架构图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
步骤1,设置输入大的语言描述最大长度为40,噪声维度为256;
步骤2,提取语言的全局特征和单词特征/>
步骤3,对于全局语言特征fs进行重采样得到新的全局语言特征
步骤4,拼接语言特征与随机噪声z,经过下列算式得到初始图像特征/>
其中,是可训练的映射权重,σ为GLU激活函数;
步骤5,用语言特征fs,根据下列算式从视觉知识库中弱读取得到视觉特征
α=Softmax(Wsfs,(WkeyFkey)T)
其中,Ws、Wkey是两个可训练的映射权重,Fkey、Fvalue是知识库中的索引关键特征与视觉知识特征,M是知识库大小,即视觉知识特征的数量,或
根据下列算式通过强读取得到视觉特征
步骤6,将初始图像特征与视觉先验特征/>进行融合,通过卷积模块得到第一阶段的图像/>
步骤7,上一阶段的图像特征与视觉先验特征/>融合后,与单词特征Fw进行多模态融合得到当前阶段的图像特征/>并通过卷积模块得到当前阶段的图像/>
步骤8,出常见的IS、FID评价指标外,使用提出的PTT进行生成图像与输入文本之间语义一致性的评估。
步骤2中利用在CUB或者COCO数据集上上训练好的双向LSTM提取文本的全局特征和单词特征。
步骤3中的重采样具体过程如下:
步骤3-1,基于全局语言特征fs预测均值μ(fs)和协方差矩阵∑(fs)
步骤3-2,从高斯分布中随机采样得到全局语言特征/>
步骤5中的视觉知识库由训练集中与文本描述最相近的M张图像构成。并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue。其中将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取(Soft-Reading)和强读取(Hard-Reading)。
步骤7中利用Dynamic Memory方式对多模态特征进行融合。
所述卷积神经网络的训练过程中采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
步骤8中使用Pseudo Turing Test(PTT)进行语义一致性的评价。具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell(XuK,et al.Show,attend and tell:Neural image caption generation with visualattention,2015)与BUTD(Anderson P,et al.Bottom-up and top-down attention forimage captioning and visual question answering,2018)作为“专家”来描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度;
步骤8-3,用生成图像在100个(其中,1个为输入文本,其余99个是随机的数据集中其他文本)文本中检索匹配文本,计算R-precision。
如图1所示,本发明提供一种用于基于先验知识的文本生成图像方法(右图),与传统的文本生成图像方法(左图)相比,本发明在生成过程中引入图像先验知识,使得生成的图像更加逼真、更加符合常识,相当于人类在进行绘画之前已经拥有一定的知识存储,因此在绘画时会绘出更加符合事实的图像。本发明的实现包括如下步骤:
一、视觉知识库的构建
如图2所示为视觉知识库(VKB)的构建示意图,视觉知识库的构建将有利于本发明提出的知识驱动型文本生成图像方法(KD-GAN)的实施。对于每个文本-图像对,即一个自然语言描述和相应的真实图像,VKB包含一个由M个相关图像组成的小型知识库,该知识库将用作该文本-图像对的先验知识,这些先验知识通过文本到文本的匹配过程收集得到。
首先,给定一个文本-图像对,利用预先训练好的语言编码器分别提取该文本-图像对中的文本和训练集中文本的句子特征,计算它们之间的余弦相似度,从而检索出与给定文本最相关的M个描述;然后,将这些被选取的句子对应的图像作为参考知识,形成该文本-图像对的小型知识库。然后,KD-GAN可以根据不同的策略读取训练或测试过程中的图像信息。
为有利于后续的知识读取,上述得到的视觉知识将通过key-value的形式进行存储。使用ResNet50将每个图像编码为key和value特征,将ResNet50最后一个池化层之后得到的特征向量作为key用于查询,将最后一个卷积得到的特征图作为value用于读取。通过上述过程,一个给定的文本-图像对由两部分组成:其中,M表示视觉知识的数目,rv表示用于存储的特征图的尺寸,dk和dv分别表示key和value特征的深度,设置key和value的特征维度均为2048、value的特征图分辨率为7x7;。
得到上述视觉知识库后,Fkey将作为图像的全局表示,可以用于文本到图像的匹配,从而从知识库中选择最相关的视觉知识;Fvalue保留所有区域的属性和特征,可以为图像合成提供足够的先验参考信息。
二、模型实施过程
2.1模型的输入:
如图3所示为模型的网络架构图,可以看出模型的输入为一段语言描述和一个随机噪声其中最长语言描述设置为40,噪声向量的长度设置为256。
2.2语言特征编码器:
对于输入的语言描述,首先通过双向LSTM(可参见A.Graves and J.Schmidhuber.Framewisephoneme classification with bidirectional lstm and other neural networkarchitectures.In Neural networks.2005.)提取语言的全局特征和局部单词特征/>其中NT为语言描述的长度。使用与训练的双向LSTM编码输入的语言描述,设置全局特征和单词特征的维度均为dt=300。
2.3条件增强:
对于得到的语言描述的全局特征表示,通过条件增强(Conditioning Augmentation,CA)进行重采样。对于语言全局特征通过全连接层学习到该特征的均值μ和方差σ,再引入一个均匀分布的噪声对全局特征进行重采样(可参见H.Zhang,T.Xu,H.Li,S.Zhang,X.Wang,X.Huang,and D.N.Metaxas.Stackgan:Text to photo-realistic imagesynthesis with stacked generative adversarial networks.In ICCV.2017)
2.4初始图像生成:
初始阶段使用DM-GAN(可参见M.Zhu,P.Pan,W.Chen,and Y.Yang.Dm-gan:Dynamicmemory generative adversarial networks for text-to-image synthesis.InCVPR.2019)来生成初始图像。具体来说,对于条件增强后的全局语言描述特征CA(fs),将其与随机噪声向量进行拼接从而得到初始隐藏状态
其中,σ表示激活函数,||表示拼接操作,为权重矩阵,设置d0=1024、r0=4×4。
在得到初始隐藏状态后,将从视觉知识库中获得先验知识并进行整合,本发明提出两种读取整合先验知识的方式,分别为弱读取和强读取。弱读取估计句子与对应小型知识库中每个知识的相关性,然后返回所有知识特征的加权和。即给定句子全局特征以及对应小型知识库中存储的key/>计算每个key对应的权重/>
α=Softmax(Wsfs(WkeyFkey)T,
其中,Ws和Wkey分别是两个投影权值矩阵。根据上述得到的权重α,可以计算得到相应的视觉先验知识
其中,Fvalue来自同一小型知识库。以上读取整合视觉知识的方式成为弱读取,其与软注意力机制类似,旨在将所有相关的视觉知识进行整合。然而,计算加权和的方式可能会阻碍视觉知识的独立性和完整性,当权重较小时,由于小权重对应的知识与给定句子无关,会引入不必要的噪声。为此,进一步引入强读取策略,它只选择最匹配的知识,并保持信息的完整性和独立性,视觉先验知识计算如下:
其中,但这种强读取方式会导致β不可求导,通过重参数化解决这个问题,重参数化β为β′:
得到句子相应的先验知识后,将其与初始隐藏状态进行融合,并利用基于CNN的解码器来得到初始图像/>
其中,Up表示一种用于融合先验知识特征和潜在状态的上采样卷积层。
2.5多阶段图像优化及生成:
根据上述生成的初始图像,KD-GAN进行多阶段优化生成以获得更高质量的图像,对于第i个阶段,首先将与上一阶段输出的隐藏状态/>融合,并在此基础上与相应的单词特征Fw融合以获得多模态特征/>
其中,MultimodalFusion可以是任何多模态融合方式,这里使用Dynamic Memory方式(可参见M.Zhu,P.Pan,W.Chen,and Y.Yang.Dm-gan:Dynamic memory generativeadversarial networks for text-to-image synthesis.In CVPR.2019)进行融合。与初始阶段一样,使用基于CNN的解码器生成相应图像
其中,设i=1,2、
2.6多阶段判别器:
对于每个阶段,设置相应的判别器用于判断该阶段生成图像的真假,这里使用与DM-GAN类似的基于CNN的编码器,用来计算该阶段所生成图像为真的得分,该分值用于后续损失函数的计算。
三、模型训练过程
3.1损失函数的计算:
模型的损失函数L包括四部分,分别计算判别器、生成器、语义一致性和条件增强的损失,即:
其中,Di、Gi分别表示第i个阶段的判别器和生成器,和/>为相应的对抗loss,即:
为多模态一致性损失(可参见T.Xu,P.Zhang,Q.Huang,H.Zhang,Z.Gan,X.Huang,and X.He.Attngan:Fine-grained text to image generation withattentional generative adversarial networks.In CVPR.2018),/>为条件增强损失,用于最小化学习到的分布和标准高斯分布之间的发散程度。
μ(fs)和∑(fs)为句子全局特征的均值和对角协方差矩阵。
3.2模型训练参数设置:
在训练过程中,使用Adam优化器,并设置学习率为0.0002,超参为β1=0.5、β2=0.999。
3.3模型的训练:
对于模型的训练,首先将输入的图片和语言经过步骤二得到模型的输出结果,接着通过步骤3.1来计算模型的损失函数,最后,利用损失函数的梯度反向传播来更新步骤二中的模型参数,训练和迭代过程的设置如步骤3.2所描述。最终完成整个模型的训练。
四、模型评价:
IS和FID是T2I中广泛使用的两个指标,都旨在评估合成图像的清晰度和多样性,这两个指标的公式如下:
FID=||μrg||2+Tr(∑r+∑g-2(∑rg)1/2
其中,是所有类别所有生成图像的边缘分布,μr和μg分别是真实图像和生成图像的均值,∑r和∑g分别是真实图像和生成图像的协方差矩阵。FID越低,生成图像与真实图像在特征层的距离越近。
尽管IS和FID被广泛使用,但是它们都是为视觉质量评估而设计的,提出一种叫做“伪图灵测试”(PTT)的质量评估方式,旨在测量文本描述与生成图像之间的语义一致性。PTT包括两个图像字幕伪专家ShowAttendTell和UpDown,间接评估生成图像在语义上是否与给定的句子一致。两位伪专家对不同的T2I方法生成的图像进行重新描述,然后用BLEU,CIDEr和ROUGE来衡量重新描述的图像与输入文本的匹配程度。
此外还提供另外一种伪专家用来进行文本到图像的匹配,叫做它直接衡量不同T2I方法的输出与相同输入之间的相关性。对于第i种T2I方法合成的N张图像,评估第j个输入文本的特征fi.j与输出图像的特征vi,j之间的相关性。平均相关性计算如下:
这里用余弦相似度来定义相关性,即
五、模型部署过程:
在经过步骤三的模型训练后,对于训练完毕的模型,将输入的语言经过步骤二即可得到模型的输出作为相对应的生成结果,即输入某段语言描述,模型输出最符合描述的图像。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.一种知识驱动型的文本到图像生成方法,其特征在于包括以下步骤:
1)输入一段语言描述和一个随机噪声;
2)提取语言的全局特征和单词特征;
3)对于全局语言特征进行重采样得到新的全局语言特征;
4)拼接全局语言特征与随机噪声,得到初始图像特征;
5)从视觉知识库中获得先验知识并进行整合,得到视觉特征;
6)将初始图像特征与视觉先验特征进行融合,通过卷积模块得到第一阶段的图像;
7)将上一阶段的图像特征与视觉先验特征融合后,与单词特征进行多模态融合得到当前阶段的图像特征,并通过卷积模块得到当前阶段的图像;
8)进行生成图像与输入文本之间语义一致性的评价。
2.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤1)中,所述语言描述最大长度设为40,噪声维度设为256。
3.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤2)中,所述提取语言的全局特征和单词特征,利用在CUB或者COCO数据集上训练好的双向LSTM提取文本的全局特征和单词特征,首先通过双向LSTM提取语言的全局特征和局部单词特征/>其中,NT表示语言描述的长度,dt表示全局特征和单词特征的维度,默认设置为300;/>表示dt维实数空间,/>表示fs是属于dt维实空间的向量,其值均为实数。
4.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤3)中,所述重采样的具体过程如下:
步骤3-1,基于全局语言特征fs预测均值μ(fs)和协方差矩阵∑(fs);
步骤3-2,从高斯分布中随机采样得到全局语言特征/>
5.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤4)中,所述得到初始图像特征的具体步骤为:拼接语言特征与随机噪声z,经过下列算式得到初始图像特征/>
其中,是可训练的映射权重,σ为GLU激活函数;/>表示初始图像特征张量,下标I表示该张量是图像(视觉)特征,上标0表示该特征是初始阶段特征(第0阶段)特征;/>表示1024×4×4维实空间。
6.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤5),所述视觉知识库由训练集中与文本描述最相近的M张图像构成,并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue;其中,将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取和强读取。
7.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤5),所述从视觉知识库中获得先验知识并进行整合,得到视觉特征的具体方法为:
用全局语言特征fs,根据下列算式从视觉知识库中弱读取得到视觉特征
α=Softmax(Wsfs,(WkeyFkey)T)
其中,Ws、Wkey是两个可训练的映射权重,Fkey、Fvalue是知识库中的索引关键特征与视觉知识特征,M是知识库大小,即视觉知识特征的数量;或
根据下列算式通过强读取得到视觉特征
其中,α、β分别表示弱读取策略和强读取策略下语言特征和视觉知识库中索引关键特征Fkey的相关性权重;弱读取和强读取也分别被称为软读取和硬读取。
8.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤7)中,所述融合利用Dynamic Memory方式对多模态特征进行融合;所述卷积模块的训练过程中采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
9.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤8)中,所述评价的指标包括IS、FID、PTT;
IS表示Inception Score,计算方式如下:
其中,x表示生成的图像,y表示图像类别,p(y|x)表示基于Inception V3模型预测的条件类别分布,p(y)表示边缘类别分布,DKL(p||q)表示计算p和q的KL散度;
FID表示Fréchet Inception Distance,计算方式如下:
FID=||μrg||2+Tr(Σrg-2(ΣrΣg)1/2)
其中,μr、Σr表示真实图像特征的均值和协方差,μg、Σg表示生成的图像特征的均值和协方差,Tr(·)表示矩阵迹运算;
PTT表示提出的语义一致性评价策略,全称是Pseudo-Turing Test。
10.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于使用指标PTT进行语义一致性的评价,具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell与BUTD描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度。
CN202111005846.0A 2021-08-30 2021-08-30 一种知识驱动型的文本到图像生成方法 Active CN113837229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111005846.0A CN113837229B (zh) 2021-08-30 2021-08-30 一种知识驱动型的文本到图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005846.0A CN113837229B (zh) 2021-08-30 2021-08-30 一种知识驱动型的文本到图像生成方法

Publications (2)

Publication Number Publication Date
CN113837229A CN113837229A (zh) 2021-12-24
CN113837229B true CN113837229B (zh) 2024-03-15

Family

ID=78961654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005846.0A Active CN113837229B (zh) 2021-08-30 2021-08-30 一种知识驱动型的文本到图像生成方法

Country Status (1)

Country Link
CN (1) CN113837229B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648681B (zh) * 2022-05-20 2022-10-28 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质
CN115155058B (zh) * 2022-09-06 2023-02-03 北京澜舟科技有限公司 一种捏脸方法、捏脸系统及存储介质
CN117874706B (zh) * 2024-03-12 2024-05-31 之江实验室 一种多模态知识蒸馏学习方法及装置
CN118013069B (zh) * 2024-04-09 2024-07-23 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置、存储介质和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN110866958A (zh) * 2019-10-28 2020-03-06 清华大学深圳国际研究生院 一种文本到图像的方法
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111858954A (zh) * 2020-06-29 2020-10-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
CN112017255A (zh) * 2020-08-21 2020-12-01 上海志唐健康科技有限公司 一种根据食谱生成食物图像的方法
CN112308081A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 一种基于注意力机制的图像目标预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8959621B2 (en) * 2009-12-22 2015-02-17 Disney Enterprises, Inc. Human verification by contextually iconic visual public turing test
US9519766B1 (en) * 2015-09-07 2016-12-13 Voicebox Technologies Corporation System and method of providing and validating enhanced CAPTCHAs

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN110866958A (zh) * 2019-10-28 2020-03-06 清华大学深圳国际研究生院 一种文本到图像的方法
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111858954A (zh) * 2020-06-29 2020-10-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
CN112017255A (zh) * 2020-08-21 2020-12-01 上海志唐健康科技有限公司 一种根据食谱生成食物图像的方法
CN112308081A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 一种基于注意力机制的图像目标预测方法

Also Published As

Publication number Publication date
CN113837229A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
Frolov et al. Adversarial text-to-image synthesis: A review
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111859978B (zh) 一种基于深度学习的情感文本生成方法
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
Yang et al. Multi-sentence auxiliary adversarial networks for fine-grained text-to-image synthesis
CN109992686A (zh) 基于多角度自注意力机制的图像-文本检索系统及方法
CN113035311B (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN115186110B (zh) 基于关系增强负采样的多模态知识图谱补全方法与系统
CN110534101A (zh) 一种基于多模融合深度特征的移动设备源识别方法及系统
CN114021524B (zh) 一种情感识别方法、装置、设备及可读存储介质
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN115858847A (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
Pande et al. Development and deployment of a generative model-based framework for text to photorealistic image generation
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN115758159B (zh) 基于混合对比学习和生成式数据增强的零样本文本立场检测方法
Kasi et al. A deep learning based cross model text to image generation using DC-GAN
Pernuš et al. ChildNet: Structural Kinship Face Synthesis Model With Appearance Control Mechanisms
CN117972484B (zh) 一种可解释性的多模态自然语言情感分析方法及相关装置
Habib et al. GAC-Text-to-Image Synthesis with Generative Models using Attention Mechanisms with Contrastive Learning
CN117807995B (zh) 一种情绪引导的摘要生成方法、系统、装置及介质
CN117392284B (zh) 自适应条件增强的文本图像生成方法、系统、装置及介质
CN117423108B (zh) 指令微调多模态大模型的图像细粒度描述方法及系统
Phaphuangwittayakul et al. Adaptive adversarial prototyping network for few-shot prototypical translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant