CN113837229A - 一种知识驱动型的文本到图像生成方法 - Google Patents
一种知识驱动型的文本到图像生成方法 Download PDFInfo
- Publication number
- CN113837229A CN113837229A CN202111005846.0A CN202111005846A CN113837229A CN 113837229 A CN113837229 A CN 113837229A CN 202111005846 A CN202111005846 A CN 202111005846A CN 113837229 A CN113837229 A CN 113837229A
- Authority
- CN
- China
- Prior art keywords
- features
- image
- knowledge
- text
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000000007 visual effect Effects 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 8
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
一种知识驱动型的文本到图像生成方法,属于图像生成技术领域。在基于特定自然语言描述生成图像的过程中引入视觉知识库,提供视觉先验知识,指导生成与自然语言描述相符的图像。图像生成模型将以Query‑Key‑Value的形式从视觉知识库中查询与描述文本相关的视觉特征,作为图像生成的先验知识。为充分利用先验知识,提供两种新的相关知识读取方式:弱读取和强读取。设计一种新的语义一致性度量标准“伪图灵测试”。不同多媒体任务的“专家”直接或间接地评估合成图像与给定的自然语言描述之间的语义一致性程度。提高生成的图像质量、生成图像和输入文本之间的语义一致性,避免生成图像中出现一些违背自然规律或者常识的现象。
Description
技术领域
本发明属于图像生成技术领域,尤其是涉及以先验知识作为驱动的多阶段逐步优化的一种知识驱动型的文本到图像生成方法。
背景技术
文本生成图像(Text-to-Image Generation,T2I)是涉及语言和图像的多模态任务。给出一段描述,文本生成图像技术将生成这段描述相对应的图像,即“依文绘图”,它是“看图说话”的逆过程。近些年来,随着生成对抗网络的日渐发展,文本到图像的生成技术也得以迅猛进步。
目前,大多数现有的T2I模型通常使用编码器-解码器架构将文本描述转换为合成的图像。文本生成图像的主要挑战是如何有效、准确地将文本信息映射到一个有效的视觉空间中,在此基础上合成具有照片真实感和语义一致性的图像。为此,早期的方法使用对抗生成网络的编码器-解码器结构,在该结构中,使用鉴别器来判断生成的图像是否真实,至此为单阶段文本生成图像的方式。在最近的一些方法中,单阶段的生成方式扩展为多阶段逐步优化的方式,这种多阶段方式直观地模仿人的绘画,即先画草图,然后不断地修改优化。
尽管文本生成图像技术已经取得很大的进步,但是其性能仍然不能令人满意,特别是与无条件的图像生成和图像到图像的生成任务相比,这主要归因于如下三方面:第一,根据文本信息生成图像会引入很多随机性,未被提及的图像属性将有更多样化的表示,这就导致合成图像与真实图像之间往往会存在巨大的差距;第二,大多数现有的文本生成图像技术仅以给定文本为条件生成图像,并未考虑到先验图像分布和已知的视觉环境来进行更加合理的图像生成;第三,文本生成图像技术的现有评估指标(如IS和FID)基本上是为视觉质量评估而设计的,而合成图像和描述之间的语义一致性被忽略从而导致无法评估;因此引入图像先验知识对于生成更加符合常识的图像十分重要,同时引入新的语义一致性评价标准对于文本生成图像领域来说十分必要。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提供以先验知识作为驱动的多阶段逐步优化的一种基于图像先验知识的文本生成图像方法,该方法以对抗生成网络为基础,可以有效提升生成图像的合理性;同时引入一种“伪图灵测试”的语义一致性度量标准,更加准确地度量根据文本生成的图像的质量。
本发明包括以下步骤:
1)输入一段语言描述和一个随机噪声;
2)提取语言的全局特征和单词特征;
3)对于全局语言特征进行重采样得到新的全局语言特征;
4)拼接全局语言特征与随机噪声,得到初始图像特征;
5)从视觉知识库中获得先验知识并进行整合,得到视觉特征;
6)将初始图像特征与视觉先验特征进行融合,通过卷积模块得到第一阶段的图像;
7)将上一阶段的图像特征与视觉先验特征融合后,与单词特征进行多模态融合得到当前阶段的图像特征,并通过卷积模块得到当前阶段的图像;
8)进行生成图像与输入文本之间语义一致性的评价。
在步骤1)中,所述语言描述最大长度可设为40,噪声维度可设为256;
在步骤2)中,所述提取语言的全局特征和单词特征,可利用在CUB或者COCO数据集上训练好的双向LSTM提取文本的全局特征和单词特征,首先通过双向LSTM提取语言的全局特征和局部单词特征其中,NT为语言描述的长度,全局特征和单词特征的维度dt=300。
在步骤3)中,所述重采样具体过程如下:
步骤3-1,基于全局语言特征fs预测均值μ(fs)和协方差矩阵∑(fs);
在步骤5),所述视觉知识库由训练集中与文本描述最相近的M张图像构成,并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue;其中,将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取(Soft-Reading)和强读取(Hard-Reading);
所述从视觉知识库中获得先验知识并进行整合,得到视觉特征的具体方法可为:
α=Softmax(Wsfs,(WkeyFkey)T)
其中,Ws、Wkey是两个可训练的映射权重,Fkey、Fvalue是知识库中的索引关键特征与视觉知识特征,M是知识库大小,即视觉知识特征的数量;或
βi=1if i=argmax(α)else 0。
在步骤7)中,所述融合可利用Dynamic Memory方式对多模态特征进行融合;所述卷积模块的训练过程中可采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
在步骤8)中,所述评价的指标包括IS(Inception Score)、FID(FréchetInception Distance)、PTT(Pseudo Turing Test);
使用PTT进行语义一致性的评价,具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell(XuK,et al.Show,attend and tell:Neural image caption generation with visualattention,2015)与BUTD(Anderson P,et al.Bottom-up and top-down attention forimage captioning and visual question answering,2018)作为“专家”来描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度。
本发明通过引入视觉知识库(VKB)为图像生成提供额外的先验知识,视觉知识库将以key-value的形式被存储以便于知识读取操作。为更好地利用先验知识,提供两种新的相关知识读取方式:弱读取(Soft-Reading)和强读取(Hard-Reading)。最后,设计一种“伪图灵测试”(Pseudo Turing Test,PTT)的语义一致性度量标准,在不同多媒体任务(例如图像字幕生成、文本匹配等)的“专家”的帮助下,直接或间接地评估合成图像与给定文本的语义一致性。
采用上述方案后,本发明的有益效果是:
(1)本发明提供一种用于文本生成图像的知识驱动型对抗生成网络,该网络旨在利用图像先验知识逐步优化图像生成质量,通过弱读取或强读取的先验知识整合方式,使得生成的图像逼真且合理。
(2)本发明提供一种“伪图灵测试”的度量标准,可以更加方便、有效地评价给定描述与生成图像的语义一致性,一定程度上解决先前使用纯视觉质量评估的窘境。
附图说明
图1是本发明的基本流程图;左图为传统文本生成图像流程,右图为知识驱动型的文本生成图像流程;
图2是视觉知识库构建示意图;
图3是知识驱动型文本生成图像的网络架构图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
步骤1,设置输入大的语言描述最大长度为40,噪声维度为256;
α=Softmax(Wsfs,(WkeyFkey)T)
其中,Ws、Wkey是两个可训练的映射权重,Fkey、Fvalue是知识库中的索引关键特征与视觉知识特征,M是知识库大小,即视觉知识特征的数量。也可以根据下列算式通过强读取(Hard-Reading)得到视觉特征
βi=1if i=argmax(α)else 0
步骤8,出常见的IS、FID评价指标外,使用提出的PTT进行生成图像与输入文本之间语义一致性的评估。
步骤2中利用在CUB或者COCO数据集上上训练好的双向LSTM提取文本的全局特征和单词特征。
步骤3中的重采样具体过程如下:
步骤3-1,基于全局语言特征fs预测均值μ(fs)和协方差矩阵∑(fs)
步骤5中的视觉知识库由训练集中与文本描述最相近的M张图像构成。并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue。其中将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取(Soft-Reading)和强读取(Hard-Reading)。
步骤7中利用DynamicMemory方式对多模态特征进行融合。
所述卷积神经网络的训练过程中采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
步骤8中使用PseudoTuringTest(PTT)进行语义一致性的评价。具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell(XuK,et al.Show,attendandtell:Neural image caption generation withvisualattention,2015)与BUTD(Anderson P,et al.Bottom-up and top-down attention forimage captioning and visual question answering,2018)作为“专家”来描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度;
步骤8-3,用生成图像在100个(其中,1个为输入文本,其余99个是随机的数据集中其他文本)文本中检索匹配文本,计算R-precision。
如图1所示,本发明提供一种用于基于先验知识的文本生成图像方法(右图),与传统的文本生成图像方法(左图)相比,本发明在生成过程中引入图像先验知识,使得生成的图像更加逼真、更加符合常识,相当于人类在进行绘画之前已经拥有一定的知识存储,因此在绘画时会绘出更加符合事实的图像。本发明的实现包括如下步骤:
一、视觉知识库的构建
如图2所示为视觉知识库(VKB)的构建示意图,视觉知识库的构建将有利于本发明提出的知识驱动型文本生成图像方法(KD-GAN)的实施。对于每个文本-图像对,即一个自然语言描述和相应的真实图像,VKB包含一个由M个相关图像组成的小型知识库,该知识库将用作该文本-图像对的先验知识,这些先验知识通过文本到文本的匹配过程收集得到。
首先,给定一个文本-图像对,利用预先训练好的语言编码器分别提取该文本-图像对中的文本和训练集中文本的句子特征,计算它们之间的余弦相似度,从而检索出与给定文本最相关的M个描述;然后,将这些被选取的句子对应的图像作为参考知识,形成该文本-图像对的小型知识库。然后,KD-GAN可以根据不同的策略读取训练或测试过程中的图像信息。
为有利于后续的知识读取,上述得到的视觉知识将通过key-value的形式进行存储。使用ResNet50将每个图像编码为key和value特征,将ResNet50最后一个池化层之后得到的特征向量作为key用于查询,将最后一个卷积得到的特征图作为value用于读取。通过上述过程,一个给定的文本-图像对由两部分组成:其中,M表示视觉知识的数目,rv表示用于存储的特征图的尺寸,dk和dv分别表示key和value特征的深度,设置key和value的特征维度均为2048、value的特征图分辨率为7x7;。
得到上述视觉知识库后,Fkey将作为图像的全局表示,可以用于文本到图像的匹配,从而从知识库中选择最相关的视觉知识;Fvalue保留所有区域的属性和特征,可以为图像合成提供足够的先验参考信息。
二、模型实施过程
2.1模型的输入:
2.2语言特征编码器:
对于输入的语言描述,首先通过双向LSTM(可参见A.Graves andJ.Schmidhuber.Framewise phoneme classification with bidirectional lstm andother neural network architectures.In Neural networks.2005.)提取语言的全局特征和局部单词特征其中NT为语言描述的长度。使用与训练的双向LSTM编码输入的语言描述,设置全局特征和单词特征的维度均为dt=300。
2.3条件增强:
对于得到的语言描述的全局特征表示,通过条件增强(ConditioningAugmentation,CA)进行重采样。对于语言全局特征通过全连接层学习到该特征的均值μ和方差σ,再引入一个均匀分布的噪声对全局特征进行重采样(可参见H.Zhang,T.Xu,H.Li,S.Zhang,X.Wang,X.Huang,and D.N.Metaxas.Stackgan:Text to photo-realisticimage synthesis with stacked generative adversarial networks.In ICCV.2017)
2.4初始图像生成:
初始阶段使用DM-GAN(可参见M.Zhu,P.Pan,W.Chen,and Y.Yang.Dm-gan:Dynamicmemory generative adversarial networks for text-to-image synthesis.InCVPR.2019)来生成初始图像。具体来说,对于条件增强后的全局语言描述特征CA(fs),将其与随机噪声向量进行拼接从而得到初始隐藏状态
在得到初始隐藏状态后,将从视觉知识库中获得先验知识并进行整合,本发明提出两种读取整合先验知识的方式,分别为弱读取和强读取。弱读取估计句子与对应小型知识库中每个知识的相关性,然后返回所有知识特征的加权和。即给定句子全局特征以及对应小型知识库中存储的计算每个key对应的权重
α=Softmax(Wsfs(WkeyFkey)T,
其中,Fvalue来自同一小型知识库。以上读取整合视觉知识的方式成为弱读取,其与软注意力机制类似,旨在将所有相关的视觉知识进行整合。然而,计算加权和的方式可能会阻碍视觉知识的独立性和完整性,当权重较小时,由于小权重对应的知识与给定句子无关,会引入不必要的噪声。为此,进一步引入强读取策略,它只选择最匹配的知识,并保持信息的完整性和独立性,视觉先验知识计算如下:
其中,Up表示一种用于融合先验知识特征和潜在状态的上采样卷积层。
2.5多阶段图像优化及生成:
其中,MultimodalFusion可以是任何多模态融合方式,这里使用Dynamic Memory方式(可参见M.Zhu,P.Pan,W.Chen,andY.Yang.Dm-gan:Dynamic memory generativeadversarial networks for text-to-image synthesis.In CVPR.2019)进行融合。与初始阶段一样,使用基于CNN的解码器生成相应图像
2.6多阶段判别器:
对于每个阶段,设置相应的判别器用于判断该阶段生成图像的真假,这里使用与DM-GAN类似的基于CNN的编码器,用来计算该阶段所生成图像为真的得分,该分值用于后续损失函数的计算。
三、模型训练过程
3.1损失函数的计算:
为多模态一致性损失(可参见T.Xu,P.Zhang,Q.Huang,H.Zhang,Z.Gan,X.Huang,and X.He.Attngan:Fine-grained text to image generation withattentional generative adversarial networks.In CVPR.2018),为条件增强损失,用于最小化学习到的分布和标准高斯分布之间的发散程度。
μ(fs)和∑(fs)为句子全局特征的均值和对角协方差矩阵。
3.2模型训练参数设置:
在训练过程中,使用Adam优化器,并设置学习率为0.0002,超参为β1=0.5、β2=0.999。
3.3模型的训练:
对于模型的训练,首先将输入的图片和语言经过步骤二得到模型的输出结果,接着通过步骤3.1来计算模型的损失函数,最后,利用损失函数的梯度反向传播来更新步骤二中的模型参数,训练和迭代过程的设置如步骤3.2所描述。最终完成整个模型的训练。
四、模型评价:
IS和FID是T2I中广泛使用的两个指标,都旨在评估合成图像的清晰度和多样性,这两个指标的公式如下:
FID=||μr-μg||2+Tr(∑r+∑g-2(∑r∑g)1/2
尽管IS和FID被广泛使用,但是它们都是为视觉质量评估而设计的,提出一种叫做“伪图灵测试”(PTT)的质量评估方式,旨在测量文本描述与生成图像之间的语义一致性。PTT包括两个图像字幕伪专家ShowAttendTell和UpDown,间接评估生成图像在语义上是否与给定的句子一致。两位伪专家对不同的T2I方法生成的图像进行重新描述,然后用BLEU,CIDEr和ROUGE来衡量重新描述的图像与输入文本的匹配程度。
此外还提供另外一种伪专家用来进行文本到图像的匹配,叫做它直接衡量不同T2I方法的输出与相同输入之间的相关性。对于第i种T2I方法合成的N张图像,评估第j个输入文本的特征fi.j与输出图像的特征vi,j之间的相关性。平均相关性计算如下:
这里用余弦相似度来定义相关性,即
五、模型部署过程:
在经过步骤三的模型训练后,对于训练完毕的模型,将输入的语言经过步骤二即可得到模型的输出作为相对应的生成结果,即输入某段语言描述,模型输出最符合描述的图像。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (10)
1.一种知识驱动型的文本到图像生成方法,其特征在于包括以下步骤:
1)输入一段语言描述和一个随机噪声;
2)提取语言的全局特征和单词特征;
3)对于全局语言特征进行重采样得到新的全局语言特征;
4)拼接全局语言特征与随机噪声,得到初始图像特征;
5)从视觉知识库中获得先验知识并进行整合,得到视觉特征;
6)将初始图像特征与视觉先验特征进行融合,通过卷积模块得到第一阶段的图像;
7)将上一阶段的图像特征与视觉先验特征融合后,与单词特征进行多模态融合得到当前阶段的图像特征,并通过卷积模块得到当前阶段的图像;
8)进行生成图像与输入文本之间语义一致性的评价。
2.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤1)中,所述语言描述最大长度设为40,噪声维度设为256。
6.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤5),所述视觉知识库由训练集中与文本描述最相近的M张图像构成,并利用在ImageNet上训练好的ResNet50分别提取每个图像关键特征Fkey和值特征Fvalue;其中,将ResNet50最后一个池化层的特征向量作为Fkey用于查询,最后一个卷积特征作为Fvalue作为查询知识库的返回结果;查询知识库的方式有两种,分别为弱读取(Soft-Reading)和强读取(Hard-Reading)。
8.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤7)中,所述融合利用Dynamic Memory方式对多模态特征进行融合;所述卷积模块的训练过程中可采用Adam优化器,设置初始学习率和批处理大小分别为0.0002和20。
9.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于在步骤8)中,所述评价的指标包括IS、FID、PTT。
10.如权利要求1所述一种知识驱动型的文本到图像生成方法,其特征在于使用指标PTT进行语义一致性的评价,具体过程如下:
步骤8-1,在CUB或COCO数据集上训练好的图像描述生成模型ShowAttendTell与BUTD描述生成的图像,衡量“专家”的描述内容与生成前输入的描述内容的一致性;
步骤8-2,使用在CUB或COCO数据集上训练好的Bi-LSTM与InceptionV3分别提取输入文本和生成图像的全局特征,衡量两者的余弦相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005846.0A CN113837229B (zh) | 2021-08-30 | 2021-08-30 | 一种知识驱动型的文本到图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005846.0A CN113837229B (zh) | 2021-08-30 | 2021-08-30 | 一种知识驱动型的文本到图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837229A true CN113837229A (zh) | 2021-12-24 |
CN113837229B CN113837229B (zh) | 2024-03-15 |
Family
ID=78961654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111005846.0A Active CN113837229B (zh) | 2021-08-30 | 2021-08-30 | 一种知识驱动型的文本到图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837229B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648681A (zh) * | 2022-05-20 | 2022-06-21 | 浪潮电子信息产业股份有限公司 | 一种图像生成方法、装置、设备及介质 |
CN115155058A (zh) * | 2022-09-06 | 2022-10-11 | 北京澜舟科技有限公司 | 一种捏脸方法、捏脸系统及存储介质 |
CN117874706A (zh) * | 2024-03-12 | 2024-04-12 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
CN118013069A (zh) * | 2024-04-09 | 2024-05-10 | 杭州海康威视数字技术股份有限公司 | 一种图像检索方法、装置、存储介质和电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7814040B1 (en) * | 2006-01-31 | 2010-10-12 | The Research Foundation Of State University Of New York | System and method for image annotation and multi-modal image retrieval using probabilistic semantic models |
US20150113597A1 (en) * | 2009-12-22 | 2015-04-23 | Disney Enterprises, Inc. | Human Verification by Contextually Iconic Visual Public Turing Test |
US20170068809A1 (en) * | 2015-09-07 | 2017-03-09 | Voicebox Technologies Corporation | System and method of providing and validating enhanced captchas |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN110866958A (zh) * | 2019-10-28 | 2020-03-06 | 清华大学深圳国际研究生院 | 一种文本到图像的方法 |
CN111260740A (zh) * | 2020-01-16 | 2020-06-09 | 华南理工大学 | 一种基于生成对抗网络的文本到图像生成方法 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111858954A (zh) * | 2020-06-29 | 2020-10-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 面向任务的文本生成图像网络模型 |
CN112017255A (zh) * | 2020-08-21 | 2020-12-01 | 上海志唐健康科技有限公司 | 一种根据食谱生成食物图像的方法 |
CN112308081A (zh) * | 2020-11-05 | 2021-02-02 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
-
2021
- 2021-08-30 CN CN202111005846.0A patent/CN113837229B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7814040B1 (en) * | 2006-01-31 | 2010-10-12 | The Research Foundation Of State University Of New York | System and method for image annotation and multi-modal image retrieval using probabilistic semantic models |
US20150113597A1 (en) * | 2009-12-22 | 2015-04-23 | Disney Enterprises, Inc. | Human Verification by Contextually Iconic Visual Public Turing Test |
US20170068809A1 (en) * | 2015-09-07 | 2017-03-09 | Voicebox Technologies Corporation | System and method of providing and validating enhanced captchas |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN110866958A (zh) * | 2019-10-28 | 2020-03-06 | 清华大学深圳国际研究生院 | 一种文本到图像的方法 |
CN111260740A (zh) * | 2020-01-16 | 2020-06-09 | 华南理工大学 | 一种基于生成对抗网络的文本到图像生成方法 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111858954A (zh) * | 2020-06-29 | 2020-10-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 面向任务的文本生成图像网络模型 |
CN112017255A (zh) * | 2020-08-21 | 2020-12-01 | 上海志唐健康科技有限公司 | 一种根据食谱生成食物图像的方法 |
CN112308081A (zh) * | 2020-11-05 | 2021-02-02 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648681A (zh) * | 2022-05-20 | 2022-06-21 | 浪潮电子信息产业股份有限公司 | 一种图像生成方法、装置、设备及介质 |
CN115155058A (zh) * | 2022-09-06 | 2022-10-11 | 北京澜舟科技有限公司 | 一种捏脸方法、捏脸系统及存储介质 |
CN115155058B (zh) * | 2022-09-06 | 2023-02-03 | 北京澜舟科技有限公司 | 一种捏脸方法、捏脸系统及存储介质 |
CN117874706A (zh) * | 2024-03-12 | 2024-04-12 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
CN117874706B (zh) * | 2024-03-12 | 2024-05-31 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
CN118013069A (zh) * | 2024-04-09 | 2024-05-10 | 杭州海康威视数字技术股份有限公司 | 一种图像检索方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113837229B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113837229B (zh) | 一种知识驱动型的文本到图像生成方法 | |
CN113010693B (zh) | 融合指针生成网络的知识图谱智能问答方法 | |
CN112000818B (zh) | 一种面向文本和图像的跨媒体检索方法及电子装置 | |
Yang et al. | Multi-sentence auxiliary adversarial networks for fine-grained text-to-image synthesis | |
CN113035311B (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
CN112734881B (zh) | 基于显著性场景图分析的文本合成图像方法及系统 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN110069656A (zh) | 一种基于生成对抗网络的二维图片检索三维模型的方法 | |
CN115601772B (zh) | 一种基于多模态学习的美学质量评价模型和方法 | |
CN115861995B (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN115186110B (zh) | 基于关系增强负采样的多模态知识图谱补全方法与系统 | |
CN113343705A (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN113254694B (zh) | 一种文本转图像方法和装置 | |
CN108665055A (zh) | 一种图说生成方法及装置 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN115858847A (zh) | 基于跨模态注意力保留的组合式查询图像检索方法 | |
CN118013069B (zh) | 一种图像检索方法、装置、存储介质和电子设备 | |
CN115690245A (zh) | 一种基于属性驱动gan的文本生成图像的方法 | |
CN116452688A (zh) | 一种基于共同注意力机制的图像描述生成方法 | |
CN116541520A (zh) | 一种情感分析方法、装置、电子设备及存储介质 | |
CN114332565A (zh) | 一种基于分布估计的条件生成对抗网络文本生成图像方法 | |
Kasi et al. | A deep learning based cross model text to image generation using DC-GAN | |
CN117392284B (zh) | 自适应条件增强的文本图像生成方法、系统、装置及介质 | |
CN117972484B (zh) | 一种可解释性的多模态自然语言情感分析方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |