CN115482302A - 一种基于交叉注意力编码的从文本生成图像方法 - Google Patents

一种基于交叉注意力编码的从文本生成图像方法 Download PDF

Info

Publication number
CN115482302A
CN115482302A CN202110618224.9A CN202110618224A CN115482302A CN 115482302 A CN115482302 A CN 115482302A CN 202110618224 A CN202110618224 A CN 202110618224A CN 115482302 A CN115482302 A CN 115482302A
Authority
CN
China
Prior art keywords
image
attention
cross
text
cross attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110618224.9A
Other languages
English (en)
Inventor
何小海
谈馨悦
王正勇
罗晓东
卿粼波
吴小强
滕奇志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110618224.9A priority Critical patent/CN115482302A/zh
Publication of CN115482302A publication Critical patent/CN115482302A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于一种基于交叉注意力编码的从文本生成图像方法。包括以下步骤:文本描述通过交叉注意力编码器得到交叉注意力特征向量和单词特征矩阵,交叉注意力编码器是一个需要预训练的网络,该网络能提取文本信息和原图像信息,并将这两种跨模态信息进行翻译和对齐,最终输出语言和视觉的联合编码后的交叉注意力特征向量。交叉注意力特征向量输入经典三级对抗生成网络,逐级生成分辨率为64×64,128×128,256×256的逼真图像。本发明所述的基于交叉注意力编码的从文本生成图像的方法比其他方法效果明显提升,评价指标综合表现良好,基本能够胜任一般的从文本生成图像任务需要。

Description

一种基于交叉注意力编码的从文本生成图像方法
技术领域
本发明设计了一种基于交叉注意力编码的从文本生成图像方法,涉及深度学习,计算机视觉技术领域和自然语言处理领域。
背景技术
随着生成对抗网络(Generative adversarial networks,GANs)的发展,一些横跨计算机视觉和自然语言处理两大领域的任务应运而生,包括图像描述生成、素描上色、视觉问答以及文本合成图像等等,根据文本描述生成图像问题是近年来两大领域学者重点研究的子任务,该任务的关键在于构建语言和图像两种不同模态信息之间的沟通桥梁,促进网络模型生成与文本描述匹配的高质量逼真图像。由于生成对抗网络在处理多模态问题方面表现出优良的性能,因此在GANs被广泛应用于此研究任务中。
近年来,主要的从文本生成图像方法首先将文本描述进行编码,再将文本描述编码作为生成器的附加条件信息,采用单级或三级的对抗生成网络生成逼真图像,单级生成对抗网络生成图像的分辨率低,三级生成对抗网络逐级生成分辨率为64×64、128×128、256×256的高分辨图像。然而,目前主流的文本生成图像网络模型通过预训练文本编码器直接对文本描述进行编码,这种独立对文本描述进行编码的方式并未考虑文本信息和对应图像信息之间的语义联系,忽略了语言空间和图像空间的语义鸿沟,导致生成图像与文本的匹配度低,从而影响生成图像的质量。在基于GANs的文本生成图像网络模型中,动态存储生成对抗网络模型(Dynamic memory generative adversarial networks,DM-GAN)是非常具有代表性的,但它的预训练文本编码器仍旧忽略了语言空间和图像空间的语义鸿沟。
最近,基于Transformer来学习语言和视觉的联合编码表示研究有了重大突破,这种跨模态的交叉注意力机制旨在捕捉语言和视觉的映射关系,能有效地搭建这两种跨模态信息的沟通桥梁,从而有效地提升以视觉语言交叉任务模型性能。
发明内容
本发明为解决上述问题提供一种基于交叉注意力编码的从文本生成图像的方法。本发明在预训练文本编码器中引入了交叉注意力机制,捕捉语言信息和图像信息的内在联系,从而更准确的对文本描述进行编码。
本发明通过以下技术方案来实现上述目的:
一种基于交叉注意力编码的从文本生成图像的方法,包括以下步骤:
(1)文本描述输入交叉注意力编码器,该编码器对文本描述进行联合编码,输出一个交叉注意力特征向量fc和一个单词特征矩阵W。
(2)交叉注意力特征向量fc和噪声z结合成特征向量fc',fc'输入初级生成网络,生成64×64的低分辨率初始图象,初始图像特征为F0
(3)将F0和单纯特征矩阵W输入动态存储模块(Dynamic memory)中,动态存储模块会选择相应的单词信息对图像特征F0进行优化得到F0'。
(4)特征F0'为二级生成网络的输入,二级生成网络生成分辨率为128×128的图像,图像特征为F1,经动态存储模块优化后得到特征F1'。
(5)特征F1'为三级生成网络输入,最终,三级生成网络生成分辨率为256×256的高分辨率图像。
附图说明
图1是交叉注意力编码器模型图。
图2是基于交叉注意力编码器的文本生成图像模型框图。
具体实施方式
下面结合附图对本发明作进一步说明:
图1是交叉注意力编码器模型图:
交叉注意力编码器是需要针对不同数据集进行预训练的一个模块,在预训练阶段,将原图以及对应的文本描述输入交叉注意力编码器中,该模块会输出一个交叉注意力特征向量fc和一个单词特征矩阵W,详细过程如下:
(1)将原图片输入图像特征提取网络得到原图像特征向量fv,图像特征提取网络使用InceptionV3网络。
(2)将对应的文本描述输入文本特征提取网络得到一个全局句子向量s和一个单词特征矩阵W,文本特征提取网络使用双向LSTM网络。
(3)将全局句子向量s和图像特征向量fv分别通过两个线性层映射到两个特征空间ks,vs,qs和kv,vv,qv,计算交叉注意力分数。
Figure BDA0003093868920000021
(4)分数通过Softmax函数归一化得到权重Sc,由权重和特征向量vs相乘得到特征向量l,l经过正则化处理后得到交叉编码lc
Sc=Softm(score)
l=sc·vs
lc=Normalization(A1l+B1)
(5)将交叉编码lc再次经过自注意力网络进一步检索上下文信息,其过程如下:lc经过线性层映射到特征空间ql,kl,vl,计算自注意力权重Ss,由权重和特征向量vl相乘得到特征向量lcs,最终,lcs经过正则化处理后得到交叉注意力特征向量fc
ql,kl,vl=Linear(lc)
Figure BDA0003093868920000031
lcs=ss·vl
fc=Normalization(A2lcs+B2)
图2是基于交叉注意力编码器的文本生成图像模型框图,包括以下步骤:
(1)将文本描述输入交叉注意力编码器得到交叉注意力特征向量fc和单词特征矩阵W,fc结合高斯噪声后输入初级生成网络得到初始图像特征F0,初始图像特征通过初级生成器G0生成分辨率为64×64的初始图像。
(2)F0和单词特征矩阵W输入动态存储模块(Dynamic memory),该模块选取单词信息更新初始图像特征F0为F0',F0'输入第二级生成网络的到二级生成图像特征F1,F1通过二级生成器G1生成分辨率为128×128的图像。
(3)同理,F1经动态存储模块更新为F1',F1'输入第三级生成网络得到生成图像特征F2,F2经生成器G2生成分辨率为256×256的最终逼真图像。
CUB-200-2011鸟类数据集的训练集有8855张图片,测试集有2933张图片。实验在CUB数据集上进行,首先预训练交叉注意力编码器,batch size设置为48,学习率设置为0.002,共训练250个epoch,再载入保存的预训练编码器模型从而单独训练对抗生成网络,batch size设置为20,学习率设置为0.0002,共训练1800个epoch。本发明实验结果如表1和表2所示,对本发明生成图片测试其IS(Inception Score)分数和FID(Fréchet InceptionDistance)分数,IS分数越高,表示生成图片清晰度越好,多样性越丰富;FID分数越低表示生成图片越接近原图,逼真度更高。
表1不同模型在CUB数据集上的IS分数
Figure BDA0003093868920000032
表2不同模型在CUB数据集上的FID分数
Figure BDA0003093868920000041
由表1可知,对比其他模型,本发明的IS分数明显提升,由表2可知,本发明的FID分数明显下降,验证了本发明的有效性。

Claims (5)

1.一种基于交叉注意力编码的从文本生成图像的方法,其特征在于包括以下步骤:
步骤一:将文本描述输入交叉注意力编码器,该编码器对文本描述进行编码,同时捕捉文本信息和图像信息的内在联系,最终输出一个交叉注意力特征向量fc和一个单词特征矩阵W;
步骤二:交叉注意力特征向量fc和高斯噪声z结合后输入初级生成网络,生成64×64的低分辨率初始图象,初始图像特征为F0
步骤三:将F0和单纯特征矩阵W输入动态存储模块(Dynamic memory)中,动态存储模块会选择相应的单词信息对图像特征F0进行优化得到F′0
步骤四:特征F′0输入第二级生成网络生成分辨率为128×128的图像,图像特征为F1,F1经动态存储模块优化后得到特征F′1
步骤五:特征F′1输入第三级生成网络,最终生成分辨率为256×256的高分辨率图像最终。
2.权利要求1所述步骤一的交叉注意力编码器,由文本特征提取、图像特征提取、交叉注意力编码、自注意力编码四部分构成:文本特征提取模块基于双向长短时记忆网络(BiLSTM)实现,提取文本信息输出单词特征矩阵W和全局句子特征向量s;图像特征提取模块基于InceptionV3网络实现,提取原图特征fv;全局句子特征向量s经交叉注意力编码模块与原图像特征进行对齐和翻译,再经过自注意力编码模块进一步检索上下文信息后,更新为交叉注意力特征向量fc
3.权利要求1步骤二的交叉注意力特征向量fc是基于Transformer的跨模态编码表示思想提出的,fc不简单表示了文本描述信息,fc是捕捉了文本信息和图像信息内部联系的联合编码。
4.权利要求2交叉注意力编码模块用于构建文本特征和图像特征的内在联系,旨在计算全局句子特征向量s和原图特征fv的交叉注意力分数,得到交叉注意力权重,从而优化全局句子特征,具体计算方法如下:
qs,ks,vs=Linear(s)
qv,kv,vv=Linear(fv)
Figure FDA0003093868910000011
score'=Soft(score)
sc=dropout(score')
l=sc·vs
lc=Normalization(A1l+B1)
在上式中,Linear表示线性层,两个线性层分别将s和fv映射到两个特征空间,λc为自定义常数,soft表示softmax函数,dropout函数防止过拟合,Normalization函数表示正则化处理,lc为该模块输出的联合编码。
5.权利要求2自注意力编码模块可以进一步检索文本描述上下文信息,旨在计算自注意力分数,得到自注意力权重,从而进一步优化编码联合编码lc,具体计算过程如下:
ql,kl,vl=Linear(lc)
Figure FDA0003093868910000021
lcs=ss·vl
fc=A2lcs+B2
在上式中,Linear表示线性层,Soft表示softmax函数,dropout函数防止过拟合,A2和B2通过训练学习得到。
CN202110618224.9A 2021-05-31 2021-05-31 一种基于交叉注意力编码的从文本生成图像方法 Pending CN115482302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110618224.9A CN115482302A (zh) 2021-05-31 2021-05-31 一种基于交叉注意力编码的从文本生成图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110618224.9A CN115482302A (zh) 2021-05-31 2021-05-31 一种基于交叉注意力编码的从文本生成图像方法

Publications (1)

Publication Number Publication Date
CN115482302A true CN115482302A (zh) 2022-12-16

Family

ID=84419965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110618224.9A Pending CN115482302A (zh) 2021-05-31 2021-05-31 一种基于交叉注意力编码的从文本生成图像方法

Country Status (1)

Country Link
CN (1) CN115482302A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863034A (zh) * 2023-07-11 2023-10-10 华院计算技术(上海)股份有限公司 一种提升扩散模型图片生成效果的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863034A (zh) * 2023-07-11 2023-10-10 华院计算技术(上海)股份有限公司 一种提升扩散模型图片生成效果的方法
CN116863034B (zh) * 2023-07-11 2024-05-14 华院计算技术(上海)股份有限公司 一种提升扩散模型图片生成效果的方法

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN111260740A (zh) 一种基于生成对抗网络的文本到图像生成方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN113361250A (zh) 一种基于语义一致性的双向文本生成图像方法及系统
CN111325660B (zh) 一种基于文本数据的遥感图像风格转换方法
CN110309839A (zh) 一种图像描述的方法及装置
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN107563409B (zh) 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN113140020A (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
Tang et al. DenseNet with Up-Sampling block for recognizing texts in images
CN113362416A (zh) 基于目标检测的文本生成图像的方法
CN116596150A (zh) 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法
CN115690245A (zh) 一种基于属性驱动gan的文本生成图像的方法
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
CN115482302A (zh) 一种基于交叉注意力编码的从文本生成图像方法
CN114022582A (zh) 一种文本生成图像方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination