CN115482302A

CN115482302A - 一种基于交叉注意力编码的从文本生成图像方法

Info

Publication number: CN115482302A
Application number: CN202110618224.9A
Authority: CN
Inventors: 何小海; 谈馨悦; 王正勇; 罗晓东; 卿粼波; 吴小强; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-12-16

Abstract

本发明公开了基于一种基于交叉注意力编码的从文本生成图像方法。包括以下步骤：文本描述通过交叉注意力编码器得到交叉注意力特征向量和单词特征矩阵，交叉注意力编码器是一个需要预训练的网络，该网络能提取文本信息和原图像信息，并将这两种跨模态信息进行翻译和对齐，最终输出语言和视觉的联合编码后的交叉注意力特征向量。交叉注意力特征向量输入经典三级对抗生成网络，逐级生成分辨率为64×64，128×128，256×256的逼真图像。本发明所述的基于交叉注意力编码的从文本生成图像的方法比其他方法效果明显提升，评价指标综合表现良好，基本能够胜任一般的从文本生成图像任务需要。

Description

一种基于交叉注意力编码的从文本生成图像方法

技术领域

本发明设计了一种基于交叉注意力编码的从文本生成图像方法,涉及深度学习，计算机视觉技术领域和自然语言处理领域。

背景技术

随着生成对抗网络(Generative adversarial networks,GANs)的发展，一些横跨计算机视觉和自然语言处理两大领域的任务应运而生，包括图像描述生成、素描上色、视觉问答以及文本合成图像等等，根据文本描述生成图像问题是近年来两大领域学者重点研究的子任务，该任务的关键在于构建语言和图像两种不同模态信息之间的沟通桥梁，促进网络模型生成与文本描述匹配的高质量逼真图像。由于生成对抗网络在处理多模态问题方面表现出优良的性能，因此在GANs被广泛应用于此研究任务中。

近年来，主要的从文本生成图像方法首先将文本描述进行编码，再将文本描述编码作为生成器的附加条件信息，采用单级或三级的对抗生成网络生成逼真图像，单级生成对抗网络生成图像的分辨率低，三级生成对抗网络逐级生成分辨率为64×64、128×128、256×256的高分辨图像。然而，目前主流的文本生成图像网络模型通过预训练文本编码器直接对文本描述进行编码，这种独立对文本描述进行编码的方式并未考虑文本信息和对应图像信息之间的语义联系，忽略了语言空间和图像空间的语义鸿沟，导致生成图像与文本的匹配度低，从而影响生成图像的质量。在基于GANs的文本生成图像网络模型中，动态存储生成对抗网络模型(Dynamic memory generative adversarial networks,DM-GAN)是非常具有代表性的，但它的预训练文本编码器仍旧忽略了语言空间和图像空间的语义鸿沟。

最近，基于Transformer来学习语言和视觉的联合编码表示研究有了重大突破，这种跨模态的交叉注意力机制旨在捕捉语言和视觉的映射关系，能有效地搭建这两种跨模态信息的沟通桥梁，从而有效地提升以视觉语言交叉任务模型性能。

发明内容

本发明为解决上述问题提供一种基于交叉注意力编码的从文本生成图像的方法。本发明在预训练文本编码器中引入了交叉注意力机制，捕捉语言信息和图像信息的内在联系，从而更准确的对文本描述进行编码。

本发明通过以下技术方案来实现上述目的：

一种基于交叉注意力编码的从文本生成图像的方法，包括以下步骤：

(1)文本描述输入交叉注意力编码器，该编码器对文本描述进行联合编码，输出一个交叉注意力特征向量f_c和一个单词特征矩阵W。

(2)交叉注意力特征向量f_c和噪声z结合成特征向量f_c'，f_c'输入初级生成网络，生成64×64的低分辨率初始图象，初始图像特征为F₀。

(3)将F₀和单纯特征矩阵W输入动态存储模块(Dynamic memory)中，动态存储模块会选择相应的单词信息对图像特征F₀进行优化得到F₀'。

(4)特征F₀'为二级生成网络的输入,二级生成网络生成分辨率为128×128的图像，图像特征为F₁，经动态存储模块优化后得到特征F₁'。

(5)特征F₁'为三级生成网络输入，最终，三级生成网络生成分辨率为256×256的高分辨率图像。

附图说明

图1是交叉注意力编码器模型图。

图2是基于交叉注意力编码器的文本生成图像模型框图。

具体实施方式

下面结合附图对本发明作进一步说明：

图1是交叉注意力编码器模型图：

交叉注意力编码器是需要针对不同数据集进行预训练的一个模块，在预训练阶段，将原图以及对应的文本描述输入交叉注意力编码器中，该模块会输出一个交叉注意力特征向量f_c和一个单词特征矩阵W，详细过程如下：

(1)将原图片输入图像特征提取网络得到原图像特征向量f_v，图像特征提取网络使用InceptionV3网络。

(2)将对应的文本描述输入文本特征提取网络得到一个全局句子向量s和一个单词特征矩阵W，文本特征提取网络使用双向LSTM网络。

(3)将全局句子向量s和图像特征向量f_v分别通过两个线性层映射到两个特征空间k_s,v_s,q_s和k_v,v_v,q_v，计算交叉注意力分数。

(4)分数通过Softmax函数归一化得到权重S_c，由权重和特征向量v_s相乘得到特征向量l，l经过正则化处理后得到交叉编码l_c。

S_c＝Softm(score)

l＝s_c·v_s

l_c＝Normalization(A₁l+B₁)

(5)将交叉编码l_c再次经过自注意力网络进一步检索上下文信息，其过程如下：l_c经过线性层映射到特征空间q_l,k_l,v_l，计算自注意力权重S_s,由权重和特征向量v_l相乘得到特征向量l_cs，最终，l_cs经过正则化处理后得到交叉注意力特征向量f_c。

q_l,k_l,v_l＝Linear(l_c)

l_cs＝s_s·v_l

f_c＝Normalization(A₂l_cs+B₂)

图2是基于交叉注意力编码器的文本生成图像模型框图，包括以下步骤：

(1)将文本描述输入交叉注意力编码器得到交叉注意力特征向量f_c和单词特征矩阵W，f_c结合高斯噪声后输入初级生成网络得到初始图像特征F₀，初始图像特征通过初级生成器G₀生成分辨率为64×64的初始图像。

(2)F₀和单词特征矩阵W输入动态存储模块(Dynamic memory)，该模块选取单词信息更新初始图像特征F₀为F₀',F₀'输入第二级生成网络的到二级生成图像特征F₁，F₁通过二级生成器G₁生成分辨率为128×128的图像。

(3)同理，F₁经动态存储模块更新为F₁'，F₁'输入第三级生成网络得到生成图像特征F₂，F₂经生成器G₂生成分辨率为256×256的最终逼真图像。

CUB-200-2011鸟类数据集的训练集有8855张图片，测试集有2933张图片。实验在CUB数据集上进行，首先预训练交叉注意力编码器，batch size设置为48，学习率设置为0.002，共训练250个epoch，再载入保存的预训练编码器模型从而单独训练对抗生成网络，batch size设置为20，学习率设置为0.0002，共训练1800个epoch。本发明实验结果如表1和表2所示，对本发明生成图片测试其IS(Inception Score)分数和FID(Fréchet InceptionDistance)分数，IS分数越高，表示生成图片清晰度越好，多样性越丰富；FID分数越低表示生成图片越接近原图，逼真度更高。

表1不同模型在CUB数据集上的IS分数

表2不同模型在CUB数据集上的FID分数

由表1可知，对比其他模型，本发明的IS分数明显提升，由表2可知，本发明的FID分数明显下降，验证了本发明的有效性。

Claims

1.一种基于交叉注意力编码的从文本生成图像的方法，其特征在于包括以下步骤：

步骤一：将文本描述输入交叉注意力编码器，该编码器对文本描述进行编码，同时捕捉文本信息和图像信息的内在联系，最终输出一个交叉注意力特征向量f_c和一个单词特征矩阵W；

步骤二：交叉注意力特征向量f_c和高斯噪声z结合后输入初级生成网络，生成64×64的低分辨率初始图象，初始图像特征为F₀；

步骤三：将F₀和单纯特征矩阵W输入动态存储模块(Dynamic memory)中，动态存储模块会选择相应的单词信息对图像特征F₀进行优化得到F′₀；

步骤四：特征F′₀输入第二级生成网络生成分辨率为128×128的图像，图像特征为F₁，F₁经动态存储模块优化后得到特征F′₁；

步骤五：特征F′₁输入第三级生成网络，最终生成分辨率为256×256的高分辨率图像最终。

2.权利要求1所述步骤一的交叉注意力编码器，由文本特征提取、图像特征提取、交叉注意力编码、自注意力编码四部分构成：文本特征提取模块基于双向长短时记忆网络(BiLSTM)实现，提取文本信息输出单词特征矩阵W和全局句子特征向量s；图像特征提取模块基于InceptionV3网络实现，提取原图特征f_v；全局句子特征向量s经交叉注意力编码模块与原图像特征进行对齐和翻译，再经过自注意力编码模块进一步检索上下文信息后，更新为交叉注意力特征向量f_c。

3.权利要求1步骤二的交叉注意力特征向量f_c是基于Transformer的跨模态编码表示思想提出的，f_c不简单表示了文本描述信息，f_c是捕捉了文本信息和图像信息内部联系的联合编码。

4.权利要求2交叉注意力编码模块用于构建文本特征和图像特征的内在联系，旨在计算全局句子特征向量s和原图特征f_v的交叉注意力分数，得到交叉注意力权重，从而优化全局句子特征，具体计算方法如下：

q_s,k_s,v_s＝Linear(s)

q_v,k_v,v_v＝Linear(f_v)

score'＝Soft(score)

s_c＝dropout(score')

l＝s_c·v_s

l_c＝Normalization(A₁l+B₁)

在上式中，Linear表示线性层，两个线性层分别将s和f_v映射到两个特征空间，λ_c为自定义常数，soft表示softmax函数，dropout函数防止过拟合，Normalization函数表示正则化处理，l_c为该模块输出的联合编码。

5.权利要求2自注意力编码模块可以进一步检索文本描述上下文信息，旨在计算自注意力分数，得到自注意力权重，从而进一步优化编码联合编码l_c，具体计算过程如下：

q_l,k_l,v_l＝Linear(l_c)

l_cs＝s_s·v_l

f_c＝A₂l_cs+B₂

在上式中，Linear表示线性层，Soft表示softmax函数，dropout函数防止过拟合，A₂和B₂通过训练学习得到。