CN116188621A

CN116188621A - 基于文本监督的双向数据流生成对抗网络图像生成方法

Info

Publication number: CN116188621A
Application number: CN202211570345.1A
Authority: CN
Inventors: 张爱琳; 吴春国; 刘桂霞; 张秀伊; 邱正中
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-05-30

Abstract

本发明适用于图像生成技术领域，提供了基于文本监督的双向数据流生成对抗网络图像生成方法，包括以下步骤：步骤一：输入文本，并对文本中的句子和单词进行双通道处理，形成了一种全局‑局部注意力机制，随后通过生成器生成图像；步骤二：将步骤一中生成的图像通过卷积神经网络重新转换为新文本，并将新文本与图像分别经过文本编码器和图像编码器获得各自的嵌入表示向量，计算二者相似度；步骤三：依据步骤二中的相似度进行判断，再通过生成模型反向传播，更新潜在空间的嵌入表示向量，重复前向和后向传递直到收敛，得到最大相似度，最后输出最优图像，该方法能够提升由给定文本生成图像的真实性、细节性以及多样性，完成更复杂的图像生成任务。

Description

基于文本监督的双向数据流生成对抗网络图像生成方法

技术领域

本发明涉及图像生成技术领域，具体是基于文本监督的双向数据流生成对抗网络图像生成方法。

背景技术

随着数据时代爆发性的数据增长，与繁琐的文本信息相比，人们更倾心于直观可见的图片信息，这让基于文本监督的图像生成方法逐渐火热起来。同时，近年来多模态的研究吸引了越来越多学者的关注，尤其是计算机视觉和自然语言处理的交叉领域研究。基于文本监督的图像生成任务是指将以文本形式呈现的关键词或语句生成与文本语义相近的图像。由于近年来生成对抗网络(GAN,Generative Adversarial Networks)在图像生成任务上的成功，所以在目前该类任务中大多使用GAN作为模型框架来生成高分辨率的图像，例如植物、动物和人脸等，与其他的生成模型相比，GAN不仅可以避免各种复杂的计算，而且生成的图片质量也更好。

GAN是一种模拟博弈游戏的训练网络，由生成器G和判别器D两部分组成，生成器学习真实样本的分布，从而生成接近真实样本的伪样本来欺骗判别器，而判别器主要是区分其输入是真实样本和伪样本，通过让生成器和判别器互相博弈对抗达到纳什平衡状态，从而达到优化的效果，使生成器生成的数据最大可能地接近真实样本，即使得判别器无法判别出来其输入是真实样本还是伪样本。GAN模型的训练可以分为三个步骤：首先，固定判别器D，训练生成器G；其次，固定生成器G，训练判别器D；最后循环前两步骤并不断进行训练。目前在生成对抗网络中应用最为广泛的两种神经网络是卷积神经网络和自动编码器神经网络。基于卷积神经网路搭建的GAN，其生成器是由多个卷积网络层组成，例如最先采用此结构的DCGAN，该模型引入了批量正则化来稳定GAN的训练过程；而自动编码网络，则是输入值设置为目标值，用自监督方法来进行训练，是一种可用于无监督学习的自重构神经网络。例如VAEGAN，就是用判别器来表示VAE的重构过程中的损失，从而结合自动编码器和GAN两者的优势来生成优质图像。原始的GAN有很多缺陷，国内外众多论文从不同角度提出了对GAN的改进方案，Karras等人为提高对生成图像特定特征的控制，提出基于风格的生成器(style-based generator)，通过分别修改每层输入来控制各层的视觉特征；此外，Qiao等人为使生成图像更加细致，在GAN中引入注意力机制，通过关注文本描述中的关键词，从而能够在图像的不同子区域生成更精细的信息；Zhu等人提出DM-GAN，设计出一个动态记忆模型(dynamic memory module)选择与生成图像相关的单词，使得生成的图像很好地匹配文本描述。但是，使用单词级别的注意力机制并不能确保全局语义的一致性，由于文本和图像模式的多样性，Li等人提出的MirrorGAN可以先根据文本生成图像，再将图像重新转换成文本，进行对比来解决一致性问题；Zhu等人通过ManiGAN试图解决生成图像的属性与给定文本中的属性表述不一致的问题，该方法提出文本和图像的仿射结合模型，以融合图像特征与文本特征，并设计细节改正模型来纠正图像与文本属性不一致问题，同时补全图片细节，以上方法不同程度地提升了生成图片的质量。基于生成对抗网络强大的能力，已有许多经典的工作，旨在使计算机能够根据输入的文本自动生成预期的视觉内容。同时也在多个任务实现落地应用，创造了较大的实际价值。如广告设计、艺术创作、动画制作、虚拟现实、目标检测、监控跟踪等。一系列视觉生成技术用人工智能技术赋能相关产业，助力产业自动化、智能化改革与转型。

总体来说，图像生成技术的最大挑战在于其生成的图像尚且无法与人类的视觉认知达成高度一致。首先，图像生成的样本随机性较大，只能实现一些简单的任务，大多图像转换缺少对图像变化细节(如物体形状、纹理以及背景等)进行学习的能力；其次，现有的图像生成技术可控性差，大部分只能进行随机视觉生成，无法用于对生成可控性和生成细节要求高的任务中；最后，图像生成用于风格迁移等任务上时只能实现两个域之间的迁移，而多域迁移的效果很差。因此，针对以上生成图像细节粗糙、与文本匹配度不高等现状，迫切需要提供基于文本监督的双向数据流生成对抗网络图像生成方法，以克服当前实际应用中的不足。

发明内容

本发明的目的在于提供基于文本监督的双向数据流生成对抗网络图像生成方法，旨在解决上述技术背景中的生成图像细节粗糙及与给定文本匹配度不高的问题。

本发明公布的，基于文本监督的双向数据流生成对抗网络图像生成方法包括以下步骤：

步骤一：输入文本，并采用循环神经网络对文本中的句子和单词进行双通道处理，形成了一种全局-局部注意力机制，随后通过生成器生成图像；

步骤二：将步骤一中生成的图像通过卷积神经网络重新转换为新文本，并将新文本与图像分别经过文本编码器和图像编码器获得各自的嵌入表示向量，进而基于嵌入表示向量计算二者的相似度；

步骤三：依据步骤二中的相似度进行判断，再通过生成模型反向传播，更新潜在空间的嵌入表示向量，重复前向和后向传递直到收敛，得到最大相似度，最后输出最优图像。

作为本发明进一步的方案：在步骤一中，引入注意力机制，引导生成器在生成不同领域的图像时关注不同的单词。

作为本发明进一步的方案：在步骤一中，双通道处理的具体步骤为：

将给定的文本描述T_ext同时嵌入到单词级别特征和句子级别特征中，得到：

w,s＝RNN(T_ext)；

T_eXt＝{T_l|l＝0，1，2......L-1}；

w＝{w^l|l＝0，1，2......L-1}；

其中w表示单词级别特征，s表示句子级别特征，L表示句子的长度，w^l表示每个单词的隐藏状态。

作为本发明进一步的方案：对于句子的处理使用条件增强方法来增强文本描述，以此得到增强的句子向量s_ca，即

s_ca＝F_ca(s)；

其中，F_ca表示条件增强函数。

作为本发明进一步的方案：在步骤一的图像生成结构中，通过堆叠视觉转换器H和图像生成器G的方法来达到高质量图像的效果，具体公式为：

h₀＝H₀(z，s)；

其中z～N(0，1)表示随机噪声，h₀表示隐藏状态，z表示随机噪声的输入，并服从标准的正态分布，单词级别的语义特征是将w和视觉嵌入h_i作为输入，U_i-1w是w通过视觉转换器感知层得到。

作为本发明进一步的方案：在步骤一中，对于句子级别的语义特征，采用全局约束，具体为：

h₁＝H_i(h_i-1，concat(W_i-1，S_i-1))；

其中，i∈{1，2，......，m-1}，I_i＝G_i(h_i)；

V_i-1s是s通过视觉转换器感知层得到的，二者形成这种全局-局部互相补充的注意力机制之后，再通过生成器G进行图像I的生成，其中要经过m轮次。

作为本发明进一步的方案：在步骤二中，将生成图像经过卷积神经网络CNN处理后得到新的文本T_i，将新的文本T_i和图像I_i分别置入编码器中，得到二者的嵌入T_f和I_f：

T_i＝CNN(I_m-1)；

I_f＝image_encoder(I_i)；

T_f＝text_encoder(T_i)；

然后对I_f和T_f做L2正则化得到I_e和T_e，最后将二者的嵌入做相似度计算，得到如下公式，τ表示对比学习中的可训练参数：

pred＝cos_similarity(I_e，T_e ^T)＝(I_e·T_e ^T)·τ。

作为本发明进一步的方案：该方法还包括两种对抗性损失：

视觉真实性损失和文本-图像语义一致性损失；

在训练模型过程中，生成器G和判别器D交替训练，使生成器其在第i轮的损失最小，I_i为生成器第i次生成的图像：

对于文本-图像语义一致性的损失，从两个方面进行计算，分别是

和/>

axis＝0表示按列计算文本的损失函数，axis＝1表示按行计算图像的损失函数：

将二者平均计算为L_CLIP(I～T)，表示图像语义一致性损失函数：

得到总损失函数是上述损失的加权组合：

/>

与现有技术相比，本发明的有益效果：

本发明通过将输入文本经过RNN对句子和单词进行双通道处理，形成一种全局局部注意力机制，随后通过生成器生成图像；将图像通过卷积神经网络CNN重新转换为新文本，并将新文本与图像分别经过文本编码器和图像编码器，对二者做嵌入相似度计算，并对其值做判断，再通过生成模型反向传播，更新潜在向量，重复前向、后向传递直到收敛，使所生成的图像与给定文本越来越接近，从而得到最优图像；

本发明借鉴互相博弈的思想，使文本转换图像和图像转换文本两个过程互相牵制，形成环路，达到生成高质量图像的目的；

对于生成图像的细节处理得更好，包括在颜色、形状、以及数量等特征的呈现上；

可以生成与给定文本语义一致且清晰度高的图像。

附图说明

图1为本发明实施例提供的基于文本监督的双向数据流生成对抗网络图像生成方法的结构图。

图2为基于文本监督的双向数据流生成对抗网络图像生成方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

请参阅图1和图2，本发明实施例提供的基于文本监督的双向数据流生成对抗网络图像生成方法，该方法包括以下步骤：

步骤一：输入文本，引入注意力机制，引导生成器在生成不同领域的图像时关注不同的单词，但又不仅依靠文本的单词级别语义，为保证全文本的语义一致性，在文本输入端口设置两条通道，并采用循环神经网络RNN对文本中的句子和单词进行双通道处理，形成了一种全局-局部注意力机制，随后通过生成器生成图像；

其中双通道处理的具体步骤为：

w,s＝RNN(T_ext)；

T_ext＝{T_l|l＝0,1,2......L-1}，L表示句子的长度；

w＝{w^l|l＝0,1,2......L-1}，w^l表示每个单词的隐藏状态；

其中w表示单词级别特征，s表示句子级别特征；

对于句子的处理使用条件增强方法来增强文本描述，以此得到增强的句子向量s_ca，即

s_ca＝F_ca(s)；

其中，F_ca表示条件增强函数；

在图像生成的结构中，引用AttnGAN中通过堆叠视觉转换器H和图像生成器G的方法来达到高质量图像的效果，下述公式中，z表示随机噪声的输入，服从标准的正态分布，单词级别的语义特征是将w和视觉嵌入h_i作为输入，U_i-1w是w通过视觉转换器感知层得到的，与视觉嵌入相乘后得到注意力分数，通过对得到的分数做内积来获得词级的上下文特征，

h₀＝H₀(z,s)，z～N(0,1)表示随机噪声，h₀表示隐藏状态；

对于句子级别的语义特征，采用全局约束，类比上述单词级别的过程，V_i-1s是s通过视觉转换器感知层得到的，二者形成这种全局-局部互相补充的注意力机制之后，再通过生成器G进行图像I的生成，其中要经过m轮次，

h₁＝H_i(h_i-1，concat(W_i-1，S_i-1))i∈{1，2，......，m-1}；

I_i＝G_i(h_i)；

步骤二：步骤一中的图像生成之后，并不直接作为结果输出，而是进入到反向数据流中，在此处将CLIP作为潜在的映射层，当一段文本生成符合其语义的图像之后，其图像也可以重新转换为描述其含义的文本，将生成图像经过卷积神经网络CNN处理后得到新的文本T_i，将T_i和图像I_i分别置入编码器中，得到二者的嵌入T_f和I_f：

T_i＝CNN(I_m-1)；

I_f＝image_encoder(I_i)；

T_f＝text_encoder(T_i)；

然后对I_f和T_f做L2正则化得到I_e和T_e，最后将二者的嵌入做相似度计算，如下公式，τ表示对比学习中的可训练参数：

pred＝cos_similarity(I_e，T_e ^T)＝(I_e·T_e ^T)·τ；

步骤三：对步骤二中的计算值进行判断，再通过生成模型反向传播，更新潜在向量，重复前向和后向传递直到收敛，得到最大相似度，使所生成的图像与给定文本越来越接近，最后输出最优图像；

在该方法中，采用两种对抗性损失：视觉真实性损失和文本-图像语义一致性损失；

和/>

将二者平均计算为T_CLIP(I～T)，表示图像语义一致性损失函数：

得到总损失函数是上述损失的加权组合：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。