CN112818646B

CN112818646B - 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Info

Publication number: CN112818646B
Application number: CN202110219192.5A
Authority: CN
Inventors: 陶明; 王彩玲; 蒋国平; 罗新新
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2023-07-14
Anticipated expiration: 2041-02-26
Also published as: CN112818646A

Abstract

本发明提出了一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，通过生成器和判别器的对抗训练，使得生成器最终能够将给定的图片编辑为与文本描述相匹配的图片。主要包括以下步骤：获取文本与图片匹配的数据集、搭建基于生成对抗网络的生成对抗模型；通过梯度下降法迭代训练生成网络和判别网络。最终获得一个能够有效根据文本编辑已有图片的生成器。本发明通过生成器中的动态编辑模块以及动态卷积模块，将文本信息融合进图片解码过程中；通过对判别器的零中心匹配梯度惩罚，促使生成器生成的图片与给定的文本匹配；有效地解决了编辑的图片细节缺失，编辑后的图片与给定文本不匹配的问题。

Description

基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

技术领域

本发明涉及根据文本编辑图像算法，具体涉及一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，属于模式识别领域。

背景技术

随着深度学习的发展，计算机视觉与机器学习方法的性能都取得很大的提高。并且深度学习模型已经在图像处理，自然语言处理以及图像生成领域取得了令人惊讶的成功。尤其是图像生成模型，在当前短视频社交软件平台，通过特效生成，风格迁移，使其得到了广泛的应用。基于生成对抗网络的模型，通过同时训练一个生成网络和一个判别网络，并让其互相进行对抗训练来使得生成网络最终可以生成非常真实的图片。尽管当前的生成对抗网络已经可以生成质量非常高的图片，但是在图像编辑任务上，依然有所欠缺，主要表现在当前的图像编辑任务，无法通过一种直接简洁的方式，使得一个模型实现多目标的编辑；所以通过一种方便，简洁的方式来控制编辑的内容成了当前图像编辑任务中非常重要的研究方向。而文本作为人类社会最常用的交流媒介，其直观性和简洁性远远超过其他媒介，这也使得当前人工智能时代涌现出很多基于文本的智能应用，例如人工智能客服，智能文本生成等。文本的直观简洁也为生成对抗网络的可控生成指出了一条方向，我们需要将文本与生成对抗网络连接在一起，在确保生成内容的多样性的同时，也要保证生成内容受文本的控制，从而提高生成对抗网络的生成内容可控性，便于生成对抗网络投入到实际应用中。基于文本编辑图像的的生成对抗网络需要做到两点：一是要确保编辑后图像的真实性，二是编辑后的图片与给定的文本相符。

发明内容

本发明的目的是：针对现有根据文本编辑图像技术存在的问题，提出一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法。

本发明主要采用以下技术方案：

一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，主要包括以下步骤：

步骤(1)：获取训练数据集，其中每个样本都由文本和图像对组成；

步骤(2)：搭建生成对抗网络模型，所述生成对抗网络模型由生成器和判别器组成，其中生成器包括编码器和图片解码器和语义解码器；

步骤(3)：文本编码器将文本编码为向量输入给步骤(2)所述生成器和判别器；

步骤(4)：训练判别器，在训练过程中，需要对三类数据做出判断，分别是真实的图片和匹配的句子，生成的图片和匹配的句子，以及真实的图片与不匹配的句子；；

步骤(5)：对判别器的零中心匹配梯度惩罚，促使生成的图片与给定的文本匹配；

步骤(6)：训练生成器，在训练过程中，提出了一个动态编辑模块来融合文本信息和图像特征；

步骤(7)：将训练好判别器和生成器的生成对抗网络模型用于根据文本编辑图像的任务。

进一步的，步骤(1)所述的数据集里，每一张图片对应一句或多句相应的文本描述，文本大致描述了图像中的对象与事件，每条文本的长度在5到40个单词之间。

进一步的，所述步骤(2)中，采用了一个由编码器和解码器的生成对抗网络，此网络在生成过程中，通过编码器降采样输入的图像，再通过解码器上采样编码的图像特征，文本信息在解码过程中融入到图像编码特征中。

进一步的，所述步骤(3)中，采用了一个已经预训练好的双向长短期记忆网络作为文本编码器，此网络在生成对抗网络的训练过程中不更新参数，输入文本经由双向长短期记忆网络编码为句子向量和单词向量，具体包括以下步骤：

31)首先，文本中每一个单词会转换成一个独热码，每一个单词对应一个独热码；

32)再将独热码输入给嵌入层，使得每一个单词对应一个单词向量；

33)将这些由单词向量组成的句子输入进双向长短期记忆网络，并将最后一个隐状态作为整个句子的句子向量，输入给生成器和判别器。

进一步的，所述步骤(4)中，真实的图片和匹配的句子作为正样本，判别器给予高分，而生成的图片和匹配的句子，以及真实的图片与不匹配的句子作为负样本，判别器给予低分；

采用铰链损失作为生成对抗网络的损失函数，为了控制正负样本的损失平衡，给两个负样本损失乘上1/2，判别器的损失函数表示为：

其中P_r是真实图像的分布，P_g是生成图像的分布，P_mis是与文本不匹配的图像的分布，x为输入图片，e为与输入图片x相匹配的句子向量，

为随机选取的句子向量，D为判别器，G为生成器，E为期望。

通过联合判别以上三种图片与文本搭配的情况，最终判别器不仅能够区分生成的图片和真实的图片，也能够判断图片是否与文本匹配，从而促进生成器生成真实且与给定文本匹配的图片。

进一步的，所述步骤(5)中提出了零中心匹配梯度惩罚来约束判别器，在训练过程中，选择在匹配的句子和真实的图片的输入上进行梯度惩罚，判别器在该数据点的梯度接近于零，使得在判别器的损失函数曲面中，该数据点周围的损失曲面光滑，便于生成器收敛到目标位置，零中心匹配梯度惩罚表示为：

其中P_r是真实图像的分布，e为与输入图片x相匹配的句子向量，x为输入图片，D为判别器，E为期望，

为梯度，k和p为超参数。

进一步的，所述步骤(6)包括以下步骤：

61)将给定的图片和目标文本输入给生成器，生成器中的编码器会对输入的图片进行降采样，并通过图片解码器和语义解码器将图片上采样至输入图片相同的尺寸；

62)语义解码器接受编码器的输出后，通过一系列插值和卷积操作来生成语义特征图，再将通道及空间维度的仿射变换参数输入给图片解码器中的动态编辑模块；

63)图片解码器中的动态编辑模块对解码过程中的图像特征进行通道以及空间维度的仿射变换，从而将文本特征融入到最终生成的图片中；

64)生成编辑过的图片后，输入给判别器判别，判别器给予生成的图片一个标量来表示生成的质量，使用判别器的输出作为生成器的损失函数，并进行反向传播，使用梯度优化来更新生成器的参数，生成器的损失函数如下：

其中P_g是生成图像的分布，x为输入图片，

为随机选取的句子向量，D为判别器，G为生成器，E为期望。

进一步的，所述步骤63)中通道维度的仿射变换参数是将句向量输入给两个两层全连接网络预测来的，空间维度的仿射变换参数是对语义解码器进行动态卷积预测来的；其中，动态卷积的卷积核参数是受句子向量控制的。

进一步的，在步骤(7)中，通过生成器与判别器之间的对抗训练，使用梯度下降优化法，使得最终得到的训练好的生成对抗网络模型能够根据文本编辑图像。

附图说明

图1.本发明的对抗网络模型图。

图2.动态编辑模块的架构示意图。

图3.动态卷积模块的架构示意图。

有益效果

本发明是一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，生成器由编码器和解码器组成，对应层的编码器和解码器之间，使用跳跃连接，来保留输入图片中更多的细节。并且使用动态编辑模块，以及动态卷积模块，对编码器编码后的图像特征进行通道以及空间维度的仿射变换，使得文本信息能够有效融合进生成的图像中；最后，该网络对判别器进行了零中心匹配梯度惩罚，使得判别器获得明确的优化方向，从而提高编辑后的图片与文本的匹配性；通过梯度下降优化算法，进行生成网络与判别网络之间的迭代对抗训练，使得最终的生成器可以根据文本编辑需要编辑的部分，并保持与文本无关的部分不变。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案做进一步的详细说明：

本发明提供一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，具体流程如图1所示。

步骤(1)：获取训练数据集，其中每个样本都由文本和图像对组成。采用两个广泛使用的基准多模态数据集，分别是CUB-200和COCO数据集，其中，CUB-200数据集是由200种鸟类的图片组成，总共11788张图片，每张图片对应十句文本描述，按照类别划分训练集与测试集，其中训练集包含150种鸟类图片，测试集包含50种鸟类图片；COCO数据集总共包含120k张日常生活图片，每张图片对应五句文本描述，划分出80k张图片作为训练集，40k张图片作为测试集。

步骤(2)：搭建生成对抗网络模型；生成对抗网络包括生成器和判别器，其中生成器包括编码器，图片解码器和语义解码器；具体作用如下：编码器将给定的图片进行下采样和卷积操作，一直到分辨率降为4*4为止，将降采样后的图像特征输入给图片解码器和语义解码器；

图片解码器经过插值层，卷积层，最终得到与输入分辨率相同尺寸的编辑后的图像，而图片解码器中的动态编辑模块对解码过程中的图像特征进行通道以及空间维度的仿射变换，从而将文本信息融入到最终编辑后的图像中。语义解码器接受编码器的输出后，通过一系列插值和卷积操作生成语义特征图；

再将通道及空间维度的仿射变换参数输入给图片解码器中的动态编辑模块。判别器由一系列残差网络组成，最终输出一个标量来衡量当前输入。

步骤(3)：文本编码器将文本编码为向量输入给生成器和判别器；采用的文本编码器类似于AttnGAN，使用一个双向长短期记忆网络(BiLSTM)作为文本编码器。

31)首先，文本中每一个单词会转换成一个独热码，每一个单词对应一个独热码，

32)再将独热码输入给嵌入层，使得每一个单词对应一个单词向量，

33)将这些由单词向量组成的句子输入进双向长短期记忆网络，并将最后一个隐状态作为整个句子的句向量，输入给生成器和判别器。

其中，BiLSTM的嵌入层维数设置为300，隐层神经元个数设置为128。

步骤(4)：训练判别器；判别器不仅应该给真实的图片高分，给生成的图片低分，还需要判断图片是否与文本匹配。

判别器在训练过程中，需要对三类数据做出判断，分别是真实的图片和匹配的句子，生成的图片和匹配的句子，以及真实的图片与不匹配的句子；真实的图片和匹配的句子作为正样本，判别器应该给予高分，而生成的图片和匹配的句子，以及真实的图片与不匹配的句子作为负样本，判别器应该给予低分。

采用铰链损失(Hinge loss)作为生成对抗网络的损失函数，为了控制正负样本的损失平衡，给两个负样本损失乘上1/2，判别器的损失函数可以表示为：

为随机选取的句子向量，D为判别器，G为生成器，E为期望。通过联合判别以上三种图片与文本搭配的情况，最终判别器不仅可以区分生成的图片和真实的图片，也可以判断图片是否与文本匹配，从而促进生成器生成真实且与给定文本匹配的图片。

步骤(5)：对判别器的零中心匹配梯度惩罚，促使生成的图片与给定的文本匹配；由于对抗训练的不稳定性，判别器在判断正负样本的时候，梯度非常的不稳定，波动大，这使得生成对抗网络收敛变慢，甚至于不收敛，所以需要对判别网络的梯度进行控制。在训练过程中，判别器的输入是文本和图像，文本包括与输入图像匹配的句子以及与输入图像不匹配的句子，图像包括真实图片与生成的图片，在文本和图片各自有两种的情况下，判别器的文本与图片有三种搭配，包括真实的图片和匹配的句子，生成的图片和匹配的句子，以及真实的图片与不匹配的句子；选择在真实的图片和匹配的句子的输入上进行梯度惩罚，判别器在该数据点的梯度接近于零，使得在判别器的损失函数曲面中，该数据点周围的损失曲面光滑，便于生成器收敛到目标位置，零中心匹配梯度惩罚可以表示为：

为梯度，k和p为超参数。

步骤(6)：训练生成器，当更新过判别器，使得判别器具有判别真实图片与生成图片的能力后，需要训练生成器，使其能够生成使判别器的无法区分的图片，具体操作是，

将给定的图片和目标文本输入给生成器，生成器中的编码器会对输入的图片进行下采样，并通过图像解码器和语义解码器将图片上采样至输入图片相同的尺寸，并由动态卷积模块来预测图像特征在通道及空间维度的仿射变换参数，从而将文本特征融入到最终生成的图片中。

生成编辑过的图片后，输入给判别器判别，判别器给予生成的图片一个标量来表示生成的质量，使用判别器的输出作为生成器的损失函数，并进行反向传播，使用梯度优化来更新生成器的参数，生成器的损失函数如下：

其中P_g是生成图像的分布，e为与输入图片x相匹配的句子向量，x为输入图片，

为随机选取的句子向量，D为判别器，G为生成器，E为期望。

为了提高生成器利用文本的效率，提出一个动态编辑模块来融合文本信息和图像特征，动态编辑模块通过对解码过程中的图像特征进行通道以及空间维度的仿射变换来将文本信息融入到图像特征中，通道维度的仿射参数是将句向量输入给两个两层全连接网络预测来的，空间维度的仿射参数是对语义解码器进行动态卷积预测来的，其中，动态卷积的卷积核参数是受句子向量控制的；通过动态编辑模块融合文本与图像特征，使得生成过程中的图像特征能够跟随文本变化，从而使得生成器能够将给定的图像编辑为符合文本描述的样子。

动态编辑模块的架构如图2所示，其主要包含卷积，通道仿射变化以及空间仿射变化，通过全连接层以及动态卷积模块预测通道以及空间维度的仿射参数；

动态卷积模块的架构如图3所示，其通过全连接网络预测卷积网络的参数，并对语义特征进行卷积操作，从而达到编辑图像的目的。

步骤(7)：将训练好判别器和生成器的生成对抗网络模型用于根据文本编辑图像的任务。为了尽可能得准确地与其他模型的结果进行比较，本方法与两种根据文本编辑图像的模型分别是TAGAN和ManiGAN进行了比较如表1，采用两种类型的指标：InceptionScore(IS)和Manipulative Precision(MP)，表1报告了在CUB和COCO的评估结果。

表1：本方法在CUB和COCO数据集和其余两种方法的比较结果

Claims

1.一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于，主要包括以下步骤：

步骤(2)：搭建生成对抗网络模型，所述生成对抗网络模型由生成器和判别器组成，其中生成器包括编码器、图片解码器和语义解码器；

步骤(4)：训练判别器，在训练过程中，需要对三类数据做出判断，分别是真实的图片和匹配的句子，生成的图片和匹配的句子，以及真实的图片与不匹配的句子；

2.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于：步骤(1)所述的数据集里，每一张图片对应一句或多句相应的文本描述，文本大致描述了图像中的对象与事件，每条文本的长度在5到40个单词之间。

3.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于：所述步骤(2)中，采用了一个由编码器和解码器的生成对抗网络，此网络在生成过程中，通过编码器降采样输入的图像，再通过解码器上采样编码的图像特征，文本信息在解码过程中融入到图像编码特征中。

4.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于：所述步骤(3)中，采用了一个已经预训练好的双向长短期记忆网络作为文本编码器，此网络在生成对抗网络的训练过程中不更新参数，输入文本经由双向长短期记忆网络编码为句子向量和单词向量，具体包括以下步骤：

5.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于：所述步骤(4)中，真实的图片和匹配的句子作为正样本，判别器给予高分，而生成的图片和匹配的句子，以及真实的图片与不匹配的句子作为负样本，判别器给予低分；

为随机选取的句子向量，D为判别器，G为生成器，E为期望；

6.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于：所述步骤(5)中提出了零中心匹配梯度惩罚来约束判别器，在训练过程中，选择在匹配的句子和真实的图片的输入上进行梯度惩罚，判别器在该数据点的梯度接近于零，使得在判别器的损失函数曲面中，该数据点周围的损失曲面光滑，便于生成器收敛到目标位置，零中心匹配梯度惩罚表示为：

为梯度，k和p为超参数。

7.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于：所述步骤(6)包括以下步骤：

其中P_g是生成图像的分布，x为输入图片，

为随机选取的句子向量，D为判别器，G为生成器，E为期望。

8.根据权利要求7所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于：所述步骤62)中通道维度的仿射变换参数是将句子向量输入给两个两层全连接网络预测来的，空间维度的仿射变换参数是对语义解码器进行动态卷积预测来的；其中，动态卷积的卷积核参数是受句子向量控制的。

9.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法，其特征在于：在步骤(7)中，通过生成器与判别器之间的对抗训练，使用梯度下降优化法，使得最终得到的训练好的生成对抗网络模型能够根据文本编辑图像。