CN109271537A

CN109271537A - 一种基于蒸馏学习的文本到图像生成方法和系统

Info

Publication number: CN109271537A
Application number: CN201810910954.4A
Authority: CN
Inventors: 彭宇新; 袁明宽
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2019-01-25
Anticipated expiration: 2038-08-10
Also published as: CN109271537B

Abstract

本发明涉及一种基于蒸馏学习的文本到图像生成方法和系统。该方法包括以下步骤：1.建立包含图像及其对应文本的数据库，提取所有文本的特征向量。2.利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络，通过两阶段蒸馏方法生成与文本内容相符的图像。3.对于用户输入的文本，提取文本特征向量，利用训练好的生成式网络，生成与输入文本内容相符的图像。与现有方法相比，本发明能够显著提高生成图像的质量。

Description

一种基于蒸馏学习的文本到图像生成方法和系统

技术领域

本发明涉及图像生成领域，具体涉及一种基于蒸馏学习的文本到图像生成方法和系统。

背景技术

近年来，随着互联网和多媒体技术的快速发展，多媒体数据的总量不断增长，已经成为大数据的主要内容，因此如何快速找到用户需要的信息就成为了大数据利用和管理的关键问题。人们通常会采用检索的方式寻找有用信息，如文本检索、图像检索等。以图像检索为例，现在常用的检索方式为基于文本关键词的检索，即用户输入查询文本，系统将用户查询文本与图像数据的文本标签进行匹配，从而得到图像检索结果。然而，这种检索方式只能为用户提供数据库中已经存在的图像数据，并且需要对图像数据集进行大量的人工标注，因此限制了信息获取的灵活性。文本到图像生成是指，用户提供一段文本描述，系统能够自动生成内容与这段文本描述一致的图像。文本到图像生成大大提高了图像信息获取的灵活性和全面性，在许多重要领域都有着良好的发展前景和重要意义，例如：公安领域的模拟画像、教育领域的概念启蒙、艺术领域的视觉创作等。

现有的文本到图像生成方法主要是基于生成式对抗网络(GenerativeAdversarial Networks，简称GAN)的深度模型方法。例如，Reed等人提出的GAN-INT-CLS方法将文本特征向量作为输入，利用生成式网络生成一幅图像，再利用判别式网络对该图像进行解析，判断该生成图像与输入文本的关联性与真实性。由于生成式网络希望生成的图像能够“以假乱真”，判别式网络希望可以区分出生成图像与真实图像，两者通过对抗式训练互相促进，最终使得生成式网络具有文本到图像生成的能力。在GAN-INT-CLS方法的基础上，Reed等人又提出了一种“内容-位置”生成式对抗网络GAWWN，通过给出“内容-位置”的说明来生成图像。GAWWN方法将空间遮挡和裁剪模块合并到文本条件生成式对抗网络中，同时以部件位置作为条件，使得生成器和判别器能够使用乘法门控机制来关注相关部件的位置，从而可以为输入文本生成空间结构上更加合理的图像。StackGAN方法将两个生成式对抗网络叠加在一起，改进了输入条件的部分，实现了较大尺寸图像的生成。两个阶段的生成式对抗网络的作用是：第一阶段的生成式网络利用文本描述粗略勾画物体主要的形状和颜色，生成低分辨率的图像；第二阶段的生成式网络将第一阶段的结果和文本描述作为输入，生成细节丰富的高分辨率图像。尽管以上基于生成式对抗网络的方法可以取得一定效果，但由于其生成式网络具有较多网络层，训练仅依靠一个对抗损失函数导致训练过程不稳定，限制了生成图像的效果。

发明内容

本发明提出了一种基于蒸馏学习和对称结构生成式网络的文本到图像生成方法和系统，能够建立文本特征向量空间到图像像素空间的映射，从而生成在内容上与文本一致的图像，与现有方法相比能够显著提高生成图像的质量。

为达到以上目的，本发明采用的技术方案如下：

一种基于蒸馏学习的文本到图像生成方法，包括以下步骤：

(1)建立包含图像及其对应文本的数据库，提取所有文本的特征向量；

(2)利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络，训练过程通过两阶段蒸馏方法生成与文本内容相符的图像；

(3)对于用户输入的文本，提取文本特征向量，利用训练好的生成式网络，生成与输入文本内容相符的图像。

进一步，上述一种基于蒸馏学习的文本到图像生成方法，所述步骤(1)中的文本特征向量具体为：利用长短期记忆(Long Short Term Memory，简称LSTM)网络提取的特征向量。

进一步，上述一种基于蒸馏学习的文本到图像生成方法，所述步骤(2)中的通用判别式网络是卷积神经网络，并在ImageNet图像分类数据集上进行预训练。生成式网络结构与所使用的通用判别式网络对称，每层可以与通用判别式网络层层对应。

进一步，上述一种基于蒸馏学习的文本到图像生成方法，所述步骤(2)中的训练过程使用两阶段蒸馏方法，将通用判别式网络的知识迁移到生成式网络中。第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色；第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。本发明所述蒸馏是指对知识进行迁移的过程。

与上面方法对应地，本发明还提供一种基于蒸馏学习的文本到图像生成系统，其包括：

数据库建立模块，负责建立包含图像及其对应文本的数据库，提取所有文本的特征向量；

网络训练模块，负责利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络，训练过程通过两阶段蒸馏方法生成与文本内容相符的图像；

图像生成模块，负责对于用户输入的文本，提取文本特征向量，利用训练好的生成式网络，生成与输入文本内容相符的图像。

进一步，所述数据库建立模块提取的文本特征向量为：利用长短期记忆网络提取的特征向量。

进一步，所述网络训练模块采用的通用判别式网络是卷积神经网络，并在ImageNet图像分类数据集上进行预训练；生成式网络与所使用的通用判别式网络对称。

进一步，所述网络训练模块的训练过程使用两阶段蒸馏方法，将通用判别式网络的知识迁移到生成式网络中；第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色；第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。

本发明的效果在于：与现有方法相比，本方法通过蒸馏学习将知识以多层特征向量的形式从一个通用判别式网络迁移到生成式网络中，从而在该生成式网络中建立文本特征向量空间到图像像素空间的映射，有效提高生成图像的质量。

本方法之所以具有上述发明效果，其原因在于：文本到图像生成的主要难点在于语义级别的文本与像素级别的图像在内容和形式上都存在很大的差异，并且真实图像与生成图像的数据分布也存在一定差异。而通用判别式网络具有强大的多层特征表达能力，可以引导文本到图像生成式网络的训练。因为通用判别式网络是基于图像分类实现的，因此其高层特征具备与图像类别标签相关的语义信息，而低层特征具备与图像像素内容相关的结构信息。这与文本到图像生成式网络中利用的特征表达是一致的：文本到图像生成式网络中输入的文本特征向量需要转化为具备语义信息的高层特征，而生成图像需要利用具备结构信息的低层特征。如果将通用判别式网络的多层信息作为指导来训练文本到图像生成式网络，那么生成式网络可以更容易地得到从语义空间到像素空间的最优映射，生成真实的图像。因此本发明提出的生成式网络结构与蒸馏学习的网络训练方法，可以有效提高生成图像的质量。

附图说明

图1是本发明的一种基于蒸馏学习的文本到图像生成方法流程图。

图2是本发明的网络结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述。

本发明的一种基于蒸馏学习的文本到图像生成方法，其流程如图1所示，包含以下步骤：

(1)建立包含图像及其对应文本的数据库，提取所有文本的特征向量。

本实施例中，用A表示训练数据库，其中其中为第p个训练图像，t^(p)为第p个训练文本，定义n为数据个数，为文本t的特征向量，具体为利用预训练过的LSTM网络提取的特征向量。

(2)利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络，通过两阶段蒸馏方法生成与文本内容相符的图像。

该步骤的过程如图2所示。本发明设计了一种两阶段蒸馏方法，能够将通用判别式网络的知识蒸馏到文本到图像生成式网络中。第一阶段是直接蒸馏，主要是使生成式网络学习物体的基础形状和颜色；第二阶段是间接蒸馏，主要是使生成式网络从细节上学习物体的形状和颜色。首先是第一阶段蒸馏，当文本特征向量输入至生成式网络G后，生成式网络G的每层网络l会生成作为输出，其中θ_l表示该网络层的参数，同时将与该文本对应的真实训练图像I_r输入至通用判别式网络D，每层网络会输出由于生成式网络G与通用判别式网络D的结构对称，其对应层输出的维度相同，所以可以计算两者对应层输出的特征向量的差异，作为第一阶段蒸馏的损失函数。当差异足够小时，说明模型拟合完毕。因此可以得到第一阶段蒸馏的损失函数公式：

其中||·||₁表示L1距离，表示生成的图像。

在第二阶段蒸馏中，本实施例采用了间接蒸馏的方式。当文本特征向量输入至生成式网络G后，生成式网络G会生成图像作为最终输出，将它与真实图像I_r一起输入至通用判别式网络D，这样可以分别得到多层特征向量和计算和的差异，作为第二蒸馏的损失函数，公式如下：

其中||·||₁表示L1距离，l表示网络层编号，θ_l表示该网络层的参数。

利用上面两个阶段的蒸馏过程，可以将通用判别式网络的知识迁移到文本到图像生成式网络中。

当生成式网络训练完毕之后，可以为用户提供的文本提取特征向量，利用该网络生成与输入文本生成内容一致的图像。

下面的实验结果表明，与现有方法相比，本发明基于蒸馏学习的文本到图像生成方法，能够取得更好的图像质量。

本实施例采用CUB-200-2011数据集进行实验，包括上文提到的训练数据库和评测用的测试数据库。该数据集由文献“The Caltech-UCSD Birds-200-2011 Dataset”(作者Catherine Wah，Steve Branson，Peter Welinder，Pietro Perona，和Serge Belongie)提出，其中包含200种不同种类的鸟，共11788张图像，其中8855张图像为训练数据库，2933张图像为测试数据库。测试了以下3种方法作为实验对比：

现有方法一：文献“Generative adversarial text to image synthesis”(作者Scott Reed，Zeynep Akata，Xinchen Yan，Lajanugen Logeswaran，Bernt Schiele，和Honglak Lee)中的GAN-INT-CLS方法；

现有方法二：文献“Learning what and where to draw”(作者Scott E Reed，Zeynep Akata，Santosh Mohan，Samuel Tenka，Bernt Schiele，和Honglak Lee)中的GAWWN方法。

现有方法三：文献“StackGAN:Text to photo-realistic image synthesis withstacked generative adversarial networks”(作者Han Zhang，Tao Xu，Hongsheng Li，Shaoting Zhang，Xiaogang Wang，Xiaolei Huang，和Dimitris Metaxas)中的StackGAN方法。

本发明：本实施例的方法。

实验采用Inception score、SSIM和FSIM三种指标来评测生成图像的质量。Inception score是一种通用的生成图像评估标准，其利用一个Inception图像分类模型对生成的多张图像(本实施中为每个方法生成了29330张图像)计算类别概率向量，然后对这多个类别概率向量计算KL散度，以此表示生成图像的质量，得分值越高越好。SSIM和FSIM是图像质量评估算法，可以对生成图像与真实图像做对比(本实施中为每个方法生成了2933张图像，与2933张真实图像成对计算相似度)，计算两者相似度，得分值同样越高越好。

表1.本发明的实验结果展示

	Inception score	SSIM	FSIM
				现有方法一	5.08±0.08	0.2934	0.6082
现有方法二	5.22±0.08	0.2370	0.5653
				现有方法三	4.95±0.04	0.2812	0.5853
本发明	6.89±0.06	0.3160	0.6264

从表1可以看出，本发明在生成图像的质量上比现有方法取得了较大提高。三种现有方法都使用生成式对抗网络生成图像，尽管生成式对抗网络的训练方式可以收敛并取得一定效果，但由于其生成式网络具有很多网络层，训练仅依靠一个对抗损失函数导致训练过程的不稳定，限制了生成图像的效果。本发明能够充分利用通用判别式网络的知识，通过蒸馏学习的方式将知识以多层特征向量的形式从一个通用判别式网络迁移到该生成式网络中，为每一层网络的训练都提供参考和指导，从而稳定地在该生成式网络中建立文本特征向量空间到图像像素空间的映射，生成在内容上与文本一致的图像。

本发明另一实施例提供一种基于蒸馏学习的文本到图像生成系统，其包括：

所述数据库建立模块提取的文本特征向量为：利用长短期记忆网络提取的特征向量。所述网络训练模块采用的通用判别式网络是卷积神经网络，并在ImageNet图像分类数据集上进行预训练；生成式网络与所使用的通用判别式网络对称。所述网络训练模块的训练过程使用两阶段蒸馏方法，将通用判别式网络的知识迁移到生成式网络中；第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色；第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于蒸馏学习的文本到图像生成方法，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤(1)中的文本特征向量为：利用长短期记忆网络提取的特征向量。

3.如权利要求1所述的方法，其特征在于，步骤(2)中的通用判别式网络是卷积神经网络，并在ImageNet图像分类数据集上进行预训练；生成式网络与所使用的通用判别式网络对称。

4.如权利要求1所述的方法，其特征在于，步骤(2)中的训练过程使用两阶段蒸馏方法，将通用判别式网络的知识迁移到生成式网络中；第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色；第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。

5.如权利要求4所述的方法，其特征在于，所述的第一阶段蒸馏具体过程如下：当文本特征向量输入至生成式网络G后，生成式网络G的每层网络l会生成作为输出，其中θ_l表示该网络层的参数，同时将与该文本对应的真实训练图像I_r输入至通用判别式网络D，每层网络会输出由于生成式网络G与通用判别式网络D的结构对称，其对应层输出的维度相同，因此定义如下损失函数，使得对应层输出的特征向量的差异尽可能小：

其中||·||₁表示L1距离，表示生成的图像。

6.如权利要求5所述的方法，其特征在于，所述第二阶段蒸馏具体过程如下：当文本特征向量输入至生成式网络G后，生成式网络G会生成图像作为最终输出，将它与真实图像I_r一起输入至通用判别式网络D，这样可以分别得到多层特征向量和计算和的差异，作为第二蒸馏的损失函数，公式如下：

7.一种基于蒸馏学习的文本到图像生成系统，其特征在于，包括：

8.如权利要求7所述的系统，其特征在于，所述数据库建立模块提取的文本特征向量为：利用长短期记忆网络提取的特征向量。

9.如权利要求7所述的系统，其特征在于，所述网络训练模块采用的通用判别式网络是卷积神经网络，并在ImageNet图像分类数据集上进行预训练；生成式网络与所使用的通用判别式网络对称。

10.如权利要求7所述的系统，其特征在于，所述网络训练模块的训练过程使用两阶段蒸馏方法，将通用判别式网络的知识迁移到生成式网络中；第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色；第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。