CN109697694B

CN109697694B - 基于多头注意力机制的高分辨率的图片的生成方法

Info

Publication number: CN109697694B
Application number: CN201811491456.7A
Authority: CN
Inventors: 闫然; 许少华
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2023-04-07
Anticipated expiration: 2038-12-07
Also published as: CN109697694A

Abstract

本发公开了一种基于多头注意力机制的高分辨率的图片的生成方法，具体涉及计算机视觉算法技术领域。其解决了现有的生成模型如果生成高分辨率的图片，对于图片的细节会生成的质量比较差以及出现图文不符的情况的不足。该方法基于堆积生成对抗网络(StackGAN)提出了一种对文本描述加入多头注意力机制的方法，对于描述图片的关键信息赋予高的权重，对生成不同分辨率图片的生成器加入不同的文本编码向量和类别向量，使最终的高分辨率的生成器能够生成细节完美的图片。

Description

基于多头注意力机制的高分辨率的图片的生成方法

技术领域

本发明涉及计算机视觉算法技术领域，具体涉及基于多头注意力机制的高分辨率的图片的生成方法。

背景技术

生成模型是利用少量真实数据来生成大量的与真实时候相媲美的数据。该技术主要是在一定程度上缓解建模的过程中遇到的数据集不足的问题，起到补充数据集的作用，应用于人工智能系统、自动驾驶系统、数据增强系统等领域。

目前的生成模型主要包括:

(1)基于VAE建模进行生成数据，流程图如图1所示，

对于自编码模型来说，输入的数据经过神经网络降维到一个编码(code)，接着又通过另外一个神经网络去解码得到一个与输入原数据一模一样的生成数据，然后通过去比较这两个数据，最小化他们之间的差异来训练这个网络中编码器和解码器的参数。当这个过程训练完之后，我们可以拿出这个解码器，随机传入一个编码(code)，希望通过解码器能够生成一个和原数据差不多的数据。

基于VAE建模生成数据，生成的数据质量不高，以图片为例，生成的图片的分辨率比较低，图片比较模糊；无法生成多种类别的数据。

(2)基于堆积生成对抗网络(StackGAN)进行生成数据

第一阶段的StackGAN就是一个标准的条件对抗生成网络(Conditional GAN)，输入就是随机的标准正态分布采样的z和文本描述向量C0。第一步的对抗生成网络生成一个低分辨率的64*64的图片和真实数据进行对抗训练得到粗粒度的生成模型。第二阶段的StackGAN将第一阶段的生成结果和文本描述作为输入，用第二个对抗生成网络生成高分辨率的256*256的图片，具体单个网络进行生成数据的流程图如图2所示。

基于堆积生成对抗网络(StackGAN)建模生成数据，对于对于通过文本描述生成图片来说，由于LSTM生成文本向量的时候，认为每个词的重要程度是一致的，所以文本向量也就存在不准确的问题，所以如果是希望生成高分辨率的图片的话，对于图片的细节会生成的质量比较差，即生成图文不符的图片；如果希望生成多种类别的数据，在进行生成的时候，需要的类别越多，生成的质量会越差，出现模式崩溃的问题，即容易全部生成同一类的数据。

发明内容

本发明的目的是针对现有的生成模型如果生成高分辨率的图片，对于图片的细节生成的质量比较差，而且容易出现图文不符的不足，提出了一种利用多头注意力机制先对文本描述转换为文本向量，文本向量作为不同的生成器的输入部分，使堆积生成对抗网络更好的利用文本描述生成细节完美的高分辨率的图片的基于多头注意力机制的高分辨率的图片的生成方法。

本发明具体采用如下技术方案：

基于多头注意力机制的高分辨率的图片的生成方法，利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量，利用one-hot生成图片的类别向量，包括如下步骤：

(1)数据预处理：将多个类别的高分辨率的图片进行下采样，分别得到多个类别的低分辨率的图片，将图片、该图片的文件描述以及图片的类别组成“图片-文本-类别”对的形式；

(2)构建网络结构：利用卷积神经网络构建三个生成器和判别器，生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量，输出端输出生成器生成的64*64、128*128和256*256的图片；判别器用于对生成的图片真实性和类别进行判断，其输入端输入三种分辨率的“图片-文本-类别”对以及生成器生成的图片；

(3)对于判别器进行两个判别，第一判别为对生成的图片的真假进行判别，第二判别为对生成的图片的类别进行判断；

(4)由于判别器的判别能力高于生成器的生成能力，采取每个判别器迭代一次，三个生成器分别迭代n次，2n次，3n次，其中n为正整数；

(5)判别器和生成器不断博弈，直至判别器无法分辨生成器生成的图片是真实的还是假的为止，损失函数如式(1)所述：

其中，x为输入参数代表一张图片，D(x)为输出代表x为真实图片的概率，D(x)为1，就代表100％是真实的图片，D(x)输出为0，就代表不是真实的图片。

优选地，对于图片文本描述向量的生成，利用multi-head attention将图片的文本描述转换为图片文本描述向量的，利用multi-head attention机制使文本进行编码的过程中，对于不同的文本的关注度不同，对于重要的词赋予更高的关注度；

具体的计算过程如是式(2)、(3)：

Multi-head (Q,K,V) ＝ concat(head₁,head₂,...head_n)w^o (2)

Head_i ＝ attention(QW_i ^Q,KW_i ^K,VW_i ^V) (3)

其中，w都是需要学习的参数，Q、K、V都是word embedding。

优选地，对于不同的生成器的multi-head attention中的头的个数是不一致的，令第一个生成器的头个数为1或n，第二个生成器的头个数为2或2n，第三个头结点的个数为3或2n，n为正整数。

图片的种类包含多种类别，不同类别的图片用不同的类别向量描述，对于类别向量的生成，是将每个类别使用one-hot进行编码，生成类别向量。

本发明具有如下有益效果：

该方法可以有效的使生成器在根据文本生成的时候，从文本中抓到重点信息，对于不同的分辨率的生成器抓取出不同的关键信息，从而生成出符合文本描述的细节完美的图片；

由于不同类别的文本编码的向量具有该类别的不同的特点，所以有效的保障在生成的过程中避免模式崩塌的情况的发生，生成多个类别的图片。

附图说明

图1为基于VAE建模进行生成数据流程图；

图2为基于堆积生成对抗网络(StackGAN)单个网络进行生成数据流程图；

图3为利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量；

图4为单个生成器和判别器生成图片的流程图；

图5为基于多头注意力机制的高分辨率的图片的生成方法。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

如图3-图5所示，利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量，单个生成器和判别器生成图片的流程图，基于多头注意力机制的高分辨率的图片的生成方法，包括如下步骤：

(1)数据预处理：将多个类别的高分辨率(256*256)的图片进行下采样，分别得到多个类别的低分辨率(128*128和64*64)的图片。

其中，第一个生成器的输入是噪声、类别向量和文本向量1，输出假图片1，第二个生成器的输入是第一个生成器生成的假图片1、类别向量和文本向量2，输出假图片2，第三个生成器的输入是假图片2、类别向量和文本向量3，输出假图片3。三个判别器的输入分别是三个生成器输出的假图片和类别向量，分别进行判断图片的真实性以及图片的类别。判别器和生成器做对抗，直至达到纳什平衡，此时图片会生成的尽可能的真实也会尽可能的符合该类别。

(4)由于判别器的判别能力高于生成器的生成能力，采取每个判别器迭代一次，三个生成器分别迭代n次，2n次，3n次，其中n为正整数；n一般取1，或者根据具体的场景的经验值设置，不做明确的约束。

对于图片文本描述向量的生成，利用multi-head attention将图片的文本描述转换为图片文本描述向量的，利用multi-head attention机制使文本进行编码的过程中，对于不同的文本的关注度不同，对于重要的词赋予更高的关注度；

具体的计算过程如是式(2)、(3)：

Multi-head (Q,K,V) ＝ concat(head₁,head₂,...head_n)w^o (2)

Head_i ＝ attention(QW_i ^Q,KW_i ^K,VW_i ^V) (3)

其中，w都是需要学习的参数，Q、K、V都是word embedding。

对于不同的生成器的multi-head attention中的头的个数是不一致的，令第一个生成器的头个数为1或n，第二个生成器的头个数为2或2n，第三个头结点的个数为3或2n，n为正整数。

该基于多头注意力机制的高分辨率的图片的生成方法在自动驾驶领域具有广泛的应用前景，真实图片的数据一般比较难采集或者采集的代价比较大，所以一般是利用对抗生成网络生成一些与真实数据相媲美的假图片，起到补充数据集的作用，然后利用补充之后的数据集，来训练自动驾驶系统。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.基于多头注意力机制的高分辨率的图片的生成方法，其特征在于，利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量，利用one-hot生成图片的类别向量，包括如下步骤：

(1)数据预处理：将多个类别的高分辨率的图片进行下采样，分别得到多个类别的低分辨率的图片，将图片、该图片的文件描述以及图片的类别组成三种分辨率的“图片-文本-类别”对的形式；

(2)构建网络结构：利用卷积神经网络构建三个生成器和三个判别器，其中，第一个生成器的输入是噪声、类别向量和文本向量1，输出假图片1，第二个生成器的输入是第一个生成器生成的假图片1、类别向量和文本向量2，输出假图片2，第三个生成器的输入是假图片2、类别向量和文本向量3，输出假图片3；输出端输出生成器生成的64*64、128*128和256*256的图片；判别器用于对生成的图片真实性和类别进行判断，三个判别器的输入端分别输入三种分辨率的“图片-文本-类别”对以及三个生成器生成的图片和类别向量；

其中，x为输入参数代表一张图片，D(x)为输出代表x为真实图片的概率，D(x)为1，就代表100％是真实的图片，D(x)输出为0，就代表不是真实的图片；

具体的计算过程如是式(2)、(3)：

Multi-head (Q,K,V) ＝ concat(head₁,head₂,...head_n)w^o (2)

Head_i ＝ attention(QW_i ^Q,KW_i ^K,VW_i ^V) (3)

其中，w都是需要学习的参数，Q、K、V都是word embedding；

对于不同的生成器的multi-head attention中的头的个数是不一致的，令第一个生成器的头个数为1或n，第二个生成器的头个数为2或2n，第三个头结点的个数为3或2n，n为正整数；