CN114037770A

CN114037770A - 一种基于离散傅里叶变换的注意力机制的图像生成方法

Info

Publication number: CN114037770A
Application number: CN202111255619.3A
Authority: CN
Inventors: 赵江伟; 唐佩军
Original assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-11
Anticipated expiration: 2041-10-27
Also published as: CN114037770B

Abstract

该发明公开了一种基于傅里叶变化注意力机制的图像生成方法，属于计算机视觉领域。该方法首先选择使用生成对抗网络作为基本框架，并对训练图片进行归一化，还对正态分布进行采样得到噪声；将原有的注意力机制进行了改进，利用离散傅里叶变换的能够结合所有位置信息进行计算的特性，替换原有的具有较高复杂度的计算像素点相关性特征图部分；进而得到结合所有位置信息的特征图。在训练时本方法将噪声和图片的类别同时输入网络，并利用生成对抗网络算法去训练模型。在训练好网络后，通过在生成对抗中输入噪声和图片类别就可以完成图像的生成任务。本发明可显著降低自注意力机制的计算复杂度和时间复杂度，提高了现有方法生成的图像质量和图片多样性。

Description

一种基于离散傅里叶变换的注意力机制的图像生成方法

技术领域

本发明属于计算机视觉领域，主要涉及图像的生成问题；主要应用于影视娱乐产业，平面设计以及机器视觉理解等方面。

背景技术

图像合成是指利用计算机视觉技术理解图像内容，并根据需求生成指定的图像的技术。它一般可分成两种类型：无监督图像生成和有监督图像生成。无监督图像生成多指学习从噪声分布到图像分布的映射函数，并通过映射函数生成图像。有监督图像生成，是指学习图像数据条件分布，进而生成给定条件下的图像。图像生成作为计算机视觉领域的一个热点问题，它不仅可以解决军事、医疗和安全等领域视觉数据缺失问题，还可以应用于影视娱乐、平面设计等领域。

由于人类对于图像的细节和边缘等信息十分敏感，因此图像合成算法需要保证图像的真实性和质量。另外，人类经常需要复杂且多样的图像来满足各类任务的要求。为了提高合成图像的真实性和多样性，许多学者使用深度生成技术来改善以往的图像合成算法。然而，当目标数据分布非常复杂时，早期的深度生成模型方法常面临着计算量大和难以求解的问题。在2014年Goodfellow等人提出的生成对抗网络方法出色地解决了这一问题。相比以往的深度生成模型，生成对抗网络方法具有以下几点明显的优势：一是以往的深度生成模型的计算复杂度一般与模型的输入维度呈非线性相关，而生成对抗网络方法的计算复杂度与模型的输入维度呈线性相关，生成对抗网络方法仅需增加生成器的输出维度和判别器的输入维度即可生成较大维度的样本。二是生成对抗网络对数据分布不做任何先验假设，因而也不需要人工设计模型的分布。三是生成对抗网络方法合成的数据分布十分接近真实样本的数据分布，合成图像的真实性和多样性可以得到很好地保证。由于生成对抗网络这些明显的优势，因此本发明使用生成对抗网络方法进行图像合成任务。

目前，现有的生成对抗网络方法仍然存在着模式崩塌和训练不稳定等问题。为了改善这些问题，Goodfellow等人通过引入非局部自注意力机制去建模合成像素之间的长程相关性，他们提出的自注意力生成对抗网络(Self-attention Generative Adversarialnetworks，简称SAGAN)在多个领域的图像合成任务中得到了非常大的突破。参考文献：H.Zhang,I.Goodfellow,D.Metaxas,et al.Self-attention generative adversarialnetworks[C].International conference on machine learning,2019,7354-7363。然而，该模型存在着计算复杂度高，计算效率低等问题。

近年来，对自注意力机制进行改进的需求增高，目前的方法在自注意力机制的内部结构计算过程进行微调。本发明在SAGAN模型的基础上借鉴了离散傅里叶变换思想，提出了一种基于离散傅里叶变换的注意力机制的生成对抗网络的图像生成方法，取得了出色的结果。

发明内容

本发明是一种离散傅里叶变换注意力机制的图像生成方法，解决现有的基于自注意力机制的生成对抗网络方法中存在的计算复杂度高、计算效率低等问题。

该方法首先选择使用生成对抗网络作为基本框架，并对训练图片进行归一化，还对正态分布进行采样得到噪声。同时，傅里叶变换的思想，将原有的注意力机制进行了改进，利用离散傅里叶变换的能够结合所有位置信息进行计算的特性，替换原有的具有较高复杂度的计算像素点相关性特征图部分，能够轻松的计算所有位置的相关信息，进而得到结合所有位置信息的特征图。在训练时本方法将噪声和图片的类别同时输入网络，并利用生成对抗网络算法去训练模型。在训练好网络后，通过在生成对抗中输入噪声和图片类别就可以完成图像的生成任务。通过上述方法，本发明充分的发挥了离散傅里叶变换和生成对抗网络的优势，提出的基于离散傅里叶变换的注意力模块，可显著降低自注意力机制的计算复杂度和时间复杂度，提高了现有方法生成的图像质量和图片多样性。算法总体结构示意参见图1。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：正态分布。也称常态分布，又名高斯分布，是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若随机变量x，其概率密度函数满足

其中μ为正态分布的数学期望，σ²为正态分布的方差，则称其满足正态分布，常记作

定义2：生成对抗网络。生成对抗网络包含两个不相同的神经网络，一个称为生成器G，另一个称为判别器D,这两个神经网络在训练过程中相互对抗，判别器的目的是区分真实数据分布P_data和生成器分布P_G，而生成器的目的则是不让判别器将这两个分布区分开来。

定义3：自注意力机制。注意力机制通常包括3个模块，query，key和value。query和key首先做相关度的运算，最后再与value进行加权操作，核心算子为

其中f(·，·)表示广义核函数，x表示输入，C(x)表示x的总和，g表示任意变换。

定义4：离散傅里叶变换。离散傅里叶变换是傅里叶变换在时域和频域上都呈现离散的形式，将时域信号的采样变换为在离散时间傅里叶变换频域的采样。在形式上，变换两端(时域和频域上)的序列是有限长的，而实际上这两组序列都应当被认为是离散周期信号的主值序列。即使对有限长的离散信号作DFT，也应当将其看作经过周期延拓成为周期信号再作变换。在实际应用中通常采用快速傅里叶变换以高效计算离散傅里叶变换。

定义5：图像上采样与下采样。图像上采样与下采样分别在深度学习中常用于特征提取和图像生成，二者可被看作是相反方向的操作。下采样操作能够实现与人眼类似的功能，即提取图像的局部特征，同时下采样操作实现了参数共享和数据降维的功能。低维的图像特征可以通过一系列的上采样操作生成高维图像，因此上采样多用于图像生成。

定义6：残差网络。相比于传统的卷积神经网络，残差网络增加了一个shortcut连接方式，这种连接方式不论是在效率上还是在精确度上，都已证明超过传统的直通式的卷积神经网络。在网络进行训练时，残差网络模块具有很明显的优势，反向传播的梯度在通过残差网络模块时，可以从高层直接传播到底层，这使得网络可以选择哪些模块要调整，让网络模块在训练时能够保持稳定。

定义7：投影判别器。投影判别器是一种生成对抗网络的判别器。它受到概率模型的启发，将给定的条件信息加入到判别器当中，使得输出的损失能够结合图片的类别信息。具体结构见图1。

定义8：softmax函数。或称归一化指数函数，它能将一个含任意实数的K维向量x“压缩”到另一个K维实向量softmax(x)中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1。其公式可以表示为：

定义9：Relu函数。又称修正线性单元,是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数，表达式为f(x)＝max(0，x)。

定义10：Tanh函数。可以用表达式

定义。

定义11：one-hot编码。由于计算机无法理解非二进制类的数据，one-hot编码可以将类别标签数据转换成统一的二进制数字格式，方便机器学习算法进行处理与计算。在本发明中的图像标签就是利用该编码方法转换成固定维度的one-hot向量。one-hot向量数据中绝大部分的数字都是0，使用这种稀疏的数据结构可以节省计算机内存的使用量。

因而本发明技术方案为一种基于傅里叶变化注意力机制的图像生成方法，该方法包括：

步骤1：对数据集进行预处理；

获取训练图像及其对应的标签，首先，根据该数据集的类别标签可将图像进行分类；然后，利用one-hot向量对类别标签进行编码；最后，将图片像素值进行归一化，并且将数据保存；

步骤2：构建卷积神经网络；

此步骤构建卷积神经网络包括两个子网络：一个为生成器，另一个为判别器；生成器输入的为高斯噪声v和图片类别y，输出为图像，从高斯噪声输入到输出依次包括线性层、第一上采样残差网络块、第二上采样残差网络块、第三上采样残差网络块、注意力模块、标准卷积块、tanh模块，图片类别分别输入给第一上采样残差网络块、第二上采样残差网络块、第三上采样残差网络块，所述tanh模块的输出值域在[-1，1]的图像；

所述判别器的输入为图像和图像类别，输出为标量，从图像输入到输出依次包括：第一下采样残差模块、注意力模块、第二下采样残差模块、第一标准残差模块、第二标准残差模块、线性层，图像类别输入嵌入层模块、嵌入层的输出与第二标准残差模块的输出一起输入个累积模块，内积模块的输出与线性层的输出相加后作为判别器的输出；

所述注意力模块的计算方法为：

设高斯噪声经过线性层和上采样残差模块后得到特征图为

作为注意力模块的输入，其中C为特征图的通道数，H和W分别为特征图的高和宽；

第一步将X进行卷积，得到卷积特征图，将其记为

将其改变形状至

其中N＝H×W；

第二步对特征图Q的C纬度计算离散傅里叶变换得到通道傅里叶变换特征图记为

然后将F_hidden进行转置改变形状至

对最新的F_hidden的N纬度利用离散傅里叶变换得到图像傅里叶变换特征图记为

取F_seq的实数部分得到图像与通道傅里叶变换特征图记为

第三步将得到的特征图F改变形状至C×H×W，然后进行卷积，得到结合所有通道信息的特征图记为

第四步对O特征图与输入X相加得到注意力模块的输出特征图Y；具体结构如图2所示。

步骤3：确定损失函数；

在步骤1中获取到的图片记为I，图片的类别为y；并对正态分布进行随机采样得到向量

步骤2中的生成器网络记为G，判别器网络记为D；生成器网络G的输入为v，y，输出记为G(v，y)；判别器的分别输入真实图片I与真实图片的标签y和生成器生成的图片G(v，y)与生成图片的标签y，真实图片I与其标签y所对应的判别器的输出记为D(I，y)，生成图片G(v，y)与其标签y所对应的判别器的输出分别和D(G(v，y)，y)。网络的损失可以描述为：

为判别器的损失函数，

为生成器的损失函数；

分别表示对I和v求期望；

步骤4：利用步骤3构建的损失函数对步骤2构建的卷积神经网络进行训练，在更新生成器网络G时固定判别器网络D的参数，而更新判别器网络D是则相反，每次迭代交替更新一次，知道达到设定的迭代次数；

步骤5：步骤4卷积神经网络训练好后，只取生成器网络G，将正态分布中的不同噪声样本输入到生成器网络G中，即可得到多张不同的输出图片。

所述步骤3中注意力模块的具体方法为：

步骤3.1：计算卷积特征图Q；

计算输入特X征图的1×1卷积，得到输出卷积特征图记为Q，大小为C×H×W，然后将

特征图的形状变换为

其中N＝H×W；

步骤3.2：计算卷积特征图的离散傅里叶变换；

针对特征图

的C纬度进行离散傅里叶变换，得到通道傅里叶变换特征图记为

计算公式为：

将特征图F_hidden进行转置得到形状为C×N，对转置后的F_hidden针对N纬度进行离散傅里叶变换，得到图像傅里叶变换特征图记为

计算公式为：

对特征图F_img取其实数部分得到图像与通道傅里叶变换特征图F，大小为C×N，；计算公式为

其中

表示取实数部分的数据；

步骤3.3：计算特征图F的多层感知器输出；

对输入特征图F大小该变为C×H×W，对于变换后的特征图F计算1×1卷积得到输出结合所有通道信息的特征图记为O，大小为C×H×W，计算过程可以表示为：

O＝f₂(F)

其中f₂(.)表示1×1卷积的公式表达形式。

步骤3.4：计算O特征图残差链接；

将特征图O乘以γ与X特征图相加得到最终的输出Y，大小为C×H×W，其中

为可以学习的标量，控制傅里叶变换注意力机制与原图像的结合的比例，最终的输出公式表示为：

Y＝γ*O+X。

本发明的创新之处在于：

1)针对现有的自注意力机制存在的计算复杂度高的问题，将自注意力机制输入三个卷积特征图降低一个卷积特征图，如图2所示。

2)针对现有的自注意力机制存在的时间复杂度高的问题，将自注意力机制两次的乘积更换为两次离散傅里叶变换，通过傅里叶变换得到结合所有位置信息的组合，加上卷积操作结合所有组合得到最终的输出，如图2所示。

3)我们将这一个方式引入到生成对抗网络方法中去完成图像生成实验，并在实验中取得出色的结果。

1)中的改进可以使自注意力机制在保留其有效性的基础上，大幅度降低机制的计算复杂度，2)中的改进可以使自注意力机制在保留其有效性的基础上，大幅度降低机制的时间复杂度，通过两者的结合最终使我们的实验结果得到提升。

附图说明

图1为本发明方法主要网络结构图

图2为本发明离散傅里叶变换注意力示意图。

图3为本发明标准卷积块，上采样残差块，下采样残差块以及标准残差块示意图。

具体实施方式

步骤1：对数据集进行预处理；

获取cifar10数据集，cifar10数据集是由10类32×32的自然彩色图像及其对应的类别标签组成，总共包含60000张图像及其对应的标签。首先，根据该数据集的类别标签可将图像分为10个类别。然后，利用one-hot向量对类别标签进行编码。最后，将图片像素值进行归一化至范围[-1,1]，并且将数据保存为张量以便生成对抗网络来使用。

步骤2：构建卷积神经网络；

此步骤构建卷积神经网络包括两个子网络，一个为生成器，另一个为判别器；生成器输入的为高斯噪声和图片类别，它的输出为图像，而判别器的输入为图像和图片类别，输出为标量。生成器网络的第一层为线性全连接层，之后接着三个上采样残差网络块，最后再跟着一个标准卷积块；判别器网络依次采用两个下采样残差网络块，两个标准残差网络块，以及线性全连接层和投影鉴别器。具体结构如图1所示

步骤3：构建傅里叶变化的注意力模块；

设一个高斯噪声送入卷积神经网络中的生成器后，通过生成器中的上采样残差网络块输出得到的特征图为

其中C为特征图的通道数，H和W分别为特征图的高和宽；

第一步将X输入到卷积中，并得到卷积特征图，将其记为

将其改变形状至N×C，其中N＝H×W；第二步对特征图Q的C纬度计算离散傅里叶变换得到通道傅里叶变换特征图记为

然后将F_hidden进行转置改变形状至C×N，对F_hidden的N纬度利用离散傅里叶变换得到图像傅里叶变换特征图记为

取F_seq的实数部分得到图像与通道傅里叶变换特征图记为

第三步将得到的特征图F改变形状至C×H×W，然后输入到卷积中得到结合所有通道信息的特征图记为

第四步对O特征图与输入X相加得到特征图Y；具体结构如图2所示。

步骤4：设计总神经网络；

将步骤3中的傅里叶变化的注意力模块嵌入到步骤2中的生成器当中，嵌入位置在生成器最后一个上采样残差网络块之后，并将生成器的输出作为判别器的输入。

步骤5：设计损失函数；

步骤2中的生成器网络记为G，判别器网络记为D；G中的生成器的输入为v，它的输出记为G(v，y)；判别器的分别输入真实图片I与真实图片的标签y和生成器生成的图片G(v，y)与生成图片的标签y，真实图片I与其标签y所对应的判别器的输出记为D(I，y)，生成图片G(v，y)与其标签y所对应的判别器的输出分别和D(G(v，y)，y)。网络的损失可以描述为：

为判别器的损失函数，

为生成器的损失函数；

分别表示对I和v求期望；

步骤6：训练总神经网络；

利用步骤5构建的损失函数进行网络训练，在更新G时固定D的参数，而更新D是则相反，每次迭代交替更新一次，实际训练中采用200000次迭代次数；

步骤7：测试总神经网络；

在步骤6中训练好模型，只取生成器G。将正态分布中的不同噪声样本输入到G中，即可得到多张不同的输出图片，并对得到图片的质量和多样性进行测试。实验结果，在cifar10的测试数据集上，生成图片的Inception Score指标较之前自注意力机制的7.48降低了0.1分，较未加入的7.23提升了0.15，达到7.38分；生成图片的FID指标较之前自注意力机制的10.02分升高了了0.6分，较未加入的10.85改善了0.23，达到10.62分；注意力层计算所需要的时间较之前的2.2毫秒减少了了1毫秒，达到了1.2毫秒。

Claims

1.一种基于傅里叶变化注意力机制的图像生成方法，该方法包括：

步骤1：对数据集进行预处理；

步骤2：构建卷积神经网络；

所述注意力模块的计算方法为：

设高斯噪声经过线性层和上采样残差模块后得到特征图为

第一步将X进行卷积，得到卷积特征图，将其记为

将其改变形状至

其中N＝H×W；

然后将F_hidden进行转置改变形状至

取F_seq的实数部分得到图像与通道傅里叶变换特征图记为

第四步对O特征图与输入X相加得到注意力模块的输出特征图Y；

步骤3：确定损失函数；

步骤2中的生成器网络记为G，判别器网络记为D；生成器网络G的输入为v，y，输出记为G(v，y)；判别器的分别输入真实图片I与真实图片的标签y和生成器生成的图片G(v，y)与生成图片的标签y，真实图片I与其标签y所对应的判别器的输出记为D(I，y)，生成图片G(v，y)与其标签y所对应的判别器的输出分别和D(G(v，y)，y)；网络的损失可以描述为：