CN114037770A - 一种基于离散傅里叶变换的注意力机制的图像生成方法 - Google Patents

一种基于离散傅里叶变换的注意力机制的图像生成方法 Download PDF

Info

Publication number
CN114037770A
CN114037770A CN202111255619.3A CN202111255619A CN114037770A CN 114037770 A CN114037770 A CN 114037770A CN 202111255619 A CN202111255619 A CN 202111255619A CN 114037770 A CN114037770 A CN 114037770A
Authority
CN
China
Prior art keywords
image
characteristic diagram
fourier transform
output
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111255619.3A
Other languages
English (en)
Other versions
CN114037770B (zh
Inventor
赵江伟
唐佩军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical University of Electronic Science and Technology of China
Priority to CN202111255619.3A priority Critical patent/CN114037770B/zh
Publication of CN114037770A publication Critical patent/CN114037770A/zh
Application granted granted Critical
Publication of CN114037770B publication Critical patent/CN114037770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

该发明公开了一种基于傅里叶变化注意力机制的图像生成方法,属于计算机视觉领域。该方法首先选择使用生成对抗网络作为基本框架,并对训练图片进行归一化,还对正态分布进行采样得到噪声;将原有的注意力机制进行了改进,利用离散傅里叶变换的能够结合所有位置信息进行计算的特性,替换原有的具有较高复杂度的计算像素点相关性特征图部分;进而得到结合所有位置信息的特征图。在训练时本方法将噪声和图片的类别同时输入网络,并利用生成对抗网络算法去训练模型。在训练好网络后,通过在生成对抗中输入噪声和图片类别就可以完成图像的生成任务。本发明可显著降低自注意力机制的计算复杂度和时间复杂度,提高了现有方法生成的图像质量和图片多样性。

Description

一种基于离散傅里叶变换的注意力机制的图像生成方法
技术领域
本发明属于计算机视觉领域,主要涉及图像的生成问题;主要应用于影视娱乐产业,平面设计以及机器视觉理解等方面。
背景技术
图像合成是指利用计算机视觉技术理解图像内容,并根据需求生成指定的图像的技术。它一般可分成两种类型:无监督图像生成和有监督图像生成。无监督图像生成多指学习从噪声分布到图像分布的映射函数,并通过映射函数生成图像。有监督图像生成,是指学习图像数据条件分布,进而生成给定条件下的图像。图像生成作为计算机视觉领域的一个热点问题,它不仅可以解决军事、医疗和安全等领域视觉数据缺失问题,还可以应用于影视娱乐、平面设计等领域。
由于人类对于图像的细节和边缘等信息十分敏感,因此图像合成算法需要保证图像的真实性和质量。另外,人类经常需要复杂且多样的图像来满足各类任务的要求。为了提高合成图像的真实性和多样性,许多学者使用深度生成技术来改善以往的图像合成算法。然而,当目标数据分布非常复杂时,早期的深度生成模型方法常面临着计算量大和难以求解的问题。在2014年Goodfellow等人提出的生成对抗网络方法出色地解决了这一问题。相比以往的深度生成模型,生成对抗网络方法具有以下几点明显的优势:一是以往的深度生成模型的计算复杂度一般与模型的输入维度呈非线性相关,而生成对抗网络方法的计算复杂度与模型的输入维度呈线性相关,生成对抗网络方法仅需增加生成器的输出维度和判别器的输入维度即可生成较大维度的样本。二是生成对抗网络对数据分布不做任何先验假设,因而也不需要人工设计模型的分布。三是生成对抗网络方法合成的数据分布十分接近真实样本的数据分布,合成图像的真实性和多样性可以得到很好地保证。由于生成对抗网络这些明显的优势,因此本发明使用生成对抗网络方法进行图像合成任务。
目前,现有的生成对抗网络方法仍然存在着模式崩塌和训练不稳定等问题。为了改善这些问题,Goodfellow等人通过引入非局部自注意力机制去建模合成像素之间的长程相关性,他们提出的自注意力生成对抗网络(Self-attention Generative Adversarialnetworks,简称SAGAN)在多个领域的图像合成任务中得到了非常大的突破。参考文献:H.Zhang,I.Goodfellow,D.Metaxas,et al.Self-attention generative adversarialnetworks[C].International conference on machine learning,2019,7354-7363。然而,该模型存在着计算复杂度高,计算效率低等问题。
近年来,对自注意力机制进行改进的需求增高,目前的方法在自注意力机制的内部结构计算过程进行微调。本发明在SAGAN模型的基础上借鉴了离散傅里叶变换思想,提出了一种基于离散傅里叶变换的注意力机制的生成对抗网络的图像生成方法,取得了出色的结果。
发明内容
本发明是一种离散傅里叶变换注意力机制的图像生成方法,解决现有的基于自注意力机制的生成对抗网络方法中存在的计算复杂度高、计算效率低等问题。
该方法首先选择使用生成对抗网络作为基本框架,并对训练图片进行归一化,还对正态分布进行采样得到噪声。同时,傅里叶变换的思想,将原有的注意力机制进行了改进,利用离散傅里叶变换的能够结合所有位置信息进行计算的特性,替换原有的具有较高复杂度的计算像素点相关性特征图部分,能够轻松的计算所有位置的相关信息,进而得到结合所有位置信息的特征图。在训练时本方法将噪声和图片的类别同时输入网络,并利用生成对抗网络算法去训练模型。在训练好网络后,通过在生成对抗中输入噪声和图片类别就可以完成图像的生成任务。通过上述方法,本发明充分的发挥了离散傅里叶变换和生成对抗网络的优势,提出的基于离散傅里叶变换的注意力模块,可显著降低自注意力机制的计算复杂度和时间复杂度,提高了现有方法生成的图像质量和图片多样性。算法总体结构示意参见图1。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:正态分布。也称常态分布,又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量x,其概率密度函数满足
Figure BDA0003324034450000021
其中μ为正态分布的数学期望,σ2为正态分布的方差,则称其满足正态分布,常记作
Figure BDA0003324034450000022
定义2:生成对抗网络。生成对抗网络包含两个不相同的神经网络,一个称为生成器G,另一个称为判别器D,这两个神经网络在训练过程中相互对抗,判别器的目的是区分真实数据分布Pdata和生成器分布PG,而生成器的目的则是不让判别器将这两个分布区分开来。
定义3:自注意力机制。注意力机制通常包括3个模块,query,key和value。query和key首先做相关度的运算,最后再与value进行加权操作,核心算子为
Figure BDA0003324034450000023
其中f(·,·)表示广义核函数,x表示输入,C(x)表示x的总和,g表示任意变换。
定义4:离散傅里叶变换。离散傅里叶变换是傅里叶变换在时域和频域上都呈现离散的形式,将时域信号的采样变换为在离散时间傅里叶变换频域的采样。在形式上,变换两端(时域和频域上)的序列是有限长的,而实际上这两组序列都应当被认为是离散周期信号的主值序列。即使对有限长的离散信号作DFT,也应当将其看作经过周期延拓成为周期信号再作变换。在实际应用中通常采用快速傅里叶变换以高效计算离散傅里叶变换。
定义5:图像上采样与下采样。图像上采样与下采样分别在深度学习中常用于特征提取和图像生成,二者可被看作是相反方向的操作。下采样操作能够实现与人眼类似的功能,即提取图像的局部特征,同时下采样操作实现了参数共享和数据降维的功能。低维的图像特征可以通过一系列的上采样操作生成高维图像,因此上采样多用于图像生成。
定义6:残差网络。相比于传统的卷积神经网络,残差网络增加了一个shortcut连接方式,这种连接方式不论是在效率上还是在精确度上,都已证明超过传统的直通式的卷积神经网络。在网络进行训练时,残差网络模块具有很明显的优势,反向传播的梯度在通过残差网络模块时,可以从高层直接传播到底层,这使得网络可以选择哪些模块要调整,让网络模块在训练时能够保持稳定。
定义7:投影判别器。投影判别器是一种生成对抗网络的判别器。它受到概率模型的启发,将给定的条件信息加入到判别器当中,使得输出的损失能够结合图片的类别信息。具体结构见图1。
定义8:softmax函数。或称归一化指数函数,它能将一个含任意实数的K维向量x“压缩”到另一个K维实向量softmax(x)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。其公式可以表示为:
Figure BDA0003324034450000031
定义9:Relu函数。又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数,表达式为f(x)=max(0,x)。
定义10:Tanh函数。可以用表达式
Figure BDA0003324034450000032
定义。
定义11:one-hot编码。由于计算机无法理解非二进制类的数据,one-hot编码可以将类别标签数据转换成统一的二进制数字格式,方便机器学习算法进行处理与计算。在本发明中的图像标签就是利用该编码方法转换成固定维度的one-hot向量。one-hot向量数据中绝大部分的数字都是0,使用这种稀疏的数据结构可以节省计算机内存的使用量。
因而本发明技术方案为一种基于傅里叶变化注意力机制的图像生成方法,该方法包括:
步骤1:对数据集进行预处理;
获取训练图像及其对应的标签,首先,根据该数据集的类别标签可将图像进行分类;然后,利用one-hot向量对类别标签进行编码;最后,将图片像素值进行归一化,并且将数据保存;
步骤2:构建卷积神经网络;
此步骤构建卷积神经网络包括两个子网络:一个为生成器,另一个为判别器;生成器输入的为高斯噪声v和图片类别y,输出为图像,从高斯噪声输入到输出依次包括线性层、第一上采样残差网络块、第二上采样残差网络块、第三上采样残差网络块、注意力模块、标准卷积块、tanh模块,图片类别分别输入给第一上采样残差网络块、第二上采样残差网络块、第三上采样残差网络块,所述tanh模块的输出值域在[-1,1]的图像;
所述判别器的输入为图像和图像类别,输出为标量,从图像输入到输出依次包括:第一下采样残差模块、注意力模块、第二下采样残差模块、第一标准残差模块、第二标准残差模块、线性层,图像类别输入嵌入层模块、嵌入层的输出与第二标准残差模块的输出一起输入个累积模块,内积模块的输出与线性层的输出相加后作为判别器的输出;
所述注意力模块的计算方法为:
设高斯噪声经过线性层和上采样残差模块后得到特征图为
Figure BDA0003324034450000041
作为注意力模块的输入,其中C为特征图的通道数,H和W分别为特征图的高和宽;
第一步将X进行卷积,得到卷积特征图,将其记为
Figure BDA0003324034450000042
将其改变形状至
Figure BDA0003324034450000043
其中N=H×W;
第二步对特征图Q的C纬度计算离散傅里叶变换得到通道傅里叶变换特征图记为
Figure BDA0003324034450000044
然后将Fhidden进行转置改变形状至
Figure BDA0003324034450000045
对最新的Fhidden的N纬度利用离散傅里叶变换得到图像傅里叶变换特征图记为
Figure BDA0003324034450000046
取Fseq的实数部分得到图像与通道傅里叶变换特征图记为
Figure BDA0003324034450000047
第三步将得到的特征图F改变形状至C×H×W,然后进行卷积,得到结合所有通道信息的特征图记为
Figure BDA0003324034450000048
第四步对O特征图与输入X相加得到注意力模块的输出特征图Y;具体结构如图2所示。
步骤3:确定损失函数;
在步骤1中获取到的图片记为I,图片的类别为y;并对正态分布进行随机采样得到向量
Figure BDA0003324034450000049
步骤2中的生成器网络记为G,判别器网络记为D;生成器网络G的输入为v,y,输出记为G(v,y);判别器的分别输入真实图片I与真实图片的标签y和生成器生成的图片G(v,y)与生成图片的标签y,真实图片I与其标签y所对应的判别器的输出记为D(I,y),生成图片G(v,y)与其标签y所对应的判别器的输出分别和D(G(v,y),y)。网络的损失可以描述为:
Figure BDA0003324034450000051
Figure BDA0003324034450000052
Figure BDA0003324034450000053
为判别器的损失函数,
Figure BDA0003324034450000054
为生成器的损失函数;
Figure BDA0003324034450000055
分别表示对I和v求期望;
步骤4:利用步骤3构建的损失函数对步骤2构建的卷积神经网络进行训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D是则相反,每次迭代交替更新一次,知道达到设定的迭代次数;
步骤5:步骤4卷积神经网络训练好后,只取生成器网络G,将正态分布中的不同噪声样本输入到生成器网络G中,即可得到多张不同的输出图片。
所述步骤3中注意力模块的具体方法为:
步骤3.1:计算卷积特征图Q;
计算输入特X征图的1×1卷积,得到输出卷积特征图记为Q,大小为C×H×W,然后将
Figure BDA0003324034450000056
特征图的形状变换为
Figure BDA0003324034450000057
其中N=H×W;
步骤3.2:计算卷积特征图的离散傅里叶变换;
针对特征图
Figure BDA0003324034450000058
的C纬度进行离散傅里叶变换,得到通道傅里叶变换特征图记为
Figure BDA0003324034450000059
计算公式为:
Figure BDA00033240344500000510
将特征图Fhidden进行转置得到形状为C×N,对转置后的Fhidden针对N纬度进行离散傅里叶变换,得到图像傅里叶变换特征图记为
Figure BDA00033240344500000511
计算公式为:
Figure BDA00033240344500000512
对特征图Fimg取其实数部分得到图像与通道傅里叶变换特征图F,大小为C×N,;计算公式为
Figure BDA00033240344500000513
其中
Figure BDA00033240344500000514
表示取实数部分的数据;
步骤3.3:计算特征图F的多层感知器输出;
对输入特征图F大小该变为C×H×W,对于变换后的特征图F计算1×1卷积得到输出结合所有通道信息的特征图记为O,大小为C×H×W,计算过程可以表示为:
O=f2(F)
其中f2(.)表示1×1卷积的公式表达形式。
步骤3.4:计算O特征图残差链接;
将特征图O乘以γ与X特征图相加得到最终的输出Y,大小为C×H×W,其中
Figure BDA0003324034450000061
为可以学习的标量,控制傅里叶变换注意力机制与原图像的结合的比例,最终的输出公式表示为:
Y=γ*O+X。
本发明的创新之处在于:
1)针对现有的自注意力机制存在的计算复杂度高的问题,将自注意力机制输入三个卷积特征图降低一个卷积特征图,如图2所示。
2)针对现有的自注意力机制存在的时间复杂度高的问题,将自注意力机制两次的乘积更换为两次离散傅里叶变换,通过傅里叶变换得到结合所有位置信息的组合,加上卷积操作结合所有组合得到最终的输出,如图2所示。
3)我们将这一个方式引入到生成对抗网络方法中去完成图像生成实验,并在实验中取得出色的结果。
1)中的改进可以使自注意力机制在保留其有效性的基础上,大幅度降低机制的计算复杂度,2)中的改进可以使自注意力机制在保留其有效性的基础上,大幅度降低机制的时间复杂度,通过两者的结合最终使我们的实验结果得到提升。
附图说明
图1为本发明方法主要网络结构图
图2为本发明离散傅里叶变换注意力示意图。
图3为本发明标准卷积块,上采样残差块,下采样残差块以及标准残差块示意图。
具体实施方式
步骤1:对数据集进行预处理;
获取cifar10数据集,cifar10数据集是由10类32×32的自然彩色图像及其对应的类别标签组成,总共包含60000张图像及其对应的标签。首先,根据该数据集的类别标签可将图像分为10个类别。然后,利用one-hot向量对类别标签进行编码。最后,将图片像素值进行归一化至范围[-1,1],并且将数据保存为张量以便生成对抗网络来使用。
步骤2:构建卷积神经网络;
此步骤构建卷积神经网络包括两个子网络,一个为生成器,另一个为判别器;生成器输入的为高斯噪声和图片类别,它的输出为图像,而判别器的输入为图像和图片类别,输出为标量。生成器网络的第一层为线性全连接层,之后接着三个上采样残差网络块,最后再跟着一个标准卷积块;判别器网络依次采用两个下采样残差网络块,两个标准残差网络块,以及线性全连接层和投影鉴别器。具体结构如图1所示
步骤3:构建傅里叶变化的注意力模块;
设一个高斯噪声送入卷积神经网络中的生成器后,通过生成器中的上采样残差网络块输出得到的特征图为
Figure BDA0003324034450000071
其中C为特征图的通道数,H和W分别为特征图的高和宽;
第一步将X输入到卷积中,并得到卷积特征图,将其记为
Figure BDA0003324034450000072
将其改变形状至N×C,其中N=H×W;第二步对特征图Q的C纬度计算离散傅里叶变换得到通道傅里叶变换特征图记为
Figure BDA0003324034450000073
然后将Fhidden进行转置改变形状至C×N,对Fhidden的N纬度利用离散傅里叶变换得到图像傅里叶变换特征图记为
Figure BDA0003324034450000074
取Fseq的实数部分得到图像与通道傅里叶变换特征图记为
Figure BDA0003324034450000075
第三步将得到的特征图F改变形状至C×H×W,然后输入到卷积中得到结合所有通道信息的特征图记为
Figure BDA0003324034450000076
第四步对O特征图与输入X相加得到特征图Y;具体结构如图2所示。
步骤4:设计总神经网络;
将步骤3中的傅里叶变化的注意力模块嵌入到步骤2中的生成器当中,嵌入位置在生成器最后一个上采样残差网络块之后,并将生成器的输出作为判别器的输入。
步骤5:设计损失函数;
在步骤1中获取到的图片记为I,图片的类别为y;并对正态分布进行随机采样得到向量
Figure BDA0003324034450000077
步骤2中的生成器网络记为G,判别器网络记为D;G中的生成器的输入为v,它的输出记为G(v,y);判别器的分别输入真实图片I与真实图片的标签y和生成器生成的图片G(v,y)与生成图片的标签y,真实图片I与其标签y所对应的判别器的输出记为D(I,y),生成图片G(v,y)与其标签y所对应的判别器的输出分别和D(G(v,y),y)。网络的损失可以描述为:
Figure BDA0003324034450000078
Figure BDA0003324034450000079
Figure BDA00033240344500000710
为判别器的损失函数,
Figure BDA00033240344500000711
为生成器的损失函数;
Figure BDA00033240344500000712
分别表示对I和v求期望;
步骤6:训练总神经网络;
利用步骤5构建的损失函数进行网络训练,在更新G时固定D的参数,而更新D是则相反,每次迭代交替更新一次,实际训练中采用200000次迭代次数;
步骤7:测试总神经网络;
在步骤6中训练好模型,只取生成器G。将正态分布中的不同噪声样本输入到G中,即可得到多张不同的输出图片,并对得到图片的质量和多样性进行测试。实验结果,在cifar10的测试数据集上,生成图片的Inception Score指标较之前自注意力机制的7.48降低了0.1分,较未加入的7.23提升了0.15,达到7.38分;生成图片的FID指标较之前自注意力机制的10.02分升高了了0.6分,较未加入的10.85改善了0.23,达到10.62分;注意力层计算所需要的时间较之前的2.2毫秒减少了了1毫秒,达到了1.2毫秒。

Claims (1)

1.一种基于傅里叶变化注意力机制的图像生成方法,该方法包括:
步骤1:对数据集进行预处理;
获取训练图像及其对应的标签,首先,根据该数据集的类别标签可将图像进行分类;然后,利用one-hot向量对类别标签进行编码;最后,将图片像素值进行归一化,并且将数据保存;
步骤2:构建卷积神经网络;
此步骤构建卷积神经网络包括两个子网络:一个为生成器,另一个为判别器;生成器输入的为高斯噪声v和图片类别y,输出为图像,从高斯噪声输入到输出依次包括线性层、第一上采样残差网络块、第二上采样残差网络块、第三上采样残差网络块、注意力模块、标准卷积块、tanh模块,图片类别分别输入给第一上采样残差网络块、第二上采样残差网络块、第三上采样残差网络块,所述tanh模块的输出值域在[-1,1]的图像;
所述判别器的输入为图像和图像类别,输出为标量,从图像输入到输出依次包括:第一下采样残差模块、注意力模块、第二下采样残差模块、第一标准残差模块、第二标准残差模块、线性层,图像类别输入嵌入层模块、嵌入层的输出与第二标准残差模块的输出一起输入个累积模块,内积模块的输出与线性层的输出相加后作为判别器的输出;
所述注意力模块的计算方法为:
设高斯噪声经过线性层和上采样残差模块后得到特征图为
Figure FDA0003324034440000011
作为注意力模块的输入,其中C为特征图的通道数,H和W分别为特征图的高和宽;
第一步将X进行卷积,得到卷积特征图,将其记为
Figure FDA0003324034440000012
将其改变形状至
Figure FDA0003324034440000013
其中N=H×W;
第二步对特征图Q的C纬度计算离散傅里叶变换得到通道傅里叶变换特征图记为
Figure FDA0003324034440000014
然后将Fhidden进行转置改变形状至
Figure FDA0003324034440000015
对最新的Fhidden的N纬度利用离散傅里叶变换得到图像傅里叶变换特征图记为
Figure FDA0003324034440000016
取Fseq的实数部分得到图像与通道傅里叶变换特征图记为
Figure FDA0003324034440000017
第三步将得到的特征图F改变形状至C×H×W,然后进行卷积,得到结合所有通道信息的特征图记为
Figure FDA0003324034440000018
第四步对O特征图与输入X相加得到注意力模块的输出特征图Y;
步骤3:确定损失函数;
在步骤1中获取到的图片记为I,图片的类别为y;并对正态分布进行随机采样得到向量
Figure FDA0003324034440000019
步骤2中的生成器网络记为G,判别器网络记为D;生成器网络G的输入为v,y,输出记为G(v,y);判别器的分别输入真实图片I与真实图片的标签y和生成器生成的图片G(v,y)与生成图片的标签y,真实图片I与其标签y所对应的判别器的输出记为D(I,y),生成图片G(v,y)与其标签y所对应的判别器的输出分别和D(G(v,y),y);网络的损失可以描述为:
Figure FDA0003324034440000021
Figure FDA0003324034440000022
Figure FDA0003324034440000023
为判别器的损失函数,
Figure FDA0003324034440000024
为生成器的损失函数;
Figure FDA0003324034440000025
分别表示对I和v求期望;
步骤4:利用步骤3构建的损失函数对步骤2构建的卷积神经网络进行训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D是则相反,每次迭代交替更新一次,知道达到设定的迭代次数;
步骤5:步骤4卷积神经网络训练好后,只取生成器网络G,将正态分布中的不同噪声样本输入到生成器网络G中,即可得到多张不同的输出图片;
所述步骤3中注意力模块的具体方法为:
步骤3.1:计算卷积特征图Q;
计算输入特X征图的1×1卷积,得到输出卷积特征图记为Q,大小为C×H×W,然后将
Figure FDA0003324034440000026
特征图的形状变换为
Figure FDA0003324034440000027
其中N=H×W;
步骤3.2:计算卷积特征图的离散傅里叶变换;
针对特征图
Figure FDA0003324034440000028
的C纬度进行离散傅里叶变换,得到通道傅里叶变换特征图记为
Figure FDA0003324034440000029
计算公式为:
Figure FDA00033240344400000210
将特征图Fhidden进行转置得到形状为C×N,对转置后的Fhidden针对N纬度进行离散傅里叶变换,得到图像傅里叶变换特征图记为
Figure FDA00033240344400000211
计算公式为:
Figure FDA00033240344400000212
对特征图Fimg取其实数部分得到图像与通道傅里叶变换特征图F,大小为C×N;计算公式为
Figure FDA00033240344400000213
其中
Figure FDA00033240344400000214
表示取实数部分的数据;
步骤3.3:计算特征图F的多层感知器输出;
对输入特征图F大小该变为C×H×W,对于变换后的特征图F计算1×1卷积得到输出结合所有通道信息的特征图记为O,大小为C×H×W,计算过程可以表示为:
O=f2(F)
其中f2(.)表示1×1卷积的公式表达形式;
步骤3.4:计算O特征图残差链接;
将特征图O乘以γ与X特征图相加得到最终的输出Y,大小为C×H×W,其中
Figure FDA0003324034440000031
为可以学习的标量,控制傅里叶变换注意力机制与原图像的结合的比例,最终的输出公式表示为:
Y=γ*O+X。
CN202111255619.3A 2021-10-27 2021-10-27 一种基于离散傅里叶变换的注意力机制的图像生成方法 Active CN114037770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111255619.3A CN114037770B (zh) 2021-10-27 2021-10-27 一种基于离散傅里叶变换的注意力机制的图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111255619.3A CN114037770B (zh) 2021-10-27 2021-10-27 一种基于离散傅里叶变换的注意力机制的图像生成方法

Publications (2)

Publication Number Publication Date
CN114037770A true CN114037770A (zh) 2022-02-11
CN114037770B CN114037770B (zh) 2024-08-16

Family

ID=80135549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111255619.3A Active CN114037770B (zh) 2021-10-27 2021-10-27 一种基于离散傅里叶变换的注意力机制的图像生成方法

Country Status (1)

Country Link
CN (1) CN114037770B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071226A (zh) * 2023-03-06 2023-05-05 中国科学技术大学 基于注意力网络的电镜图像配准系统及方法
CN116912139A (zh) * 2023-07-04 2023-10-20 华中科技大学 一种基于生成对抗网络的噪声合成及其模型训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217749A1 (en) * 2015-01-23 2016-07-28 Abl Ip Holding Llc Frequency domain processing of image used to drive multi-pixel lighting device output
CN110912598A (zh) * 2019-11-22 2020-03-24 中原工学院 基于长短时注意力机制的大规模mimo系统csi反馈方法
WO2020172838A1 (zh) * 2019-02-26 2020-09-03 长沙理工大学 一种改进辅助分类器gan的图像分类方法
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217749A1 (en) * 2015-01-23 2016-07-28 Abl Ip Holding Llc Frequency domain processing of image used to drive multi-pixel lighting device output
WO2020172838A1 (zh) * 2019-02-26 2020-09-03 长沙理工大学 一种改进辅助分类器gan的图像分类方法
CN110912598A (zh) * 2019-11-22 2020-03-24 中原工学院 基于长短时注意力机制的大规模mimo系统csi反馈方法
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
路婷;邓红亮;汪桃;陈辉;陈露强;刘立群;薛飞;: "图像处理系统的设计与实现", 软件, no. 01, 15 January 2020 (2020-01-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071226A (zh) * 2023-03-06 2023-05-05 中国科学技术大学 基于注意力网络的电镜图像配准系统及方法
CN116912139A (zh) * 2023-07-04 2023-10-20 华中科技大学 一种基于生成对抗网络的噪声合成及其模型训练方法
CN116912139B (zh) * 2023-07-04 2024-04-26 华中科技大学 一种基于生成对抗网络的噪声合成及其模型训练方法

Also Published As

Publication number Publication date
CN114037770B (zh) 2024-08-16

Similar Documents

Publication Publication Date Title
Kingma et al. Glow: Generative flow with invertible 1x1 convolutions
Ilesanmi et al. Methods for image denoising using convolutional neural network: a review
CN111696027B (zh) 一种基于适应性注意力机制的多模态的图像风格迁移方法
Wen et al. Image recovery via transform learning and low-rank modeling: The power of complementary regularizers
CN110782395B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN112801280B (zh) 视觉深度自适应神经网络的一维卷积位置编码方法
CN113379655B (zh) 一种基于动态自注意力生成对抗网络的图像合成方法
CN106339753A (zh) 一种有效提升卷积神经网络稳健性的方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN114037770A (zh) 一种基于离散傅里叶变换的注意力机制的图像生成方法
CN115456918B (zh) 一种基于小波高频通道合成的图像去噪方法及装置
Wei et al. Deep unfolding with normalizing flow priors for inverse problems
US20240169500A1 (en) Image and object inpainting with diffusion models
Lensink et al. Fully hyperbolic convolutional neural networks
CN111294614B (zh) 用于数字图像、音频或视频数据处理的方法和设备
CN114565528A (zh) 一种基于多尺度和注意力机制的遥感影像降噪方法及系统
Huang et al. Learning deep analysis dictionaries for image super-resolution
Carreau et al. A spatially adaptive multi-resolution generative algorithm: Application to simulating flood wave propagation
Wen et al. The power of complementary regularizers: Image recovery via transform learning and low-rank modeling
Fakhari et al. A new restricted boltzmann machine training algorithm for image restoration
Bao et al. Half quadratic splitting method combined with convolution neural network for blind image deblurring
Zhang et al. Iterative multi‐scale residual network for deblurring
Khader et al. A model-guided deep convolutional sparse coding network for hyperspectral and multispectral image fusion
Kim et al. Convolution layer with nonlinear kernel of square of subtraction for dark-direction-free recognition of images
CN118628838B (zh) 基于变分量子算法的图像分析方法、系统以及储存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant