CN111626923A - 基于新型注意力模型的图像转换方法 - Google Patents

基于新型注意力模型的图像转换方法 Download PDF

Info

Publication number
CN111626923A
CN111626923A CN202010469218.7A CN202010469218A CN111626923A CN 111626923 A CN111626923 A CN 111626923A CN 202010469218 A CN202010469218 A CN 202010469218A CN 111626923 A CN111626923 A CN 111626923A
Authority
CN
China
Prior art keywords
attention
image
channel
correlation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010469218.7A
Other languages
English (en)
Other versions
CN111626923B (zh
Inventor
花强
赵世朋
董春茹
张峰
刘轶功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heibei University
Original Assignee
Heibei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heibei University filed Critical Heibei University
Priority to CN202010469218.7A priority Critical patent/CN111626923B/zh
Publication of CN111626923A publication Critical patent/CN111626923A/zh
Application granted granted Critical
Publication of CN111626923B publication Critical patent/CN111626923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于新型注意力模型的图像转换方法。该方法提出来了一种新型的注意力模块——像素域和通道域双重相关性注意力,文中简称PC注意力模块,用于图像转换模型,可以分辨出在已知图像上哪些位置上的像素是需要被转换的,以及待转换的像素之间是否存在某种关联,从而解决生成图像质量较低的问题。PC注意力模块的优点包括两个方面,一是相较于其他注意力模型所需的参数量较少,二是能够同时实现对通道域和像素域的关注。另外,本发明还提出了一种SPC注意力机制,具体是将PC注意力模块应用于图像转换模型(CycleGAN模型)的生成器中,从而实现图像转换中上采样和下采样过程的信息互通。

Description

基于新型注意力模型的图像转换方法
技术领域
本发明涉及图像处理技术领域,具体地说是一种基于新型注意力模型的图像转换方法。
背景技术
图像转换,顾名思义就是将原始图像由一种风格的域转换到另一种风格的域中,这是计算机图形学、计算机视觉中反复出现的主题。当前图像转换方法利用深度神经网络的强大能力能够构建更具现实意义的表示。具体而言,生成对抗网络模型(GAN)已被证明是实现图像转换优良结果的最佳选择。
Isola等人提出的Pix2Pix模型利用条件式对抗生成网络(CGAN)的思想结合成对图像转换数据集可以为各种图像到图像转换任务产生高质量的结果。Pix2Pix模型的原理结构如图1所示。具体步骤是将原始图像作为条件输入到生成网络,再由生成网络(通常采用编码器-解码器网络结构)转换到目标图像分布空间,其实生成器就是学习从原始图像分布空间到目标图像分布空间的一种映射。判别器结合目标图像对生成器转换后的图像进行判断,以此来实现图像转换的功能。
但是,对于机器学习中的诸多任务而言,获取成对的训练数据往往十分不易。因此Zhu等人提出CycleGAN模型,在不使用成对数据的前提下,设计了两个生成器和两个判别器,形成双向的图像转换模型,并结合循环一致损失,解决了Pix2Pix模型必须使用成对数据进行训练的问题。与之同时,Kim等人提出的DiscoGAN和Yi等人提出的DualGAN模型结构与CycleGAN类似,只不过采用的误差函数和针对的具体情景稍有不同。CycleGAN模型的整体结构如图2所示。F作为从X域到Y域转换的生成器,G作为从Y域到X域转换的生成器,DX是对X域图像进行判别的判别器,DY是对Y域图像进行判别的判别器。
具体地,以斑马变马而言,由X域到Y域转换生成对抗网络结构如图3所示,Y域到X域转换生成对抗网络结构同理可知。以X域图像作为生成器F的输入,生成器F会生成一张Y域图像,将之作为生成样本交由Y域判别器进行判别,同时生成的Y域图像还会交由生成器G还原生成一张X域图像,该生成的X域图像与原始的输入X域图像之间会有循环一致损失加以控制。
常见的图像转换模型带来的另一个问题就是在转换对象的同时,图像背景也会被改变。为解决这一问题,Chen等人提出Attention-GAN,将注意力机制引入对象转换的生成对抗网络中,利用一个由注意力网络、转换网络和判别网络组成的模型,关注需要被转换的区域,产生高质量的对象转换结果。
Attention-GAN模型的整体结构如图4所示,其模型由三个网络结构组成,一是转换网络,用于对图像进行域转换;一个是判别网络,用于对真假目标域图像进行判别;额外添加一个注意力网络用于提供稀疏的注意力图(Attention maps)。具体转换过程如图5所示,输入图像通过转换网络进行域转换,之后结合注意力网络生成的注意力图进行合成(即分层操作)得到最终的输出。
与Attention-GAN类似,Mejjati等人通过将注意力机制纳入无监督的图像到图像转换中,提出Attention-Guided GAN,解决了背景和前景不能正确混合的问题,改善生成图像的质量。
Attention-Guided GAN模型的转换过程如图6所示。具体的转换过程是:S域的图像s通过As得到注意力图sa,sa和s按位乘,得到s图像的前景sf(即注意力应关注的部分);sf通过FS→T转换到T域,再和sa按位乘,得到转换到T域图像的前景;s和(1-sa)按位乘得到s的背景(即非关注的部分)sb;sb和转换到T域图像的前景相加得到最终的结果s'。
虽然上述方法产生的结果相较于原始的图像到图像的转换算法有了显著改进,但这些方法存在着需要显式的注意力网络用于生成注意力图或者大幅度增加了网络计算量和参数量的问题。
发明内容
本发明的目的就是提供一种基于新型注意力模型的图像转换方法,以解决现有方法生成图像质量低以及所需参数量大的问题。
本发明是这样实现的:一种基于新型注意力模型的图像转换方法,采用PC注意力模块同时获取图像像素维度和通道维度的注意力,所述PC注意力模块是具有像素域和通道域双重相关性注意力的模块;具体包括如下步骤:
a、计算原始输入图像特征像素之间的相关性,得到像素相关性矩阵;
b、计算原始输入图像特征通道之间的相关性;
c、将步骤a和步骤b所得结果进行矩阵相乘实现线性空间变换,得到双重注意力图像特征,使得其既包含像素维度的相关性,又包含通道维度的相关性;
d、将双重注意力图像特征与原始输入图像特征线性加权组合,作为PC注意力模块的输出。
在步骤d之后还包括如下步骤:
e、将步骤a得到的像素相关性矩阵,以恒等连接的方式在编码器和解码器的PC注意力模块之间进行跳跃连接,减少学习参数,保持相同注意力。
步骤a具体计算过程为:
a-1、将图像特征x∈RC×H×W利用两个特征空间Q、K进行变换;
a-2、通过点积的方式得出像素点xi与xj之间的相关性;
a-3、通过Softmax函数对点积得到的结果进行权重归一化操作。
步骤b具体计算过程为:
b-1、首先通过一个全局平均池化的操作对原始的图像特征进行压缩,将每个二维的特征通道变成一个实数;
b-2、再经过两层全连接神经网络,利用网络所学得的参数来为每个特征通道生成权;
b-3、最后,全连接神经网络输出的结果代表每一维特征通道的重要程度,通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重新标定。
具体将PC注意力模块应用于图像转换模型中是以SPC注意力机制的方式:通过跳跃连接的方式将编码器网络利用PC注意力模块所产生的注意力图传递给解码器网络的PC注意力模块中;PC注意力模块具有像素域和通道域双重相关注意力。
本发明提出了一种新型的注意力模块——像素域和通道域双重相关性注意力(Pixel-wise and Channel-wise Attention),简称PC注意力模块,能够同时获取图像像素维度和通道维度的注意力。利用该模块可以帮助算法识别出图像中最具区别性的语义对象(即待转换对象),并且可以直接应用于卷积神经网络作为网络结构中的一层以端对端的方式进行训练。
PC注意力模块的优点包括两个方面,一是相较于其他注意力模型所需的参数量较少,二是能够同时实现对通道域和像素域的关注。另外,本发明还提出了一种SPC注意力机制,具体是将PC注意力模块应用于图像转换模型(CycleGAN模型)的生成器中,从而实现图像转换中上采样和下采样过程的信息互通。
附图说明
图1是现有技术中Pix2Pix模型的原理结构示意图。
图2是现有技术中CycleGAN模型的整体结构示意图。
图3是现有技术中利用CycleGAN模型从X域到Y域转换生成对抗网络的结构示意图。
图4是现有技术中Attention-GAN模型的整体结构示意图。
图5是现有技术中利用Attention-GAN模型进行图像转换的过程示意图。
图6是现有技术中Attention-Guided GAN模型的整体结构示意图。
图7是本发明中PC注意力模块的具体计算过程示意图。
图8是本发明中SPC注意力机制在生成器网络上的应用示意图。
图9是本发明中嵌入SPC注意力机制的图像转换模型与其他图像转换模型在从马与斑马转换实验中的对比图。
具体实施方式
图像转换是图像处理里面的一个研究热点,图像转换可以被定义为,在给定足够训练数据的情况下,将场景的一个可能表示转换成另一个可能表示。其本质就是根据当前已知图像的像素预测新图像的像素。当前,结合生成对抗网络能够在图像转换领域实现从已知图像到目标图像的转换,但利用生成对抗网络的转换模型(例如:Pix2Pix模型,CycleGAN模型)通常会产生语义上的伪像,即其生成的图像中无关部分的改变较大,导致生成的图像质量较低。并且当前利用注意力机制区分语义信息进行图像转换的算法会造成参数量的急剧增加。为此,本发明提出来了一种新型的注意力模块——像素域和通道域双重相关性注意力(Pixel-wise and Channel-wise Attention),文中简称PC注意力模块,用于图像转换模型可以分辨出在已知图像上哪些位置上的像素是需要被转换的,以及待转换的像素之间是否存在某种关联,从而解决生成图像质量较低的问题。该模块的优点包括两个方面,一是相较于其他注意力模型所需的参数量较少,二是能够同时实现对通道域和像素域的双重注意力。
对于一张特征大小为x∈RC×H×W的输入图像来说,PC注意力模块的具体计算过程如图7所示。其中C代表特征的通道数,W代表特征的宽度,H代表特征的高度。
PC注意力模块包含三个部分,第一部分为像素域注意力模块,用于衡量特征像素之间的相关性;第二部分为通道域注意力模块,用来计算特征通道之间的相关性;第三部分为混合模块,利用矩阵的乘法将前两部分的结果进行线性变换,经此运算得出的特征,既包含通道维度上的相关性也包含像素维度的相关性。
像素域注意力模块的计算过程为:将模块输入的图像特征x∈RC×H×W利用两个特征空间Q、K进行变换;再通过点积的方式得出像素点xi与xj之间的相关性;最后,通过Softmax函数对点积结果进行权重归一化操作。最终得到的结果是一个矩阵,该矩阵中第i行j列的元素值,表示第j个像素点对第i个像素点的影响。
通道域注意力模块的计算过程为:首先通过一个全局平均池化的操作对原始的图像特征进行压缩,将每个二维的特征通道变成一个实数;再经过两层全连接神经网络,利用网络所学得的参数来为每个特征通道生成权;最后,全连接神经网络所输出的结果代表每一维特征通道的重要程度,通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重新标定。
混合模块,其通过矩阵的乘法将上述两者(像素域注意力模块和通道域注意力模块)计算的结果进行线性变换,就相当于对原始特征图施加了通道关联影响的同时,添加了像素关联的影响。此外,进一步将获取的具有双重相关性的特征图乘以可调参数,并与原始输入特征线性相加作为PC注意力模块的输出。
常见的图像转换模型所采用的生成器网络为编码器-解码器结构。为了使模型能够在训练过程中学得转换图像与被转换图像之间的相关性,本发明对PC注意力模块设计了跳跃连接机制,此时整体模型架构可被称为Skip-PC注意力机制,简称SPC注意力机制。具体而言,便是将编码器网络利用PC注意力模块所产生的注意力图(具体是经像素域注意力模块计算后所得的注意力图,对应于像素相关性矩阵)传递给解码器网络的PC注意力模块中。进一步,分别在编码器和解码器实施通道域注意力模块、混合模块的工作过程,实现双重注意力模型的设计,最终借助CycleGAN模型实现新型图像转换的训练学习。
图8展示了SPC注意力机制在图像转换模型CycleGAN生成器网络上的应用,将卷积之后的图像特征作为PC注意力模块的输入,PC注意力模块的输出是经过像素和通道双重相关性计算的特征映射,该映射可以直接进行下一步的卷积。另外将下采样过程中经过PC注意力模块所计算出的注意力图传递给上采样过程中的PC注意力模块,值得注意的是上采样和下采样过程中使用PC注意力模块的位置应该是特征映射大小一致的位置,这样传递的注意力图大小一致才能完成网络的整体运行。
为了验证SPC注意力机制应用于图像转换模型(CycleGAN)上的具体表现,本发明分别对其进行了定量分析和生成图像的定性分析。
1.定量分析
本发明对图像转换方法使用了两种定量分析的评价指标:一种是FrechetInception Distance(FID),另外一种是Kernel Inception Distance(KID)。
FID通过计算实际图像和生成图像的特征表示之间的距离来衡量生成图像的优劣。这些特征表示是从Inception架构的最后一个隐藏层中提取的。通常情况下,FID值越低,实际图像和生成图像之间的共享视觉属性就越多。
KID通过计算实际图像和生成图像的特征表示之间的平方最大平均差异(MMD),这些特征表示是从Inception-V3架构的最后一个隐藏层中提取的。与FID不同的地方在于KID是一种无偏估计,这样得到的结果显得更为可靠。与FID相同的是KID值越低,实际图像与生成的图像之间共享的视觉相似度就越高。
表1展示了本发明所提出的SPC注意力机制与相关对比模型在马与斑马转换的数据集上所生成的图像的FID值和KID值,KID值中第一个数据表示KID所计算的均值×100的值,第二个数据代表KID所计算的方差×100的值。从表中可以看出,与其他注意力模型相比,本发明所提出的SPC注意力机制在CycleGAN算法中的应用取得了最先进的效果。
表1不同模型生成图像的FID值和KID值
Figure BDA0002513737380000061
2.生成图像分析
为了验证添加SPC注意力机制的CycleGAN模型的生成能力,从马变斑马转换数据集在不同模型的实验中选取几张具有代表性的图像,具体如图9所示。根据图9所示对比其他图像转换模型很容易发现:通过SPC注意力机制的模型学习双重注意力,能够在无监督的图像到图像转换任务中更好地转换对象,同时不会改变图像背景,并且转换后对象更为自然。

Claims (5)

1.一种基于新型注意力模型的图像转换方法,其特征是,采用PC注意力模块同时获取图像像素维度和通道维度的注意力,所述PC注意力模块是具有像素域和通道域双重相关性注意力的模块;具体包括如下步骤:
a、计算原始输入图像特征像素之间的相关性,得到像素相关性矩阵;
b、计算原始输入图像特征通道之间的相关性;
c、将步骤a和步骤b所得结果进行矩阵相乘实现线性空间变换,得到双重注意力图像特征,使得其既包含像素维度的相关性,又包含通道维度的相关性;
d、将双重注意力图像特征与原始输入图像特征线性加权组合,作为PC注意力模块的输出。
2.根据权利要求1所述的基于新型注意力模型的图像转换方法,其特征是,在步骤d之后还包括如下步骤:
e、将步骤a得到的像素相关性矩阵,以恒等连接的方式在编码器和解码器的PC注意力模块之间进行跳跃连接,保持相同注意力。
3.根据权利要求1所述的基于新型注意力模型的图像转换方法,其特征是,步骤a具体计算过程为:
a-1、将图像特征x∈RC×H×W利用两个特征空间Q、K进行变换;
a-2、通过点积的方式得出像素点xi与xj之间的相关性;
a-3、通过Softmax函数对点积得到的结果进行权重归一化操作。
4.根据权利要求1所述的基于新型注意力模型的图像转换方法,其特征是,步骤b具体计算过程为:
b-1、首先通过一个全局平均池化的操作对原始的图像特征进行压缩,将每个二维的特征通道变成一个实数;
b-2、再经过两层全连接神经网络,利用网络所学得的参数来为每个特征通道生成权;
b-3、最后,全连接神经网络输出的结果代表每一维特征通道的重要程度,通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重新标定。
5.根据权利要求2所述的基于新型注意力模型的图像转换方法,其特征是,步骤e中,通过跳跃连接的方式将编码器网络利用PC注意力模块所产生的注意力图传递给解码器网络的PC注意力模块中。
CN202010469218.7A 2020-05-28 2020-05-28 基于新型注意力模型的图像转换方法 Active CN111626923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010469218.7A CN111626923B (zh) 2020-05-28 2020-05-28 基于新型注意力模型的图像转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010469218.7A CN111626923B (zh) 2020-05-28 2020-05-28 基于新型注意力模型的图像转换方法

Publications (2)

Publication Number Publication Date
CN111626923A true CN111626923A (zh) 2020-09-04
CN111626923B CN111626923B (zh) 2022-12-06

Family

ID=72272857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010469218.7A Active CN111626923B (zh) 2020-05-28 2020-05-28 基于新型注意力模型的图像转换方法

Country Status (1)

Country Link
CN (1) CN111626923B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JINGCONG SUN 等: ""MCA-GAN: Text-to-Image Generation Adversarial Network Based on Multi-Channel Attention"", 《2019 IEEE 4TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC)》 *
ZHW864680355: ""SENet(Squeeze-and-Excitation Networks)网络详解"", 《HTTPS://BLOG.CSDN.NET/ZHW864680355/ARTICLE/DETAILS/87825993》 *
ZILONG HUANG 等: ""CCNet: Criss-Cross Attention for Semantic Segmentation"", 《 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
徐宏伟 等: ""基于残差双注意力U-Net模型的CT图像囊肿肾脏自动分割"", 《HTTP://KNS.CNKI.NET/KCMS/DETAIL/51.1196.TP.20190708.1454》 *
谢学立 等: ""双注意力循环卷积显著性目标检测算法"", 《光学学报》 *

Also Published As

Publication number Publication date
CN111626923B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN110706302B (zh) 一种文本合成图像的系统及方法
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
Chen et al. The face image super-resolution algorithm based on combined representation learning
CN110659727B (zh) 一种基于草图的图像生成方法
CN111798369B (zh) 一种基于循环条件生成对抗网络的人脸衰老图像合成方法
CN111739078A (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN110544297A (zh) 一种单幅图像的三维模型重建方法
CN113361560B (zh) 一种基于语义的多姿势虚拟试衣方法
Li et al. Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN111210382A (zh) 图像处理方法、装置、计算机设备和存储介质
CN113888399B (zh) 一种基于风格融合与域选结构的人脸年龄合成方法
CN113627487B (zh) 一种基于深层注意力机制的超分辨率重建方法
CN116912367B (zh) 一种基于轻量级动态细化的文本生成图像方法及系统
CN117292128A (zh) 一种基于stdc网络的图像实时语义分割方法及装置
Triess et al. A realism metric for generated lidar point clouds
CN111626923B (zh) 基于新型注意力模型的图像转换方法
Huang Image super-resolution reconstruction based on generative adversarial network model with double discriminators
Hwang et al. Simex: Express prediction of inter-dataset similarity by a fleet of autoencoders
CN113344146B (zh) 基于双重注意力机制的图像分类方法、系统及电子设备
Li et al. No‐reference image quality assessment based on multiscale feature representation
CN115512393A (zh) 一种基于改进HigherHRNet的人体姿态估计方法
Yang et al. Blind VQA on 360° Video via Progressively Learning From Pixels, Frames, and Video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant