CN112541566B - 一种基于重构损失的图像翻译方法 - Google Patents

一种基于重构损失的图像翻译方法 Download PDF

Info

Publication number
CN112541566B
CN112541566B CN202010978853.8A CN202010978853A CN112541566B CN 112541566 B CN112541566 B CN 112541566B CN 202010978853 A CN202010978853 A CN 202010978853A CN 112541566 B CN112541566 B CN 112541566B
Authority
CN
China
Prior art keywords
image
loss
generator
discriminator
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010978853.8A
Other languages
English (en)
Other versions
CN112541566A (zh
Inventor
邵明文
张文龙
宋晓霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong To Letter Information Science And Technology Ltd
China University of Petroleum East China
Original Assignee
Shandong To Letter Information Science And Technology Ltd
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong To Letter Information Science And Technology Ltd, China University of Petroleum East China filed Critical Shandong To Letter Information Science And Technology Ltd
Priority to CN202010978853.8A priority Critical patent/CN112541566B/zh
Publication of CN112541566A publication Critical patent/CN112541566A/zh
Application granted granted Critical
Publication of CN112541566B publication Critical patent/CN112541566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像翻译技术领域,公开了一种基于重构损失的图像翻译方法,采用无监督的方法,使用循环一致性网络CycleGAN,利用循环一致性网络CycleGAN判别器提取真实数据的特征,向采用带跳跃连接的U‑net网络结构的生成器提供真实数据特征重建真实数据,采用LSGAN损失函数,对不同域的图像进行转换,将不成对的两个域的图片相互翻译。本发明生成器采用带跳跃连接的U‑net网络结构,使得粗粒度和细粒度的特征相融合;损失函数采用LSGAN,提高了训练过程的稳定性;利用判别器提取真实数据的特征,向生成器提供该特征来重建真实数据,优化真实数据与重构数据之差,使其误差最小,提高了图片的生成质量。

Description

一种基于重构损失的图像翻译方法
技术领域
本发明属于图像翻译技术领域,尤其涉及一种基于重构损失的图像翻译方法。
背景技术
目前,在图像处理、计算机图形学和计算机视觉三大领域中,很多问题被统一规定为,将输入图像“转换”为相应的输出图像。正如一个概念可以用英语或法语表达,场景可以呈现为RGB图像、边缘图或语义标签图。与语言翻译类似,图像翻译可以被定义为,在给定足够训练数据的情况下,将场景的一种表示方式转换为另一种。
卷积神经网络(CNNs)的出现极大推动了图像处理的发展,该网络已成为图像处理问题的背后主力。CNNs通过学习将损失函数降到最低--一个评估结果质量的目标,尽管学习过程是自动的,但仍需要手动设置有效的损失函数。换句话说,告诉CNNs将损失函数降到最低。如果采取一些方法并要求CNNs最小化预测像素和ground truth像素之间的欧几里得距离,它将倾向于产生模糊的结果。这是因为通过平均所有合理的输出来最小化欧几里德距离。因此提出合理的损失函数迫使CNNs输出清晰、逼真的图像,是图像处理领域一直致力解决的问题。
设定一个高级目标,令输出与现实无法区分,让网络模型自动学习适合于满足此目标的损失函数并优化,与现有技术1提出的生成对抗网络(GAN)表达的思想一致。假设输出图像为真或假时,GAN则会学习一种损失,试图对其进行分类,同时训练生成模型以最小化这种损失。因为GAN学习适应数据的损失,所以它可以应用于传统上需要不同类型损失函数的大量任务,但其缺陷是太过自由,对于较大图片、较多像素的情形,基于简单GAN的方式不太可控,生成数据与原始数据差异较大。因此现有技术2提出了CGAN模型,在GAN模型的基础上添加了额外的条件约束信息,用来指导数据的生成过程,虽然改善了实验效果,但结果仍存在不稳定、模糊、斑点等各类问题。现有技术3提出Pix2Pix模型,该模型添加了一个L1损失,即在图像的像素级别计算损失,pix2pix产生的效果图更接近于真实的图像。然而还有许多方法要求进行有监督的训练,即拥有带标签的配对数据,但获得配对数据集需要耗费大量的物力财力,甚至是不可实现的。随后,其他模型相继被提出,利用非配对的数据集进行无监督地训练。3个非监督学习的网络模型架构极其相似,均由2个GAN结构组成,但在目标函数、生成器、判别器的构成上略有不同。然而,以上所采用的方法均将生成器和真实数据分离,即让生成器间接学习真实数据的分布,从而导致生成低质量的图像。
通过上述分析,现有技术存在的问题及缺陷为:
现有基于GAN的图像翻译方法将生成器与训练样本分离,使得生成器间接地学习训练样本的分布,进而导致生成图像质量低,且真实图像与生成的翻译图像的误差大。
解决以上问题及缺陷的难度为:
在图像翻译任务中,获得大量的成对训练数据集需要耗费很大的成本,而且有时候无法获取成对数据。因此,在GAN的训练中使用非成对的数据,而且训练过程中伴随着训练不稳定和模式崩溃的问题。
解决以上问题及缺陷的意义为:
解决以上问题不仅提高判别器的性能,而且使得生成器直接学习数据分布,进而生成高质量图像。
发明内容
针对现有技术存在的问题,本发明提供了一种基于重构损失的图像翻译方法。
本发明是这样实现的,一种基于重构损失的图像翻译方法,包括:
采用无监督的方法,使用基于生成式对抗网络的架构的循环一致性网络CycleGAN,利用循环一致性网络CycleGAN判别器提取真实数据的特征,采用带跳跃连接的U-net网络结构的生成器提供真实数据特征重建真实数据,采用原始GAN中的对抗损失,LSGAN损失函数和域内重构损失(IDRL),对不同域的图像进行转换,有效地防止训练过程中的不稳定及模式崩溃问题。
进一步,所述基于生成式对抗网络的架构的循环一致性网络CycleGAN包括:
生成器,采用带跳跃连接的U-net网络结构,用于将判别器提供的真实数据特征作为输入,重建真实数据;
判别器,用于提取真实数据的特征,同时区分真实图像与翻译图像,辨别图像真伪。
进一步,所述生成器采用带有跳跃连接的“U-Net”网络架构;在每个i层和n-i层之间添加连接,其中n表示层的总数;即每个跳跃连接将第i层的所有通道与第n-i层的所有通道相连接。
进一步,所述循环一致性网络CycleGAN目标函数包括:
对抗性损失、循环一致性损失、重构损失;
对抗性损失:
Figure GDA0002788738460000031
Figure GDA0002788738460000032
循环一致性损失:
Figure GDA0002788738460000033
重构损失:
Figure GDA0002788738460000034
总目标函数:
Figure GDA0002788738460000035
其中,λ1、λ2为不同损失相应的权重,用于平衡不同损失对整个损失函数的影响。
进一步,所述LSGAN损失函数为:
Figure GDA0002788738460000041
进一步,所述基于重构损失的图像翻译方法包括以下步骤:
步骤一,分别从图像域ΩA、ΩB中获取相应的样本集χA、χB;其中xA∈χA和xB∈χB表示数据样本;
步骤二,利用图像域ΩB的判别器DB提取xB图像的特征fB
步骤三,将提取得到的图像特征fB作为由ΩA到ΩB的生成器lAB的输入,得到翻译图像GAB(DB(xB));同时将图像xA输入到生成器GAB中得到图像xA的重构图像x′B
步骤四,利用判别器DB区分图像xB与重构图像x′B;同时将重构图像x′B输入到由ΩB到ΩA的生成器GBA中得到重构图像x″A,实现从图像域ΩA到图像域ΩB的转换。
进一步,所述基于重构损失的图像翻译方法还包括:
(1)从ΩA数据分布中随机抽取m个样本:
Figure GDA0002788738460000042
(2)从ΩB数据分布中随机抽取m个样本:
Figure GDA0002788738460000043
(3)通过随机梯度下降更新判别器:
Figure GDA0002788738460000044
(4)通过随机梯度下降更新生成器:
Figure GDA0002788738460000045
本发明的另一目的在于提供一种实施所述基于重构损失的图像翻译方法的基于重构损失的图像翻译系统,所述基于重构损失的图像翻译系统包括:
样本集获取模块,从图像域中获取相应的样本集;
生成器,采用带跳跃连接的U-net网络结构,用于将判别器提供的真实数据特征作为输入,重建真实数据;
判别器,用于提取真实数据的特征,同时区分真实图像与翻译图像,辨别图像真伪。
图像域转换模块,利用判别器区分图像与重构图像;同时将重构图像输入到生成器中得到重构图像,实现不同图像域的转换。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
采用无监督的方法,使用基于生成式对抗网络的架构的循环一致性网络CycleGAN,利用循环一致性网络CycleGAN判别器提取真实数据的特征;
向采用带跳跃连接的U-net网络结构的生成器提供真实数据特征重建真实数据;
采用LSGAN损失函数,对不同域的图像进行转换,将不成对的两个域的图片相互翻译。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
采用无监督的方法,使用基于生成式对抗网络的架构的循环一致性网络CycleGAN,利用循环一致性网络CycleGAN判别器提取真实数据的特征;
向采用带跳跃连接的U-net网络结构的生成器提供真实数据特征重建真实数据;
采用LSGAN损失函数,对不同域的图像进行转换,将不成对的两个域的图片相互翻译。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
本发明使用基于生成式对抗网络的架构对不同域的图像进行转换。本发明采用无监督的方法,使用循环一致性网络CycleGAN,将不成对的两个域的图片相互翻译。为了提高图片的生成质量,生成器采用带跳跃连接的U-net网络结构,使得粗粒度和细粒度的特征相融合;损失函数采用LSGAN,以提高训练过程的稳定性。本发明首先利用判别器提取真实数据的特征,然后向生成器提供该特征来重建真实数据,最后优化真实数据与重构数据之差,使其误差最小。最后,在多个数据集上验证了本发明的方法在图像翻译方面的有效性。
本发明以CycleGAN为图像翻译基本模型,在此结构上使用重构损失,改善了对抗性生成网络在训练稳定性和模式多样性方面的性能。即生成器利用判别器学习的特征重建真实数据,从而进一步鼓励判别器捕获信息特征并将生成器引导到真实数据的分布附近。此外,判别器的性能也得到进一步提高。本发明在多个数据集上进行实验,证明该方法在图像翻译领域的有效性。
对比的技术效果或者实验效果,如表1.
表1:(值越大越好)
Figure GDA0002788738460000061
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于重构损失的图像翻译方法原理图。
图2是本发明实施例提供的ΩA→ΩB的图像翻译方法原理图。
图3是本发明实施例提供的基于生成式对抗网络的架构的循环一致性网络CycleGAN结构示意图;
图中:1、生成器;2、判别器。
图4是本发明实施例提供的基于重构损失的图像翻译方法流程图。
图5是本发明实施例提供的在Cityscapes数据集上不同模型图像翻译的比较图。
图5中:(1)输入;(2)CycleGAN;(3)Ours;(4)ground truth;(5)输入;(6)CycleGAN;(7)Ours;(8)groundtruth。
图6是本发明实施例提供的橙子与苹果的图像翻译示例图。
图6中:orange-apple的翻译中(a)输入;(b)CycleGAN;(c)Ours;apple-orange的翻译中(d)输入;(e)CycleGAN;(f)Ours。
图7是本发明实施例提供的马与斑马的图像翻译示意图。
图7中:horse-zebra的翻译中(a)输入;(b)CycleGAN;(c)Ours;azebra-horse的翻译中(d)输入;(e)CycleGAN;(f)Ours。
图8是本发明实施例提供的超参数对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于重构损失的图像翻译方法,下面结合附图对本发明作详细的描述。
如图1-图2所示,本发明实施例提供的基于重构损失的图像翻译方法包括:
采用无监督的方法,使用基于生成式对抗网络的架构的循环一致性网络CycleGAN,利用循环一致性网络CycleGAN判别器提取真实数据的特征,向采用带跳跃连接的U-net网络结构的生成器提供真实数据特征重建真实数据,采用LSGAN损失函数,对不同域的图像进行转换,将不成对的两个域的图片相互翻译。
如图3所示,本发明实施例提供的基于生成式对抗网络的架构的循环一致性网络CycleGAN包括:
生成器1,采用带跳跃连接的U-net网络结构,用于将判别器提供的真实数据特征作为输入,重建真实数据;
判别器2,用于提取真实数据的特征,同时区分真实图像与翻译图像,辨别图像真伪。
本发明实施例提供的生成器采用带有跳跃连接的“U-Net”网络架构;在每个i层和n-i层之间添加连接,其中n表示层的总数;即每个跳跃连接将第i层的所有通道与第n-i层的所有通道相连接。
本发明实施例提供的循环一致性网络CycleGAN目标函数包括:
对抗性损失、循环一致性损失、重构损失;
对抗性损失:
Figure GDA0002788738460000081
Figure GDA0002788738460000082
循环一致性损失:
Figure GDA0002788738460000083
重构损失:
Figure GDA0002788738460000084
总目标函数:
Figure GDA0002788738460000085
其中,λ1、λ2为不同损失相应的权重,用于平衡不同损失对整个损失函数的影响。
本发明实施例提供的LSGAN损失函数为:
Figure GDA0002788738460000086
如图4所示,本发明实施例提供的基于重构损失的图像翻译方法包括以下步骤:
S101,分别从图像域ΩA、ΩB中获取相应的样本集χA、χB;其中xA∈χA和xB∈χB表示数据样本;
S102,利用图像域ΩB的判别器DB提取xB图像的特征fB
S103,将提取得到的图像特征fB作为由ΩA到ΩB的生成器GAB的输入,得到翻译图像GAB(DB(xB));同时将图像xA输入到生成器GAB中得到图像xA的重构图像x′B
S104,利用判别器DB区分图像xB与重构图像x′B;同时将重构图像x′B输入到由ΩB到ΩA的生成器GBA中得到重构图像x″A,实现从图像域ΩA到图像域ΩB的转换。
本发明实施例提供的基于重构损失的图像翻译方法还包括:
(1)从ΩA数据分布中随机抽取m个样本:
Figure GDA0002788738460000091
(2)从ΩB数据分布中随机抽取m个样本:
Figure GDA0002788738460000092
(3)通过随机梯度下降更新判别器:
Figure GDA0002788738460000093
(4)通过随机梯度下降更新生成器:
Figure GDA0002788738460000094
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例:
1、本发明的主要分为以下三个方面:
1)在原CycleGAN中,生成器具有单一输入,而本发明将判别器提取真实样本的特征作为生成器的另一输入,从而输出重构样本,进而优化真实样本与重构样本之差,即重构损失。
2)在原CycleGAN中,判别器用于判别真实样本和生成器生成样本,在此基础上,本发明又将判别器用于真实样本特征的提取,进而提高判别器判别图像真伪的性能。因判别器需要提取真实样本的特征,故将加深对真实样本分布的认知。
3)本发明将重构损失应用于图像翻译领域以此产生高质量的图像。
2相关技术分析
2.1生成式对抗网络
受零和游戏的影响,典型的GAN模型由两个模块组成:生成器和判别器。当判别器学会区分真实样本和假样本时,生成器学习生成与真实样本无法区分的假样本。GAN在各种计算机视觉任务中都取得了令人瞩目的成果,如图像生成,图像编辑和表示学习。具体而言,各种扩展GAN在许多生成任务中取得了良好的效果,如图像修复,text2image和未来预测,以及其他领域,如视频和3D数据。本发明提出了一个可扩展的GAN框架,以实现基于非监督的图像生成。
最近提出许多方案来解决GAN训练不稳定性和模式缺失的问题,大致可分为三类:增加监管条件,如分类信息;与传统网络的结合;以及优化具有不同目标函数的网络。第一类可以被视为监督GAN,包括Semi-GAN,C-GAN,Info-GAN等。第二类与其他网络的结合,例如自动编码器,包括基于能量的GAN,BEGAN,DFM,VAE-GAN,MRGAN,α-GAN等。第三类既不需要额外的信息也不改变网络架构,但采用不同的损失功能,包括LSGAN,McGAN,WGAN,WGAN-GP,AGE,DRAGAN等,以上可以看作是GAN的变种。这些方法具有或多或少的缺点。监督方法需要获取困难和昂贵的分类信息。混合方法需要同时优化多个网络(两个以上),从而导致耗时且高计算复杂度。虽然对于GAN的变体,例如WGAN未充分利用鉴别器的能力,但WGAN-GP引入了外部计算开销,而AGE在产生高质量图像方面存在缺陷。本发明主要关注完全无监督的GAN。
2.2 U-Net网络
U-Net架构是卷积神经网络的一种变形,因其结构形似字母U,而得名U-Net。整个神经网络主要有两部分:收缩路径(contracting path)和扩展路径(expanding path)。收缩路径主要用来捕捉图像中的上下文信息(context information),而与之相对称的扩展路径则是为了对图片中所需要分割出来的部分进行精准定位(localization)。U-Net诞生的一个主要前提是,很多时候深度学习的结构需要大量的sample和计算资源。而U-Net是基于FCN(Fully Convultional Neural Network:全卷积神经网络)进行改进,并且利用数据增强(data augmentation)可以对一些比较少样本的数据进行训练,特别是医学方面相关的数据,所以U-Net的出现对于深度学习用于较少样本的医学影像是很有帮助的。
以上阐述的U-Net是基于FCN进行改进的,比较特殊的地方是U-Net并不是像FCN简单地对图片进行encode和decode,U-Net为了能精准的定位,收缩路径上提取出来的高像素特征会在上采样(upsampling)过程中与新的特征图(feature map)进行结合,以最大程度的保留前面下采样(downsampling)过程一些重要的特征信息。而为了能使网络结构能更高效的运行,结构中是没有全连接层(fully connected layers),这样子可以很大程度上减少需要训练的参数,并得益于特殊的U形结构可以很好的保留图片中的所有信息。U-Net基本可以对任意形状大小的图片进行卷积操作,特别是任意大的图片。
2.3图像翻译
图像翻译的想法追溯到Image Analogies,在单个输入输出训练图像对上使用非参数纹理模型。传统的算法均针对特定的应用场景而设计,建立适合特定场景的模型。最近的方法是在CNNs模型上使用输入-输出样本对的数据集来学习。随着卷积神经网络的发展,其被用来作为图像翻译的模型,但对于具体任务的模型构建,损失函数设计及优化策略都不太相同,这大大加重了模型设计的负担。同时,现有的图像翻译任务都是基于监督学习的模型,需要大量成对的训练数据,然而现实中获得这种成对的数据是很困难的,而且成本高昂。这就需要半监督或者无监督算法来完成图像翻译任务。最近的图像翻译工作都是通过大量输入-输出图像对来训练一个卷积神经网络模型。损失函数也均采用原始GAN的损失,就会导致生成图像的质量差。因此损失函数的优化也是图像翻译中一个重要的研究方向。
3背景
3.1问题的设定
设ΩA、ΩB为两个图像域,χA、χB分别为来自每个域的样本(图像)集。此外,令xA∈χA和xB∈χB表示数据样本。DA和DB分别代表两个域的判别器,GAB和GBA分别代表由ΩA到ΩB的生成器和由ΩB到ΩA的生成器。本发明使用
Figure GDA0002788738460000111
Figure GDA0002788738460000121
代表xA经过判别器DA在第i层提取的特征,/>
Figure GDA0002788738460000122
代表xB经过判别器DB在第i层提取的特征。
3.2最小二乘生成式对抗网络
标准GAN由两个卷积神经网络(CNN)组成,称为生成器和判别器:前者将随机噪声作为输入来产生图像,而后者识别其输入是真实的或是生成的。生成器和判别器CNN的参数针对最小-最大游戏中的对抗性损失进行优化。其对抗性损失为:
Figure GDA0002788738460000123
原始GAN损失函数的缺陷是以交叉熵作为损失,导致生成器不再优化被判别器识别为真实图像的生成图像,即使这些生成图像距离判别器的决策边界仍然很远,即距真实数据比较远。这意味着生成器的生成图像质量并不高。生成器不再进一步优化生成图像,是因为生成器已经完成为它设定的目标——尽可能地混淆判别器,所以交叉熵损失已经很小了。然而最小二乘损失则不同,假设试图减少最小二乘损失,则必须在混淆判别器的前提下还得让生成器把距离决策边界比较远的生成图片像拉向决策边界。所以本发明使用最小二乘损失LSGAN:
Figure GDA0002788738460000124
Figure GDA0002788738460000125
3.3循环一致性GAN
在训练GAN时会经常出现模式崩溃。模式崩溃是指生成器G从真实数据域中学习并产生一些样本但又仅仅局限在这些样本上,而判别器仅仅用来判别图像真伪但不包括图像多样性,导致生成器生成图像的多样性差。模式崩溃一般出现在GAN训练不稳定的时候,具体表现为生成出结果非常差,即使加长训练时间也无明显改善。在一些解决方案中,非常有前景的一个是Cycle-GAN,它对GAN的目标增加了额外的约束,即隐含地增加了生成图像的多样性。具体地,Cycle-GAN损失要求将翻译的数据重新转换回其原始输入。这种损失可以写成:
Figure GDA0002788738460000131
4重构损失的CycleGAN
4.1重构损失
本发明所采用的重构损失主要体现在以下两个方面:一、将真实样本作为判别器的输入并在判别器的不同层上提取特征图(不同层的特征对重构真实样本所产生的影响不同);二、将判别器提取的特征图作为生成器的输入,从而产生重构图像,进而重构图像与真实样本在像素级别做L1损失。以下是重构损失的表达:
Figure GDA0002788738460000132
||·||代表此损失函数使用L1范数,i代表真实样本在判别器第i层所提取的特征图。本发明将重构损失应用到CycleGAN框架上所延伸出的损失函数为:
Figure GDA0002788738460000133
Figure GDA0002788738460000134
具有重构损失的CycleGAN目标函数意味着整个网络具有对真实样本明确的估计,因此可以提高训练稳定性以及阻止模式丢失。原始GAN训练困难的主要原因是判别器与训练数据和生成数据完全分开,因此生成器无法接收任何梯度来优化自身。此方法中的生成器接收三种优化信号,一种是来自原始GAN中的鉴别器的分类结果,一种是真实样本的L1重构损失,另一种是保持内容一致性的循环损失,因此可以有效地防止无梯度问题以及训练不稳定。此外,由于真实样本重构是基于判别器提供的特征,因而判别器需要从真实样本中捕获信息特征,由此进一步提高了判别器判别真实样本与生成样本的能力。模式崩溃是因生成器学到一部分真实数据的特征进而可以欺骗判别器,导致生成器的优化停滞不前。而在本发明中根据公式(5)中的G(D(x))可知,所有真实样本以一定的概率通过生成器,因此,生成器将会学到较全真实样本的特征,从而达到解决模式崩溃问题
4.2总体架构
总体框架图如图1所示。本发明对生成器和判别器结构进行调整。生成器和判别器使用的模块形式均为:卷积-批标准化-Relu激活函数。
4.2.1模型
本发明目标是在给定训练样本xA、xB的情况下学习两个域ΩA和ΩB之间的映射函数。将数据分布表示为xA~ΩA和xB~ΩB。如图2所示,该模型包括两个映射GAB:XA~XB和GBA:XB~XA。此外,还引入了两个对抗性判别器DA和DB,其中DA旨在区分图像{xA}和翻译图像{GBA(DA(xA))};以同样的方式,DB旨在区分{xB}和{GAB(DB(xB))}。判别器DA和DB不仅用于判别图像真伪,还用于提取ΩA和ΩB域图像的特征,并将该特征作为生成器的输入进而得到重构图像。算法流程如下所示。
Figure GDA0002788738460000141
4.2.2损失函数
本发明目标函数分为三部分:对抗性损失、循环一致性损失、重构损失。
对抗性损失:由公式(2)、(3)可知
Figure GDA0002788738460000151
同理:
Figure GDA0002788738460000152
循环一致性损失:公式(4)
Figure GDA0002788738460000153
重构损失:公式(5)、(6)
Figure GDA0002788738460000154
总目标函数:
Figure GDA0002788738460000155
λ1、λ2为不同损失相应的权重,用于平衡不同损失对整个损失函数的影响,通过实验结果的对比(在第6部分详细的讲解),本发明设定λ1=10,λ2=5。
5实现技术
5.1网络架构
生成器的详细架构如表格1所示。图像翻译问题的一个特点是它们将高分辨率输入图像映射到高分辨率输出图像。虽然图像输入和图像输出的外观不同,但两者都具有相同底层结构的渲染,因而输入结构与输出结构大致对齐。基于这一点,本发明采用“U-Net”作为生成器的架构,但同时由于图像下采样后会丢失部分信息,从而导致上采样时产生质量差的输出,为了解决这个问题,本发明采用带有跳跃连接的“U-Net”网络架构。该架构在每个i层和n-i层之间添加连接,其中n表示层的总数。即每个跳跃连接将第i层的所有通道与第n-i层的所有通道相连接。
表1生成器的网络结构
Figure GDA0002788738460000156
/>
Figure GDA0002788738460000161
Figure GDA0002788738460000171
/>
判别器的详细架构如表格2所示。
表2判别器的网络结构
Layer InputShape OutputShape
Conv-Lrelu [256,256,3] [128,128,64]
Conv-BN-Lrelu [128,128,64] [64,64,64*2]
Conv-BN-Lrelu [64,64,64*2] [32,32,64*8]
Conv-BN-Lrelu [32,32,64*8] [32,32,64*8]
Conv [32,32,64*8] [32,32,1]
5.2参数设置
在所有实验中使用批量大小为1的Adam优化器,设置λ1=10,λ2=5.0。所有的网络都是从头开始训练,并令学习率为0.0002。在前100个训练轮次保持相同的学习率,并在后100个训练轮次中将速率线性衰减为零。
6、下面结合实验对本发明作进一步描述。
本发明在Horse2Zebra、Apple2Orange、Cityscapes等多个数据集上进行实验,其中batchsize大小设置为1,epoch设置为200。实验是在Tensorflow环境中进行,在具有Intel(R)Xeon(R)CPU和Nvidia GTX2080Ti GPU图形处理单元的Linux机器上完成。
6.1数据集
Horse2Zebra和Apple2Orange数据集分别是马
Figure GDA0002788738460000172
斑马,苹果/>
Figure GDA0002788738460000173
橘子,均从ImageNet上下载。图像分辨率为256×256像素。每个类别的训练集
大小为:1067(马),1334(斑马),996(苹果)和1020(橘子)。
Cityscapes数据集由奔驰主推,提供无人驾驶环境下的图像分割数据集,用于评估视觉算法在城区场景语义理解方面的性能。
6.2定性评估
6.2.1多数据集
将提出的方法与CycleGAN、SimGAN在图像翻译方面进行定性比较。实验表明本发明提出的方法提高了图片翻译的质量。
图5,展示了本发明方法与CycleGAN、SimGAN在cityscapes数据集上定性比较的结果。此外,为了证明本发明提出的算法可以适用于多种类型的图像翻译,分别使用Horse2Zebra数据集和Apple2Orange数据集对本发明的模型进行相应的训练。网络模型训练方法和上述相同,实验结果分别如图6和图7所示,表明该模型在Horse2Zebra数据集和Apple2Orange数据集上也具有良好的表现。
图6中:orange-apple的翻译中(a)输入;(b)CycleGAN;(c)Ours;apple-orange的翻译中(d)输入;(e)CycleGAN;(f)Ours。
图7中:horse-zebra的翻译中(a)输入;(b)CycleGAN;(c)Ours;azebra-horse的翻译中(d)输入;(e)CycleGAN;(f)Ours。
图5展示了使用同一数据集cityscapes在不同模型上的实验结果。左图为场景图到标签图((1)输入(2)CycleGAN(3)Ours(4)ground truth),右图((5)输入(6)CycleGAN(7)Ours(8)groundtruth)为标签图到场景图。三行分别代表了三张不同翻译结果。左图的第一列为真实场景图,最后一列为真实场景图对应的groundtruth,中间三列分别为SimGAN、CycleGAN和本发明方法的效果图。SimGAN[34]使用对抗性损失训练从X到Y的翻译,正则化项||x-G(X)||1被用于优化生成器,但导致生成器倾向于过度强调特征来欺骗D,产生偏差、伪影,故产生的结果图较模糊;CycleGAN保证了内容的一致性,但生成器是间接学习数据分布,导致产生低质量图像;本发明不仅提高判别器的性能,而且使得生成器直接学习数据分布,进而产生高质量图像,右图亦然。
6.2.2超参数的设置
本发明针对超参数的值进行多次实验,实验结果如下图8所示。在Horse2Zebra数据集上,本发明测试了λ2的4种设置来评估每种方法对图像生成质量的影响。图8中的第一列为输入图片,其他列分别为λ2=0、1、5、10的效果图。本发明采用λ2=5。
6.3定量分析
除视觉效果外,本发明还对cityscapes测试数据集进行定量评估,PSNR和SSIM两个指标是在翻译图像与原图像的ground truth之间计算。
PSNR(Peak Signal to Noise Ratio)峰值信噪比,一种全参考的图像质量评价指标。
Figure GDA0002788738460000191
Figure GDA0002788738460000192
其中,MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error),H、W分别为图像的高度和宽度;n为每像素的比特数,一般取8,即像素灰阶数为256。PSNR单位为dB,数值越大表示失真越小。PSNR作为一种图像客观评价指标,具有使用普遍性和广泛性的特点,但是它是基于对应像素点间的误差,即基于误差敏感的图像质量评价。由于并未考虑到人眼的视觉特性(人眼对空间频率较低的对比差异敏感度较高,人眼对亮度对比差异的敏感度较色度高,人眼对一个区域的感知结果会受到其周围邻近区域的影响等),因而经常出现评价结果与人的主观感觉不一致的情况。
SSIM(structural similarity)结构相似性,也是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。
Figure GDA0002788738460000193
Figure GDA0002788738460000194
Figure GDA0002788738460000195
其中μX、μY分别表示图像X和Y的均值,σX、σY分别表示图像X和Y的方差,σXY表示图像X和Y的协方差,即
Figure GDA0002788738460000201
/>
Figure GDA0002788738460000202
Figure GDA0002788738460000203
C1、C2、C3为常数,为了避免分母为0的情况,通常取C1=(K1*L)2,C2=(K2*L)2,C3=C2/2,一般地K1=0.01,K2=0.03,L=255.则
SSIM(X,Y)=l(X,Y)·c(X,Y)·s(X,Y) (19)
SSIM取值范围[0,1],值越大,表示图像失真越小。
计算结果如表3所示。
表3在PSNR和SSIM上的定量实验结果
Figure GDA0002788738460000204
本发明以CycleGAN为图像翻译基本模型,在此结构上使用重构损失,以达到改善对抗性生成网络在训练稳定性和模式多样性方面的性能。即生成器利用判别器学习的特征重建真实数据,从而进一步鼓励判别器捕获信息特征并将生成器引导到真实数据的分布附近。此外,判别器的性能也得到进一步提高。本发明在多个数据集上进行实验,证明该方法在图像翻译领域的有效性。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于重构损失的图像翻译方法,其特征在于,所述基于重构损失的图像翻译方法包括:
采用无监督的方法,使用基于生成式对抗网络的架构的循环一致性网络CycleGAN,利用循环一致性网络CycleGAN判别器提取真实数据的特征;
向采用带跳跃连接的U-net网络结构的生成器提供真实数据特征重建真实数据;
采用LSGAN损失函数,对不同域的图像进行转换,将不成对的两个域的图片相互翻译;
所述基于生成式对抗网络的架构的循环一致性网络CycleGAN包括:
生成器,采用带跳跃连接的U-net网络结构,用于将判别器提供的真实数据特征作为输入,重建真实数据;
判别器,用于提取真实数据的特征,同时区分真实图像与翻译图像,辨别图像真伪;
所述基于重构损失的图像翻译方法包括以下步骤:
步骤一,分别从图像域ΩA、ΩB中获取相应的样本集χA、χB;其中xA∈χA和xB∈χB表示数据样本;
步骤二,利用图像域ΩB的判别器DB提取xB图像的特征fB
步骤三,将提取得到的图像特征fB作为由ΩA到ΩB的生成器GAB的输入,得到翻译图像GAB(DB(xB));同时将图像xA输入到生成器GAB中得到图像xA的重构图像x′B
步骤四,利用判别器DB区分图像xB与重构图像x′B;同时将重构图像x′B输入到由ΩB到ΩA的生成器GBA中得到重构图像x″A,实现从图像域ΩA到图像域ΩB的转换;
所述基于重构损失的图像翻译方法还包括:
(1)从ΩA数据分布中随机抽取m个样本:
Figure FDA0004215768420000011
(2)从ΩB数据分布中随机抽取m个样本:
Figure FDA0004215768420000012
(3)通过随机梯度下降更新判别器:
Figure FDA0004215768420000013
(4)通过随机梯度下降更新生成器:
Figure FDA0004215768420000014
2.如权利要求1所述基于重构损失的图像翻译方法,其特征在于,所述生成器采用带有跳跃连接的“U-Net”网络架构;在每个i层和n-i层之间添加连接,其中n表示层的总数;即每个跳跃连接将第i层的所有通道与第n-i层的所有通道相连接。
3.如权利要求1所述基于重构损失的图像翻译方法,其特征在于,所述循环一致性网络CycleGAN目标函数包括:
对抗性损失、循环一致性损失、重构损失;
对抗性损失:
Figure FDA0004215768420000021
Figure FDA0004215768420000022
循环一致性损失:
Figure FDA0004215768420000023
重构损失:
Figure FDA0004215768420000024
Figure FDA0004215768420000025
总目标函数:
Figure FDA0004215768420000026
其中,λ1、λ2为不同损失相应的权重,用于平衡不同损失对整个损失函数的影响。
4.如权利要求1所述基于重构损失的图像翻译方法,其特征在于,所述LSGAN损失函数为:
Figure FDA0004215768420000027
Figure FDA0004215768420000028
5.一种实施权利要求1~4任意一项所述基于重构损失的图像翻译方法的基于重构损失的图像翻译系统,其特征在于,所述基于重构损失的图像翻译系统包括:
样本集获取模块,从图像域中获取相应的样本集;
生成器,采用带跳跃连接的U-net网络结构,用于将判别器提供的真实数据特征作为输入,重建真实数据;
判别器,用于提取真实数据的特征,同时区分真实图像与翻译图像,辨别图像真伪;
图像域转换模块,利用判别器区分图像与重构图像;同时将重构图像输入到生成器中得到重构图像,实现不同图像域的转换。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~4任意一项所述基于重构损失的图像翻译方法。
7.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~4任意一项所述基于重构损失的图像翻译方法。
CN202010978853.8A 2020-09-17 2020-09-17 一种基于重构损失的图像翻译方法 Active CN112541566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010978853.8A CN112541566B (zh) 2020-09-17 2020-09-17 一种基于重构损失的图像翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010978853.8A CN112541566B (zh) 2020-09-17 2020-09-17 一种基于重构损失的图像翻译方法

Publications (2)

Publication Number Publication Date
CN112541566A CN112541566A (zh) 2021-03-23
CN112541566B true CN112541566B (zh) 2023-07-04

Family

ID=75013681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010978853.8A Active CN112541566B (zh) 2020-09-17 2020-09-17 一种基于重构损失的图像翻译方法

Country Status (1)

Country Link
CN (1) CN112541566B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140662A (zh) * 2021-11-29 2022-03-04 广州中科智巡科技有限公司 一种基于循环生成对抗网络的绝缘子雷击图像样本增广方法
CN117233520B (zh) * 2023-11-16 2024-01-26 青岛澎湃海洋探索技术有限公司 基于改进Sim-GAN的AUV推进系统故障检测评估方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182657A (zh) * 2018-01-26 2018-06-19 深圳市唯特视科技有限公司 一种基于循环生成对抗网络的面部图像转换方法
CN109745062A (zh) * 2019-01-30 2019-05-14 腾讯科技(深圳)有限公司 Ct图像的生成方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182657A (zh) * 2018-01-26 2018-06-19 深圳市唯特视科技有限公司 一种基于循环生成对抗网络的面部图像转换方法
CN109745062A (zh) * 2019-01-30 2019-05-14 腾讯科技(深圳)有限公司 Ct图像的生成方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multimodal Unsupervised Image-to-Image Translation;Xun Huang et al.;《arXiv》;20180814;第1-23页 *
Unpaired Image-to-Image Translation using Adversarial Consistency Loss;Yihao Zhao et al.;《arXiv》;20200915;第1-18页 *
基于CycleGAN的图像翻译算法研究;代烁;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215(第2期);第11、21-26页 *

Also Published As

Publication number Publication date
CN112541566A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN110930416B (zh) 一种基于u型网络的mri图像前列腺分割方法
CN110473142B (zh) 基于深度学习的单幅图像超分辨率重建方法
CN113313657B (zh) 一种用于低光照图像增强的非监督学习方法和系统
CN110648334A (zh) 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111429355A (zh) 一种基于生成对抗网络的图像超分辨率重建方法
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN110363068B (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
CN116958825B (zh) 一种移动式遥感图像采集方法及公路维护监测方法
CN112541566B (zh) 一种基于重构损失的图像翻译方法
CN112950477A (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN112950480A (zh) 一种融合多感受野和密集残差注意的超分辨率重建方法
Zhou et al. High dynamic range imaging with context-aware transformer
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
Krishnan et al. SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference
CN116486465A (zh) 用于人脸结构分析的图像识别方法及其系统
CN111612739A (zh) 一种基于深度学习的脑梗死分类方法
CN115547488A (zh) 基于vgg卷积神经网络和面部识别孤独症早筛系统及方法
Shao et al. Two-stream coupling network with bidirectional interaction between structure and texture for image inpainting
CN112365551A (zh) 一种图像质量处理系统、方法、设备和介质
CN114283301A (zh) 一种基于Transformer的自适应医学影像分类方法及系统
CN114005157A (zh) 一种基于卷积神经网络的像素位移向量的微表情识别方法
CN111951177B (zh) 一种基于图像超分辨损失函数的红外图像细节增强方法
Saaim et al. Generative Models for Data Synthesis
Zhang et al. VSA-CGAN: An Intelligent Generation Model for Deep Learning Sample Database Construction
CN113658285B (zh) 一种人脸照片到艺术素描的生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant