CN112001838B - 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质 - Google Patents

基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112001838B
CN112001838B CN202010717299.8A CN202010717299A CN112001838B CN 112001838 B CN112001838 B CN 112001838B CN 202010717299 A CN202010717299 A CN 202010717299A CN 112001838 B CN112001838 B CN 112001838B
Authority
CN
China
Prior art keywords
image
training
conversion
loss function
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010717299.8A
Other languages
English (en)
Other versions
CN112001838A (zh
Inventor
赵磊
王志忠
仇礼鸿
张惠铭
莫启航
林思寰
陈海博
李艾琳
左智文
邢卫
鲁东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010717299.8A priority Critical patent/CN112001838B/zh
Publication of CN112001838A publication Critical patent/CN112001838A/zh
Application granted granted Critical
Publication of CN112001838B publication Critical patent/CN112001838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及一种基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质。所述方法包括:获取第一图像和第二图像;将第一图像和第二图像进行组合,得到输入图像;将输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。采用本方法能够简化图像转换过程,提高转换图像的质量。

Description

基于自交叉编码器的跨域图像转换方法、装置、计算机设备和 存储介质
技术领域
本申请涉及跨域图像迁移技术领域,特别是涉及一种基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质。
背景技术
用一类输入图像生成另一类输出图像,并且输入图像和输出图像存在一定语义对应关系的任务,都称为跨域图像转换任务。近年来跨域图像转换技术的发展离不开人工智能技术的崛起。在现有技术中,通过将深度学习网络与生成式对抗网络(GenerativeAdversarial Network,GAN)进行结合,在图像生成领域引起了革命性的变革,把GAN应用到如图像风格迁移、超分辨率、图像修复、图像去噪等场景中,降低了设计损失函数的难度。只要给定任务有评判基准,就可以直接利用判别器进行对抗训练。传统的跨域图像转换研究也迎来了改变,研究者们把卷积神经网络和判别器结合起来,提出了多种应用于跨域图像转换的神经网络。
跨域图像转换技术发展迅速,近几年各种转换模型层出不穷,虽然取得了不错的成果,但仍存在一些问题:
(1)有监督训练的数据集构造困难。跨域图像转换的实现分为有监督的方法和无监督的方法,有监督的方法要求用两个图像域相互配对的数据集进行训练。因为每张图片都有ground truth,相比于无监督的训练方法,有监督的训练方法无疑更为简单。但通常来说,构造这样的数据集十分困难,一般需要专业的标注人员或者艺术家进行特殊的处理,耗费大量的人力物力,才可以得到高质量的训练数据集。而无监督的方法只需要两个图像域作为输入,这两个图像域并不要求是相互配对的,数据集获取方便,但增加了训练难度。
(2)某些生成的跨域图像质量不高。现在的跨域图像转换不可避免地存在着生成图像比较模糊、跨域转换失败等问题,因此提高生成图像的质量是当前急需解决的问题之一。
(3)GAN存在训练困难、“模式坍塌”等问题。越来越多的跨域图像转换方法选择采用GAN来完成,GAN之所以能取得成功,关键在于其对抗损失的出色想法,这种想法使得生成图像和真实图像之间无法区分。GAN虽然可以得到较好的效果,但也存在一定的缺陷,比如训练困难、容易发生“模式坍塌”、生成模型有时候难以捕获真实数据分布中所有的可变性等问题。所以,探索一种较优的GAN参数配置也是当前急需解决的问题之一。
发明内容
基于此,有必要针对上述技术问题,提供一种至少能够解决上述其中一问题的基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质。
一种基于自交叉编码器的跨域图像转换方法,包括:
获取第一图像和第二图像;
将所述第一图像和第二图像进行组合,得到输入图像;
将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。
优选的,将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像包括:
所述自交叉编码器网络包括训练后的编码器以及解码器;
将所述输入图像输入所述编码器,得到所述输入图像在潜变量空间中对应的潜变量;
将所述潜变量输入所述解码器,得到所述输出图像;
将所述输出图像进行分解,得到所述第一转换图像以及第二转换图像。
优选的,训练所述自交叉编码器网络包括:
获取第一训练图像以及第二训练图像,所述第一训练图像和第二训练图像分别以随机采集的方式从对应的第一图像域以及第二图像域中得到;
根据所述第一训练图像以及第二训练图像得到训练输入图像,并将所述训练输入图像输入自交叉编码器网络后再进行分解得到第一训练转换图像以及第二训练转换图像;
将所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像输入判别器,得到对抗损失函数;
将所述第一训练转换图像、第二训练转换图像进行组合后再输入所述自交叉编码器网络得到重构图像,再根据所述第一训练图像、第二训练图像以及重构图像,计算得到重构损失函数;
对所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像分别提取特征,并计算得到特征损失函数;
根据所述对抗损失函数、重构损失函数以及特征损失函数计算得到总损失函数,若所述总损失函数符合预设标准,则得到训练后的自交叉编码器网络;
若所述总损失函数不符合预设标准,则调节所述解码器和编码器的参数,再重新获取第一训练图像和第二训练图像对所述自交叉编码器网络进行训练,直至所述总损失函数符合预设标准。
优选的,将所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像输入判别器,得到对抗损失函数包括:其中判别器包括第一判别器以及第二判别器;
将所述第一训练转换图像以及第二训练图像输入第一判别器,计算得到第一对抗损失函数;
将所述第二训练转换图像以及第一训练图像输入第二判别器,计算得到第二对抗损失函数;
根据所述第一对抗损失函数以及第二对抗损失函数的和,得到所述对抗损失函数。
优选的,将所述第一训练转换图像、第二训练转换图像进行组合后再输入所述自交叉编码器网络得到重构图像,再根据所述第一训练图像、第二训练图像以及重构图像,计算得到重构损失函数包括:
将所述第一训练转换图像、第二训练转换图像进行组合后输入所述自交叉编码器网络,得到第一结果,并将所述第一结果进行分解得到一次第一重构图像以及一次第二重构图像;
将所述一次第一重构图像以及一次第二重构图像进行组合后输入所述自交叉编码器网络,得到第二结果,并将所述第二结果进行分解得到二次第一重构图像以及二次第二重构图像;
根据所述第一训练图像与二次第一重构图像进行计算,得到第一重构损失函数,根据所述第二训练图像与二次第二重构图像进行计算,得到第二重构损失函数;
根据所述第一重构损失函数以及第二重构损失函数的和,得到所述重构损失函数。
优选的,对所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像分别提取特征,并计算得到特征损失函数包括:
根据提取的第一训练转换图像特征以及第一训练图像的特征进行计算,得到第一特征损失函数;
根据提取的第二训练转换图像特征以及第二训练图像的特征进行计算,得到第二特征损失函数;
根据所述第一特征损失函数以及第二特征损失函数的和,得到所述特征损失函数。
优选的,所述第一图像域中的图片与第二图像域中的图片具有相同的特征。
本申请提供一种基于自交叉编码器的跨域图像转换装置,所述装置包括:
图像获取模块,用于获取第一图像和第二图像;
图像组合模块,用于将所述第一图像和第二图像进行组合,得到输入图像;
图像转换模块,用于将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一图像和第二图像;
将所述第一图像和第二图像进行组合,得到输入图像;
将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一图像和第二图像;
将所述第一图像和第二图像进行组合,得到输入图像;
将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。
上述基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质,通过将两个图像域的图像统一处理,简化了生成器的结构,不需要为两个图像域单独设计编码分支。并且能够生成高质量的图像,取得了较好的转换效果。
附图说明
图1为一个实施例中跨域图像转换方法的流程示意图;
图2为一个实施例中训练自交叉编码器网络方法的流程示意图;
图3为一个实施例中跨域图像转换方法的网络结构示意图;
图4为一个实施例中残差块(左)和非残差块(右)结构示意图;
图5为一个实施例中VGG19结构示意图;
图6为一个实施例中跨域图像转换装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,提供了一种基于自交叉编码器的跨域图像转换方法,包括:
步骤101,获取第一图像和第二图像;
步骤102,将第一图像和第二图像进行组合,得到输入图像;
步骤103,将输入图像输入训练后的自交叉编码器网络,得到根据第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。
在步骤101中,第一图像和第二图像为具有一定相似度,或是具有某些相同特征的图像。例如,第一图像为橘子,第二图像为苹果树,进行跨域图像转换后,将第二图像中的苹果树上的苹果都转换为橘子,其中,苹果和橘子的形状是相似的,并且都为水果。或者,第一图像为马,第二图像为驴,进行跨域图像转换后,将第二图像中的驴转换为马,而第二图像风格,颜色,背景等均不发生改变。同样的,马和驴具有相似的姿态。
在步骤102中,将第一图像和第二图像视为整体,并研究该整体的特征分布,并以此来实现跨域图像转换,只需要一个自编码器对该整体的数据分布进行建模,而不是用两个自编码器分别对第一图像和第二图进行建模,由此可以减少网络的规模,减少参数的数量,增加运算效率。
在本实施例中,输入图像等于第一图像⊕第二图像,其中⊕指的是宽度方向上或者高度方向上的连接(concatenate)运算。
在步骤103中,自交叉编码器网络包括训练后的编码器以及解码器。将输入图像输入编码器,得到输入图像在潜变量空间中对应的潜变量。再将潜变量输入解码器,得到输出图像。将输出图像进行分解,得到第一转换图像以及第二转换图像。
如图2所示,训练自交叉编码器网络包括:
步骤201,获取第一训练图像以及第二训练图像,第一训练图像和第二训练图像分别以随机采集的方式从对应的第一图像域以及第二图像域中得到;
步骤202,根据所第一训练图像以及第二训练图像得到训练输入图像,并将训练输入图像输入自交叉编码器网络后再进行分解得到第一训练转换图像以及第二训练转换图像;
步骤203,将第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像输入判别器,得到对抗损失函数;
步骤204,将第一训练转换图像、第二训练转换图像进行组合后再输入自交叉编码器网络得到重构图像,再根据第一训练图像、第二训练图像以及重构图像,计算得到重构损失函数;
步骤205,对第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像分别提取特征,并计算得到特征损失函数;
步骤206,根据对抗损失函数、重构损失函数以及特征损失函数计算得到总损失函数,若总损失函数符合预设标准,则得到训练后的自交叉编码器网络;
若总损失函数不符合预设标准,则调节所述解码器和编码器的参数,再重新获取第一训练图像和第二训练图像对自交叉编码器网络进行训练,直至总损失函数符合预设标准。
在步骤201中,用于训练的图像以随机采样的方式从分别从两个图像域中获取。这两个图像域分别为两种具有相似特征的图像集合。例如,其中一图像域中包括有1000张不同苹果树的图像,另一图像域中包括有1000中不同橘子的图像,每次分别从中随机获取一张进行训练,直至完成训练目标。
在步骤202中,如图3所示,A和B分别代表两个不同的图像域。在有监督的跨域图像转换中,可以方便地从两个图像域的联合分布PA,B(a,b)中随机采样(a,b);然而,在无监督的跨域图像转换算法中,就只能分别从边缘分布PA(a)和PB(b)随机采样得到A、B两个图像域中的图像a、b。本发明令x=a⊕b作为网络的输入图像,并设x∈X,⊕指的是宽度方向上或者高度方向上的连接(concatenate)运算。
在本实施例中,由编码器以及解码器对{E,G}共同组成了自交叉编码器网络,然而与一般的自编码器仅完成单一领域重构的任务X→X不同,该编码器完成X→Y的映射。
针对已知的图像域A和B,得到输入图像集合X={x|x=a⊕b,a∈A,b∈B},编码器E将输入图像x映射为潜变量空间Z中的潜变量z,解码器G将z映射为输出图像y,y∈Y,且Y={y|y=b⊕a,a∈A,b∈B},深度神经网络的特征图一般拥有4个维度:batch_size、width、height和channel。
需要注意的是,⊕指的是宽度方向上或者高度方向上的concatenate运算,所以X≠Y。每个不同的x将对应不同的z,同时SCAIT算法也应用了循环一致性,用z得到输入图像的重构图像
Figure BDA0002598688160000081
值得注意的是,SCAIT算法并没有像对抗自编码器等算法一样把z约束为高斯分布或者其它分布,因为图像数据的分布是不明确的,不一定跟高斯分布相对应,且不同图像域的分布大概率不同,在跨域图像转换这项工作中去约束z的分布没有意义,如果强行对z进行约束不会对解决问题有帮助,然而z的分布是由图像域中的数据和编码器共同决定的。
另外,为了达到跨域图像转换的目的,对y加以限制,分解后的y表示为,y=y1⊕y2,其中,y1就是a经过跨域转换后的图像,y2就是b经过跨域转换后的图像,即:y1=Fa→b(a),y2=Fb→a(b)。
在本实施例中,编码器结构如表1所示。编码器的主要任务是提取输入图像x的内容特征z,为后续处理做准备。
Layer Size
input 512*256*3
7*7*64conv,stride 1,pad 3 512*256*64
3*3*128conv,stride 2,pad 1 256*128*128
3*3*256conv,stride 2,pad 1 128*64*256
resblock 128*64*256
resblock 128*64*256
resblock 128*64*256
z 128*64*256
编码器结构表1
输入图像首先经过卷积层提取特征,卷积核的大小为7,有较大的感受野,可以捕捉更大范围的信息,同时增加通道数。之后,再经过两个卷积层下采样,每次将特征图的边长变为1/2,卷积核大小是3,步长是2,pad是1,通道数量逐渐增加。卷积层采用LeakyRectified Linear Unit(Leaky ReLU)作为激活函数,该函数的输出值对负值输入有很小的梯度,这样做修正了数据分布,使得负值输入的信息不会全部丢失,改善了ReLU函数对负值输入导数等于0的问题,减少了静默神经元的出现,计算高效且不容易出现梯度爆炸问题,更顺利地完成基于梯度的学习过程。
在下采样之后是三个残差块(residual block)结构,每个残差块的结构如图四左侧所示,残差块中,卷积核大小是3,步长是1,pad是1。理论上来说,深层的网络应该不会比浅层的网络效果更差,但是随着网络的加深,训练变得越来越困难,网络的优化也变得越来越难,导致深层的网络效果反而不如较浅的网络。残差块结构就可以解决这种退化问题,因为加入了shortcut connection,靠后的网络层至少也会实现恒等映射,可以让网络层数达到很深而效果不容易退化。残差块中包含2个3*3的卷积,这其实是经过实验验证的,在控制参数数量和网络运算速度的前提下,用2个3*3的卷积构成残差块可以得到较好的效果。
此外,如图4所示的residual block相比于non-residual block还有训练快、收敛快的优点,在更深层的网络中,残差块的作用将会更加明显。训练的过程中,batch size设置为1,所以batch normalization就变成了instance normalization,这对于图像生成任务是更有效果的。在residual block的后面还应用了dropout方法来增加网络的泛化能力。
在本实施例中,解码器结构如表2所示。编码器的主要任务是利用潜变量z生成转换的图像,在内容特征的基础上,恢复出原本图像的结构信息,并添加领域特征信息,实现跨域图像转换。
Layer Size
z 128*64*256
resblock 128*64*256
resblock 128*64*256
resblock 128*64*256
3*3*128deconv,stride 2 256*128*128
3*3*64deconv,stride 2 512*256*64
1*1*3deconv,stride 1 512*256*3
output 512*256*3
解码器结构表2
在本实施例中,解码器所用的残差块结构与编码器中的基本相同,特征图经过两层上采样扩大到与原始图片相同的尺寸,这两层采用Leaky ReLU为激活函数。最后一层反卷积不改变特征图的大小,改变的是通道数,压缩通道数变为3,分别对应RGB通道;同时最后一层反卷积采用tanh激活函数,将输出值限制在[-1,1],便于生成转换后的图像。
在对自交叉编码器网络进行训练的过程中,为了判别自交叉编码器网络生成的转换图像是否符合转换要求,再将转换后的图像输入判别器,得到多种损失函数,并通过对损失函数与预设标准进行对比后对自交叉编码器网络中参数进行调节,直至其输出的转换图像符合转换要求,以完成训练。
在本实施例中,编码器以及解码器相当于图像生成器,图像生成器与两组判别器组成对抗网络。
如图3所示,具有两个判别器,判别器的结构如表3所示,分别对图像域A、B中的图像进行判别,它们的结构基本相同,输入是图像域中的原始图像和生成图像,输出是判断属于对应图像域的概率。判别器D尝试对原始图像和生成图像进行鉴别:对图像域中随机采样得到的真实图像,判别器应当输出真;对生成的虚假图像,判别器应该输出为假。自编码器相当于一个生成器G,尝试生成以假乱真的图像企图骗过判别器,使其输出真。这就是整个对抗过程,最终,当图像生成器生成了以假乱真的图像后,则完成训练。
Layer Size
input 256*256*3
3*3*64conv,stride 2,pad 1 128*128*64
3*3*128conv,stride 2,pad 1 64*64*128
3*3*256conv,stride 2,pad 1 32*32*256
3*3*512conv,stride 2,pad 1 16*16*512
3*3*1024conv,stride 2,pad 1 8*8*1024
3*3*2048conv,stride 2,pad 1 4*4*2048
1*1*1conv,stride 1,pad 0 4*4*1
logit 4*4*1
判别器结构表3
在本实施例中,为了使得图像生成器可以生成以假乱真的图像,则需要通过计算对抗损失函数,重构损失函数以及特征损失函数,用以调节编码器和解码器的参数。
在步骤203中,判别器包括第一判别器以及第二判别器。将第一训练转换图像以及第二训练图像输入第一判别器,计算得到第一对抗损失函数。将第二训练转换图像以及第一训练图像输入第二判别器,计算得到第二对抗损失函数。再根据第一对抗损失函数以及第二对抗损失函数的和,得到对抗损失函数。
具体的,第一训练转换图像以及第二训练转换图像为生成图像,此时,第一训练转换图像具有第二训练图像的特征,第二训练转换图像具有第一训练图像的特征,则分别以第二训练图像和第一训练图像为原始图像,两个判别器分别判断生成图像是否与原始图像一致。
进一步的,还从两个图像域中随机采集真实图像,再判断真实图像与生成图像是否一致。
判别器DA和判别器DB的对抗目标函数如式(1)和式(2)所示,其中S代表split函数。
LGANA(E,G,DA)=Ea~P(a)logDA(a)+Ex~P(x)log(1-DA(SA(G(E(x))))) 式(1)
LGANB(E,G,DB)=Eb~P(b)logDB(b)+Ex~P(x)log(1-DB(SB(G(E(x))))) 式(2)
其中,式(1)和式(2)分别为第一对抗损失函数以及第二对抗损失函数。
根据式(1)和式(2)可以得到对抗损失函数式(3):
LGAN(E,G,DA,DB)=LGANA(E,G,DA)+LGANB(E,G,DB)式(4)在步骤204中,包括:将第一训练转换图像、第二训练转换图像进行组合后输入自交叉编码器网络,得到第一结果,并将第一结果进行分解得到一次第一重构图像以及一次第二重构图像;将一次第一重构图像以及一次第二重构图像进行组合后输入自交叉编码器网络,得到第二结果,并将第二结果进行分解得到二次第一重构图像以及二次第二重构图像;根据第一训练图像与二次第一重构图像进行计算,得到第一重构损失函数,根据所述第二训练图像与二次第二重构图像进行计算,得到第二重构损失函数;根据第一重构损失函数以及第二重构损失函数的和,得到所述重构损失函数。
在本实施例中,还应用了循环一致性约束,以此来进一步规范生成图像,提高生成图像的质量,改善图像转换后产生的ill-posed问题。
具体的,从两个图像域中分别随机采样得到a和b,x=a⊕b,输入图像x之后,经过编码器和解码器会得到生成图像y,y=G(E(x)),满足y∈Y且Y=B⊕A,以上为步骤202中的过程。为了实现循环一致性,对y进行split分解,y=y1⊕y2,其中,y1是a经过跨域转换后的图像,y2是b经过跨域转换后的图像,即:y1=Fa→b(a),y2=Fb→a(b)。然后对分解出的两部分颠倒次序并重新组合,使得新输入图像x′=y2⊕y1,这样x′就满足x′∈X的条件,再将其输入网络之后,得到y′=G(E(x′))=y1′⊕y2′,y1′=Fb→a→b(b),y2′=Fa→b→a(a),y′依然满足y′∈Y的条件。将y′分解并重新组合,使得x″=y2′⊕y1′。x经过两次交叉变换之后的x″,应当跟原始的x是完全相同的。从上面的处理可以发现,每次自编码器的处理都是实现X→Y的映射关系,对于SCAIT算法的网络结构来说这是统一的。
原始输入x经过这样的变换之后完成了重构。所以可得出网络的重构损失(循环一致性损失),如式(4)所示:
LCC(E,G)=Ex~P(x)||G(E(G(E(x))))-x||1式(4)该损失函数计算的是生成图像和原始图像的L1距离,实验证明,用L1距离可以减少图像的模糊。
在步骤205中,包括:根据提取的第一训练转换图像特征以及第一训练图像的特征进行计算,得到第一特征损失函数;根据提取的第二训练转换图像特征以及第二训练图像的特征进行计算,得到第二特征损失函数;根据第一特征损失函数以及第二特征损失函数的和,得到所述特征损失函数。
由于,在实现跨域图像转换时,转换前后图像的内容特征是相似的,改变的是各图像域中的本质特点。在本实施例中,还对生成图像和原始图像的内容特征做了约束。
在这些条件图像生成的任务中,经常需要提取图像的内容特征和风格特征,然后融合一些特定的内容与风格去生成新的图像。经研究,在经过深度神经网络处理之后,图像的风格特征和内容特征是可以互相分离的,如今已经有许多方法去提取图像的内容和风格。一般来说,高层网络的特征图对应着图像的内容特征,低层网络的特征图对应着风格特征,风格和内容的融合就是底层视觉信息和高层语义信息的融合。
在本实施例中,在VGG(语义特征提取网络)19的基础上搭建特征提取网络,VGG19的基础架构如图5所示。由于只将其作为特征提取的工具,而不是用于图像分类任务,所以不需要用到后面的全连接层及其之后的结构。一般采用conv3_2和conv4_2层提取内容特征,这些层在VGG网络的中间靠上部分,保证了其可以表征图像的内容特征,而约束又不至于过强。
在本实施例中,采用conv4_2层的特征图,直接使用特征图作为内容特征,同时这也方便计算后文中定义的损失函数。表4是本算法特征提取网络的实现细节,展现了各层网络的配置信息,通过卷积层不断提取图像更高一级的特征,池化层用于对图像进行下采样,池化层的池化方式是AVG而不是MAX,这样可以生成视觉效果更好的图像。
Layer Kernel/Size Strides Padding Mode
conv1 (3,3,64) 1 SAME -
conv2 (3,3,128) 1 SAME -
conv3 (3,3,256) 1 SAME -
conv4 (3,3,512) 1 SAME -
conv5 (3,3,512) 1 SAME -
pool (2,2) 2 SAME AVG
特征提取网络中各层的实现细节表4
在本实施例中,特征提取网络不用训练,只需要加载在ImageNet数据集上预训练的权重,在反向传播的过程中,特征提取网络的参数也不会更新,更新的是自编码器的参数,起到约束转换前后图像的内容特征不变的效果。这样,在定义了特征提取网络之后,输入图像x=a⊕b,生成图像y=y1⊕y2,本算法采用如式(5)和式(6)所示的特征损失函数:
Lf_A=Ea~P(a)‖VGG(y1)-VGG(a)‖1 式(5)
Lf_B=Eb~P(b)‖VGG(y2)-VGG(b)‖1式(6)所以,图像域A和B总的特征损失函数是两者的和,如式(7):
Lf(E,G)=Lf_A+Lf_B式(7)在步骤206,总损失函数分为三个部分:重构损失、对抗损失以及特征损失,如式(8):
Figure BDA0002598688160000151
其中,超参数λ1、λ2用以调节三项损失函数之间的权重大小。
若总损失函数符合预设标准,则得到训练后的自交叉编码器网络。若总损失函数不符合预设标准,则调节所述解码器和编码器的超参数λ1、λ2,再重新获取第一训练图像和第二训练图像对自交叉编码器网络进行训练,直至总损失函数符合预设标准。
在本实施例中,在对自交叉编码器网络进行训练时,自交叉编码器网络可包括自交叉编码器也就是编码器和解码器,用于计算总损失函数的特征提取网络以及与自交叉编码器组成对抗网络的判别器。对其进行训练的目的实则是利用总损失函数调节编码器与解码器中的参数至输出图像符合转换标准。自交叉编码器网络完成训练后,可将判别器以及特征提取网络去除,这样训练后的自交叉编码器网络中只留下具有转换功能的的编码器以及解码器。
上述基于自交叉编码器的跨域图像转换方法中,提出了基于自交叉自编码器的跨域图像转换算法,该算法将图像域A和B的图像统一处理,简化了生成器的结构,不需要为两个图像域单独设计编码分支。并且本方法在多个数据集上都可以出色地完成跨域图像转换任务。应用本方法与现有最新的算法相比能够生成高质量的图像,取得了较好的转换效果。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种基于自交叉编码器的跨域图像转换装置,包括:图像获取模块601、图像组合模块602和图像转换模块603,其中:
图像获取模块601,用于获取第一图像和第二图像;
图像组合模块602,用于将所述第一图像和第二图像进行组合,得到输入图像;
图像转换模块603,用于将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。
关于基于自交叉编码器的跨域图像转换装置的具体限定可以参见上文中对于基于自交叉编码器的跨域图像转换方法的限定,在此不再赘述。上述基于自交叉编码器的跨域图像转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于自交叉编码器的跨域图像转换方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取第一图像和第二图像;
将所述第一图像和第二图像进行组合,得到输入图像;
将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一图像和第二图像;
将所述第一图像和第二图像进行组合,得到输入图像;
将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.基于自交叉编码器的跨域图像转换方法,其特征在于,包括:
获取第一图像和第二图像;
将所述第一图像和第二图像进行组合,得到输入图像;
将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像;
将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像包括:
所述自交叉编码器网络包括训练后的编码器以及解码器;
将所述输入图像输入所述编码器,得到所述输入图像在潜变量空间中对应的潜变量;
将所述潜变量输入所述解码器,得到输出图像;
将所述输出图像进行分解,得到所述第一转换图像以及第二转换图像;
训练所述自交叉编码器网络包括:
获取第一训练图像以及第二训练图像,所述第一训练图像和第二训练图像分别以随机采集的方式从对应的第一图像域以及第二图像域中得到;
根据所述第一训练图像以及第二训练图像得到训练输入图像,并将所述训练输入图像输入自交叉编码器网络后再进行分解得到第一训练转换图像以及第二训练转换图像;
将所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像输入判别器,得到对抗损失函数;
将所述第一训练转换图像、第二训练转换图像进行组合后再输入所述自交叉编码器网络得到重构图像,再根据所述第一训练图像、第二训练图像以及重构图像,计算得到重构损失函数;
对所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像分别提取特征,并计算得到特征损失函数;
根据所述对抗损失函数、重构损失函数以及特征损失函数计算得到总损失函数,若所述总损失函数符合预设标准,则得到训练后的自交叉编码器网络;
若所述总损失函数不符合预设标准,则调节所述解码器和编码器的参数,再重新获取第一训练图像和第二训练图像对所述自交叉编码器网络进行训练,直至所述总损失函数符合预设标准。
2.根据权利要求1所述的方法,其特征在于,将所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像输入判别器,得到对抗损失函数包括:其中判别器包括第一判别器以及第二判别器;
将所述第一训练转换图像以及第二训练图像输入第一判别器,计算得到第一对抗损失函数;
将所述第二训练转换图像以及第一训练图像输入第二判别器,计算得到第二对抗损失函数;
根据所述第一对抗损失函数以及第二对抗损失函数的和,得到所述对抗损失函数。
3.根据权利要求1所述的方法,其特征在于,将所述第一训练转换图像、第二训练转换图像进行组合后再输入所述自交叉编码器网络得到重构图像,再根据所述第一训练图像、第二训练图像以及重构图像,计算得到重构损失函数包括:
将所述第一训练转换图像、第二训练转换图像进行组合后输入所述自交叉编码器网络,得到第一结果,并将所述第一结果进行分解得到一次第一重构图像以及一次第二重构图像;
将所述一次第一重构图像以及一次第二重构图像进行组合后输入所述自交叉编码器网络,得到第二结果,并将所述第二结果进行分解得到二次第一重构图像以及二次第二重构图像;
根据所述第一训练图像与二次第一重构图像进行计算,得到第一重构损失函数,根据所述第二训练图像与二次第二重构图像进行计算,得到第二重构损失函数;根据所述第一重构损失函数以及第二重构损失函数的和,得到所述重构损失函数。
4.根据权利要求1所述的方法,其特征在于,对所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像分别提取特征,并计算得到特征损失函数包括:
根据提取的第一训练转换图像特征以及第一训练图像的特征进行计算,得到第一特征损失函数;
根据提取的第二训练转换图像特征以及第二训练图像的特征进行计算,得到第二特征损失函数;
根据所述第一特征损失函数以及第二特征损失函数的和,得到所述特征损失函数。
5.根据权利要求1所述的方法,其特征在于,所述第一图像域中的图片与第二图像域中的图片具有相同的特征。
6.一种基于自交叉编码器的跨域图像转换装置,其特征在于,所述装置包括:
图像获取模块,用于获取第一图像和第二图像;
图像组合模块,用于将所述第一图像和第二图像进行组合,得到输入图像;
图像转换模块,用于将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像;
将所述输入图像输入训练后的自交叉编码器网络,得到根据所述第二图像进行转换的第一转换图像,以及根据所述第一图像进行转换的第二转换图像包括:
所述自交叉编码器网络包括训练后的编码器以及解码器;
将所述输入图像输入所述编码器,得到所述输入图像在潜变量空间中对应的潜变量;
将所述潜变量输入所述解码器,得到输出图像;
将所述输出图像进行分解,得到所述第一转换图像以及第二转换图像;
训练所述自交叉编码器网络包括:
获取第一训练图像以及第二训练图像,所述第一训练图像和第二训练图像分别以随机采集的方式从对应的第一图像域以及第二图像域中得到;
根据所述第一训练图像以及第二训练图像得到训练输入图像,并将所述训练输入图像输入自交叉编码器网络后再进行分解得到第一训练转换图像以及第二训练转换图像;
将所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像输入判别器,得到对抗损失函数;
将所述第一训练转换图像、第二训练转换图像进行组合后再输入所述自交叉编码器网络得到重构图像,再根据所述第一训练图像、第二训练图像以及重构图像,计算得到重构损失函数;
对所述第一训练转换图像、第二训练转换图像、第一训练图像以及第二训练图像分别提取特征,并计算得到特征损失函数;
根据所述对抗损失函数、重构损失函数以及特征损失函数计算得到总损失函数,若所述总损失函数符合预设标准,则得到训练后的自交叉编码器网络;
若所述总损失函数不符合预设标准,则调节所述解码器和编码器的参数,再重新获取第一训练图像和第二训练图像对所述自交叉编码器网络进行训练,直至所述总损失函数符合预设标准。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202010717299.8A 2020-07-23 2020-07-23 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质 Active CN112001838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010717299.8A CN112001838B (zh) 2020-07-23 2020-07-23 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010717299.8A CN112001838B (zh) 2020-07-23 2020-07-23 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112001838A CN112001838A (zh) 2020-11-27
CN112001838B true CN112001838B (zh) 2022-09-20

Family

ID=73467741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010717299.8A Active CN112001838B (zh) 2020-07-23 2020-07-23 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112001838B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819687B (zh) * 2021-01-21 2023-07-07 浙江大学 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质
CN115565213B (zh) * 2022-01-28 2023-10-27 荣耀终端有限公司 图像处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统
EP3511942A2 (en) * 2018-01-16 2019-07-17 Siemens Healthcare GmbH Cross-domain image analysis and cross-domain image synthesis using deep image-to-image networks and adversarial networks
CN110335193A (zh) * 2019-06-14 2019-10-15 大连理工大学 一种基于生成对抗网络的目标域导向的无监督图像转换方法
CN110415308A (zh) * 2019-06-21 2019-11-05 浙江大学 一种基于循环空间转换网络的人脸漫画生成方法
CN110675316A (zh) * 2019-08-29 2020-01-10 中山大学 基于条件生成对抗网络的多域图像转换方法、系统及介质
CN110895674A (zh) * 2018-09-13 2020-03-20 本田技研工业株式会社 用于基于自我中心视觉的未来车辆定位的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3511942A2 (en) * 2018-01-16 2019-07-17 Siemens Healthcare GmbH Cross-domain image analysis and cross-domain image synthesis using deep image-to-image networks and adversarial networks
CN110895674A (zh) * 2018-09-13 2020-03-20 本田技研工业株式会社 用于基于自我中心视觉的未来车辆定位的系统和方法
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统
CN110335193A (zh) * 2019-06-14 2019-10-15 大连理工大学 一种基于生成对抗网络的目标域导向的无监督图像转换方法
CN110415308A (zh) * 2019-06-21 2019-11-05 浙江大学 一种基于循环空间转换网络的人脸漫画生成方法
CN110675316A (zh) * 2019-08-29 2020-01-10 中山大学 基于条件生成对抗网络的多域图像转换方法、系统及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Info-autoencoder的图像风格迁移;俞超,等;《计算机时代》;20191231;第45-48、52页 *

Also Published As

Publication number Publication date
CN112001838A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
Yang et al. Hifacegan: Face renovation via collaborative suppression and replenishment
Lin et al. Hyperspectral image denoising via matrix factorization and deep prior regularization
CN111461322B (zh) 一种深度神经网络模型压缩方法
CN112001838B (zh) 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质
Du et al. Blind image denoising via dynamic dual learning
CN110414516B (zh) 一种基于深度学习的单个汉字识别方法
Liao et al. Artist-net: Decorating the inferred content with unified style for image inpainting
Mastan et al. DeepCFL: Deep contextual features learning from a single image
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
Zhang et al. Fchp: Exploring the discriminative feature and feature correlation of feature maps for hierarchical dnn pruning and compression
An et al. RBDN: Residual bottleneck dense network for image super-resolution
Xiao et al. Image inpainting network for filling large missing regions using residual gather
Suryanarayana et al. Deep Learned Singular Residual Network for Super Resolution Reconstruction.
Wu et al. Coarse-to-Fine Low-Light Image Enhancement With Light Restoration and Color Refinement
CN112001839B (zh) 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质
CN113516582B (zh) 用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质
CN116977343A (zh) 图像处理方法、装置、设备、存储介质及程序产品
Campana et al. Variable-hyperparameter visual transformer for efficient image inpainting
Cang et al. Scalable microstructure reconstruction with multi-scale pattern preservation
CN115169548A (zh) 基于张量的持续学习方法和装置
CN113705480A (zh) 基于姿态识别神经网络的姿态识别方法、设备和介质
Kumar et al. Structure Level Pruning of Efficient Convolutional Neural Networks with Sparse Group LASSO
Ju et al. Tensorizing restricted Boltzmann machine
Poernomo et al. Content-aware convolutional neural network for object recognition task
Jiang et al. Multi-dimensional visual data completion via weighted hybrid graph-Laplacian

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant