CN112581550A - 一种基于生成对抗网络的非匹配图像风格转换方法 - Google Patents

一种基于生成对抗网络的非匹配图像风格转换方法 Download PDF

Info

Publication number
CN112581550A
CN112581550A CN202011391478.3A CN202011391478A CN112581550A CN 112581550 A CN112581550 A CN 112581550A CN 202011391478 A CN202011391478 A CN 202011391478A CN 112581550 A CN112581550 A CN 112581550A
Authority
CN
China
Prior art keywords
image
style
network
method based
target domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011391478.3A
Other languages
English (en)
Inventor
周乾伟
刘一波
胡海根
李小薪
周晨
陶俊
吴延壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011391478.3A priority Critical patent/CN112581550A/zh
Publication of CN112581550A publication Critical patent/CN112581550A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于生成对抗网络的非匹配图像风格转换方法,包括以下步骤:1)同时输入属于A风格图像xa以及属于B风格图像xb进入风格转换神经网络中;2)根据源域图像,网络生成器生成对应的目标域风格图像;3)将源域与生成的目标域图像经过分割网络,通过形状一致性损失进行约束;4)将源域与生成的目标域图像经过感知网络,通过感知损失进行一致性约束;5)判别器对生成器生成的图像进行质量评判;6)按步骤1)~5)重复设定次数,直到网络收敛。本发明旨在没有互相匹配的图像数据情况下,利用深度学习技术,实现将图像的风格进行有效的转换。通过精心设计的网络结构,能够有效地提高转换图像的质量且适应于更广阔的应用场景范围。

Description

一种基于生成对抗网络的非匹配图像风格转换方法
技术领域
本发明属于深度学习中的生成对抗网络领域,并引入了注意力机制,是一种实现了非匹配图像风格转换的方法。
背景技术
近年来,深度学习技术越来越受到研究者的重视,并已成功地应用于许多实际应用中。深度学习算法试图从海量数据中学习高级特征,这使得深度学习超越了传统的机器学习。它可以通过无监督或半监督的特征学习算法和分层特征提取来自动提取数据特征。相比之下,传统的机器学习方法需要手工设计功能,这严重增加了用户的负担。可以说,深度学习是机器学习中基于大规模数据的表示学习算法。
而在生成对抗网络(GAN)的应用方面,近年来也是深度学习领域中一个热门的研究课题。2014年至今,人们对GAN进行了广泛的研究,并提出了大量算法,GAN在结构上包含了生成器、判别器,通过两者的相互博弈,共同提高性能。GAN在图像处理与计算机视觉、自然语言处理、语音与音频、医学以及数据科学中都有着广泛的应用。
图像风格转换是近些年新兴起的一种基于深度学习的技术,它也伴随着深度学习发展的而发展迅速。图像风格转换属于纹理转换问题,纹理转换问题在经典方法中采用了一些非参数的方法,例如利用一些固定的方法来进行渲染。而传统方法只能做到对底层特征的提取,而卷积神经网络能够对图像特征的高层特征的提取,使得图像内容与风格分离提供了可行性。
近几年,注意力机制不管在自然语言处理还是在计算机视觉领域中,都是热门的研究方向。许多学者也提出了若干种注意力机制来提高模型的相关任务的性能。计算机视觉中的注意力机制的基本思想是想让模型学会注意力,即能够忽略无关信息而关注重点信息。
从目前相关领域的研究现状来说,目前的风格转换算法主要分为两大类,一种是基于匹配数据的风格转换算法,另一种是基于非匹配数据的风格转换算法。具体来说,数据的匹配指的是从内容角度来看,两张图像具有一致的内容属性,但是从风格角度来看,两者属于不同的风格域。例如,同样一个地点对应的夏天与冬天的风景两张图像,然后将这两张图像在训练时成对进行输入。反之,数据的非匹配指的是无需要求数据严格进行匹配之后欧成对输入网络,输入的图像只要是来自两个不同的域即可。根据目前的研究结果,基于匹配数据集的算法实验效果更优,但是匹配的数据集稀少,获取难度大也是不可忽视的问题,这也导致基于匹配数据集的风格转换算法应用的范围较小,这也促使基于非匹配数据的风格转换算法成为了众多研究者进行研究的侧重点。目前的非匹配数据算法存在着图像细节不够清晰,边缘形状发生改变以及训练较为困难等问题。而本发明利用编解码器,对图像进行拆分重组操作,对拆分的内容编码进行保留,并引入注意力机制使得网络关注于重要区域的细节信息,能够解决上述存在的相关难题。
发明内容
为了克服现有技术的不足,本发明提供一种基于生成对抗网络的非匹配图像风格转换方法,在没有互相匹配的图像数据情况下,利用深度学习技术,实现将图像的风格进行有效的转换。通过精心设计的网络结构,能够有效地提高转换图像的质量且适应于更广阔的应用场景范围。
本发明解决其技术问题所采用的技术方案是:
一种基于生成对抗网络的非匹配图像风格转换方法,所述方法包括以下步骤:
1)同时输入属于A风格图像xa以及属于B风格图像xb进入风格转换神经网络中,风格转换神经网络为包含了生成器与判别器的生成对抗网络;
2)根据源域的图像,风格转换神经网络生成目标域的图像,将A 风格图像xa作为源域,则转换生成目标域B风格图像xa2b,将B风格图像xb作为源域,转换生成目标域A风格图像xb2a
3)将源域的图像与转换生成的目标域的图像经过分割网络,在本发明中将其命名为ShapeNet,使用形状的一致性损失对生成图像进行约束,保证源域的图像与生成转换的目标域图像具有相同的边缘形状;
4)将源域的图像与转换生成的目标域图像经过感知网络,在本发明中将其命名为PerceptionNet,使用感知损失对生成图像进行约束,保证源域的图像与生成转换的目标域图像具有高层信息的一致性;
5)判别器对生成器生成的图像进行质量评判,区分输入判别器的图像是真实图像或网络生成的假图像。
6)将步骤1)~5)不断重复设定的次数,生成器与判别器不断相互博弈,共同提高性能,直到网络收敛。此时,生成器生成的图像质量足够高,判别器无法区分生成器生成的图像是否为网络生成器来生成的虚假图像。
进一步,所述风格转换神经网络通过使用对应于不同风格的独立编解码器结构,充分学习了如何将图像编码成内容编码以及风格编码;风格转换神经网络包括两组生成器与判别器,分别针对源域图像与目标域图像进行图像的生成与判别。
针对每一组的生成器,其中包含了编码器与解码器的结构,编码器对图像进行编码操作,其中包含了两个编码器结构:内容编码器,对图像的内容特征进行编码,生成内容编码;风格编码器,对图像的风格特征进行编码,生成风格编码;解码器对编码器完成的编码进行解码,将内容编码与风格编码融合,合成对应的目标域风格图像。编码器通过学习特定风格的分布特点,因此成对匹配的数据不是训练必备,减小了数据收集的难度。
更进一步,引入了一种注意力机制,将卷积网络提取的特征进行可视化后形成热力图,根据热力图,教会了神经网络能够关注于重要的区域。
在生成器以及判别器中都引入了注意力机制,设某一层神经网络提取到的特征图的通道数为n,对应n张特征图,引入的注意力机制为:对每个通道的特征图计算其表示重要性的权重,且所有的权重和为1 将每个通道对应的权重与特征图进行加权求和形成热力图,得到卷积网络的特征可视化结果。注意力机制使网络能够教会神经网络关注于重要的区域,提升细节信息与整体的成像质量。
更进一步,引入了一个训练过的分割网络,保证了边缘形状的一致性。
使用的分割网络结构为特征金字塔(Feature Pyramid Networks),使用具有真实标签的分割数据集进行训练,经过测试能够很好的对图像的边缘信息进行分割。
引入了感知网络与感知损失,保证了高层信息的一致性。
感知网络可选用预训练的VGG或ResNet,利用预训练网络提取图像的特征。
感知损失最小化源域图像以及转换后的目标域图像在特征层面的差异,在GAN中完成风格转换任务时,由于回传导数时,回传的分布具有普适性,具有训练速度快,收敛效果好,且具有一致的高频细节信息等优点。
本发明的有益效果表现在:通过本发明,只需一种风格图像即可获得多风格的对应图像。有利于构建医学诊断辅助系统,通过多风格图像辅助医生做出更为精确的临川判断。同时在医学图像数据稀缺的前提下,本发明也可作为一种数据的扩充,可提供给相关研究领域的研究者更多的数据进行算法研究,推动行业的整体发展。
附图说明
图1为一种基于生成对抗网络的非匹配图像风格转换方法的主要结构示意图。
图2为一种基于生成对抗网络的非匹配图像风格转换方法中风格转换神经网络中生成器的结构示意图。
图3为一种基于生成对抗网络的非匹配图像风格转换方法中风格转换神经网络中判别器的结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于生成对抗网络的非匹配图像风格转换方法,将需要互相转换的两种风格图像命名为xa与xb,以下详细描述由源域A风格的图像xa转换到目标域B风格的图像xa2b过程,由源域B 风格的图像xb转换到目标域A风格的图像xb2a的过程同理类似。xa经过一个以GAN为基础架构的风格转换神经网络后,生成一张图像,该图像具有图像xa的内容,以及图像xb的风格,将其命名为xa2b
进一步,由于在一些特定的图像风格转换任务中,例如将马转换为斑马,磁共振影像的模态转换等,要求源域图像与目标域图像边缘结构是一致的,因此引入ShapeNet,是一个以特征金字塔(Feature Pyramid Networks)为架构,经过训练的分割网络。将源域的图像xa与生成的目标域图像xa2b输入ShapeNet,获得两者的分割结果,通过损失函数对两者的分割结果进行约束,保证源域图像xa与生成的目标域图像xa2b具有相同的结构边缘形状。
更进一步,可将卷积神经网络提取出来的特征,作为目标函数的一部分,通过比较源域图像经过卷积神经网络的特征值与目标域图像经过卷积神经网络的特征值,使得源域图像与目标域图像在语义上更加相似。因此引入PerceptionNet,将源域图像xa与生成的目标域图像 xa2b输入到一个预训练的PerceptionNet之中,该网络可以是VGG或 ResNet等特征提取网络。在潜空间中,可以将一张图像拆分成图像内容加图像风格两种组成部分的基础上,利用感知损失对提取的特征进行相应约束,公式中,j为图像对应的像素点位置,
Figure RE-GDA0002948699160000061
为特征提取网络的非线性函数表示,H、W别分为图像的高与宽。通过感知网络,使得源域图像xa与生成的目标域图像xa2b应该具有相近的图像语义内容,提升图像生成的质量。
参照图2,风格转换神经网络包括生成器与判别器两部分结构,图2为生成器的架构设计。生成器中包含编码器与解码器,编码器负责将图像信息分解为内容编码与风格编码,分别由不同设计的内容编码器与风格编码器完成上述编码操作。解码器负责将上述编码器得到的内容编码与风格编码进行融合,合成相对应的目标域风格图像。具体来说,用a.encoder表示对A风格图像进行编码操作的编码器, a.decoder表示对A风格图像进行解码操作的解码器。b.encoder表示对 B风格图像进行编码操作的编码器,b.decoder表示对B风格图像进行解码操作的解码器。
输入网络的有A风格图像xa与B风格图像xb,xa经过编码器,分解为风格编码sa与内容编码ca两部分,分别代表了A风格图像xa对应的风格编码与内容编码。将风格编码sa与内容编码ca作为输入,输入到解码器中,解码器将sa与ca进行融合,生成与xa对应的重构图像xa_recon,通过L1损失函数进行约束,保证重构得到的图像与输入一致。
进一步,L1损失也被成为最小化绝对误差(Least Absolute Error)。
同理,xb经过编码器,分解成了风格编码sb与内容编码cb两部分,分别代表了B风格图像xb对应的风格编码与内容编码,并且进行重构得到了重构图像xb_recon
通过以上的学习训练,两组编解码器分别学会了将A风格图像x 与B风格图像xb进行拆解与合成的操作。
接下来,将xa对应的内容编码ca与xb对应的风格风格编码sb进行组合,输入对应B风格的解码器b.decoder,生成由xa转换的具有哦B 风格图像xab。由于xab此时为A风格图像xa的内容加上B风格图像xb的风格风格,所以将xab再次进行编码操作,可生成ca_recon与sb_recon
更进一步,将ca_recon与源域图像xa拆分出来的ca通过损失函数进行约束,使得ca_recon与ca保持一致。将sb_recon与真实图像xb拆分出来的sb进行损失函数的约束,使得sb_recon与sb基本一致。这里损失函数可选用L1损失或L2损失。
最后,将ca_recon与sa输入对应A风格的解码器a.decoder进行解码,完成xa—>xab—>xaba的环形转换过程,将xa与xaba通过环形一致性损失函数进行约束,使得xaba与xa保持一致。这里损失函数可选用L1损失或L2损失。
参照图3,改图表示的是判别器的架构设计。将A风格图像xa与 B风格图像xb分别进行拆解,分别表示为ca、cb、sa与sb。再将ca与sb进行组合解码,生成图像xab,cb与sa进行组合解码,生成图像xba。判别器对xab与xba进行判断,判断其是否为生成器生成的假图像,并根据判别结果进行打分。当判别器认为输入的图像是生成器所生成的假图时,评分数值给出值为0,反之为1。
将上述步骤循环若干的设定次数后,生成器与判别器相互博弈,互相进步,最终的生成器具有强大的性能,根据一张其他风格的参考图像,即可生成十分逼真的属于该风格的转换图像。
以上通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点和功效。本发明还可以通过另外不同的具体实例方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互结合。
需要说明的是,以上实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目绘制,其实际实施时各组件的数量及比例可为一种随意的改变。

Claims (10)

1.一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:所述方法包括以下步骤:
1)同时输入属于A风格图像xa以及属于B风格图像xb进入风格转换神经网络中,风格转换神经网络为包含了生成器与判别器的生成对抗网络;
2)根据源域的图像,风格转换神经网络生成目标域的图像,将A风格图像xa作为源域,则转换生成目标域B风格图像xa2b,将B风格图像xb作为源域,转换生成目标域A风格图像xb2a
3)将源域的图像与转换生成的目标域的图像经过分割网络,在本发明中将其命名为ShapeNet,使用形状的一致性损失对生成图像进行约束,保证源域的图像与生成转换的目标域图像具有相同的边缘形状;
4)将源域的图像与转换生成的目标域图像经过感知网络,在本发明中将其命名为PerceptionNet,使用感知损失对生成图像进行约束,保证源域的图像与生成转换的目标域图像具有高层信息的一致性;
5)判别器对生成器生成的图像进行质量评判,区分输入判别器的图像是真实图像或网络生成的假图像。
6)将步骤1)~5)不断重复设定的次数,生成器与判别器不断相互博弈,共同提高性能,直到网络收敛。
2.如权利要求1所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:所述风格转换神经网络通过使用对应于不同风格的独立编解码器结构,充分学习了如何将图像编码成内容编码以及风格编码;风格转换神经网络包括两组生成器与判别器,分别针对源域图像与目标域图像进行图像的生成与判别。
3.如权利要求1或2所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:针对每一组的生成器,其中包含了编码器与解码器的结构,编码器对图像进行编码操作,其中包含了两个编码器结构:内容编码器,对图像的内容特征进行编码,生成内容编码;风格编码器,对图像的风格特征进行编码,生成风格编码;解码器对编码器完成的编码进行解码,将内容编码与风格编码融合,合成对应的目标域风格图像。
4.如权利要求2所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:引入了一种注意力机制,将卷积网络提取的特征进行可视化后形成热力图,根据热力图,教会了神经网络能够关注于重要的区域。
5.如权利要求4所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:在生成器以及判别器中都引入了注意力机制,设某一层神经网络提取到的特征图的通道数为n,对应n张特征图,引入的注意力机制为:对每个通道的特征图计算其表示重要性的权重,且所有的权重和为1将每个通道对应的权重与特征图进行加权求和形成热力图,得到卷积网络的特征可视化结果。
6.如权利要求1或2所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:引入了一个训练过的分割网络,保证了边缘形状的一致性。
7.如权利要求6所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:使用的分割网络结构为特征金字塔,使用具有真实标签的分割数据集进行训练,经过测试能够很好的对图像的边缘信息进行分割。
8.如权利要求1或2所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:引入了感知网络与感知损失,保证了高层信息的一致性。
9.如权利要求8所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:感知网络可选用预训练的VGG或ResNet,利用预训练网络提取图像的特征。
10.如权利要求8所述的一种基于生成对抗网络的非匹配图像风格转换方法,其特征在于:感知损失最小化源域图像以及转换后的目标域图像在特征层面的差异。
CN202011391478.3A 2020-12-02 2020-12-02 一种基于生成对抗网络的非匹配图像风格转换方法 Pending CN112581550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011391478.3A CN112581550A (zh) 2020-12-02 2020-12-02 一种基于生成对抗网络的非匹配图像风格转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011391478.3A CN112581550A (zh) 2020-12-02 2020-12-02 一种基于生成对抗网络的非匹配图像风格转换方法

Publications (1)

Publication Number Publication Date
CN112581550A true CN112581550A (zh) 2021-03-30

Family

ID=75126759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011391478.3A Pending CN112581550A (zh) 2020-12-02 2020-12-02 一种基于生成对抗网络的非匹配图像风格转换方法

Country Status (1)

Country Link
CN (1) CN112581550A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626430A (zh) * 2021-12-30 2022-06-14 华院计算技术(上海)股份有限公司 情绪识别模型的训练方法、情绪识别方法、设备及介质
CN115375601A (zh) * 2022-10-25 2022-11-22 四川大学 一种基于注意力机制的解耦表达国画生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626430A (zh) * 2021-12-30 2022-06-14 华院计算技术(上海)股份有限公司 情绪识别模型的训练方法、情绪识别方法、设备及介质
CN115375601A (zh) * 2022-10-25 2022-11-22 四川大学 一种基于注意力机制的解耦表达国画生成方法

Similar Documents

Publication Publication Date Title
Wei et al. Elite: Encoding visual concepts into textual embeddings for customized text-to-image generation
CN110335193B (zh) 一种基于生成对抗网络的目标域导向的无监督图像转换方法
CN111861945B (zh) 一种文本引导的图像修复方法和系统
CN110570366A (zh) 基于双判别深度卷积生成式对抗网络的图像修复方法
CN113205096B (zh) 一种基于注意力的联合图像与特征自适应的语义分割方法
CN113343705A (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN112581550A (zh) 一种基于生成对抗网络的非匹配图像风格转换方法
CN113140020B (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN111797891A (zh) 基于生成对抗网络的非成对异质人脸图像生成方法、装置
Cheng et al. Vision-language matching for text-to-image synthesis via generative adversarial networks
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN115146763A (zh) 一种非配对图像阴影去除方法
CN113239834B (zh) 一种可预训练手模型感知表征的手语识别系统
Zhang et al. A survey on multimodal-guided visual content synthesis
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN113160032A (zh) 一种基于生成对抗网络的无监督多模态图像转换方法
CN116721176B (zh) 一种基于clip监督的文本到人脸图像生成方法及装置
CN111489405B (zh) 基于条件增强生成对抗网络的人脸草图合成系统
CN116824584A (zh) 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法
Weng et al. Affective Image Filter: Reflecting Emotions from Text to Images
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法
Wu et al. SketchScene: Scene Sketch To Image Generation With Diffusion Models
Song et al. Causal-story: Local causal attention utilizing parameter-efficient tuning for visual story synthesis
CN114677569A (zh) 一种基于特征解耦合的文字-图像对生成方法和装置
CN114549288A (zh) 一种基于深度学习的素描风景图生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination