CN116385259A - 基于gan网络的图像风格迁移方法 - Google Patents

基于gan网络的图像风格迁移方法 Download PDF

Info

Publication number
CN116385259A
CN116385259A CN202310249419.XA CN202310249419A CN116385259A CN 116385259 A CN116385259 A CN 116385259A CN 202310249419 A CN202310249419 A CN 202310249419A CN 116385259 A CN116385259 A CN 116385259A
Authority
CN
China
Prior art keywords
image
encoder
self
style
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310249419.XA
Other languages
English (en)
Inventor
刘龙
杨雪颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202310249419.XA priority Critical patent/CN116385259A/zh
Publication of CN116385259A publication Critical patent/CN116385259A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开基于GAN网络的图像风格迁移方法,具体方法如下:步骤1,获取相关图片数据集,将夏季图像作为数据集X,冬季图像作为数据集Y;步骤2,对分好类的数据集X,Y分别提取内容及风格特征;步骤3,将s2与c1结合生成同一景物的不同场景G1(s2,c1);步骤4,通过生成器G2将提取到的两类图片的内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1);步骤5,生成器G2与判别器D2对抗学习迭代训练,判别器D2指导生成器G2生成图像的质量,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。该方法解决了实现图像真实化风格迁移时无法最大程度保留图像具体细节的问题。

Description

基于GAN网络的图像风格迁移方法
技术领域
本发明属于风格迁移学习技术领域,涉及一种基于GAN网络的图像风格迁移方法。
背景技术
近年来,随着神经网络和深度学习的快速发展,涌现出了许多优秀的人工智能技术,强有力地推进了计算机视觉领域的研究工作,世界已进入信息化社会。图像是描述世界的重要手段,通过图像可以获得大量文字无法表达的信息。随着信息时代的到来,互联网上的图像数据爆发式增长,这促使计算机视觉领域得到快速发展和重大突破。在处理图像时,传统的算法大多是针对特定的问题来设计用于特定应用场景的模型,例如图像压缩、分割、分类等,随着卷积神经网络的发展,出现了越来越多的图像转换问题,此类方法的出现恰好满足了人们的需求,增强了人们的视觉感和图像的美观性,它广泛应用于各个领域,包括图像检测、图像识别、图像修复、AI换脸等。
基于卷积神经网络的技术已经超越了现代人在许多视觉任务上的表现。深度卷积神经网络的学习和表达能力已经得到广泛验证,并在图像处理领域实现了重大突破,其技术也已被扩展到更具挑战性的应用场景。当前,在国内外的图像处理研究中,人们提出了越来越多的创新思路。特别是在图像风格迁移方面,深度学习技术的快速发展推动了该领域的快速发展和进步。近几年,生成对抗网络已经成为学术界中一个炙手可热的研究领域,被广泛应用于计算机视觉领域,它在图像风格迁移问题上也取得了显著的成果。由于GAN拥有更好的生成能力和灵活的设计,因此GAN及其相关模型已被广泛应用于图像风格迁移问题,并在此领域中取得了巨大的成功。预计未来将出现越来越多基于深度学习的算法来实现更多图像风格迁移模型。
发明内容
本发明的目的是提供一种基于GAN网络的图像风格迁移方法,解决了实现图像真实化风格迁移时无法最大程度保留图像具体细节的问题。
本发明所采用的技术方案是,基于GAN网络的图像风格迁移方法,具体方法如下:
步骤1,获取相关图片数据集,将夏季图像作为数据集X,冬季图像作为数据集Y;
步骤2,对分好类的数据集X,Y分别提取内容及风格特征,数据集X采用自编码器
Figure BDA0004127263990000021
中的编码部分提取图像的内容特征c1,采用变分自编码/>
Figure BDA0004127263990000022
中的编码部分提取图像的风格特征s1;同理,数据集Y采用自编码器/>
Figure BDA0004127263990000023
的编码部分提取图像的内容特征c2,采用变分自编码
Figure BDA0004127263990000024
的编码部分提取图像的风格特征s2
步骤3,通过生成器G1将s1与c2结合生成同一场景的不同景物G1(s1,c2),将s2与c1结合生成同一景物的不同场景G1(s2,c1);
步骤4,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,返回输入至原有自编码器
Figure BDA0004127263990000025
和变分自编码器/>
Figure BDA0004127263990000026
及自编码器/>
Figure BDA0004127263990000027
和变分编码器/>
Figure BDA0004127263990000028
中,再次进行内容特征与风格特征的提取,通过生成器G2将提取到的两类图片的内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1);
步骤5,生成器G2与判别器D2对抗学习迭代训练,判别器D2指导生成器G2生成图像的质量,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。
本发明的特征还在于,
步骤1具体为:
步骤1.1,获取数据集summer2winter;
步骤1.2,随机抽取数据集summer2winter中的图像,将夏季图像作为数据集X,冬季图像作为数据集Y;
步骤2具体为:
步骤2.1,将数据集X中的图像x1输入自编码器
Figure BDA0004127263990000031
将数据集Y中的图像y1输入自编码器/>
Figure BDA0004127263990000032
输入图像x1,y1都是256×256像素的三通道图像;自编码器/>
Figure BDA0004127263990000033
和自编码器/>
Figure BDA0004127263990000034
的编码部分采用残差块,自编码器/>
Figure BDA0004127263990000035
和自编码器/>
Figure BDA0004127263990000036
具体网络结构使用卷积神经网络,卷积神经网络由3个卷积层和2个残差块组成,首先进行下采样操作,第一层使用7×7大小的卷积核,第二层、第三层均使用4×4大小的卷积核,接着使用两个残差块,残差块中有两个卷积层,卷积核的大小为3×3,在进行完第一个卷积操作后,进行ReLU激活处理。
步骤2.2,自编码器
Figure BDA0004127263990000037
和/>
Figure BDA0004127263990000038
中输入层到编码层的网络部分称为编码部分,自编码器/>
Figure BDA0004127263990000039
和/>
Figure BDA00041272639900000310
中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,自编码器
Figure BDA00041272639900000311
和自编码器/>
Figure BDA00041272639900000312
捕获输入图像x1和图像y1中的局部结构信息,从而提取图像x1和图像y1的内容特征c1和内容特征c2
步骤2.3,将数据集X中的图像x1输入变分自编码器
Figure BDA00041272639900000313
将数据集y1中的图像y1输入变分自编码器/>
Figure BDA00041272639900000314
输入图片x1,y1都是256×256像素的三通道图像,变分自编码器增加了风格特征的随机性,具体网络结构由3个卷积层、2个池化层和1个全连接层组成,首先进行下采样操作,第二层使用7×7大小的卷积核,第三层,第四层均使用4×4大小的卷积核,然后进行ReLU激活函数处理,然后接最大池化操作,经过一个残差块,在进行池化操作,最后一层使用1×1大小的卷积核实现全连接的作用,无激活函数;
步骤2.4,变分自编码器
Figure BDA0004127263990000041
和变分自编码器/>
Figure BDA0004127263990000042
中输入层到编码层的网络部分称为编码部分,/>
Figure BDA0004127263990000043
和/>
Figure BDA0004127263990000044
中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,变分自编码器/>
Figure BDA0004127263990000045
和变分自编码器/>
Figure BDA0004127263990000046
进行随机采样,从而提取图像x1和图像y1的风格特征s1和风格特征s2
步骤3具体为:
步骤3.1,固定自编码器
Figure BDA0004127263990000047
和变分编码器/>
Figure BDA0004127263990000048
自编码器/>
Figure BDA0004127263990000049
和变分编码器E2 s、生成器G1和G2、判别器D2的权重参数;
步骤3.2,将变分自编码器
Figure BDA00041272639900000410
提取的风格特征s1和自编码器/>
Figure BDA00041272639900000411
提取的内容特征c2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s1,c2),生成器G1和G2的网络结构相同,生成器G1和G2使用卷积神经网络,输入为图像的风格特征和内容特征,输出为风格迁移后的图像,输入风格编码和内容编码首先经过3个残差块,其中残差块中均使用3×3大小的卷积核,然后进行归一化,接着使用最近邻插值上采样法把图像的大小放大一倍,再进行卷积操作,接着进再进行上采样操作,然后接两个卷积层,使用7×7大小的卷积核,每个卷积层后都接一种非线性激活函数,最后输出风格迁移后的图像;
步骤3.3,将自编码器
Figure BDA00041272639900000412
提取的内容特征c1和变分自编码器/>
Figure BDA00041272639900000413
提取的风格特征s2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s2,c1)。
步骤4具体为:
步骤4.1,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,整体网络的总损失函数由生成对抗网络的对抗损失、图像重建损失和循环一致性损失组成,调整后再次返回输入至生成器G2中,总损失函数计算公式如下所示:
Figure BDA0004127263990000051
其中λgan、λx、λcyc入作为超参数分别调节对抗损失、图像重建损失、以及循环一致性损失在总损失函数中的比重;
步骤4.2,经自编码器
Figure BDA0004127263990000052
和自编码器/>
Figure BDA0004127263990000053
变分自编码器/>
Figure BDA0004127263990000054
和变分自编码器/>
Figure BDA00041272639900000515
的编码部分对图像G1(s1,c2)和G1(s2,c1)再次进行内容特征与风格特征的提取,将提取到的内容特征和风格特征分别与之前的内容特征c1和风格特征s1进行比较,输出为0~1之间的概率值,表示输入图像接近真实图像的概率;
步骤4.3,自编码器
Figure BDA0004127263990000055
和自编码器/>
Figure BDA0004127263990000056
变分自编码器/>
Figure BDA0004127263990000057
和变分自编码器/>
Figure BDA0004127263990000058
编码层到输出层的网络部分称为解码器,通过自编码器/>
Figure BDA0004127263990000059
和自编码器/>
Figure BDA00041272639900000510
变分自编码器/>
Figure BDA00041272639900000511
和变分自编码器/>
Figure BDA00041272639900000512
的解码部分,将步骤4.2提取到的内容特征和风格特征重构,返回生成器G2,生成器G2将图像x1,y1内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1)。
步骤4.1中,计算生成对抗网络的对抗损失的具体操作如下:
首先采用对抗性损失,生成器G1和G2与判别器D1和D2互相博弈,对抗损失计算公式如下:
Figure BDA00041272639900000513
Figure BDA00041272639900000514
E1 c和E2 c表示自编码器,E1 s和E2 s表示变分自编码器,G1和G2表示生成器,D1和D2表示判别网络,G1(s1,c2)表示输入图像x1的内容编码和图像y1的风格编码之后输出的风格迁移图像,D(y1)代表判别网络对真实图像的判别结果,对于判别器来说,当输入是真实图像y1编码信息时,最大化logD2(y1),让判别器输出趋近于1的结果;当输入是生成图像G2(s2,c1)时,最小化G2(s2,c1)的值,让判别器输出趋近于0的结果,由此区分生成图像和真实图像;
步骤4.1中,计算图像重建损失的操作如下:
将编码器提取的内容特征和风格特征再次输入到生成网络中,由此来重建原来的输入图像;图像的重建损失如下:
Figure BDA0004127263990000061
Figure BDA0004127263990000062
将图像中数据集X经过的自编码器记为E1 c,提取的内容特征记为c1,经过的变分自编码器记为E1 s,生成的风格特征记为s1;将图像中数据集Y经过的自编码器记为E2 c,生成的内容特征记为c2,经过的变分自编码器记为E2 s,生成的风格特征记为s2,
Figure BDA0004127263990000063
代表图像的风格信息,/>
Figure BDA0004127263990000064
代表图像的内容信息;
步骤4.1中,计算循环一致性损失的具体操作如下:
整体框架采用CycleGAN网络结构,循环一致性损失的计算公式如下式所示:
Figure BDA0004127263990000065
Figure BDA0004127263990000066
将图像x1输入生成器G1先进行风格迁移,将风格迁移后的图像G1(x1)再输入另一个生成器G2生成原来的图像G2(G1(x1)),使用损失函数将其进行比较。同样图像y1执行相同的操作,由此来计算网络的循环一致性损失。
步骤5具体为:
步骤5.1,生成器G2与判别器D2对抗学习迭代训练,生成器G2的目的是保证风格迁移后图像内容不发生改变,把风格迁移后的图像重构回原来的图像;
步骤5.2,将重构之后的图像和真实图像分别输入判别器D2,判别器D2指导生成器G2生成图像的质量,判别器D2使用多尺度判别器,判别器D2包含3个具有相同网络结构但在不同图像尺度下工作的判别器,将真实图像和生成的高分辨率图像下采样2倍和4倍,以创建3个尺度的图像金字塔,然后训练判别器D2以分别在3个不同的尺度上区分真实图像和生成图像,将不同大小图像块的判别结果作为最终的输出;判别器D2的网络结构由4个卷积层和1个全连接层组成,第一层到第四层均使用4×4大小的卷积核,五层使用1×1大小的卷积核,卷积层后均接一种非线性激活函数;
步骤5.3,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。
本发明的有益效果是:
1.本发明方法使用CycleGAN作为整体框架引入自编码器和变分自编码器,细化了网络结构,可以使提取到的图像特征更精准。
2.本发明方法将生成后伪图像经过对抗损失、重构损失、循环一致性损失损失调整以后,返回生成网络再次提取特征,循环迭代,使判别网络能更好的指导生成网络,提高图像的质量。
附图说明
图1是本发明基于GAN网络的图像风格迁移方法的流程图;
图2是自编码器网络结构图;
图3是变分自编码器网络结构图;
图4是本发明的生成器网络结构图;
图5为本发明的判别器结构图;
图6为本发明原图与风格迁移后的图像的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供一种基于GAN网络的图像风格迁移方法,如图1所示,具体步骤包括:
步骤1,获取相关图片数据集;
步骤1具体为:
步骤1.1,获取数据集summer2winter,其中包含1273张夏季图像和854张冬季的约塞米蒂国家公园图像,该数据集已经广泛应用于图像生成及风格迁移之中;
步骤1.2,随机抽取数据集summer2winter中的图像,其中夏季图像抽取800张,与之对应冬季图像抽取800张,将夏季图像作为数据集X,冬季图像作为数据集Y;
步骤2,对分好类的数据集X,Y分别提取内容及风格特征,数据集X采用自编码器
Figure BDA0004127263990000081
中的编码部分提取图像的内容特征c1,采用变分自编码/>
Figure BDA0004127263990000082
中的编码部分提取图像的风格特征s1;同理,数据集Y采用自编码器/>
Figure BDA0004127263990000083
的编码部分提取图像的内容特征c2,采用变分自编码
Figure BDA0004127263990000084
的编码部分提取图像的风格特征s2
步骤2具体为:
步骤2.1,将数据集X中的图像x1输入自编码器
Figure BDA0004127263990000085
将数据集Y中的图像y1输入自编码器/>
Figure BDA0004127263990000086
输入图像x1,y1都是256×256像素的三通道图像;自编码器/>
Figure BDA0004127263990000087
和自编码器/>
Figure BDA0004127263990000088
的编码部分采用残差块,能更好的保存提取到的特征。自编码器/>
Figure BDA0004127263990000091
和自编码器/>
Figure BDA0004127263990000092
结构如图2所示,自编码器/>
Figure BDA0004127263990000093
和自编码器/>
Figure BDA0004127263990000094
具体网络结构使用卷积神经网络,卷积神经网络由3个卷积层和2个残差块组成,首先进行下采样操作,第一层使用7×7大小的卷积核,第二层、第三层均使用4×4大小的卷积核,接着使用两个残差块,残差块中有两个卷积层,卷积核的大小为3×3,在进行完第一个卷积操作后,进行ReLU激活处理。
步骤2.2,自编码器
Figure BDA0004127263990000095
和/>
Figure BDA0004127263990000096
中输入层到编码层的网络部分称为编码部分,自编码器/>
Figure BDA0004127263990000097
和/>
Figure BDA0004127263990000098
中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,自编码器/>
Figure BDA0004127263990000099
和自编码器/>
Figure BDA00041272639900000910
捕获输入图像x1和图像y1中的局部结构信息,从而提取图像x1和图像y1的内容特征c1和内容特征c2
步骤2.3,将数据集X中的图像x1输入变分自编码器
Figure BDA00041272639900000911
将数据集y1中的图像y1输入变分自编码器/>
Figure BDA00041272639900000912
输入图片x1,y1都是256×256像素的三通道图像,变分自编码器/>
Figure BDA00041272639900000913
与变分自编码器/>
Figure BDA00041272639900000914
结构相同;变分自编码器增加了风格特征的随机性,变分自编码器/>
Figure BDA00041272639900000915
与变分自编码器/>
Figure BDA00041272639900000916
的网络结构图如图3所示,由3个卷积层、2个池化层和1个全连接层组成,首先进行下采样操作,第二层使用7×7大小的卷积核,第三层,第四层均使用4×4大小的卷积核,然后进行ReLU激活函数处理,然后接最大池化操作,经过一个残差块,在进行池化操作,最后一层使用1×1大小的卷积核实现全连接的作用,无激活函数。
步骤2.4,变分自编码器
Figure BDA00041272639900000917
和变分自编码器/>
Figure BDA00041272639900000918
中输入层到编码层的网络部分称为编码部分,/>
Figure BDA00041272639900000919
和/>
Figure BDA00041272639900000920
中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,变分自编码器/>
Figure BDA00041272639900000921
和变分自编码器/>
Figure BDA00041272639900000922
进行随机采样,从而提取图像x1和图像y1的风格特征s1和风格特征s2
步骤3,通过生成器G1将步骤2提取到的图像x1和图像y1的内容特征与风格特征相互结合,即将s1与c2结合生成同一场景的不同景物G1(s1,c2),将s2与c1结合生成同一景物的不同场景G1(s2,c1);
步骤3具体为:
步骤3.1,固定自编码器
Figure BDA0004127263990000101
和变分编码器/>
Figure BDA0004127263990000102
自编码器/>
Figure BDA0004127263990000103
和变分编码器/>
Figure BDA0004127263990000104
生成器G1和G2、判别器D2的权重参数;
步骤3.2,将变分自编码器
Figure BDA0004127263990000105
提取的风格特征s1和自编码器/>
Figure BDA0004127263990000106
提取的内容特征c2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s1,c2),生成器G1和G2的网络结构相同,但目的不同,生成器G1的目的是接收图像的内容和风格特征之后,经过中间隐藏层的计算,输出最终风格迁移后的图像,生成器G2的目的是将风格迁移后的图像重构回原来的图像,生成器G1和G2网络结构如图4所示,生成器G1和G2使用卷积神经网络,输入为图像的风格特征和内容特征,输出为风格迁移后的图像,输入风格编码和内容编码首先经过3个残差块,其中残差块中均使用3×3大小的卷积核,然后进行归一化,接着使用最近邻插值上采样法把图像的大小放大一倍,再进行卷积操作,接着进再进行上采样操作,然后接两个卷积层,使用7×7大小的卷积核,每个卷积层后都接一种非线性激活函数,最后输出风格迁移后的图像。
步骤3.3,将自编码器
Figure BDA0004127263990000107
提取的内容特征c1和变分自编码器/>
Figure BDA0004127263990000108
提取的风格特征s2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s2,c1);
步骤4,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,返回输入至原有自编码器
Figure BDA0004127263990000109
和变分自编码器/>
Figure BDA00041272639900001010
及自编码器/>
Figure BDA00041272639900001011
和变分编码器/>
Figure BDA00041272639900001012
中,再次进行内容特征与风格特征的提取,通过生成器G2将提取到的两类图片的内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1);
步骤4具体为:
步骤4.1,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,整体网络的总损失函数由生成对抗网络的对抗损失、图像重建损失和循环一致性损失组成,调整后再次返回输入至生成器G2中,总损失函数计算公式如下所示:
Figure BDA0004127263990000111
其中λgan、λx、λcyc入作为超参数分别调节对抗损失、图像重建损失、以及循环一致性损失在总损失函数中的比重。
步骤4.1中,计算生成对抗网络的对抗损失的具体操作如下:
为了使生成器G1和G2生成的风格迁移图像接近真实目标风格图像,首先采用对抗性损失,生成器G1和G2与判别器D1和D2互相博弈,对抗损失计算公式如下:
Figure BDA0004127263990000112
Figure BDA0004127263990000113
E1 c和E2 c表示自编码器,E1 s和E2 s表示变分自编码器,G1和G2表示生成器,D1和D2表示判别网络,G1(s1,c2)表示输入图像x1的内容编码和图像y1的风格编码之后输出的风格迁移图像,生成器的目标是最小化对抗损失,使生成器G1和G2在博弈中使判别器D1和D2无法区分生成图像和真实目标图像,判别器的对抗损失由判别生成图像和判别真实图像两部分组成,D(y1)代表判别网络对真实图像的判别结果,对于判别器来说,当输入是真实图像y1编码信息时,最大化logD2(y1),让判别器输出趋近于1的结果;当输入是生成图像G2(s2,c1)时,最小化G2(s2,c1)的值,让判别器输出趋近于0的结果,由此区分生成图像和真实图像。
步骤4.1中,计算图像重建损失的操作如下:
为了提高生成器的生成能力,将编码器提取的内容特征和风格特征再次输入到生成网络中,由此来重建原来的输入图像。图像的重建损失如下:
Figure BDA0004127263990000121
Figure BDA0004127263990000122
将图像中数据集X经过的自编码器记为E1 c,提取的内容特征记为c1,经过的变分自编码器记为E1 s,生成的风格特征记为s1;将图像中数据集Y经过的自编码器记为E2 c,生成的内容特征记为c2,经过的变分自编码器记为E2 s,生成的风格特征记为s2,
Figure BDA0004127263990000123
代表图像的风格信息,/>
Figure BDA0004127263990000124
代表图像的内容信息。
步骤4.1中,计算循环一致性损失的具体操作如下:
本文整体框架采用CycleGAN网络结构,本文循环一致性损失的计算公式如下式所示:
Figure BDA0004127263990000125
Figure BDA0004127263990000126
将图像x1输入生成器G1先进行风格迁移,将风格迁移后的图像G1(x1)再输入另一个生成器G2生成原来的图像G2(G1(x1)),使用损失函数将其进行比较。同样图像y1执行相同的操作,由此来计算网络的循环一致性损失。
步骤4.2,经自编码器
Figure BDA0004127263990000127
和自编码器/>
Figure BDA0004127263990000128
变分自编码器/>
Figure BDA0004127263990000129
和变分自编码器/>
Figure BDA00041272639900001210
的编码部分对图像G1(s1,c2)和G1(s2,c1)再次进行内容特征与风格特征的提取,将提取到的内容特征和风格特征分别与之前的内容特征c1和风格特征s1进行比较,输出为0~1之间的概率值,表示输入图像接近真实图像的概率;
步骤4.3,自编码器
Figure BDA0004127263990000131
和自编码器/>
Figure BDA0004127263990000132
变分自编码器/>
Figure BDA0004127263990000133
和变分自编码器/>
Figure BDA0004127263990000134
编码层到输出层的网络部分称为解码器,通过自编码器/>
Figure BDA0004127263990000135
和自编码器/>
Figure BDA0004127263990000136
变分自编码器/>
Figure BDA0004127263990000137
和变分自编码器/>
Figure BDA0004127263990000138
的解码部分,将步骤4.2提取到的内容特征和风格特征重构,返回生成器G2,生成器G2将图像x1,y1内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1)。
步骤5,生成器G2与判别器D2对抗学习迭代训练,判别器D2指导生成器G2生成图像的质量,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练;
步骤5具体的为:
步骤5.1,生成器G2与判别器D2对抗学习迭代训练,生成器G2的目的是保证风格迁移后图像内容不发生改变,把风格迁移后的图像重构回原来的图像;
步骤5.2,将重构之后的图像和真实图像分别输入判别器D2,判别器D2指导生成器G2生成图像的质量,判别器D2使用多尺度判别器,判别器D2包含3个具有相同网络结构但在不同图像尺度下工作的判别器,将真实图像和生成的高分辨率图像下采样2倍和4倍,以创建3个尺度的图像金字塔,然后训练判别器D2以分别在3个不同的尺度上区分真实图像和生成图像,将不同大小图像块的判别结果作为最终的输出,从而提高判别器的判别能力判别器D2的网络结构如图5所示,由4个卷积层和1个全连接层组成,第一层到第四层均使用4×4大小的卷积核,五层使用1×1大小的卷积核,卷积层后均接一种非线性激活函数;
步骤5.3,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练,图6第一列为输入的原图像,第二列为使用本发明方法风格迁移后生成的图像,可以看出该方法可以做到更好的还原图片具体细节信息及清晰度。

Claims (7)

1.基于GAN网络的图像风格迁移方法,其特征在于,具体方法如下:
步骤1,获取相关图片数据集,将夏季图像作为数据集X,冬季图像作为数据集Y;
步骤2,对分好类的数据集X,Y分别提取内容及风格特征,数据集X采用自编码器
Figure FDA0004127263980000011
中的编码部分提取图像的内容特征c1,采用变分自编码/>
Figure FDA0004127263980000012
中的编码部分提取图像的风格特征s1;同理,数据集Y采用自编码器/>
Figure FDA0004127263980000013
的编码部分提取图像的内容特征c2,采用变分自编码/>
Figure FDA0004127263980000014
的编码部分提取图像的风格特征s2
步骤3,通过生成器G1将s1与c2结合生成同一场景的不同景物G1(s1,c2),将s2与c1结合生成同一景物的不同场景G1(s2,c1);
步骤4,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,返回输入至原有自编码器
Figure FDA0004127263980000015
和变分自编码器/>
Figure FDA0004127263980000016
及自编码器/>
Figure FDA0004127263980000017
和变分编码器/>
Figure FDA0004127263980000018
中,再次进行内容特征与风格特征的提取,通过生成器G2将提取到的两类图片的内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1);
步骤5,生成器G2与判别器D2对抗学习迭代训练,判别器D2指导生成器G2生成图像的质量,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。
2.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤1具体为:
步骤1.1,获取数据集summer2winter;
步骤1.2,随机抽取数据集summer2winter中的图像,将夏季图像作为数据集X,冬季图像作为数据集Y。
3.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤2具体为:
步骤2.1,将数据集X中的图像x1输入自编码器
Figure FDA00041272639800000217
将数据集Y中的图像y1输入自编码器
Figure FDA0004127263980000021
输入图像x1,y1都是256×256像素的三通道图像;自编码器/>
Figure FDA0004127263980000022
和自编码器/>
Figure FDA00041272639800000218
的编码部分采用残差块,自编码器/>
Figure FDA0004127263980000023
和自编码器/>
Figure FDA0004127263980000024
具体网络结构使用卷积神经网络,卷积神经网络由3个卷积层和2个残差块组成,首先进行下采样操作,第一层使用7×7大小的卷积核,第二层、第三层均使用4×4大小的卷积核,接着使用两个残差块,残差块中有两个卷积层,卷积核的大小为3×3,在进行完第一个卷积操作后,进行ReLU激活处理;
步骤2.2,自编码器
Figure FDA0004127263980000025
和/>
Figure FDA0004127263980000026
中输入层到编码层的网络部分称为编码部分,自编码器/>
Figure FDA0004127263980000027
和/>
Figure FDA0004127263980000028
中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,自编码器/>
Figure FDA0004127263980000029
和自编码器/>
Figure FDA00041272639800000210
捕获输入图像x1和图像y1中的局部结构信息,从而提取图像x1和图像y1的内容特征c1和内容特征c2
步骤2.3,将数据集X中的图像x1输入变分自编码器
Figure FDA00041272639800000211
将数据集y1中的图像y1输入变分自编码器/>
Figure FDA00041272639800000212
输入图片x1,y1都是256×256像素的三通道图像,变分自编码器增加了风格特征的随机性,具体网络结构由3个卷积层、2个池化层和1个全连接层组成,首先进行下采样操作,第二层使用7×7大小的卷积核,第三层,第四层均使用4×4大小的卷积核,然后进行ReLU激活函数处理,然后接最大池化操作,经过一个残差块,在进行池化操作,最后一层使用1×1大小的卷积核实现全连接的作用,无激活函数;
步骤2.4,变分自编码器
Figure FDA00041272639800000213
和变分自编码器/>
Figure FDA00041272639800000214
中输入层到编码层的网络部分称为编码部分,/>
Figure FDA00041272639800000215
和/>
Figure FDA00041272639800000216
中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,变分自编码器/>
Figure FDA0004127263980000031
和变分自编码器/>
Figure FDA0004127263980000032
进行随机采样,从而提取图像x1和图像y1的风格特征s1和风格特征s2
4.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤3具体为:
步骤3.1,固定自编码器
Figure FDA0004127263980000033
和变分编码器/>
Figure FDA0004127263980000034
自编码器/>
Figure FDA0004127263980000035
和变分编码器/>
Figure FDA0004127263980000036
生成器G1和G2、判别器D2的权重参数;
步骤3.2,将变分自编码器
Figure FDA0004127263980000037
提取的风格特征s1和自编码器/>
Figure FDA0004127263980000038
提取的内容特征c2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s1,c2),生成器G1和G2的网络结构相同,生成器G1和G2使用卷积神经网络,输入为图像的风格特征和内容特征,输出为风格迁移后的图像,输入风格编码和内容编码首先经过3个残差块,其中残差块中均使用3×3大小的卷积核,然后进行归一化,接着使用最近邻插值上采样法把图像的大小放大一倍,再进行卷积操作,接着进再进行上采样操作,然后接两个卷积层,使用7×7大小的卷积核,每个卷积层后都接一种非线性激活函数,最后输出风格迁移后的图像;
步骤3.3,将自编码器
Figure FDA0004127263980000039
提取的内容特征c1和变分自编码器/>
Figure FDA00041272639800000310
提取的风格特征s2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s2,c1)。
5.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤4具体为:
步骤4.1,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,整体网络的总损失函数由生成对抗网络的对抗损失、图像重建损失和循环一致性损失组成,调整后再次返回输入至生成器G2中,总损失函数计算公式如下所示:
Figure FDA00041272639800000311
其中λgan、λx、λcyc入作为超参数分别调节对抗损失、图像重建损失、以及循环一致性损失在总损失函数中的比重;
步骤4.2,经自编码器
Figure FDA0004127263980000041
和自编码器/>
Figure FDA0004127263980000042
变分自编码器/>
Figure FDA0004127263980000043
和变分自编码器/>
Figure FDA0004127263980000044
的编码部分对图像G1(s1,c2)和G1(s2,c1)再次进行内容特征与风格特征的提取,将提取到的内容特征和风格特征分别与之前的内容特征c1和风格特征s1进行比较,输出为0~1之间的概率值,表示输入图像接近真实图像的概率;
步骤4.3,自编码器
Figure FDA0004127263980000045
和自编码器/>
Figure FDA0004127263980000046
变分自编码器/>
Figure FDA0004127263980000047
和变分自编码器/>
Figure FDA0004127263980000048
编码层到输出层的网络部分称为解码器,通过自编码器/>
Figure FDA0004127263980000049
和自编码器/>
Figure FDA00041272639800000410
变分自编码器/>
Figure FDA00041272639800000411
和变分自编码器/>
Figure FDA00041272639800000412
的解码部分,将步骤4.2提取到的内容特征和风格特征重构,返回生成器G2,生成器G2将图像x1,y1内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1)。
6.根据权利要求5所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤4.1中,计算生成对抗网络的对抗损失的具体操作如下:
首先采用对抗性损失,生成器G1和G2与判别器D1和D2互相博弈,对抗损失计算公式如下:
Figure FDA00041272639800000413
Figure FDA00041272639800000414
E1 c和E2 c表示自编码器,E1 s和E2 s表示变分自编码器,G1和G2表示生成器,D1和D2表示判别网络,G1(s1,c2)表示输入图像x1的内容编码和图像y1的风格编码之后输出的风格迁移图像,D(y1)代表判别网络对真实图像的判别结果,对于判别器来说,当输入是真实图像y1编码信息时,最大化logD2(y1),让判别器输出趋近于1的结果;当输入是生成图像G2(s2,c1)时,最小化G2(s2,c1)的值,让判别器输出趋近于0的结果,由此区分生成图像和真实图像;
步骤4.1中,计算图像重建损失的操作如下:
将编码器提取的内容特征和风格特征再次输入到生成网络中,由此来重建原来的输入图像;图像的重建损失如下:
Figure FDA0004127263980000051
Figure FDA0004127263980000052
将图像中数据集X经过的自编码器记为E1 c,提取的内容特征记为c1,经过的变分自编码器记为E1 s,生成的风格特征记为s1;将图像中数据集Y经过的自编码器记为E2 c,生成的内容特征记为c2,经过的变分自编码器记为E2 s,生成的风格特征记为s2,
Figure FDA0004127263980000053
代表图像的风格信息,/>
Figure FDA0004127263980000054
代表图像的内容信息;
步骤4.1中,计算循环一致性损失的具体操作如下:
整体框架采用CycleGAN网络结构,循环一致性损失的计算公式如下式所示:
Figure FDA0004127263980000055
Figure FDA0004127263980000056
将图像x1输入生成器G1先进行风格迁移,将风格迁移后的图像G1(x1)再输入另一个生成器G2生成原来的图像G2(G1(x1)),使用损失函数将其进行比较;同样图像y1执行相同的操作,由此来计算网络的循环一致性损失。
7.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤5具体为:
步骤5.1,生成器G2与判别器D2对抗学习迭代训练,生成器G2的目的是保证风格迁移后图像内容不发生改变,把风格迁移后的图像重构回原来的图像;
步骤5.2,将重构之后的图像和真实图像分别输入判别器D2,判别器D2指导生成器G2生成图像的质量,判别器D2使用多尺度判别器,判别器D2包含3个具有相同网络结构但在不同图像尺度下工作的判别器,将真实图像和生成的高分辨率图像下采样2倍和4倍,以创建3个尺度的图像金字塔,然后训练判别器D2以分别在3个不同的尺度上区分真实图像和生成图像,将不同大小图像块的判别结果作为最终的输出;
其中,判别器D2的网络结构由4个卷积层和1个全连接层组成,第一层到第四层均使用4×4大小的卷积核,五层使用1×1大小的卷积核,卷积层后均接一种非线性激活函数;
步骤5.3,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。
CN202310249419.XA 2023-03-15 2023-03-15 基于gan网络的图像风格迁移方法 Pending CN116385259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310249419.XA CN116385259A (zh) 2023-03-15 2023-03-15 基于gan网络的图像风格迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310249419.XA CN116385259A (zh) 2023-03-15 2023-03-15 基于gan网络的图像风格迁移方法

Publications (1)

Publication Number Publication Date
CN116385259A true CN116385259A (zh) 2023-07-04

Family

ID=86964824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310249419.XA Pending CN116385259A (zh) 2023-03-15 2023-03-15 基于gan网络的图像风格迁移方法

Country Status (1)

Country Link
CN (1) CN116385259A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118014865A (zh) * 2024-04-10 2024-05-10 青岛童幻动漫有限公司 一种用于动漫制作的图像融合方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118014865A (zh) * 2024-04-10 2024-05-10 青岛童幻动漫有限公司 一种用于动漫制作的图像融合方法

Similar Documents

Publication Publication Date Title
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
CN108537754B (zh) 基于形变引导图的人脸图像复原系统
CN110570353A (zh) 密集连接生成对抗网络单幅图像超分辨率重建方法
Wang et al. Laplacian pyramid adversarial network for face completion
CN112819910B (zh) 基于双鬼注意力机制网络的高光谱图像重建方法
CN110232653A (zh) 快速轻型超分辨率重建密集残差网络
Zhao et al. Invertible image decolorization
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
Wang et al. Deeply supervised face completion with multi-context generative adversarial network
CN114331830B (zh) 一种基于多尺度残差注意力的超分辨率重建方法
CN112288632A (zh) 基于精简esrgan的单图像超分辨率方法及系统
CN112686816A (zh) 一种基于内容注意力机制和掩码先验的图像补全方法
Li et al. HASIC-Net: Hybrid attentional convolutional neural network with structure information consistency for spectral super-resolution of RGB images
CN116385259A (zh) 基于gan网络的图像风格迁移方法
CN113538221A (zh) 三维人脸的处理方法、训练方法、生成方法、装置及设备
CN111414988A (zh) 基于多尺度特征自适应融合网络的遥感影像超分辨率方法
CN114202460A (zh) 面对不同损伤图像的超分辨率高清重建方法和系统及设备
Indradi et al. Face image super-resolution using inception residual network and gan framework
Liu et al. Image Decomposition Sensor Based on Conditional Adversarial Model
CN116703719A (zh) 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法
CN117315735A (zh) 基于先验信息与注意力机制的人脸超分辨率重建方法
CN113076890B (zh) 基于改进的通道注意力机制的人脸表情识别方法及系统
CN116977455A (zh) 基于深度双向学习的人脸素描图像生成系统及方法
CN110853040B (zh) 一种基于超分辨率重建的图像协同分割方法
Roy Applying aging effect on facial image with multi-domain generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination