CN116385259A - 基于gan网络的图像风格迁移方法 - Google Patents
基于gan网络的图像风格迁移方法 Download PDFInfo
- Publication number
- CN116385259A CN116385259A CN202310249419.XA CN202310249419A CN116385259A CN 116385259 A CN116385259 A CN 116385259A CN 202310249419 A CN202310249419 A CN 202310249419A CN 116385259 A CN116385259 A CN 116385259A
- Authority
- CN
- China
- Prior art keywords
- image
- encoder
- self
- style
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013508 migration Methods 0.000 title claims abstract description 48
- 230000005012 migration Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 17
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开基于GAN网络的图像风格迁移方法,具体方法如下:步骤1,获取相关图片数据集,将夏季图像作为数据集X,冬季图像作为数据集Y;步骤2,对分好类的数据集X,Y分别提取内容及风格特征;步骤3,将s2与c1结合生成同一景物的不同场景G1(s2,c1);步骤4,通过生成器G2将提取到的两类图片的内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1);步骤5,生成器G2与判别器D2对抗学习迭代训练,判别器D2指导生成器G2生成图像的质量,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。该方法解决了实现图像真实化风格迁移时无法最大程度保留图像具体细节的问题。
Description
技术领域
本发明属于风格迁移学习技术领域,涉及一种基于GAN网络的图像风格迁移方法。
背景技术
近年来,随着神经网络和深度学习的快速发展,涌现出了许多优秀的人工智能技术,强有力地推进了计算机视觉领域的研究工作,世界已进入信息化社会。图像是描述世界的重要手段,通过图像可以获得大量文字无法表达的信息。随着信息时代的到来,互联网上的图像数据爆发式增长,这促使计算机视觉领域得到快速发展和重大突破。在处理图像时,传统的算法大多是针对特定的问题来设计用于特定应用场景的模型,例如图像压缩、分割、分类等,随着卷积神经网络的发展,出现了越来越多的图像转换问题,此类方法的出现恰好满足了人们的需求,增强了人们的视觉感和图像的美观性,它广泛应用于各个领域,包括图像检测、图像识别、图像修复、AI换脸等。
基于卷积神经网络的技术已经超越了现代人在许多视觉任务上的表现。深度卷积神经网络的学习和表达能力已经得到广泛验证,并在图像处理领域实现了重大突破,其技术也已被扩展到更具挑战性的应用场景。当前,在国内外的图像处理研究中,人们提出了越来越多的创新思路。特别是在图像风格迁移方面,深度学习技术的快速发展推动了该领域的快速发展和进步。近几年,生成对抗网络已经成为学术界中一个炙手可热的研究领域,被广泛应用于计算机视觉领域,它在图像风格迁移问题上也取得了显著的成果。由于GAN拥有更好的生成能力和灵活的设计,因此GAN及其相关模型已被广泛应用于图像风格迁移问题,并在此领域中取得了巨大的成功。预计未来将出现越来越多基于深度学习的算法来实现更多图像风格迁移模型。
发明内容
本发明的目的是提供一种基于GAN网络的图像风格迁移方法,解决了实现图像真实化风格迁移时无法最大程度保留图像具体细节的问题。
本发明所采用的技术方案是,基于GAN网络的图像风格迁移方法,具体方法如下:
步骤1,获取相关图片数据集,将夏季图像作为数据集X,冬季图像作为数据集Y;
步骤2,对分好类的数据集X,Y分别提取内容及风格特征,数据集X采用自编码器中的编码部分提取图像的内容特征c1,采用变分自编码/>中的编码部分提取图像的风格特征s1;同理,数据集Y采用自编码器/>的编码部分提取图像的内容特征c2,采用变分自编码的编码部分提取图像的风格特征s2;
步骤3,通过生成器G1将s1与c2结合生成同一场景的不同景物G1(s1,c2),将s2与c1结合生成同一景物的不同场景G1(s2,c1);
步骤4,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,返回输入至原有自编码器和变分自编码器/>及自编码器/>和变分编码器/>中,再次进行内容特征与风格特征的提取,通过生成器G2将提取到的两类图片的内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1);
步骤5,生成器G2与判别器D2对抗学习迭代训练,判别器D2指导生成器G2生成图像的质量,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。
本发明的特征还在于,
步骤1具体为:
步骤1.1,获取数据集summer2winter;
步骤1.2,随机抽取数据集summer2winter中的图像,将夏季图像作为数据集X,冬季图像作为数据集Y;
步骤2具体为:
步骤2.1,将数据集X中的图像x1输入自编码器将数据集Y中的图像y1输入自编码器/>输入图像x1,y1都是256×256像素的三通道图像;自编码器/>和自编码器/>的编码部分采用残差块,自编码器/>和自编码器/>具体网络结构使用卷积神经网络,卷积神经网络由3个卷积层和2个残差块组成,首先进行下采样操作,第一层使用7×7大小的卷积核,第二层、第三层均使用4×4大小的卷积核,接着使用两个残差块,残差块中有两个卷积层,卷积核的大小为3×3,在进行完第一个卷积操作后,进行ReLU激活处理。
步骤2.2,自编码器和/>中输入层到编码层的网络部分称为编码部分,自编码器/>和/>中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,自编码器和自编码器/>捕获输入图像x1和图像y1中的局部结构信息,从而提取图像x1和图像y1的内容特征c1和内容特征c2;
步骤2.3,将数据集X中的图像x1输入变分自编码器将数据集y1中的图像y1输入变分自编码器/>输入图片x1,y1都是256×256像素的三通道图像,变分自编码器增加了风格特征的随机性,具体网络结构由3个卷积层、2个池化层和1个全连接层组成,首先进行下采样操作,第二层使用7×7大小的卷积核,第三层,第四层均使用4×4大小的卷积核,然后进行ReLU激活函数处理,然后接最大池化操作,经过一个残差块,在进行池化操作,最后一层使用1×1大小的卷积核实现全连接的作用,无激活函数;
步骤2.4,变分自编码器和变分自编码器/>中输入层到编码层的网络部分称为编码部分,/>和/>中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,变分自编码器/>和变分自编码器/>进行随机采样,从而提取图像x1和图像y1的风格特征s1和风格特征s2。
步骤3具体为:
步骤3.2,将变分自编码器提取的风格特征s1和自编码器/>提取的内容特征c2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s1,c2),生成器G1和G2的网络结构相同,生成器G1和G2使用卷积神经网络,输入为图像的风格特征和内容特征,输出为风格迁移后的图像,输入风格编码和内容编码首先经过3个残差块,其中残差块中均使用3×3大小的卷积核,然后进行归一化,接着使用最近邻插值上采样法把图像的大小放大一倍,再进行卷积操作,接着进再进行上采样操作,然后接两个卷积层,使用7×7大小的卷积核,每个卷积层后都接一种非线性激活函数,最后输出风格迁移后的图像;
步骤4具体为:
步骤4.1,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,整体网络的总损失函数由生成对抗网络的对抗损失、图像重建损失和循环一致性损失组成,调整后再次返回输入至生成器G2中,总损失函数计算公式如下所示:
其中λgan、λx、λcyc入作为超参数分别调节对抗损失、图像重建损失、以及循环一致性损失在总损失函数中的比重;
步骤4.2,经自编码器和自编码器/>变分自编码器/>和变分自编码器/>的编码部分对图像G1(s1,c2)和G1(s2,c1)再次进行内容特征与风格特征的提取,将提取到的内容特征和风格特征分别与之前的内容特征c1和风格特征s1进行比较,输出为0~1之间的概率值,表示输入图像接近真实图像的概率;
步骤4.3,自编码器和自编码器/>变分自编码器/>和变分自编码器/>编码层到输出层的网络部分称为解码器,通过自编码器/>和自编码器/>变分自编码器/>和变分自编码器/>的解码部分,将步骤4.2提取到的内容特征和风格特征重构,返回生成器G2,生成器G2将图像x1,y1内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1)。
步骤4.1中,计算生成对抗网络的对抗损失的具体操作如下:
首先采用对抗性损失,生成器G1和G2与判别器D1和D2互相博弈,对抗损失计算公式如下:
E1 c和E2 c表示自编码器,E1 s和E2 s表示变分自编码器,G1和G2表示生成器,D1和D2表示判别网络,G1(s1,c2)表示输入图像x1的内容编码和图像y1的风格编码之后输出的风格迁移图像,D(y1)代表判别网络对真实图像的判别结果,对于判别器来说,当输入是真实图像y1编码信息时,最大化logD2(y1),让判别器输出趋近于1的结果;当输入是生成图像G2(s2,c1)时,最小化G2(s2,c1)的值,让判别器输出趋近于0的结果,由此区分生成图像和真实图像;
步骤4.1中,计算图像重建损失的操作如下:
将编码器提取的内容特征和风格特征再次输入到生成网络中,由此来重建原来的输入图像;图像的重建损失如下:
将图像中数据集X经过的自编码器记为E1 c,提取的内容特征记为c1,经过的变分自编码器记为E1 s,生成的风格特征记为s1;将图像中数据集Y经过的自编码器记为E2 c,生成的内容特征记为c2,经过的变分自编码器记为E2 s,生成的风格特征记为s2,代表图像的风格信息,/>代表图像的内容信息;
步骤4.1中,计算循环一致性损失的具体操作如下:
整体框架采用CycleGAN网络结构,循环一致性损失的计算公式如下式所示:
将图像x1输入生成器G1先进行风格迁移,将风格迁移后的图像G1(x1)再输入另一个生成器G2生成原来的图像G2(G1(x1)),使用损失函数将其进行比较。同样图像y1执行相同的操作,由此来计算网络的循环一致性损失。
步骤5具体为:
步骤5.1,生成器G2与判别器D2对抗学习迭代训练,生成器G2的目的是保证风格迁移后图像内容不发生改变,把风格迁移后的图像重构回原来的图像;
步骤5.2,将重构之后的图像和真实图像分别输入判别器D2,判别器D2指导生成器G2生成图像的质量,判别器D2使用多尺度判别器,判别器D2包含3个具有相同网络结构但在不同图像尺度下工作的判别器,将真实图像和生成的高分辨率图像下采样2倍和4倍,以创建3个尺度的图像金字塔,然后训练判别器D2以分别在3个不同的尺度上区分真实图像和生成图像,将不同大小图像块的判别结果作为最终的输出;判别器D2的网络结构由4个卷积层和1个全连接层组成,第一层到第四层均使用4×4大小的卷积核,五层使用1×1大小的卷积核,卷积层后均接一种非线性激活函数;
步骤5.3,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。
本发明的有益效果是:
1.本发明方法使用CycleGAN作为整体框架引入自编码器和变分自编码器,细化了网络结构,可以使提取到的图像特征更精准。
2.本发明方法将生成后伪图像经过对抗损失、重构损失、循环一致性损失损失调整以后,返回生成网络再次提取特征,循环迭代,使判别网络能更好的指导生成网络,提高图像的质量。
附图说明
图1是本发明基于GAN网络的图像风格迁移方法的流程图;
图2是自编码器网络结构图;
图3是变分自编码器网络结构图;
图4是本发明的生成器网络结构图;
图5为本发明的判别器结构图;
图6为本发明原图与风格迁移后的图像的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供一种基于GAN网络的图像风格迁移方法,如图1所示,具体步骤包括:
步骤1,获取相关图片数据集;
步骤1具体为:
步骤1.1,获取数据集summer2winter,其中包含1273张夏季图像和854张冬季的约塞米蒂国家公园图像,该数据集已经广泛应用于图像生成及风格迁移之中;
步骤1.2,随机抽取数据集summer2winter中的图像,其中夏季图像抽取800张,与之对应冬季图像抽取800张,将夏季图像作为数据集X,冬季图像作为数据集Y;
步骤2,对分好类的数据集X,Y分别提取内容及风格特征,数据集X采用自编码器中的编码部分提取图像的内容特征c1,采用变分自编码/>中的编码部分提取图像的风格特征s1;同理,数据集Y采用自编码器/>的编码部分提取图像的内容特征c2,采用变分自编码的编码部分提取图像的风格特征s2;
步骤2具体为:
步骤2.1,将数据集X中的图像x1输入自编码器将数据集Y中的图像y1输入自编码器/>输入图像x1,y1都是256×256像素的三通道图像;自编码器/>和自编码器/>的编码部分采用残差块,能更好的保存提取到的特征。自编码器/>和自编码器/>结构如图2所示,自编码器/>和自编码器/>具体网络结构使用卷积神经网络,卷积神经网络由3个卷积层和2个残差块组成,首先进行下采样操作,第一层使用7×7大小的卷积核,第二层、第三层均使用4×4大小的卷积核,接着使用两个残差块,残差块中有两个卷积层,卷积核的大小为3×3,在进行完第一个卷积操作后,进行ReLU激活处理。
步骤2.2,自编码器和/>中输入层到编码层的网络部分称为编码部分,自编码器/>和/>中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,自编码器/>和自编码器/>捕获输入图像x1和图像y1中的局部结构信息,从而提取图像x1和图像y1的内容特征c1和内容特征c2;
步骤2.3,将数据集X中的图像x1输入变分自编码器将数据集y1中的图像y1输入变分自编码器/>输入图片x1,y1都是256×256像素的三通道图像,变分自编码器/>与变分自编码器/>结构相同;变分自编码器增加了风格特征的随机性,变分自编码器/>与变分自编码器/>的网络结构图如图3所示,由3个卷积层、2个池化层和1个全连接层组成,首先进行下采样操作,第二层使用7×7大小的卷积核,第三层,第四层均使用4×4大小的卷积核,然后进行ReLU激活函数处理,然后接最大池化操作,经过一个残差块,在进行池化操作,最后一层使用1×1大小的卷积核实现全连接的作用,无激活函数。
步骤2.4,变分自编码器和变分自编码器/>中输入层到编码层的网络部分称为编码部分,/>和/>中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,变分自编码器/>和变分自编码器/>进行随机采样,从而提取图像x1和图像y1的风格特征s1和风格特征s2;
步骤3,通过生成器G1将步骤2提取到的图像x1和图像y1的内容特征与风格特征相互结合,即将s1与c2结合生成同一场景的不同景物G1(s1,c2),将s2与c1结合生成同一景物的不同场景G1(s2,c1);
步骤3具体为:
步骤3.2,将变分自编码器提取的风格特征s1和自编码器/>提取的内容特征c2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s1,c2),生成器G1和G2的网络结构相同,但目的不同,生成器G1的目的是接收图像的内容和风格特征之后,经过中间隐藏层的计算,输出最终风格迁移后的图像,生成器G2的目的是将风格迁移后的图像重构回原来的图像,生成器G1和G2网络结构如图4所示,生成器G1和G2使用卷积神经网络,输入为图像的风格特征和内容特征,输出为风格迁移后的图像,输入风格编码和内容编码首先经过3个残差块,其中残差块中均使用3×3大小的卷积核,然后进行归一化,接着使用最近邻插值上采样法把图像的大小放大一倍,再进行卷积操作,接着进再进行上采样操作,然后接两个卷积层,使用7×7大小的卷积核,每个卷积层后都接一种非线性激活函数,最后输出风格迁移后的图像。
步骤4,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,返回输入至原有自编码器和变分自编码器/>及自编码器/>和变分编码器/>中,再次进行内容特征与风格特征的提取,通过生成器G2将提取到的两类图片的内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1);
步骤4具体为:
步骤4.1,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,整体网络的总损失函数由生成对抗网络的对抗损失、图像重建损失和循环一致性损失组成,调整后再次返回输入至生成器G2中,总损失函数计算公式如下所示:
其中λgan、λx、λcyc入作为超参数分别调节对抗损失、图像重建损失、以及循环一致性损失在总损失函数中的比重。
步骤4.1中,计算生成对抗网络的对抗损失的具体操作如下:
为了使生成器G1和G2生成的风格迁移图像接近真实目标风格图像,首先采用对抗性损失,生成器G1和G2与判别器D1和D2互相博弈,对抗损失计算公式如下:
E1 c和E2 c表示自编码器,E1 s和E2 s表示变分自编码器,G1和G2表示生成器,D1和D2表示判别网络,G1(s1,c2)表示输入图像x1的内容编码和图像y1的风格编码之后输出的风格迁移图像,生成器的目标是最小化对抗损失,使生成器G1和G2在博弈中使判别器D1和D2无法区分生成图像和真实目标图像,判别器的对抗损失由判别生成图像和判别真实图像两部分组成,D(y1)代表判别网络对真实图像的判别结果,对于判别器来说,当输入是真实图像y1编码信息时,最大化logD2(y1),让判别器输出趋近于1的结果;当输入是生成图像G2(s2,c1)时,最小化G2(s2,c1)的值,让判别器输出趋近于0的结果,由此区分生成图像和真实图像。
步骤4.1中,计算图像重建损失的操作如下:
为了提高生成器的生成能力,将编码器提取的内容特征和风格特征再次输入到生成网络中,由此来重建原来的输入图像。图像的重建损失如下:
将图像中数据集X经过的自编码器记为E1 c,提取的内容特征记为c1,经过的变分自编码器记为E1 s,生成的风格特征记为s1;将图像中数据集Y经过的自编码器记为E2 c,生成的内容特征记为c2,经过的变分自编码器记为E2 s,生成的风格特征记为s2,代表图像的风格信息,/>代表图像的内容信息。
步骤4.1中,计算循环一致性损失的具体操作如下:
本文整体框架采用CycleGAN网络结构,本文循环一致性损失的计算公式如下式所示:
将图像x1输入生成器G1先进行风格迁移,将风格迁移后的图像G1(x1)再输入另一个生成器G2生成原来的图像G2(G1(x1)),使用损失函数将其进行比较。同样图像y1执行相同的操作,由此来计算网络的循环一致性损失。
步骤4.2,经自编码器和自编码器/>变分自编码器/>和变分自编码器/>的编码部分对图像G1(s1,c2)和G1(s2,c1)再次进行内容特征与风格特征的提取,将提取到的内容特征和风格特征分别与之前的内容特征c1和风格特征s1进行比较,输出为0~1之间的概率值,表示输入图像接近真实图像的概率;
步骤4.3,自编码器和自编码器/>变分自编码器/>和变分自编码器/>编码层到输出层的网络部分称为解码器,通过自编码器/>和自编码器/>变分自编码器/>和变分自编码器/>的解码部分,将步骤4.2提取到的内容特征和风格特征重构,返回生成器G2,生成器G2将图像x1,y1内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1)。
步骤5,生成器G2与判别器D2对抗学习迭代训练,判别器D2指导生成器G2生成图像的质量,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练;
步骤5具体的为:
步骤5.1,生成器G2与判别器D2对抗学习迭代训练,生成器G2的目的是保证风格迁移后图像内容不发生改变,把风格迁移后的图像重构回原来的图像;
步骤5.2,将重构之后的图像和真实图像分别输入判别器D2,判别器D2指导生成器G2生成图像的质量,判别器D2使用多尺度判别器,判别器D2包含3个具有相同网络结构但在不同图像尺度下工作的判别器,将真实图像和生成的高分辨率图像下采样2倍和4倍,以创建3个尺度的图像金字塔,然后训练判别器D2以分别在3个不同的尺度上区分真实图像和生成图像,将不同大小图像块的判别结果作为最终的输出,从而提高判别器的判别能力判别器D2的网络结构如图5所示,由4个卷积层和1个全连接层组成,第一层到第四层均使用4×4大小的卷积核,五层使用1×1大小的卷积核,卷积层后均接一种非线性激活函数;
步骤5.3,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练,图6第一列为输入的原图像,第二列为使用本发明方法风格迁移后生成的图像,可以看出该方法可以做到更好的还原图片具体细节信息及清晰度。
Claims (7)
1.基于GAN网络的图像风格迁移方法,其特征在于,具体方法如下:
步骤1,获取相关图片数据集,将夏季图像作为数据集X,冬季图像作为数据集Y;
步骤2,对分好类的数据集X,Y分别提取内容及风格特征,数据集X采用自编码器中的编码部分提取图像的内容特征c1,采用变分自编码/>中的编码部分提取图像的风格特征s1;同理,数据集Y采用自编码器/>的编码部分提取图像的内容特征c2,采用变分自编码/>的编码部分提取图像的风格特征s2;
步骤3,通过生成器G1将s1与c2结合生成同一场景的不同景物G1(s1,c2),将s2与c1结合生成同一景物的不同场景G1(s2,c1);
步骤4,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,返回输入至原有自编码器和变分自编码器/>及自编码器/>和变分编码器/>中,再次进行内容特征与风格特征的提取,通过生成器G2将提取到的两类图片的内容特征与风格特征相互结合,生成G2(s1,c2)和G2(s2,c1);
步骤5,生成器G2与判别器D2对抗学习迭代训练,判别器D2指导生成器G2生成图像的质量,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。
2.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤1具体为:
步骤1.1,获取数据集summer2winter;
步骤1.2,随机抽取数据集summer2winter中的图像,将夏季图像作为数据集X,冬季图像作为数据集Y。
3.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤2具体为:
步骤2.1,将数据集X中的图像x1输入自编码器将数据集Y中的图像y1输入自编码器输入图像x1,y1都是256×256像素的三通道图像;自编码器/>和自编码器/>的编码部分采用残差块,自编码器/>和自编码器/>具体网络结构使用卷积神经网络,卷积神经网络由3个卷积层和2个残差块组成,首先进行下采样操作,第一层使用7×7大小的卷积核,第二层、第三层均使用4×4大小的卷积核,接着使用两个残差块,残差块中有两个卷积层,卷积核的大小为3×3,在进行完第一个卷积操作后,进行ReLU激活处理;
步骤2.2,自编码器和/>中输入层到编码层的网络部分称为编码部分,自编码器/>和/>中的编码部分将输入图像x1和输入图像y1分别压缩为一个潜在向量,自编码器/>和自编码器/>捕获输入图像x1和图像y1中的局部结构信息,从而提取图像x1和图像y1的内容特征c1和内容特征c2;
步骤2.3,将数据集X中的图像x1输入变分自编码器将数据集y1中的图像y1输入变分自编码器/>输入图片x1,y1都是256×256像素的三通道图像,变分自编码器增加了风格特征的随机性,具体网络结构由3个卷积层、2个池化层和1个全连接层组成,首先进行下采样操作,第二层使用7×7大小的卷积核,第三层,第四层均使用4×4大小的卷积核,然后进行ReLU激活函数处理,然后接最大池化操作,经过一个残差块,在进行池化操作,最后一层使用1×1大小的卷积核实现全连接的作用,无激活函数;
4.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤3具体为:
步骤3.2,将变分自编码器提取的风格特征s1和自编码器/>提取的内容特征c2输入生成器G1,生成器G1生成风格迁移之后的图像G1(s1,c2),生成器G1和G2的网络结构相同,生成器G1和G2使用卷积神经网络,输入为图像的风格特征和内容特征,输出为风格迁移后的图像,输入风格编码和内容编码首先经过3个残差块,其中残差块中均使用3×3大小的卷积核,然后进行归一化,接着使用最近邻插值上采样法把图像的大小放大一倍,再进行卷积操作,接着进再进行上采样操作,然后接两个卷积层,使用7×7大小的卷积核,每个卷积层后都接一种非线性激活函数,最后输出风格迁移后的图像;
5.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤4具体为:
步骤4.1,将生成的两种伪图像G1(s1,c2)和G1(s2,c1)经损失函数调整,整体网络的总损失函数由生成对抗网络的对抗损失、图像重建损失和循环一致性损失组成,调整后再次返回输入至生成器G2中,总损失函数计算公式如下所示:
其中λgan、λx、λcyc入作为超参数分别调节对抗损失、图像重建损失、以及循环一致性损失在总损失函数中的比重;
步骤4.2,经自编码器和自编码器/>变分自编码器/>和变分自编码器/>的编码部分对图像G1(s1,c2)和G1(s2,c1)再次进行内容特征与风格特征的提取,将提取到的内容特征和风格特征分别与之前的内容特征c1和风格特征s1进行比较,输出为0~1之间的概率值,表示输入图像接近真实图像的概率;
6.根据权利要求5所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤4.1中,计算生成对抗网络的对抗损失的具体操作如下:
首先采用对抗性损失,生成器G1和G2与判别器D1和D2互相博弈,对抗损失计算公式如下:
E1 c和E2 c表示自编码器,E1 s和E2 s表示变分自编码器,G1和G2表示生成器,D1和D2表示判别网络,G1(s1,c2)表示输入图像x1的内容编码和图像y1的风格编码之后输出的风格迁移图像,D(y1)代表判别网络对真实图像的判别结果,对于判别器来说,当输入是真实图像y1编码信息时,最大化logD2(y1),让判别器输出趋近于1的结果;当输入是生成图像G2(s2,c1)时,最小化G2(s2,c1)的值,让判别器输出趋近于0的结果,由此区分生成图像和真实图像;
步骤4.1中,计算图像重建损失的操作如下:
将编码器提取的内容特征和风格特征再次输入到生成网络中,由此来重建原来的输入图像;图像的重建损失如下:
将图像中数据集X经过的自编码器记为E1 c,提取的内容特征记为c1,经过的变分自编码器记为E1 s,生成的风格特征记为s1;将图像中数据集Y经过的自编码器记为E2 c,生成的内容特征记为c2,经过的变分自编码器记为E2 s,生成的风格特征记为s2,代表图像的风格信息,/>代表图像的内容信息;
步骤4.1中,计算循环一致性损失的具体操作如下:
整体框架采用CycleGAN网络结构,循环一致性损失的计算公式如下式所示:
将图像x1输入生成器G1先进行风格迁移,将风格迁移后的图像G1(x1)再输入另一个生成器G2生成原来的图像G2(G1(x1)),使用损失函数将其进行比较;同样图像y1执行相同的操作,由此来计算网络的循环一致性损失。
7.根据权利要求1所述的基于GAN网络的图像风格迁移方法,其特征在于,步骤5具体为:
步骤5.1,生成器G2与判别器D2对抗学习迭代训练,生成器G2的目的是保证风格迁移后图像内容不发生改变,把风格迁移后的图像重构回原来的图像;
步骤5.2,将重构之后的图像和真实图像分别输入判别器D2,判别器D2指导生成器G2生成图像的质量,判别器D2使用多尺度判别器,判别器D2包含3个具有相同网络结构但在不同图像尺度下工作的判别器,将真实图像和生成的高分辨率图像下采样2倍和4倍,以创建3个尺度的图像金字塔,然后训练判别器D2以分别在3个不同的尺度上区分真实图像和生成图像,将不同大小图像块的判别结果作为最终的输出;
其中,判别器D2的网络结构由4个卷积层和1个全连接层组成,第一层到第四层均使用4×4大小的卷积核,五层使用1×1大小的卷积核,卷积层后均接一种非线性激活函数;
步骤5.3,当损失函数趋于稳定时认为生成图像的质量与原图像一致,结束训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310249419.XA CN116385259A (zh) | 2023-03-15 | 2023-03-15 | 基于gan网络的图像风格迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310249419.XA CN116385259A (zh) | 2023-03-15 | 2023-03-15 | 基于gan网络的图像风格迁移方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385259A true CN116385259A (zh) | 2023-07-04 |
Family
ID=86964824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310249419.XA Pending CN116385259A (zh) | 2023-03-15 | 2023-03-15 | 基于gan网络的图像风格迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385259A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014865A (zh) * | 2024-04-10 | 2024-05-10 | 青岛童幻动漫有限公司 | 一种用于动漫制作的图像融合方法 |
-
2023
- 2023-03-15 CN CN202310249419.XA patent/CN116385259A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014865A (zh) * | 2024-04-10 | 2024-05-10 | 青岛童幻动漫有限公司 | 一种用于动漫制作的图像融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348330B (zh) | 基于vae-acgan的人脸姿态虚拟视图生成方法 | |
CN108537754B (zh) | 基于形变引导图的人脸图像复原系统 | |
CN110570353A (zh) | 密集连接生成对抗网络单幅图像超分辨率重建方法 | |
Wang et al. | Laplacian pyramid adversarial network for face completion | |
CN112819910B (zh) | 基于双鬼注意力机制网络的高光谱图像重建方法 | |
CN110232653A (zh) | 快速轻型超分辨率重建密集残差网络 | |
Zhao et al. | Invertible image decolorization | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
Wang et al. | Deeply supervised face completion with multi-context generative adversarial network | |
CN114331830B (zh) | 一种基于多尺度残差注意力的超分辨率重建方法 | |
CN112288632A (zh) | 基于精简esrgan的单图像超分辨率方法及系统 | |
CN112686816A (zh) | 一种基于内容注意力机制和掩码先验的图像补全方法 | |
Li et al. | HASIC-Net: Hybrid attentional convolutional neural network with structure information consistency for spectral super-resolution of RGB images | |
CN116385259A (zh) | 基于gan网络的图像风格迁移方法 | |
CN113538221A (zh) | 三维人脸的处理方法、训练方法、生成方法、装置及设备 | |
CN111414988A (zh) | 基于多尺度特征自适应融合网络的遥感影像超分辨率方法 | |
CN114202460A (zh) | 面对不同损伤图像的超分辨率高清重建方法和系统及设备 | |
Indradi et al. | Face image super-resolution using inception residual network and gan framework | |
Liu et al. | Image Decomposition Sensor Based on Conditional Adversarial Model | |
CN116703719A (zh) | 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法 | |
CN117315735A (zh) | 基于先验信息与注意力机制的人脸超分辨率重建方法 | |
CN113076890B (zh) | 基于改进的通道注意力机制的人脸表情识别方法及系统 | |
CN116977455A (zh) | 基于深度双向学习的人脸素描图像生成系统及方法 | |
CN110853040B (zh) | 一种基于超分辨率重建的图像协同分割方法 | |
Roy | Applying aging effect on facial image with multi-domain generative adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |