CN116310712A - 一种基于循环生成对抗网络的图像水墨风格迁移方法及系统 - Google Patents
一种基于循环生成对抗网络的图像水墨风格迁移方法及系统 Download PDFInfo
- Publication number
- CN116310712A CN116310712A CN202310097882.7A CN202310097882A CN116310712A CN 116310712 A CN116310712 A CN 116310712A CN 202310097882 A CN202310097882 A CN 202310097882A CN 116310712 A CN116310712 A CN 116310712A
- Authority
- CN
- China
- Prior art keywords
- image
- ink
- generator
- countermeasure network
- style migration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013508 migration Methods 0.000 title claims abstract description 47
- 230000005012 migration Effects 0.000 title claims abstract description 47
- 125000004122 cyclic group Chemical group 0.000 title claims description 12
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000010606 normalization Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000003044 adaptive effect Effects 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000008485 antagonism Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 2
- 239000000976 ink Substances 0.000 description 35
- 238000010422 painting Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010428 oil painting Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于循环生成对抗网络的图像水墨风格迁移方法及系统,包括:获取包含水墨风格图像、现实拍照图像的数据集;利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练,得到训练好的图像水墨风格迁移模型;其中所述基于循环生成对抗网络的图像水墨风格迁移模型包括两个生成器和两个判别器;将待迁移的现实图像输入到训练好的图像水墨风格迁移模型中,得到相对应的水墨风格迁移图像。对循环生成对抗网络中的两个生成网络进行了改进,在两个生成器中分别加入自适应归一化结构和置换注意力机制。本发明能够快速有效可靠的合成真实感更强的水墨风格图像,提高合成图像的真实感和视觉质量,扩大应用范围与应用场景。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于循环生成对抗网络的图像水墨风格迁移方法及系统。
背景技术
图像风格迁移是深度学习领域内一中新兴的技术。由于图像风格概念非常抽象,计算机对图像的处理过程中仅是一些像素点,不能像人类一样对不同风格进行分辨,所以人们期望通过对图像进行风格特征的提取来解决这一问题。
随着深度学习的发展,现已可以使用深度神经网络来学习图像里面的抽象风格特征。相较于油画、动画、西方艺术风格画作仿真技术,水墨画的仿真研究要滞后西方艺术研究很多。
发明内容
生成对抗网络是生成模型的一种神经网络架构,近几年广泛应用于图像生成领域,如生成图像数据集、生成人脸图片、风格迁移等,生成对抗网络是神经网络发展的产物,也是近几年深度学习中较为活跃的领域,它实际上是利用了博弈的思想优化生成器,再在完成训练后复用生成器生成数据。
本发明的目的在于提供一种基于循环生成对抗网络的图像水墨风格迁移方法及系统,使生成的中国风水墨风格图像具有一定的通用性和易用性。
为达到上述目的,本发明所采用的技术方案是:
第一方面,提供了一种基于循环生成对抗网络的图像水墨风格迁移方法,包括:
获取包含水墨风格图像、现实拍照图像的数据集;
利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练,得到训练好的图像水墨风格迁移模型;其中所述基于循环生成对抗网络的图像水墨风格迁移模型包括两个生成器和两个判别器;
将待迁移的现实图像输入到训练好的图像水墨风格迁移模型中,得到相对应的水墨风格迁移图像。
在一些实施例中,利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练,包括:
在第一生成器中加入自适应归一化结构AdaIN,固定第一生成器,根据数据集中的水墨风格图像和第一生成器随机生成的水墨图像训练第一判别器;
固定第一判别器,利用第一生成器-第一判别器串接网络,训练第一生成器,使其生成与输入的水墨风格图像相近的水墨图像;
在第二生成器中加入置换注意力机制SA,固定循环生成对抗网络中的第二生成器,根据数据集中的现实拍照图像和第二生成器随机生成的现实图像训练第二判别器;
固定第二判别器,利用第二生成器-第二判别器串接网络,训练第二生成器,使其生成与输入的现实拍照图像相近的现实图像。
进一步地,在一些实施例中,在第一生成器中,对所有的输入数据用自适应归一化结构AdaIN进行归一化处理,归一化处理过程包括:
其中,x和y分别表示两种输入的图像风格,μ(x)表示原始风格图的均值,σ(x)表示原始风格图的方差,μ(y)表示水墨风格图的均值,σ(y)表示水墨风格图的方差,AdaIN(x,y)表示归一化处理后的输出结果。
进一步地,在一些实施例中,在第二生成器中,编码器与解码器之间使用置换注意力机制SA,置换注意力机制的处理过程包括:
特征分组模块Feature Grouping用于对输入特征进行分组;设输入特征为X∈RC ×H×W,将输入特征X沿着通道维度拆分为g组:X=[X1,......,XG],RC/G×H×W;对于每组特征,通过空域注意力与通道注意力模块生成不同的重要性系数;分组后的每个子特征Xk将被沿着通道维度拆分成两个分支:XK1,XK2∈RC/2G×H×W,一个分支用于学习通道注意力特征,一个分支用于学习空域注意力特征;
其中,X表示输入的特征图,C表示特征图通道数,H表示特征图的高,W表示特征图的宽,G表示拆分的通道数,XK表示分组后的每个子特征;
通道注意力模块Channel Attention采用全局平均池化GAP+权重Scale+激活函数Sigmoid的组合,过程包括:
X′k1=σ(FC(s))·Xk1=σ(W1s+b1)·Xk1
其中,s和Fgp(xk1)是全局平均池化操作后的输出,X'k1是通道注意力模块输出的通道注意力特征;W1∈RC/2G×1×1和b1∈RC/2G×1×1是用于缩放和平移的参数,σ表示sigmoid函数,FC(·)指池化操作后的通道c的输出;
空域注意力模块Spatial Attention是通道注意力的一个互补,过程包括:
X'k2=σ(W2·GN(Xk2)+b2)·Xk2
其中,X'k2是空域注意力模块输出的空域注意力特征;W2和b2是带有形状的参数RC /2G×1×1,采用组归一化Group Norm对Xk2进行处理得到空域层面的统计信息,然后采用FC(·)进行增强;
集成模块Aggregation用于对通道注意力特征X′k1和空域注意力特征X′k2进行集成:首先通过Concat进行融合,得到:X'k=[X'k1,X'k2]∈RC/2G×H×W;最后,采用通道置换操作进行组间通信;SA的最终输出具有与输入相同的尺寸,使SA嵌入到循环生成对抗网络的第二生成器中。
第二方面,本发明提供了一种基于循环生成对抗网络的图像水墨风格迁移系统,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明中根据水墨图像留白、笔触、水墨渲染的三大特点,训练数据集,改进循环对抗生成网络的两个生成器,使网络模型在迭代训练的过程中,生成更逼真的水墨画图片;本发明构建的生成网络比传统网络更适用于中国风水墨画图像的生成,填补了水墨画生成图像的空缺,具有一定的实用意义。
本发明的方法或系统,能够快速有效可靠的合成真实感更强的中国风水墨图像,提高生成图像的真实感和视觉质量,扩大应用范围与应用场景。
附图说明
图1为本发明实施例的一种基于循环生成对抗网络的图像水墨风格迁移方法流程图;
图2为本发明实施例的一种基于循环生成对抗网络的图像水墨风格迁移方法的网络流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
如图1所示,一种基于循环生成对抗网络的图像水墨风格迁移方法,包括:
获取包含水墨风格图像、现实拍照图像的数据集;
利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练,得到训练好的图像水墨风格迁移模型;其中所述基于循环生成对抗网络的图像水墨风格迁移模型包括两个生成器和两个判别器,如图2所示;
将待迁移的现实图像输入到训练好的图像水墨风格迁移模型中,得到相对应的水墨风格迁移图像。
在一些实施例中,利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练,包括:
在第一生成器中加入自适应归一化结构AdaIN,固定第一生成器,根据数据集中的水墨风格图像和第一生成器随机生成的水墨图像训练第一判别器;
固定第一判别器,利用第一生成器-第一判别器串接网络,训练第一生成器,使其生成与输入的水墨风格图像相近的水墨图像;
在第二生成器中加入置换注意力机制SA,固定循环生成对抗网络中的第二生成器,根据数据集中的现实拍照图像和第二生成器随机生成的现实图像训练第二判别器;
固定第二判别器,利用第二生成器-第二判别器串接网络,训练第二生成器,使其生成与输入的现实拍照图像相近的现实图像。
在一些实施例中,获取包含水墨风格图像、现实拍照图像的数据集,还包括:对数据集内的图片数据并进行预处理操作。
进一步地,预处理操作包括调整图片大小、随机剪裁,随机水平反转、归一化。
调整图片的大小,计算过程包括:
resize=transforms.Resize(H,W) (1)
img2=resize(img) (2)
其中,transform.Resize表示调整图片大小的函数,暂存在resize中,H和W分别代表调整后的图像的宽和高,img输入图像,img2是调整大小后的输出图像。
对输入图像进行随机剪裁,过程包括:
img2=Crop(size,padding,pad_if_needed,fill,mode)(img) (3)
其中,Crop随机剪裁函数transforms.RandomCrop,size表示期望随机裁剪之后输出的尺寸,padding表示填充边界的值,pad_if_needed表示bool值,避免数组越界,fill表示填充,mode表示填充模式,img表示原始的输入图片,img2表示最终的输出图片。
对输入图片进行随机水平翻转,过程包括:
img2=Flip(P)(img) (4)
其中,img表示原始输入图像,img2表示翻转后的输出图像,Filp表示随机水平翻转函数transforms.RandomHorizontalFlip,P表示图片执行水平翻转的概率。
在第一生成器中,对所有的输入数据用自适应归一化结构AdaIN进行归一化处理,过程包括:
其中,x和y分别表示两种输入的图像风格,μ(x)表示原始风格图的均值,σ(x)表示原始风格图的方差,μ(y)表示水墨风格图的均值,σ(y)表示水墨风格图的方差,AdaIN(x,y)表示归一化处理后的输出结果。
在第二生成器中,在编码器与解码器之间加入注意力机制SA,过程包括:
Feature Grouping:主要用于对输入特征进行分组。若输入特征为X∈RC×H×W,该步骤会将输入X沿着通道维度拆分为g组:X=[X1,......,XG],RC/G×H×W。对于每组特征,通过Spatial与Channel注意力模块生成不同的重要性系数。具体来说,特征Xk将被沿着通道维度拆分成两个分支:XK1,XK2∈RC/2G×H×W,一个分支用于学习通道注意力特征,一个分支用于学习空域注意力特征。
其中,X表示输入的特征图,C表示特征图通道数,H表示特征图的高,W表示特征图的宽,G表示拆分的通道数,XK表示每个子特征。
Channel Attention:在通道注意力实现方面,为尽可能的轻量化,采用GAP+Scale+Sigmoid的组合,过程包括:
X'k1=σ(FC(s))·Xk1=σ(W1s+b1)·Xk1 (7)
其中,W1∈RC/2G×1×1和b1∈RC/2G×1×1是用于缩放和平移的参数,σ表示sigmoid函数。
Spatial Attention:空域注意力,是通道注意力的一个互补,过程包括:
X'k2=σ(W2·GN(Xk2)+b2)·Xk2 (8)
其中,W2和b2是带有形状的参数RC/2G×1×1,在实现方面,采用Group Norm(GN)对Xk2进行处理得到空域层面的统计信息,然后采用FC(·)进行增强。
Aggregation:在完成前面两种注意力计算后,对其进行集成,首先通过Concat进行融合,得到:X'k=[X'k1,X'k2]∈RC/2G×H×W。最后,类似ShuffleNetV2,采用通道置换操作进行组间通信。SA的最终输出具有与输入相同的尺寸,使SA可以嵌入到循环生成对抗网络的第二生成器中。
在所有的生成器中使用ReLu激活函数,过程包括:
其中,f(x)表示ReLu激活函数,x表示来自上一层神经网络的输入向量。
在所有的判别器中使用LeakyReLu激活函数,过程包括:
其中,α表示一个极小的常数。
使用对抗损失和循环一致性损失得到总损失函数,过程包括:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,X,Y)+λLcycle(G,F) (11)
其中,L表示总损失函数,LGAN表示对抗损失,Lcycle表示循环一致性损失,G表示第一生成器,F表示第二生成器,DX表示第一判别器,DY表示第二判别器,X表示输入的水墨风格图像,Y表示输入的现实风格图像,Lcycle(G,F)为循环一致性损失,λ为循环一致性损失和对抗损失的权重比。
对抗损失LGAN(G,DY,X,Y)和LGAN(F,DX,X,Y),过程包括:
其中,LGAN(G,DY,X,Y)表示第一生成器和第一判别器之间的对抗损失,表示在Y空间中取的样本,/>表示从X空间中取的样本。y表示Y空间中取得的样本,x表示从X空间中取得的样本,G(x)表示第一生成器生成的图片,DY(y)表示使用第一判别器判断y为Y空间中取得的样本的概率,DY(G(x))表示使用第一判别器判断G(x)为Y空间中取得的样本的概率。
其中,LGAN(F,DX,X,Y)表示第二生成器和第二判别器之间的对抗损失,F(y)表示第二生成器生成的图片,DX(x)表示使用第二判别器判断x为X空间中取得的样本的概率,DX(F(x))表示使用第二判别器判断F(x)为X空间中取得的样本的概率。
循环一致性损失Lcycle(G,F),过程包括:
其中,F(G(x))为输入为G(x)时,第二生成器输出的图片数据,G(F(y))表示输入为F(y)时,第一生成器输出的图片数据。
实施例2
第二方面,本实施例提供了一种基于循环生成对抗网络的图像水墨风格迁移系统,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
在一些实施例中,一种基于循环生成对抗网络的图像水墨风格迁移系统,包括:
数据读取模块:在开始网络训练之前,读取数据集内的图片数据并进行预处理操作,包括调整图片大小、随机剪裁、随即水平反转、归一化。
训练模块:根据数据集中的真实图像和生成器随机生成的图像训练判别器,然后生成器-判别器串接网络迭代地训练生成器,计算出在训练过程中输入图片与输出图片之间的对抗损失和原始输入图像与重建图像之间的循环一致性损失。
图片生成模块:将网络训练完成之后,将待迁移为水墨风格图像的原始图像输入改进后的水墨画循环生成对抗网络,得到与原始图像内容相对应、水墨图像风格相对应的输出图像。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于循环生成对抗网络的图像水墨风格迁移方法,其特征在于,包括:
获取包含水墨风格图像、现实拍照图像的数据集;
利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练,得到训练好的图像水墨风格迁移模型;其中所述基于循环生成对抗网络的图像水墨风格迁移模型包括两个生成器和两个判别器;
将待迁移的现实图像输入到训练好的图像水墨风格迁移模型中,得到相对应的水墨风格迁移图像。
2.根据权利要求1所述的基于循环生成对抗网络的图像水墨风格迁移方法及系统,其特征在于,利用所述数据集对基于循环生成对抗网络的图像水墨风格迁移模型进行训练,包括:
在第一生成器中加入自适应归一化结构AdaIN,固定第一生成器,根据数据集中的水墨风格图像和第一生成器随机生成的水墨图像训练第一判别器;
固定第一判别器,利用第一生成器-第一判别器串接网络,训练第一生成器,使其生成与输入的水墨风格图像相近的水墨图像;
在第二生成器中加入置换注意力机制SA,固定循环生成对抗网络中的第二生成器,根据数据集中的现实拍照图像和第二生成器随机生成的现实图像训练第二判别器;
固定第二判别器,利用第二生成器-第二判别器串接网络,训练第二生成器,使其生成与输入的现实拍照图像相近的现实图像。
4.根据权利要求2所述的种基于循环生成对抗网络的图像水墨风格迁移方法,其特征在于,在第二生成器中,编码器与解码器之间使用置换注意力机制SA,置换注意力机制的处理过程包括:
特征分组模块用于对输入特征进行分组;设输入特征为X∈RC×H×W,将输入特征X沿着通道维度拆分为g组:X=[X1,......,XG],RC/G×H×W;对于每组特征,通过空域注意力与通道注意力模块生成不同的重要性系数;分组后的每个子特征Xk将被沿着通道维度拆分成两个分支:XK1,XK2∈RC/2G×H×W,一个分支用于学习通道注意力特征,一个分支用于学习空域注意力特征;
其中,X表示输入的特征图,C表示特征图通道数,H表示特征图的高,W表示特征图的宽,G表示拆分的通道数,XK表示分组后的每个子特征;
通道注意力模块采用全局平均池化GAP+权重Scale+激活函数Sigmoid的组合,过程包括:
X′k1=σ(FC(s))·Xk1=σ(W1s+b1)·Xk1
其中,s和Fgp(xk1)是全局平均池化操作后的输出,X′k1是通道注意力模块输出的通道注意力特征;W1∈RC/2G×1×1和b1∈RC/2G×1×1是用于缩放和平移的参数,σ表示sigmoid函数,FC(·)指池化操作后的通道c的输出;
空域注意力模块是通道注意力的一个互补,过程包括:
X′k2=σ(W2·GN(Xk2)+b2)·Xk2
其中,X′k2是空域注意力模块输出的空域注意力特征;W2和b2是带有形状的参数RC /2G×1×1,采用组归一化对Xk2进行处理得到空域层面的统计信息,然后采用FC(·)进行增强;
集成模块用于对通道注意力特征X′k1和空域注意力特征X′k2进行集成:首先通过Concat进行融合,得到:X′k=[X′k1,X′k2]∈RC/2G×H×W;最后,采用通道置换操作进行组间通信;SA的最终输出具有与输入相同的尺寸,使SA嵌入到循环生成对抗网络的第二生成器中。
5.根据权利要求1所述的基于循环生成对抗网络的图像水墨风格迁移方法及系统,其特征在于,获取包含水墨风格图像、现实拍照图像的数据集,还包括:对数据集内的图片数据并进行预处理操作。
6.根据权利要求5所述的基于循环生成对抗网络的图像水墨风格迁移方法及系统,其特征在于,预处理操作包括调整图片大小、随机剪裁,随机水平反转、归一化。
7.根据权利要求6所述的基于循环生成对抗网络的图像水墨风格迁移方法及系统,其特征在于,调整图片大小包括:
resize=transforms.Resize(H,W)
img2=resize(img)
其中,transform.Resize表示调整图片大小的函数,暂存在resize中,H和W分别代表调整后的图像的宽和高,img输入图像,img2是调整大小后的输出图像;
和/或,随机剪裁包括:
img2=Crop(size,padding,pad_if_needed,fill,mode)(img)
其中,Crop随机剪裁函数transforms.RandomCrop,size表示期望随机裁剪之后输出的尺寸,padding表示填充边界的值,pad_if_needed表示bool值,避免数组越界,fill表示填充,mode表示填充模式,img表示原始的输入图片,img2表示最终的输出图片;
和/或,随机水平翻转包括:
img2=Flip(P)(img)
其中,img表示原始输入图像,img2表示翻转后的输出图像,Filp表示随机水平翻转函数transforms.RandomHorizontalFlip,P表示图片执行水平翻转的概率。
8.根据权利要求1所述的基于循环生成对抗网络;的图像水墨风格迁移方法及系统,其特征在于,所述基于循环生成对抗网络的图像水墨风格迁移模型的训练过程中采用的总损失函数L(G,F,DX,DY)为:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,X,Y)+λLcycle(G,F)
其中,L(G,F,DX,DY)表示总损失函数,LGAN表示对抗损失,Lcycle表示循环一致性损失,G表示第一生成器,F表示第二生成器,DX表示第一判别器,DY表示第二判别器,X表示输入的水墨风格图像,Y表示输入的现实风格图像,Lcycle(G,F)为循环一致性损失,λ为循环一致性损失和对抗损失的权重比;
其中,LGAN(G,DY,X,Y)表示第一生成器和第一判别器之间的对抗损失,表示在Y空间中取的样本,/>表示从X空间中取的样本;y表示Y空间中取得的样本,x表示从X空间中取得的样本,G(x)表示第一生成器生成的图片,DY(y)表示使用第一判别器判断y为Y空间中取得的样本的概率,DY(G(x))表示使用第一判别器判断G(x)为Y空间中取得的样本的概率;
其中,LGAN(F,DX,X,Y)表示第二生成器和第二判别器之间的对抗损失,F(y)表示第二生成器生成的图片,DX(x)表示使用第二判别器判断x为X空间中取得的样本的概率,DX(F(x))表示使用第二判别器判断F(x)为X空间中取得的样本的概率;
循环一致性损失Lcycle(G,F)为:
其中,F(G(x))为输入为G(x)时,第二生成器输出的图片数据,G(F(y))表示输入为F(y)时,第一生成器输出的图片数据。
9.一种基于循环生成对抗网络的图像水墨风格迁移系统,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310097882.7A CN116310712A (zh) | 2023-02-10 | 2023-02-10 | 一种基于循环生成对抗网络的图像水墨风格迁移方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310097882.7A CN116310712A (zh) | 2023-02-10 | 2023-02-10 | 一种基于循环生成对抗网络的图像水墨风格迁移方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310712A true CN116310712A (zh) | 2023-06-23 |
Family
ID=86791475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310097882.7A Pending CN116310712A (zh) | 2023-02-10 | 2023-02-10 | 一种基于循环生成对抗网络的图像水墨风格迁移方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310712A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596753A (zh) * | 2023-07-20 | 2023-08-15 | 哈尔滨工程大学三亚南海创新发展基地 | 一种基于风格迁移网络的声学图像数据集扩充方法和系统 |
CN117576521A (zh) * | 2024-01-16 | 2024-02-20 | 广州市易鸿智能装备股份有限公司 | 一种提高工业图像检测模型准确率的方法 |
CN117635418A (zh) * | 2024-01-25 | 2024-03-01 | 南京信息工程大学 | 生成对抗网络的训练方法、双向图像风格转换方法和装置 |
CN117994122A (zh) * | 2024-01-31 | 2024-05-07 | 哈尔滨工业大学(威海) | 一种基于循环生成对抗网络的图像风格迁移方法 |
-
2023
- 2023-02-10 CN CN202310097882.7A patent/CN116310712A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596753A (zh) * | 2023-07-20 | 2023-08-15 | 哈尔滨工程大学三亚南海创新发展基地 | 一种基于风格迁移网络的声学图像数据集扩充方法和系统 |
CN116596753B (zh) * | 2023-07-20 | 2024-02-02 | 哈尔滨工程大学三亚南海创新发展基地 | 一种基于风格迁移网络的声学图像数据集扩充方法和系统 |
CN117576521A (zh) * | 2024-01-16 | 2024-02-20 | 广州市易鸿智能装备股份有限公司 | 一种提高工业图像检测模型准确率的方法 |
CN117635418A (zh) * | 2024-01-25 | 2024-03-01 | 南京信息工程大学 | 生成对抗网络的训练方法、双向图像风格转换方法和装置 |
CN117635418B (zh) * | 2024-01-25 | 2024-05-14 | 南京信息工程大学 | 生成对抗网络的训练方法、双向图像风格转换方法和装置 |
CN117994122A (zh) * | 2024-01-31 | 2024-05-07 | 哈尔滨工业大学(威海) | 一种基于循环生成对抗网络的图像风格迁移方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Multimodal transfer: A hierarchical deep convolutional neural network for fast artistic style transfer | |
CN116310712A (zh) | 一种基于循环生成对抗网络的图像水墨风格迁移方法及系统 | |
Zhang et al. | Text-guided neural image inpainting | |
CN113838176A (zh) | 模型的训练方法、三维人脸图像生成方法及设备 | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
CN114746904A (zh) | 三维人脸重建 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN114049420B (zh) | 一种模型训练方法、图像渲染方法、装置和电子设备 | |
CN109447897B (zh) | 一种真实场景图像合成方法及系统 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN110533594A (zh) | 模型训练方法、图像重建方法、存储介质及相关设备 | |
CN116310045B (zh) | 一种三维人脸纹理创建方法、装置及设备 | |
CN115239861A (zh) | 人脸数据增强方法、装置、计算机设备和存储介质 | |
CN115908753B (zh) | 一种全身人体网格表面重建方法及相关装置 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
DE102021109050A1 (de) | Durch ein neuronales generative adversarial netzwerk unterstützte videokompression und -übertragung | |
CN118096961B (zh) | 图像处理方法和装置 | |
CN113592982B (zh) | 身份迁移模型构建方法、装置、电子设备及可读存储介质 | |
CN109829857B (zh) | 一种基于生成对抗网络的倾斜图像的矫正方法及装置 | |
CN115393480A (zh) | 基于动态神经纹理的说话人合成方法、装置和存储介质 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 | |
US20240161362A1 (en) | Target-augmented material maps | |
CN116228986A (zh) | 一种基于局部到全局补全策略的室内场景光照估计方法 | |
CN111145096A (zh) | 基于递归极深网络的超分辨图像重构方法及系统 | |
CN116342385A (zh) | 文本图像超分辨率网络的训练方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |