CN113538224B - 基于生成对抗网络的图像风格迁移方法、装置及相关设备 - Google Patents

基于生成对抗网络的图像风格迁移方法、装置及相关设备 Download PDF

Info

Publication number
CN113538224B
CN113538224B CN202111071408.4A CN202111071408A CN113538224B CN 113538224 B CN113538224 B CN 113538224B CN 202111071408 A CN202111071408 A CN 202111071408A CN 113538224 B CN113538224 B CN 113538224B
Authority
CN
China
Prior art keywords
image
generator
training sample
layers
style migration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111071408.4A
Other languages
English (en)
Other versions
CN113538224A (zh
Inventor
刘建征
杨巨成
姚彤
张伟
许能华
闫潇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Anruan Huishi Technology Co ltd
Shenzhen Anruan Technology Co Ltd
Original Assignee
Shenzhen Anruan Huishi Technology Co ltd
Shenzhen Anruan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Anruan Huishi Technology Co ltd, Shenzhen Anruan Technology Co Ltd filed Critical Shenzhen Anruan Huishi Technology Co ltd
Priority to CN202111071408.4A priority Critical patent/CN113538224B/zh
Publication of CN113538224A publication Critical patent/CN113538224A/zh
Application granted granted Critical
Publication of CN113538224B publication Critical patent/CN113538224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明实施例公开了一种基于生成对抗网络的图像风格迁移方法、装置及相关设备,该方法中,通过构建包括生成器和判别器的生成对抗网络模型,并初始化所述生成器的权重参数,所述生成器包括编码器
Figure 100004_DEST_PATH_IMAGE001
和自注意机制模块,所述编码器
Figure 813063DEST_PATH_IMAGE001
包括内容掩码生成器
Figure 100004_DEST_PATH_IMAGE002
和注意力掩码生成器
Figure 100004_DEST_PATH_IMAGE003
;然后获取训练样本图像
Figure 100004_DEST_PATH_IMAGE004
;利用所述训练样本图像
Figure 335312DEST_PATH_IMAGE004
对所述生成对抗网络模型进行训练,直至所述生成器和判别器达到纳什平衡,之后将待风格迁移图像输入至训练好的生成对抗网络模型中,得到风格迁移后图像,通过上述方式,能够实现对图像的风格迁移,生成多样性图像,有助于扩充数据集。

Description

基于生成对抗网络的图像风格迁移方法、装置及相关设备
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于生成对抗网络的图像风格迁移方法、装置及相关设备。
背景技术
随着计算能力的提高和各行业数据量的剧增,人工智能取得了快速发展,学术界普遍认为人工智能分为两个阶段感知阶段和认知阶段。在认知阶段,机器能够对世界的本质有一定的理解,而所谓“理解”无论是对人类还是人工智能都是内在的表现,无法直接测量,只能间接从其他方面推测。生成式对抗网络(Generative Adversarial Networks,GAN)作为典型的生成式模型,其生成器具有生成数据样本的能力,这种能力在一定程度上反映了它对事物的理解。因此,GAN有望加深人工智能的理解层面的研。然而,用于训练GAN模型的数据集的需求越来越庞大,庞大的数据采集制作需要庞大的成本,且操作复杂。
发明内容
本发明实施例提供一种基于生成对抗网络的图像风格迁移方法、装置及相关设备,能够实现对图像的风格迁移,生成多样性图像,有助于扩充数据集,并且成本低下,简单易于实现。
为了解决上述技术问题,本发明一方面提供一种基于生成对抗网络的图像风格迁移方法,包括:
构建包括生成器和判别器的生成对抗网络模型,并初始化所述生成器的权重参 数,所述生成器包括编码器
Figure DEST_PATH_IMAGE001
和自注意机制模块,所述编码器
Figure 428059DEST_PATH_IMAGE001
包括内容掩码生成器
Figure DEST_PATH_IMAGE002
和注意力掩码生成器
Figure DEST_PATH_IMAGE003
获取训练样本图像
Figure DEST_PATH_IMAGE004
利用所述训练样本图像
Figure 977858DEST_PATH_IMAGE004
对所述生成对抗网络模型进行训练,直至所述生成器 和判别器达到纳什平衡,从而得到训练好的生成对抗网络模型;
将待风格迁移图像输入至训练好的生成对抗网络模型中,得到风格迁移后图像;
其中,利用所述训练样本图像
Figure 686051DEST_PATH_IMAGE004
对所述生成对抗网络模型进行训练具体包括以 下步骤:
步骤a:通过所述内容掩码生成器
Figure 781046DEST_PATH_IMAGE002
对所述训练样本图像
Figure 964903DEST_PATH_IMAGE004
进行风格初始迁移, 得到风格化初始图像,然后利用所述自注意机制模块对所述风格化初始图像进行风格突出 处理,得到内容掩码图像
Figure DEST_PATH_IMAGE005
步骤b:通过所述注意力掩码生成器
Figure 724917DEST_PATH_IMAGE003
分离所述训练样本图像
Figure 412250DEST_PATH_IMAGE004
的前景和背景, 从而得到前景注意力掩码图像
Figure DEST_PATH_IMAGE006
和背景注意力掩码图像
Figure DEST_PATH_IMAGE007
步骤c:将所述内容掩码图像
Figure 146988DEST_PATH_IMAGE005
和所述前景注意力掩码图像
Figure 411616DEST_PATH_IMAGE006
进行像素级乘法, 得到前景图像
Figure DEST_PATH_IMAGE008
步骤d:将所述训练样本图像
Figure 116267DEST_PATH_IMAGE004
与所述背景注意力掩码图像
Figure 533473DEST_PATH_IMAGE007
进行像素级乘法, 得到背景图像B1;
步骤e:将所述前景图像
Figure DEST_PATH_IMAGE009
和所述背景图像
Figure DEST_PATH_IMAGE010
进行像素级加法,从而得到风格化 目标图像;
步骤f:利用所述判别器对所述风格化目标图像进行真假打分,从而得到打分结果,并根据所述打分结果更新所述生成器的权重参数;
步骤g:将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述 生成器中,并重复执行上述步骤
Figure DEST_PATH_IMAGE011
步骤
Figure DEST_PATH_IMAGE012
,直至所述生成器和所述判别器达到纳什平衡。
更进一步地,所述内容掩码生成器
Figure 219538DEST_PATH_IMAGE002
包括依次连接的归一化模块、下采样模块 和上采样模块;
所述归一化模块用于对所述训练样本图像
Figure 722195DEST_PATH_IMAGE004
进行归一化处理;所述下采样模块 用于提取归一化处理后的所述训练样本图像
Figure 168220DEST_PATH_IMAGE004
的图像特征,所述上采样模块用于将预设 的风格特征与所述图像特征进行合成,从而得到风格化初始图像。
更进一步地,所述归一化模块包括3层归一化层;
所述下采样模块包括依次连接的4个卷积层+最大池化层组合以及6个或者9个残 差层,所述卷积层为10层卷积核为
Figure DEST_PATH_IMAGE013
的卷积层,所述最大池化层为10层
Figure DEST_PATH_IMAGE014
的最大池 化层;其中所述下采样模块的所述卷积层均利用ReLU进行非线性激活;
所述上采样模块包括依次连接的4个反卷积层+卷积层组合,所述反卷积层为10层 卷积核为
Figure 220358DEST_PATH_IMAGE014
的反卷积层,所述上采样模块的所述卷积层为10层卷积核为
Figure 155953DEST_PATH_IMAGE013
的卷积 层,其中所述上采样模块的所述卷积层利用ReLU进行非线性激活。
更进一步地,所述判别器包括依次连接的2层步长为2且filter为64的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为128的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为256的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为512的Convolution-BatchNorm-LeakyReLU层、1层步长为1且filter为1的Convolution-biase层以及sigmoid层。
更进一步地,所述生成器的权重参数包括lambda A、lambda B、lambda identity、batchsize大小、niter、niter decay、display_freq以及print_freq;
所述初始化所述生成器的权重参数包括:设置所述权重参数的初始值分别为:所述lambda A的取值范围为0~10,所述lambda B的取值范围为0~10,所述lambda identity的取值范围为0~1,所述batchsize的大小为16、32或者64,所述niter 的取值为1,所述niterdecay的取值为1,所述display_freq和所述print_freq的取值均为1。
更进一步地,所述训练样本图像
Figure 145906DEST_PATH_IMAGE004
的大小为
Figure DEST_PATH_IMAGE015
本发明另一方面还提供一种基于生成对抗网络的图像风格迁移装置,包括:
构建单元,用于构建包括生成器和判别器的生成对抗网络模型,并初始化所述生 成器的权重参数,所述生成器包括编码器
Figure 926780DEST_PATH_IMAGE001
和自注意机制模块,所述编码器
Figure 567846DEST_PATH_IMAGE001
包括内 容掩码生成器
Figure DEST_PATH_IMAGE016
和注意力掩码生成器
Figure DEST_PATH_IMAGE017
获取单元,用于获取训练样本图像
Figure 815288DEST_PATH_IMAGE004
训练单元,用于利用所述训练样本图像
Figure 620433DEST_PATH_IMAGE004
对所述生成对抗网络模型进行训练,直 至所述生成器和判别器达到纳什平衡,从而得到训练好的生成对抗网络模型;
风格迁移单元,用于将待风格迁移图像输入至训练好的生成对抗网络模型中,得到风格迁移后图像;
其中,所述训练单元具体用于执行如下步骤:
步骤a:通过所述内容掩码生成器
Figure 470577DEST_PATH_IMAGE016
对所述训练样本图像
Figure 966149DEST_PATH_IMAGE004
进行风格初始迁移, 得到风格化初始图像,然后利用所述自注意机制模块对所述风格化初始图像进行风格突出 处理,得到内容掩码图像
Figure DEST_PATH_IMAGE018
步骤b:通过所述注意力掩码生成器
Figure DEST_PATH_IMAGE019
分离所述训练样本图像
Figure 384492DEST_PATH_IMAGE004
的前景和背景, 从而得到前景注意力掩码图像
Figure DEST_PATH_IMAGE020
和背景注意力掩码图像
Figure DEST_PATH_IMAGE021
步骤c:将所述内容掩码图像
Figure DEST_PATH_IMAGE022
和所述前景注意力掩码图像
Figure 598305DEST_PATH_IMAGE020
进行像素级乘法, 得到前景图像
Figure DEST_PATH_IMAGE023
步骤d:将所述训练样本图像
Figure 986561DEST_PATH_IMAGE004
与所述背景注意力掩码图像
Figure 87372DEST_PATH_IMAGE021
进行像素级乘法, 得到背景图像
Figure DEST_PATH_IMAGE024
步骤e:将所述前景图像
Figure DEST_PATH_IMAGE025
和所述背景图像
Figure 925884DEST_PATH_IMAGE024
进行像素级加法,从而得到风格化 目标图像;
步骤f:利用所述判别器对所述风格化目标图像进行真假打分,从而得到打分结果,并根据所述打分结果更新所述生成器的权重参数;
步骤g:将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述 生成器中,并重复执行上述步骤
Figure DEST_PATH_IMAGE026
步骤
Figure DEST_PATH_IMAGE027
,直至所述生成器和所述判别器达到纳什平衡。
更进一步地,所述内容掩码生成器
Figure DEST_PATH_IMAGE028
包括依次连接的归一化模块、下采样模块 和上采样模块;
所述归一化模块用于对所述训练样本图像
Figure 705621DEST_PATH_IMAGE004
进行归一化处理;所述下采样模块 用于提取归一化处理后的所述训练样本图像
Figure 835251DEST_PATH_IMAGE004
的图像特征,所述上采样模块用于将预设 的风格特征与所述图像特征进行合成,从而得到风格化初始图像。
本发明的又一方面还提供一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的图像风格迁移方法中的步骤。
本发明的又一方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的图像风格迁移方法中的步骤。
有益效果:本发明的基于生成对抗网络的图像风格迁移方法中,首先构建包括生 成器和判别器的生成对抗网络模型,并初始化所述生成器的权重参数,所述生成器包括编 码器
Figure DEST_PATH_IMAGE029
和自注意机制模块,所述编码器
Figure 836574DEST_PATH_IMAGE029
包括内容掩码生成器
Figure DEST_PATH_IMAGE030
和注意力掩码生成器
Figure DEST_PATH_IMAGE031
;然后获取训练样本图像
Figure 862299DEST_PATH_IMAGE004
;利用所述训练样本图像
Figure 785124DEST_PATH_IMAGE004
对所述生成对抗网络模型进行 训练,直至所述生成器和判别器达到纳什平衡,从而得到训练好的生成对抗网络模型;其中 在训练过程中,通过所述内容掩码生成器
Figure 718445DEST_PATH_IMAGE030
和所述自注意机制模块得到内容掩码图像
Figure DEST_PATH_IMAGE032
,通过所述注意力掩码生成器
Figure 652903DEST_PATH_IMAGE031
得到前景注意力掩码图像
Figure DEST_PATH_IMAGE033
和背景注意力掩码图像
Figure DEST_PATH_IMAGE034
,然后将所述内容掩码图像
Figure DEST_PATH_IMAGE035
和所述前景注意力掩码图像
Figure 505322DEST_PATH_IMAGE033
进行像素级乘法,得到 前景图像
Figure DEST_PATH_IMAGE036
;将所述训练样本图像
Figure 790809DEST_PATH_IMAGE004
与所述背景注意力掩码图像
Figure DEST_PATH_IMAGE037
进行像素级乘法,得 到背景图像
Figure DEST_PATH_IMAGE038
;将所述前景图像
Figure DEST_PATH_IMAGE039
和所述背景图像
Figure DEST_PATH_IMAGE040
进行像素级加法,从而得到风格化 目标图像;之后利用所述判别器对所述风格化目标图像进行真假打分,并根据所述打分结 果更新所述生成器的权重参数;将所述风格化目标图像作为训练样本图像输入至更新权重 参数后的所述生成器中,并重复执行上述训练步骤,直至所述生成器和所述判别器达到纳 什平衡,从而得到训练好的生成对抗网络模型,之后将待风格迁移图像输入至训练好的生 成对抗网络模型中,得到风格迁移后图像,通过上述方式,能够实现对图像的风格迁移,生 成多样性图像,有助于扩充数据集,并且成本低下,简单易于实现。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
图1是本发明实施例提供的图像风格迁移方法的流程图;
图2是本发明实施例提供的训练生成对抗网络模型的流程图;
图3是本发明实施例提供的训练生成对抗网络模型的流程框架示意图;
图4是本发明实施例提供的内容掩码生成器
Figure 918034DEST_PATH_IMAGE030
的信号处理流程示意图;
图5是本发明实施例提供的图像风格迁移装置的结构示意图;
图6是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
参阅图1,本发明实施例提供的一种基于生成对抗网络的图像风格迁移方法中,具体包括以下步骤:
步骤S101:构建包括生成器和判别器的生成对抗网络模型,并初始化所述生成器 的权重参数,所述生成器包括编码器
Figure 175840DEST_PATH_IMAGE001
和自注意机制模块,所述编码器
Figure 12209DEST_PATH_IMAGE001
包括内容掩 码生成器
Figure 784993DEST_PATH_IMAGE030
和注意力掩码生成器
Figure DEST_PATH_IMAGE041
其中,所述生成器的权重参数包括如下参数:lambda A、lambda B、lambdaidentity、batchsize大小、niter、niter decay、display_freq以及print_freq,其中所述初始化所述生成器的权重参数具体包括:设置所述权重参数的初始值分别为:所述lambdaA的取值范围为0~10,所述lambda B的取值范围为0~10,所述lambda identity的取值范围为0~1,所述batchsize的大小为16、32或者64,所述niter 的取值为1,所述niter decay的取值为1,所述display_freq和所述print_freq的取值均为1。
在一些实现方式中,lambda A和lambda B的取值可以是10或者其他数值,lambdaidentity的取值可以是1或者也可以是其他数值,可根据实际需要进行选择。
步骤S102:获取训练样本图像
Figure DEST_PATH_IMAGE042
。其中,训练样本图像
Figure 512647DEST_PATH_IMAGE042
的大小例如可以是256* 256
步骤S103:利用所述训练样本图像
Figure 890538DEST_PATH_IMAGE042
对所述生成对抗网络模型进行训练,直至所 述生成器和判别器达到纳什平衡,从而得到训练好的生成对抗网络模型。
步骤S104:将待风格迁移图像输入至训练好的生成对抗网络模型中,得到风格迁移后图像。
更具体地,参阅图2,并结合图3,本实施例中,步骤S103具体包括以下步骤:
步骤a:通过所述内容掩码生成器
Figure DEST_PATH_IMAGE043
对所述训练样本图像
Figure 428967DEST_PATH_IMAGE042
进行风格初始迁移, 得到风格化初始图像,然后利用所述自注意机制模块对所述风格化初始图像进行风格突出 处理,得到内容掩码图像
Figure DEST_PATH_IMAGE044
步骤b:通过所述注意力掩码生成器
Figure DEST_PATH_IMAGE045
分离所述训练样本图像
Figure 344839DEST_PATH_IMAGE042
的前景和背景, 从而得到前景注意力掩码图像
Figure DEST_PATH_IMAGE046
和背景注意力掩码图像
Figure DEST_PATH_IMAGE047
其中,所述注意力掩码生成器
Figure 361337DEST_PATH_IMAGE045
通过对所述训练样本图像
Figure 593735DEST_PATH_IMAGE042
的前景和背景权重 进行赋值从而分离所述训练样本图像
Figure 779033DEST_PATH_IMAGE042
的前景和背景。
步骤c:将所述内容掩码图像
Figure DEST_PATH_IMAGE048
和所述前景注意力掩码图像
Figure 198513DEST_PATH_IMAGE046
进行像素级乘 法,得到前景图像
Figure DEST_PATH_IMAGE049
步骤d:所述训练样本图像
Figure 612176DEST_PATH_IMAGE042
与所述背景注意力掩码图像
Figure 699081DEST_PATH_IMAGE047
进行像素级乘法,得 到背景图像
Figure DEST_PATH_IMAGE050
步骤e:将所述前景图像
Figure DEST_PATH_IMAGE051
和所述背景图像
Figure DEST_PATH_IMAGE052
进行像素级加法,从而得到风格化 目标图像。
步骤f:利用所述判别器对所述风格化目标图像进行真假打分,从而得到打分结果,并根据所述打分结果更新所述生成器的权重参数。通过更新所述生成器的权重参数,从而不断优化所述生成器。
步骤g:将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述 生成器中,并重复执行上述步骤
Figure DEST_PATH_IMAGE053
步骤
Figure DEST_PATH_IMAGE054
,直至所述生成器和所述判别器达到纳什平衡。
通过上述的训练过程,可以得到训练好的生成对抗网络模型。
其中,本发明的实施例中,所述内容掩码生成器
Figure 687635DEST_PATH_IMAGE043
包括依次连接的归一化模块、 下采样模块和上采样模块。其中,所述归一化模块用于对所述训练样本图像
Figure 859990DEST_PATH_IMAGE042
进行归一化 处理,以此来防止出现梯度爆炸和梯度消失的问题。所述下采样模块用于提取归一化处理 后的所述训练样本图像
Figure 77345DEST_PATH_IMAGE042
的图像特征,所述上采样模块用于将预设的风格特征与所述图 像特征进行合成,从而得到风格化初始图像。
更具体地,所述归一化模块包括3层归一化层。
如图4所示,所述下采样模块包括依次连接的4个卷积层+最大池化层组合以及6个 或9个残差层,其中所述卷积层为10层卷积核为
Figure DEST_PATH_IMAGE055
的卷积层,所述最大池化层为10层
Figure DEST_PATH_IMAGE056
的最大池化层。具体而言,信号输入至下采样模块时,依次会经过10层卷积核为
Figure 487597DEST_PATH_IMAGE055
的第一卷积层、10层
Figure 991260DEST_PATH_IMAGE056
的第一最大池化层、10层卷积核为
Figure 650911DEST_PATH_IMAGE055
的第二卷积层、10层
Figure 406378DEST_PATH_IMAGE056
的第二最大池化层、10层卷积核为
Figure 405558DEST_PATH_IMAGE055
的第三卷积层、10层
Figure 424329DEST_PATH_IMAGE056
的第三最大池化层、10层 卷积核为
Figure 368015DEST_PATH_IMAGE055
的第四卷积层、10层
Figure 786227DEST_PATH_IMAGE056
的第四最大池化层以及6个或者9个残差层;其中所 述下采样模块的第一至第四卷积层均利用
Figure DEST_PATH_IMAGE057
进行非线性激活。
所述上采样模块包括依次连接的4个反卷积层+卷积层组合,所述反卷积层为10层 卷积核为
Figure 171071DEST_PATH_IMAGE056
的反卷积层,所述上采样模块的所述卷积层为10层卷积核为
Figure 360744DEST_PATH_IMAGE055
的卷积层, 其中所述上采样模块的所述卷积层利用
Figure 791726DEST_PATH_IMAGE057
进行非线性激活。具体而言,信号输入至上 采样模块时,依次会经过10层卷积核为
Figure 279208DEST_PATH_IMAGE056
的第一反卷积层、10层卷积核为
Figure 49718DEST_PATH_IMAGE055
的第一卷 积层、10层卷积核为
Figure 207029DEST_PATH_IMAGE056
的第二反卷积层、10层卷积核为
Figure 266252DEST_PATH_IMAGE055
的第二卷积层、10层卷积核 为
Figure 901633DEST_PATH_IMAGE056
的第三反卷积层、10层卷积核为
Figure 792229DEST_PATH_IMAGE055
的第三卷积层、10层卷积核为
Figure 510655DEST_PATH_IMAGE056
的第四反卷 积层以及10层卷积核为
Figure 650649DEST_PATH_IMAGE055
的第四卷积层。
需要说明的是,在图4中,图中的左半部分表示下采样模块的信号处理过程,图中的右半部分表示上采样模块的信号处理过程,图中的不同类型的箭头表示对信号的不同操作。
其中,所述判别器包括依次连接的2层步长为2且filter为64的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为128的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为256的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为512的Convolution-BatchNorm-LeakyReLU层、1层步长为1且filter为1的Convolution-biase层以及sigmoid层。
通过本发明的图像风格迁移方法,可以实现将一张输入图像转化为风格迁移后的另一张图像,由此,当需要扩充一个训练集时,可以将具有不同风格的训练样本的训练集输入至本发明的生成对抗网络模型中,将训练集中的训练样本进行风格迁移,从而可以得到风格迁移后的训练集,该风格迁移后的训练集可以作为原来训练集的扩充,由此有利于训练集的扩充,且算法简单易于实现,成本低,可靠性高。
参阅图5,本发明实施例提供的基于生成对抗网络的图像风格迁移装置500中,该图像风格迁移装置500包括构建单元51、获取单元52、训练单元53以及风格迁移单元54。
其中,所述构建单元51用于构建包括生成器和判别器的生成对抗网络模型,并初 始化所述生成器的权重参数,所述生成器包括编码器
Figure DEST_PATH_IMAGE058
和自注意机制模块,所述编码器
Figure 230666DEST_PATH_IMAGE058
包括内容掩码生成器
Figure DEST_PATH_IMAGE059
和注意力掩码生成器
Figure DEST_PATH_IMAGE060
。所述获取单元52用于获取训练样 本图像
Figure DEST_PATH_IMAGE061
。所述训练单元53用于利用所述训练样本图像
Figure 959457DEST_PATH_IMAGE061
对所述生成对抗网络模型进行 训练,直至所述生成器和判别器达到纳什平衡,从而得到训练好的生成对抗网络模型。所述 风格迁移单元54用于将待风格迁移图像输入至训练好的生成对抗网络模型中,得到风格迁 移后图像。
更具体地,所述训练单元53具体用于执行如下步骤:
步骤a:通过所述内容掩码生成器
Figure 661833DEST_PATH_IMAGE059
对所述训练样本图像
Figure 164490DEST_PATH_IMAGE061
进行风格初始迁移, 得到风格化初始图像,然后利用所述自注意机制模块对所述风格化初始图像进行风格突出 处理,得到内容掩码图像
Figure DEST_PATH_IMAGE062
步骤b:通过所述注意力掩码生成器
Figure 141673DEST_PATH_IMAGE060
分离所述训练样本图像
Figure 928233DEST_PATH_IMAGE061
的前景和背景, 从而得到前景注意力掩码图像
Figure DEST_PATH_IMAGE063
和背景注意力掩码图像
Figure DEST_PATH_IMAGE064
步骤c:将所述内容掩码图像
Figure 4773DEST_PATH_IMAGE062
和所述前景注意力掩码图像
Figure DEST_PATH_IMAGE065
进行像素级乘法, 得到前景图像
Figure DEST_PATH_IMAGE066
步骤d:将所述训练样本图像
Figure 775152DEST_PATH_IMAGE061
与所述背景注意力掩码图像
Figure 821605DEST_PATH_IMAGE064
进行像素级乘法, 得到背景图像
Figure DEST_PATH_IMAGE067
步骤e:将所述前景图像
Figure 947824DEST_PATH_IMAGE066
和所述背景图像
Figure 788741DEST_PATH_IMAGE067
进行像素级加法,从而得到风格化 目标图像;
步骤f:利用所述判别器对所述风格化目标图像进行真假打分,从而得到打分结果,并根据所述打分结果更新所述生成器的权重参数;
步骤g:将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述 生成器中,并重复执行上述步骤
Figure DEST_PATH_IMAGE068
步骤
Figure DEST_PATH_IMAGE069
,直至所述生成器和所述判别器达到纳什平衡。
通过本发明的图像风格迁移装置500,可以实现对图像风格的迁移,从而有利于数据集的扩充,且实现过程简单、成本低且可靠性高。
参见图6,图6是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备600包括:存储器602、处理器601及存储在存储器602上并可在处理器上运行的计算机程序,处理器601执行计算机程序时实现上述实施例提供的基于生成对抗网络的图像风格迁移方法中的步骤。
本发明实施例提供的计算机设备600能够实现上述方法实施例中的各个实施方式,以及相应有益效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的基于生成对抗网络的图像风格迁移方法中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random Access Memory,简称RAM)等。
以上对本发明实施例所提供的一种基于生成对抗网络的图像风格迁移方法、装置及其相关设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于生成对抗网络的图像风格迁移方法,其特征在于,包括:
构建包括生成器和判别器的生成对抗网络模型,并初始化所述生成器的权重参数,所述生成器包括编码器Ge和自注意机制模块,所述编码器Ge包括内容掩码生成器Gc和注意力掩码生成器Ga;
获取训练样本图像X;
利用所述训练样本图像X对所述生成对抗网络模型进行训练,直至所述生成器和判别器达到纳什平衡,从而得到训练好的生成对抗网络模型;
将待风格迁移图像输入至训练好的生成对抗网络模型中,得到风格迁移后图像;
其中,利用所述训练样本图像X对所述生成对抗网络模型进行训练具体包括以下步骤:
步骤a:通过所述内容掩码生成器Gc对所述训练样本图像X进行风格初始迁移,得到风格化初始图像,然后利用所述自注意机制模块对所述风格化初始图像进行风格突出处理,得到内容掩码图像C1;其中所述内容掩码生成器Gc包括依次连接的归一化模块、下采样模块和上采样模块;所述归一化模块用于对所述训练样本图像X进行归一化处理;所述下采样模块用于提取归一化处理后的所述训练样本图像X的图像特征,所述上采样模块用于将预设的风格特征与所述图像特征进行合成,从而得到风格化初始图像;
步骤b:通过所述注意力掩码生成器Ga分离所述训练样本图像X的前景和背景,从而得到前景注意力掩码图像Af和背景注意力掩码图像Ab;
步骤c:将所述内容掩码图像C1和所述前景注意力掩码图像Af进行像素级乘法,得到前景图像F1;
步骤d:将所述训练样本图像X与所述背景注意力掩码图像Ab进行像素级乘法,得到背景图像B1;
步骤e:将所述前景图像F1和所述背景图像B1进行像素级加法,从而得到风格化目标图像;
步骤f:利用所述判别器对所述风格化目标图像进行真假打分,从而得到打分结果,并根据所述打分结果更新所述生成器的权重参数;
步骤g:将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述生成器中,并重复执行上述步骤a~步骤f,直至所述生成器和所述判别器达到纳什平衡。
2.根据权利要求1所述的图像风格迁移方法,其特征在于,所述归一化模块包括3层归一化层;
所述下采样模块包括依次连接的4个卷积层+最大池化层组合以及6个或者9个残差层,所述卷积层为10层卷积核为3*3的卷积层,所述最大池化层为10层2*2的最大池化层;其中所述下采样模块的所述卷积层均利用ReLU进行非线性激活;
所述上采样模块包括依次连接的4个反卷积层+卷积层组合,所述反卷积层为10层卷积核为2*2的反卷积层,所述上采样模块的所述卷积层为10层卷积核为3*3的卷积层,其中所述上采样模块的所述卷积层利用ReLU进行非线性激活。
3.根据权利要求1所述的图像风格迁移方法,其特征在于,所述判别器包括依次连接的2层步长为2且filter为64的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为128的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为256的Convolution-BatchNorm-LeakyReLU层、2层步长为2且filter为512的Convolution-BatchNorm-LeakyReLU层、1层步长为1且filter为1的Convolution-biase层以及sigmoid层。
4.根据权利要求1所述的图像风格迁移方法,其特征在于,所述生成器的权重参数包括lambda A、lambda B、lambda identity、batchsize大小、niter、niter decay、display_freq以及print_freq;
所述初始化所述生成器的权重参数包括:设置所述权重参数的初始值分别为:所述lambda A的取值范围为0~10,所述lambda B的取值范围为0~10,所述lambda identity的取值范围为0~1,所述batchsize的大小为16、32或者64,所述niter 的取值为1,所述niterdecay的取值为1,所述display_freq和所述print_freq的取值均为1。
5.根据权利要求1所述的图像风格迁移方法,其特征在于,所述训练样本图像X的大小为256*256。
6.一种基于生成对抗网络的图像风格迁移装置,其特征在于,包括:
构建单元,用于构建包括生成器和判别器的生成对抗网络模型,并初始化所述生成器的权重参数,所述生成器包括编码器Ge和自注意机制模块,所述编码器Ge包括内容掩码生成器Gc和注意力掩码生成器Ga;
获取单元,用于获取训练样本图像X;
训练单元,用于利用所述训练样本图像X对所述生成对抗网络模型进行训练,直至所述生成器和判别器达到纳什平衡,从而得到训练好的生成对抗网络模型;
风格迁移单元,用于将待风格迁移图像输入至训练好的生成对抗网络模型中,得到风格迁移后图像;
其中,所述训练单元具体用于执行如下步骤:
步骤a:通过所述内容掩码生成器Gc对所述训练样本图像X进行风格初始迁移,得到风格化初始图像,然后利用所述自注意机制模块对所述风格化初始图像进行风格突出处理,得到内容掩码图像C1;其中所述内容掩码生成器Gc包括依次连接的归一化模块、下采样模块和上采样模块;所述归一化模块用于对所述训练样本图像X进行归一化处理;所述下采样模块用于提取归一化处理后的所述训练样本图像X的图像特征,所述上采样模块用于将预设的风格特征与所述图像特征进行合成,从而得到风格化初始图像;
步骤b:通过所述注意力掩码生成器Ga分离所述训练样本图像X的前景和背景,从而得到前景注意力掩码图像Af和背景注意力掩码图像Ab;
步骤c:将所述内容掩码图像C1和所述前景注意力掩码图像Af进行像素级乘法,得到前景图像F1;
步骤d:将所述训练样本图像X与所述背景注意力掩码图像Ab进行像素级乘法,得到背景图像B1;
步骤e:将所述前景图像F1和所述背景图像B1进行像素级加法,从而得到风格化目标图像;
步骤f:利用所述判别器对所述风格化目标图像进行真假打分,从而得到打分结果,并根据所述打分结果更新所述生成器的权重参数;
步骤g:将所述风格化目标图像作为训练样本图像输入至更新权重参数后的所述生成器中,并重复执行上述步骤a~步骤f,直至所述生成器和所述判别器达到纳什平衡。
7.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的图像风格迁移方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的图像风格迁移方法中的步骤。
CN202111071408.4A 2021-09-14 2021-09-14 基于生成对抗网络的图像风格迁移方法、装置及相关设备 Active CN113538224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111071408.4A CN113538224B (zh) 2021-09-14 2021-09-14 基于生成对抗网络的图像风格迁移方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111071408.4A CN113538224B (zh) 2021-09-14 2021-09-14 基于生成对抗网络的图像风格迁移方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN113538224A CN113538224A (zh) 2021-10-22
CN113538224B true CN113538224B (zh) 2022-01-14

Family

ID=78093220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111071408.4A Active CN113538224B (zh) 2021-09-14 2021-09-14 基于生成对抗网络的图像风格迁移方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN113538224B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100334B (zh) * 2022-08-24 2022-11-25 广州极尚网络技术有限公司 一种图像描边、图像动漫化方法、设备及存储介质
CN115170390B (zh) * 2022-08-31 2023-01-06 广州极尚网络技术有限公司 一种文件风格化方法、装置、设备及存储介质
CN116739951B (zh) * 2023-07-20 2024-03-05 苏州铸正机器人有限公司 一种图像生成器、图像风格转换装置及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017101166A4 (en) * 2017-08-25 2017-11-02 Lai, Haodong MR A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks
CN109033095A (zh) * 2018-08-01 2018-12-18 苏州科技大学 基于注意力机制的目标变换方法
CN111161137A (zh) * 2019-12-31 2020-05-15 四川大学 一种基于神经网络的多风格国画花生成方法
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法
CN112132741A (zh) * 2020-08-18 2020-12-25 山东大学 一种人脸照片图像和素描图像的转换方法及系统
CN112967263A (zh) * 2021-03-18 2021-06-15 西安智诊智能科技有限公司 一种基于生成对抗网络的肝脏肿瘤图像样本增广方法
CN113313133A (zh) * 2020-02-25 2021-08-27 武汉Tcl集团工业研究院有限公司 一种生成对抗网络的训练方法、动画图像生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017101166A4 (en) * 2017-08-25 2017-11-02 Lai, Haodong MR A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks
CN109033095A (zh) * 2018-08-01 2018-12-18 苏州科技大学 基于注意力机制的目标变换方法
CN111161137A (zh) * 2019-12-31 2020-05-15 四川大学 一种基于神经网络的多风格国画花生成方法
CN113313133A (zh) * 2020-02-25 2021-08-27 武汉Tcl集团工业研究院有限公司 一种生成对抗网络的训练方法、动画图像生成方法
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法
CN112132741A (zh) * 2020-08-18 2020-12-25 山东大学 一种人脸照片图像和素描图像的转换方法及系统
CN112967263A (zh) * 2021-03-18 2021-06-15 西安智诊智能科技有限公司 一种基于生成对抗网络的肝脏肿瘤图像样本增广方法

Also Published As

Publication number Publication date
CN113538224A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113538224B (zh) 基于生成对抗网络的图像风格迁移方法、装置及相关设备
US10380995B2 (en) Method and device for extracting speech features based on artificial intelligence
EP3497630B1 (en) Processing sequences using convolutional neural networks
CN111369440B (zh) 模型训练、图像超分辨处理方法、装置、终端及存储介质
CN108898639A (zh) 一种图像描述方法及系统
US11798145B2 (en) Image processing method and apparatus, device, and storage medium
CN109284761B (zh) 一种图像特征提取方法、装置、设备及可读存储介质
CN107590811B (zh) 基于场景分割的风景图像处理方法、装置及计算设备
WO2018064591A1 (en) Generating video frames using neural networks
CN113011337B (zh) 一种基于深度元学习的汉字字库生成方法及系统
CN111260020A (zh) 卷积神经网络计算的方法和装置
CN114282666A (zh) 基于局部稀疏约束的结构化剪枝方法和装置
CN112614072A (zh) 一种图像复原方法、装置、图像复原设备及存储介质
CN114581411A (zh) 一种卷积核生成方法和装置、电子设备
CN116152205A (zh) 静电喷涂板的智能化生产系统及其方法
CN110866552A (zh) 基于全卷积空间传播网络的高光谱图像分类方法
Shah et al. Reasoning over history: Context aware visual dialog
Chan et al. Architectural visualisation with conditional generative adversarial networks (cGAN)
CN114529463A (zh) 一种图像去噪方法及系统
CN113506226A (zh) 运动模糊复原方法及系统
Li et al. Image restoration with structured deep image prior
CN113496228B (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN114004751A (zh) 一种图像处理方法及其相关设备
CN113536800A (zh) 一种词向量表示方法及装置
CN111260570A (zh) 基于循环一致性对抗网络的碑帖二值化背景噪声模拟方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240109

Granted publication date: 20220114