CN114511475B - 一种基于改进Cycle GAN的图像生成方法 - Google Patents

一种基于改进Cycle GAN的图像生成方法 Download PDF

Info

Publication number
CN114511475B
CN114511475B CN202210418314.8A CN202210418314A CN114511475B CN 114511475 B CN114511475 B CN 114511475B CN 202210418314 A CN202210418314 A CN 202210418314A CN 114511475 B CN114511475 B CN 114511475B
Authority
CN
China
Prior art keywords
feature
image
branch
convolution
branches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202210418314.8A
Other languages
English (en)
Other versions
CN114511475A (zh
Inventor
侯永宏
侯春羽
李斌
朱新山
李施琦
屈璐瑶
曾筠婷
李亚霖
钱统玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210418314.8A priority Critical patent/CN114511475B/zh
Publication of CN114511475A publication Critical patent/CN114511475A/zh
Application granted granted Critical
Publication of CN114511475B publication Critical patent/CN114511475B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于改进Cycle GAN的图像生成方法,包括从X域图像数据库中获取输入图像;将所述输入图像输入至编码器并输出特征图像;将所述特征图像输入至特征权重自适应模块,对所述特征图像提取背景信息和目标特征信息,并针对提取的背景信息和目标特征信息进行不同权重的特征融合;将处理后的特征图像依次输入至转换器和解码器中还原生成输出图像。本发明的图像生成方法将特征融合机制引入Cycle GAN网络,改进后生成的图像效果更加真实,特征细节处理效果更好,且改善了原网络转换后背景失真问题,使得转换后的图像在结构、亮度和色彩上更加接近于真实场景下的图像。

Description

一种基于改进Cycle GAN的图像生成方法
技术领域
本发明涉及图像处理技术领域,具体为一种基于改进Cycle GAN的图像生成方法。
背景技术
循环生成对抗网络(Cycle GAN)是将生成对抗网络应用在无监督的图像到图像翻译的著名算法,其最大的特点是无监督,只需要提供不同域的图像就能成功训练不同域之间图像的映射,解决了成对数据并不容易获取的问题。如图1所示,Cycle GAN学习
Figure 23174DEST_PATH_IMAGE001
Figure 944863DEST_PATH_IMAGE002
两个映射,判别器
Figure 740649DEST_PATH_IMAGE003
判断生成的图像是否为 Y 域的真实图像,判别器
Figure 38775DEST_PATH_IMAGE004
判断生成的图像是否为 X 域的真实图像。域中的样本通过生成器生成域中的样本
Figure 908511DEST_PATH_IMAGE005
Figure 1101DEST_PATH_IMAGE005
再通过生成器F生成样本
Figure 34916DEST_PATH_IMAGE006
,通过网络优化使得
Figure 871154DEST_PATH_IMAGE006
尽可能接近于X域中的真实样本,即
Figure 149992DEST_PATH_IMAGE007
,其差值作为循环一致性损失;同理,对偶反向循环的过程,对于Y域中的每个图像
Figure 413484DEST_PATH_IMAGE008
,通过优化映射关系,使得
Figure 855966DEST_PATH_IMAGE009
Cycle GAN的生成器负责生成虚假的目标域图像,如图2所示,其由编码器、转换器和解码器组成。其中编码器由3个卷积层构成,3通道256*256的输入图像经过编码器输出256*64*64的特征图,转换器由9个残差块组成,每个残差块由 2 个卷积层组成,解码器通过3个反卷积层将256*64*64的特征图还原成3通道256*256的图像输出。Cycle GAN的鉴别器负责判定生成图像是否为真实的目标域图像,如图3所示,其由 5 个卷积层构成。生成器的优化目标是尽可能欺骗鉴别器,鉴别器的优化目标是尽可能分辨出输入图像是真实或者虚假(生成器生成)。但是,原 Cycle GAN 生成的图像效果较差且有小部分的失真现象,背景对比原图有较大失真,对于不含转换目标的图像,仍然会对无关物体进行转换。
论文一公开了“一种基于 Cycle GAN 改进的低剂量 CT 图像增强网络”。如图4所示,改进的Cycle GAN 的生成器主要由编码器,特征转换模块,解码器三部分组成,如图5所示,在生成器中加入浅层特征预提取模块,由 7 条卷积核尺寸(逐通道卷积中卷积核的尺寸)和卷积层数目均不相同的深度可分离卷积支路,及 2 条不同的池化支路组成,为避免网络深度增加导致梯度消失,除第 1 条以外的其余 6 条深度可分离卷积支路中采用残差连接。将各支路提取到的多层次浅层特征在通道维度上连接并进行信息融合,最终输入CycleGAN 的生成器。但是,该生成器各特征提取分支以相同权重投入训练,无法根据不同数据集的特征进行泛化,并且无法针对需转化特征进行重点学习,导致计算资源浪费;同时该网络参数量大,不利于日常训练。
发明内容
本发明的目的在于提供了一种基于改进Cycle GAN的图像生成方法,将特征融合机制引入Cycle GAN网络,改进后生成的图像效果更加真实,特征细节处理效果更好,且改善了原网络转换后背景失真问题。
为实现上述目的,本发明提供如下技术方案:一种基于改进Cycle GAN的图像生成方法,包括:
从X域图像数据库中获取输入图像;
将所述输入图像输入至编码器并输出特征图像;
将所述特征图像输入至特征权重自适应模块,对所述特征图像提取背景信息和目标特征信息,并针对提取的背景信息和目标特征信息进行不同权重的特征融合;
将处理后的特征图像依次输入至转换器和解码器中还原生成输出图像。
优选的,所述特征权重自适应模块包括多条分支路,所述多条分支路包括两条池化支路用于提取风格和纹理信息,还包括多卷积分支路用于融合不同感受野尺度下的特征信息。
优选的,所述两条池化支路包括平均池化支路和最大池化支路,分别用于提取全局特征和提取局部特征。
优选的,所述多卷积分支路包括三组1*1卷积用于对特征图像进行通道压缩,三组所述1*1卷积分别接入一组3*3卷积、一组5*5卷积、以及一组7*7卷积,用于融合不同感受野尺度下的特征信息。
优选的,所述3*3卷积、5*5卷积和7*7卷积均接入一组1*1反卷积,用于对特征图像进行还原;所述多卷积分支路拼接后接入一SE注意力模块,用于对每个通道赋予不同的权重。
优选的,所述特征权重自适应模块还包括残差支路。
优选的,所述平均池化支路包括平均池化层和tanh激活层一,所述最大池化支路包括最大池化层和tanh激活层二。
优选的,所述多卷积分支路的计算公式为:
Figure 558212DEST_PATH_IMAGE010
其中,
Figure 933698DEST_PATH_IMAGE011
为按通道拼接函数,
Figure 102512DEST_PATH_IMAGE012
为1*1卷积,
Figure 32290DEST_PATH_IMAGE013
为3*3卷积,
Figure 210331DEST_PATH_IMAGE014
为5*5卷积,
Figure 440324DEST_PATH_IMAGE015
为7*7卷积,
Figure 593088DEST_PATH_IMAGE016
为1*1反卷积,
Figure 275742DEST_PATH_IMAGE017
输入特征。
优选的,所述针对提取的背景信息和目标特征信息进行不同权重的特征融合的计算公式为:
Figure 991894DEST_PATH_IMAGE018
其中,
Figure 76393DEST_PATH_IMAGE019
为归一化权重,
Figure 852588DEST_PATH_IMAGE020
为初始化指数权重,
Figure 756959DEST_PATH_IMAGE021
为特征权重,
Figure 276802DEST_PATH_IMAGE022
为平均池化支路,
Figure 215808DEST_PATH_IMAGE023
为最大池化支路,
Figure 162905DEST_PATH_IMAGE024
为多卷积分支路,
Figure 554572DEST_PATH_IMAGE025
为残差支路。
优选的,所述编码器包括三个卷积层,3通道256*256的输入图像经过编码器输出256*64*64的特征图像,送入特征权重自适应模块,经特征融合后进入转换器,转换器包括九个残差块,每个残差块由 2 个卷积层组成,解码器包括三个反卷积层将256*64*64的特征图还原成3通道256*256的输出图像。
与现有技术相比,本发明的有益效果是:
本发明提供的改进Cycle GAN的图像生成方法,通过经过多组支路的特征提取后,在保留原始特征同时,通过两条池化支路提取风格和纹理信息,通过多卷积分支路提取目标特征后,对不同支路特征提取到的特征进行融合。为了提高特征处理模块的普适性,引入特征权重自适应的方法,使得模型可以根据不同数据集的特征分布自行调整特征融合权重。使得改进后生成的图像效果更加真实,特征细节处理效果更好,改善了原网络转换后背景失真问题,使得转换后的图像在结构、亮度和色彩上更加接近于真实场景下的图像。
附图说明
图1为现有技术中循环生成对抗网络Cycle GAN的原理图;
图2为现有技术中循环生成对抗网络Cycle GAN的生成器结构图;
图3为现有技术中循环生成对抗网络Cycle GAN的鉴别器结构图;
图4为现有技术论文一中改进Cycle GAN的生成器结构图;
图5为现有技术论文一中改进Cycle GAN生成器加入浅层特征预提取的结构图;
图6为本发明一种基于改进Cycle GAN的图像生成方法的流程图;
图7为本发明一种基于改进Cycle GAN的图像生成方法中特征权重自适应模块的结构图;
图8为本发明一种基于改进Cycle GAN的图像生成方法与现有技术的图像生成效果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图6所示,本发明提供的一种实施例,一种基于改进Cycle GAN的图像生成方法,包括:
从X域图像数据库中获取输入图像;
将所述输入图像输入至编码器并输出特征图像;
将所述特征图像输入至特征权重自适应模块,对所述特征图像提取背景信息和目标特征信息,并针对提取的背景信息和目标特征信息进行不同权重的特征融合;
将处理后的特征图像依次输入至转换器和解码器中还原生成输出图像。
如图7所示,具体的,本发明的改进CycleGAN的生成器由编码器、转换器和解码器组成,其中编码器由3个卷积层构成,3通道256*256的输入图像经过编码器输出256*64*64的特征图像,转换器由9个残差块组成,每个残差块由 2 个卷积层组成,解码器通过3 个反卷积层将256*64*64的特征图还原成3通道256*256的图像输出。CycleGAN的鉴别器由 5 个卷积层构成。由于网络需同时训练两个不共享参数的生成器,并尽可能追求更高的生成图像分辨率,受限于计算机内存,网络不支持过大的参数量,特征学习只通过浅层残差网络进行,传统的增加残差网络深度寻求性能提升的方法在CycleGAN网络改进中并不适用。在不大幅增加网络参数的前提下,希望网络尽可能学习目标特征信息,减少特征学习中无关特征的干扰,提高生成图像质量,缓解风格转换后图像失真的问题。转换器在ResNet的基础上,本发明提出了多分支权重自适应的特征融合网络。
优选的,所述特征权重自适应模块包括多条分支路,所述多条分支路包括两条池化支路用于提取风格和纹理信息,还包括多卷积分支路用于融合不同感受野尺度下的特征信息;所述两条池化支路包括平均池化支路和最大池化支路,分别用于提取全局特征和提取局部特征。首先使用平均池化支路提取全局特征,使之能够更多的保留图像的背景信息,其次使用最大池化支路提取局部特征,保留其风格信息。由于池化分支在提取特征时不需要额外学习参数,使得模块可以在不增加参数量的同时,较大程度上提取纹理信息,并一定程度上减小了背景信息对特征提取的干扰。
平均池化支路包括平均池化层和tanh激活层一,所述最大池化支路包括最大池化层和tanh激活层二,在平均池化层后接入tanh激活层,通过引入非线性因素,增强线性模型的表达能力;在最大池化层后同样引入一个tanh激活层。
优选的,所述多卷积分支路包括三组1*1卷积用于对特征图像进行通道压缩,三组所述1*1卷积分别接入一组3*3卷积、一组5*5卷积、以及一组7*7卷积,用于融合不同感受野尺度下的特征信息;所述3*3卷积、5*5卷积和7*7卷积均接入一组1*1反卷积,用于对特征图像进行还原;所述多卷积分支路拼接后接入一SE注意力模块,用于对每个通道赋予不同的权重。
具体的,多卷积支路分别用三组1*1卷积将特征图通道压缩,起到了降低特征图维度减少参数量防止过拟合的作用,为后续实现跨通道的交互和特征信息拼接整合提供了良好的基础。为通过融合不同感受野尺度下的特征图,增强特征图的表征能力,本发明在1*1卷积后分别加入一组3*3卷积、一组 5*5卷积、以及一组7*7后加入一组1x1反卷积对特征图进行还原,提高其分辨率。对同一组输入通过三条卷积分支进行特征提取后按通道拼接,记为
Figure 878106DEST_PATH_IMAGE024
,计算公式如下:
Figure 671618DEST_PATH_IMAGE026
其中,
Figure 789616DEST_PATH_IMAGE011
为按通道拼接函数,
Figure 730896DEST_PATH_IMAGE012
为1*1卷积,
Figure 858121DEST_PATH_IMAGE013
为3*3卷积,
Figure 506140DEST_PATH_IMAGE014
为5*5卷积,
Figure 60618DEST_PATH_IMAGE015
为7*7卷积,
Figure 974347DEST_PATH_IMAGE016
为1*1反卷积,
Figure 639684DEST_PATH_IMAGE017
为输入特征。
在保证具有相同感收野的条件下,为提升网络的深度,获得更好特征提取性能,本发明采用两组3*3卷积作为替代,由于卷积提取的丰富特征,在拼接后,接入一个SE注意力模块。通道注意力通过对每个通道赋予不同的权重,对各个特征间的重要关系进行建模,使网络注意力集中于待转换的目标,减小了背景的干扰,在增加少量计算量的情况下,可以获得明显的性能提升。
最后,为最大程度保留输入的原始特征,引入残差分支Identity,所述特征权重自适应模块还引入了残差分支Identity。
经过四组支路的特征提取后,在保留原始特征同时,通过两条池化支路提取风格和纹理信息,通过多卷积分支提取目标特征后,对不同支路特征提取到的特征进行融合。为了提高特征处理模块的普适性,引入特征权重自适应的方法,使得模型可以根据不同数据集的特征分布自行调整特征融合权重。针对提取的背景信息和目标特征信息进行不同权重的特征融合的计算公式为:
Figure 142209DEST_PATH_IMAGE018
其中,
Figure 867589DEST_PATH_IMAGE019
为归一化权重,
Figure 783461DEST_PATH_IMAGE020
为初始化指数权重,
Figure 986909DEST_PATH_IMAGE021
为特征权重,
Figure 343941DEST_PATH_IMAGE022
为平均池化支路,
Figure 240222DEST_PATH_IMAGE023
为最大池化支路,
Figure 128543DEST_PATH_IMAGE024
为多卷积分支路,
Figure 159120DEST_PATH_IMAGE025
为残差支路,整个模块称为特征权重自适应模块(Feature weightadaptive module,FWA)。
实验分析:
1.1实验环境配置:本发明的实验环境为:Windows10 系统,CPU 为 Intel(R)Core(TM)i5-8250U@ 1.80GHz CPU,16G 内存。服务器为戴尔Precision T3430,Linux 系统,具体操作系统为 Ubantu20,有两块 Nvidia1080Ti显卡,Python3.8,使用Pytorch框架。实验中,batchsize设置为 1,程序运行200个epoch,前100个epoch保持学习率为0.0002不变,后100个epoch学习率线性衰减到0,整个网络使用 Adam 优化器进行优化。
1.2数据集
本发明采用了在CycleGAN中常用的horse2zebra数据集,该数据集包含不同背景下的马和斑马图像,训练集包括 1067张马图片和1334张斑马图片,测试集包括两种类型各120张图片。在进行实验前,首先对训练图像进行预处理,统一压缩为256* 256像素的图像。
1.3结构组成:本发明的编码器包括三个卷积层,3通道256*256的输入图像经过编码器输出256*64*64的特征图像,送入特征权重自适应模块,经特征融合后进入转换器,转换器包括九个残差块,每个残差块由2个卷积层组成,解码器包括三个反卷积层将256*64*64的特征图还原成3通道256*256的输出图像。
本发明中模型通过需要使用两个尺寸为3*3的卷积核替代尺寸为5*5 卷积核。在保证感受野不损失的情况下构建了更深的网络层,减少了模型的参数量。基于自适应权重的多层四路特征处理模块可以根据特征的特点在不同层对该层每一支路赋予相应的权重并进行融合,如表1所示,由于生成器G、F分别训练,其特征融合权重各不相同。其中,最大池化支路以及残差分支的权重占比较大,着重于提取全局特征,保留图像整体真实性。
表1特征处理模块各分支权重
Figure 636238DEST_PATH_IMAGE027
为了证明本发明的图像生成效果,选取AtoB为主循环方向,从主循环实验结果中随机抽取4张图像进行展示,如图8示。从左到右依次是原马匹图像、CycleGAN、CycleGAN(+SE)、Ours(+FWA)和原斑马图像;由图8可以看出,原 CycleGAN 生成的图像效果较差且有小部分的失真现象,背景对比原图有较大失真,且对于不含转换目标的图像,仍然会对无关物体进行转换。而按本发明的方法生成的图像直观看出在亮度、色彩转换和细节处理方面效果均优于另外两种方法,基本上能保留原始背景,相对于原网络具有更好的性能。
除了主观结果外,还需要用具体数据来说明本发明图像生成的效果。本发明采用特征距离(FID)、结构相似度( SSIM)和峰值信噪比( PSNR)这三个图像生成领域常用的性能指标作为评价指标,对生成的斑马图像进行图像质量评价。FID是GAN网络的重要评价指标,考虑的更多是生成的图像与真实图像之间的联系。FID值表示生成图像的特征向量与真实图像的特征向量之间的距离,该距离越近,表明生成模型的效果越好,即图像的清晰度高,且多样性丰富。FID计算公式如下:
Figure 703420DEST_PATH_IMAGE028
其中
Figure 328305DEST_PATH_IMAGE029
为真实图片特征的均值,
Figure 404714DEST_PATH_IMAGE030
为生成的图片特征的均值,
Figure 470759DEST_PATH_IMAGE031
为真实图片特征的协方差矩阵,
Figure 708843DEST_PATH_IMAGE032
为生成图片特征的协方差矩阵。
SSIM是一种衡量两幅图像相似度的指标,它主要从亮度、对比度和结构3个模块来对相似度进行测量,取值范围为 0 ~ 1,SSIM值越大,说明图像的结构越相似,其定义如下:
Figure 758707DEST_PATH_IMAGE033
其中,
Figure 920698DEST_PATH_IMAGE034
为增强后的图像,
Figure 372408DEST_PATH_IMAGE035
为正常光照下的图像,
Figure 515813DEST_PATH_IMAGE029
为图像
Figure 52974DEST_PATH_IMAGE034
的像素平均值,
Figure 205607DEST_PATH_IMAGE036
为图像
Figure 839719DEST_PATH_IMAGE035
的像素平均值,
Figure 154026DEST_PATH_IMAGE037
Figure 912903DEST_PATH_IMAGE034
Figure 416697DEST_PATH_IMAGE035
的协方差,
Figure 842999DEST_PATH_IMAGE038
为图像
Figure 593786DEST_PATH_IMAGE034
的方差,
Figure 839960DEST_PATH_IMAGE039
为图像的方差,
Figure 396712DEST_PATH_IMAGE040
Figure 677521DEST_PATH_IMAGE041
为常数,取
Figure 864788DEST_PATH_IMAGE042
。由于本文数据集没有配对关系,所以SSIM指标通过对比生成斑马图片和真实斑马图片得出。
PSNR是一种基于对应像素点间误差的纯客观的评价方式,取值范围一般是20-40。PSNR值越大,说明图像失真越小,图像的生成质量越高,定义如下:
Figure 332679DEST_PATH_IMAGE043
Figure 178275DEST_PATH_IMAGE044
其中,
Figure 313590DEST_PATH_IMAGE045
一般为图像灰度级255。
对比结果如表2所示。
表2 生成图像性能指标
Figure 406180DEST_PATH_IMAGE046
从表2中可以看出,本发明的图像生成方法相比CycleGAN算法及单独增加SE模块的方式在图像生成质量方面有较大提升。本发明的图像生成方法在FID指标上相比原CycleGAN算法降低了18.66,相比加入SE模块降低了5.91,在SSIM 指标上相比原CycleGAN算法提高了0.066,相比加入SE模块提高了0.024,在PSNR指标上相比原CycleGAN算法提高了0.129,相比加入SE模块提高了0.041。因此,文中方法生成的图像失真相对较小,与真实场景下的图像相似度更高。
本发明将特征融合机制引入CycleGAN网络,改进后生成的图像效果更加真实,特征细节处理效果更好,且改善了原网络转换后背景失真问题;通过改进 CycleGAN 的损失函数,提高训练质量、增强了训练过程的稳定性;上述实验表明,本发明的图像生成方法能够将实现特征风格转换,并且保证转换后的图像在结构、亮度和色彩上更加接近于真实场景下的图像。
工作原理:本发明提供的改进Cycle GAN的图像生成方法,通过经过多组支路的特征提取后,在保留原始特征同时,通过两条池化支路提取风格和纹理信息,通过多卷积分支路提取目标特征后,对不同支路特征提取到的特征进行融合。为了提高特征处理模块的普适性,引入特征权重自适应的方法,使得模型可以根据不同数据集的特征分布自行调整特征融合权重。使得改进后生成的图像效果更加真实,特征细节处理效果更好,改善了原网络转换后背景失真问题,使得转换后的图像在结构、亮度和色彩上更加接近于真实场景下的图像。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (9)

1.一种基于改进Cycle GAN的图像生成方法,其特征在于,包括:
从X域图像数据库中获取输入图像;
将所述输入图像输入至编码器并输出特征图像;
将所述特征图像输入至特征权重自适应模块,对所述特征图像提取背景信息和目标特征信息,并针对提取的背景信息和目标特征信息进行不同权重的特征融合;
所述特征权重自适应模块包括多条分支路,所述多条分支路包括两条池化支路用于提取风格和纹理信息,还包括多卷积分支路用于融合不同感受野尺度下的特征信息;
将处理后的特征图像依次输入至转换器和解码器中还原生成输出图像。
2.根据权利要求1所述的基于改进Cycle GAN的图像生成方法,其特征在于,所述两条池化支路包括平均池化支路和最大池化支路,分别用于提取全局特征和提取局部特征。
3.根据权利要求2所述的基于改进Cycle GAN的图像生成方法,其特征在于,所述多卷积分支路包括三组1*1卷积用于对特征图像进行通道压缩,三组所述1*1卷积分别接入一组3*3卷积、一组5*5卷积、以及一组7*7卷积,用于融合不同感受野尺度下的特征信息。
4.根据权利要求3所述的基于改进Cycle GAN的图像生成方法,其特征在于,所述3*3卷积、5*5卷积和7*7卷积均接入一组1*1反卷积,用于对特征图像进行还原;所述多卷积分支路拼接后接入一SE注意力模块,用于对每个通道赋予不同的权重。
5.根据权利要求2-4中任一项权利要求所述的基于改进Cycle GAN的图像生成方法,其特征在于,所述特征权重自适应模块还包括残差支路。
6.根据权利要求5所述的基于改进Cycle GAN的图像生成方法,其特征在于,所述平均池化支路包括平均池化层和tanh激活层一,所述最大池化支路包括最大池化层和tanh激活层二。
7.根据权利要求6所述的基于改进Cycle GAN的图像生成方法,其特征在于,所述多卷积分支路的计算公式为:
Figure 48522DEST_PATH_IMAGE001
其中,
Figure 146928DEST_PATH_IMAGE002
为按通道拼接函数,
Figure 241922DEST_PATH_IMAGE003
为1*1卷积,
Figure 19255DEST_PATH_IMAGE004
为3*3卷积,
Figure 123477DEST_PATH_IMAGE005
为5*5卷积,
Figure 810810DEST_PATH_IMAGE006
为7*7卷积,
Figure 342286DEST_PATH_IMAGE007
为1*1反卷积,
Figure 249324DEST_PATH_IMAGE008
为输入特征。
8.根据权利要求7所述的基于改进Cycle GAN的图像生成方法,其特征在于,所述针对提取的背景信息和目标特征信息进行不同权重的特征融合的计算公式为:
Figure 422816DEST_PATH_IMAGE009
其中,
Figure 167918DEST_PATH_IMAGE010
为归一化权重,
Figure 932612DEST_PATH_IMAGE011
为初始化指数权重,
Figure 763165DEST_PATH_IMAGE012
为特征权重,
Figure 474769DEST_PATH_IMAGE013
为平均池化支路,
Figure 136694DEST_PATH_IMAGE014
为最大池化支路,
Figure 9972DEST_PATH_IMAGE015
为多卷积分支路,
Figure 390138DEST_PATH_IMAGE016
为残差支路。
9.根据权利要求1所述的基于改进Cycle GAN的图像生成方法,其特征在于,所述编码器包括三个卷积层,3通道256*256的输入图像经过编码器输出256*64*64的特征图像,送入特征权重自适应模块,经特征融合后进入转换器,转换器包括九个残差块,每个残差块由 2个卷积层组成,解码器包括三个反卷积层将256*64*64的特征图还原成3通道256*256的输出图像。
CN202210418314.8A 2022-04-21 2022-04-21 一种基于改进Cycle GAN的图像生成方法 Expired - Fee Related CN114511475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210418314.8A CN114511475B (zh) 2022-04-21 2022-04-21 一种基于改进Cycle GAN的图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210418314.8A CN114511475B (zh) 2022-04-21 2022-04-21 一种基于改进Cycle GAN的图像生成方法

Publications (2)

Publication Number Publication Date
CN114511475A CN114511475A (zh) 2022-05-17
CN114511475B true CN114511475B (zh) 2022-08-02

Family

ID=81554940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210418314.8A Expired - Fee Related CN114511475B (zh) 2022-04-21 2022-04-21 一种基于改进Cycle GAN的图像生成方法

Country Status (1)

Country Link
CN (1) CN114511475B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116882473A (zh) * 2023-06-29 2023-10-13 无锡芯光互连技术研究院有限公司 神经网络的训练方法、图像分类方法、电子设备及介质
CN118115862B (zh) * 2024-04-30 2024-07-05 南京信息工程大学 一种人脸图像篡改异常检测方法、装置及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008842A (zh) * 2019-03-09 2019-07-12 同济大学 一种基于深度多损失融合模型的行人重识别方法
CN110599530A (zh) * 2019-09-03 2019-12-20 西安电子科技大学 基于双正则约束的mvct图像纹理增强方法
CN110992275A (zh) * 2019-11-18 2020-04-10 天津大学 一种基于生成对抗网络的细化单幅图像去雨方法
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN111861910A (zh) * 2020-06-29 2020-10-30 深圳高性能医疗器械国家研究院有限公司 一种ct图像降噪系统及方法
CN111915513A (zh) * 2020-07-10 2020-11-10 河海大学 一种基于改进的自适应神经网络的图像去噪方法
CN112233018A (zh) * 2020-09-22 2021-01-15 天津大学 基于三维形变模型的参考图引导的人脸超分辨率方法
CN113496235A (zh) * 2020-03-19 2021-10-12 阿里巴巴集团控股有限公司 图像处理方法、装置及系统、存储介质、计算设备
CN113807497A (zh) * 2021-09-02 2021-12-17 电子科技大学 一种增强纹理细节的非配对图像翻译方法
CN113870157A (zh) * 2021-09-26 2021-12-31 电子科技大学 一种基于CycleGAN的SAR图像合成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163401B (zh) * 2020-10-22 2023-05-30 大连民族大学 基于压缩与激励的gan网络的汉字字体生成方法
CN113762277B (zh) * 2021-09-09 2024-05-24 东北大学 一种基于Cascade-GAN的多波段红外图像融合方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008842A (zh) * 2019-03-09 2019-07-12 同济大学 一种基于深度多损失融合模型的行人重识别方法
CN110599530A (zh) * 2019-09-03 2019-12-20 西安电子科技大学 基于双正则约束的mvct图像纹理增强方法
CN110992275A (zh) * 2019-11-18 2020-04-10 天津大学 一种基于生成对抗网络的细化单幅图像去雨方法
CN113496235A (zh) * 2020-03-19 2021-10-12 阿里巴巴集团控股有限公司 图像处理方法、装置及系统、存储介质、计算设备
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN111861910A (zh) * 2020-06-29 2020-10-30 深圳高性能医疗器械国家研究院有限公司 一种ct图像降噪系统及方法
CN111915513A (zh) * 2020-07-10 2020-11-10 河海大学 一种基于改进的自适应神经网络的图像去噪方法
CN112233018A (zh) * 2020-09-22 2021-01-15 天津大学 基于三维形变模型的参考图引导的人脸超分辨率方法
CN113807497A (zh) * 2021-09-02 2021-12-17 电子科技大学 一种增强纹理细节的非配对图像翻译方法
CN113870157A (zh) * 2021-09-26 2021-12-31 电子科技大学 一种基于CycleGAN的SAR图像合成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于CycleGAN的图像风格转换;彭鹏;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200115;全文 *
基于改进型循环一致性生成对抗网络的低剂量;朱斯琪;《光学学报》;20201130;第40卷(第22期);全文 *
基于残差密集块与注意力机制的图像去雾网络;李硕士;《湖南大学学报(自然科学版)》;20210630;第48卷(第6期);全文 *

Also Published As

Publication number Publication date
CN114511475A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN114511475B (zh) 一种基于改进Cycle GAN的图像生成方法
CN113658051B (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN113763296B (zh) 图像处理方法、设备以及介质
CN111768425B (zh) 图像处理方法、装置及设备
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110751649A (zh) 视频质量评估方法、装置、电子设备及存储介质
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN110852940A (zh) 一种图像处理方法及相关设备
CN110807757A (zh) 基于人工智能的图像质量评估方法、装置及计算机设备
CN111047543A (zh) 图像增强方法、装置和存储介质
CN112258625B (zh) 基于注意力机制的单幅图像到三维点云模型重建方法及系统
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN113487564B (zh) 用于用户原创视频的双流时序自适应选择视频质量评价方法
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN116630514A (zh) 图像处理方法、装置、计算机可读存储介质及电子设备
CN118134809A (zh) 基于面部属性信息预测的自适应人脸修复方法和装置
Peng et al. RAUNE-Net: A Residual and Attention-Driven Underwater Image Enhancement Method
CN113781352A (zh) 去光照方法、装置、电子设备与存储介质
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
CN116844008A (zh) 一种注意力机制引导的内容感知无参考图像质量评价方法
CN115409721A (zh) 暗光视频增强方法及装置
CN116264606A (zh) 用于处理视频的方法、设备和计算机程序产品
CN113744158A (zh) 图像生成方法、装置、电子设备和存储介质
CN113822117A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN117115453B (zh) 目标图像生成方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220802

CF01 Termination of patent right due to non-payment of annual fee