CN114511475B

CN114511475B - 一种基于改进Cycle GAN的图像生成方法

Info

Publication number: CN114511475B
Application number: CN202210418314.8A
Authority: CN
Inventors: 侯永宏; 侯春羽; 李斌; 朱新山; 李施琦; 屈璐瑶; 曾筠婷; 李亚霖; 钱统玉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-02
Anticipated expiration: 2042-04-21
Also published as: CN114511475A

Abstract

本发明公开了一种基于改进Cycle GAN的图像生成方法，包括从X域图像数据库中获取输入图像；将所述输入图像输入至编码器并输出特征图像；将所述特征图像输入至特征权重自适应模块，对所述特征图像提取背景信息和目标特征信息，并针对提取的背景信息和目标特征信息进行不同权重的特征融合；将处理后的特征图像依次输入至转换器和解码器中还原生成输出图像。本发明的图像生成方法将特征融合机制引入Cycle GAN网络，改进后生成的图像效果更加真实，特征细节处理效果更好，且改善了原网络转换后背景失真问题，使得转换后的图像在结构、亮度和色彩上更加接近于真实场景下的图像。

Description

一种基于改进Cycle GAN的图像生成方法

技术领域

本发明涉及图像处理技术领域，具体为一种基于改进Cycle GAN的图像生成方法。

背景技术

循环生成对抗网络（Cycle GAN）是将生成对抗网络应用在无监督的图像到图像翻译的著名算法，其最大的特点是无监督，只需要提供不同域的图像就能成功训练不同域之间图像的映射，解决了成对数据并不容易获取的问题。如图1所示，Cycle GAN学习

及

两个映射，判别器

判断生成的图像是否为 Y 域的真实图像，判别器

判断生成的图像是否为 X 域的真实图像。域中的样本通过生成器生成域中的样本

，

再通过生成器F生成样本

，通过网络优化使得

尽可能接近于X域中的真实样本，即

，其差值作为循环一致性损失；同理，对偶反向循环的过程，对于Y域中的每个图像

，通过优化映射关系，使得

。

Cycle GAN的生成器负责生成虚假的目标域图像，如图2所示，其由编码器、转换器和解码器组成。其中编码器由3个卷积层构成，3通道256*256的输入图像经过编码器输出256*64*64的特征图，转换器由9个残差块组成，每个残差块由 2 个卷积层组成，解码器通过3个反卷积层将256*64*64的特征图还原成3通道256*256的图像输出。Cycle GAN的鉴别器负责判定生成图像是否为真实的目标域图像，如图3所示，其由 5 个卷积层构成。生成器的优化目标是尽可能欺骗鉴别器，鉴别器的优化目标是尽可能分辨出输入图像是真实或者虚假（生成器生成）。但是，原 Cycle GAN 生成的图像效果较差且有小部分的失真现象，背景对比原图有较大失真，对于不含转换目标的图像，仍然会对无关物体进行转换。

论文一公开了“一种基于 Cycle GAN 改进的低剂量 CT 图像增强网络”。如图4所示，改进的Cycle GAN 的生成器主要由编码器，特征转换模块，解码器三部分组成，如图5所示，在生成器中加入浅层特征预提取模块，由 7 条卷积核尺寸(逐通道卷积中卷积核的尺寸)和卷积层数目均不相同的深度可分离卷积支路，及 2 条不同的池化支路组成，为避免网络深度增加导致梯度消失，除第 1 条以外的其余 6 条深度可分离卷积支路中采用残差连接。将各支路提取到的多层次浅层特征在通道维度上连接并进行信息融合，最终输入CycleGAN 的生成器。但是，该生成器各特征提取分支以相同权重投入训练，无法根据不同数据集的特征进行泛化，并且无法针对需转化特征进行重点学习，导致计算资源浪费；同时该网络参数量大，不利于日常训练。

发明内容

本发明的目的在于提供了一种基于改进Cycle GAN的图像生成方法，将特征融合机制引入Cycle GAN网络，改进后生成的图像效果更加真实，特征细节处理效果更好，且改善了原网络转换后背景失真问题。

为实现上述目的，本发明提供如下技术方案：一种基于改进Cycle GAN的图像生成方法，包括：

从X域图像数据库中获取输入图像；

将所述输入图像输入至编码器并输出特征图像；

将所述特征图像输入至特征权重自适应模块，对所述特征图像提取背景信息和目标特征信息，并针对提取的背景信息和目标特征信息进行不同权重的特征融合；

将处理后的特征图像依次输入至转换器和解码器中还原生成输出图像。

优选的，所述特征权重自适应模块包括多条分支路，所述多条分支路包括两条池化支路用于提取风格和纹理信息，还包括多卷积分支路用于融合不同感受野尺度下的特征信息。

优选的，所述两条池化支路包括平均池化支路和最大池化支路，分别用于提取全局特征和提取局部特征。

优选的，所述多卷积分支路包括三组1*1卷积用于对特征图像进行通道压缩，三组所述1*1卷积分别接入一组3*3卷积、一组5*5卷积、以及一组7*7卷积，用于融合不同感受野尺度下的特征信息。

优选的，所述3*3卷积、5*5卷积和7*7卷积均接入一组1*1反卷积，用于对特征图像进行还原；所述多卷积分支路拼接后接入一SE注意力模块，用于对每个通道赋予不同的权重。

优选的，所述特征权重自适应模块还包括残差支路。

优选的，所述平均池化支路包括平均池化层和tanh激活层一，所述最大池化支路包括最大池化层和tanh激活层二。

优选的，所述多卷积分支路的计算公式为：

其中，

为按通道拼接函数，

为1*1卷积，

为3*3卷积，

为5*5卷积,

为7*7卷积，

为1*1反卷积，

输入特征。

优选的，所述针对提取的背景信息和目标特征信息进行不同权重的特征融合的计算公式为：

其中，

为归一化权重，

为初始化指数权重，

为特征权重，

为平均池化支路，

为最大池化支路，

为多卷积分支路，

为残差支路。

优选的，所述编码器包括三个卷积层，3通道256*256的输入图像经过编码器输出256*64*64的特征图像，送入特征权重自适应模块，经特征融合后进入转换器，转换器包括九个残差块，每个残差块由 2 个卷积层组成，解码器包括三个反卷积层将256*64*64的特征图还原成3通道256*256的输出图像。

与现有技术相比，本发明的有益效果是：

本发明提供的改进Cycle GAN的图像生成方法，通过经过多组支路的特征提取后，在保留原始特征同时，通过两条池化支路提取风格和纹理信息，通过多卷积分支路提取目标特征后，对不同支路特征提取到的特征进行融合。为了提高特征处理模块的普适性，引入特征权重自适应的方法，使得模型可以根据不同数据集的特征分布自行调整特征融合权重。使得改进后生成的图像效果更加真实，特征细节处理效果更好，改善了原网络转换后背景失真问题，使得转换后的图像在结构、亮度和色彩上更加接近于真实场景下的图像。

附图说明

图1为现有技术中循环生成对抗网络Cycle GAN的原理图；

图2为现有技术中循环生成对抗网络Cycle GAN的生成器结构图；

图3为现有技术中循环生成对抗网络Cycle GAN的鉴别器结构图；

图4为现有技术论文一中改进Cycle GAN的生成器结构图；

图5为现有技术论文一中改进Cycle GAN生成器加入浅层特征预提取的结构图；

图6为本发明一种基于改进Cycle GAN的图像生成方法的流程图；

图7为本发明一种基于改进Cycle GAN的图像生成方法中特征权重自适应模块的结构图；

图8为本发明一种基于改进Cycle GAN的图像生成方法与现有技术的图像生成效果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图6所示，本发明提供的一种实施例，一种基于改进Cycle GAN的图像生成方法，包括：

从X域图像数据库中获取输入图像；

将所述输入图像输入至编码器并输出特征图像；

如图7所示，具体的，本发明的改进CycleGAN的生成器由编码器、转换器和解码器组成，其中编码器由3个卷积层构成，3通道256*256的输入图像经过编码器输出256*64*64的特征图像，转换器由9个残差块组成，每个残差块由 2 个卷积层组成，解码器通过3 个反卷积层将256*64*64的特征图还原成3通道256*256的图像输出。CycleGAN的鉴别器由 5 个卷积层构成。由于网络需同时训练两个不共享参数的生成器，并尽可能追求更高的生成图像分辨率，受限于计算机内存，网络不支持过大的参数量，特征学习只通过浅层残差网络进行，传统的增加残差网络深度寻求性能提升的方法在CycleGAN网络改进中并不适用。在不大幅增加网络参数的前提下，希望网络尽可能学习目标特征信息，减少特征学习中无关特征的干扰，提高生成图像质量，缓解风格转换后图像失真的问题。转换器在ResNet的基础上，本发明提出了多分支权重自适应的特征融合网络。

优选的，所述特征权重自适应模块包括多条分支路，所述多条分支路包括两条池化支路用于提取风格和纹理信息，还包括多卷积分支路用于融合不同感受野尺度下的特征信息；所述两条池化支路包括平均池化支路和最大池化支路，分别用于提取全局特征和提取局部特征。首先使用平均池化支路提取全局特征，使之能够更多的保留图像的背景信息，其次使用最大池化支路提取局部特征，保留其风格信息。由于池化分支在提取特征时不需要额外学习参数，使得模块可以在不增加参数量的同时，较大程度上提取纹理信息，并一定程度上减小了背景信息对特征提取的干扰。

平均池化支路包括平均池化层和tanh激活层一，所述最大池化支路包括最大池化层和tanh激活层二，在平均池化层后接入tanh激活层，通过引入非线性因素，增强线性模型的表达能力；在最大池化层后同样引入一个tanh激活层。

优选的，所述多卷积分支路包括三组1*1卷积用于对特征图像进行通道压缩，三组所述1*1卷积分别接入一组3*3卷积、一组5*5卷积、以及一组7*7卷积，用于融合不同感受野尺度下的特征信息；所述3*3卷积、5*5卷积和7*7卷积均接入一组1*1反卷积，用于对特征图像进行还原；所述多卷积分支路拼接后接入一SE注意力模块，用于对每个通道赋予不同的权重。

具体的，多卷积支路分别用三组1*1卷积将特征图通道压缩，起到了降低特征图维度减少参数量防止过拟合的作用，为后续实现跨通道的交互和特征信息拼接整合提供了良好的基础。为通过融合不同感受野尺度下的特征图，增强特征图的表征能力，本发明在1*1卷积后分别加入一组3*3卷积、一组 5*5卷积、以及一组7*7后加入一组1x1反卷积对特征图进行还原，提高其分辨率。对同一组输入通过三条卷积分支进行特征提取后按通道拼接，记为

，计算公式如下：

其中，

为按通道拼接函数，

为1*1卷积，

为3*3卷积，

为5*5卷积,

为7*7卷积，

为1*1反卷积，

为输入特征。

在保证具有相同感收野的条件下，为提升网络的深度，获得更好特征提取性能，本发明采用两组3*3卷积作为替代，由于卷积提取的丰富特征，在拼接后，接入一个SE注意力模块。通道注意力通过对每个通道赋予不同的权重，对各个特征间的重要关系进行建模，使网络注意力集中于待转换的目标，减小了背景的干扰，在增加少量计算量的情况下，可以获得明显的性能提升。

最后，为最大程度保留输入的原始特征，引入残差分支Identity，所述特征权重自适应模块还引入了残差分支Identity。

经过四组支路的特征提取后，在保留原始特征同时，通过两条池化支路提取风格和纹理信息，通过多卷积分支提取目标特征后，对不同支路特征提取到的特征进行融合。为了提高特征处理模块的普适性，引入特征权重自适应的方法，使得模型可以根据不同数据集的特征分布自行调整特征融合权重。针对提取的背景信息和目标特征信息进行不同权重的特征融合的计算公式为：

其中，

为归一化权重，

为初始化指数权重，

为特征权重，

为平均池化支路，

为最大池化支路，

为多卷积分支路，

为残差支路，整个模块称为特征权重自适应模块（Feature weightadaptive module，FWA）。

实验分析：

1.1实验环境配置：本发明的实验环境为：Windows10 系统，CPU 为 Intel（R）Core（TM）i5-8250U@ 1.80GHz CPU，16G 内存。服务器为戴尔Precision T3430，Linux 系统，具体操作系统为 Ubantu20，有两块 Nvidia1080Ti显卡,Python3.8，使用Pytorch框架。实验中，batchsize设置为 1，程序运行200个epoch，前100个epoch保持学习率为0.0002不变，后100个epoch学习率线性衰减到0，整个网络使用 Adam 优化器进行优化。

1.2数据集

本发明采用了在CycleGAN中常用的horse2zebra数据集，该数据集包含不同背景下的马和斑马图像，训练集包括 1067张马图片和1334张斑马图片，测试集包括两种类型各120张图片。在进行实验前，首先对训练图像进行预处理，统一压缩为256* 256像素的图像。

1.3结构组成：本发明的编码器包括三个卷积层，3通道256*256的输入图像经过编码器输出256*64*64的特征图像，送入特征权重自适应模块，经特征融合后进入转换器，转换器包括九个残差块，每个残差块由2个卷积层组成，解码器包括三个反卷积层将256*64*64的特征图还原成3通道256*256的输出图像。

本发明中模型通过需要使用两个尺寸为3*3的卷积核替代尺寸为5*5 卷积核。在保证感受野不损失的情况下构建了更深的网络层，减少了模型的参数量。基于自适应权重的多层四路特征处理模块可以根据特征的特点在不同层对该层每一支路赋予相应的权重并进行融合，如表1所示，由于生成器G、F分别训练，其特征融合权重各不相同。其中，最大池化支路以及残差分支的权重占比较大，着重于提取全局特征，保留图像整体真实性。

表1特征处理模块各分支权重

为了证明本发明的图像生成效果，选取AtoB为主循环方向，从主循环实验结果中随机抽取4张图像进行展示，如图8示。从左到右依次是原马匹图像、CycleGAN、CycleGAN(+SE)、Ours（+FWA）和原斑马图像；由图8可以看出，原 CycleGAN 生成的图像效果较差且有小部分的失真现象，背景对比原图有较大失真，且对于不含转换目标的图像，仍然会对无关物体进行转换。而按本发明的方法生成的图像直观看出在亮度、色彩转换和细节处理方面效果均优于另外两种方法，基本上能保留原始背景，相对于原网络具有更好的性能。

除了主观结果外，还需要用具体数据来说明本发明图像生成的效果。本发明采用特征距离(FID)、结构相似度( SSIM)和峰值信噪比( PSNＲ)这三个图像生成领域常用的性能指标作为评价指标，对生成的斑马图像进行图像质量评价。FID是GAN网络的重要评价指标，考虑的更多是生成的图像与真实图像之间的联系。FID值表示生成图像的特征向量与真实图像的特征向量之间的距离，该距离越近，表明生成模型的效果越好，即图像的清晰度高，且多样性丰富。FID计算公式如下：

其中

为真实图片特征的均值，

为生成的图片特征的均值，

为真实图片特征的协方差矩阵，

为生成图片特征的协方差矩阵。

SSIM是一种衡量两幅图像相似度的指标，它主要从亮度、对比度和结构３个模块来对相似度进行测量，取值范围为 0 ～ 1，SSIM值越大，说明图像的结构越相似，其定义如下：

其中，

为增强后的图像，

为正常光照下的图像，

为图像

的像素平均值，

为图像

的像素平均值，

为

和

的协方差，

为图像

的方差，

为图像的方差，

和

为常数，取

。由于本文数据集没有配对关系，所以SSIM指标通过对比生成斑马图片和真实斑马图片得出。

PSNR是一种基于对应像素点间误差的纯客观的评价方式，取值范围一般是20-40。PSNＲ值越大，说明图像失真越小，图像的生成质量越高，定义如下:

其中，

一般为图像灰度级255。

对比结果如表2所示。

表2 生成图像性能指标

从表2中可以看出，本发明的图像生成方法相比CycleGAN算法及单独增加SE模块的方式在图像生成质量方面有较大提升。本发明的图像生成方法在FID指标上相比原CycleGAN算法降低了18.66，相比加入SE模块降低了5.91，在SSIM 指标上相比原CycleGAN算法提高了0.066，相比加入SE模块提高了0.024，在PSNR指标上相比原CycleGAN算法提高了0.129，相比加入SE模块提高了0.041。因此，文中方法生成的图像失真相对较小，与真实场景下的图像相似度更高。

本发明将特征融合机制引入CycleGAN网络，改进后生成的图像效果更加真实，特征细节处理效果更好，且改善了原网络转换后背景失真问题；通过改进 CycleGAN 的损失函数，提高训练质量、增强了训练过程的稳定性；上述实验表明，本发明的图像生成方法能够将实现特征风格转换，并且保证转换后的图像在结构、亮度和色彩上更加接近于真实场景下的图像。

工作原理：本发明提供的改进Cycle GAN的图像生成方法，通过经过多组支路的特征提取后，在保留原始特征同时，通过两条池化支路提取风格和纹理信息，通过多卷积分支路提取目标特征后，对不同支路特征提取到的特征进行融合。为了提高特征处理模块的普适性，引入特征权重自适应的方法，使得模型可以根据不同数据集的特征分布自行调整特征融合权重。使得改进后生成的图像效果更加真实，特征细节处理效果更好，改善了原网络转换后背景失真问题，使得转换后的图像在结构、亮度和色彩上更加接近于真实场景下的图像。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于改进Cycle GAN的图像生成方法，其特征在于，包括：

从X域图像数据库中获取输入图像；

将所述输入图像输入至编码器并输出特征图像；

所述特征权重自适应模块包括多条分支路，所述多条分支路包括两条池化支路用于提取风格和纹理信息，还包括多卷积分支路用于融合不同感受野尺度下的特征信息；

2.根据权利要求1所述的基于改进Cycle GAN的图像生成方法，其特征在于，所述两条池化支路包括平均池化支路和最大池化支路，分别用于提取全局特征和提取局部特征。

3.根据权利要求2所述的基于改进Cycle GAN的图像生成方法，其特征在于，所述多卷积分支路包括三组1*1卷积用于对特征图像进行通道压缩，三组所述1*1卷积分别接入一组3*3卷积、一组5*5卷积、以及一组7*7卷积，用于融合不同感受野尺度下的特征信息。

4.根据权利要求3所述的基于改进Cycle GAN的图像生成方法，其特征在于，所述3*3卷积、5*5卷积和7*7卷积均接入一组1*1反卷积，用于对特征图像进行还原；所述多卷积分支路拼接后接入一SE注意力模块，用于对每个通道赋予不同的权重。

5.根据权利要求2-4中任一项权利要求所述的基于改进Cycle GAN的图像生成方法，其特征在于，所述特征权重自适应模块还包括残差支路。

6.根据权利要求5所述的基于改进Cycle GAN的图像生成方法，其特征在于，所述平均池化支路包括平均池化层和tanh激活层一，所述最大池化支路包括最大池化层和tanh激活层二。

7.根据权利要求6所述的基于改进Cycle GAN的图像生成方法，其特征在于，所述多卷积分支路的计算公式为：

其中，

为按通道拼接函数，

为1*1卷积，

为3*3卷积，

为5*5卷积,

为7*7卷积，

为1*1反卷积，

为输入特征。

8.根据权利要求7所述的基于改进Cycle GAN的图像生成方法，其特征在于，所述针对提取的背景信息和目标特征信息进行不同权重的特征融合的计算公式为：

其中，

为归一化权重，

为初始化指数权重，

为特征权重，

为平均池化支路，

为最大池化支路，

为多卷积分支路，

为残差支路。

9.根据权利要求1所述的基于改进Cycle GAN的图像生成方法，其特征在于，所述编码器包括三个卷积层，3通道256*256的输入图像经过编码器输出256*64*64的特征图像，送入特征权重自适应模块，经特征融合后进入转换器，转换器包括九个残差块，每个残差块由 2个卷积层组成，解码器包括三个反卷积层将256*64*64的特征图还原成3通道256*256的输出图像。