CN112541566A

CN112541566A - 一种基于重构损失的图像翻译方法

Info

Publication number: CN112541566A
Application number: CN202010978853.8A
Authority: CN
Inventors: 邵明文; 张文龙; 宋晓霞
Original assignee: Shandong To Letter Information Science And Technology Ltd; China University of Petroleum East China
Current assignee: Shandong To Letter Information Science And Technology Ltd; China University of Petroleum East China
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-03-23
Anticipated expiration: 2040-09-17
Also published as: CN112541566B

Abstract

本发明属于图像翻译技术领域，公开了一种基于重构损失的图像翻译方法，采用无监督的方法，使用循环一致性网络CycleGAN，利用循环一致性网络CycleGAN判别器提取真实数据的特征，向采用带跳跃连接的U‑net网络结构的生成器提供真实数据特征重建真实数据，采用LSGAN损失函数，对不同域的图像进行转换，将不成对的两个域的图片相互翻译。本发明生成器采用带跳跃连接的U‑net网络结构，使得粗粒度和细粒度的特征相融合；损失函数采用LSGAN，提高了训练过程的稳定性；利用判别器提取真实数据的特征，向生成器提供该特征来重建真实数据，优化真实数据与重构数据之差，使其误差最小，提高了图片的生成质量。

Description

一种基于重构损失的图像翻译方法

技术领域

本发明属于图像翻译技术领域，尤其涉及一种基于重构损失的图像翻译方法。

背景技术

目前，在图像处理、计算机图形学和计算机视觉三大领域中，很多问题被统一规定为，将输入图像“转换”为相应的输出图像。正如一个概念可以用英语或法语表达，场景可以呈现为RGB图像、边缘图或语义标签图。与语言翻译类似，图像翻译可以被定义为，在给定足够训练数据的情况下，将场景的一种表示方式转换为另一种。

卷积神经网络(CNNs)的出现极大推动了图像处理的发展，该网络已成为图像处理问题的背后主力。CNNs通过学习将损失函数降到最低--一个评估结果质量的目标，尽管学习过程是自动的，但仍需要手动设置有效的损失函数。换句话说，告诉CNNs将损失函数降到最低。如果采取一些方法并要求CNNs最小化预测像素和ground truth像素之间的欧几里得距离，它将倾向于产生模糊的结果。这是因为通过平均所有合理的输出来最小化欧几里德距离。因此提出合理的损失函数迫使CNNs输出清晰、逼真的图像，是图像处理领域一直致力解决的问题。

设定一个高级目标，令输出与现实无法区分，让网络模型自动学习适合于满足此目标的损失函数并优化，与现有技术1提出的生成对抗网络(GAN)表达的思想一致。假设输出图像为真或假时，GAN则会学习一种损失，试图对其进行分类，同时训练生成模型以最小化这种损失。因为GAN学习适应数据的损失，所以它可以应用于传统上需要不同类型损失函数的大量任务，但其缺陷是太过自由，对于较大图片、较多像素的情形，基于简单GAN的方式不太可控，生成数据与原始数据差异较大。因此现有技术2提出了CGAN模型，在GAN 模型的基础上添加了额外的条件约束信息，用来指导数据的生成过程，虽然改善了实验效果，但结果仍存在不稳定、模糊、斑点等各类问题。现有技术3提出Pix2Pix模型，该模型添加了一个L1损失，即在图像的像素级别计算损失， pix2pix产生的效果图更接近于真实的图像。然而还有许多方法要求进行有监督的训练，即拥有带标签的配对数据，但获得配对数据集需要耗费大量的物力财力，甚至是不可实现的。随后，其他模型相继被提出，利用非配对的数据集进行无监督地训练。3个非监督学习的网络模型架构极其相似，均由2个GAN结构组成，但在目标函数、生成器、判别器的构成上略有不同。然而，以上所采用的方法均将生成器和真实数据分离，即让生成器间接学习真实数据的分布，从而导致生成低质量的图像。

通过上述分析，现有技术存在的问题及缺陷为：

现有基于GAN的图像翻译方法将生成器与训练样本分离，使得生成器间接地学习训练样本的分布，进而导致生成图像质量低，且真实图像与生成的翻译图像的误差大。

解决以上问题及缺陷的难度为：

在图像翻译任务中，获得大量的成对训练数据集需要耗费很大的成本，而且有时候无法获取成对数据。因此，在GAN的训练中使用非成对的数据，而且训练过程中伴随着训练不稳定和模式崩溃的问题。

解决以上问题及缺陷的意义为：

解决以上问题不仅提高判别器的性能，而且使得生成器直接学习数据分布，进而生成高质量图像。

发明内容

针对现有技术存在的问题，本发明提供了一种基于重构损失的图像翻译方法。

本发明是这样实现的，一种基于重构损失的图像翻译方法，包括：

采用无监督的方法，使用基于生成式对抗网络的架构的循环一致性网络CycleGAN，利用循环一致性网络CycleGAN判别器提取真实数据的特征，采用带跳跃连接的U-net网络结构的生成器提供真实数据特征重建真实数据，采用原始GAN中的对抗损失，LSGAN损失函数和域内重构损失(IDRL)，对不同域的图像进行转换，有效地防止训练过程中的不稳定及模式崩溃问题。

进一步，所述基于生成式对抗网络的架构的循环一致性网络CycleGAN包括：

生成器，采用带跳跃连接的U-net网络结构，用于将判别器提供的真实数据特征作为输入，重建真实数据；

判别器，用于提取真实数据的特征，同时区分真实图像与翻译图像，辨别图像真伪。

进一步，所述生成器采用带有跳跃连接的“U-Net”网络架构；在每个i层和n-i层之间添加连接，其中n表示层的总数；即每个跳跃连接将第i层的所有通道与第n-i层的所有通道相连接。

进一步，所述循环一致性网络CycleGAN目标函数包括：

对抗性损失、循环一致性损失、重构损失；

对抗性损失：

循环一致性损失：

重构损失：

总目标函数：

其中，λ₁、λ₂为不同损失相应的权重，用于平衡不同损失对整个损失函数的影响。

进一步，所述LSGAN损失函数为：

进一步，所述基于重构损失的图像翻译方法包括以下步骤：

步骤一，分别从图像域Ω_A、Ω_B中获取相应的样本集χ_A、χ_B；其中x_A∈χ_A和 x_B∈χ_B表示数据样本；

步骤二，利用图像域Ω_B的判别器D_B提取x_B图像的特征f_B；

步骤三，将提取得到的图像特征f_B作为由Ω_A到Ω_B的生成器l_AB的输入，得到翻译图像G_AB(D_B(x_B))；同时将图像x_A输入到生成器G_AB中得到图像x_A的重构图像x′_B；

步骤四，利用判别器D_B区分图像x_B与重构图像x′_B；同时将重构图像x′_B输入到由Ω_B到Ω_A的生成器G_BA中得到重构图像x″_A，实现从图像域Ω_A到图像域Ω_B的转换。

进一步，所述基于重构损失的图像翻译方法还包括：

(1)从Ω_A数据分布中随机抽取m个样本：

(2)从Ω_B数据分布中随机抽取m个样本：

(3)通过随机梯度下降更新判别器：

(4)通过随机梯度下降更新生成器：

本发明的另一目的在于提供一种实施所述基于重构损失的图像翻译方法的基于重构损失的图像翻译系统，所述基于重构损失的图像翻译系统包括：

样本集获取模块，从图像域中获取相应的样本集；

图像域转换模块，利用判别器区分图像与重构图像；同时将重构图像输入到生成器中得到重构图像，实现不同图像域的转换。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

采用无监督的方法，使用基于生成式对抗网络的架构的循环一致性网络CycleGAN，利用循环一致性网络CycleGAN判别器提取真实数据的特征；

向采用带跳跃连接的U-net网络结构的生成器提供真实数据特征重建真实数据；

采用LSGAN损失函数，对不同域的图像进行转换，将不成对的两个域的图片相互翻译。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

本发明使用基于生成式对抗网络的架构对不同域的图像进行转换。本发明采用无监督的方法，使用循环一致性网络CycleGAN，将不成对的两个域的图片相互翻译。为了提高图片的生成质量，生成器采用带跳跃连接的U-net网络结构，使得粗粒度和细粒度的特征相融合；损失函数采用LSGAN，以提高训练过程的稳定性。本发明首先利用判别器提取真实数据的特征，然后向生成器提供该特征来重建真实数据，最后优化真实数据与重构数据之差，使其误差最小。最后，在多个数据集上验证了本发明的方法在图像翻译方面的有效性。

本发明以CycleGAN为图像翻译基本模型，在此结构上使用重构损失，改善了对抗性生成网络在训练稳定性和模式多样性方面的性能。即生成器利用判别器学习的特征重建真实数据，从而进一步鼓励判别器捕获信息特征并将生成器引导到真实数据的分布附近。此外，判别器的性能也得到进一步提高。本发明在多个数据集上进行实验，证明该方法在图像翻译领域的有效性。

对比的技术效果或者实验效果，如表1.

表1：(值越大越好)

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于重构损失的图像翻译方法原理图。

图2是本发明实施例提供的Ω_A→Ω_B的图像翻译方法原理图。

图3是本发明实施例提供的基于生成式对抗网络的架构的循环一致性网络CycleGAN结构示意图；

图中：1、生成器；2、判别器。

图4是本发明实施例提供的基于重构损失的图像翻译方法流程图。

图5是本发明实施例提供的在Cityscapes数据集上不同模型图像翻译的比较图。

图5中：(1)输入；(2)CycleGAN；(3)Ours；(4)ground truth；(5)输入；(6)CycleGAN；(7)Ours；(8)groundtruth。

图6是本发明实施例提供的橙子与苹果的图像翻译示例图。

图6中：orange-apple的翻译中(a)输入；(b)CycleGAN；(c)Ours； apple-orange的翻译中(d)输入；(e)CycleGAN；(f)Ours。

图7是本发明实施例提供的马与斑马的图像翻译示意图。

图7中：horse-zebra的翻译中(a)输入；(b)CycleGAN；(c)Ours；azebra-horse 的翻译中(d)输入；(e)CycleGAN；(f)Ours。

图8是本发明实施例提供的超参数对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于重构损失的图像翻译方法，下面结合附图对本发明作详细的描述。

如图1-图2所示，本发明实施例提供的基于重构损失的图像翻译方法包括：

采用无监督的方法，使用基于生成式对抗网络的架构的循环一致性网络CycleGAN，利用循环一致性网络CycleGAN判别器提取真实数据的特征，向采用带跳跃连接的U-net网络结构的生成器提供真实数据特征重建真实数据，采用 LSGAN损失函数，对不同域的图像进行转换，将不成对的两个域的图片相互翻译。

如图3所示，本发明实施例提供的基于生成式对抗网络的架构的循环一致性网络CycleGAN包括：

生成器1，采用带跳跃连接的U-net网络结构，用于将判别器提供的真实数据特征作为输入，重建真实数据；

判别器2，用于提取真实数据的特征，同时区分真实图像与翻译图像，辨别图像真伪。

本发明实施例提供的生成器采用带有跳跃连接的“U-Net”网络架构；在每个i层和n-i层之间添加连接，其中n表示层的总数；即每个跳跃连接将第i层的所有通道与第n-i层的所有通道相连接。

本发明实施例提供的循环一致性网络CycleGAN目标函数包括：

对抗性损失、循环一致性损失、重构损失；

对抗性损失：

循环一致性损失：

重构损失：

总目标函数：

本发明实施例提供的LSGAN损失函数为：

如图4所示，本发明实施例提供的基于重构损失的图像翻译方法包括以下步骤：

S101，分别从图像域Ω_A、Ω_B中获取相应的样本集χ_A、χ_B；其中x_A∈χ_A和x_B∈χ_B表示数据样本；

S102，利用图像域Ω_B的判别器D_B提取x_B图像的特征f_B；

S103，将提取得到的图像特征f_B作为由Ω_A到Ω_B的生成器G_AB的输入，得到翻译图像G_AB(D_B(x_B))；同时将图像x_A输入到生成器G_AB中得到图像x_A的重构图像x′_B；

S104，利用判别器D_B区分图像x_B与重构图像x′_B；同时将重构图像x′_B输入到由Ω_B到Ω_A的生成器G_BA中得到重构图像x″_A，实现从图像域Ω_A到图像域Ω_B的转换。

本发明实施例提供的基于重构损失的图像翻译方法还包括：

(1)从Ω_A数据分布中随机抽取m个样本：

(2)从Ω_B数据分布中随机抽取m个样本：

(3)通过随机梯度下降更新判别器：

(4)通过随机梯度下降更新生成器：

下面结合具体实施例对本发明的技术方案作进一步说明。

实施例：

1、本发明的主要分为以下三个方面：

1)在原CycleGAN中，生成器具有单一输入，而本发明将判别器提取真实样本的特征作为生成器的另一输入，从而输出重构样本，进而优化真实样本与重构样本之差，即重构损失。

2)在原CycleGAN中，判别器用于判别真实样本和生成器生成样本，在此基础上，本发明又将判别器用于真实样本特征的提取，进而提高判别器判别图像真伪的性能。因判别器需要提取真实样本的特征，故将加深对真实样本分布的认知。

3)本发明将重构损失应用于图像翻译领域以此产生高质量的图像。

2相关技术分析

2.1生成式对抗网络

受零和游戏的影响，典型的GAN模型由两个模块组成：生成器和判别器。当判别器学会区分真实样本和假样本时，生成器学习生成与真实样本无法区分的假样本。GAN在各种计算机视觉任务中都取得了令人瞩目的成果，如图像生成，图像编辑和表示学习。具体而言，各种扩展GAN在许多生成任务中取得了良好的效果，如图像修复，text2image和未来预测，以及其他领域，如视频和 3D数据。本发明提出了一个可扩展的GAN框架，以实现基于非监督的图像生成。

最近提出许多方案来解决GAN训练不稳定性和模式缺失的问题，大致可分为三类：增加监管条件，如分类信息；与传统网络的结合；以及优化具有不同目标函数的网络。第一类可以被视为监督GAN，包括Semi-GAN，C-GAN， Info-GAN等。第二类与其他网络的结合，例如自动编码器，包括基于能量的GAN， BEGAN，DFM，VAE-GAN，MRGAN，α-GAN等。第三类既不需要额外的信息也不改变网络架构，但采用不同的损失功能，包括LSGAN，McGAN，WGAN， WGAN-GP，AGE，DRAGAN等，以上可以看作是GAN的变种。这些方法具有或多或少的缺点。监督方法需要获取困难和昂贵的分类信息。混合方法需要同时优化多个网络(两个以上)，从而导致耗时且高计算复杂度。虽然对于GAN 的变体，例如WGAN未充分利用鉴别器的能力，但WGAN-GP引入了外部计算开销，而AGE在产生高质量图像方面存在缺陷。本发明主要关注完全无监督的 GAN。

2.2 U-Net网络

U-Net架构是卷积神经网络的一种变形，因其结构形似字母U，而得名U-Net。整个神经网络主要有两部分：收缩路径(contracting path)和扩展路径(expanding path)。收缩路径主要用来捕捉图像中的上下文信息(context information)，而与之相对称的扩展路径则是为了对图片中所需要分割出来的部分进行精准定位 (localization)。U-Net诞生的一个主要前提是，很多时候深度学习的结构需要大量的sample和计算资源。而U-Net是基于FCN(Fully Convultional Neural Network：全卷积神经网络)进行改进，并且利用数据增强(data augmentation) 可以对一些比较少样本的数据进行训练，特别是医学方面相关的数据，所以 U-Net的出现对于深度学习用于较少样本的医学影像是很有帮助的。

以上阐述的U-Net是基于FCN进行改进的，比较特殊的地方是U-Net并不是像FCN简单地对图片进行encode和decode，U-Net为了能精准的定位，收缩路径上提取出来的高像素特征会在上采样(upsampling)过程中与新的特征图 (feature map)进行结合，以最大程度的保留前面下采样(downsampling)过程一些重要的特征信息。而为了能使网络结构能更高效的运行，结构中是没有全连接层(fully connected layers)，这样子可以很大程度上减少需要训练的参数，并得益于特殊的U形结构可以很好的保留图片中的所有信息。U-Net基本可以对任意形状大小的图片进行卷积操作，特别是任意大的图片。

2.3图像翻译

图像翻译的想法追溯到Image Analogies，在单个输入输出训练图像对上使用非参数纹理模型。传统的算法均针对特定的应用场景而设计，建立适合特定场景的模型。最近的方法是在CNNs模型上使用输入-输出样本对的数据集来学习。随着卷积神经网络的发展，其被用来作为图像翻译的模型，但对于具体任务的模型构建，损失函数设计及优化策略都不太相同，这大大加重了模型设计的负担。同时，现有的图像翻译任务都是基于监督学习的模型，需要大量成对的训练数据，然而现实中获得这种成对的数据是很困难的，而且成本高昂。这就需要半监督或者无监督算法来完成图像翻译任务。最近的图像翻译工作都是通过大量输入-输出图像对来训练一个卷积神经网络模型。损失函数也均采用原始GAN的损失，就会导致生成图像的质量差。因此损失函数的优化也是图像翻译中一个重要的研究方向。

3背景

3.1问题的设定

设Ω_A、Ω_B为两个图像域，χ_A、χ_B分别为来自每个域的样本(图像)集。此外，令x_A∈χ_A和x_B∈χ_B表示数据样本。D_A和D_B分别代表两个域的判别器，G_AB和G_BA分别代表由Ω_A到Ω_B的生成器和由Ω_B到Ω_A的生成器。本发明使用

代表x_A经过判别器D_A在第i层提取的特征，

代表x_B经过判别器D_B在第i层提取的特征。

3.2最小二乘生成式对抗网络

标准GAN由两个卷积神经网络(CNN)组成，称为生成器和判别器：前者将随机噪声作为输入来产生图像，而后者识别其输入是真实的或是生成的。生成器和判别器CNN的参数针对最小-最大游戏中的对抗性损失进行优化。其对抗性损失为：

原始GAN损失函数的缺陷是以交叉熵作为损失，导致生成器不再优化被判别器识别为真实图像的生成图像，即使这些生成图像距离判别器的决策边界仍然很远，即距真实数据比较远。这意味着生成器的生成图像质量并不高。生成器不再进一步优化生成图像,是因为生成器已经完成为它设定的目标——尽可能地混淆判别器，所以交叉熵损失已经很小了。然而最小二乘损失则不同，假设试图减少最小二乘损失，则必须在混淆判别器的前提下还得让生成器把距离决策边界比较远的生成图片像拉向决策边界。所以本发明使用最小二乘损失 LSGAN：

3.3循环一致性GAN

在训练GAN时会经常出现模式崩溃。模式崩溃是指生成器G从真实数据域中学习并产生一些样本但又仅仅局限在这些样本上，而判别器仅仅用来判别图像真伪但不包括图像多样性，导致生成器生成图像的多样性差。模式崩溃一般出现在GAN训练不稳定的时候，具体表现为生成出结果非常差，即使加长训练时间也无明显改善。在一些解决方案中，非常有前景的一个是Cycle-GAN，它对 GAN的目标增加了额外的约束，即隐含地增加了生成图像的多样性。具体地， Cycle-GAN损失要求将翻译的数据重新转换回其原始输入。这种损失可以写成：

4重构损失的CycleGAN

4.1重构损失

本发明所采用的重构损失主要体现在以下两个方面：一、将真实样本作为判别器的输入并在判别器的不同层上提取特征图(不同层的特征对重构真实样本所产生的影响不同)；二、将判别器提取的特征图作为生成器的输入，从而产生重构图像，进而重构图像与真实样本在像素级别做L1损失。以下是重构损失的表达：

||·||代表此损失函数使用L1范数，i代表真实样本在判别器第i层所提取的特征图。本发明将重构损失应用到CycleGAN框架上所延伸出的损失函数为：

具有重构损失的CycleGAN目标函数意味着整个网络具有对真实样本明确的估计，因此可以提高训练稳定性以及阻止模式丢失。原始GAN训练困难的主要原因是判别器与训练数据和生成数据完全分开，因此生成器无法接收任何梯度来优化自身。此方法中的生成器接收三种优化信号，一种是来自原始GAN中的鉴别器的分类结果，一种是真实样本的L1重构损失，另一种是保持内容一致性的循环损失，因此可以有效地防止无梯度问题以及训练不稳定。此外，由于真实样本重构是基于判别器提供的特征，因而判别器需要从真实样本中捕获信息特征，由此进一步提高了判别器判别真实样本与生成样本的能力。模式崩溃是因生成器学到一部分真实数据的特征进而可以欺骗判别器，导致生成器的优化停滞不前。而在本发明中根据公式(5)中的G(D(x))可知，所有真实样本以一定的概率通过生成器，因此，生成器将会学到较全真实样本的特征，从而达到解决模式崩溃问题

4.2总体架构

总体框架图如图1所示。本发明对生成器和判别器结构进行调整。生成器和判别器使用的模块形式均为：卷积-批标准化-Relu激活函数。

4.2.1模型

本发明目标是在给定训练样本x_A、x_B的情况下学习两个域Ω_A和Ω_B之间的映射函数。将数据分布表示为x_A～Ω_A和x_B～Ω_B。如图2所示，该模型包括两个映射 G_AB：X_A～X_B和G_BA：X_B～X_A。此外，还引入了两个对抗性判别器D_A和D_B，其中D_A旨在区分图像{x_A}和翻译图像{G_BA(D_A(x_A))}；以同样的方式，D_B旨在区分{x_B} 和{G_AB(D_B(x_B))}。判别器D_A和D_B不仅用于判别图像真伪，还用于提取Ω_A和Ω_B域图像的特征，并将该特征作为生成器的输入进而得到重构图像。算法流程如下所示。

4.2.2损失函数

本发明目标函数分为三部分：对抗性损失、循环一致性损失、重构损失。

对抗性损失：由公式(2)、(3)可知

同理：

循环一致性损失：公式(4)

重构损失：公式(5)、(6)

总目标函数：

λ₁、λ₂为不同损失相应的权重，用于平衡不同损失对整个损失函数的影响，通过实验结果的对比(在第6部分详细的讲解)，本发明设定λ₁＝10，λ₂＝5。

5实现技术

5.1网络架构

生成器的详细架构如表格1所示。图像翻译问题的一个特点是它们将高分辨率输入图像映射到高分辨率输出图像。虽然图像输入和图像输出的外观不同，但两者都具有相同底层结构的渲染，因而输入结构与输出结构大致对齐。基于这一点，本发明采用“U-Net”作为生成器的架构，但同时由于图像下采样后会丢失部分信息，从而导致上采样时产生质量差的输出，为了解决这个问题，本发明采用带有跳跃连接的“U-Net”网络架构。该架构在每个i层和n-i层之间添加连接，其中n表示层的总数。即每个跳跃连接将第i层的所有通道与第n-i 层的所有通道相连接。

表1生成器的网络结构

判别器的详细架构如表格2所示。

表2判别器的网络结构

Layer	InputShape	OutputShape
			Conv-Lrelu	[256,256,3]	[128,128,64]
Conv-BN-Lrelu	[128,128,64]	[64,64,64*2]
			Conv-BN-Lrelu	[64,64,64*2]	[32,32,64*8]
Conv-BN-Lrelu	[32,32,64*8]	[32,32,64*8]
			Conv	[32,32,64*8]	[32,32,1]

5.2参数设置

在所有实验中使用批量大小为1的Adam优化器，设置λ₁＝10，λ₂＝5.0。所有的网络都是从头开始训练，并令学习率为0.0002。在前100个训练轮次保持相同的学习率，并在后100个训练轮次中将速率线性衰减为零。

6、下面结合实验对本发明作进一步描述。

本发明在Horse2Zebra、Apple2Orange、Cityscapes等多个数据集上进行实验，其中batchsize大小设置为1，epoch设置为200。实验是在Tensorflow 环境中进行，在具有Intel(R)Xeon(R)CPU和Nvidia GTX2080Ti GPU图形处理单元的Linux机器上完成。

6.1数据集

Horse2Zebra和Apple2Orange数据集分别是马

斑马，苹果

橘子，均从ImageNet上下载。图像分辨率为256×256像素。每个类别的训练集

大小为：1067(马)，1334(斑马)，996(苹果)和1020(橘子)。

Cityscapes数据集由奔驰主推，提供无人驾驶环境下的图像分割数据集，用于评估视觉算法在城区场景语义理解方面的性能。

6.2定性评估

6.2.1多数据集

将提出的方法与CycleGAN、SimGAN在图像翻译方面进行定性比较。实验表明本发明提出的方法提高了图片翻译的质量。

图5，展示了本发明方法与CycleGAN、SimGAN在cityscapes数据集上定性比较的结果。此外，为了证明本发明提出的算法可以适用于多种类型的图像翻译，分别使用Horse2Zebra数据集和Apple2Orange数据集对本发明的模型进行相应的训练。网络模型训练方法和上述相同，实验结果分别如图6和图7所示，表明该模型在Horse2Zebra数据集和Apple2Orange数据集上也具有良好的表现。

图5展示了使用同一数据集cityscapes在不同模型上的实验结果。左图为场景图到标签图((1)输入(2)CycleGAN(3)Ours(4)ground truth)，右图((5) 输入(6)CycleGAN(7)Ours(8)groundtruth)为标签图到场景图。三行分别代表了三张不同翻译结果。左图的第一列为真实场景图，最后一列为真实场景图对应的groundtruth，中间三列分别为SimGAN、CycleGAN和本发明方法的效果图。SimGAN^[34]使用对抗性损失训练从X到Y的翻译，正则化项||x-G(X)||₁被用于优化生成器，但导致生成器倾向于过度强调特征来欺骗D，产生偏差、伪影，故产生的结果图较模糊；CycleGAN保证了内容的一致性，但生成器是间接学习数据分布，导致产生低质量图像；本发明不仅提高判别器的性能，而且使得生成器直接学习数据分布，进而产生高质量图像，右图亦然。

6.2.2超参数的设置

本发明针对超参数的值进行多次实验，实验结果如下图8所示。在 Horse2Zebra数据集上，本发明测试了λ₂的4种设置来评估每种方法对图像生成质量的影响。图8中的第一列为输入图片，其他列分别为λ₂＝0、1、5、10的效果图。本发明采用λ₂＝5。

6.3定量分析

除视觉效果外，本发明还对cityscapes测试数据集进行定量评估，PSNR和 SSIM两个指标是在翻译图像与原图像的ground truth之间计算。

PSNR(Peak Signal to Noise Ratio)峰值信噪比，一种全参考的图像质量评价指标。

其中，MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error)， H、W分别为图像的高度和宽度；n为每像素的比特数，一般取8，即像素灰阶数为256。PSNR单位为dB，数值越大表示失真越小。PSNR作为一种图像客观评价指标，具有使用普遍性和广泛性的特点，但是它是基于对应像素点间的误差，即基于误差敏感的图像质量评价。由于并未考虑到人眼的视觉特性(人眼对空间频率较低的对比差异敏感度较高，人眼对亮度对比差异的敏感度较色度高，人眼对一个区域的感知结果会受到其周围邻近区域的影响等)，因而经常出现评价结果与人的主观感觉不一致的情况。

SSIM(structural similarity)结构相似性，也是一种全参考的图像质量评价指标，它分别从亮度、对比度、结构三方面度量图像相似性。

其中μ_X、μ_Y分别表示图像X和Y的均值，σ_X、σ_Y分别表示图像X和Y的方差，σ_XY表示图像X和Y的协方差，即

C₁、C₂、C₃为常数，为了避免分母为0的情况，通常取C₁＝(K₁*L)², C₂＝(K₂*L)²,C₃＝C₂/2,一般地K₁＝0.01,K₂＝0.03,L＝255.则

SSIM(X,Y)＝l(X,Y)·c(X,Y)·s(X,Y) (19)

SSIM取值范围[0,1]，值越大，表示图像失真越小。

计算结果如表3所示。

表3在PSNR和SSIM上的定量实验结果

本发明以CycleGAN为图像翻译基本模型，在此结构上使用重构损失，以达到改善对抗性生成网络在训练稳定性和模式多样性方面的性能。即生成器利用判别器学习的特征重建真实数据，从而进一步鼓励判别器捕获信息特征并将生成器引导到真实数据的分布附近。此外，判别器的性能也得到进一步提高。本发明在多个数据集上进行实验，证明该方法在图像翻译领域的有效性。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。