CN109671018A

CN109671018A - 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统

Info

Publication number: CN109671018A
Application number: CN201811520157.1A
Authority: CN
Inventors: 胡辉; 崔淼
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-04-23

Abstract

本发明属于图像处理技术领域，公开了一种基于生成式对抗网络和ResNets技术的图像转换方法及系统，图像转换方法包括：首先利用两个GAN的对抗机制与范数损失函数结合的对偶学习的方法，设计了增强的高分辨率对偶GAN图像转换算法，该模型能采用无标签数据集、实现基于无监督学习的图像转换；其次通过引入重建一致性损失函数约束条件，实现从源分布转换为目标分布，然后重建源分布；最后在鉴别器中增加了稳定归一化层。与Pix2pixGAN,CycleGAN,DualGAN生成图像分辨率相比，本发明提出的ERGAN算法PSNR/SSIM的平均值分别提高了16％/35％，2％/9％，4％/6％。

Description

一种基于生成式对抗网络和ResNets技术的图像转换方法及系统

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于生成式对抗网络和ResNets技术的图像转换方法及系统。

背景技术

目前，业内常用的现有技术是这样的：

图像转换最近获得了越来越多的研究关注。图像转换旨在将原始域中的图像映射到另一域中的图像，即将给定的样本图像转成为各种新场景，例如不同季节间、不同的气候间、一天中不同时段的场景间的转换，许多计算机视觉和图像处理任务，特别是图像分割和图像超分辨率也可以被视为图像转换。目前，基于深度学习的图像转换主要应用于数据增强。基于图像转换的数据增强技术在目标检测、目标分割、强化学习等领域得到广泛应用。

迄今为止，传统图像转换方法已经在有监督学习下进行了训练，需要具有特定注释的大量配对数据集。然而，在实践中获取这样训练样本是耗时且困难的。因此，设计一种能够在使用不配对、无标签的图像数据集的情况下、将图像从源域转换到目标域的网络框架是很重要的。

生成对抗网络(GAN)中，生成器试图捕获实际数据的分布,而鉴别器学会区分真实数据和由生成器生成的数据，通过生成器和鉴别器的对抗学习机制，达到纳什平衡，即生成器生成逼真的图像，并不能被鉴别器判别。研究人员已经提出了一系列衍生的GAN系列算法来解决图像转换问题，例如Pix2pixGAN、CycleGAN、DualGAN、DisGAN等。这些算法生成器网络的结构很难提取低维空间特征信息，因此不能生成具有真实细节的高分辨率图像。

综上所述，现有技术存在的问题是：

传统ResNets结构的难以提取输入图像的低维空间的特征信息，这导致基于该结构的图像转换难以生成高分辨率图像，并且生成的图像缺乏细节和逼真的纹理。另外，网络的训练速度慢。

基于GAN、DCGAN、BlurGAN等传统图像转换算法往往只能实现单一的转换风格，不能实现多种图像转换任务。

CGAN、Pix2PixGAN和CoGAN等基于GAN的改进的图像转化方法难以发现重建的源图像与真实的源图像之间的特征相关性，另外还需要成对、有标签数据的图像数据集来训练GAN网络。

GAN及其改进算法面临存在的最大挑战是保证鉴别器网络训练过程的稳定性，特别是在高维空间中，鉴别器训练过程中的密度比估计经常是不稳定的，这导致生成器网络不能得到充分的训练，生成图像同时具有源图像和目标图像的特征。

解决上述技术问题的难度和意义：

难点：1)基于深度学习图像转换需要大量标签数据集训练。为了解决这个问题，目前研究人员通过生成式对抗网络技术实现图像转换，但是这样需要成对图像数据集进行训练。最近研究成果CycleGAN和DualGAN利用非成对数据进行训练，但是这两种算法不能相互学习源域图像与目标图像之间特征相关性。除了这些困难之外，在本发明设计图像转换框架中，还会采用相互对偶GAN，然而仅仅只有相互对偶GAN不能发现源域与目标域之间特征相关性。

2)目前一些图像转换方法中，例如Pix2pixGAN,CycleGAN等，生成器网络结构大部分采用U-Net和encoder-decoder，传统残差块组成ResNet网络结构，并尝试提取输入特征信息，然后，由于提出图像转换算法要具有较强的通用性，因此输入图像风格和物体各异，生成器使用传统网络结构不能提取输入图像局部特征信息。这样导致不能转换高分辨率详细纹理图像。

3)目前在GAN的训练中存在鉴别器网络训练稳定性问题。在高维空间中，鉴别器做出的密度比例估计往往不准确，而且在训练中非常不稳定，训练出了这样的鉴别器，生成器的训练就基本停滞了。至今在学术界，使用Kullback-Leibler(KL)散度控制鉴别器损失函数，但是KL加快训练过程收敛，鉴别器很早就进入了理想状态，这使得鉴别器不会向生成器反馈更多信息，导致生成器不能进行训练。

意义：

针对难点1)，本发明设计两个对偶的GAN，构成了一个对称结构，在源图像和重建图像之间引入重建一致性损失，该框架实现无监督学习，并发现源域与目标域之间特征相关性。

针对难点2)，生成器网络是一种混合组合，由三个子网络组成：编码器网络，残差网络和解码器网络，而不是采用常用U-Net和编码器-解码器。改生成器网络结构能同时提取输入图像高维和低维空间特征信息，生成更加逼真纹理的高分辨率图像。其中，残差网络网路是由残差块组成，提出残差块体系结构由两个带2×2卷积核和128个特征图的卷积层组成，卷积层网络后面是实例归一化层和使用PReLU作激活函数。第二卷积输入来自第一卷积层激活层输出特征。skip连接的目的可以确保先前网络层的输出直接作用于后续网络层。该残差块结构同时提高了训练速度。

针对难点3)鉴别器网络是由多层卷积神经网络组成，建立判别器的映射函数。提出基于利普希茨连续条件(Lipschitz continuity)对判别器的映射函数进行约束防止在鉴别器训练过程中达到局部梯度最小值。提高鉴别器训练稳定，使得鉴别器网络引导生成器生成更加真实目标域图像，并鉴别器和生成器达到真正纳什均衡。

发明内容

针对现有技术存在的问题，本发明提供了一种基于生成式对抗网络和ResNets技术的图像转换方法及系统。本发明可以使用图像转换方法生成高质量训练数据集，用于训练视觉检测算法，如YOLO，Faster R-CNN，R-FCN等。

本发明是这样实现的，一种基于生成式对抗网络和ResNets技术的图像转换方法。生成式对抗网络为GAN,Generative Adversarial Network；ResNets为残差网络。具体包括：

步骤一：基于重建一致性损失和对偶GAN设计图像转换框架，对偶GAN包括G_A→B生成器、G_B→A生成器、D_B鉴别器、D_A鉴别器，该框架可以实现无监督的学习，其中重建一致性损失能在无成对数据集下学习源域和目标域之间映射关系；

步骤二：基于步骤一设计图像转换框架建立目标函数，

上式中，u为u域图像,v为v域图像；G_A→B表示将u域图像转换成v域图像，G_B→A表示将v域图像转换成u域图像；D_A的作用是判别v域的生成图像是否逼近真实的u域图像，D_B的作用是判别u域的生成图像是否逼近真实的v域图像。第一个生成对抗网络的对抗函数，是第二个生成对抗网络的对抗函数，l_recon(G_A→B,G_B→A)为重建一致损失函数。

步骤三：设计步骤一中ERGAN的生成器G_A→B,G_B→A的网络结构,由编码器、ResNets网络和编码器组成生成器网络架构如图2所示。生成器功能源是将域图像装换成目标域图像。

步骤四：基于步骤三中生成器网络生成目标域图像，之后传送到鉴别器D_A,D_B网络,鉴别器对真实的目标域图像与生成的目标域图像进行评估。随着训练网络不断迭代，生成器可以生产更逼真的目标域图像，并且鉴别器会更好地鉴别它们。如果生成器无法产生越来越逼真的目标域图像，那么鉴别器的性能也不会得到提升，即鉴别器和生成器是一种对抗学习机制。

步骤五：完成步骤一至步骤四，然后设置训练参数并用数据集训练ERGAN网络提取特征，同时调整网络参数使得目标函数达到最小。

进一步，步骤二具体包括：

ERGAN模型包括对偶GAN和ERGAN模型的目标函数，其中目标函数包括重建一致性损失函数和对抗性损失函数。重建一致性损失函数由两个部分组成，一是重建的u域图像与输入u域图像之差；二是重建的v域图像与输入v域图像之差；重建一致性损失函数为此两部分之和,如下式所示:

在ERGAN模型中，提出了两个对抗性损失函数，分别如以下等式定义；

目标函数写成：

进一步，步骤三中，解码器网络由Pixelshuffler(PS)层和反卷积层组成；PS层输出的特征通道数为r²，其中r为缩放倍数；公式如下：

I_U ^SR＝f^L(I_V ^lR)＝PS(W_L ^*f^L-1(I_V ^lR)+b_L)

其中W_L是生成器第L层权重参数，b_L生成器第L层偏置参数，f是激活函数。为残差网络提取低频源域特征；所得的低分辨率图像通过PS操作，将r²维度的H×W×r²C低分辨率特征“组装”成rH×rW×C高分辨率图像，其中H、W、C分别是特征图像的高度、宽度和通道数。为目标域高分辨率图像。

本发明的另一目的在于提供一种基于生成式对抗网络和ResNets技术的图像转换计算机程序，其特征在于，所述基于生成式对抗网络和ResNets技术的图像转换计算机程序实现所述基于生成式对抗网络和ResNets技术的图像转换方法。

本发明的另一目的在于提供一种终端，所述终端至少搭载实现所述基于生成式对抗网络和ResNets技术的图像转换方法的控制器。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于生成式对抗网络和ResNets技术的图像转换方法。

本发明的另一目的在于提供一种实现所述基于生成式对抗网络和ResNets技术的图像转换方法的基于生成式对抗网络和ResNets技术的图像转换控制系统。

本发明的另一目的在于提供一种搭载所述基于生成式对抗网络和ResNets技术的图像转换控制系统的交通网络图像处理平台。

综上所述，本发明的优点及积极效果为：

本发明展开对生成式对抗网络研究，首先设计两个对偶生成式对抗网络，利用了对抗机制与范数损失函数结合的方法，和对偶模型学习(dual learning)的对偶模型设计新的图像转换架构(ERGAN)，提出的ERGAN的优点总结如下：

(1)设计图像转换框架可以在无标注数据集和无成对数据集能够实现无监督学习图像转换。因此本发明引用重建损失函数约束条件：重建一致性损失计算重建图像和原始图像的误差。同时，它可以建立不同域之间的映射函数。

(2)本发明结合编码器、残差网络，解码器三个子网络组合作为生成器网络结构，其中，编码器提取图像物体的原始形状和基本颜色，从而产生低分辨率特征。残差网络和解码器网络的目的是这些低分辨率特征生成更真实细节的高分辨率图像。其中解码器网络中的反卷积有效地减少了图像伪影。

(3)基于利普希茨连续条件(Lipschitz continuity)提出新的StableNormalization作为鉴别器网络架构归一化层，增强GAN训练稳定性。基于StableNormalization作为鉴别器归一层生成的图像比传统的权重标准化具有更高的稳定性，也取得了与以前的研究相当甚至更高的inception score。

本发明实验效果对比：

ERGAN同时在配对和不配对数据集进行图像转换。实验在多个图像转换任务上验证ERGAN技术效果。

图4是使用不成对数据集情况下，各种图像转换算法实现的冬天到夏天场景转换和重建冬季的实验结果对比图。由图4(d)(e)可见，基于CycleGAN和DualGAN的图像转换算法生成的夏季图像分辨率低、局部残留冬季特征；图4(f)可见，本发明提出的ERGAN算法能生成逼真的高分辨率夏季图像。由图4(g)(h)可见，基于CycleGAN和DualGAN的图像转换算法重建的冬季图像模糊、并和输入冬季图像视觉差别很大；由图4(i)可见，本发明提出的ERGAN算法重建冬季图像更接近输入冬季图像。图5是使用成对数据集条件下，各种图像转换算法实现的城市街景转换语义标注图(cityscape→label数据集)实验结果对比图。图5(a)可见，输入的真实街景图像包含了建筑物、树木、道路、路灯、行人、人行道、栏杆等目标。图5(g)可见，本发明提出的ERGAN算法准确地用不同颜色实现目标分割。图5(b)-(f)可见，整体图像和局部图像分辨率和图像质量详细对比，从图5(b)可知CoGAN产生模糊目标分割，图5(c)和图5(d)Pix2pixGAN和CycleGAN不能准确分割物体。图5(e)的DualGAN中局部图像和图5(f)的ERGAN的街景语义标注图相比转换图像分辨率更低、分割效果更差。图6显示了ERGAN方法在各种图像转换任务上的效果图。

表1显示了ERGAN方法和其他图像转换算法之间的定量比较。PSNR/SSIM和值越高。这表明生成图像分辨率越高。如表1的第二行和最后一行所示，在和数据集下，本发明的ERGAN的PSNR/SSIM分别达到27.57dB/0.7665和27.03dB/0.7182。这是因为设计生成器网络结构能够提取图像像素丰富的基本特征信息，因此它生成具有更多细节的更高分辨率图像。如表1中最后一行平均得分所示，与CoGAN，CycleGAN和DualGAN相比，我们的方法的平均PSNR/SSIM分别提高了约16％/35％，2％/9％，4％/6％。ERGAN的PSNR/SSIM平均值与完全监督的pix2pixGAN相比，PSNR/SSIM为27.28dB/0.7414。表2给出了不同图像转换方法在测试集上的分割准确率。ERGAN的mean IU与之前的CycleGAN，Pix2pixGAN，DualGAN和CoGAN进行比较，mean IU分别提高了20％，7％，69％和52％。如表3所示，与批量归一化(Batch Normalization)和实例归一化(InstanceNormalization)相比，鉴别器使用SN归一化定量PSNR/SSIM分别增加了7％/28％和2％/16％。

附图说明

图1是本发明实施例提供的基于生成式对抗网络和ResNets技术的图像转换方法流程图。

图2是本发明实施例提供的生成器网络采用编码器网络，残差网络和解码器网络为了提取图像像素上的丰富特征。k，n和s分别代表内核大小，特征映射数和步幅。

图3是本发明实施例提供的判别器网络包括稳定归一化，一系列卷积，sigmoid。k，n和s分别代表内核大小，特征映射数和步幅。

图4是本发明实施例提供的不成对数据集情况下不同图像转换算法实现的冬天到夏天转换结果和重建冬季结果对比图。

图5是本发明实施例提供的成对数据集条件下不同图像转换算法实现的城市街景转换语义标注图(cityscape→label数据集)实验结果对比图。

图6是本发明实施例提供的ERGAN显示不成对数据集情况下各种任务的图像转换结果图。

图中：(a)、原始图像；(b)、转换结果；(c)、重建结果。

图7是本发明实施例提供的不同残差块的体系结构对比图。

图中：(a)、原始ResNets，(b)、SRResNet；(c)、本发明提出的残差块的相应残差块体系结构。本发明的块结构有两个卷积层，两个实例层和两个PRelu激活。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对上述问题，下面结合具体实施例对本发明的应用作详细描述。

在本发明实施例中，通过结合GAN技术，本发明提出了一种增强的超分辨率图像转换算法(ERGAN)。该方法利用对偶生成对抗网络和两个重建的一致性损失作为本发明框架的支柱，其中重建的一致性损失在没有配对数据集的情况下发现跨域特征关系。ERGAN网络中有两个主要部分：生成器和鉴别器网络。生成器网络包括编码器，残差网络，解码器，该网络结构能从输入图像像素中提取丰富的特征信息，并有效地提高转换结果的分辨率。由稳定归一化形成的鉴别器网络驱动生成器产生尽可能真实的图像。最后，广泛的定量和定性结果证明了本发明提出图像转换方法的有效性。与现有的图像转换模型相比，ERGAN可以显着提高图像分辨率并生成更逼真的细节结果。具体处理步骤如下：

步骤一：首先，本发明采用重建的一致性损失和对偶GAN，其中对偶GAN包含两个生成器：G_A→B，G_B→A和两个鉴别器D_B，D_A：。这种算法结构目的是为了实现无监督的学习框架及在无成对数据集下学习源域和目标域之间映射关系。如图1所示ERGAN框架图。

步骤二：图1显示了本发明提出的ERGAN的总体架构，其包含对偶GAN和两个重建的一致性。ERGAN模型的训练网络由目标函数驱动，为实现这一目标，本发明针对ERGAN框架建立目标函数，它主要包括对抗性损失和两个重构的一致性损失函数。重建的一致性损失重建两个不同域的输入图像，并计算两个不同域上重建图像和原始图像之间的损失之和。重构的一致性损失函数定义如下：

为了满足以下项目的性能：鉴别器收敛，样本质量和优化的稳定性，在ERGAN模型中采用了由WGAN提出的损失形成。修正的两个对抗性损失函数分别由等式(2)和等式(3)定义。

总的来说，目标函数可以写成：

步骤三：本发明的方法有两个主要的网络部分：生成器和鉴别器网络。生成器(G_A→B和G_B→A)网络架构对于提高图像转换质量很重要。本发明使用新的生成器网络来执行特征提取。详细的生成器网络框架如图2所示，本发明的生成器网络是一种混合组合，由三个子网络组成：编码器网络，残差网络和解码器网络，而不是普通的“U-Net”和“编码器-解码器”。尽管输入图像的基本特征首先由初始编码器网络提取，但是在第一阶段中省略了来自编码器的一些特征细节。这是生成逼真图像所需的重要信息。因此，本发明的生成网络的第二部分是残差网络，其捕获编码器中先前忽略的信息以生成更自然的纹理和细节。此外，残差网络将特征向量从一个域传送到另一个域。本发明的残差网络的核心包括具有跳过连接的16个残余块，其从原始特征和先前的残余块输出获得足够的特征信息。如上所述，图像转换的主要任务之一是保留原始图像的属性，例如对象的位置和形状。本发明提出的残差网络结构非常适合完成这些转换。

在从残差网络获得输出之后，解码器网络解码特征。为了提高转换结果的图像分辨率，本发明的解码器网络由Pixelshuffler层和反卷积层组成。这些Pixelshuffler层中不仅增加了来自残差网络的特征图的空间分辨率，而且还减少了训练时间。Pixelshuffler其实跟常规的卷积层没有什么不同，不同的是其输出的特征通道数为r²，其中r为缩放倍数。公式如下：

^I _U ^SR＝f^L(I_V ^lR)＝PS(W_L*f^L-1(I_V ^lR)+b_L) (5)

可从上面的公式看到，所得的高分辨率图像是通过PS操作，将r²维度的H×W×r²C低分辨率特征“组装”成rH×rW×C高分辨率图像。其中PS操作称之为：periodicshuffling，H和W分别是图像特征高度和宽度，C是通道的个数。图2，n为卷积核个数,s为卷积核移动的步幅,k为卷积核尺寸。为残差网络提取低频源域特征，为通过亚像素卷积组合目标域高分辨率图像。W_L是生成器每一层权重参数，f是激活函数。

步骤四：鉴别器接收真实的图像和生成图像，并试图区分它们。对于鉴别器，本发明采用全局和局部图像内容一致性的概念。本发明的判别网络在全局和局部图像。该策略的明显优势在于部分查看整个图像以验证生成图像是否与目标域的样式一致，而本地局部鉴别生成物体区域。鉴别器结构如图3所示。鉴别器网络包含卷积层，稳定归一化(stablenormalization)。卷积，稳定归一化和LeakReLU的组合可以稳定鉴别器的训练并使权重参数正规化。在最后一层，本发明使用sigmoid层来决定输入图像是假的还是真的。与具有其他归一化方法的鉴别器相比，这种配置的有效性产生更好的视觉效果。

步骤五：完成步骤一和步骤四，然后设置训练参数并训练ERGAN模型，如表4所示用六种不同风格数据集测试模型及定量验证与其他图像转换技术对比效果如表1、表2、表3，定性实验对比如图4-5所示。

下面结合具体实验分析对本发明的应用作进一步描述。

展开对生成式对抗网络研究，首先设计两个对偶生成式对抗网络，利用了对抗机制与范数损失函数结合的方法，和对偶模型学习(dual learning)的对偶模型设计新的图像转换架构(ERGAN)，提出的ERGAN的优点如下：

下面结合实验效果对比对本发明作进一步描述。

在本发明实施例中，ERGAN同时在配对和不配对数据集进行图像转换。实验在多个图像转换任务上验证ERGAN技术效果。

图4是使用不成对数据集情况下，各种图像转换算法实现的冬天到夏天场景转换和重建冬季的实验结果对比图。由图4(d)(e)可见，基于CycleGAN和DualGAN的图像转换算法生成的夏季图像分辨率低、局部残留冬季特征；图4(f)可见，本发明提出的ERGAN算法能生成逼真的高分辨率夏季图像。由图4(g)(h)可见，基于CycleGAN和DualGAN的图像转换算法重建的冬季图像模糊、并和输入冬季图像视觉差别很大；由图4(i)可见，本发明提出的ERGAN算法重建冬季图像更接近输入冬季图像。表1的第6行的后三个方法即为图4的定量结果。

图5是使用成对数据集条件下，各种图像转换算法实现的城市街景转换为语义标注图(cityscape→label)实验结果对比图。图5(a)可见，输入的真实街景图像包含了建筑物、树木、道路、路灯、行人、人行道、栏杆等目标，图5(g)是真实街景图像的语义标注图及建筑物局部图。从图5(b)可见，CoGAN不适合生成语义标注图。图5(c)、(d)可见，Pix2PixGAN和CycleGAN生成的语义标注图产生了大量的错误的标注，建筑物局部目标分割成不准确甚至丢失。图5(e)、(f)可见，DualGAN和ERGAN的分割更加准确，但是ERGAN的分辨率和标注准确性更优。表2即为图5的定量结果。

图6是本发明实施例提供的ERGAN显示不成对数据集情况下各种任务的图像转换结果图。图中：(a)、原始图像；(b)、转换结果；(c)、重建结果。

表1显示了ERGAN方法和其他图像转换算法的实验结果的定量比较。PSNR/SSIM值越高则生成的图像分辨率越高。基于无成对的数据集和ERGAN的PSNR/SSIM分别达到27.57dB/0.7665和27.03dB/0.7182；与CoGAN，CycleGAN和DualGAN相比，PSNR/SSIM的平均值分别提高了约16％/35％，2％/9％，4％/6％；与有监督学习的Pix2PixGAN相比，ERGAN的PSNR/SSIM的平均值提高了3％/8％。

表2为采用cityscape→label数据集，不同图像转换算法的准确率实验结果对比。与CycleGAN，Pix2pixGAN，DualGAN和CoGAN相比，ERGAN的mean IU分别提高了20％，7％，69％和52％。

表3为采用不同归一化方法的鉴别器网络的稳定性实验结果对比。与批量归一化层(Batch Normalization)和实例归一化层的(Instance Normalization)相比，采用SN归一化层的鉴别器的PSNR/SSIM分别增加了7％/28％和2％/16％。

表1六种数据集下，不同图像转换算法的高分辨率实验结果对比

表2不同图像转换算法(cityscape→label)的准确率实验结果对比

表3不同归一化方法的鉴别器网络的稳定性实验结果对比

表4本发明采用的六种数据集

下面结合残差块对本发明的应用作进一步描述。

如图7(c)所示，本发明的残差块体系结构由两个带2×2卷积核和128个特征图的卷积层组成，卷积层网络后面是实例归一化层和用作激活函数parameter ReLU(PReLU)。第二卷积输入来自第一卷积层激活层输出特征。skip连接的目的可以确保先前网络层的输出直接作用于后续网络层。在本发明使用其他方法的剩余块框架中，ResNets 20和SRResNet2的残余块也分别在图3(a)和图3(b)中示出。本发明残差块的关键思想是替换批量归一化实例对单个图像的所有像素的均值和标准差进行归一化，归一化过程可防止在特征映射上丢失实例特征信息。此外，与批量标准化相比，本发明提出的具有实例标准化层的残差块在训练期间节省了大约4.05％的内存使用量并提高了训练速度。

下面结合基于Stable Normalization鉴别器网络对本发明的应用作进一步描述。

鉴别器接收真实的图像和生成图像，并试图区分它们。对于鉴别器，本发明采用全局和局部图像内容一致性的概念。本发明的判别网络在全局和局部图像。该策略的明显优势在于部分查看整个图像以验证生成图像是否与目标域的样式一致，而本地局部鉴别生成物体区域。鉴别器结构如图4所示。鉴别器网络包含卷积层，稳定归一化(stablenormalization)。卷积，稳定归一化和LeakReLU的组合可以稳定鉴别器的训练并使权重参数正规化。在最后一层，本发明使用sigmoid层来决定输入图像是假的还是真的。与具有其他归一化方法的鉴别器相比，这种配置的有效性产生更好的视觉效果。

下面结合稳定归一化(Stable Normalization)算法对本发明的应用作进一步描述。

为了防止鉴别器网络不稳定导致生成器网络不在学习。鉴别器网络训练是动态的，并且对优化模型体系结构的参数敏感。为了能解决上述问题，有必要对鉴别器的最大损失进行限制。稳定归一化(stable normalization)方法对鉴别器施加Lipschitz限制形式，即：

其中||f||_lip表示连续函数，该函数满足条件，其中η是利普希茨连续条件的常数，基于等式(7)，函数推导为：

因此，基于不平等(Eq.(9))条件

||H(W_L+1,b_L+1)|-|H(W_L,b_L)||≤|H(W_L+1,b_L+1)-H(W_L,b_L)| (9)

||f||_lip限制范围如下：

在本发明实例中，通过结合GAN技术，本发明提出了一种增强的超分辨率图像转换算法(ERGAN)。该方法利用对偶生成对抗网络和两个重建的一致性损失作为本发明框架的支柱，其中重建的一致性损失在没有配对数据集的情况下发现跨域特征关系。ERGAN网络中有两个主要部分：生成器和鉴别器网络。生成器网络从输入图像像素中提取丰富的特征信息，并有效地提高转换结果的分辨率。由稳定归一化形成的鉴别器网络驱动生成器产生尽可能真实的图像。最后，广泛的定量和定性结果证明了本发明提出图像转换方法的有效性。与现有的图像转换模型相比，ERGAN可以显着提高图像分辨率并生成更逼真的细节结果。

在本发明实例中，本发明的reconstructed consistency loss(重建一致性损失)意义是：重建一致性损失计算重建图像和原始图像的误差。同时它也可以发现源域图像与目标域图像之间特征关系。

生成式对抗网络(GAN)：GAN启发自博弈论中的二人零和博弈(two-player game)，GAN模型中的两位博弈方分别由生成式模型(generative model)和判别式模型(discriminative model)充当。判别模型的任务是判断给定的图像看起来是自然的还是人为伪造的(图像来源于数据集)。生成模型的任务是生成看起来自然真实的、和原始数据相似的图像。

图像转换：是一类视觉和图形问题，其目标是学习输入图像和输出图像之间的映射,将源域图像(输入图像)映射到目标域图像(输出图像)。

本发明首先利用两个GAN的对抗机制与范数损失函数结合的对偶学习的方法，设计了增强的高分辨率对偶GAN图像转换算法，该模型能采用无标签数据集、实现基于无监督学习的图像转换；其次本发明通过引入重建一致性损失函数约束条件，实现从源分布转换为目标分布，然后重建源分布，即可以从目标分布中获取源分布的样本特征，并验证了重建源分布与源分布的相似度；其次本发明结合编码器、残差网络，解码器构成生成器网络，以提高图像转换质量和图像分辨率；最后本发明在鉴别器中增加了稳定归一化(SN，StableNormalization)层，来提高鉴别器网络训练稳定性。与Pix2pixGAN,CycleGAN,DualGAN生成图像分辨率相比，本发明提出的ERGAN算法PSNR/SSIM的平均值分别提高了约16％/35％，2％/9％，4％/6％。与批量归一化层(Batch normalization)和实例归一化层(InstanceNormalization)的鉴别器相比，采用SN归一化层的鉴别器的PSNR/SSIM分别增加了7％/28％和2％/16％。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成式对抗网络和ResNets技术的图像转换方法，其特征在于，所述基于生成式对抗网络和ResNets技术的图像转换方法包括：

步骤一：基于重建一致性损失和对偶GAN设计图像转换框架，对偶GAN包括G_A→B生成器、G_B→A生成器、D_B鉴别器、D_A鉴别器；

步骤二：基于步骤一设计图像转换框架建立目标函数，

上式中，u为u域图像,v为v域图像；G_A→B表示将u域图像转换成v域图像，G_B→A表示将v域图像转换成u域图像；D_A的作用是判别v域的生成图像是否逼近真实的u域图像，D_B的作用是判别u域的生成图像是否逼近真实的v域图像。第一个生成对抗网络的对抗函数，是第二个生成对抗网络的对抗函数，l_recon(G_A→B,G_B→A)为重建一致损失函数；

步骤三：设计步骤一中ERGAN的生成器G_A→B,G_B→A的网络结构,由编码器、ResNets网络和编码器组成生成器网络架构；生成器将域图像装换成目标域图像；

步骤四：基于步骤三中生成器网络生成目标域图像后，传送到鉴别器D_A,D_B网络,鉴别器对真实的目标域图像与生成的目标域图像进行评估；

2.如权利要求1所述的基于生成式对抗网络和ResNets技术的图像转换方法，其特征在于，步骤二具体包括：

ERGAN模型包括对偶GAN和ERGAN模型的目标函数，其中目标函数包括重建一致性损失函数和对抗性损失函数；重建一致性损失函数由两个部分组成，一是重建的u域图像与输入u域图像之差；二是重建的v域图像与输入v域图像之差；重建一致性损失函数为以下两部分之和,如下式所示:

在ERGAN模型中，包括以下两个对抗性损失函数；

目标函数为：

3.如权利要求1所述的基于生成式对抗网络和ResNets技术的图像转换方法，其特征在于，步骤三中，解码器网络由Pixelshuffler层和反卷积层组成；PS层输出的特征通道数为r²，其中r为缩放倍数；公式如下：

I_U ^SR＝f^L(I_V ^lR)＝PS(W_L*f^L-1(I_V ^lR)+b_L)

4.一种基于生成式对抗网络和ResNets技术的图像转换计算机程序，其特征在于，所述基于生成式对抗网络和ResNets技术的图像转换计算机程序实现权利要求1～3任意一项所述基于生成式对抗网络和ResNets技术的图像转换方法。

5.一种终端，其特征在于，所述终端至少搭载实现权利要求1～3任意一项所述基于生成式对抗网络和ResNets技术的图像转换方法的控制器。

6.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任意一项所述的基于生成式对抗网络和ResNets技术的图像转换方法。

7.一种实现权利要求1～3任意一项所述基于生成式对抗网络和ResNets技术的图像转换方法的基于生成式对抗网络和ResNets技术的图像转换控制系统。

8.一种搭载权利要求7所述基于生成式对抗网络和ResNets技术的图像转换控制系统的交通网络图像处理平台。