CN110570363A

CN110570363A - 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法

Info

Publication number: CN110570363A
Application number: CN201910715042.6A
Authority: CN
Inventors: 徐东伟; 朱钟华; 魏臣臣; 戴宏伟; 彭鹏; 王永东; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-12-13

Abstract

一种基于带有金字塔池化与多尺度鉴别器的Cycle‑GAN的图像去雾方法，包括以下步骤：1)生成器由残差网络、金字塔池化网络以及卷积操作构成，且每次卷积结果都需要经过正则化激活运算；2)构建多尺度鉴别器；3)构建Cycle‑GAN；4)提取去雾模型并验证模型效果：从训练好的Cycle‑GAN中提取生成器G作为去雾模型，并用测试集中的有雾图像进行测试。本发明避免了人工设计特征，而且本发明中的多尺度输入、多尺度鉴别器和金字塔池化网络能够更好的保留图像细节特征。

Description

基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法

技术领域

本发明涉及一种基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，属于图像去雾领域。

背景技术

随着科学技术的快速发展，大量户外图像被广泛应用于视频监控、智能交通、目标检测等领域。然而，由于空气中的水汽和悬浮颗粒等，导致采集到的图像具有雾或雾霾信息，使得图像对比度降低，颜色发生变化，而且图像中的许多细节特征被衰减，大大降低了在实际应用中的使用价值。因此，图像去雾技术在诸多领域都有很广泛的应用前景。

经过多年研究，目前图像去雾技术已经取得了大量研究成果。其中，大气散射模型被广泛地应用于去雾算法设计，该模型主要通过估计透射图和大气光值来计算无雾图。He等提出了基于暗通道先验的去雾算法，通过利用无雾图像中至少有一个颜色通道像素值为0这个特点来估计透射图。Zhu等提出了基于色彩衰减先验的去雾算法，通过局部色彩先验来创建线性模型，从而恢复图像信息。另外，还有许多基于深度学的去雾方法。Cai等提出了一种端到端的去雾模型，通过深度学习来估计透射图，并提出了一种新的非线性激活函数。Patricia等提出了一种利用叠加条件生成对抗网络的去雾方法。

发明内容

为了克服现有技术中的不足，本发明提供一种基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，该方法采用了多尺度输入，在生成器中加入了金字塔池化网络，并使用了两个鉴别器来更好的构建图像细节特征，通过转化有雾图像和无雾图像之间了数据结构特征，直接对图像进行去雾处理；同时，训练所需的数据集不需要成对的有雾和无雾图像。

本发明解决其技术问题所采用的技术方案是：

一种基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，包括以下步骤：

1)构建生成器：首先对原始图像进行预处理得到分辨率为512×512的输入图像，再对该输入图像进行一次下采样得到分辨率为256×256的下采样图像，然后对输入图像和下采样图像分别进行卷积操作进行编码，再让下采样图像的编码结果通过ResNets进行特征转换，并融合输入图像的编码结果和转换后的特征，使该融合特征再一次通过ResNets进行特征转换，最后经过金字塔池化网络重构图像；

2)构建多尺度鉴别器：将生成器生成的图像缩小一倍得到分辨率为256×256的图像，然后让这两种尺度的图像分别通过多层卷积网络进行特征提取，最终产生两个特征图来分别鉴定生成图像在两个尺度下的真假；

3)构建Cycle-GAN：利用两个生成器和两个多尺度鉴别器构造两次前向传递，并形成循环结构，将有雾图像集作为第一次前向传递中生成器G的输入，生成一次去雾图像，并将该去雾图像作为生成器F的输入，生成二次有雾图像，同时将无雾图像集作为第二次前向传递中生成器F的输入，生成一次有雾图像，并将该有雾图像作为生成器G的输入，生成二次去雾图像，多尺度鉴别器D_Y鉴别一次去雾图像的真假，并将误差反馈给生成器G来提高该生成器生成去雾图像的真实度，多尺度鉴别器D_X鉴别一次有雾图像的真假，并将误差反馈给生成器F来提高该生成器生成有雾图像的真实度，最后利用两个对抗损失和一个循环一致损失使生成器和鉴别器通过反复对抗训练，从而得到最优去雾网络；

4)提取去雾模型并验证模型效果：从训练好的Cycle-GAN中提取生成器G作为去雾模型，并将生成图片的分辨率调整为原始图像的分辨率，得到最终的去雾图像，然后使用测试集中的有雾图像进行测试。

本发明的有益效果：相比于传统先验模型需要基于先验知识设计复杂的物理模型，本发明通过训练循环对抗生成网络优化生成器G，直接通过有雾图像生成无雾图像，避免了人工设计特征，而且本发明中的多尺度输入、多尺度鉴别器和金字塔池化网络能够更好的保留图像细节特征，同时，训练传统的去雾神经网络模型时，需要获取大量场景一一对应的有雾和无雾图像，这一数据集获取难度比较困难，而本发明不需要成对的数据集。

附图说明

图1是生成器结构示意图；

图2是多尺度鉴别器结构示意图；

图3是Cycle-GAN模型整体结构示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图3，一种基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，包括以下步骤：

1)构建生成器的步骤

生成器由ResNets、金字塔池化网络以及卷积操作构成，且每次卷积结果都需要经过正则化激活运算；

首先，定义如下函数：

NR(y)＝relu(norm(y)) (3)

其中，f(x,k)表示卷积函数，f′(x,k)表示反卷积函数，x表示卷积对象，k表示卷积核，表示卷积运算，表示反卷积运算，NR(y)表示正则激活函数，y表示输入，norm()表示Instance-Norm运算，relu()表示ReLU函数；

其次，ResNets由多个Residual block组成，在每个Residual block中，需要对输入作两次卷积操作，然后与输入进行融合，并且在第一次卷积操作和融合之后分别经过一次正则化激活层，其定义如下：

r_i＝NR(f(R_i-1,k_ri1))，i∈[1,2,…,n] (4)

R_i＝NR(f(r_i,k_ri2)+R_i-1)，i∈[1,2,…,n] (5)

R＝R_n (6)

其中，R₀表示ResNets的输入，n表示ResNets由n个Residual block前后相连而成，即前一Residual block的输出为后一Residual block的输入，r_i表示第i个Residualblock的中间结果，k_ri1、k_ri2表示第i个Residual block中第一次和第二次卷积的卷积核，其卷积核大小都为3×3，且卷积的步长都为1，R_i表示第i个Residual block的输出，则ResNets的输出为R；

再次，金字塔池化网络由多个金字塔池化增强块构成，在每个增强块中，首先对其输入作四种尺度的下采样，然后分别进行一次1×1卷积操作和上采样操作使其大小恢复成输入的大小，再与输入进行融合，最后经过一次1×1卷积操作得到金字塔池化网络的输出，其定义如下：

p_i1＝f′(f(f(p_i,k_pi11),k_pi21),k_pi31) (7)

p_i2＝f′(f(f(p_i,k_pi12),k_pi22),k_pi32) (8)

p_i3＝f′(f(f(p_i,k_pi13),k_pi23),k_pi33) (9)

p_i4＝f′(f(f(p_i,k_pi14),k_pi24),k_pi34) (10)

P_i＝f([p_i1,p_i2,p_i3,p_i4,p_i],k_pi) (11)

P＝P_n (12)

其中，i∈[1,2,…,n]，n表示金字塔池化网络由n个金字塔增强块构成，P_i表示第i个金字塔增强块的输入，且每个P_i都融合了原始有雾图像，P_i1、P_i2、P_i3、P_i4分别表示在四种尺度下经过三次卷积之后得到的结果，k_pi11、k_pi12、k_pi13、k_pi14、k_pi21、k_pi22、k_pi23、k_pi24、k_pi31、k_pi32、k_pi33、k_pi34分别表示在四种尺度下三次卷积的卷积核，且三次卷积的卷积核大小分别为7×7、3×3、1×1，步长都为1，P_i表示融合多尺度特征之后再卷积的结果，即第i个金字塔增强块的输出，该卷积核为k_pi，则最终金字塔池化网络的输出为P；

然后，生成器G的完整构成为：输入是分辨率为512×512的图像M，对其进行下采样得到分辨率为256×256的下采样图像M_s，形成多尺度输入，对于下采样图像M_s，通过卷积和ResNets提取小尺度特征，对于图像M，先经过三次卷积操作并与小尺度特征融合，再经过ResNets和金字塔池化网络得到最终的输出，即去雾图像，其定义如下：

M₁＝f(f(M_s,k_s1),k_s2) (13)

M₂＝f(f(M,k_m1),k_m2) (14)

M₃＝f′(R_s,k_s3) (15)

M₄＝[M₂,M₃] (16)

M₅＝f′(R_m,k_m3) (17)

M₆＝[M₅,M] (18)

m＝f(P,k_p) (19)

其中，M₁、M₂分别表示下采样图像和原图像分别经过两次卷积操作得到的结果，k_s1、k_m1和k_s2、k_m2分别表示第一次和第二次卷积的卷积核，且第一次的卷积核大小为7×7，步长为1，第二次的卷积核大小为3×3，步长为2，R_s表示以M₁为输入的ResNets输出，再经过一次反卷积操作得到M₃，该卷积核k_s3大小为3×3，步长为2，融合M₂和M₃得到M₄并作为新一层ResNets的输入，R_m表示该ResNets的输出，再经过一次反卷积操作得到M₅，该卷积核k_m3大小为3×3，步长为2，融合M₅和M得到M₆，P表示以M₆为输入的金字塔池化网络输出，最后经过一次卷积操作得到生成器的最终输出，该卷积核k_p大小为7×7，步长为1；

2)构建多尺度鉴别器

多尺度鉴别器D_M由两个独立的鉴别器D_M1和D_M2构成，分别鉴定生成器生成的图像m和该图像缩小一倍后的图像m_s的真假，鉴别器的实质是多层卷积网络，当最终结果趋向于1时，表示图像越逼真，当结果趋向于0时，表示图像越假。D_M1和D_M2的定义如下：

d₁＝f(f(f(f(m,k_d11),k_d12),k_d13),k_d14) (20)

d₂＝f(f(f(m_s,k_d21),k_d22),k_d23) (21)

其中，d₁、d₂分别表示鉴别器D_M1和D_M2的鉴别结果，k_d11、k_d12、k_d13、k_d14表示鉴别器D_M1中四次卷积的卷积核，k_d21、k_d22、k_d23表示鉴别器D_M2中三次卷积的卷积核，鉴别器中卷积核大小都为4×4，步长都为2；

3)构建Cycle-GAN

Cycle-GAN由两个生成器G、F和两个多尺度鉴别器D_X、D_Y构造了两次前向传递，并形成循环结构，其输入为有雾图像集X和无雾图像集Y中的单幅图像x，y。首先，第一次前向传递将有雾图像x作为生成器G的输入，生成一次去雾图像，并将该去雾图像作为生成器F的输入，生成二次有雾图像，同时第二次前向传递将无雾图像y作为生成器F的输入，生成一次有雾图像，并将该有雾图像作为生成器G的输入，生成二次去雾图像，多尺度鉴别器D_Y鉴别一次去雾图像的真假，并将误差反馈给生成器G来提高该生成器生成去雾图像的真实度，多尺度鉴别器D_X鉴别一次有雾图像的真假，并将误差反馈给生成器F来提高该生成器生成有雾图像的真实度，最后利用两个对抗损失和一个循环一致损失使生成器和鉴别器通过反复对抗训练，其损失函数定义如下：

其中，L_GAN(G,D_Y,X,Y)、L_GAN(F,D_X,X,Y)分别表示两次前向传递中的对抗损失，E_y～Pdata(y)、E_x～Pdata(x)、E_{ys～Pdata(ys)}、E_{xs～Pdata(xs)}分别表示无雾图像、有雾图像、一倍下采样无雾图像、一倍下采样有雾图像的真实分布，D_X1、D_X2和D_Y1、D_Y2分别是多尺度鉴别器D_X和D_Y中的两个不同尺度的鉴别器，G(x)、F(y)和G_s(x)、F_s(y)分别表示对应生成器生成的图像和该生成图像缩小一倍后的图像，L_cyc(G,F)表示利用L1范数来计算两次前向传递中输入和输出之间的循环一致损失，L(G,F,D_X,D_Y)表示总体损失，λ表示循环一致损失的权重，G^*、F^*表示这两个生成器所要达到的训练目标，使得生成器生成的图片能以假乱真，而鉴别器能够更准确的鉴别图像的真假；

4)提取去雾模型并验证模型效果

从训练好的Cycle-GAN中提取生成器G作为去雾模型，并将生成图片的分辨率调整为原始图像的分辨率，得到最终的去雾图像，对测试集中的有雾图像进行测试，以峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标，其计算公式如下：

SSIM＝l(I,K)·c(I,K)·s(I,K) (37)

其中，I和K表示模型生成的去雾图像和对应的无雾图像，MSE表示图像I和K的均方误差，h、w表示图像的高度和宽度，n为每像素的比特数，一般取8，PSNR表示峰值信噪比，数值越大表示失真越小，单位为dB，μ_I、μ_K表示图像I和K的均值，σ_I ²、σ_K ²表示图像I和K的方差，σ_IK表示图像I和K的协方差，C₁、C₂、C₃为常数，通常取C₁＝(K₁*L)²，C₂＝(K₂*L)²，C₃＝C₂/2，一般默认K₁＝0.01，K₂＝0.03，L＝255，l(I,K)、c(I,K)、s(I,K)分别表示亮度、对比度、结构三方面的图像相似性，SSIM表示结构相似性。

实际实验中的数据，本实施例的处理过程如下：

1)选取实验数据

实验数据来自“Benchmarking Single Image Dehazing and Beyond”，其中，训练集包括有雾和无雾图像各2500张，测试集包括成对的有雾和无雾图像100张。

2)参数确定

本发明的实验是基于tensorflow环境实现的，在整个模型结构中，输入图像的大小为512×512，卷积核k_s1、k_s2、k_s3、k_m1、k_m2、k_m3的数量分别为32、64、32、32、64、16，R_s、R_m中分别设有6个、9个Residual block，且Residual block中卷积核k_ri1、k_ri2的数量分别为64、96，金字塔池化网络P中设有2个金字塔增强块，且金字塔增强块中卷积核k_pi11、k_pi12、k_pi13、k_pi14的数量都为32，卷积核k_pi21、k_pi22、k_pi23、k_pi24、k_pi31、k_pi32、k_pi33、k_pi34的数量都为3，循环一致损失的权重λ取10。

3)实验结果

在实验中，我们同时测试了本发明的方法和其他方法，结果统计如表1所示。

表1。

Claims

1.一种基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，其特征在于，所述步骤1)中，生成器由ResNets、金字塔池化网络以及卷积操作构成，且每次卷积结果都需要经过正则化激活运算，构建ResNets的过程如下：

首先，定义如下函数：

NR(y)＝relu(norm(y)) (3)

其次，ResNets主要由多个Residual block组成，在每个Residual block中，需要对输入作两次卷积操作，然后与输入进行融合，并且在第一次卷积操作和融合之后分别经过一次正则化激活层，其定义如下：

r_i＝NR(f(R_i-1,k_ri1))，i∈[1,2,…,n] (4)

R_i＝NR(f(r_i,k_ri2)+R_i-1)，i∈[1,2,…,n] (5)

R＝R_n (6)

其中，R₀表示ResNets的输入，n表示ResNets由n个Residual block前后相连而成，即前一Residual block的输出为后一Residual block的输入，r_i表示第i个Residual block的中间结果，k_ri1、k_ri2表示第i个Residual block中第一次和第二次卷积的卷积核，其卷积核大小都为3×3，且卷积的步长都为1，R_i表示第i个Residual block的输出，则ResNets的输出为R。

3.如权利要求2所述的基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，其特征在于，所述步骤1)中，构建金字塔池化网络的过程如下：

金字塔池化网络由多个金字塔池化增强块构成，在每个增强块中，首先对其输入作四种尺度的下采样，然后分别进行一次1×1卷积操作和上采样操作使其大小恢复成输入的大小，再与输入进行融合，最后经过一次1×1卷积操作得到金字塔池化网络的输出，其定义如下：

p_i1＝f′(f(f(p_i,k_pi11),k_pi21),k_pi31) (7)

p_i2＝f′(f(f(p_i,k_pi12),k_pi22),k_pi32) (8)

p_i3＝f′(f(f(p_i,k_pi13),k_pi23),k_pi33) (9)

p_i4＝f′(f(f(p_i,k_pi14),k_pi24),k_pi34) (10)

P_i＝f([p_i1,p_i2,p_i3,p_i4,p_i],k_pi) (11)

P＝P_n (12)

其中，i∈[1,2,…,n]，n表示金字塔池化网络由n个金字塔增强块构成，P_i表示第i个金字塔增强块的输入，且每个P_i都融合了原始有雾图像，P_i1、P_i2、P_i3、P_i4分别表示在四种尺度下经过三次卷积之后得到的结果，k_pi11、k_pi12、k_pi13、k_pi14、k_pi21、k_pi22、k_pi23、k_pi24、k_pi31、k_pi32、k_pi33、k_pi34分别表示在四种尺度下三次卷积的卷积核，且三次卷积的卷积核大小分别为7×7、3×3、1×1，步长都为1，P_i表示融合多尺度特征之后再卷积的结果，即第i个金字塔增强块的输出，该卷积核为k_pi，则最终金字塔池化网络的输出为P。

4.如权利要求2所述的基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，其特征在于，所述步骤1)中，构建生成器的过程如下：

生成器G的完整构成为：输入是分辨率为512×512的图像M，对其进行下采样得到分辨率为256×256的下采样图像M_s，形成多尺度输入，对于下采样图像M_s，通过卷积和ResNets提取小尺度特征，对于图像M,先经过三次卷积操作并与小尺度特征融合，再经过ResNets和金字塔池化网络得到最终的输出，即去雾图像，其定义如下：

M₁＝f(f(M_s,k_s1),k_s2) (13)

M₂＝f(f(M,k_m1),k_m2) (14)

M₃＝f′(R_s,k_s3) (15)

M₄＝[M₂,M₃] (16)

M₅＝f′(R_m,k_m3) (17)

M₆＝[M₅,M] (18)

m＝f(P,k_p) (19)

其中，M₁、M₂分别表示下采样图像和原图像分别经过两次卷积操作得到的结果，k_s1、k_m1和k_s2、k_m2分别表示第一次和第二次卷积的卷积核，且第一次的卷积核大小为7×7，步长为1，第二次的卷积核大小为3×3，步长为2，R_s表示以M₁为输入的ResNets输出，再经过一次反卷积操作得到M₃，该卷积核k_s3大小为3×3，步长为2，融合M₂和M₃得到M₄并作为新一层ResNets的输入，R_m表示该ResNets的输出，再经过一次反卷积操作得到M₅，该卷积核k_m3大小为3×3，步长为2，融合M₅和M得到M₆，P表示以M₆为输入的金字塔池化网络输出，最后经过一次卷积操作得到生成器的最终输出，该卷积核k_p大小为7×7，步长为1。

5.如权利要求1～4之一所述的基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，其特征在于，所述步骤2)的过程如下：

多尺度鉴别器D_M由两个独立的鉴别器D_M1和D_M2构成，分别鉴定生成器生成的图像m和该图像缩小一倍后的图像m_s的真假，鉴别器的实质是多层卷积网络，当最终结果趋向于1时，表示图像越逼真，当结果趋向于0时，表示图像越假，D_M1和D_M2的定义如下：

d₁＝f(f(f(f(m,k_d11),k_d12),k_d13),k_d14) (20)

d₂＝f(f(f(m_s,k_d21),k_d22),k_d23) (21)

其中，d₁、d₂分别表示鉴别器D_M1和D_M2的鉴别结果，k_d11、k_d12、k_d13、k_d14表示鉴别器D_M1中四次卷积的卷积核，k_d21、k_d22、k_d23表示鉴别器D_M2中三次卷积的卷积核，鉴别器中卷积核大小都为4×4，步长都为2。

6.如权利要求1～4之一所述的基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，其特征在于，所述步骤3)的过程如下：

Cycle-GAN主要由两个生成器G、F和两个多尺度鉴别器D_X、D_Y-构造了两次前向传递，并形成循环结构，其输入为有雾图像集X和无雾图像集Y中的单幅图像x，y；首先，第一次前向传递将有雾图像x作为生成器G的输入，生成一次去雾图像，并将该去雾图像作为生成器F的输入，生成二次有雾图像，同时第二次前向传递将无雾图像y作为生成器F的输入，生成一次有雾图像，并将该有雾图像作为生成器G的输入，生成二次去雾图像，多尺度鉴别器D_Y鉴别一次去雾图像的真假，并将误差反馈给生成器G来提高该生成器生成去雾图像的真实度，多尺度鉴别器D_X鉴别一次有雾图像的真假，并将误差反馈给生成器F来提高该生成器生成有雾图像的真实度，最后利用两个对抗损失和一个循环一致损失使生成器和鉴别器通过反复对抗训练，其损失函数定义如下：

其中，L_GAN(G,D_Y,X,Y)、L_GAN(F,D_X,X,Y)分别表示两次前向传递中的对抗损失，E_y～Pdata(y)、E_x～Pdata(x)、E_{ys～Pdata(ys)}、E_{xs～Pdata(xs)}分别表示无雾图像、有雾图像、一倍下采样无雾图像、一倍下采样有雾图像的真实分布，D_X1、D_X2和D_Y1、D_Y2分别是多尺度鉴别器D_X和D_Y中的两个不同尺度的鉴别器，G(x)、F(y)和G_s(x)、F_s(y)分别表示对应生成器生成的图像和该生成图像缩小一倍后的图像，L_cyc(G,F)表示利用L1范数来计算两次前向传递中输入和输出之间的循环一致损失，L(G,F,D_X,D_Y)表示总体损失，λ表示循环一致损失的权重，G^*、F^*表示这两个生成器所要达到的训练目标，使得生成器生成的图片能以假乱真，而鉴别器能够更准确的鉴别图像的真假。

7.如权利要求1～4之一所述的基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法，其特征在于，所述步骤4)的过程如下：

从训练好的Cycle-GAN中提取生成器G作为去雾模型，并将生成图片的分辨率调整为原始图像的分辨率，得到最终的去雾图像，对测试集中的有雾图像进行测试，以峰值信噪比PSNR和结构相似性SSIM作为评价指标，其计算公式如下：

SSIM＝l(I,K)·c(I,K)·s(I,K) (37)

其中，I和K表示模型生成的去雾图像和对应的无雾图像，MSE表示图像I和K的均方误差，h、w表示图像的高度和宽度，n为每像素的比特数，PSNR表示峰值信噪比，数值越大表示失真越小，单位为dB，μ_I、μ_K表示图像I和K的均值，σ_I ²、σ_K ²表示图像I和K的方差，σ_IK表示图像I和K的协方差，C₁、C₂、C₃为常数，取C₁＝(K₁*L)²，C₂＝(K₂*L)²，C₃＝C₂/2，l(I,K)、c(I,K)、s(I,K)分别表示亮度、对比度、结构三方面的图像相似性，SSIM表示结构相似性。