CN114187203A - 注意力优化的深度编解码去雾生成对抗网络 - Google Patents
注意力优化的深度编解码去雾生成对抗网络 Download PDFInfo
- Publication number
- CN114187203A CN114187203A CN202111504661.4A CN202111504661A CN114187203A CN 114187203 A CN114187203 A CN 114187203A CN 202111504661 A CN202111504661 A CN 202111504661A CN 114187203 A CN114187203 A CN 114187203A
- Authority
- CN
- China
- Prior art keywords
- network
- attention
- image
- defogging
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 29
- 230000000694 effects Effects 0.000 abstract description 16
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 239000003595 mist Substances 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000016273 neuron death Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
针对现有的去雾算法难以处理不均匀分布的雾,且深度卷积去雾网络过度依赖大规模数据集的问题,本发明提出了一种注意力优化的深度编解码去雾生成对抗网络,该网络采用了四层下采样结构的编码器,充分提取因为雾而损失的语义信息,以便恢复清晰的图像。同时,在解码器网络中,引入了注意力机制,自适应地为不同的像素和通道分配权值,从而处理不均匀分布的雾。最后,生成对抗网络的框架使得模型在小样本数据集上能取得更好的训练效果。实验结果表明,本技术方案不仅能够有效去除真实场景图像中不均匀分布的雾,而且对于训练样本较少的真实场景数据集,也能恢复清晰的图像,评价指标优于广泛采用的其他对比算法。
Description
技术领域
本技术方案属于图像处理领域,具体是一种应用于图像处理的注意力优化的深度编解码去雾生成对抗网络。
背景技术
光在穿越诸如雾、霾等悬浮颗粒物时产生的散射现象使得成像传感器所采集到的图像产生了降质现象,并因此损失了大量有效信息,直接影响下游高级视觉任务的执行效果。图像去雾的目的就是为了消除大气环境对于图像质量的影响,增加图像的可视度,并为下游语义任务(如图像分类、物体检测等)提供支持。
图像去雾主要分为传统去雾和深度学习去雾算法。传统去雾算法大多采用先验知识估计参数恢复原始图像[1,2],并基于大气散射模型[3],其中研究者公认为去雾性能好、应用最为广泛的是暗通道先验去雾算法(DCP)[1]。这种算法通过计算透射率以及预估的大气光实现图像去雾,不需要额外的参数,但是在亮度较高的图像中近乎失效。颜色衰减先验算法(CAP)[2]通过对比图像饱和度与亮度变化关系寻找有雾区域,相比DCP算法,CAP算法改进了求图像景深的方法,通过深度学习算法求最适合的参数值,因此效果优于DCP算法。其他的先验去雾算法[4~6]同样关注有雾图像与无雾图像在特征上的不同,并由此来确定有雾区域。传统算法虽然复杂度低,但同时也存在以下无法避免的缺陷:一是由于参数估计时误差叠加且大气散射模型不够精准,因此生成的去雾图片无法完全还原参考图像。二是传统算法的性能很大程度上受到雾区域检测准度的限制,在去雾的同时,无雾区域的原始低频信息可能也被去除了。由此可见,尽管传统的去雾算法已经取得了长足的进步,但是其在面对现实场景时仍然存在鲁棒性不足的问题,现实场景应用较为困难。
随着深度学习在图像处理领域的广泛应用,基于卷积神经网络(ConvolutionalNeural Network,简称CNN)的去雾模型显示出优于传统算法的性能表现。一些基于CNN的去雾算法[7~9]通过在室内或室外真实图像以及由计算机仿真生成的对应的有雾图像对上进行训练,来学习有雾图像与无雾图像之间的转移图、大气光、景深等关键参数,从而根据大气散射模型计算出预测的去雾图像。其中DehazeNet[7]作为最早的深度学习去雾模型,采用了多尺度特征提取、非线性回归等模块估算出转移图,并带入大气散射模型还原无雾图像。AOD-Net[8]分为两个串行模块,其中K估计模块用以估算雾的深度信息和相对水平,图像生成模块则生成图片,相比DehazeNet,AOD-Net在处理自然图像具有较好的效果,同时对原始图像损失较小。DCPDN[9]则采用了两个并行子模块,其中金字塔密集连接编解码模块用来估计转移图,U型特征提取模块用来估计大气光,最终将这两个参数带入大气散射模型中计算出去雾后的图像。受到其他低级图像任务算法的启发,新的去雾模型[10][11]选择直接的端到端网络,避免大气散射模型,这样的设计既可以避免大气散射模型带来的误差累加,也更有利于下游高级语义任务的支持。
尽管基于深度学习的图像去雾算法已经取得了不错的效果,但是它仍然面临以下几个问题:
第一,完全端到端的网络的性能表现过度依赖大规模数据集上的训练结果,利用的去雾数据集大多是由计算机仿真合成得到的,这与现实场景存在差距,而大规模真实场景去雾数据集又难以获得,限制了模型性能的发挥;
第二,现有方法大多无差别地处理图片上的像素点,无法应对现实场景下不均匀分布的雾。
发明内容
为了解决以上这两个问题,本发明提出了一种注意力优化的深度编解码去雾生成对抗网络,其特征是包括生成器网络和判别器网络,其步骤包括:1)生成器网络接收到输入有雾图像,并生成去雾图像;2)判别器网络接收生成器网络输出的去雾图像和对应的真实无雾图像,并进行判断;3)判别器网络监督生成器网络的训练过程;
在生成器网络中:首先,把输入的有雾图像经过预处理过程得到原始特征图。然后,含有四层下采样的编码器模块被应用得到编码后的特征图。特征图通过一个残差模块处理被送入到解码器模块中。解码器模块同样分为四层,将特征图尺寸恢复至原有大小;在特征图重建时,引入注意力模块;对于同尺寸的编码器和解码器,将编码器编码所得的特征图拼接融合到解码器的输入特征图中。最后,恢复至原尺寸的特征图被送入到后处理模块中,进行通道还原,并与输入有雾图像相加,最终得到输入的去雾后图像。
本生成对抗网络的技术特点主要有:
(1)密集连接的四层下采样编码器可以充分地提取被浓雾遮掩而损失的深层语义信息,而残差连接保证了如轮廓、对比度、纹理等浅层信息往深层传递时不消失;
(2)为解码器层添加的注意力模块可以自适应地寻找图片中浓雾与薄雾区域和通道,并为它们分配不同的权值,从而使得网络具有应对不均匀分布的雾的能力;
(3)采用了生成对抗网络的框架使得系统即使在小样本数据集下训练,也能够具备更强的鲁棒性。
本发明通过生成对抗网络的框架,模型可以在小样本数据集中取得较好的训练效果。其中,生成器网络采用了深度编解码的结构。编码器采用了四成深度下采样,保证了充分提取图像的文本信息,以期恢复因浓雾造成的信息损失。解码器中引入了注意力机制,可以自适应地为不同的像素与通道赋予注意力权重,从而应对真实场景中雾不均匀分布的情况。在小样本真实数据集I-HAZY和O-HAZY上的实验结果显示,相比广泛使用的去雾算法和模型,本发明的网络模型在客观指标与视觉观感上均拥有优秀的性能。
附图说明
图1是生成器网络示意图;
图2是解码器结构示意图;
图3是判别器网络示意图;
图4是上采样方式对比示意图;
图5是LeakyReLU与ReLU激活函数对比示意图;
图6是去雾效果对比示意图。
具体实施方式
下面结合附图与具体实施方式对本发明进一步说明:
1概述
本发明的注意力优化的深度编解码去雾生成对抗网络,是一种基于编解码架构的去雾生成对抗网络。本发明的生成对抗网络采用了四层下采样结构的编码器,充分提取因为雾而损失的语义信息,以便恢复清晰的图像。同时,在解码器网络中,引入了注意力机制,自适应地为不同的像素和通道分配权值,从而处理不均匀分布的雾。最后,生成对抗网络的框架使得模型在小样本数据集上能取得更好的训练效果。
实验结果表明,本发明的去雾网络不仅能够有效去除真实场景图像中不均匀分布的雾,而且对于训练样本较少的真实场景数据集,也能恢复清晰的图像,评价指标优于广泛采用的其他对比算法。
2算法实现
2.1相关技术简介
2.1.1生成对抗网络
生成对抗网络[12](Generative Adversarial Network,简称GAN),它通过博弈论的最小-最大优化原理有效地学习训练图像的分布来合成真实图像,更加类似人类无监督情况下学习知识。生成对抗网络可以改善传统卷积神经网络高度依赖样本数量以及标签质量的问题。
2.1.2编解码结构
编解码结构在深度学习领域的应用最早是在自然语言处理领域的序列到序列(Seq-to-Seq)模型[13]。编解码结构网络框架UNet在图像处理领域中,可以更加充分地关注图像的语义信息,并且在不同尺度重建特征图以匹配原始尺寸,这个特性对于端到端任务尤为重要。同时,UNet为同尺度的编解码层添加了长跳跃连接,这保证了浅层语义信息在重建图像时不会被遗忘,防止梯度消失。
2.1.3完全端到端网络
尽管大气散射模型解释了有雾图像的产生,但是把大气散射模型作为去雾算法的基准会产生误差的积累。这是由于大气散射模型仅仅是对于有雾环境的物理模拟模型。与真实场景在转移图、大气光成分、背景辐射和景深的计算上都存在不可忽视的误差,这限制了去雾算法的性能。神经网络的学习能力使得得可以放弃大气散射模型进而直接学习雾在图片上的分布,从而完全端到端的获得去雾图像,这也有利于工业部署。
2.2去雾生成对抗网络模型
2.2.1模型总体框架
模型采用了生成对抗网络的框架,分为生成器网络和判别器网络。生成器网络接收到输入有雾图像并生成去雾图像,判别器网络接受生成器网络输出的去雾图像和对应的真实无雾图像,并进行判断,同时监督生成器网络的训练过程。在本模型中,如图1所示,生成器网络采用了四层镜像的深度编解码结构来充分提取图片的文本信息,同时,长跳跃连接策略也被应用其中来保证浅层信息在传递过程中不丢失,防止梯度消失。如图2所示,解码器模块添加了特别设计的注意力模块来应对不均匀分布的雾。如图3所示,判别器网络为常见的二分类网络。通过生成对抗网络的框架,模型可以降低对大规模训练数据集的要求,拓宽模型的应用场景。
2.2.2密集残差连接的四层下采样编码器
本发明设计了一个四层密集残差连接来替代UNet模型中的原始编码器。该编码器利用了在ImageNet[14]数据集上预训练的DenseNet-121[15]作为特征提取器。DenseNet的显著特点是采用了密集连接的残差网络,与直接简单地堆叠卷积层或者使用ResNet提取特征相比,DenseNet在充分提取图像文本信息的同时,提高了特征利用率,却没有引入额外的参数,这有利于恢复由于高浓度雾而损失的图像信息。此外,它在不同的图层之间建立了足够的跳跃连接,将前一层提取的特征融合到当前图层上,保证了视觉任务的准确性。
本发明的编码器结构如图1所示,本发明首先引入了一个预处理过程,它包括了一个Conv层、一个BatchNorm[16]层和一个ReLU[17]层。经过预处理得到的原始特征紧接着被送入编码器中。编码器包括了连续的四组预训练的DenseBlock和TransBlock。该DenseBlock与TransBlock层都为标准的DensNet-121,在ImageNet数据集上进行预训练后,采用预训练权重代替随机初始化权重,以便加快模型收敛速度。每一层的TransBlock都含有一个最大值池化层,会将特征缩小1/2,最终得到原始尺寸1/16的特征图。
2.2.3注意力增强的解码器
由于编码器将特征尺寸缩小为原始尺寸的1/16,因此,需要一个镜像的四层上采样模块恢复特征的尺寸。与编码器类似,本发明采用连续的四组DenseBlock和TransBlock。但解码器的DenseBlock以及TransBlock又与编码器中的不同,是特别设计并经过简化的,其目的分别是处理采样后的特征图与恢复特征图尺寸至原始图片的尺寸。简化的DenseBlock、TransBlock和注意力模块的结构如图3所示,每一个解码器的DenseBlock包括两组ReLU层和Conv层,并且将该DenseBlock的输入特征图与处理后的特征图做残差连接。为使得特征图尺寸恢复至原始尺寸,每一个TransBlock中都必须含有一个上采样算子。相比于直接的二次线性插值进行上采样,本发明使用可学习上采样模块PixelShuffle[18],如图4所示,以避免上采样时插值产生的人工痕迹,更加适合端到端的图像任务。
通常的去雾方法为所有的像素以及通道赋予统一的权值,这与现实的经验不相符。由于现实场景中雾是不均匀分布的,为所有的像素值设置同样的权值会导致雾浓度更高的区域去雾不充分,影响了最终的图像恢复质量。而且对于特征图的所有通道,它们对于雾浓度的敏感性也各不相同。因此,在特征图重建时,引入注意力模块有助于帮助网络更好地学习雾的浓度分布,达到更为理想的去雾效果。具体来说,在每一个TransBlock的上采样模块PixelShuffle后面,添加了一个注意力模块,其结构如图2所示,该注意力模块分为通道域注意力分支和空间域注意力分支。在通道域注意力分支中,本发明首先对解码器中DenseBlock处理后的特征图的每一个通道的所有像素取平均值,作为原始通道注意力特征向量。对于一个c*h*w维的特征图,可以得到一个c*1大小的特征向量。为了使特征向量能够学习不同通道的敏感性,本发明再依次对它进行Conv、ReLU、Conv和Sigmoid操作,这样通过训练,该特征向量便可以学习到不同通道的注意力。最后将该注意力向量与原始特征图相乘,便得到了通道注意力特征图。空间域注意力的计算与通道域类似,对于得到的通道注意力特征图,本发明首先沿着通道方向对其进行平均池化和最大池化操作,得到两个1*h*w的原始空间注意力,该特征图上每一点的像素分别为不同通道上该位置所有像素的平均值与最大值。紧接着对这两张特征图进行Conv与Sigmoid操作,获得学习后的空间域注意力。最后,将空间域注意力与混合了通道域注意力的特征图相乘,这样,雾在通道和空间上的不均匀分布便被特征图所学习。
2.2.4生成器网络与判别器网络
本发明的模型采用了生成对抗网络的框架,其生成器网络与直接的编解码结构不同,而是参考了UNet的长跳跃连接策略,将同尺寸的编码器编码所得的特征图拼接融合到解码器的输入特征图中。采用长跳跃连接可以联系输入图像的信息,有助于还原下采样所带来的信息损失,同时避免的额外的参数量。
生成器网络的输入是有雾图像,首先经过一个预处理过程得到原始特征图。然后含有四层下采样的编码器模块被应用得到编码后的特征图,它的尺寸为原始图片尺寸的1/16。紧接着,该特征图通过一个残差模块处理被送入到解码器模块中。解码器模块同样分为四层,将特征图尺寸恢复至原有大小。解码器的每一层都含有设计的注意力模快。最后,恢复至原尺寸的特征被送入到一个包含有Padding层、Conv层和Tanh层的后处理模块中恢复至三通道,并与输入有雾图像相加,最终得到输入的去雾后图像。
判别器网络为常规的二分类网络,它的输入是生成器生成的去雾后图像。判别器网络的输出为真或假,评估生成器网络输出的去雾图像的质量,并指导生成器网络训练,相应地调整参数。在判别器中,本发明使用LeakyReLU层[20]、Conv层和BatchNorm层的一系列组合。LeakyReLU函数,如图5所示,在梯度反向传播过程中,与常规的ReLU函数相比,增加了一个超参数,用于在激活函数的输入小于0时计算梯度,解决了由于负样本的出现而导致神经元死亡的问题。BatchNorm层可以集中化和规范化每个批。这种操作可以避免由于数据分布的不同而导致参数变化过大时参数的不断增加,当然也可以避免梯度爆炸,在使用更精确的学习率的同时加快收敛速度。这两层在分类网络中都有很好的应用。
2.2.5损失函数
为了综合考量生成的去雾后图像的各方面性能,以更好地指导模型完成训练,本发明使用了一个集成损失函数L,它是由重建损失函数Lr、感知损失函数Lp和对抗损失函数La组成,它的定义式如式(1)所示:
L=αLr+βLp+γLa (1)
其中,α、β、γ为相应损失函数的权重系数。
重建损失函数Lr的计算公式如式(2)所示:
其中,L1表示生成器生成的去雾后图像和真实无雾对比图像之间的平均绝对误差,Ii是输入模糊图像;G(·)代表生成器去雾网络的操作,G(Ii)和Ji分别表示生成器生成的去雾后图像和真实无雾对比图像;
重建损失衡量的是生成图像与参考图像直接的平均绝对误差,为客观指标。单纯地使用重建损失指导模型训练会导致客观结果与主观视觉感受不相符合的情况。感知损失便被提出以解决这个问题。感知损失函数Lp的计算公式如式(3)所示:
其中,L2表示平均方差误差,vgg(·)表示预训练的VGG16网络;G(·)代表生成器去雾网络的操作,G(Ii)和Ji分别表示生成器生成的去雾后图像和真实无雾对比图像;VGG16网络是经过ImageNet训练过的网络,它能够提取出图像的边缘、颜色、亮度、纹理以至于更为深层次不可感知的语义特征,用VGG16模拟人眼对图像感知的差别也被广泛地应用于超分辨率、风格迁移等任务中。
对抗损失函数La也被集成到损失函数中来反映判别器网络的指导训练作用,它的定义式如式(4)所示:
其中,D(G(Ii))是判别器网络判断生成器生成的去雾后图像G(Ii)为真的概率。
3实验过程和结果分析
3.1数据集与性能指标
出于现实场景下应用效果的考虑,本发明选择了小样本真实数据集I-HAZY[23]和O-HAZY[24]数据集。I-HAZY与O-HAZY数据集的提出是为了解决当前基于深度学习的去雾方法过于依赖大样本合成数据集的问题。相比于最常用的去雾数据集,I-HAZY与O-HAZY数据集对于模型的性能更具挑战性。
I-HAZY数据集包括30对室内真实有雾图像和对应的无雾图像,其中25对用于训练,5对用于测试。0-HAZY数据集包括45对室外真实有雾图像和对应的无雾图像,其中40对用于训练,5对用于测试。其中,真实的有雾图像都是由专业的雾霾产生器生成的,与相应的无雾霾图像在相同的光照参数下拍摄,更接近实际应用。
本发明采用国内外文献中关于图像恢复研究常用的两个客观性能指标和一个主观指标来评价本发明提出的模型的性能,并与其他的去雾方法对比分析。客观指标是峰值信噪比(Peak Signal to Noise Ratio,简称PSNR)和结构相似性(Structural Similarityindex,简称SSIM),主观指标是感知相似度[25](Learned Perceptual Image PatchSimilarity,简称LPIPS)。
PSNR是最常使用的图像质量客观评价指标,用于衡量图像与相应参考图像之间的像素级误差。PSNR是一个误差敏感型的图像质量评价指标,其定义式如式(4)所示:
式中n表示像素的位宽,MSE是去雾图像和相应参考图像的平均绝对误差。
SSIM从亮度、对比度和结构三个层面考量去雾图像和相应参考图像之间的误差,相比于PSNR,SSIM更为全面且符合人的直观感受,其定义式如式(5)和式(6)所示:
SSIM=l(x,y)*c(x,y)*s(x,y) (7)
其中,μ代表平均值,σx代表方差,σxy代表协方差,l,c,s分别表示亮度、对比度和结构,c1,c2,c3都是常数。
LPIPS指标以高阶图像结构的相似度衡量替代了实际上不可能构成的距离度量,更加符合人类对于感知相似度的感受。实际使用中,LPIPS使用在ImageNet数据集上预训练的深度网络提取图片以及参考图片的深层特征。LPIPS值越低,说明生成图像与对应参考图像的特征相似度越高,主观感知越相似。
3.2实验参数与环境设置
本发明的程序使用Pytorch框架编写,程序代码网址为https://kirqwer6666/dehazeGAN,并在配置为Intel i9 9900K CPU和NVIDIA Geforce RTX 2080Ti GPU的电脑上训练。初始学习率设置为0.0001,使用ADAM[26]作为学习率优化策略,并使用StepLR阶段性的调整基础学习率。图片被裁剪成固定尺寸,并被随机旋转0°,90°,180°或者270°以防止过拟合。为了进一步提高生成对抗网络的鲁棒性,本发明设置了样本池。当生成器接收到50个样本时,之后的参考真实图像会有50%概率与正确的有雾图像匹配,50%概率与随机样本池中的另一幅图像匹配。这样做的目的是为了防止判别器网络停止训练,监督生成器网络在小样本数据集的训练。在训练过程中,num of threads被设置为8,batch size设置为1,epoch设置为5000,learning rate step设置为1000,learning rate decay设置为0.5,最后两个参数意味着每训练1000个epoch,就将基础学习率衰减为初始学习率的一半。
3.3实验结果与分析
将本发明的模型与DCP[1]、CAP[2]、DehazeNet[7]、AOD-Net[8]以及DCPDN[9]作比较,视觉直观对比结果如图6所示,定量分析的实验结果分别如表1、表2所示。
对比各个算法和模型在I-HAZY和O-HAZY数据集上的效果,从图6可以看出,暗通道先验算法(DCP)在室内与室外数据集上均完全失效,这是因为图片亮度较高导致图片不满足暗通道先验规律。颜色衰减先验算法(CAP)相比暗通道先验算法有着一定的性能提升,但是它仍然只能处理雾比较薄的场景,对于室外图片中大量密集分布的雾以及景深较深区域的雾,则仍然失效。DehazeNet和AOD-Net处理的结果较为类似,无论是室内图片还是室外图片,它们都能够去除表面的雾,使得图片因为雾产生的朦胧感变淡,但是由于缺少深层信息的提取和应用,无法到达更好的效果。DCPDN模型虽然去雾效果相对较好,但是出现了颜色失真现象,这在室外图片上更为明显。与以上这些模型相比,本发明的模型无论对于室内还是室外,浓雾还是雾分布不均的图像,去雾效果都更彻底,颜色还原失真较少,细节保留更多,没有明显的雾残留造成的朦胧感。
表1去雾效果的PSNR和SSIM对比
表2去雾效果的LPIPS对比
从表1的客观指标定量分析可知,对于I-HAZY和O-HAZY数据集,本发明的模型的PSRN分别比5个比较模型的最优值高6.45和5.94;对于O-HAZY数据集,本发明的模型的SSIM比5个比较模型的最优值高0.103。从表2的主观指标定量分析可知,对于O-HAZY数据集,本发明的模型的LPIPS比5个比较模型的最优值低0.108。因此,本发明提出的模型无论从客观角度还是主观角度来评价,均明显优于其他5个模型,这个优势对于室外雾浓度不均匀有雾图像更加显著。
4结语
本发明的注意力优化的深度编解码去雾生成对抗网络。通过生成对抗网络的框架,模型可以在小样本数据集中取得较好的训练效果。其中,生成器网络采用了深度编解码的结构。编码器采用了四成深度下采样,保证了充分提取图像的文本信息,以期恢复因浓雾造成的信息损失。解码器中引入了注意力机制,可以自适应地为不同的像素与通道赋予注意力权重,从而应对真实场景中雾不均匀分布的情况。在小样本真实数据集I-HAZY和O-HAZY上的实验结果显示,相比广泛使用的去雾算法和模型,我们的模型在客观指标与视觉观感上均拥有优秀的性能。
参考文献(References):
[1]He K,Sun J,Tang X。Single image haze removal using dark channelprior[J].IEEE transactions on pattern analysis and machine intelligence,2010,33(12):2341-2353.
[2]Zhu Q,Mai J,Shao L.A fast single image haze removal algorithmusing color attenuation prior[J].IEEE transactions on image processing,2015,24(11):3522-3533.
[3]Freeman,William T.,and Edward H.Adelson.″The design and use ofsteerable filters.″IEEE Transactions on Pattern analysis and machineintelligence 13.9(1991):891-906.
[4]He,Kaiming,Jian Sun,and Xiaoou Tang.″Guided image filtering.″European conference on computer vision.Springer,Berlin,Heidelberg,2010.
[5]曹绪民,刘春晓,张金栋,林宇航,赵锦威.基于亮度对比度增强与饱和度补偿的快速图像去雾算法[J].计算机辅助设计与图形学学报,2018,30(10):1925-1934.
[6]沈逸云,刘春晓,张金栋,邵雅琪,赵锦威.鲁棒图像去雾的大气光校正与透射率优化算法[J].计算机辅助设计与图形学学报,2017,29(09):1604-1612.
[7]Cai B,Xu X,Jia K,et al.Dehazenet:An end-to-end system for singleimage haze removal[J].IEEE Transactions on Image Processing,2016,25(11):5187-5198.
[8]Li B,Peng x,Wang Z,et al.Aod-net:All-in-one dehazing network[C]//Proceedings of the IEEE international conference on computer vision.2017:4770-4778.
[9]Zhang H,Patel V M.Densely connected pyramid dehazng network[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2018:3194-3203.
[10]赵扬,李波.基于增强生成器条件生成对抗网络的单幅图像去雾[J/OL].计算机应用:1-8[2021-06-20].http://kns.cnki.net/kcms/detail/51.1307.TP.20210601.0904.004.html.
[11]张金龙,杨燕.基于雾层特征提取与增强网络的端到端去雾算法[J/OL].Journal of Measurement Science and Instrumentation:1-13[2021-06-20].http//kns.cnki.net/kcms/detail/14.1357.TH.20210507.1534.002.html.
[12]Goodfellow,Ian J.,et al.″Generative adversarial networks.″arXivpreprint arXiv:1406.2661(2014).
[13]Sutskever,Ilya,Oriol Vinyals,and Quoc V.Le.″Sequence to sequencelearning with neural networks.″arXiv preprint arXiv:1409.3215(2014).
[14]Russakovsky,Olga,et al.″Imagenet large scale visual recognitionchallenge.″International journal of computer vision 115.3(2015):211-252.
[15]Huang G,Liu Z,Van Der Maaten L,et al.Densely connectedconvolutional networks[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2017:4700-4708.
[16]Ioffe S,Szegedy C.Batch normalization:Accelerating deep networktraining by reducing internal covariate shift[J].arXiv preprint arXiv:1502.03167,2015.
[17]Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks[C]//Proceedings of the fourteenth international conference on artificialintelligence and statistics.2011:315-323.
[18]Shi,Wenzhe,et al″Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network.″Proceedings of the IEEE conference on computer vision and patternrecognition.2016.
[19]Woo,Sanghyun,et al.″Cbam:Convolutional block attention module.″Proceedings of the European conference on computer vision(ECCV).2018.
[20]He,Kaiming,et al.″Delving deep into rectifiers:Surpasslng human-level performance on imagenet classification.″Proceedings of the IEEEinternational conference on computer vison.2015.
[21]Johnson J,Alahi A,Fei-Fei L.Perceptual losses for real-time styletransfer and super-resolution[C]//European conference on computervision.Springer,Cham,2016:694-711.
[22]Simonyan,Karen,and Andrew Zisserman.″Very deep convolutionalnetworks for lage-scale image recognition.″arXiv preprint arXiv:1409.1556(2014).
[23]Ancuti C,Ancuti C O,Timofte R,et al.I-HAZE:a dehazing benchmarkwith real hazy and haze-free indoor images[C]//International Con-ference onAdvanced Concepts for Intelligent vision Systems.Springer,Cham,2018:620-631.
[24]Ancuti C O,Ancuti C,Timofte R,et al.O-haze:a dehazng benchmarkwith real hazy and haze-ffee outdoor mages[C]//Proceedings of the IEEEconference on computer vision and pattern recognition workshops.2018:754-762.
[25]Zhang,Richard,et al″The unreasonable effectiveness of deepfeatures as a perceptual metric.″Proceedings of the IEEE conference oncomputer vision and pattern recognition.2018.
[26]Kingma,Diederik P.,and Jimmy Ba.″Adam:A method for stochasticoptimization″arXiv preprint arXiv:1412.6980(2014)。
Claims (8)
1.一种注意力优化的深度编解码去雾生成对抗网络,其特征是包括生成器网络和判别器网络,其步骤包括:1)生成器网络接收到输入有雾图像,并生成去雾图像;2)判别器网络接收生成器网络输出的去雾图像和对应的真实无雾对比图像,并进行判断;3)判别器网络监督生成器网络的训练过程;
所述步骤1)中,生成器网络生成去雾图像的步骤包括:
1.1)把输入的有雾图像经过预处理过程得到原始特征图;
1.2)用含有四层下采样的编码器模块得到编码后的特征图;
1.3)特征图通过一个残差模块处理被送入到解码器模块中;
1.4)解码器模块同样分为四层,将特征图尺寸最终恢复至原有大小;在特征图重建时,引入注意力模块;
1.5)恢复至原尺寸的特征图被送入到后处理模块中,进行通道还原,并与输入有雾图像相加,最终得到输入的去雾后图像。
2.根据权利要求1所述的注意力优化的深度编解码去雾生成对抗网络,其特征是所述步骤1.1)中,进入编码器之前的图像进行预处理:输入有雾图像依次经过一个Conv卷积层、一个BatchNorm批归一化层和一个ReLU激活层;得到经预处理的有雾图像的原始特征。
3.根据权利要求1所述的注意力优化的深度编解码去雾生成对抗网络,其特征是所述步骤1.2)中,所述编码器包括连续的四组预训练的DenseBlock和TransBlock;每组DenseBlock与TransBlock层都是标准的DensNet-121;DenseNet-121是经ImageNet数据集上预训练后,采用预训练权重代替随机初始化权重;
每一层TransBlock都含有一个能将图像特征缩小至原始尺寸1/2大小的最大值池化层,最终通过四组DenseBlock和TransBlock中的四个最大值池化层,得到原始尺寸1/16的特征图。
4.根据权利要求1所述的注意力优化的深度编解码去雾生成对抗网络,其特征是所述步骤1.4)中,所述解码器包括连续的四组简化的DenseRlock和TransBlock;每组DenseBlock和TransBlock中:DenseBlock包括两组ReLU激活层和Conv卷积层,并且将编码器的相应组得到的特征图与解码器的相应组的输入特征图做残差连接,从而将同尺寸层的编码器输出特征图和解码器输入特征图融合生成解码器每一层的特征图;
每一个TransBlock中都含有一个上采样模块PixelShuffle,将解码器每一层的特征图尺寸扩大2倍,通过四个TransBlock的上采样模块,最终将特征图恢复至原始尺寸。
5.根据权利要求4所述的注意力优化的深度编解码去雾生成对抗网络,其特征是所述步骤1.4)中,在特征图重建时,引入注意力模块,方法是:
在每一个TransBlock的上采样模块PixelShuffle后面,添加了一个注意力模块;注意力模块分为通道域注意力分支和空间域注意力分支;
1.4.1)在通道域注意力分支中:
首先对解码器中DenseRlock处理后的特征图的每一个通道的所有像素取平均值,作为原始通道注意力特征向量;
对于一个c*h*w维的特征图,得到一个c*1大小的特征向量;
再对该特征向量依次进行Conv、ReLU、Conv和Sigmoid激活函数操作;通过训练,该特征向量学习到不同通道的注意力;
最后,将该注意力向量与原始特征图相乘,得到了通道注意力特征图;
1.4.2)在空间域注意力分支中:
采用与通道注意力特征图的相似的学习方法,得到空间注意力特征图;
首先,沿着通道方向对融合了通道注意力的特征图分别进行平均池化操作和最大池化操作,得到两个1*h*w的原始空间注意力特征图;特征图上每一点的像素分别为不同通道上该位置所有像素的平均值与最大值;
然后,对这两张特征图进行卷积与Sigmoid激活函数操作,获得学习后的空间域注意力特征图;
1.4.3)将空间域注意力特征图与混合了通道域注意力的特征图相乘,则注意力模块生成的特征图学习了在通道和空间上不均匀分布的雾的特征。
6.根据权利要求1所述的注意力优化的深度编解码去雾生成对抗网络,其特征是所述步骤1.5)中,后处理模块进行通道还原:恢复至原尺寸的特征图被送入后处理模块,后处理模块内依次为Padding填充层、Conv层和Tanh激活层,最终恢复至三通道。
7.根据权利要求1所述的注意力优化的深度编解码去雾生成对抗网络,其特征是所述步骤2)中,判别器网络为二分类网络;判别器网络的输入是生成器网络生成的去雾后图像和对应的真实无雾对比图像;判别器网络的输出为真或假,评估生成器网络输出的去雾图像的质量,并指导生成器网络训练,相应地调整参数;
在判别器网络中,使用LeakyReLU层、Conv卷积层和BatchNorm层的组合。
8.根据权利要求1所述的注意力优化的深度编解码去雾生成对抗网络,其特征是所述步骤3)中,损失函数L是集成损失函数,它是由重建损失函数Lr、感知损失函数Lp和对抗损失函数La组成,它的定义式如式(1)所示:
L=αLr+βLp+γLa (1)
其中,α、β、γ为相应损失函数的权重系数。
重建损失函数Lr的计算公式如式(2)所示:
其中,L1表示生成器生成的去雾后图像和真实无雾对比图像之间的平均绝对误差,Ii是生成器网络的输入模糊有雾图像;G(·)代表生成器去雾网络的操作,G(Ii)和Ji分别表示生成器生成的去雾后图像和真实无雾对比图像;n为训练样本的数目;
感知损失函数Lp的计算公式如式(3)所示:
其中,L2表示平均方差误差,vgg(·)表示预训练的VGG16网络;G(·)代表生成器去雾网络的操作,G(Ii)和Ji分别表示生成器生成的去雾后图像和真实无雾对比图像;VGG16网络是经过ImageNet训练过的网络;
对抗损失函数La也被集成到损失函数中来反映判别器网络的指导训练作用,它的定义式如式(4)所示:
其中,D(G(Ii))是判别器网络判断生成器生成的去雾后图像G(Ii)为真的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111504661.4A CN114187203A (zh) | 2021-12-09 | 2021-12-09 | 注意力优化的深度编解码去雾生成对抗网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111504661.4A CN114187203A (zh) | 2021-12-09 | 2021-12-09 | 注意力优化的深度编解码去雾生成对抗网络 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114187203A true CN114187203A (zh) | 2022-03-15 |
Family
ID=80604296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111504661.4A Pending CN114187203A (zh) | 2021-12-09 | 2021-12-09 | 注意力优化的深度编解码去雾生成对抗网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187203A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648467A (zh) * | 2022-05-18 | 2022-06-21 | 中山大学深圳研究院 | 图像的去雾方法、装置、终端设备及计算机可读存储介质 |
CN114900619A (zh) * | 2022-05-06 | 2022-08-12 | 北京航空航天大学 | 一种自适应曝光驱动相机摄影水下图像处理系统 |
CN114998683A (zh) * | 2022-06-01 | 2022-09-02 | 北京理工大学 | 一种基于注意力机制的ToF多径干扰去除方法 |
CN116343144A (zh) * | 2023-05-24 | 2023-06-27 | 武汉纺织大学 | 一种融合视觉感知自适应去雾的实时目标检测方法 |
CN116523767A (zh) * | 2023-03-15 | 2023-08-01 | 山东财经大学 | 一种结合雾浓度分类的图像去雾方法及系统 |
CN116596792A (zh) * | 2023-05-22 | 2023-08-15 | 武汉理工大学 | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 |
CN114998683B (zh) * | 2022-06-01 | 2024-05-31 | 北京理工大学 | 一种基于注意力机制的ToF多径干扰去除方法 |
-
2021
- 2021-12-09 CN CN202111504661.4A patent/CN114187203A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900619A (zh) * | 2022-05-06 | 2022-08-12 | 北京航空航天大学 | 一种自适应曝光驱动相机摄影水下图像处理系统 |
CN114648467A (zh) * | 2022-05-18 | 2022-06-21 | 中山大学深圳研究院 | 图像的去雾方法、装置、终端设备及计算机可读存储介质 |
CN114998683A (zh) * | 2022-06-01 | 2022-09-02 | 北京理工大学 | 一种基于注意力机制的ToF多径干扰去除方法 |
CN114998683B (zh) * | 2022-06-01 | 2024-05-31 | 北京理工大学 | 一种基于注意力机制的ToF多径干扰去除方法 |
CN116523767A (zh) * | 2023-03-15 | 2023-08-01 | 山东财经大学 | 一种结合雾浓度分类的图像去雾方法及系统 |
CN116523767B (zh) * | 2023-03-15 | 2023-10-17 | 山东财经大学 | 一种结合雾浓度分类的图像去雾方法及系统 |
CN116596792A (zh) * | 2023-05-22 | 2023-08-15 | 武汉理工大学 | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 |
CN116596792B (zh) * | 2023-05-22 | 2023-12-29 | 武汉理工大学 | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 |
CN116343144A (zh) * | 2023-05-24 | 2023-06-27 | 武汉纺织大学 | 一种融合视觉感知自适应去雾的实时目标检测方法 |
CN116343144B (zh) * | 2023-05-24 | 2023-08-11 | 武汉纺织大学 | 一种融合视觉感知自适应去雾的实时目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114187203A (zh) | 注意力优化的深度编解码去雾生成对抗网络 | |
Li et al. | Single image dehazing via conditional generative adversarial network | |
Ullah et al. | Light-DehazeNet: a novel lightweight CNN architecture for single image dehazing | |
CN113658051B (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
Tran et al. | GAN-based noise model for denoising real images | |
CN110544213B (zh) | 一种基于全局和局部特征融合的图像去雾方法 | |
CN111079764B (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN111861894A (zh) | 基于生成式对抗网络的图像去运动模糊方法 | |
CN112767279A (zh) | 一种基于离散小波集成生成对抗网络的水下图像增强方法 | |
CN116596792B (zh) | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 | |
CN107833182A (zh) | 基于特征提取的红外图像超分辨率重建方法 | |
Yuan et al. | Single image dehazing via NIN-DehazeNet | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
CN115631107A (zh) | 边缘引导的单幅图像噪声去除 | |
CN115861094A (zh) | 一种融合注意力机制的轻量级gan水下图像增强模型 | |
CN114022392A (zh) | 用于单幅图像去雾的串行注意增强UNet++去雾网络 | |
CN113034404A (zh) | 一种基于多尺度对抗学习的交通图像去模糊方法及装置 | |
CN116703750A (zh) | 基于边缘注意力和多阶微分损失的图像去雾方法及系统 | |
Krishnan et al. | A novel underwater image enhancement technique using ResNet | |
CN112132757A (zh) | 一种基于神经网络的通用图像复原方法 | |
CN115760640A (zh) | 基于含噪Retinex模型的煤矿低光照图像增强方法 | |
CN112381725B (zh) | 基于深度卷积对抗生成网络的图像修复方法及装置 | |
Hong et al. | Multi-scale iterative network for underwater image restoration | |
Wang et al. | Three-channel cascade network for underwater image enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |