CN116402709A - 一种基于水下注意力生成对抗网络的图像增强方法 - Google Patents

一种基于水下注意力生成对抗网络的图像增强方法 Download PDF

Info

Publication number
CN116402709A
CN116402709A CN202310284472.3A CN202310284472A CN116402709A CN 116402709 A CN116402709 A CN 116402709A CN 202310284472 A CN202310284472 A CN 202310284472A CN 116402709 A CN116402709 A CN 116402709A
Authority
CN
China
Prior art keywords
attention
underwater
image
countermeasure network
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310284472.3A
Other languages
English (en)
Inventor
王宁
陈廷凯
陈延政
孔祥军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202310284472.3A priority Critical patent/CN116402709A/zh
Publication of CN116402709A publication Critical patent/CN116402709A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明一种基于水下注意力生成对抗网络的图像增强方法,包括以下步骤:获取待增强的水下图像;通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息构建注意力生成对抗网络;将待增强的水下图像作为输入,使用生成对抗损失、损失和结构相似性损失对注意力生成对抗网络进行训练,得到训练好的构建注意力生成对抗网络,输出增强后的水下图像,通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息,使得所设计的UAGAN框架具备更强的泛化性;同时,所提出的UAGAN框架可避免参数估计和水下成像建模的问题,结合位置注意力和PatchGAN技术,有助于捕获长距离依赖信息,从而可避免所生成的水下图片产生过增强现象。

Description

一种基于水下注意力生成对抗网络的图像增强方法
技术领域
本发明属于水下视觉智能感知领域,涉及一种基于水下注意力生成对抗网络的图像增强方法。
背景技术
水下光学成像技术能够提供符合人类视觉感知的高分辨率图像,目前已经成为探索海洋、认知海洋的有效手段。注意到,复杂海洋环境中存在大量的溶解物、悬浮物和颗粒物等,悬浮粒子对光线吸收、散射和折射,从而导致捕获到的图像表现为颜色失真、细节模糊和低对比度等,严重降低水下图像成像质量,这不可避免地给基于视觉的水下作业任务带来严峻挑战。
目前而言,瞄准水下图像所独有的对比度低、细节模糊、噪声问题,主流的水下图像增强方法包括:基于非物理模型的图像增强方法、基于物理模型的水下图像恢复方法和基于数据驱动的图像到图像转换方法。
(1)基于非物理模型的水下图像增强方法;
通常而言,基于非物理模型的水下图像增强方法通过直接调整像素值而实现图像的清晰化,其包括直方图均衡化及其演变方法、白平衡系列算法、域变换方法。直方图均衡化框架主要是解决像素分布动态范围小、分布集中的难题,其主要是利用灰度变换函数使得直方图的分布范围更广,从而有效提高水下图像的对比度;限制对比度自适应直方图均衡化方法将水下图像分为多个区域,针对不同的图像区域应用不同的灰度映射函数,从而有效解决图像局部区域过增强或者欠增强的问题;另外,白平衡系列算法主要是基于色温的思想来调整图像对比度和校正颜色;此外,研究人员也通过将水下光学图像从空间域转为变换域,充分利用变换域的相关特性进行处理,进而将水下光学图像从变换域转换至空间域,从而实现水下光学图像的增强。
(2)基于物理模型的水下图像恢复方法;
通过探索无雾图像中局部区域存在一定量的暗像素(即三个通道中,某个通道的像素值接近于0),提出了暗通道先验方法,其能够有效的恢复图像颜色和提高图像对比度;结合水下光学图像红色通道衰减最为严重的信息,提出了水下暗通道增强框架,该方法在求解暗通道的过程中主要是利用绿色通道和蓝色通道信息。利用与场景深度变化相关的颜色信息来估计背景光,提出了泛化暗通道算法,其能够有效地调整图像的色彩。通过在后向散射光估计的过程中融合多先验知识的评分机制,提出了一种泛化水下暗通道先验方法,该方法可以更加有效的估计透射图,从而有助于提高水下图像的增强。
(3)基于数据驱动的图像到图像转换方法
U-Net网络结构在图像增强领域已经被证实极其有效,借助于编码和解码结构,利用卷积和反卷积的模式,结合跳跃连接操作可有效保存图像低层信息,同时防止梯度消失;UGAN框架通过借助于生成对抗机制,使得判别器能够有效地指导生成器生成符合真实图像分布的图像,从而可有效地避免繁琐的损失函数设计;Wasserstein GAN方法通过借助于感知损失,使得生成的图像能够具有与人类感知相一致的特性。GAN-RS方法通过利用对抗分支和评价分支分别实现图像内容保持和噪声滤除,其真样本的形成主要是基于滤波的方法。
复杂多域场景下水下图像增强技术主要存在如下缺陷:(1)通过直接调整像素值实现水下图像增强的方式不具备泛化性,通过基于水下成像模型实现图像增强的方式存在建模困难、传输图难以获取、吸收散射系数难以准确估计等;(2)在特征提取的过程中不可避免地引入散斑噪声、高斯噪声和脉冲噪声,从通道层面而言,已有的方法未有效的对前述混合噪声进行抑制,从而导致难以产生符合人类视觉感知的图像;(3)仅仅依赖于最后全连接层的单个激活值或卷积层补块激活值来判断生成器生成水下样本的策略极易使得生成器产生过增强或欠增强现象。
发明内容
为了解决上述问题,本发明提供本发明采用的技术方案是:一种基于水下注意力生成对抗网络的图像增强方法,包括以下步骤:
获取待增强的水下图像;
通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息构建注意力生成对抗网络;
将待增强的水下图像作为输入,使用生成对抗损失、损失和结构相似性损失对注意力生成对抗网络进行训练,得到训练好的构建注意力生成对抗网络,输出增强后的水下图像。
进一步地:所述注意力生成对抗网络借助全局最大池化和平均池化操作,结合单隐层神经网络架构,形成级联密集通道注意力模块,实现通道权重重分配。
进一步地:所述注意力生成对抗网络通过结合位置注意力和PatchGAN技术,捕获长距离依赖信息。
进一步地:所述级联密集通道注意力模块的输出的得到过程如下:
使用密集连接网络来提取判别性噪声特征和增强特征流动,其可以表述为:
Figure BDA0004139238720000031
其中:
Figure BDA0004139238720000032
代表密集网络中第l个基础模块输出,/>
Figure BDA0004139238720000033
代表原始输入特征,/>
Figure BDA0004139238720000034
代表密集网络的输出,Tl(·)是包括批次归一化、LeakyReLU和卷积操作的非线性转换,O(·)表示1×1卷积操作;
通过利用全局平均池化和全局最大池化操作来获得每个特征图的统计信息,其可以表示为:
Figure BDA0004139238720000035
Figure BDA0004139238720000036
其中,h,w和c分别表示通道特征图的高度、宽度和层数,k=1,2,…,c,
Figure BDA0004139238720000037
代表第k个通道特征图,/>
Figure BDA0004139238720000038
和/>
Figure BDA0004139238720000039
分别代表全局平均池化和全局最大池化的输出;
使用两个完全独立的全连接层来计算通道权重,其可以表示为:
Figure BDA00041392387200000310
其中,*∈{GAP,GMP},
Figure BDA00041392387200000311
和/>
Figure BDA00041392387200000312
是可学习的全连接权重参数,R(·)和S(·)分别是ReLU和Sigmoid激活函数。明显地,通道权重/>
Figure BDA00041392387200000313
被限制在(0,1)之间;
整个级联密集通道注意力模块的输出可以表示为:
Figure BDA00041392387200000314
其中,
Figure BDA00041392387200000315
是整个级联密集通道注意力模块输出。
进一步地:所述所述注意力生成对抗网络通过位置注意力来计算任意两个非局部空间位置的交互性,其可以表示为:
Figure BDA0004139238720000041
其中,i=1,2,…,n和j=1,2,…,n,
Figure BDA0004139238720000042
和/>
Figure BDA0004139238720000043
分别表示来源于判别特征/>
Figure BDA0004139238720000044
的重塑特征图,n=hw是特征的总个数,/>
Figure BDA0004139238720000045
代表位置注意力图,βj,i用来测量相同特征图中第i个和第j个位置之间的位置权重;
位置注意力可以表示为:
Figure BDA0004139238720000046
其中:
Figure BDA0004139238720000047
代表所预测的第j个位置处的位置注意力特征,/>
Figure BDA0004139238720000048
代表位置注意力特征图,γ是权重因子,hi和aj分别是重塑特征图/>
Figure BDA0004139238720000049
和/>
Figure BDA00041392387200000410
的第i和j个元素。
进一步地:所述注意力生成对抗网络的优化函数得到过程如下如下:
为了使训练过程避免出现梯度消失和模式崩塌,使用经典的优化函数WGAN-GP,其描述为:
Figure BDA00041392387200000411
其中
Figure BDA00041392387200000412
和/>
Figure BDA00041392387200000413
分别代表真实图片和生成图片的概率分布,/>
Figure BDA00041392387200000414
是惩罚域,λgp代表权重因子,G(·)和D(·)分别是生成器和判别器;
其次,L1损失用来捕获参考图像和生成图像之间的低频信息,其可以表示为:
Figure BDA00041392387200000415
使用结构相似性损失从亮度、对比度和结构三个方面来计算参考图像和生成图像之间的距离,其表示为:
Figure BDA00041392387200000416
其中μr和σr是参考图像的均值和标准差,μg和σg是生成图片的均值和标准差,σrg代表参考图片和生成图片之间的协方差,c1和c2是常数。
最后,结合上述的损失函数,最终的优化函数可表述为:
Figure BDA0004139238720000051
其中,λL1和λSSIM是权重因子,lt代表最终的优化损失。
一种基于水下注意力生成对抗网络的图像增强装置,包括:
获取模块:用于获取待增强的水下图像;
建立模块:用于通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息构建注意力生成对抗网络;
训练模块:将待增强的水下图像作为输入,使用生成对抗损失、损失和结构相似性损失对注意力生成对抗网络进行训练,对注意力生成对抗网络进行训练,得到训练好的构建注意力生成对抗网络,输出增强后的水下图像。
本发明提供的一种基于水下注意力生成对抗网络的图像增强方法,具有以下优点:
通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息,使得所设计的UAGAN框架具备更强的泛化性;同时,所提出的UAGAN框架可避免参数估计(全局大气光值、吸收系数、散射系数、传输图等)和水下成像建模的问题;
借助全局最大池化和平均池化操作,结合单隐层神经网络架构,形成级联密集通道注意力模块,实现通道权重重分配,有助于抑制水下噪声特征和提高低级-高级特征堆叠灵活性。
结合位置注意力和PatchGAN技术,有助于捕获长距离依赖信息,从而可避免所生成的水下图片产生过增强现象。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1所提出的UAGAN框架图;
图2级联密集通道注意力模块图;
图3位置注意力模块图;
图4UIEB数据集上可视化比较图;
图5URPC数据集上可视化比较图;
图6数据驱动方法在UIEB数据集上性能比较图;
图7损失函数比较图;
图8判别器末端特征层可视化比较图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合,下面将参考附图并结合实施例来详细说明本发明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。
一种基于水下注意力生成对抗网络的图像增强方法,包括以下步骤:
S1:获取待增强的水下图像;
S2:通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息构建注意力生成对抗网络;
S3:将待增强的水下图像作为输入,使用生成对抗损失、损失和结构相似性损失对注意力生成对抗网络进行训练,对注意力生成对抗网络进行训练,得到训练好的构建注意力生成对抗网络,输出增强后的水下图像。
步骤S1/S2/S3顺序执行;
所述注意力生成对抗网络借助全局最大池化和平均池化操作,结合单隐层神经网络架构,形成级联密集通道注意力模块,实现通道权重重分配。
本发明借助于高质量图像实现退化图像的清晰化,可表示为:
Figure BDA0004139238720000071
其中
Figure BDA0004139238720000072
代表端对端模式的水下图像增强方法,其主要的目的是在给定退化的水下图像/>
Figure BDA0004139238720000073
基础上来预测增强的水下图像/>
Figure BDA0004139238720000074
在UNet架构中,跳跃连接和堆叠操作表示为:
Figure BDA0004139238720000081
其中
Figure BDA0004139238720000082
代表解码器中第i层的输出,
Figure BDA0004139238720000083
代表编码器中第i层的输出,
Figure BDA0004139238720000084
是解码器中第i层卷积权重,R(·)代表ReLU类型激活函数,/>
Figure BDA0004139238720000085
代表拼接操作,/>
Figure BDA0004139238720000086
代表卷积操作。需要注意的是,跳跃连接操作能够将编码器底层特征传输至解码器中。
在本发明中,如图1所示,所提出的UAGAN框架由级联密集通道注意力和位置注意力模块系统性的构成。
如图2所示,所述注意力生成对抗网络通过结合位置注意力和PatchGAN技术,捕获长距离依赖信息。
所述级联密集通道注意力模块的输出的得到过程如下:
使用密集连接网络来提取判别性噪声特征和增强特征流动,其可以表述为:
Figure BDA0004139238720000087
其中:
Figure BDA0004139238720000088
代表密集网络中第l个基础模块输出,/>
Figure BDA0004139238720000089
代表原始输入特征,/>
Figure BDA00041392387200000810
代表密集网络的输出,Tl(·)是包括批次归一化、LeakyReLU和卷积操作的非线性转换,O(·)表示1×1卷积操作;
通过利用全局平均池化和全局最大池化操作来获得每个特征图的统计信息,其可以表示为:
Figure BDA00041392387200000811
Figure BDA00041392387200000812
其中,h,w和c分别表示通道特征图的高度、宽度和层数,k=1,2,…,c,
Figure BDA00041392387200000819
代表第k个通道特征图,/>
Figure BDA00041392387200000813
和/>
Figure BDA00041392387200000814
分别代表全局平均池化和全局最大池化的输出;
注意到,在没有考虑通道之间相互依存关系的时候,仅仅使用全局平均池化和最大池化技术很难直接决定每一个通道的贡献。在这种情况下,使用两个完全独立的全连接层来计算通道权重,其可以表示为:
Figure BDA00041392387200000815
其中,*∈{GAP,GMP},
Figure BDA00041392387200000816
和/>
Figure BDA00041392387200000817
是可学习的全连接权重参数,R(·)和S(·)分别是ReLU和Sigmoid激活函数。明显地,通道权重/>
Figure BDA00041392387200000818
被限制在(0,1)之间;需要注意的是,全连接层中隐层节点的数量等于输入和输出节点的数量。
整个级联密集通道注意力模块的输出可以表示为:
Figure BDA0004139238720000091
其中,
Figure BDA0004139238720000092
是整个级联密集通道注意力模块输出。
注意到,在堆积多个卷积操作的情况下,极其容易出现过增强的现象,主要是因为判别器完全依赖补块去执行判别操作。而不是限制于相邻的位置,:所述位置注意力来计算任意两个非局部空间位置的交互性,其可以表示为:
Figure BDA0004139238720000093
其中,i=1,2,…,n和j=1,2,…,n,
Figure BDA0004139238720000094
和/>
Figure BDA0004139238720000095
分别表示来源于判别特征/>
Figure BDA0004139238720000096
的重塑特征图,n=hw是特征的总个数,/>
Figure BDA0004139238720000097
代表位置注意力图,βj,i用来测量相同特征图中第i个和第j个位置之间的位置权重;
如图3所示,位置注意力可以表示为:
Figure BDA0004139238720000098
其中:
Figure BDA0004139238720000099
代表所预测的第j个位置处的位置注意力特征,/>
Figure BDA00041392387200000910
代表位置注意力特征图,γ是权重因子,hi和aj分别是重塑特征图/>
Figure BDA00041392387200000911
和/>
Figure BDA00041392387200000912
的第i和j个元素。
进一步地,所述注意力生成对抗网络的优化函数得到过程如下如下:
为了使训练过程避免出现梯度消失和模式崩塌,使用经典的优化函数WGAN-GP,其描述为:
Figure BDA00041392387200000913
其中
Figure BDA00041392387200000914
和/>
Figure BDA00041392387200000915
分别代表真实图片和生成图片的概率分布,/>
Figure BDA00041392387200000916
是惩罚域,λgp代表权重因子,G(·)和D(·)分别是生成器和判别器;
其次,L1损失用来捕获参考图像和生成图像之间的低频信息,其可以表示为:
Figure BDA00041392387200000917
使用结构相似性损失从亮度、对比度和结构三个方面来计算参考图像和生成图像之间的距离,其表示为:
Figure BDA0004139238720000101
其中μr和σr是参考图像的均值和标准差,μg和σg是生成图片的均值和标准差,σrg代表参考图片和生成图片之间的协方差,c1和c2是常数。
最后,结合上述的损失函数,最终的优化函数可表述为:
Figure BDA0004139238720000102
其中,λL1和λSSIM是权重因子,lt代表最终的优化损失。
一种基于水下注意力生成对抗网络的图像增强装置,包括:
获取模块:用于获取待增强的水下图像;
建立模块:用于通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息构建注意力生成对抗网络;
训练模块:将待增强的水下图像作为输入,使用生成对抗损失、损失和结构相似性损失对注意力生成对抗网络进行训练,对注意力生成对抗网络进行训练,得到训练好的构建注意力生成对抗网络,输出增强后的水下图像。
本发明所使用的训练数据集包括:无监督风格转换产生的6128对图像和基于Jerlov模型模拟的4000对图像。超参数和均设置为10。另外,前述的数据集在训练之前均被缩放至256 256。
为了有效地证明所提出UAGAN框架的有效性和优越性,将所提出的UAGAN方法在多种退化的水下场景下与基于模型的增强方法(包括UCM和IBLA)、基于物理模型的恢复框架(UDCP)和数据驱动的转换方法(包括UGAN和UWCNN)进行全面的比较。相应的比较结果如图4所示,从主观视觉比较层面而言,我们可以清楚地看到基于数据驱动的方法(UGAN、UWCNN和UAGAN)能够实现比无模型的增强方法(UCM和IBLA)和基于模型恢复方法(UDCP)更好的效果。所提出的UAGAN框架可以实现更好的颜色恢复性能。从图5和图6中可以获得几乎一致的性能。具体而言,UCM框架很难实现令人满意的增强性能。另外,IBLA和UDCP倾向于加重退化特性。另外,UGAN和UWCNN方法引进了大量的人工噪声,极大地弱化了视觉感知效果。从观察海底生物的角度而言,所提出的UAGAN框架能够实现更优越的增强性能。
表1
Figure BDA0004139238720000103
Figure BDA0004139238720000111
为了使比较结果更具统计意义,表1汇总了在UIEB和URPC测试集上不同方法增强性能的平均值和方差,最优值和次优值分别用粗体和下划线标记。注意到,由于URPC数据集没有相应的参考图像,因此导致全参考指标SSIM和PSNR无法获取。具体而言,在UIEB数据集的评估方面,特别是对于PSNR、UCIQE、UIQM和UISM指标,所开发的UAGAN框架可以实现比其他同类方法更优越的增强性能,这表明增强后的水下图像具有更高的峰值信噪比,同时UAGAN方法能够在色度、饱和度和清晰度方面实现更好的平衡。需要强调的是,UAGAN框架可以实现更具竞争力的泛化性能,其在SSIM、UCIQE、UIQM和UISM方面的方差较小,这清楚地表明UAGAN框架可以使得测试集图片的增强结果保持一致性。就UAGAN在URPC数据集的增强性能而言,与无模型的增强方法(UCM)和基于物理模型的颜色恢复方法(包括IBLA和UDCP)相比,从综合角度而言,UGAN、UWCNN和UAGAN可以实现更加优异的增强性能。需要指出的是,通过使用级联密集通道注意力和位置注意力策略,根据UIQM和UISM指标,具有生成对抗训练机制的UAGAN框架可以使得增强后的水下图像具有与人类视觉感知更一致的特征。同时,除了UICM指标,所提出的UAGAN方法可以获得最优或次优方差。
为了测量客观评价指标与平均主观评价得分之间的相关性,本发明在随机选取的30张图像上开展相关性试验。所使用的相关系数主要包括:KRCC、PLCC和SRCC。相关结果汇总在表2-表5中,从中我们可以清楚地看到,全参考指标SSIM和PSNR通常比非参考指标(即UCIQE和UIQM)的相关系数更大。此外,就非参考指标而言,UIQM和UISM倾向于获得更高的相关系数,这意味着使用UIQM与UISM进行客观评估将获得与主观视觉质量高度一致的结果。
表2
指标 KRCC PLCC SRCC
SSIM 0.4725 0.7013 0.5721
PSNR 0.4101 0.6106 0.5121
UCIQE 0.2095 0.3184 0.2803
UIQMs 0.4376 0.6243 0.5028
UICM 0.3917 0.5455 0.5013
UISM 0.4549 0.7165 0.5913
UIConM 0.3390 0.4424 0.3788
表3
指标 KRCC PLCC SRCC
UCIQE 0.2950 0.4164 0.3819
UIQMs 0.6345 0.8074 0.7435
UICM 0.1484 0.2494 0.2381
UISM 0.5363 0.6829 0.6577
UIConM 0.3085 0.6679 0.4096
表4
指标 KRCC PLCC SRCC
SSIM 0.4616 0.6682 0.5204
PSNR 0.4151 0.5171 0.4923
UCIQE 0.3505 0.4820 0.4235
UIQMs 0.4627 0.5356 0.5211
UICM 0.0283 0.0056 0.0302
UISM 0.5849 0.6788 0.6411
UIConM 0.2061 0.3671 0.2905
表5
Figure BDA0004139238720000121
Figure BDA0004139238720000131
单幅图像非参考水下图像质量评估比较
关于URPC和UIEB数据集中单幅图像的非参考水下图像质量评估结果如表6和表7所示。对于URPC数据集中的单个图像,包括UGAN、UWCNN和UAGAN在内的数据驱动技术能够实现比基于模型恢复的方法和无模型增强的框架(即UCM、IBLA和UDCP)更优的增强性能。需要强调的是,在上述数据驱动方法中,所提出的UAGAN方法在水下颜色、清晰度和对比度方面取得了最佳性能,这暗示着CDCA模块可以有效抑制水下环境噪声和提升有用的特征。类似地,几乎一致的结果可以从UIEB数据集得到。
表6
Figure BDA0004139238720000132
表7
Figure BDA0004139238720000133
/>
Figure BDA0004139238720000141
为了根据视觉感知质量对增强效果进行全面评估,本发明进行了主观性能评估实验。具体而言,本发明选择了11名参与者对图像质量进行主观评估,其中6名参与者具有图像处理和计算机视觉经验,其他5名参与者没有相关经验。在评估过程中,允许放大和缩小操作且没有时间限制。注意到,视觉清晰、色彩自然、纹理真实的图像应该给予较高的分数。相反,对比度低、色偏、伪影和/或模糊的情况应该给予较低的分数。另外,最高分数与所比较方法的数量相同,最低分数设置为1。
在URPC和UIEB数据集上主观评估结果分别总结在表8和9中。从表8可以看出,由于基于数据驱动的框架具有极强的学习能力,包括UGAN、UWCNN和UAGAN在内的方法获得了更高的分数。在表9中,由于没有CDCA和PA模块,UGAN的视觉性能(下划线标记)弱于所提出的UAGAN框架。缺乏生成对抗机制使得UWCNN得分更低。通过使用具有通道注意力机制的级联密集网络和位置注意策略,所提出的UAGAN框架可以在大多数情况下实现最佳性能(粗体标记)。
表8
方法 图5(a) 图5(b) 图5(c) 图5(d) 图5(e) 图5(f)
UCM 3.4545 3.9091 4.4545 5.6364 3.7273 5.1818
IBLA 2.8182 2.0909 1.7273 1.1818 1.4545 1.1818
UDCP 1.0909 1.1818 2.2727 2.0000 2.4545 1.9091
UGAN 4.9091 4.8182 2.5455 3.5455 4.0909 3.4545
UWCNN 2.8182 3.1818 4.3636 3.2727 3.4545 3.7273
UAGAN 5.9091 5.7273 5.6364 5.3636 5.8182 5.5455
表9
方法 图6(a) 图6(b) 图6(c) 图6(d) 图6(e) 图6(f) 图6(g)
WaterNet 2.0909 1.8182 1.1818 1.4545 2.2727 1.5455 2.4545
UGAN 2.3636 3.1818 3.0909 3.1818 1.7273 2.3636 1.6364
uWCNN 1.6364 2.2727 2.0909 1.9091 2.0909 2.1818 2.0909
UAGAN 3.9091 2.7273 3.6364 3.4545 3.7273 3.9091 3.8182
为了揭示UAGAN框架所引进每一个模块的作用,本发明在UIEB数据集上面开展了三个消融试验,包括:没有级联密集通道注意力、没有位置注意力、没有级联密集通道注意力和位置注意力,相应的评估结果呈现在表10,从中我们可以看出CDCA模块与PSNR和UISM指标是紧密相关的。换句话说,使用CDCA模块能够提高增强图像的锐度和降低图像噪声。另外,CDCA模块与UICM、UIConM指标具有相反的作用。需要说明的是,PA模块仅仅能够弱化UCIQE指标。结合CDCA和PA模块有助于构建UAGAN框架。最终,所开发的UAGAN框架能够获得最优的SSIM、PSNR、UCIQE、UIQMs和UISM指标。
表10
Figure BDA0004139238720000151
Figure BDA0004139238720000161
为了彻底揭示CDCA模块的贡献,带有CDCA(w/)和不带有CDCA(w/o)的和损失曲线呈现在图7中,从中我们可以清楚地看到,关于上述两种损失的任意一种,带有CDCA模块和不带有CDCA模块的曲线趋势是非常相似地。主要的原因是因为在获取批次训练样本的时候未使用混洗操作。换句话说,在每一个轮次中,用于训练UAGAN框架的成对样本的顺序是完全一致的。在保持其他训练参数一致的情况下,只能添加或者移除相应的模块(也就是带有CDCA或不带有CDCA)才能够影响曲线的趋势。在这种情况下,两条曲线的趋势是非常的相似。明显地,借助于CDCA模块,和损失曲线呈现更加明显的收敛趋势。
为了更加直观地展示PA模块的作用,在图8中呈现了判别器末层的特征可视化结果,其中列(a)-(d)分别代表增强的图像、增强图像的特征图、参考图像的特征图、增强图像和参考图像的差值。从图8中可以看出,没有PA模块,局部响应值非常明显。相反的是,当PA模块能够捕获长距离依赖之后,判别器的输出不再呈现局部聚集现象。另外,将第二列和第四列进行比较可以发现,带有PA模块的判别器能够更加集中于前景物体和更好地决定生成图像的质量。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于水下注意力生成对抗网络的图像增强方法,其特征在于:包括以下步骤:
获取待增强的水下图像;
通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息构建注意力生成对抗网络;
将待增强的水下图像作为输入,使用生成对抗损失、损失和结构相似性损失对注意力生成对抗网络进行训练,得到训练好的构建注意力生成对抗网络,输出增强后的水下图像。
2.根据权利要求1所述的一种基于水下注意力生成对抗网络的图像增强方法,其特征在于:所述注意力生成对抗网络借助全局最大池化和平均池化操作,结合单隐层神经网络架构,形成级联密集通道注意力模块,实现通道权重重分配。
3.根据权利要求1所述的一种基于水下注意力生成对抗网络的图像增强方法,其特征在于:所述注意力生成对抗网络通过结合位置注意力和PatchGAN技术,捕获长距离依赖信息。
4.根据权利要求2所述的一种基于水下注意力生成对抗网络的图像增强方法,其特征在于:所述级联密集通道注意力模块的输出的得到过程如下:
使用密集连接网络来提取判别性噪声特征和增强特征流动,其可以表述为:
Figure FDA0004139238700000011
其中:
Figure FDA0004139238700000012
代表密集网络中第l个基础模块输出,/>
Figure FDA0004139238700000013
代表原始输入特征,
Figure FDA0004139238700000014
代表密集网络的输出,Tl(·)是包括批次归一化、LeakyReLU和卷积操作的非线性转换,O(·)表示1×1卷积操作;
通过利用全局平均池化和全局最大池化操作来获得每个特征图的统计信息,其可以表示为:
Figure FDA0004139238700000021
Figure FDA0004139238700000022
其中,h,w和c分别表示通道特征图的高度、宽度和层数,k=1,2,…,c,
Figure FDA0004139238700000023
代表第k个通道特征图,/>
Figure FDA0004139238700000024
和/>
Figure FDA0004139238700000025
分别代表全局平均池化和全局最大池化的输出;
使用两个完全独立的全连接层来计算通道权重,其可以表示为:
Figure FDA0004139238700000026
其中,*∈{GAP,GMP},
Figure FDA0004139238700000027
和/>
Figure FDA0004139238700000028
是可学习的全连接权重参数,R(·)和S(·)分别是ReLU和Sigmoid激活函数。明显地,通道权重/>
Figure FDA0004139238700000029
被限制在(0,1)之间;
整个级联密集通道注意力模块的输出可以表示为:
Figure FDA00041392387000000210
其中,
Figure FDA00041392387000000211
是整个级联密集通道注意力模块输出。
5.根据权利要求1所述的一种基于水下注意力生成对抗网络的图像增强方法,其特征在于:所述所述注意力生成对抗网络通过位置注意力来计算任意两个非局部空间位置的交互性,其可以表示为:
Figure FDA00041392387000000212
其中,i=1,2,…,n和j=1,2,…,n,
Figure FDA00041392387000000213
和/>
Figure FDA00041392387000000214
分别表示来源于判别特征/>
Figure FDA00041392387000000215
的重塑特征图,n=hw是特征的总个数,/>
Figure FDA00041392387000000216
代表位置注意力图,βj,i用来测量相同特征图中第i个和第j个位置之间的位置权重;
位置注意力可以表示为:
Figure FDA00041392387000000217
其中:
Figure FDA00041392387000000218
代表所预测的第j个位置处的位置注意力特征,/>
Figure FDA00041392387000000219
代表位置注意力特征图,γ是权重因子,hi和aj分别是重塑特征图/>
Figure FDA00041392387000000220
和/>
Figure FDA00041392387000000221
的第i和j个元素。
6.根据权利要求1所述的一种基于水下注意力生成对抗网络的图像增强方法,其特征在于:所述注意力生成对抗网络的优化函数得到过程如下如下:
为了使训练过程避免出现梯度消失和模式崩塌,使用经典的优化函数WGAN-GP,其描述为:
Figure FDA0004139238700000031
其中
Figure FDA0004139238700000032
和/>
Figure FDA0004139238700000033
分别代表真实图片和生成图片的概率分布,/>
Figure FDA0004139238700000034
是惩罚域,λgp代表权重因子,G(·)和D(·)分别是生成器和判别器;
其次,L1损失用来捕获参考图像和生成图像之间的低频信息,其可以表示为:
Figure FDA0004139238700000035
使用结构相似性损失从亮度、对比度和结构三个方面来计算参考图像和生成图像之间的距离,其表示为:
Figure FDA0004139238700000036
其中μr和σr是参考图像的均值和标准差,μg和σg是生成图片的均值和标准差,σrg代表参考图片和生成图片之间的协方差,c1和c2是常数。
最后,结合上述的损失函数,最终的优化函数可表述为:
Figure FDA0004139238700000037
其中,λL1和λSSIM是权重因子,lt代表最终的优化损失。
7.一种基于水下注意力生成对抗网络的图像增强装置,其特征在于:包括:
获取模块:用于获取待增强的水下图像;
建立模块:用于通过监督学习模式,借助于卷积神经网络提取底层和高层语义信息构建注意力生成对抗网络;
训练模块:将待增强的水下图像作为输入,使用生成对抗损失、损失和结构相似性损失对注意力生成对抗网络进行训练,对注意力生成对抗网络进行训练,得到训练好的构建注意力生成对抗网络,输出增强后的水下图像。
CN202310284472.3A 2023-03-22 2023-03-22 一种基于水下注意力生成对抗网络的图像增强方法 Pending CN116402709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310284472.3A CN116402709A (zh) 2023-03-22 2023-03-22 一种基于水下注意力生成对抗网络的图像增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310284472.3A CN116402709A (zh) 2023-03-22 2023-03-22 一种基于水下注意力生成对抗网络的图像增强方法

Publications (1)

Publication Number Publication Date
CN116402709A true CN116402709A (zh) 2023-07-07

Family

ID=87011599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310284472.3A Pending CN116402709A (zh) 2023-03-22 2023-03-22 一种基于水下注意力生成对抗网络的图像增强方法

Country Status (1)

Country Link
CN (1) CN116402709A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681627A (zh) * 2023-08-03 2023-09-01 佛山科学技术学院 一种跨尺度融合的自适应水下图像生成对抗增强方法
CN117522718A (zh) * 2023-11-20 2024-02-06 广东海洋大学 基于深度学习的水下图像增强方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681627A (zh) * 2023-08-03 2023-09-01 佛山科学技术学院 一种跨尺度融合的自适应水下图像生成对抗增强方法
CN116681627B (zh) * 2023-08-03 2023-11-24 佛山科学技术学院 一种跨尺度融合的自适应水下图像生成对抗增强方法
CN117522718A (zh) * 2023-11-20 2024-02-06 广东海洋大学 基于深度学习的水下图像增强方法
CN117522718B (zh) * 2023-11-20 2024-04-30 广东海洋大学 基于深度学习的水下图像增强方法

Similar Documents

Publication Publication Date Title
CN109754377B (zh) 一种多曝光图像融合方法
CN116402709A (zh) 一种基于水下注意力生成对抗网络的图像增强方法
CN112465727A (zh) 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法
Ling et al. Single image dehazing using saturation line prior
CN109242834A (zh) 一种基于卷积神经网络的无参考立体图像质量评价方法
Liu et al. Learning hadamard-product-propagation for image dehazing and beyond
CN113284061B (zh) 一种基于梯度网络的水下图像增强方法
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN115861094A (zh) 一种融合注意力机制的轻量级gan水下图像增强模型
Zhou et al. IACC: cross-illumination awareness and color correction for underwater images under mixed natural and artificial lighting
Huang et al. Underwater image enhancement based on color restoration and dual image wavelet fusion
CN117994167B (zh) 融合并行多卷积注意力的扩散模型去雾方法
CN113810683B (zh) 一种客观评估水下视频质量的无参考评价方法
KR102277005B1 (ko) 비지도 학습을 이용한 저조도 영상 처리 방법 및 장치
CN117422653A (zh) 一种基于权重共享和迭代数据优化的低光照图像增强方法
Qiu et al. A GAN-based motion blurred image restoration algorithm
CN116630198A (zh) 一种结合自适应伽马校正的多尺度融合水下图像增强方法
Zhang et al. Multi-scale attentive feature fusion network for single image dehazing
Yang et al. Underwater image enhancement method based on golden jackal optimization
Zhao et al. Single image dehazing based on enhanced generative adversarial network
Shang Deep separable convolution neural network for illumination estimation
Honnutagi et al. Underwater video enhancement using manta ray foraging lion optimization-based fusion convolutional neural network
Song et al. Underwater image enhancement method based on dark channel prior and guided filtering
CN112907469B (zh) 基于Lab域增强、分类及对比度提升的水下图像识别方法
CN116563145B (zh) 基于颜色特征融合的水下图像增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination