CN117788330A

CN117788330A - 一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块

Info

Publication number: CN117788330A
Application number: CN202311838687.1A
Authority: CN
Inventors: 王宁; 陈延政; 陈廷凯; 孔祥军
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-29

Abstract

本发明一种基于通道‑空间注意力的水下图像渐进式生成对抗增强模块，包括以下步骤：获取待处理的水下图像；基于水下退化图像背景光估计模块获取待处理的水下图像的背景光参数；背景光参数输入到水下成像模型中，得到预增强的水下图像；预增强的水下图像输入到水下退化图像增强网络中，得到增强的水下图像；将增强的水下图像和真值水下图像输入到判别器中，得到增强的水下图像和真值水下图像的差值；增强的水下图像和真值水下图像的差值，通过总损失函数，再输入到水下退化图像增强网络中，实现取待处理的水下图像的增强，通过在编解码器的跳跃连接操作中引入水下双注意力模块，实现自适应地选择和强调图像中的关键信息，避免放大水下图像的噪声。

Description

一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块

技术领域

本发明属于水下视觉智能感知领域，涉及一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块。

背景技术

光学图像作为人类感知和获取海洋信息的重要途径。相对于其他传感器，光学图像具有多重优势，包括信息承载能力强、高可观性、快速感知反馈、便捷应用和低成本等。因此，光学感知系统已广泛应用于各种水生应用领域，如水产养殖与监测、水下视觉引航、石油资源勘探、沉船打捞、鱼群跟踪和水下考古等。然而，受到水下光线传播特性的影响，采集到的图像经常存在颜色偏差、低对比度、模糊细节、纹理失真以及有限的可视范围等固有退化问题。这些问题严重地制约了水下图像在各个领域的直接应用。

目前而言，针对水下图像对比度低、细节模糊、噪声大量存在的问题，学者们已经开发了大量先进框架，按照增强机理，可大致分为基于非物理模型增强、物理模型恢复和数据驱动的增强方法。

(1)基于非物理模型的传统水下图像增强方法

图像增强方法可以通过直接调整像素来实现，而无需考虑水下成像模型。如直方图均衡化(HE)和对比度限制自适应直方图均衡化(CLAHE)，通过重新分配像素的灰度值来扩展对比度范围，从而提高图像的清晰度。此外，针对水下环境中图像呈现蓝绿色，红色通道衰减严重的问题，Iqbal等开发了非监督式色彩校正算法(UCM)通过分析色相饱和度亮度(HSV)和红绿蓝(RGB)颜色空间中的共同显著性目标，有效增强了目标显著性特征和提升了图像质量。同时，为了解决图像中对比度不足和亮度不足的问题，通过全局直方图拉伸和递归处理，相对全局直方图拉伸算法(RGHS)有效地提高图像的对比度和亮度。考虑到水下图像的复杂退化特性，融合类方法在图像增强中越来越受到关注。其中，像素级融合方法(Fusion)通过应用白平衡和局部自适应直方图均衡化技术，对校正后的彩色图像和增强后的图像进行融合。在融合过程中，引入了四个权重矩阵，分别对应拉普拉斯对比度、局部对比度、显著性和曝光度。这样，那些具有较高权重的像素更容易在最终的增强图像中凸显出来。此外，针对水下光线引起的色彩偏差，提出了一种改进的白平衡方法以进行修正。综合实验结果表明，上述方法能够同时改善较暗区域的曝光、全局对比度以及图像边缘细节。不幸的是，无模型图像增强算法在应对复杂问题时表现不佳，通常需要手动调整参数，鲁棒自适应性差，并且对特定场景依赖性强。

(2)基于物理模型的水下图像恢复方法

相对于之前提到的无模型图像增强方法，基于物理模型的水下图像增强算法充分利用了水下成像的物理原理，能够更好地解决水下图像中的色彩失真、光照问题和散射等挑战，从而提供更高质量的增强结果。图像恢复的本质是通过对成像模型进行逆变换，以此来还原或恢复出原始场景中的潜在清晰图像。针对水下图像不可靠的红色通道信息，水下暗通道先验(Underwater Dark Channel Prior，UDCP)方法的独特之处在于它仅在绿色和蓝色通道上执行暗通道先验操作，这些通道信息通常受到水下吸收和散射效应影响较小，因此能够更好地提取暗通道信息。类似地，水下光衰减先验方法表明在水下环境中，不同颜色的光线在深度变化方面会表现出不同的特性，因此可以利用这些颜色通道之间的关系来估计场景的深度信息。在不同光照和衰减条件下的水下图像增强中，应用基于颜色通道的先验条件可能会面临增强无效，因为水下环境中的光学特性会引入多种复杂的耦合因素。为了应对这一问题，研究人员充分探索和利用了多种不同的先验信息。其中，最大强度先验(Maximum Intensity Prior，MIP)被用作一种估计传输图的方法。它通过比较红色通道与绿色通道以及蓝色通道之间的最大强度差异，来以识别衰减严重的通道。通过检测这种最大强度差异，MIP提供了关于光照和衰减情况的线索，从而有助于更准确地估计传输图，并改善水下图像的质量。IBLA算法基于场景深度与水下退化图像的模糊程度强相关的背景，通过综合考虑图像模糊度和光吸收特性，旨在改善水下图像的清晰度和对比度，从而提供更高质量的水下图像增强效果。然而，传统的基于物理模型的水下图像增强(UIE)框架仍存在以下缺陷：1)需要估计大量参数；2)参数估计通常是不适定的；3)难以确保预定义的水下成像模型的普适有效性。

(3)基于数据驱动的图像到图像转换方法

随着水下成像技术的不断进步和水下图像数据的涌现，基于深度学习方法在水下图像处理领域展现出巨大的潜力。这些方法有望克服传统基于物理模型的方法存在的根源限制，为水下图像增强和恢复提供更高效、更准确的解决方案。受到了经典的Retinex图像增强算法的启发，使用卷积神经网络(CNN)来学习图像的全局和局部光照信息，以提高水下图像的可视性，即Retinex-Net。生成对抗网络(GAN)在水下图像增强中也得到了广泛的应用。各种基于GAN(Generative Adversarial Networks)的方法，如CycleGAN、UGAN(Underwater GAN)等，通过对抗性训练生成更清晰、逼真的水下图像。为了提取和充分利用更具判别性的特征，MDGAN(Multiscale Dense GAN)框架的生成器引入了一种新颖的多尺度密集块，有机级联密集连接、残差学习以及多尺度网络模块。通过关键点匹配和边缘检测实验，充分证明了其在水下图像增强任务中的有效性和优越性。通过在经过融合空中图像和相应深度信息构建的模拟水下场景数据集上进行训练，Li等成功地开发出了两阶段Water-GAN框架，这一算法旨在提升水下图像的质量和可视性。基于条件生成对抗网络，学者构建了一种用于改善视觉感知的快速水下图像增强方法(FUnIEGAN)，旨在实时改善水下图像的视觉感知。然而，现有水下图像增强算法及其依赖训练数据的质量和多样性，难以提供可解释性的物理增强机制。

复杂多域场景下水下图像增强技术主要存在如下缺陷：(1)通过直接调整像素值实现水下图像增强的方式并不能应对所有水下退化场景，通过基于水下成像模型实现图像增强的方式存在物理模型描述不准确、传输图获取难度大、先验信息难以准确估计等；(2)在暗光场景下，水下低光照图像存在混合噪声，在图像增强时可能会放大噪声，从而导致难以产生符合人类视觉感知的图像；(3)单一网络解决多个退化问题时，网络计算量大，不能针对性解决某个特定退化问题，极易导致生成器产生过增强或欠增强。

发明内容

为了解决如下问题复杂多域场景下水下图像增强技术主要存在如下缺陷：(1)通过直接调整像素值实现水下图像增强的方式并不能应对所有水下退化场景，通过基于水下成像模型实现图像增强的方式存在物理模型描述不准确、传输图获取难度大、先验信息难以准确估计等；(2)在暗光场景下，水下低光照图像存在混合噪声，在图像增强时可能会放大噪声，从而导致难以产生符合人类视觉感知的图像；(3)单一网络解决多个退化问题时，网络计算量大，不能针对性解决某个特定退化问题，极易导致生成器产生过增强或欠增强，

本发明采用的技术方案是：

一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块，包括以下步骤：

获取待处理的水下图像；

基于水下退化图像背景光估计模块获取待处理的水下图像的背景光参数；

背景光参数输入到水下成像模型中，得到预增强的水下图像；

预增强的水下图像输入到水下退化图像增强网络中，得到增强的水下图像；

将增强的水下图像和真值水下图像输入到判别器中，得到增强的水下图像和真值水下图像的差值；

增强的水下图像和真值水下图像的差值，通过总损失函数优化判别器，缩小增强的水下退化图像与真值水下图像之间的差距，再输入到水下退化图像增强网络中，实现取待处理的水下图像的增强。

进一步地：所述水下退化图像背景光估计模块基于雾霾形成模型设计适用于水下退化图像的成像曲线模型；具体过程如下：

经典的水下成像模型I_λ(x)建模为：

I_λ(x)＝J_λ(x)·t_λ(x)+B_λ·(1-t_λ(x)),λ∈{R,G,B} (1)

捕获的水下图像I_λ(x)表示为直接衰减光和散射背景光的加权和，其中J_λ(x)是为未受到水下散射光影响的非退化图像，B_λ是均匀水下背景光，t_λ(x)＝e^-βd(x)表示光束穿过介质后剩余能量比，β是散射系数，d(x)是场景深度图，λ是水下图像的红色、绿色、蓝色通道；

水下图像恢复过程J_λ(x)表示为：

即，水下图像复原的关键就是估计参数B_λ和t_λ(x)，基于雾霾形成原理的水下曲线模型：

定义αI_λ(x)＝(t_λ(x)-1)/t_λ(x)，带入式(3)中有公式(4)。

UIE(x,λ)＝I_λ(x)+αI_λ(x)(B_λ-I_λ(x)) (4)

进一步地：所述所述水下退化图像背景光估计模块通过将七个卷积层进行串联构成，每个卷积层都包含32个大小为、步长为1的卷积核，前六个卷积层后都连接一个ReLU激活函数，第七层卷积层后跟着Tanh激活函数，同时，分别将第1、2、3层与第4、5、6层进行跳跃连接，，每次迭代生成了2个参数映射，并且每次迭代都是三个通道分别进行的。

进一步地：所述水下退化图像增强网络包括生成器网络，所述生成器网络遵循U-Net的原理，由编码器-解码器网络组成，其中编码器和解码器的镜像卷积层之间采用跳跃连接，同时在每个跳跃连接中串联一个水下双注意力模块，所述水下双注意力模块将通道注意力模块与空间注意力模块进行串联，在每一层，采用4×4的滤波器进行2D卷积，然后接上Leaky-ReLU非线性函数并进行批归一化。

进一步地：所述水下双注意力模块通过在卷积神经网络中引入通道注意力与空间注意注意力；

该水下双注意力模块包括通道注意力模块和空间注意力模块；

通道注意力模块用于对输入特征图的不同通道之间的关系进行建模，通过全局平均池化和全连接层来学习通道间的相关性，并生成一个通道注意力图，通道注意力图会被应用到输入特征图上，以对不同通道的特征进行加权；

通道注意力公式C(X)：

C(X)＝σ{m[p_avg(X)]+m[p_max(X)]} (5)

其中：X是输入特征图,p_avg和p_max表示平均池化和最大池化。m表示共享全连接层，σ是sigmoid激活函数。

空间注意力模块则用于对输入特征图的不同空间位置之间的关系进行建模，通过使用不同尺度的卷积核和池化操作来学习特征图的空间依赖性，并生成一个空间注意力图，空间注意力图会被应用到输入特征图上，以对不同位置的特征进行加权，空间注意力公式S(X)为：

S(X)＝σ{ε^3×3[m[p_avg(X)]；m[p_max(X)]} (6)

其中：X是输入特征图,p_avg和p_max表示平均池化和最大池化。m表示共享全连接层，ε^3×3表示3*3卷积操作，σ是sigmoid激活函数；

通过通道注意力模块和空间注意力模块的组合，水下双注意力模块模块的公式F”表示为式(7)所示。

进一步地，所述总损失函数的构建过程如下：

总损失L_total：总损失函数表示为：

L_total＝W_expL_exp+W_spaL_spa+W_colorL_color+W_crdL_crd (8)

其中：W_exp表示水下曝光控制损失的权重，W_spa表示空间一致性损失的权重、W_color表示水下色彩恒常损失的权重，W_crd代表水下色彩相对分散损失的权重，L_exp表示水下曝光控制损失，L_color表示水下色彩恒常损失，L_crd表示水下色彩相对分散损失，L_spa表示空间一致性损失；

空间一致性损失L_spa：通过比较输入图像和生成图像之间的差异，促使生成的图像在空间结构上保持一致性和结构稳定性；

其中：M代表局部区域的数量，σ(p)代表以区域p为中心的四个相邻区域用J和I分别表示增强版本和输入图像中局部区域的平均强度值，(p,j)表示一对水下图像通道；

水下曝光控制损失L_spa：通过计算图像中局部区域的亮度与理想曝光水平之间的差异，将曝光控制损失最小化，改善图像的曝光质量，使图像中的局部区域更接近理想曝光水平Y_i，将Y_i设置为RGB色彩空间中的灰度级别，损失L_spa以表示为：

其中，K代表大小为16×16的非重叠局部区域的数量，J是增强图像中局部区域的平均强度值；

水下色彩恒常损失L_color：首先，计算整个图像的平均颜色，通常以RGB颜色空间中的平均值表示，然后确定平均颜色与中性灰色之间的颜色偏移，最后对图像中的每个像素应用颜色偏移，以调整颜色使其达到平均颜色变成中性灰色，水下色彩恒常损失L_color表示为：

其中，μ_i表示增强图像的i通道的平均强度值，(i,j)表示一对通道；μ_R表示增强图像的红色通道的平均强度值，μ_G表示增强图像的绿色通道的平均强度值，μ_B表示增强图像的蓝色通道的平均强度值；

水下色彩相对分散损失L_crd：

计算RGB通道的标准差，分别表示为R通道的标准差σ_R、G通道的标准差σ_G、B通道的标准差σ_B，水下色彩相对分散度的定义如下。

本发明提供的一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块，考虑到水下成像模型建模复杂，全局大气光值、传输图、吸收散射系数难以准确获取，本发明提出基于生成对抗网络的水下图像增强框架，有效避免上述问题；真实海洋环境下，水体中存在大量的悬浮物质和有机体(包括：浮游生物、杂质、矿物颗粒等)不可避免地引起混合噪声，本发明通过设计水下背景光估计模块，利用水下成像原理更好地描述水下图像的退化过程，相比于传统的物理模型，采用卷积实现了动态估计先验信息；在编解码器的跳跃连接操作中引入水下双注意力模块(UDAM)，以实现自适应地选择和增强图像中的关键信息，避免放大水下图像的噪声；设计了更适用于水下场景的损失函数用于隐式评估图像质量；将水下背景光估计与图像增强拆分为两个渐进式任务，让每个模块更专注于特定任务，减少了单一网络复杂任务的学习负担。

与现有技术相比，本发明具有以下有益效果：

1.通过设计水下背景光估计模块，利用水下成像原理更好地描述水下图像的退化过程，相比于传统的物理模型，采用卷积实现了动态估计先验信息。

2.在编解码器的跳跃连接操作中引入水下双注意力模块(UDAM)，以实现自适应地选择和强调图像中的关键信息，避免放大水下图像的噪声3.设计了更适用于水下场景的损失函数用于隐式评估图像质量。

将水下背景光估计与图像增强拆分为两个渐进式任务，让每个模块更专注于特定任务，减少了单一网络复杂任务的学习负担。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1基于深度学习的水下图像增强网络框架图；

图2水下双注意力模块图；

图3(a)是图像I的UIEBD-90数据集上增强结果定性比较图；(b)是图像II的UIEBD-90数据集上增强结果定性比较图；(c)是图像III的UIEBD-90数据集上增强结果定性比较图；(d)是图像IV的UIEBD-90数据集上增强结果定性比较图；(e)是图像V的UIEBD-90数据集上增强结果定性比较图；

图4(a)是图像VI的UIEBD-60数据集上增强结果定性比较图；(b)是图像VII的UIEBD-60数据集上增强结果定性比较图；(c)是图像VIII的UIEBD-60数据集上增强结果定性比较图；(d)是图像IX的UIEBD-60数据集上增强结果定性比较图；(e)是图像X的UIEBD-60数据集上增强结果定性比较图；

图5SIFT关键点提取定性比较图；

图6Harris角点检测定性对比图；

图7Canny边缘检测定性对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合，下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任向具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

S1:获取待处理的水下图像；

S2:基于水下退化图像背景光估计模块获取待处理的水下图像的背景光参数；

所述水下退化图像背景光估计模块，利用水下成像原理更好地描述水下图像的退化过程，相比于传统的物理模型，采用卷积实现了动态估计先验信息；

S3:背景光参数输入到水下成像模型中，得到预增强的水下图像；

S4:预增强的水下图像输入到水下退化图像增强网络中，得到增强的水下图像；

S5:将增强的水下图像和真值水下图像输入到判别器中，得到增强的水下图像和真值水下图像的差值；

S6:增强的水下图像和真值水下图像的差值，通过总损失函数优化判别器，缩小增强的水下退化图像与真值水下图像之间的差距，再输入到水下退化图像增强网络中，实现取待处理的水下图像的增强。

所述步骤S1/S2/S3/S4/S5/S6顺序执行；

基于水下多注意力的渐进式生成对抗网络框架(UAPGAN)

如图1所示，本申请利用全连接的轻量级神经网络去估计低光照水下图像背景光先验信息，再将背景光参数引入水下成像模型实现低光照水下图像预处理，最后通过在生成器的跳跃连接操作中引入即插即用的水下双注意力模块(Underwater Dual AttentionModule，UDAM)，本专利实现了自适应地选择和强调图像中的有用信息。同时，本申请为该网络设计了精心制定的水下参考损失函数，该函数还可以用于隐式评估图像质量。

所述水下退化图像背景光估计模块基于雾霾形成模型设计适用于水下退化图像的成像曲线模型；具体过程如下：

受到照片编辑软件中的曲线调整模型的启发，本专利试图基于雾霾形成模型设计适用于水下退化图像的成像曲线模型。经典的水下成像模型I_λ(x)可以建模为：

I_λ(x)＝J_λ(x)·t_λ(x)+B_λ·(1-t_λ(x)),λ∈{R,G,B} (1)

相机捕获的水下图像I_λ(x)可以表示为直接衰减光和散射背景光的加权和，其中J_λ(x)是为未受到水下散射光影响的非退化图像，B_λ是均匀水下背景光，t_λ(x)＝e^-βd(x)表示光束穿过介质后剩余能量比，β是散射系数，d(x)是场景深度图。

水下图像恢复过程J_λ(x)可表示为：

即，水下图像复原的关键就是估计参数B_λ和t_λ(x)，基于雾霾形成原理的水下曲线模型可以：

定义αI_λ(x)＝(t_λ(x)-1)/t_λ(x)，带入式(3)中有：

UIE(x,λ)＝I_λ(x)+αI_λ(x)(B_λ-I_λ(x)) (4)

公式(4)为水下成像模型的表达式；

从式(4)中可以得出，本申请已经将图像还原问题转换为估计参数α和B_λ，因此为了学习输入图像与其最优拟合曲线参数映射之间的关系，输入水下退化光学图像，输出为其对应的像素级曲线参数映射，并由经验估计出水下图像背景光。

本申请的所述水下退化图像背景光估计模块将七个卷积层进行串联，每个卷积层都包含32个大小为3×3、步长为1的卷积核，前六个卷积层后都连接一个ReLU激活函数，第七层卷积层后跟着Tanh激活函数，同时，分别将第1、2、3层与第4、5、6层进行跳跃连接，目的是将浅层卷积层的特征引入，以获取丰富的低层信息。每次迭代生成了2个参数映射，并且每次迭代都是三个通道分别进行的。值得注意的是，该水下退化图像背景光估计模块适用于尺寸为256×256×3的输入图像，通过对原始水下退化图像进行预增强，来减小后续对图像进行增强的计算压力。

进一步地，水下退化图像增强网络(UDIE)的构建；

为了实现水下退化图像到增强图像的最佳映射，本申请采用了基于水下多注意力机制的生成对抗网络模型，其中生成器与对抗判别器在迭代的训练过程中不断博弈，通过这种对抗性的训练来使生成器生成更逼真的图像。

如图1所示，本申请生成器网络遵循U-Net的原理，由编码器-解码器网络(e1-e5，d1-d5)组成，其中编码器和解码器的镜像卷积层之间采用跳跃连接(例如，在e1和d5之间，e2和d4之间，e3和d2之间，e4和d4之间)，同时在每个跳跃连接中串联一个水下多注意力模块，以实现自适应地选择和强调图像中的关键信息，避免放大水下图像的噪声；

该水下双注意力模块将通道注意力模块与空间注意力模块进行串联，有助于网络选择性地强调或者抑制每个通道的特征信息和图像中的不同位置，这意味着网络可以更好地关注对特征任务有用的信息，从而提高特征的质量与相关性。生成器网络中使用这种跳跃连接已经被证明在图像到图像的转换和图像质量增强任务中非常有效。

有关水下双注意力模块的详细信息会在下一节详细介绍。在生成器中，本申请选择了一个更简化的模型，其参数较少以实现更快的推理速度。该网络接受一个256×256×3的输入，编码器(e1-e5)仅学习了大小为8×8的256个特征图。解码器(d1-d5)利用这些特征图并结合来自跳跃连接的输入，生成一个256×256×3的增强图像作为输出。值得注意的是，该网络是完全卷积的，因此本申请避免使用了全连接层。在每一层，本申请采用4×4的滤波器进行2D卷积，然后接上Leaky-ReLU非线性函数并进行批归一化。

水下双注意力模块(Underwater Dual Attention Module，UDAM)是一种即插即用的注意力模块，如图2所示。它通过在卷积神经网络(CNN)中引入通道注意力与空间注意注意力，实现了自适应地选择和强调图像中有用信息的方式。该模块由两个子模块组成：通道注意力模块(Channel Attention Module)和空间注意力模块(Spatial AttentionModule)。

通道注意力模块用于对输入特征图的不同通道之间的关系进行建模。它通过全局平均池化和全连接层来学习通道间的相关性，并生成一个通道注意力图。这个通道注意力图会被应用到输入特征图上，以对不同通道的特征进行加权，从而增强重要的通道特征，抑制不重要的通道特征。通道注意力公式C(X)：

C(X)＝σ{m[p_avg(X)]+m[p_max(X)]} (5)

空间注意力模块则用于对输入特征图的不同空间位置之间的关系进行建模。它通过使用不同尺度的卷积核和池化操作来学习特征图的空间依赖性，并生成一个空间注意力图。这个空间注意力图会被应用到输入特征图上，以对不同位置的特征进行加权，从而突出重要的空间位置，忽略不重要的空间位置。空间注意力公式S(X)为：

S(X)＝σ{ε^3×3[m[p_avg(X)]；m[p_max(X)]} (6)

其中：X是输入特征图,p_avg和p_max表示平均池化和最大池化。m表示共享全连接层，ε^3×3表示3*3卷积操作，σ是sigmoid激活函数。

通过通道注意力模块和空间注意力模块的组合，UDAM模块的公式可以表示为式7，该模块能够自适应地选择和强调输入特征图中的有用信息，从而提升图像识别的性能。UDAM作为一个即插即用的模块，可以直接将它嵌入到我们所提出的网络框架中，而无需对整个网络进行重构。它能够帮助网络更好地理解图像的语义信息，提升模型对关键特征的感知能力，从而提高模型的准确性和鲁棒性。

所述总损失函数的构建过程如下：

空间一致性损失L_spa：通过比较输入图像和生成图像之间的差异，促使生成的图像在空间结构上保持一致性和结构稳定性

其中M代表局部区域的数量，σ(p)代表以区域p为中心的四个相邻区域(上、下、左、右)。我们用J和I分别表示增强版本和输入图像中局部区域的平均强度值。需要强调的是，即使在考虑其他区域大小的情况下，这种损失仍然保持稳定性。

水下曝光控制损失L_spa：通过计算图像中局部区域的亮度与理想曝光水平之间的差异，将曝光控制损失最小化，从而改善图像的曝光质量，使图像中的局部区域更接近理想曝光水平Y_i。我们遵循现有的做法将Y_i设置为RGB色彩空间中的灰度级别。损失L_spa可以表示为：

其中，K代表大小为16×16的非重叠局部区域的数量，J是增强图像中局部区域的平均强度值。

水下色彩恒常损失L_color：在水下图像处理中，通常存在严重的色偏问题，为了解决色彩恢复问题。基于灰度世界假设，即在自然场景中，光照变化可能导致图像整体颜色偏移，但大多数情况下，整个世界的平均颜色(灰度)保持相对恒定。我们设计了水下色彩恒常损失，用于协助校正图像的色彩。首先，我们计算整个图像的平均颜色，通常以RGB颜色空间中的平均值表示。然后确定平均颜色与中性灰色(即：[128,128,128])之间的颜色偏移。最后对图像中的每个像素应用颜色偏移，以调整颜色使其达到平均颜色变成中性灰色。水下色彩恒常损失L_color可以表示为：

其中，μ_i表示增强图像的i通道的平均强度值，(i,j)表示一对通道。水下色彩恒常损失越小，RGB分量的平均值越接近，输出图像就越接近真实世界。

水下色彩相对分散损失L_crd：当我们谈论图像的色彩偏差时，通常我们关注平均亮度和颜色的分布差异。也就是说我们不仅可以通过比较不同图像之间平均亮度的差异来理解它们的颜色差异，还可以通过比较它们颜色分布的标准差差异来得出相同结论。标准差用来测量图像中像素值的离散程度，这也就是色彩的差异度。因此，如果两幅图像在RGB通道的标准差上有差异，那么它们的颜色差异也会相应地有所不同。故本专利计算RGB通道的标准差，分别表示为σ_R、σ_G、σ_B，水下色彩相对分散度的定义如下：

水下色彩相对分散损失越小，意味着RGB分量的像素分散度越接近，生成的图像就越能够准确还原真实世界的色彩表现。在这种情况下，三个通道的色彩相对变化较小，这更好地反映了真实世界的色彩特性，使图像更真实、更准确。

总损失L_total：总损失函数可以表示为：

L_total＝W_expL_exp+W_spaL_spa+W_colorL_color+W_crdL_crd (12)

其中：W_exp表示水下曝光控制损失的权重，W_spa表示空间一致性损失的权重、W_color表示水下色彩恒常损失的权重，W_crd代表水下色彩相对分散损失的权重，L_exp表示水下曝光控制损失，L_color表示水下色彩恒常损失，L_crd表示水下色彩相对分散损失，L_spa表示空间一致性损失；。

总损失函数更适用于水下场景的损失函数用于隐式评估图像质量；

具体实施例：

1、数据集和训练细节

本申请所使用的训练数据集包括：UIEBD-60和UIEBD-90。我们将数据集分别划分为训练集和测试集，以便进行模型训练。UIEBD-60包含了890个不同场景的水下图像，其中60张是独立于890张的挑战性数据集。而UIEBD-90则需要从手动从890张中挑出90张具有挑战性的图像作为测试集，在挑选这90张的过程中需要注意同时考虑不同的水下场景和条件，包括深度、光线、水质等方面的变化。使用Adam优化器进行训练，模型进行了500次迭代的训练，批量大小设置为8。图像的分辨率为256×256，并且是RGB彩色图像。

2、评价指标

完全参考评估指标包括结构相似性指数(SSIM)和峰值信噪比(PSNR)，以及无参考图像质量评估指标，包括水下彩色图像质量评估(UCIQE)、水下图像质量度量(UIQM)，其中UIQM包括三个水下图像属性测量，即色彩度、锐度和对比度(即UICM、UISM和UIConM)。这些指标被用于评价图像质量。需要注意的是，PSNR或SSIM越高则表示增强后的水下图像在内容方面与参考图像更相似。同时，更高的UCIQE或UIQM表明增强后的水下图像与人类视觉感知系统更一致。

3、视觉比较

为了展示提出的UAPGAN框架在主观视觉感知方面的有效性和优越性，我们在UIEBD-60和UIEBD-90数据集上全面考虑了无模型增强方法，例如CLAHE、ICM、GC，基于物理模型的经典色彩恢复方法，包括DCP、IBLA和ULAP，以及基于数据驱动的修复方法，比如UGAN、WaterNet、FUnIEGAN、Zero-Reference，进行了全面的比较。关于数据集UIEBD-90的增强结果显示在图3(a)是图像I的UIEBD-90数据集上增强结果定性比较图；(b)是图像II的UIEBD-90数据集上增强结果定性比较图；(c)是图像III的UIEBD-90数据集上增强结果定性比较图；(d)是图像IV的UIEBD-90数据集上增强结果定性比较图；(e)是图像V的UIEBD-90数据集上增强结果定性比较图；

总的来说，无模型的恢复方法和基于物理模型的增强算法生成的图像都无法达到令人满意的视觉效果。与基于深度学习的方法相比，提出的UAPGAN方案可以从主观视觉感知中达到最优的增强效果。此外，如图3(c)所示，我们可以明显观察到CLAHE和GC增强后的图像没有去除绿色调，并且GC虽然提高了图像的亮度但是也使得图像对比度降低。从图中，我们可以清晰地看到，通过迭代修改图像对比度的ICM算法在有效改善图像对比度的同时保持图像的自然外观，避免了过度增强，但是对于暗光或者人工光源下的图像，并不能有效恢复图像色彩。同时，我们可以清晰地看到，DCP使用暗通道的先验信息恢复图像的真实颜色和对比度的效果较差，IBLA亦是如此，如图3(c)、(e)列所示。此外，从图3(b)、(e)中，我们可以看到，ULAP引入了额外的红光，对于水下图像的优化能力远不如提出的UAPGAN方案，尽管使用了局部自适应的增强技术和Pareto优化来改善图像清晰度、对比度和颜色。这说明，先验信息并不总是适用于不同的水下环境，涉及的中间参数不能被精确估计。虽然，可以明显地看出UGAN和WaterNet相较于其他增强结果在对比度和色彩方面有明显的提升，但是相较于UAPGAN算法在视觉上还是存在一定差距，如图3(a)、(b)列所示。FUnIE-GAN方法可以适当提高图像的细节表现力，然而在这一过程中并不能校正色偏问题。Zero-Reference作为一种无参考的图像增强方法，可以改善水下图像的暗光效果，但其性能可能受到水下条件限制，无法修正图像色彩，如图3所示。因此，可以明显看出，相较于其他方法，本文所设计的UAPGAN算法拥有更强的泛化能力，水下图像的退化都可以有效的解决。尤其对于蓝、绿色调图像，如图3(c)和(d)列，尽管UGAN和WaterNet所增强的结果相较于原图可以缓解色偏，UPAGAN更能彻底地去除色偏，同时最大限度地保留原图细节信息。

关于数据集UIEBD-60对比效果图从图4中可以看出，CLAHE算法虽然能有效改善水下图像的亮度，但是并不能有效修复因水下光衰减造成的色偏问题。另外从图4(b)中可以明显观察到ICM和GC引入了额外的红光，同时两种算法处理后的图像分别存在欠曝和过曝的情况。显而易见，基于物理模型的三种恢复方法都很难达到令人满意的增强效果。这也表明，先验信息并不总是适用于不同的水下场景，并且所涉及的中间参数无法准确估计。相较于数据驱动方法，本专利所提出的UAPGAN能够在主观视觉感知上实现更好的增强效果。同时，得益于所设计的水下背景光估计模块，我们所提出的框架对于低光照场景具有更强的恢复效果，增强后的图像更接近良好自然光场景下拍摄的图像。

4、定量比较

为了从定量比较的角度展示提出的UAPGAN框架的有效性和优越性，我们利用无模型增强方法，比如CLAHE、ICM、GC，以及基于物理模型的恢复方法，包括DCP、IBLA和ULAP，基于数据驱动的图像修复方法，比如UGAN、WaterNet、FUnIEGAN、Zero-Reference，进行了比较，在UIEB-60、UIEB-90数据集上比较结果，这些结果在表1和表2中呈现出来。

表1

表2

在UIEB-60数据集的客观评估方面，其中由于UIEB-60数据集的图像无参考，故表中不提供UIEB-60数据集下的完全参考指标比较结果。从表1中，我们明显可以看到，提出的UAPGAN框架可以在大多数指标中达到最优或次优(最优结果由粗体标记，次优结果由下划线标记)。

值得注意的是，虽然采用了生成对抗策略，但在没有来自UDAM模块的CAM和SAM的指导下，UGAN和FUnIE-GAN很难在综合表现上优于UAPGAN框架。此外，根据非参考指标，提出的UAPGAN算法可以使增强图像具有更接近现实世界的色彩和丰富的细节。同时，设计的UAPGAN方案在指标UCIQE上达到更高的分数，这表明增强后的水下图像符合人眼感知系统。最后，根据UIQM评分，创建的UAPGAN框架可以使得水下图像在对比度、亮度和颜色饱和度三者保持平衡。

此外，就UIEB-90数据集的客观评估而言，从表2中，我们明显可以看到，提出的UAPGAN框架可以在大多数指标中达到最优或次优。我们可以清晰地看到，除了UISM和UCIQE之外，提出的UAPGAN方案在性能上优于UGAN、WaterNet、FUnIE-GAN和Zero-Reference框架。根据SSIM和PSNR，显然可以得出结论，提出的UAPGAN框架可以实现更高的峰值信噪比和增强图像与参考图像之间更好的结构相似性。需要注意的是，UGAN和IBLA方法分别可以实现更优越的锐度和色彩度。

5、特征表达

为了证实我们所提出的UAPGAN框架在基础特征表达方面具有更好的表现，我们使用SIFT、Harris和Canny来分别提取关键点、角点和像素级边缘。如图5所示，我们可以从SIFT关键点匹配结果中观察到，在原始水下退化图像上，SIFT算法无法提取提取和匹配任何关键点，其根本原因在于水下环境中光线的散射、吸收以及折射等因素会导致图像的退化，使图像失真，降低了图像的对比度和清晰度。然而，通过增强算法，例如基于无模型的增强方法，包括CLAHE、UCM和HE，基于物理模型的恢复方法，包括IBLA和UDCP，以及基于数据驱动的端到端的图像转换算法，包括UGAN和FUnIE-GAN，关键点的提取和匹配性能可以显著改善。一般情况下，相较于IBLA和UDCP，通过CLAHE、UCM和HE方法增强的图像要比IBLA和UDCP方法更好地实现关键点提取和匹配。主要原因在于它们能够改善图像的对比度、降低噪声、保留细节等，而无需依赖特定的先验知识。这使它们更适用于各种水下场景，并有助于提高关键点提取和匹配性能。同时，深度学习模型通常依赖于大规模的数据集来进行训练，然而，在水下环境中获取高质量的数据可能相对困难，因此可能会造成潜在挑战和不匹配问题。显然，本专利所开发的UAPGAN框架可以在增强后的图像上实现较好的关键点提取和匹配，这表明增强后的图像能够更好地表达基础特征。

另外，为了证明所设计的UAPGAN方案在Harris角点检测方面表现突出，进行了相应的实验，结果如图6所示。注意到，Harris角点用红色空心点表示。从图中，我们可以观察到，相较于IBLA和UDCP，通过CLAHE、UCM和HE增强的图像上可以检测到更多的Harris角点。在没有通道注意力模块(Channel Attention Module，CAM)和空间注意力模块(SpatialAttention Module，SAM)的指导下,UGAN和FUnIE-GAN框架在重要特征和结构的重塑能力上略逊于我们所开发的UAPGAN。UAPGAN能够检测到更多的Harris角点，这表明增强图像上特征点之间的差异得到有效缩减。

最后，我们还从Canny边缘检测的角度去验证UAPGAN方案在增强图像上的优越性。从图7从我们可以清楚看到，最初的水下退化图像上的边缘信息十分有限。可以肯定的是，在经过任何增强算法后的水下恢复图像上都可以更好地检测到边缘信息。此外，包括IBLA和UDCP在内的基于物理模型的图像增强方法并不能很好地恢复基本特征，对于Canny边缘检测性能提升效果不明显。值得肯定的是，通过提出的UAPGAN框架增强的图像可以更全面地描绘水下目标的边缘信息，相比于其他方法，这表明所设计的UAPGAN算法能够增强图像的基本特征信息。

此外，本专利在UIEBD-90数据集上进行了特征表达的定量比较实验，相应的比较结果总结在表3中，其中最优和次优结果分别用粗体和下划线标记。从表中，我们可以注意到，增强、转换或者端到端的图像修复算法对于特征表达都具有正面意义，受到水下环境的影响，原始的水下退化图像在特征表达方面并不够理想。此外，从表中可以看出，相比于基于物理建模的方法，通过重新分配图像中的像素值，以使直方图更均匀的无模型恢复方法可以更好地帮助突出图像的细节和特征。除了Harris角点检测外，我们所设计的UAPGAN框架在SIFT关键点和Canny边缘检测方面的表现都比较亮眼，这说明我们的算法在基本特征恢复方面具有显著优势。

表3

6、消融研究

为了揭示水下背景光估计预处理模块、UDAM以及所设计的损失函数对UAPGAN性能的贡献，本小节基于UAPGAN额外组织三个消融实验，即在UAPGAN中去除水下背景光估计预处理模块、UDAM，同时将所设计的损失函数进行组合去评估各个模块以及函数所作出的贡献。消融实验在UIEBD-90、UIEBD-60数据集上完成。

在UIEBD-90数据集上进行的有关模块的消融实验客观评价指标如表4所示。从表中可以看出同时具有水下背景光估计预处理模块和UDAM的网络生成的水下图像在绝大多数指标上都能达到最优或者次优的分数。基于背景光估计和注意力特征表示的组合可以获得最佳的SSIM和PSNR，这说明增强图像和参考图像之间存在相当高的结构相似性和峰值信噪比。此外，根据UIQM和UCIQE指标，在背景光估计与嵌入UDAM模块的组合在增强性能方面排名第一，这意味着增强的水下图像更符合人类视觉感知系统。类似地，水下背景光先验模块有助于改善增强水下图像的锐度和对比度特性。但是，综合参考指标和非参考指标可以看出，我们所提出的算法可以在色彩鲜艳度、锐度和对比度之间实现完美平衡。

表4

接下来，本申请在表5中展示四个损失函数对于恢复最优图像的贡献，该实验也是在UIEBD-90数据集上进行。很明显，水下色彩恒定损失和曝光控制损失的组合对于水下图像色彩恢复的效果最佳。同时在此基础上加上空间结构损失，可以最大程度上减小水下图像受到散射和模糊的影响，提高图像的清晰度，减轻模糊效应。不难看出，我们所设计的四个损失的组合在PSNR和SSIM评价指标上获得了最佳分数，这说明增强后的图像与参考图像结构相似性更高，并且具有更好的视觉质量。整体结果表明，集合四个损失的组合对所提出的UAPGAN做出有效的贡献，使其在PSNR、SSIM、UIconM、UIQM和UCIQE指标达到最优。

表5

此外，为了进一步揭示四个损失模块的贡献，在数据集UIEBD-60上进行了相应的消融实验。如表6所总结，在只应用曝光控制损失时可以实现最佳的UICM性能，这意味着图像的颜色校正效果达到最佳。具体来说，这表明曝光控制被有效地使用，以减轻水下图像中的颜色失真问题。在曝光控制损失和空间一致性损失的组合中，UISM分数达到最高，说明增强后的图像模糊效应得以减轻，图像变得更加清晰。除了上述两指标，四个损失的应用在考虑的指标中可以获得最佳分数，证明了其有效性，所获得的增强图像更符合人类视觉感知。

表6

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块，其特征在于：包括以下步骤：

获取待处理的水下图像；

2.根据权利要求1所述的一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块，其特征在于：所述水下退化图像背景光估计模块基于雾霾形成模型设计适用于水下退化图像的成像曲线模型；具体过程如下：

经典的水下成像模型I_λ(x)建模为：

I_λ(x)＝J_λ(x)·t_λ(x)+B_λ·(1-t_λ(x)),λ∈{R,G,B} (1)

水下图像恢复过程J_λ(x)表示为：

定义αI_λ(x)＝(t_λ(x)-1)/t_λ(x)，带入式(3)中有公式(4)。

UIE(x,λ)＝I_λ(x)+αI_λ(x)(B_λ-I_λ(x)) (4)

3.根据权利要求1所述的一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块，其特征在于：所述所述水下退化图像背景光估计模块通过将七个卷积层进行串联构成，每个卷积层都包含32个大小为、步长为1的卷积核，前六个卷积层后都连接一个ReLU激活函数，第七层卷积层后跟着Tanh激活函数，同时，分别将第1、2、3层与第4、5、6层进行跳跃连接，，每次迭代生成了2个参数映射，并且每次迭代都是三个通道分别进行的。

4.根据权利要求1所述的一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块，其特征在于：所述水下退化图像增强网络包括生成器网络，所述生成器网络遵循U-Net的原理，由编码器-解码器网络组成，其中编码器和解码器的镜像卷积层之间采用跳跃连接，同时在每个跳跃连接中串联一个水下双注意力模块，所述水下双注意力模块将通道注意力模块与空间注意力模块进行串联，在每一层，采用4×4的滤波器进行2D卷积，然后接上Leaky-ReLU非线性函数并进行批归一化。

5.根据权利要求4所述的一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块，其特征在于：所述水下双注意力模块通过在卷积神经网络中引入通道注意力与空间注意注意力；

通道注意力公式C(X)：

C(X)＝σ{m[p_avg(X)]+m[p_max(X)]} (5)

其中：X是输入特征图,p_avg和p_max表示平均池化和最大池化，m表示共享全连接层，σ是sigmoid激活函数。

S(X)＝σ{ε^3×3[m[p_avg(X)]；m[p_max(X)]} (6)

其中：X是输入特征图,p_avg和p_max表示平均池化和最大池化，m表示共享全连接层，ε^3×3表示3*3卷积操作，σ是sigmoid激活函数；

6.根据权利要求1所述的一种基于通道-空间注意力的水下图像渐进式生成对抗增强模块，其特征在于：所述总损失函数的构建过程如下：

总损失L_total：总损失函数表示为：

L_total＝W_expL_exp+W_spaL_spa+W_colorL_color+W_crdL_crd (8)

水下色彩相对分散损失L_crd：

计算RGB通道的标准差，分别表示为红色通道的标准差σ_R、绿色通道的标准差σ_G、蓝色通道的标准差σ_B，水下色彩相对分散度的定义如下。