CN116563147B

CN116563147B - 一种水下图像增强系统及方法

Info

Publication number: CN116563147B
Application number: CN202310485793.XA
Authority: CN
Inventors: 王金华; 徐孙涵
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2024-03-26
Anticipated expiration: 2043-05-04
Also published as: CN116563147A

Abstract

本申请公开了一种水下图像增强系统及方法，包括：交叉注意力机制模块、动态特征增强模块和特征融合模块；交叉注意力机制模块用于提取水下图像中的全局信息和局部信息并结合，得到图像特征；动态特征增强模块用于提高图像特征的表达能力和区别能力；特征融合模块用于提高图像特征的重建能力；特征融合模块还用于进一步增强图像特征的区别能力，完成水下图像的增强。本申请能够恢复水下图片中的真实颜色；并且在海洋探测和资源勘探方面，本申请可以帮助科学家和工程师更好地理解海洋生物和地质环境，从而更好地探索和利用海洋资源。本申请可以帮助救援人员快速准确地发现和定位事故现场、失踪人员和潜水器等。

Description

一种水下图像增强系统及方法

技术领域

本申请属于图像处理领域，具体涉及一种水下图像增强系统及方法。

背景技术

相较于陆地资源探索已充分，海洋资源探索仍初级。海洋资源包括石油、天然气和渔业资源等，对人类发展重要。但由于海洋环境复杂多变，探索开发面临巨大困难。水下图像增强处理可更好了解海洋资源分布、开发难度、潜力和确定开发范围和方案。然而，水下图像常受多种因素影响，如光线传播、悬浮颗粒浓度等，出现模糊、颜色偏差和低对比度问题，需专业技术和设备解决。

水下图像增强技术能够提升能见度、减小色差和提高对比度三个方面，有利于观察、分析水下场景和提高计算机视觉任务性能。传统方法利用CNN和GAN技术实现水下图像增强，只考虑局部信息提取。虽然有一些工作引入视觉注意力机制提取一定的全局信息，但增强效果还有待提高。

发明内容

为解决上述背景中的技术问题，本申请提出一种基于交叉注意力机制的水下图像增强系统及方法。通过块间注意力模块获得局部信息；同时，通过块间注意力机制来获得全局信息进行建模，从而实现更完整的图像增强效果。

为实现上述目的，本申请提供了一种水下图像增强系统，包括：交叉注意力机制模块、动态特征增强模块和特征融合模块；

所述交叉注意力机制模块用于提取水下图像中的全局信息和局部信息并结合，得到图像特征；

所述动态特征增强模块用于提高所述图像特征的表达能力和区别能力；

所述特征融合模块用于提高所述图像特征的重建能力；所述特征融合模块还用于进一步增强所述图像特征的区别能力，完成水下图像的增强。

优选的，在所述交叉注意力机制模块获取所述图像特征前，应当将待提取的水下图像经过一个重置大小归一化层和一个镜像填充层进行图像大小处理；同时进行线性映射，用以提取所述图像特征。

优选的，所述交叉注意力机制模块包括：块内注意力机制和块间注意力机制；所述交叉注意力机制模块的工作流程包括：

由所述块内注意力机制提取特征图的局部信息；再以所述局部信息为输出，输入到所述块间注意力机制中，提取所述特征图的全局信息；之后，将所述局部信息和所述全局信息进行融合，得到所述图像特征。

优选的，所述动态特征增强模块包括：两个可变形卷积，所述可变性卷积为在普通卷积的卷积核位置引入一个可学习的偏移量。

优选的，所述动态特征增强模块的工作流程包括：所述卷积核通过在输入特征图的采样点时发生偏移，集中于感兴趣的区域或者目标，用以加强所述图像特征的表达能力和区别能力。

优选的，所述特征融合模块是一种用于融合多个分支的通道注意力机制，由卷积层、池化层以及Softmax操作组成。

优选的，所述特征融合模块的工作流程包括：使用通道注意力来融合所述动态特征增强模块的输出分支和所述交叉注意力机制模块的输出分支；以融合原始特征信息和经过多层交叉注意力机制的特征信息，以提高所述图像特征的重建能力；并进一步增强所述图像特征的区别能力。

本申请还提供了一种水下图像增强方法，步骤包括：

提取水下图像中的全局信息和局部信息并结合，得到图像特征；

提高所述图像特征的表达能力和区别能力；

提高所述图像特征的重建能力；并进一步增强所述图像特征的区别能力，完成水下图像的增强。

与现有技术相比，本申请的有益效果如下：

本申请能够恢复水下图片中的真实颜色；并且在海洋探测和资源勘探方面，本申请可以帮助科学家和工程师更好地理解海洋生物和地质环境，从而更好地探索和利用海洋资源。在水下安全监测和救援方面，本申请可以帮助救援人员快速准确地发现和定位事故现场、失踪人员和潜水器等。此外，在水下文物保护和考古发掘方面，本申请可以帮助文物保护者和考古学家更好地了解水下文化遗产的状况和历史背景，从而更好地保护和挖掘这些宝贵的文化遗产。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的系统结构示意图；

图2为本申请实施例的交叉注意力机制框架图；

图3为本申请实施例的动态特征增强模块示意图；

图4为本申请实施例的特征融合模块框架图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

本实施例提出了一种水下图像增强系统，该系统主要基于Vision Transformer网络模型，包括三个模块：交叉注意力机制模块、动态特征增强模块和特征融合模块。其中，交叉注意力机制模块主要由块间注意力机制模块和块内注意力机制模块组成，以最大程度地提取图像之中的全局信息以及局部信息并将其结合起来；动态特征增强模块主要由两个可变形卷积模块组成，以提高特征表达能力和区分能力从而提升模型的性能；特征融合模块主要由卷积组成，以提高特征的表达能力和重建能力；整体框架如图1所示。

在本实施例中，交叉注意力机制模块主要由块内注意力机制和块间注意力机制组成。由块内注意力机制提取特征图的局部信息，再以此为输出，输入到块间注意力机制中，提取其全局信息，再输入到块间注意力机制模块，提取一次局部信息。交叉注意力机制框架图如图2所示。

动态特征增强模块由两个可变形卷积模块组成。可变形卷积在其卷积核的位置引入了一个可学习的偏移量，使得卷积核的采样点可以发生变形。因此卷积核可以在输入特征图的采样点时发生偏移，集中于感兴趣的区域或者目标。可变形卷积还可以增强网络的转换建模能力，其框架图如图3所示。

特征融合模块是一种用于融合多个分支的通道注意力机制，主要由卷积层、池化层以及Softmax操作组成。特征融合模块使用通道注意力来融合动态特征增强过后的分支和交叉注意力机制模块输出分支，以融合原始特征信息和经过多层交叉注意力机制的特征信息，然后输出到下一层。特征融合模块框架图如图4所示。

下面将结合本实施例，详细说明本申请如何解决实际生活中的技术问题。

第一步：首先，将原始的带失真信息的图像作为输入，大小为H×W×3，经过一个重置大小归一化层和一个镜像填充层，使其大小变成2H×2W×3，并进行线性映射，得到一个形状为(batch size，dimension，H，W)的一个张量，记作X。其中batch size和dimension是在训练模型前设置的超参数，batch size主要是单次读入多少张图片进行训练，dimension是训练时张量的维度。

第二步：在本实施例中，将X复制两份，一份直接通过3×3卷积操作，得到X_hat；另一份输入到本系统的交叉注意力机制模块中，进行三个阶段的特征提取和融合。

第一阶段：先进行层归一化操作，再使用公式1进行块内注意力机制的计算，得到特征图，并与输入的X进行残差连接得到X₁；然后对X₁进行层归一化操作和多层感知处理，得到X₂。

其中，Q、K和V分别表示查询(Query)矩阵、键(Key)向量和值(Value)矩阵，是Key向量的维度；softmax函数，又称归一化指数函数，可以讲任意实数向量映射为概率分布向量。

第二阶段：先对X₂进行层归一化操作，再进行块间注意力机制的计算，提取全局信息，并与X₂进行残差连接得到X₃；然后对X₃进行层归一化操作和多层感知处理，得到X₄。

第三阶段：与第一阶段相同，对X₄进行层归一化、块内注意力机制和多层感知处理，得到X₅。

第三步：将第二步中交叉注意力机制模块的输出经过3×3的卷积，将多头注意力机制计算得到的信息进行融合，并与X_hat进行残差连接；然后用一个线形层进行投影，并将其裁剪成原来的大小；最后与经过重置大小的归一化层的原始图像进行残差计算，得到X₆。

第四步：将X₆与原始图像进行残差连接得到X₇，并复制两份。一份输入到动态特征增强模块中；另一份经过下采样操作，使其大小变为并输入到交叉注意力机制模块中，重复第二步中的操作，得到X₈。

第五步：将X₈复制一份。一份输入到动态特征增强模块中；另一份经过下采样操作，使其大小变为并输入到交叉注意力机制模块中，重复第二步中的操作，得到X₉。

第六步：将X₉经过上采样操作，使其大小变为并与X₈输入到特征融合模块中。流程包括：先将所有输入特征图按照第一个维度拼接起来，并通过重组操作将其尺寸调整为第一个输入特征图的尺寸；在本实施中，通过一个均值池化层和一个多层感知器将其映射到一个特征图上，并提供非线性变换和全局信息；最后将输入特征图与映射后的特征图相乘，并按照第二个维度求和输出，得到X₁₀。

第七步：将X₁₀经过上采样操作，使其尺寸变成H×W×3。然后，将X₁₁与经过特征增强模块的X₇特征融合模块中进行特征融合。输出的特征图记为X₁₂。接着，将X₁₂输入到交叉注意力机制中，以在图像块内和图像块间提取局部和全局信息。输出的特征图记为X₁₃。最后，将X₁₃经过3×3的卷积，得到最终增强过后的图片。

实施例二

下面将通过本实施例说明上述实施例模型的如何进行训练和实施。

构建2000组图像匹配对作为训练样本。对于损失函数，由于L₁损失函数在图像的整体对比度、均匀区域的平滑效果方面表现较好；对比正则化损失函数，可以使得图像在整体对比度上更加趋近参考图像并且远离原始的失真图像；结构损失为了精确地对水下图像进行复原，根据结构相似性原理使用结构损失优化网络。下面将逐个介绍这些损失函数。

逐像素计算损失是图像复原任务地基础损失，均方误差(MSE)或L₂损失是单幅图像恢复中应用最广泛的损失函数。然而在峰值信噪比(PSNR)和结构衡量指标(SSIM)方面，许多使用L₁损失训练地图像恢复任务比L₂损失获得了更好的性能。按照相同的策略，本实施例采用了L₁损失。L₁损失函数如公式2所示：

式中，τ表示失真图像，即输入数据；y表示参考图像；H(·)表示UWCT，则生成图像为H(τ)，w和h分别表示生成图像的宽和高。

对比正则化损失是一种基于对比学习的思想的整体信息比较的损失指构成法。首先构建了两对样本对，一对是由参考图像以及生成图像组成的，另一对是由失真图像以及生成图像组合成的，然后对两组的图像分别求L₁损失值，然后进行对比，使得生成图像更加趋向于参考图像，且区别于失真图像。对比正则化损失计算公式如公式3所示：

式中，τ表示失真图像，即输入数据；y表示参考图像；H(·)表示本发明，则生成图像为H(τ)，s表示原始的失真图像，w和h分别表示生成图像的宽和高。

结构损失是一种基于结构相似性的一种损失函数。结构相似性度量可以作为图像复原任务的损失，为了提升水下图像增强网络对结构信息的复原能力，将结构相似性度量作为优化目标之一。结构相似性计算公式及结构损失函数如公式4所示：

其中，u_η和u_y分别为增强后图像和参考图像的均值，σ_η和σ_y分别表示增强后图像和参考图像的方差，σ_ηy表示协方差，C表示常数，p为像素，N为图像块P中的像素数量。

本实施例中，利用L₁损失，对比正则化损失和结构损失函数加权平均作为模型的总损失函数，如公式(5)所示：

L_total＝0.6·L₁+0.2·L_contrastive+0.2·L_ssim (5)

实施例三

本实施例提出了一种水下图像增强方法，该方法主要基于Vision Transformer网络模型，具体步骤包括：提取水下图像中的全局信息和局部信息并结合，得到图像特征；提高图像特征的表达能力和区别能力；提高图像特征的重建能力；并进一步增强图像特征的区别能力，完成水下图像的增强。

在本实施例中，通过构建三个模块来实施上述方法，三个模块包括：交叉注意力机制模块、动态特征增强模块和特征融合模块。其中，交叉注意力机制模块主要由块间注意力机制模块和块内注意力机制模块组成，以最大程度地提取图像之中的全局信息以及局部信息并将其结合起来；动态特征增强模块主要由两个可变形卷积模块组成，以提高特征表达能力和区分能力从而提升模型的性能；特征融合模块主要由卷积组成，以提高特征的表达能力和重建能力。

在本实施例中，交叉注意力机制模块主要由块内注意力机制和块间注意力机制组成。由块内注意力机制提取特征图的局部信息，再以此为输出，输入到块间注意力机制中，提取其全局信息，再输入到块间注意力机制模块，提取一次局部信息。

动态特征增强模块由两个可变形卷积模块组成。可变形卷积在其卷积核的位置引入了一个可学习的偏移量，使得卷积核的采样点可以发生变形。因此卷积核可以在输入特征图的采样点时发生偏移，集中于感兴趣的区域或者目标。可变形卷积还可以增强网络的转换建模能力。

特征融合模块是一种用于融合多个分支的通道注意力机制，主要由卷积层、池化层以及Softmax操作组成。特征融合模块使用通道注意力来融合动态特征增强过后的分支和交叉注意力机制模块输出分支，以融合原始特征信息和经过多层交叉注意力机制的特征信息，然后输出到下一层。

第一阶段：先进行层归一化操作，再使用公式6进行块内注意力机制的计算，得到特征图，并与输入的X进行残差连接得到X₁；然后对X₁进行层归一化操作和多层感知处理，得到X₂。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种水下图像增强系统，其特征在于，包括：交叉注意力机制模块、动态特征增强模块和特征融合模块；

所述特征融合模块用于提高所述图像特征的重建能力；所述特征融合模块还用于进一步增强所述图像特征的区别能力，完成水下图像的增强；所述特征融合模块是一种用于融合多个分支的通道注意力机制，由卷积层、池化层以及Softmax操作组成；所述水下图像增强系统的构建过程包括：

第一步：将带失真信息，大小为H×W×3的原始图像输入后，先通过一个重置大小归一化层和一个镜像填充层处理，使其大小变为2H×2W×3；然后进行线性映射，得到形状为：batch size，dimension，H，W的张量X；其中，batch size和dimension是在训练模型前设置的超参数；

第二步：复制张量X两份，一份直接通过3×3卷积操作，得到X_hat；另一份输入到交叉注意力机制模块中，进行三个阶段的特征提取和融合；

第一阶段：先进行层归一化操作，再进行块内注意力机制的计算，得到特征图，并与输入的X进行残差连接得到X₁；然后对X₁进行层归一化操作和多层感知处理，得到X₂；

第二阶段：先对X₂进行层归一化操作，再进行块间注意力机制的计算，提取全局信息，并与X₂进行残差连接得到X₃；然后对X₃进行层归一化操作和多层感知处理，得到X₄；

第三阶段：对X₄进行层归一化、块内注意力机制和多层感知处理，得到X₅；

第三步：对交叉注意力机制模块的输出进行3×3的卷积，融合多头注意力机制计算得到的信息，并与X_hat进行残差连接；接着用一个线性层进行投影，并裁剪至原始大小，最后与原始图像进行残差计算，得到X₆；

第四步：将X₆与原始图像进行残差连接，得到X₇，并复制两份；一份输入到动态特征增强模块中；另一份经过下采样操作后输入到交叉注意力机制模块中，重复第二步操作，得到X₈；

第五步：将X₈复制一份；一份输入到动态特征增强模块中；另一份经下采样操作后再次输入到交叉注意力机制模块中，重复第二步操作，得到X₉；

第六步：将X₉经过上采样操作后与X₈输入到特征融合模块中；此过程包括将所有输入特征图按第一个维度拼接，并通过重组操作调整尺寸；通过均值池化层和多层感知器映射至一个特征图上，提供非线性变换和全局信息；最后将输入特征图与映射后的特征图相乘，按第二个维度求和输出，得到X₁₀；

第七步：将X₁₀经过上采样操作，使其尺寸变为H×W×3，得到X₁₁；然后，将X₁₁与经过特征增强模块的X₇在特征融合模块中进行特征融合，得到X₁₂；接着，将X₁₂输入到交叉注意力机制中，提取局部和全局信息，得到X₁₃；最后，将X₁₃经过3×3的卷积，得到最终增强过后的图像；

所述交叉注意力机制模块的工作流程包括：

图像输入和预处理

将原始的输入图像复制为两份：一份记为R1，用于后续混合；另一份经过RescaleNorm层处理并复制，一份记为R2，用于混合，另一份进行镜像填充；

交叉注意力机制模块的核心计算

之后，将经过预处理后的图像复制为两份：一份经过线性变换后输入到交叉注意力机制的核心部分，进行交叉注意力计算；另一份也进行线性变换后输入到卷积模块；

此模块的交叉注意力计算分为三个阶段：

第一阶段：层归一化，块内注意力计算，残差连接，层归一化，多层感知(MLP)处理，残差计算；

第二阶段：层归一化，块间注意力计算，残差连接，层归一化，MLP处理，残差计算；

第三阶段：再次进行层归一化，块内注意力计算，MLP处理，得到处理后的特征图；

混合和特征增强

最后，将两条路线所得的图像进行混合，并通过线性变换后裁剪，与R2共同输入Affine模块；

Affine模块输出的结果复制为两份：一份记为R3，用于后续混合；另一份与R1进行混合；

经过两轮线性变换后，与R3进行一次混合，得到最终输出；

将最终输出输入特征融合模块，最后的输出经过上采样，调整至原始尺寸；最终增强的图像通过3×3的卷积处理，完成最终的图像增强输出。

2.根据权利要求1所述的水下图像增强系统，其特征在于，所述动态特征增强模块包括：两个可变形卷积，所述可变形卷积为在普通卷积的卷积核位置引入一个可学习的偏移量。

3.根据权利要求2所述的水下图像增强系统，其特征在于，所述动态特征增强模块的工作流程包括：所述卷积核通过在输入特征图的采样点时发生偏移，集中于感兴趣的区域或者目标，用以加强所述图像特征的表达能力和区别能力。

4.根据权利要求1所述的水下图像增强系统，其特征在于，所述特征融合模块的工作流程包括：使用通道注意力来融合所述动态特征增强模块的输出分支和所述交叉注意力机制模块的输出分支；以融合原始特征信息和经过多层交叉注意力机制的特征信息，以提高所述图像特征的重建能力；并进一步增强所述图像特征的区别能力。

5.一种水下图像增强方法，所述方法应用于权利要求1-4任一项所述的水下图像增强系统，其特征在于，步骤包括：