CN114820395B

CN114820395B - 一种基于多领域信息融合的水下图像增强方法

Info

Publication number: CN114820395B
Application number: CN202210757566.3A
Authority: CN
Inventors: 穆攀; 钱浩天; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-13
Anticipated expiration: 2042-06-30
Also published as: CN114820395A

Abstract

本发明公开了一种基于多领域信息融合的水下图像增强方法，采用包括语义分支、梯度分支和像素分支的分层增强网络模型来进行图像增强，所述语义分支包括多尺度注意力特征提取模块和语义域特征解码模块，所述梯度分支包括梯度域特征提取模块和梯度域特征解码模块，所述像素分支包括多通道注意力特征编码模块和像素域特征解码模块，将所述语义分支输出图像、像素分支输出图像和梯度分支输出图像进行融合，然后经过一个卷积层，得到增强后的水下清晰图像。本发明实现了水下图像增强，能够捕捉图像中目标的结构特征，并且在真实水下数据集上具有良好的泛化效果。

Description

一种基于多领域信息融合的水下图像增强方法

技术领域

本申请属于基于新一代信息技术的水下场景处理技术领域，尤其涉及一种基于多领域信息融合的水下图像增强方法。

背景技术

水下作业，特别是水下机器人作业等场景，水下图像增强具有广阔的应用前景，水下图像增强在海洋资源勘探、海洋生态研究、深海设施监测和海军军事应用等方面发挥着重要作用。

由于复杂的水下环境以及广在水中传播的影响，会导致水下成像系统捕获的水下图像常出现色偏、雾化和模糊等质量问题。

目前水下图像增强的主要方法有：概率模型方法、数据驱动方法。在概率模型方法中，常用的水下图像增强方法有对数（或幂律）变换、对比度拉伸、直方图均衡化、锐化等，这些方法能有效地拓宽图像的显示范围，但是这些方法忽略了亮度的统计分布与位置信息，导致性能不理想。此外，这些方法局限于具有放大噪声的物理模型，不足以指示图像退化的过程。数据驱动方法利用神经网络直接学习降质图像与清晰图像之间的非线性函数。但是这些方法忽略了水下目标的结构与颜色信息。此外，由于海洋环境的复杂性，这些基于数据驱动的方法所依赖的数据信息在增强真实水下图像时往往有局限性。

发明内容

本申请的目的是提供一种基于多领域信息融合的水下图像增强方法，克服了进行水下图像增强时忽略了水下目标结构和颜色的问题，在真实水下场景应用中快且有效。

为了实现上述目的，本申请技术方案如下：

一种基于多领域信息融合的水下图像增强方法，采用包括语义分支、梯度分支和像素分支的分层增强网络模型来进行图像增强，所述语义分支包括多尺度注意力特征提取模块和语义域特征解码模块，所述梯度分支包括梯度域特征提取模块和梯度域特征解码模块，所述像素分支包括多通道注意力特征编码模块和像素域特征解码模块，所述基于多领域信息融合的水下图像增强方法，包括：

将水下的降质图像输入到预训练好的掩码计算器，得到语义掩码；

将水下的降质图像输入到像素分支的多通道注意力特征提取模块，所述多通道注意力特征编码模块包含六个残差模块和一个多尺寸注意力模块，通过所述六个残差模块获取三种尺度的通道注意力特征，并通过多尺寸注意力模块获取像素域中间特征；

将三种尺度的通道注意力特征输入到语义分支的多尺度注意力特征提取模块，提取语义域中间特征；

将三种尺度的通道注意力特征以及水下的降质图像的梯度特征，输入到梯度域特征提取模块，提取梯度域中间特征；

采用语义分支的语义域特征解码模块对输入的语义域中间特征进行解码操作，所述语义域特征解码模块包括四个残差模块和一个卷积层，并将所述语义域特征解码模块输出的特征与语义掩码相乘，得到语义分支输出图像；

采用梯度域特征解码模块对输入的梯度域中间特征进行解码操作，所述梯度域特征解码模块包括两个u形卷积块和一个卷积层，所述梯度域特征解码模块输出梯度分支输出图像；

所述像素域特征解码模块包括六个残差模块，将所述语义域中间特征与像素域中间特征拼接后输入到像素域特征解码模块，经过两个残差模块后，与所述语义域特征解码模块第二个残差模块输出的特征进行拼接，再经过两个残差模块后，与所述梯度域特征解码模块第二个u形卷积块输出的特征进行拼接，最后再经过两个残差模块，得到像素分支输出图像；

将所述语义分支输出图像、像素分支输出图像和梯度分支输出图像进行融合，然后经过一个卷积层，得到增强后的水下清晰图像。

进一步的，所述掩码计算器包括四个残差模块。

进一步的，所述多尺寸注意力模块包括三个单尺寸特征注意力模块，每个单尺寸特征注意力模块对输入特征做一次全局平均值池化和全局最大值池化操作，并将池化操作得到的结果相加，得到一组一维的通道权重向量，通道权重向量再通过三层的全连接神经网络进一步挖掘特征信息，得到通道注意力，通道注意力再与输入特征进行通道维度上的乘法，得到单尺寸特征注意力模块的输出；

最下层单尺寸注意力模块的输出经过上采样与中层单尺寸注意力模块输出进行特征拼接操作，再次经过上采样与卷积操作与最上层单尺寸注意力模块的输出进行特征拼接操作，最后经过卷积得到多尺寸注意力模块的输出。

进一步的，所述多尺度注意力特征提取模块，包括一个多尺寸注意力模块和六个残差模块。

进一步的，所述梯度域特征提取模块，首先对输入的梯度特征进行一次3 × 3卷积运算扩充维度，再构造三个u形卷积块，将多通道注意力编码模块中的不同尺度的通道注意力特征分别输入到每个u形卷积块中进行特征拼接操作，最后再通过一次3 × 3卷积运算，得到梯度域特征提取模块的编码结果，输出梯度域中间特征。

进一步的，所述采用梯度域特征解码模块对输入的梯度域中间特征进行解码操作，包括：

输入特征经过两个u形卷积块之后与原输入特征相加，然后再输入到卷积层，最后得到梯度分支输出图像。

进一步的，所述u形卷积块，包括五个小块，每小块包含两次连续的“3 × 3卷积、Relu激活函数”，其中，第二个小块的输出特征与多通道注意力编码模块中的不同尺度的通道注意力特征拼接后，再经过三个小块的运算后输出。

进一步的，所述分层增强网络模型为每个分支的输出以及模型最后的输出设置损失函数，通过最小化所述损失函数来训练网络模型。

本申请提出的一种基于多领域信息融合的水下图像增强方法，提出了一种水下图像分层增强网络模型（SIB-Net），该网络能够仅仅在输入真实的水下图像下，输出增强后的清晰的图像。克服了现有的图像增强方法不能够体现水下目标的结构与颜色信息的局限性，在真实水下图像增强上有良好的效果。

附图说明

图1为本申请基于多领域信息融合的水下图像增强方法流程图；

图2为本申请实施例分层增强网络模型结构示意图；

图3为本申请实施例多通道注意力特征编码模块结构示意图；

图4为本申请实施例多尺寸注意力模块结构示意图；

图5为本申请实施例多尺度注意力特征提取模块结构示意图；

图6为本申请实施例梯度域特征提取模块结构示意图；

图7为本申请实施例u形卷积块示意图；

图8为本申请实施例特征解码模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在水下场景中，受水中介质对光反射和对不同波长光的吸收的影响，水下图像出现颜色衰退、对比度低以及细节模糊等现象。水下图像与透射率、大气光存在一定的非线性关系。本申请将水下场景中采集的图像称为水下的降质图像，记为

，其中

表示三个颜色通道，增强后的水下清晰图像记为

。

在一个实施例中，如图1所示，提出了一种基于多领域信息融合的水下图像增强方法，采用包括语义分支（Semantic-based Foreground Branch，SFB）、梯度分支（Gradient-based High-frequency Branch，GHB）和像素分支（Underwater Pixel Branch，UPB）的分层增强网络模型（Structure-Inferred Bi-level model with hierarchical enhancingNetwork，SIB-Net）来进行图像增强，所述语义分支包括多尺度注意力特征提取模块和语义域特征解码模块，所述梯度分支包括梯度域特征提取模块和梯度域特征解码模块，所述像素分支包括多通道注意力特征编码模块和像素域特征解码模块。包括：

步骤S1、将水下的降质图像输入到预训练好的掩码计算器，得到语义掩码。

为了避免背景区域带来的不必要干扰，引入语义掩码

，将水下图像分为前景图像

与背景图像

两个部分。

语义掩码

是通过一个预训练好的掩码计算器计算得到的，其输入是水下的降质图像

，掩码计算器包括四个残差模块

（附图中标记为Residual Block），每一个残差模块包含连续的两次“

卷积运算、Relu激活函数”和一次最终的

卷积运算。

掩码计算器可以表示为如下公式：

其中X代表残差模块的输入特征，

表示一个残差模块的操作，

表示卷积操作。通过对输入特征通过四次残差模块

操作后，进行卷积得到掩码。

通过掩码与图像的点乘操作，可以得到前景图像。

步骤S2、将水下的降质图像输入到像素分支的多通道注意力特征提取模块，所述多通道注意力特征编码模块包含六个残差模块和一个多尺寸注意力模块，通过所述六个残差模块获取三种尺度的通道注意力特征，并通过多尺寸注意力模块获取像素域中间特征。

如图2所示，本实施例像素分支包括多通道注意力特征编码模块和像素域特征解码模块。为了利用语义域与梯度域信息，将由语义域和梯度域产生的特征映射提供给所述像素分支。并且像素分支多通道注意力特征编码模块提取的多尺度通道注意力特征，分别发送给语义分支和梯度分支进行进一步的处理。

如图3所示，多通道注意力特征编码模块包含六个残差模块

（附图中标记为 Residual Block）和一个多尺寸注意力模块。为了挖掘不同尺度下深层纹理特征的分层特征，采用基于金字塔状的多尺寸注意块来估计初步像素特征

。像素域特征解码模块包含6 个残差模块

。

多通道注意力特征编码模块的输入为降质图像

，输出为第2、4和第6个残差模块所输出的三个尺度的通道注意力特征，表示为特征A、B和C。

三个尺度的通道注意力特征A、B和C输入到多尺寸注意力模块，输出像素域中间特征。

如图4所示，多尺寸注意力模块包括三个单尺寸特征注意力模块，每个单尺寸特征注意力模块对输入特征做一次全局平均值池化和全局最大值池化操作，并将池化操作得到的结果相加，得到一组一维的通道权重向量，通道权重向量再通过三层的全连接神经网络进一步挖掘特征信息，得到通道注意力，通道注意力再与输入特征进行通道维度上的乘法，得到单尺寸特征注意力模块的输出。

最下层单尺寸注意力模块的输出经过上采样（Upsample）与中层单尺寸注意力模块输出进行特征拼接操作，再次经过上采样与卷积操作与最上层单尺寸注意力模块的输出进行特征拼接操作，最后经过卷积得到多尺寸注意力模块的输出。

多尺寸注意力模块的输出最后通过六个残差模块，获得最终特定的前景特征，即像素域中间特征。每一个残差模块

包含连续的两次“

卷积运算、Relu激活函数”和一次最终的

卷积运算，本申请残差模块结构相同，以下不再赘述。

步骤S3、将三种尺度的通道注意力特征输入到语义分支的多尺度注意力特征提取模块，提取语义域中间特征。

本实施例语义分支包括多尺度注意力特征提取模块和语义域特征解码模块。多尺度注意力特征提取模块如图5所示，包括一个多尺寸注意力模块和六个残差模块

。

其中，多尺寸注意力模块结构同样如图4所示，这里不再赘述。多尺寸注意力模块输出的特征经过六个残差模块输出语义域中间特征。此外，附图中，Residual Block表示残差模块，Upsample表示上采样操作，Conv表示卷积操作，Relu表示激活函数，以下不再赘述。

步骤S4、将三种尺度的通道注意力特征以及水下的降质图像的梯度特征，输入到梯度域特征提取模块，提取梯度域中间特征。

本实施例梯度分支包括梯度域特征提取模块和梯度域特征解码模块。梯度域特征提取模块如图6所示，首先对输入的梯度特征进行一次3 × 3卷积运算扩充维度，再构造三个u形卷积块(记为

)，将多通道注意力编码模块中的不同尺度的通道注意力特征，即大尺寸特征（记为A）、中尺寸特征（记为B）、小尺寸特征（记为C）分别输入到每个u形卷积块(记为

)中进行特征拼接操作，最后再通过一次3 × 3卷积运算，得到梯度域特征提取模块的编码结果，输出梯度域中间特征。

其中，u形卷积块如图7所示，每个u形卷积块中共五小块，每小块包含两次连续的“3 × 3卷积、Relu激活函数”。其中，第二个小块的输出特征与多通道注意力编码模块中的不同尺度的通道注意力特征（图中所示为像素域特征）拼接后，再经过三个小块的运算后输出。

为改善水下图像的纹理结构，本实施例引入梯度分支，梯度分支以水下降质图像的梯度作为输入。

具体的，对于输入的水下降质图像

，梯度

被定义为：

；

其中，

和

表示两个方向上的梯度，这两个梯度可以描述为以下公式：

；

其中，

为所输入的图像，

为像素点的坐标。

图2中，进入所述梯度分支前，

表示利用具有固定核的卷积层来实现所述的梯度运算。

步骤S5、采用语义分支的语义域特征解码模块对输入的语义域中间特征进行解码操作，所述语义域特征解码模块包括四个残差模块和一个卷积层，并将所述语义域特征解码模块输出的特征与语义掩码相乘，得到语义分支输出图像。

本实施例语义域特征解码模块、梯度域特征解码模块和像素域特征解码模块，如图8所示。

语义域特征解码模块包括四个残差模块和一个3 × 3卷积，用于对输入的语义域中间特征进行解码操作。语义域特征解码模块的输出特征与语义掩码

进行点乘，得到语义分支输出图像，本实施例用

表示。

步骤S6、采用梯度域特征解码模块对输入的梯度域中间特征进行解码操作，所述梯度域特征解码模块包括两个u形卷积块和一个卷积层，所述梯度域特征解码模块输出梯度分支输出图像。

本实施例梯度域特征解码模块包括两个u形卷积块(记为

)和一个3 × 3卷积，输入特征经过两个u形卷积块之后与原输入特征相加，然后再输入到3 × 3卷积，最后得到梯度分支输出图像，本实施例用

表示。

步骤S7、所述像素域特征解码模块包括六个残差模块，将所述语义域中间特征与像素域中间特征拼接后输入到像素域特征解码模块，经过两个残差模块后，与所述语义域特征解码模块第二个残差模块输出的特征进行拼接，再经过两个残差模块后，与所述梯度域特征解码模块第二个u形卷积块输出的特征进行拼接，最后再经过两个残差模块，得到像素分支输出图像。

本实施例像素域特征解码模块包括六个残差模块，将语义域中间特征与像素域中间特征拼接后输入到像素域特征解码模块的第一个残差模块，经过第一个和第二个残差模块后，与所述语义域特征解码模块第二个残差模块输出的特征进行拼接，输入到第三个残差模块，再经过第三个和第四个残差模块后，与所述梯度域特征解码模块第二个u形卷积块输出的特征进行拼接，输入到第五个残差模块，最后再经过第五个残差模块和第六个残差模块，最后得到像素分支输出图像，本实施例用

表示。

需要说明的是，本步骤在进行特征拼接前，还分别对语义域中间特征、所述语义域特征解码模块第二个残差模块输出的特征、所述梯度域特征解码模块第二个u形卷积块输出的特征进行两倍上采样操作，以使得拼接时的特征尺度相同。

步骤S8、将所述语义分支输出图像、像素分支输出图像和梯度分支输出图像进行融合，然后经过一个卷积层，得到增强后的水下清晰图像。

本申请最后将所述语义分支输出图像、像素分支输出图像和梯度分支输出图像进行连接，然后经过一个卷积层，得到增强后的水下清晰图像，本实施例用

表示。

本申请分层增强网络模型的语义分支通过引入语义掩码，单独优化检测出的前景目标，有目的地增强水下图像的目标区域，隐式地反映图像中的区域是否需要增强，以避免背景区域的不必要干扰。梯度分支通过梯度空间的引导来保留纹理结构，来增强水下降质图像的细节信息，并通过计算相邻像素之间的差值得到水下图像的梯度映射。像素分支是由残差块组成的常规水下图像增强网络，是水下图像增强结构的基本组成部分。

此外，为利用所述分支提取出的特征和利用语义信息与梯度信息进行水下图像增强，本申请引入基于双层优化的超参数优化方案，来学习一个合适的超参数将所述分支信息融合。最后将需要进行增强的水下图像输入到训练好的水下图像分层增强模型，输出增强后的水下图片。

在一个具体的实施例中，本申请还为每个分支的输出以及模型最后的输出设置损失函数，通过最小化所述损失函数来训练网络。

对于语义分支的损失函数，引入

-norm来评估语义分支输出的语义信息

与参考语义信息

之间的距离，表达方式如下：

其中，所述“∘”指的是点乘，

表示语义分支的损失函数。

对于梯度分支的损失函数，使学习到的特征能够较好的表示细节结构，通过给定的损失函数强制网络对正确的标签进行分类。在梯度分支中，将

损失作为目标函数，即以下公式：

其中，

为参考梯度域信息，

为梯度分支的输出。

对于像素分支的损失函数，使用

损失和最常见的SSIM损失(即

)来计算损失，损失函数如下：

其中

、

是图像块所有像素的平均值，

是图像像素值的方差。

为参考像素域信息，

是像素分支输出的像素域信息。

对于整体输出的损失函数，使用整体损失来更好的保持融合后图像的强度分布，所述整体损失表示为以下公式：

其中，

表示最终的输出。

本申请通过最小化所述损失函数来训练网络，从而利用图像到图像的转换技术来学习三种模态之间的映射。其中，

为参考的像素域信息。

需要说明的是，本实施例水下图像分层增强网络模型在训练时，将数据集划分为训练集、验证集和测试集三部分。本实施例采用了合成的水下图像数据集EUVP和真实的水下图像数据集UIEB、LUSI、Test-C60、SQUID和RUIE，训练模型时，设定批处理的大小为16，设定模型的学习率为2

，各层滤波器的权重按照高斯分布进行初始化，偏差初始设置为常数。所有的网络都被训练为200个批处理大小，图像大小为

。用Adam算法最小化损失函数，保存最优的模型作为训练好的模型。关于网络模型的训练，在本技术领域已经是比较成熟的技术，这里不再赘述。

本申请还提供了实验数据，对不同的模型预测结果进行了比较，采用两种不同的评测指标以测算模型整体综合性能。分别是PSNR和SSIM。PSNR（Peak Signal-to-NoiseRatio）是指峰值信噪比，PSNR得分高说明图像质量高。SSIM（Structure SimilarityIndex）是结构相似指标，可以衡量图像的失真程度和两张照片的相似程度。为进一步衡量模型在增强真实水下图像时的性能，采用四种不同的评测指标。分别是UIQM、UCIQE、NIQE和PS。UIQM（Underwater Image Quality Measure）是一种基于人眼视觉系统激励的无参考水下图像质量评价指标，针对水下图像的退化机理与成像特点，采用色彩测量指标（UICM），清晰度测量指标（UISM），对比度测量指标（UIConM）作为评价依据，将三者线性组合。其值越大，表示图像的颜色平衡、清晰度、对比度越佳。UCIQE（Underwater Color Image QualityEvalution）、PS（Perceptual Scores）是无参考图像的图像质量评价指标，值越大，图像质量越高。NIQE（Natural Image Quality Evaluat）是客观的评价指标，提取图像特征，并将特征用于拟合多元的高斯模型，值越小，图像质量越高。本申请模型与其他优秀方法的对比数据如下：

表1

表2

在表1和表2中，Datasets表示所采用的数据集，metrics表示衡量指标，Methods表示相比较的模型，与本申请技术方案（Ours）相比较的不同模型包括UDCP、Fusion、Water-Net、UGAN、Fuine-GAN、Ucolor和USUIR等。

最优结果均使用黑体加粗标注。在EUVP、UIEB、LUSI这三个数据集中，与其他方法相比，本申请模型（SIB-Net）获得了最高的PSNR和SSIM值和最低的均方误差MSE值。在Test-C60、RUIE、SQUID这三个数据集中，与其他方法相比，本申请模型（SIB-Net）获得了最高的PS、UIQM和UCIQE值。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多领域信息融合的水下图像增强方法，其特征在于，采用包括语义分支、梯度分支和像素分支的分层增强网络模型来进行图像增强，所述语义分支包括多尺度注意力特征提取模块和语义域特征解码模块，所述梯度分支包括梯度域特征提取模块和梯度域特征解码模块，所述像素分支包括多通道注意力特征编码模块和像素域特征解码模块，所述基于多领域信息融合的水下图像增强方法，包括：

2.根据权利要求1所述的基于多领域信息融合的水下图像增强方法，其特征在于，所述掩码计算器包括四个残差模块。

3.根据权利要求1所述的基于多领域信息融合的水下图像增强方法，其特征在于，所述多尺寸注意力模块包括三个单尺寸特征注意力模块，每个单尺寸特征注意力模块对输入特征做一次全局平均值池化和全局最大值池化操作，并将池化操作得到的结果相加，得到一组一维的通道权重向量，通道权重向量再通过三层的全连接神经网络进一步挖掘特征信息，得到通道注意力，通道注意力再与输入特征进行通道维度上的乘法，得到单尺寸特征注意力模块的输出；

4.根据权利要求1所述的基于多领域信息融合的水下图像增强方法，其特征在于，所述多尺度注意力特征提取模块，包括一个多尺寸注意力模块和六个残差模块。

5.根据权利要求1所述的基于多领域信息融合的水下图像增强方法，其特征在于，所述梯度域特征提取模块，首先对输入的梯度特征进行一次3 × 3卷积运算扩充维度，再构造三个u形卷积块，将多通道注意力编码模块中的不同尺度的通道注意力特征分别输入到每个u形卷积块中进行特征拼接操作，最后再通过一次3 × 3卷积运算，得到梯度域特征提取模块的编码结果，输出梯度域中间特征。

6.根据权利要求1所述的基于多领域信息融合的水下图像增强方法，其特征在于，所述采用梯度域特征解码模块对输入的梯度域中间特征进行解码操作，包括：

7.根据权利要求5或6所述的基于多领域信息融合的水下图像增强方法，其特征在于，所述u形卷积块，包括五个小块，每小块包含两次连续的“3 × 3卷积、Relu激活函数”，其中，第二个小块的输出特征与多通道注意力编码模块中的不同尺度的通道注意力特征拼接后，再经过三个小块的运算后输出。

8.根据权利要求1所述的基于多领域信息融合的水下图像增强方法，其特征在于，所述分层增强网络模型为每个分支的输出以及模型最后的输出设置损失函数，通过最小化所述损失函数来训练网络模型。