CN114445292A

CN114445292A - 一种多阶段渐进式水下图像增强方法

Info

Publication number: CN114445292A
Application number: CN202210052263.1A
Authority: CN
Inventors: 李振波; 李飞; 李一鸣; 吴宇峰
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-06

Abstract

本发明公开了属于图像处理技术领域的一种多阶段渐进式水下图像增强方法，该方法是基于Transformer结构框架即MSTUIE模型在识别、检测、分割和图像处理的计算机视觉中都表现出了良好的效果及优势；利用自注意力机制，对水下退化的图像进行增强及重建，设计TGF块提取全局特征，满足了各种任务对全局特征信息的依赖需求，并解决水下图像增强任务中的位置敏感性，减少多头注意力的计算成本，为探索不同尺度特征信息，选择监督核卷积块SSK来实现不同尺度间的信息传递，利用动态选择核来保存空间特征图，监督注意力机制以引导图像生成器重构图像；验证了MSTUIE在不同水下环境中，图像修复的有效性及鲁棒性。

Description

一种多阶段渐进式水下图像增强方法

技术领域

本发明属于图像处理技术领域，特别涉及一种多阶段渐进式水下图像增强方法。

背景技术

在过去的几十年中，随着对海洋资源和计算机视觉的需求不断增长，高质量和清晰的水下图像对于水下场景的感知和理解至关重要。水下图像增强可以较好的提高退化水下图像的质量。由于水下图像受到水体环境、光吸收和散射的影响，会导致水下图像呈现偏蓝或偏绿、色差及图像退化现象，会加大各种水下任务的困难，亟需一种有效的水下图像增强模型优化和改善水下图像的质量。

传统水下图像增强模型大多借助物理模型或特殊的光学模型来估计介质传输参数及水下图像先验信息，以提高退化图像质量，起到修复重建的效果。然而传统方法在修复过程中过多的依赖于模型自身特点，修复过程需要大量的水下先验知识，而面对复杂多变的水下场景则呈现出较差的效果。近些年随着深度学习模型的快速发展应用，卷积神经网络(CNN)可以较好的拟合海量数据信息，而且在各种视觉任务中呈现出较好的可解释性。借助CNN特点可以较好帮助水下增强模型改善退化图像的质量。基于数据驱动的图像增强模型大多基于单阶段目标优化进行设计，但是多阶段网络在低级图像处理具有较好的效果，如增强、重建、去雾和去雨。虽然基于CNN的多尺度方法具有出色的表示能力，但它们通常在建模过程中对图像全局特征的获取呈现出一定的局限性；

近来Transformer在许多计算机视觉任务中都表现出了较好的效果及优势，例如识别、检测、分割和图像处理。该架构利用自注意力机制，满足了各种任务对全局特征信息的依赖需求。本发明考虑到 Transformer所具有的全局特征表示能力和较好的可解释性，通过进一步的改进优化，引入到水下场景进行图像修复和增强工作，并取得了较好的效果。

其中水下图像增强任务对退化的图像及重建后图像的位置信息较为敏感。因此我们提出了一种新的多尺度Transformer结构框架 (MSTUIE)来增强水下图像。首先，我们引入了一种多尺度结构来逐步增强水下图像。其次，我们设计了一个TGF块来提取全局特征并解决水下图像增强任务中的位置敏感问题。TGF的核心设计是应用一个混合层以减少多头注意力的计算成本，这使得TGF适合捕获更多的全局依赖性。为了探索不同尺度特征信息，我们提出了一种选择性监督核卷积块(SSK)来实现不同尺度间的信息传递。SSK利用动态选择核来保存空间特征图，监督注意机制可以引导图像生成器重构图像。最后，我们验证了MSTUIE在不同水下环境中，图像修复的有效性及鲁棒性。

发明内容

本发明的目的是提供一种多阶段渐进式水下图像增强方法，其特征在于，该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势，在识别、检测、分割和图像处理；利用自注意力机制，对水下退化的图像进行增强及重建，设计TGF块块来提取全局特征，满足了各种任务对全局特征TGF 信息的依赖需求，并解决水下图像增强任务中的位置敏感性，TGF的核心设计是应用一个混合层以减少多头注意的计算成本，为探索不同尺度特征信息，选择性监督核卷积块SSK来实现不同尺度间的信息传递，利用动态选择核来保存空间特征图，监督注意力机制以引导图像生成器重构图像；最后，我们验证了MSTUIE在不同水下环境中，图像修复的有效性及鲁棒性。所述水下图像增强方法包括如下步骤：

1)通过水下公开图像数据集和自建水下图像数据集，构建训练集和测试集；

2)进行图像预处理，将训练图像随机裁剪到128*128，并将像素值归一化到[-1,1]；

3)利用多尺度Transformer结构框架MSTUIE获取原始水下图像的全局特征信息；

4)使用全局特征提取模型TGF获取水下图像全局依赖关系；

5)在不同尺度间使用选择监督核卷积块SSK来融合多尺度图像特征信息，减少信息传递的损失，提高图像重建的质量；

6)全局模型优化调参，同时对三个尺度特征提取网络进行优化训练，以达到全局最优效果，并引入无监督损失函数进行优化，以增加模型的可适性；

7)使用训练好的模型对测试数据集进行测试输出，验证模型的有效性。

所述步骤1)的水下公开图像数据集和自建水下图像数据集，将其划分为训练数据集和测试数据集来训练调优MSTUIE模型，选取的 UGAN、EUVP`、UIEB和Jerlov四个公开的数据集进行预处理，其中 EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes；并的预处理数据进行统计所述步骤3)利用多尺度Transformer结构框架从原始水下图像中学习全局特征信息，并结合编码器和解码器进行退化图像的修复和重建，将输入图片尺寸H×W×C进行划分，第一层划分为

个图像尺度块，以方便后面Transformer结构框架处理，并提取图像的全局特征信息；第二层的图像尺度块为

个；第三层的图像尺度块为H×W个，其中H、W分别为图像的高度和宽度；C为图像的通道数量。全局特征提取模型TGF(如图2中(b)所示)用于捕获全局相关性并改进全局特征提取效果；UNet通过对TGF中的每个面片进行编码来捕获细节纹理内容和感知特征；所述第三层利用ORSNet在最终输出图像中保留空间细节和内容信息；为了保留空间特征，我们设计了一个选择监督核卷积块SSK块，并利用跨阶段特征融合CSFF进行特征过渡和信息保留。SSK块可以融合不同尺度之间的特征，最大限度地减少精确空间细节的损失。此外，它还可以保持原始的地面真实特征，以获得显著的性能增益。

所述全局特征提取模型TGF构造了一个混合层和多头注意力模块来组成Transformer编码器，每个TGF包含一个标准层、混合层、多头注意力模块和位置前馈网络FFN；为了平衡容量和计算需求，将每个TGF的特征分辨率设置为与输入相同的大小，其中输入图像特征用

表示；将输入特性图划分为n×n个图像块，并将每个图像块展平为一个挤压变量，以方便TGF处理；

所述Transformer编码器与传统Transformer编码器类似，TGF模型采用混合注意力机制，该机制利用混合层来降低多头自我注意力机制的计算成本，并随机屏蔽输入图像的特征序列(q，k，v)并输出新的特征序列(q′，k′，v′)；混合层ML可以较好的增加特征提取的鲁棒性和有效性；全局特征提取模型表示为：

X_TGF＝TGF(q，k，v)＝Concat(head₁，...，head_h)W^o (1)

q′，k′，v′＝ML(q，k，v) (2)

head_i＝Attention(q′W_i ^q′，k′W_i ^k′，v′W_i ^v′) (3)

其中i∈d_k，

和

为线性投影函数的参数及权重；h表示Transformer编码的头数量；每个模块的头部尺寸纬度为d_k，其中d_v等于

注意力机制和普通Transformer机制相同，操作运算过程为：

最后，利用层范数和FFN计算前一层的滑动局部特征信息；其中FFN层计算过程如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (5)

其中W₁和W₂是可学习的权重矩阵，b₁和b₂是偏置；改进的TGF 编码器相对传统的Transformer编码器参数量几乎没有增加，并以有效地从不同的数据集和尺度中学习各种特征；

最后消融实验进一步表明，TGF是稳健的全局特征提取模型，能较好改善多尺度Transformer结构框架，修复退化的水下图像信息。

所述结合编码器和解码器进行退化图像的修复和重建，UNet网络及解码器的图像特征重建过程为将图像矩阵特征转为序列向量，可以较好通过图像全局特征修复图像的细节纹理信息。

所述全局特征提取模型TGF；改进优化了传统Transformer模型的特征，引入混合掩码层来提高模型的鲁棒性及有效性。

所述不同尺度之间信息传递的有效性，设计了选择性监督卷积核块SSK块来保存多尺度空间的特征信息。(SSK模块的示意图如图3 所示)SSK模块允许特征信息通过并调整卷积核感受野大小以适应多尺度特征网络，SSK获取两个不同尺度的特征信息

和原始图像

其中Transformer中的

和

是具有卷积核大小3和 5的选择性核单元。这个选择性内核单元由分组卷积、批处理规范化和RELU函数组成。输出特性为：

我们利用元素和将两个分支集成过程表示如下：

SSK利用全局平均池化层

计算通道统计信息

我们通过在空间维度上收缩U计算s，然后完全连接层

可以减少维度为z∈R^d×1.这种紧凑的特征计算过程可以自适应地校准多尺度特征图，其计算过程为：

其中s_c表示的第c个元素s.

是权重系数。

软注意力机制可以选择不同尺度的空间特征图。然后，我们连接两个比例特征映射并输出注意力权重

自监督注意力机制可以预测增强图像

减少无用信息传播到下个尺度网络。通过1×1卷积层对输入特征图进行处理，得到预测特征图F_in。然后将预测的特征映射加入到退化的水下图像中，得到增强图像

我们还利用1×1卷积层和Sigmoid激活函数来获得每个像素的掩模权重

其中M可以有效的引导注意力权重矩阵产生清晰的特征图像V。最后输出的特征F_out为输入特征和注意力特征图的加性操作结果。SSK计算过程可以表示为：

F_out＝F_in+V×M (9)

所述的选择性监督卷积核模块SSK，其中引入自适应特征选择机制，可以有效的指导卷积核进行特征选择，并使输入信息适应不同的特征尺度；引入图像注意力掩模M机制，可以借助有监督的特征选择减少无用信息对下一阶段特征图像的影响，提高信息重建的效率。

在全局模型优化调参过程中引入有监督和无监督多个损失函数以提高模型的优化效果及效率，其中包括charbonnier损失、边缘损失、内容损失、感知损失、对抗性损失、总方差、损失和暗通道损失。

框架目标损失函数如下：

其中λ_e,λ_r,λ_a,λ_p,λ_t和λ_d为权衡权重系数。

其中charbonnier损失定义为：

Y代表清晰的图像，E_S表示生成的图像。常数ε根据经验设置为10^-3。

边缘损失函数

定义为：

其中Δ为拉普拉斯算子。

重建损失可以减少生成图像和清晰图像之间的差异，定义为：

对抗性损失可以使网络训练更加稳定，具有更好的性能效果。对抗性损失公式为：

感知损失保留了感知特征，提高了结果的视觉质量。它可以测量生成的图像和清晰图像之间的高度差异。φ_i(x)被视为感知特征，提取激活VGG网络第i层的特征信息，定义为：

其在无监督过程使用总方差损失函数和暗通道损失函数来进一步优化增强网络；所述总方差损失是一个规范化函数，它可以提高空间平滑度，降低噪声。其定义如下：

和

表示水平和垂直渐变操作符；

此外，暗通道损失函数可以有效保证暗通道中的增强图像与真实图像的一致性，公式表述如下：

其中X表示输入图像，

表示图像的深色通道，N(X)为以单个像素为中心的局部特征块。其中每个模块设置大小为13*13。

本发明的有益效果是本发明考虑到Transformer所具有的全局特征表示能力和较好的可解释性，通过进一步的改进优化，引入到水下场景进行图像修复和增强工作，并取得了较好的效果。

附图说明

图1为多尺度Transformer结构框架MSTUIE体系结构

图2(a)通用Transformer编码器块；(b)全局特征提取模型(TGF)

图3为选择监督核卷积块(SSK)

图4为EUVP水下数据集场景的定性性能比较

具体实施方式

本发明提出一种多阶段渐进式水下图像增强方法，该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势，在识别、检测、分割和图像处理；利用自注意力机制，对水下退化的图像进行增强及重建，设计TGF块块来提取全局特征，满足了各种任务对全局特征TGF信息的依赖需求，并解决水下图像增强任务中的位置敏感性，TGF的核心设计是应用一个混合层以减少多头注意力模块的计算成本，为探索不同尺度特征信息，选择性监督核卷积块SSK来实现不同尺度间的信息传递，利用动态选择核来保存空间特征图，监督注意力机制以引导图像生成器重构图像；最后，我们验证了MSTUIE在不同水下环境中，图像修复的有效性及鲁棒性。下面结合附图对本发明予以进一步说明。

所述水下图像增强方法包括如下步骤：

4)使用全局特征提取模型TGF获取水下图像全局依赖关系；

所述步骤1)的水下公开图像数据集和自建水下图像数据集，将其划分为训练数据集和测试数据集来训练调优MSTUIE模型，选取的 UGAN、EUVP、、UIEB和Jerlov四个公开的数据集进行预处理，其中 EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes，如图4所示；并的预处理数据进行统计(如表1所示)：为了进行公平比较，我们选择了四个公共数据集来评估我们提出的方法。

表1各个数据集统计信息

所述步骤3)利用多尺度Transformer结构框架(如图1所示，) (MSTUIE)从原始水下图像中学习全局特征信息，并结合编码器和解码器进行退化图像的修复和重建，将输入图片尺寸H×W×C进行划分，第一层划分为

个；第三层的图像尺度块为H×W个，其中H、W分别为图像的高度和宽度；C为图像的通道数量。全局特征提取模型TGF(如图2中(b) 所示)用于捕获全局相关性并改进全局特征提取效果；UNet通过对 TGF中的每个面片进行编码来捕获细节纹理内容和感知特征(如图1 所示)。

表示；将输入特性图划分为n×n个图像块，并将每个图像块展平为一个挤压变量，以方便TGF处理；(例如，我们以第一个尺度特征

为例，TGF会处理n²个图像块。)

与图2中(a)所示的传统Transformer编码器类似，TGF模型采用混合注意机制，该机制利用混合层来降低多头自我注意力模块的计算成本，并随机屏蔽输入图像的特征序列(q，k，v)并输出新的特征序列(q′，k′，v′)；混合层ML可以较好的增加特征提取的鲁棒性和有效性；全局特征提取模型表示为：

X_TGF＝TGF(q，k，v)＝Concat(head1，...，head_h)W^o (1)

q′，k′，v′＝ML(q，k，v) (2)

head_i＝Attention(q′W_i ^q′，k′W_i ^k′，v′W_i ^v′) (3)

其中i∈d_k,

和

为线性投影函数的参数及权重；h表示Transformer编码的头数量；每个模块的头部尺寸维度为d_k,其中d_v等于d_h/h；此处所采用的注意力机制和普通Transformer中的子注意力机制相同，其运算过程为：

所述第三层利用ORSNet在最终输出图像中保留空间细节和内容信息；为了保留空间特征，我们设计了一个选择监督核卷积块SSK块，并利用跨阶段特征融合(CSFF)进行特征过渡和信息保留。SSK块可以融合不同尺度之间的特征，最大限度地减少精确空间细节的损失。此外，它还可以保持原始的地面真实特征，以获得显著的性能增益。

最后，利用FFN层进行正则化机制和前向运算，FFN层可以计算前一层的滑动特征信息及全局信息，FFN的计算过程为：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (5)

其中，W₁和W₂是可学习的权重矩阵，b₁和b₂是偏置项。改进的 TGF编码器相对于传统的Transformer编码器参数量几乎没有增加，并可以有效地从不同的数据集和尺度中学习各种特征；

最后，消融实验进一步表明，TGF具有较好的鲁棒性并且可以较好的提取图片的全局特征位置信息，从而进一步改进图像修复的质量。

本文所述模型结合Transformer编码器和解码器进行水下退化图像的修复和重建工作，其中采用UNet网络为基础框架的解码器对输入图像进行特征重建，并进一步将图像矩阵特征转为序列向量，以提高模型在特征提取过程中的全局信息和位置信息的获取能力。

和原始图像

其中Transformer中的

和

我们利用元素和将两个分支集成过程表示如下：

SSK利用全局平均池化层

计算通道统计信息

我们通过在空间维度上收缩U计算s，然后完全连接层

其中，s_c表示的第c个元素s.

是权重系数。

软注意力机制针对输入图片选择不同尺度的空间特征权重。然后，我们连接两个比例特征映射并输出注意权重

自监督注意机制可以预测增强图像

我们还利用1×1卷积层和Sigmoid激活函数来获得每个像素的注意掩模

其中掩模M可以有效的引导注意力权重矩阵产生清晰的特征图像V。最后输出的特征F_out为输入特征和注意力特征图的加性操作结果。SSK计算过程可以表示为：

F_out＝F_in+V×M (9)

所述的选择性监督卷积核模块SSK，其中引入自适应特征选择机制，可以有效的指导卷积核进行特征选择，并使输入信息适应不同的特征尺度；引入图像注意掩模M机制，可以借助有监督的特征选择减少无用信息对下一阶段特征图像的影响，提高信息重建的效率。

在全局模型优化调参过程中引入有监督和无监督多个损失函数以提高模型的优化效果及效率，其中包括charbonnier损失、边缘损失、内容损失、感知损失、对抗性损失、总方差损失和暗通道损失。框架目标损失函数如下：

其中λ_e,λ_r,λ_a,λ_p,λ_t和λ_d为权衡权重系数。

其中charbonnier损失定义为：

边缘损失函数

定义为：

其中Δ为拉普拉斯算子。

和

表示水平和垂直渐变操作符；

其中X表示输入图像，

我们在两台NVIDIA Tesla V100GPU显卡的计算机上，使用 PyTorch框架平台中实现了MSTUIE模型。MSTUIE模型是一个多尺度的端到端网络，我们以12个批量对模型进行1×10⁵次迭代。通过将图像裁剪为128×128，进一步应用水平翻转和垂直翻转进行数据增广。我们使用Adam来优化网络，将初始学习速率设置为2×10^-5，随后降至1×10^-7。为了使目标函数更接近最优全局值，我们利用余弦退火来降低学习率。MSTUIE框架损失函数的参数信息设置λ_e为5× 10^-2λ_r,λ_p,λ_d为10^-2,λ_a和λ_t为10^-2。

Claims

1.一种多阶段渐进式水下图像增强方法，其特征在于，该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势，在识别、检测、分割和图像处理；利用自注意力机制，对水下退化的图像进行增强及重建，设计TGF块来提取全局特征，满足了各种任务对全局特征TGF信息的依赖需求，并解决水下图像增强任务中的位置敏感性，TGF应用一个混合层以减少多头注意力的计算成本，为探索不同尺度特征信息，选择监督核卷积块SSK来实现不同尺度间的信息传递，利用动态选择核来保存空间特征图，监督注意力机制以引导图像生成器重构图像；验证了MSTUIE在不同水下环境中，图像修复的有效性及鲁棒性；所述水下图像增强方法包括如下步骤：

3)利用多尺度Transformer结构框架获取原始水下图像的全局特征信息；

4)设计TGF块来提取全局特征，使用提取的全局特征获取水下图像全局依赖关系；

2.根据权利要求1所述的多阶段渐进式水下图像增强方法，其特征在于，所述步骤1)的水下公开图像数据集和自建水下图像数据集，将其划分为训练数据集和测试数据集来训练调优MSTUIE模型，并选取UGAN、EUVP、、UIEB和Jerlov四个公开的数据集进行预处理，并对预处理数据进行统计；其中EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes。

3.根据权利要求1所述的多阶段渐进式水下图像增强方法，其特征在于，所述步骤3)利用多尺度Transformer结构框架从原始水下图像中学习全局特征信息，并结合编码器和解码器进行退化图像的修复和重建，将输入图片尺寸H×W×C进行划分，第一层划分为

个；第三层的图像尺度块为H×W个，其中H、W分别为图像的高度和宽度；C为图像的通道数量。

4.根据权利要求1所述的多阶段渐进式水下图像增强方法，其特征在于，所述步骤4)中设计TGF块来提取全局特征，是用于捕获全局特征相关性，通过对TGF中的每个面片进行编码来捕获细节纹理内容和感知特征并改进全局特征提取效果。

5.根据权利要求3所述的多阶段渐进式水下图像增强方法，其特征在于，所述第三层的图像尺度块是利用ORSNet在最终输出图像中保留空间细节和内容信息，为了保留空间特征，设计了选择性监督核卷积块SSK块，并利用跨阶段特征融合CSFF进行特征过渡和信息保留；SSK块可以融合不同尺度之间的特征，最大限度地减少精确空间细节的损失；此外，它还可以保持原始的地面真实特征，以获得显著的性能增益。

6.根据权利要求3所述的多阶段渐进式水下图像增强方法，其特征在于，所述TGF块提取全局特征是用于捕获全局特征相关性，TGF构造了一个混合层和多头注意力模块来构建Transformer编码器，每个TGF包含一个标准层、混合层、多头注意力模块和位置前馈网络FFN；为了平衡容量和计算需求，将每个TGF的特征分辨率设置为与输入相同的大小，其中输入图像特征用

表示；将输入特性图划分为n×n个图像块，并将每个图像块展平为一个挤压变量，以方便TGF处理；由此TGF在处理第一个尺度特征

时，将会处理n²个图像块。

7.根据权利要求6所述的多阶段渐进式水下图像增强方法，其特征在于，所述TGF构造了一个混合层和多头注意力模块来组成Transformer编码器与传统Transformer编码器类似，TGF模型采用混合注意机制，该机制利用混合层来降低多头自我注意力模块的计算成本，并随机屏蔽输入图像的特征序列(q,k,v)并输出新的特征序列(q′,k′,v′)；混合层ML可以较好的增加特征提取的鲁棒性和有效性；全局特征提取模型表示为：

X_TGF＝TGF(q,k,v)＝Concat(head₁,...,head_h)W^o (1)

q′,k′,v′＝ML(q,k,v) (2)

head_i＝Attention(q′W_i ^q′,k′W_i ^k′,v′W_i ^v′) (3)

其中i∈d_k,

和

为线性投影函数的参数及权重；h表示Transformer编码的头数量；每个模块的头部尺寸纬度为d_k,其中d_v等于

注意力机制和普通Transformer机制相同，操作运算过程为：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (5)

其中W₁和W₂是可学习的权重矩阵，b₁和b₂是偏置；改进的Transformer编码器相对传统的Transformer编码器参数量几乎没有增加，并以有效地从不同的数据集和尺度中学习各种特征；最后的消融实验进一步表明，TGF是稳健的全局特征提取模型，能改善多尺度Transformer结构框架，修复退化的水下图像信息；另外结合Transformer编码器和解码器进行退化图像的修复和重建，UNet网络及解码器的图像特征重建过程为将图像矩阵特征转为序列向量，通过图像全局特征修复图像的细节纹理信息；其中，编码器由一系列卷积网络组成，获取图像的高阶语义信息；解码器通过对缩小后的特征图像进行上采样来弥补图像细节损失；改进优化了传统Transformer结构框架的特征，引入混合掩码层来提高模型的鲁棒性及有效性。

8.根据权利要求5所述的多阶段渐进式水下图像增强方法，其特征在于，所述设计了选择性监督卷积核块SSK块来保存多尺度空间的特征信息及不同尺度之间信息传递的有效性；SSK模块允许特征信息通过并调整卷积核感受野大小以适应多尺度特征网络，SSK获取两个不同尺度的特征信息