CN114445292A - 一种多阶段渐进式水下图像增强方法 - Google Patents

一种多阶段渐进式水下图像增强方法 Download PDF

Info

Publication number
CN114445292A
CN114445292A CN202210052263.1A CN202210052263A CN114445292A CN 114445292 A CN114445292 A CN 114445292A CN 202210052263 A CN202210052263 A CN 202210052263A CN 114445292 A CN114445292 A CN 114445292A
Authority
CN
China
Prior art keywords
image
feature
underwater
global
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210052263.1A
Other languages
English (en)
Inventor
李振波
李飞
李一鸣
吴宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN202210052263.1A priority Critical patent/CN114445292A/zh
Publication of CN114445292A publication Critical patent/CN114445292A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了属于图像处理技术领域的一种多阶段渐进式水下图像增强方法,该方法是基于Transformer结构框架即MSTUIE模型在识别、检测、分割和图像处理的计算机视觉中都表现出了良好的效果及优势;利用自注意力机制,对水下退化的图像进行增强及重建,设计TGF块提取全局特征,满足了各种任务对全局特征信息的依赖需求,并解决水下图像增强任务中的位置敏感性,减少多头注意力的计算成本,为探索不同尺度特征信息,选择监督核卷积块SSK来实现不同尺度间的信息传递,利用动态选择核来保存空间特征图,监督注意力机制以引导图像生成器重构图像;验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性。

Description

一种多阶段渐进式水下图像增强方法
技术领域
本发明属于图像处理技术领域,特别涉及一种多阶段渐进式水下图像增强方法。
背景技术
在过去的几十年中,随着对海洋资源和计算机视觉的需求不断增长,高质量和清晰的水下图像对于水下场景的感知和理解至关重要。水下图像增强可以较好的提高退化水下图像的质量。由于水下图像受到水体环境、光吸收和散射的影响,会导致水下图像呈现偏蓝或偏绿、色差及图像退化现象,会加大各种水下任务的困难,亟需一种有效的水下图像增强模型优化和改善水下图像的质量。
传统水下图像增强模型大多借助物理模型或特殊的光学模型来估计介质传输参数及水下图像先验信息,以提高退化图像质量,起到修复重建的效果。然而传统方法在修复过程中过多的依赖于模型自身特点,修复过程需要大量的水下先验知识,而面对复杂多变的水下场景则呈现出较差的效果。近些年随着深度学习模型的快速发展应用,卷积神经网络(CNN)可以较好的拟合海量数据信息,而且在各种视觉任务中呈现出较好的可解释性。借助CNN特点可以较好帮助水下增强模型改善退化图像的质量。基于数据驱动的图像增强模型大多基于单阶段目标优化进行设计,但是多阶段网络在低级图像处理具有较好的效果,如增强、重建、去雾和去雨。虽然基于CNN的多尺度方法具有出色的表示能力,但它们通常在建模过程中对图像全局特征的获取呈现出一定的局限性;
近来Transformer在许多计算机视觉任务中都表现出了较好的效果及优势,例如识别、检测、分割和图像处理。该架构利用自注意力机制,满足了各种任务对全局特征信息的依赖需求。本发明考虑到 Transformer所具有的全局特征表示能力和较好的可解释性,通过进一步的改进优化,引入到水下场景进行图像修复和增强工作,并取得了较好的效果。
其中水下图像增强任务对退化的图像及重建后图像的位置信息较为敏感。因此我们提出了一种新的多尺度Transformer结构框架 (MSTUIE)来增强水下图像。首先,我们引入了一种多尺度结构来逐步增强水下图像。其次,我们设计了一个TGF块来提取全局特征并解决水下图像增强任务中的位置敏感问题。TGF的核心设计是应用一个混合层以减少多头注意力的计算成本,这使得TGF适合捕获更多的全局依赖性。为了探索不同尺度特征信息,我们提出了一种选择性监督核卷积块(SSK)来实现不同尺度间的信息传递。SSK利用动态选择核来保存空间特征图,监督注意机制可以引导图像生成器重构图像。最后,我们验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性。
发明内容
本发明的目的是提供一种多阶段渐进式水下图像增强方法,其特征在于,该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势,在识别、检测、分割和图像处理;利用自注意力机制,对水下退化的图像进行增强及重建,设计TGF块块来提取全局特征,满足了各种任务对全局特征TGF 信息的依赖需求,并解决水下图像增强任务中的位置敏感性,TGF的核心设计是应用一个混合层以减少多头注意的计算成本,为探索不同尺度特征信息,选择性监督核卷积块SSK来实现不同尺度间的信息传递,利用动态选择核来保存空间特征图,监督注意力机制以引导图像生成器重构图像;最后,我们验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性。所述水下图像增强方法包括如下步骤:
1)通过水下公开图像数据集和自建水下图像数据集,构建训练集和测试集;
2)进行图像预处理,将训练图像随机裁剪到128*128,并将像素值归一化到[-1,1];
3)利用多尺度Transformer结构框架MSTUIE获取原始水下图像的全局特征信息;
4)使用全局特征提取模型TGF获取水下图像全局依赖关系;
5)在不同尺度间使用选择监督核卷积块SSK来融合多尺度图像特征信息,减少信息传递的损失,提高图像重建的质量;
6)全局模型优化调参,同时对三个尺度特征提取网络进行优化训练,以达到全局最优效果,并引入无监督损失函数进行优化,以增加模型的可适性;
7)使用训练好的模型对测试数据集进行测试输出,验证模型的有效性。
所述步骤1)的水下公开图像数据集和自建水下图像数据集,将其划分为训练数据集和测试数据集来训练调优MSTUIE模型,选取的 UGAN、EUVP`、UIEB和Jerlov四个公开的数据集进行预处理,其中 EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes;并的预处理数据进行统计所述步骤3)利用多尺度Transformer结构框架从原始水下图像中学习全局特征信息,并结合编码器和解码器进行退化图像的修复和重建,将输入图片尺寸H×W×C进行划分,第一层划分为
Figure BDA0003474722230000041
个图像尺度块,以方便后面Transformer结构框架处理,并提取图像的全局特征信息;第二层的图像尺度块为
Figure BDA0003474722230000042
个;第三层的图像尺度块为H×W个,其中H、W分别为图像的高度和宽度;C为图像的通道数量。全局特征提取模型TGF(如图2中(b)所示)用于捕获全局相关性并改进全局特征提取效果;UNet通过对TGF中的每个面片进行编码来捕获细节纹理内容和感知特征;所述第三层利用ORSNet在最终输出图像中保留空间细节和内容信息;为了保留空间特征,我们设计了一个选择监督核卷积块SSK块,并利用跨阶段特征融合CSFF进行特征过渡和信息保留。SSK块可以融合不同尺度之间的特征,最大限度地减少精确空间细节的损失。此外,它还可以保持原始的地面真实特征,以获得显著的性能增益。
所述全局特征提取模型TGF构造了一个混合层和多头注意力模块来组成Transformer编码器,每个TGF包含一个标准层、混合层、多头注意力模块和位置前馈网络FFN;为了平衡容量和计算需求,将每个TGF的特征分辨率设置为与输入相同的大小,其中输入图像特征用
Figure BDA0003474722230000051
表示;将输入特性图划分为n×n个图像块,并将每个图像块展平为一个挤压变量,以方便TGF处理;
所述Transformer编码器与传统Transformer编码器类似,TGF模型采用混合注意力机制,该机制利用混合层来降低多头自我注意力机制的计算成本,并随机屏蔽输入图像的特征序列(q,k,v)并输出新的特征序列(q′,k′,v′);混合层ML可以较好的增加特征提取的鲁棒性和有效性;全局特征提取模型表示为:
XTGF=TGF(q,k,v)=Concat(head1,...,headh)Wo (1)
q′,k′,v′=ML(q,k,v) (2)
headi=Attention(q′Wi q′,k′Wi k′,v′Wi v′) (3)
其中i∈dk
Figure BDA0003474722230000052
Figure BDA0003474722230000053
为线性投影函数的参数及权重;h表示Transformer编码的头数量;每个模块的头部尺寸纬度为dk,其中dv等于
Figure BDA0003474722230000054
注意力机制和普通Transformer机制相同,操作运算过程为:
Figure BDA0003474722230000055
最后,利用层范数和FFN计算前一层的滑动局部特征信息;其中FFN层计算过程如下:
FFN(x)=max(0,xW1+b1)W2+b2 (5)
其中W1和W2是可学习的权重矩阵,b1和b2是偏置;改进的TGF 编码器相对传统的Transformer编码器参数量几乎没有增加,并以有效地从不同的数据集和尺度中学习各种特征;
最后消融实验进一步表明,TGF是稳健的全局特征提取模型,能较好改善多尺度Transformer结构框架,修复退化的水下图像信息。
所述结合编码器和解码器进行退化图像的修复和重建,UNet网络及解码器的图像特征重建过程为将图像矩阵特征转为序列向量,可以较好通过图像全局特征修复图像的细节纹理信息。
所述全局特征提取模型TGF;改进优化了传统Transformer模型的特征,引入混合掩码层来提高模型的鲁棒性及有效性。
所述不同尺度之间信息传递的有效性,设计了选择性监督卷积核块SSK块来保存多尺度空间的特征信息。(SSK模块的示意图如图3 所示)SSK模块允许特征信息通过并调整卷积核感受野大小以适应多尺度特征网络,SSK获取两个不同尺度的特征信息
Figure BDA0003474722230000061
和原始图像
Figure BDA0003474722230000062
其中Transformer中的
Figure BDA0003474722230000063
Figure BDA0003474722230000064
是具有卷积核大小3和 5的选择性核单元。这个选择性内核单元由分组卷积、批处理规范化和RELU函数组成。输出特性为:
Figure BDA0003474722230000065
我们利用元素和将两个分支集成过程表示如下:
Figure BDA0003474722230000066
SSK利用全局平均池化层
Figure BDA0003474722230000067
计算通道统计信息
Figure BDA0003474722230000068
我们通过在空间维度上收缩U计算s,然后完全连接层
Figure BDA0003474722230000069
可以减少维度为z∈Rd×1.这种紧凑的特征计算过程可以自适应地校准多尺度特征图,其计算过程为:
Figure BDA00034747222300000610
Figure BDA00034747222300000611
其中sc表示的第c个元素s.
Figure BDA00034747222300000612
是权重系数。
软注意力机制可以选择不同尺度的空间特征图。然后,我们连接两个比例特征映射并输出注意力权重
Figure BDA0003474722230000071
自监督注意力机制可以预测增强图像
Figure BDA0003474722230000072
减少无用信息传播到下个尺度网络。通过1×1卷积层对输入特征图进行处理,得到预测特征图Fin。然后将预测的特征映射加入到退化的水下图像中,得到增强图像
Figure BDA0003474722230000073
Figure BDA0003474722230000074
我们还利用1×1卷积层和Sigmoid激活函数来获得每个像素的掩模权重
Figure BDA0003474722230000075
其中M可以有效的引导注意力权重矩阵产生清晰的特征图像V。最后输出的特征Fout为输入特征和注意力特征图的加性操作结果。SSK计算过程可以表示为:
Fout=Fin+V×M (9)
所述的选择性监督卷积核模块SSK,其中引入自适应特征选择机制,可以有效的指导卷积核进行特征选择,并使输入信息适应不同的特征尺度;引入图像注意力掩模M机制,可以借助有监督的特征选择减少无用信息对下一阶段特征图像的影响,提高信息重建的效率。
在全局模型优化调参过程中引入有监督和无监督多个损失函数以提高模型的优化效果及效率,其中包括charbonnier损失、边缘损失、内容损失、感知损失、对抗性损失、总方差、损失和暗通道损失。
框架目标损失函数如下:
Figure BDA0003474722230000076
其中λerapt和λd为权衡权重系数。
其中charbonnier损失定义为:
Figure BDA0003474722230000077
Y代表清晰的图像,ES表示生成的图像。常数ε根据经验设置为10-3
边缘损失函数
Figure BDA0003474722230000081
定义为:
Figure BDA0003474722230000082
其中Δ为拉普拉斯算子。
重建损失可以减少生成图像和清晰图像之间的差异,定义为:
Figure BDA0003474722230000083
对抗性损失可以使网络训练更加稳定,具有更好的性能效果。对抗性损失公式为:
Figure BDA0003474722230000084
感知损失保留了感知特征,提高了结果的视觉质量。它可以测量生成的图像和清晰图像之间的高度差异。φi(x)被视为感知特征,提取激活VGG网络第i层的特征信息,定义为:
Figure BDA0003474722230000085
其在无监督过程使用总方差损失函数和暗通道损失函数来进一步优化增强网络;所述总方差损失是一个规范化函数,它可以提高空间平滑度,降低噪声。其定义如下:
Figure BDA0003474722230000086
Figure BDA0003474722230000087
Figure BDA0003474722230000088
表示水平和垂直渐变操作符;
此外,暗通道损失函数可以有效保证暗通道中的增强图像与真实图像的一致性,公式表述如下:
Figure BDA0003474722230000089
其中X表示输入图像,
Figure BDA00034747222300000810
表示图像的深色通道,N(X)为以单个像素为中心的局部特征块。其中每个模块设置大小为13*13。
本发明的有益效果是本发明考虑到Transformer所具有的全局特征表示能力和较好的可解释性,通过进一步的改进优化,引入到水下场景进行图像修复和增强工作,并取得了较好的效果。
附图说明
图1为多尺度Transformer结构框架MSTUIE体系结构
图2(a)通用Transformer编码器块;(b)全局特征提取模型(TGF)
图3为选择监督核卷积块(SSK)
图4为EUVP水下数据集场景的定性性能比较
具体实施方式
本发明提出一种多阶段渐进式水下图像增强方法,该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势,在识别、检测、分割和图像处理;利用自注意力机制,对水下退化的图像进行增强及重建,设计TGF块块来提取全局特征,满足了各种任务对全局特征TGF信息的依赖需求,并解决水下图像增强任务中的位置敏感性,TGF的核心设计是应用一个混合层以减少多头注意力模块的计算成本,为探索不同尺度特征信息,选择性监督核卷积块SSK来实现不同尺度间的信息传递,利用动态选择核来保存空间特征图,监督注意力机制以引导图像生成器重构图像;最后,我们验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性。下面结合附图对本发明予以进一步说明。
所述水下图像增强方法包括如下步骤:
1)通过水下公开图像数据集和自建水下图像数据集,构建训练集和测试集;
2)进行图像预处理,将训练图像随机裁剪到128*128,并将像素值归一化到[-1,1];
3)利用多尺度Transformer结构框架MSTUIE获取原始水下图像的全局特征信息;
4)使用全局特征提取模型TGF获取水下图像全局依赖关系;
5)在不同尺度间使用选择监督核卷积块SSK来融合多尺度图像特征信息,减少信息传递的损失,提高图像重建的质量;
6)全局模型优化调参,同时对三个尺度特征提取网络进行优化训练,以达到全局最优效果,并引入无监督损失函数进行优化,以增加模型的可适性;
7)使用训练好的模型对测试数据集进行测试输出,验证模型的有效性。
所述步骤1)的水下公开图像数据集和自建水下图像数据集,将其划分为训练数据集和测试数据集来训练调优MSTUIE模型,选取的 UGAN、EUVP、、UIEB和Jerlov四个公开的数据集进行预处理,其中 EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes,如图4所示;并的预处理数据进行统计(如表1所示):为了进行公平比较,我们选择了四个公共数据集来评估我们提出的方法。
表1各个数据集统计信息
Figure BDA0003474722230000101
所述步骤3)利用多尺度Transformer结构框架(如图1所示,) (MSTUIE)从原始水下图像中学习全局特征信息,并结合编码器和解码器进行退化图像的修复和重建,将输入图片尺寸H×W×C进行划分,第一层划分为
Figure BDA0003474722230000111
个图像尺度块,以方便后面Transformer结构框架处理,并提取图像的全局特征信息;第二层的图像尺度块为
Figure BDA0003474722230000112
个;第三层的图像尺度块为H×W个,其中H、W分别为图像的高度和宽度;C为图像的通道数量。全局特征提取模型TGF(如图2中(b) 所示)用于捕获全局相关性并改进全局特征提取效果;UNet通过对 TGF中的每个面片进行编码来捕获细节纹理内容和感知特征(如图1 所示)。
所述全局特征提取模型TGF构造了一个混合层和多头注意力模块来组成Transformer编码器,每个TGF包含一个标准层、混合层、多头注意力模块和位置前馈网络FFN;为了平衡容量和计算需求,将每个TGF的特征分辨率设置为与输入相同的大小,其中输入图像特征用
Figure BDA0003474722230000113
表示;将输入特性图划分为n×n个图像块,并将每个图像块展平为一个挤压变量,以方便TGF处理;(例如,我们以第一个尺度特征
Figure BDA0003474722230000114
为例,TGF会处理n2个图像块。)
与图2中(a)所示的传统Transformer编码器类似,TGF模型采用混合注意机制,该机制利用混合层来降低多头自我注意力模块的计算成本,并随机屏蔽输入图像的特征序列(q,k,v)并输出新的特征序列(q′,k′,v′);混合层ML可以较好的增加特征提取的鲁棒性和有效性;全局特征提取模型表示为:
XTGF=TGF(q,k,v)=Concat(head1,...,headh)Wo (1)
q′,k′,v′=ML(q,k,v) (2)
headi=Attention(q′Wi q′,k′Wi k′,v′Wi v′) (3)
其中i∈dk,
Figure BDA0003474722230000121
Figure BDA0003474722230000122
为线性投影函数的参数及权重;h表示Transformer编码的头数量;每个模块的头部尺寸维度为dk,其中dv等于dh/h;此处所采用的注意力机制和普通Transformer中的子注意力机制相同,其运算过程为:
Figure BDA0003474722230000123
所述第三层利用ORSNet在最终输出图像中保留空间细节和内容信息;为了保留空间特征,我们设计了一个选择监督核卷积块SSK块,并利用跨阶段特征融合(CSFF)进行特征过渡和信息保留。SSK块可以融合不同尺度之间的特征,最大限度地减少精确空间细节的损失。此外,它还可以保持原始的地面真实特征,以获得显著的性能增益。
最后,利用FFN层进行正则化机制和前向运算,FFN层可以计算前一层的滑动特征信息及全局信息,FFN的计算过程为:
FFN(x)=max(0,xW1+b1)W2+b2 (5)
其中,W1和W2是可学习的权重矩阵,b1和b2是偏置项。改进的 TGF编码器相对于传统的Transformer编码器参数量几乎没有增加,并可以有效地从不同的数据集和尺度中学习各种特征;
最后,消融实验进一步表明,TGF具有较好的鲁棒性并且可以较好的提取图片的全局特征位置信息,从而进一步改进图像修复的质量。
本文所述模型结合Transformer编码器和解码器进行水下退化图像的修复和重建工作,其中采用UNet网络为基础框架的解码器对输入图像进行特征重建,并进一步将图像矩阵特征转为序列向量,以提高模型在特征提取过程中的全局信息和位置信息的获取能力。
所述全局特征提取模型TGF;改进优化了传统Transformer模型的特征,引入混合掩码层来提高模型的鲁棒性及有效性。
所述不同尺度之间信息传递的有效性,设计了选择性监督卷积核块SSK块来保存多尺度空间的特征信息。(SSK模块的示意图如图3 所示)SSK模块允许特征信息通过并调整卷积核感受野大小以适应多尺度特征网络,SSK获取两个不同尺度的特征信息
Figure BDA0003474722230000131
和原始图像
Figure BDA0003474722230000132
其中Transformer中的
Figure BDA0003474722230000133
Figure BDA0003474722230000134
是具有卷积核大小3和 5的选择性核单元。这个选择性内核单元由分组卷积、批处理规范化和RELU函数组成。输出特性为:
Figure BDA0003474722230000135
我们利用元素和将两个分支集成过程表示如下:
Figure BDA0003474722230000136
SSK利用全局平均池化层
Figure BDA0003474722230000137
计算通道统计信息
Figure BDA0003474722230000138
我们通过在空间维度上收缩U计算s,然后完全连接层
Figure BDA0003474722230000139
可以减少维度为z∈Rd×1.这种紧凑的特征计算过程可以自适应地校准多尺度特征图,其计算过程为:
Figure BDA00034747222300001310
Figure BDA00034747222300001311
其中,sc表示的第c个元素s.
Figure BDA00034747222300001312
是权重系数。
软注意力机制针对输入图片选择不同尺度的空间特征权重。然后,我们连接两个比例特征映射并输出注意权重
Figure BDA0003474722230000141
自监督注意机制可以预测增强图像
Figure BDA0003474722230000142
减少无用信息传播到下个尺度网络。通过1×1卷积层对输入特征图进行处理,得到预测特征图Fin。然后将预测的特征映射加入到退化的水下图像中,得到增强图像
Figure BDA0003474722230000143
我们还利用1×1卷积层和Sigmoid激活函数来获得每个像素的注意掩模
Figure BDA0003474722230000144
其中掩模M可以有效的引导注意力权重矩阵产生清晰的特征图像V。最后输出的特征Fout为输入特征和注意力特征图的加性操作结果。SSK计算过程可以表示为:
Fout=Fin+V×M (9)
所述的选择性监督卷积核模块SSK,其中引入自适应特征选择机制,可以有效的指导卷积核进行特征选择,并使输入信息适应不同的特征尺度;引入图像注意掩模M机制,可以借助有监督的特征选择减少无用信息对下一阶段特征图像的影响,提高信息重建的效率。
在全局模型优化调参过程中引入有监督和无监督多个损失函数以提高模型的优化效果及效率,其中包括charbonnier损失、边缘损失、内容损失、感知损失、对抗性损失、总方差损失和暗通道损失。框架目标损失函数如下:
Figure BDA0003474722230000145
其中λerapt和λd为权衡权重系数。
其中charbonnier损失定义为:
Figure BDA0003474722230000146
Y代表清晰的图像,ES表示生成的图像。常数ε根据经验设置为10-3
边缘损失函数
Figure BDA0003474722230000151
定义为:
Figure BDA0003474722230000152
其中Δ为拉普拉斯算子。
重建损失可以减少生成图像和清晰图像之间的差异,定义为:
Figure BDA0003474722230000153
对抗性损失可以使网络训练更加稳定,具有更好的性能效果。对抗性损失公式为:
Figure BDA0003474722230000154
感知损失保留了感知特征,提高了结果的视觉质量。它可以测量生成的图像和清晰图像之间的高度差异。φi(x)被视为感知特征,提取激活VGG网络第i层的特征信息,定义为:
Figure BDA0003474722230000155
其在无监督过程使用总方差损失函数和暗通道损失函数来进一步优化增强网络;所述总方差损失是一个规范化函数,它可以提高空间平滑度,降低噪声。其定义如下:
Figure BDA0003474722230000156
Figure BDA0003474722230000157
Figure BDA0003474722230000158
表示水平和垂直渐变操作符;
此外,暗通道损失函数可以有效保证暗通道中的增强图像与真实图像的一致性,公式表述如下:
Figure BDA0003474722230000159
其中X表示输入图像,
Figure BDA00034747222300001510
表示图像的深色通道,N(X)为以单个像素为中心的局部特征块。其中每个模块设置大小为13*13。
我们在两台NVIDIA Tesla V100GPU显卡的计算机上,使用 PyTorch框架平台中实现了MSTUIE模型。MSTUIE模型是一个多尺度的端到端网络,我们以12个批量对模型进行1×105次迭代。通过将图像裁剪为128×128,进一步应用水平翻转和垂直翻转进行数据增广。我们使用Adam来优化网络,将初始学习速率设置为2×10-5,随后降至1×10-7。为了使目标函数更接近最优全局值,我们利用余弦退火来降低学习率。MSTUIE框架损失函数的参数信息设置λe为5× 10-2λrpd为10-2a和λt为10-2

Claims (10)

1.一种多阶段渐进式水下图像增强方法,其特征在于,该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势,在识别、检测、分割和图像处理;利用自注意力机制,对水下退化的图像进行增强及重建,设计TGF块来提取全局特征,满足了各种任务对全局特征TGF信息的依赖需求,并解决水下图像增强任务中的位置敏感性,TGF应用一个混合层以减少多头注意力的计算成本,为探索不同尺度特征信息,选择监督核卷积块SSK来实现不同尺度间的信息传递,利用动态选择核来保存空间特征图,监督注意力机制以引导图像生成器重构图像;验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性;所述水下图像增强方法包括如下步骤:
1)通过水下公开图像数据集和自建水下图像数据集,构建训练集和测试集;
2)进行图像预处理,将训练图像随机裁剪到128*128,并将像素值归一化到[-1,1];
3)利用多尺度Transformer结构框架获取原始水下图像的全局特征信息;
4)设计TGF块来提取全局特征,使用提取的全局特征获取水下图像全局依赖关系;
5)在不同尺度间使用选择监督核卷积块SSK来融合多尺度图像特征信息,减少信息传递的损失,提高图像重建的质量;
6)全局模型优化调参,同时对三个尺度特征提取网络进行优化训练,以达到全局最优效果,并引入无监督损失函数进行优化,以增加模型的可适性;
7)使用训练好的模型对测试数据集进行测试输出,验证模型的有效性。
2.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述步骤1)的水下公开图像数据集和自建水下图像数据集,将其划分为训练数据集和测试数据集来训练调优MSTUIE模型,并选取UGAN、EUVP、、UIEB和Jerlov四个公开的数据集进行预处理,并对预处理数据进行统计;其中EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes。
3.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述步骤3)利用多尺度Transformer结构框架从原始水下图像中学习全局特征信息,并结合编码器和解码器进行退化图像的修复和重建,将输入图片尺寸H×W×C进行划分,第一层划分为
Figure FDA0003474722220000021
个图像尺度块,以方便后面Transformer结构框架处理,并提取图像的全局特征信息;第二层的图像尺度块为
Figure FDA0003474722220000022
个;第三层的图像尺度块为H×W个,其中H、W分别为图像的高度和宽度;C为图像的通道数量。
4.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述步骤4)中设计TGF块来提取全局特征,是用于捕获全局特征相关性,通过对TGF中的每个面片进行编码来捕获细节纹理内容和感知特征并改进全局特征提取效果。
5.根据权利要求3所述的多阶段渐进式水下图像增强方法,其特征在于,所述第三层的图像尺度块是利用ORSNet在最终输出图像中保留空间细节和内容信息,为了保留空间特征,设计了选择性监督核卷积块SSK块,并利用跨阶段特征融合CSFF进行特征过渡和信息保留;SSK块可以融合不同尺度之间的特征,最大限度地减少精确空间细节的损失;此外,它还可以保持原始的地面真实特征,以获得显著的性能增益。
6.根据权利要求3所述的多阶段渐进式水下图像增强方法,其特征在于,所述TGF块提取全局特征是用于捕获全局特征相关性,TGF构造了一个混合层和多头注意力模块来构建Transformer编码器,每个TGF包含一个标准层、混合层、多头注意力模块和位置前馈网络FFN;为了平衡容量和计算需求,将每个TGF的特征分辨率设置为与输入相同的大小,其中输入图像特征用
Figure FDA0003474722220000031
表示;将输入特性图划分为n×n个图像块,并将每个图像块展平为一个挤压变量,以方便TGF处理;由此TGF在处理第一个尺度特征
Figure FDA0003474722220000032
时,将会处理n2个图像块。
7.根据权利要求6所述的多阶段渐进式水下图像增强方法,其特征在于,所述TGF构造了一个混合层和多头注意力模块来组成Transformer编码器与传统Transformer编码器类似,TGF模型采用混合注意机制,该机制利用混合层来降低多头自我注意力模块的计算成本,并随机屏蔽输入图像的特征序列(q,k,v)并输出新的特征序列(q′,k′,v′);混合层ML可以较好的增加特征提取的鲁棒性和有效性;全局特征提取模型表示为:
XTGF=TGF(q,k,v)=Concat(head1,...,headh)Wo (1)
q′,k′,v′=ML(q,k,v) (2)
headi=Attention(q′Wi q′,k′Wi k′,v′Wi v′) (3)
其中i∈dk,
Figure FDA0003474722220000041
Figure FDA0003474722220000042
为线性投影函数的参数及权重;h表示Transformer编码的头数量;每个模块的头部尺寸纬度为dk,其中dv等于
Figure FDA0003474722220000043
注意力机制和普通Transformer机制相同,操作运算过程为:
Figure FDA0003474722220000044
最后,利用层范数和FFN计算前一层的滑动局部特征信息;其中FFN层计算过程如下:
FFN(x)=max(0,xW1+b1)W2+b2 (5)
其中W1和W2是可学习的权重矩阵,b1和b2是偏置;改进的Transformer编码器相对传统的Transformer编码器参数量几乎没有增加,并以有效地从不同的数据集和尺度中学习各种特征;最后的消融实验进一步表明,TGF是稳健的全局特征提取模型,能改善多尺度Transformer结构框架,修复退化的水下图像信息;另外结合Transformer编码器和解码器进行退化图像的修复和重建,UNet网络及解码器的图像特征重建过程为将图像矩阵特征转为序列向量,通过图像全局特征修复图像的细节纹理信息;其中,编码器由一系列卷积网络组成,获取图像的高阶语义信息;解码器通过对缩小后的特征图像进行上采样来弥补图像细节损失;改进优化了传统Transformer结构框架的特征,引入混合掩码层来提高模型的鲁棒性及有效性。
8.根据权利要求5所述的多阶段渐进式水下图像增强方法,其特征在于,所述设计了选择性监督卷积核块SSK块来保存多尺度空间的特征信息及不同尺度之间信息传递的有效性;SSK模块允许特征信息通过并调整卷积核感受野大小以适应多尺度特征网络,SSK获取两个不同尺度的特征信息
Figure FDA0003474722220000051
和原始图像
Figure FDA0003474722220000052
其中Transformer中的
Figure FDA0003474722220000053
Figure FDA0003474722220000054
是具有卷积核大小3和5的选择性核单元;这个选择性内核单元由分组卷积、批处理规范化和RELU函数组成;其输出特性为:
Figure FDA0003474722220000055
利用元素和将两个分支集成过程表示如下:
Figure FDA0003474722220000056
SSK利用全局平均池化层
Figure FDA0003474722220000057
计算通道统计信息
Figure FDA0003474722220000058
我们通过在空间维度上收缩U计算s,然后完全连接层
Figure FDA0003474722220000059
可以减少维度为z∈Rd×1.这种紧凑的特征计算过程可以自适应地校准多尺度特征图,其计算过程为:
Figure FDA00034747222200000510
Figure FDA00034747222200000511
其中sc表示的第c个元素s.
Figure FDA00034747222200000512
是权重系数;
所述的选择性监督卷积核模块SSK,其中引入自适应特征选择机制,可以有效的指导卷积核进行特征选择,并使输入信息适应不同的特征尺度;引入图像注意力掩模M机制,可以借助有监督的特征选择减少无用信息对下一阶段特征图像的影响,提高信息重建的效率。
9.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述利用自注意力机制,对水下退化的图像进行增强及重建,注意力机制可以选择不同尺度的空间特征图,然后,连接两个比例特征映射并输出注意力权重
Figure FDA0003474722220000061
自监督注意力机制可以预测增强图像
Figure FDA0003474722220000062
减少无用信息传播到下个尺度网络;通过1×1卷积层对输入特征图进行处理,得到预测特征图Fin;然后将预测的特征映射加入到退化的水下图像中,得到增强图像
Figure FDA0003474722220000063
还利用1×1卷积层和Sigmoid激活函数来获得每个像素的注意力掩模
Figure FDA0003474722220000064
该注意力掩模M可以有效的引导注意力权重矩阵产生清晰的特征图像V,最后输出的特征Fout为输入特征和注意力特征图的加性操作结果;SSK计算过程可以表示为:
Fout=Fin+V×M (9)。
10.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述步骤6)在全局模型优化调参过程中引入有监督和无监督多个损失函数以提高模型的优化效果及效率,其中包括charbonnier损失、边缘损失、内容损失、感知损失、对抗性损失、总方差损失和暗通道损失;框架目标损失函数如下:
Figure FDA0003474722220000065
其中λerapt和λd为权衡权重系数;
其中charbonnier损失定义为:
Figure FDA0003474722220000066
Y代表清晰的图像,ES表示生成的图像,常数ε根据经验设置为10-3
边缘损失函数
Figure FDA0003474722220000067
定义为:
Figure FDA0003474722220000068
其中Δ为拉普拉斯算子;
重建损失可以减少生成图像和清晰图像之间的差异,定义为:
Figure FDA0003474722220000071
对抗性损失可以使网络训练更加稳定,具有更好的性能效果;对抗性损失公式为:
Figure FDA0003474722220000072
感知损失保留了感知特征,提高了结果的视觉质量;它可以测量生成的图像和清晰图像之间的高度差异;φi(x)被视为感知特征,提取激活VGG网络第i层的特征信息,定义为:
Figure FDA0003474722220000073
其在无监督过程使用总方差损失函数和暗通道损失函数来进一步优化增强网络;所述总方差损失是一个规范化函数,它可以提高空间平滑度,降低噪声。其定义如下:
Figure FDA0003474722220000074
Figure FDA0003474722220000075
Figure FDA0003474722220000076
表示水平和垂直渐变操作符;
此外,暗通道损失函数可以有效保证暗通道中的增强图像与真实图像的一致性,公式表述如下:
Figure FDA0003474722220000077
其中X表示输入图像,
Figure FDA0003474722220000078
表示图像的深色通道,N(X)为以单个像素为中心的局部特征块;其中每个模块设置大小为13*13。
CN202210052263.1A 2022-01-18 2022-01-18 一种多阶段渐进式水下图像增强方法 Pending CN114445292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210052263.1A CN114445292A (zh) 2022-01-18 2022-01-18 一种多阶段渐进式水下图像增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210052263.1A CN114445292A (zh) 2022-01-18 2022-01-18 一种多阶段渐进式水下图像增强方法

Publications (1)

Publication Number Publication Date
CN114445292A true CN114445292A (zh) 2022-05-06

Family

ID=81368740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210052263.1A Pending CN114445292A (zh) 2022-01-18 2022-01-18 一种多阶段渐进式水下图像增强方法

Country Status (1)

Country Link
CN (1) CN114445292A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708170A (zh) * 2022-06-06 2022-07-05 松立控股集团股份有限公司 一种基于增强多尺度特征的车牌图像去模糊方法
CN115797751A (zh) * 2023-01-18 2023-03-14 中国科学技术大学 基于对比掩码图像建模的图像分析方法与系统
CN115841614A (zh) * 2023-02-20 2023-03-24 中国石油大学(华东) 一种影像处理方法、装置、水下成像设备及介质
CN115984574A (zh) * 2023-03-20 2023-04-18 北京航空航天大学 一种基于循环Transformer的图像信息提取模型、方法及其应用
CN116152116A (zh) * 2023-04-04 2023-05-23 青岛哈尔滨工程大学创新发展中心 一种基于视觉自注意力模型的水下图像增强方法
CN116405626A (zh) * 2023-06-05 2023-07-07 吉林大学 一种全局匹配的水下运动目标视觉增强方法
CN117372720A (zh) * 2023-10-12 2024-01-09 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708170A (zh) * 2022-06-06 2022-07-05 松立控股集团股份有限公司 一种基于增强多尺度特征的车牌图像去模糊方法
CN115797751A (zh) * 2023-01-18 2023-03-14 中国科学技术大学 基于对比掩码图像建模的图像分析方法与系统
CN115841614A (zh) * 2023-02-20 2023-03-24 中国石油大学(华东) 一种影像处理方法、装置、水下成像设备及介质
CN115984574A (zh) * 2023-03-20 2023-04-18 北京航空航天大学 一种基于循环Transformer的图像信息提取模型、方法及其应用
CN115984574B (zh) * 2023-03-20 2023-09-19 北京航空航天大学 一种基于循环Transformer的图像信息提取模型、方法及其应用
CN116152116A (zh) * 2023-04-04 2023-05-23 青岛哈尔滨工程大学创新发展中心 一种基于视觉自注意力模型的水下图像增强方法
CN116405626A (zh) * 2023-06-05 2023-07-07 吉林大学 一种全局匹配的水下运动目标视觉增强方法
CN116405626B (zh) * 2023-06-05 2023-09-22 吉林大学 一种全局匹配的水下运动目标视觉增强方法及系统
CN117372720A (zh) * 2023-10-12 2024-01-09 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法
CN117372720B (zh) * 2023-10-12 2024-04-26 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法

Similar Documents

Publication Publication Date Title
CN114445292A (zh) 一种多阶段渐进式水下图像增强方法
CN111784602B (zh) 一种生成对抗网络用于图像修复的方法
CN112183637B (zh) 一种基于神经网络的单光源场景光照重渲染方法及系统
CN112465718B (zh) 一种基于生成对抗网络的两阶段图像修复方法
CN113313644B (zh) 一种基于残差双注意力网络的水下图像增强方法
CN113962893A (zh) 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法
CN110717868A (zh) 视频高动态范围反色调映射模型构建、映射方法及装置
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN115484410B (zh) 基于深度学习的事件相机视频重建方法
CN115018727A (zh) 一种多尺度图像修复方法、存储介质及终端
CN115565056A (zh) 基于条件生成对抗网络的水下图像增强方法及系统
CN115170915A (zh) 一种基于端到端注意力网络的红外与可见光图像融合方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN114240810A (zh) 一种基于渐进式生成网络的人脸素描-照片合成方法
CN115641391A (zh) 一种基于密集残差和双流注意力的红外图像彩色化方法
CN115731597A (zh) 一种人脸口罩掩膜图像自动分割与修复管理平台及方法
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
CN113628143A (zh) 一种基于多尺度卷积的加权融合图像去雾方法及装置
CN113781324A (zh) 一种老照片修复方法
CN112634168A (zh) 一种结合边缘信息的图像修复方法
CN116137043A (zh) 一种基于卷积和Transformer的红外图像彩色化方法
CN116503499A (zh) 一种基于循环生成对抗网络的素描画生成方法及系统
CN116309171A (zh) 一种输电线路监控图像增强方法和装置
Kumar et al. Underwater Image Enhancement using deep learning
CN115456910A (zh) 一种用于严重颜色畸变水下图像的颜色恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination