CN114445292A - 一种多阶段渐进式水下图像增强方法 - Google Patents
一种多阶段渐进式水下图像增强方法 Download PDFInfo
- Publication number
- CN114445292A CN114445292A CN202210052263.1A CN202210052263A CN114445292A CN 114445292 A CN114445292 A CN 114445292A CN 202210052263 A CN202210052263 A CN 202210052263A CN 114445292 A CN114445292 A CN 114445292A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- underwater
- global
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000000750 progressive effect Effects 0.000 title claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 230000000694 effects Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000005540 biological transmission Effects 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 230000035945 sensitivity Effects 0.000 claims abstract description 5
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 102000009618 Transforming Growth Factors Human genes 0.000 claims abstract 21
- 108010009583 Transforming Growth Factors Proteins 0.000 claims abstract 21
- 230000006870 function Effects 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 14
- 230000008447 perception Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 230000008485 antagonism Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000008439 repair process Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000002679 ablation Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000001125 extrusion Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 2
- 238000006731 degradation reaction Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 2
- 238000005096 rolling process Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了属于图像处理技术领域的一种多阶段渐进式水下图像增强方法,该方法是基于Transformer结构框架即MSTUIE模型在识别、检测、分割和图像处理的计算机视觉中都表现出了良好的效果及优势;利用自注意力机制,对水下退化的图像进行增强及重建,设计TGF块提取全局特征,满足了各种任务对全局特征信息的依赖需求,并解决水下图像增强任务中的位置敏感性,减少多头注意力的计算成本,为探索不同尺度特征信息,选择监督核卷积块SSK来实现不同尺度间的信息传递,利用动态选择核来保存空间特征图,监督注意力机制以引导图像生成器重构图像;验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性。
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种多阶段渐进式水下图像增强方法。
背景技术
在过去的几十年中,随着对海洋资源和计算机视觉的需求不断增长,高质量和清晰的水下图像对于水下场景的感知和理解至关重要。水下图像增强可以较好的提高退化水下图像的质量。由于水下图像受到水体环境、光吸收和散射的影响,会导致水下图像呈现偏蓝或偏绿、色差及图像退化现象,会加大各种水下任务的困难,亟需一种有效的水下图像增强模型优化和改善水下图像的质量。
传统水下图像增强模型大多借助物理模型或特殊的光学模型来估计介质传输参数及水下图像先验信息,以提高退化图像质量,起到修复重建的效果。然而传统方法在修复过程中过多的依赖于模型自身特点,修复过程需要大量的水下先验知识,而面对复杂多变的水下场景则呈现出较差的效果。近些年随着深度学习模型的快速发展应用,卷积神经网络(CNN)可以较好的拟合海量数据信息,而且在各种视觉任务中呈现出较好的可解释性。借助CNN特点可以较好帮助水下增强模型改善退化图像的质量。基于数据驱动的图像增强模型大多基于单阶段目标优化进行设计,但是多阶段网络在低级图像处理具有较好的效果,如增强、重建、去雾和去雨。虽然基于CNN的多尺度方法具有出色的表示能力,但它们通常在建模过程中对图像全局特征的获取呈现出一定的局限性;
近来Transformer在许多计算机视觉任务中都表现出了较好的效果及优势,例如识别、检测、分割和图像处理。该架构利用自注意力机制,满足了各种任务对全局特征信息的依赖需求。本发明考虑到 Transformer所具有的全局特征表示能力和较好的可解释性,通过进一步的改进优化,引入到水下场景进行图像修复和增强工作,并取得了较好的效果。
其中水下图像增强任务对退化的图像及重建后图像的位置信息较为敏感。因此我们提出了一种新的多尺度Transformer结构框架 (MSTUIE)来增强水下图像。首先,我们引入了一种多尺度结构来逐步增强水下图像。其次,我们设计了一个TGF块来提取全局特征并解决水下图像增强任务中的位置敏感问题。TGF的核心设计是应用一个混合层以减少多头注意力的计算成本,这使得TGF适合捕获更多的全局依赖性。为了探索不同尺度特征信息,我们提出了一种选择性监督核卷积块(SSK)来实现不同尺度间的信息传递。SSK利用动态选择核来保存空间特征图,监督注意机制可以引导图像生成器重构图像。最后,我们验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性。
发明内容
本发明的目的是提供一种多阶段渐进式水下图像增强方法,其特征在于,该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势,在识别、检测、分割和图像处理;利用自注意力机制,对水下退化的图像进行增强及重建,设计TGF块块来提取全局特征,满足了各种任务对全局特征TGF 信息的依赖需求,并解决水下图像增强任务中的位置敏感性,TGF的核心设计是应用一个混合层以减少多头注意的计算成本,为探索不同尺度特征信息,选择性监督核卷积块SSK来实现不同尺度间的信息传递,利用动态选择核来保存空间特征图,监督注意力机制以引导图像生成器重构图像;最后,我们验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性。所述水下图像增强方法包括如下步骤:
1)通过水下公开图像数据集和自建水下图像数据集,构建训练集和测试集;
2)进行图像预处理,将训练图像随机裁剪到128*128,并将像素值归一化到[-1,1];
3)利用多尺度Transformer结构框架MSTUIE获取原始水下图像的全局特征信息;
4)使用全局特征提取模型TGF获取水下图像全局依赖关系;
5)在不同尺度间使用选择监督核卷积块SSK来融合多尺度图像特征信息,减少信息传递的损失,提高图像重建的质量;
6)全局模型优化调参,同时对三个尺度特征提取网络进行优化训练,以达到全局最优效果,并引入无监督损失函数进行优化,以增加模型的可适性;
7)使用训练好的模型对测试数据集进行测试输出,验证模型的有效性。
所述步骤1)的水下公开图像数据集和自建水下图像数据集,将其划分为训练数据集和测试数据集来训练调优MSTUIE模型,选取的 UGAN、EUVP`、UIEB和Jerlov四个公开的数据集进行预处理,其中 EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes;并的预处理数据进行统计所述步骤3)利用多尺度Transformer结构框架从原始水下图像中学习全局特征信息,并结合编码器和解码器进行退化图像的修复和重建,将输入图片尺寸H×W×C进行划分,第一层划分为个图像尺度块,以方便后面Transformer结构框架处理,并提取图像的全局特征信息;第二层的图像尺度块为个;第三层的图像尺度块为H×W个,其中H、W分别为图像的高度和宽度;C为图像的通道数量。全局特征提取模型TGF(如图2中(b)所示)用于捕获全局相关性并改进全局特征提取效果;UNet通过对TGF中的每个面片进行编码来捕获细节纹理内容和感知特征;所述第三层利用ORSNet在最终输出图像中保留空间细节和内容信息;为了保留空间特征,我们设计了一个选择监督核卷积块SSK块,并利用跨阶段特征融合CSFF进行特征过渡和信息保留。SSK块可以融合不同尺度之间的特征,最大限度地减少精确空间细节的损失。此外,它还可以保持原始的地面真实特征,以获得显著的性能增益。
所述全局特征提取模型TGF构造了一个混合层和多头注意力模块来组成Transformer编码器,每个TGF包含一个标准层、混合层、多头注意力模块和位置前馈网络FFN;为了平衡容量和计算需求,将每个TGF的特征分辨率设置为与输入相同的大小,其中输入图像特征用表示;将输入特性图划分为n×n个图像块,并将每个图像块展平为一个挤压变量,以方便TGF处理;
所述Transformer编码器与传统Transformer编码器类似,TGF模型采用混合注意力机制,该机制利用混合层来降低多头自我注意力机制的计算成本,并随机屏蔽输入图像的特征序列(q,k,v)并输出新的特征序列(q′,k′,v′);混合层ML可以较好的增加特征提取的鲁棒性和有效性;全局特征提取模型表示为:
XTGF=TGF(q,k,v)=Concat(head1,...,headh)Wo (1)
q′,k′,v′=ML(q,k,v) (2)
headi=Attention(q′Wi q′,k′Wi k′,v′Wi v′) (3)
最后,利用层范数和FFN计算前一层的滑动局部特征信息;其中FFN层计算过程如下:
FFN(x)=max(0,xW1+b1)W2+b2 (5)
其中W1和W2是可学习的权重矩阵,b1和b2是偏置;改进的TGF 编码器相对传统的Transformer编码器参数量几乎没有增加,并以有效地从不同的数据集和尺度中学习各种特征;
最后消融实验进一步表明,TGF是稳健的全局特征提取模型,能较好改善多尺度Transformer结构框架,修复退化的水下图像信息。
所述结合编码器和解码器进行退化图像的修复和重建,UNet网络及解码器的图像特征重建过程为将图像矩阵特征转为序列向量,可以较好通过图像全局特征修复图像的细节纹理信息。
所述全局特征提取模型TGF;改进优化了传统Transformer模型的特征,引入混合掩码层来提高模型的鲁棒性及有效性。
所述不同尺度之间信息传递的有效性,设计了选择性监督卷积核块SSK块来保存多尺度空间的特征信息。(SSK模块的示意图如图3 所示)SSK模块允许特征信息通过并调整卷积核感受野大小以适应多尺度特征网络,SSK获取两个不同尺度的特征信息和原始图像其中Transformer中的和是具有卷积核大小3和 5的选择性核单元。这个选择性内核单元由分组卷积、批处理规范化和RELU函数组成。输出特性为:我们利用元素和将两个分支集成过程表示如下:
软注意力机制可以选择不同尺度的空间特征图。然后,我们连接两个比例特征映射并输出注意力权重自监督注意力机制可以预测增强图像减少无用信息传播到下个尺度网络。通过1×1卷积层对输入特征图进行处理,得到预测特征图Fin。然后将预测的特征映射加入到退化的水下图像中,得到增强图像 我们还利用1×1卷积层和Sigmoid激活函数来获得每个像素的掩模权重其中M可以有效的引导注意力权重矩阵产生清晰的特征图像V。最后输出的特征Fout为输入特征和注意力特征图的加性操作结果。SSK计算过程可以表示为:
Fout=Fin+V×M (9)
所述的选择性监督卷积核模块SSK,其中引入自适应特征选择机制,可以有效的指导卷积核进行特征选择,并使输入信息适应不同的特征尺度;引入图像注意力掩模M机制,可以借助有监督的特征选择减少无用信息对下一阶段特征图像的影响,提高信息重建的效率。
在全局模型优化调参过程中引入有监督和无监督多个损失函数以提高模型的优化效果及效率,其中包括charbonnier损失、边缘损失、内容损失、感知损失、对抗性损失、总方差、损失和暗通道损失。
框架目标损失函数如下:
其中λe,λr,λa,λp,λt和λd为权衡权重系数。
其中charbonnier损失定义为:
Y代表清晰的图像,ES表示生成的图像。常数ε根据经验设置为10-3。
其中Δ为拉普拉斯算子。
重建损失可以减少生成图像和清晰图像之间的差异,定义为:
对抗性损失可以使网络训练更加稳定,具有更好的性能效果。对抗性损失公式为:
感知损失保留了感知特征,提高了结果的视觉质量。它可以测量生成的图像和清晰图像之间的高度差异。φi(x)被视为感知特征,提取激活VGG网络第i层的特征信息,定义为:
其在无监督过程使用总方差损失函数和暗通道损失函数来进一步优化增强网络;所述总方差损失是一个规范化函数,它可以提高空间平滑度,降低噪声。其定义如下:
此外,暗通道损失函数可以有效保证暗通道中的增强图像与真实图像的一致性,公式表述如下:
本发明的有益效果是本发明考虑到Transformer所具有的全局特征表示能力和较好的可解释性,通过进一步的改进优化,引入到水下场景进行图像修复和增强工作,并取得了较好的效果。
附图说明
图1为多尺度Transformer结构框架MSTUIE体系结构
图2(a)通用Transformer编码器块;(b)全局特征提取模型(TGF)
图3为选择监督核卷积块(SSK)
图4为EUVP水下数据集场景的定性性能比较
具体实施方式
本发明提出一种多阶段渐进式水下图像增强方法,该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势,在识别、检测、分割和图像处理;利用自注意力机制,对水下退化的图像进行增强及重建,设计TGF块块来提取全局特征,满足了各种任务对全局特征TGF信息的依赖需求,并解决水下图像增强任务中的位置敏感性,TGF的核心设计是应用一个混合层以减少多头注意力模块的计算成本,为探索不同尺度特征信息,选择性监督核卷积块SSK来实现不同尺度间的信息传递,利用动态选择核来保存空间特征图,监督注意力机制以引导图像生成器重构图像;最后,我们验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性。下面结合附图对本发明予以进一步说明。
所述水下图像增强方法包括如下步骤:
1)通过水下公开图像数据集和自建水下图像数据集,构建训练集和测试集;
2)进行图像预处理,将训练图像随机裁剪到128*128,并将像素值归一化到[-1,1];
3)利用多尺度Transformer结构框架MSTUIE获取原始水下图像的全局特征信息;
4)使用全局特征提取模型TGF获取水下图像全局依赖关系;
5)在不同尺度间使用选择监督核卷积块SSK来融合多尺度图像特征信息,减少信息传递的损失,提高图像重建的质量;
6)全局模型优化调参,同时对三个尺度特征提取网络进行优化训练,以达到全局最优效果,并引入无监督损失函数进行优化,以增加模型的可适性;
7)使用训练好的模型对测试数据集进行测试输出,验证模型的有效性。
所述步骤1)的水下公开图像数据集和自建水下图像数据集,将其划分为训练数据集和测试数据集来训练调优MSTUIE模型,选取的 UGAN、EUVP、、UIEB和Jerlov四个公开的数据集进行预处理,其中 EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes,如图4所示;并的预处理数据进行统计(如表1所示):为了进行公平比较,我们选择了四个公共数据集来评估我们提出的方法。
表1各个数据集统计信息
所述步骤3)利用多尺度Transformer结构框架(如图1所示,) (MSTUIE)从原始水下图像中学习全局特征信息,并结合编码器和解码器进行退化图像的修复和重建,将输入图片尺寸H×W×C进行划分,第一层划分为个图像尺度块,以方便后面Transformer结构框架处理,并提取图像的全局特征信息;第二层的图像尺度块为个;第三层的图像尺度块为H×W个,其中H、W分别为图像的高度和宽度;C为图像的通道数量。全局特征提取模型TGF(如图2中(b) 所示)用于捕获全局相关性并改进全局特征提取效果;UNet通过对 TGF中的每个面片进行编码来捕获细节纹理内容和感知特征(如图1 所示)。
所述全局特征提取模型TGF构造了一个混合层和多头注意力模块来组成Transformer编码器,每个TGF包含一个标准层、混合层、多头注意力模块和位置前馈网络FFN;为了平衡容量和计算需求,将每个TGF的特征分辨率设置为与输入相同的大小,其中输入图像特征用表示;将输入特性图划分为n×n个图像块,并将每个图像块展平为一个挤压变量,以方便TGF处理;(例如,我们以第一个尺度特征为例,TGF会处理n2个图像块。)
与图2中(a)所示的传统Transformer编码器类似,TGF模型采用混合注意机制,该机制利用混合层来降低多头自我注意力模块的计算成本,并随机屏蔽输入图像的特征序列(q,k,v)并输出新的特征序列(q′,k′,v′);混合层ML可以较好的增加特征提取的鲁棒性和有效性;全局特征提取模型表示为:
XTGF=TGF(q,k,v)=Concat(head1,...,headh)Wo (1)
q′,k′,v′=ML(q,k,v) (2)
headi=Attention(q′Wi q′,k′Wi k′,v′Wi v′) (3)
其中i∈dk,和为线性投影函数的参数及权重;h表示Transformer编码的头数量;每个模块的头部尺寸维度为dk,其中dv等于dh/h;此处所采用的注意力机制和普通Transformer中的子注意力机制相同,其运算过程为:
所述第三层利用ORSNet在最终输出图像中保留空间细节和内容信息;为了保留空间特征,我们设计了一个选择监督核卷积块SSK块,并利用跨阶段特征融合(CSFF)进行特征过渡和信息保留。SSK块可以融合不同尺度之间的特征,最大限度地减少精确空间细节的损失。此外,它还可以保持原始的地面真实特征,以获得显著的性能增益。
最后,利用FFN层进行正则化机制和前向运算,FFN层可以计算前一层的滑动特征信息及全局信息,FFN的计算过程为:
FFN(x)=max(0,xW1+b1)W2+b2 (5)
其中,W1和W2是可学习的权重矩阵,b1和b2是偏置项。改进的 TGF编码器相对于传统的Transformer编码器参数量几乎没有增加,并可以有效地从不同的数据集和尺度中学习各种特征;
最后,消融实验进一步表明,TGF具有较好的鲁棒性并且可以较好的提取图片的全局特征位置信息,从而进一步改进图像修复的质量。
本文所述模型结合Transformer编码器和解码器进行水下退化图像的修复和重建工作,其中采用UNet网络为基础框架的解码器对输入图像进行特征重建,并进一步将图像矩阵特征转为序列向量,以提高模型在特征提取过程中的全局信息和位置信息的获取能力。
所述全局特征提取模型TGF;改进优化了传统Transformer模型的特征,引入混合掩码层来提高模型的鲁棒性及有效性。
所述不同尺度之间信息传递的有效性,设计了选择性监督卷积核块SSK块来保存多尺度空间的特征信息。(SSK模块的示意图如图3 所示)SSK模块允许特征信息通过并调整卷积核感受野大小以适应多尺度特征网络,SSK获取两个不同尺度的特征信息和原始图像其中Transformer中的和是具有卷积核大小3和 5的选择性核单元。这个选择性内核单元由分组卷积、批处理规范化和RELU函数组成。输出特性为:我们利用元素和将两个分支集成过程表示如下:
软注意力机制针对输入图片选择不同尺度的空间特征权重。然后,我们连接两个比例特征映射并输出注意权重自监督注意机制可以预测增强图像减少无用信息传播到下个尺度网络。通过1×1卷积层对输入特征图进行处理,得到预测特征图Fin。然后将预测的特征映射加入到退化的水下图像中,得到增强图像我们还利用1×1卷积层和Sigmoid激活函数来获得每个像素的注意掩模其中掩模M可以有效的引导注意力权重矩阵产生清晰的特征图像V。最后输出的特征Fout为输入特征和注意力特征图的加性操作结果。SSK计算过程可以表示为:
Fout=Fin+V×M (9)
所述的选择性监督卷积核模块SSK,其中引入自适应特征选择机制,可以有效的指导卷积核进行特征选择,并使输入信息适应不同的特征尺度;引入图像注意掩模M机制,可以借助有监督的特征选择减少无用信息对下一阶段特征图像的影响,提高信息重建的效率。
在全局模型优化调参过程中引入有监督和无监督多个损失函数以提高模型的优化效果及效率,其中包括charbonnier损失、边缘损失、内容损失、感知损失、对抗性损失、总方差损失和暗通道损失。框架目标损失函数如下:
其中λe,λr,λa,λp,λt和λd为权衡权重系数。
其中charbonnier损失定义为:
Y代表清晰的图像,ES表示生成的图像。常数ε根据经验设置为10-3。
其中Δ为拉普拉斯算子。
重建损失可以减少生成图像和清晰图像之间的差异,定义为:
对抗性损失可以使网络训练更加稳定,具有更好的性能效果。对抗性损失公式为:
感知损失保留了感知特征,提高了结果的视觉质量。它可以测量生成的图像和清晰图像之间的高度差异。φi(x)被视为感知特征,提取激活VGG网络第i层的特征信息,定义为:
其在无监督过程使用总方差损失函数和暗通道损失函数来进一步优化增强网络;所述总方差损失是一个规范化函数,它可以提高空间平滑度,降低噪声。其定义如下:
此外,暗通道损失函数可以有效保证暗通道中的增强图像与真实图像的一致性,公式表述如下:
我们在两台NVIDIA Tesla V100GPU显卡的计算机上,使用 PyTorch框架平台中实现了MSTUIE模型。MSTUIE模型是一个多尺度的端到端网络,我们以12个批量对模型进行1×105次迭代。通过将图像裁剪为128×128,进一步应用水平翻转和垂直翻转进行数据增广。我们使用Adam来优化网络,将初始学习速率设置为2×10-5,随后降至1×10-7。为了使目标函数更接近最优全局值,我们利用余弦退火来降低学习率。MSTUIE框架损失函数的参数信息设置λe为5× 10-2λr,λp,λd为10-2,λa和λt为10-2。
Claims (10)
1.一种多阶段渐进式水下图像增强方法,其特征在于,该方法是基于Transformer结构框架即MSTUIE模型在许多计算机视觉任务中都表现出了良好的效果及优势,在识别、检测、分割和图像处理;利用自注意力机制,对水下退化的图像进行增强及重建,设计TGF块来提取全局特征,满足了各种任务对全局特征TGF信息的依赖需求,并解决水下图像增强任务中的位置敏感性,TGF应用一个混合层以减少多头注意力的计算成本,为探索不同尺度特征信息,选择监督核卷积块SSK来实现不同尺度间的信息传递,利用动态选择核来保存空间特征图,监督注意力机制以引导图像生成器重构图像;验证了MSTUIE在不同水下环境中,图像修复的有效性及鲁棒性;所述水下图像增强方法包括如下步骤:
1)通过水下公开图像数据集和自建水下图像数据集,构建训练集和测试集;
2)进行图像预处理,将训练图像随机裁剪到128*128,并将像素值归一化到[-1,1];
3)利用多尺度Transformer结构框架获取原始水下图像的全局特征信息;
4)设计TGF块来提取全局特征,使用提取的全局特征获取水下图像全局依赖关系;
5)在不同尺度间使用选择监督核卷积块SSK来融合多尺度图像特征信息,减少信息传递的损失,提高图像重建的质量;
6)全局模型优化调参,同时对三个尺度特征提取网络进行优化训练,以达到全局最优效果,并引入无监督损失函数进行优化,以增加模型的可适性;
7)使用训练好的模型对测试数据集进行测试输出,验证模型的有效性。
2.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述步骤1)的水下公开图像数据集和自建水下图像数据集,将其划分为训练数据集和测试数据集来训练调优MSTUIE模型,并选取UGAN、EUVP、、UIEB和Jerlov四个公开的数据集进行预处理,并对预处理数据进行统计;其中EUVP数据集合包含三个子数据集Dark、ImageNet和Scenes。
4.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述步骤4)中设计TGF块来提取全局特征,是用于捕获全局特征相关性,通过对TGF中的每个面片进行编码来捕获细节纹理内容和感知特征并改进全局特征提取效果。
5.根据权利要求3所述的多阶段渐进式水下图像增强方法,其特征在于,所述第三层的图像尺度块是利用ORSNet在最终输出图像中保留空间细节和内容信息,为了保留空间特征,设计了选择性监督核卷积块SSK块,并利用跨阶段特征融合CSFF进行特征过渡和信息保留;SSK块可以融合不同尺度之间的特征,最大限度地减少精确空间细节的损失;此外,它还可以保持原始的地面真实特征,以获得显著的性能增益。
7.根据权利要求6所述的多阶段渐进式水下图像增强方法,其特征在于,所述TGF构造了一个混合层和多头注意力模块来组成Transformer编码器与传统Transformer编码器类似,TGF模型采用混合注意机制,该机制利用混合层来降低多头自我注意力模块的计算成本,并随机屏蔽输入图像的特征序列(q,k,v)并输出新的特征序列(q′,k′,v′);混合层ML可以较好的增加特征提取的鲁棒性和有效性;全局特征提取模型表示为:
XTGF=TGF(q,k,v)=Concat(head1,...,headh)Wo (1)
q′,k′,v′=ML(q,k,v) (2)
headi=Attention(q′Wi q′,k′Wi k′,v′Wi v′) (3)
最后,利用层范数和FFN计算前一层的滑动局部特征信息;其中FFN层计算过程如下:
FFN(x)=max(0,xW1+b1)W2+b2 (5)
其中W1和W2是可学习的权重矩阵,b1和b2是偏置;改进的Transformer编码器相对传统的Transformer编码器参数量几乎没有增加,并以有效地从不同的数据集和尺度中学习各种特征;最后的消融实验进一步表明,TGF是稳健的全局特征提取模型,能改善多尺度Transformer结构框架,修复退化的水下图像信息;另外结合Transformer编码器和解码器进行退化图像的修复和重建,UNet网络及解码器的图像特征重建过程为将图像矩阵特征转为序列向量,通过图像全局特征修复图像的细节纹理信息;其中,编码器由一系列卷积网络组成,获取图像的高阶语义信息;解码器通过对缩小后的特征图像进行上采样来弥补图像细节损失;改进优化了传统Transformer结构框架的特征,引入混合掩码层来提高模型的鲁棒性及有效性。
8.根据权利要求5所述的多阶段渐进式水下图像增强方法,其特征在于,所述设计了选择性监督卷积核块SSK块来保存多尺度空间的特征信息及不同尺度之间信息传递的有效性;SSK模块允许特征信息通过并调整卷积核感受野大小以适应多尺度特征网络,SSK获取两个不同尺度的特征信息和原始图像其中Transformer中的和是具有卷积核大小3和5的选择性核单元;这个选择性内核单元由分组卷积、批处理规范化和RELU函数组成;其输出特性为:利用元素和将两个分支集成过程表示如下:
所述的选择性监督卷积核模块SSK,其中引入自适应特征选择机制,可以有效的指导卷积核进行特征选择,并使输入信息适应不同的特征尺度;引入图像注意力掩模M机制,可以借助有监督的特征选择减少无用信息对下一阶段特征图像的影响,提高信息重建的效率。
9.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述利用自注意力机制,对水下退化的图像进行增强及重建,注意力机制可以选择不同尺度的空间特征图,然后,连接两个比例特征映射并输出注意力权重自监督注意力机制可以预测增强图像减少无用信息传播到下个尺度网络;通过1×1卷积层对输入特征图进行处理,得到预测特征图Fin;然后将预测的特征映射加入到退化的水下图像中,得到增强图像还利用1×1卷积层和Sigmoid激活函数来获得每个像素的注意力掩模该注意力掩模M可以有效的引导注意力权重矩阵产生清晰的特征图像V,最后输出的特征Fout为输入特征和注意力特征图的加性操作结果;SSK计算过程可以表示为:
Fout=Fin+V×M (9)。
10.根据权利要求1所述的多阶段渐进式水下图像增强方法,其特征在于,所述步骤6)在全局模型优化调参过程中引入有监督和无监督多个损失函数以提高模型的优化效果及效率,其中包括charbonnier损失、边缘损失、内容损失、感知损失、对抗性损失、总方差损失和暗通道损失;框架目标损失函数如下:
其中λe,λr,λa,λp,λt和λd为权衡权重系数;
其中charbonnier损失定义为:
Y代表清晰的图像,ES表示生成的图像,常数ε根据经验设置为10-3,
其中Δ为拉普拉斯算子;
重建损失可以减少生成图像和清晰图像之间的差异,定义为:
对抗性损失可以使网络训练更加稳定,具有更好的性能效果;对抗性损失公式为:
感知损失保留了感知特征,提高了结果的视觉质量;它可以测量生成的图像和清晰图像之间的高度差异;φi(x)被视为感知特征,提取激活VGG网络第i层的特征信息,定义为:
其在无监督过程使用总方差损失函数和暗通道损失函数来进一步优化增强网络;所述总方差损失是一个规范化函数,它可以提高空间平滑度,降低噪声。其定义如下:
此外,暗通道损失函数可以有效保证暗通道中的增强图像与真实图像的一致性,公式表述如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210052263.1A CN114445292A (zh) | 2022-01-18 | 2022-01-18 | 一种多阶段渐进式水下图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210052263.1A CN114445292A (zh) | 2022-01-18 | 2022-01-18 | 一种多阶段渐进式水下图像增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114445292A true CN114445292A (zh) | 2022-05-06 |
Family
ID=81368740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210052263.1A Pending CN114445292A (zh) | 2022-01-18 | 2022-01-18 | 一种多阶段渐进式水下图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445292A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708170A (zh) * | 2022-06-06 | 2022-07-05 | 松立控股集团股份有限公司 | 一种基于增强多尺度特征的车牌图像去模糊方法 |
CN115797751A (zh) * | 2023-01-18 | 2023-03-14 | 中国科学技术大学 | 基于对比掩码图像建模的图像分析方法与系统 |
CN115841614A (zh) * | 2023-02-20 | 2023-03-24 | 中国石油大学(华东) | 一种影像处理方法、装置、水下成像设备及介质 |
CN115984574A (zh) * | 2023-03-20 | 2023-04-18 | 北京航空航天大学 | 一种基于循环Transformer的图像信息提取模型、方法及其应用 |
CN116152116A (zh) * | 2023-04-04 | 2023-05-23 | 青岛哈尔滨工程大学创新发展中心 | 一种基于视觉自注意力模型的水下图像增强方法 |
CN116405626A (zh) * | 2023-06-05 | 2023-07-07 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法 |
CN117372720A (zh) * | 2023-10-12 | 2024-01-09 | 南京航空航天大学 | 一种基于多特征交叉掩码修复的无监督异常检测方法 |
-
2022
- 2022-01-18 CN CN202210052263.1A patent/CN114445292A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708170A (zh) * | 2022-06-06 | 2022-07-05 | 松立控股集团股份有限公司 | 一种基于增强多尺度特征的车牌图像去模糊方法 |
CN115797751A (zh) * | 2023-01-18 | 2023-03-14 | 中国科学技术大学 | 基于对比掩码图像建模的图像分析方法与系统 |
CN115841614A (zh) * | 2023-02-20 | 2023-03-24 | 中国石油大学(华东) | 一种影像处理方法、装置、水下成像设备及介质 |
CN115984574A (zh) * | 2023-03-20 | 2023-04-18 | 北京航空航天大学 | 一种基于循环Transformer的图像信息提取模型、方法及其应用 |
CN115984574B (zh) * | 2023-03-20 | 2023-09-19 | 北京航空航天大学 | 一种基于循环Transformer的图像信息提取模型、方法及其应用 |
CN116152116A (zh) * | 2023-04-04 | 2023-05-23 | 青岛哈尔滨工程大学创新发展中心 | 一种基于视觉自注意力模型的水下图像增强方法 |
CN116405626A (zh) * | 2023-06-05 | 2023-07-07 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法 |
CN116405626B (zh) * | 2023-06-05 | 2023-09-22 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法及系统 |
CN117372720A (zh) * | 2023-10-12 | 2024-01-09 | 南京航空航天大学 | 一种基于多特征交叉掩码修复的无监督异常检测方法 |
CN117372720B (zh) * | 2023-10-12 | 2024-04-26 | 南京航空航天大学 | 一种基于多特征交叉掩码修复的无监督异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114445292A (zh) | 一种多阶段渐进式水下图像增强方法 | |
CN111784602B (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN112183637B (zh) | 一种基于神经网络的单光源场景光照重渲染方法及系统 | |
CN112465718B (zh) | 一种基于生成对抗网络的两阶段图像修复方法 | |
CN113313644B (zh) | 一种基于残差双注意力网络的水下图像增强方法 | |
CN113962893A (zh) | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 | |
CN110717868A (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN115484410B (zh) | 基于深度学习的事件相机视频重建方法 | |
CN115018727A (zh) | 一种多尺度图像修复方法、存储介质及终端 | |
CN115565056A (zh) | 基于条件生成对抗网络的水下图像增强方法及系统 | |
CN115170915A (zh) | 一种基于端到端注意力网络的红外与可见光图像融合方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN114240810A (zh) | 一种基于渐进式生成网络的人脸素描-照片合成方法 | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN113628143A (zh) | 一种基于多尺度卷积的加权融合图像去雾方法及装置 | |
CN113781324A (zh) | 一种老照片修复方法 | |
CN112634168A (zh) | 一种结合边缘信息的图像修复方法 | |
CN116137043A (zh) | 一种基于卷积和Transformer的红外图像彩色化方法 | |
CN116503499A (zh) | 一种基于循环生成对抗网络的素描画生成方法及系统 | |
CN116309171A (zh) | 一种输电线路监控图像增强方法和装置 | |
Kumar et al. | Underwater Image Enhancement using deep learning | |
CN115456910A (zh) | 一种用于严重颜色畸变水下图像的颜色恢复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |