CN116152116A - 一种基于视觉自注意力模型的水下图像增强方法 - Google Patents
一种基于视觉自注意力模型的水下图像增强方法 Download PDFInfo
- Publication number
- CN116152116A CN116152116A CN202310351943.8A CN202310351943A CN116152116A CN 116152116 A CN116152116 A CN 116152116A CN 202310351943 A CN202310351943 A CN 202310351943A CN 116152116 A CN116152116 A CN 116152116A
- Authority
- CN
- China
- Prior art keywords
- underwater image
- self
- attention
- layer
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims description 26
- 238000012937 correction Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 15
- 230000003014 reinforcing effect Effects 0.000 claims description 13
- 230000004438 eyesight Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000007788 liquid Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 abstract description 4
- 230000003287 optical effect Effects 0.000 abstract description 3
- 230000008447 perception Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 230000016776 visual perception Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
一种基于视觉自注意力模型的水下图像增强方法,本发明涉及基于视觉自注意力模型的水下图像增强方法。本发明的目的是为了解决水下图像有着颜色扭曲、对比度低、细节模糊的成像特点,这些质量较低的水下图像严重影响了光学摄像机在水下环境中的使用,限制了水下无人航行器的感知能力的问题。过程为:步骤一、采用图像增强算法对水下图像进行处理,得到增强后的水下图像,作为训练集;步骤二、构建水下图像增强视觉自注意力模型;步骤三、对水下图像增强视觉自注意力模型进行训练,获得训练好的视觉自注意力模型;步骤四、将待测水下图像输入训练好的视觉自注意力模型,完成待测水下图像识别。本发明属于水下图像增强技术领域。
Description
技术领域
本发明涉及基于视觉自注意力模型的水下图像增强方法,本发明属于水下图像增强技术领域。
背景技术
通常情况下,水下图像有着颜色扭曲、对比度低、细节模糊的成像特点,这些质量较低的水下图像严重影响了光学摄像机在水下环境中的使用,导致了水下无人航行器在水下执行任务时大多依靠声纳对周边环境或者目标进行探测,而声纳信号中包含的噪声较多,对声纳信号的处理也较为复杂,限制了水下无人航行器的感知能力。具有高质量的水下图像是其他水下高级别计算机视觉任务的基础保证,如水下环境探查、水下目标搜寻、水下物体抓取等。因此,水下图像增强技术对于我国的海洋发展战略布局具有重大意义并且有广阔的应用前景。深度学习技术是依靠深度神经网络的计算实现从一个域到另一个域的映射。
发明内容
本发明的目的是为了解决水下图像有着颜色扭曲、对比度低、细节模糊的成像特点,这些质量较低的水下图像严重影响了光学摄像机在水下环境中的使用,限制了水下无人航行器的感知能力的问题,而提出一种基于视觉自注意力模型的水下图像增强方法。
一种基于视觉自注意力模型的水下图像增强方法具体过程为:
步骤一、采用图像增强算法对水下图像进行处理,得到增强后的水下图像,作为训练集;
步骤二、构建水下图像增强视觉自注意力模型;
步骤三、对水下图像增强视觉自注意力模型进行训练,获得训练好的视觉自注意力模型;
步骤四、将待测水下图像输入训练好的视觉自注意力模型,完成待测水下图像识别。
本发明的有益效果为:
本发明的目的是为了利用深度学习技术实现水下图像的准确增强,利用重新设计的适用于水下图像的视觉自注意力模型强大的拟合能力搭配合适的网络训练策略实现对具有色彩扭曲、对比度低、细节模糊等特点的水下图像进行准确增强。
视觉自注意力模型常常应用于高级别计算机视觉任务中,如图像分类,目标识别等。本方法通过重新设计视觉自注意力模型使其适用于水下图像增强这样的低级别计算机视觉任务。训练网络时,由于直接映射水下图像到其标签图像的跨度较大,网络难以捕捉其特点,因此,在训练的初步阶段采用的标签为经过一些经典的图像增强算法增强过的水下图像,这些图像有各自优点的同时也保留着原始算法的缺点。通过这样的标签迁移策略,可以使网络随着训练的深入学到越来越困难的图像关系,有利于进一步提升水下图像的增强效果,增强网络的鲁棒性。
经过本发明所提出的视觉自注意力模型增强的水下图像具有良好的对比度,色彩及结构清晰度,十分贴近标签图像。经过测试,增强效果在多个水下图像数据集上都达到了领先水平。此外,本方法使用的标签迁移学习策略提升了网络的训练速度与鲁棒性,经过准确地增强后的水下图像对于水下高级别计算机视觉任务具有重要意义和价值。
附图说明
图1为水下图像增强视觉自注意力模型示意图,分片嵌入模块为Patch Embeding模块,H为特征图的高度,W为特征图的宽度,C为特征图的通道数;
图2为卷积自注意力结构示意图,MHA是多头自注意力(multi head attention)模块,FN(feedforward network)是前馈网络,Norm为归一化,Conv 3×3为3×3卷积层,R为形状转换,为矩阵相乘,为对应位置元素相乘,Conv 1×1为1×1卷积层,为相加,LeakyReLU层为LeakyReLU激活层,Inputs为输入,Outputs为输出;
图3为通道注意力融合示意图,Inputs1为输入1,Inputs2为输入2,ReLU层为激活层,Softmax为Softmax函数。
具体实施方式
具体实施方式一:本实施方式一种基于视觉自注意力模型的水下图像增强方法具体过程为:
本发明主要涉及到图像增强算法与深度神经网络中的视觉自注意力模型,利用视觉自注意力模型实现逐步过渡的水下图像增强,最终达到增强水下图像的目的。本发明方法针对水下图像具有的颜色畸变、对比度低、细节模糊三个特点,通过经典图像增强算法为水下图像产生标签图像,实现视觉自注意力模型训练的逐层递进,经过训练的视觉自注意力模型可以有效地提升水下图像的对比度,纠正水下图像的错误颜色,使水下图像的细节变得更加清晰。通过本方法可以准确地对水下图像进行增强,该方法鲁棒性强,实现简单,并且也可以在图像去雾、去雨、降噪等场景中使用。
本发明的目的是这样实现的:
本方法首先通过几种经典的图像增强算法为网络训练的初始阶段产生前期标签。通过在前期使用前期标签的训练,能够进一步提升视觉自注意力模型对水下图像的增强效果,能够有效地提高图像的对比度及饱和度并且修正色温。其中,使用的经典图像增强方法有限制对比度直方图均衡算法(CLAHE)、灰度世界算法及伽马矫正算法(GammaCorrection)。
其中,限制对比度直方图均衡算法是常用的图像增强方法,它首先对图像进行预处理,将图像分块填充,再对每个分块进行处理,使用对比度限制计算映射关系,最后使用插值方法得到最后的增强图像。限制对比度直方图均衡算法解决了当图像局部区域过量或较暗增强效果不好及直方图均衡会增强背景噪声的问题。这恰恰符合水下图像的特点,因为水下图像除了目标景物清晰外,其背景深度可能较深,因此,背景的亮度是相对较暗的。除此之外,由于水质及水下生物活动的影响,水中的杂质或悬浮粒子较多,当光线经由这些粒子的反射到达成像器件时,必然会在图像中留下较多的噪声。
灰度世界算法通过用于解决色彩还原及色调处理的问题,在电子产品中得到了广泛的应用,在本方法中采用的是灰度世界算法,它以灰度世界假设为基础,即认为一幅图像在R、G、B三个通道的平均值是趋向于同一个灰度值的,一般情况下这个灰度值直接选取为128或R、G、B三通道强度的均值,灰度世界算法增强效果好且执行速度快,能够有效地且快速地修正水下图像的色彩。
伽马矫正算法也是图像增强中非常常用的一种算法,目前,普遍认为人眼对视觉的感受应该是一种非线性的关系,因此,经过伽马矫正的图像会更加符合人眼的视觉感知。因为水下图像整体偏暗,因此,伽马矫正可以有效地调节水下图像的整体亮度。
除了颜色扭曲,低对比度,水下图像通常还具有模糊的细节,本发明增强了经过限制对比度直方图均衡化算法、灰度世界算法、伽马矫正算法增强图像的细节特征。最后采用相对全变分(RTV)算法将一幅图像进行分解得到结构层和纹理层,然后对纹理层进行增强加回原来的图像即可得到细节增强的图像。
视觉自注意力模型常被用于高级别计算机视觉任务,凭借其多头注意力机制及网络设计,视觉自注意力模型在各大计算机视觉任务中都独占鳌头,但是,因为其网络参数众多,计算较慢,不适用于低级别计算机视觉任务等特性,在水下图像增强领域的应用较少。本方法目的是开发一个能够用于水下图像增强的视觉自注意力模型,为了缓解计算量与显卡I/O速度的限制,本方法提出了一个多尺度的视觉自注意力模型及视觉自注意力模型中的卷积自注意力模块。同时,为了更有效地融合不同位置处的特征,本发明提出了一种通道注意力的融合方式。不同于高级别计算视觉任务,本发明方法提出的水下图像增强视觉自注意力模型不需要将图像切分成小块,在网络的第一阶段中是将图像的维度扩充,由3维扩充为C维,增加图像信息。网络中含有以通道注意力方式融合信息的跳跃连接结构,使得网络的训练更加稳定,减少信息损失,最后以相加的方式与原始水下图像结合得到增强的水下图像。卷积自注意力能够有效地提取图像并且加速训练过程。在通常的视觉自注意力模型中,计算的主要开销来自于多头注意力。在全连接层的自注意力机制中,参数量和复杂度会随着输入尺寸的增加而快速增长。而相对于深度可分离卷积的自注意力机制中,显卡的I/O速度会严重拖慢训练的进程,在同样计算量的情况下,深度可分离卷积的I/O速度需求将比普通卷积高100倍。本发明方法使用普通卷积方式产生多头注意力,在可以接受的参数量下相比于深度可分离卷积速度有较大提升。
步骤一、采用图像增强算法对水下图像进行处理,得到增强后的水下图像,作为训练集(生成前期训练标签);
步骤二、构建水下图像增强视觉自注意力模型;
步骤三、对水下图像增强视觉自注意力模型进行训练,获得训练好的视觉自注意力模型;
步骤四、将待测水下图像输入训练好的视觉自注意力模型,完成待测水下图像识别。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中采用图像增强算法对水下图像进行处理,得到增强后的水下图像,作为训练集(生成前期训练标签);具体过程为:
使用网络上开源数据集如HICRD、UFO-120作为水下图像;
步骤一一、水下图像的对比度较低,大部分像素都处于127以下,经过绘制直方图可以从直观上得出,大部分像素值都处于直方图的左侧,经典的直方图均衡化算法能够调整图像的整体对比度,但增强的结果往往表现出过度增强的现象,同时,由于是对图像的整体调整,会出现将图像中的噪声放大的现象。而限制对比度直方图均衡化则很好地解决了上述的两个问题,由于是预先将图像分块进行处理,限制对比度直方图均衡化会将图像的较暗区域调整亮度,同时,原始图像中较亮的区域也不会出现过度增强的现象。
采用限制对比度直方图均衡化算法对水下图像进行处理,得到调整后的水下图像;
步骤一二、采用灰度世界算法对水下图像进行处理,得到调整后的水下图像;
步骤一三、采用伽马矫正算法对水下图像进行处理,得到调整后的水下图像;具体步骤为:
伽马矫正算法主要是为了补偿在拍摄或显示时出现的非线性失真现象,而且有一些学者认为人眼对于色彩的感受是非线性的,因此,经过伽马矫正算法增强后的图像是更加符合人的视觉感知,同时,伽马矫正算法也是其他计算机视觉任务常用的预处理手段。伽马矫正算法整个计算过程为:归一化、预补偿、反归一化。伽马矫正算法的关键点在于预补偿环节,以伽马值的倒数进行指数运算。伽马矫正实现简单,可以有效解决图像中明暗差距较大的现象,为原始图像中较暗的区域分配更大的像素值,减少较亮区域的像素值,使得整幅图像看起来更为协调;
步骤一四、采用相对全变分(RTV)算法分别对步骤一一调整后的水下图像进行分解得到结构层和纹理层;
对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
采用相对全变分算法分别对步骤一二调整后的水下图像进行分解得到结构层和纹理层;
对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
采用相对全变分算法分别对步骤一三调整后的水下图像进行分解得到结构层和纹理层;
对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤一二中采用灰度世界算法对水下图像进行处理,得到调整后的水下图像;具体步骤为:
因为灰度世界假设各个通道分量的均值趋近于同一个数值,R通道分量的理想均值、G通道分量的理想均值、B通道分量的理想均值皆为K;
步骤一二二、计算水下图像三通道的增益系数;
步骤一二三、根据对角模型(Von Kries)调整水下图像中每个像素的RGB分量,如公式(2)所示
其中,R new 为调整后的水下图像中每个像素的R通道分量,G new 为调整后的水下图像中的每个像素的G通道分量,B new 为调整后的水下图像中的每个像素的B通道分量,R为水下图像中每个像素的R通道,G为水下图像中每个像素的G通道,B为水下图像中每个像素的B通道;
R new 、G new 、B new 中不可避免的会出现像素值大于255的现象,在本方法中直接截取为255。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤一四中采用相对全变分(RTV)算法分别对步骤一一调整后的水下图像进行分解得到结构层和纹理层;对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
采用相对全变分算法分别对步骤一二调整后的水下图像进行分解得到结构层和纹理层;对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
采用相对全变分算法分别对步骤一三调整后的水下图像进行分解得到结构层和纹理层;对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
具体过程为:
步骤一四一、相对全变分细节锐化,由于水下图像中存在着细节模糊的特点,因此,本方法将由三种方法产生的前期标签经过相对全变分细节锐化处理。相对全变分算法将一幅调整后的水下图像分解为结构层和纹理层,然后对调整后的水下图像与结构层分别进行对数变换然后相减,如公式(3)所示
步骤一四二、将增强后的纹理层与结构层进行线性相加后即可得到细节增强后的水下图像,如公式(4)所示
其中,α控制细节丰富程度的参数,J为细节增强后的图像;该方法能够有效突显图像中的细节信息。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤二中构建水下图像增强视觉自注意力模型;具体过程为:
视觉自注意力模型由于其强大的拟合能力,在各项计算机视觉任务中都表现的十分出色,本方法提出了基于视觉自注意力模型改进的水下图像增强网络。网络是典型的U-net结构(见附图1),不同于其他高级别计算机视觉任务,增强水下图像时不需要被切分成小块;
水下图像增强视觉自注意力模型依次包括Patch Embeding模块、第一卷积自注意力模块、第二卷积自注意力模块、第三卷积自注意力模块、第四卷积自注意力模块、第五卷积自注意力模块、第六卷积自注意力模块、第七卷积自注意力模块、第八卷积自注意力模块、第九卷积自注意力模块、第十卷积自注意力模块、第十一卷积自注意力模块、第一3×3卷积层;
将特征图E依次经过第八卷积自注意力模块、第九卷积自注意力模块得到的特征图与特征图B进行通道注意力融合,再进行上采样得到尺寸为H×W×C的特征图F;
特征图F依次经过第十卷积自注意力模块、第十一卷积自注意力模块,再经过第一3×3卷积层得到输出的残差图像,将残差图像与输入的水下图像相加得到了最后的增强结果。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述将特征图E依次经过第八卷积自注意力模块、第九卷积自注意力模块得到的特征图与特征图B进行通道注意力融合,具体过程为:
将特征图B作为输入Inputs1浅层特征输入层的特征x 1,将特征图E依次经过第八卷积自注意力模块、第九卷积自注意力模块得到的特征图作为输入Inputs2深层特征输入层的特征x 2,得到通道注意力融合结果y。
其它步骤及参数与具体实施方式一至五之一相同。
体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述将特征图D依次经过第五卷积自注意力模块、第六卷积自注意力模块、第七卷积自注意力模块得到的特征图与特征图D进行通道注意力融合,具体过程为:
将特征图D作为输入Inputs1浅层特征输入层的特征x 1,将特征图D依次经过第五卷积自注意力模块、第六卷积自注意力模块、第七卷积自注意力模块得到的特征图作为输入Inputs2深层特征输入层的特征x 2,得到通道注意力融合结果y。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述卷积自注意力模块包括多头自注意力模块和前馈网络;
所述多头自注意力模块依次包括:第一Norm层、第二3×3卷积层、第二Norm层、第三Norm层、第一1×1卷积层;
假设尺寸为H×W×C的特征图输入多头自注意力模块中,通过第一Norm层得到尺寸为H×W×C的特征图,特征图通过第二3×3层得到尺寸为H×W×3C的特征图,然后将特征图拆分为尺寸为H×W×C的特征图,将特征图与特征图的尺寸分别转换为HW×C与C×HW,尺寸分别转换为HW×C与C×HW的特征图与特征图分别经过第二Norm层与第三Norm层,第二Norm层与第三Norm层输出特征图矩阵相乘再经过softmax得到尺寸为C×C的注意力特征图;
将特征图的尺寸转换为HW×C,并且将转换为HW×C的特征图与注意力特征图矩阵相乘得到尺寸为HW×C的特征图,将尺寸为HW×C的特征图尺寸转换为H×W×C再经过第一1×1卷积层的线性映射就得到了输出的残差特征图,将残差特征图与输入的尺寸为H×W×C的特征图相加即得到了最后输出的特征;
所述前馈网络依次包括了第四Norm层、第二1×1卷积层、第三3×3卷积层、LeakyReLU层、第三1×1卷积层;
前馈网络的输入为多头自注意力模块的输出,假设输入尺寸为H×W×C的特征图,尺寸为H×W×C的特征图通过第四Norm层将张量进行归一化,归一化后特征图依次通过第二1×1卷积层的线性映射与第三3×3卷积层得到尺寸为H×W×2C的特征图,将尺寸为H×W×2C的特征图拆分为两个尺寸为H×W×C的特征图与,特征图经过LeakyReLU层增强非线性化并与特征图对应位置元素相乘得到特征图,特征图经过第三1×1卷积层的线性映射得到输出的残差特征图,将残差特征图与输入尺寸为H×W×C的特征图相加即得到最后输出。
水下图像首先经过Patch Embeding层将图像的维度扩充为C,网络中的上采样和下采样环节使用pixel-unshuffle和pixel-shuffle操作,尺寸最多减少为初始尺寸的四分之一,并且维度变为4C;因为附加的跳跃连接,网络可以融合图像的浅层次特征与深层次特征并且尽可能充分地利用信息。不同于普通的跳跃连接,本方法中使用的是一种产生通道注意力的连接方式。在尾部,通过一个3×3的卷积层产生了残差图像,最后,将残差图像与原始图像相加即得到了最终的增强图像。
Ctransformer模块能够有效地提取图像中的特征并且加速训练的过程,在模块中,计算量主要来自多头注意力的计算,相比于普通的全连接或深度可分离卷积的多头注意力,本方法所提出的Ctransformer模块(见附图2)在低I/O速度的需求下还能保持高速的计算。
Ctransformer中的FN网络主要是为了增强网络的非线性,在多头注意力中,大多数计算是矩阵计算,其仍然是线性运算,因此需要加入非线性的网络提升整体的拟合能力。
通道注意力融合机制是针对水下图像增强特别设计的一种特征融合方式,因为水下图像由于光线依照波长在水中衰减,大多数水下图像呈现出绿色调或蓝色调,经过直方图分析,红通道像素衰减十分严重,因此,依照通道注意力的方式可针对不同通道进行补偿(见附图3)。通道注意力是根据浅层特征产生的注意力融合深层特征。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述通道注意力融合具体过程为:
Inputs1和Inputs2分别是浅层特征与深层特征输入层,首先通过全局平均池化减小特征尺寸并且它能够赋予每个通道实际的内部意义。
全局平均池化极大地减少了网络参数并能够有效地防止过拟合;假设输入Inputs1浅层特征输入层的特征为x 1是具有H×W×C尺寸的特征,经过全局平均池化后即可以得到1×1×C的特征图;1×1×C的特征图依次经过第四1×1卷积层、LeakyReLU激活函数层、第五1×1卷积层、softmax层得到注意力特征。
输入Inputs2深层特征输入层的特征为x 2是具有H×W×C尺寸的特征;
假设浅层特征与深层特征分别为x 1和x 2,则通道注意力融合可以由公式(5)及公式(6)表示
其中,GAP代表全局平均池化,MLP代表依次经过1×1卷积层、LeakyReLU激活函数层、1×1卷积层;α代表x 2的通道权重;y是融合结果,它以通道注意力的形式融合了x 1和x 2;y是具有H×W×C尺寸的特征。
其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是,所述步骤三中对水下图像增强视觉自注意力模型进行训练,获得训练好的水下图像增强视觉自注意力模型;具体过程为:
将步骤一得到的训练集输入水下图像增强视觉自注意力模型进行训练,迭代200次,训练时使用了本发明方法提出的标签迁移学习策略;
当1≤迭代次数≤30时使用经过伽马矫正算法增强的水下图像作为标签;
在30<迭代次数≤60时使用经过灰度世界算法增强的水下图像作为标签;
在60<迭代次数≤90时使用经过限制对比度直方图均衡算法增强的水下图像作为标签;
在90<迭代次数≤200时使用真实标签进行训练;
经过实验验证,使用标签迁移学习粗略训练的水下图像增强视觉自注意力模型能够更快收敛且鲁棒性更强。
水下图像增强视觉自注意力模型使用的损失函数为smooth L1,smooth L1用公式(7)描述
其中,x为水下图像增强视觉自注意力模型训练时的损失值。
其它步骤及参数与具体实施方式一至九之一相同。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述方法具体过程为:
步骤一、采用图像增强算法对水下图像进行处理,得到增强后的水下图像,作为训练集;
步骤二、构建水下图像增强视觉自注意力模型;
步骤三、对水下图像增强视觉自注意力模型进行训练,获得训练好的视觉自注意力模型;
步骤四、将待测水下图像输入训练好的视觉自注意力模型,完成待测水下图像识别。
2.根据权利要求1所述的一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述步骤一中采用图像增强算法对水下图像进行处理,得到增强后的水下图像,作为训练集;具体过程为:
步骤一一、采用限制对比度直方图均衡化算法对水下图像进行处理,得到调整后的水下图像;
步骤一二、采用灰度世界算法对水下图像进行处理,得到调整后的水下图像;
步骤一三、采用伽马矫正算法对水下图像进行处理,得到调整后的水下图像;
步骤一四、采用相对全变分算法分别对步骤一一调整后的水下图像进行分解得到结构层和纹理层;
对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
采用相对全变分算法分别对步骤一二调整后的水下图像进行分解得到结构层和纹理层;
对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
采用相对全变分算法分别对步骤一三调整后的水下图像进行分解得到结构层和纹理层;
对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像。
3.根据权利要求2所述的一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述步骤一二中采用灰度世界算法对水下图像进行处理,得到调整后的水下图像;具体步骤为:
R通道分量的理想均值、G通道分量的理想均值、B通道分量的理想均值皆为K;
步骤一二二、计算水下图像三通道的增益系数;
步骤一二三、根据对角模型调整水下图像中每个像素的RGB分量,如公式(2)所示
其中,R new 为调整后的水下图像中每个像素的R通道分量,G new 为调整后的水下图像中的每个像素的G通道分量,B new 为调整后的水下图像中的每个像素的B通道分量,R为水下图像中每个像素的R通道,G为水下图像中每个像素的G通道,B为水下图像中每个像素的B通道。
4.根据权利要求3所述的一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述步骤一四中采用相对全变分算法分别对步骤一一调整后的水下图像进行分解得到结构层和纹理层;对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
采用相对全变分算法分别对步骤一二调整后的水下图像进行分解得到结构层和纹理层;对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
采用相对全变分算法分别对步骤一三调整后的水下图像进行分解得到结构层和纹理层;对纹理层进行增强,将增强后的纹理层与结构层进行线性相加得到增强后的水下图像;
具体过程为:
步骤一四二、将增强后的纹理层与结构层进行线性相加后即可得到细节增强后的水下图像,如公式(4)所示
其中,α为控制细节丰富程度的参数,J为细节增强后的图像。
5.根据权利要求4所述的一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述步骤二中构建水下图像增强视觉自注意力模型;具体过程为:
水下图像增强视觉自注意力模型依次包括Patch Embeding模块、第一卷积自注意力模块、第二卷积自注意力模块、第三卷积自注意力模块、第四卷积自注意力模块、第五卷积自注意力模块、第六卷积自注意力模块、第七卷积自注意力模块、第八卷积自注意力模块、第九卷积自注意力模块、第十卷积自注意力模块、第十一卷积自注意力模块、第一3×3卷积层;
将特征图E依次经过第八卷积自注意力模块、第九卷积自注意力模块得到的特征图与特征图B进行通道注意力融合,再进行上采样得到尺寸为H×W×C的特征图F;
特征图F依次经过第十卷积自注意力模块、第十一卷积自注意力模块,再经过第一3×3卷积层得到输出的残差图像,将残差图像与输入的水下图像相加得到了最后的增强结果。
6.根据权利要求5所述的一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述将特征图E依次经过第八卷积自注意力模块、第九卷积自注意力模块得到的特征图与特征图B进行通道注意力融合,具体过程为:
将特征图B作为输入Inputs1浅层特征输入层的特征x 1,将特征图E依次经过第八卷积自注意力模块、第九卷积自注意力模块得到的特征图作为输入Inputs2深层特征输入层的特征x 2,得到通道注意力融合结果y。
7.根据权利要求6所述的一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述将特征图D依次经过第五卷积自注意力模块、第六卷积自注意力模块、第七卷积自注意力模块得到的特征图与特征图D进行通道注意力融合,具体过程为:
将特征图D作为输入Inputs1浅层特征输入层的特征x 1,将特征图D依次经过第五卷积自注意力模块、第六卷积自注意力模块、第七卷积自注意力模块得到的特征图作为输入Inputs2深层特征输入层的特征x 2,得到通道注意力融合结果y。
8.根据权利要求7所述的一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述卷积自注意力模块包括多头自注意力模块和前馈网络;
所述多头自注意力模块依次包括:第一Norm层、第二3×3卷积层、第二Norm层、第三Norm层、第一1×1层;
假设尺寸为H×W×C的特征图输入多头自注意力模块中,通过第一Norm层得到尺寸为H×W×C的特征图,特征图通过第二3×3层得到尺寸为H×W×3C的特征图,然后将特征图拆分为尺寸为H×W×C的特征图,将特征图与特征图的尺寸分别转换为HW×C与C×HW,尺寸分别转换为HW×C与C×HW的特征图与特征图分别经过第二Norm层与第三Norm层,第二Norm层与第三Norm层输出特征图矩阵相乘再经过softmax得到尺寸为C×C的注意力特征图;
将特征图的尺寸转换为HW×C,并且将转换为HW×C的特征图与注意力特征图矩阵相乘得到尺寸为HW×C的特征图,将尺寸为HW×C的特征图尺寸转换为H×W×C再经过第一1×1卷积层的线性映射就得到了输出的残差特征图,将残差特征图与输入的尺寸为H×W×C的特征图相加即得到了最后输出的特征;
所述前馈网络依次包括了第四Norm层、第二1×1卷积层、第三3×3卷积层、LeakyReLU层、第三1×1卷积层;
10.根据权利要求9所述的一种基于视觉自注意力模型的水下图像增强方法,其特征在于:所述步骤三中对水下图像增强视觉自注意力模型进行训练,获得训练好的水下图像增强视觉自注意力模型;具体过程为:
将步骤一得到的训练集输入水下图像增强视觉自注意力模型进行训练,迭代200次,当1≤迭代次数≤30时使用经过伽马矫正算法增强的水下图像作为标签;在30<迭代次数≤60时使用经过灰度世界算法增强的水下图像作为标签;在60<迭代次数≤90时使用经过限制对比度直方图均衡算法增强的水下图像作为标签,在90<迭代次数≤200时使用真实标签进行训练;
水下图像增强视觉自注意力模型使用的损失函数为smooth L1,smooth L1用公式(7)描述
其中,x为水下图像增强视觉自注意力模型训练时的损失值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310351943.8A CN116152116B (zh) | 2023-04-04 | 2023-04-04 | 一种基于视觉自注意力模型的水下图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310351943.8A CN116152116B (zh) | 2023-04-04 | 2023-04-04 | 一种基于视觉自注意力模型的水下图像增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116152116A true CN116152116A (zh) | 2023-05-23 |
CN116152116B CN116152116B (zh) | 2023-07-21 |
Family
ID=86350853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310351943.8A Active CN116152116B (zh) | 2023-04-04 | 2023-04-04 | 一种基于视觉自注意力模型的水下图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116152116B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8885887B1 (en) * | 2012-01-23 | 2014-11-11 | Hrl Laboratories, Llc | System for object detection and recognition in videos using stabilization |
CN107798665A (zh) * | 2017-11-07 | 2018-03-13 | 天津大学 | 基于结构‑纹理分层的水下图像增强方法 |
CN110175963A (zh) * | 2019-05-28 | 2019-08-27 | 山东大学 | 一种适用于水下图像及大气暗图像的两用图像增强方法及装置 |
CN112561838A (zh) * | 2020-12-02 | 2021-03-26 | 西安电子科技大学 | 基于残差自注意力和生成对抗网络的图像增强方法 |
CN113902625A (zh) * | 2021-08-19 | 2022-01-07 | 深圳市朗驰欣创科技股份有限公司 | 一种基于深度学习的红外图像增强方法 |
CN114445292A (zh) * | 2022-01-18 | 2022-05-06 | 中国农业大学 | 一种多阶段渐进式水下图像增强方法 |
CN114549342A (zh) * | 2022-01-13 | 2022-05-27 | 河南师范大学 | 一种用于水下图像的复原方法 |
CN115049815A (zh) * | 2022-05-09 | 2022-09-13 | 南京理工大学 | 基于自注意力蒸馏和图像增强的水下目标检测方法及系统 |
CN115115500A (zh) * | 2022-07-19 | 2022-09-27 | 宁波大学科学技术学院 | 一种结合水下图像增强的水印嵌入方法 |
CN115358952A (zh) * | 2022-10-20 | 2022-11-18 | 福建亿榕信息技术有限公司 | 一种基于元学习的图像增强方法、系统、设备和存储介质 |
CN115456910A (zh) * | 2022-09-30 | 2022-12-09 | 哈尔滨工程大学 | 一种用于严重颜色畸变水下图像的颜色恢复方法 |
-
2023
- 2023-04-04 CN CN202310351943.8A patent/CN116152116B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8885887B1 (en) * | 2012-01-23 | 2014-11-11 | Hrl Laboratories, Llc | System for object detection and recognition in videos using stabilization |
CN107798665A (zh) * | 2017-11-07 | 2018-03-13 | 天津大学 | 基于结构‑纹理分层的水下图像增强方法 |
CN110175963A (zh) * | 2019-05-28 | 2019-08-27 | 山东大学 | 一种适用于水下图像及大气暗图像的两用图像增强方法及装置 |
CN112561838A (zh) * | 2020-12-02 | 2021-03-26 | 西安电子科技大学 | 基于残差自注意力和生成对抗网络的图像增强方法 |
CN113902625A (zh) * | 2021-08-19 | 2022-01-07 | 深圳市朗驰欣创科技股份有限公司 | 一种基于深度学习的红外图像增强方法 |
CN114549342A (zh) * | 2022-01-13 | 2022-05-27 | 河南师范大学 | 一种用于水下图像的复原方法 |
CN114445292A (zh) * | 2022-01-18 | 2022-05-06 | 中国农业大学 | 一种多阶段渐进式水下图像增强方法 |
CN115049815A (zh) * | 2022-05-09 | 2022-09-13 | 南京理工大学 | 基于自注意力蒸馏和图像增强的水下目标检测方法及系统 |
CN115115500A (zh) * | 2022-07-19 | 2022-09-27 | 宁波大学科学技术学院 | 一种结合水下图像增强的水印嵌入方法 |
CN115456910A (zh) * | 2022-09-30 | 2022-12-09 | 哈尔滨工程大学 | 一种用于严重颜色畸变水下图像的颜色恢复方法 |
CN115358952A (zh) * | 2022-10-20 | 2022-11-18 | 福建亿榕信息技术有限公司 | 一种基于元学习的图像增强方法、系统、设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
YUQIANG ZHANG 等: "An O-Shape Neural Network With Attention Modules to Detect Junctions in Biomedical Images Without Segmentation", 《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》, vol. 26, no. 2, pages 774 - 785 * |
丛晓峰 等: "基于视觉Transformer的多损失融合水下图像增强网络", 《智能科学与技术学报》, vol. 4, no. 4, pages 522 - 532 * |
杨文静 等: "基于图像增强的水下视频鱼类识别方法", 《激光与光电子学进展》, vol. 58, no. 22, pages 1 - 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN116152116B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Underwater image enhancement with a deep residual framework | |
CN110232661B (zh) | 基于Retinex和卷积神经网络的低光照彩色图像增强方法 | |
Huang et al. | Underwater image enhancement via adaptive group attention-based multiscale cascade transformer | |
Vasamsetti et al. | Wavelet based perspective on variational enhancement technique for underwater imagery | |
CN100568279C (zh) | 一种基于Retinex理论的快速彩色图像增强方法 | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
CN107798661B (zh) | 一种自适应的图像增强方法 | |
CN116309232B (zh) | 一种结合物理先验与深度学习的水下图像增强方法 | |
CN111462022B (zh) | 一种水下图像清晰化增强方法 | |
Wang et al. | Underwater color disparities: Cues for enhancing underwater images toward natural color consistencies | |
Huang et al. | Color correction and restoration based on multi-scale recursive network for underwater optical image | |
CN112991222A (zh) | 图像雾霾去除处理方法、系统、计算机设备、终端及应用 | |
CN115526803A (zh) | 非均匀光照图像增强方法、系统、存储介质及设备 | |
CN114565539B (zh) | 一种基于线上知识蒸馏的图像去雾方法 | |
Han et al. | UIEGAN: Adversarial learning-based photorealistic image enhancement for intelligent underwater environment perception | |
CN113284061A (zh) | 一种基于梯度网络的水下图像增强方法 | |
Wang et al. | Hazy image decolorization with color contrast restoration | |
Lei et al. | A novel intelligent underwater image enhancement method via color correction and contrast stretching✰ | |
CN115797205A (zh) | 基于Retinex分数阶变分网络的无监督单张图像增强方法及系统 | |
Yang et al. | A model-driven deep dehazing approach by learning deep priors | |
Guan et al. | DiffWater: Underwater image enhancement based on conditional denoising diffusion probabilistic model | |
CN116152116B (zh) | 一种基于视觉自注意力模型的水下图像增强方法 | |
CN116363015A (zh) | 一种基于Retinex理论和卷积神经网络的低照度图像增强方法 | |
Chen et al. | Underwater Image Enhancement based on Improved Water-Net | |
CN116071266A (zh) | 一种基于Retinex的低光照图像增强方法、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |