CN116563693A - 基于轻量级注意力机制的水下图像色彩复原方法 - Google Patents
基于轻量级注意力机制的水下图像色彩复原方法 Download PDFInfo
- Publication number
- CN116563693A CN116563693A CN202310491245.8A CN202310491245A CN116563693A CN 116563693 A CN116563693 A CN 116563693A CN 202310491245 A CN202310491245 A CN 202310491245A CN 116563693 A CN116563693 A CN 116563693A
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- output
- underwater
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007246 mechanism Effects 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000010586 diagram Methods 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 239000000470 constituent Substances 0.000 claims description 5
- 238000007792 addition Methods 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 37
- 238000012360 testing method Methods 0.000 abstract description 19
- 238000013135 deep learning Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 7
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012876 topography Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000012113 quantitative test Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于轻量级注意力机制的水下图像色彩复原方法,包括以下步骤:获取水下图像;构建生成对抗网络模型,包括设计生成器网络结构同时在编码器‑译码器的浅层加入效果较好的轻量级注意力机制,用来更好地提取水下图像的特征信息,以及包括设计鉴别器网络结构以判别生成水下图像的真假;确定用以更新网络参数的基于均方对数误差计算方法的损失函数;使用训练集对设计好的网络结构进行训练,通过循环迭代不断优化网络,直至输出网络模型,并将测试集输入训练好的网络模型,获得清晰图像。通过本发明所增强的水下图像更符合人眼的观察习惯,在峰值信噪比、结构相似性等水下图像画质评测指标方面均相较于现有深度学习方法有所提升。
Description
技术领域
本发明涉及水下图像增强领域,具体为一种基于轻量级注意力机制的水下图像色彩复原方法。
背景技术
水下图像增强技术是目前水下图像处理技术的重要研究方向之一,能以较低的拍摄成本提高水下计算机视觉任务的完成效率,被广泛应用于海洋资源开发、利用、保护与管控等领域。目前,基于深度学习的水下图像增强算法为海洋渔业、海洋生态研究、海洋地形绘制等领域提供着越来越多的帮助。海洋环境复杂多变,水分子对自然光中红光的吸收、水体浓度不同对光的折射和水中悬浮颗粒对光的散射等物理现象,都会影响水下光摄影的成像效果。而海洋生物种类繁多,且多为小体积生物,对水下机器人的目标捕捉和识别的精度要求较高,虽然相机拍摄的光学图像细节丰富,但图像信息在水体产生的弱化作用影响下,仍无法达到要求,海洋地形的绘制同样需要较高精度,以确保其准确性。基于深度学习的图像增强算法可以更轻易的达到提取水下图像的深层信息的目的,进而使得算法在改善水下图像的清晰度方面更加的有利,同时也能调整水下图像的色调,提高水下机器人在海洋生物的识别、定位和跟踪任务的成功率,为海洋渔业发展、海洋生物研究提供技术支持。
就解决在水下摄影中存在的图像细节模糊、色彩失真等问题的处理方法而言,一般可以分为依托于水下成像模型的水下图像复原方法和与模型无关的水下图像增强方法两类。水下图像增强算法是采用数学方法对图像进行处理以使图像变得清晰而水下图像复原算法则是根据物理模型将图像还原为“陆上”图像。
基于深度学习的算法主要是基于端对端的图像增强原理,将成对的退化水下和清晰水下图像组成数据集,然后利用不同的深度学习框架搭建模型。Li C等人基于卷积操作原理设计出一种名为UWCNN的算法(Li C,Anwar S,Porikli F.Underwater scene priorinspired deep underwater image and video enhancement[J].Pattern Recognition,2020,98:107038.)。该算法虽然能实现对退化的图像进行颜色订正的功能,输出的图像同样表现为模糊和平滑,但图像中的细节却不甚明晰,对局部色彩的校正也表现不佳。Liu X等人基于条件生成对抗原理设计出一种名为MLFcGAN的算法(Liu X,Gao Z,Chen BM.MLFcGAN:Multilevel feature fusion-based conditional GAN for underwaterimage color correction[J].IEEE Geoscience and Remote Sensing Letters,2019,17(9):1488-1492.)。该算法有着较好的局部色彩校正和全局色调处理的能力,但网络构成较复杂,模型所占内存较大,运行速度慢,且细节模糊。Uplavikar P M等人基于领域对抗学习原理设计出一种名为UIE-DAL的算法(Uplavikar P M,Wu Z,Wang Z.All-in-oneunderwater image enhancement using domain-adversarial learning[C]//CVPRworkshops.2019:1-8.)。该算法生成的水下图像细节展现较佳但局部,尤其是分界处的色彩校正容易存在失真的现象。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于轻量级注意力机制的水下图像色彩复原方法,以解决传统增强算法在处理中存在的色彩失衡问题。
实现本发明目的的技术方案为:一种基于轻量级注意力机制的水下图像色彩复原方法,包括以下步骤:
步骤1、获取水下图像数据集,所述水下图像数据集由水下原始图像和对应的正常光图像组成;
步骤2、构建生成对抗网络模型,所述生成对抗网络模型包括生成器和鉴别器,所述生成器的网络结构为一种改进的U型语义分割模型,鉴别器的网络结构采用全卷积对抗网络结构;
步骤3、确定一个用以更新网络参数的基于均方对数误差计算方法的损失函数;
步骤4、使用水下图像数据集对设计好的网络结构进行训练,通过循环迭代不断优化网络,直至输出网络模型;
步骤5、将采集的水下原始图像输入训练好的生成对抗网络模型,获得清晰图像。
优选地,所述生成器包括输入层、隐藏层、输出层,所述输入层用于输入水下原始图像,所述隐藏层用于对输入图像进行卷积计算及反卷积计算,所述输出层用于输出结果;
隐藏层采用由4对编码层和译码层构成的编码器-译码器结构;
每一编码层的输出按照跳跃相连处理方法输入到镜像译码层。
优选地,所述生成器隐藏层的具体结构为:
编码层1:输入一张通道数为3的256*256的特征图,进行一次卷积和一次池化输出一张通道数为32的128*128的特征图;
编码层2:输入编码层1输出的特征图,进行两次卷积和一次池化,输出一张通道数为64的64*64的特征图;
编码层3:输入编码层2输出的特征图,进行两次卷积和一次池化,输出一张通道数为128的32*32的特征图;
编码层4:输入编码层3输出的特征图,进行一次卷积,输出一张通道数为256的32*32的特征图;
译码层1:输入编码层4输出的特征图,进行一次上采样,输出一张通道数为256的64*64的特征图;
译码层2:输入译码层1输出的特征图,将此特征图与编码层3输出的特征图进行拼接,拼接后进行一次卷积和上采样,输出一张通道数为256的128*128的特征图;
译码层3:输入译码层2输出的特征图,将此特征图与编码层2输出的特征图进行拼接,拼接后进行一次卷积和上采样,输出一张通道数为128的256*256的特征图;
译码层4:输入译码层3输出的特征图,在编码层1输出的特征图中加入轻量级注意力机制并将此特征图与上一层输出的特征图进行拼接,拼接后进行三次卷积,输出一张通道数为3的256*256的特征图。
优选地,所述鉴别器包括输入层、隐藏层、输出层,所述输入层用于输入总计大小为256*256*6的两张图片,所述隐藏层用于对输入图像进行卷积计算,所述输出层用于输出结果。
优选地,所述鉴别器隐藏层由5个卷积滤波器组成,具体为:
卷积层1:将总计大小为256*256*6的两张图片作为特征图输入,进行一次卷积输出一张通道数为32的128*128的特征图;
卷积层2:输入卷积层1输出的特征图,进行一次卷积,输出一张通道数为64的64*64的特征图;
卷积层3:输入卷积层2输出的特征图,进行一次卷积,输出一张通道数为128的32*32的特征图;
卷积层4:输入卷积层3输出的特征图,进行一次卷积,输出一张通道数为256的16*16的特征图;
卷积层5:输入卷积层4输出的特征图,进行一次卷积,输出16*16*1的信息分布矩阵。
优选地,步骤3中的损失函数为:
式中,LcGAN为鉴别网络Patch GAN计算的鉴别器损失,λ1和λc为超参数缩放因子,L1为提升图像的全局相似性的增加式,Lcon为增强生成图像与目标图像间的构成内容相似性的增加式,G为与生成网络等价的映射,D为与鉴别网络等价的映射。
优选地,鉴别网络Patch GAN计算的鉴别器损失具体为:
LcGAN(G,D)=EX,Y[logD(Y)]+EX,Y[log(1-D(X,G(X,Z)))]
其中,X和Y分别代表需要增强的水下图像信息和增强后的水下信息,Z代表输入的随机噪声,EX,Y(*)表示在X、Y作为自变量时分布函数的期望值。其中EX,Y[log(1-D(X,G(X,Z)))]为生成器损失函数,记为LG。
优选地,提升图像的全局相似性的增加式具体为:
L1(G)=EX,Y,Z[||Y-G(X,Z)||1]
式中,EX,Y,Z表示在X、Y、Z作为自变量时分布函数的期望值。
优选地,增强生成图像与目标图像间的构成内容相似性的增加式具体为:
Lcon(G)=EX,Y,Z[||Θ(Y)-Θ(G(X,Z))||2]
其中,Θ(·)代表公开的预训练VGG-19网络模型中的block5_conv2层拟合的特征提取映射函数,用于提取水下图像的图像内容特征信息。
优选地,步骤4中训练网络结构的具体步骤为:
将步骤1中的训练数据集输入生成对抗网络模型;
对指导训练过程的超参数进行定义;
生成器根据水下原始图像和随机噪声输出生成图;
鉴别器根据生成图和水下原始图像输出信息分布矩阵,利用均方对数误差计算方法计算矩阵与零矩阵的差值;
同时鉴别器根据对应的正常光图像和水下原始图像输出信息分布矩阵,利用均方对数误差计算方法计算矩阵与元素全为1的矩阵的差值;
将得到的两个差值取平均数即为鉴别器损失函数值,并通过采用ADAM优化器最小化鉴别器损失函数值来更新鉴别器的参数;
冻结鉴别器参数,将生成器生成图片与对应水下原始图像输入鉴别器获得鉴别器输出信息分布矩阵,利用均方对数误差计算方法计算该矩阵与零矩阵的差值,获得鉴别器损失LcGAN;同时利用均方对数误差算方法计算生成器生成图片与对应水下原始图像的差值;
将差值带入公式计算得到全局相似性增加式L1和内容相似性增加式Lcon;将LcGAN、L1、Lcon三者加权相加共同获得生成器损失函数值,并通过采用ADAM优化器最小化生成器损失函数值来更新生成器的参数;
通过循环执行上述过程不断更新生成器和鉴别器的参数以更新模型,直至循环结束;
在记录下的生成器损失函数值中选择对应最小损失函数值的模型作为最终模型。
本发明与现有技术相比,其显著优点为:(1)本发明设计网络结构,构建一种完全卷积的CGAN模型,并在编码器-译码器的浅层加入轻量级注意力机制,更好地还原彩色,增加对比度;(2)本发明基于MSLE计算方法设计Loss函数,提高其对水下图像深度学习特征的提取性能,减少水下图像细节损失。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1为本发明一种基于轻量级注意力机制的水下图像色彩复原方法的流程示意图。
图2为设计并改进后的生成器结构图。
图3为鉴别器结构图。
图4为本发明的模型训练流程图。
图5为本发明模型测试的具体流程图。
图6为各方法在六组图像的测试结果示意图,其中从左向右图像分别为(a)原始水下图像,(b)FUnIE-GAN测试结果图(c)UWCNN测试结果图(d)MLFcGAN测试结果图(e)UIE-DAL测试结果图(f)本发明的测试结果图。
具体实施方案
由于水下图像信息在传递过程中存在损失,且设计的网络结构并不能充分提取水下图像的深度学习特征等原因,使得由基于深度学习的网络模型合成的清晰水下图像存在局部颜色失衡、细节模糊等问题,为此本发明提出了一种基于轻量级注意力机制的水下图像色彩复原方法。通过设计网络结构,构建一种完全卷积的CGAN模型,在生成网络结构中加入注意力机制,并设计Loss函数,提高其对水下图像深度学习特征的提取性能,使模型能在减少水下图像细节损失的同时,还原彩色,增加对比度,为探索与开发海洋过程中计算机视觉任务的准确完成提供保障。通过对生成的图像以及通过其他基于深度学习算法得到的水下增强图像进行定性、定量分析,验证了方法的有效性和鲁棒性。
一种基于轻量级注意力机制的水下图像色彩复原方法,包括以下步骤:
步骤1、获取水下图像。本发明用于训练的数据集为EUVP(Enhancing UnderwaterVisual Perception)数据集,它是由Islam等人收集的用7种不同的相机在不同海域拍摄的不同亮暗程度、不同清晰程度、不同色调的水下图像,能在一定程度上表现水下图像的相似性。本发明的网络训练只需要用到配对数据集。本发明利用3700对训练用的数据集进行训练,同时从测试用的数据集中随机抽取23对用来详细展开定性定量分析,多方面评估模型以及用来进行对比实验的模型性能。
步骤2、构建生成对抗网络模型中生成器网络结构和鉴别器网络结构。本发明将构建一种完全卷积的CGAN模型,提高其对水下图像深度学习特征的提取性能,使模型能在减少细节损失的同时,还原色彩,增强对比度,为探索与开发海洋过程中计算机视觉任务的准确完成提供保障。
本发明的生成器设计是一种改进的U型语义分割模型(U-Net模型),包括输入层、隐藏层、输出层。所述输入层用于输入水下原始图像,所述隐藏层用于对输入图像进行卷积计算及反卷积计算,所述输出层用于输出结果。生成器结构组成如图2。其隐藏层为一个由4对编码层和译码层构成的编码器-译码器结构。4层编码层共同组成收缩路径,即逐步提取深层信息的下采样;4层译码层共同组成扩张路径,即将提取到的特征复原为增强后图像的上采样;因为每一编码层的输出按照跳跃相连处理方法输入到镜像译码层,所以两条路径几乎对称,分别用来提取特征和提高分辨率用于精确定位。鉴别器网络结构也包括输入层、隐藏层、输出层,是一个有着5层、补丁大小为16*16的后无效过程Patch GAN。网络结构。
步骤2.1、生成器输入的图像是大小为256*256*3,是整体存在色偏的、经模拟水下环境退化后的RGB图像。图像随后经隐藏层中4对编码层和译码层处理,经生成网络处理后最终可得到256*256*3的RGB图像作为输出。隐藏层具体结构为:
编码层1:输入一张通道数为3的256*256的特征图;进行一次卷积(卷积核大小5×5,卷积核个数为32,卷积步长为1,填充为相同)和一次池化(选择最大池化,大小为2×2,填充为相同);输出一张通道数为32的128*128的特征图;
编码层2:输入上一层输出的特征图;进行两次卷积(卷积核大小4×4,卷积核个数为64,卷积步长为1,填充为相同,采用BN算法)和一次池化(选择最大池化,大小为2×2,填充为相同);输出一张通道数为64的64*64的特征图;
编码层3:输入上一层输出的特征图;进行两次卷积(卷积核大小3×3,卷积核个数为128,卷积步长为1,填充为相同,采用BN算法)和一次池化(选择最大池化,大小为2×2,填充为相同);输出一张通道数为128的32*32的特征图;
编码层4:输入上一层输出的特征图;进行一次卷积(卷积核大小3×3,卷积核个数为256,卷积步长为1,填充为相同,采用BN算法);输出一张通道数为256的32*32的特征图;
译码层1:输入上一层输出的特征图;进行一次上采样(上采样因子为2);输出一张通道数为256的64*64的特征图;
译码层2:输入上一层输出的特征图;将此特征图与编码层3输出的特征图进行拼接,拼接后进行一次卷积(卷积核大小3×3,卷积核个数为256,卷积步长为1,填充为相同)和上采样(上采样因子为2);输出一张通道数为256的128*128的特征图;
译码层3:输入上一层输出的特征图;将此特征图与编码层2输出的特征图进行拼接,拼接后进行一次卷积(卷积核大小3×3,卷积核个数为128,卷积步长为1,填充为相同)和上采样(上采样因子为2);输出一张通道数为128的256*256的特征图;
译码层4:输入上一层输出的特征图;在编码层1输出的特征图中加入轻量级注意力机制(LCBAM)并将此特征图与上一层输出的特征图进行拼接,拼接后进行一次卷积(卷积核大小3×3,卷积核个数为128,卷积步长为1,填充为相同),再进行一次卷积(卷积核大小3×3,卷积核个数为256,卷积步长为1,填充为相同),再进行一次卷积(卷积核大小4×4,通道数为3,卷积步长为1,填充为相同);输出一张通道数为3的256*256的特征图。
其中加入的轻量级注意力机制(LCBAM)将通道注意力机制和空间注意力机制进行一个结合,可以取得更好的效果。本发明加入注意力机制的位置可以确保特征的有效提取。
生成器结构如图2所示。图2中标注的例如32、128、256等数字表示从每一编码、译码层的输入中提取的深度特征的层数,而128*128、64*64则表示输入信息经每一编码、译码层卷积操作处理后在每一层提取的信息分布矩阵。
步骤2.2、构建鉴别器网络结构。鉴别器是一个有着5层,补丁大小为16*16的后无效过程Patch GAN。Patch GAN鉴别器相较于普通鉴别器而言,其输出不再是0和1区间内的标量值,而是N*N的的标量矩阵数值的平均。这样处理的好处是能对每个补丁(patch)都进行鉴别真假,即能对图像的局部特征进行判别,也能考虑不同区域对图像的影响,提升了局部判别的精度,能满足对分辨率和细节要求更高的任务。鉴别器结构组成如图3,鉴别器也包括输入层、隐藏层、输出层,所述输入层用于输入总计大小为256*256*6的两张图片,所述隐藏层用于对输入图像进行卷积计算,所述输出层用于输出结果。鉴别器结构组成如图3。其隐藏层由5个卷积滤波器组成。隐藏层具体结构为:
卷积层1:将总计大小为256*256*6的两张图片作为特征图输入;进行一次卷积(卷积核大小3×3,卷积核个数为32,卷积步长为2,填充为相同);输出一张通道数为32的128*128的特征图;
卷积层2:输入上一层输出的特征图;进行一次卷积(卷积核大小3×3,卷积核个数为64,卷积步长为2,填充为相同,采用BN算法);输出一张通道数为64的64*64的特征图;
卷积层3:输入上一层输出的特征图;进行一次卷积(卷积核大小3×3,卷积核个数为64,卷积步长为2,填充为相同,采用BN算法);输出一张通道数为128的32*32的特征图;
卷积层4:输入上一层输出的特征图;进行一次卷积(卷积核大小3×3,卷积核个数为64,卷积步长为2,填充为相同,采用BN算法);输出一张通道数为256的16*16的特征图;
卷积层5:输入上一层输出的特征图;进行一次卷积(卷积核大小4×4,通道数为1,卷积步长为1,填充为相同);输出16*16*1的信息分布矩阵。
其中Patch GAN鉴别器相较于普通鉴别器而言,其输出不再是0和1区间内的标量值,而是N*N的标量矩阵数值的平均。这样处理的好处是能对每个补丁(patch)都进行鉴别真假,即能对图像的局部特征进行判别,也能考虑不同区域对图像的影响,提升了局部判别的精度,能满足对分辨率和细节要求更高的任务。
同模型生成器结构图显示相同,图3中标注的32、64、128等数代表每一处理层输出矩阵的层数,128*128、64*64等代表输出矩阵的大小。
步骤3、定义一个合适的用以更新网络参数的损失(Loss)函数,能提升模型增强效果。本发明设计的Loss函数能联系起局部结构与样式、全局相似性和图像构成等方面,优化特征提取。
本发明将三项线性整合到一起,模型网络的Loss函数表达式如下:
LOSS=LcGAN(G,D)+λ1L1(G)+λcLcon(G)
其中,λ1=0.7和λc=0.3是实验过程中以经验为主拟定的超参数缩放因子。
因此,整个模型的损失函数为
即,先假定G(生成器)映射不变,记录D(鉴别器)映射改变时对应的最大Loss函数,再改变G映射,循环执行上述过程,最后在记录下的生成器损失函数值中选择对应最小Loss值的作为最终损失函数值。
式中LcGAN为鉴别网络PatchGAN计算的鉴别器损失:
LcGAN(G,D)=EX,Y[logD(Y)]+EX,Y[log(1-D(X,G(X,Z)))]
其中,这里X和Y分别代表需要增强的水下图像信息和增强后的水下信息,Z代表输入的随机噪声,G为与生成网络等价的映射,D为与鉴别网络等价的映射。其中EX,Y[log(1-D(X,G(X,Z)))]为生成器损失函数,记为LG。
在Loss函数中增加损失项,能增强相应能力,例如增加式。式中L1为增加式,可提升图像的全局相似性:
L1(G)=EX,Y,Z[||Y-G(X,Z)||1]
式中Lcon也为增加式,可以增强生成图像与目标图像间的构成内容相似性:
Lcon(G)=EX,Y,Z[||Θ(Y)-Θ(G(X,Z))||2]
其中,Θ(·)代表公开的预训练VGG-19网络模型中的block5_conv2层拟合的特征提取映射函数,在这里用于提取水下图像的图像内容特征信息。VGG-19网络模型由19个隐藏层构成。一般来说,网络中较浅的层用于提取全局泛化的特征,而深层能提取的抽象信息则与训练的数据集有关,因而本发明采取较浅的block5_conv2层。
针对步骤3.1公式中LcGAN、L1、Lcon中L的计算方法,为了监督对抗训练,根据感知图像的整体内容、颜色、局部纹理和风格信息,本发明制定了一个评价感知图像质量的客观函数(均方对数误差(MSLE)计算方法),用来更好地训练模型参数,提高模型增强效果。均方对数误差(MSLE)衡量实际值与预期值之间的差异,用于提高Loss函数的计算精度。MSLE将小的实际值和预测值之间的小差异视为大的实际值与预测值之间大的差异,添加对数减少了MSLE对实际值和预测值之间的百分比差异以及两者之间的相对差异的关注,能使更多特征点显现出来,增加了精确度。MSLE的计算公式:
其中,N表示样本数,yi表示真实值,表示预测值。
步骤4、使用水下图像数据集中的训练集对设计好的网络结构进行训练,通过循环迭代不断优化网络,直至输出网络模型。
为实现模型训练,首先输入步骤1中的训练数据集,由水下原始图像和对应的正常光图像组成。
然后对指导训练过程的超参数进行定义,数值的选择依据于过往实验经验和实验过程中的纠错。其中,超参数epoch为200,代表实验过程中将对EUVP数据集进行了200个epoch的训练,数据的批处理量为4,由步骤1可知,训练用数据总计number为3700对;val_interval取值为2000,每隔2000次训练检验并保存生成的样本。
接着运用对抗生成网络运行原理,生成器根据水下原始图像和随机噪声输出生成图;
鉴别器根据该生成图和水下原始图像输出信息分布矩阵,利用均方对数误差(MSLE)计算方法计算该矩阵与零矩阵的差值;同时鉴别器也根据对应的正常光图像和水下原始图像输出信息分布矩阵,利用均方对数误差(MSLE)计算方法计算该矩阵与元素全为1的矩阵的差值。将得到的两个差值取平均数即为鉴别器损失函数值,并通过采用ADAM优化器最小化鉴别器损失函数值来更新鉴别器的参数。
随后,冻结鉴别器参数,将生成器生成图片与对应水下原始图像输入鉴别器获得鉴别器输出信息分布矩阵,利用均方对数误差(MSLE)计算方法计算该矩阵与零矩阵的差值,获得鉴别器损失LcGAN;同时利用均方对数误差(MSLE)计算方法计算生成器生成图片与对应水下原始图像的差值。将该差值带入公式计算得到全局相似性增加式L1和内容相似性增加式Lcon。最后将LcGAN、L1、Lcon三者加权相加共同获得生成器损失函数值,并通过采用ADAM优化器最小化生成器损失函数值来更新生成器的参数。
通过循环执行上述过程不断更新生成器和鉴别器的参数以更新模型,直至循环结束。最后在记录下的生成器损失函数值中选择对应最小损失函数值的模型作为最终模型。
其中,根据对抗生成网络运行原理,鉴别器在对抗训练的过程中会努力把上述Loss函数最大化,而生成器则在对抗训练的过程中最小化Loss函数。训练的模型结构与参数需要通过最后一句代码输出保存。在训练时设计每训练一次便输出一次生成器Loss函数值和鉴别器Loss函数值,用以实时检验训练效果,了解实验进程。
步骤5、在训练好参数的生成对抗网络模型中输入步骤1中的水下原始图像测试数据集以进行图像增强。然后将经由模型增强生成后的测试图像保存在规定的文件夹中,即可获得最终增强图像。
实施例
本实施例将本方法与FUnIE-GAN、MLFcGAN、UWCNN、UIE-DAL四种深度学习类算法在步骤1中获取的水下图像数据集上进行了对比实验。这4个模型同样是基于深度学习,利用神经网络的知识改进,由大量的数据训练得到的,也可用在完成增强任务中。FUnIE-GAN模型、MLFcGAN模型与本发明提出的模型一样都是根据条件生成对抗网络模型改进的,两者的区别主要在模型结构的选择和Loss函数的定义上。UWCNN模型的结构是根据深度卷积神经网络改进的,而UIE-DAL模型是基于领域对抗改进的。实验用这三类模型对比总结各类模型的特点。在测试的过程中,随机选取23对水下图像,并分别将图像输入算法模型,输出经各个算法处理后的图像,随后用这些图像对包括本发明的模型进行定性和定量测试。部分实验测试结果如图6所示,从左向右图像分别为(a)原始水下图像,(b)FUnIE-GAN测试结果图(c)UWCNN测试结果图(d)MLFcGAN测试结果图(e)UIE-DAL测试结果图(f)本发明的测试结果图。表1为由测试用的23对水下图像获得的定量评价指标结果。实验采取的三项指标概括来说,峰值信噪比(PSNR)是通过衡量图像对应像素间的差异,来评价图像与参考图像间的客观整体相似性;结构相似性(SSIM)是通过判断图像像素间的相关性,来评价图像与参考图像间的结构组成相似性;而水下图像质量评价指标(UIQM)则是通过判断色彩、清晰度、对比度三种测量指标的线性总和,来评价图像的构成同人眼的认知是否相符。三者都是数值越大,所评价的方面表现越佳。显然本发明的模型表现出的效果更佳,增强效果更明显。
表1:评价指标结果
综合以上分析,本发明提出的一种基于轻量级注意力机制的水下图像色彩复原方法,由本发明模型生成的水下图像就各项指标而言都优于其他模型生成的图像,成功获得能生成较丰富细节信息、能实现局部色彩校正和全局色调处理能力的增强模型。
Claims (10)
1.一种基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,包括以下步骤:
步骤1、获取水下图像数据集,所述水下图像数据集由水下原始图像和对应的正常光图像组成;
步骤2、构建生成对抗网络模型,所述生成对抗网络模型包括生成器和鉴别器,所述生成器的网络结构为一种改进的U型语义分割模型,鉴别器的网络结构采用全卷积对抗网络结构;
步骤3、确定一个用以更新网络参数的基于均方对数误差计算方法的损失函数;
步骤4、使用水下图像数据集对设计好的网络结构进行训练,通过循环迭代不断优化网络,直至输出网络模型;
步骤5、将采集的水下原始图像输入训练好的生成对抗网络模型,获得清晰图像。
2.根据权利要求1所述的基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,所述生成器包括输入层、隐藏层、输出层,所述输入层用于输入水下原始图像,所述隐藏层用于对输入图像进行卷积计算及反卷积计算,所述输出层用于输出结果;
隐藏层采用由4对编码层和译码层构成的编码器-译码器结构;
每一编码层的输出按照跳跃相连处理方法输入到镜像译码层。
3.根据权利要求2所述的基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,所述生成器隐藏层的具体结构为:
编码层1:输入一张通道数为3的256*256的特征图,进行一次卷积和一次池化输出一张通道数为32的128*128的特征图;
编码层2:输入编码层1输出的特征图,进行两次卷积和一次池化,输出一张通道数为64的64*64的特征图;
编码层3:输入编码层2输出的特征图,进行两次卷积和一次池化,输出一张通道数为128的32*32的特征图;
编码层4:输入编码层3输出的特征图,进行一次卷积,输出一张通道数为256的32*32的特征图;
译码层1:输入编码层4输出的特征图,进行一次上采样,输出一张通道数为256的64*64的特征图;
译码层2:输入译码层1输出的特征图,将此特征图与编码层3输出的特征图进行拼接,拼接后进行一次卷积和上采样,输出一张通道数为256的128*128的特征图;
译码层3:输入译码层2输出的特征图,将此特征图与编码层2输出的特征图进行拼接,拼接后进行一次卷积和上采样,输出一张通道数为128的256*256的特征图;
译码层4:输入译码层3输出的特征图,在编码层1输出的特征图中加入轻量级注意力机制并将此特征图与上一层输出的特征图进行拼接,拼接后进行三次卷积,输出一张通道数为3的256*256的特征图。
4.根据权利要求1所述的基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,所述鉴别器包括输入层、隐藏层、输出层,所述输入层用于输入总计大小为256*256*6的两张图片,所述隐藏层用于对输入图像进行卷积计算,所述输出层用于输出结果。
5.根据权利要求4所述的基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,所述鉴别器隐藏层由5个卷积滤波器组成,具体为:
卷积层1:将总计大小为256*256*6的两张图片作为特征图输入,进行一次卷积输出一张通道数为32的128*128的特征图;
卷积层2:输入卷积层1输出的特征图,进行一次卷积,输出一张通道数为64的64*64的特征图;
卷积层3:输入卷积层2输出的特征图,进行一次卷积,输出一张通道数为128的32*32的特征图;
卷积层4:输入卷积层3输出的特征图,进行一次卷积,输出一张通道数为256的16*16的特征图;
卷积层5:输入卷积层4输出的特征图,进行一次卷积,输出16*16*1的信息分布矩阵。
6.根据权利要求1所述的基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,步骤3中的损失函数为:
式中,LcGAN为鉴别网络PatchGAN计算的鉴别器损失,λ1和λc为超参数缩放因子,L1为提升图像的全局相似性的增加式,Lcon为增强生成图像与目标图像间的构成内容相似性的增加式,G为与生成网络等价的映射,D为与鉴别网络等价的映射。
7.根据权利要求6所述的基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,鉴别网络Patch GAN计算的鉴别器损失具体为:
LcGAN(G,D)=EX,Y[logD(Y)]+EX,Y[log(1-D(X,G(X,Z)))]
其中,X和Y分别代表需要增强的水下图像信息和增强后的水下信息,Z代表输入的随机噪声,EX,Y(*)表示在X、Y作为自变量时分布函数的期望值。其中EX,Y[log(1-D(X,G(X,Z)))]为生成器损失函数,记为LG。
8.根据权利要求6所述的基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,提升图像的全局相似性的增加式具体为:
L1(G)=EX,Y,Z[||Y-G(X,Z)||1]
式中,EX,Y,Z(*)表示在X、Y、Z作为自变量时分布函数的期望值。
9.根据权利要求6所述的基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,增强生成图像与目标图像间的构成内容相似性的增加式具体为:
Lcon(G)=EX,Y,Z[||Θ(Y)-Θ(G(X,Z))||2]
其中,Θ(·)代表公开的预训练VGG-19网络模型中的block5_conv2层拟合的特征提取映射函数,用于提取水下图像的图像内容特征信息。
10.根据权利要求1所述的种基于轻量级注意力机制的水下图像色彩复原方法,其特征在于,步骤4中训练网络结构的具体步骤为:
将步骤1中的训练数据集输入生成对抗网络模型;
对指导训练过程的超参数进行定义;
生成器根据水下原始图像和随机噪声输出生成图;
鉴别器根据生成图和水下原始图像输出信息分布矩阵,利用均方对数误差计算方法计算矩阵与零矩阵的差值;
同时鉴别器根据对应的正常光图像和水下原始图像输出信息分布矩阵,利用均方对数误差计算方法计算矩阵与元素全为1的矩阵的差值;
将得到的两个差值取平均数即为鉴别器损失函数值,并通过采用ADAM优化器最小化鉴别器损失函数值来更新鉴别器的参数;
冻结鉴别器参数,将生成器生成图片与对应水下原始图像输入鉴别器获得鉴别器输出信息分布矩阵,利用均方对数误差计算方法计算该矩阵与零矩阵的差值,获得鉴别器损失LcGAN;同时利用均方对数误差算方法计算生成器生成图片与对应水下原始图像的差值;
将差值带入公式计算得到全局相似性增加式L1和内容相似性增加式Lcon;将LcGAN、L1、Lcon三者加权相加共同获得生成器损失函数值,并通过采用ADAM优化器最小化生成器损失函数值来更新生成器的参数;
通过循环执行上述过程不断更新生成器和鉴别器的参数以更新模型,直至循环结束;
在记录下的生成器损失函数值中选择对应最小损失函数值的模型作为最终模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310491245.8A CN116563693A (zh) | 2023-05-04 | 2023-05-04 | 基于轻量级注意力机制的水下图像色彩复原方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310491245.8A CN116563693A (zh) | 2023-05-04 | 2023-05-04 | 基于轻量级注意力机制的水下图像色彩复原方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563693A true CN116563693A (zh) | 2023-08-08 |
Family
ID=87501153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310491245.8A Pending CN116563693A (zh) | 2023-05-04 | 2023-05-04 | 基于轻量级注意力机制的水下图像色彩复原方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563693A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117211758A (zh) * | 2023-11-07 | 2023-12-12 | 克拉玛依市远山石油科技有限公司 | 用于浅孔取芯的智能钻进控制系统及方法 |
CN117495687A (zh) * | 2023-12-29 | 2024-02-02 | 清华大学深圳国际研究生院 | 一种水下图像增强方法 |
CN117911793A (zh) * | 2024-03-18 | 2024-04-19 | 南开大学 | 基于深度学习的海洋生物智能检测方法 |
-
2023
- 2023-05-04 CN CN202310491245.8A patent/CN116563693A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117211758A (zh) * | 2023-11-07 | 2023-12-12 | 克拉玛依市远山石油科技有限公司 | 用于浅孔取芯的智能钻进控制系统及方法 |
CN117211758B (zh) * | 2023-11-07 | 2024-04-02 | 克拉玛依市远山石油科技有限公司 | 用于浅孔取芯的智能钻进控制系统及方法 |
CN117495687A (zh) * | 2023-12-29 | 2024-02-02 | 清华大学深圳国际研究生院 | 一种水下图像增强方法 |
CN117495687B (zh) * | 2023-12-29 | 2024-04-02 | 清华大学深圳国际研究生院 | 一种水下图像增强方法 |
CN117911793A (zh) * | 2024-03-18 | 2024-04-19 | 南开大学 | 基于深度学习的海洋生物智能检测方法 |
CN117911793B (zh) * | 2024-03-18 | 2024-05-17 | 南开大学 | 基于深度学习的海洋生物智能检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116563693A (zh) | 基于轻量级注意力机制的水下图像色彩复原方法 | |
CN113284061B (zh) | 一种基于梯度网络的水下图像增强方法 | |
CN117197627B (zh) | 一种基于高阶退化模型的多模态图像融合方法 | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN115565056A (zh) | 基于条件生成对抗网络的水下图像增强方法及系统 | |
CN116739899A (zh) | 基于saugan网络的图像超分辨率重建方法 | |
Han et al. | UIEGAN: Adversarial learning-based photorealistic image enhancement for intelligent underwater environment perception | |
CN108921887A (zh) | 基于水下光线衰减先验性的水下场景深度地图估计方法 | |
CN116664446A (zh) | 基于残差密集块的轻量级暗光图像增强方法 | |
Saleem et al. | A non-reference evaluation of underwater image enhancement methods using a new underwater image dataset | |
Liu et al. | WSDS-GAN: A weak-strong dual supervised learning method for underwater image enhancement | |
Kumar et al. | Underwater image enhancement using deep learning | |
Yin et al. | Fmsnet: Underwater image restoration by learning from a synthesized dataset | |
Huang et al. | Underwater image enhancement based on color restoration and dual image wavelet fusion | |
Guan et al. | DiffWater: Underwater image enhancement based on conditional denoising diffusion probabilistic model | |
Gunawan et al. | Modernizing old photos using multiple references via photorealistic style transfer | |
Chen et al. | A defocus and similarity attention-based cascaded network for multi-focus and misaligned image fusion | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
CN117495718A (zh) | 一种多尺度自适应的遥感图像去雾方法 | |
Li et al. | UStark: underwater image domain-adaptive tracker based on Stark | |
Yang et al. | Underwater image restoration for seafloor targets with hybrid attention mechanisms and conditional generative adversarial network | |
Zou et al. | Diffcr: A fast conditional diffusion framework for cloud removal from optical satellite images | |
Huang et al. | An underwater image color correction algorithm based on underwater scene prior and residual network | |
Li et al. | Delving Deeper Into Image Dehazing: A Survey | |
Bakht et al. | MuLA-GAN: Multi-Level Attention GAN for Enhanced Underwater Visibility |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |