CN116596795A - 一种基于语义引导与注意力融合的水下图像增强方法 - Google Patents
一种基于语义引导与注意力融合的水下图像增强方法 Download PDFInfo
- Publication number
- CN116596795A CN116596795A CN202310615353.1A CN202310615353A CN116596795A CN 116596795 A CN116596795 A CN 116596795A CN 202310615353 A CN202310615353 A CN 202310615353A CN 116596795 A CN116596795 A CN 116596795A
- Authority
- CN
- China
- Prior art keywords
- semantic
- layer
- fusion
- attention
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims description 59
- 238000011176 pooling Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000008447 perception Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 230000015556 catabolic process Effects 0.000 abstract description 10
- 238000006731 degradation reaction Methods 0.000 abstract description 10
- 230000004438 eyesight Effects 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 241000196171 Hydrodictyon reticulatum Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Processing (AREA)
Abstract
本发明所述方法公开了一种基于语义引导与注意力融合的水下图像增强方法,本发明属于计算机视觉和机器学习技术领域。本发明所述方法在水下图像增强任务中利用语义线索以提升网络对语义相同区域的增强效果一致性,改善图像边缘模糊,在一些图像退化类型上罕见但在语义上相关的场景,语义信息为网络提供先验知识,改善模型表现,提升模型泛化能力;引入特征注意力融合机制,避免了跨域信息直接融合导致的上下文信息丢失,更好地组合语义信息与重建特征,最大程度发挥语义信息的引导作用;通过空间注意力与通道注意力的结合使用,能够为退化严重区域分配更合理的权重,提升图像的增强效果。
Description
技术领域
本发明属于计算机视觉和机器学习技术领域,具体涉及一种基于语义引导与注意力融合的水下图像增强方法。
背景技术
水下图像增强是计算机视觉领域中一个重要问题。水下图像增强技术是一种能够修复水下图像存在的色彩偏移、低对比度与模糊等水下退化问题,还原水下图像的真实色彩,重现水下真实场景。目前,水下图像在海洋环境监测、水下机器人技术、水下工程检测、搜救与救援领域有着广泛的应用,推动对海洋环境的认知以及海洋资源的勘探。但是受限于成像设备、水质、光照条件等因素,现有成像设备得到的水下图像往往呈现模糊、对比度低、颜色失真、细节缺失等问题,这增大了从水下图像中获取有效信息的难度。因此水下图像增强方法有着较大的现实意义与实用价值。
现有的基于深度学习的水下图像增强网络所使用的数据集大多可以分为水下合成数据集与真实场景水下数据集。对于第一种技术方案,水下合成数据集的图像质量与真实水下场景有较大差异,导致使用水下合成数据集下训练的水下图像增强网络在真实水下场景上的性能表现会有大幅度的降低。对于第二种技术方案,手工标注的方式费时费力,并且其挑选的ground truth也并不真实,一些数据集中标注的参考图像仍然存在偏色、模糊情况。
基于以上分析,建立更有效的学习机制对于挖掘可靠的监督信息和提升模型的泛化能力十分重要。现有技术在低级视觉任务中通过联合训练语义分割网络与增强网络的形式虽然能获得更准确的语义线索,但是联合训练的方式,会使模型的参数量过于庞大并且难以收敛,并不适合水下图像增强的场景。由于水下图像退化种类复杂,存在偏色,低照度,模糊等多种退化类型,现有技术的低照度增强算法中使用的亮度一致性损失函数不足以约束水下图像增强模型获得高质量增强图像。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于语义引导与注意力融合的水下图像增强方法。
本发明所提出的技术问题是这样解决的:
一种基于语义引导与注意力融合的水下图像增强方法,具体过程为:
构建水下图像增强网络,包括生成器、语义分割网络、语义融合模块和鉴别器;生成器包括编码器和解码器,编码器和解码器都包括N层,N为正整数;
语义分割网络用于实现对输入图像的语义图的获取;
编码器用于对输入图像进行特征提取,编码器第(N+1-i)层输出的编码特征分别输入至编码器下一层及解码器第i层,1≤i≤N;解码器第i层对解码器上一层的输出通过转置卷积进行上采样,得到解码器当前层的解码特征,再将编码器第(N+1-i)层输出的编码特征及解码器当前层的解码特征进行拼接,得到解码器第i层对应的拼接特征
解码器每层都对应有语义融合模块,语义融合模块用于将语义图与拼接特征进行语义融合,得到语义融合特征并输出至解码器对应层;语义融合模块包括依次连接的卷积层、下采样层和特征注意力模块;语义图输入至依次连接的卷积层和下采样层,得到语义感知特征;语义感知特征和解码器第i层对应的拼接特征输入至特征注意力模块,得到语义融合特征并输入至解码器第i层;
解码器用于利用语义融合特征生成重建图像;
在图像增强网络后级联鉴别器,鉴别器采用PatchGAN鉴别器;对水下图像增强网络进行训练与验证;
水下图像增强网络的损失函数LTotal为:
LTotal=λ1LPix+λ2LPer+λ3Ladv(G)
其中,LPix为重建损失函数,LPer为感知损失函数,Ladv(G)为生成器的对抗损失函数,λ1、λ2和λ3分别为LPix、LPer和Ladv(G)的权重;
将实时水下图像作为输入图像,输入至训练与验证完成的水下图像增强网络,得到增强图像。
进一步的,特征注意力模块包括初始特征融合模块、通道注意力机制与空间注意力机制和Sigmoid函数;
初始特征融合模块,用于对解码器第i层对应的语义感知特征Fi和拼接特征Ri的进行特征相加,输出初始融合特征Oi;初始融合特征Oi分别输入至通道注意力机制与空间注意力机制;
通道注意力机制包括全局平均池化层、全局最大池化层、卷积核1×1为的第一卷积层、第一ReLU函数和卷积核1×1为的第二卷积层;全局平均池化层和全局最大池化层分别对初始融合特征Oi进行全局平均池化和全局最大池化,对池化结果进行特征相加,输入至依次级联的第一卷积层、第一ReLU函数和第二卷积层,得到通道注意力权重矩阵Wc(Oi);
空间注意力机制包括依次级联的卷积核1×1为的第三卷积层、第二ReLU函数和卷积核1×1为的第四卷积层,得到空间注意力权重矩阵Ws(Oi);
通道注意力机制和空间注意力机制的输出进行特征相加后,输入至Sigmoid函数得到语义感知特征Fi的注意力权重矩阵W(Oi);
利用注意力权重矩阵W(Oi)对语义感知特征Fi和拼接特征Ri进行加权融合,得到语义融合特征Hi。
进一步的,通道注意力权重矩阵的计算公式如下:
其中,GAP表示全局平均池化操作,GMP表示全局最大池化操作,conv1和conv2分别表示第一卷积层和第二卷积层,δ表示第一ReLU函数,表示特征相加;
空间注意力权重矩阵的计算公式如下:
Ws(Oi)=conv4(δ'(conv3(Oi)))
其中,conv3和conv4分别表示第三卷积层和第四卷积层,δ'表示第二ReLU函数;
注意力权重矩阵W(Oi)表示为:
其中,σ表示Sigmoid函数;
语义融合特征Hi表示为:
其中,IH表示全1矩阵,表示元素乘法。
进一步的,重建损失函数LPix使用L2损失函数,表示为:
其中,I表示生成器输出的重建图像,IGT表示参考图像,(x,y)表示像素位置索引,1≤x≤H,1≤y≤W,H和W表示图像尺寸;
感知损失函数LPer的计算公式为:
其中,φ(Im)表示生成器输出的重建图像输入至VGG网络第m层的中间层特征,表示参考图像输入至VGG网络第m层的中间层特征,表示距离函数,1≤m≤M,M为VGG网络的层数;
对抗损失函数使用LSGAN函数。
进一步的,语义分割网络采用SUIM-Net。
本发明的有益效果是:
(1)本发明所述方法在水下图像增强任务中利用语义线索以提升网络对语义相同区域的增强效果一致性,改善图像边缘模糊,在一些图像退化类型上罕见但在语义上相关的场景,语义信息为网络提供先验知识,改善模型表现,提升模型泛化能力。
(2)本发明所述方法引入特征注意力融合机制,避免了跨域信息直接融合导致的上下文信息丢失,更好地组合语义信息与重建特征,最大程度发挥语义信息的引导作用。考虑到水下图像存在不均匀退化,通过空间注意力与通道注意力的结合使用,网络能够为退化严重区域分配更合理的权重,提升图像的增强效果。
附图说明
图1为本发明所述方法中水下图像增强网络的结构示意图;
图2为本发明所述方法中语义融合过程示意图;
图3为本发明所述方法中特征注意力模块的结构示意图;
图4为本发明所述方法与现有技术的水下图像增强效果对比示意图。
具体实施方式
下面结合附图和实施例对本发明进行进一步的说明。
本实施例提供一种基于语义引导与注意力融合的水下图像增强方法,具体过程为:
构建水下图像增强网络,如图1所示,水下图像增强网络包括生成器、语义分割网络和语义融合模块;
生成器的整体架构为类U-Net结构,包括编码器和解码器;编码器用于对输入图像进行特征提取,深层网络拥有更大的感受野,但其中下采样的过程不免会丢失一些边缘特征,这对图像修复是不利的;解码器用于对编码器提取的图像特征进行重建生成高质量图像,但是编码过程中下采样丢失的特征是永久的,无法通过上采样恢复,在U-Net结构中,通过对编码特征与解码特征进行特征拼接,实现边缘特征的找回;本实施例所述方法在特征拼接后引入语义信息,此时用于重建的特征包含更多纹理特征,引入对应语义信息从而引导解码器的图像重建过程。
语义分割网络用于实现对输入图像的语义图的获取,采用SUIM-Net。
Sk表示第k个实例类别的语义图信息,1≤k≤K,K为实例类别总数目,将所有实例类别的语义图信息在通道上相连,得到整体语义图S。
语义融合模块用于将语义图与拼接特征进行语义融合,得到语义融合特征并输出至解码器;语义融合模块包括依次连接的卷积层、下采样层和特征注意力模块;语义融合的过程示意图如图2所示。
语义图输入至卷积层得到语义特征,下采样层对语义特征进行下采样以适应多尺度的重建特征,得到语义感知特征Fi,表示为;
Fi=Down(Conv(S))
其中,Fi表示解码器第i层对应的语义感知特征,1≤i≤N,Conv表示卷积操作,Down表示下采样操作;
语义感知特征Fi和解码器第i层对应的拼接特征Ri输入至特征注意力模块中,得到语义融合特征Hi并输入至解码器第i层,实现跨域信息融合。
通过使用常用的运算符例如串联、加法或点乘能够直接进行特征融合。然而,这些算子往往体现了一种隐含的假设,即融合特征来自于相同的域或相同的源。如果对跨域的信息直接采用上述方式,可能会忽视一些重要上下文信息。因此,本实施例所述方案构建一种新的融合机制,创建特征注意力模块,以充分利用各种特性。
特征注意力模块包含通道注意力与空间注意力的混合注意力机制,从而在通道与空间维度获取更为重要的信息,实现基于混合注意力机制的特征融合,以充分利用跨域特征;
特征通道内与水下图像退化相关的特征分布并不均匀,使用通道注意力机制发现与图像增强相关的特征,为各个通道分配不同的关注权重。此外,随着水源深度、拍摄距离、微生物分布等因素变化,图像的退化程度在空间上分布是不均匀的,通过引入空间注意力机制,识别图像退化更加严重的区域,为其分配更加合理的权重。
如图3所示,特征注意力模块包括初始特征融合模块、通道注意力机制与空间注意力机制和Sigmoid函数;
初始特征融合模块,用于对语义感知特征Fi和拼接特征Ri的特征相加,输出初始融合特征Oi;初始融合特征Oi分别输入至通道注意力机制与空间注意力机制;
通道注意力机制包括全局平均池化层、全局最大池化层、卷积核1×1为的第一卷积层、第一ReLU函数和卷积核1×1为的第二卷积层;全局平均池化层和全局最大池化层分别对初始融合特征Oi进行全局平均池化和全局最大池化,对池化结果进行特征相加,输入至依次级联的第一卷积层、第一ReLU函数和第二卷积层,得到通道注意力权重矩阵Wc(Oi),实现空间信息的聚合;
通道注意力权重矩阵的计算公式如下:
其中,GAP表示全局平均池化操作,GMP表示全局最大池化操作,conv1和conv2分别表示第一卷积层和第二卷积层,δ表示第一ReLU函数,表示特征相加。
空间注意力机制包括依次级联的卷积核1×1为的第三卷积层、第二ReLU函数和卷积核1×1为的第四卷积层,得到空间注意力权重矩阵Ws(Oi);
空间注意力权重矩阵的计算公式如下:
Ws(Oi)=conv4(δ'(conv3(Oi)))
其中,conv3和conv4分别表示第三卷积层和第四卷积层,δ'表示第二ReLU函数。
通道注意力机制和空间注意力机制的输出进行特征相加后,输入至Sigmoid函数得到语义感知特征Fi的注意力权重矩阵W(Oi):
其中,σ表示Sigmoid函数;
利用注意力权重矩阵W(Oi)对语义感知特征Fi和拼接特征Ri进行加权融合,得到语义融合特征Hi:
其中,IH表示全1矩阵,表示元素乘法。
对水下图像增强网络进行训练与验证;
在图像增强网络后级联鉴别器,鉴别器采用PatchGAN鉴别器,PatchGAN鉴别器输出的是一个二元矩阵,每个元素代表着输入图像中的局部区域,鉴别器需要根据多个局部区域真伪来判断最终的真伪结果,适用于更关注纹理细节的水下图像增强任务。
水下图像增强网络的损失函数由重建损失函数、感知损失函数以及对抗损失函数构成;
使用L2损失函数作为重建损失函数来最小化像素级误差,重建损失函数LPix的计算公式为:
其中,I表示生成器输出的重建图像,IGT表示参考图像,(x,y)表示像素位置索引,1≤x≤H,1≤y≤W,H和W表示图像尺寸。
相较于像素级别的重建损失函数更注重像素间的相似程度,感知损失函数则更注重语义上相似性。感知损失函数LPer的计算公式为:
其中,φ(Im)表示生成器输出的重建图像输入至VGG网络第m层的中间层特征,表示参考图像输入至VGG网络第m层的中间层特征,表示距离函数,1≤m≤M,M为VGG网络的层数。
使用LSGAN函数作为对抗损失函数。
水下图像增强网络的损失函数LTotal为:
LTotal=λ1LPix+λ2LPer+λ3Ladv(G)
其中,Ladv(G)为生成器的对抗损失函数,λ1、λ2和λ3分别为LPix、LPer和Ladv(G)的权重。
将实时水下图像作为输入图像,输入至训练验证完成的水下图像增强网络,得到增强图像。
本实施例所述方法在经典的水下成对数据集SUIM、UIEB数据集上进行训练与验证,使用全参考度量PSNR、SSIM结合非参考度量UIQM、UCIQE对水下图像增强网络的修复质量进行评价。全参考度量通过比较水下图像增强网络输出的增强图像与参考图像之间的差异,分析水下图像增强网络输出图像的失真程度,从而得到网络增强效果的质量评估。非参考度量根据人类视觉系统特性,结合色度、饱和度、对比度定量评估增强图像的不均匀色差、模糊以及低对比度。
表1与表2分别展示了不同方法在SUIM数据集与UIEB数据集上的定量评价指标结果。综合多种评价指标可以得到,本实施例所述方法总体上取得了更好的结果。从全参考度量评价指标上来看,本实施例所述方法在SUIM数据集与UIEB数据集上均取得了最好的效果,PSNR指标在两个数据集上相较于第二名分别提升了13.1%与9.1%,在结构相似指数SSIM上取得的分数也证明了本实施例所述水下图像增强网络在细节纹理上修复效果的优越性。从非参考度量评价指标上来看,本实施例所述方法在基于深度学习的模型中也取得了良好的效果,与CLUIE-NET的分数相近。现有的水下图像增强方法在修复过程中包含白平衡、提升图像对比度与色彩饱和度的操作,这迎合了UIQM与UCIQE对图像的评价过程,因此现有方法在非参考度量上取得了更好的分数,但是更高的UIQM和UCIQE分数并不会带来更好的主观视觉感受。
表1与现有的水下图像增强算法在SUIM数据集进行定量比较
表2与现有的水下图像增强算法在UIEB数据集进行定量比较
图4为本实施例所述方法与不同的现有的水下图像增强方法在SUIM、UIEB数据集上的视觉效果对比图,其中,第一列为原图,第二列为使用CBF算法生成的图像,第三列为使用ULAP算法生成的图像,第四列为使用Water-Net生成的图像,第五列为Ucolor算法生成的图像,第六列为使用CLUIE-NET生成的图像,第七列为本实施例所述方法生成的图像,第八列为参考图像。不基于深度学习的CBF算法与ULAP算法的视觉表现较差,CBF算法在复杂场景会引入一些不存在颜色,色彩表现不够真实。ULAP算法由于引入了过多红色分量,其修复图像存在一定的红色偏现象。这说明了水下环境较为复杂,随着环境的变更,泛化能力与鲁棒性较弱,图像修复效果较差。基于深度学习的方法在视觉效果上表现普遍较好,但是Water-Net得到修复图像整体色调偏暗,Ucolor的色彩表现较好,但是不能很好地改善低对比度与模糊问题。而CLUIE-NET存在修复性能不够稳定的问题,部分照片的色彩表现失真,整体色调偏红或偏暗。与此对比,本实施例所述方法在水下色彩偏差严重的图像上能够提供稳定的颜色矫正,并且不会引入额外的色彩偏差,同时能够提高图像的对比度,改善水下光照不足引起的图像偏暗现象。
Claims (5)
1.一种基于语义引导与注意力融合的水下图像增强方法,其特征在于,具体过程为:
构建水下图像增强网络,包括生成器、语义分割网络、语义融合模块和鉴别器;生成器包括编码器和解码器,编码器和解码器都包括N层,N为正整数;
语义分割网络用于实现对输入图像的语义图的获取;
编码器用于对输入图像进行特征提取,编码器第(N+1-i)层输出的编码特征分别输入至编码器下一层及解码器第i层,1≤i≤N;解码器第i层对解码器上一层的输出进行上采样,得到解码器当前层的解码特征,再将编码器第(N+1-i)层输出的编码特征及解码器当前层的解码特征进行拼接,得到解码器第i层对应的拼接特征;
解码器每层都对应有语义融合模块,语义融合模块用于将语义图与拼接特征进行语义融合,得到语义融合特征并输出至解码器对应层;语义融合模块包括依次连接的卷积层、下采样层和特征注意力模块;语义图输入至依次连接的卷积层和下采样层,得到语义感知特征;语义感知特征和解码器第i层对应的拼接特征输入至特征注意力模块,得到语义融合特征并输入至解码器第i层;
解码器用于利用语义融合特征生成重建图像;
在图像增强网络后级联鉴别器,鉴别器采用PatchGAN鉴别器;对水下图像增强网络进行训练与验证;
水下图像增强网络的损失函数LTotal为:
LTotal=λ1LPix+λ2LPer+λ3Ladv(G)
其中,LPix为重建损失函数,LPer为感知损失函数,Ladv(G)为生成器的对抗损失函数,λ1、λ2和λ3分别为LPix、LPer和Ladv(G)的权重;
将实时水下图像作为输入图像,输入至训练与验证完成的水下图像增强网络,得到增强图像。
2.根据权利要求1所述的基于语义引导与注意力融合的水下图像增强方法,其特征在于,特征注意力模块包括初始特征融合模块、通道注意力机制与空间注意力机制和Sigmoid函数;
初始特征融合模块,用于对解码器第i层对应的语义感知特征Fi和拼接特征Ri的进行特征相加,输出初始融合特征Oi;初始融合特征Oi分别输入至通道注意力机制与空间注意力机制;
通道注意力机制包括全局平均池化层、全局最大池化层、卷积核1×1为的第一卷积层、第一ReLU函数和卷积核1×1为的第二卷积层;全局平均池化层和全局最大池化层分别对初始融合特征Oi进行全局平均池化和全局最大池化,对池化结果进行特征相加,输入至依次级联的第一卷积层、第一ReLU函数和第二卷积层,得到通道注意力权重矩阵Wc(Oi);
空间注意力机制包括依次级联的卷积核1×1为的第三卷积层、第二ReLU函数和卷积核1×1为的第四卷积层,得到空间注意力权重矩阵Ws(Oi);
通道注意力机制和空间注意力机制的输出进行特征相加后,输入至Sigmoid函数得到语义感知特征Fi的注意力权重矩阵W(Oi);
利用注意力权重矩阵W(Oi)对语义感知特征Fi和拼接特征Ri进行加权融合,得到语义融合特征Hi。
3.根据权利要求2所述的基于语义引导与注意力融合的水下图像增强方法,其特征在于,通道注意力权重矩阵的计算公式如下:
其中,GAP表示全局平均池化操作,GMP表示全局最大池化操作,conv1和conv2分别表示第一卷积层和第二卷积层,δ表示第一ReLU函数,表示特征相加;
空间注意力权重矩阵的计算公式如下:
Ws(Oi)=conv4(δ'(conv3(Oi)))
其中,conv3和conv4分别表示第三卷积层和第四卷积层,δ'表示第二ReLU函数;
注意力权重矩阵W(Oi)表示为:
其中,σ表示Sigmoid函数;
语义融合特征Hi表示为:
其中,IH表示全1矩阵,表示元素乘法。
4.根据权利要求1所述的基于语义引导与注意力融合的水下图像增强方法,其特征在于,重建损失函数LPix使用L2损失函数,表示为:
其中,I表示生成器输出的重建图像,IGT表示参考图像,(x,y)表示像素位置索引,1≤x≤H,1≤y≤W,H和W表示图像尺寸;
感知损失函数LPer的计算公式为:
其中,φ(Im)表示生成器输出的重建图像输入至VGG网络第m层的中间层特征,表示参考图像输入至VGG网络第m层的中间层特征,表示距离函数,1≤m≤M,M为VGG网络的层数;
对抗损失函数使用LSGAN函数。
5.根据权利要求1所述的基于语义引导与注意力融合的水下图像增强方法,其特征在于,语义分割网络采用SUIM-Net。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310615353.1A CN116596795A (zh) | 2023-05-29 | 2023-05-29 | 一种基于语义引导与注意力融合的水下图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310615353.1A CN116596795A (zh) | 2023-05-29 | 2023-05-29 | 一种基于语义引导与注意力融合的水下图像增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116596795A true CN116596795A (zh) | 2023-08-15 |
Family
ID=87593543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310615353.1A Pending CN116596795A (zh) | 2023-05-29 | 2023-05-29 | 一种基于语义引导与注意力融合的水下图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596795A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853348A (zh) * | 2024-03-07 | 2024-04-09 | 中国石油大学(华东) | 一种基于语义感知的水下图像增强方法 |
CN118071656A (zh) * | 2024-04-22 | 2024-05-24 | 清华大学深圳国际研究生院 | 一种基于Vision Transformer的水下图像增强方法 |
-
2023
- 2023-05-29 CN CN202310615353.1A patent/CN116596795A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853348A (zh) * | 2024-03-07 | 2024-04-09 | 中国石油大学(华东) | 一种基于语义感知的水下图像增强方法 |
CN118071656A (zh) * | 2024-04-22 | 2024-05-24 | 清华大学深圳国际研究生院 | 一种基于Vision Transformer的水下图像增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Enhancement of underwater images with statistical model of background light and optimization of transmission map | |
Qi et al. | SGUIE-Net: Semantic attention guided underwater image enhancement with multi-scale perception | |
Liu et al. | Adaptive learning attention network for underwater image enhancement | |
Huang et al. | Underwater image enhancement via adaptive group attention-based multiscale cascade transformer | |
CN116596795A (zh) | 一种基于语义引导与注意力融合的水下图像增强方法 | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
CN114998145B (zh) | 一种基于多尺度和上下文学习网络的低照度图像增强方法 | |
CN111882489A (zh) | 用于水下图像同时增强的超分辨率图形恢复方法 | |
Fu et al. | Twice mixing: a rank learning based quality assessment approach for underwater image enhancement | |
CN111145290A (zh) | 一种图像彩色化方法、系统和计算机可读存储介质 | |
CN114881871A (zh) | 一种融合注意力单幅图像去雨方法 | |
CN111882516B (zh) | 一种基于视觉显著性和深度神经网络的图像质量评价方法 | |
CN115170427A (zh) | 基于弱监督学习的图像镜面高光去除方法 | |
Liu et al. | WSDS-GAN: A weak-strong dual supervised learning method for underwater image enhancement | |
CN117670687A (zh) | 一种基于CNN和Transformer混合结构的水下图像增强方法 | |
Yang et al. | Bistnet: Semantic image prior guided bidirectional temporal feature fusion for deep exemplar-based video colorization | |
Song et al. | Dual-model: Revised imaging network and visual perception correction for underwater image enhancement | |
Peng et al. | Raune-Net: a residual and attention-driven underwater image enhancement method | |
CN113436107A (zh) | 图像增强方法、智能设备、计算机存储介质 | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
Liu et al. | Learning multiscale pipeline gated fusion for underwater image enhancement | |
CN116777776A (zh) | 一种基于全局频率域滤波的快速低光图像增强方法 | |
CN116109510A (zh) | 一种基于结构和纹理对偶生成的人脸图像修复方法 | |
CN116363001A (zh) | 一种结合rgb和hsv颜色空间的水下图像增强方法 | |
CN116416216A (zh) | 基于自监督特征提取的质量评价方法、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |