CN117078556A - 一种水域自适应水下图像增强方法 - Google Patents
一种水域自适应水下图像增强方法 Download PDFInfo
- Publication number
- CN117078556A CN117078556A CN202311115642.1A CN202311115642A CN117078556A CN 117078556 A CN117078556 A CN 117078556A CN 202311115642 A CN202311115642 A CN 202311115642A CN 117078556 A CN117078556 A CN 117078556A
- Authority
- CN
- China
- Prior art keywords
- features
- convolution
- water
- water area
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000002776 aggregation Effects 0.000 claims abstract description 12
- 238000004220 aggregation Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000006698 induction Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 230000008033 biological extinction Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 40
- 238000006731 degradation reaction Methods 0.000 description 12
- 230000015556 catabolic process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种水域自适应水下图像增强方法,该方法包含以下步骤:1)基于多组卷积和稀疏网格注意力的特征提取方法,对输入水下图像进行编码,获得局部细节和全局色彩轮廓信息的编码特征;2)将水下环境的域间差异构建为水域分类问题,利用不同水域间的差异性信息生成对水域敏感特征,实现不同水域的图像增强;3)基于水域敏感特征生成的增强图像,使用聚合损失和多阶段训练策略约束增强结果,实现高质量水下图像增强。本发明所提出的水域自适应方法,充分利用了不同水域的域间差异,以及局部和全局信息的差异性,实现了自适应的、高质量的水下图像增强。
Description
技术领域
本发明涉及水下图像增强技术领域,具体涉及一种水域自适应水下图像增强方法。
背景技术
随着经济的发展和能源需求的增加,对水下资源的开发和利用日益迫切。然而,水下图成像的特殊性使得水下图像质量较低,水下环境的复杂性使得退化图像呈现多样性,从而对环境保护和能源开发领域的应用提出了挑战。水下图像增强技术通过改善水下图像的清晰度、对比度和细节还原,可以提供更真实、可靠的水下视觉信息,从而支持水下工作的开展。不同于传统陆地图像增强技术,水下图像增强方法需要考虑水下环境、色彩失真、散射和噪声影响等因素呈现真实场景的细节和色彩,但是在不同水域环境中上述因素有所差异,导致采集的水下图像呈现多种退化现象。因此,水下图像增强技术可以视为一个具有域间差异的图像处理问题。
水下图像增强方法通常可分为三种,分别为:基于物理模型的方法、基于图像的方法和基于学习的方法。基于物理模型的方法基于对光在水下传播、散射衰减和颜色失真等水下图像的退化过程建立物理模型,利用该模型和水下光学先验知识反演退化过程,得到退化前的水下图像。这类方法能够友好地理解和模拟水下光学现象,对于增强的水下图像有较好的理论基础和可解释性。然而,基于物理模型的方法往往过于依赖大量的先验知识和对环境参数的准确估计,且当应对新的水下场景或复杂的水下场景时需要建立新的物理模型,严重限制了该类方法在实际应用的灵活性和普适性。第二类基于图像的方法不考虑成像过程,直接对水下图像进行处理,利用简单的图像处理算法对水下图像进行增强,通过直接调整像素值改善图像的可视化效果。基于图像的增强方法具有计算效率高和简单易用的特点。然而,这种方法无法很好地处理复杂场景下的光照衰减和散射现象,可能会导致增强结果不够准确或产生其他图像伪影。基于学习的水下图像增强方法通过训练模型从大量的水下图像数据中学习特征和规律,以实现图像增强。这类方法通常使用深度学习技术,如卷积神经网络(CNN)和生成对抗网络(GAN)。基于学习的方法能够通过大规模数据的学习提取水下图像中的特征,从而更好地处理光照衰减、色彩失真和散射等问题。基于学习的方法能够通过大规模数据的学习提取水下图像中的特征,从而更好地处理光照衰减、色彩失真和散射等问题。然而,基于学习的方法通常不能兼顾全局信息的恢复和局部细节的处理,且通常无法应对水域多样性导致的水下图像分布的多样性。上述三种方法虽然能够有效提升水下图像质量,但模型的鲁棒性和泛化能力有限,并不能通过一个独立的模型解决由于水下环境的域间差异导致的水下图像退化的多样性。
目前水下图像增强技术的关键在于如何有效地学习退化图像到清晰图像的映射关系,如何利用水下环境的域间差异实现不同水域的自适应水下图像增强,如何利用全局色彩轮廓和局部细节纹理确保增强图像能够最大限度得与真实清晰图像保持高度一致等。
发明内容
本发明要解决的技术问题是:克服了现有算法对应对多种水下场景的退化图像表现出环境适应性差的特点,提供了一种水域自适应的水下图像增强方法,利用水下环境的域间差异和水类型分类网络,提高了模型对水域的敏感性;克服了主流的基于学习的算法增强的水下图像存在丢失细节和去噪效果不佳的现象,提出了基于多组卷积和稀疏网格注意力的特征提取方法;克服了基于学习的算法的增强结果不稳定的现象,利用跳跃连接提高了模型的稳定性,提出了一种聚合损失函数和训练策略。
本发明采用的技术方案为:一种水域自适应的水下图像增强方法,包括以下步骤:
步骤(1)、基于多组卷积和稀疏网格注意力的特征提取方法:使用卷积操作对输入图像进行初步处理,对于输入的特征,使用多组卷积使模型聚焦局部细节,增强局部特征模型对布局特征的感知能力,利用稀疏网格注意力建模全局信息,保留全局色彩轮廓,利用最大池化实现特征在空间维度的下采样,获得编码特征;提出了多组卷积提取局部特征方法,利用了稀疏网格注意力高效地建模全局信息,增强了模型对全局整体内容和局部细节信息感知能力,在保持高效性的同时提升了计算效率,减少了不必要的计算操作;
步骤(2)、基于水下环境域间差异的水域自适应方法:通过步骤(1)编码特征,利用分类网络和交叉熵损失函数约束,获得输入图像的水域类型,从水类型分类网络提取水域相关特征,结合编码特征,使用空间和通道维度的融合策略,获得对水域敏感特征;利用了水域的域间差异和水类型分类网络抽取了输入图像的水域信息,提出了水域敏感特征的构建方法,该敏感特征能够有效指引编码器在特定的水域环境中重建水下图像,使得增强图像能够更准确地恢复真实的水域环境的细节、颜色和纹理特征,保证增强结果和对应水域具有自适应性和一致性
步骤(3)、基于水域敏感特征诱导和聚合损失函数的图像增强:通过步骤(2)获得的水域敏感特征,使用步骤(1)所提出的特征提取方法,结合Bicubic算法插值实现特征在空间维度的上采样,使用聚合损失函数约束增强结果,并利用多阶段训练策略增强模型的鲁棒性;将步骤(2)构建的水域敏感特征作为解码器的输入,并通过使用步骤(1)所述的特征提取方法提取特征信息,提出了一个由平方差损失L2、颜色损失L2和梯度损失LGrad组成的聚合损失用于度量增强图像和清晰图像之间的差异,利用了平方差损失使得增强后的图像在像素级别上更接近清晰图像,利用了颜色损失避免出现不自然或者失真的颜色效果,利用了梯度损失帮助图像保持结构和纹理。
进一步的:步骤(1)的具体内容如下:
对于输入的退化的水下图像,首先使用两层卷积层实现对输入数据的初步处理和特征提取,且对特征中局部和全局信息采用不同的手段进行关注;
对于特征中的局部信息,利用基于多组卷积局部特征提取方法获得,将输入特征在通道维度均匀划分多个分组,每个分组包含相同通道数的输入,将卷积核按照输出通道数划分为多个分组,每个分组包含和通道数相同的卷积核,对于每组数据,使用对应的卷积核进行卷积操作,对于编码网络中的第i层,多组卷积表示如下:
其中,MGC(·)为多组卷积操作,由多个单组卷积操作Gg(·)组成,Di-1∈RC×H×W为当前层输入,g为在通道维度划分的组数,为输入特征Zi的连续子集,Concat(·)为在通道维度串联g组特征,利用批量正则化和ReLU激活函数防止梯度消失和梯度爆炸,ConP(·)为点卷积操作;
对于特征中的全局信息,利用稀疏网格注意力特征提取方法获得,将经过多组卷积操作的特征作为该阶段输入特征,使用固定大小为(G,G)的网格将特征网格并块化为特征大小为/>获得具有全局信息的窗口特征,在该窗口内执行多头注意力操作,以获取全局信息,多头注意力操作定义如下:
其中,T为转置操纵,h为注意力头的数量,/>为比例因子,fpro为非线性映射函数,Softmax(·)为归一化操作,对于编码网络中的第i层,一个完整的稀疏网格注意力SGA(·)操作流程如下:
其中,fgb(·)为对特征的先网格化后块化的操作,LN(·)为正则化操作,FFN(·)为前馈层,fubg(·)为将特征返回至形状大小(C,H,W)的操作,通过对特征执行卷积映射和最大池化操作进行下采样,得到特征Di;
上述步骤迭代四次得到信息更加丰富、全面的编码特征D4。
其中,步骤一中局部信息为细节、纹理,全局信息为色彩、轮廓。
进一步的:步骤(2)的具体内容如下:
利用一个由卷积神经网络搭建的水类型分类器,获取步骤(1)获得的编码特征的水域信息,表示如下:
D(D4)=Maxpool(fD(D4))
其中,D(·)为水域分类网络,fD(·)为非线性映射,Maxpool(·)为最大池化操作,该分类网络具有Ic、两个输出;
Ic是一个长度和水域数量相等的一维向量,用于预测水类型,利用交叉熵损失函数来衡量预测结果和真实标签之间的差异,交叉熵损失LN(·,·)表示如下:
其中,C为正确水类型,c为预测水类型,当C=c时,yc=1,否则yc=0,N为水类型的数量;
为水域分类网络中间层的输出,使用反卷积将/>映射到和Z4相同的维度,二者在通道维度串联,串联后的特征在空间维度经过点卷积处理后生成对水域敏感特征,该过程F(·,·)表示如下:
其中,F(·,·)为生成水域敏感特征的映射过程,ConvT(·)为反卷积操作,生成的水域敏感特征I,用于指导编码网络在对应的水域中重建水下图像
进一步的:步骤(3)的具体内容如下:
使用和编码网络对称的解码网络重建清晰的水下图像,除利用步骤(1)提出的特征提取方法解码信息外,还利用双线性差值实现特征的上采样,利用跳跃连接将解码阶段的输入和编码阶段对应层的输出在通道维度进行串联,被用于避免信息丢失,对于解码阶段的第i层,解码过程如下:
E′i=SGA(MGC(Concat(Ei-1,D4-i)))
对输出特征D′i执行双线性差值上采样,获得当前解码层输出Ei;
重复迭代上述操作四次,得到特征E4,利用卷积映射得到通道数为3,宽高和输入图像相等的增强水下图像Y,利用聚合损失约束增强图像,聚合损失LTotal(·,·)如下:
LTotal(Y,Yg)=αL2(Y,Yg)+βLGrad(Y,Yg)+γLcolor(Y,Yg)
其中,Yg分别清晰图像,α、β和γ为权重项,L2(Y,Yg)=‖Yg-Y‖2为重建损失,为梯度损失,/> ΔR、ΔG和ΔB分别表示增强图像Y和清晰图像Yg在RGB颜色空间中各个颜色通道之间的差值,/>
本发明的原理在于:
(1)本发明提出的基于多组卷积和稀疏网格注意力的特征提取方法,利用多组卷积提取局部信息,保留细节的同时去除噪声,并利用稀疏网格注意力提取全局信息,去除水雾色彩的同时增强轮廓,实现了不同图像内容的相互补充优化,降低了模型的计算参数,有效地帮助了模型学习水下图像中退化部分与清晰图像之间的映射关系。
(2)本发明提出的基于水下环境的域间差异的水域自适应方法,利用了不同水域环境的差异性信息生成对水域敏感特征,有效地保证了增强结果在不同水域中的准确性,提高图像质量和可视化效果,实现了针对不同水域的图像增强。
(3)本发明提出的基于水域敏感特征诱导和聚合损失函数的图像增强,利用水域敏感特征指引解码网络在指定水下场景中重建水下图像,有效地提升了增强图像和水域环境的一致性,利用多个损失函数给模型提供更多的反馈信号,针对图像的不同内容进行指导,提出多阶段的训练方法,有效提高了模型的稳定性,提高了增强图像和清晰图像的一致性。
本发明与现有技术相比的优点在于:
1、本发明提出了一种基于多组卷积和稀疏网格注意力特征提取方法,该方法具有出色的信息保护能力。一方面,它通过多组卷积操作聚焦于局部信息,另一方面,采用稀疏网格注意力来保留全局色彩轮廓。有效地解决了细节丢失和色彩失真的问题,实现了不同信息之间的相互优化,且具备更少的计算参数和更低的复杂度。
2、对比已有的水下图像增强算法,本算法提出的基于水类型分类的水域自适应方法,模型根据水域的类型采用相应的增强策略,提升了模型的泛化能力,保证了增强结果和退化场景的一致性,使得增强结果更加准确和可靠。
3、本发明所提出的聚合损失和多阶段训练策略,综合考虑多个因素进行优化,提供更丰富的反馈信号,避免了过拟合和欠拟合的问题,并能够在优化过程中更好地平衡各个因素。通过逐步优化各个子任务,使得每个阶段的训练更加专注和有效。这种策略有助于加快模型的收敛速度和学习效率,提高了算法的稳定性和可靠性。
附图说明
图1为本发明所述一种水域自适应的水下图像增强方法的流程图:
图2为在成对人工合成水下数据集,类型为1的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图3为在成对人工合成水下数据集,类型为3的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图4为在成对人工合成水下数据集,类型为5的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图5为在成对人工合成水下数据集,类型为7的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图6为在成对人工合成水下数据集,类型为9的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图7为在成对人工合成水下数据集,类型为I的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图8为在成对人工合成水下数据集,类型为II的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图9为在成对人工合成水下数据集,类型为III的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图10为在成对真实水下数据集UIEB的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图11为在成对真实水下数据集EUVP的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图12为在成对真实水下数据集UFO-120的增强效果对比图(左上角为PSNR值和SSIM值,二者数值越大表示增强效果越好);
图13为在非成对真实水下数据集UCCS,色调为蓝色的增强效果对比图(左上角为UIQM值,UIQM数值越大增强效果越好);
图14为在非成对真实水下数据集UCCS,色调为绿色的增强效果对比图(左上角为UIQM值,UIQM数值越大增强效果越好);
图15为在非成对真实水下数据集UCCS,色调为蓝绿色的增强效果对比图(左上角为UIQM值,UIQM数值越大增强效果越好);
图16为在非成对真实水下数据集UCCS,退化等级为A的增强效果对比图(左上角为UIQM值,UIQM数值越大增强效果越好);
图17为在非成对真实水下数据集UCCS,退化等级为B的增强效果对比图(左上角为UIQM值,UIQM数值越大增强效果越好);
图18为在非成对真实水下数据集UCCS,退化等级为C的增强效果对比图(左上角为UIQM值,UIQM数值越大增强效果越好);
图19为在非成对真实水下数据集UCCS,退化等级为D的增强效果对比图(左上角为UIQM值,UIQM数值越大增强效果越好);
图20为在非成对真实水下数据集UCCS,退化等级为E的增强效果对比图(左上角为UIQM值,UIQM数值越大增强效果越好);
图21为在成对人工合成水下图像数据集的统计结果对比图;
图22为在成对UIEB、EUVP和UFO真实水下图像数据集的统计结果对比图;
图23为在非成对UIQS和UCCS真实水下图像数据集的统计结果对比图。
具体实施方式
下面结合附图及具体实施方式进一步说明本发明。
图1给出水域自适应水下图像增强方法的总体处理流程。
本发明提供一种水域自适应水下图像增强方法,其主要步骤介绍如下:
步骤(1)、基于多组卷积和稀疏网格注意力的特征提取方法:
对于输入的退化的水下图像,首先使用两层卷积层实现对输入数据的初步处理和特征提取,为了使得生成的编码特征具备更加全面的信息,需要对特征中局部和全局信息采用不同的手段进行关注;
对于特征中的细节、纹理等局部信息,利用基于多组卷积局部特征提取方法获得,将输入特征在通道维度均匀划分多个分组,每个分组包含相同通道数的输入,将卷积核按照输出通道数划分为多个分组,每个分组包含和通道数相同的卷积核,对于每组数据,使用对应的卷积核进行卷积操作,对于编码网络中的第i层,多组卷积表示如下:
其中,MGC(·)为多组卷积操作,由多个单组卷积操作Gg(·)组成,用于学习对应通道特征的局部信息,Di-1∈RC×H×W为当前层输入,g为在通道维度划分的组数,为输入特征Zi的连续子集,Concat(·)为在通道维度串联g组特征,利用批量正则化和ReLU激活函数防止梯度消失和梯度爆炸,ConP(·)为点卷积操作,促进不同组特征之间的信息交互;
对于特征中的色彩、轮廓等全局信息,利用稀疏网格注意力特征提取方法获得,将经过多组卷积操作的特征作为该阶段输入特征,使用固定大小为(G,G)的网格将特征网格并块化为特征大小为/>获得具有全局信息的窗口特征,在该窗口内执行多头注意力操作,以获取全局信息,多头注意力操作定义如下:
其中,T为转置操纵,h为注意力头的数量,/>为比例因子,fpro为非线性映射函数,Softmax(·)为归一化操作,对于编码网络中的第i层,一个完整的稀疏网格注意力SGA(·)操作流程如下:
其中,fgb(·)为对特征的先网格化后块化的操作,LN(·)为正则化操作,FFN(·)为前馈层,fubg(·)为将特征返回至形状大小(C,H,W)的操作,通过对特征执行卷积映射和最大池化操作进行下采样,得到特征Di;
上述步骤迭代四次得到信息更加丰富、全面的编码特征D4;
步骤(2)、基于水下环境域间差异的水域自适应方法:
利用一个由卷积神经网络搭建的水类型分类器,获取步骤(1)获得的编码特征的水域信息,表示如下:
D(D4)=Maxpool(fD(D4))
其中,D(·)为水域分类网络,fD(·)为非线性映射,Maxpool(·)为最大池化操作,该分类网络具有Ic、两个输出;
Ic是一个长度和水域数量相等的一维向量,用于预测水类型,利用交叉熵损失函数来衡量预测结果和真实标签之间的差异,交叉熵损失LN(·,·)表示如下:
其中,C为正确水类型,c为预测水类型,当C=c时,yc=1,否则yc=0,N为水类型的数量;
为水域分类网络中间层的输出,使用反卷积将/>映射到和Z4相同的维度,二者在通道维度串联,串联后的特征在空间维度经过点卷积处理后生成对水域敏感特征,该过程F(·,·)表示如下:
其中,F(·,·)为生成水域敏感特征的映射过程,ConvT(·)为反卷积操作,生成的水域敏感特征I,用于指导编码网络在对应的水域中重建水下图像;
步骤(3)、基于水域敏感特征诱导和聚合损失函数的图像增强:
使用和编码网络对称的解码网络重建清晰的水下图像,除利用步骤(1)提出的特征提取方法解码信息外,还利用双线性差值实现特征的上采样,利用跳跃连接将解码阶段的输入和编码阶段对应层的输出在通道维度进行串联,被用于避免信息丢失,对于解码阶段的第i层,解码过程如下:
E′i=SGA(MGC(Concat(Ei-1,D4-i)))
对输出特征D′i执行双线性差值上采样,获得当前解码层输出Ei;
重复迭代上述操作四次,得到特征E4,利用卷积映射得到通道数为3,宽高和输入图像相等的增强水下图像Y,利用聚合损失约束增强图像,聚合损失LTotal(·,·)如下:
LTotal(Y,Yg)=αL2(Y,Yg)+βLGrad(Y,Yg)+γLcolor(Y,Yg)
其中,Yg分别清晰图像,α、β和γ为权重项,L2(Y,Yg)=‖Yg-Y‖2为重建损失,用于恢复基本的图像信息,为梯度损失,用于保留和增强细节纹理,ΔR、ΔG和ΔB分别表示增强图像Y和清晰图像Yg在RGB颜色空间中各个颜色通道之间的差值,/>
本发明采用的编解码结构,通过在模型的瓶颈期提取对水域敏感特征诱导解码器在指定水域场景下生成清晰的水下图像。为此提出了多阶段训练策略,逐步优化各个组件,首先利用聚合损失LTotal(·,·)训练编码器和解码器,直至增强结果和清晰图像的结构相似性指数(SSIM)达到某一阈值,停止该阶段训练,旨在使编码器能够产生有意义的编码特征;第二步单独训练水域分类网络,采用编码特征作为网络输入,使用交叉熵损失函数LN(·,·)约束输出和真实水域类型的差异,且不反向传播更新编码器,直至水域类型预测的正确率达到某一阈值,停止该阶段训练;第三步再次训练编码器和解码器,以及水域敏感特征的映射过程,使用LTotal(·,·)约束增强结果和清晰图像的差异,直至训练结束,提高了模型整体的性能和鲁棒性。
本发明在公开水下图像数据集的水下图像增强处理中应用
本发明所提出的多频双分支水下图像增强方法,通过Python实现,运行在Windows1064位系统上。实验使用的硬件配置是Intel i7-8700处理器,8G内存,NVIDIA 2700显卡。图2-图9给出了所发明算法在人工合成的、成对的水下图像数据上和其他先进算法的对比结果,图10-图12给出了所发明算法在真实的、成对的水下图像合成数据上和其他先进算法的对比结果,图13-图20给出了所发明算法在真实的、非成对的水下图像数据上和其他先进算法的对比结果,图21-图22给出了在成对数据集上统计结果,图23给出了在非成对数据集上统计结果。
本发明未详细阐述的技术内容属于本领域技术人员的公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (5)
1.一种水域自适应水下图像增强方法,其特征在于:包括以下步骤:
步骤(1)、基于多组卷积和稀疏网格注意力的特征提取方法:使用卷积操作对输入图像进行初步处理,对于输入的特征,使用多组卷积使模型聚焦局部细节,增强局部特征模型对布局特征的感知能力,利用稀疏网格注意力建模全局信息,保留全局色彩轮廓,利用最大池化实现特征在空间维度的下采样,获得编码特征;
步骤(2)、基于水下环境域间差异的水域自适应方法:通过步骤(1)编码特征,利用分类网络和交叉熵损失函数约束,获得输入图像的水域类型,从水类型分类网络提取水域相关特征,结合编码特征,使用空间和通道维度的融合策略,获得对水域敏感特征;
步骤(3)、基于水域敏感特征诱导和聚合损失函数的图像增强:通过步骤(2)获得的水域敏感特征,使用步骤(1)所提出的特征提取方法,结合Bicubic算法插值实现特征在空间维度的上采样,使用聚合损失函数约束增强结果,并利用多阶段训练策略增强模型的鲁棒性。
2.根据权利要求1所述的一种水域自适应水下图像增强方法,其特征在于:所述步骤(1)的具体内容如下:
对于输入的退化的水下图像,首先使用两层卷积层实现对输入数据的初步处理和特征提取,且对特征中局部和全局信息采用不同的手段进行关注;
对于特征中的局部信息,利用基于多组卷积局部特征提取方法获得,将输入特征在通道维度均匀划分多个分组,每个分组包含相同通道数的输入,将卷积核按照输出通道数划分为多个分组,每个分组包含和通道数相同的卷积核,对于每组数据,使用对应的卷积核进行卷积操作,对于编码网络中的第i层,多组卷积表示如下:
其中,MGC(·)为多组卷积操作,由多个单组卷积操作Gg(·)组成,Di-1∈RC×H×W为当前层输入,g为在通道维度划分的组数,为输入特征Zi的连续子集,Concat(·)为在通道维度串联g组特征,利用批量正则化和ReLU激活函数防止梯度消失和梯度爆炸,ConP(·)为点卷积操作;
对于特征中的全局信息,利用稀疏网格注意力特征提取方法获得,将经过多组卷积操作的特征作为该阶段输入特征,使用固定大小为(G,G)的网格将特征网格并块化为特征大小为/>获得具有全局信息的窗口特征,在该窗口内执行多头注意力操作,以获取全局信息,多头注意力操作定义如下:
其中,T为转置操纵,h为注意力头的数量,/>为比例因子,fpro为非线性映射函数,Softmax(·)为归一化操作,对于编码网络中的第i层,一个完整的稀疏网格注意力SGA(·)操作流程如下:
其中,fgb(·)为对特征的先网格化后块化的操作,LN(·)为正则化操作,FFN(·)为前馈层,fubg(·)为将特征返回至形状大小(C,H,W)的操作,通过对特征执行卷积映射和最大池化操作进行下采样,得到特征Di;
上述步骤迭代四次得到信息更加丰富、全面的编码特征D4。
3.根据权利要求2所述的一种水域自适应水下图像增强方法,其特征在于:
所述步骤(2)的具体内容如下:
利用一个由卷积神经网络搭建的水类型分类器,获取步骤(1)获得的编码特征的水域信息,表示如下:
D(D4)=Maxpool(fD(D4))
其中,D(·)为水域分类网络,fD(·)为非线性映射,Maxpool(·)为最大池化操作,该分类网络具有Ic、两个输出;
Ic是一个长度和水域数量相等的一维向量,用于预测水类型,利用交叉熵损失函数来衡量预测结果和真实标签之间的差异,交叉熵损失LN(·,·)表示如下:
其中,C为正确水类型,c为预测水类型,当C=c时,yc=1,否则yc=0,N为水类型的数量;
为水域分类网络中间层的输出,使用反卷积将/>映射到和Z4相同的维度,二者在通道维度串联,串联后的特征在空间维度经过点卷积处理后生成对水域敏感特征,该过程F(·,·)表示如下:
其中,F(·,·)为生成水域敏感特征的映射过程,ConvT(·)为反卷积操作,生成的水域敏感特征I,用于指导编码网络在对应的水域中重建水下图像。
4.根据权利要求3所述的一种水域自适应水下图像增强方法,其特征在于:
所述步骤(3)的具体内容如下:
使用和编码网络对称的解码网络重建清晰的水下图像,除利用步骤(1)提出的特征提取方法解码信息外,还利用双线性差值实现特征的上采样,利用跳跃连接将解码阶段的输入和编码阶段对应层的输出在通道维度进行串联,被用于避免信息丢失,对于解码阶段的第i层,解码过程如下:
Ei′=SGA(MGC(Concat(Ei-1,D4-i)))
对输出特征Di′执行双线性差值上采样,获得当前解码层输出Ei;
重复迭代上述操作四次,得到特征E4,利用卷积映射得到通道数为3,宽高和输入图像相等的增强水下图像Y,利用聚合损失约束增强图像,聚合损失LTotal(·,·)如下:
LTotal(Y,Yg)=αL2(Y,Yg)+βLGrad(Y,Yg)+γLcolor(Y,Yg)
其中,Yg分别清晰图像,α、β和γ为权重项,L2(Y,Yg)=‖Yg-Y‖2为重建损失,为梯度损失,/> ΔR、ΔG和ΔB分别表示增强图像Y和清晰图像Yg在RGB颜色空间中各个颜色通道之间的差值,/>
5.根据权利要求2所述的一种水域自适应水下图像增强方法,其特征在于:所述的步骤一中局部信息为细节、纹理,全局信息为色彩、轮廓。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311115642.1A CN117078556A (zh) | 2023-08-31 | 2023-08-31 | 一种水域自适应水下图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311115642.1A CN117078556A (zh) | 2023-08-31 | 2023-08-31 | 一种水域自适应水下图像增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078556A true CN117078556A (zh) | 2023-11-17 |
Family
ID=88707928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311115642.1A Pending CN117078556A (zh) | 2023-08-31 | 2023-08-31 | 一种水域自适应水下图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078556A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118134819A (zh) * | 2024-05-08 | 2024-06-04 | 山东大学 | 域内-域间自适应的水下图像增强方法及系统 |
-
2023
- 2023-08-31 CN CN202311115642.1A patent/CN117078556A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118134819A (zh) * | 2024-05-08 | 2024-06-04 | 山东大学 | 域内-域间自适应的水下图像增强方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961350B (zh) | 一种基于显著度匹配的画风迁移方法 | |
CN106910161A (zh) | 一种基于深度卷积神经网络的单幅图像超分辨率重建方法 | |
CN109584325B (zh) | 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法 | |
CN113177882B (zh) | 一种基于扩散模型的单帧图像超分辨处理方法 | |
Wang et al. | Channel and space attention neural network for image denoising | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN114092774B (zh) | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 | |
CN113837946B (zh) | 一种基于递进蒸馏网络的轻量化图像超分辨率重建方法 | |
CN117078556A (zh) | 一种水域自适应水下图像增强方法 | |
CN111612703A (zh) | 一种基于生成对抗网络的图像盲去模糊方法 | |
CN115471423A (zh) | 一种基于生成对抗网络及自注意力机制的点云去噪方法 | |
CN112767283A (zh) | 一种基于多图像块划分的非均匀图像去雾方法 | |
CN116188325A (zh) | 一种基于深度学习和图像颜色空间特性的图像去噪方法 | |
CN111899295A (zh) | 一种基于深度学习的单目场景深度预测方法 | |
CN113392711A (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
CN103413331B (zh) | 一种支持编辑传播的高分辨率视频图像内容稀疏表达方法 | |
CN113822794A (zh) | 一种图像风格转换方法、装置、计算机设备和存储介质 | |
CN112884758A (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
Liao et al. | Multi-scale mutual feature convolutional neural network for depth image denoise and enhancement | |
Liu et al. | WSDS-GAN: A weak-strong dual supervised learning method for underwater image enhancement | |
Zhu et al. | Sand painting conversion based on detail preservation | |
CN117351340A (zh) | 基于双颜色空间的水下图像增强算法 | |
CN116863053A (zh) | 一种基于知识蒸馏的点云渲染增强方法 | |
CN117314808A (zh) | 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法 | |
CN113657415B (zh) | 一种面向示意图的对象检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |