CN115546060A - 一种可逆的水下图像增强方法 - Google Patents
一种可逆的水下图像增强方法 Download PDFInfo
- Publication number
- CN115546060A CN115546060A CN202211194801.7A CN202211194801A CN115546060A CN 115546060 A CN115546060 A CN 115546060A CN 202211194801 A CN202211194801 A CN 202211194801A CN 115546060 A CN115546060 A CN 115546060A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- reversible
- underwater
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000002441 reversible effect Effects 0.000 title claims abstract description 56
- 238000009826 distribution Methods 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000008878 coupling Effects 0.000 claims description 8
- 238000010168 coupling process Methods 0.000 claims description 8
- 238000005859 coupling reaction Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 4
- 230000001965 increasing effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 229910052731 fluorine Inorganic materials 0.000 claims description 3
- 125000001153 fluoro group Chemical group F* 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000015556 catabolic process Effects 0.000 abstract description 3
- 238000006731 degradation reaction Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 241000238366 Cephalopoda Species 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 3
- 241000196171 Hydrodictyon reticulatum Species 0.000 description 3
- 101100014407 Pisum sativum GDCSP gene Proteins 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- PXFBZOLANLWPMH-SMLHJDAJSA-N Affinine Chemical compound C1C(C2=CC=CC=C2N2)=C2C(=O)C[C@@H]2C(=C/C)\CN(C)[C@H]1C2CO PXFBZOLANLWPMH-SMLHJDAJSA-N 0.000 description 1
- 101100391182 Dictyostelium discoideum forI gene Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- IAPHXJRHXBQDQJ-ODLOZXJASA-N jacobine Natural products O=C1[C@@]2([C@H](C)O2)C[C@H](C)[C@](O)(C)C(=O)OCC=2[C@H]3N(CC=2)CC[C@H]3O1 IAPHXJRHXBQDQJ-ODLOZXJASA-N 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20064—Wavelet transform [DWT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开属于图像处理技术领域,特别涉及一种可逆的水下图像增强方法。包括构建输入数据集合;进行图像预处理;批量将图像输入InvUIE模型,执行正向操作,调用FGB模块生成潜在空间和高频噪声空间;调用IDS模块减小潜在空间分布差距;执行反向操作丢弃高频噪声,输出纯净图像;构建优化损失函数对模型进行训练并保存结果;对模型进行测试和评估。本发明所述UIE方法能够有效地重建退化区域,减少颜色偏差,获得高质量的视觉结果和SOTA定量指标,具有良好的泛化能力,能够指导单独的噪声分布和干净的图像分布,针对特定任务的模型,能够权衡准确性和计算资源,有效缓解因参数不足的导致不适用UIE的问题。
Description
技术领域
本发明涉属于图像处理技术领域,特别涉及一种可逆的水下图像增强方法。
背景技术
水下图像增强(underwater image enhancement,UIE)旨在提高退化图像的质量和纠正颜色失真。由于光的吸收和散射,水下图像通常会发生明显的退化,复杂的水下环境会导致不同的图像退化效应,如扭曲、噪声和色变等,严重影响各种视觉任务的效果,如分类、检测和跟踪。高质量的水下图像对各种海洋视觉任务至关重要,目前还缺乏一种有效的解决方案来满足现实应用的要求,难以适应复杂的水下场景,固定的模型和参数在动态水下环境下的性能和通用性较差。相关的现有技术如下:
(1)传统水下图像增强方法:
传统的UIE方法利用物理模型和先验知识来重建清晰化的图像。现有的UIE方法分为传统学习方法和深度学习方法。最初,UIE方法利用专门的光学和图像形成模型(IFM)来增强水下图像的退化。例如,Peng等人提出在变化之前使用了一个黑暗通道来减少环境照明和浊度介质;Sea-thru是一种大气图像形成模型,能够利用深度信息来校正颜色失真;Ancuti等人提出一种新的融合策略来减少噪声信号信息;Zhuang等人采用一种具有多阶梯度先验参数的贝叶斯视网膜算法来校正颜色转换。上述模型虽能够有效地增强退化的图像,但都具有固定的模型参数和结构,难以推广到各种复杂的水下场景。
(2)卷积神经网络:
利用基于深度学习的模型来增强退化图像,现有的基于卷积神经网络(CNN)的方法对于具有大量数据的非线性映射具有较好的表示能力以及良好的泛化能力,且不需要先验参数。CNN在UIE中表现出高效的性能,能够从大规模数据中学习可推广的先验知识。例如,Li等人提出一种新的基于CNN的模型Ucolor,以在颜色通道中使用多空间来丰富特征;Guo等人引入多尺度密集的数据块来重建水下图像。但是大多数基于CNN的模型都需要额外的监督进行训练,对于水下场景而言,在真实的水下世界中识别干净的图像非常费力,使得收集成对的训练图像十分困难。另外,CNN的模型以固定的映射函数表示输入图像,导致任意退化区域的次优结果,因此基于CNN的模型难以适应各种复杂的水下场景。
(3)对抗神经网络:
使用生成对抗网络(GAN)来恢复清晰的水下图像。例如,UGAN将水下增强作为图像转换处理来增强图像;WaterGAN利用RGB-D图像来估计深度信息,并重建清晰的水下图像;UcycleGAN采用一种弱监督方案来学习输入图像和参考图像之间的跨域映射函数。基于GAN的UIE方法能够产生视觉效果优异的图像,但是伴随现有的深度学习的模型规模增大并复杂化,在现实应用的水下场景中难以实现。基于GAN的方法存在以下缺点:首先,具有不稳定的训练,需要更长的时间来收敛;其次,需要大量的参数,而且计算成本昂贵。所以基于GAN的UIE方法,缺乏潜在空间来处理退化图像的不确定性,不适合移动水下应用。
(4)可逆神经网络:
INN最初是为概率模型的无监督学习而设计,利用一系列可微和可逆映射序列将一个未知分布转换为另一个已知分布而不丢失信息。为了降低行列式计算的复杂性,研究人员使用一个三角形的雅各宾矩阵对流模块进行修改,正式的可处理概率函数为:其中表示一个已知的随机变量。具体地说,f(x)隐式定义了一个归一化密度模型p(x),能够直接通过最大似然训练。p(x)和π(z)的概率密度与以下变量公式的变化有关:logp(x)=logπ(z)+log|det(Jf(z))|
其中Jf(z)为z~π(z)潜在空间分布的雅可比矩阵,且π(z)的计算成本较低。
可逆神经网络(INN)为重建高质量的水下图像提供有效的解决方案,许多工作在各种低水平视觉任务中取得较大的进展,如去噪、变色和超分辨率等。例如Liu等人提出一种基于可逆流的去噪网络(FDN),能够从退化的图像中分离出噪声信号和清晰的图像分布;Zhao等人设计一种用于图像脱色任务的双面仿射耦合;Liang等人提出了一种基于流的核先验(FKP)来优化盲图像的超分辨率处理。INN在低级实际特性中也具有吸引力的理论和良好的可解释性。例如,Xiao等人开发一种用于图像超分辨率任务的可逆重新调整网络(IRN);Liu等人提出一种可逆去噪网络(InvDN)来从输入图像中分离噪声信号信息;An等人修改一个无偏倚的风格传输框架(ArtFlow)来解决内容泄漏的问题。尽管这些模型在不同的任务上取得较为理想的结果,但它们的模型总是需要许多调优参数来提高性能。因此,另一个研究方向是探索INN的架构。例如,Ho等人设计变量去量化来提高INN的可表示性,减少模型的复杂性;Kingma等人改进一种可逆卷积方法,将RealNVP中的固定排列层替换为RealNVP中的新型仿真合成图像。但基于INN的方法存在两个明显缺点,首先很难在各种水下场景中直接区分单独的噪声分布和干净的图像分布;其次缺乏能够在准确性和计算资源之间进行权衡的针对特定任务的模型。当基于INN的方法直接应用于UIE时,为保证准确性,需要增加参数量,失去INN方法本应具备的参数量小的优点,因此基于INN的方法无法直接应用于UIE。
发明内容
针对背景技术中存在的问题,本发明提供了一种可逆的水下图像增强方法,其特征在于,包括如下步骤:
1)结合现有水下图像数据集,构建输入数据集合;
2)将训练图像块随机旋转并裁剪到256×256,进行图像预处理,并通过水平和垂直翻转来增加训练数据;
5)执行InvUIE模型的反向操作,丢弃高频噪声,进行图像重建,生成纯净图像xc;
6)使用ADAM优化器,及所涉及的优化损失函数对构建好的模型进行训练,保留最后训练的模型权重及结果;
7)使用训练好的模型对测试数据集进行模型测试并评价。
所述步骤1)中现有水下图像数据集包括合成水下图像数据集和真实水下图像数据集;合成水下图像数据集包括10种水类型和1440对水下图像;真实水下图像数据集包括890对图像和60张没有参考图像的真实图像。
所述步骤3)中基于流的生成器的执行步骤为:
利用压缩操作保持局部特征;
初始化数据依赖,重新缩放和偏差;
反转特征映射通道的顺序;
利用可逆的1×1卷积,使模型具有稳定的泛化能力;
利用分割操作沿着逆路径的通道连接特征图。
所述步骤4)中可逆降尺度块的执行步骤为:利用离散小波变换对特征映射(H,W,C)进行降采样至(H/2,W/2,4C),将特征映射分解为低频和高频表示;使用注意力机制的ResNet块(ρ,μ,ξ)对仿射耦合层进行修正,筛选能够对图像增强有益的潜在变量;
正向操作为:
x′l=ρ(xh)+xl,x′h=μ(x′l)⊙xh+ξ(x′l)
其中:H为图像高度,W为图像宽度,C为通道数,xl为特征映射的低频表示,
xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
为避免阻碍重建过程的噪声,丢弃高频噪声信号,在重建干净图像时,随机抽样归一化zc~N(0,1)分布,以替换反向操作中的下降部分,所述步骤5)中InvUIE模型的反向操作为:
基于流的生成器的反向操作为:
可逆降尺度块的反向操作为:
xl=x′l-ρ(xh),xh=(x′h-ξ(x′l))/μ(x′l)
其中:xl为特征映射的低频表示,xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
所述步骤6)中优化损失函数对构建好的模型进行训练的过程为:
总体损失函数包括每个训练短语的三个组成部分,训练过程中的损失函数如下:
其中,λ1,λ2,λ3为预设置的三个损失函数的权重,
本发明的有益效果在于:
本发明所述一种可逆的水下图像增强方法,使用基于流的生成器模块,用潜在变量表示输入图像;用带有注意力的ResNet块的可逆降尺度块,通过重新调整处理来去除噪声信号;并通过后向操作重构干净的图像。
与现有的INN不同,InvUIE模型不需要额外的先验知识,仅使用一套模型,进行正向操作和反向操作,实现在确保较好的图像增强效果的同时,有效降低参数量,能够在精度和参数之间进行权衡;通过数据集实验、复杂性与参数实验,将本发明公开的InvUIE模型与其他模型进行性能对比,实验结果表明InvUIE模型在定性和定量指标上均优于其他模型。
本发明所述一种可逆的水下图像增强方法能够有效地重建退化区域,减少颜色偏差,获得高质量的视觉结果和SOTA定量指标,特别是在各种水下场景中具有良好的泛化能力,能够在很大程度上缓解参数不足的问题,有效解决基于INN的方法无法直接应用于UIE的问题。
附图说明
图1为本发明公开一种可逆的水下图像增强方法处理步骤流程图;
图2为本发明公开InvUIE模型示意图;
图3为本发明实施例的基于流的生成网络示意图;
图4为本发明实施例的可逆降尺度块示意图;
图5为本发明实施例的普通增强框架结构图;
图6为本发明实施例的InvUIE模型框架结构图。
具体实施方式
本发明提出一种可逆的水下图像增强方法,以下结合附图对本发明作进一步的详细说明。
如图5所示,UIE方法的目的是将退化图像x进行转换,生成干净的图像xc,使得退化图像x接近参考图像y。整体增强过程可表述为x→xc。由于干净和噪声分布不是同构的,不能直接从退化的图像x中重建xc,所以将UIE视为一个分布分离任务,假设退化图像x由噪声分布z和相关性xc组成,利用一类灵活的双射函数来解决此问题。如图6所示,使用基于流的生成器(Flow-based Generator,FGB)模型来生成潜在空间和使用反向降尺度块(Invertible down-scale block,IDS)通过有监督的方法来减小潜在空间之间和分布差距具体过程如图1所示,本发明公开一种可逆的水下图像增强方法,具体步骤包括:
1)结合现有水下图像数据集,构建输入数据集合;
2)将训练图像块随机旋转并裁剪到256×256,进行图像预处理,并通过水平和垂直翻转来增加训练数据;
3)执行InvUIE(Invertible Underwater Image Enhancement Network)模型的正向操作,将退化图像x和参考图像y输入InvUIE模型中的基于流的生成器,生成潜在空间和高频噪声空间
5)执行InvUIE模型的反向操作,丢弃高频噪声,进行图像重建,生成纯净图像xc;
6)使用ADAM优化器,及所涉及的优化损失函数对构建好的模型进行训练,保留最后训练的模型权重及结果;
7)使用训练好的模型对测试数据集进行模型测试并评价。
所述图像预处理,包括步骤1)和步骤2),结合现有水下图像数据集,构建输入数据集合,水下图像数据集包括合成水下图像数据集和真实水下图像数据集。合成水下图像数据集包括10种水类型和1440对水下图像;真实水下图像数据集包括890对图像和60张没有参考图像的真实图像。在本实施例中,在训练阶段,选取1250对合成水下图像和800对真实水下图像对InvUIE模型进行训练;在测试阶段,选取1000对来自UWCNN的合成图像作为Test-S1000;选取90对来自UIEB的真实水下图像作为Test-R90;选取60张没有参考图像的真实图像作为Test-C60;选取16张来自SQUID的水下立体图像;选取7张来自Color-check7的颜色检查图像对颜色的正确性进行评估。各数据集的图像数量如表1所示。所选数据集包含场景丰富的成对水下图像。为了防止训练中出现过拟合现象,对数据集图像进行增广,通过水平和垂直翻转来增加训练数据,将图像块随机旋转并裁剪到256×256。
表1各数据集的图像数量的汇总
如图2所示,本发明公开一种InvUIE模型,包括l个流细胞(Flow cell)和m个IDS模块,每个流细胞包括k个FGB模块。将x和y注入流细胞(l×k FGB),记为其中为潜在空间,为高频噪声空间。输入图像大小H×W×C具有空间维数(H,W),通道维度C。g(x)将输入图像映射到潜在空间,获得高质量的不变特征映射。g-1(x)表示逆过程,并重建干净的图像。流降尺度块由m个IDS组成,旨在进一步将潜在噪声解码成IDS生成低分辨率的干净图像xl和噪声分布z。下采样处理公式为:
一个FGB模块由一个激活归一化层(ActNorm)、一个排列层(Permutation)、一个仿射耦合层(Affine Tran.)和一个可逆的1×1卷积层(1x1 Conv)组成。为优化对数似然目标,FGB模型首先利用压缩(squeeze)操作来保持局部特征,通过数据依赖的初始化,激活归一化层能够重新缩放和偏差;排列层反转特征映射的通道的顺序;仿射耦合层能够表达对数据的复杂依赖关系,同时保持反演和对数似然计算易于处理;使用可逆的1×1卷积层,使模型具有稳定的泛化能力,利用分割(Split)操作来沿着逆路径的通道连接特征图,从而实现生成潜在空间和高频噪声空间
所述仿射耦合层将输入分割成xa和xb,使用归一化网络和φ进行提取特征,将的输出与xb进行倍加,并与φ的输出相加得到x′b,连接xa与x′b获得输出特征。此外,每个通道的平均潜在变量能够计算为控制退化区域感知潜在空间的方向。正向计算为
所述步骤4)中的可逆降尺度块如图4所示,利用离散小波变换对特征映射(H,W,C)进行降采样至(H/2,W/2,4C),将特征映射分解为低频和高频表示;使用注意力机制的ResNet块(ρ,μ,ξ)对仿射耦合层进行修正,筛选能够对图像增强有益的潜在变量,通过对潜在变量的筛选,重点关注必要的潜在变量的变化,增强模型的可解释性,提升特征提取效果,通过注意力机制的ResNet来学习低频、高频表示中的特征,产生中间潜在特征空间以及纯净潜在特征空间;通过有监督的方法来减小潜在空间之间和分布差距执行可逆降尺度块的正向操作,生成低分辨率的干净图像xl和噪声分布z。
正向操作为:
x′l=ρ(xh)+xl,x′h=μ(x′l)⊙xh+ξ(x′l)
其中:H为图像高度,W为图像宽度,C为通道数,xl为特征映射的低频表示,
xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
与其他仿射耦合不同,本发明所述优化方法,利用带有通道注意模块的ResNet块来改进UIE任务的潜在空间的表示,新的耦合流的能力使得IDS能够具有任意的复杂度。
所述步骤5)执行InvUIE模型的反向操作,为避免阻碍重建过程的噪声,丢弃高频噪声信号,在重建干净图像时,随机抽样归一化zc~N(0,1)分布,以替换反向操作中的下降部分,生成纯净图像xc。
基于流的生成器的反向操作为:
可逆降尺度块的反向操作为:
xl=x′l-ρ(xh),xh=(x′h-ξ(x′l))/μ(x′l)
其中:xl为特征映射的低频表示,xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
所述步骤6)中优化损失函数对构建好的模型进行训练的过程为:
总体损失函数包括每个训练短语的三个组成部分,训练过程中的损失函数如下:
其中,λ1,λ2,λ3为预设置的三个损失函数的权重,
所述步骤6)中使用ADAM优化器,及所涉及的优化损失函数对构建好的模型进行训练,保留最后训练的模型权重及结果的具体过程如下:
为验证本发明公开的一种可逆的水下图像增强方法的实际效果,使用一台配置有一个Intel(R)Xeon(R)Silver 4210R CPU和两个NVIDIA Tesla V100 GPU的计算机,在PyTorch框架平台上实现InvUIE模型。InvUIE模型为一种端到端模型,由6个带有4个FGB的流单元和2个带有8个可反转块的可反转降尺度块组成。在训练阶段,使用ADAM优化器并设置动量β1=0.9,β2=0.999。初始学习率为2×10-4,每10k次迭代多步衰减。批大小设置为26。通过水平和垂直翻转来增加训练数据,将图像块随机旋转并裁剪为256×256。
为评价InvUIE模型的有效性,所述步骤7)使用训练好的模型对测试数据集进行模型测试并评价,具体比较过程如下:
选择以下UIE方法进行比较,包括四种传统方法,如Ancuti等,Li等,Peng andCosman,和GDCP;六种基于深度学习的方法,如UcycleGAN,Guo等,Water-Net,UWCNN,Unet-RMT,和Ucolor。为确保比较的公平性,利用重新训练的UWCNN和Unet与估计的RMT图来与本发明公开的InvUIE模型进行比较。
进行定量评估,采用峰值信噪比(PSNR)、结构相似度指数度量(SSIM)和均方误差(MSE)来评估模型。此外,非参考指标是UIQM和UCIQE,用于评估在没有相应参考图像的Test-C60和SQUID中这些方法的性能。为避免UCIQE在不同数据集中的方差较大,在(0,1)的范围内对分数进行了归一化。NIQE的指标表示生成的图像的质量。本发明邀请30名人类受试者来评分感知质量范围从1到5(最差到最佳质量)。CIEDE2000在Color-check 7中测量相对感知,CIEDE2000的值越小,效果越好。
对于TestS1000和TestR90的平均PSNR、SSIM和MSE值的定性性能,如表2所示,用粗体表示最佳结果,用下划线表示第二好结果。与传统方法相比,基于深度学习的模型在PSNR、SSIM和MSE结果方面具有显著的性能。Ancuti等,Li等,Peng and Cosman,GDCP以及UcycleGAN在定量指标上表现不佳。WaterNet能够有效地增强Test-r90中的退化图像,但在其他水下数据集中的泛化效果较差。UWCNN在图像处理过程中需要先验知识,但在实际的水下数据集中无法很好地恢复退化的图像。UNet-U和Ucolor需要额外的介质传输来重建干净的图像。相比之下,与Ucolor相比,InvUIE模型在Test-S1000和Test-R90上的PSNR方面获得了1.07dB/0.51dB,表明本发明所述InvUIE模型可以生成高质量的图像,并保存更多的上下文细节。此外,InvUIE模型在没有利用额外的信息和准确性和参数之间的权衡的情况下,取得较好的结果。
表2在测试-S1000和测试-R90上的不同方法的评价
Test-C60 and SQUID是具有挑战性的水下图像数据集,以评估所有比较方法的鲁棒性和颜色重建性能。如表3所示比较方法的结果,用粗体表示最佳结果,用下划线表示第二好结果。观察到在UIQM和UCIQE等方面,传统的方法比基于深度学习的方法获得了更好的结果。UIQM和UCIQE得分最好。与基于深度学习的模型相比,InvUIE模型获得的分数最好。对于PS分数,InvUIE模型在Test-C60中表现最好,在SQUIE中排名第二。这表示InvUIE模型能够产生优异的视觉结果。在NICE方面,Ancuti等在Test-C60中得分最好,Ucolor在SQUIE数据集中得分最好。总之,与其他基于深度学习的模型相比,InvUIE模型在各种水下数据集上取得良好的性能,能够权衡感知结果和结果中的背景细节。
表3不同方法对Test-C60和SQUID的平均知觉得分(PS)、UIQM、UCIQE和NIQE
为验证其鲁棒性和准确性,比较不同方法的CIEDE2000的平均得分,如表4所示,用粗体表示最佳结果,用下划线表示第二好结果。本发明裁剪相应的颜色斑块,并使用Color-Check7计算这些值。InvUIE模型在不同相机中获得最低的平均颜色值,在W60、W80、CanD10和FujZ33中获得最好的颜色值。Ucolor在OlyT6000上得分最低,Ancuti等在OlyT8000和PanTS1上表现最好。结果表明,InvUIE模型能有效地校正颜色失真,并能很好地推广到其他不同的相机图像上。相比之下,比较方法未能在低对比度下恢复真实图像颜色信息。
表4 Color-Check7上不同方法的CIEDE2000颜色差异比较
为评估模型的参数量和性能,在同一台机器上的评估所有比较模型,硬件环境为使用一个Intel(R)Xeon(R)Silver 4210R CPU和两个NVIDIA Tesla V100 GPU。InvUIE模型呈现较好的复杂性与性能权衡,参数量仅为4.7M,与Ucolor(600M)和WaterNet(153.1M)相比,轻量级优势显著。虽然UWCNN的参数量为354.1K,但它在各种水下数据集上的性能较差,需要先验知识。在这个任务中没有必要与物理模型进行比较,如Ancuti等,GDCP,Li等,andPeng等。如表5所示,为Test-S1000中图像大小为256×256各模型比较的结果。
表5 InvUIE与其他方法在参数和PSNR(dB)方面的比较
通过数据集实验、复杂性与参数实验,将本发明公开的InvUIE模型与其他模型进行性能对比,实验结果表明InvUIE模型在定性和定量指标上均优于其他模型,InvUIE模型不需要额外的先验知识,与传统的通用增强框架相比,不需要编码、解码两套模型,仅使用一套模型,通过正向操作和反向操作,在确保较好的图像增强效果的同时,有效降低参数量,能够实现在精度和参数之间进行权衡。本发明所述一种可逆的水下图像增强方法能够有效地重建退化区域,减少颜色偏差,获得高质量的视觉结果和SOTA定量指标,特别是在各种水下场景中具有良好的泛化能力,能够在很大程度上缓解参数不足的问题,有效解决基于INN的方法无法直接应用于UIE的问题。
Claims (6)
1.一种可逆的水下图像增强方法,其特征在于,包括如下步骤:
1)结合现有水下图像数据集,构建输入数据集合;
2)将训练图像块随机旋转并裁剪到256×256,进行图像预处理,并通过水平和垂直翻转来增加训练数据;
5)执行InvUIE模型的反向操作,丢弃高频噪声,进行图像重建,生成纯净图像xc;
6)使用ADAM优化器,及所涉及的优化损失函数对构建好的模型进行训练,保留最后训练的模型权重及结果;
7)使用训练好的模型对测试数据集进行模型测试并评价。
2.根据权利要求1所述的一种可逆的水下图像增强方法,其特征在于,所述步骤1)中现有水下图像数据集包括合成水下图像数据集和真实水下图像数据集;合成水下图像数据集包括10种水类型和1440对水下图像;真实水下图像数据集包括890对图像和60张没有参考图像的真实图像。
4.根据权利要求1所述的一种可逆的水下图像增强方法,其特征在于,所述步骤4)中可逆降尺度块的执行步骤为:利用离散小波变换对特征映射(H,W,C)进行降采样至(H/2,W/2,4C),将特征映射分解为低频和高频表示;使用注意力机制的ResNet块(ρ,μ,ξ)对仿射耦合层进行修正,筛选能够对图像增强有益的潜在变量;
正向操作为:
x′l=ρ(xh)+xl,x′h=μ(x′l)⊙xh+ξ(x′l)
其中:H为图像高度,W为图像宽度,C为通道数,xl为特征映射的低频表示,
xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ,μ,ξ为注意力机制的ResNet块。
5.根据权利要求1所述的一种可逆的水下图像增强方法,其特征在于,为避免阻碍重建过程的噪声,丢弃高频噪声信号,在重建干净图像时,随机抽样归一化zc~N(0,1)分布,以替换反向操作中的下降部分,所述步骤5)中InvUIE模型的反向操作为:
基于流的生成器的反向操作为:
可逆降尺度块的反向操作为:
xl=x′l-ρ(xh),xh=(x′h-ξ(x′l))/μ(x′l)
其中:xl为特征映射的低频表示,xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211194801.7A CN115546060A (zh) | 2022-09-29 | 2022-09-29 | 一种可逆的水下图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211194801.7A CN115546060A (zh) | 2022-09-29 | 2022-09-29 | 一种可逆的水下图像增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546060A true CN115546060A (zh) | 2022-12-30 |
Family
ID=84731081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211194801.7A Pending CN115546060A (zh) | 2022-09-29 | 2022-09-29 | 一种可逆的水下图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546060A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797225A (zh) * | 2023-01-06 | 2023-03-14 | 山东环宇地理信息工程有限公司 | 一种水下地形测量用无人船采集图像增强方法 |
CN115841614A (zh) * | 2023-02-20 | 2023-03-24 | 中国石油大学(华东) | 一种影像处理方法、装置、水下成像设备及介质 |
CN116188346A (zh) * | 2023-05-04 | 2023-05-30 | 安翰科技(武汉)股份有限公司 | 内窥镜图像的画质增强方法及装置 |
CN118469889A (zh) * | 2023-12-12 | 2024-08-09 | 荣耀终端有限公司 | 图像处理方法和相关装置 |
-
2022
- 2022-09-29 CN CN202211194801.7A patent/CN115546060A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797225A (zh) * | 2023-01-06 | 2023-03-14 | 山东环宇地理信息工程有限公司 | 一种水下地形测量用无人船采集图像增强方法 |
CN115841614A (zh) * | 2023-02-20 | 2023-03-24 | 中国石油大学(华东) | 一种影像处理方法、装置、水下成像设备及介质 |
CN116188346A (zh) * | 2023-05-04 | 2023-05-30 | 安翰科技(武汉)股份有限公司 | 内窥镜图像的画质增强方法及装置 |
CN118469889A (zh) * | 2023-12-12 | 2024-08-09 | 荣耀终端有限公司 | 图像处理方法和相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115546060A (zh) | 一种可逆的水下图像增强方法 | |
Gai et al. | New image denoising algorithm via improved deep convolutional neural network with perceptive loss | |
CN111275637A (zh) | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 | |
CN113658051A (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN111754446A (zh) | 一种基于生成对抗网络的图像融合方法、系统及存储介质 | |
CN111784602A (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN113362250B (zh) | 一种基于双树四元小波与深度学习的图像去噪方法及系统 | |
CN113723295A (zh) | 一种基于图像域频域双流网络的人脸伪造检测方法 | |
Gendy et al. | Lightweight image super-resolution based on deep learning: State-of-the-art and future directions | |
CN113222998B (zh) | 基于自监督低秩网络的半监督图像语义分割方法及装置 | |
CN111986108A (zh) | 一种基于生成对抗网络的复杂海空场景图像去雾方法 | |
CN114463218B (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN111986085B (zh) | 一种基于深度反馈注意力网络系统的图像超分辨率方法 | |
Chen et al. | Image denoising via deep network based on edge enhancement | |
Xu et al. | AutoSegNet: An automated neural network for image segmentation | |
CN116797461A (zh) | 基于多级强化注意力机制的双目图像超分辨率重建方法 | |
Li et al. | Image super-resolution reconstruction based on multi-scale dual-attention | |
CN117994167B (zh) | 融合并行多卷积注意力的扩散模型去雾方法 | |
Peng et al. | Raune-Net: a residual and attention-driven underwater image enhancement method | |
Wang et al. | Lightweight image denoising network with four-channel interaction transform | |
Kas et al. | DLL-GAN: Degradation-level-based learnable adversarial loss for image enhancement | |
Li et al. | H-vfi: Hierarchical frame interpolation for videos with large motions | |
CN116703750A (zh) | 基于边缘注意力和多阶微分损失的图像去雾方法及系统 | |
CN116485654A (zh) | 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法 | |
Nikzad et al. | Attention-based Pyramid Dilated Lattice Network for Blind Image Denoising. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |