CN115546060A - 一种可逆的水下图像增强方法 - Google Patents

一种可逆的水下图像增强方法 Download PDF

Info

Publication number
CN115546060A
CN115546060A CN202211194801.7A CN202211194801A CN115546060A CN 115546060 A CN115546060 A CN 115546060A CN 202211194801 A CN202211194801 A CN 202211194801A CN 115546060 A CN115546060 A CN 115546060A
Authority
CN
China
Prior art keywords
image
model
reversible
underwater
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211194801.7A
Other languages
English (en)
Inventor
李振波
李飞
李蔚然
李一鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN202211194801.7A priority Critical patent/CN115546060A/zh
Publication of CN115546060A publication Critical patent/CN115546060A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20064Wavelet transform [DWT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明公开属于图像处理技术领域,特别涉及一种可逆的水下图像增强方法。包括构建输入数据集合;进行图像预处理;批量将图像输入InvUIE模型,执行正向操作,调用FGB模块生成潜在空间和高频噪声空间;调用IDS模块减小潜在空间分布差距;执行反向操作丢弃高频噪声,输出纯净图像;构建优化损失函数对模型进行训练并保存结果;对模型进行测试和评估。本发明所述UIE方法能够有效地重建退化区域,减少颜色偏差,获得高质量的视觉结果和SOTA定量指标,具有良好的泛化能力,能够指导单独的噪声分布和干净的图像分布,针对特定任务的模型,能够权衡准确性和计算资源,有效缓解因参数不足的导致不适用UIE的问题。

Description

一种可逆的水下图像增强方法
技术领域
本发明涉属于图像处理技术领域,特别涉及一种可逆的水下图像增强方法。
背景技术
水下图像增强(underwater image enhancement,UIE)旨在提高退化图像的质量和纠正颜色失真。由于光的吸收和散射,水下图像通常会发生明显的退化,复杂的水下环境会导致不同的图像退化效应,如扭曲、噪声和色变等,严重影响各种视觉任务的效果,如分类、检测和跟踪。高质量的水下图像对各种海洋视觉任务至关重要,目前还缺乏一种有效的解决方案来满足现实应用的要求,难以适应复杂的水下场景,固定的模型和参数在动态水下环境下的性能和通用性较差。相关的现有技术如下:
(1)传统水下图像增强方法:
传统的UIE方法利用物理模型和先验知识来重建清晰化的图像。现有的UIE方法分为传统学习方法和深度学习方法。最初,UIE方法利用专门的光学和图像形成模型(IFM)来增强水下图像的退化。例如,Peng等人提出在变化之前使用了一个黑暗通道来减少环境照明和浊度介质;Sea-thru是一种大气图像形成模型,能够利用深度信息来校正颜色失真;Ancuti等人提出一种新的融合策略来减少噪声信号信息;Zhuang等人采用一种具有多阶梯度先验参数的贝叶斯视网膜算法来校正颜色转换。上述模型虽能够有效地增强退化的图像,但都具有固定的模型参数和结构,难以推广到各种复杂的水下场景。
(2)卷积神经网络:
利用基于深度学习的模型来增强退化图像,现有的基于卷积神经网络(CNN)的方法对于具有大量数据的非线性映射具有较好的表示能力以及良好的泛化能力,且不需要先验参数。CNN在UIE中表现出高效的性能,能够从大规模数据中学习可推广的先验知识。例如,Li等人提出一种新的基于CNN的模型Ucolor,以在颜色通道中使用多空间来丰富特征;Guo等人引入多尺度密集的数据块来重建水下图像。但是大多数基于CNN的模型都需要额外的监督进行训练,对于水下场景而言,在真实的水下世界中识别干净的图像非常费力,使得收集成对的训练图像十分困难。另外,CNN的模型以固定的映射函数表示输入图像,导致任意退化区域的次优结果,因此基于CNN的模型难以适应各种复杂的水下场景。
(3)对抗神经网络:
使用生成对抗网络(GAN)来恢复清晰的水下图像。例如,UGAN将水下增强作为图像转换处理来增强图像;WaterGAN利用RGB-D图像来估计深度信息,并重建清晰的水下图像;UcycleGAN采用一种弱监督方案来学习输入图像和参考图像之间的跨域映射函数。基于GAN的UIE方法能够产生视觉效果优异的图像,但是伴随现有的深度学习的模型规模增大并复杂化,在现实应用的水下场景中难以实现。基于GAN的方法存在以下缺点:首先,具有不稳定的训练,需要更长的时间来收敛;其次,需要大量的参数,而且计算成本昂贵。所以基于GAN的UIE方法,缺乏潜在空间来处理退化图像的不确定性,不适合移动水下应用。
(4)可逆神经网络:
INN最初是为概率模型的无监督学习而设计,利用一系列可微和可逆映射序列将一个未知分布转换为另一个已知分布而不丢失信息。为了降低行列式计算的复杂性,研究人员使用一个三角形的雅各宾矩阵对流模块进行修改,正式的可处理概率函数为:
Figure BDA0003870551700000021
其中
Figure BDA0003870551700000022
表示一个已知的随机变量。具体地说,f(x)隐式定义了一个归一化密度模型p(x),能够直接通过最大似然训练。p(x)和π(z)的概率密度与以下变量公式的变化有关:logp(x)=logπ(z)+log|det(Jf(z))|
其中Jf(z)为z~π(z)潜在空间分布的雅可比矩阵,且π(z)的计算成本较低。
可逆神经网络(INN)为重建高质量的水下图像提供有效的解决方案,许多工作在各种低水平视觉任务中取得较大的进展,如去噪、变色和超分辨率等。例如Liu等人提出一种基于可逆流的去噪网络(FDN),能够从退化的图像中分离出噪声信号和清晰的图像分布;Zhao等人设计一种用于图像脱色任务的双面仿射耦合;Liang等人提出了一种基于流的核先验(FKP)来优化盲图像的超分辨率处理。INN在低级实际特性中也具有吸引力的理论和良好的可解释性。例如,Xiao等人开发一种用于图像超分辨率任务的可逆重新调整网络(IRN);Liu等人提出一种可逆去噪网络(InvDN)来从输入图像中分离噪声信号信息;An等人修改一个无偏倚的风格传输框架(ArtFlow)来解决内容泄漏的问题。尽管这些模型在不同的任务上取得较为理想的结果,但它们的模型总是需要许多调优参数来提高性能。因此,另一个研究方向是探索INN的架构。例如,Ho等人设计变量去量化来提高INN的可表示性,减少模型的复杂性;Kingma等人改进一种可逆卷积方法,将RealNVP中的固定排列层替换为RealNVP中的新型仿真合成图像。但基于INN的方法存在两个明显缺点,首先很难在各种水下场景中直接区分单独的噪声分布和干净的图像分布;其次缺乏能够在准确性和计算资源之间进行权衡的针对特定任务的模型。当基于INN的方法直接应用于UIE时,为保证准确性,需要增加参数量,失去INN方法本应具备的参数量小的优点,因此基于INN的方法无法直接应用于UIE。
发明内容
针对背景技术中存在的问题,本发明提供了一种可逆的水下图像增强方法,其特征在于,包括如下步骤:
1)结合现有水下图像数据集,构建输入数据集合;
2)将训练图像块随机旋转并裁剪到256×256,进行图像预处理,并通过水平和垂直翻转来增加训练数据;
3)执行InvUIE模型的正向操作,将退化图像x和参考图像y输入InvUIE模型中的基于流的生成器,生成潜在空间
Figure BDA0003870551700000023
和高频噪声空间
Figure BDA0003870551700000024
4)利用InvUIE模型中可逆降尺度块,通过有监督的方法来减小潜在空间之间
Figure BDA0003870551700000025
Figure BDA0003870551700000026
分布差距
Figure BDA0003870551700000027
执行可逆降尺度块的正向操作,生成低分辨率的干净图像xl和噪声分布z;
5)执行InvUIE模型的反向操作,丢弃高频噪声,进行图像重建,生成纯净图像xc
6)使用ADAM优化器,及所涉及的优化损失函数对构建好的模型进行训练,保留最后训练的模型权重及结果;
7)使用训练好的模型对测试数据集进行模型测试并评价。
所述步骤1)中现有水下图像数据集包括合成水下图像数据集和真实水下图像数据集;合成水下图像数据集包括10种水类型和1440对水下图像;真实水下图像数据集包括890对图像和60张没有参考图像的真实图像。
所述步骤3)中基于流的生成器的执行步骤为:
利用压缩操作保持局部特征;
初始化数据依赖,重新缩放和偏差;
反转特征映射通道的顺序;
将输入分割成xa和xb,使用归一化网络
Figure BDA0003870551700000031
和φ进行提取特征,将
Figure BDA0003870551700000032
的输出与xb进行倍加,并与φ的输出相加得到x′b,连接xa与x′b获得输出特征,
正向操作为:
Figure BDA0003870551700000033
其中:xa,xb为分割后的输入特征图,x′b为输出特征图,
Figure BDA0003870551700000034
和φ表示归一化网络;
利用可逆的1×1卷积,使模型具有稳定的泛化能力;
利用分割操作沿着逆路径的通道连接特征图。
所述步骤4)中可逆降尺度块的执行步骤为:利用离散小波变换对特征映射(H,W,C)进行降采样至(H/2,W/2,4C),将特征映射分解为低频和高频表示;使用注意力机制的ResNet块(ρ,μ,ξ)对仿射耦合层进行修正,筛选能够对图像增强有益的潜在变量;
正向操作为:
x′l=ρ(xh)+xl,x′h=μ(x′l)⊙xh+ξ(x′l)
其中:H为图像高度,W为图像宽度,C为通道数,xl为特征映射的低频表示,
xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
为避免阻碍重建过程的噪声,丢弃高频噪声信号,在重建干净图像时,随机抽样归一化zc~N(0,1)分布,以替换反向操作中的下降部分,所述步骤5)中InvUIE模型的反向操作为:
基于流的生成器的反向操作为:
Figure BDA0003870551700000038
其中:xa,xb为分割后的输入特征图,x′b为输出特征图,
Figure BDA0003870551700000035
和φ表示归一化网络;
可逆降尺度块的反向操作为:
xl=x′l-ρ(xh),xh=(x′h-ξ(x′l))/μ(x′l)
其中:xl为特征映射的低频表示,xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
所述步骤6)中优化损失函数对构建好的模型进行训练的过程为:
总体损失函数包括每个训练短语的三个组成部分,训练过程中的损失函数如下:
Figure BDA0003870551700000036
其中,λ1,λ2,λ3为预设置的三个损失函数的权重,
Figure BDA0003870551700000037
表示对比度损失,定义为:
Figure BDA0003870551700000041
其中
Figure BDA0003870551700000042
和φi(y)作为预训练VGGNet第i层的激活,N表示训练图像的数量,‖‖1指L1范式,
Figure BDA0003870551700000043
为潜在空间,y为参考图像;
Figure BDA0003870551700000044
表示重建损失,定义为:
Figure BDA0003870551700000045
其中,
Figure BDA0003870551700000046
表示潜在噪声空间,xl为特征映射的低频表示;
Figure BDA0003870551700000047
表示潜在变量正则化,定义为:
Figure BDA0003870551700000048
其中,D其中为
Figure BDA0003870551700000049
的维度,
Figure BDA00038705517000000410
为对数似然值,‖‖2指L2范式。
本发明的有益效果在于:
本发明所述一种可逆的水下图像增强方法,使用基于流的生成器模块,用潜在变量表示输入图像;用带有注意力的ResNet块的可逆降尺度块,通过重新调整处理来去除噪声信号;并通过后向操作重构干净的图像。
与现有的INN不同,InvUIE模型不需要额外的先验知识,仅使用一套模型,进行正向操作和反向操作,实现在确保较好的图像增强效果的同时,有效降低参数量,能够在精度和参数之间进行权衡;通过数据集实验、复杂性与参数实验,将本发明公开的InvUIE模型与其他模型进行性能对比,实验结果表明InvUIE模型在定性和定量指标上均优于其他模型。
本发明所述一种可逆的水下图像增强方法能够有效地重建退化区域,减少颜色偏差,获得高质量的视觉结果和SOTA定量指标,特别是在各种水下场景中具有良好的泛化能力,能够在很大程度上缓解参数不足的问题,有效解决基于INN的方法无法直接应用于UIE的问题。
附图说明
图1为本发明公开一种可逆的水下图像增强方法处理步骤流程图;
图2为本发明公开InvUIE模型示意图;
图3为本发明实施例的基于流的生成网络示意图;
图4为本发明实施例的可逆降尺度块示意图;
图5为本发明实施例的普通增强框架结构图;
图6为本发明实施例的InvUIE模型框架结构图。
具体实施方式
本发明提出一种可逆的水下图像增强方法,以下结合附图对本发明作进一步的详细说明。
如图5所示,UIE方法的目的是将退化图像x进行转换,生成干净的图像xc,使得退化图像x接近参考图像y。整体增强过程可表述为x→xc。由于干净和噪声分布不是同构的,不能直接从退化的图像x中重建xc,所以将UIE视为一个分布分离任务,假设退化图像x由噪声分布z和相关性xc组成,利用一类灵活的双射函数来解决此问题。如图6所示,使用基于流的生成器(Flow-based Generator,FGB)模型来生成潜在空间
Figure BDA0003870551700000051
Figure BDA0003870551700000052
使用反向降尺度块(Invertible down-scale block,IDS)通过有监督的方法来减小潜在空间之间
Figure BDA0003870551700000053
Figure BDA0003870551700000054
分布差距
Figure BDA0003870551700000055
具体过程如图1所示,本发明公开一种可逆的水下图像增强方法,具体步骤包括:
1)结合现有水下图像数据集,构建输入数据集合;
2)将训练图像块随机旋转并裁剪到256×256,进行图像预处理,并通过水平和垂直翻转来增加训练数据;
3)执行InvUIE(Invertible Underwater Image Enhancement Network)模型的正向操作,将退化图像x和参考图像y输入InvUIE模型中的基于流的生成器,生成潜在空间
Figure BDA0003870551700000056
和高频噪声空间
Figure BDA0003870551700000057
4)利用InvUIE模型中可逆降尺度块,通过有监督的方法来减小潜在空间之间
Figure BDA0003870551700000058
Figure BDA0003870551700000059
分布差距
Figure BDA00038705517000000510
执行可逆降尺度块的正向操作,生成低分辨率的干净图像xl和噪声分布z;
5)执行InvUIE模型的反向操作,丢弃高频噪声,进行图像重建,生成纯净图像xc
6)使用ADAM优化器,及所涉及的优化损失函数对构建好的模型进行训练,保留最后训练的模型权重及结果;
7)使用训练好的模型对测试数据集进行模型测试并评价。
所述图像预处理,包括步骤1)和步骤2),结合现有水下图像数据集,构建输入数据集合,水下图像数据集包括合成水下图像数据集和真实水下图像数据集。合成水下图像数据集包括10种水类型和1440对水下图像;真实水下图像数据集包括890对图像和60张没有参考图像的真实图像。在本实施例中,在训练阶段,选取1250对合成水下图像和800对真实水下图像对InvUIE模型进行训练;在测试阶段,选取1000对来自UWCNN的合成图像作为Test-S1000;选取90对来自UIEB的真实水下图像作为Test-R90;选取60张没有参考图像的真实图像作为Test-C60;选取16张来自SQUID的水下立体图像;选取7张来自Color-check7的颜色检查图像对颜色的正确性进行评估。各数据集的图像数量如表1所示。所选数据集包含场景丰富的成对水下图像。为了防止训练中出现过拟合现象,对数据集图像进行增广,通过水平和垂直翻转来增加训练数据,将图像块随机旋转并裁剪到256×256。
表1各数据集的图像数量的汇总
Figure BDA00038705517000000511
如图2所示,本发明公开一种InvUIE模型,包括l个流细胞(Flow cell)和m个IDS模块,每个流细胞包括k个FGB模块。将x和y注入流细胞(l×k FGB),记为
Figure BDA00038705517000000512
其中
Figure BDA00038705517000000513
为潜在空间,
Figure BDA00038705517000000514
为高频噪声空间。输入图像大小H×W×C具有空间维数(H,W),通道维度C。g(x)将输入图像映射到潜在空间,获得高质量的不变特征映射。g-1(x)表示逆过程,并重建干净的图像。流降尺度块由m个IDS组成,旨在进一步将潜在噪声
Figure BDA0003870551700000061
解码成
Figure BDA0003870551700000062
IDS生成低分辨率的干净图像xl和噪声分布z。下采样处理公式为:
Figure BDA0003870551700000063
所述步骤3)中,将退化图像x和参考图像y输入InvUIE模型中的基于流的生成器,生成潜在空间
Figure BDA0003870551700000064
和高频噪声空间
Figure BDA0003870551700000065
的具体过程如图3所示:
一个FGB模块由一个激活归一化层(ActNorm)、一个排列层(Permutation)、一个仿射耦合层(Affine Tran.)和一个可逆的1×1卷积层(1x1 Conv)组成。为优化对数似然目标,FGB模型首先利用压缩(squeeze)操作来保持局部特征,通过数据依赖的初始化,激活归一化层能够重新缩放和偏差;排列层反转特征映射的通道的顺序;仿射耦合层能够表达对数据的复杂依赖关系,同时保持反演和对数似然计算易于处理;使用可逆的1×1卷积层,使模型具有稳定的泛化能力,利用分割(Split)操作来沿着逆路径的通道连接特征图,从而实现生成潜在空间
Figure BDA0003870551700000066
和高频噪声空间
Figure BDA0003870551700000067
所述仿射耦合层将输入分割成xa和xb,使用归一化网络
Figure BDA0003870551700000068
和φ进行提取特征,将
Figure BDA0003870551700000069
的输出与xb进行倍加,并与φ的输出相加得到x′b,连接xa与x′b获得输出特征。此外,每个通道的平均潜在变量能够计算为控制退化区域感知潜在空间的方向。正向计算为
Figure BDA00038705517000000610
Figure BDA00038705517000000611
所述步骤4)中的可逆降尺度块如图4所示,利用离散小波变换对特征映射(H,W,C)进行降采样至(H/2,W/2,4C),将特征映射分解为低频和高频表示;使用注意力机制的ResNet块(ρ,μ,ξ)对仿射耦合层进行修正,筛选能够对图像增强有益的潜在变量,通过对潜在变量的筛选,重点关注必要的潜在变量的变化,增强模型的可解释性,提升特征提取效果,通过注意力机制的ResNet来学习低频、高频表示中的特征,产生中间潜在特征空间以及纯净潜在特征空间;通过有监督的方法来减小潜在空间之间
Figure BDA00038705517000000612
Figure BDA00038705517000000613
分布差距
Figure BDA00038705517000000615
执行可逆降尺度块的正向操作,生成低分辨率的干净图像xl和噪声分布z。
正向操作为:
x′l=ρ(xh)+xl,x′h=μ(x′l)⊙xh+ξ(x′l)
其中:H为图像高度,W为图像宽度,C为通道数,xl为特征映射的低频表示,
xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
与其他仿射耦合不同,本发明所述优化方法,利用带有通道注意模块的ResNet块来改进UIE任务的潜在空间的表示,新的耦合流的能力使得IDS能够具有任意的复杂度。
所述步骤5)执行InvUIE模型的反向操作,为避免阻碍重建过程的噪声,丢弃高频噪声信号,在重建干净图像时,随机抽样归一化zc~N(0,1)分布,以替换反向操作中的下降部分,生成纯净图像xc
基于流的生成器的反向操作为:
Figure BDA00038705517000000616
其中:xa,xb为分割后的输入特征图,x′b为输出特征图,其中
Figure BDA00038705517000000617
和φ表示归一化网络;
可逆降尺度块的反向操作为:
xl=x′l-ρ(xh),xh=(x′h-ξ(x′l))/μ(x′l)
其中:xl为特征映射的低频表示,xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
所述步骤6)中优化损失函数对构建好的模型进行训练的过程为:
总体损失函数包括每个训练短语的三个组成部分,训练过程中的损失函数如下:
Figure BDA0003870551700000071
其中,λ1,λ2,λ3为预设置的三个损失函数的权重,
Figure BDA0003870551700000072
表示对比度损失,从图像导数的角度最小化两幅图像之间的差异,保留高级语义特征并提高视觉质量,定义为:
Figure BDA0003870551700000073
其中
Figure BDA0003870551700000074
和φi(y)作为预训练VGGNet第i层的激活,N表示训练图像的数量,‖‖1指L1范式,
Figure BDA0003870551700000075
为潜在空间,y为参考图像;
Figure BDA0003870551700000076
表示重建损失,利用重建损失鼓励样本潜在分布
Figure BDA0003870551700000077
更接近低分辨率干净的xl,定义为:
Figure BDA0003870551700000078
其中,
Figure BDA0003870551700000079
表示潜在噪声空间,xl为特征映射的低频表示;
Figure BDA00038705517000000710
表示潜在变量正则化,为了正则化潜在分布,将所得到的潜在变量归一化,以遵循标准高斯分布的概率密度函数p。最大化以下情况的对数似然值
Figure BDA00038705517000000711
定义为:
Figure BDA00038705517000000712
其中,D其中为
Figure BDA00038705517000000713
的维度,
Figure BDA00038705517000000714
为对数似然值,‖‖2指L2范式。
所述步骤6)中使用ADAM优化器,及所涉及的优化损失函数对构建好的模型进行训练,保留最后训练的模型权重及结果的具体过程如下:
为验证本发明公开的一种可逆的水下图像增强方法的实际效果,使用一台配置有一个Intel(R)Xeon(R)Silver 4210R CPU和两个NVIDIA Tesla V100 GPU的计算机,在PyTorch框架平台上实现InvUIE模型。InvUIE模型为一种端到端模型,由6个带有4个FGB的流单元和2个带有8个可反转块的可反转降尺度块组成。在训练阶段,使用ADAM优化器并设置动量β1=0.9,β2=0.999。初始学习率为2×10-4,每10k次迭代多步衰减。批大小设置为26。通过水平和垂直翻转来增加训练数据,将图像块随机旋转并裁剪为256×256。
为评价InvUIE模型的有效性,所述步骤7)使用训练好的模型对测试数据集进行模型测试并评价,具体比较过程如下:
选择以下UIE方法进行比较,包括四种传统方法,如Ancuti等,Li等,Peng andCosman,和GDCP;六种基于深度学习的方法,如UcycleGAN,Guo等,Water-Net,UWCNN,Unet-RMT,和Ucolor。为确保比较的公平性,利用重新训练的UWCNN和Unet与估计的RMT图来与本发明公开的InvUIE模型进行比较。
进行定量评估,采用峰值信噪比(PSNR)、结构相似度指数度量(SSIM)和均方误差(MSE)来评估模型。此外,非参考指标是UIQM和UCIQE,用于评估在没有相应参考图像的Test-C60和SQUID中这些方法的性能。为避免UCIQE在不同数据集中的方差较大,在(0,1)的范围内对分数进行了归一化。NIQE的指标表示生成的图像的质量。本发明邀请30名人类受试者来评分感知质量范围从1到5(最差到最佳质量)。CIEDE2000在Color-check 7中测量相对感知,CIEDE2000的值越小,效果越好。
对于TestS1000和TestR90的平均PSNR、SSIM和MSE值的定性性能,如表2所示,用粗体表示最佳结果,用下划线表示第二好结果。与传统方法相比,基于深度学习的模型在PSNR、SSIM和MSE结果方面具有显著的性能。Ancuti等,Li等,Peng and Cosman,GDCP以及UcycleGAN在定量指标上表现不佳。WaterNet能够有效地增强Test-r90中的退化图像,但在其他水下数据集中的泛化效果较差。UWCNN在图像处理过程中需要先验知识,但在实际的水下数据集中无法很好地恢复退化的图像。UNet-U和Ucolor需要额外的介质传输来重建干净的图像。相比之下,与Ucolor相比,InvUIE模型在Test-S1000和Test-R90上的PSNR方面获得了1.07dB/0.51dB,表明本发明所述InvUIE模型可以生成高质量的图像,并保存更多的上下文细节。此外,InvUIE模型在没有利用额外的信息和准确性和参数之间的权衡的情况下,取得较好的结果。
表2在测试-S1000和测试-R90上的不同方法的评价
Figure BDA0003870551700000081
Test-C60 and SQUID是具有挑战性的水下图像数据集,以评估所有比较方法的鲁棒性和颜色重建性能。如表3所示比较方法的结果,用粗体表示最佳结果,用下划线表示第二好结果。观察到在UIQM和UCIQE等方面,传统的方法比基于深度学习的方法获得了更好的结果。UIQM和UCIQE得分最好。与基于深度学习的模型相比,InvUIE模型获得的分数最好。对于PS分数,InvUIE模型在Test-C60中表现最好,在SQUIE中排名第二。这表示InvUIE模型能够产生优异的视觉结果。在NICE方面,Ancuti等在Test-C60中得分最好,Ucolor在SQUIE数据集中得分最好。总之,与其他基于深度学习的模型相比,InvUIE模型在各种水下数据集上取得良好的性能,能够权衡感知结果和结果中的背景细节。
表3不同方法对Test-C60和SQUID的平均知觉得分(PS)、UIQM、UCIQE和NIQE
Figure BDA0003870551700000091
为验证其鲁棒性和准确性,比较不同方法的CIEDE2000的平均得分,如表4所示,用粗体表示最佳结果,用下划线表示第二好结果。本发明裁剪相应的颜色斑块,并使用Color-Check7计算这些值。InvUIE模型在不同相机中获得最低的平均颜色值,在W60、W80、CanD10和FujZ33中获得最好的颜色值。Ucolor在OlyT6000上得分最低,Ancuti等在OlyT8000和PanTS1上表现最好。结果表明,InvUIE模型能有效地校正颜色失真,并能很好地推广到其他不同的相机图像上。相比之下,比较方法未能在低对比度下恢复真实图像颜色信息。
表4 Color-Check7上不同方法的CIEDE2000颜色差异比较
Figure BDA0003870551700000101
为评估模型的参数量和性能,在同一台机器上的评估所有比较模型,硬件环境为使用一个Intel(R)Xeon(R)Silver 4210R CPU和两个NVIDIA Tesla V100 GPU。InvUIE模型呈现较好的复杂性与性能权衡,参数量仅为4.7M,与Ucolor(600M)和WaterNet(153.1M)相比,轻量级优势显著。虽然UWCNN的参数量为354.1K,但它在各种水下数据集上的性能较差,需要先验知识。在这个任务中没有必要与物理模型进行比较,如Ancuti等,GDCP,Li等,andPeng等。如表5所示,为Test-S1000中图像大小为256×256各模型比较的结果。
表5 InvUIE与其他方法在参数和PSNR(dB)方面的比较
Figure BDA0003870551700000102
通过数据集实验、复杂性与参数实验,将本发明公开的InvUIE模型与其他模型进行性能对比,实验结果表明InvUIE模型在定性和定量指标上均优于其他模型,InvUIE模型不需要额外的先验知识,与传统的通用增强框架相比,不需要编码、解码两套模型,仅使用一套模型,通过正向操作和反向操作,在确保较好的图像增强效果的同时,有效降低参数量,能够实现在精度和参数之间进行权衡。本发明所述一种可逆的水下图像增强方法能够有效地重建退化区域,减少颜色偏差,获得高质量的视觉结果和SOTA定量指标,特别是在各种水下场景中具有良好的泛化能力,能够在很大程度上缓解参数不足的问题,有效解决基于INN的方法无法直接应用于UIE的问题。

Claims (6)

1.一种可逆的水下图像增强方法,其特征在于,包括如下步骤:
1)结合现有水下图像数据集,构建输入数据集合;
2)将训练图像块随机旋转并裁剪到256×256,进行图像预处理,并通过水平和垂直翻转来增加训练数据;
3)执行InvUIE模型的正向操作,将退化图像x和参考图像y输入InvUIE模型中的基于流的生成器,生成潜在空间
Figure FDA0003870551690000011
和高频噪声空间
Figure FDA0003870551690000012
4)利用InvUIE模型中可逆降尺度块,通过有监督的方法来减小潜在空间之间
Figure FDA0003870551690000013
Figure FDA0003870551690000014
分布差距
Figure FDA0003870551690000015
执行可逆降尺度块的正向操作,生成低分辨率的干净图像xl和噪声分布z;
5)执行InvUIE模型的反向操作,丢弃高频噪声,进行图像重建,生成纯净图像xc
6)使用ADAM优化器,及所涉及的优化损失函数对构建好的模型进行训练,保留最后训练的模型权重及结果;
7)使用训练好的模型对测试数据集进行模型测试并评价。
2.根据权利要求1所述的一种可逆的水下图像增强方法,其特征在于,所述步骤1)中现有水下图像数据集包括合成水下图像数据集和真实水下图像数据集;合成水下图像数据集包括10种水类型和1440对水下图像;真实水下图像数据集包括890对图像和60张没有参考图像的真实图像。
3.根据权利要求1所述的一种可逆的水下图像增强方法,其特征在于,所述步骤3)中基于流的生成器的执行步骤为:
利用压缩操作保持局部特征;
初始化数据依赖,重新缩放和偏差;
反转特征映射通道的顺序;
将输入分割成xa和xb,使用归一化网络
Figure FDA0003870551690000016
和φ进行提取特征,将
Figure FDA0003870551690000017
的输出与xb进行倍加,并与φ的输出相加得到x′b,连接xa与x′b获得输出特征,
正向操作为:
Figure FDA0003870551690000018
其中:xa,xb为分割后的输入特征图,x′b为输出特征图,其中
Figure FDA0003870551690000019
和φ表示归一化网络;
利用可逆的1×1卷积,使模型具有稳定的泛化能力;
利用分割操作沿着逆路径的通道连接特征图。
4.根据权利要求1所述的一种可逆的水下图像增强方法,其特征在于,所述步骤4)中可逆降尺度块的执行步骤为:利用离散小波变换对特征映射(H,W,C)进行降采样至(H/2,W/2,4C),将特征映射分解为低频和高频表示;使用注意力机制的ResNet块(ρ,μ,ξ)对仿射耦合层进行修正,筛选能够对图像增强有益的潜在变量;
正向操作为:
x′l=ρ(xh)+xl,x′h=μ(x′l)⊙xh+ξ(x′l)
其中:H为图像高度,W为图像宽度,C为通道数,xl为特征映射的低频表示,
xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ,μ,ξ为注意力机制的ResNet块。
5.根据权利要求1所述的一种可逆的水下图像增强方法,其特征在于,为避免阻碍重建过程的噪声,丢弃高频噪声信号,在重建干净图像时,随机抽样归一化zc~N(0,1)分布,以替换反向操作中的下降部分,所述步骤5)中InvUIE模型的反向操作为:
基于流的生成器的反向操作为:
Figure FDA0003870551690000021
其中:xa,xb为分割后的输入特征图,x′b为输出特征图,其中
Figure FDA0003870551690000022
和φ表示归一化网络;
可逆降尺度块的反向操作为:
xl=x′l-ρ(xh),xh=(x′h-ξ(x′l))/μ(x′l)
其中:xl为特征映射的低频表示,xh为特征映射的高频表示,x′l为中间的潜在特征空间,x′h为干净的潜在特征空间,ρ、μ、ξ为注意力机制的ResNet块。
6.根据权利要求1所述的一种可逆的水下图像增强方法,其特征在于,所述步骤6)中优化损失函数对构建好的模型进行训练的过程为:
总体损失函数包括每个训练短语的三个组成部分,训练过程中的损失函数如下:
Figure FDA0003870551690000023
其中,λ1,λ2,λ3为预设置的三个损失函数的权重,
Figure FDA0003870551690000024
表示对比度损失,定义为:
Figure FDA0003870551690000025
其中
Figure FDA0003870551690000026
和φi(y)作为预训练VGGNet第i层的激活,N表示训练图像的数量,‖‖1指L1范式,
Figure FDA0003870551690000027
为潜在空间,y为参考图像;
Figure FDA0003870551690000028
表示重建损失,定义为:
Figure FDA0003870551690000029
其中,
Figure FDA00038705516900000210
表示潜在噪声空间,xl为特征映射的低频表示;
Figure FDA00038705516900000211
表示潜在变量正则化,定义为:
Figure FDA00038705516900000212
其中,D其中为
Figure FDA00038705516900000213
的维度,
Figure FDA00038705516900000214
为对数似然值,‖‖2指L2范式。
CN202211194801.7A 2022-09-29 2022-09-29 一种可逆的水下图像增强方法 Pending CN115546060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211194801.7A CN115546060A (zh) 2022-09-29 2022-09-29 一种可逆的水下图像增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211194801.7A CN115546060A (zh) 2022-09-29 2022-09-29 一种可逆的水下图像增强方法

Publications (1)

Publication Number Publication Date
CN115546060A true CN115546060A (zh) 2022-12-30

Family

ID=84731081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211194801.7A Pending CN115546060A (zh) 2022-09-29 2022-09-29 一种可逆的水下图像增强方法

Country Status (1)

Country Link
CN (1) CN115546060A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797225A (zh) * 2023-01-06 2023-03-14 山东环宇地理信息工程有限公司 一种水下地形测量用无人船采集图像增强方法
CN115841614A (zh) * 2023-02-20 2023-03-24 中国石油大学(华东) 一种影像处理方法、装置、水下成像设备及介质
CN116188346A (zh) * 2023-05-04 2023-05-30 安翰科技(武汉)股份有限公司 内窥镜图像的画质增强方法及装置
CN118469889A (zh) * 2023-12-12 2024-08-09 荣耀终端有限公司 图像处理方法和相关装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797225A (zh) * 2023-01-06 2023-03-14 山东环宇地理信息工程有限公司 一种水下地形测量用无人船采集图像增强方法
CN115841614A (zh) * 2023-02-20 2023-03-24 中国石油大学(华东) 一种影像处理方法、装置、水下成像设备及介质
CN116188346A (zh) * 2023-05-04 2023-05-30 安翰科技(武汉)股份有限公司 内窥镜图像的画质增强方法及装置
CN118469889A (zh) * 2023-12-12 2024-08-09 荣耀终端有限公司 图像处理方法和相关装置

Similar Documents

Publication Publication Date Title
CN115546060A (zh) 一种可逆的水下图像增强方法
Gai et al. New image denoising algorithm via improved deep convolutional neural network with perceptive loss
CN111275637A (zh) 一种基于注意力模型的非均匀运动模糊图像自适应复原方法
CN113658051A (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN111754446A (zh) 一种基于生成对抗网络的图像融合方法、系统及存储介质
CN111784602A (zh) 一种生成对抗网络用于图像修复的方法
CN113362250B (zh) 一种基于双树四元小波与深度学习的图像去噪方法及系统
CN113723295A (zh) 一种基于图像域频域双流网络的人脸伪造检测方法
Gendy et al. Lightweight image super-resolution based on deep learning: State-of-the-art and future directions
CN113222998B (zh) 基于自监督低秩网络的半监督图像语义分割方法及装置
CN111986108A (zh) 一种基于生成对抗网络的复杂海空场景图像去雾方法
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN111986085B (zh) 一种基于深度反馈注意力网络系统的图像超分辨率方法
Chen et al. Image denoising via deep network based on edge enhancement
Xu et al. AutoSegNet: An automated neural network for image segmentation
CN116797461A (zh) 基于多级强化注意力机制的双目图像超分辨率重建方法
Li et al. Image super-resolution reconstruction based on multi-scale dual-attention
CN117994167B (zh) 融合并行多卷积注意力的扩散模型去雾方法
Peng et al. Raune-Net: a residual and attention-driven underwater image enhancement method
Wang et al. Lightweight image denoising network with four-channel interaction transform
Kas et al. DLL-GAN: Degradation-level-based learnable adversarial loss for image enhancement
Li et al. H-vfi: Hierarchical frame interpolation for videos with large motions
CN116703750A (zh) 基于边缘注意力和多阶微分损失的图像去雾方法及系统
CN116485654A (zh) 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法
Nikzad et al. Attention-based Pyramid Dilated Lattice Network for Blind Image Denoising.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination