CN117495687B

CN117495687B - 一种水下图像增强方法

Info

Publication number: CN117495687B
Application number: CN202311854266.8A
Authority: CN
Inventors: 曲钧天; 刘厚德; 由佳; 曹翔宇; 于振苹
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-02
Anticipated expiration: 2043-12-29
Also published as: CN117495687A

Abstract

一种水下图像增强方法，包括以下步骤：S1、获取包含参考图像的高清水下图像数据集，建立训练集和测试集；S2、建立自适应直方图均衡模型，用于图像预处理以提升图像的亮度和对比度；S3、建立基于改进cGAN网络的图像增强模型；S4、利用所述训练集训练所述改进cGAN网络直至收敛；S5、将待分析的高清水下图像输入至收敛后的改进cGAN网络，输出增强后的高质量且清晰的水下图像。通过本发明的方法得到增强后的高质量且清晰的水下图像，能够有效地避免水下图像出现色偏、细节损失、目标模糊和低对比度等退化现象。

Description

一种水下图像增强方法

技术领域

本发明涉及海洋工程和计算机视觉领域，特别是涉及一种水下图像增强方法。

背景技术

水下图像是水下信息的重要载体。然而水下成像过程中，水体的结构对光的传播有很大影响，相对于空气中所拍摄的普通图像，水下成像所遇到的问题更加复杂和困难。水下图像呈现出的问题包括：低对比度、非均匀照明、模糊、光斑以及各种复杂因素的噪声。

针对水下光学图像的退化问题，较多的研究者尝试使用图像增强和复原的方法，从而矫正图像的色偏、恢复图像的视觉效果。水下图像增强方法可分为基于传统模型的图像增强方法和基于深度学习的图像增强方法。基于传统模型的图像增强根据水下图像的特点，在像素层级对图像的对比度、颜色和清晰度进行修正，又可以进一步细分为基于物理模型的方式、基于空间域的方法、基于色彩恒常性的方法和基于融合的方法四种。基于深度学习的图像增强方法将图像的增强和恢复看作编码和解码的过程，并使用解码器的输出和真值图像计算损失，从而优化整个网络。生成对抗网络和卷积神经网络残差模型被广泛用于图像增强。与传统的增强算法相比，训练后的神经网络不需要设置参数。近年来，基于GAN的一些方法已被应用于水下视觉增强。在图像处理领域，原始的GAN会受一些条件限制。例如，结果出现低分辨率、低质量的情况，虽然通过网络生成的图像表面上看起来很不错，但倘若放大开来看，就会发现图像中细节不清晰。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于提供一种水下图像增强方法，以解决水下图像出现色偏、细节损失、目标模糊和低对比度等退化现象的问题。

为实现上述目的，本发明采用以下技术方案：

一种水下图像增强方法，包括以下步骤：

S1、获取包含参考图像的高清水下图像数据集，建立训练集和测试集；

S2、建立自适应直方图均衡模型，用于图像预处理以提升图像的亮度和对比度；

S3、建立基于改进cGAN网络的图像增强模型；

S4、利用所述训练集训练所述改进cGAN网络直至收敛；

S5、将待分析的高清水下图像输入至收敛后的改进cGAN网络，输出增强后的高质量且清晰的水下图像。

进一步地：

步骤S1包括：获取一系列包含各类场景的高清水下图像数据集，以供网络学习多场景多层次的水下特征。

步骤S2包括：采用对比度受限的自适应直方图拉伸方法；其中，先将输入图像分割成连续且不重叠的切片，计算各区域的直方图，并用一个预先确定的阈值对直方图进行裁剪，将被剪切的像素均匀分布在直方图下方，若该直方图超过了预设的阈值，则裁剪像素并平均分配到当前颜色空间之外的其他的颜色空间中，最后重建直方图。

步骤S2中，所述自适应直方图均衡模型执行局部直方图均衡，其中，首先计算图像的概率密度函数和累积分布函数，然后使用水平映射方程将输入灰度映射到输出灰度，接下来使用线性插值对像素值进行重建；对于角落的像素，新的灰度值等于角落区域的灰度映射，对于边缘像素，新的灰度值为周围区域两个样本s的灰度映射的插值，对于图像中心的像素，新的灰度值是对周围区域的四个样本s的灰度映射的插值；

均衡后的像素值计算方法为：

；

p为应用均衡化方法后的像素值；k为图像像素值；为图像像素值的最大值；为图像像素值的最小值；/>为累积概率分布函数。

步骤S3中，所述基于改进cGAN网络的图像增强模型为基于全卷积cGAN的实时水下图像增强模型，其中，制定了一个多模态目标函数，通过基于图像的全局内容、颜色、局部纹理和风格信息评估图像的感知质量来训练模型。

所述改进cGAN网络包括采用全卷积结构的生成器和鉴别器，所述生成器采用编码-解码结构，每个编码器的输出连接到各自的镜像解码器，判别器采用马尔科夫判别器架构，该架构假设超出补丁大小的像素是独立的，即仅基于补丁级信息进行鉴别。

所述改进cGAN网络采用的损失函数如下式所示：

；

其中，是条件对抗损失函数，/>是L1损失，/>是内容感知损失；/>，/>是比例因子，根据经验调整作为超参数。

在目标函数中引入了内容感知损失，感知损失的计算如式所示：

；

是内容感知损失， G表示基于GAN的标准条件模型学习映射，/>，其中X表示源域，Y表示期望域，Z表示随机噪声，/>为图像内容函数，/>表示关于下标中指定分布的期望值。

所述基于改进cGAN网络的图像增强模型采用一个基于条件GAN的模型，其中生成器试图通过迭代最小-最大博弈与对抗鉴别器进化来学习映射。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时，实现所述的水下图像增强方法。

本发明的直方图均衡算法与改进的cGAN网络相结合得到增强后的高质量且清晰的水下图像，能够有效地避免水下图像出现色偏、细节损失、目标模糊和低对比度等退化现象。

与现有技术相比，本发明所提供的技术方案至少具备以下优点：

1）自动化程度高：得益于生成器网络的编码-解码结构，网络训练过程中的各种细节不依赖于人工调试，大大节省了算法调优所需的人力和时间成本；

2）可扩展性强：所述改进cGAN网络的生成器和鉴别器包含多个层级结构。在未来的研究中，易以该网络为基础，通过增加或调整网络模块来继续提升检测性能，或解决更复杂、更特化的检测任务。

3）更符合人的主观感受：在损失函数中引入内容感知损失，与传统的均方误差损失函数（MSE）相比，感知损失更注重图像的感知质量，更符合人眼对图像质量的感受，更适用于水下环境。

本发明实施例中的其他有益效果将在下文中进一步述及。

附图说明

图1是本发明实施例提出的基于自适应直方图均衡和改进cGAN的水下图像增强方法的流程图；

图2是本发明实施例构成水下图像增强基准数据集的高清水下图像示例；

图3是本发明实施例重新排列像素值以实现限制对比度效果示意图；

图4是本发明实施例进行自适应直方图均衡预处理后的水下图像及直方图示例；

图5是本发明实施例改进cGAN网络中生成器的网络结构示意图；

图6是本发明实施例改进cGAN网络中判别器的网络结构示意图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

参阅图1，本发明实施例提供一种水下图像增强方法，包括以下步骤：

S3、建立基于改进cGAN网络的图像增强模型；

S4、利用所述训练集训练所述改进cGAN网络直至收敛；

以下进一步描述本发明具体实施例。

一种基于自适应直方图均衡和改进cGAN的水下图像增强方法，包括以下步骤S1~S5：

步骤S1、获取包含参考图像的高清水下图像数据集，建立训练集和测试集。具体地，在网络公开数据集中获取一系列包含各类场景的高清水下图像数据集，场景包括海洋环境、海底生物、潜水员活动等，如图2所示。除此之外，图像数据集需包含深海图像和浅海图像，使网络学习多场景多层次的水下特征，提高泛化能力。图像数据集需包括成对参考图像，按照比例划分训练集和测试集。

步骤S2、建立自适应直方图均衡模型，提升图像的亮度和对比度，并作为图像预处理部分。为了解决自适应直方图均衡化导致的噪声放大问题，采用对比度受限的自适应直方图拉伸方法。一方面，它是一种限制直方图分布的方法，以防止噪声点的过度增强；另一方面，它使用插值来加速直方图均衡化。

所述自适应直方图均衡方法需首先对输入图像进行切割，分割成连续且不重叠的切片。在此基础上，计算各区域的直方图。对比度受限自适应直方图拉伸在计算累计分布函数前先用一个预先确定的阈值对直方图进行裁剪，从而达到约束放大效果的目的。随后重新排列像素值，将被剪切的像素均匀分布在直方图下方，以实现限制对比度效果，如图3所示。然后对所有区域执行局部直方图均衡，首先计算图像的概率密度函数：

；

其中，是图像中灰度k的像素总数，累积分布函数可求得：

；

计算累积分布函数后，直方图均衡方法使用水平映射方程，将输入水平k匹配到输出水平：

；

随后使用线性插值像素值重建。假设样本点的灰度值为s，线性插值后的新灰度值为/>。其周围区域的样本点分别为/>、/>、/>和/>。s的灰度映射分别为/>、/>、和/>。对于角落的像素，新的灰度值等于该区域s的灰度映射：

；

对于边缘像素，新的灰度值为周围区域两个样本s的灰度映射的插值：

；

对于图像中心的像素，新的灰度值是对周围区域的四个样本s的灰度映射的插值：

；

其中，和/>是到点/>的归一化距离。

自适应直方图均衡的计算方法为：

；

其中，p为应用均衡化方法后的像素值；k为图像像素值；为图像像素值的最大值；/>为图像像素值的最小值；/>为累积概率分布函数。

图4示出了本发明实施例进行自适应直方图均衡预处理后的水下图像及直方图示例。

步骤S3、建立基于改进cGAN的图像增强模型。cGAN网络的显著优势就是可以在原始GAN网络进行输入操作的时候添加额外信息，指导网络进行学习和博弈。提出了一种基于全卷积cGAN的实时水下图像增强模型，制定了一个多模态目标函数，通过基于图像的全局内容、颜色、局部纹理和风格信息评估图像的感知质量来训练模型。采用了一个基于条件GAN的模型，其中生成器试图通过迭代最小-最大博弈与对抗鉴别器进化来学习映射。

所述生成器网络如图5所示。生成器网络采用编码-解码结构，每个编码器的输出连接到各自的镜像解码器。在编码器每一层应用2D卷积，Leaky-ReLU非线性和批归一化（BN）。卷积层采用卷积核尺寸为4×4；卷积步长为2。输入图像尺寸为256×256×3，经过六层编码操作后，最终输出通道数为256的图像特征。

解码器利用这些特征映射和跳跃式连接的输入来学习生成256 ×256×3的增强图像作为输出。在解码器每一层应用2D反卷积，Drop-out正则化和批归一化（BN）。卷积层采用卷积核尺寸为4×4；卷积步长为2。经过六层解码操作后，最终输出通道数为3的图像特征。

所述判别器网络如图6所示。对于判别器，采用马尔科夫判别器架构，该架构假设超出补丁大小的像素是独立的，即仅基于补丁级信息进行鉴别。这个假设对于有效地捕获高频特征（如局部纹理和样式）非常重要。此外，这种配置在计算上更高效，因为与在图像级别上进行全局识别相比，它需要更少的参数。判别器使用全卷积层将256×256×6的输入（真实图像和生成图像）转换为16×16×1的输出，该输出表示鉴别器的平均有效性响应。在每一层，使用3×3卷积滤波器，步幅为2。与生成器相同，在每一层应用2D卷积，Leaky-ReLU非线性和批归一化（BN）。

步骤S4、利用所述训练集训练所述改进cGAN网络直至收敛。为了确保神经网络能够生成具有良好视觉效果的图像，制定了一个目标函数，指导生成器学习提高感知图像质量，使生成的图像在其整体外观和高级特征表示方面接近各自的参考图像。另一方面，鉴别器将丢弃具有局部纹理和样式不一致的生成图像。损失函数计算如式所示：

；

式中，，/>是比例因子，根据经验调整作为超参数。

基于GAN的标准条件模型学习映射，其中X表示源域，Y表示期望域，Z表示随机噪声。条件对抗损失函数计算方法如式：

；

其中，生成器G最小化；鉴别器D最大化/>。

与L2距离相比，L1损失被证实有助于生成更清晰的图像。L1损耗的计算如式所示：

；

内容感知损失是指通过计算生成图像和目标图像在特征空间中的距离来评估网络在生成图像时表现的好坏。通过计算生成图像和目标图像在低维空间的距离，可以得到一个数值作为损失，并且将其用于优化神经网络的参数。感知损失的计算如式所示：

；

内容感知损失有助于提供更精细的纹理细节，并使生成结果与目标图像更加相似。由于内容感知损失需要在低维空间计算距离，因此可以降低模型训练的复杂度和时间消耗。与传统的均方误差损失函数（Mean Square Error，MSE）相比，感知损失更注重图像的感知质量，更符合人眼对图像质量的感受，更适用于水下环境。基于预训练的19层VGG（Visual Geometry Group）网络的ReLU激活层定义该感知损失，图像内容函数/>为由预先训练过的VGG-19网络的第5块conv2层提取的高级特征，提取图像的纹理和结构信息。

步骤S5、将待分析的高清水下图像输入至收敛后的改进cGAN网络，输出增强后的高质量且清晰的水下图像。为评价生成的增强图像，可使用三个参考指标，以便定量比较算法增强的图像和原图像。峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）计算增强后图像与参考图像的偏差。结构相似性（Structural SIMilarity，SSIM）是图像多尺度结构相似度的客观指标。水下图像质量评价标准（Underwater Image Quality Measure，UIQM）基于人的肉眼感知，对图像进行评价。所以，由于水下图像颜色，清晰度以及对比度下降，选用能同时体现水下图像颜色，清晰度及对比度的评价指标UIQM来对水下图像进行总体质量评价。

PSNR的计算由平均平方误差（MSE）决定。计算方法如下：

；

SSIM根据三种属性对图像斑块进行比较：亮度、对比度和结构。SSIM的定义如下：

；

其中，和/>代表均值，/>和/>分别是x和y的方差，/>代表x和y的相关性。和/>是保证数值稳定性的常数。

水下图像质量评价标准UIQM是一种基于人的视觉刺激，基于水下影像劣化机制与成像特性，不需要任何参考的水下影像质量评价标准。该指标是水下图像色彩、锐度和对比度指标的线性组合。每个属性都被选择用于评估水下图像退化的一个方面，该方法能有效地评价水下图像质量，符合人眼感知。其数值越大，说明画面颜色均衡，清晰度和对比度越好。

水下图像质量评价标准的计算方法如下：

；

其中，均为常数系数，UICM是水下图像色彩测量指标，UISM是水下图像锐度指标，UIConM是水下图像对比度指标，水下图像质量评价标准由色彩、锐度和对比度指标进行线性组合得到。

与现有技术相比，本发明至少具备以下优点：

本发明实施例还提供一种存储介质，用于存储计算机程序，该计算机程序被执行时至少执行如上所述的方法。

本发明实施例还提供一种控制装置，包括处理器和用于存储计算机程序的存储介质；其中，处理器用于执行所述计算机程序时至少执行如上所述的方法。

本发明实施例还提供一种处理器，所述处理器执行计算机程序，至少执行如上所述的方法。

所述存储介质可以由任何类型的非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种水下图像增强方法，其特征在于，包括以下步骤：

S3、建立基于改进cGAN网络的图像增强模型；

S4、利用所述训练集训练所述改进cGAN网络直至收敛；

S5、将待分析的高清水下图像输入至收敛后的改进cGAN网络，输出增强后的高质量且清晰的水下图像；

均衡后的像素值计算方法为：

；

p为应用均衡化方法后的像素值；k为图像像素值；为图像像素值的最大值；/>为图像像素值的最小值；/>为累积概率分布函数；

所述改进cGAN网络采用的损失函数如下式所示：

；

其中，是条件对抗损失函数，/>是L1损失，/>是内容感知损失；/>，/>是比例因子，根据经验调整作为超参数；

在目标函数中引入了内容感知损失，内容感知损失的计算如式所示：

；

2.如权利要求1所述的水下图像增强方法，其特征在于，步骤S1包括：获取一系列包含各类场景的高清水下图像数据集，以供网络学习多场景多层次的水下特征。

3.如权利要求1所述的水下图像增强方法，其特征在于，步骤S2包括：采用对比度受限的自适应直方图拉伸方法；其中，先将输入图像分割成连续且不重叠的切片，计算各区域的直方图，并用一个预先确定的阈值对直方图进行裁剪，将被剪切的像素均匀分布在直方图下方，若该直方图超过了预设的阈值，则裁剪像素并平均分配到当前颜色空间之外的其他的颜色空间中，最后重建直方图。

4.如权利要求1至3任一项所述的水下图像增强方法，其特征在于，步骤S3中，所述基于改进cGAN网络的图像增强模型为基于全卷积cGAN的实时水下图像增强模型，其中，制定了一个多模态目标函数，通过基于图像的全局内容、颜色、局部纹理和风格信息评估图像的感知质量来训练模型。

5.如权利要求4所述的水下图像增强方法，其特征在于，所述改进cGAN网络包括采用全卷积结构的生成器和鉴别器，所述生成器采用编码-解码结构，每个编码器的输出连接到各自的镜像解码器，判别器采用马尔科夫判别器架构，该架构假设超出补丁大小的像素是独立的，即仅基于补丁级信息进行鉴别。

6.如权利要求1至3任一项所述的水下图像增强方法，其特征在于，所述基于改进cGAN网络的图像增强模型采用一个基于条件GAN的模型，其中生成器试图通过迭代最小-最大博弈与对抗鉴别器进化来学习映射。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至6任一项所述的水下图像增强方法。