CN116309232A

CN116309232A - 一种结合物理先验与深度学习的水下图像增强方法

Info

Publication number: CN116309232A
Application number: CN202310540188.8A
Authority: CN
Inventors: 董兴辉; 齐昊
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-06-23
Anticipated expiration: 2043-05-15
Also published as: CN116309232B

Abstract

一种结合物理先验与深度学习的水下图像增强方法，包括收集数据集，根据水下图像退化模型与透射率和背景光系数构建局部信息提取分支与全局信息提取分支，利用残差学习模块进行特征融合，完成网络构建，训练该网络时，使用结合正向损失、逆向损失与无参考先验损失的联合损失函数，训练好的网络，输入退化的水下图像，输出增强后的水下图像。本发明构建了基于局部信息的与基于全局信息的双分支物理参数预测网络。通过使用人工选择的增强图像作为参照，并利用多种目标函数对网络的训练进行约束，可以实现对水下图像进行高质量的增强，并且具有良好的泛化性，可以应对现实中复杂多样的水下场景，有效地提升各种水下退化图像的质量。

Description

一种结合物理先验与深度学习的水下图像增强方法

技术领域

本发明涉及一种水下图像增强方法，具体涉及一种结合物理先验与深度学习的水下图像增强方法，属于计算机图形图像技术领域。

背景技术

越来越多的海洋资源开发与海洋科研工程得以开展，基于水下视觉的软硬件系统对这些科研与工程项目的开发有重要的价值。然而，水下的特殊环境，导致成像系统采集到的水下图像普遍带有质量退化的问题，表现为色偏、模糊和可视性差等问题，因此，对采集到的水下图像进行图像增强处理，提升水下图像的视觉质量有重要的科研与经济价值。

此前，许多水下图像增强方法已经被提出，这些方法可以归纳为基于先验的水下图像增强方法，基于一般图像增强技术的增强方法与基于深度学习的方法。基于先验的水下图像增强方法在水下图像退化模型的基础上对处理的图片做出了一些先验假设，例如有的方法直接将地面图像去雾所用的暗通道先验用于了水下图像，也有一系列方法针对水下场景对暗通道先验进行了改进以提升其对水下图像的增强效果。然而，这些方法所依赖的先验假设往往不能适应内容复杂、退化情况不确定的现实场景，一旦图像不满足其先验假设的条件，这类方法的增强效果就会大打折扣。基于一般的图像增强算法，例如直方图均衡，伽马矫正等算法，可以处理一些内容简单、退化不严重的水下图像，然而对于退化严重和场景复杂的情形，一般的图像增强算法由于不能根据水下场景的物理特性进行针对性的自动调整，因而容易产生伪影，光晕和颜色失真等问题。近年来，一些基于深度学习的方法被提出，这些方法通常依赖生成的模拟水下数据来训练深度学习模型，也有一些方法借助生成式模型的思想，以风格迁移的思路进行水下图像增强。前一类方法容易过度拟合训练数据，而且生成的模拟水下图像与真实的水下图像之间有明显的内容差异，另外退化图像难以涵盖现实中复杂的退化过程，导致这类方法的泛化性不足，处理现实中水下图像的效果不够理想。而后一类方法的增强效果有不稳定的问题，且生成式模型的训练比较困难。最后，还有一些方法借助人为选择的参考图像直接在真实的水下图像上训练，但是这类方法通常采取了简单的端到端增强方式，因而依赖数据库的数量和多样性，当数据库数量较少时，依然存在过拟合的风险，并且有泛化性差的局限。

发明内容

针对传统方法的局限与现有的基于深度学习的方法的不足，本发明的目的在于提供一种泛化性好、可以应对内容复杂多样、退化程度不同的水下场景图像的结合物理先验与深度学习的水下图像增强方法。该方法更好地结合了物理模型先验与深度学习，利用物理先验提供的启发，指导了深度学习模型的架构设计，构造了基于局部信息与全局信息的双分支物理参数预测网络，并提出了结合正向损失、逆向损失与无参考先验损失的联合损失函数以训练该网络。最终利用该网络实现对水下退化图像的物理参数预测，并最终实现水下图像增强的目的。

本发明所采用的技术方案包括：物理先验启发的参数估计网络，该网络基于对水下图像退化模型中各物理参数的分析进行宏观架构设计与内部结构设计，构造了基于局部信息和全局信息的双分支结构，并进行了双分支之间的特征交流，有针对性地实现对不同物理参数的预测；

结合正向重建损失、逆向重建损失以及无参考先验损失的联合损失函数，该损失函数可以对提出的网络进行三个方面的约束，促进网络对物理参数的学习，提升增强图像的质量。

结合物理先验与深度学习的水下图像增强方法：

一种结合物理先验与深度学习的水下图像增强方法，包括以下步骤：

步骤1：收集用于网络训练的退化图像及其参考图像数据。

可以采用常规的公共数据集方式或公共数据集与人工选取数据相结合的方式。后者包括收集退化图像及其参考图像的公共数据集，并通过网络爬虫进行爬取得到退化图像数据，利用已有的增强算法对爬取得到的数据进行增强，并对爬取的数据及其对应的参考图像进行人工挑选，与前述公共数据集形成最终用于网络的训练数据集。

步骤2：根据水下图像退化模型，水下图像的质量降低过程主要由两个物理参数进行控制，一为场景的透射率（transmission），一为背景光系数（ambient light）；本发明提出的深度学习模型——基于物理模型先验启发的参数估计网络基于这两个参数以及退化模型进行构建。

步骤3：对于透射率参数，由于其与图像的具体内容相关，不同的图像区域通常具有不同的透射率参数值，基于这种基本性质，构造由卷积模块组成的局部信息提取分支，输入图像经过该分支，得到其对应的透射率参数预测值。

步骤4：背景光系数通常与图像的内容无关而与整个场景相关，具有宏观均匀性，基于这一特性，构建基于全局自注意力机制的全局信息提取分支，输入图像经过这一分支，获得其背景光参数的预测值。

步骤5：两种参数各自具有不同的特性，又来自于同一退化场景，具有一定的联系，网络因此加入基于残差学习的特征融合模块，使两个分支在计算的过程中，其信息可以进行交流融合，促进两个分支各自的学习。

步骤6：通过步骤2-5完成了基于物理先验启发的参数估计网络的构建，初始化该网络，并利用AdamW优化算法进行训练；训练该网络时，使用以下结合正向损失、逆向损失与无参考先验损失的联合损失函数。

所述的结合正向重建损失、逆向重建损失以及无参考先验损失的联合损失函数，其实现步骤如下：

步骤6.1：对于原始的退化图像，首先经过所述参数估计网络获得该图像对应的两个物理模型参数，之后利用这些参数结合水下图像退化模型获得其增强图像，将该增强图像和参考图像进行重建损失的计算；

步骤6.2：利用上一步的物理参数，将同一原始的退化图像的参考图像进行逆向退化，并与原始退化图像进行重建损失计算；

步骤6.3：对于退化图像的增强图像，利用暗通道统计先验，计算增强图像的暗通道并以0值作为目标，构建第一个无参考损失；

步骤6.4：对于退化图像的增强图形，利用白平衡统计先验，计算图像三个通道的均值并最小化其差异，以此构造第二个无参考损失；

步骤6.5：使用上述提出的三种损失进行网络训练。

步骤7：对水下图像进行增强：利用通过步骤6训练好的网络，输入退化的水下图像，输出增强后的水下图像。

所述步骤2：可采用以下水下图像退化模型：

,

其中，

为退化后的水下图像，c代表RGB三原色通道之一，/>

为每个通道的透射率参数，/>

为未退化的原始图像，/>

为背景光系数，x代表图像中的像素位置；其中

透射率参数与场景内容相关，图像的不同区域具有不同的透射率参数；背景光系数

在全局上均匀分布。

所述步骤6.1涉及的正向损失函数为：利用上述基于物理先验启发的参数估计网络预测的物理参数，结合水下图像退化模型求得增强图像，计算其与参考图像之间的正向重建损失：

，

其中，

为得到的增强图像，/>

为参考图像，HW为图像的像素总数。

所述步骤6.2涉及的逆向损失函数为：利用同样的物理参数，将参考图像进行逆向退化，与原始退化图像进行损失计算，得到逆向重建损失：

，

其中，

代表逆向退化图像，/>

为原始退化图像。

所述步骤6.3-6.4涉及的对于无参考先验损失函数；首先计算增强图像的暗通道，并以0值作为目标将其与0值矩阵进行损失计算，形成基于暗通道先验的损失：

，

其中，

为增强图像的暗通道图像，/>

为全0矩阵。

其次对于增强图像的每一个通道，计算该通道对应的增强图像的均值，并最小化其差异，再对各通道的结果进行累加，形成白平衡先验损失：

，

其中μ为取均值操作。

本发明针对水下图像增强提出的结合深度学习与物理先验的水下图像增强方法，将物理先验作为深度学习网络结构设计的一部分用于指导神经网络宏观架构的设计，构建了基于局部信息的与基于全局信息的双分支物理参数预测网络。通过使用人工选择的增强图像作为参照，并利用多种目标函数对网络的训练进行约束，可以实现对水下图像进行高质量的增强，并且具有良好的泛化性，可以应对现实中复杂多样的水下场景。可以从涵盖广泛水下场景的数据中自动的学习退化模型的参数，能够在不同的水下场景中预测准确的物理模型参数，以此有效地提升各种水下退化图像的质量。传统的基于先验的增强算法需要依赖对场景的固定的先验假设，并且为了降低估计的难度与复杂度，这类传统的算法需要对场景的信息进行一定的简化，因而无法应对不满足其先验假设的复杂场景。相较而言本发明提出的模型在广泛的现实水下图像上进行学习，因而具有更强的灵活性和鲁棒性。一般的图像增强算法由于不具备对水下图像退化过程的先验知识，只能以较普遍的图像先验对水下图像进行处理，因而只能适用于很窄范围内的水下退化图像，通常只有对比较轻微的退化图像可以有效处理，而一旦涉及到退化较严重的场景，这类算法往往会失效，并且会产生人为引入的色偏，光晕和伪影等负面影响。相较于这类算法，本发明依靠深度学习算法对水下退化过程的参数进行学习，因而可以针对不同程度的退化图像进行有效的增强，并且本发明提出的联合损失函数吸收了一般图像增强算法提供的先验知识，可以获得更好的增强结果。目前已有的基于深度学习的水下图像增强算法或者依赖地面图像生成的伪水下图像进行训练，或者依赖生成式模型进行弱监督学习，或者直接在成对的数据集上进行端到端的水下增强训练。第一类通常面临着严重的域偏移（domain shift）问题，因为地面图像模拟的水下图像具有与水下图像完全不同的图像内容，此外模拟图像的退化模式通常过于简单，难以代表现实中复杂的水下图像退化形式，因此其增强效果有限。而依赖生成式模型的算法由于缺乏准确的参考图像，其学习效果的可控性差并且训练过程难度较高。第三类方法由于其端到端的学习方式使得其容易在某一单一的数据集上过拟合，因而模型的泛化性不够强。相较于已有的深度学习方法，本发明提出的算法以水下图像的退化模型作为指导，有针对性地构建了基于局部信息与全局信息的双分支结构，可以对更本质的水下图像的退化机制进行学习，避免了第一类方法的域偏移问题与生成式模型的不可控问题与训练问题。并且由于其具有对水下图像退化机制的本质性学习，其相较于简单的端到端增强模型具有更强的泛化性。

附图说明

图1为本发明的整体流程示意图。

图2为本发明中基于物理先验启发的参数估计网络结构图。

图3为本发明中联合损失计算的过程示意图。

具体实施方式

为实现对模型的训练，本发明实施例使用的训练数据包括公开的UIEB数据集以及利用网络收集的涵盖广泛水下场景的图像。UIEB数据集一共包含890对成对的训练图像，其构造方式为对每一张水下图像使用已有的水下图像增强算法进行增强，之后进行人为挑选，选择感知质量最高的增强结果作为该图像的参考图像。额外收集到的水下场景图像也将按照UIEB数据集的方式进行参考图像生成，最终训练模型使用的数据集包含一共1000对水下图像。

根据Koschmieder散射模型，水下图像的质量退化可被描述为：

（1）

其中，

为退化后的水下图像，c代表RGB三原色通道之一，/>

为每个通道的透射率参数，/>

为未退化的原始图像，/>

为背景光系数，x代表图像中的像素位置；其中

在全局上均匀分布。

在步骤（3）中，由于透射率参数与水下场景的深度，水体的光学参数相关与场景的具体内容相关，通常在场景的不同部分的不同物体有着不同的透射率参数，因此需要对场景中的不同部分进行精细的处理。依据这一特性，本发明构造了由卷积层组成的透射率估计分支，其作用在于对图像的每一部分估计精细的透射率参数，卷积层对于局部结构信息的特征提取能力将有助于其产生细致准确的结果。这一分支将由一组对称的编码器-解码器网络组成，其中编码器通过对输入图像进行抽象处理并压缩其分辨率，最终将其映射至一个高维隐变量空间，获得对场景的宏观抽象表示。解码器则对隐变量进行解码以最终获得场景中每个像素位置的透射率估计，在此过程中，解码器将进行特征的上采样步骤以恢复场景的局部结构，其上采样的次数同编码器下采样的次数一致。为了弥补编码器在压缩过程中导致的细节损失，同一分辨率层次下的编码器特征将被传输至解码器，以帮助其更好的恢复局部结构。

在步骤（4）中，背景光系数是场景中包含的与场景内容无关的光照信息，其通常是在整个场景中是均匀一致的。基于这一特性，本发明将构造基于全局自注意力机制的计算分支以用于对背景光参数的估计。该分支不同于上述的局部计算分支，其没有明显的对称式编码-解码结构，而是由一系列基于全局自注意力的基本模块组成，在整个分支计算过程中特征的分辨率将保持不变。在这之前，图像将被拆分为一系列大小固定的图像块，经过一个图像块映射模块将其转化为图像块嵌入（patch embedding），之后这些图像块嵌入将被排列为一个序列之后，输入全局计算分支。在全局自注意力模块内部，会把所有图像块映射至查询、键和值向量空间，每个图像块嵌入都会作为查询与其余的块嵌入产生的键向量进行点积运算，形成注意力权重，并最终利用这一权重融合所有块嵌入的值向量以更新自身。这种计算所有图像块嵌入之间关系的机制将使得该模块提取的特征更加具备全局信息，因此可以更加适合对背景光系数的学习。

在步骤（5）中，局部分支的编码阶段与全局分支还将进行特征交互融合，以相互提升。全局分支利用局部分支产生的局部特征改善自身训练困难的问题并且可以利用局部特征更好的进行全局信息学习，局部分支则可以利用全局分支提供的全局信息增强自身对于场景的宏观表示。

最终，局部分支将输出对透射率的预测

，全局分支输出对背景光参数的预测

,利用对退化模型的变形：

（2）

带入预测的两个参数，得到图像的增强结果

。其中，/>

为一小常数以避免除0问题，提升数值稳定性。

步骤（3）中涉及的局部分支网络的编码器与解码器网络都将由基础的卷积模块搭建，该模块内部计算过程为：

（3）

其中，

为模块的输入；/>

为模块的输出；/>

表示卷积运算，卷积核的大小为3×3，步长为1；/>

代表批归一化运算，可以显著改善网络的训练困难问题；/>

为激活函数，其表达式为:

（4）

该激活函数可以减缓网络训练过程中的梯度消失问题。在编码器中，不同的卷积模块之间使用最大池化对特征进行下采样；在解码器中，不同模块之间使用双线性插值上采样的方式进行高分辨率特征恢复。

步骤（4）中涉及的全局分支网络将由基于全局自注意力机制的基本模块构建，其基本过程包含两个部分：

（5）

（6）

其中，MHSA为多头自注意力模块，MLP为三层线性层组成的多层感知器模块，

为输入的块嵌入序列，/>

为中间特征序列，/>

为输出的块嵌入序列。多头自注意力模块内部分为多个自注意力子模块，每个子模块成为一个注意力头，对于任何一个注意力头，其首先将输入的块嵌入序列通过查询、键和值三种映射函数转化为对应的特征向量序列：

（7）

（8）

（9）

其中，

为输入的块嵌入序列，序列长度为n，特征维度为d，/>

分别为查询映射、键映射与值映射，其映射后的特征向量序列维度降低为/>

。之后通过计算每个查询与每个键向量之间的点积并进行归一化形成注意力矩阵，其矩阵运算形式为：

（10）

其中，

函数可以将输入的矩阵在指定维度进行归一化，以形成每一个查询向量对所有键向量的注意力分值。之后，将注意力矩阵用于融合所有的值向量：

（11）

其中，

为第i个注意力头输出的结果。

最后，将所有注意力头的结果在第二个维度拼接并经过一个两次线性映射，实现多头注意力的融合：

（12）

（13）

在步骤（5）中，涉及的全局分支与局部分支的交互融合，将通过一个轻量的基于残差学习的特征交流模块进行，全局分支特征将首先进行形状变换，即将步骤（4）拆分成的块嵌入序列变形为二维的特征图形式，并采用双线性插值上采样将其放大到与同阶段的局部分支特征相同的分辨率，之后两个特征在通道维度进行拼接，形成特征交流模块的输入。特征交流模块内部包含一个卷积核大小为1的卷积层，其作用在于沿通道维度混合两种特征之间的信息，并形成一个和输入大小完全相同的输出，之后输出的特征将沿通道维度切分为两组特征，并将其与局部分支和全局分支对应的输入特征进行相加，由此实现两个分支特征之间的交流融合。

在步骤（6）中，网络的训练将采用三个联合目标函数对其进行约束，其涉及的第一个目标函数为正向重建损失函数：

经式（2）产生的增强图像将与对应的参考图像进行重建损失计算：

（14）

其中，

为参考图像，HW为图像的像素总数。通过该重建损失，网络将隐式的学习到对应的物理参数，以恢复清晰图像。

步骤（6）涉及的第二个目标函数为逆向重建损失函数：

利用式（1）的退化模型，将清晰的参考图像进行退化，再将其与对应的低质量图像进行损失计算以进一步约束物理参数的学习：

（15）

（16）

步骤（6）涉及的第三个目标函数为无参照先验约束函数，其包括两项：

第一项为暗通道先验约束。暗通道先验指的是在清晰的图像中，每个像素位置通常都会由至少一个通道的亮度接近于0，而退化图像例如地面的雾天图像则不具备这一特性。约束函数的具体形式为：

（17）

其中，

为式（2）产生的增强图像的暗通道图像，其计算方式为：

（18）

其中，

为全为0的矩阵。

第二项为白平衡先验约束，其目的在于引导网络恢复的清晰图像具有更均匀的色彩分布，减少退化图像中存在的色偏问题，其具体形式为：

（19）

其中μ为在空间上的取均值操作。

无参照的先验约束函数将使网络可以在一定程度上突破参考图像的限制，获得更强的泛化能力。

Claims

1.一种结合物理先验与深度学习的水下图像增强方法，包括以下步骤：

步骤1：收集用于网络训练的退化图像及其参考图像数据；

步骤2：根据水下图像退化模型，选择水下图像质量降低过程中的两个主要物理参数场景的透射率与背景光系数，与退化模型共同用于构建基于物理模型先验启发的参数估计网络；

其特征是还包括以下步骤：

步骤3：基于透射率参数的基本性质：不同的图像区域具有不同透射率参数值，构造由卷积模块组成的局部信息提取分支，输入图像经过该分支，得到其对应的透射率参数预测值；

步骤4：基于背景光系数与图像的内容无关而与整个场景相关的特性，构建基于全局自注意力机制的全局信息提取分支，输入图像经过这一分支，获得其背景光参数的预测值；

步骤5：通过基于残差学习的特征融合模块，使两个分支在计算的过程中，其信息可以进行交流融合，促进两个分支各自的学习；

步骤6：通过步骤2-5完成了基于物理先验启发的参数估计网络的构建，初始化该网络，并利用AdamW优化算法进行训练；训练该网络时，使用结合正向损失、逆向损失与无参考先验损失的联合损失函数；

2.如权利要求1所述的一种结合物理先验与深度学习的水下图像增强方法，其特征是所述步骤1包括：收集退化图像及其参考图像的公共数据集，并通过网络爬虫进行爬取得到退化图像数据，利用已有的增强算法对爬取得到的数据进行增强，并对爬取的数据及其对应的参考图像进行人工挑选，与前述公共数据集形成最终用于网络的训练数据集。

3.如权利要求1所述的一种结合物理先验与深度学习的水下图像增强方法，其特征是所述步骤6中的结合正向损失、逆向损失与无参考先验损失的联合损失函数，实现步骤如下：

步骤6.5：使用上述提出的三种损失进行网络训练。

4.如权利要求3所述的一种结合物理先验与深度学习的水下图像增强方法，其特征是所述步骤2：采用以下水下图像退化模型：