CN115294199A

CN115294199A - 水下图像增强和深度估计方法、装置及存储介质

Info

Publication number: CN115294199A
Application number: CN202210837647.4A
Authority: CN
Inventors: 王鹏; 庞洪帅; 杨志鹏; 蔡克卫
Original assignee: Dalian Ocean University
Current assignee: Dalian Ocean University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-04

Abstract

本发明提供了水下图像增强和深度估计方法、装置及存储介质，方法包括：建立自监督水下图像增强及深度估计网络模型，包括：图像增强网络、深度估计网络、第一自监督模块和第二自监督模块；第一自监督模块以第一输入水下图像对应的增强图像和深度图为输入，根据图像生成机制生成第一自监督信号；第二自监督模块基于运动预测结果对第二输入水下图像和深度图进行重建，得到第二自监督信号；基于两个自监督信号训练建立的模型；将获取的真实水下图像输入至训练好的模型，得到增强后的水下图像以及深度图。本发明中，以自监督的方式进行水下图像增强和深度估计，可以不需要复杂的人工标注数据集，并且达到与全监督方法相同甚至更好的图像增强效果。

Description

水下图像增强和深度估计方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种水下图像增强和深度估计方法、装置及存储介质。

背景技术

近年来，水下视觉越来越受到关注，如海洋探索，深海捕捞，海洋生物监测等等。然而，由于水下环境光线的折射和吸收、水中的悬浮粒子、颜色的失真等因素会影响视觉数据的质量，导致图像产生噪声和失真。

传统的水下图像增强以及深度估计方法大多采用的是全监督方式，监督学习是通过已有的训练样本(即已知数据以及其对应的输出)来训练，从而得到一个最优模型，再利用这个模型将所有新的数据样本映射为相应的输出结果，对输出结果进行简单的判断从而实现分类的目的。该类方法一般可以很好的抑制增强结果中的噪声，获得较好的图像增强效果。

然而由于全监督水下图像增强以及深度估计方法在训练时需要标签数据，而标签数据的获取又是昂贵和困难的，这导致全监督水下图像增强及深度估计方法往往难以实施。

发明内容

有鉴于此，本发明提供了一种水下图像增强和深度估计方法、装置及存储介质，以自监督的方式进行水下图像增强和深度估计，可以不需要复杂的人工标注数据集，节省人力和物力，并且可以达到与全监督方法相同甚至更好的图像增强效果。

为此，本发明提供了以下技术方案：

一方面，本发明提供了一种基于自监督的水下图像增强及深度估计方法，所述方法包括：

建立自监督水下图像增强及深度估计网络模型；所述自监督水下图像增强及深度估计网络模型包括：图像增强网络、深度估计网络、第一自监督模块和第二自监督模块；所述图像增强网络对第一输入水下图像进行增强，得到第一输入水下图像对应的增强图像；所述深度估计网络对第一输入水下图像进行深度估计，得到第一输入水下图像对应的深度图；所述第一自监督模块以第一输入水下图像对应的增强图像和深度图为输入，根据图像生成机制生成用于自监督训练图像增强网络的第一自监督信号；所述第二自监督模块基于运动预测结果对第二输入水下图像和第一输入水下图像对应的深度图进行重建，得到用于自监督训练深度估计网络的第二自监督信号；

基于第一自监督信号和第二自监督信号训练建立的自监督水下图像增强及深度估计网络模型；

获取真实水下图像；

将获取的真实水下图像输入至训练好的自监督水下图像增强及深度估计网络模型，得到增强后的水下图像以及深度图。

进一步地，所述第一自监督模块以第一输入水下图像对应的增强图像和深度图为输入，根据图像生成机制生成用于自监督训练图像增强网络的第一自监督信号，包括：

将第一输入水下图像对应的增强图像和深度图输入图像生成模型IFM，生成用于自监督训练图像增强网络的第一自监督信号；其中，图像生成模型IFM包括：

J(x)＝I(x)t(x)+B(1-t(x))；

t(x)＝e^-βd；

其中，J(x)为生成的第一自监督信号，I(x)表示水下场景的真实辐射强度，t(x)表示增强图像，B表示水下环境背景光，β表示光在水下的衰减率，d表示深度图中反映的场景深度。

进一步地，通过对真实水下图像数据集的统计分析获得水下环境背景光先验。

进一步地，所述第二自监督模块基于运动预测结果对第二输入水下图像和第一输入水下图像对应的深度图进行重建，得到用于自监督训练深度估计网络的第二自监督信号，包括：

所述第二自监督模块包括：基于Unet结构的扭曲模块；所述扭曲模块以第一输入水下图像和第二输入水下图像为输入，预测相机参数和帧间运动；并基于预测结果将第二输入水下图像和第一输入水下图像的深度图重建，得到用于自监督训练深度估计网络的第二自监督信号；其中，第一输入水下图像和第二输入水下图像为相邻帧图像。

进一步地，预测相机参数和帧间运动包括：

预测相机内参，旋转角和相机位移。

进一步地，基于预测结果将第二输入水下图像和第一输入水下图像的深度图重建，包括：

按照如下公式进行重建：

z′p′＝KRK^-1zp+Kt；

I′＝W(I1,p′)；

其中，z′表示新的深度图，p′表示新的齐次坐标，K表示相机内参，R表示旋转角，z表示深度图，t表示相机位移，p表示像素坐标，W()表示warping操作，I′表示第二自监督信号，I1表示第二输入水下图像。

进一步地，基于第一自监督信号和第二自监督信号训练建立的自监督水下图像增强及深度估计网络模型，包括：

利用第一输入水下图像和第一监督信号的相似度构建损失函数，更新损失函数的梯度和图像增强网络的参数；

利用第一输入水下图像和第二监督信号的相似度构建损失函数，更新损失函数的梯度和深度估计网络的参数。

进一步地，在第一输入水下图像对应的增强图像和NYU数据集的air_image之间构建风格损失函数。

另一方面，本发明还提供了一种基于自监督的水下图像增强及深度估计装置，所述装置包括：

模型建立单元，用于建立自监督水下图像增强及深度估计网络模型；所述自监督水下图像增强及深度估计网络模型包括：图像增强网络、深度估计网络、第一自监督模块和第二自监督模块；所述图像增强网络对第一输入水下图像进行增强，得到第一输入水下图像对应的增强图像；所述深度估计网络对第一输入水下图像进行深度估计，得到第一输入水下图像对应的深度图；所述第一自监督模块以第一输入水下图像对应的增强图像和深度图为输入，根据图像生成机制生成用于自监督训练图像增强网络的第一自监督信号；所述第二自监督模块基于运动预测结果对第二输入水下图像和第一输入水下图像对应的深度图进行重建，得到用于自监督训练深度估计网络的第二自监督信号；

模型训练单元，用于基于第一自监督信号和第二自监督信号训练建立的自监督水下图像增强及深度估计网络模型；

图像获取单元，用于获取真实水下图像；

图像增强及深度估计单元，用于将获取的真实水下图像输入至训练好的自监督水下图像增强及深度估计网络模型，得到增强后的水下图像以及深度图。

另一方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上述基于自监督的水下图像增强及深度估计方法。

本发明的优点和积极效果：

从数据集的方面来说，本发明解决了水下视觉模型由于缺少groundtruth而无法训练的问题。由于本发明是自监督深度学习模型，不需要费时费力的去收集对应水下图像增强和深度估计的原始图片和groundtruth。同时对于水下图像增强和深度估计来说，想要获得有效的groundtruth是非常艰难而且花费巨大的。本发明的自监督图像增强和深度估计算法只需要原始的水下连续的视频数据即可完成模型的训练，能够解决缺少groundtruth而导致模型无法训练的问题。

从多任务方面来说，减少了多任务多模型的繁杂操作。本发明使用一个互相联系的模型结构将图像增强和深度估计两个任务结合到一起，通过IFM公式将深度图与增强图像形成联系，用于在训练时更好的优化模型参数，同时仅使用一个端到端的模型即可完成图像增强和深度估计两个任务，减少多模型处理多任务时的繁杂操作。

从深度估计方面来说，由于公开的水下视频数据的相机内参K无从得知，因此本发明使用一个内参估计网络，用于估计内参K和旋转角R以及平移t，之后用于构造深度图的自监督信号，解决了相机内参未知的难题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于自监督的水下图像增强及深度估计方法的流程图

图2为本发明实施例中自监督水下图像增强及深度估计网络模型的网络结构图；

图3为本发明实施例中warping模块Unet结构图；

图4为本发明实施例中通过对大量水下图像的分析获得背景光先验的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，其示出了本发明实施例中一种基于自监督的水下图像增强及深度估计方法的流程图，该方法包括：

S1、建立自监督水下图像增强及深度估计网络模型；

本发明中采用一个端对端的模型同时进行水下图像增强和深度估计，只用训练一个模型即可完成两个水下视觉任务，是一个一举两得的做法。与多个模型分别做不同的任务相比，不仅节省训练时间和GPU算力开支，同时在输出结果时仅需运行单独一个模型即可完成图像增强和深度估计的任务，不必费力调用多个模型。

如图2所示，自监督水下图像增强及深度估计网络模型由两部分组成，使用两个分支分别进行水下图像增强和深度估计任务，第一部分图像增强分支采用基于ResNet18的Encoder-Decoder结构，将第一输入水下图像T1输入至卷积网络模块的Encoder模块，经过卷积和下采样提取特征，之后通过Decoder将所得特征上采样获得图像增强结果。另外，第一自监督模块将图像增强网络输出的第一输入水下图像T1的增强图像和深度估计网络输出的第一输入水下图像T1的深度图输入至图像成像模型IFM，产生第一重建图像T1_1，作为模型训练的第一自监督信号。

第二部分深度估计分支由深度估计网络和warping模块组成，两部分分别用于单幅图像深度估计和预测运动任务。其中，深度估计网络采用与图像增强网络相同的网络结构，将第一输入水下图像T1输入至卷积网络模块的Encoder模块，经过卷积和下采样提取特征，之后通过Decoder模块将低维的特征图上采样至与原图相同的维度，并输出第一输入水下图像T1的深度结果图。warping模块采用Unet结构的网络，用于估计相机参数和帧间运动，通过输入相邻帧的两个图片，预测相机内参K，旋转角R和相机位移t，之后将第二输入水下图像T2和第一输入水下图像T1的深度图重建为第二重建图像T1_2，也就是第二自监督信号，以构成深度估计网络的自监督训练循环；同时将深度估计网络和图像增强网络通过深度图联系到一起，使整个网络的两个分支连成一体，避免需要分开训练两个模块。

其中，图像增强网络和深度估计网络可以采用上述通用的Encoder-Decoder结构，也可以采用Unet结构等其他网络。

S2、训练建立的自监督水下图像增强及深度估计网络模型；

深度估计分支通过加入一个相机内参K、相机旋转角R和相机平移t的预测网络，用于构建深度估计网络的自监督信号，将深度估计网络输出的当前帧的深度图与当前帧以及K、R、t重建为下一帧，通过真实的下一帧与重建的下一帧计算SSIM和MSE损失，之后通过Adam优化器优化网络参数，在一次次迭代之后使深度估计网络参数达到模型的最优点，适用于深度估计任务。同时深度估计网络输出的深度也可以用于图像增强网络，将预测的深度图和增强网络输出的增强图通过IFM重建成当前帧(原始水下图像)，通过计算SSIM和MSE损失之后更新增强网络的参数，同时利用styleloss计算air image与增强图的风格损失，以用于监督增强结果的风格，增强结果与陆地图像的风格相似度更高。两个自监督信号，加强对于水下图像增强和深度估计的监督，通过IFM使的深度网络和增强网络联合起来，各自任务输出的同时又有一定的联系，更好的用于网络模型训练。

更详细地：

在图像增强分支上，在得到图像增强模块和深度估计模块输出的增强图像和深度图之后，可以根据IFM公式重建图像T1_1，也就是第一自监督信号。在获得重建的水下原始图像之后，可以将其与第一输入水下图像T1做损失，即将第一输入水下图像T1与通过IFM合成的重建图像T1_1通过相似度比较以构建损失函数。

IFM公式如下：

J(x)＝I(x)t(x)+B(1-t(x)) (1)

t(x)＝e^-βd (2)

其中，水下环境背景光可以是经验值，也可以是对大量数据集的分析获得背景光先验(如图4所示)。

为了确保训练的有效性，将图像增强网络输出的增强图像和与NYU数据集的air_image之间做一个style-loss，使用air_image的图像风格用于监督增强图像的风格。

在深度估计分支上，为了能够更好的训练深度估计网络，在深度估计分支中引入一个warping模块构造生成深度估计网络的第二自监督信号。该模块将视频的相邻帧T1、T2作为输入通过预测相邻帧的运动来估计相机内参、旋转角和平移向量，之后通过公式3和公式4将第二输入水下图像T2重建为T1_2作为深度网络训练时的监督信号，公式3和公式4如下所示：

z′p′＝KRK^-1zp+Kt(3)

I′＝W(I1,p′)(4)

训练过程中采用L1和SSIM损失更新网络参数，在获得网络输出图像T1_1和T1_2，将T1_1、T1和T1_2、T1分别代入L1和SSIM损失函数，并在每次迭代中计算L1和SSIM结合损失的梯度，通过Adam优化器对网络模型参数进行优化，以找到最优的参数以适用于任务。L1和SSIM损失函数公式如下表示：

L_MSE＝‖T1_1-T1‖ (5)

公式中μ_p、μ_g分别为T1_1、T1的均值；σ_p和σ_g分别为T1_1、T1的方差；σ_pg为协方差，c₁、c₂为常数，通常取值为c₁＝(0.01×255)²、c₂＝(0.03×255)²。

因此，总的损失函数如下：

L＝αL_SSIM+(1-α)L_MSE (7)

其中α取值为0.8。

S3、获取真实水下图像；

S4、将获取的真实水下图像输入至训练好的自监督水下图像增强及深度估计网络模型，得到增强后的水下图像以及深度图。

将真实水下图像分别输入自监督水下图像增强及深度估计网络模型的两个分支中，第一个分支的图像增强模块中，首先通过Encoder对输入的RGB水下图像提取特征，通过Decoder对提取的特征上采样重建图像，之后输出增强后的水下图像。第二个分支的深度估计卷积模块中，通过Encoder模块对输入的图像提取特征并下采样，通过Decoder模块将Encoder模块提取的特征图进行上采样，利用Encoder提取的特征估计深度图并将低维的图像重塑至与输入图像相同大小的尺寸，最后输出深度图。

本发明实施例中，使用自监督的方法进行水下图像增强，可以不需要复杂的人工标注数据集，节省人力和物力，并且可以达到与全监督方法相同的效果，甚至超越全监督方法。

对应本发明中的一种基于自监督的水下图像增强及深度估计方法，本发明还提供了一种基于自监督的水下图像增强及深度估计装置，包括：

模型建立单元，用于建立自监督水下图像增强及深度估计网络模型；所述自监督水下图像增强及深度估计网络模型包括：基于ResNet18的Encoder-Decoder结构的图像增强网络、基于ResNet18的Encoder-Decoder结构的深度估计网络、第一自监督模块和第二自监督模块；所述图像增强网络对第一输入水下图像进行增强，得到第一输入水下图像对应的增强图像；所述深度估计网络对第一输入水下图像进行深度估计，得到第一输入水下图像对应的深度图；所述第一自监督模块以第一输入水下图像对应的增强图像和深度图为输入，根据图像生成机制生成用于自监督训练图像增强网络的第一自监督信号；所述第二自监督模块基于运动预测结果对第二输入水下图像和第一输入水下图像对应的深度图进行重建，得到用于自监督训练深度估计网络的第二自监督信号；

图像获取单元，用于获取真实水下图像；

对于本发明实施例的一种基于自监督的水下图像增强及深度估计装置而言，由于其与上面实施例中的一种基于自监督的水下图像增强及深度估计方法相对应，所以描述的比较简单，相关相似之处请参见上面实施例中一种基于自监督的水下图像增强及深度估计方法部分的说明即可，此处不再详述。

本发明实施例还公开了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上文任一实施例所提供的一种基于自监督的水下图像增强及深度估计方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于自监督的水下图像增强及深度估计方法，其特征在于，所述方法包括：

获取真实水下图像；

2.根据权利要求1所述的一种基于自监督的水下图像增强及深度估计方法，其特征在于，所述第一自监督模块以第一输入水下图像对应的增强图像和深度图为输入，根据图像生成机制生成用于自监督训练图像增强网络的第一自监督信号，包括：

J(x)＝I(x)t(x)+B(1-t(x))；

t(x)＝e^-βd；

3.根据权利要求2所述的一种基于自监督的水下图像增强及深度估计方法，其特征在于，通过对真实水下图像数据集的统计分析获得水下环境背景光先验。

4.根据权利要求1所述的一种基于自监督的水下图像增强及深度估计方法，其特征在于，所述第二自监督模块基于运动预测结果对第二输入水下图像和第一输入水下图像对应的深度图进行重建，得到用于自监督训练深度估计网络的第二自监督信号，包括：

5.根据权利要求4所述的一种基于自监督的水下图像增强及深度估计方法，其特征在于，预测相机参数和帧间运动包括：

预测相机内参，旋转角和相机位移。

6.根据权利要求5所述的一种基于自监督的水下图像增强及深度估计方法，其特征在于，基于预测结果将第二输入水下图像和第一输入水下图像的深度图重建，包括：

按照如下公式进行重建：

z′p′＝KRK^-1zp+Kt；

I′＝W(I1,p′)；

7.根据权利要求1所述的一种基于自监督的水下图像增强及深度估计方法，其特征在于，基于第一自监督信号和第二自监督信号训练建立的自监督水下图像增强及深度估计网络模型，包括：

8.根据权利要求7所述的一种基于自监督的水下图像增强及深度估计方法，其特征在于，在第一输入水下图像对应的增强图像和NYU数据集的air_image之间构建风格损失函数。

9.一种基于自监督的水下图像增强及深度估计装置，其特征在于，所述装置包括：

图像获取单元，用于获取真实水下图像；

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如权利要求1～8任一项所述的一种基于自监督的水下图像增强及深度估计方法。