CN115082537A

CN115082537A - 单目自监督水下图像深度估计方法、装置及存储介质

Info

Publication number: CN115082537A
Application number: CN202210751916.5A
Authority: CN
Inventors: 庞洪帅; 蔡克卫; 刘鹰; 刘敏
Original assignee: Dalian Ocean University
Current assignee: Dalian Ocean University
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-20

Abstract

本发明提供了单目自监督水下图像深度估计方法、装置及存储介质，涉及水下图像处理技术领域，方法包括：获取单目摄像机拍摄的水下图像视频；将水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中，得到相对视差图和相对位姿；其中，单目自监督水下图像深度估计网络包括两部分：由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络；循环生成网络以循环的方式合成不同视角的图像，形成对深度估计网络的自监督；基于相对视差图和相对位姿，计算得到深度图。本发明能够快速准确的对水下图像深度估计。

Description

单目自监督水下图像深度估计方法、装置及存储介质

技术领域

本发明涉及水下图像处理技术领域，特别是涉及单目自监督水下图像深度估计方法、装置及存储介质。

背景技术

在水下场景中，为了实时准确的测量鱼体的体重和体长，首先需要进行准确的深度估计。深度估计是计算机视觉领域的一个基础性问题，是估计图像中场景的深度，即场景中各点像素到相机成像平面的垂直距离。目的是帮助计算机理解图像的深度，并预测每个像素的场景元素距离。其可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域。虽然有很多设备可以直接获取深度，但是设备造价昂贵。

基于单目的深度估计只利用一个视点的视频序列和图像估计图像中每个像素相对拍摄源的距离，具有价格低廉、获取信息内容丰富、传感器体积小等优势。与双目和多目相比，大多数应用场景只有一个视点，比如对于人眼来说，由于存在大量的先验知识，从一只眼睛获取的图像信息中提取出大量深度信息，因此单目更贴近实际的应用需求。单目深度估计不仅需要从二维图像中学会客观的深度信息，而且需要提取一些经验信息，后者则对于数据集中相机和场景会比较敏感。

目前，基于单目的深度估计方法根据是否使用真实的深度标签，可以分为有监督和无监督两类。有监督的方法以单幅图像作为训练数据，将深度估计看作稠密预测的回归任务，使用卷积神经网络拟合深度值。但这类方法的不足之处也显而易见，它依赖于大量的标签数据，而得到相应深度标签所花费的成本较高。无监督的方法从传统基于运动的方法中得到启发，以连续的图像序列作为训练数据，基于相机的运动推断出场景的三维结构。但是这类方法需要假定场景中仅存在相机的运动，即忽略了移动目标如水下游动的鱼的存在。当场景中存在大量移动目标时，这类方法的预测精度会受到很大影响。

发明内容

针对上述问题，本发明提出了单目自监督水下图像深度估计方法、装置及存储介质，结合生成对抗网络(GAN，Generative Adversarial Network)和卷积神经网络(CNN，Convolutional Neural Networks)构建单目自监督水下图像深度估计网络，以快速准确的对水下图像深度估计。

为此，本发明提供了以下技术方案：

一方面，本发明提供了一种单目自监督水下图像深度估计方法，所述方法包括：

获取单目摄像机拍摄的水下图像视频；

将所述水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中，得到相对视差图和相对位姿；其中，单目自监督水下图像深度估计网络包括两部分：由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络；第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像作为输入，输出相对视差图；位姿估计网络以相邻帧图像中的第二帧图像作为输入，输出相对位姿；循环生成网络以循环的方式合成不同视角的图像，形成对深度估计网络的自监督；

基于所述相对视差图和所述相对位姿，计算得到深度图。

进一步地，循环生成网络以循环的方式合成不同视角的图像，包括：

将第一生成对抗式网络生成的第一帧图像I_t对应的第一视差图d_t和位姿估计网络生成的第二帧图像I_t-1对应的相对位姿P_t，t-1扭曲重建，得到第一重建图像I_t-1′；

将第一重建图像I_t-1′输入至第二生成对抗式网络的生成器，生成第一重建图像I_t-1′对应的第二视差图d_t-1；

将第二视差图d_t-1和相对位姿P_t，t-1扭曲重建，得到第二重建图像I_t′。

进一步地，单目自监督水下图像深度估计网络的训练，包括：

计算第一重建图像I_t-1′与第一帧图像I_t之间的最小化光度损失；

计算第二帧图像I_t-1与第一重建图像I_t-1′之间的重建一致性损失；

计算第一帧图像I_t与第二重建图像I_t′之间的循环一致性损失；

计算第一帧图像I_t与第二重建图像I_t′之间的感知一致性损失；

计算第一生成对抗式网络和第二生成对抗式网络的生成对抗损失；

基于光度损失、重建一致性损失、循环一致性损失、感知一致性损失和生成对抗损失进行迭代训练，得到训练好的单目自监督水下图像深度估计网络。

进一步地，计算最小化光度损失的函数为：

其中，N是I_t投影到I_t-1图像平面的有效点集合，p是N的一个泛型点，I_t(p)是一个目标值，

是模型输出的估计值，SSIM函数表示I_t(p)与

之间在元素上的相似性，解决了光照变化，

其中，C₁，C₂是常数，μ代表均值，σ代表方差，表示图像颜色的局部统计量。

进一步地，计算重建一致损失的函数为：

其中，I_t-1是输入视频的第二帧图像，

是重建的第二帧图像。

进一步地，计算循环一致性损失的函数为：

其中，

为前向循环一致性，I_t经过其中一个生成器生成图像G₁(I_t)，作为另一个生成器的输入生成回来G₂(G₁(I_t))，尽可能与原来图像接近，I_t→G₁(I_t)→G₂(G₁(I_t))≈I_t；

为反向循环一致性，具体过程原理同上，I_t-1→G₁(I_t-1)→G₂(G₁(I_t-1))≈I_t-1。

进一步地，计算感知一致性损失的函数为：

其中，|| ||₂代表标准L2-范数和

表示特征抽取器。

进一步地，计算生成对抗损失的函数为：

其中，对抗损失应用到两个映射G₁，G₂上；G₁、G₂是生成器网络，D₁、D₂是对应的识别器，生成器的作用是生成视差图，识别器的作用是区分生成的是否为其对应的视差图。

又一方面，本发明还提供了一种单目自监督水下图像深度估计装置，包括：

视频获取单元，用于获取单目摄像机拍摄的水下图像视频；

模型建立单元，用于构建单目自监督水下图像深度估计网络，单目自监督水下图像深度估计网络包括两部分：由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络；第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像I_t作为输入，输出第一帧图像I_t对应的第一视差图d_t；位姿估计网络以相邻帧图像中的第二帧图像I_t-1作为输入，输出相对位姿P_t，t-1；第二生成对抗网络的生成器以第一视差图d_t和相对位姿P_t，t-1扭曲重建得到的第一重建图像I_t-1′为输入，输出第一重建图像I_t-1′对应的第二视差图d_t-1；第二视差图d_t-1和相对位姿P_t，t-1扭曲重建，得到第二重建图像I_t′；

模型训练单元，用于训练所述模型建立单元建立的单目自监督水下图像深度估计网络，包括：计算第一重建图像I_t-1′与第一帧图像I_t之间的最小化光度损失；计算第二帧图像I_t-1与第一重建图像I_t-1′之间的重建一致性损失；计算第一帧图像I_t与第二重建图像I_t′之间的循环一致性损失；计算第一帧图像I_t与第二重建图像I_t′之间的感知一致性损失；计算第一生成对抗式网络和第二生成对抗式网络的生成对抗损失；基于光度损失、重建一致性损失、循环一致性损失、感知一致性损失和生成对抗损失进行迭代训练，得到训练好的单目自监督水下图像深度估计网络；

深度估计单元，用于将所述视频获取单元获取的所述水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中，得到相对视差图和相对位姿；基于所述相对视差图和所述相对位姿，计算得到深度图。

又一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上述单目自监督水下图像深度估计方法。

本发明的优点和积极效果：现有的大部分深度估计的方法都是针对陆地场景，本发明应用于水下图像的深度估计，可以获得精确的深度估计结果，并且对水下生物的目标检测和测量其体重体长都有很大的帮助。

本发明是基于自监督单目的水下图像深度估计，针对大规模带有深度标签的数据集难以获取的问题，基于无监督方法，提出在深度估计网络结构中使用生成对抗式网络架构，通过循环的方式实现自监督，对不同空间位置处特征的重要性进行控制，增强物体特征分辨性，提高深度估计准确性。

相比现有的无监督深度估计方法，如专利CN111783582A-一种基于深度学习的无监督单目深度估计算法，本发明针对水下图像的深度估计，采用了两个生成对抗式网络形成一个Cycle-GAN的循环结构，有利于增强数据。Cycle-GAN本质上是两个镜像对称的GAN，构成了一个环形网络。两个GAN共享两个生成器，并各自带一个判别器，即共有两个判别器和两个生成器。一个单向GAN两个loss，两个即共四个loss。第二个半周期防止第一个半周期网络预测不一致的视差对，两个周期共享参数，这样的过程虽然增加了训练模型的复杂度，但是不会增加计算量，能够实现快速准确的对水下图像深度估计。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中单目自监督水下图像深度估计方法的流程图；

图2为本发明实施例中单目自监督水下图像深度估计的网络模型；

图3为本发明实施例中单目自监督水下图像深度估计装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了实现实时的单目图像深度估计，本发明提出了单目自监督水下图像深度估计方法，使用两个GAN和一个基于CNN的相对位姿网络构建单目自监督水下图像深度估计网络，该网络在水下视频时间序列上相邻帧的图像进行训练，以输入视频中相邻帧图像作为模型输入，输出用于计算深度图的相对视差图和相对位姿。

如图1所示，其示出了本发明实施例中一种单目自监督水下图像深度估计方法，该方法包括以下步骤：

S1、获取单目摄像机拍摄的水下图像视频；

S2、将所述水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中，得到相对视差图和相对位姿；

其中，单目自监督水下图像深度估计网络包括两部分：

(1)无监督对抗深度估计网络：

由第一生成对抗式网络和相机位姿估计网络组成；输入视频中相邻帧图像分别进入第一生成对抗式网络的生成器和相机位姿估计网络，预测相对视差图和相对位姿，基于相对视差图和相对位姿通过公式可以计算出深度图。其中，第一生成对抗式网络以相邻帧图像中的第一帧图像作为输入，输出相对视差图；位姿估计网络以相邻帧图像中的第二帧图像作为输入，输出相对位姿。这里需要说明的是，第一帧图像、第二帧图像可以是水下图像视频中任意位置相邻的两帧，并不限定为从水下图像视频初始帧起始的两帧。

输入图像和相邻帧图像作为配对，用于训练增强网络，解决增强网络缺少监督信号的问题。

(2)用于对抗深度估计的循环生成网络：

为了使得相邻帧图像的重建能够对彼此有潜在的约束，本发明提出循环生成网络结构，在上述无监督对抗深度估计网络的基础上增加第二生成对抗式网络，第一生成对抗式网络生成两张相邻帧图像的视差图，并通过第二生成对抗式网络以循环的方式合成不同视角的图像，形成对深度估计网络的自监督。使用光度损失、循环一致性损失等帮助优化生成器和位姿估计网络。

S3、基于所述相对视差图和所述相对位姿，计算得到深度图。

为了便于理解，下面对上述单目自监督水下图像深度估计网络进行详细说明。如图1所示，输入视频中两个相邻帧图像I_t和I_t-1分别进入第一生成器网络G₁和相机位姿估计网络，第一生成器网络G₁生成I_t对应的视差图d_t，相机位姿估计网络估计出相对位姿P_t，t-1，视差图d_t与相对位姿P_t，t-1扭曲(wraping)重建I_t-1′，I_t-1′与I_t做最小化光度损失函数：

是模型输出的估计值，SSIM函数表示I_t(p)与

之间在元素上的相似性，解决了光照变化，

优化网络，增强I_t-1′的重建效果。为了解决静态场景中移动物体相关的问题，这个部分的光度重建误差要乘以一个掩膜(mask)。

同时，I_t-1与I_t-1′之间做重建一致性损失函数：

其中，I_t-1是输入视频的第二帧图像，

是重建的第二帧图像。

I_t-1′通过第二生成器网络G₂生成I_t-1′对应的视差图d_t-1，视差图d_t-1与相对位姿P_t，t-1扭曲(wraping)重建I_t′。

为了区分两个生成器网络G₁、G₂，保证生成图像尽量保留源图像的信息，尽可能让生成器网络生成的数据分布接近于真实的数据分布，I_t与I_t′进行循环一致性损失函数：

其中，

GAN分为生成器G和判别器D，在每个epoch中，GAN的生成器与判别器是分别训练的，即先固定生成器G，去训练判别器D。生成器的目标是输出鉴别器分类为真实的合成图像，目的就是生成越来越真实的图片，更新G的参数，D(G(I))趋于1，在趋于1的过程中，由于G的参数更新，损失函数值也在减小，从而生成更接近真实的图片，生成对抗式网络的损失函数：

为了将真实图片卷积得到的特征与生成图片卷积得到的特征作比较，使得高层信息(内容和全局结构)接近，保持原始图像结构。I_t与I_t′之间做感知一致性损失函数：

其中，|| ||₂代表标准L2-范数和

表示特征抽取器。

本发明实施例中，应用于水下图像的深度估计，可以获得精确的深度估计结果，并且对水下生物的目标检测和测量其体重体长都有很大的帮助。本发明实施例中的深度估计方法是基于自监督单目的水下图像深度估计，针对大规模带有深度标签的数据集难以获取的问题，基于无监督方法，提出在深度估计网络结构中使用生成对抗式网络架构，通过循环的方式实现自监督，对不同空间位置处特征的重要性进行控制，增强物体特征分辨性，提高深度估计准确性。

对应本发明中的单目自监督水下图像深度估计方法，本发明还提供了单目自监督水下图像深度估计装置，如图3所示，该装置包括：

视频获取单元100，用于获取单目摄像机拍摄的水下图像视频；

模型建立单元200，用于构建单目自监督水下图像深度估计网络，单目自监督水下图像深度估计网络包括两部分：由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络；第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像I_t作为输入，输出第一帧图像I_t对应的第一视差图d_t；位姿估计网络以相邻帧图像中的第二帧图像I_t-1作为输入，输出相对位姿P_t，t-1；第二生成对抗网络的生成器以第一视差图d_t和相对位姿P_t，t-1扭曲重建得到的第一重建图像I_t-1′为输入，输出第一重建图像I_t-1′对应的第二视差图d_t-1；第二视差图d_t-1和相对位姿P_t，t-1扭曲重建，得到第二重建图像I_t′；

模型训练单元300，用于训练模型建立单元200构建的所述单目自监督水下图像深度估计网络，包括计算第一重建图像I_t-1′与第一帧图像I_t之间的最小化光度损失；计算第二帧图像I_t-1与第一重建图像I_t-1′之间的重建一致性损失；计算第一帧图像I_t与第二重建图像I_t′之间的循环一致性损失；计算第一帧图像I_t与第二重建图像I_t′之间的感知一致性损失；计算第一生成对抗式网络和第二生成对抗式网络的生成对抗损失；基于光度损失、重建一致性损失、循环一致性损失、感知一致性损失和生成对抗损失进行迭代训练，得到训练好的单目自监督水下图像深度估计网络；

深度估计单元400，用于将所述视频获取单元100获取的所述水下图像视频中相邻帧图像输入至模型训练单元300训练好的单目自监督水下图像深度估计网络中，得到相对视差图和相对位姿；基于所述相对视差图和所述相对位姿，计算得到深度图。

对于本发明实施例的单目自监督水下图像深度估计装置而言，由于其与上面实施例中的单目自监督水下图像深度估计方法相对应，所以描述的比较简单，相关相似之处请参见上面实施例中单目自监督水下图像深度估计方法部分的说明即可，此处不再详述。

本发明实施例还公开了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上文任一实施例所提供的单目自监督水下图像深度估计方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种单目自监督水下图像深度估计方法，其特征在于，所述方法包括：

获取单目摄像机拍摄的水下图像视频；

基于所述相对视差图和所述相对位姿，计算得到深度图。

2.根据权利要求1所述的单目自监督水下图像深度估计方法，其特征在于，循环生成网络以循环的方式合成不同视角的图像，包括：

3.根据权利要求2所述的单目自监督水下图像深度估计方法，其特征在于，单目自监督水下图像深度估计网络的训练，包括：

4.根据权利要求3所述的单目自监督水下图像深度估计方法，其特征在于，计算最小化光度损失的函数为:

是模型输出的估计值，SSIM函数表示I_t(p)与

之间在元素上的相似性，解决了光照变化，

5.根据权利要求3所述的单目自监督水下图像深度估计方法，其特征在于，计算重建一致损失的函数为：

其中，I_t-1是输入视频的第二帧图像，

是重建的第二帧图像。

6.根据权利要求3所述的单目自监督水下图像深度估计方法，其特征在于，计算循环一致性损失的函数为：

其中，

7.根据权利要求3所述的单目自监督水下图像深度估计方法，其特征在于，计算感知一致性损失的函数为：

其中，||||₂代表标准L2-范数和

表示特征抽取器。

8.根据权利要求3所述的单目自监督水下图像深度估计方法，其特征在于，计算生成对抗损失的函数为：

其中，对抗损失应用到两个映射G₁,G₂上；G₁、G₂是生成器网络，D₁、D₂是对应的识别器，生成器的作用是生成视差图，识别器的作用是区分生成的是否为其对应的视差图。

9.一种单目自监督水下图像深度估计装置，其特征在于，包括：

视频获取单元，用于获取单目摄像机拍摄的水下图像视频；

模型建立单元，用于构建单目自监督水下图像深度估计网络，单目自监督水下图像深度估计网络包括两部分：由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络；第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像I_t作为输入，输出第一帧图像I_t对应的第一视差图d_t；位姿估计网络以相邻帧图像中的第二帧图像I_t-1作为输入，输出相对位姿P_t，_t-1；第二生成对抗网络的生成器以第一视差图d_t和相对位姿P_t，t-1扭曲重建得到的第一重建图像I_t-1′为输入，输出第一重建图像I_t-1′对应的第二视差图d_t-1；第二视差图d_t-1和相对位姿P_t，t-1扭曲重建，得到第二重建图像I_t′；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如权利要求1～8任一项所述的单目自监督水下图像深度估计方法。