CN115082537A - 单目自监督水下图像深度估计方法、装置及存储介质 - Google Patents

单目自监督水下图像深度估计方法、装置及存储介质 Download PDF

Info

Publication number
CN115082537A
CN115082537A CN202210751916.5A CN202210751916A CN115082537A CN 115082537 A CN115082537 A CN 115082537A CN 202210751916 A CN202210751916 A CN 202210751916A CN 115082537 A CN115082537 A CN 115082537A
Authority
CN
China
Prior art keywords
network
image
depth estimation
monocular
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210751916.5A
Other languages
English (en)
Inventor
庞洪帅
蔡克卫
刘鹰
刘敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Ocean University
Original Assignee
Dalian Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Ocean University filed Critical Dalian Ocean University
Priority to CN202210751916.5A priority Critical patent/CN115082537A/zh
Publication of CN115082537A publication Critical patent/CN115082537A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了单目自监督水下图像深度估计方法、装置及存储介质,涉及水下图像处理技术领域,方法包括:获取单目摄像机拍摄的水下图像视频;将水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中,得到相对视差图和相对位姿;其中,单目自监督水下图像深度估计网络包括两部分:由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络;循环生成网络以循环的方式合成不同视角的图像,形成对深度估计网络的自监督;基于相对视差图和相对位姿,计算得到深度图。本发明能够快速准确的对水下图像深度估计。

Description

单目自监督水下图像深度估计方法、装置及存储介质
技术领域
本发明涉及水下图像处理技术领域,特别是涉及单目自监督水下图像深度估计方法、装置及存储介质。
背景技术
在水下场景中,为了实时准确的测量鱼体的体重和体长,首先需要进行准确的深度估计。深度估计是计算机视觉领域的一个基础性问题,是估计图像中场景的深度,即场景中各点像素到相机成像平面的垂直距离。目的是帮助计算机理解图像的深度,并预测每个像素的场景元素距离。其可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域。虽然有很多设备可以直接获取深度,但是设备造价昂贵。
基于单目的深度估计只利用一个视点的视频序列和图像估计图像中每个像素相对拍摄源的距离,具有价格低廉、获取信息内容丰富、传感器体积小等优势。与双目和多目相比,大多数应用场景只有一个视点,比如对于人眼来说,由于存在大量的先验知识,从一只眼睛获取的图像信息中提取出大量深度信息,因此单目更贴近实际的应用需求。单目深度估计不仅需要从二维图像中学会客观的深度信息,而且需要提取一些经验信息,后者则对于数据集中相机和场景会比较敏感。
目前,基于单目的深度估计方法根据是否使用真实的深度标签,可以分为有监督和无监督两类。有监督的方法以单幅图像作为训练数据,将深度估计看作稠密预测的回归任务,使用卷积神经网络拟合深度值。但这类方法的不足之处也显而易见,它依赖于大量的标签数据,而得到相应深度标签所花费的成本较高。无监督的方法从传统基于运动的方法中得到启发,以连续的图像序列作为训练数据,基于相机的运动推断出场景的三维结构。但是这类方法需要假定场景中仅存在相机的运动,即忽略了移动目标如水下游动的鱼的存在。当场景中存在大量移动目标时,这类方法的预测精度会受到很大影响。
发明内容
针对上述问题,本发明提出了单目自监督水下图像深度估计方法、装置及存储介质,结合生成对抗网络(GAN,Generative Adversarial Network)和卷积神经网络(CNN,Convolutional Neural Networks)构建单目自监督水下图像深度估计网络,以快速准确的对水下图像深度估计。
为此,本发明提供了以下技术方案:
一方面,本发明提供了一种单目自监督水下图像深度估计方法,所述方法包括:
获取单目摄像机拍摄的水下图像视频;
将所述水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中,得到相对视差图和相对位姿;其中,单目自监督水下图像深度估计网络包括两部分:由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络;第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像作为输入,输出相对视差图;位姿估计网络以相邻帧图像中的第二帧图像作为输入,输出相对位姿;循环生成网络以循环的方式合成不同视角的图像,形成对深度估计网络的自监督;
基于所述相对视差图和所述相对位姿,计算得到深度图。
进一步地,循环生成网络以循环的方式合成不同视角的图像,包括:
将第一生成对抗式网络生成的第一帧图像It对应的第一视差图dt和位姿估计网络生成的第二帧图像It-1对应的相对位姿Pt,t-1扭曲重建,得到第一重建图像It-1′;
将第一重建图像It-1′输入至第二生成对抗式网络的生成器,生成第一重建图像It-1′对应的第二视差图dt-1
将第二视差图dt-1和相对位姿Pt,t-1扭曲重建,得到第二重建图像It′。
进一步地,单目自监督水下图像深度估计网络的训练,包括:
计算第一重建图像It-1′与第一帧图像It之间的最小化光度损失;
计算第二帧图像It-1与第一重建图像It-1′之间的重建一致性损失;
计算第一帧图像It与第二重建图像It′之间的循环一致性损失;
计算第一帧图像It与第二重建图像It′之间的感知一致性损失;
计算第一生成对抗式网络和第二生成对抗式网络的生成对抗损失;
基于光度损失、重建一致性损失、循环一致性损失、感知一致性损失和生成对抗损失进行迭代训练,得到训练好的单目自监督水下图像深度估计网络。
进一步地,计算最小化光度损失的函数为:
Figure BDA0003718533720000031
其中,N是It投影到It-1图像平面的有效点集合,p是N的一个泛型点,It(p)是一个目标值,
Figure BDA0003718533720000032
是模型输出的估计值,SSIM函数表示It(p)与
Figure BDA0003718533720000033
之间在元素上的相似性,解决了光照变化,
Figure BDA0003718533720000034
其中,C1,C2是常数,μ代表均值,σ代表方差,表示图像颜色的局部统计量。
进一步地,计算重建一致损失的函数为:
Figure BDA0003718533720000035
其中,It-1是输入视频的第二帧图像,
Figure BDA0003718533720000036
是重建的第二帧图像。
进一步地,计算循环一致性损失的函数为:
Figure BDA0003718533720000037
其中,
Figure BDA0003718533720000038
为前向循环一致性,It经过其中一个生成器生成图像G1(It),作为另一个生成器的输入生成回来G2(G1(It)),尽可能与原来图像接近,It→G1(It)→G2(G1(It))≈It
Figure BDA0003718533720000039
Figure BDA00037185337200000310
为反向循环一致性,具体过程原理同上,It-1→G1(It-1)→G2(G1(It-1))≈It-1
进一步地,计算感知一致性损失的函数为:
Figure BDA00037185337200000311
Figure BDA0003718533720000041
其中,|| ||2代表标准L2-范数和
Figure BDA0003718533720000042
表示特征抽取器。
进一步地,计算生成对抗损失的函数为:
Figure BDA0003718533720000043
其中,对抗损失应用到两个映射G1,G2上;G1、G2是生成器网络,D1、D2是对应的识别器,生成器的作用是生成视差图,识别器的作用是区分生成的是否为其对应的视差图。
又一方面,本发明还提供了一种单目自监督水下图像深度估计装置,包括:
视频获取单元,用于获取单目摄像机拍摄的水下图像视频;
模型建立单元,用于构建单目自监督水下图像深度估计网络,单目自监督水下图像深度估计网络包括两部分:由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络;第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像It作为输入,输出第一帧图像It对应的第一视差图dt;位姿估计网络以相邻帧图像中的第二帧图像It-1作为输入,输出相对位姿Pt,t-1;第二生成对抗网络的生成器以第一视差图dt和相对位姿Pt,t-1扭曲重建得到的第一重建图像It-1′为输入,输出第一重建图像It-1′对应的第二视差图dt-1;第二视差图dt-1和相对位姿Pt,t-1扭曲重建,得到第二重建图像It′;
模型训练单元,用于训练所述模型建立单元建立的单目自监督水下图像深度估计网络,包括:计算第一重建图像It-1′与第一帧图像It之间的最小化光度损失;计算第二帧图像It-1与第一重建图像It-1′之间的重建一致性损失;计算第一帧图像It与第二重建图像It′之间的循环一致性损失;计算第一帧图像It与第二重建图像It′之间的感知一致性损失;计算第一生成对抗式网络和第二生成对抗式网络的生成对抗损失;基于光度损失、重建一致性损失、循环一致性损失、感知一致性损失和生成对抗损失进行迭代训练,得到训练好的单目自监督水下图像深度估计网络;
深度估计单元,用于将所述视频获取单元获取的所述水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中,得到相对视差图和相对位姿;基于所述相对视差图和所述相对位姿,计算得到深度图。
又一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如上述单目自监督水下图像深度估计方法。
本发明的优点和积极效果:现有的大部分深度估计的方法都是针对陆地场景,本发明应用于水下图像的深度估计,可以获得精确的深度估计结果,并且对水下生物的目标检测和测量其体重体长都有很大的帮助。
本发明是基于自监督单目的水下图像深度估计,针对大规模带有深度标签的数据集难以获取的问题,基于无监督方法,提出在深度估计网络结构中使用生成对抗式网络架构,通过循环的方式实现自监督,对不同空间位置处特征的重要性进行控制,增强物体特征分辨性,提高深度估计准确性。
相比现有的无监督深度估计方法,如专利CN111783582A-一种基于深度学习的无监督单目深度估计算法,本发明针对水下图像的深度估计,采用了两个生成对抗式网络形成一个Cycle-GAN的循环结构,有利于增强数据。Cycle-GAN本质上是两个镜像对称的GAN,构成了一个环形网络。两个GAN共享两个生成器,并各自带一个判别器,即共有两个判别器和两个生成器。一个单向GAN两个loss,两个即共四个loss。第二个半周期防止第一个半周期网络预测不一致的视差对,两个周期共享参数,这样的过程虽然增加了训练模型的复杂度,但是不会增加计算量,能够实现快速准确的对水下图像深度估计。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中单目自监督水下图像深度估计方法的流程图;
图2为本发明实施例中单目自监督水下图像深度估计的网络模型;
图3为本发明实施例中单目自监督水下图像深度估计装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了实现实时的单目图像深度估计,本发明提出了单目自监督水下图像深度估计方法,使用两个GAN和一个基于CNN的相对位姿网络构建单目自监督水下图像深度估计网络,该网络在水下视频时间序列上相邻帧的图像进行训练,以输入视频中相邻帧图像作为模型输入,输出用于计算深度图的相对视差图和相对位姿。
如图1所示,其示出了本发明实施例中一种单目自监督水下图像深度估计方法,该方法包括以下步骤:
S1、获取单目摄像机拍摄的水下图像视频;
S2、将所述水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中,得到相对视差图和相对位姿;
其中,单目自监督水下图像深度估计网络包括两部分:
(1)无监督对抗深度估计网络:
由第一生成对抗式网络和相机位姿估计网络组成;输入视频中相邻帧图像分别进入第一生成对抗式网络的生成器和相机位姿估计网络,预测相对视差图和相对位姿,基于相对视差图和相对位姿通过公式可以计算出深度图。其中,第一生成对抗式网络以相邻帧图像中的第一帧图像作为输入,输出相对视差图;位姿估计网络以相邻帧图像中的第二帧图像作为输入,输出相对位姿。这里需要说明的是,第一帧图像、第二帧图像可以是水下图像视频中任意位置相邻的两帧,并不限定为从水下图像视频初始帧起始的两帧。
输入图像和相邻帧图像作为配对,用于训练增强网络,解决增强网络缺少监督信号的问题。
(2)用于对抗深度估计的循环生成网络:
为了使得相邻帧图像的重建能够对彼此有潜在的约束,本发明提出循环生成网络结构,在上述无监督对抗深度估计网络的基础上增加第二生成对抗式网络,第一生成对抗式网络生成两张相邻帧图像的视差图,并通过第二生成对抗式网络以循环的方式合成不同视角的图像,形成对深度估计网络的自监督。使用光度损失、循环一致性损失等帮助优化生成器和位姿估计网络。
S3、基于所述相对视差图和所述相对位姿,计算得到深度图。
为了便于理解,下面对上述单目自监督水下图像深度估计网络进行详细说明。如图1所示,输入视频中两个相邻帧图像It和It-1分别进入第一生成器网络G1和相机位姿估计网络,第一生成器网络G1生成It对应的视差图dt,相机位姿估计网络估计出相对位姿Pt,t-1,视差图dt与相对位姿Pt,t-1扭曲(wraping)重建It-1′,It-1′与It做最小化光度损失函数:
Figure BDA0003718533720000071
其中,N是It投影到It-1图像平面的有效点集合,p是N的一个泛型点,It(p)是一个目标值,
Figure BDA0003718533720000072
是模型输出的估计值,SSIM函数表示It(p)与
Figure BDA0003718533720000073
之间在元素上的相似性,解决了光照变化,
Figure BDA0003718533720000074
其中,C1,C2是常数,μ代表均值,σ代表方差,表示图像颜色的局部统计量。
优化网络,增强It-1′的重建效果。为了解决静态场景中移动物体相关的问题,这个部分的光度重建误差要乘以一个掩膜(mask)。
同时,It-1与It-1′之间做重建一致性损失函数:
Figure BDA0003718533720000081
其中,It-1是输入视频的第二帧图像,
Figure BDA0003718533720000082
是重建的第二帧图像。
It-1′通过第二生成器网络G2生成It-1′对应的视差图dt-1,视差图dt-1与相对位姿Pt,t-1扭曲(wraping)重建It′。
为了区分两个生成器网络G1、G2,保证生成图像尽量保留源图像的信息,尽可能让生成器网络生成的数据分布接近于真实的数据分布,It与It′进行循环一致性损失函数:
Figure BDA0003718533720000083
其中,
Figure BDA0003718533720000084
为前向循环一致性,It经过其中一个生成器生成图像G1(It),作为另一个生成器的输入生成回来G2(G1(It)),尽可能与原来图像接近,It→G1(It)→G2(G1(It))≈It
Figure BDA0003718533720000085
Figure BDA0003718533720000086
为反向循环一致性,具体过程原理同上,It-1→G1(It-1)→G2(G1(It-1))≈It-1
GAN分为生成器G和判别器D,在每个epoch中,GAN的生成器与判别器是分别训练的,即先固定生成器G,去训练判别器D。生成器的目标是输出鉴别器分类为真实的合成图像,目的就是生成越来越真实的图片,更新G的参数,D(G(I))趋于1,在趋于1的过程中,由于G的参数更新,损失函数值也在减小,从而生成更接近真实的图片,生成对抗式网络的损失函数:
Figure BDA0003718533720000087
其中,对抗损失应用到两个映射G1,G2上;G1、G2是生成器网络,D1、D2是对应的识别器,生成器的作用是生成视差图,识别器的作用是区分生成的是否为其对应的视差图。
为了将真实图片卷积得到的特征与生成图片卷积得到的特征作比较,使得高层信息(内容和全局结构)接近,保持原始图像结构。It与It′之间做感知一致性损失函数:
Figure BDA0003718533720000091
其中,|| ||2代表标准L2-范数和
Figure BDA0003718533720000092
表示特征抽取器。
本发明实施例中,应用于水下图像的深度估计,可以获得精确的深度估计结果,并且对水下生物的目标检测和测量其体重体长都有很大的帮助。本发明实施例中的深度估计方法是基于自监督单目的水下图像深度估计,针对大规模带有深度标签的数据集难以获取的问题,基于无监督方法,提出在深度估计网络结构中使用生成对抗式网络架构,通过循环的方式实现自监督,对不同空间位置处特征的重要性进行控制,增强物体特征分辨性,提高深度估计准确性。
对应本发明中的单目自监督水下图像深度估计方法,本发明还提供了单目自监督水下图像深度估计装置,如图3所示,该装置包括:
视频获取单元100,用于获取单目摄像机拍摄的水下图像视频;
模型建立单元200,用于构建单目自监督水下图像深度估计网络,单目自监督水下图像深度估计网络包括两部分:由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络;第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像It作为输入,输出第一帧图像It对应的第一视差图dt;位姿估计网络以相邻帧图像中的第二帧图像It-1作为输入,输出相对位姿Pt,t-1;第二生成对抗网络的生成器以第一视差图dt和相对位姿Pt,t-1扭曲重建得到的第一重建图像It-1′为输入,输出第一重建图像It-1′对应的第二视差图dt-1;第二视差图dt-1和相对位姿Pt,t-1扭曲重建,得到第二重建图像It′;
模型训练单元300,用于训练模型建立单元200构建的所述单目自监督水下图像深度估计网络,包括计算第一重建图像It-1′与第一帧图像It之间的最小化光度损失;计算第二帧图像It-1与第一重建图像It-1′之间的重建一致性损失;计算第一帧图像It与第二重建图像It′之间的循环一致性损失;计算第一帧图像It与第二重建图像It′之间的感知一致性损失;计算第一生成对抗式网络和第二生成对抗式网络的生成对抗损失;基于光度损失、重建一致性损失、循环一致性损失、感知一致性损失和生成对抗损失进行迭代训练,得到训练好的单目自监督水下图像深度估计网络;
深度估计单元400,用于将所述视频获取单元100获取的所述水下图像视频中相邻帧图像输入至模型训练单元300训练好的单目自监督水下图像深度估计网络中,得到相对视差图和相对位姿;基于所述相对视差图和所述相对位姿,计算得到深度图。
对于本发明实施例的单目自监督水下图像深度估计装置而言,由于其与上面实施例中的单目自监督水下图像深度估计方法相对应,所以描述的比较简单,相关相似之处请参见上面实施例中单目自监督水下图像深度估计方法部分的说明即可,此处不再详述。
本发明实施例还公开了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如上文任一实施例所提供的单目自监督水下图像深度估计方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种单目自监督水下图像深度估计方法,其特征在于,所述方法包括:
获取单目摄像机拍摄的水下图像视频;
将所述水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中,得到相对视差图和相对位姿;其中,单目自监督水下图像深度估计网络包括两部分:由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络;第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像作为输入,输出相对视差图;位姿估计网络以相邻帧图像中的第二帧图像作为输入,输出相对位姿;循环生成网络以循环的方式合成不同视角的图像,形成对深度估计网络的自监督;
基于所述相对视差图和所述相对位姿,计算得到深度图。
2.根据权利要求1所述的单目自监督水下图像深度估计方法,其特征在于,循环生成网络以循环的方式合成不同视角的图像,包括:
将第一生成对抗式网络生成的第一帧图像It对应的第一视差图dt和位姿估计网络生成的第二帧图像It-1对应的相对位姿Pt,t-1扭曲重建,得到第一重建图像It-1′;
将第一重建图像It-1′输入至第二生成对抗式网络的生成器,生成第一重建图像It-1′对应的第二视差图dt-1
将第二视差图dt-1和相对位姿Pt,t-1扭曲重建,得到第二重建图像It′。
3.根据权利要求2所述的单目自监督水下图像深度估计方法,其特征在于,单目自监督水下图像深度估计网络的训练,包括:
计算第一重建图像It-1′与第一帧图像It之间的最小化光度损失;
计算第二帧图像It-1与第一重建图像It-1′之间的重建一致性损失;
计算第一帧图像It与第二重建图像It′之间的循环一致性损失;
计算第一帧图像It与第二重建图像It′之间的感知一致性损失;
计算第一生成对抗式网络和第二生成对抗式网络的生成对抗损失;
基于光度损失、重建一致性损失、循环一致性损失、感知一致性损失和生成对抗损失进行迭代训练,得到训练好的单目自监督水下图像深度估计网络。
4.根据权利要求3所述的单目自监督水下图像深度估计方法,其特征在于,计算最小化光度损失的函数为:
Figure FDA0003718533710000021
其中,N是It投影到It-1图像平面的有效点集合,p是N的一个泛型点,It(p)是一个目标值,
Figure FDA0003718533710000022
是模型输出的估计值,SSIM函数表示It(p)与
Figure FDA0003718533710000023
之间在元素上的相似性,解决了光照变化,
Figure FDA0003718533710000024
其中,C1,C2是常数,μ代表均值,σ代表方差,表示图像颜色的局部统计量。
5.根据权利要求3所述的单目自监督水下图像深度估计方法,其特征在于,计算重建一致损失的函数为:
Figure FDA0003718533710000025
其中,It-1是输入视频的第二帧图像,
Figure FDA0003718533710000026
是重建的第二帧图像。
6.根据权利要求3所述的单目自监督水下图像深度估计方法,其特征在于,计算循环一致性损失的函数为:
Figure FDA0003718533710000027
其中,
Figure FDA0003718533710000028
为前向循环一致性,It经过其中一个生成器生成图像G1(It),作为另一个生成器的输入生成回来G2(G1(It)),尽可能与原来图像接近,It→G1(It)→G2(G1(It))≈It
Figure FDA0003718533710000029
Figure FDA00037185337100000210
为反向循环一致性,具体过程原理同上,It-1→G1(It-1)→G2(G1(It-1))≈It-1
7.根据权利要求3所述的单目自监督水下图像深度估计方法,其特征在于,计算感知一致性损失的函数为:
Figure FDA0003718533710000031
其中,||||2代表标准L2-范数和
Figure FDA0003718533710000032
表示特征抽取器。
8.根据权利要求3所述的单目自监督水下图像深度估计方法,其特征在于,计算生成对抗损失的函数为:
Figure FDA0003718533710000033
其中,对抗损失应用到两个映射G1,G2上;G1、G2是生成器网络,D1、D2是对应的识别器,生成器的作用是生成视差图,识别器的作用是区分生成的是否为其对应的视差图。
9.一种单目自监督水下图像深度估计装置,其特征在于,包括:
视频获取单元,用于获取单目摄像机拍摄的水下图像视频;
模型建立单元,用于构建单目自监督水下图像深度估计网络,单目自监督水下图像深度估计网络包括两部分:由第一生成对抗式网络和相机位姿估计网络组成的无监督对抗深度估计网络以及在所述无监督对抗深度估计网络的基础上增加第二生成对抗式网络形成的用于对抗深度估计的循环生成网络;第一生成对抗式网络的生成器以相邻帧图像中的第一帧图像It作为输入,输出第一帧图像It对应的第一视差图dt;位姿估计网络以相邻帧图像中的第二帧图像It-1作为输入,输出相对位姿Ptt-1;第二生成对抗网络的生成器以第一视差图dt和相对位姿Pt,t-1扭曲重建得到的第一重建图像It-1′为输入,输出第一重建图像It-1′对应的第二视差图dt-1;第二视差图dt-1和相对位姿Pt,t-1扭曲重建,得到第二重建图像It′;
模型训练单元,用于训练所述模型建立单元建立的单目自监督水下图像深度估计网络,包括:计算第一重建图像It-1′与第一帧图像It之间的最小化光度损失;计算第二帧图像It-1与第一重建图像It-1′之间的重建一致性损失;计算第一帧图像It与第二重建图像It′之间的循环一致性损失;计算第一帧图像It与第二重建图像It′之间的感知一致性损失;计算第一生成对抗式网络和第二生成对抗式网络的生成对抗损失;基于光度损失、重建一致性损失、循环一致性损失、感知一致性损失和生成对抗损失进行迭代训练,得到训练好的单目自监督水下图像深度估计网络;
深度估计单元,用于将所述视频获取单元获取的所述水下图像视频中相邻帧图像输入至训练好的单目自监督水下图像深度估计网络中,得到相对视差图和相对位姿;基于所述相对视差图和所述相对位姿,计算得到深度图。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如权利要求1~8任一项所述的单目自监督水下图像深度估计方法。
CN202210751916.5A 2022-06-28 2022-06-28 单目自监督水下图像深度估计方法、装置及存储介质 Pending CN115082537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210751916.5A CN115082537A (zh) 2022-06-28 2022-06-28 单目自监督水下图像深度估计方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210751916.5A CN115082537A (zh) 2022-06-28 2022-06-28 单目自监督水下图像深度估计方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115082537A true CN115082537A (zh) 2022-09-20

Family

ID=83255596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210751916.5A Pending CN115082537A (zh) 2022-06-28 2022-06-28 单目自监督水下图像深度估计方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115082537A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245927A (zh) * 2023-02-09 2023-06-09 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245927A (zh) * 2023-02-09 2023-06-09 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统
CN116245927B (zh) * 2023-02-09 2024-01-16 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统

Similar Documents

Publication Publication Date Title
Park et al. Nerfies: Deformable neural radiance fields
Pandey et al. Total relighting: learning to relight portraits for background replacement.
Li et al. Neural scene flow fields for space-time view synthesis of dynamic scenes
Gao et al. Dynamic view synthesis from dynamic monocular video
Wu et al. Marrnet: 3d shape reconstruction via 2.5 d sketches
Zhou et al. Unsupervised learning of depth and ego-motion from video
US10726560B2 (en) Real-time mobile device capture and generation of art-styled AR/VR content
US10719939B2 (en) Real-time mobile device capture and generation of AR/VR content
Thies et al. Facevr: Real-time facial reenactment and eye gaze control in virtual reality
CN109615703B (zh) 增强现实的图像展示方法、装置及设备
CN109087346B (zh) 单目深度模型的训练方法、训练装置和电子设备
Sun et al. Layered RGBD scene flow estimation
US20210241495A1 (en) Method and system for reconstructing colour and depth information of a scene
Ye et al. Free-viewpoint video of human actors using multiple handheld kinects
CN113689539B (zh) 基于隐式光流场的动态场景实时三维重建方法
JP2016085742A (ja) 前景画像分割方法及び前景画像分割装置
Crispell et al. Pix2face: Direct 3d face model estimation
Chen et al. High-fidelity face tracking for ar/vr via deep lighting adaptation
Zhao et al. Mask-off: Synthesizing face images in the presence of head-mounted displays
Kumar et al. Human-Inspired Camera: A Novel Camera System for Computer Vision
CN115082537A (zh) 单目自监督水下图像深度估计方法、装置及存储介质
CN116912393A (zh) 人脸重建方法、装置、电子设备及可读存储介质
Leimkühler et al. Perceptual real-time 2D-to-3D conversion using cue fusion
Sibbing et al. Building a large database of facial movements for deformation model‐based 3d face tracking
Kabadayi et al. Gan-avatar: Controllable personalized gan-based human head avatar

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination