CN111783582A - 一种基于深度学习的无监督单目深度估计算法 - Google Patents

一种基于深度学习的无监督单目深度估计算法 Download PDF

Info

Publication number
CN111783582A
CN111783582A CN202010571133.XA CN202010571133A CN111783582A CN 111783582 A CN111783582 A CN 111783582A CN 202010571133 A CN202010571133 A CN 202010571133A CN 111783582 A CN111783582 A CN 111783582A
Authority
CN
China
Prior art keywords
image
loss
optical flow
network
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010571133.XA
Other languages
English (en)
Inventor
王腾
高昊昇
薛磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010571133.XA priority Critical patent/CN111783582A/zh
Publication of CN111783582A publication Critical patent/CN111783582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度学习的无监督单目深度估计算法,通过比较相机运动产生的光流和全光流之间的差异,实现对场景中移动目标的检测,最终提升算法的深度估计效果,本发明在不需要训练标签的情况下,对于移动的单目相机视频,可以同时实现对深度图像、相机位姿和运动光流的无监督估计,三项任务预测精度优良,本发明通过对场景中动态目标的检测,有效增强了算法的精度和鲁棒性。

Description

一种基于深度学习的无监督单目深度估计算法
技术领域
本发明涉及一种单目深度估计算法,特别是涉及基于深度学习的无监督单目深度估计算法。
背景技术
计算机视觉通过计算机来模拟人类的视觉功能,使计算机能够具有类人的从二维平面图像认知真实三维场景的能力,包括理解和识别场景中的内容、运动和结构等信息。然而由于平面图像在成像的过程中缺失了三维空间的深度信息,基于二维图像的技术会存在一些固有的缺陷。因此如何从单幅或多幅图像中重构出场景的三维信息,即深度估计,成为目前计算机视觉领域研究的一个非常重要的基础性课题。深度指场景中的点到相机所在平面的距离,图像对应的深度信息可以用一张深度图像来描述,深度图像每个像素点的灰度值可用于表征场景中某一点距离相机的远近。随着研究的深入,深度估计技术逐渐被应用到智能机器人、智能医疗、无人驾驶、目标检测与跟踪、人脸识别以及3D视频制作等领域,具有巨大的社会价值和经济价值。
根据场景图像视点数量的不同,深度估计算法可分为基于多视点图像、基于双目图像和基于单目图像三类。与前两种方法相比,单目图像缺乏丰富的空间结构信息,是三类方法中最困难的一类。但是通过单目图像进行深度估计使用方便、成本较为低廉,最贴近实际应用需求,因此具有很高的研究价值,也是当前深度估计领域的热点。
传统的深度估计方法大都直接通过视觉线索来估计图像深度。但是传统的方法有严格的使用条件,一般计算量也比较大。近年来,深度学习技术得到了快速发展,因此结合深度学习的图像深度估计方法也开始得到国内外研究者们的关注。基于深度学习的单目深度估计算法根据是否使用真实的深度标签,可以分为有监督和无监督两类。有监督的方法以单幅图像作为训练数据,将深度估计看作稠密预测的回归任务,使用卷积神经网络拟合深度值。但这类方法的不足之处也显而易见,它依赖于大量的标签数据,而得到相应深度标签所花费的成本较高。无监督的方法从传统基于运动的方法中得到启发,以连续的图像序列作为训练数据,基于相机的运动推断出场景的三维结构。但是这类方法需要假定场景中仅存在相机的运动,即忽略了移动目标如车辆、行人的存在。当场景中存在大量移动目标时,这类方法的预测精度会受到很大影响。
发明内容
为解决现有技术中存在的缺陷,本发明提出了一种在不依赖标签的情况下,无监督地估计单目图像深度的算法。
技术方案:一种基于深度学习的无监督单目深度估计算法,包括以下步骤:
步骤1:对单目相机拍摄的视频进行处理得到长度为N的图像序列,将图像序列中的中间帧作为目标图像It,其余帧作为源图像Is
步骤2:将步骤1得到的目标图像It输入至已构造好的深度网络DepthNet中,得到深度图像
Figure BDA0002549586400000021
将步骤1得到的目标图像It和源图像Is按通道连接后的张量输入至已构造好的相机位姿网络PoseNet中,得到相机位姿变换
Figure BDA0002549586400000022
基于深度图像
Figure BDA0002549586400000023
和相机位姿变换
Figure BDA0002549586400000024
解算得到相机刚体运动造成的刚体运动光流
Figure BDA0002549586400000025
继而重构图像
Figure BDA0002549586400000026
计算深度平滑损失Lds
步骤3:将步骤1得到的图像序列输入至已构造好的光流网络FlowNet中,得到相机运动和物体自身移动造成的全光流
Figure BDA0002549586400000027
基于全光流
Figure BDA0002549586400000028
重构图像
Figure BDA0002549586400000029
并计算重构损失
Figure BDA00025495864000000210
和对抗损失Ladv
步骤4:通过比较步骤2得到的刚体运动光流
Figure BDA00025495864000000211
和步骤3得到的全光流
Figure BDA00025495864000000212
的差异,得到移动目标掩膜
Figure BDA00025495864000000213
基于移动目标掩膜
Figure BDA00025495864000000214
计算得到光流一致性损失Lfc和刚性重构损失
Figure BDA00025495864000000215
步骤5:基于对抗损失Ladv、光流一致性损失Lfc、刚性重构损失
Figure BDA00025495864000000216
重构损失
Figure BDA00025495864000000217
和深度平滑损失Lds,构造损失函数Ltotal,迭代直至损失函数Ltotal收敛,得到训练好的深度网络DepthNet、相机位姿网络PoseNet和光流网络FlowNet;
步骤6:将待估计的图像分别输入至训练好的深度网络DepthNet、相机位姿网络PoseNet和光流网络FlowNet中,得到对应的图像深度、相机位姿和运动光流的无监督估计结果。
进一步的,步骤2中的深度网络DepthNet为全卷积网络,包括编码器和解码器,该编码器与解码器之间跨层连接;
所述深度图像
Figure BDA00025495864000000218
为与输入的目标图像It等分辨率的灰度图像。
进一步的,步骤2中的基于深度图像
Figure BDA00025495864000000219
和相机位姿变换
Figure BDA00025495864000000220
解算得到相机刚体运动造成的刚体运动光流
Figure BDA00025495864000000221
包括:
根据式(1)计算得到某一像素在源图像Is上的投影坐标
Figure BDA00025495864000000222
Figure BDA00025495864000000223
式中,pt为目标图像It上某一像素的其次坐标;
根据式(2)计算得到某一像素处的光流:
Figure BDA00025495864000000224
步骤2中的重构图像
Figure BDA00025495864000000225
包括:
在源图像Is上采样投影坐标
Figure BDA00025495864000000226
周围多个像素
通过双线性插值得到
Figure BDA00025495864000000227
重构得到
Figure BDA00025495864000000228
进一步的,步骤2中的深度平滑损失Lds根据式(3)计算得到:
Figure BDA0002549586400000031
其中,
Figure BDA0002549586400000032
分别表示纵向和横向的梯度,pt为目标图像It上某一像素的其次坐标。
进一步的,步骤3中的光流网络FlowNet为对抗网络包括生成器和判别器,所述生成器接受目标图像It和源图像Is按通道连接后的张量作为输入,输出全光流
Figure BDA0002549586400000033
所述判别器接受目标图像It和重构图像
Figure BDA0002549586400000034
作为输入,将目标图像It视为真实图像,重构图像
Figure BDA0002549586400000035
视为生成图像,输出一表示生成图像为真实图像的概率值。
进一步的,所述生成器的结构与深度网络DepthNet的结构一致。
进一步的,在步骤3中,根据式(4)计算得到重构损失
Figure BDA0002549586400000036
Figure BDA0002549586400000037
式中,SSIM表示结构相似指数,w为参数,
Figure BDA0002549586400000038
为全光流
Figure BDA0002549586400000039
对应的有效掩膜。
进一步的,在步骤3中,根据式(5)计算得到对抗损失Ladv
Figure BDA00025495864000000310
其中,G、D分别表示生成器和判别器,I、X分别为真实图像和真实图像的数据分布,
Figure BDA00025495864000000311
分别为生成图像和生成图像的数据分布。
进一步的,步骤4中,根据式(6)得到目标掩膜
Figure BDA00025495864000000312
Figure BDA00025495864000000313
式中,1(.)为指示函数,α为阈值;
根据式(7)得到光流一致性损失Lfc
Figure BDA00025495864000000314
根据式(8)得到刚性重构损失
Figure BDA00025495864000000315
Figure BDA00025495864000000316
进一步的,步骤5中的损失函数Ltotal表示为:
Figure BDA00025495864000000317
其中,λadv、Lds、λr、λf、λfc分别为对应各项损失的权重。
有益效果:本发明与现有技术相比,具有以下优点:
1、本发明通过比较相机运动产生的光流和全光流之间的差异,实现对场景中移动目标的检测,最终提升算法的深度估计效果,本发明在不需要训练标签的情况下,对于移动的单目相机视频,可以同时实现对深度图像、相机位姿和运动光流的无监督估计,三项任务预测精度优良;
2、本发明通过对场景中动态目标的检测,有效增强了算法的精度和鲁棒性;
3、本发明以单目相机拍摄的视频作为训练数据,不需要昂贵的深度标签,通过对移动目标建模,该算法能极大降低移动目标对无监督方法的影响,保证算法在单目深度估计、相机位姿预测和光流估计任务中均能取得很好的效果;
4、本发明生成对抗网络结构引入的对抗损失,使光流预测的精度有明显的提升。
附图说明
图1是模型结构示意图;
图2是光流网络FlowNet的生成对抗网络结构;
图3是目标图像It和对应深度图像
Figure BDA0002549586400000041
示例;
图4自上而下依次是目标图像It、源图像Is和刚体运动光流
Figure BDA0002549586400000042
示例;
图5自上而下依次是目标图像It、重构图像
Figure BDA0002549586400000043
及对应的有效掩膜
Figure BDA0002549586400000044
示例;
图6自上而下依次是目标图像It、源图像Is和全光流
Figure BDA0002549586400000045
示例;
图7自上而下依次是刚体运动光流
Figure BDA0002549586400000046
全光流
Figure BDA0002549586400000047
和移动目标掩膜
Figure BDA0002549586400000048
示例。
具体实施方式
现结合附图和实施例进一步阐述本发明的技术方案。
参见图1,本发明的算法模型由深度网络DepthNet、相机位姿网络PoseNet和光流网络FlowNet三部分构成。深度网络DepthNet输出与单目输入图像等分辨率的深度图像,以灰度表示深度值大小,相机位姿网络PoseNet用以估计相邻帧图像间,相机在三维空间中的位姿变换量,光流网络FlowNet则用以估计相邻帧图像间的全光流,图2是光流网络FlowNet的生成对抗网络结构。
基于上述模型,本发明设计了一种基于深度学习的无监督单目深度估计算法,通过比较相机运动产生的光流和全光流之间的差异,实现对场景中移动目标的检测,最终提升算法的深度估计效果。本发明在不需要训练标签的情况下,对于移动的单目相机视频,可以同时实现对深度图像、相机位姿和运动光流的无监督估计,三项任务预测精度优良。
具体包括如下步骤:
步骤1:以单目相机拍摄的视频作为训练集,相机内参K已知,处理后得到一系列长度N为3的图像序列作为最终输入模型的数据,其中,中间帧作为目标图像It,其余帧作为源图像Is
步骤2:构造深度网络DepthNet和相机位姿网络PoseNet,结合步骤1中的输入,分别输出深度图像
Figure BDA0002549586400000049
和相机位姿变换
Figure BDA00025495864000000410
解算出相机刚体运动造成的光流
Figure BDA00025495864000000411
和对应的有效掩膜
Figure BDA00025495864000000412
继而重构图像
Figure BDA00025495864000000413
计算深度平滑损失Lds
深度网络DepthNet结构描述如下:DepthNet是一编码器—解码器结构的全卷积网络,编码器与解码器之间有跨层的连接。编码器由7对卷积步长分别为2和1的卷积层组成,卷积核数分别为32、64、128、256、512、512、512;解码器由一系列连续的反卷积层和卷积层组成,最后如图3所示,输出与输入目标图像It等分辨率的灰度图像
Figure BDA0002549586400000051
灰度大小表示该像素处的深度值。除编码器前2对卷积层的卷积核大小设为7和5外,其余所有层卷积核大小均为3。除最后的输出层外,所有的层均使用LeakyReLU激活函数和批归一化。
相机位姿网络PoseNet结构描述如下:PoseNet由7层卷积层构成,卷积核数分别为16、32、64、128、256、256、256,卷积步长均为2,除前2层卷积核大小设为7和5外,其余所有层卷积核大小均为3,PoseNet接受目标图像It和源图像Is按通道连接后的张量作为输入,最后经一6通道的1*1卷积层输出相机位姿变换
Figure BDA0002549586400000052
表示从目标图像It到源图像Is相机在空间中的刚体运动,包括3个欧拉角和3个平移量。
相机运动光流
Figure BDA0002549586400000053
构造及重构图像
Figure BDA0002549586400000054
描述如下:记pt为目标图像It上某一像素的其次坐标,结合深度图像
Figure BDA0002549586400000055
和相机位姿变换
Figure BDA0002549586400000056
可求得该像素在源图像Is上的投影坐标
Figure BDA0002549586400000057
Figure BDA0002549586400000058
可得该像素处的光流为:
Figure BDA0002549586400000059
光流表示同一像素在目标图像和源图像间位置的变化。如图4所示,自上而下依次是目标图像It、源图像Is和刚体运动光流
Figure BDA00025495864000000510
示例。
由于
Figure BDA00025495864000000511
可能超出图像边界,所以需建立对应的有效掩膜
Figure BDA00025495864000000512
重构图像中
Figure BDA00025495864000000513
由于
Figure BDA00025495864000000514
值连续,
Figure BDA00025495864000000515
通过在源图像上采样
Figure BDA00025495864000000516
周围4个像素双线性插值求得,从而重构出
Figure BDA00025495864000000517
如图5所示,自上而下依次是目标图像It、重构图像
Figure BDA00025495864000000518
及对应的有效掩膜
Figure BDA00025495864000000519
示例。
深度平滑损失Lds计算如下:
Figure BDA00025495864000000520
其中,
Figure BDA00025495864000000521
分别表示纵向和横向的梯度,深度平滑损失Lds保证深度图像中,物体轮廓等位置处深度变化较大,其余位置深度图像尽可能平滑。
步骤3:构造光流网络FlowNet,结合步骤1中的输入,输出相机运动和物体自身移动造成的全光流
Figure BDA00025495864000000522
解算出对应的有效掩膜
Figure BDA00025495864000000523
继而重构图像
Figure BDA00025495864000000524
计算重构损失
Figure BDA00025495864000000525
和对抗损失Ladv
光流网络FlowNet结构描述如下:FlowNet为如图2所示生成对抗网络的形式,由生成器和判别器组成,生成器接受目标图像It和源图像Is按通道连接后的张量作为输入,输出如图6所示全光流
Figure BDA00025495864000000526
该光流由相机运动和物体自身移动共同造成,除最后输出层通道数为2外,生成器结构与深度网络DepthNet完全相同。结合步骤2,根据全光流
Figure BDA00025495864000000527
可重构图像
Figure BDA00025495864000000528
并构建对应的有效掩膜
Figure BDA00025495864000000529
计算重构损失
Figure BDA00025495864000000530
如下:
Figure BDA0002549586400000061
其中,SSIM表示结构相似指数,参数w设为0.85。理论上,若深度估计和相机位姿估计无误差,在有效掩膜
Figure BDA0002549586400000062
内,
Figure BDA0002549586400000063
与It应该完全一致,重构损失应为零。判别器接受It
Figure BDA0002549586400000064
作为输入,将It视为真实图像,
Figure BDA0002549586400000065
视为生成图像;输出一概率值,表示对应输入图像为真实图像的概率。判别器结构类似PoseNet,由7层卷积层构成,最后经过全局平均池化和sigmoid激活函数后输出。
对抗损失Ladv公式如下:
Figure BDA0002549586400000066
其中G、D分别表示生成器和判别器部分,I、X分别为真实图像和真实图像的数据分布,
Figure BDA0002549586400000067
分别为生成图像和生成图像的数据分布。
步骤4:比较刚体运动光流
Figure BDA0002549586400000068
和全光流
Figure BDA0002549586400000069
的差异,检测移动目标,输出移动目标掩膜
Figure BDA00025495864000000610
计算光流一致性损失Lfc,同时结合步骤2计算刚性重构损失
Figure BDA00025495864000000611
移动目标掩膜
Figure BDA00025495864000000612
构造如下:
Figure BDA00025495864000000613
其中,1(.)为指示函数,阈值α设置为7,理论上,若
Figure BDA00025495864000000614
Figure BDA00025495864000000615
估计完成没有误差,移动目标处
Figure BDA00025495864000000616
Figure BDA00025495864000000617
光流差值应该较大,静态背景处两类光流值应该完全相等。如图7所示,自上而下依次是刚体运动光流
Figure BDA00025495864000000618
全光流
Figure BDA00025495864000000619
和移动目标掩膜
Figure BDA00025495864000000620
示例。
光流一致性损失Lfc为:
Figure BDA00025495864000000621
该项损失保证
Figure BDA00025495864000000622
Figure BDA00025495864000000623
在静态背景处两类光流尽量相等。
刚性重构损失
Figure BDA00025495864000000624
为:
Figure BDA00025495864000000625
步骤5:基于对抗损失Ladv、光流一致性损失Lfc、刚性重构损失
Figure BDA00025495864000000626
重构损失
Figure BDA00025495864000000627
和深度平滑损失Lds,构造损失函数Ltotal,使用Adam迭代器最小化Ltotal直到收敛,得到训练好的深度网络DepthNet、相机位姿网络PoseNet和光流网络FlowNet;
最终损失函数Ltotal公式如下:
Figure BDA00025495864000000628
其中λadv、Lds、λr、λf、λfc分别为对应各项损失的权重,大小分别为0.005、1、10、1和0.01。Adam迭代器的参数β1、β2大小分别为0.9和0.999。模型训练时,初始学习率大小为0.0002,批量大小设置为8。
步骤6:将待估计的图像分别输入至训练好的深度网络DepthNet、相机位姿网络PoseNet和光流网络FlowNet中,得到对应的图像深度、相机位姿和运动光流的无监督估计结果。

Claims (10)

1.一种基于深度学习的无监督单目深度估计算法,其特征在于:包括以下步骤:
步骤1:对单目相机拍摄的视频进行处理得到长度为N的图像序列,将图像序列中的中间帧作为目标图像It,其余帧作为源图像Is
步骤2:将步骤1得到的目标图像It输入至已构造好的深度网络DepthNet中,得到深度图像
Figure FDA0002549586390000011
将步骤1得到的目标图像It和源图像Is按通道连接后的张量输入至已构造好的相机位姿网络PoseNet中,得到相机位姿变换
Figure FDA0002549586390000012
基于深度图像
Figure FDA0002549586390000013
和相机位姿变换
Figure FDA0002549586390000014
解算得到相机刚体运动造成的刚体运动光流
Figure FDA0002549586390000015
继而重构图像
Figure FDA0002549586390000016
计算深度平滑损失Lds
步骤3:将步骤1得到的图像序列输入至已构造好的光流网络FlowNet中,得到相机运动和物体自身移动造成的全光流
Figure FDA0002549586390000017
基于全光流
Figure FDA0002549586390000018
重构图像
Figure FDA0002549586390000019
并计算重构损失
Figure FDA00025495863900000110
和对抗损失Ladv
步骤4:通过比较步骤2得到的刚体运动光流
Figure FDA00025495863900000111
和步骤3得到的全光流
Figure FDA00025495863900000112
的差异,得到移动目标掩膜
Figure FDA00025495863900000113
基于移动目标掩膜
Figure FDA00025495863900000114
计算得到光流一致性损失Lfc和刚性重构损失
Figure FDA00025495863900000115
步骤5:基于对抗损失Ladv、光流一致性损失Lfc、刚性重构损失
Figure FDA00025495863900000116
重构损失
Figure FDA00025495863900000117
和深度平滑损失Lds,构造损失函数Ltotal,迭代直至损失函数Ltotal收敛,得到训练好的深度网络DepthNet、相机位姿网络PoseNet和光流网络FlowNet;
步骤6:将待估计的图像分别输入至训练好的深度网络DepthNet、相机位姿网络PoseNet和光流网络FlowNet中,得到对应的图像深度、相机位姿和运动光流的无监督估计结果。
2.根据权利要求1所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:步骤2中的深度网络DepthNet为全卷积网络,包括编码器和解码器,该编码器与解码器之间跨层连接;
所述深度图像
Figure FDA00025495863900000118
为与输入的目标图像It等分辨率的灰度图像。
3.根据权利要求1所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:步骤2中的基于深度图像
Figure FDA00025495863900000119
和相机位姿变换
Figure FDA00025495863900000120
解算得到相机刚体运动造成的刚体运动光流
Figure FDA00025495863900000121
包括:
根据式(1)计算得到某一像素在源图像Is上的投影坐标
Figure FDA00025495863900000122
Figure FDA00025495863900000123
式中,pt为目标图像It上某一像素的其次坐标;
根据式(2)计算得到某一像素处的光流:
Figure FDA00025495863900000124
步骤2中的重构图像
Figure FDA00025495863900000125
包括:
在源图像Is上采样投影坐标
Figure FDA0002549586390000021
周围多个像素
通过双线性插值得到
Figure FDA0002549586390000022
重构得到
Figure FDA0002549586390000023
4.根据权利要求1或3所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:步骤2中的深度平滑损失Lds根据式(3)计算得到:
Figure FDA0002549586390000024
其中,
Figure FDA0002549586390000025
分别表示纵向和横向的梯度,pt为目标图像It上某一像素的其次坐标。
5.根据权利要求1所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:步骤3中的光流网络FlowNet为对抗网络包括生成器和判别器,所述生成器接受目标图像It和源图像Is按通道连接后的张量作为输入,输出全光流
Figure FDA0002549586390000026
所述判别器接受目标图像It和重构图像
Figure FDA0002549586390000027
作为输入,将目标图像It视为真实图像,重构图像
Figure FDA0002549586390000028
视为生成图像,输出一表示生成图像为真实图像的概率值。
6.根据权利要求5所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:所述生成器的结构与深度网络DepthNet的结构一致。
7.根据权利要求1所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:在步骤3中,根据式(4)计算得到重构损失
Figure FDA0002549586390000029
Figure FDA00025495863900000210
式中,SSIM表示结构相似指数,w为参数,
Figure FDA00025495863900000211
为全光流
Figure FDA00025495863900000212
对应的有效掩膜。
8.根据权利要求5所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:在步骤3中,根据式(5)计算得到对抗损失Ladv
Figure FDA00025495863900000213
其中,G、D分别表示生成器和判别器,I、X分别为真实图像和真实图像的数据分布,
Figure FDA00025495863900000214
分别为生成图像和生成图像的数据分布。
9.根据权利要求1所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:步骤4中,根据式(6)得到目标掩膜
Figure FDA00025495863900000215
Figure FDA00025495863900000216
式中,1(.)为指示函数,α为阈值;
根据式(7)得到光流一致性损失Lfc
Figure FDA00025495863900000217
根据式(8)得到刚性重构损失
Figure FDA00025495863900000218
Figure FDA0002549586390000031
10.根据权利要求1所述的一种基于深度学习的无监督单目深度估计算法,其特征在于:步骤5中的损失函数Ltotal表示为:
Figure FDA0002549586390000032
其中,λadv、Lds、λr、λf、λfc分别为对应各项损失的权重。
CN202010571133.XA 2020-06-22 2020-06-22 一种基于深度学习的无监督单目深度估计算法 Pending CN111783582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010571133.XA CN111783582A (zh) 2020-06-22 2020-06-22 一种基于深度学习的无监督单目深度估计算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010571133.XA CN111783582A (zh) 2020-06-22 2020-06-22 一种基于深度学习的无监督单目深度估计算法

Publications (1)

Publication Number Publication Date
CN111783582A true CN111783582A (zh) 2020-10-16

Family

ID=72756281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010571133.XA Pending CN111783582A (zh) 2020-06-22 2020-06-22 一种基于深度学习的无监督单目深度估计算法

Country Status (1)

Country Link
CN (1) CN111783582A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112344922A (zh) * 2020-10-26 2021-02-09 中国科学院自动化研究所 单目视觉里程计定位方法及系统
CN112396657A (zh) * 2020-11-25 2021-02-23 河北工程大学 一种基于神经网络的深度位姿估计方法、装置及终端设备
CN113139990A (zh) * 2021-05-08 2021-07-20 电子科技大学 一种基于内容感知的深度网格流鲁棒图像对齐方法
CN113160294A (zh) * 2021-03-31 2021-07-23 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113313732A (zh) * 2021-06-25 2021-08-27 南京航空航天大学 一种基于自监督学习的前视场景深度估计方法
CN113379821A (zh) * 2021-06-23 2021-09-10 武汉大学 一种基于深度学习的稳定单目视频深度估计方法
CN113610879A (zh) * 2021-07-27 2021-11-05 Oppo广东移动通信有限公司 深度预测模型的训练方法及装置、介质和电子设备
CN113724155A (zh) * 2021-08-05 2021-11-30 中山大学 用于自监督单目深度估计的自提升学习方法、装置及设备
CN114066987A (zh) * 2022-01-12 2022-02-18 深圳佑驾创新科技有限公司 一种相机位姿估计方法、装置、设备及存储介质
CN114820719A (zh) * 2022-03-09 2022-07-29 广州宸祺出行科技有限公司 一种无监督的运动物体的单目深度估计方法及系统
CN114998411A (zh) * 2022-04-29 2022-09-02 中国科学院上海微系统与信息技术研究所 结合时空增强光度损失的自监督单目深度估计方法和装置
CN115063463A (zh) * 2022-06-20 2022-09-16 东南大学 一种基于无监督学习的鱼眼相机场景深度估计方法
CN115082537A (zh) * 2022-06-28 2022-09-20 大连海洋大学 单目自监督水下图像深度估计方法、装置及存储介质
CN116164770A (zh) * 2023-04-23 2023-05-26 禾多科技(北京)有限公司 路径规划方法、装置、电子设备和计算机可读介质
WO2023178951A1 (zh) * 2022-03-25 2023-09-28 上海商汤智能科技有限公司 图像分析方法、模型的训练方法、装置、设备、介质及程序
CN118155175A (zh) * 2024-04-22 2024-06-07 神鳍科技(上海)有限公司 一种动态场景重建的方法及系统
CN120236215A (zh) * 2025-05-29 2025-07-01 湖北经济学院 一种基于图像处理的无人机避障方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522828A (zh) * 2018-11-01 2019-03-26 上海科技大学 一种异常事件检测方法及系统、存储介质及终端
CN109977847A (zh) * 2019-03-22 2019-07-05 北京市商汤科技开发有限公司 图像生成方法及装置、电子设备和存储介质
CN110705376A (zh) * 2019-09-11 2020-01-17 南京邮电大学 一种基于生成式对抗网络的异常行为检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522828A (zh) * 2018-11-01 2019-03-26 上海科技大学 一种异常事件检测方法及系统、存储介质及终端
CN109977847A (zh) * 2019-03-22 2019-07-05 北京市商汤科技开发有限公司 图像生成方法及装置、电子设备和存储介质
CN110705376A (zh) * 2019-09-11 2020-01-17 南京邮电大学 一种基于生成式对抗网络的异常行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GAO HAOSHENG,TENG WANG: "Unsupervised Learning of Monocular Depth from Videos", 《2019 CHINESE AUTOMATION CONGRESS (CAC)》 *
WEI-SHENG LAI等: "Semi-Supervised Learning for Optical Flow with Generative Adversarial Networks", 《《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017)》》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112344922A (zh) * 2020-10-26 2021-02-09 中国科学院自动化研究所 单目视觉里程计定位方法及系统
CN112396657A (zh) * 2020-11-25 2021-02-23 河北工程大学 一种基于神经网络的深度位姿估计方法、装置及终端设备
CN113160294A (zh) * 2021-03-31 2021-07-23 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113139990A (zh) * 2021-05-08 2021-07-20 电子科技大学 一种基于内容感知的深度网格流鲁棒图像对齐方法
CN113379821A (zh) * 2021-06-23 2021-09-10 武汉大学 一种基于深度学习的稳定单目视频深度估计方法
CN113313732A (zh) * 2021-06-25 2021-08-27 南京航空航天大学 一种基于自监督学习的前视场景深度估计方法
CN113610879A (zh) * 2021-07-27 2021-11-05 Oppo广东移动通信有限公司 深度预测模型的训练方法及装置、介质和电子设备
CN113724155B (zh) * 2021-08-05 2023-09-05 中山大学 用于自监督单目深度估计的自提升学习方法、装置及设备
CN113724155A (zh) * 2021-08-05 2021-11-30 中山大学 用于自监督单目深度估计的自提升学习方法、装置及设备
CN114066987A (zh) * 2022-01-12 2022-02-18 深圳佑驾创新科技有限公司 一种相机位姿估计方法、装置、设备及存储介质
CN114820719A (zh) * 2022-03-09 2022-07-29 广州宸祺出行科技有限公司 一种无监督的运动物体的单目深度估计方法及系统
WO2023178951A1 (zh) * 2022-03-25 2023-09-28 上海商汤智能科技有限公司 图像分析方法、模型的训练方法、装置、设备、介质及程序
CN114998411A (zh) * 2022-04-29 2022-09-02 中国科学院上海微系统与信息技术研究所 结合时空增强光度损失的自监督单目深度估计方法和装置
CN114998411B (zh) * 2022-04-29 2024-01-09 中国科学院上海微系统与信息技术研究所 结合时空增强光度损失的自监督单目深度估计方法和装置
CN115063463A (zh) * 2022-06-20 2022-09-16 东南大学 一种基于无监督学习的鱼眼相机场景深度估计方法
CN115063463B (zh) * 2022-06-20 2024-11-12 东南大学 一种基于无监督学习的鱼眼相机场景深度估计方法
CN115082537A (zh) * 2022-06-28 2022-09-20 大连海洋大学 单目自监督水下图像深度估计方法、装置及存储介质
CN116164770A (zh) * 2023-04-23 2023-05-26 禾多科技(北京)有限公司 路径规划方法、装置、电子设备和计算机可读介质
CN118155175A (zh) * 2024-04-22 2024-06-07 神鳍科技(上海)有限公司 一种动态场景重建的方法及系统
CN120236215A (zh) * 2025-05-29 2025-07-01 湖北经济学院 一种基于图像处理的无人机避障方法及设备

Similar Documents

Publication Publication Date Title
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
CN110490928B (zh) 一种基于深度神经网络的相机姿态估计方法
WO2022111236A1 (zh) 一种结合注意力机制的面部表情识别方法及系统
CN111105432B (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN108416266A (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN110047101A (zh) 物体姿态估计方法、获得稠密深度图像的方法、相应装置
CN111046734A (zh) 基于膨胀卷积的多模态融合视线估计方法
CN113158905A (zh) 一种基于注意力机制的行人重识别方法
CN113256789B (zh) 一种三维实时人体姿态重建方法
Ubina et al. Intelligent underwater stereo camera design for fish metric estimation using reliable object matching
CN110633628A (zh) 基于人工神经网络的rgb图像场景三维模型重建方法
CN111354030A (zh) 嵌入SENet单元的无监督单目图像深度图生成方法
CN112686952A (zh) 一种图像光流计算系统、方法及应用
CN115880720A (zh) 一种基于置信度分享的无标注场景自适应人体姿态和外形估计方法
CN111639571A (zh) 基于轮廓卷积神经网络的视频动作识别方法
Wang et al. Depth estimation of video sequences with perceptual losses
CN118522071A (zh) 一种基于双向时空特征的三维人体姿态估计方法、程序产品及电子设备
CN112819849B (zh) 一种基于三目的无标记点视觉运动捕捉方法
CN113763536A (zh) 一种基于rgb图像的三维重建方法
Wang et al. Physical priors augmented event-based 3d reconstruction
CN118071932A (zh) 一种三维静态场景图像重建方法及系统
Wang et al. Recurrent neural network for learning densedepth and ego-motion from video
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016

RJ01 Rejection of invention patent application after publication