CN114998406B - 一种自监督多视图深度估计方法、装置 - Google Patents

一种自监督多视图深度估计方法、装置 Download PDF

Info

Publication number
CN114998406B
CN114998406B CN202210827089.3A CN202210827089A CN114998406B CN 114998406 B CN114998406 B CN 114998406B CN 202210827089 A CN202210827089 A CN 202210827089A CN 114998406 B CN114998406 B CN 114998406B
Authority
CN
China
Prior art keywords
depth
sparse
depth map
point cloud
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210827089.3A
Other languages
English (en)
Other versions
CN114998406A (zh
Inventor
陶文兵
苏婉娟
刘李漫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Tuke Intelligent Information Technology Co ltd
Original Assignee
Wuhan Tuke Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Tuke Intelligent Technology Co ltd filed Critical Wuhan Tuke Intelligent Technology Co ltd
Priority to CN202210827089.3A priority Critical patent/CN114998406B/zh
Publication of CN114998406A publication Critical patent/CN114998406A/zh
Application granted granted Critical
Publication of CN114998406B publication Critical patent/CN114998406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种自监督多视图深度估计方法、装置,其方法包括:获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签;获取输入图像的多张参考图像,通过基于几何的多视图深度估计方法得到每张参考图像的初始深度图;对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签;基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络;利用训练完成的深度估计网络对目标图像进行深度估计。本发明利用运动恢复结构算法和传统基于几何的多视图深度估计算法制作高质量的伪标签,降低数据集的成本和提高模型的泛化能力,并能够有效避免基于光度一致性构造的图像重建损失带来的歧义性问题。

Description

一种自监督多视图深度估计方法、装置
技术领域
本发明属于视觉识别与深度学习技术领域,具体涉及一种自监督多视图深度估计方法、装置。
背景技术
多视图深度估计旨在从多个相机姿态已知的图像中建立密集对应关系,从而恢复参考视角下的稠密几何结构。近年来,深度学习技术极大地推动了多视图深度估计的发展,然而基于学习的多视图深度估计方法十分依赖于有标注的数据集作为训练数据。与其它视觉任务相比,建立有标注的多视图深度估计数据集通常需要较高的成本,标注数据的获取通常需要昂贵的多个同步图像和深度传感器获取。此外,有限的训练数据限制了网络模型的泛化能力,在特定数据集上训练的网络模型很难适用于训练数据之外的场景重建。
发明内容
为解决降低多视图深度估计数据集的成本和提高模型的泛化能力的问题,在本发明的第一方面提供了一种自监督多视图深度估计方法,包括:获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签;获取输入图像的多张参考图像,通过基于几何的多视图深度估计方法得到每张参考图像的初始深度图;对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签;基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络;利用训练完成的深度估计网络对目标图像进行深度估计。
在本发明的一些实施例中,所述获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签包括:获取输入图像的相机参数以及对应视角的稀疏点云;将每个视角的可见稀疏3D点云通过相机位姿坐标系变换到相机坐标系下,得到多个相机坐标系下的稀疏3D点云;将每个相机坐标系下的稀疏3D点云中的投影到预设2D图像平面上。
进一步的,所述预设2D图像平面通过如下方法确定:
Figure 798792DEST_PATH_IMAGE001
,
其中,(x,y,z)表示稀疏3D点云的任意一点在相机位姿坐标系对应方向上的坐标,(u,v)表示在相机坐标系上的坐标,(Cx,Cy)为主点坐标;f x f y 分别为xy方向上的焦距,z即为点(u,v)的深度值。
在本发明的一些实施例中,所述对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签包括:计算参考图像中的任一像素点p的深度估计值d p ,与其反向投影点p’的深度估计值dp’之间的误差;根据深度估计值dp’d p ,判断像素点p的深度估计值d p 是否满足多视图的几何一致性。
进一步的,所述几何一致性通过包括如下方法判断:
Figure 498762DEST_PATH_IMAGE002
,其中C(p)表示像素点p的几何 一致性的逻辑真值。
在上述的实施例中,所述基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络包括:若采用稀疏先验伪标签作为监督信息,通过深度平滑损失与L1损失结合,来对深度估计网络进行监督;若采用半稠密深度图伪标签作为监督信息,则直接采用L1损失来对深度估计网络进行监督。
本发明的第二方面,提供了一种自监督多视图深度估计装置,包括:转化模块,用于获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签;剔除模块,用于获取输入图像的多张参考图像,通过基于几何的多视图深度估计方法得到每张参考图像的初始深度图;对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签;估计模块,用于基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络;利用训练完成的深度估计网络对目标图像进行深度估计。
本发明的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明在第一方面提供的自监督多视图深度估计方法。
本发明的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明在第一方面提供的自监督多视图深度估计方法。
本发明的有益效果是:
一方面,本发明利用运动恢复结构算法和传统基于几何的多视图深度估计算法制作高质量的伪标签,降低数据集的成本和提高模型的泛化能力;另一方面,基于自监督学习的多视图深度估计算法通常利用图像重建损失作为监督信号来训练网络模型,而图像重建损失本质上是借助于多视图的光度一致性的监督信号来引导网络训练,其易受到光照、遮挡等问题的影响。通过高质量的伪标签,能够有效避免基于光度一致性构造的图像重建损失带来的歧义性问题。
附图说明
图1为本发明的一些实施例中的自监督多视图深度估计方法的基本流程示意图;
图2为本发明的一些实施例中的自监督多视图深度估计方法的具体原理示意图;
图3为本发明的一些实施例中的稀疏先验伪标签的制作过程示意图;
图4为本发明的一些实施例中的参考图像中的任一像素点
Figure 930880DEST_PATH_IMAGE003
的重投影误差几何关 系示意图;
图5为本发明的一些实施例中的自监督多视图深度估计装置的结构示意图;
图6为本发明的一些实施例中的电子设备的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
参考图1或图2,在本发明的第一方面,提供了一种自监督多视图深度估计方法,包括:S100.获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签;S200.获取输入图像的多张参考图像,通过基于几何的多视图深度估计方法得到每张参考图像的初始深度图;对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签;S300.基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络;利用训练完成的深度估计网络对目标图像进行深度估计。
参考图3,在本发明的一些实施例的步骤S100中,所述获取输入图像的稀疏点云, 并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签包括:S101.获取 输入图像的相机参数以及对应视角的稀疏点云;具体地,通过运动恢复结构算法得到输入 图像的相机参数以及对应的稀疏点云P world 。将在第i幅视图下可见的稀疏3D点记为,
Figure 431263DEST_PATH_IMAGE004
其中,
Figure 320328DEST_PATH_IMAGE005
,
Figure 991481DEST_PATH_IMAGE006
为场景的视图数。将第
Figure 712443DEST_PATH_IMAGE007
幅视图的相机参数记为 {K i ,R i ,t i },其中K i 为相机内参,R i 为旋转矩阵,t i 为平移向量(从世界坐标系变换到相机坐 标系下)。
S102.将每个视角的可见稀疏3D点云通过相机位姿坐标系变换到相机坐标系下, 得到多个相机坐标系下的稀疏3D点云;将在第
Figure 457545DEST_PATH_IMAGE007
幅图像中可见的稀疏3D点
Figure 487818DEST_PATH_IMAGE004
通过相 机位姿关系变换到相机坐标系下:
Figure 131420DEST_PATH_IMAGE008
(1);
S103.将每个相机坐标系下的稀疏3D点云中的投影到预设2D图像平面上。
参考图4,进一步的,在步骤S103中,所述预设2D图像平面通过如下方法确定:
Figure 905341DEST_PATH_IMAGE001
,
其中,(x,y,z)表示稀疏3D点云的任意一点在相机位姿坐标系对应方向上的坐标,(u,v)表示在相机坐标系上的坐标,(Cx,Cy)为主点坐标;f x f y 分别为xy方向上的焦距,z即为点(u,v)的深度值。
具体地,将相机坐标系下的稀疏3D点投影至2D图像平面上。对于稀疏3D点中的一点(x,y,z),其在图像平面上投影点(u,v)可以根据相机投影公式得到:
Figure 383246DEST_PATH_IMAGE001
(2),
3D点的
Figure 318841DEST_PATH_IMAGE009
坐标即为点(u,v)的深度值。对于那些没有先验深度值的像素点,将其深 度值标记为零。
在本发明的一些实施例的步骤S200中,所述对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签包括:S201.计算参考图像中的任一像素点p的深度估计值d p ,与其反向投影点p’的深度估计值dp’之间的误差;
具体地,利用基于几何的多视图深度估计方法得到各参考图像对应的初始深度图
Figure 715318DEST_PATH_IMAGE010
。计算各深度图的重投影误差,即如图3所示,对于参考图 像中的一点p,其深度估计值为d p X p 为基于其估计的深度值反向投影到3D空间中的点。将X p 投影至邻域视图,得到投影的像素点坐标
Figure 27351DEST_PATH_IMAGE011
。在邻域视图像素点
Figure 825674DEST_PATH_IMAGE012
的深度估计值为d q ,将其 反向投影至三维空间得到点X p ,将点
Figure 869853DEST_PATH_IMAGE013
投影回参考图像得到像素点p’。像素点pp’之间的 欧氏距离‖p-p’2即为像素的重投影误差,其深度估计值d p dp’的相对误差
Figure 2894DEST_PATH_IMAGE014
成为 投影的相对深度误差。
S202.根据深度估计值dp’d p ,判断像素点p的深度估计值d p 是否满足多视图的 几何一致性。具体地,定义一个准则c(.)用于判定一个像素点
Figure 603771DEST_PATH_IMAGE015
的深度估计是否满足两视 图的几何一致性。准则c(.)综合考虑了深度图的重投影误差和相对深度误差,如果像素点 的深度估计满足式(3),那么将像素点
Figure 302606DEST_PATH_IMAGE015
的深度估计视为两视图一致的。对于参考图像中的 像素点
Figure 593385DEST_PATH_IMAGE015
而言,存在
Figure 292351DEST_PATH_IMAGE016
幅源图像用于多视图几何一致性的判定,那么可以得到
Figure 696918DEST_PATH_IMAGE016
个重 投影至参考图像的像素点。如果重投影的深度值至少
Figure 250260DEST_PATH_IMAGE017
幅视图连续,即
Figure 449291DEST_PATH_IMAGE018
n min 为深度一致性的最小视图数,则将该深度估计保留。保留下来 的高置信度深度图记为
Figure 556924DEST_PATH_IMAGE019
,即为用于网络模型训练的半稠密深度图 伪标签。
进一步的,所述几何一致性通过包括如下方法判断:
Figure 756394DEST_PATH_IMAGE002
,其中C(p)表示像素点p的几何 一致性的逻辑真值。
基于上述实施例的基础上,步骤S300中,所述基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络包括:若采用稀疏先验伪标签作为监督信息,通过深度平滑损失与L1损失结合,来对深度估计网络进行监督;若采用半稠密深度图伪标签作为监督信息,则直接采用L1损失来对深度估计网络进行监督。具体地,将得到的稀疏先验伪标签或半稠密深度图伪标签用于监督基于深度学习的多视图深度估计算法训练。若采用稀疏先验伪标签作为监督信息,由于稀疏点数量过少,引入深度平滑损失与L1损失结合来对网络进行监督,若采用半稠密深度图伪标签作为监督信息,则直接采用L1损失来对网络进行监督。L1损失和深度平滑损失分别由式(4)和式(5)给出:
Figure 39607DEST_PATH_IMAGE020
(4),
Figure 189966DEST_PATH_IMAGE021
(5);
采用稀疏先验伪标签作为监督信息时,损失为:
Figure 4469DEST_PATH_IMAGE022
,
采用半稠密深度图伪标签作为监督信息时,损失为:
Figure 265687DEST_PATH_IMAGE023
在式(4)和式(5)中,D(p)为预测的深度图,D pseudo (p)为构造的伪标签,
Figure 278773DEST_PATH_IMAGE024
为 有效像素区域,
Figure 600033DEST_PATH_IMAGE025
是深度图
Figure 901832DEST_PATH_IMAGE026
和图像
Figure 701161DEST_PATH_IMAGE027
中的像素点,∇D(p)为预测深度图的梯度;为2D微 分算子,|∙|为求取逐像素的绝对值。可以理解,本发明提供的多视图深度估计方法对基于 自监督的深度估计方法结果有显著增益,增益主要来自于:自监督多视图深度估计算法常 采用图像重建损失来作为监督信号,其受场景光照变化大、存在背景区域的无效监督等问 题,而本发明利用运动恢复结构算法和传统基于几何的多视图深度估计算法制作伪标签, 能够有效避免基于光度一致性构造的图像重建损失带来的歧义性问题,基于该类伪标签训 练得到的模型能够在自监督学习方法中取得最优的性能,并达到与有监督的方法相当的性 能。
实施例2
参考图5,本发明的第二方面,提供了种自监督多视图深度估计装置1,包括:转化模块11,用于获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签;剔除模块12,用于获取输入图像的多张参考图像,通过基于几何的多视图深度估计方法得到每张参考图像的初始深度图;对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签;估计模块13,用于基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络;利用训练完成的深度估计网络对目标图像进行深度估计。
进一步的,所述转化模块11包括:获取单元,用于获取输入图像的相机参数以及对应视角的稀疏点云;变换单元,用于将每个视角的可见稀疏3D点云通过相机位姿坐标系变换到相机坐标系下,得到多个相机坐标系下的稀疏3D点云;投影单元,用于将每个相机坐标系下的稀疏3D点云中的投影到预设2D图像平面上。
实施例3
参考图6,本发明的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明在第一方面的方法。
电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。需要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种自监督多视图深度估计方法,其特征在于,包括:
获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签;
获取输入图像的多张参考图像,通过基于几何的多视图深度估计方法得到每张参考图像的初始深度图;对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签,其具体步骤包括:将输入图像通过运动恢复结构方法得到其对应的稀疏点云与相机位姿;基于所述稀疏点云与相机位姿,通过PatchMatch方法进行深度图估计,得到初始深度图;对初始深度图进行过滤,得到半稠密深度图;
基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络:若采用稀疏先验伪标签作为监督信息,通过深度平滑损失与L1损失结合,来对深度估计网络进行监督;若采用半稠密深度图伪标签作为监督信息,则直接采用L1损失来对深度估计网络进行监督;所述L1损失和深度平滑损失Lsmooth通过如下方法计算:
Figure 139111DEST_PATH_IMAGE001
Figure 94428DEST_PATH_IMAGE002
其中,D(p)为预测的深度图,D pseudo (p)为构造的伪标签,Ω valid 为有效像素区域,
Figure 448049DEST_PATH_IMAGE003
是深 度图
Figure 980662DEST_PATH_IMAGE004
和图像
Figure 819043DEST_PATH_IMAGE005
中的像素点,∇D(p)为预测深度图的梯度;为2D微分算子,|∙|为求取 逐像素的绝对值;
利用训练完成的深度估计网络对目标图像进行深度估计。
2.根据权利要求1所述的自监督多视图深度估计方法,其特征在于,所述获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签包括:
获取输入图像的相机参数以及对应视角的稀疏点云;
将每个视角的可见稀疏3D点云通过相机位姿坐标系变换到相机坐标系下,得到多个相机坐标系下的稀疏3D点云;
将每个相机坐标系下的稀疏3D点云投影到预设2D图像平面上。
3.根据权利要求2所述的自监督多视图深度估计方法,其特征在于,所述预设2D图像平面通过如下方法确定:
Figure 753501DEST_PATH_IMAGE006
,
其中,(x,y,z)表示稀疏3D点云的任意一点在相机位姿坐标系对应方向上的坐标,(u,v)表示在相机坐标系上的坐标,(Cx,Cy)为主点坐标;f x f y 分别为xy方向上的焦距,z即为点(u,v)的深度值。
4.根据权利要求1所述的自监督多视图深度估计方法,其特征在于,所述对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签包括:
计算参考图像中的任一像素点p的深度估计值d p ,与其反向投影点p’的深度估计值dp’之间的误差;
根据深度估计值dp’d p ,判断像素点p的深度估计值d p 是否满足多视图的几何一致性。
5.根据权利要求4所述的自监督多视图深度估计方法,其特征在于,所述几何一致性通过包括如下方法判断:
Figure DEST_PATH_IMAGE007
,其中C(p)表示像素点p的几何 一致性的逻辑真值。
6.一种自监督多视图深度估计装置,其特征在于,包括:
转化模块,用于获取输入图像的稀疏点云,并将其转化为输入图像的多个视角的稀疏深度图,即多个稀疏先验伪标签;
剔除模块,用于获取输入图像的多张参考图像,通过基于几何的多视图深度估计方法得到每张参考图像的初始深度图;对每张所述初始深度图进行外点剔除,得到多个半稠密深度图伪标签,其具体步骤包括:将输入图像通过运动恢复结构方法得到其对应的稀疏点云与相机位姿;基于所述稀疏点云与相机位姿,通过PatchMatch方法进行深度图估计,得到初始深度图;对初始深度图进行过滤,得到半稠密深度图;
估计模块,用于基于多个稀疏先验伪标签或多个半稠密深度图伪标签,训练深度估计网络:若采用稀疏先验伪标签作为监督信息,通过深度平滑损失与L1损失结合,来对深度估计网络进行监督;若采用半稠密深度图伪标签作为监督信息,则直接采用L1损失来对深度估计网络进行监督;所述L1损失和深度平滑损失Lsmooth通过如下方法计算:
Figure 278023DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
其中,D(p)为预测的深度图,D pseudo (p)为构造的伪标签,Ω valid 为有效像素区域,
Figure 704456DEST_PATH_IMAGE010
是 深度图
Figure DEST_PATH_IMAGE011
和图像
Figure 847993DEST_PATH_IMAGE012
中的像素点,∇D(p)为预测深度图的梯度;为2D微分算子,|∙|为求取 逐像素的绝对值;利用训练完成的深度估计网络对目标图像进行深度估计。
7.根据权利要求6所述的自监督多视图深度估计装置,其特征在于,所述转化模块包括:
获取单元,用于获取输入图像的相机参数以及对应视角的稀疏点云;
变换单元,用于将每个视角的可见稀疏3D点云通过相机位姿坐标系变换到相机坐标系下,得到多个相机坐标系下的稀疏3D点云;
投影单元,用于将每个相机坐标系下的稀疏3D点云中的投影到预设2D图像平面上。
8.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5任一项所述的自监督多视图深度估计方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的自监督多视图深度估计方法。
CN202210827089.3A 2022-07-14 2022-07-14 一种自监督多视图深度估计方法、装置 Active CN114998406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210827089.3A CN114998406B (zh) 2022-07-14 2022-07-14 一种自监督多视图深度估计方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210827089.3A CN114998406B (zh) 2022-07-14 2022-07-14 一种自监督多视图深度估计方法、装置

Publications (2)

Publication Number Publication Date
CN114998406A CN114998406A (zh) 2022-09-02
CN114998406B true CN114998406B (zh) 2022-11-11

Family

ID=83021723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210827089.3A Active CN114998406B (zh) 2022-07-14 2022-07-14 一种自监督多视图深度估计方法、装置

Country Status (1)

Country Link
CN (1) CN114998406B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468768B (zh) * 2023-04-20 2023-10-17 南京航空航天大学 基于条件变分自编码器和几何引导的场景深度补全方法
CN117115225B (zh) * 2023-09-01 2024-04-30 安徽羽亿信息科技有限公司 一种自然资源智慧综合信息化管理平台
CN117745924B (zh) * 2024-02-19 2024-05-14 北京渲光科技有限公司 基于深度无偏估计的神经渲染方法、系统及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673400A (zh) * 2021-08-12 2021-11-19 土豆数据科技集团有限公司 基于深度学习的实景三维语义重建方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TR201104918A2 (tr) * 2011-05-20 2012-12-21 Vestel Elektroni̇k Sanayi̇ Ve Ti̇caret A.Ş. Derinlik haritası ve 3d video oluşturmak için yöntem ve aygıt.
KR101988551B1 (ko) * 2018-01-15 2019-06-12 충북대학교 산학협력단 스테레오 비전의 깊이 추정을 이용한 효율적 객체 검출 및 매칭 시스템 및 방법
CN109598754B (zh) * 2018-09-29 2020-03-17 天津大学 一种基于深度卷积网络的双目深度估计方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673400A (zh) * 2021-08-12 2021-11-19 土豆数据科技集团有限公司 基于深度学习的实景三维语义重建方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Self-supervised Learning of Depth Inference for Multi-view Stereo;Jiayu Yang等;《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20211102;7524-7526 *
一种多视角高精度图片的深度估计方法;李剑等;《北京邮电大学学报》;20211031;第44卷(第5期);102 *
李剑等.一种多视角高精度图片的深度估计方法.《北京邮电大学学报》.2021,第44卷(第5期),102. *
面向数字化工厂的加工设备单目视觉三维重建方法研究;诸葛洵;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20220115(第01期);17-24,35,43-48 *

Also Published As

Publication number Publication date
CN114998406A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114998406B (zh) 一种自监督多视图深度估计方法、装置
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
US11145075B2 (en) Depth from motion for augmented reality for handheld user devices
CN111325796B (zh) 用于确定视觉设备的位姿的方法和装置
JP7173772B2 (ja) 深度値推定を用いた映像処理方法及び装置
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
WO2018205803A1 (zh) 位姿估计方法和装置
US9437034B1 (en) Multiview texturing for three-dimensional models
EP2289000B1 (en) System, method, and computer program product for a tessellation engine using a geometry shader
US11508098B2 (en) Cross-device supervisory computer vision system
JP2023520841A (ja) 画像処理方法、装置、コンピュータプログラム、および電子デバイス
US11748913B2 (en) Modeling objects from monocular camera outputs
GB2567245A (en) Methods and apparatuses for depth rectification processing
CN114519772A (zh) 一种基于稀疏点云和代价聚合的三维重建方法及系统
US20110242271A1 (en) Synthesizing Panoramic Three-Dimensional Images
KR102315696B1 (ko) 관절 모델 정합 장치 및 방법
CN113766117B (zh) 一种视频去抖动方法和装置
CN113989434A (zh) 一种人体三维重建方法及设备
CN111598927B (zh) 一种定位重建方法和装置
CN109816791B (zh) 用于生成信息的方法和装置
CN116343155A (zh) 一种bev视角下的可行驶区域的确定方法和装置
Hu et al. 3D map reconstruction using a monocular camera for smart cities
Xu et al. Spatio-temporal video completion in spherical image sequences
CN114494574A (zh) 一种多损失函数约束的深度学习单目三维重建方法及系统
CN110349109B (zh) 基于鱼眼畸变校正方法及其系统、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 548, 5th Floor, Building 10, No. 28 Linping Avenue, Donghu Street, Linping District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Tuke Intelligent Information Technology Co.,Ltd.

Country or region after: China

Address before: 430000 B033, No. 05, 4th floor, building 2, international enterprise center, No. 1, Guanggu Avenue, Donghu New Technology Development Zone, Wuhan, Hubei (Wuhan area of free trade zone)

Patentee before: Wuhan Tuke Intelligent Technology Co.,Ltd.

Country or region before: China