CN110310317A - 一种基于深度学习的单目视觉场景深度估计的方法 - Google Patents

一种基于深度学习的单目视觉场景深度估计的方法 Download PDF

Info

Publication number
CN110310317A
CN110310317A CN201910573787.3A CN201910573787A CN110310317A CN 110310317 A CN110310317 A CN 110310317A CN 201910573787 A CN201910573787 A CN 201910573787A CN 110310317 A CN110310317 A CN 110310317A
Authority
CN
China
Prior art keywords
depth
disparity map
network model
image
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910573787.3A
Other languages
English (en)
Inventor
李晖晖
刘浪涛
袁翔
郭雷
刘航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Northwest University of Technology
Original Assignee
Northwest University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University of Technology filed Critical Northwest University of Technology
Priority to CN201910573787.3A priority Critical patent/CN110310317A/zh
Publication of CN110310317A publication Critical patent/CN110310317A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于深度学习的单目视觉场景深度估计的方法,采用VGG‑13网络模型,利用深度可分离卷积层代替标准卷积层以减少模型参数量,得到可用于获取视差图像的网络模型;将单目图像输入训练好的网络模型,生成多个尺度的视差图,再结合多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图;根据多视图几何学中视差图与深度图的几何变换关系,生成对应的深度图像。有益效果:使用简单易得的双目可见光图像训练网络模型而不用使用获取代价很高的真实深度数据;采用深度可分离卷积代替标准卷积,可以减少网络模型的参数量为之前的七分之一,提升模型的推理速度。

Description

一种基于深度学习的单目视觉场景深度估计的方法
技术领域
本发明属于计算机视觉三维重构领域,涉及一种基于深度学习的单目视觉场景深度估计的方法。
背景技术
三维结构信息是人类观察认识环境、理解分析场景的不可或缺的信息。正确判断与识别场景的三维结构能让计算机更合理、准确地执行目标定位、路径规划等任务,因此,如何从二维图像或者视频序列中重建出场景的三维结构是计算机视觉领域研究的一大重点和难点。三维场景重建主要依赖于获取图像对应的深度图。目前,深度信息的获取主要有两种方式。一种是利用感知三维结构信息的传感器直接获取场景深度信息。但是传统的获取深度信息的设备,如激光雷达,大多价格比较昂贵,制约了它的推广。另一种广泛采用的深度信息获取的方式是利用同一场景的单幅或者多幅二维可见光图像序列进行深度的估计。
通常按照提供的场景视点数量的不同,可以将深度估计的算法分为三种:基于多视点图像序列的深度估计算法、基于双目图像的深度估计算法以及基于单视点视频序列和图像的深度估计算法。基于多视点的深度估计通常对同一场景采用摄像机阵列进行图像采集,并利用多视点图像之间的冗余信息进行深度信息的汁算。这类技术通常能够获得较为准确的深度信息,但是由于需要配置摄像机阵列,在大多数实际应用中很少被采用。基于双目图像的深度估计是一种模仿人类利用双目视差感知深度信息的方法,主要通过立体匹配技术计算深度信息,但计算量大,且当摄像机基线距离较大时场景深度预测精度发生严重下滑。基于单视点的深度估计只利用一个视点的视频序列和图像进行深度估计。与前两者相比,单视点的情形最贴近实际的应用需求(绝大多数应用场景只有一个视点的数据)。早期处理该问题的方法一般都是基于光学几何约束或环境假设的方法。除此以外,还可以使用其他环境假设来估计深度,例如焦点或光线的变化。若不基于这种环境假设,由于光强或颜色映射到深度值存在固有的含糊性,从通用场景的单目图像中恢复其深度信息的问题便显得更无从下手。另一方面,由于通过深度学习的方法可以学到图像中丰富的特征表达,近年越来越多的学者将深度卷积神经网络(convolutional neural network,CNN)应用于单目图像深度估计的问题中,使得该课题的研究得以迅猛发展。
但是采用基于深度学习的单目图像场景深度估计方法存在着以下的缺点:第一,一般的基于深度学习的单目图像深度估计方法将深度恢复视作图像像素的分类任务,需要用场景的真实深度数据来训练网络,而这种数据通常需要由激光雷达获取,不仅获取方法昂贵而且数据稀疏,实用性较差;第二,之前的方法由于网络结构单一,模型较为简单,最终导致结果精度较低,而且模型的可迁移性差;第三,之前的方法为了提升模型的精度,通常会采用更深层次的网络结构来提取图像的特征信息,导致参数量巨大,在进行实际应用时推理速度慢,实时性差。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于深度学习的单目视觉场景深度估计的方法。
技术方案
一种基于深度学习的单目视觉场景深度估计的方法,其特征在于步骤如下:
步骤1、网络模型的构建及训练,获得一个能够生成单目场景视差图的网络模型:采用标准的VGG-13网络模型,以深度可分离卷积作为网络模型每一层中的标准卷积,采用图像重构损失、视差平滑性损失以及左右视差一致性损失构建网络的损失函数,将标准数据集中的双目图像对输入网络模型,输出模型损失,利用最小化损失的思想,采用随机梯度下降的方法训练网络模型;
所述损失函数为:
其中分别为左右图像的重构损失,分别为左右视差图的视差平滑性损失,分别为左右视差一致性损失,α、β、γ分别为三种损失在总损失中所占有的权重;
步骤2、通过网络模型获取M个不同尺度的视差图,再经过多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图:
(1)多尺度融合:设置尺度参数为M,对于采集的单目场景图像,采用张正友标定法进行图像校正,将校正后的单目图像输入训练好的网络模型;输入图像尺度为S,通过网络模型输出M个尺度分别为S/20、S/21、S/22、···、S/2M-1的视差图;将尺度为S/21、S/22、···、S/2M-1的视差图分别经过多次双线性插值之后生成M-1个尺度为S的视差图,对于全部M个尺度均为S的视差图,对每个像素位置的视差值采用线性叠加并求均值的操作,得到视差图:
式中:为第M个视差图在像素坐标(i,j)处的视差值,dij为最终获取的视差图在像素坐标(i,j)处的视差值;
(2)视差图平滑:对视差图像采用的高斯滤波器为(2k+1)×(2k+1)大小,其(i,j)位置的元素值为:
其中,σ为高斯分布标准差,M(i,j)为高斯滤波器M在矩阵位置(i,j)处的值,(i,j)取值范围均为[1,2k+1]的整数;
本步骤获得与输入图像尺度一致,用于生成深度图像的视差图;
步骤3、深度图像生成:根据多视图几何学中视差图与深度图的几何变换关系,根据下式的转换规则,生成对应的深度图像:
depthij=b×f/dij (4)
式中:dij为像素坐标(i,j)处的视差值,depthij为像素坐标(i,j)处的深度值,b为已知相机基线距离,f为相机焦距。
根据获得与输入单目图像对应的深度图像,完成单目场景深度估计。
有益效果
本发明提出的一种基于深度学习的单目视觉场景深度估计的方法,采用深度学习的方法进行单目图像深度估计,一方面,在训练网络模型时,通常需要输入场景的可见光图像及其对应的真实深度图像,但是这种深度图像需要通过激光雷达进行场景扫描获得,获取代价昂贵而且得到的深度图比较稀疏,不适合实际应用;另一方面,常见的网络模型的迁移性通常较差,具体而言就是:在户外数据集上训练的网络模型应用到室内环境中,深度估计效果较差,会得到不满意的结果。第三,一般的网络模型结构复杂,参数量过多,在实际使用中对硬件环境要求过高,不太适合实践应用。为此,我们提出了一种新的网络模型结构,该模型在训练过程中不需要昂贵的、难以获取的场景真实深度数据,利用深度可分离卷积代替传统的卷积操作,大量的减少参数量提升运行速度,同时通过引入新的模型损失函数以及多尺度融合策略,使得该模型有更好的迁移性,在新的场景下深度估计效果依然很好。
本发明首先,构建网络模型,采用VGG-13网络模型,利用深度可分离卷积层代替标准卷积层以减少模型参数量,将标准的双目图像作为模型的输入,通过视差平滑性损失、左右视差一致性损失以及图像重构损失,利用最小化损失的思想,采用随机梯度下降方法训练网络模型,得到可用于获取视差图像的网络模型。其次,生成单目视差图像,在预测过程中,将经过张正友标定法校正的单目图像输入训练好的网络模型,生成多个尺度的视差图,再结合多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图。最后,生成单目深度图像,根据多视图几何学中视差图与深度图的几何变换关系,在已知相机基线距离b和相机焦距f的前提下,根据depth=bf/d转换规则,即可生成对应的深度图像。一方面,由于所提出的方法将深度估计任务当作图像重构任务,通过引入图像重构损失,我们可以使用简单易得的双目可见光图像训练网络模型而不需要使用获取代价很高的真实深度数据;另一方面,采用深度可分离卷积代替标准卷积,大幅度减少了网络模型的参数量,提升了该方法的应用性能。
本发明能够有效地利用单目图像恢复出场景的深度信息,有助于提升目前的计算机视觉技术,具有以下有益效果:
(1)通过将深度估计任务当作图像重构任务,可以使用简单易得的双目可见光图像训练网络模型而不用使用获取代价很高的真实深度数据;
(2)在网络结构中,引入新的损失以及多尺度模型,使得模型推理过程约束性更强;
(3)采用深度可分离卷积代替标准卷积,可以减少网络模型的参数量为之前的七分之一,提升模型的推理速度。
附图说明
图1:本发明方法的总体框架图
图2:网络模型结构图
图3:单目图像深度估计结果图(a)输入单目图像(b)深度图结果
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本文实验的硬件环境为::GPU:Intel至强系列,内存:8G,硬盘:500G机械硬盘,独立显卡:NVIDIA GeForce GTX 1080Ti,11G;系统环境为Ubuntu 16.0.4;软件环境为python3.6,opencv4.0,Tensorflow。
本文针对单目图像的深度估计做了两组实验,一组是基于KITTI公开数据集,用于验证发明方法的准确度和有效性;一组是基于实际采集到的单目图像数据,验证了方法的实用性。
本发明具体实施如下:
步骤1网络模型的构建及训练:采用标准的VGG-13网络模型,采用深度可分离卷积代替网络模型每一层中的标准卷积,采用图像重构损失、视差平滑性损失以及左右视差一致性损失构建网络的损失函数,将标准的双目图像对输入网络模型,输出对应的模型损失,利用最小化损失的思想,采用随机梯度下降的方法训练网络模型。
(1)深度可分离卷积:假定输入卷积层的特征图大小为1280×720×3,特征图的宽为1280,特征图的高为720,特征图的通道数为3,输出通道数为32。标准卷积层的参数为(3×3×3)×32=864,其对应的深度可分离卷积参数量为(3×3×1)×3+(1×1×3)×32=123。我们可以计算得到两种卷积方法的参数量比值:S=123/864=0.142,可以看出,采用深度可分离卷积参数量减少为标准卷积参数量的七分之一,参数量大幅度的减少。
(2)损失函数:为了使得最终的模型效果更好,我们使用了三个损失来训练网络模型,分别为图像重构损失、视差平滑性损失以及左右视差一致性损失。整个网络的损失表达为式(5):
其中分别为左右图像的重构损失,分别为左右视差图的平滑性损失,分别为左右视差图的一致性损失,α、β、γ分别为三种损失在总损失中所占有的权重,在实验中分别设置为1,0.1,1。
Lre为图像重构损失,目的是使得重构出的图像与其对应的训练输入保持高度相似性。具体如式(6):
其中为输入左图像在像素位置(i,j)处的像素值,为重构出的左图像在像素位置(i,j)处的像素值,SSIM为结构相似性,用来计算Il的相似性。在实验中,α为不同系数的权重,α设置为0.8。N为图像中的像素点数,因为实验中图像大小为1240×375,所以N为465000。
Lsmo为视差平滑性损失。目的是保证生成的视差图像过渡平滑,消除局部梯度大的位置视差的不连续问题。具体如式(7):
为对应图像位置水平方向、垂直方向的梯度值。
Lcon为左右视差一致性损失。目的是通过保持生成的左右视差的一致性,以生成更加准确的视差图。具体表示如式(8):
其中为左视差图在像素位置(i,j)处的视差值。
训练过程就是将总的损失Loss通过反向传播,利用最小化损失的思想,经过随机梯度下降的方法学习调节网络模型参数,使得Loss尽量小,以训练出优异的网络模型。
步骤2单目图像视差图获取:在预测过程中,将经过校正的单目图像输入训练好的网络模型,经过特征提取以及反卷积操作生成四个不同尺度的视差图,再结合多尺度融合与视差平滑生成最终的视差图。
(1)多尺度融合:设置尺度参数为N=4,对于1280×720尺度的输入图像,,生成(320×180)、(640×360)、(1280×720)尺度的视差图。将生成的三个较小不同尺度的视差图通过双线性插值之后生成(1280×720)尺度,将四个尺度为(1280×720)的视差图进行融合,通过对每个像素位置的值采用线性叠加并求均值的操作,如式(9)所示,得到最终的视差图。
式中,为第1、2、3、4个视差图在像素坐标(i,j)处的视差值,dij为最终获取的视差图在像素坐标(i,j)处的视差值。
(2)视差图平滑:一幅精度高的视差图应该连续且平滑,由于初始多尺度融合生成的视差图中存在局部不连续、变化过渡剧烈等问题,采用高斯滤波器读视差图像平滑操作,改善图像质量,本实施例使用的3*3高斯滤波器为式(10):
步骤3深度图像生成:根据视差图与深度图的几何变换关系,将获取的视差图转换成对应的深度图。
通过步骤1和步骤2,生成了输入图像对应的精细视差图,视差图每个像素位置对应的值dij为该像素点的视差值(单位为像素单位),在实验环境中,在已知相机基线距离b为65mm和相机焦距f为970(单位为像素单位)的前提下,根据式(11)的转换规则,即可生成对应的深度图像。
depthij=bf/d=(65×970/dij)mm (11)
dij为像素坐标(i,j)处的视差值,depthij为像素坐标(i,j)处的深度值。由式(11)可知,视差值越小,则深度值越大,表示目标离得越远。

Claims (1)

1.一种基于深度学习的单目视觉场景深度估计的方法,其特征在于步骤如下:
步骤1、网络模型的构建及训练,获得一个能够生成单目场景视差图的网络模型:采用标准的VGG-13网络模型,以深度可分离卷积作为网络模型每一层中的标准卷积,采用图像重构损失、视差平滑性损失以及左右视差一致性损失构建网络的损失函数,将标准数据集中的双目图像对输入网络模型,输出模型损失,利用最小化损失的思想,采用随机梯度下降的方法训练网络模型;
所述损失函数为:
其中分别为左右图像的重构损失,分别为左右视差图的视差平滑性损失,分别为左右视差一致性损失,α、β、γ分别为三种损失在总损失中所占有的权重;
步骤2、通过网络模型获取M个不同尺度的视差图,再经过多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图:
(1)多尺度融合:设置尺度参数为M,对于采集的单目场景图像,采用张正友标定法进行图像校正,将校正后的单目图像输入训练好的网络模型;输入图像尺度为S,通过网络模型输出M个尺度分别为S/20、S/21、S/22、…、S/2M-1的视差图;将尺度为S/21、S/22、…、S/2M-1的视差图分别经过多次双线性插值之后生成M-1个尺度为S的视差图,对于全部M个尺度均为S的视差图,对每个像素位置的视差值采用线性叠加并求均值的操作,得到视差图:
式中:为第M个视差图在像素坐标(i,j)处的视差值,dij为最终获取的视差图在像素坐标(i,j)处的视差值;
(2)视差图平滑:对视差图像采用的高斯滤波器为(2k+1)×(2k+1)大小,其(i,j)位置的元素值为:
其中,σ为高斯分布标准差,M(i,j)为高斯滤波器M在矩阵位置(i,j)处的值,(i,j)取值范围均为[1,2k+1]的整数;
本步骤获得与输入图像尺度一致,用于生成深度图像的视差图;
步骤3、深度图像生成:根据多视图几何学中视差图与深度图的几何变换关系,根据下式的转换规则,生成对应的深度图像:
depthij=b×f/dij
式中:dij为像素坐标(i,j)处的视差值,depthij为像素坐标(i,j)处的深度值,b为已知相机基线距离,f为相机焦距。
根据获得与输入单目图像对应的深度图像,完成单目场景深度估计。
CN201910573787.3A 2019-06-28 2019-06-28 一种基于深度学习的单目视觉场景深度估计的方法 Pending CN110310317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910573787.3A CN110310317A (zh) 2019-06-28 2019-06-28 一种基于深度学习的单目视觉场景深度估计的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910573787.3A CN110310317A (zh) 2019-06-28 2019-06-28 一种基于深度学习的单目视觉场景深度估计的方法

Publications (1)

Publication Number Publication Date
CN110310317A true CN110310317A (zh) 2019-10-08

Family

ID=68078699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910573787.3A Pending CN110310317A (zh) 2019-06-28 2019-06-28 一种基于深度学习的单目视觉场景深度估计的方法

Country Status (1)

Country Link
CN (1) CN110310317A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728707A (zh) * 2019-10-18 2020-01-24 陕西师范大学 基于非对称深度卷积神经网络的多视角深度预测方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法
CN110766732A (zh) * 2019-10-22 2020-02-07 杭州凌像科技有限公司 一种鲁棒的单相机深度图估计方法
CN111047634A (zh) * 2019-11-13 2020-04-21 杭州飞步科技有限公司 场景深度的确定方法、装置、设备及存储介质
CN111047630A (zh) * 2019-11-13 2020-04-21 芯启源(上海)半导体科技有限公司 神经网络和基于神经网络的目标检测及深度预测方法
CN111127401A (zh) * 2019-11-29 2020-05-08 西安工程大学 一种基于深度学习的机器人立体视觉机械零件检测方法
CN111540000A (zh) * 2020-04-28 2020-08-14 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN111652922A (zh) * 2020-06-04 2020-09-11 江苏天宏机械工业有限公司 一种基于双目视觉的单目视频深度估计方法及系统
CN111899295A (zh) * 2020-06-06 2020-11-06 东南大学 一种基于深度学习的单目场景深度预测方法
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN112927279A (zh) * 2021-02-24 2021-06-08 中国科学院微电子研究所 一种图像深度信息生成方法、设备及存储介质
CN113205107A (zh) * 2020-11-02 2021-08-03 哈尔滨理工大学 一种基于改进高效率网络的车型识别方法
CN113470099A (zh) * 2021-07-09 2021-10-01 北京的卢深视科技有限公司 深度成像的方法、电子设备及存储介质
CN115457101A (zh) * 2022-11-10 2022-12-09 武汉图科智能科技有限公司 面向无人机平台的边缘保持多视图深度估计及测距方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236082A (zh) * 2013-04-27 2013-08-07 南京邮电大学 面向捕获静止场景的二维视频的准三维重建方法
CN103581650A (zh) * 2013-10-21 2014-02-12 四川长虹电器股份有限公司 双目3d视频转多目3d视频的方法
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及系统
CN106600583A (zh) * 2016-12-07 2017-04-26 西安电子科技大学 基于端到端神经网络的视差图获取方法
CN107358638A (zh) * 2017-07-19 2017-11-17 智车优行科技(北京)有限公司 视差图计算方法和装置、电子设备、计算机存储介质
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN108846473A (zh) * 2018-04-10 2018-11-20 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法
CN108932725A (zh) * 2018-06-08 2018-12-04 哈尔滨工程大学 基于卷积神经网络的场景流估计方法
CN108961327A (zh) * 2018-05-22 2018-12-07 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN108960245A (zh) * 2018-07-13 2018-12-07 广东工业大学 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN109191515A (zh) * 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
US20190045168A1 (en) * 2018-09-25 2019-02-07 Intel Corporation View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning
CN109472819A (zh) * 2018-09-06 2019-03-15 杭州电子科技大学 一种基于级联几何上下文神经网络的双目视差估计方法
CN109544621A (zh) * 2018-11-21 2019-03-29 马浩鑫 基于卷积神经网络的光场深度估计方法、系统及介质
CN109934307A (zh) * 2019-05-08 2019-06-25 北京奇艺世纪科技有限公司 视差图预测模型训练方法、预测方法、装置及电子设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236082A (zh) * 2013-04-27 2013-08-07 南京邮电大学 面向捕获静止场景的二维视频的准三维重建方法
CN103581650A (zh) * 2013-10-21 2014-02-12 四川长虹电器股份有限公司 双目3d视频转多目3d视频的方法
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及系统
CN106600583A (zh) * 2016-12-07 2017-04-26 西安电子科技大学 基于端到端神经网络的视差图获取方法
CN107358638A (zh) * 2017-07-19 2017-11-17 智车优行科技(北京)有限公司 视差图计算方法和装置、电子设备、计算机存储介质
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN108846473A (zh) * 2018-04-10 2018-11-20 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法
CN108961327A (zh) * 2018-05-22 2018-12-07 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN108932725A (zh) * 2018-06-08 2018-12-04 哈尔滨工程大学 基于卷积神经网络的场景流估计方法
CN108960245A (zh) * 2018-07-13 2018-12-07 广东工业大学 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN109191515A (zh) * 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
CN109472819A (zh) * 2018-09-06 2019-03-15 杭州电子科技大学 一种基于级联几何上下文神经网络的双目视差估计方法
US20190045168A1 (en) * 2018-09-25 2019-02-07 Intel Corporation View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning
CN109544621A (zh) * 2018-11-21 2019-03-29 马浩鑫 基于卷积神经网络的光场深度估计方法、系统及介质
CN109934307A (zh) * 2019-05-08 2019-06-25 北京奇艺世纪科技有限公司 视差图预测模型训练方法、预测方法、装置及电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CLÉMENT GODARD ET AL: "Unsupervised Monocular Depth Estimation with Left-Right Consistency", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
QI MAO ET AL: "A local-adapted disparity vector derivation scheme for 3D-AVS", 《2016 VISUAL COMMUNICATIONS AND IMAGE PROCESSING (VCIP)》 *
张建业: "基于多视点彩色图像的深度获取技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杜克: "基于双目图像的2D-3D图像转换方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
田萱等编著: "《基于深度学习的图像语义分割技术》", 31 May 2019 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738697B (zh) * 2019-10-10 2023-04-07 福州大学 基于深度学习的单目深度估计方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法
CN110728707B (zh) * 2019-10-18 2022-02-25 陕西师范大学 基于非对称深度卷积神经网络的多视角深度预测方法
CN110728707A (zh) * 2019-10-18 2020-01-24 陕西师范大学 基于非对称深度卷积神经网络的多视角深度预测方法
CN110766732A (zh) * 2019-10-22 2020-02-07 杭州凌像科技有限公司 一种鲁棒的单相机深度图估计方法
CN111047634A (zh) * 2019-11-13 2020-04-21 杭州飞步科技有限公司 场景深度的确定方法、装置、设备及存储介质
CN111047630A (zh) * 2019-11-13 2020-04-21 芯启源(上海)半导体科技有限公司 神经网络和基于神经网络的目标检测及深度预测方法
CN111047630B (zh) * 2019-11-13 2023-06-13 芯启源(上海)半导体科技有限公司 神经网络和基于神经网络的目标检测及深度预测方法
CN111047634B (zh) * 2019-11-13 2023-08-08 杭州飞步科技有限公司 场景深度的确定方法、装置、设备及存储介质
CN111127401A (zh) * 2019-11-29 2020-05-08 西安工程大学 一种基于深度学习的机器人立体视觉机械零件检测方法
CN111540000A (zh) * 2020-04-28 2020-08-14 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN111540000B (zh) * 2020-04-28 2021-11-05 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN111652922B (zh) * 2020-06-04 2023-09-08 江苏天宏机械工业有限公司 一种基于双目视觉的单目视频深度估计方法
CN111652922A (zh) * 2020-06-04 2020-09-11 江苏天宏机械工业有限公司 一种基于双目视觉的单目视频深度估计方法及系统
CN111899295A (zh) * 2020-06-06 2020-11-06 东南大学 一种基于深度学习的单目场景深度预测方法
CN113205107A (zh) * 2020-11-02 2021-08-03 哈尔滨理工大学 一种基于改进高效率网络的车型识别方法
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN112927279A (zh) * 2021-02-24 2021-06-08 中国科学院微电子研究所 一种图像深度信息生成方法、设备及存储介质
CN113470099B (zh) * 2021-07-09 2022-03-25 北京的卢深视科技有限公司 深度成像的方法、电子设备及存储介质
CN113470099A (zh) * 2021-07-09 2021-10-01 北京的卢深视科技有限公司 深度成像的方法、电子设备及存储介质
CN115457101A (zh) * 2022-11-10 2022-12-09 武汉图科智能科技有限公司 面向无人机平台的边缘保持多视图深度估计及测距方法

Similar Documents

Publication Publication Date Title
CN110310317A (zh) 一种基于深度学习的单目视觉场景深度估计的方法
CN107204010B (zh) 一种单目图像深度估计方法与系统
Wu et al. Learning sheared EPI structure for light field reconstruction
CN106157307B (zh) 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN106683182B (zh) 一种权衡立体匹配和视觉外形的三维重建方法
CN108416840A (zh) 一种基于单目相机的三维场景稠密重建方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN111402311B (zh) 一种基于知识蒸馏的轻量级立体视差估计方法
CN112634341A (zh) 多视觉任务协同的深度估计模型的构建方法
CN108495110A (zh) 一种基于生成式对抗网络的虚拟视点图像生成方法
CN108734776A (zh) 一种基于散斑的三维人脸重建方法及设备
CN106600632B (zh) 一种改进匹配代价聚合的立体图像匹配方法
CN107170000B (zh) 基于全局块优化的立体影像密集匹配方法
CN111105432A (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
CN101877143A (zh) 一种二维图像组的三维场景重建方法
CN114359509A (zh) 一种基于深度学习的多视图自然场景重建方法
CN112785692B (zh) 一种基于深度uv先验的单视角多人人体重建方法
CN117095128A (zh) 一种无先验多视角人体服饰编辑方法
CN116519106B (zh) 一种用于测定生猪体重的方法、装置、存储介质和设备
CN111914618A (zh) 基于对抗式相对深度约束网络的三维人体姿态估计方法
Ubina et al. Intelligent underwater stereo camera design for fish metric estimation using reliable object matching
CN104796624B (zh) 一种光场编辑传播方法
CN112927348A (zh) 一种基于多视点rgbd相机高分辨率人体三维重建方法
CN112906675A (zh) 一种固定场景中的无监督人体关键点检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191008