CN109035310A - 增广序数深度关系的单目深度估计方法 - Google Patents
增广序数深度关系的单目深度估计方法 Download PDFInfo
- Publication number
- CN109035310A CN109035310A CN201810711056.6A CN201810711056A CN109035310A CN 109035310 A CN109035310 A CN 109035310A CN 201810711056 A CN201810711056 A CN 201810711056A CN 109035310 A CN109035310 A CN 109035310A
- Authority
- CN
- China
- Prior art keywords
- depth
- data set
- rdis
- augmentation
- monocular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/344—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开了一种增广序数深度关系的单目深度估计方法,包括以下具体步骤:步骤一:引入了一个新的相对深度立体系统RDIS数据集密集并标记相对深度;步骤二:在RDIS数据集密集上对RESNET模型进行预训练;步骤三:检索度量深度预测,建立任意正规化预测的相对深度图,使得平均值和标准偏差与训练集的度量地面真实深度相同。通过上述方式,本发明提供的增广序数深度关系的单目深度估计方法,地面真实相对深度是通过现有的立体算法和人工后处理获得的,使单图像深度估计的性能大大提高,提出的RDIS数据集密集基于相对深度的学习方案,可以实现2D到3D的转换。
Description
技术领域
本发明涉及计算机智能视觉的领域,尤其涉及一种增广序数深度关系的单目深度估计方法。
背景技术
单目图像的精确预测是计算机视觉中的一项基本任务,几十年来一直是一个活跃的研究课题。典型的方法将深度估计制定为监督学习任务。因此,需要大量的度量地面真实深度。然而,度量地面真实深度的获取需要深度传感器,并且由于深度传感器的限制,所收集的RGB-D训练数据在大小和场景的多样性方面受到限制。例如,流行的微软Kinect不能获得户外场景中的远物体的深度。
发明内容
本发明主要解决的技术问题是提供一种增广序数深度关系的单目深度估计方法,地面真实相对深度是通过现有的立体算法和人工后处理获得的,使单图像深度估计的性能大大提高,提出的RDIS数据集密集基于相对深度的学习方案,可以实现2D到3D的转换。
为解决上述技术问题,本发明采用的一个技术方案是:提供了一种增广序数深度关系的单目深度估计方法,包括以下具体步骤:
步骤一:引入了一个新的相对深度立体系统RDIS数据集密集并标记相对深度;
步骤二:在RDIS数据集密集上对RESNET模型进行预训练;
步骤三:检索度量深度预测,建立任意正规化预测的相对深度图,使得平均值和标准偏差与训练集的度量地面真实深度相同。
在本发明一个较佳实施例中,所述的步骤一中的RDIS数据集密集包含图像标记密集相对深度。
在本发明一个较佳实施例中,所述的步骤二中的预训练通过以下四步进行实施:
(a)利用现有的立体电影视频立体匹配算法,获得相对较低的深度;
(b)不仅仅只标记一对点的每幅图像的相对关系,而是产生密集的相对深度图;
(c)在增强基准RGB-D数据集上对模型进行度量;
(d)制定深度估计作为一个分类任务。
本发明的有益效果是:本发明的增广序数深度关系的单目深度估计方法,地面真实相对深度是通过现有的立体算法和人工后处理获得的,使单图像深度估计的性能大大提高,提出的RDIS数据集密集基于相对深度的学习方案,可以实现2D到3D的转换。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例包括:
一种增广序数深度关系的单目深度估计方法,包括以下具体步骤:
步骤一:引入了一个新的相对深度立体系统RDIS数据集密集并标记相对深度;
步骤二:在RDIS数据集密集上对RESNET模型进行预训练;
步骤三:检索度量深度预测,建立任意正规化预测的相对深度图,使得平均值和标准偏差与训练集的度量地面真实深度相同。
上述中,所述的步骤一中的RDIS数据集密集包含图像标记密集相对深度。
进一步的,所述的步骤二中的预训练通过以下四步进行实施:
(a)利用现有的立体电影视频立体匹配算法,获得相对较低的深度;
(b)不仅仅只标记一对点的每幅图像的相对关系,而是产生密集的相对深度图;
(c)在增强基准RGB-D数据集上对模型进行度量;
(d)制定深度估计作为一个分类任务。
RESNET(深度残差网络):使用残差块能够训练更深的神经网络,所以构建一个RESNET网络就是通过将很多这样的残差块堆积在一起,形成一个很深神经网络。通过残差学习解决了深度网络的退化问题,可以训练出更深的网络。
RGB-D(深度图像):在3D计算机图形中,Depth Map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中,Depth Map类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的,因而像素点之间具有一对一的对应关系。
本发明的增广序数深度关系的单目深度估计方法,提出了一个新的数据集相对深度立体系统RDIS包含图像标记密集相对深度,制定深度估计作为一个分类任务,并提出了信息增益损失。其中,RDIS数据集可以显著提高度量深度估计的性能,在此基础上,建立优于室内和室外基准RGB-D数据集的最先进的深度估计方法。
在训练过程中使用到的算法主要如下:
A、相对深度生成:
使用现有的立体匹配算法从立体视频生成相对地真深度,立体匹配算法依赖于计算匹配成本来测量立体对的相似性。
对于左图像中的像素p,右图像中的对应像素表示为p-d,其中d是视差。绝对差表示为:
Cad(p,d)=|IL(p)-IR(p-d)|, (1)
其中IL和IR分别为左图像和右图像,
通过求解大量的1D最小化问题来最小化全局2D能量函数。能量函数是:
其中第一项计算所有像素在它们的差异Dp的像素匹配成本的总和。第二项在p的邻域,
Np中为所有像素Q增加恒定惩罚p1,其中视差变化一点点(即,1像素)。
B、网络体系结构:
网络架构定义为:
y=F(x,{Wi})+x, (3)
其中x和y分别是堆叠层的输入和输出矩阵。函数F(x,{Wi})是需要学习的残差映射。x和f的维数需要相等,因为相加是元素的。如果不是这样,应用另一个定义为:
y=F(x,{Wi})+Wsx. (4)
与方程(3)中的快捷连接相比,应用线性投影Ws来匹配X和F的维数。
C、损失函数:
深度估计方法包含两个训练阶段:深度相对训练和深度度量。对于预训练,采用等级损失,如果地面实数顺序关系是相等的,则鼓励深度之间的微小差异,否则会鼓励大的差异。具体地,考虑训练图像I,K对点与地面实数顺序关系R={(ik,jk,rk)},k∈[1,…,K],其中ik和jk是k次对的两个点,rk是ik和jk之间的地面真深度关系:接近(+1),更远(1)和相等(0)。设z为深度残差网络的输出深度图,zik,zjk为ik和jk的预测深度值。排名损失定义为:
其中E(I,ik,jk,r,z)是k次对的丢失:
在预训练后,用离散的度量深度来完成网络。使用像素的多项式逻辑损失定义为:
虽然通过将连续深度值离散成若干个容器来制定深度估计作为分类任务,但是深度标签与其他分类任务的标签(例如,语义分割)不同。预测深度标签更接近地面真理应该有更多的贡献在更新网络权重。这是通过等式(7)中的信息增益矩阵H来实现的。它是一个元素H(p,q)=exp[-α(p-q)2]和α为常数的B×B对称矩阵。
本发明的增广序数深度关系的单目深度估计方法,与现有技术相比如有如下优点:
1、相对深度立体系统RDIS数据集包含图像标记密集相对深度,所以地面真实相对深度是通过现有的立体算法和人工后处理获得的;
2、增强基准RGB-D数据集基础上提出的RDIS数据集,使单图像深度估计的性能大大提高;
3、虽然目标是从单目图像预测深度,然而,提出的RDIS数据基于相对深度的学习方案,可以实现2D到3D的转换。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (3)
1.一种增广序数深度关系的单目深度估计方法,其特征在于,包括以下具体步骤:
步骤一:引入了一个新的相对深度立体系统 RDIS数据集并标记相对深度;
步骤二:在RDIS数据集上对RESNET模型进行预训练;
步骤三:检索度量深度预测,建立任意正规化预测的相对深度图,使得平均值和标准偏差与训练集的度量地面真实深度相同。
2.根据权利要求1所述的增广序数深度关系的单目深度估计方法,其特征在于,所述的步骤一中的RDIS数据集包含图像标记密集相对深度。
3.根据权利要求1所述的增广序数深度关系的单目深度估计方法,其特征在于,所述的步骤二中的预训练通过以下四步进行实施:
(a)利用现有的立体电影视频立体匹配算法,获得相对较低的深度;
(b)不仅仅只标记一对点的每幅图像的相对关系,而是产生密集的相对深度图;
(c)在RGB-D数据集上对模型进行度量;
(d)制定深度估计作为一个分类任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810711056.6A CN109035310A (zh) | 2018-07-03 | 2018-07-03 | 增广序数深度关系的单目深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810711056.6A CN109035310A (zh) | 2018-07-03 | 2018-07-03 | 增广序数深度关系的单目深度估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109035310A true CN109035310A (zh) | 2018-12-18 |
Family
ID=65521312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810711056.6A Withdrawn CN109035310A (zh) | 2018-07-03 | 2018-07-03 | 增广序数深度关系的单目深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109035310A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832435B1 (en) | 2019-04-26 | 2020-11-10 | Caterpillar Inc. | Determining payload carrier volume using a neural network |
CN113850165A (zh) * | 2021-09-13 | 2021-12-28 | 支付宝(杭州)信息技术有限公司 | 人脸识别方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107204010A (zh) * | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
-
2018
- 2018-07-03 CN CN201810711056.6A patent/CN109035310A/zh not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107204010A (zh) * | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
Non-Patent Citations (1)
Title |
---|
YUANZHOUHAN CAO ETAL: ""Monocular Depth Estimation with Augmented Ordinal Depth Relationships"", 《ARXIV E-PRINTS》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832435B1 (en) | 2019-04-26 | 2020-11-10 | Caterpillar Inc. | Determining payload carrier volume using a neural network |
CN113850165A (zh) * | 2021-09-13 | 2021-12-28 | 支付宝(杭州)信息技术有限公司 | 人脸识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
CN108648161B (zh) | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 | |
CN110689008A (zh) | 一种面向单目图像的基于三维重建的三维物体检测方法 | |
CN101271578B (zh) | 一种平面视频转立体视频技术中的深度序列生成方法 | |
CN108510573A (zh) | 一种基于深度学习的多视点人脸三维模型重建的方法 | |
CN111860666A (zh) | 一种基于点云与图像自注意力机制融合的3d目标检测方法 | |
CN108986136A (zh) | 一种基于语义分割的双目场景流确定方法及系统 | |
CN103325120A (zh) | 一种快速自适应支持权值双目视觉立体匹配方法 | |
CN107170000B (zh) | 基于全局块优化的立体影像密集匹配方法 | |
CN105869178A (zh) | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 | |
CN107944386B (zh) | 基于卷积神经网络的视觉场景识别方法 | |
CN110728707B (zh) | 基于非对称深度卷积神经网络的多视角深度预测方法 | |
CN109598754A (zh) | 一种基于深度卷积网络的双目深度估计方法 | |
CN102665086A (zh) | 利用基于区域的局部立体匹配获取视差的方法 | |
CN108416751A (zh) | 一种基于深度辅助全分辨率网络的新视点图像合成方法 | |
CN110197505A (zh) | 基于深度网络及语义信息的遥感图像双目立体匹配方法 | |
CN102609950A (zh) | 一种二维视频深度图的生成方法 | |
CN106600632A (zh) | 一种改进匹配代价聚合的立体匹配算法 | |
CN111583313A (zh) | 一种基于PSMNet改进的双目立体匹配方法 | |
CN104200453A (zh) | 基于图像分割和可信度的视差图像校正方法 | |
CN107909079A (zh) | 一种协同显著性检测方法 | |
CN109035310A (zh) | 增广序数深度关系的单目深度估计方法 | |
CN111553296B (zh) | 一种基于fpga实现的二值神经网络立体视觉匹配方法 | |
Gao et al. | Joint optimization of depth and ego-motion for intelligent autonomous vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181218 |