CN109035310A

CN109035310A - 增广序数深度关系的单目深度估计方法

Info

Publication number: CN109035310A
Application number: CN201810711056.6A
Authority: CN
Inventors: 苏菲
Original assignee: SUZHOU ZHONGKE QIHUI SOFTWARE TECHNOLOGY CO LTD
Current assignee: SUZHOU ZHONGKE QIHUI SOFTWARE TECHNOLOGY CO LTD
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-12-18

Abstract

本发明公开了一种增广序数深度关系的单目深度估计方法，包括以下具体步骤：步骤一：引入了一个新的相对深度立体系统RDIS数据集密集并标记相对深度；步骤二：在RDIS数据集密集上对RESNET模型进行预训练；步骤三：检索度量深度预测，建立任意正规化预测的相对深度图，使得平均值和标准偏差与训练集的度量地面真实深度相同。通过上述方式，本发明提供的增广序数深度关系的单目深度估计方法，地面真实相对深度是通过现有的立体算法和人工后处理获得的，使单图像深度估计的性能大大提高，提出的RDIS数据集密集基于相对深度的学习方案，可以实现2D到3D的转换。

Description

增广序数深度关系的单目深度估计方法

技术领域

本发明涉及计算机智能视觉的领域，尤其涉及一种增广序数深度关系的单目深度估计方法。

背景技术

单目图像的精确预测是计算机视觉中的一项基本任务，几十年来一直是一个活跃的研究课题。典型的方法将深度估计制定为监督学习任务。因此，需要大量的度量地面真实深度。然而，度量地面真实深度的获取需要深度传感器，并且由于深度传感器的限制，所收集的RGB-D训练数据在大小和场景的多样性方面受到限制。例如，流行的微软Kinect不能获得户外场景中的远物体的深度。

发明内容

本发明主要解决的技术问题是提供一种增广序数深度关系的单目深度估计方法，地面真实相对深度是通过现有的立体算法和人工后处理获得的，使单图像深度估计的性能大大提高，提出的RDIS数据集密集基于相对深度的学习方案，可以实现2D到3D的转换。

为解决上述技术问题，本发明采用的一个技术方案是：提供了一种增广序数深度关系的单目深度估计方法，包括以下具体步骤：

步骤一：引入了一个新的相对深度立体系统RDIS数据集密集并标记相对深度；

步骤二：在RDIS数据集密集上对RESNET模型进行预训练；

步骤三：检索度量深度预测，建立任意正规化预测的相对深度图，使得平均值和标准偏差与训练集的度量地面真实深度相同。

在本发明一个较佳实施例中，所述的步骤一中的RDIS数据集密集包含图像标记密集相对深度。

在本发明一个较佳实施例中，所述的步骤二中的预训练通过以下四步进行实施：

(a)利用现有的立体电影视频立体匹配算法，获得相对较低的深度；

(b)不仅仅只标记一对点的每幅图像的相对关系，而是产生密集的相对深度图；

(c)在增强基准RGB-D数据集上对模型进行度量；

(d)制定深度估计作为一个分类任务。

本发明的有益效果是：本发明的增广序数深度关系的单目深度估计方法，地面真实相对深度是通过现有的立体算法和人工后处理获得的，使单图像深度估计的性能大大提高，提出的RDIS数据集密集基于相对深度的学习方案，可以实现2D到3D的转换。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例包括：

一种增广序数深度关系的单目深度估计方法，包括以下具体步骤：

步骤二：在RDIS数据集密集上对RESNET模型进行预训练；

上述中，所述的步骤一中的RDIS数据集密集包含图像标记密集相对深度。

进一步的，所述的步骤二中的预训练通过以下四步进行实施：

(c)在增强基准RGB-D数据集上对模型进行度量；

(d)制定深度估计作为一个分类任务。

RESNET(深度残差网络)：使用残差块能够训练更深的神经网络，所以构建一个RESNET网络就是通过将很多这样的残差块堆积在一起，形成一个很深神经网络。通过残差学习解决了深度网络的退化问题，可以训练出更深的网络。

RGB-D(深度图像)：在3D计算机图形中，Depth Map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中，Depth Map类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的，因而像素点之间具有一对一的对应关系。

本发明的增广序数深度关系的单目深度估计方法，提出了一个新的数据集相对深度立体系统RDIS包含图像标记密集相对深度，制定深度估计作为一个分类任务，并提出了信息增益损失。其中，RDIS数据集可以显著提高度量深度估计的性能，在此基础上，建立优于室内和室外基准RGB-D数据集的最先进的深度估计方法。

在训练过程中使用到的算法主要如下：

A、相对深度生成：

使用现有的立体匹配算法从立体视频生成相对地真深度，立体匹配算法依赖于计算匹配成本来测量立体对的相似性。

对于左图像中的像素p，右图像中的对应像素表示为p-d，其中d是视差。绝对差表示为：

C_ad(p,d)＝|I_L(p)-I_R(p-d)|， (1)

其中I_L和I_R分别为左图像和右图像，

通过求解大量的1D最小化问题来最小化全局2D能量函数。能量函数是：

其中第一项计算所有像素在它们的差异D_p的像素匹配成本的总和。第二项在p的邻域，

N_p中为所有像素Q增加恒定惩罚p₁，其中视差变化一点点(即，1像素)。

B、网络体系结构：

网络架构定义为：

y＝F(x,{W_i})+x, (3)

其中x和y分别是堆叠层的输入和输出矩阵。函数F(x,{W_i})是需要学习的残差映射。x和f的维数需要相等，因为相加是元素的。如果不是这样，应用另一个定义为：

y＝F(x,{W_i})+W_sx. (4)

与方程(3)中的快捷连接相比，应用线性投影W_s来匹配X和F的维数。

C、损失函数：

深度估计方法包含两个训练阶段：深度相对训练和深度度量。对于预训练，采用等级损失，如果地面实数顺序关系是相等的，则鼓励深度之间的微小差异，否则会鼓励大的差异。具体地，考虑训练图像I，K对点与地面实数顺序关系R＝{(i_k,j_k,r_k)}，k∈[1,…,K]，其中i_k和j_k是k次对的两个点，r_k是i_k和j_k之间的地面真深度关系：接近(+1)，更远(1)和相等(0)。设z为深度残差网络的输出深度图，z_ik，z_jk为i_k和j_k的预测深度值。排名损失定义为：

其中E(I,i_k,j_k,r,z)是k次对的丢失：

在预训练后，用离散的度量深度来完成网络。使用像素的多项式逻辑损失定义为：

虽然通过将连续深度值离散成若干个容器来制定深度估计作为分类任务，但是深度标签与其他分类任务的标签(例如，语义分割)不同。预测深度标签更接近地面真理应该有更多的贡献在更新网络权重。这是通过等式(7)中的信息增益矩阵H来实现的。它是一个元素H(p,q)＝exp[-α(p-q)²]和α为常数的B×B对称矩阵。

本发明的增广序数深度关系的单目深度估计方法，与现有技术相比如有如下优点：

1、相对深度立体系统RDIS数据集包含图像标记密集相对深度，所以地面真实相对深度是通过现有的立体算法和人工后处理获得的；

2、增强基准RGB-D数据集基础上提出的RDIS数据集，使单图像深度估计的性能大大提高；

3、虽然目标是从单目图像预测深度，然而，提出的RDIS数据基于相对深度的学习方案，可以实现2D到3D的转换。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种增广序数深度关系的单目深度估计方法，其特征在于，包括以下具体步骤：

步骤一：引入了一个新的相对深度立体系统 RDIS数据集并标记相对深度；

步骤二：在RDIS数据集上对RESNET模型进行预训练；

2.根据权利要求1所述的增广序数深度关系的单目深度估计方法，其特征在于，所述的步骤一中的RDIS数据集包含图像标记密集相对深度。

3.根据权利要求1所述的增广序数深度关系的单目深度估计方法，其特征在于，所述的步骤二中的预训练通过以下四步进行实施：

（a）利用现有的立体电影视频立体匹配算法，获得相对较低的深度；

（b）不仅仅只标记一对点的每幅图像的相对关系，而是产生密集的相对深度图；

（c）在RGB-D数据集上对模型进行度量；

（d）制定深度估计作为一个分类任务。