CN110334628B

CN110334628B - 一种基于结构化随机森林的室外单目图像深度估计方法

Info

Publication number: CN110334628B
Application number: CN201910561858.8A
Authority: CN
Inventors: 喻莉; 张蓥
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-07-27
Anticipated expiration: 2039-06-26
Also published as: CN110334628A

Abstract

本发明公开了一种基于结构化随机森林的室外单目图像深度估计方法，属于深度估计领域。本发明利用图像块的特征进行分类，赋予特征相似图像块相同的深度，采用结构化随机森林来对图像深度进行预测，通过信息增益，每个节点都对场景的深度结构标签进行离散化，然后进行分类，直至树中每个叶子节点中图像块的相似度到达一定阈值。最后将每个局部块的结果组合起来，形成完整的深度图预测结果。多方面特征可获取可靠深度线索，分块能较好考虑场景的结构以及局部信息，利用已有的深度信息估计出准确可靠的绝对深度。通过多次节点处的深度结构标签离散化，对深度块的结构进行分类有益于深度的估计，通过随机结合多棵树的结果更好的提升所估计深度的精度。

Description

一种基于结构化随机森林的室外单目图像深度估计方法

技术领域

本发明属于深度估计领域，更具体地，涉及一种基于结构化随机森林的室外单目图像深度估计方法。

背景技术

相比较室内图像而言，利用深度设备采集室外场景受到环境的影响更大，室外的大气，光线，大雾等环境都会对深度采集设备具有较大的影响。Kinect等基于结构光的深度设备也无法运用于室外，能够运用于室外的激光雷达等设备成本又过高，而利用双目摄像头立体匹配方式来估计深度又存在着计算量较大，对于纹理较低的区域效果不好的问题。另外，自动驾驶汽车，SLAM等领域对于室外场景的三维结构有着较大的需求，所以基于室外图像进行单目的深度估计是一个非常值得研究的问题。

目前来说，已经有了很多的室外单目深度图的估计算法，但是这些方法中存在着一些不足，大部分的方法仅仅只是考虑了局部尺度，基于局部尺度来建立模型，而忽视了全局信息，如Ladicky L等对每个像素点进行预测，对图像进行超像素之后，只是考虑了相邻超像素之间的关系，对于全局信息并没有利用。而Eigen D等虽然采用多尺度的卷积神经网络，结合全局粗糙的网络和局部精细的网络来预测深度，但是缺少了对场景结构等特征的利用。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有技术预测的深度精度不高的技术问题。

为实现上述目的，第一方面，本发明实施例提供了一种基于结构化随机森林的室外单目图像深度估计方法，该方法包括以下步骤：

S1.对于训练集中每个纹理图-深度图样本，分别对该样本的纹理图和深度图进行分块，保证得到的图像块和深度块数目相同且一一对应；

S2.将图像块及对应的特征作为训练数据，对应的深度块作为结构标签，送入结构化随机森林进行训练；

S3.提取待测纹理图的图像块，计算每个图像块的特征；

S4.将每个图像块的特征送入结构化随机森林，得到待测纹理图每个像素点的深度值。

具体地，步骤S2包括以下步骤：

S21.计算每个图像块的全局特征、局部特征和结构特征，该图像块对应的深度块作为其结构化标签，形成结构化空间Y；

S22.将结构化空间Y进行离散化，得到每个深度块的离散化标签；

S23.采用随机森林的算法进行训练，计算信息增益确定最佳的分裂方式。

具体地，颜色特征、暗通道特征属于全局特征，纹理特征、相关性特征属于局部特征，SIFT特征属于结构特征。

具体地，步骤S22包括以下步骤：

S221.对树的节点当中所有的深度块形成的结构空间矩阵，去均值化；

S222.对去均值化结构空间矩阵降维；

S223.依据所需分的类别数m，选取所要的维度n

n＝min(2,log₂m)

其中，m表示所有深度块在每个节点处的总类别数，m≥2且为2的幂次；

S224.对降维深度矩阵的每个矩阵元素前n维数据分别进行二值化，得到二值化深度矩阵；

S225.按行读取将二值化深度矩阵后，对长度为n的0-1字符串按照二进制的方式计算，得到每个深度块的分类类别。

具体地，步骤S23具体如下：

通过计算划分之后左右子树Gini指数，选取Gini指数之和最小的划分方式来划分左右子树，表示如下：

其中，K代表着类别，C_k是D中属于K类的样本子集，A代表着某一维度特征，D₁和D₂代表着左右子树的划分；

通过选取最小的Gini指数的划分，从而选择最好的特征用于分类，直到Gini指数到达一定阈值，或者决策树到达一定深度，则将其送入到叶子节点当中，并在叶子节点当中保存所有的深度块标签的均值，并以此作为预测的输出。

具体地，步骤S4包括以下步骤：

S401.将每个图像块特征送入到结构化随机森林中，得到该图像块的T个预测深度块，所述结构化随机森林由T个子树组成；

S402.将每个预测深度块的深度值累加，对深度图中每个像素点上存在的深度块求平均值，作为该像素点的深度值。

具体地，步骤S4包括以下步骤：

S401.将每个图像块特征送入到结构化随机森林中，随机选取一半的树的预测结果，得到该图像块的T个预测深度块，所述结构化随机森林由2T个子树组成；

具体地，将粗细两种尺度的结构化随机森林进行连接，粗尺度的结构化随机森林对全局的深度信息进行初步估计，在预测出结果之后，对其进行上采样，并将其输入到细尺度的结构化随机森林当中，加入粗尺度的模型输出的结果作为一种特征，其中，细尺度模型在特征的选择上与粗尺度模型相同，尺度不同。

具体地，步骤S1之后、S2之前，还包括样本随机，也就是对输入的图像块进行随机抽取；步骤S3之后、S4之前，还包括特征随机，也就是在树的根节点分裂时对特征进行随机抽取。

第二方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的基于结构化随机森林的室外单目图像深度估计方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

1.本发明认为特征相似的两个图像块，其所对应的深度是类似的，利用所提取的图像块的全局特征、局部特征和结构特征将图像块分类，并赋予特征相似图像块相同的深度，依靠已有的深度数据来对图像进行预测，一次得到预测图像的绝对深度，通过利用多方面特征有益于获取较为可靠的深度线索，采用图像块的方式能够较好地考虑场景的结构以及局部信息，利用已有的深度信息可以估计出较为准确可靠的绝对深度。

2.本发明采用结构化随机森林的方法来对图像深度进行预测，通过信息增益，有效地利用所提取的深度特征以及场景结构信息，来将图像块进行分类。每个节点都对场景的深度结构标签进行离散化，然后进行分类，直至树中每个叶子节点中图像块的相似度到达一定阈值。最后将每个局部块的结果组合起来，形成一个完整的深度图预测结果，基于结构化随机森林利用信息增益来选择特征，在回归深度时能够有效地利用场景的结构信息和局部细节信息，给出最好的权衡，在训练中通过多次的节点处的深度结构标签离散化，可以更好的对深度块的结构进行分类有益于深度的估计，最后通过随机结合多棵树的结果更好的提升所估计深度的精度。

附图说明

图1为本发明实施例提供的一种基于结构化随机森林的室外单目图像深度估计方法流程图；

图2为本发明实施例提供的基于结构化随机森林的多尺度深度估计框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

与室内图像不同，室外图像存在着独有的天空地面等位置特征，在图像的竖直方向上也存在着强相关关系，利用这些信息能够更好地学习场景的结构来估计深度。大部分的机器学习方法只考虑了特征的选择问题，而忽视了场景的结构信息，本发明提出了一种基于结构化随机森林的室外单目图像深度估计方法：首先做出假设，认为特征相似的两个图像块，其所对应的深度是类似的，而室外场景的场景结构相对于室内场景而言要简单一些，类似的场景结构，其所对应的深度块更加类似。由此，利用所提取的图像块的特征将图像块分类，并赋予特征相似图像块相同的深度，依靠已有的深度数据来对图像进行预测，一次得到预测图像的绝对深度。采用结构化随机森林的方法来对图像深度进行预测，通过信息增益，有效地利用所提取的深度特征以及场景结构信息，来将图像块进行分类。每个节点都对场景的深度结构标签进行离散化，然后进行分类，直至树中每个叶子节点中图像块的相似度到达一定阈值。最后将每个局部块的结果组合起来，形成一个完整的深度图预测结果。

如图1所示，一种基于结构化随机森林的室外单目图像深度估计方法，该方法包括以下步骤：

S3.提取待测纹理图的图像块，计算每个图像块的特征；

步骤S1.对于训练集中每个纹理图-深度图样本，分别对该样本的纹理图和深度图进行分块，保证得到的图像块和深度块数目相同且一一对应。

深度值指的是场景中的某一点到摄像机的垂直平面的距离，深度图指的是每个像素点的值都代表一个深度值的图像。由于彩色图像有着三个通道，而灰度图只有一个通道，因此，常用灰度图来表示深度值。

深度有两种表示方式——相对深度和绝对深度。

相对深度代表着图像中像素点的相对远近关系，通常用灰度图表示。最近的像素点的灰度值一般表示为0，也就是黑色，而最远处一般表示为255，也就是白色。通过归一化，将图像中的所有深度变换为0到255之间，越黑的像素点则越近，而越白的像素点则越远。

绝对深度代表着图像中的像素点到相机垂直平面的真实距离，通常采用深度采集设备来获取深度。但是深度采集设备一般存在着距离限制，比如NYU depth数据库采集室内图像一般最大距离为10m，而对于室外图像数据库Make3D来说，对于天空，道路尽头等深度值较大的地方都统一置为81m。

绝对深度和相对深度可以相互转化，令相对深度为d_rel∈[0,255]，绝对深度为d_abs，深度最大最小值分别为d_max、d_min，则转换公式如下：

对纹理图像从左至右、从上至下，每隔一个像素点，提取图像块；对深度图像从左至右、从上至下，每隔一个像素点，提取深度块，保证提取到的图像块和深度块的数目相等，两者一一对应。图像块大小为N₁*N₁，深度块大小为N₂*N₂。

步骤S2.将图像块及对应的特征作为训练数据，对应的深度块作为结构标签，送入结构化随机森林进行训练。

采用结构化随机森林的方法来对图像深度进行预测，通过信息增益，有效地利用所提取的深度特征以及场景结构信息，来将图像块进行分类。每个节点都对场景的深度结构标签进行离散化，然后进行分类，直至树中每个叶子节点中图像块的相似度到达一定阈值。最后将每个局部块的结果组合起来，形成一个完整的深度图预测结果。

S21.计算每个图像块的全局特征、局部特征和结构特征，该图像块对应的深度块作为其结构化标签，形成结构化空间Y。

特征的提取选择是影响深度估计效果很重要的因素，选择合适的特征可以很好地提升深度估计的效果。本发明提取了纹理特征、颜色特征、暗通道特征、结构特征和相关性特征，其中，颜色特征、暗通道特征属于全局特征，纹理特征、相关性特征属于局部特征。

纹理特征使用SCN特征，其可以测量图像中的纹理能量。具体地，采用17个滤波器(9个Laws，2个在YCbCr空间的颜色向量，和6个边缘方向)用于提取每个图像块的特征，这些滤波器在不同的方向上，提取图像块中3*3大小的块的纹理和边缘特征，这些特征与场景深度有着很高的联系。

图像的颜色特征对于深度估计来说是一个很重要的特征，比如说，对室外图像而言，天空区域大概是灰色或者蓝色，而地面区域则是绿色或者黑色等。当然，在某些饱和度较低的图像上面，暗像素可能不会存在，但可以通过补偿这些颜色饱和度较低的区域来弥补这个问题。同样，对于同一个物体而言，颜色也有助于物体的分割，边缘提取等，同一个物体一般而言它的颜色也是相近的，而且其深度也是具连续性，相关性，利用颜色有助于进行场景结构的理解。本发明采用HSV、RGB和YUV三个颜色空间上三通道信息作为颜色特征。

在大多数室外图像块中，有一些像素在三颜色通道中至少一个通道的值非常的低，因为远处的物体更倾向于反射更多的环境光。由于这个观察，暗通道特征可以认为是一个深度的线索，一个图像中的暗通道特征定义如下：

J^dark＝min_c∈{r,g,b}(min_y∈Ω(x)(J^C(y)))

其中,J^C是一个颜色通道，Ω(x)是局部块中像素点的中心。

场景结构信息对于深度估计有着重要的作用，对于室外图像来说，采用中对天空地面的位置的估计方法来获取天空地面位置信息，此外，由于SIFT这个高级图像特征描述子对立体匹配，物体分割等任务有着很好的表现。采用SIFT特征来描述图像块，用于提取图像块的整体结构特征。SIFT特征这样的图像高级特征描述子在立体匹配当中能够显著地提高匹配质量，因此利用这样的特征来理解图像的场景结构非常有助于深度的估计。

相关性特征主要是相邻块之间的依赖性，与上面的特征不同，计算了块内像素点之间特征的不同，由于室外场景中物体一般都是上下相互关联(物体不可能漂浮在空气中)，因此，也提取了列方向的像素的相关性，将它们作为相关性特征。

S22.将结构化空间Y进行离散化，得到每个深度块的离散化标签。

如果不进行离散化的话，假设一个深度块大小为16*16大小，而深度图一般由灰度图表示，假设深度按照灰度分为256层，即每个像素点有256个深度值，那么一个深度块就存在256²⁵⁶种，而这么多种是非常难以进行分类训练的，计算过于复杂。所以需要对深度块的结构空间进行离散化。

S221.对树的节点当中所有的深度块形成的结构空间矩阵，去均值化。

将N个大小为N₂*N₂的深度块，转化为N*N₂ ²的深度矩阵。

S222.对去均值化结构空间矩阵降维。

进行离散化的关键则是对结构空间Y的映射，来减少维度，从而可以直接计算深度块之间的相似度。本发明采用主成分分析方法(PCA)，将输入的256维深度信息降为5维。

S223.依据所需分的类别数m，选取所要的维度n。

n＝min(2,log₂m)

其中，m表示所有深度块在每个节点处的总类别数，m≥2且为2的幂次。例如，欲将每个节点处的深度块分为8类，则n＝3，也就是选取5维数据中的3维。

S224.对降维深度矩阵的每个矩阵元素前n维数据分别进行二值化，得到二值化深度矩阵。

对降维深度矩阵的每个矩阵元素前n维数据进行二值化，得到N*n的二值化深度矩阵。在选取了维度之后，将前3维的数据分别与0进行比较，进行二值化，大于0的数据记为1，小于0的数据记为0，由此将降维之后的深度数据变成一个3维的2进制数。

通过计算这个二进制的数值，即为所需要的相似的深度块的离散化标签。

采用随机森林的算法进行训练，在每个树的每个节点中将深度块标签y离散化，将结构空间分为离散的类别，以此类别为标签，计算信息增益。

每一个树结点都对结构空间Y进行离散化，将Y分类到不同的类别，从而将结构空间Y不断地细化，直至达到叶子节点中，此时到达叶子节点的深度块的结构均是类似的，此时叶子节点保存所到达的输出标签y，并将所有到达的输出标签y的均值作为叶子节点的输出值，也就是所预测的深度值。

使用Gini指数来计算信息增益，计算公式如下：

其中,K代表着类别，C_k是D中属于K类的样本子集。

Gini指数代表着在样本集合中一个随机选中的样本被分错的概率，越小则代表着集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。通过计算划分之后左右子树Gini指数，选取Gini指数之和最小的划分方式来划分左右子树，表示如下：

其中，A代表着某一维度特征，D₁和D₂代表着左右子树的划分，基尼指数Gini(D,A)表示经过A＝a分割后集合D的不确定性。通过选取最小的Gini指数的划分，从而选择最好的特征用于分类，直到Gini指数到达一定阈值，或者决策树到达一定深度，则将其送入到叶子节点当中，并在叶子节点当中保存所有的深度块标签的均值，并以此作为预测的输出。

步骤S3.提取待测纹理图的图像块，计算每个图像块的特征。

对待测纹理图，每隔两个像素点提取一个大小为N₁*N₁的图像块，在提取出图像块之后，计算图像块特征的处理与计算训练样本的图像块特征处理方式相同。

步骤S4.将每个图像块的特征送入结构化随机森林，得到待测纹理图每个像素点的深度值。

S401.将每个图像块特征送入到结构化随机森林中，得到该图像块的T个预测深度块，所述结构化随机森林由T个子树组成。

优选地，粗尺度的模型所估计出的深度图较为粗糙，所以利用细尺度的模型来对图像进行优化。如图2所示，细尺度模型在特征的选择上与粗尺度模型相同，除了尺度不同以外，还加入了粗尺度的模型输出的结果作为一种特征。将粗细两种尺度的结构化随机森林进行连接，粗尺度的结构化随机森林主要对全局的深度信息进行一个初步的估计，在预测出结果之后，对其进行上采样，并将其输入到细尺度的结构化随机森林当中，通过细尺度的随机森林对粗糙的深度信息进行局部的精细化估计，从而来提升深度图的精度。

优选地，为了提高结构化随机森林的泛化和稳定性，减少过拟合，本发明对输入数据进行了随机的采样，一个是样本的随机，也就是对输入的图像块进行随机抽取。第二个是特征的随机。也就是在树的根节点分支时对特征进行随机抽取。计算每个图像块的全局特征、局部特征和结构特征，共同组成该图像块的特征向量；从选中的图像块的特征向量中随机抽取m维特征，得到该图像块新特征向量作为训练数据。

为了增加随机性以提升效果，训练2T个树，而且依据每个图像块左上角的点在图像中的位置坐标的奇偶性，来随机选取一半的树的预测结果。由此，得到了基于结构化随机森林的预测深度图。

本实施例基于室外图像的数据库Make3D上进行了实验，在场景的整体结构估计上取得了较好的结果。本发明将Make3D数据集的534张图划分为400张训练以及134张测试，粗尺度下将图像下采样到84*64，细尺度则设置为336*256。图像块的采样大小为32*32，深度块的采样大小为16*16。在训练过程中，共训练8棵树，在每个节点处将深度块标签离散化为8类。在利用棋盘格的预测模式之后，则每个像素点有着256个预测值，叠加了4棵树的结果，可以增加1％的精度。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于结构化随机森林的室外单目图像深度估计方法，其特征在于，该方法包括以下步骤：

S3.提取待测纹理图的图像块，计算每个图像块的特征；

S4.将每个图像块的特征送入结构化随机森林，得到待测纹理图每个像素点的深度值；

步骤S2包括以下步骤：

S21.计算每个图像块的全局特征、局部特征、结构特征和相关性特征，该图像块对应的深度块作为其结构化标签，形成结构化空间Y，所述结构特征为SIFT特征，所述相关性特征为块内列方向像素的相关性；

S23.采用随机森林的算法进行训练，计算信息增益确定最佳的分裂方式；

步骤S22包括以下步骤：

S222.对去均值化结构空间矩阵降维；

S223.依据所需分的类别数m，选取所要的维度n

n＝min(2，log₂m)

2.如权利要求1所述的方法，其特征在于，全局特征包含颜色特征、暗通道特征，局部特征包含纹理特征、相关性特征。

3.如权利要求1所述的方法，其特征在于，步骤S23具体如下：

4.如权利要求1所述的方法，其特征在于，步骤S4包括以下步骤：

5.如权利要求1所述的方法，其特征在于，步骤S4包括以下步骤：

6.如权利要求1所述的方法，其特征在于，将粗细两种尺度的结构化随机森林进行连接，粗尺度的结构化随机森林对全局的深度信息进行初步估计，在预测出结果之后，对其进行上采样，并将其输入到细尺度的结构化随机森林当中，加入粗尺度的模型输出的结果作为一种特征，其中，细尺度模型在特征的选择上与粗尺度模型相同，尺度不同。

7.如权利要求1所述的方法，其特征在于，步骤S1之后、S2之前，还包括样本随机，也就是对输入的图像块进行随机抽取；步骤S3之后、S4之前，还包括特征随机，也就是在树的根节点分裂时对特征进行随机抽取。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于结构化随机森林的室外单目图像深度估计方法。