CN113763474A

CN113763474A - 一种基于场景几何约束的室内单目深度估算方法

Info

Publication number: CN113763474A
Application number: CN202111096526.0A
Authority: CN
Inventors: 邹丹平; 郁文贤; 黄媛; 李博颖
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-07
Anticipated expiration: 2041-09-16
Also published as: CN113763474B

Abstract

本发明公开了一种基于场景几何约束的室内单目深度估算方法，涉及图像处理技术领域，包括以下步骤：准备步骤；深度图局部光滑监督信号计算步骤；光度误差监督信号计算步骤；曼哈顿法向量监督信号计算步骤；共平面监督信号计算步骤；总体损失函数计算步骤。本方法对前述步骤中计算得到的共平面约束监督信号Lplane、曼哈顿法向量监督信号Lnorm，以及深度图局部光滑监督信号L_smooth、光度误差监督信号L_photo，进行系数加权求和，得到总体损失函数L的值，用于网络模型反向传播系数调整，以提升自监督单目深度估计网络整体性能。

Description

一种基于场景几何约束的室内单目深度估算方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于场景几何约束的室内单目深度估算方法。

背景技术

从单张图像恢复场景深度技术(简称单目深度估计)具有非常广泛的应用前景。目前主流技术方案是采用神经网络模型对场景深度进行回归，即输入一幅图像，输出一个稠密的场景深度图。该技术方案需要采集大量的稠密场景深度真值用于训练，而采集稠密场景深度真值需要昂贵的专业设备如激光雷达、全站仪等，还需要大量的人力进行数据后处理。整个过程耗时耗力，限制了该技术方案大规模应用。

另外一种技术方案采用自监督训练的方式，即利用模型回归的场景深度图生成新视角图像，与该视角采集的真实图像进行比对来调整网络模型。该技术方案无需采集场景深度真值，因此非常适合大规模应用。该自监督单目深度估计技术方案在一些室外应用场景取得了较好性能。

自监督单目深度估计采用的监督信号主要为图像信息比对误差，也被称为光度误差(Photometric error)。基于光度误差的监督信号对场景中的纹理丰富程度要求较高。而在室内场景中，存在大量无纹理区域，例如白墙和天花板。在这些区域，光度一致性的监督效果大大下降。因此目前自监督单目深度估计技术方案在室内场景中所训练模型性能仍与室外场景存在较大差距。

现有基于光度误差的自监督单幅图像场景深度预测技术不能应对广泛的场景需求，尤其是存在大量无纹理区域室内场景。

目前改进措施主要集中于删除数据集中、旋转角度变换较大的图像序列来减少对网络估计深度的影响，利用超像素分割从彩色图像中提取平面标签，对具有平面标签的区域增加额外的共平面监督信号，同时利用图像块代替逐像素来计算光度一致性监督信号等。尽管引入基于彩色图像的平面假设方案取得了一定的提升效果，但并未充分利用环境中的结构先验，且该假设不适用于具有相同颜色的不同平面，以及具有不同颜色的相同平面。

因此，本领域的技术人员致力于开发一种基于场景几何约束的室内单目深度估算方法，以提升自监督单目深度估计网络整体性能。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何帮助自监督单目深度估计网络学习场景中的三维几何特性，使得单目深度估计网络面对纹理缺失的室内场景，也可以获得可靠的监督信息，从而提高单目深度估计效果。

为实现上述目的，本发明提供了一种基于场景几何约束的室内单目深度估算方法，包括以下步骤：

准备步骤；

深度图局部光滑监督信号计算步骤；

光度误差监督信号计算步骤；

曼哈顿法向量监督信号计算步骤；

共平面监督信号计算步骤；

总体损失函数计算步骤；

其中，所述准备步骤包括：以图像序列作为训练数据，建立包括单目深度估计网络模型和相机位姿估计网络模型这两个卷积神经网络的整体训练模型；向所述单目深度估计网络输入参考帧图像，输出所述参考帧图像的深度图；向所述位姿估计网络分别输入所述参考图像与邻近图像，输出所述参考图像与所述邻近图像这两幅图像间相机相对位姿变换。

进一步地，所述曼哈顿法向量监督信号计算步骤还包括：

根据公式X_p＝D_pK^-1p，得到深度图中每一个像素点p对应的三维坐标X_p，再通过一个可微的方法从点的三维坐标X_p计算得到点的法线方向n_p；

其中，D_p代表像素点p的深度值，K代表相机内参矩阵；

其中，p点的法线方向由p点周围7x7邻域上的点计算得来，具体为将p点邻域上的点从左上起顺时针命名为1-8，按照{(i,j)|(i,j)∈{(3,5),(4,6),(7,1),(8,2)}}分为四组，通过以下公式计算得到n_p；

n＝∑_i,j(X_p-X_i)×(X_j-X_p)

n_p＝n/‖n‖₂。

进一步地，所述曼哈顿法向量监督信号计算步骤还包括：得到所述法线方向后，首先计算每个点的法线方向与可能的六个主方向之间的余弦相似度，选择最相似的主方向作为该点的曼哈顿主方向分类结果；在训练过程中，采用一个自适应阈值的方案来检测非曼哈顿区域；再对曼哈顿平面内的点进行表面法线n_p与主方向法线

的余弦距离误差计算，得到曼哈顿法线监督信号L_norm。

进一步地，计算所述曼哈顿法向量监督信号L_norm的公式为：

其中，N_norm代表曼哈顿平面区域内的点数，

代表曼哈顿区域，

代表平面区域，s代表两个向量的余弦相似度。

进一步地，所述共平面约束监督信号计算步骤包括：通过一个平面区域检测模块得到平面标签图；其中，所述平面区域检测模块整合颜色信息以及训练过程中不断更新的几何信息对平面区域进行检测；

所述平面区域检测模块是一个基于图的分割模块，将图像的每个像素点作为图的节点，图的边由像素点之间的不相似度表示，两点之间的所述不相似度D_g(p,q)由以下公式计算得到，

其中，I表示颜色、n^align表示法线，d表示平面到原点距离，

按照所述不相似度从小到大的顺序逐一合并图的节点，最后过滤掉面积较小的区域，得到检测出的各平面区域。

进一步地，所述共平面约束监督信号计算步骤还包括：在检测出所述平面区域后，对所述平面区域内的3D点进行平面拟合，通过解最小二乘问题得到平面参数θ，然后计算平面深度

其中，求解平面参数θ的公式为

X^Tθ＝1

计算平面深度

的公式为

进一步地，平面约束监督信号计算步骤还包括：

根据公式

对所述平面区域内的点进行平面深度和估计深度的绝对误差计算，得到共平面约束监督信号L_plane。

进一步地，所述总体损失函数计算步骤包括：计算深度图局部光滑监督信号L_smooth和光度误差监督信号L_photo。

进一步地，所述总体损失函数计算步骤还包括：对所述深度图局部光滑监督信号L_smooth、所述光度误差监督信号L_photo，所述共平面约束监督信号L_plane、所述曼哈顿法向量监督信号L_norm进行系数加权求和，得到总体损失函数L的值。

进一步地，计算所述总体损失函数L的值的公式如下：

L＝L_photo+λ₁L_smooth+λ₂L_norm+λ₃L_plane

其中，λ₁、λ₂、λ₃分别为0.001，0.05，0.1。

与现有技术方案相比，本发明的有益技术效果包括：

第一，由于引入了曼哈顿世界模型，充分利用了室内场景结构先验知识，增强了单目深度估计网络对场景中几何信息的感知；

第二，采取的平面区域检测模块充分整合了几何信息和颜色信息，额外的几何信息使得本方法避免了因颜色难以区分导致的平面检测错误，并且在纹理丰富的区域得到了更少的过分割结果，正确的平面区域检测结果有效地提升了单目深度估计网络在平面区域的表现；

第三，将曼哈顿法线约束和共平面约束引入网络训练过程中，使得网络可以使用自监督的方式不断纠正和加强自己对场景中正确几何结构信息的感知能力，最终达到更好的深度估计效果。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的整体方法流程图；

图2是本发明的一个较佳实施例中计算曼哈顿法线监督信号的流程图；

图3是本发明的一个较佳实施例中计算共平面约束监督信号的流程图；

图4是本发明的一个较佳实施例中作为目标图像而选取的第0帧图像；

图5是本发明的一个较佳实施例中经训练后得到的深度图；

图6是本发明的一个较佳实施例中经训练后得到的法线估计图；

图7是本发明的一个较佳实施例中经训练后得到的曼哈顿主方向法线图；

图8是本发明的一个较佳实施例中第0帧图像的平面标签图；

图9是本发明与其他方法生成的深度图在NYU数据集上的对比示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，本发明所提方法的整体流程如下。首先以图像序列作为训练数据，所训练的模型包含两个卷积神经网络，一个是单目深度估计网络，另一个是相机位姿估计网络，为单目深度估计网络输入参考帧图像(即图像1)，输出该参考帧图像的深度图，为位姿估计网络分别输入参考图像与邻近图像(即图像N)，输出两幅图像间相机相对位姿变换。然后将两个网络的输出结果通过曼哈顿法向量监督信号计算、共平面监督信号计算、深度图局部光滑监督信号计算、光度误差监督信号计算，得到各监督信号的损失值，最后通过总体损失函数计算，获得最终损失值，用于网络模型反向传播系数调整。

其中单目深度估计网络模型、相机位姿估计网络模型、深度图局部光滑监督信号计算、光度误差监督信号计算可参考现有技术方案，这里不展开介绍。而其中曼哈顿法向量监督信号计算、共平面监督信号计算、总体损失函数计算为本发明的关键步骤。以下分别予以阐述。

在曼哈顿法向量监督信号计算步骤中，首先利用消失点检测方法提取中间帧图像的主方向，将提取到的主方向及其反方向都考虑为场景中主要平面可能的法线方向，例如天花板、地板和墙面。

接着根据公式(1)得到深度图中每一个像素点p对应的三维坐标X_p，再通过一个可微的方法从点的三维坐标X_p计算得到点的法线方向n_p。公式(1)中D_p代表像素点p的深度值，K代表相机内参矩阵。

X_p＝D_pK^-1p 公式(1)

具体来说，p点的法线方向由p点周围7x7邻域上的点计算得来。将p点邻域上的点从左上起顺时针命名为1-8，按照{(i,j)|(i,j)∈{(3,5),(4,6),(7,1),(8,2)}}分为四组，通过公式(2)和公式(3)计算得到n_p。

n＝∑_i,j(X_p-X_i)×(X_j-X_p) 公式(2)

n_p＝n/‖n‖₂ 公式(3)

得到法线估计后，首先计算每个点的法线方向与可能的六个主方向之间的余弦相似度，选择最相似的主方向作为该点的曼哈顿主方向分类结果。在网络训练过程中，采用一个自适应阈值的方案来检测非曼哈顿区域，由于初始的法线估计不够准确，因此先设置一个比较小的阈值允许更多的像素被分类为曼哈顿区域，随着法线估计在后续的迭代中变得准确逐渐调高阈值。再对曼哈顿平面内的点进行表面法线n_p与主方向法线

的余弦距离误差计算，得到曼哈顿法线监督信号，计算流程如图2所示。该约束可由公式(4)描述，其中N_norm代表曼哈顿平面区域内的点数，

代表曼哈顿区域，

代表平面区域，s代表两个向量的余弦相似度。

在共平面约束监督信号计算步骤中，首先通过一个平面区域检测模块得到平面标签图，该模块整合颜色信息以及训练过程中不断更新的几何信息对平面区域进行检测。这个模块是一个基于图的分割模块，将图像的每个像素点作为图的节点，图的边由像素点之间的不相似度表示，两点之间的不相似度D_g(p,q)由公式(5)计算得到，包括了颜色I、法线n^align和平面到原点距离d三种信息。

这里使用对应的曼哈顿主方向法线代替每个点估计得到的法线，减轻噪声的影响。使用线性归一化对所有的不相似度进行处理，然后把法线不相似度和平面到原点距离不相似度直接相加作为几何不相似度，再通过归一化后取最大值的方式整合颜色不相似度和几何不相似度。按照不相似度从小到大的顺序逐一合并图的节点，最后过滤掉面积较小的区域，即可得到检测出的各平面区域。

在检测出平面区域后，使用共平面约束来展平位于这些平面区域的3D点。首先对平面区域内的3D点进行平面拟合。通过公式(6)解最小二乘问题得到平面参数θ，然后按照公式(7)计算平面深度

X^Tθ＝1 公式(6)

最后对平面区域内的点进行平面深度和估计深度的绝对误差计算，得到共平面约束监督信号，计算流程如图3所示。该约束可由公式(8)描述。

由前述曼哈顿法向量监督信号计算步骤和共平面约束监督信号计算步骤得到曼哈顿法向量监督信号L_norm以及共平面约束监督信号L_plane后，执行总体损失函数计算步骤。参考现有技术方案计算深度图局部光滑监督信号L_smooth和光度误差监督信号L_photo，最后对这四个监督信号进行系数加权求和，得到总体损失函数如公式(9)所示，式中λ₁、λ₂、λ₃分别为0.001，0.05，0.1。该总体损失用于网络模型反向传播系数调整，提升自监督单目深度估计网络整体性能。

L＝L_photo+λ₁L_smooth+λ₂L_norm+λ₃L_plane 公式(9)

以下为本发明的一个实施例的单次训练步骤说明，本实施例使用NYUv2数据集中的21465个真实场景图像序列作为训练集。

在准备步骤中，以图像序列作为训练数据，建立包括单目深度估计网络模型和相机位姿估计网络模型这两个卷积神经网络的整体训练模型的具体流程及内容如下：

首先参考图1建立单目深度估计网络模型和相机位姿估计网络模型这两个卷积神经网络的整体训练模型，然后从NYUv2训练集中获取一个图像序列，这个图像序列共包括五帧图像(-2，-1,0,1,2)，选取第0帧图像作为目标图像，如图4所示。

接着将第0帧图像送入单目深度估计网络模型进行训练，得到深度图，如图5所示。

在曼哈顿法向量监督信号计算步骤中，具体内容如下：

将目标图像进行曼哈顿主方向检测，得到主方向向量矩阵。

将目标图像的深度图代入到公式(1)中计算得到目标图像中所有点的三维坐标，再通过公式(2)和公式(3)计算所有点的法线向量，得到法线估计图，如图6所示。

该法线估计图与主方向向量矩阵进行余弦相似度计算，根据相似度最大及自适应阈值的判断得到每个点的曼哈顿分类结果，根据该分类结果将对应的曼哈顿主方向向量赋值到第0帧图像的每个像素坐标点上，得到曼哈顿主方向法线图，如图7所示。

将第0帧图像的法线估计图和曼哈顿主方向法线图代入到公式(4)中，计算得到曼哈顿法向量监督信号L_norm。

共平面监督信号计算步骤中，具体内容如下：

在计算共平面约束损失的步骤中，首先将第0帧图像、对应的所有点的三维坐标、曼哈顿主方向法线图通过基于图的分割步骤，得到第0帧图像的平面标签图，如图8所示。

然后将平面标签图和所有点的三维坐标代入公式(6)和公式(7)，得到拟合平面深度图。将拟合平面深度图与深度图代入公式(8)，计算得到共平面约束监督信号L_plane。

在向所述位姿估计网络分别输入所述参考图像与邻近图像，输出所述参考图像与所述邻近图像这两幅图像间相机相对位姿变换这一步骤中，具体内容如下：

将第0帧图像与其他帧图像两两组合，逐次送入位姿估计网络模型进行训练，得到各帧图像相对于第0帧图像的位姿变换矩阵。

在光度误差监督信号计算步骤中：

将相邻图像、相邻图像位姿变换矩阵、第0帧图像的深度图进行重投影，得到各相邻图像重建出来的伪第0帧图像，将伪第0帧图像和第0帧图像代入光度误差计算公式计算得到光度误差监督信号L_photo。

在深度图局部光滑监督信号计算步骤中：

将第0帧图像和深度图代入深度图局部光滑监督信号计算公式中得到深度图局部光滑监督信号L_smooth。

在总体损失函数计算步骤中：

在总体损失函数计算步骤中，将该图像序列计算得到的深度图局部光滑监督信号L_smooth、光度误差监督信号L_photo，共平面约束监督信号L_plane、曼哈顿法向量监督信号L_norm代入公式(9)，计算得到总体损失监督信号，将该信号进行反向传播，完成一次训练。重复多个图像序列的多次训练后，最终得到一个精度更高的单目深度估计模型。

图9为本发明一种实施例与其他算法生成的深度图在NYU数据集上的对比示意图，如图9所示，示出基于场景几何约束的室内单目深度估算方法和真实深度图、Monodepth2、P²Net的深度图在NYUv2室内数据集的对比示意图。

结合图9所示的对比图，表1为本发明对比Monodepth2、P2Net在NYUv2、ScanNet、InteriorNet三个室内场景数据集上的测试结果。其中RMSE代表均方根误差，δ代表准确率。

表1

参见表1所示，在三个不同的室内场景图像数据集上，本技术方案预测的深度图的均方根误差均小于其他算法，准确率大于其他算法。

综上，本发明的核心关键技术体现在以下三方面：

第一，结合室内几何结构特性的单目深度自监督训练整体流程。在单目深度估计自监督训练流程中引入了室内结构相关的监督信息，包括基于曼哈顿世界模型或者扩展曼哈顿世界模型(如亚特兰大世界模型)等信息。

第二，室内结构特性的方向性监督信息抽取方法。利用图像中投影灭点导出的主方向对场景表面法向量进行判断归类，将属于场景主要结构化平面(墙、天花板、地板等)表面法向量进行自动标注。

第三，训练过程中结合几何信息的室内环境平面区域抽取方法。共同利用图像与几何(深度/法向量等)信息进行平面区域自动识别。以及对几何信息在训练过程中随着模型的改进不断优化。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于场景几何约束的室内单目深度估算方法，其特征在于，包括以下步骤：

准备步骤；

深度图局部光滑监督信号计算步骤；

光度误差监督信号计算步骤；

曼哈顿法向量监督信号计算步骤；

共平面监督信号计算步骤；

总体损失函数计算步骤；

2.如权利要求1所述的基于场景几何约束的室内单目深度估算方法，其特征在于，所述曼哈顿法向量监督信号计算步骤还包括：根据公式X_p＝D_pK^-1p，得到深度图中每一个像素点p对应的三维坐标X_p，再通过一个可微的方法从点的三维坐标X_p计算得到点的法线方向n_p；

其中，D_p代表像素点p的深度值，K代表相机内参矩阵；

其中，p点的法线方向由p点周围7x7邻域上的点计算得来，具体为将p点邻域上的点从左上起顺时针命名为1-8，按照{(i，j)|(i，j)∈{(3，5)，(4，6)，(7，1)，(8，2)}}分为四组，通过以下公式计算得到n_p；

n＝∑_i，j(X_p-X_i)×(X_j-X_p)

n_p＝n/||n||₂。

3.如权利要求2所述的基于场景几何约束的室内单目深度估算方法，其特征在于，所述曼哈顿法向量监督信号计算步骤还包括：得到所述法线方向后，首先计算每个点的法线方向与可能的六个主方向之间的余弦相似度，选择最相似的主方向作为该点的曼哈顿主方向分类结果；在训练过程中，采用一个自适应阈值的方案来检测非曼哈顿区域；再对曼哈顿平面内的点进行表面法线n_p与主方向法线

的余弦距离误差计算，得到曼哈顿法线监督信号L_norm。

4.如权利要求3所述的基于场景几何约束的室内单目深度估算方法，其特征在于，计算所述曼哈顿法向量监督信号L_norm的公式为：

其中，N_norm代表曼哈顿平面区域内的点数，

代表曼哈顿区域，

代表平面区域，s代表两个向量的余弦相似度。

5.如权利要求4所述的基于场景几何约束的室内单目深度估算方法，其特征在于，所述共平面约束监督信号计算步骤包括：通过一个平面区域检测模块得到平面标签图；其中，所述平面区域检测模块整合颜色信息以及训练过程中不断更新的几何信息对平面区域进行检测；

所述平面区域检测模块是一个基于图的分割模块，将图像的每个像素点作为图的节点，图的边由像素点之间的不相似度表示，两点之间的所述不相似度D_g(p，q)由以下公式计算得到，

其中，I表示颜色、n^align表示法线，d表示平面到原点距离，

6.如权利要求5所述的基于场景几何约束的室内单目深度估算方法，其特征在于，所述共平面约束监督信号计算步骤还包括：在检测出所述平面区域后，对所述平面区域内的3D点进行平面拟合，通过解最小二乘问题得到平面参数θ，然后计算平面深度

其中，求解平面参数θ的公式为

X^Tθ＝1

计算平面深度

的公式为

7.如权利要求6所述的基于场景几何约束的室内单目深度估算方法，其特征在于，平面约束监督信号计算步骤还包括：

根据公式

8.如权利要求7所述的基于场景几何约束的室内单目深度估算方法，其特征在于，所述总体损失函数计算步骤包括：计算深度图局部光滑监督信号L_smooth和光度误差监督信号L_photo。

9.如权利要求8所述的基于场景几何约束的室内单目深度估算方法，其特征在于，所述总体损失函数计算步骤还包括：对所述深度图局部光滑监督信号L_smooth、所述光度误差监督信号L_photo，所述共平面约束监督信号L_plane、所述曼哈顿法向量监督信号L_norm进行系数加权求和，得到总体损失函数L的值。

10.如权利要求9所述的基于场景几何约束的室内单目深度估算方法，其特征在于，计算所述总体损失函数L的值的公式如下：

L＝L_photo+λ₁L_smooth+λ₂L_norm+λ₃L_plane

其中，λ₁、λ₂、λ₃分别为0.001，0.05，0.1。