CN109754417A

CN109754417A - 从图像中无监督学习几何结构的系统与方法

Info

Publication number: CN109754417A
Application number: CN201810962300.6A
Authority: CN
Inventors: 王鹏; 徐伟; 杨振恒
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2017-11-03
Filing date: 2018-08-22
Publication date: 2019-05-14
Anticipated expiration: 2038-08-22
Also published as: US20190139179A1; US10803546B2; CN109754417B

Abstract

提出了使用经由边缘感知深度‑法线一致性进行深度和法线估测的无监督学习框架从视频中进行3D重建的系统和方法。在实施方式中，这通过使用表面法线表征来实现。深度可通过观看未标记的视频在单个图像中重建。深度‑法线正则化约束估测的深度与预测的法线兼容以产生几何结构‑一致性并提高评估性能和训练速度。在实施方式中，一致性通过在深度卷积网络(DCN)内构造深度至法线层和法线至深度层来解决。在实施方式中，深度到法线层使用估测的深度基于相邻像素计算法线方向。给定了估测的法线，法线至深度层随后可输出正则化深度图。可利用图像内的边缘的感知来计算两个层。最后，为训练网络，可应用深度和法线两种预测的光度误差和梯度平滑度。

Description

从图像中无监督学习几何结构的系统与方法

技术领域

本申请涉及图像处理领域，更具体的，涉及从图像中无监督学习几何结构的系统与方法。

背景技术

人类完全能够实时地以非常精细的水准甚至于从单个图像中恢复所观察的自然场景的三维(3D)几何结构。可将执行单眼图像的重建的能力广泛应用至大量实际应用中，诸如增强现实和机器人。一类方法是通过特征匹配并估测相机及场景几何结构来解决该问题，例如，通过运动恢复结构(structure from motion，SFM)或颜色匹配(例如，密集追踪与映射(dense tracking and mapping，DTAM))。但这些技术对正确匹配敏感，并且在同质的区域中无效。执行3D重建的另一种方式是使用基于学习的方法，该方法可通过从视频中学习而逐渐地发现重建启示。目前，随着诸如全卷积网络(FCN)的像素级预测(pixel-wiseprediction)的发展，有监督的深度学习在诸如KITTI、NYUv2和SUN3D的公共数据集上实现了骄人成果。然而，对于随机视频而言，采集真值深度(ground truth depth)几乎不可能。有监督地学习模型难以泛化至不同场景的视频。

近来，Zhou等人于2017年在Computer Vision and Pattern Recognition(CVPR)上的“Unsupervised Learning of Depth and Ego-Motion from Video”(也可在arxiv.org/pdf/1704.07813.pdf处获得)(该内容通过引用以其整体并入本文)中提出从视频中学习单个图像深度FCN。在该方法的训练中，并非利用真值深度，而是基于预测深度和相对运动将目标图像扭曲到其它连续的视频帧，并匹配扭曲帧和观察帧之间的光度。随后，将匹配误差用作深度预测的监督。当立体像对可用时，将类似方法应用于深度预测。虽然这些方法能够执行单个图像深度估测，但其结果不能很好地表示场景结构，特别是在利用计算的法线进行可视化时。这主要是由于光度匹配模糊，即，源帧中的像素可与目标帧中的多个相似的像素匹配。虽然一些方法应用深度平滑来减少模糊，但对相邻的像素(可能具有相似的颜色)通常具有较弱的约束力，因而产生不一致的法线结果。

相应地，存在对克服现有方法的缺点的系统和方法的需要。

发明内容

本申请提供了一种在未标记图像集上训练用于预测图像中的深度的模型的方法，所述方法包括：使用在输入图像集上操作的运动网络获取相机姿势和掩模，所述输入图像集包括目标视图以及与所述目标视图相关的至少一个源视图；在深度网络中使用所述目标视图和基于所述目标视图的梯度图获取包括深度值的第一深度图，每个深度值与所述目标视图中的至少一个像素相关；在深度至法线层处，使用所述第一深度图和所述梯度图获取包括法线值的法线图；使用所述法线图、所述第一深度图和所述梯度图来利用法线至深度层估测第二深度图，所述法线至深度层在所述深度值中的至少一些与所述法线值中的至少一些之间使用局部正交兼容处理；通过使用所述第二深度图、所述相机姿势和所述掩模将所述源视图扭曲来生成合成的目标视图；基于所述目标视图与所述合成的目标视图的比较，在所述目标视图与所述源视图之间匹配像素颜色和图像梯度中的至少一项，以确定损失；以及反向传播与所述损失相关的误差以更新所述运动网络和所述深度网络中的至少一项的参数。

根据本申请实施方式，确定所述损失包括：使用与所述目标视图相关的第一图像梯度图以及与所述合成的目标视图相关的第二图像梯度图以使得能够在所述第一图像梯度图与所述第二图像梯度图之间匹配图像梯度误差。

根据本申请实施方式，确定所述损失包括：使用与所述深度图和所述法线图中的至少一项相关的平滑项。

根据本申请实施方式，估测所述第二深度图包括：使用所述法线值中的至少一些作为正则化，所述法线值在颜色相似的像素之间施加边缘感知深度-法线一致性约束。

根据本申请实施方式，正则化包括对相邻像素集中的像素分配权重，以使得具有相似颜色的像素的深度的权重比其它像素的深度的权重大，以减少由像素之间的颜色差异引起的深度模糊。

根据本申请实施方式，获取所述法线图包括：从所述相邻像素集生成像素对，以针对每个像素对计算差向量的叉积，所述差向量的平均项表示表面法线方向。

根据本申请实施方式，将所述源视图扭曲包括：将所述源视图反向扭曲到所述目标视图。

根据本申请实施方式，所述源视图包括在所述目标视图之前的图像和在所述目标视图之后的图像中的至少一项。

根据本申请实施方式，反向传播所述误差包括：向所述运动网络反向传播在相同平面中的初始像素与投影像素之间的颜色差异。

根据本申请实施方式，还包括：使用所述深度网络基于所述目标视图生成3D点云；以及使用所述相机姿势和所述掩模将所述3D点云投影至2D图像中的像素。

根据本申请实施方式，将所述3D点云投影至所述2D图像包括：在所述输入图像集中寻找相应的像素。

本申请还提供了一种在未标记图像集上训练用于预测图像中的深度的模型的系统，所述系统包括：一个或多个处理器；以及包括有一个或多个指令序列的一个或多个非暂时性计算机可读介质，当所述一个或多个指令序列由所述一个或多个处理器中的至少一个执行时，所述一个或多个指令序列产生待执行的步骤，所述步骤包括：在深度网络中，使用目标视图和梯度图来获取包括深度值的第一深度图，每个深度值与所述目标视图中的至少一个像素相关；在深度至法线层处，使用所述第一深度图和所述梯度图获取包括法线值的法线图；基于所述法线图、所述第一深度图和所述梯度图利用法线至深度层来计算第二深度图；使用所述法线图和所述第一深度图来利用法线至深度层估测第二深度图，所述估测使用在所述深度值中的至少一些与所述法线值中的至少一些之间的局部正交兼容处理；以及通过使用所述第二深度图、相机姿势和掩模将所述源视图扭曲来生成合成的目标视图。

根据本申请实施方式，使用将与所述目标视图相关的第一图像梯度和与所述合成的目标视图相关的第二图像梯度进行比较的损失函数，来减小所述第一图像梯度与所述第二图像梯度之间的图像梯度误差；以及将所述图像梯度误差反向传播通过所述深度网络和运动网络，以更新所述运动网络和所述深度网络中的至少一项的参数。

根据本申请实施方式，所述损失函数使表面法线正则化，以使得相似颜色的像素具有相似的表面法线。

根据本申请实施方式，计算所述法线图包括：从相邻像素集生成像素对，以针对每个像素对计算差向量的叉积，所述差向量的平均项表示表面法线方向。

根据本申请实施方式，还包括：通过对相邻像素集中的像素分配一个或多个深度权重以使得具有相似颜色的像素的深度的权重比其它像素的深度的权重大，从而使深度估测正则化，进而减小由像素之间的颜色差异引起的深度模糊。

根据本申请实施方式，基于所述梯度图计算所述一个或多个深度权重。

本申请还提供了一种用于估测图像的深度和法线值的方法，所述方法包括：将目标视图和基于所述目标视图的梯度图输入至包括深度至法线层和法线至深度层的深度模型中，所述深度模型已在未标记图像集上进行了训练以预测图像中的深度；基于所述目标视图和所述梯度图推断第一深度图；使用所述深度至法线层基于所述第一深度图推断法线图；使用所述法线至深度层和所述梯度图基于所述法线图推断第二深度图，所述法线图已被用在训练流程的法线至深度层中，以训练所述深度模型使深度估测正则化；以及输出所述第二深度图作为所述深度估测。

根据本申请实施方式，推断所述法线图包括：在所述法线图与所述深度图之间使用局部正交兼容处理。

根据本申请实施方式，还将图像梯度数据应用于所述深度至法线层以避免不兼容的像素。

附图说明

将参考本发明的实施方式，其示例可在附图中示出。这些附图旨在用于说明而非限制性的。虽然在这些实施方式的文本中大致描述了本发明，但是应理解，并非旨在将本发明的范围限定于这些特定实施方式。图中的各项未按比例示出。

图1示出了根据本公开的各种实施方式的框架。

图2A示出了根据本公开的各种实施方式的3D反向扭曲。

图2B示出了根据本公开的各种实施方式的双线性插值。

图3示出了根据本公开的各种实施方式的基于一对相邻像素计算法线。

图4是根据本公开的各种实施方式的用于在未标记图像集上训练模型以预测图像中的深度的流程图。

图5是根据本公开的各种实施方式的用于预测图像的深度和法线方向的流程图。

图6描绘了根据本发明的实施方式的信息处理系统的框图。

具体实施方式

在以下的描述中，出于说明的目的，对具体细节进行了阐述以提供对本发明的理解。然而，将对本领域技术人员显而易见的是，可在没有这些细节的情况下实践本发明。此外，本领域技术人员将认识到，下面所描述的本发明实施方式可以在有形的计算机可读介质上以诸如过程、设备、系统、装置或方法的各种方式来实施。

图中示出的部件或模块是对本发明示例性实施方式的说明，且意在避免使本发明不清楚。还应理解，在整个说明书中，部件可描述为可包含子单元的分立功能单元，但本领域技术人员将认识到各种部件或其部分可分成分立的部件或者可被集成在一起，包括集成在单个系统或部件中。应注意，本文所讨论的功能或操作可实施为部件。部件可以软件、硬件或二者的组合实现。

此外，附图中的部件或系统之间的连接并不旨在限制为直接连接。相反，这些部件之间的数据可通过中间部件修改、重新格式化或以其它方式改变。此外，可使用额外的或更少的连接。还应注意，措辞“联接”、“连接”或“通信地联接”应理解为包括直接连接、通过一个或多个中间装置的间接连接以及无线连接。

在本说明书中，对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的引述意为结合该实施方式描述的特定特征、结构、特性或功能被包含在本发明的至少一个实施方式中，并可被包含在不止一个实施方式中。此外，上述短语在本说明书各处的出现不必全部指示相同的一个或多个实施方式。

某些措辞在说明书各个地方中的使用是为了说明，而不应理解为限制。服务、功能或资源不限制为单个服务、功能或资源；这些术语的使用可指示可分散或集中的相关服务、功能或资源的群组。措辞“包括(include)”、“包括(including)”、“包括(comprise)”和“包括(comprising)”应理解为开放性措辞，且随后列出的任何内容均为示例，而并非意味着受所列项目的限制。本文中所使用的任何标题仅用于组织目的，而并非用于限制说明书或权利要求的范围。本专利文件中提到的各参考文献通过引用以其整体并入本文。

此外，本领域技术人员应认识到：(1)可选择性地执行某些步骤；(2)步骤可不限制为本文中提及的特定顺序；(3)某些步骤可以以不同的顺序执行；以及(4)某些步骤可同时进行。

在本文件中，术语“深度网络”和“深度层”可互换地使用，并且术语“法线网络”和“法线层”可互换地使用。类似地，“光度误差”和“颜色误差”可互换地使用。“法线”是指相对于2D或3D平面的值或法线方向，即，法向向量的值或方向。

A.总体介绍

本公开的实施方式涉及在单眼视频上训练的单个图像的基于学习的3D重建。各种实施方式利用对法线表征的明确感知来学习正则化3D几何结构。这是因为人类对法线方向比对深度估测更敏感。例如，人类可精确地识别出单个图像的每个像素处的表面的法线方向，而其只能粗略地了解绝对深度。因此，本公开的各种实施方式在网络内部结合了边缘感知深度-法线一致性约束，该一致性约束更好地正则化对深度的学习。在实施方式中，与现有方法相比，在这种约束的帮助下，所恢复的几何结构会更好。

估测法线有多种优点。例如，法线估测提供了对学习模型的法线的明确理解。此外，法线估测在估测的深度之间提供更高阶的交互，并且超出了局部相邻的关系。还可在法线上集成其它操作，例如，曼哈顿假设(Manhattan assumption)。由于在图像中的目标边缘处经常会出现深度/法线的不连续，因此各种实施方式将图像边缘合并至该约束中以补偿该不连续。

使用深度-法线一致性，获得了大量实验结果，实验结果显示在深度估测方面实现了对现有技术的显著改进以及在法线预测方面获得了改进。更重要的是，训练的收敛速度是现有方法的三倍。这些结果证明了本公开的各种实施方式在深度和法线二者的正确预测上的效率和有效性。

B.相关工作

从运动恢复结构和单视图几何结构。如引言章节中所讨论的，基于几何结构的方法(诸如，SFM，ORB-SLAM，DTAM)依赖于特征匹配，该特征匹配在许多情况下都可以是有效且高效的。然而，这些方法经常在低纹理处或者在视觉画面发生剧烈变化时等情况下失败。更重要的是，这些方法不能扩展至人类擅长的单视图重建。传统地，为单视图几何结构体开发了特定规则。现有方法取决于计算消失点，或取决于遵循双向反射分布函数(BRDF)的规则，或取决于利用主平面表征和边框表征来提取场景。通常，这些方法只能获得稀疏几何结构表征，并且这些方法中的一些需要某些假设。

经由卷积神经网络(CNN)实现的有监督的单视图几何结构。随着深度神经网络的发展及其强大的特征表征，可从单个图像中容易地估测密集几何结构(例如，像素级深度和法线图)。与基于手工的特征的其它策略相比，一个现有的学习后的CNN模型表现出显著的改进。一些方法尝试通过附加条件随机场(conditional random field，CRF)来进一步改进估测。然而，大多数方法将深度预测和法线预测视为独立任务。有人指出深度预测和法线预测在大平面区域上的相关性并使用密集CRF将预测正则化，这改进了深度和法线二者的结果。然而，通常，所有这些方法均需要密集标记的真值(ground truth)，在自然环境中进行这些真值的标记是高成本的。

无监督的单视图几何结构。当下，视频能够容易地获取到，并且比单个图像具有更丰富的3D信息。因此，是否可经由特征匹配从视频中学习单视图几何结构吸引了极大的兴趣。近来，基于这样的直觉提出了几种深度学习方法。例如，Deep3D通过立体像对的监督来学习从给定的左视图生成右视图。为了对深度值执行反向传播，该方法量化深度空间并训练选择正确的一个。一些方法应用与立体像对的监督相似的监督。在保持深度连续的同时，这些方法应用泰勒展开(Taylor expansion)来粗略估测深度梯度。一些方法将这种方法延伸成包括深度平滑损失和左右深度一致性。最近一种方法是将相机姿态估测引入至训练流程中，这使得能够从单眼视频进行深度学习，并使用可解释性模式来减少在刚性场景中移动目标的问题。一些作者提出了包括对刚性物体运动进行建模的网络。该网络主要是为视频的深度估测而开发的，但尚未将对几何结构预测也具有极高关注度的法线信息考虑至流程内部。

C.预备知识

介绍了为无监督学习流程而提出的一些预备知识。如上所述，一个主要思想涉及如图2中所示的利用3D几何结构的感知从目标视图到源视图的反向扭曲。图2A中示例了根据本公开的各种实施方式的反向扭曲，而图2B描绘了双线性插值。

多个视图之间的立体投影。令D(x_t)为目标视图在图像坐标x_t处的深度值，并且K为相机的固有参数。假设从目标视图到源视图的相对姿态是刚性变换T_t→s＝[R|t]∈S E(3)，且h(x)是给定x的齐次坐标。定位相应像素的立体扭曲可被公式化为，

D(x_s)h(x_s)＝KT_t→s D(x_t)K^-1h(x_t) (式1)

并且图像坐标x_s可通过D(x_s)h(x_s)去齐次化而获得。因此，x_s和x_t是一对匹配坐标，并且我们能够比较两者之间的相似度以验证结构的正确性。

视图合成的中的光度误差。给定目标视图202和源视图204之间的像素匹配对(即，I_t 252和I_s 254)，目标视图256可例如经由如图2B中所示的双线性插值250从给定的源视图204合成的。然后，在Lambertian假设和静态刚性场景的情况下，可利用平均光度误差来为目标视图202和相对姿势240恢复深度图D 230。然而，由于目标的移动和遮挡，使得该假设并不总是有效的。因此，可以引入可解释性掩模M来补偿这一点。形式上，掩模的光度误差为

其中，是扭曲的源视图集，并且为从目标视图到每个源视图的变换集。为可解释性掩模集，并且M_s(x_t)∈[0,1]对来自源视图s的x_t处的误差进行加权。

正则化。如先前所提到的，仅基于监督的光度误差是模糊的。一个像素可匹配多个候选项，特别是在低纹理区域中。此外，通过将所有值设置为零而得到可解释性掩模的简单解决方案。因此，在实施方式中，为减少深度模糊并鼓励非零掩模，可应用两个正则化项，

为空间平滑项，当没有图像梯度出现时，其沿着x和y两个方向惩罚深度的二阶梯度的L1范数，鼓励深度值在平坦表面上对准。这里，数字2表示深度的二阶导数。为掩模与具有值1的图之间的交叉熵。

在实施方式中，可将多尺度策略应用于深度输出，并且来自视频的深度估测的总损失可以是来自先前项的联合泛函，

在给定目标泛函的情况下，可通过应用监督学习过程的空间变换操作而将光度误差反向传播至深度网络、姿势网络和掩模网络。

D.利用边缘感知深度-法线一致性的几何结构估测

给定目标图像I，某些实施方式旨在学习同时估测深度和法线二者。在形式上，令N为由模型预测的法线集，在实施方式中，N可以嵌入到训练流程中并可用作深度估测D的正则化以训练更稳健的模型。

1.框架

图1示出了根据本公开的每个像素深度的各种输出的框架。框架100包括目标视图106、深度网络110、深度图D_t 112和法线图N_t 114、新的深度图116、深度至法线层140、法线至深度层150、反向扭曲166、一个或多个源视图180、运动网络164、相机姿势160和掩模162。

在实施方式中，在训练阶段，可从视图合成的应用监督。深度网络110使得目标视图106作为输入并输出每个像素深度图112，法线图114可基于该深度图112通过深度至法线层140生成。然后，给定深度图112和法线图114的情况，可例如通过使用深度与法线之间的局部正交相关来从法线至深度层150估测新的深度图116。两个层140、150均可使用图像梯度数据120来避免深度与法线转换140、150中所含有的不兼容像素。在实施方式中，与从运动网络164预测的相机姿势160和掩模162相结合的新的深度图116随后可被用于反向扭曲166一个或多个源视图180，以重建目标视图106。误差可经由两个网络110、164反向传播。

在实施方式中，法线表征可用作深度估测的正则化。此外，对于训练损失，除了光度重建损失之外，可在法线上添加平滑度，以在像素之间引起更高阶的相互作用。在实施方式中，在训练模型之后，在给定新图像的情况下，可推断出每个像素深度值，并且可计算法线值以在两个预测之间产生一致的结果。

2.深度与法线正交

在重建时，深度和法线强烈相关并遵循局部线性正交。形式上，对于每个像素x_i,，这种相关性可描写为对于线性等式集的二次最小化，

其中，φ(x)＝D(x)K^-1h(x),||N(x_i)||₂＝1，

ω_ji>0如果

其中，为x_i的预定义的相邻像素集，并且N(x_i)为3×1向量。φ(x)为从2D坐标x反投影的3D点。φ(x_j)-φ(x_i)为3D中的差向量，并且ω_ji用于为相对于x_i的像素x_j的等式加权，这将在下文进行更详细的讨论。

如章节B中所讨论的，大多数现有方法尝试独立地预测两条信息而不考虑这种相关性，而只有SURGE提出通过仅在大平面区域上执行CRF处理来应用一致性。在实施方式中，在整个图像上强制执行一致性，并将一致性直接应用于网络的正则化，以帮助模型学习。具体地，为了模型一致性，实施方式例如通过求解式5来利用两层，即，深度至法线层和法线至深度层。

从深度推断法线。在实施方式中，给定深度图D的情况下，对于每个点x_i，可从深度推断法线以获取N(x_i)。从式5中，限定了相邻像素和权重ω_ji，并随后求解该线性等式集。在实施方式中，使用八相邻像素式来计算法线方向，八相邻像素式比四相邻像素式的方法稳健得多。应理解的是，并非所有像素都必须被同等地加权，原因在于例如，附近可出现深度不连续和/或法线剧烈变化。在实施方式中，可基于图像梯度数据计算权重ω_ji。在实施方式中，为了计算ω_ji，具有与x_i相似颜色的相邻像素x_j的权重比在颜色上不相似的像素的权重大。形式上，ω_ji可被计算为ω_ji＝exp{α|I(x_j)-I(x_i)|}并且α＝0.1。

为使式5最小化，一种方法可应用标准的奇异值分解(SVD)来获得该解。在实施方式中，这种操作被嵌入到用于训练的网络中，并且梯度相对于输入深度反向传播。SVD在计算上对于反向传播是无效的。因此，在实施方式中，使用更简单且更高效的平均叉积来近似最小化。具体地，x_i＝[m,n]周围的8个相邻像素312可被分成4对，以使得像素中的每一对均在2D坐标空间中例如以逆时针顺序相对于x_i垂直，即，

然后，对于每一对，可计算差向量相对于x_i的叉积，并且可将计算的向量的平均方向设置为x_i的法线方向。形式上，法线的求解可被描写为

N(x_i)＝n/||n||₂ (式6)

使用一对像素计算x_i的法线方向352的过程示出在图3中，图3中示出了基于在一对相邻像素计算法线。如图3中所示，点x_i、_i1,、_i2是2D点，并且φ(x_i),、φ(x_i1)、φ(x_i2)是投影到3D空间350的对应点。在实施方式中，法线方向352N(x_i)可利用φ(x_i1)-φ(x_i)与φ(x_i2)-φ(x_i)之间的叉积来计算。

从法线计算深度。由于没有用于监督的真值法线，因而在实施方式中，从法线恢复深度以从光度误差接收监督。为了恢复深度，给定法线图N并使式5可解的情况下，在实施方式中，提供可能缺少法线平滑度的初始深度图D_o作为输入，例如，提供来自网络输出的深度图。然后，给定D_o(x_i)的情况下，x_i的每个相邻像素的深度解是唯一的并可容易地计算。形式上，令D_e(x_j|x_i)＝ψ(D_e(x_i),N(x_i))作为用于相邻像素x_j相对于x_i而计算的求解深度值。在实施方式中，当在整个图像上进行计算时，对于每一个像素，8个等式可针对8个相邻像素进行联合求解。在实施方式中，通过最小二乘估测(LSE，least squares estimation)，x_i深度的解为，

3.训练损失

给定一致性的情况下，为监督深度预测和法线预测二者，实施方式通过用法线至深度层D_n后的输出代替从网络D0的输出来直接将损失应用至例如式4中，以训练模型。实验(参见E章节)证明了在现有技术方法上使用类似网络结构在深度估测方面的显著改进。

实施方式在相邻法线值上使用平滑度以提供像素之间的更高阶交互。形式上，法线的平滑度可对于深度具有与式3中的具有相同的形式，同时第一阶梯度可被应用，即在实施方式中，在框架之间匹配相应的像素被用于寻找正确的几何结构。除了来自像素颜色匹配的光度误差之外，在实施方式中，由于匹配图像梯度对于照明变化更稳健，因而也可匹配图像梯度。在实施方式中，计算目标图像的梯度图和至少一个合成的目标图像，并将梯度匹配误差包括在损失函数中。在形式上，损失可表示为

以使得用于多尺度学习的学习目标可表示为

其中，D＝{D_nl}和是用于目标视图的深度图和法线图的集合。

模型训练。在实施方式中，可采用具有阶跃连接的DispNet网络结构。所有卷积层均可接续ReLU激活，例如，除了顶部预测层之外。例如，因为开始时太多的损失可能难以优化，因而可以从头开始训练网络。在实施方式中，两阶段训练策略包括利用具有5个周期(epoch)的训练网络，并随后通过使用1个周期的全损失来微调模型。将在下文提供每一项的消融研究(ablation study)。

图4是根据本公开的各种实施方式的用于在未标记图像集上训练模型以预测图像中的深度的流程图。在实施方式中，过程400使用(402)在输入图像集上操作的运动网络，以获得相机姿势和掩模。该图像集包括目标视图以及与目标视图相关的至少一个源视图。在实施方式中，源视图包括两个图像，一个在目标视图之前，一个在目标视图之后。

在实施方式中，过程400使用(404)深度网络中的目标视图来获取包括深度值的深度图。每个深度值可与目标视图中的一个或多个像素相关。

在实施方式中，在深度至法线层处，可使用(406)深度图和基于目标视图计算的图像梯度图来获取包括法线值的法线图。

在实施方式中，可使用(408)法线图、深度图和图像梯度图来例如通过使用法线至深度层估测第二深度图，其中，法线至深度层利用深度值与法线值之间的局部正交条件。

在实施方式中，可通过使用第二深度图、相机姿势和掩模将源视图扭曲或反向扭曲至例如目标视图，从而生成(410)合成的目标视图。

在实施方式中，估测第二深度图包括使用法线值作为正则化以在颜色相似的像素之间施加边缘感知深度-法线一致性约束。在实施方式中，可对相邻像素集中的像素分配权重，以使得具有相似颜色的像素的深度的权重比其它像素的深度的权重更大，以减少由像素之间的颜色差异而引起的深度模糊。在实施方式中，可从相邻像素集生成像素对，以针对每个像素对计算差向量的叉积。差向量的平均项可表示表面法线方向。

在实施方式中，基于目标视图和合成的目标视图的比较，可在目标视图与源视图之间匹配(412)像素颜色和/或图像梯度以确定损失。在实施方式中，确定损失包括使用与目标视图相关的图像梯度图以及与合成的目标视图相关的图像梯度图，来使得能够在两个图像梯度图之间匹配图像梯度误差。

在实施方式中，确定损失可包括使用与深度图和法线图中的至少一项相关的平滑项。

在实施方式中，可反向传播(414)与损失相关的误差，以更新运动网络和/或深度网络的参数。在实施方式中，反向传播误差包括向运动网络反向传播在相同平面中的初始像素与投影像素之间的颜色差异。

图5是根据本公开的各种实施方式的用于预测图像的深度和法线方向的流程图。在实施方式中，将目标图像输入(502)至包括深度至法线层和法线至深度层的深度模型。在实施方式中，深度模型已在未标记图像集上进行训练以预测图像中的深度和梯度。

在实施方式中，可基于目标图像和图像梯度图来推断(504)第一深度图。

在实施方式中，可使用(506)深度至法线层基于第一深度图和图像梯度图推断法线图，例如，通过利用法线图与深度图之间的局部正交兼容处理来推断法线图。

在实施方式中，可使用(508)法线至深度层基于法线图推断第二深度图。在实施方式中，法线图已被用在训练流程的法线至深度层中，以训练深度模型使深度估测正则化。在实施方式中，图像梯度数据可应用于深度至法线层以避免不兼容的像素。

最后，可输出(510)第二深度图作为深度估测。

E.实验

在本章节中，介绍了实施细节、数据集和评估指标。还介绍了框架的每个部分的贡献量的消融研究以及与其它有监督或无监督方法的性能比较。

1.实施细节

各种实施方式可使用诸如TensorFlow平台的公共可用平台进行实施，并且具有3400万可训练的变量。在训练期间，可应用Adam优化器，并且例如具有参数β₁＝0.9、β₂＝0.000、∈＝10^-8。学习率和批尺寸可分别设置为2×10^-3和4。在实施方式中，可使用λ_s和λ_m的损失平衡，并可通过比例因子来校正深度，例如通过设置λ_n＝1和λ_g＝λ_s来校正深度。

输入序列的长度可固定为3，并且输入帧可调整为128×416。在实施方式中，中间帧可视为目标图像，两个相邻图像可视为源图像。在实验中，网络在3个周期之后开始显示有意义的结果并且在第5个周期结束时收敛。使用Nvidia Titan X(Pascal)，训练过程可需要大约6个小时。实验结果表明，所需的周期数和绝对时间明显少于现有方法。

2.数据集和指标

训练。应注意，本发明的实施方式可在由相机(例如，单眼相机)拍摄的任何帧序列上进行训练。某些实施方式在例如包括未加工数据的数据集的已知数据集上进行评估，该未加工数据包括由立体相机从不同场景拍摄并具有已知图像尺寸的RGB和/或灰度视频。

在实施方式中，由左相机和右相机拍摄的视频可被用以训练并可被独立地处理。使用不包括来自测试场景和静态序列的帧的公共训练序列可产生任何数量的训练序列和验证序列。在实施方式中，不执行数据扩增。

测试。在实施方式中，可使用其它人所使用的相同的深度评估指标和法线评估指标以有助于性能的直接比较。对于深度评估，可使用现有代码(诸如Zhou等人提供的代码)，而对于法线评估，可实施法线计算的实施方式。可通过验证法线结果来验证正确性。

3.消融研究

为研究D章节中所提出的不同部件，可例如通过从完整模型中去除部件并评估结果来执行消融研究。

深度-法线一致性。通过去除法线至深度层(式7)，反向扭曲过程(章节C)拍摄图像并从输入直接预测深度图。这导致其性能低于完整模型的性能。在实施方式中，通过使用深度-法线一致性，该网络不仅表现更佳且收敛更快。例如，完整模型可在5个周期之后收敛，而没有这种一致性的网络可能在第15个周期时收敛。

平滑项中的图像梯度。在一个实施方式中，为验证式3中用于深度和法线平滑度的图像梯度，可将α设置成零。实验结果表明，这些实施方式具有比深度-法线一致性小的影响，但仍会增强性能。

法线-深度一致性中的图像梯度。在一个实施方式中，ω可在式5中设置成1，以使得在深度-法线一致性中不存在边缘感知。该结果不如在深度-法线一致性中使用图像梯度/边缘感知那样好，这证明了在颜色相似的像素之间强制执行一致性的有效性。

法线平滑度。在实施方式中，可将式8中的法线平滑度去除。这种实施方式可对深度具有比模型的其它部件小的影响，但仍具有合理的贡献。然而，法线平滑度对法线性能的贡献相对更大。

4.与其它方法的比较

实施方式使用内插的真值深度并重塑图像以改进可视化。对于深度和法线二者，某些实施方式的结果具有较少的伪像，更好地反映场景布局，并保留诸如汽车的更详细的结构。

当将根据本公开的各种实施方式的法线预测与从由Zhou等人预测的用作基准的深度图计算而得的法线预测进行比较时，对比所有指标，实施方式优于该基准。为确保模型学习得合理，可建立两个简单的基准。“真值法线平均”，使用真值法线定义所有像素的平均法线方向。“预定义场景”，使用连接每个图像角和图像中心的4条线将图像分成4部分。在实施方式中，底部可设置为具有向上指向的法线，左部设置为具有向右指向的法线，右部设置为具有向左指向的法线，并且顶部设置为具有向外指向的法线。在实验中，两个基准都表现得比本公开的实施方式明显更差，因此，证明了学习模型的正确性。

室内场景探索。除了室外数据集之外，实施方式可被应用于室内数据集。例如，作为初步实验的一部分，可选择数据集的子集并将其拆分用以训练和测试。根据本公开的各种实施方式的框架的质量结果表明，基准方法无法预测任何合理的深度图，而实施方式在具有多个交叉平面的场景上表现得相当好。

F.示例系统实施方式

本专利文献的各方面涉及信息处理系统。对于本公开的目的，信息处理系统可包括可操作为通过计算机计算、计算、确定、分类、处理、发送、接收、检索、起源、路由、切换、存储、显示、通信、显现、检测、记录、复制、处理或利用用于商业、科学、控制或其它目的的信息、智能或数据的任何形式的任何工具或工具的集合。例如，信息处理系统可以是个人计算机(例如，台式或膝上型计算机)、平板计算机、移动装置(例如，个人数字助理(PDA)或智能电话)、服务器(例如，刀片式服务器或机架式服务器)、网络存储装置或任何其它合适的装置，并可在尺寸、形状、性能、功能和价格上不相同。信息处理系统可包括随机存取存储器(RAM)、诸如中央处理单元(CPU)或硬件或软件控制逻辑的一个或多个处理资源、ROM和/或其它类型的非易失性存储器。信息处理系统的附加部件可包括一个或多个磁盘驱动器、用于与外部装置通信的一个或多个网络端口以及诸如键盘、鼠标、触摸屏和/或视频显示器的各种输入和输出(I/O)装置。信息处理系统还可包括可操作为在各种硬件部件之间传输通信的一个或多个总线。

图6描绘了根据本公开实施方式的计算装置/信息处理系统(或计算系统)的简化框图。将理解，系统600所显示的功能可操作为支持计算系统的各种实施方式—尽管应理解，计算系统可不同地配置并包括不同部件，包括具有比如图6中描绘的部件更少或更多的部件。

如图6中所示，计算系统600包括一个或多个提供计算资源并控制计算机的中央处理单元(CPU)601。CPU 601可实施为微处理器等，并且也可包括一个或多个图形处理单元(GPU)619和/或用于数学计算的浮点协处理器。系统600还可包括系统存储器602，其可以表现为随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

如图6中所示，还可提供多个控制器和外围装置。输入控制器603表示对诸如键盘、鼠标、触摸屏和/或手写笔的多种输入装置604的接口。计算系统600还可包括用于与一个或多个存储装置608接口连接的存储器控制器607，其中，每个存储装置608包括诸如磁带或磁盘的存储介质，或者可用于记录用于操作系统、实用程序和应用的指令程序的光学介质，其中指令程序可包括实施本发明各方面的程序的实施方式。根据本发明，一个或多个存储装置608也可用于存储经处理数据或待处理数据。系统600也可包括用于提供对显示装置611的接口的显示控制器609，显示装置611可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其它类型的显示器。计算系统600也可包括用于一个或多个外围装置606的一个或多个外设控制器或接口605。外围装置的示例可包括一个或多个打印机、扫描仪、输入装置、输出装置、传感器等。通信控制器614可与一个或多个通信装置615接口连接，使得系统600能够通过各种网络中的任一网络或通过包括红外信号的任何合适的电磁载波信号与远程装置连接，其中，各种网络包括互联网、云资源(例如，以太网云、以太网上的光纤信道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN)。

在示出的系统中，所有主要系统部件可连接至总线616，总线616可表示多个物理总线。然而，各种系统部件可以或可以不彼此物理地接近。例如，输入数据和/或输出数据可从一个物理位置远程传输到另一个物理位置。另外，实现本发明各方面的程序可通过网络从远程位置(例如，服务器)访问。这种数据和/或程序可通过各种机器可读介质中的任一介质来传输，各种机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪存装置以及ROM和RAM装置的专门配置成存储或专门配置成存储并执行程序代码的硬件装置。

本发明的各方面可通过一个或多个处理器或处理单元的指令来编码在一个或多个非暂时性计算机可读介质上，以使得步骤被执行。应注意，一个或多个非暂时性计算机可读介质应包括易失性和非易失性存储器。应注意，替代性实现方式是可行的，包括硬件实现或软件/硬件实现。硬件实现的功能可使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的“装置”术语旨在涵盖软件和硬件实现。相似地，如本文中所使用的术语“一个或多个计算机可读介质”包括具有在其上承载的指令程序的软件和/或硬件或其组合。考虑到这些实现方式的替代方案，应理解，附图和所附描述提供了本领域技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以进行所需的处理所需的功能信息。

应注意，本发明实施方式还可涉及具有非暂时性有形计算机可读介质的计算机产品，其中，非暂时性有形计算机可读介质的计算机产品具有用于在其上进行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本发明的目的而专门设计和构造的介质和计算机代码，或者它们可以是相关领域的技术人员已知或可用的类型。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪存装置以及ROM和RAM装置的专门配置成存储或专门配置成存储并执行程序代码的硬件装置。计算机代码的示例包括如由编译器产生的机器代码、以及包含由使用解释器的计算机执行的更高级代码的文件。本发明实施方式可全部或部分地实现为机器可执行指令，机器可执行指令可处于由处理装置执行的程序模块中。程序模块的示例包括库、程序、例程、对象、部件和数据结构。在分布式计算环境中，程序模块可物理地定位在本地、远程或两者的设置中。

本领域技术人员将认识到，计算系统或编程语言对于本发明的实践不是关键的。本领域技术人员还将认识到，上面描述的多个元件可物理地和/或功能性地分成子模块或者组合在一起。

本领域技术人员将理解，前面的示例和实施方式是示例性的，而不限制本公开的范围。本领域技术人员在阅读说明书并研究附图之后显而易见的所有变换、增强、等同、组合和改进均包括在本公开的精髓和范围内。还应注意，任何权利要求的要素可被不同地布置，包括具有多项引用、配置和组合。

Claims

1.在未标记图像集上训练用于预测图像中的深度的模型的方法，所述方法包括：

使用在输入图像集上操作的运动网络获取相机姿势和掩模，所述输入图像集包括目标视图以及与所述目标视图相关的至少一个源视图；

在深度网络中使用所述目标视图和基于所述目标视图的梯度图获取包括深度值的第一深度图，每个深度值与所述目标视图中的至少一个像素相关；

在深度至法线层处，使用所述第一深度图和所述梯度图获取包括法线值的法线图；

使用所述法线图、所述第一深度图和所述梯度图来利用法线至深度层估测第二深度图，所述法线至深度层在所述深度值中的至少一些与所述法线值中的至少一些之间使用局部正交兼容处理；

通过使用所述第二深度图、所述相机姿势和所述掩模将所述源视图扭曲来生成合成的目标视图；

基于所述目标视图与所述合成的目标视图的比较，在所述目标视图与所述源视图之间匹配像素颜色和图像梯度中的至少一项，以确定损失；以及

反向传播与所述损失相关的误差以更新所述运动网络和所述深度网络中的至少一项的参数。

2.根据权利要求1所述的方法，其中，确定所述损失包括：使用与所述目标视图相关的第一图像梯度图以及与所述合成的目标视图相关的第二图像梯度图以使得能够在所述第一图像梯度图与所述第二图像梯度图之间匹配图像梯度误差。

3.根据权利要求1所述的方法，其中，确定所述损失包括：使用与所述深度图和所述法线图中的至少一项相关的平滑项。

4.根据权利要求1所述的方法，其中，估测所述第二深度图包括：使用所述法线值中的至少一些作为正则化，所述法线值在颜色相似的像素之间施加边缘感知深度-法线一致性约束。

5.根据权利要求4所述的方法，其中，正则化包括对相邻像素集中的像素分配权重，以使得具有相似颜色的像素的深度的权重比其它像素的深度的权重大，以减少由像素之间的颜色差异引起的深度模糊。

6.根据权利要求5所述的方法，其中，获取所述法线图包括：从所述相邻像素集生成像素对，以针对每个像素对计算差向量的叉积，所述差向量的平均项表示表面法线方向。

7.根据权利要求1所述的方法，其中，将所述源视图扭曲包括：将所述源视图反向扭曲到所述目标视图。

8.根据权利要求1所述的方法，其中，所述源视图包括在所述目标视图之前的图像和在所述目标视图之后的图像中的至少一项。

9.根据权利要求1所述的方法，其中，反向传播所述误差包括：向所述运动网络反向传播在相同平面中的初始像素与投影像素之间的颜色差异。

10.根据权利要求1所述的方法，还包括：

使用所述深度网络基于所述目标视图生成3D点云；以及

使用所述相机姿势和所述掩模将所述3D点云投影至2D图像中的像素。

11.根据权利要求10所述的方法，其中，将所述3D点云投影至所述2D图像包括：在所述输入图像集中寻找相应的像素。

12.在未标记图像集上训练用于预测图像中的深度的模型的系统，所述系统包括：

一个或多个处理器；以及

包括有一个或多个指令序列的一个或多个非暂时性计算机可读介质，当所述一个或多个指令序列由所述一个或多个处理器中的至少一个执行时，所述一个或多个指令序列产生待执行的步骤，所述步骤包括：

在深度网络中，使用目标视图和梯度图来获取包括深度值的第一深度图，每个深度值与所述目标视图中的至少一个像素相关；

基于所述法线图、所述第一深度图和所述梯度图利用法线至深度层来计算第二深度图；

使用所述法线图和所述第一深度图来利用法线至深度层估测第二深度图，所述估测使用在所述深度值中的至少一些与所述法线值中的至少一些之间的局部正交兼容处理；以及

通过使用所述第二深度图、相机姿势和掩模将所述源视图扭曲来生成合成的目标视图。

13.根据权利要求12所述的系统，还包括：

使用将与所述目标视图相关的第一图像梯度和与所述合成的目标视图相关的第二图像梯度进行比较的损失函数，来减小所述第一图像梯度与所述第二图像梯度之间的图像梯度误差；以及

将所述图像梯度误差反向传播通过所述深度网络和运动网络，以更新所述运动网络和所述深度网络中的至少一项的参数。

14.根据权利要求13所述的系统，其中，所述损失函数使表面法线正则化，以使得相似颜色的像素具有相似的表面法线。

15.根据权利要求12所述的系统，其中，计算所述法线图包括：从相邻像素集生成像素对，以针对每个像素对计算差向量的叉积，所述差向量的平均项表示表面法线方向。

16.根据权利要求12所述的系统，还包括：通过对相邻像素集中的像素分配一个或多个深度权重以使得具有相似颜色的像素的深度的权重比其它像素的深度的权重大，从而使深度估测正则化，进而减小由像素之间的颜色差异引起的深度模糊。

17.根据权利要求16所述的系统，其中，基于所述梯度图计算所述一个或多个深度权重。

18.用于估测图像的深度和法线值的方法，所述方法包括：

将目标视图和基于所述目标视图的梯度图输入至包括深度至法线层和法线至深度层的深度模型中，所述深度模型已在未标记图像集上进行了训练以预测图像中的深度；

基于所述目标视图和所述梯度图推断第一深度图；

使用所述深度至法线层基于所述第一深度图推断法线图；

使用所述法线至深度层和所述梯度图基于所述法线图推断第二深度图，所述法线图已被用在训练流程的法线至深度层中，以训练所述深度模型使深度估测正则化；以及

输出所述第二深度图作为所述深度估测。

19.根据权利要求18所述的方法，其中，推断所述法线图包括：在所述法线图与所述深度图之间使用局部正交兼容处理。

20.根据权利要求18所述的方法，还将图像梯度数据应用于所述深度至法线层以避免不兼容的像素。