CN108885701A

CN108885701A - 使用机器学习的根据飞行时间的深度

Info

Publication number: CN108885701A
Application number: CN201780016747.8A
Authority: CN
Inventors: S·诺沃津恩; A·亚当; S·马佐尔; O·雅伊尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-03-13
Filing date: 2017-03-06
Publication date: 2018-11-23
Anticipated expiration: 2037-03-06
Also published as: US10311378B2; US20170262768A1; US9760837B1; CN108885701B; EP3430571A1; WO2017160516A1; US20180129973A1

Abstract

描述了一种深度检测装置，其具有存储从飞行时间传感器接收的原始飞行时间传感器数据的存储器。深度检测装置还具有已经使用训练数据对而得以训练的经训练机器学习组件。训练数据对包括至少一个模拟原始飞行时间传感器数据值和对应的模拟真实深度值。经训练机器学习组件被配置为在单个阶段中针对所存储的原始飞行时间传感器数据的项、通过推送该项通过经训练机器学习组件来计算由该项描绘的表面的深度值。

Description

使用机器学习的根据飞行时间的深度

背景技术

飞行时间(TOF)相机越来越多地用于各种应用中，例如，人机交互、汽车应用、测量应用和机器视觉。TOF相机可以用于计算深度图，深度图包含与从相机到场景中的对象的深度有关的信息。深度是指距离在从相机延伸的假想线上的投影，其中距离是绝对径向距离。TOF相机处的光源照亮场景，并且光线被场景中的对象反射。相机接收反射光，反射光取决于对象到相机的距离而经历延迟。鉴于光速已知的这一事实，深度图是可计算的。

然而，飞行时间测量受到很多误差和不确定性的影响，这些误差和不确定性导致所计算的深度图中的误差。例如，反射光经常经历来自场景内不同表面的多次反射，这导致所计算的深度的显著误差。

下面描述的实施例不限于解决已知TOF相机或TOF数据处理系统的任何或所有缺点的实施方式。

发明内容

下文呈现对本公开的简化概述，以向读者提供基本的理解。本发明内容既不旨在识别所要求保护的主题的关键特征或者本质特征，也不旨在用于限制所要求保护的主题的范围。其唯一的目的是以简化的形式呈现对本文公开的构思的选择，以作为稍后呈现的更详细的描述的前序。

将更容易理解很多伴随特征，因为通过参考结合附图考虑的以下具体实施方式，这些特征将变得更好理解。

附图说明

从以下根据附图阅读的具体实施方式中将更好地理解本说明书，在附图中：

图1是使用飞行时间相机部署的经训练机器学习组件的示意图；

图2是飞行时间相机的示意图；

图3是使用诸如图1的经训练机器学习组件等经训练机器学习组件的方法的流程图；

图4是使用图1的布置和各种其他布置来计算的深度值的经验结果的曲线图；

图5是用于创建诸如图1所示的经训练机器学习组件等经训练机器学习组件的组件的示意图；

图6是用于生成诸如图5的训练数据对等训练数据对的组件的示意图；

图7是由诸如图6的飞行时间模拟器等飞行时间模拟器输出的数据的曲线图；

图8是使用诸如图6的训练数据对等训练数据对来训练随机决策森林的方法的流程图；

图9是多个随机决策树的示意图；

图10是在测试时间使用经训练随机决策森林的方法的流程图，诸如图1的经训练机器学习组件；

图11是使用诸如图6的训练数据对等训练数据对来训练卷积神经网络的方法的流程图；

图12是使用经训练卷积神经网络的流程图；

图13示出了示例性的基于计算的设备，其中实现了用于与飞行时间相机一起使用的经训练机器学习组件的实施例。

在附图中，相同的附图标记用于表示相同的组件。

具体实施方式

以下结合附图提供的具体实施方式旨在作为对本示例的描述，并非旨在表示构造或利用本示例的唯一形式。本描述阐述了示例的功能以及用于构造和操作示例的操作序列。然而，相同或等同的功能和序列可以通过不同的示例来实现。

飞行时间相机输出原始传感器数据，原始传感器数据然后被处理以导出深度值。处理原始传感器数据以计算深度值的动作是耗时且复杂的。另外，由于原始传感器数据中的多径干涉和噪声，所计算的深度值遭受不准确性。然而，飞行时间相机越来越多地用于实时应用和/或需要高度准确的深度值的情况。例如，手部跟踪、身体跟踪、3D场景重建等。

通过使用如本文中描述的经训练机器学习系统，可以实时地从原始飞行时间传感器数据直接导出高度准确的深度值。这是在单个阶段实现的，而无需使用常规的非机器学习方法来计算深度值。经训练机器学习系统将原始飞行时间传感器数据作为输入并且计算深度值作为输出，其中深度值已经考虑了多径干涉并且可选地还考虑了传感器噪声。因为存在单个阶段，这提高了计算深度值的速度。例如，不需要计算深度值并且然后随后处理深度值以校正多径干涉和/或传感器噪声。该结果给出了更好的计算设备，其能够使用从一个或多个飞行时间传感器获取的准确的深度值来控制下游系统。从终端用户的角度来看，可用性得到了改善，因为准确的深度值提供了与现实的更好的对应性，诸如用于手部跟踪、身体跟踪、增强现实等。

机器学习系统已经使用成对的模拟原始飞行时间传感器数据的帧和对应的深度图而得以训练。模拟原始飞行时间传感器数据的帧使用经修改的计算机图形渲染器来计算，如下面更详细描述的。模拟原始飞行时间传感器数据的帧在假定发生多径干涉的情况下被模拟。因此，可以学习从模拟原始飞行时间传感器数据直接到已经针对多径干涉而被校正的深度值的映射。不需要应用后续阶段来针对多径干涉校正深度值。结果是，处理显著简化并且加速。因为该处理比两阶段处理更简单，所以该处理可以在专用芯片、现场可编程门阵列(FPGA)等上实现。这在该处理要在飞行时间相机本身处或在资源受限设备(诸如具有整体飞行时间相机的可穿戴或移动计算设备)上执行时尤其有用。

本文中描述的机器学习组件被发现能够提供高度准确的深度值，尤其是对于使用现有方法难以准确计算深度值的情况。例如，在房间的角落处，在地板与墙壁相交的地方，在墙壁与天花板相交的地方，在高反射表面的情况下，诸如擦亮的地板等。准确度的提高被认为至少部分归因于机器学习组件已经利用特定类型的训练数据而得以训练的这一事实。

图1是包括存储器122和经训练机器学习组件124的深度检测装置100的示意图。可以是相位调制飞行时间深度相机或门控飞行时间深度相机(或另一未来类型的TOF相机)的飞行时间相机104捕获描绘场景102的原始传感器数据流108。在一些示例中，场景102中的一个或多个对象和/或飞行时间相机本身正在移动。例如，在图1的场景中，场景包括做侧手翻的儿童，使得在场景中有若干移动的对象(儿童的四肢)。飞行时间相机壁挂在房间中，或者在一些示例中是身体佩戴式的或头戴式的或安装在机器人或车辆上的。

原始传感器数据流108包括已经由飞行时间相机捕获的多个原始传感器数据帧。例如，对于某些类型的飞行时间相机，原始传感器数据帧包括：针对相机传感器的每个像素，作为反射光的幅度和相位测量的复数。例如，对于另一种类型的飞行时间相机，原始传感器数据帧包括：针对相机传感器的每个像素，对于不同的曝光时段，在像素处感测的反射光的多个强度值。

飞行时间相机使用一个或多个测量模式106，测量模式也称为曝光简档。测量模式是要在相机捕获原始传感器数据帧时使用的飞行时间相机的可配置参数的一组值。在不同测量模式106可用的情况下，飞行时间相机能够使用不同的测量模式捕获不同的帧。

原始传感器数据流108被输入到包括存储器122和经训练机器学习组件124的深度检测装置100。经训练机器学习组件124在单个阶段过程中计算深度图或各个像素的深度值，这个单个阶段过程考虑多径干涉和/或传感器噪声，以便输出准确的深度图流110。深度图包括多个深度值，每个深度值针对飞行时间图像传感器的单个像素。在一些示例中，输出各个像素的深度值。在一些示例中，经训练机器学习组件100还输出与深度值相关联的不确定性数据。深度值流110和可选的不确定性数据被输入到下游系统112，诸如场景重建引擎114、手势检测系统116、增强现实系统118、非触摸用户界面120等。

在一些示例中，深度检测装置100实时地操作。在一些情况下，深度检测装置100与飞行时间相机104是一体的。在一些情况下，深度检测装置100在计算设备中，诸如智能电话、平板电脑、头戴式增强现实计算设备、或具有飞行时间相机的其他计算设备。存储器122保存来自流108的原始飞行时间传感器数据，并且使该数据可被经训练机器学习组件124用于处理。经训练机器学习组件124已经使用成对的模拟原始飞行时间传感器数据的帧和对应的深度图而得以训练。模拟原始飞行时间传感器数据的帧在假定发生多径干涉的情况下被模拟。在一些示例中，经训练机器学习组件124已经使用成对的与各个传感器像素相关联的原始飞行时间传感器数据值和对应的深度值而得以训练。

在一些示例中，经训练机器学习组件124包括经训练回归器，诸如随机决策森林、有向无环图、支持向量机、神经网络或其他经训练回归器。在一些示例中，经训练回归器是经训练的像素无关回归器，因为该经训练回归器使用包括各个像素和相关联的各个深度值的对而得以训练，并且其中不考虑对之间的依赖性。在其他示例中，经训练回归器确实考虑了各个像素之间的依赖性。确实考虑了各个像素之间的依赖性的经训练回归器的一个示例是卷积神经网络。经训练回归器是像素无关回归器的一个示例是随机决策森林，随机决策森林在下面参考图8至图10给出。下面参考图11至图12给出其中经训练回归器是考虑到像素之间的依赖性的卷积神经网络的示例。

图2是飞行时间深度相机200的示意图，飞行时间深度相机200是相位调制飞行时间深度相机或门控飞行时间深度相机或任何其他未来类型的飞行时间深度相机。飞行时间相机200包括发射光源202。在一个示例中，发射光源是非相干光源。在另一示例中，发射光源是相干光源。合适的光源的示例是近红外激光器或发光二极管(LED)，然而可以使用另一种适当的光源。在相位调制飞行时间相机的情况下，以调制频率来调制发射光。在一个示例中，调制频率可以是在kHz-GHz(千赫兹到千兆赫兹)范围内的射频(RF)频率，例如调制频率可以在MHz(兆赫兹)范围内。在门控飞行时间相机的情况下，发射光是脉冲的，其中脉冲可以具有皮秒到纳秒的持续时间。

飞行时间深度相机包括接收从场景内的物体反射的光的图像传感器204。该图像传感器204包括电荷耦合器件(CCD)传感器、互补金属氧化物半导体(CMOS)传感器(例如光子混合器器件(PMD)传感器)或者被布置为检测从相机范围内的物体、人和表面反射的光的其他合适的传感器。在门控飞行时间相机的情况下，图像传感器204具有与由光源发出的脉冲的持续时间兼容的分辨率。

相机包括被布置为聚集来自环境的反射光并且将其聚焦到图像传感器204上的光学系统206。在示例中，光学系统包括光学带通滤波器，该光学带通滤波器仅允许波长与光源相同的光被传感器接收。使用光学带通滤波器有助于抑制背景光。相机包括驱动器电子器件208，该驱动器电子器件208控制光源和图像传感器，例如以使得能够进行高度精确的相位差测量，或者以使得能够发出一系列光脉冲并且使得图像传感器被打开和关闭。可以电子地而不是利用物理快门来打开和关闭图像传感器。

在一个示例中，相机包括处理器208和存储器210，存储器210存储原始飞行时间数据、深度图和其他数据。在一些示例中，经训练机器学习组件214在相机212处可用，并且在其他示例中，这个经训练机器学习组件在接收并且处理来自相机的原始传感器数据的另一计算设备处。在经训练机器学习组件214在相机212处的情况下，它包括存储在存储器210中并且在某些情况下在处理器208处执行的软件。在一些示例中，经训练机器学习组件214是FPGA或专用芯片。例如，经训练机器学习组件214的功能全部或部分地由一个或多个硬件逻辑组件实现。例如但不限于，可以使用的说明性类型的硬件逻辑组件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)系统、复杂可编程逻辑器件(CPLD)、图形处理单元(GPU)。

经训练机器学习组件214被布置为执行本文中关于图3、图10、图12描述的方法，以便以允许多径干涉的方式、根据原始飞行时间数据流、使用单个阶段来实时地计算深度。这是在不需要计算对深度值的校正并在已经计算深度值之后应用那些校正的情况下实现的。

图3是深度检测装置100处的方法的流程图。从飞行时间相机104接收原始传感器数据并且将其存储在存储器122处。检查302这个过程是否要计算邻域。这个决定根据用户输入或操作员在制造期间配置的设置来做出。在一些示例中，深度检测装置根据捕获的传感器数据或其他传感器数据(诸如检测飞行时间相机的运动的传感器)的性质来自动确定是否要计算邻域。

在不计算邻域的情况下，深度检测装置将原始传感器数据300输入306到经训练机器学习组件。输入过程包括输入与各个像素相关联的原始传感器数据和/或原始传感器数据的全部帧。结果是，深度检测装置从经训练机器学习组件接收308(多个)深度值和可选的不确定性数据。在一些情况下，深度检测装置实时地输出310深度值以及不确定性数据。实时表示接收的原始传感器数据300的速率至少与在操作310处的输出深度值的输出速率相匹配。当接收到300更多的原始传感器数据时，重复图3的过程。

在计算邻域的情况下，深度检测装置在当前考虑下聚合304像素的邻域中的像素的原始传感器数据值。邻域是空间邻域或时间邻域或空间和时间邻域的组合。

在操作306处，将聚合的原始传感器数据值输入到经训练机器学习组件。在这种情况下，经训练机器学习组件已经使用已经以相同方式聚合的训练数据而得以训练。在使用时间邻域的情况下，训练数据允许相机与场景之间的移动。例如，由于场景中的对象移动和/或由于相机移动。这是通过使用相机与场景之间的运动模型来实现的。

机器学习系统在操作308处输出与邻域相关联的深度值，并且该过程继续进行操作310并且返回到如上所述的操作300。

下表具有经验数据，这些经验数据证明，与使用可以进行推断的飞行时间的概率生成模型的备选方法相比，图1的深度检测装置100如何改善了准确性。为了获取下表和图4的图表的数据，备选方法使用与本方法相同的条件，诸如每帧的曝光次数。备选方法的结果在下表中被标记为“生成”的列中。飞行时间的概率生成模型是使用可能性来表达的描述，其描述了在特定成像条件下飞行时间相机如何生成原始飞行时间数据，特定成像条件包括：生成在相机处接收的反射光的表面的反射率(也称为反照率)、表面的照明和表面到相机的深度。可以在概率生成模型上进行推断，使得在给定已知成像条件的情况下，可以推断出对应的原始传感器数据，反之亦然。概率生成模型考虑了每个像素的反射光的单个路径。在备选方法中，使用原始飞行时间传感器数据、根据概率生成模型或根据概率生成模型的近似来计算深度值。

从下表中可以看出，本方法具有略低的中值误差，但最大的改进是在最大误差方面。在深度误差大于5厘米的情况下，深度值误差的数减少44％。

图4是上表的经验数据和另外的经验数据的累积分布图。图4的曲线图关于以毫米为单位的阈值的大小绘制了深度误差小于阈值的概率。线400指示针对使用上述生成模型的方法的数据，并且线402、404、406指示针对使用飞行时间相机的每帧四次曝光(线402)、每帧六次曝光(线406)或每帧8次曝光(线404)的本方法的数据。可以看出，生成方法给出了最差的性能。

图5是如何创建诸如图1的组件124等经训练机器学习组件的示意图。数百万个训练数据对(或更多)存储在数据库500或其他存储器中。在一些示例中，训练数据对包括模拟原始飞行时间传感器数据的帧和对应的真实深度图。在一些示例中，训练数据对包括与传感器的一个像素相关联的多个原始传感器数据值以及与该像素相关联的真实深度值。在一些示例中，训练数据对包括在传感器的一个像素周围的空间或时间邻域上聚合的多个聚合的原始传感器数据值以及与该像素相关联的真实深度值。原始传感器数据值从飞行时间模拟器获取，该飞行时间模拟器模拟多径干涉作为模拟的一部分。飞行时间模拟器包括渲染器606和视点选择器604，并且示例参考图6更详细地描述。飞行时间模拟器相对复杂，并且不可能像上面提到的飞行时间的生成模型一样在飞行时间模拟器上进行推断。

训练器504访问训练数据对500并且使用它们来训练和产生经训练机器学习组件506，诸如随机决策森林、卷积神经网络、支持向量机或其他经训练回归器。然后可以如上面关于图1和图3所述地使用所得到的经训练机器学习组件506。用于训练机器学习组件的训练数据类型对应于在测试时间输入到机器学习组件的数据类型。测试时间是机器学习组件可操作以根据先前未见过的原始传感器数据来计算深度值的时间。通过使用各种训练数据示例，经训练机器学习系统的性能在准确性方面和在推广到与训练示例不同的示例的能力方面都得到改善。但是，很难获取适当的训练数据。现在参考图6描述获取各种训练数据的方法。

图6是飞行时间模拟器602和用于创建诸如上面参考图5描述的训练数据对的训练数据对626的其他组件的示意图。

飞行时间模拟器602包括渲染器606，诸如计算机图形渲染器，其使用光线跟踪来渲染来自3D对象或环境的模型的图像。渲染器606是物理上准确的渲染器，其通过使用光散射的物理建模、光传输模拟以及每个像素处的光路径的集成来产生逼真的渲染图像。对于N个光路样本中的每个光路样本，渲染器606为每个像素记录强度权重和路径长度(从TOF相机的模拟发射器到世界中的(多个)模拟表面并且返回到模拟TOF传感器的模拟光路的长度)。对于每个像素，光路样本的数目是相同的，并且在一些情况下是预先固定的，诸如几千个光路样本。在其他示例中，例如，光路样本的数目在模拟期间自适应地选择，使得与更简单的区域相比，场景中的更复杂的区域被分配更多的模拟光路。更复杂的区域以各种方式来标识，诸如根据角落的存在、边缘的存在、表面反射率程度或其他因素。这给出了每像素加权点质量608。图7中针对描绘房间的角落中的表面的像素给出了每像素加权点质量的示例。图7的示例中的像素由于多径干涉而接收来自多个路径的光，并且因此存在归一化光密度的多个峰值700、702。在一些示例中，每像素加权点质量的第一峰值给出了输入到训练数据对624中的真实深度的估计。

如上所述，渲染器606使用光线跟踪来渲染来自3D对象或环境的模型的图像。生成3D对象或环境的合适的模型是耗时且昂贵的。例如，在要在室内使用飞行时间相机的情况下，模型是典型的室内环境，诸如客厅、办公室、厨房和其他室内环境。然而，难以获取这样的3D环境的广泛的各种模型。为了解决这个问题，本技术使用多个参数化3D环境模型610。参数化3D环境模型610是使用一个或多个参数表达的3D环境的计算机可操纵描述。实例生成器612从参数化3D环境模型610的存储器访问参数化3D环境模型，并且创建多个实例。实例是通过选择参数化3D环境模型的参数的值、从参数化3D环境模型来创建的3D环境模型。实例通过随机地和/或根据可行参数值范围的知识、在参数的可能值的指定范围内选择参数的值来创建。参数化3D环境模型的参数示例的非穷尽列表是：3D模型中的各个对象的几何形状、各个对象(包括光源)的存在或不存在、对象位置、对象取向、表面材料和纹理、环境照明量。以这种方式使用参数模型使得能够以快速有效的方式生成3D环境模型的大量变型。例如，在客厅的参数化3D模型的情况下，可以调整参数值以改变地板材料、天花板、墙壁、家具的表面反射率并且还改变房间中的对象(诸如家具、灯具、窗户等对象)的几何形状和/或位置。作为广泛且大量的3D环境模型实例的结果，飞行时间模拟器602能够渲染包含多径干涉的各种模拟原始飞行时间数据。这提供了质量改进的训练数据对626，并且因此，经训练机器学习组件给出更高质量的深度值和不确定性信息。结果是，提供深度检测装置，其给出高度准确的深度值，以实现由下游计算系统进行的更好的控制。

渲染器606在给定相机视点的情况下渲染来自3D对象或环境的模型的图像。相机视点是3D环境模型实例的边界框内的3D位置和取向。渲染器606使用飞行时间相机的光学特性600的细节，诸如相机的视场、焦距和空间发光强度简档。飞行时间模拟器具有在3D环境模型的实例内选择相机的大量可能视点的视点选择器604。例如，视点选择器604通过在3D环境模型的边界框内选择随机的3D位置和取向来随机选择视点。视点选择器604被布置为拒绝在3D环境模型中的对象的阈值距离内的视点。例如，在相机视点与墙壁之间仅有20厘米的情况下，拒绝面向3D环境的墙壁的视点。对于给定的3D环境模型实例，渲染器为由视点选择器604选择的多个视点中的每个视点计算模拟原始飞行时间数据。例如，数千个不同的视点。结果是，训练数据对624表现出良好的多样性，并且所得到的经训练机器学习组件124能够很好地推广到在未见过的相机视点下的未见过的3D环境。

如上所述，飞行时间模拟器602输出每像素加权点质量608。这些没有考虑飞行时间相机具有的曝光简档。这表示，飞行时间模拟器可以用于任何类型的飞行时间相机。每像素加权点质量608被输入到曝光简档组合器616，曝光简档组合器616将关于飞行时间相机的指定曝光简档的信息并入正被模拟原始飞行时间数据中。曝光简档由操作员在制造期间通过从曝光简档细节的库中选择曝光简档或者使用用户输入来指定。例如，曝光简档使用矢量常数A和矢量值函数C来描述。矢量值函数是采用标量参数并且返回矢量的函数。在一个示例中，曝光简档组合器616使用以下等式将每像素加权点质量(权重w和路径长度t的值)与矢量常数A和矢量值函数C组合：

其中N是固定在诸如几千个样本等值处的光路样本的数目，并且其中符号τ表示由飞行时间模拟器使用的环境光强度。在一些示例中，矢量常数A的值和由矢量值函数C返回的元素的值在0到2¹²之间。

上述等式用文字被表达为：被模拟为在传感器的相同像素处观察到的模拟原始飞行时间传感器强度值(诸如针对四次曝光中的每次曝光的四个强度值)的平均响应矢量等于环境光强度τ乘以表示飞行时间相机的曝光模式的一部分的矢量常数加上以下值在光路样本数N上的总和：表示飞行时间相机的曝光模式的另一部分的、在t_i处计算的矢量值函数乘以权重ω_i(ω_i是针对光路样本i、来自飞行时间模拟器输出的点质量权重)，并且考虑到距离衰减函数d(t_i)的情况下，其中强度随着反射光线的表面到相机的距离而下降。

在一些示例中，模拟传感器噪声。也就是说，曝光简档组合器的输出由噪声添加组件620处理，噪声添加组件620将噪声添加到模拟原始飞行时间数据。然而，使用噪声添加组件620不是必需的。

噪声添加组件620的输出是模拟原始强度值622，模拟原始强度值622与像素相关联并且包含多径干涉和传感器噪声。通过访问对应的真实深度值(其是由像素描绘的表面的真实深度)，将该数据形成为训练数据对624。通过从3D环境实例614计算真实深度值或通过获取每像素加权点质量的第一峰值，可知对应的真实深度值。给定3D环境模型实例，深度检测装置针对给定相机视点来计算真实深度值318。

重复上述用于计算训练数据对的过程以获取所存储的数百万个训练数据对626。在一些情况下，训练数据对包括模拟原始飞行时间传感器数据的帧和对应的真实深度图。这是通过针对传感器的各个像素重复处理以形成帧来实现的。

在一些示例中，机器学习系统包括随机决策森林。随机决策森林包括一个或多个决策树，每个决策树具有根节点、多个拆分节点和多个叶节点。原始TOF传感器数据在过程中从根节点到叶节点被推送通过随机决策森林的树，由此在每个拆分节点处做出决策。决策根据拆分节点处的参数值来做出，其中在训练期间已经学习了参数的值。在拆分节点处，原始TOF传感器数据沿着根据决策结果选择的分支向下行进到树的下一级。

在训练期间，参数值(其指定要在拆分节点处使用的决策标准)被学习以在拆分节点处使用，并且数据(具有真实深度值的原始TOF传感器数据)在叶节点处被累积。在训练期间在叶节点处累积的训练数据被存储为直方图，或者以聚合方式存储，诸如使用均值、中值或模式，或者通过将概率分布拟合到直方图并且存储描述概率分布的统计数据。

在测试时间，先前未见过的原始TOF传感器数据被输入到系统以得到预测的一个或多个深度值。参考图10对此进行描述。

参见图8，为了训练决策树，首先接收800上述训练集。选择802要在随机决策森林中使用的决策树的数目。随机决策森林是确定性决策树的集合。决策树可以用于分类或回归算法，但是可能遭受过度拟合，即，推广性较差。然而，很多随机训练的决策树(随机森林)的集合产生了改进的推广性。在训练过程中，树的数目是固定的。

图9中示出了示例随机决策森林。图9的说明性决策森林包括三个决策树：第一树900；第二树902；和第三树904。每个决策树包括根节点(例如，第一决策树900的根节点906)、被称为拆分节点的多个内部节点(例如，第一决策树900的拆分节点908)和多个叶节点(例如，第一决策树900的叶节点910)。

从决策森林选择804决策树(例如，第一决策树800)并且选择806根节点806。然后生成810随机的测试参数值集合以供在根节点处执行的二进制测试使用。参数是二进制测试的阈值或其他参数。在使用像素邻域的情况下，二进制测试可选地包括比较像素对的成对测试。在像素无关的情况下，成对测试不是必需的。

然后，将测试参数值的每个组合应用812于已经到达当前节点的每个原始TOF训练数据项。对于每个组合，计算814标准(也称为目标)。在一个示例中，所计算的标准包括信息增益(也称为相对熵)。选择814优化标准的参数组合(诸如最大化信息增益)并且将其存储在当前节点处以供将来使用。作为信息增益的备选，可以使用其他标准，诸如残差方差标准或其他标准。

然后确定816所计算的标准的值是否小于(或大于)阈值。如果所计算的标准的值小于阈值，则表明树的进一步扩展不会提供显著的益处。这导致不对称树，当没有另外的节点是有益的时，不对称树自然停止生长。在这种情况下，将当前节点设置818为叶节点。类似地，确定树的当前深度(即，在根节点与当前节点之间有多少级节点)。如果这大于预定义的最大值，则将当前节点设置818为叶节点。每个叶节点具有标记的原始TOF数据，这些原始TOF数据在训练过程期间在这个叶节点处累积，如下所述。

还可以结合已经提到的那些来使用另一种停止标准。例如，评估到达节点的原始TOF数据项的数目。如果示例太少(例如，与阈值相比)，则该过程被布置为停止以避免过度拟合。但是，使用这个停止标准并不是必需的。

如果所计算的标准的值大于或等于阈值，并且树深度小于最大值，则将当前节点设置820为拆分节点。由于当前节点是拆分节点，所以它具有子节点，并且然后该过程移动到训练这些子节点。每个子节点使用当前节点处的训练飞行时间数据子集而得以训练。发送到子节点的训练飞行时间数据子集使用优化标准的参数来确定。这些参数用于二进制测试，并且对当前节点处的所有训练飞行时间数据执行822二进制测试。通过二进制测试的原始TOF数据项形成发送到第一子节点的第一子集，并且未通过二进制测试的原始TOF数据项形成发送到第二子节点的第二子集。

对于每个子节点，针对与相应子节点相关的原始TOF数据项的子集来递归地执行824如图8的框810到框822中概述的过程。换言之，对于每个子节点，生成810新的随机测试参数，将其应用812到原始TOF数据项的相应子集，选择814优化标准的参数，并且确定816节点类型(拆分节点还是叶节点)。如果它是叶节点，则当前递归分支停止。如果它是拆分节点，则执行822二进制测试以确定原始TOF数据项的另外子集，并且开始另一递归分支。因此，该过程递归地移动通过树，以训练每个节点，直到在每个分支处到达叶节点。当到达叶节点时，该过程等待826，直到已经训练了所有分支中的节点。注意，在其他示例中，可以使用备选的递归技术获取相同的功能。

一旦树中的所有节点都已经被训练以确定优化每个拆分节点处的标准的、用于二进制测试的参数，并且叶节点已经被选择以终止每个分支，则在树的叶节点处累积828具有真实深度值的原始TOF数据项。使用各种不同方法存储830累积的深度值的表示。

一旦存储了累积的深度值，确定832决策森林中是否存在更多的树。如果是，则选择决策森林中的下一树，并且重复该过程。如果森林中的所有树都已经训练，并且没有剩余其他树，则训练过程完成，并且该过程终止834。

因此，作为训练过程的结果，使用合成的原始TOF数据来训练一个或多个决策树。每个树包括存储经优化的测试参数的多个拆分节点，以及存储相关联的真实深度值的叶节点。由于根据在每个节点处使用的有限子集来随机生成参数，所以森林的树彼此是有区别的(即，不同)。

训练过程在使用经训练机器学习系统来计算所观察到的原始TOF数据的深度值之前执行。决策森林和优化的测试参数存储在存储设备上用于在稍后计算深度值时使用。

图10示出了使用如上所述训练的决策森林从先前未见过的原始TOF数据来预测深度值的过程的流程图。首先，接收1000未见过的原始TOF数据项。原始TOF数据项被称为“未见过”以将其与具有指定的深度值的训练TOF数据项区分开。

可选地，根据未见过的原始TOF数据来计算1002邻域。邻域是如上所述的空间和/或时间邻域。

选择1004来自决策森林的经训练决策树。推送1006选择的原始TOF数据项(整个帧，单个像素的值，邻域的值)通过所选择的决策树，使得它对照在节点处的已训练参数值被测试，并且然后根据测试的结果被传递给适当的子节点，并且重复该过程，直到原始TOF数据项到达叶节点。一旦原始TOF数据项到达叶节点，为这个原始TOF数据项存储1008与这个叶节点相关联的累积的深度值。

如果确定1010森林中存在更多决策树，则选择1004新的决策树，推送1006原始TOF数据项通过树，并且存储1008累积的深度值。重复该步骤，直到已经针对森林中的所有决策树执行了这个步骤。注意，用于推送原始TOF数据项通过决策森林中的多个树的过程也可以并行执行，而不是按照如图10所示的顺序来执行。

通过求平均或以其他方式聚合1014来自经索引的叶节点的数据。例如，在叶节点处存储深度值的直方图的情况下，来自经索引的叶节点的直方图被组合，并且用于标识与原始TOF数据项相关联的一个或多个深度值。这些过程输出816至少一个深度值作为结果，并且能够输出深度值的置信度加权。这有助于任何后续算法评估建议是否良好。可以输出多个深度值；例如，在存在不确定性的情况下。

在一些情况下，通过将随机决策森林实现为有向非循环图以便减少图的节点数目来修改上述随机决策森林示例。这有助于将机器学习组件部署在诸如智能电话、平板电脑和可穿戴计算设备等资源受限设备上。

图11是训练卷积神经网络的方法的流程图。在这种情况下，训练数据对包括原始TOF帧和对应的深度图。例如，对于不同的曝光，TOF帧的各个像素位置具有一个或多个强度值。访问1100训练数据对并且输入1102到卷积神经网络。

神经网络是通过也被加权的边互连的多个加权节点。神经网络具有输入节点、输出节点和内部节点。在本示例中，输出节点与在训练阶段期间学习的深度值相关联。

卷积神经网络是其中节点布置在多个层中使得在三个维度：宽度、高度和深度中存在节点的神经网络。在每个层内存在多个感受野(receptive field)，其中感受野是一组互连的节点，这些节点处理输入图像的一部分(或本示例中的TOF帧)。在层内，感受野被布置为使得它们的输出部分地彼此重叠以提供冗余。内层的节点连接到上方的层中的一个感受野的神经元。卷积神经网络通常是前馈神经网络，其中输入图像(或TOF帧)被馈送到输入节点，根据节点处的权重、节点之间的加权连接和非线性激活函数通过网络被向前处理，并且到达一个或多个输出节点的集合。

在训练期间，训练数据实例从输入节点到输出节点地前馈通过网络，其中在节点处执行的计算根据更新规则来更新1104节点和边的权重。根据图11的检查点1106处的收敛检查，对更多训练实例重复更新过程，以查看最近更新的变化量是否小于阈值。当达到收敛时，训练结束1108。

在测试时间期间，当经训练卷积神经网络用于从原始飞行时间数据帧预测深度图时，经训练机器学习组件124接收1200未见过的原始飞行时间帧。它将帧输入1202到经训练卷积神经网络。与帧的各个像素位置(或邻域)相关联的值被输入到多个输入节点，并且这触发通过网络的前馈过程。来自帧的值传送通过神经网络的层，并且经由重叠的感受野来触发对后续层的输入。最终，触发输出节点，并且从存储装置中取回与被触发的输出节点相关联的深度值。然后将深度值存储为深度图1204，可选地与从神经网络输出计算的不确定性数据一起。深度图具有平滑的深度值，因为卷积神经网络的感受野使得能够将像素位置之间的空间关系考虑在内。

图13示出了示例性的基于计算的设备1300的各种组件，设备1300被实现为任何形式的计算和/或电子设备，并且其中在深度检测装置与时间飞行相机分离的情况下实现深度检测装置的实施例。计算和/或电子设备的形式的示例的非穷尽列表是：眼睛附近的增强现实计算系统、身体佩戴的增强现实计算系统、可穿戴式增强现实计算设备、智能电话、台式电脑、计算机游戏控制台、非触摸用户界面计算设备、平板电脑、笔记本电脑。

基于计算的设备1300包括一个或多个处理器1302，处理器1302是微处理器、控制器或任何其他合适类型的处理器，用于处理计算机可执行指令以控制设备的操作，以便根据原始飞行时间数据来计算深度值或深度图。在一些示例中，基于计算的设备实时地并且以考虑到多径干涉的方式从原始飞行时间数据的帧流(从飞行时间相机1326接收)计算深度图流。在一些示例中，例如，在使用片上系统架构的情况下，处理器1302包括一个或多个固定功能块(也称为加速器)，其用硬件(而不是软件或固件)实现图3、图5、图6、图8、图10、图11、图12中的任何一个的方法的一部分。在基于计算的设备处提供包括操作系统1304的平台软件或任何其他合适的平台软件，以使得应用软件1006能够在设备上执行。提供经训练机器学习组件1308，诸如图1的训练机器学习组件124。

存储器1316处的数据存储器1310存储原始飞行时间数据、模拟原始飞行时间数据、参数值、曝光简档数据、3D环境模型和其他数据。

通过使用可由基于计算的设备1300访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质包括：例如计算机存储介质，诸如存储器1316和通信介质。计算机存储介质(诸如存储器1316)包括按照任何方法或者技术实施以便存储信息(诸如计算机可读指令、数据结构、程序模块等)的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于：随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、闪速存储器或者其他存储技术、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或者其他光学存储装置、磁带盒、磁带、磁盘存储或者其他磁存储设备或者被用于存储信息，以供计算设备访问的任何其他非传输介质。相反，通信介质在已调制的数据信号(诸如载波或者其他传输机制)中体现为计算机可读指令、数据结构、程序模块等。如本文限定的，计算机存储介质不包括通信介质。因此，计算机存储介质本身不应该被解释为传播信号。虽然计算机存储介质(存储器1316)被示出为在基于计算的设备1300内，但是应当理解，在一些示例中，存储装置是分布式的或远程定位的并且经由网络或其他通信链路来访问(例如，使用通信接口1318)。

基于计算的设备1300还包括被布置为向显示设备1324输出显示信息的输入/输出控制器1320，显示设备1324在使用时与基于计算的设备1300分离或成一体。显示信息可选地以图形方式呈现由基于计算的设备计算的深度图。输入/输出控制器1320还被布置为接收和处理来自诸如飞行时间相机1326、用户输入设备1322(例如，触控笔、鼠标、键盘、相机、麦克风或其他传感器)等一个或多个设备的输入。在一些示例中，用户输入设备1322检测语音输入、用户手势或其他用户动作，并且提供自然用户界面(NUI)。这个用户输入用于指定3D环境模型，指定参数值，或用于其他目的。在一个实施例中，如果显示设备1324是触敏显示设备，则显示设备1324还用作用户输入设备1322。在一些示例中，输入/输出控制器1320向除了显示设备之外的设备(例如，本地连接的打印设备)输出数据。

在一些示例中，输入/输出控制器1320、显示设备1324和用户输入设备1322中的任何一个包括NUI技术，该NUI技术使得用户能够以自然的方式与基于计算的设备进行交互，不受由输入设备(例如鼠标、键盘、遥控器等)施加的人为约束。在一些示例中提供的NUI技术的示例包括但不限于依赖于声音和/或语音识别、触摸和/或触控笔识别(触敏显示)、在屏幕上和与屏幕相邻的手势识别、空中手势、头部和眼睛追踪、声音和语音、视觉、触摸、手势以及机器智能的那些NUI技术。在一些示例中使用的NUI技术的其他示例包括：意图和目标理解系统、使用深度相机的运动手势检测系统(诸如立体相机系统、红外相机系统、红绿蓝(rgb)相机系统以及这些系统的组合)、使用加速度计/陀螺仪的运动手势检测、面部识别、三维(3D)显示、头部、眼睛和注视追踪、沉浸式增强现实和虚拟现实系统以及用于通过使用电场感测电极(脑电图(EEG)和相关方法)来感测大脑活动的技术。

作为本文中描述的其他示例的备选或补充，示例包括以下的任何组合：

一种深度检测装置，包括：

存储器，存储从飞行时间传感器接收的原始飞行时间传感器数据；以及

已经使用训练数据对而得以训练的经训练机器学习组件，训练数据对包括至少一个模拟原始飞行时间传感器数据值和对应的模拟真实深度值；

经训练机器学习组件被配置为：在单个阶段中，针对存储的原始飞行时间传感器数据的项、通过将该项推送通过经训练机器学习组件来计算由该项描绘的表面的深度值。

上面提到的装置，经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，模拟原始飞行时间传感器数据值包含模拟多径干涉。

上面提到的装置，经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，模拟原始飞行时间传感器数据值使用模拟多径干涉的计算机图形渲染器来计算。

上面提到的装置，经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，模拟原始飞行时间传感器数据值针对单个像素包括潜在地由像素描绘的不同深度处的加权强度值。

上面提到的装置，经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，其中与飞行时间传感器的曝光简档相关的信息与模拟原始飞行时间传感器数据值组合。

上面提到的装置，经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，其中与飞行时间传感器的传感器噪声相关的信息与模拟原始飞行时间传感器数据值组合。

上面提到的装置，经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，模拟原始飞行时间传感器数据值使用计算机图形渲染器、根据参数化3D环境模型的多个实例来计算，其中参数化3D环境模型的实例是随机、自动地由计算机生成的。

上面提到的装置，其中参数化3D环境模型的参数包括以下各项中的一项或多项：3D环境模型中的对象的几何形状、3D环境模型中的对象的位置、3D环境模型中的对象的存在、3D环境模型中的对象的取向、表面材料和反射率、环境照明。

上面提到的装置，其中训练数据对包括模拟原始飞行时间传感器数据值的帧和对应的模拟真实深度图。

上面提到的装置，经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，模拟原始飞行时间传感器数据值使用计算机图形渲染器、针对飞行时间传感器的多个随机选择的视点来计算，并且其中视点中的、在由计算机图形渲染器使用的3D环境模型中的表面的阈值距离内的任何视点被省略。

上面提到的装置，经训练机器学习组件已经使用在像素的邻域上聚合的模拟原始飞行时间传感器数据值而得以训练，其中邻域是空间邻域、或时间邻域、或空间和时间邻域。

上面提到的装置，其中经训练机器学习组件是像素无关回归器。

上面提到的装置，其中经训练机器学习组件是将存储的飞行时间传感器数据的像素之间的关系考虑在内的回归器。

上面提到的装置，其中经训练机器学习组件是卷积神经网络，并且其中每个训练数据对包括模拟原始飞行时间传感器数据的帧和真实深度图。

上面提到的装置，其中经训练机器学习组件至少部分使用从以下中的任何一个或多个中选择的硬件逻辑来实现：现场可编程门阵列、专用集成电路、专用标准产品、片上系统、复杂可编程逻辑器件、图形处理单元。

一种深度检测装置，包括：

存储器，存储从飞行时间传感器接收的原始飞行时间传感器数据的帧；以及

已经使用训练数据对而得以训练的经训练机器学习组件，训练数据对包括模拟原始飞行时间传感器帧和对应的模拟真实深度图；

经训练机器学习组件被配置为：在单个阶段中，针对存储的原始飞行时间传感器数据的帧、通过将该帧推送通过经训练机器学习组件来计算由该帧描绘的表面的深度值。

上面提到的装置，其中经训练机器学习组件被配置为通过以等于或快于飞行时间传感器的帧速率的速率计算深度图来实时地操作。

上面提到的装置，其中经训练机器学习组件包括卷积神经网络。

上面提到的装置，其中经训练机器学习组件包括像素无关回归器，像素无关回归器是不考虑飞行时间传感器帧的像素之间的关系的回归器。

一种计算机实现的方法，包括：

在存储器处存储从飞行时间传感器接收的原始飞行时间传感器数据；以及

操作已经使用训练数据对而得以训练的经训练机器学习组件，训练数据对包括至少一个模拟原始飞行时间传感器数据值和对应的模拟真实深度值；

其中操作经训练机器学习组件包括：在单个阶段中，针对存储的原始飞行时间传感器数据的项，通过将该项推送通过经训练机器学习组件来计算由该项描绘的表面的深度值。

一种装置，包括：

用于存储从飞行时间传感器接收的原始飞行时间传感器数据的部件；以及

用于操作已经使用训练数据对而得以训练的经训练机器学习组件的部件，训练数据对包括至少一个模拟原始飞行时间传感器数据值和对应的模拟真实深度值；其中操作经训练机器学习组件包括：在单个阶段中针对所存储的原始飞行时间传感器数据的项、通过推送该项通过经训练机器学习组件来计算由该项描绘的表面的深度值。

本文中示出和描述的示例、以及本文中未具体描述但是在本公开的各方面的范围内的示例构成用于存储原始飞行时间传感器数据、执行经训练机器学习系统、计算深度值或计算深度图的示例性部件。例如，图2或图13的存储器构成用于存储原始飞行时间传感器数据的示例性部件。例如，图2或图13的处理器构成用于操作经训练机器学习组件的示例性部件。

术语“计算机”或者“基于计算的设备”在本文中用于指代具有处理能力，使得其执行指令的任何设备。本领域的技术人员要认识到，这种处理能力被并入许多不同的设备，并且因此，术语“计算机”和“基于计算的设备”分别包括个人计算机(PC)、服务器、移动电话(包括智能电话)、平板计算机、机顶盒、媒体播放器、游戏机、个人数字助理、可穿戴计算机和许多其他设备。

在一些示例中，本文中描述的方法通过有形存储介质上的机器可读形式的软件来执行，例如，包括计算机程序代码装置的计算机程序的形式，该计算机程序代码装置在程序在计算机上运行时并且在计算机程序被包含在计算机可读介质上的情况下，适于执行本文中描述的一种或多种方法的所有操作。有形存储介质的示例包括：计算机存储设备，包括计算机可读介质，诸如磁盘、拇指驱动器、存储器等，并且不包括传播信号。软件适用于在并行处理器或者串行处理器上执行，从而按照任何合适的顺序或者同时实施方法操作。

这承认软件是有价值的、可单独交易的商品。旨在囊括在“简易型”或者标准硬件上运行或者控制“简易型”或者标准硬件的软件以实施期望的功能。还旨在涵盖“描述”或者限定硬件的配置的软件(诸如用于设计硅芯片或者用于配置通用可编程芯片的HDL(硬件描述语言)软件)以实施期望的功能。

本领域的技术人员要认识到，利用来存储程序指令的存储设备被可选地分布在网络上。例如远程计算机能够存储被描述为软件的过程的示例。本地或者终端计算机能够访问远程计算机并且下载部分或者全部软件以运行程序。备选地，本地计算机可以根据需要下载几个软件，或者在本地终端处执行一些软件指令，并且在远程计算机(或者计算机网络)处执行一些软件指令。本领域的技术人员还要认识到，通过利用本领域的技术人员已知的常规技术，可以通过专用电路(诸如数字信号处理器(DSP)、可编程逻辑阵列等)来实施全部或者一部分软件指令。

如对于技术人员将显而易见的，可以扩展或者改变本文给出的任何范围或者设备值而不会丧失所寻求的效果。

虽然已经针对结构特征和/或方法动作对本主题进行了语言描述，但是要明白，在随附权利要求书中限定的主题不必限于上面描述的特定特征或者动作。相反，上面描述的特定特征和动作被作为实施权利要求书的示例形式而公开。

要明白，上面描述的益处和优点涉及一个实施例，或者涉及若干实施例。实施例不限于解决任何或者所有所述问题的那些实施例或者具有任何或者所有所述益处和优点的那些实施例。还要明白，对“一个”项的提及是指那些项中的一个或者多个。

本文中描述的方法的操作以任何合适的顺序执行，或在适当的情况下同时执行。此外，在不偏离本文描述的主题的范围的情况下，可以从任何方法中删除单独的块。将上述任何示例的各方面与所描述的任何其他示例的各方面组合以形成另外的示例而不丧失所寻求的效果。

术语“包括”在本文中用于表示包括识别到的方法块或者元件，但是这种块或者元件不包括排外的列表，并且方法或者设备可以包括另外的块或者元件。

应当理解，仅通过示例的方式给出上述描述，并且本领域的技术人员可以进行各种修改。上述说明书、示例和数据提供了对示例性实施例的结构和使用的完整描述。虽然上面已经以一定程度的特殊性或者参照一个或者多个单独的实施例描述了各个实施例，但是在不偏离本说明书的范围的情况下，本领域的技术人员可以对所公开的实施例进行许多改变。

Claims

1.一种深度检测装置，包括：

处理器，包括已经使用训练数据对而得以训练的经训练机器学习组件，训练数据对包括至少一个模拟原始飞行时间传感器数据值和对应的模拟真实深度值；

所述经训练机器学习组件被配置为在单个阶段中针对存储的所述原始飞行时间传感器数据的项、通过将所述项推送通过所述经训练机器学习组件来计算由所述项描绘的表面的深度值。

2.根据权利要求1所述的装置，所述经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，所述模拟原始飞行时间传感器数据值包含模拟多径干涉。

3.根据权利要求1所述的装置，所述经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，所述模拟原始飞行时间传感器数据值使用模拟多径干涉的计算机图形渲染器来计算。

4.根据前述权利要求中任一项所述的装置，所述经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，所述模拟原始飞行时间传感器数据值针对单个像素包括潜在地由所述像素描绘的不同深度处的加权强度值。

5.根据前述权利要求中任一项所述的装置，所述经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，其中与所述飞行时间传感器的曝光简档相关的信息与所述模拟原始飞行时间传感器数据值组合。

6.根据前述权利要求中任一项所述的装置，所述经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，其中与所述飞行时间传感器的传感器噪声相关的信息与所述模拟原始飞行时间传感器数据值组合。

7.根据前述权利要求中任一项所述的装置，所述经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，所述模拟原始飞行时间传感器数据值使用计算机图形渲染器、根据参数化3D环境模型的多个实例来计算，其中所述参数化3D环境模型的所述实例是随机、自动地由计算机生成的。

8.根据权利要求7所述的装置，其中所述参数化3D环境模型的参数包括以下各项中的一项或多项：所述3D环境模型中的对象的几何形状、所述3D环境模型中的对象的位置、所述3D环境模型中的对象的存在、所述3D环境模型中的对象的取向、表面材料和反射率、环境照明。

9.根据前述权利要求中任一项所述的装置，其中训练数据对包括模拟原始飞行时间传感器数据值的帧和对应的模拟真实深度图。

10.根据前述权利要求中任一项所述的装置，所述经训练机器学习组件已经使用模拟原始飞行时间传感器数据值而得以训练，所述模拟原始飞行时间传感器数据值使用计算机图形渲染器、针对所述飞行时间传感器的多个随机选择的视点来计算，并且其中所述视点中的、在由所述计算机图形渲染器使用的3D环境模型中的表面的阈值距离内的任何视点被省略。

11.根据前述权利要求中任一项所述的装置，所述经训练机器学习组件已经使用在像素的邻域上聚合的模拟原始飞行时间传感器数据值而得以训练，其中所述邻域是空间邻域、或时间邻域、或空间和时间邻域。

12.根据权利要求1至10中任一项所述的装置，其中所述经训练机器学习组件是像素无关回归器。

13.根据权利要求1至10中任一项所述的装置，其中所述经训练机器学习组件是将存储的所述飞行时间传感器数据的像素之间的关系考虑在内的回归器。

14.根据权利要求1至10中任一项所述的装置，其中所述经训练机器学习组件是卷积神经网络，并且其中每个训练数据对包括模拟原始飞行时间传感器数据的帧和真实深度图。

15.一种计算机实现的方法，包括：

由处理器操作已经使用训练数据对而得以训练的经训练机器学习组件，训练数据对包括至少一个模拟原始飞行时间传感器数据值和对应的模拟真实深度值；

其中操作所述经训练机器学习组件包括：在单个阶段中，针对存储的所述原始飞行时间传感器数据的项，通过将所述项推送通过所述经训练机器学习组件来计算由所述项描绘的表面的深度值。