CN114174854A

CN114174854A - 飞行时间深度增强

Info

Publication number: CN114174854A
Application number: CN201980098894.3A
Authority: CN
Inventors: 本杰明·布萨姆; 帕特里克·斯鲁克坎普; 马蒂厄·奥格; 亚尼克·威尔第; 阿莱斯·莱昂纳迪斯; 格雷戈里·斯拉堡
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2022-03-11
Also published as: EP4004582A1; US20220222839A1; WO2021023384A1

Abstract

一种图像处理系统，用于接收输入飞行时间深度图，所述输入飞行时间深度图表示图像中的物体在所述相应图像中多个像素位置处与相机之间的距离，并用于根据所述图生成所述图像的改进的飞行时间深度图，所述输入飞行时间深度图从至少一个相关图像生成，所述相关图像表示在给定相移下在所述多个像素位置处发射光信号与反射光信号之间的重叠，所述系统用于根据所述相应图像和至少一个相关图像的颜色表示从所述输入飞行时间深度图生成所述改进的飞行时间深度图。

Description

飞行时间深度增强

技术领域

本发明涉及数码摄影中的图像形成，具体地涉及生成图像的增强的飞行时间深度图。

背景技术

飞行时间(time-of-flight，ToF)传感器用于测量相机捕获的物体与传感器平面之间的距离。如图1中的(a)所示，通过用脉冲光源照亮场景，光被场景中的物体反射，并测量光的往返时间。使用测得的往返时间，知道光速，就可以估计反射物体与相机的距离。可以对图像中的每个像素执行此计算。存储在特定像素位置的距离称为像素的深度，编码每个像素的这些值的2D图像称为深度图。

在ToF成像中，深度图通过使反射光与相移输入脉冲相关的RAW测量得到，如图1中的(b)所示。所产生的图像称为相关图像。虽然这种传感方法在弱光场景下工作良好，而且计算速度比立体视觉等其它深度估计方法更快，但当前的飞行时间传感器存在多路径反射等缺点，并且在强环境光下存在问题。此外，所述相关图像的空间分辨率非常有限。这最终阻碍了ToF的深度用于2D和3D计算机视觉应用中，在2D和3D计算机视觉应用中，高分辨率、准确度和精度是高质量数据和满足用户体验的关键方面。

图2中的(a)示出了摄影图像，图2中的(b)示出了与图像相对应的对齐ToF深度图。摄影图像通过RGB相机形成。在ToF深度图中，用灰度对距离进行编码，更亮的区域更远。

在201处的虚线圆圈内，小物体已被过度平滑或消除。例如，细黑色线缆的距离没能正确测量。但是，在202处，即使对于图像的这个视觉上具有挑战性的部分，也很好地恢复了梯度。因此，ToF传感器在该反射区域提供了正确的梯度测量。经典的深度估计方法很难处理这些无纹理区域。在204和205所示的实线圆圈中，可以看到没有正确捕获暗物体以及远处物体。此外，低深度图像分辨率(在该示例中，240×180像素)在图像对齐之后会有附加信息损失，这可以在图2中的(b)的右下角203处看到，这进一步约束了ToF深度图的可用部分。

已经进行了多种尝试来通过使用另一个输入源丰富数据或通过数据预处理利用机器学习的功能来克服低质量ToF数据的缺点。

使用深度学习的ToF方法包括Su,Shuochen等人的“深度端到端飞行时间成像(Deep end-to-end time-of-flight imaging)”，2018年IEEE计算机视觉和模式识别会议记录，其中，提出使用将RAW相关信号映射到深度图的端到端学习流水线。在合成数据集上训练网络。这种方法可以在一定程度上推广到真实数据。

在另一种方法中，US 9,760,837 B1描述了一种使用飞行时间进行深度估计的方法。该方法利用RAW相关信号并产生相同分辨率的深度输出。

在Agresti,Gianluca等人的“用于立体声和ToF数据融合中的置信度信息的深度学习(Deep learning for confidence information in stereo and tof datafusion)”，2017年IEEE计算机视觉国际会议记录，以及Agresti,Gianluca和PietroZanuttigh的“用于ToF传感器中的多路径误差消除的深度学习(Deep learning formulti-path error removal in ToF sensors)”，2018年欧洲计算机视觉会议记录中，经典立体视觉与飞行时间传感融合，以提高两种合成创建的数据模态的分辨率和准确度。RGB数据输入流水线不会被学习，因此RGB的使用只能通过利用预测的立体声深度图来间接进行。对ToF数据进行单独重投影，并使用双边滤波器对ToF数据进行上采样。

US 8,134,637 B2提出了一种在不学习的情况下借助RGB图像超解析ToF传感器的深度图像的方法。该方法不是单一步骤方法，因此该方法的多个单独模块会传播误差，每个误差会通过流水线累积。

期望开发一种用于生成图像的增强的ToF深度图的方法。

发明内容

根据第一方面，提供了一种图像处理系统，所述图像处理系统用于接收输入飞行时间深度图，所述输入飞行时间深度图表示图像中的物体在所述相应图像中多个像素位置处与相机之间的距离，并用于根据所述图生成所述图像的改进的飞行时间深度图，所述输入飞行时间深度图从至少一个相关图像生成，所述相关图像表示在给定相移下在所述多个像素位置处发射光信号与反射光信号之间的重叠，所述系统用于根据所述相应图像和至少一个相关图像的颜色表示从所述输入飞行时间深度图生成所述改进的飞行时间深度图。

因此，输入ToF深度图可以用RAW相关信号的特征丰富，并用对齐彩色图像的共模态引导进行处理。因此，所述系统利用了跨模态优势。ToF深度误差也可以得到校正。丢失的数据可以被恢复，多路径模糊性可以通过RGB引导得到解决。

所述相应图像的所述颜色表示的分辨率可以比所述输入飞行时间深度图和/或所述至少一个相关图像的分辨率高。这可以提高改进的飞行时间深度图的分辨率。

所述系统可以用于通过经训练的人工智能模型生成改进的飞行时间深度图。所述经训练的人工智能模型可以是端到端可训练神经网络。由于流水线是可训练端到端的，因此同时访问所有三种不同的模态(颜色、深度和RAW相关性)可以改进整体恢复的深度图。这可以提高ToF深度图的分辨率、准确度和精度。

所述模型使用以下各项中的至少一项进行训练：输入飞行时间深度图、相关图像和图像的颜色表示。

所述系统用于将所述输入飞行时间深度图与所述至少一个相关图像进行组合，以形成相关性丰富的飞行时间深度图。使用低分辨率RAW相关信号的经编码特征丰富输入ToF深度图可以帮助减少深度误差。

所述系统用于根据所述相应图像的所述颜色表示通过对所述相关性丰富的飞行时间深度图进行分层上采样来生成所述改进的飞行时间深度图。这可以帮助改进和改善深度不连续性。

所述改进的飞行时间深度图的分辨率可以比所述输入飞行时间深度图的分辨率高。这可以实现在渲染由相机捕获的图像时进行改进。

相应图像的颜色表示可以是颜色分离的表示。所述颜色表示可以是RGB表示。这可以是在处理深度图时使用的方便的颜色表示。

根据第二方面，提供一种用于根据输入飞行时间深度图生成图像的改进的飞行时间深度图的方法，所述输入飞行时间深度图表示所述图像中的物体在所述相应图像中多个像素位置处与相机之间的距离，所述输入飞行时间深度图从至少一个相关图像生成，所述相关图像表示在给定相移下在所述多个像素位置处发射光信号与反射光信号之间的重叠，所述方法包括根据所述相应图像和至少一个相关图像的颜色表示从所述输入飞行时间深度图生成所述改进的飞行时间深度图。

因此，输入ToF深度图可以用RAW相关信号的特征丰富，并用对齐彩色图像的共模态引导进行处理。因此，所述方法利用了跨模态优势。ToF深度误差也可以得到校正。丢失的数据可以被恢复，多路径模糊性可以通过RGB引导得到解决。

所述方法可以包括通过经训练的人工智能模型生成改进的飞行时间深度图。所述经训练的人工智能模型可以是端到端可训练神经网络。由于流水线是可训练端到端的，因此同时访问所有三种不同的模态(颜色、深度和RAW相关性)可以改进整体恢复的深度图。这可以提高ToF深度图的分辨率、准确度和精度。

所述方法还可以包括将输入飞行时间图与所述至少一个相关图像进行组合，以形成相关性丰富的飞行时间深度图。使用低分辨率RAW相关信号的经编码特征丰富输入ToF深度图可以帮助减少深度误差。

所述方法还可以包括根据所述相应图像的所述颜色表示对所述相关性丰富的飞行时间深度图进行分层上采样。这可以帮助改进和改善深度不连续性，并可以提高改进的飞行时间深度图的分辨率。

附图说明

现结合附图通过示例的方式对本发明进行描述。在附图中：

图1中的(a)和(b)示出了ToF深度数据的采集。

图2中的(a)示出了摄影图像。图2中的(b)示出了与图2中的(a)的图像相对应的ToF深度图。

图3示出了用于处理ToF深度图的流水线示例的概述。

图4示出了用于处理ToF深度图的流水线的示例性概述。浅编码器将RAW相关图像作为输入。在解码阶段，噪声ToF深度数据被注入并在RGB引导下上采样到原始分辨率的四倍。

图5示出了使用多模态引导式上采样(guided upsampling，GU)进行ToF上采样的所提供的流水线的结果。

图6中的(a)至(c)示出了不同场景的示例性结果。

图7中的(a)至(j)示出了使用所提供的流水线获得的结果，和在没有多模态指导的情况下通过使用U-Net进行经典上采样获得的结果，以进行比较。

图8中的(a)至(c)示出了消融研究，其中比较了仅使用引导式上采样处理的图像、仅使用深度注入处理的图像和使用本发明的多模态方法处理的图像。

图9示出了用于使用本发明的流水线来处理由相机拍摄的图像的相机的示例。

具体实施方式

图3示出了用于生成增强的ToF深度图的示例性流水线的概述。图3的流水线包括端到端可训练神经网络。流水线将分辨率和质量或密度相对较低的ToF深度图301作为输入(与输出ToF深度图305相比)。输入飞行时间深度图301表示图像中的物体在相应图像中多个像素位置处与相机之间的距离。

输入飞行时间深度图301从至少一个RAW相关图像生成，该RAW相关图像表示在给定相移下在所述多个像素位置处发射光信号与反射光信号之间的重叠。如本领域众所周知，使用光速，处理该RAW相关图像数据以生成输入ToF深度图。形成输入ToF深度图的RAW相关数据的这种处理可以与流水线分开执行，或者在流水线的初始化步骤中执行。噪声ToF输入深度301被馈送到学习框架(标记为ToF上采样，(ToFupsampling，ToFU))中，在302处指示。

流水线还将已生成输入深度图301的相应图像的颜色表示303作为输入。在该示例中，颜色表示是颜色分离的表示，具体地是RGB图像。但是，颜色表示可以包括一个或多个通道。

流水线还将至少一个RAW相关图像作为输入，如304处所示。因此，使用了多模态输入数据。

系统用于根据相应图像303和至少一个相关图像304的颜色表示，从输入飞行时间深度图301生成改进的飞行时间深度图305。

现在将参考图4更详细地描述系统和方法。

在该示例中，端到端神经网络包括具有引导式上采样和深度注入的具有浅编码器401和解码器402的编码器-解码器卷积神经网络。浅编码器401将RAW相关图像403作为输入。网络以来自ToF传感器的原始分辨率1/1对RAW相关信息403进行编码，以提取深度特征用于深度预测。

在解码阶段，在404处示出的输入ToF深度数据(其可能是有噪声的且损坏的)以原始分辨率1/1注入(即与RAW相关数据组合)，然后在RGB引导下被分层上采样到原始分辨率的四倍。输入ToF深度信息在ToF输入分辨率阶段注入解码器，从而支持网络以度量尺度预测深度信息。

在引导式上采样(guided upsampling，GU)期间，使用分别在405和406处示出的ToF深度图的原始分辨率的2倍和4倍的RGB图像，以支持直接上采样深度图的残差校正，并增强深度不连续处的边界精度。

因此，噪声ToF深度数据404被注入并利用RGB引导上采样到原始分辨率的四倍，以生成增强的ToF深度图，如407所示。

RGB和RAW相关图像模态的共注入有助于通过利用附加信息填充孔(输入ToF深度图中的黑色区域)来超解析输入ToF深度图，预测更远的区域，并解决多路径反射造成的模糊性。

尽管来自输入ToF深度图的深度注入是有噪声的且损坏的，并且远处的像素值是无效的，上述方法也可以可靠地恢复整个场景的深度。引导式上采样有助于改进和改善深度不连续性。在该示例中，最终输出的分辨率是原始输入ToF深度图分辨率的四倍。但是，深度图也可以被上采样到更高分辨率。

总之，所使用的模态如下：

输入：RAW相关图像(低分辨率)、输入ToF深度图(低分辨率)和RGB图像(高分辨率)。

输出：上采样深度图(高分辨率)。

这些模态相互补充，ToFU从每个模态中提取有用的信息，以便生成最终的经过超解析的输出ToF深度图。

示例性网络架构描述如下。其它的配置是可能的。

编码器的层：RAW相关输入的1x 2D卷积(->1/2输入分辨率)

注入前的层：1x 2D上卷积(从1/2输入分辨率到1/1输入分辨率)

解码器和引导式上采样器

深度注入：

对于每个输入：

2D Conv->BatchNorm->LeakyReLu->ResNetBlock->ResNetBlock

级联

4x ResNetBlock

残差＝2D卷积

输出＝深度+残差

上卷积(注入前)的级联+注入输出

级联的卷积+使用双线性上采样的上采样(1x输入分辨率的深度预测)

GU 1前的层：级联的卷积的1x 2D上卷积(从1/1输入分辨率到2x输入分辨率)

引导式上采样阶段1：

对于每个输入：

2D Conv->BatchNorm->LeakyReLu->ResNetBlock->ResNetBlock

级联

4x ResNetBlock

残差＝2D卷积

输出＝深度+残差

上卷积的级联+引导式上采样输出

级联的卷积和使用双线性上采样的上采样(2x输入分辨率的深度预测)

GU 2前的层：级联的卷积的1x 2D上卷积(从2x输入分辨率到4x输入分辨率)

引导式上采样阶段2：

对于每个输入：

2D Conv->BatchNorm->LeakyReLu->ResNetBlock->ResNetBlock

级联

4x ResNetBlock

残差＝2D卷积

输出＝深度+残差

上卷积的级联+引导式上采样输出

级联的卷积和深度预测(4x输入分辨率的深度预测)

下面的等式(1)至(4)描述了示例性损失函数。对于训练所提出的网络，通过利用快速收敛的鲁棒范数和平滑项，将模拟视差的预测逆深度与地面真值之间的像素差异最小化：

L_Total＝ω_sL_Smooth+ω_DL_Depth (1)

其中，

并且：

L_Depth＝∑ω_Scale|D(p)-D_Pred(p)|_Barron (3)

其中，|*|_Barron是Barron在“一般和自适应鲁棒损失函数(A General andAdaptive Robust Loss Function)”(CVPR 2019)中提出的Barron损失，是平滑化L₁范数的特殊形式：

ω_Scale表示在每个比例级别上L_Depth的贡献，D是逆深度，I是RGB图像。由于应对应地缩放较低比例级别的视差值(例如，一半的分辨率会导致一半的视差值)，因此损失项的值应通过相同的比例参数反向缩放。此外，像素的数量随着每个比例级别呈二次方减少，从而产生每个比例级别的贡献相等的比例权重：ω_Scale＝Scale*Scale²＝Scale³。

在一种实现方式中，为了生成训练数据，以及准确的深度地面真值，基于物理的渲染流水线(physics-based rendering pipeline，PBRT)可以与混合器一起使用，如Su,Shuochen等人的“深度端到端飞行时间成像(Deep end-to-end time-of-flightimaging)”(2018年IEEE计算机视觉和模式识别会议记录)中所提出。深度的低分辨率版本被削波并被噪声损坏，以模拟ToF深度输入信号。

图5示出了使用多模态引导式上采样进行ToF上采样的所提供的流水线的结果。输入ToF深度图如图5中的(a)所示。上采样至2x分辨率后的预测深度图如图5中的(b)所示，结果误差如图5中的(c)所示。上采样至4x分辨率后的预测深度图如图5中的(d)所示，结果误差如图5中的(e)所示。对应的RGB图像和地面真值ToF深度图分别示出在图5中的(f)和(g)中以进行比较。所提出的方法有助于在不丢失与精细结构相关的信息的情况下恢复深度，同时改善沿深度不连续性的边缘。

图6中的(a)至(c)示出了不同场景的其它示例性结果。图6中的(a)示出了场景的输入ToF深度图，用小RGB图像描绘，图6中的(b)示出了相应的上采样输出，图6中的(c)示出了场景的相应的地面真值深度图。

图7中的(a)至(j)示出了使用没有多模态引导的U-Net经典上采样获得的结果与使用本发明方法获得的结果之间的比较。图7中的(a)示出了场景的输入ToF深度图。图7中的(b)和(c)示出了在32k次迭代后使用经典上采样分别获得的ToF深度图和对应的残差。图7中的(d)和(e)示出了在32k次迭代后使用本文描述的方法分别获得的ToF深度图和对应的残差。图7中的(f)以更高的放大倍数示出了场景区域的输入ToF深度图。图7中的(g)和(h)示出了在收敛后使用经典上采样分别获得的ToF深度图和对应的残差。图7中的(i)和(j)示出了在收敛后使用本文描述的方法分别获得的ToF深度图和对应的残差。图7中的(d)和(i)中使用本文描述的方法生成的ToF深度图在不丢失与精细结构相关的信息的情况下恢复深度，同时改善沿深度不连续性的边缘。

在图8中，使用本发明的方法获得的结果如图8中的(a)所示，与图8中的(b)中仅使用GU(无深度注入)和图8中的(c)中仅使用注入(无GU)获得的结果相比。对应的地面真值图像和RGB图像分别在图8中的(d)和(e)中示出。在经典上采样期间，边缘和精细结构不会针对“仅注入”而细化(图8中的(c))，这可以通过比较虚线圆和实线圆中沿边缘和精细结构的残差看出。低分辨率的深度注入有助于网络在低分辨率下开始良好的深度估计，从而帮助GU获得更高的分辨率。在图8中的(a)中，与其它方法相比，深度预测与地面真值相比的残差误差减小。具体地，GU改善了沿深度不连续性的残差，其中图像梯度通常很强，从而也恢复了精细结构。

因此，深度注入可以引导网络以较低分辨率预测定义良好的深度，在分层引导式上采样期间，该深度通过RGB指导进行细化，以将深度恢复为原始分辨率的四倍。

图9示出了用于使用流水线处理由相机中的图像传感器902拍摄的图像的相机901的示例。相机还具有深度传感器903，用于收集ToF深度数据。这种相机901通常包括一定的机载处理能力。这可以由处理器904提供。处理器904也可以用于执行设备的基本功能。

收发器905能够通过网络与其它实体910、911通信。这些实体可以物理上远离相机901。该网络可以是公共可访问网络，如互联网。实体910、911可以基于云。实体910是计算实体。实体911是命令实体和控制实体。这些实体是逻辑实体。实际上，这些实体可以分别由一个或多个物理设备(如服务器和数据存储器)提供，并且两个或多个实体的功能可以由单个物理设备提供。实现实体的每个物理设备包括处理器和存储器。这些设备还可以包括用于向相机901的收发器905发送数据和从相机901的收发器905接收数据的收发器。存储器以非瞬时方式存储代码，所述代码可由处理器执行，以本文描述的方式实现相应实体。

命令和控制实体911可以训练流水线中使用的人工智能模型。这通常是一项计算密集型任务，即使所得到的模型可以高效描述，因此开发在云中执行算法可能是高效的，可以预期有大量的能量和计算资源可用。可以预期的是，这比在典型相机中形成这种模型更高效。

在一种实现方式中，一旦在云中开发算法，命令和控制实体就可以自动形成对应的模型，并使其传输到相关的相机设备。在该示例中，该流水线由处理器904在相机901中实现。

在另一种可能的实现方式中，图像可以由相机传感器902捕获，图像数据可以由收发器905发送到云，以在流水线中处理。然后，可以将所得到的图像发送回相机901，如图9中的912所示。

因此，所述方法可以以多种方式部署，例如在云中、在设备中，或者在专用硬件中。如上所述，云设施可以执行训练，以开发新的算法或细化现有的算法。根据数据语料库附近的计算能力，训练可以在源数据附近进行，也可以在云中进行，例如使用推理引擎进行。所述方法也可以在相机中、专用硬件中或云中实现。

因此，本发明使用端到端可训练深度学习流水线以实现ToF深度超分辨率，该端到端可训练深度学习流水线使用低分辨率RAW相关信号的经编码特征丰富输入ToF深度图。合成的特征图通过对齐的高分辨率RGB图像的共模态引导进行分层上采样。通过注入经编码的RAW相关信号，ToF深度被RAW相关信号丰富，用于域稳定和模态引导。

该方法利用了跨模态优势。例如，ToF在弱光或无纹理区域工作良好，而RGB在明亮的场景或纹理较暗的物体的场景中工作良好。

由于流水线是可训练端到端的，因此同时访问所有三种不同的模态(RGB、深度和RAW相关性)，它们可以相互改善整体恢复的深度图。这可以提高ToF深度图的分辨率、准确度和精度。

ToF深度误差也可以得到校正。丢失的数据可以被恢复，因为该方法测量更远的区域，并且多路径模糊性可以通过RGB引导得到解决。

网络可以利用有监督或无监督的训练。该网络可以利用多模态训练，具有合成相关性、RGB、ToF深度和地面真值渲染，用于直接监督。

根据地面真值图像，可以对输出ToF深度图进行附加调整。

申请人在此单独公开本文所述的每一个体特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识，能够根据本说明书将此类特征或组合作为整体实现，而不考虑这类特征或特征的组合是否能解决本文所公开的任何问题；且不对权利要求书的范围造成限制。申请人表明本发明的各方面可由任何这类单独特征或特征的组合构成。鉴于上文描述，可在本发明的范围内进行各种修改对本领域技术人员来说是显而易见的。

Claims

1.一种图像处理系统，其特征在于，用于接收输入飞行时间深度图，所述输入飞行时间深度图表示图像中的物体在所述相应图像中多个像素位置处与相机之间的距离，并用于根据所述图生成所述图像的改进的飞行时间深度图，所述输入飞行时间深度图从至少一个相关图像生成，所述相关图像表示在给定相移下在所述多个像素位置处发射光信号与反射光信号之间的重叠，所述系统用于根据所述相应图像和至少一个相关图像的颜色表示从所述输入飞行时间深度图生成所述改进的飞行时间深度图。

2.根据权利要求1所述的图像处理系统，其特征在于，所述相应图像的所述颜色表示的分辨率比所述输入飞行时间深度图和/或所述至少一个相关图像的分辨率高。

3.根据上述权利要求中任一项所述的图像处理系统，其特征在于，所述系统用于通过经训练的人工智能模型生成所述改进的飞行时间深度图。

4.根据权利要求3所述的图像处理系统，其特征在于，所述经训练的人工智能模型是端到端可训练神经网络。

5.根据权利要求3或4所述的图像处理系统，其特征在于，所述模型使用以下各项中的至少一项进行训练：输入飞行时间深度图、相关图像和图像的颜色表示。

6.根据上述权利要求中任一项所述的图像处理系统，其特征在于，所述系统用于将所述输入飞行时间深度图与所述至少一个相关图像进行组合，以形成相关性丰富的飞行时间深度图。

7.根据权利要求6所述的图像处理系统，其特征在于，所述系统用于根据所述相应图像的所述颜色表示通过对所述相关性丰富的飞行时间深度图进行分层上采样来生成所述改进的飞行时间深度图。

8.根据上述权利要求中任一项所述的图像处理系统，其特征在于，所述改进的飞行时间深度图的分辨率比所述输入飞行时间深度图的分辨率高。

9.根据上述权利要求中任一项所述的图像处理系统，其特征在于，所述相应图像的所述颜色表示是颜色分离的表示。

10.一种用于根据输入飞行时间深度图生成图像的改进的飞行时间深度图的方法，其特征在于，所述输入飞行时间深度图表示所述图像中的物体在所述相应图像中多个像素位置处与相机之间的距离，所述输入飞行时间深度图从至少一个相关图像生成，所述相关图像表示在给定相移下在所述多个像素位置处发射光信号与反射光信号之间的重叠，所述方法包括根据所述相应图像和至少一个相关图像的颜色表示从所述输入飞行时间深度图生成所述改进的飞行时间深度图。

11.根据权利要求10所述的方法，其特征在于，所述相应图像的所述颜色表示的分辨率比所述输入飞行时间深度图和/或所述至少一个相关图像的分辨率高。

12.根据权利要求10或11所述的方法，其特征在于，所述方法包括通过经训练的人工智能模型生成所述改进的飞行时间深度图。

13.根据权利要求12所述的方法，其特征在于，所述经训练的人工智能模型是端到端可训练神经网络。

14.根据权利要求10至13中任一项所述的方法，其特征在于，所述方法还包括将所述输入飞行时间图与所述至少一个相关图像进行组合，以形成相关性丰富的飞行时间深度图。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括根据所述相应图像的所述颜色表示对所述相关性丰富的飞行时间深度图进行分层上采样。