CN115443483A

CN115443483A - 基于神经网络模型的深度估计

Info

Publication number: CN115443483A
Application number: CN202180030273.9A
Authority: CN
Inventors: 李钟和; G·怀特; A·迈利科斯基; E·T·温特
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-11-23
Filing date: 2021-11-23
Publication date: 2022-12-06
Also published as: JP7459452B2; US20220164973A1; JP2023550926A; EP4229596A1; WO2022107112A1; US11488317B2

Abstract

提供一种系统，所述系统存储针对训练数据集训练的神经网络模型，所述训练数据集指示与一个或多个第一对象相关联的第一图形信息与对应的第一多个深度图像之间的关联。所述系统接收对应于所述一个或多个第一对象的第二图形信息。所述系统还对接收到的第二图形信息应用经过训练的所述神经网络模型。所述系统基于对接收到的第二图形信息应用经过训练的所述神经网络模型，从所述第一多个深度图像预测第一深度图像。所述系统从预测的所述第一深度图像中提取第一深度信息。第一深度信息对应于由第二图形信息指示的所述一个或多个第一对象。

Description

基于神经网络模型的深度估计

相关申请的交叉引用/引用包含

无

技术领域

本公开的各个实施例涉及神经网络模型。更具体地，本公开的各个实施例涉及用于基于神经网络模型的深度估计的系统和方法。

背景技术

通常，距离成像(range imaging)应用被用于深度估计。距离成像应用可以利用各种类型的深度传感器(比如飞行时间(ToF)传感器、光检测和测距(LiDAR)传感器或结构光传感器)对存在于真实环境中的对象进行深度估计。深度传感器可以从不同的视点捕获存在于真实环境中的对象的一个或多个图像。处理由深度传感器捕获的此类图像以获得深度信息可能是复杂的任务。此外，距离成像应用所采用的深度传感器可能昂贵，不易获得，并且在结构上难以实现。

如在本申请的其余部分中并参考附图所述，通过将所描述的系统与本公开的一些方面进行比较，常规的传统方法的限制和缺点对本领域的技术人员来说将变得显而易见。

发明内容

如在权利要求书中更完整地所述，提供一种基本上如在附图至少之一中所示和/或结合附图至少之一所述的用于基于神经网络模型的深度估计的系统和方法。

通过仔细研究本公开的以下详细说明以及附图，可以理解本公开的这些及其他特征和优点，附图中，相同的附图标记始终表示相同的部分。

附图说明

图1是按照本公开的实施例的用于基于神经网络模型的深度估计的示例性网络环境的示图。

图2是按照本公开的实施例的用于基于神经网络模型的深度测量的系统的框图。

图3是按照本公开的实施例的用于基于神经网络模型的深度估计的示例性操作的序列图。

图4是按照本公开的实施例的检查经过训练的神经网络模型在深度估计方面的性能的示例性操作的序列图。

图5是图解说明按照本公开的实施例的用于基于神经网络模型的深度估计的示例性方法的流程图。

具体实施方式

以下说明的实现可以在所公开的用于基于神经网络模型的深度估计的系统和方法中找到。本公开的示例性方面提供一种配置为训练神经网络模型的系统。所述神经网络模型可以基于训练数据集来训练。所述训练数据集可以包括与一个或多个第一对象(例如，基础设施、家具、人、其他有生命和无生命的对象)相关联的第一图形信息和对应的第一多个深度图像。所述第一图形信息的例子可以包括但不限于与一个或多个第一对象相关联的图像、点云数据、体素信息或计算机生成的图像(CGI)。所述第一多个深度图像可以包括在第一图形信息中描述的所述一个或多个第一对象的深度信息。

可以训练神经网络模型以学习第一图形信息与对应的第一多个深度图像之间的映射，用于一个或多个第一对象的深度估计。因此，所公开的系统可以训练神经网络模型，所述神经网络模型可被配置为基于对于经过训练的神经网络模型的图形信息(即，以诸如图像、点云数据，或体素集之类的一种或多种格式)的输入，输出与所述一个或多个第一对象相关联的深度图像(比如飞行时间(TOF)图像)。

经过训练的神经网络模型可以存储在所公开的系统中。所述系统还可以接收可以对应于所述一个或多个第一对象的第二图形信息(例如，新的图形信息)。例如，第二图形信息可以是与所述一个或多个第一对象(比如椅子)相关联的图像。可以注意到的是，第二图形信息可以与训练数据集的第一图形信息相同(或基本相同)，或者可以是与针对其训练神经网络模型的第一图形信息不同的信息。

所述系统还可以将所述神经网络模型应用于接收到的第二图形信息。所述经过训练的神经网络模型可以将接收到的第二图形信息与训练数据集的第一多个深度图像进行映射。所述系统还可以基于所述神经网络模型对于接收到的第二图形信息的应用，控制所述经过训练的神经网络模型从第一多个深度图像预测第一深度图像。所述系统还可以从预测的第一深度图像中提取第一深度信息。所述第一深度信息可以包括在第二图形信息中描述的所述一个或多个第一对象的深度信息。

于是，所公开的系统可以允许通过使用所述经过训练的神经网络模型来预测与所述一个或多个第一对象相关联的深度信息。因此，可以消除使用可能昂贵并且在结构上难以实现的深度传感器(比如飞行时间(ToF)传感器)来确定与在第二图形信息中指示的对象相关联的深度信息的需要。此外，与由深度传感器直接进行的深度信息捕获相比，所公开的系统可以提供深度信息的不太昂贵并且计算高效的预测。此外，所述系统可以利用神经网络模型(即，针对基于各种对象及其各种视点的大型训练数据集训练的神经网络模型)来预测深度信息，与常规的深度传感器相比，这可能时间效率更高。

图1是按照本公开的实施例的用于基于神经网络模型的深度估计的示例性网络环境的示图。参考图1，图中示出了网络环境100的框图。网络环境100可以包括系统102。系统102可以包括神经网络模型104。神经网络模型104可以针对训练数据集来训练，所述训练数据集可以包括第一图形信息104A与第一多个深度图像104B之间的关联。网络环境100还可以包括第二图形信息106和第一深度图像108。网络环境100还可以包括用户设备110和通信网络112。

系统102可以包括可被配置为基于训练数据集训练神经网络模型104的适当逻辑、电路、接口和/或代码，所述训练数据集可以指示与一个或多个第一对象相关联的第一图形信息104A与对应的第一多个深度图像104B之间的关联。系统102还可被配置为从第一多个深度图像104B预测第一深度图像108。系统102还可以从预测的与一个或多个第一对象相关联的第一深度图像108中提取第一深度信息。系统102的例子可以包括但不限于动画系统、计算机图形引擎、计算设备、膝上型计算机、大型机、服务器、计算机工作站、智能电话机、蜂窝电话机、移动电话机、游戏设备和/或消费者电子(CE)设备。

神经网络模型104可以是作为节点排列成多层的人工神经元的计算网络或系统。神经网络模型104的多层可以包括输入层、一个或多个隐藏层、以及输出层。所述多层中的每一层可以包括一个或多个节点(或人工神经元)。输入层中的所有节点的输出可以耦接到隐藏层的至少一个节点。类似地，每个隐藏层的输入可以耦接到神经网络模型104的其他层中的至少一个节点的输出。每个隐藏层的输出可以耦接到神经网络模型104的其他层中的至少一个节点的输入。最后一层中的节点可以接收来自至少一个隐藏层的输入以输出结果。层数和每一层中的节点数可以根据神经网络模型104的超参数来确定。此类超参数可以在针对训练数据集训练神经网络模型104之前或之时设定。

神经网络模型104的每个节点可以对应于具有可以在网络的训练期间调整的一组参数的数学函数(例如，S形函数或修正线性单元)。所述一组参数例如可以包括权重参数、正则化参数等。每个节点可以使用数学函数，基于来自神经网络模型104的其他层(例如，前面的一层或多层)中的节点的一个或多个输入来计算输出。神经网络模型104的所有或一些节点可以对应于相同或不同的相同数学函数。

在神经网络模型104的训练中，神经网络模型104的每个节点的一个或多个参数可以基于最后一层对于(来自训练数据集的)给定输入的输出是否基于神经网络模型104的损失函数与正确结果相匹配来更新。可以对于相同或不同的输入重复上述过程，直到可以获得损失函数的最小值并且可以使训练误差最小化为止。本领域中已知几种训练方法，例如，梯度下降、随机梯度下降、批量梯度下降、梯度提升、元启发法等。

神经网络模型104例如可以包括电子数据，比如用于由诸如系统102之类的处理设备执行的软件程序、软件程序的代码、库、应用、脚本、或其他逻辑或指令。神经网络模型104可以包括代码和例程，所述代码和例程被配置为使得诸如系统102之类的计算设备能够进行用于基于提供的输入(比如第二图形信息106)来预测深度信息的一个或多个操作。另外或者可替选地，神经网络模型104可以使用包括处理器、微处理器(例如，进行一个或多个操作或控制一个或多个操作的执行)、现场可编程门阵列(FPGA)或专用集成电路(ASIC)的硬件来实现。或者，在一些实施例中，神经网络模型104可以使用硬件和软件的组合来实现。

神经网络模型104的例子可以包括但不限于图像到图像转换模型、深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)、CNN-递归神经网络(CNN-RNN)、R-CNN、快速R-CNN、更快速的R-CNN、人工神经网络(ANN)、(仅查看一次)YOLO网络、基于长短期记忆(LSTM)网络的RNN、CNN+ANN、LSTM+ANN、基于门控递归单元(GRU)的RNN、完全连接的神经网络、基于连接时序分类(CTC)的RNN、深度贝叶斯神经网络、生成式对抗网络(GAN)和/或此类网络的组合。在一些实施例中，神经网络模型104可以包括使用数据流图的数值计算技术。在某些实施例中，神经网络模型104可以基于多个深度神经网络(DNN)的混合架构。在一些实施例中，神经网络模型204A可以是人工智能(AI)引擎。

第二图形信息106可以包括或对应于一个或多个第一对象中的对象(比如椅子)，并且可以从一个或多个视点捕获或生成。按照实施例，第二图形信息106可以对应于与一个或多个第一对象中的所述对象相关联的一个或多个图像、点云数据、体素集、三维(3D)网格、视频信息、LAS(LASer)格式数据或专有格式数据。例如，第二图形信息106可以接收自三维(3D)或立体摄像头或三维(3D)图形引擎。第二图形信息可以被输入到经过训练的神经网络模型104，以预测或输出第一深度图像108。第一深度图像108可以包括与第二图形信息106中所包含的一个或多个第一对象中的所述对象相关联的深度信息。按照实施例，第一深度图像108可以包括从与第二图形信息106中的对象的视点相同的视点看的对象的深度信息。

用户设备110可以包括可被配置为向神经网络模型104提供第二图形信息106，用于预测第一深度图像108的适当逻辑、电路和接口。用户设备110还可被配置为从神经网络模型104接收预测的第一深度图像108。用户设备110的例子可以包括但不限于摄像头设备、动画引擎、计算设备、智能电话机、蜂窝电话机、移动电话机、游戏设备、大型机、服务器、计算机工作站和/或消费者电子(CE)设备。在一些实施例中，经过训练的神经网络模型104可以安装或部署在用户设备110上，用于基于输入的第二图形信息106来预测第一深度图像108。

通信网络112可以包括通信介质，系统102和用户设备110可以通过该通信介质相互通信。通信网络112可以是有线连接或无线连接之一。通信网络112的例子可以包括但不限于因特网、云网络、无线保真(Wi-Fi)网络、个人区域网络(PAN)、局域网(LAN)或城域网(MAN)。网络环境100中的各种设备可被配置为按照各种有线和无线通信协议连接到通信网络112。此类有线和无线通信协议的例子可以包括但不限于传输控制协议和网际协议(TCP/IP)、用户数据报协议(UDP)、超文本传送协议(HTTP)、文件传送协议(FTP)、Zig Bee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和蓝牙(BT)通信协议中的至少一种。

操作中，系统102可被配置为存储针对训练数据集训练的神经网络模型104，所述训练数据集可以指示与一个或多个第一对象相关联的第一图形信息104A与对应的第一多个深度图像104B之间的关联。可以针对第一图形信息104A与第一多个深度图像104B的映射训练神经网络模型104，以预测与一个或多个第一对象相关联的深度信息。训练神经网络模型104的细节例如在图3中进一步提供。系统102还可以接收可对应于一个或多个第一对象的第二图形信息106。系统102可以接收第二图形信息106，用于提取与在第二图形信息106中描述的一个或多个第一对象相关联的深度信息。第二图形信息106的细节例如在图3中进一步提供。

系统102还可被配置为对所接收到的第二图形信息106应用经过训练的神经网络模型104。经过训练的神经网络模型104可以将所接收到的第二图形信息106与训练数据集的第一图形信息104A与第一多个深度图像104B之间的关联进行映射，以预测与在第二图形信息106中描述的一个或多个第一对象相关联的深度信息。将经过训练的神经网络模型104应用于第二图形信息106的细节例如在图3中进一步提供。

系统102还可以基于经过训练的神经网络模型104对所接收到的第二图形信息106的应用，从第一多个深度图像104B预测第一深度图像108(例如飞行时间(TOF)图像)。例如，经过训练的神经网络模型104可以是图像到图像转换模型，所述图像到图像转换模型可被配置为从第二图形信息106(比如图像)预测第一深度图像108。控制经过训练的神经网络模型104预测第一深度图像108的细节例如在图3中提供。

系统102还可以从预测的第一深度图像108中提取第一深度信息(例如距离信息或XYZ信息)。第一深度信息可以对应于在第二图形信息106中指示的一个或多个第一对象。按照实施例，对于与一个或多个第一对象相关联的不同深度值，第一深度图像108可以包括不同的颜色信息。提取第一图形信息104A的细节例如在图3中进一步提供。

按照实施例，系统102还可被配置为接收与所接收到的第二图形信息106对应的标记正确(ground truth)图像。标记正确图像可以指示与在第二图形信息106中描述的一个或多个第一对象相关联的深度信息。所述系统可以比较标记正确图像与神经网络模型所预测的第一深度图像，以生成第一预测得分。生成第一预测得分的细节例如在图4中进一步提供。按照实施例，所述系统还可被配置为基于第一预测得分大于或等于阈值得分的判定，从预测的第一深度图像108中提取第一深度信息。判定第一预测得分的细节例如在图4中进一步提供。

图2是按照本公开的实施例的用于基于神经网络模型的深度估计的系统的框图。结合图1的要素来说明图2。参考图2，图中示出了系统102的框图200。系统102可以包括处理器202和存储器204。存储器204还可以包括神经网络模型104。系统102还可以包括输入/输出(I/O)设备206、三维(3D)图形引擎208和网络接口210。

处理器202可以包括可被配置为执行存储在存储器204中的一组指令的适当逻辑、电路和接口。处理器202可被配置为执行与要由系统102执行的不同操作相关联的程序指令。例如，一些操作可以包括训练神经网络模型104以预测第一深度图像108。处理器202还可被配置为预测第一深度图像108，并从预测的第一深度图像108中提取第一深度信息。处理器202可以基于本领域已知的许多处理器技术来实现。处理器技术的例子可以包括但不限于中央处理器(CPU)、基于X86的处理器、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、图形处理器(GPU)和其他处理器。

存储器204可以包括可被配置为存储要由处理器202执行的一个或多个指令的适当逻辑、电路、接口和/或代码。存储器204可被配置为存储训练数据集和神经网络模型104。存储器204还可被配置为存储但不限于第二图形信息106、第一深度图像108以及一个或多个标记正确图像。存储器204的实现的例子可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓冲存储器和/或安全数字(SD)卡。

I/O设备206可以包括可被配置为从用户接收输入并基于所接收到的输入提供输出的适当逻辑、电路和接口。I/O设备206可被配置为接收第二图形信息106作为输入。I/O设备206还可以显示第一深度图像108和所提取的第一深度信息。可以包括各种输入和输出设备的I/O设备206可被配置为与系统102、3D图形引擎208或用户设备110通信。I/O设备206的例子可以包括但不限于触摸屏、键盘、鼠标、操纵杆、麦克风或显示设备。

3D图形引擎208可以包括可被配置为从不同视点(例如不同角度或位置)生成与一个或多个第一对象对应的图形信息(比如第一图形信息104A和第二图形信息106)的适当逻辑、电路、接口和/或代码。3D图形引擎208还可以控制显示设备(比如包括在I/O设备206中)呈现生成的与一个或多个第一对象相关联的图形信息(例如图像、3D网格、体素信息或点云数据)。3D图形引擎208可以利用脚本生成器(比如python脚本生成器)来生成或修改图形信息。例如，3D图形引擎208可以控制显示设备呈现由深度传感器(比如ToF传感器)或立体摄像头从第一视点捕获的一个或多个第一对象的第一图像。3D图形引擎208还可以经由I/O设备206接收一个或多个用户输入，以从不同视点为一个或多个第一对象修改呈现的第一图像(即，生成第一图形信息104A)。一个或多个第一对象的第一图形信息104A可以包括但不限于图像(比如旋转的对象、调整大小的对象、重新定位对象的图像)、点云数据、视频信息、体素信息或3D网格。3D图形引擎208的例子可以包括但不限于3D计算机图形引擎、3D创建应用、3D建模或仿真应用、3D动画引擎或视频编辑应用。尽管在图2中，示出了与系统102集成的3D图形引擎208，不过本公开不限于此。因而，在一些实施例中，3D图形引擎208可以与系统102分离，而不脱离本公开的范围。

网络接口210可以包括可被配置为便于经由通信网络112在系统102和用户设备110之间进行通信的适当逻辑、电路和接口。网络接口210可以通过使用各种已知技术来实现，以支持系统102与通信网络112的有线或无线通信。网络接口210可包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码器(CODEC)芯片集、用户识别模块(SIM)卡、或本地缓冲电路。网络接口210可被配置为经由无线通信与网络，比如因特网、内联网或诸如蜂窝电话网络、无线局域网(LAN)和城域网(MAN)之类的无线网络进行通信。无线通信可被配置为使用多种通信标准、协议和技术中的一种或多种，比如全球移动通信系统(GSM)、增强数据GSM环境(EDGE)、宽带码分多址接入(W-CDMA)、长期演进(LTE)、码分多址接入(CDMA)、时分多址接入(TDMA)、蓝牙、无线保真(Wi-Fi)(比如IEEE 802.11a、IEEE 802.11b、IEEE 802.11g或IEEE 802.11n)、网际协议语音(VoIP)、光保真(Li-Fi)、微波接入全球互操作性(Wi-MAX)、电子邮件协议、即时消息接发、以及短消息服务(SMS)。

图3是按照本公开的实施例的用于基于神经网络模型的深度估计的示例性操作的序列图。结合图1和图2的要素来说明图3。参考图3，图中示出了图解说明一系列操作304～312的序列图300。所述一系列操作可以由图1的系统102的各个组件或图2的处理器202执行。

在304，神经网络模型104可以存储在存储器204中。按照实施例，神经网络模型104可以由系统102的处理器202训练。神经网络模型104可以针对训练数据集302来训练，训练数据集302可以指示与一个或多个第一对象相关联的第一图形信息104A与对应的第一多个深度图像104B之间的关联。按照实施例，第一图形信息104A可以对应于但不限于一个或多个图像、点云数据、体素集、三维(3D)网格、视频信息、LAS(LASer)格式数据或专有格式数据中的至少一个。第一图形信息104A可以包括或对应于从一个或多个观点(比如但不限于前视图、侧视图、顶视图、后视图、旋转视图或倾斜视图)看的一个或多个第一对象(比如有生命或无生命的对象，如图3中所示的椅子)。

在示例性场景中，训练数据集302可以包括第一图形信息104A(比如第一图像302A)和对应的深度图像(比如第二图像302B)。换句话说，训练数据集302可以包括第一图像302A与第二图像302B之间的关联或对应。训练数据集302还可以包括第一图形信息104A(比如第三图像302C)和对应的深度图像(比如第四图像302D)。换句话说，训练数据集302可以包括第三图像302C与第四图像302D之间的关联或对应。训练数据集302还可以包括第一图形信息104A(比如点云数据302E)和对应的深度图像(比如第五图像302F)。换句话说，训练数据集302可以包括点云数据302E与第五图像302F之间的关联或对应。训练数据集302还可以包括第一图形信息104A(比如三维(3D)网格302G)和对应的深度图像(比如第六图像302H)。换句话说，训练数据集302可以包括3D网格302G与第六图像302H之间的关联或对应。

按照实施例，第一图形信息104A可以包括从不同视点看的一个或多个第一对象的颜色信息。例如，第一图形信息104A(比如第一图像302A或第三图像302C)可以包括一个或多个第一对象(比如椅子)的颜色信息(比如红、绿、蓝(RGB)信息)。第一图形信息104A可以包括一个或多个图像(例如，可移植网络图形(PNG)格式)，所述一个或多个图像可以从诸如但不限于侧视图和前视图之类的不同视点描述对象，比如椅子。此外，第一图形信息104A可以包括与诸如椅子之类的对象相关联的点云数据(比如点云数据302E)。第一图形信息104A还可以包括与该椅子相关联的3D网格(比如3D网格302G)。关于一个或多个对象的第一图形信息104A可以在训练数据集302创建之前或创建时由3D图形引擎208生成或修改。由3D图形引擎208进行的修改可以包括但不限于旋转、调整大小、移动或平移)。在一些实施例中，在创建训练数据集302之前，可以从深度传感器(未示出)捕获关于一个或多个对象的第一图形信息104A。第一图形信息104A可以从深度传感器的不同视点(即，前视图、侧视图、底视图、顶视图或特定角度的视图)，或在修改可能由深度传感器较早捕获的第一图形信息104A时由3D图形引擎208创建的视点，描述一个或多个对象(比如椅子)。由3D图形引擎208创建的对象的视点可以被称为从3D图形引擎208的虚拟成像传感器捕获对象。

按照实施例，第二图像302B、第四图像302D、第五图像302F和第六图像302H(示于图3中)可以被称为可针对其训练神经网络模型104的第一多个深度图像104B。第一多个深度图像104B可以从深度传感器(比如ToF传感器，未示出)或三维(3D)图形引擎(比如3D图形引擎208)的虚拟成像传感器中的至少一个的不同视点指示一个或多个对象的深度信息。深度传感器或3D图形引擎208可以用于生成训练数据集，针对该训练数据集训练神经网络模型104。然而，所公开的系统102可以使用经过训练的神经网络模型104来预测一个或多个对象(即，在第二图形信息中指示的一个或多个对象)的深度信息或深度值，而不使用真实的深度传感器。深度信息例如可以对应于深度传感器或虚拟成像传感器与对象(比如椅子)之间的距离信息。可以注意到的是，对于所公开的系统102对一个或多个第一对象的深度估计，可以取消使用真实的深度传感器。

按照实施例，第一多个深度图像104B(比如TOF图像)中的每一个可以包括对于与一个或多个第一对象相关联的不同深度值，指示不同颜色的像素。例如，深度值可以与对象(比如椅子)的可见表面上的每个点与深度传感器或虚拟成像传感器之间的距离相关。在例子中，第一多个深度图像104B中的每一个可以指示深度图，使得对于椅子的表面上更靠近深度传感器的点的第一深度值可以具有与对于椅子的表面上更远离深度传感器的点的第二深度值不同的值。在一些实施例中，深度值可以由一种或多种颜色指示，使得颜色值(如RGB值)可随着对象与深度传感器之间的距离的增加而梯度减小。例如，在从特定视点捕获对象时，与对象的可见表面上的较远的点相比，近的点可以具有更深的颜色或阴影。

因此，训练数据集302可以包括第一图形信息104A，比如第一图像302A、第三图像302C、点云数据302E和3D网格302G。对应的第一多个深度图像104B可以包括第二图像302B、第四图像302D、第五图像302F和第六图像302H，每一个都与对应的第一图形信息104A相关联或映射。第二图像302B可以包括在第一图像302A中描述的对象(比如椅子)的深度信息。第四图像302D可以包括在第三图像302C中描述的对象(即，椅子)的深度信息。类似地，第五图像302F可以包括在点云数据302E中描述的对象(即椅子)的深度信息。此外，第六图像302H可以包括在3D网格302G中描述的对象(即椅子)的深度信息。第一图形信息104A和对应的第一多个深度图像104B例如可以是配对数据、未配对数据或者配对数据与未配对数据两者的组合。处理器202可被配置为针对训练数据集302训练神经网络模型104，以将第一图形信息104A与第一多个深度图像104B中的对应深度图像进行映射，以便预测一个或多个第一对象的深度信息。可以注意到的是，训练数据集302在图3中只是作为例子示出的。训练数据集302可以包括针对不同类型的对象或包括对象的场景的第一图形信息104A与第一多个深度图像104B之间的映射的关联，而不脱离本公开的范围。

在306，可以接收可对应于一个或多个第一对象的第二图形信息306A。按照实施例，处理器202可被配置为接收可以对应于一个或多个第一对象(比如椅子)的第二图形信息306A。第二图形信息306A可以是不包含在训练数据集302中的新信息(比如新的图像)。可以从用户设备110接收第二图形信息306A，用于预测与在第二图形信息306A中描述的一个或多个第一对象(比如椅子)相关联的深度信息。第二图形信息306A也可以接收自存储器(比如存储器204)或服务器的数据库(未示出)。

按照实施例，第二图形信息306A可以对应于一个或多个图像、点云数据、体素集、3D网格、视频信息、LAS格式数据或专有格式数据中的至少一个。在例子中，第二图形信息306A可以与第一图形信息104A，比如第三图像302C完全相似或基本相似。换句话说，第二图形信息306A可以从与第一图形信息104A(比如第三图像302C)中所描述的相同视点描述对象(比如椅子)。在一些实施例中，第二图形信息306A可以从不同的视点或以与第一图形信息104A不同或相同的不同格式数据(比如点云数据或LAS格式数据)来描述一个或多个第一对象。处理器202还可以将所接收到的第二图形信息306A输入到经过训练的神经网络模型104。

在308，可以对所接收到的第二图形信息306A应用经过训练的神经网络模型104。按照实施例，处理器202可被配置为对所接收到的第二图形信息306A应用经过训练的神经网络模型104。经过训练的神经网络模型104例如可以是图像到图像转换模型，使得可以接收第二图形信息306A(它可以是RGB域中的图像)作为输入的经过训练的神经网络模型104将所接收到的第二图形信息306A转换到另一个域(例如，具有深度信息的图像)。为了对所接收到的第二图形信息306A应用神经网络模型104，神经网络模型104可以将所接收到的第二图形信息306A的一个或多个特征与针对其训练神经网络模型104的每个第一图形信息104A的一个或多个特征进行比较。所比较的特征可以与第一图形信息104A和第二图形信息306A所指示的一个或多个对象相关。基于该比较，神经网络模型104或处理器202可以确定相关特征与所接收到的第二图形信息306A的特征基本匹配的(训练数据集302中的)第一图形信息104A。

在310，可以基于对所接收到的第二图形信息306A应用经过训练的神经网络模型104，从第一多个深度图像104B预测第一深度图像310A。按照实施例，处理器202可被配置为基于对所接收到的第二图形信息306A应用经过训练的神经网络模型104，从第一多个深度图像104B预测第一深度图像310A。经过训练的神经网络模型104可以预测与输入到经过训练的神经网络模型104的第二图形信息306A对应的第一深度图像310A。处理器202可以接收预测的对应于第二图形信息306A的第一深度图像310A。例如，经过训练的神经网络模型104可以确定第二图形信息306A(即，从特定视点指示椅子对象)可能与包含在训练数据集302中的第三图像302C基本匹配，于是，在经过训练的神经网络模型104中确定或预测与第三图像302C相关联的第四图像302D(作为第一深度图像310A)。

按照实施例，预测的第一深度图像310A可以指示在接收到的第二图形信息306A中描述的一个或多个第一对象的深度信息。对于与一个或多个第一对象(比如椅子)相关联的不同深度值，预测的第一深度图像310A(比如TOF图像)可以包括不同的颜色。例如，如图3中所示，第一深度图像310A中的椅子表面上的点的颜色深浅可以随着从特定视点看的椅子表面上的点的距离的增加而梯度减小。在示例性场景中，当第二图形信息306A类似于训练数据集302的第三图像302C时，第一深度图像310A可以类似于第四图像302D，如图3中所示。于是，经过训练的神经网络模型104可以基于输入到经过训练的神经网络模型104的第二图形信息306A(即，计算机生成的图像(CGI))信息来预测不同的深度图像(或TOF图像)。

在312，可以从预测的第一深度图像310A中提取第一深度信息。按照实施例，处理器202可被配置为从预测的第一深度图像310A中提取第一深度信息。第一深度信息可以对应于由第二图形信息306A指示的一个或多个第一对象。第一深度信息例如可以包括在从特定视点(比如从生成或捕获第二图形信息306A的视点)看的第二图形信息306A中描述的对象(即椅子)的表面的每个点的距离信息(距离值或XYZ信息)。在一些实施例中，第一深度信息可以是文本格式数据(例如，“.SKV”文件格式或“.CSV”文件格式)，使得每个深度值可以用数值表示。在示例性场景中，与第一深度图像310A中可能被认为更远的对象(即椅子)的表面上的点相比，可能被认为更近的对象(即第一深度图像310A中的椅子)的表面上的点可具有指示较低数值的深度值。因此，预测的第一深度图像310A中的一个或多个对象的表面的每个点可以由所公开的系统102赋予深度值(比如对应于距离值或XYZ值)。

因此，本公开的系统102可以允许基于图形信息(比如第二图形信息306A)来预测深度信息(比如第一深度信息)，而不使用真实的深度传感器。与通过常规的深度传感器确定深度信息相比，通过经过训练的神经网络模型104预测第一深度图像310A可能在计算上先进并且时间效率更高。此外，与可能需要额外的硬件设置来确定可读格式的深度信息的常规深度传感器相比，在系统102中，深度估计的硬件需求可以大大降低。

尽管序列图300被例示为离散的操作，比如304、306、308、310和312，然而，在某些实施例中，取决于特定的实现，这样的离散操作可以被进一步划分成另外的操作，组合成更少的操作，或者被删除，而不影响所公开实施例的本质。

图4是按照本公开的实施例的检查经过训练的神经网络模型在深度估计方面的性能的示例性操作的序列图。结合图1、图2和图3的要素来说明图4。参考图4，图中示出了图解说明一系列操作402～412的序列图400。所述一系列操作可由图1的系统102的各个组件或图2的处理器202执行。

在402，可以接收对应于第二图形信息306A的标记正确图像402A。按照实施例，处理器202可被配置为接收对应于所接收到的第二图形信息306A的标记正确图像402A。标记正确图像402A可以指示与在第二图形信息306A中描述的一个或多个第一对象相关联的深度信息。

在一些实施例中，处理器202可被配置为从3D图形引擎(比如3D图形引擎208)接收标记正确图像402A。标记正确图像402A可以视为具有与在第二图形信息306A中描述的一个或多个第一对象对应的精确深度值的深度图像。例如，可以从存储器204接收标记正确图像402A。在一个或多个实施例中，标记正确图像402A可以是来自第一图形信息104A的图像或其他格式数据之一，比如第四图像302D(它可以由3D图形引擎208或深度传感器生成)。

在404，可以比较所接收到的标记正确图像402A与神经网络模型104所预测的第一深度图像310A。按照实施例，处理器202可被配置为比较所接收到的标记正确图像402A与神经网络模型104从第一多个深度图像104B所预测的第一深度图像310A。在一些实施例中，可以比较所接收到的标记正确图像402A与第一深度图像310A的每个像素，以确定所接收到的标记正确图像402A与第一深度图像310A之间的相似性。

在406，可以基于所接收到的标记正确图像402A与经过训练的神经网络模型104所预测的第一深度图像310A的比较，生成第一预测得分。按照实施例，处理器202可被配置为基于所接收到的标记正确图像402A与经过训练的神经网络模型104所预测的第一深度图像310A的比较，生成第一预测得分(例如在“0”到“1”之间)。第一预测得分可以指示经过训练的神经网络模型104在深度图像(比如第一深度图像310A)的预测方面的性能。

在一些实施例中，处理器202还可被配置为基于结构相似性指数度量来生成第一预测得分。结构相似性指数量度可以在“0”到“1”的范围内定义。例如，当所接收到的标记正确图像402A与预测的第一深度图像310A完全相似时，处理器202可以基于为“1”的结构相似性指数度量来生成第一预测得分。在另一个例子中，当所接收到的标记正确图像402A与预测的第一深度图像310A彼此之间具有最小的相似性时，处理器202可以基于为“0”的结构相似性指数度量来生成第一预测得分。因此，与接近值“0”的第一预测得分相比，接近值“1”的第一预测得分可以指示由经过训练的神经网络模型104预测的第一深度图像310A可能更准确。于是，可能意味着更接近值“1”的第一预测得分可能指示经过训练的神经网络模型104在第一深度图像310A的预测方面的更好性能。

在408，判定所生成的第一预测得分是否大于或等于阈值得分。按照实施例，处理器202可被配置为判定所生成的第一预测得分是否大于或等于阈值得分。阈值得分可以指示经过训练的神经网络模型104的最小性能参数。例如，阈值得分可以是“0.9”。因此，处理器202可以确定大于或等于阈值得分“0.9”的第一预测得分指示从经过训练的神经网络模型104预测深度图像(比如第一深度图像310A)令人满意。

在410，基于第一预测得分大于或等于阈值得分的判定，可以从预测的第一深度图像310A中提取第一深度信息。按照实施例，处理器202可被配置为基于第一预测得分大于或等于阈值得分的判定，从预测的第一深度图像310A中提取第一深度信息。例如，第一预测得分可能是“0.94”。因此，处理器202可以从预测的第一深度图像310A中提取第一深度信息。从预测的第一深度图像310A中提取第一深度信息的细节例如在图3的312说明。

在412，可以基于第一预测得分小于阈值得分的判定来重新训练神经网络模型104。按照实施例，处理器202可被配置为基于第一预测得分小于预先定义的阈值得分的判定来重新训练神经网络模型104。例如，如果对于第一深度图像310A的预测的第一预测得分小于阈值得分“0.9”，则可以重新训练神经网络模型104。因此，本公开的系统102可以允许重新训练神经网络模型104，以提高神经网络模型104在预测与输入到神经网络模型104的图形信息相关联的精确深度图像方面的性能。

尽管序列图400被例示为离散的操作，比如402、404、406、408、410和412，然而，在某些实施例中，取决于特定的实现，这样的离散操作可以被进一步划分成另外的操作，组合成更少的操作，或者被删除，而不影响所公开实施例的本质。

图5是图解说明按照本公开的实施例的用于基于神经网络模型的深度估计的示例性方法的流程图。结合图1、图2、图3和图4的要素来说明图5。参考图5，图中示出了流程图500。流程图500的示例性方法可以由任何计算系统执行，例如由图1的系统102或图2的处理器202执行。流程图500的示例性方法可以始于502，然后转到504。

在504，神经网络模型104可以存储在存储器204中。按照实施例，存储器204可被配置为存储神经网络模型104。神经网络模型104可以针对训练数据集(比如训练数据集302)来训练，所述训练数据集可以指示与一个或多个第一对象相关联的第一图形信息104A与对应的第一多个深度图像104B之间的关联。处理器202可被配置为训练神经网络模型104以预测第一深度图像108。神经网络模型104在存储器204中的存储以及神经网络模型104的训练例如在图3中的304说明。

在506，可以接收第二图形信息106。按照实施例，处理器202可被配置为接收可以对应于一个或多个第一对象的第二图形信息106。第二图形信息106例如可以是一个或多个图像、点云数据、体素集、3D网格、视频信息、LAS(LASer)格式数据、专有格式数据或计算机生成的图像(CGI)信息。第二图形信息106的接收例如在图3中的306说明。

在508，可以对第二图形信息106应用经过训练的神经网络模型104。按照实施例，处理器202可被配置为对第二图形信息106应用经过训练的神经网络模型104。可以对第二图形信息106应用神经网络模型104，以预测第一深度图像108。神经网络模型104对第二图形信息106的应用例如在图3中的308说明。

在510，可以从第一多个深度图像104B预测第一深度图像108。按照实施例，处理器202可被配置为基于经过训练的神经网络模型104对第二图形信息106的应用，从第一多个深度图像104B预测第一深度图像108(比如飞行时间(TOF)图像)。基于经过训练的神经网络模型104的应用，从第一多个深度图像104B预测第一深度图像108例如在图3中的310说明。

在512，可以从预测的第一深度图像108中提取第一深度信息。按照实施例，处理器202可被配置为从预测的第一深度图像108中提取第一深度信息(即，距离信息)。第一深度信息可以对应于由第二图形信息106指示的一个或多个第一对象。从预测的第一深度图像108中提取第一深度信息例如在图3中的312说明。控制可以转到结束。

尽管流程图500图解说明了离散的操作，比如504、506、508、510和512，然而本公开不限于此。因而，在某些实施例中，取决于特定的实现，这样的离散操作可以被进一步划分成另外的操作，组合成更少的操作，或者被删除，而不影响所公开实施例的本质。

本公开的各个实施例可以提供上面存储可由机器和/或计算机(例如系统102)执行的指令的非临时性计算机可读介质和/或存储介质。所述指令可以使机器和/或计算机(例如系统102)执行操作，所述操作包括神经网络模型(比如神经网络模型104)的存储。神经网络模型104可以针对训练数据集(比如训练数据集302)来训练，所述训练数据集可以指示与一个或多个第一对象相关联的第一图形信息104A与对应的第一多个深度图像(比如第一多个深度图像104B)之间的关联。所述操作还可以包括可对应于所述一个或多个第一对象的第二图形信息(比如第二图形信息106)的接收。所述操作还可以包括对所接收到的第二图形信息106应用经过训练的神经网络模型104。所述操作还可以包括基于对所接收到的第二图形信息106应用经过训练的神经网络模型104，从第一多个深度图像104B预测第一深度图像(比如第一深度图像108)。所述操作还可以包括从预测的第一深度图像108中提取第一深度信息。所述第一深度信息可以对应于由第二图形信息106指示的一个或多个第一对象。

本公开的示例性方面可以包括一种系统(比如系统102)，所述系统可以包括处理器(比如处理器202)。所述系统102还可以包括被配置为存储神经网络模型(比如神经网络模型104)的存储器。所述神经网络模型104可以针对训练数据集(比如训练数据集302)来训练，所述训练数据集可以指示与一个或多个第一对象相关联的第一图形信息104A与对应的第一多个深度图像104B之间的关联。所述处理器202还可被配置为接收可以对应于所述一个或多个第一对象的第二图形信息(比如第二图形信息106)。所述处理器202还可被配置为对所接收到的第二图形信息106应用经过训练的神经网络模型104。所述处理器202还可被配置为基于对所接收到的第二图形信息106应用经过训练的神经网络模型104，从所述第一多个深度图像104B预测第一深度图像(比如第一深度图像108)。所述处理器202还可被配置为从预测的所述第一深度图像108中提取第一深度信息。所述第一深度信息可以对应于由所述第二图形信息106指示的所述一个或多个第一对象。

按照实施例，所述第一图形信息104A可以包括从不同视点看的所述一个或多个第一对象的颜色信息。按照实施例，所述第一多个深度图像104B可以指示从深度传感器或者三维(3D)图形引擎(比如3D图形引擎208)的虚拟成像传感器中的至少一个的不同视点看的所述一个或多个第一对象的深度信息。

按照实施例，对于与所述一个或多个第一对象相关联的不同深度值，所述第一多个深度图像104B中的每一个可以包括不同的颜色。按照实施例，所述第一图形信息104A和所述第二图形信息106可以对应于一个或多个图像、点云数据、体素集、三维(3D)网格、视频信息、LAS(LASer)格式数据或专有格式数据中的至少一个。

按照实施例，所述处理器202还可被配置为接收对应于所接收到的第二图形信息106的标记正确图像(比如标记正确图像402A)。所述标记正确图像402A可以指示与在所述第二图形信息106中描述的所述一个或多个第一对象相关联的深度信息。所述处理器202还可以将所接收到的标记正确图像402A与由所述神经网络模型104从所述第一多个深度图像104B预测的所述第一深度图像108进行比较。所述处理器202还可以基于所接收到的标记正确图像402A与由经过训练的所述神经网络模型104预测的所述第一深度图像108的比较来生成第一预测得分。按照实施例，所述处理器202还可被配置为基于所述第一预测得分大于或等于阈值得分的判定，从预测的所述第一深度图像108中提取所述第一深度信息。按照实施例，所述处理器202可被配置为基于结构相似性指数度量来生成所述第一预测得分。按照实施例，所述处理器202可被配置为从所述3D图形引擎208接收所述标记正确图像402A。

本公开可以用硬件或者硬件和软件的组合来实现。本公开可以以集中方式在至少一个计算机系统中，或者以其中不同的元件可分布在几个互连的计算机系统上的分布式方式实现。适于执行本文中所述的方法的计算机系统或其他装置可能是合适的。硬件与软件的组合可以是具有计算机程序的通用计算机系统，所述计算机程序在被加载和执行时，可以控制所述计算机系统，使得所述计算机系统执行本文中所述的方法。本公开可以用包括还进行其他功能的集成电路的一部分的硬件来实现。

本公开还可以嵌入到计算机程序产品中，所述计算机程序产品包括使得能够实现本文中所述的方法的所有特征，并且当被载入计算机系统中时能够执行这些方法。在本上下文中，计算机程序意味着一组指令的采用任何语言、代码或符号的任意表达，所述一组指令旨在使具有信息处理能力的系统直接地或者在下列之一或两者之后进行特定功能：a)转换成其他语言、代码或符号；b)以不同的材料形式进行再现。

虽然参考某些实施例说明了本公开，但是本领域技术人员会理解的是，在不脱离本公开的范围的情况下可以进行各种更改，并且可以替换等同物。另外，可以进行许多修改以使特定情况或材料适应本公开的教导而不脱离其范围。于是，本公开并不限于所公开的特定实施例，相反本公开将包括落入所附权利要求的范围内的所有实施例。

Claims

1.一种系统，所述系统包括：

存储器，所述存储器被配置为存储针对训练数据集训练的神经网络模型，所述训练数据集指示与一个或多个第一对象相关联的第一图形信息与对应的第一多个深度图像之间的关联；以及

处理器，所述处理器被配置为：

接收对应于所述一个或多个第一对象的第二图形信息；

对接收到的第二图形信息应用经过训练的所述神经网络模型；

基于对接收到的第二图形信息应用经过训练的所述神经网络模型，从所述第一多个深度图像预测第一深度图像；以及

从预测的第一深度图像中提取第一深度信息，其中第一深度信息对应于由第二图形信息指示的所述一个或多个第一对象。

2.按照权利要求1所述的系统，其中第一图形信息包括从不同视点看的所述一个或多个第一对象的颜色信息。

3.按照权利要求1所述的系统，其中所述第一多个深度图像指示从深度传感器或者三维(3D)图形引擎的虚拟成像传感器中的至少一个的不同视点看的所述一个或多个第一对象的深度信息。

4.按照权利要求1所述的系统，其中对于与所述一个或多个第一对象相关联的不同深度值，所述第一多个深度图像中的每一个包括不同的颜色。

5.按照权利要求1所述的系统，其中所述第一图形信息和所述第二图形信息对应于以下中的至少一个：一个或多个图像、点云数据、体素集、三维(3D)网格、视频信息、LAS(LASer)格式数据或专有格式数据。

6.按照权利要求1所述的系统，其中所述处理器还被配置为：

接收对应于接收到的第二图形信息的标记正确图像，其中所述标记正确图像指示与在第二图形信息中描述的所述一个或多个第一对象相关联的深度信息；

将接收到的所述标记正确图像与由所述神经网络模型从所述第一多个深度图像预测的第一深度图像进行比较；以及

基于接收到的所述标记正确图像与由经过训练的所述神经网络模型预测的第一深度图像的比较来生成第一预测得分。

7.按照权利要求6所述的系统，其中所述处理器还被配置为基于生成的第一预测得分大于或等于阈值得分的判定，从预测的第一深度图像中提取第一深度信息。

8.按照权利要求6所述的系统，其中所述处理器还被配置为基于结构相似性指数度量来生成第一预测得分。

9.按照权利要求6所述的系统，其中所述处理器被配置为从三维(3D)图形引擎接收所述标记正确图像。

10.一种方法，包括：

在系统中：

存储针对训练数据集训练的神经网络模型，所述训练数据集指示与一个或多个第一对象相关联的第一图形信息与对应的第一多个深度图像之间的关联；

接收对应于所述一个或多个第一对象的第二图形信息；

11.按照权利要求10所述的方法，其中第一图形信息包括从不同视点看的所述一个或多个第一对象的颜色信息。

12.按照权利要求10所述的方法，其中第一多个深度图像指示从深度传感器或者三维(3D)图形引擎的虚拟成像传感器中的至少一个的不同视点看的所述一个或多个第一对象的深度信息。

13.按照权利要求10所述的方法，其中对于与所述一个或多个第一对象相关联的不同深度值，所述第一多个深度图像中的每一个包括不同的颜色。

14.按照权利要求11所述的方法，其中第一图形信息和第二图形信息对应于一个或多个图像、点云数据、体素集、三维(3D)网格、视频信息、LAS(LASer)格式数据或专有格式数据中的至少一个。

15.按照权利要求10所述的方法，包括：

16.按照权利要求15所述的方法，还包括基于生成的第一预测得分大于或等于阈值得分的判定，从预测的第一深度图像中提取第一深度信息。

17.按照权利要求15所述的方法，其中生成的第一预测得分基于结构相似性指数度量。

18.一种其上存储有计算机实现的指令的非临时性计算机可读介质，所述指令当由系统执行时，使所述系统执行操作，所述操作包括：

接收对应于所述一个或多个第一对象的第二图形信息；

对接到收的所述第二图形信息应用经过训练的所述神经网络模型；

基于对接收到的所述第二图形信息应用经过训练的所述神经网络模型，从所述第一多个深度图像预测第一深度图像；以及

19.按照权利要求18所述的计算机可读介质，其中第一图形信息和第二图形信息对应于以下中的至少一个：一个或多个图像、点云数据、体素集、三维(3D)网格、视频信息、LAS(LASer)格式数据或专有格式数据。

20.按照权利要求18所述的计算机可读介质，其中对于与所述一个或多个第一对象相关联的不同深度值，所述第一多个深度图像中的每一个包括不同的颜色。