CN117710459A

CN117710459A - 三维信息的确定方法、装置及计算机程序产品

Info

Publication number: CN117710459A
Application number: CN202311719041.1A
Authority: CN
Inventors: 徐洛冬; 王方浩; 黄轩; 李润龙; 燕家兴; 胡琪琳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-15

Abstract

本公开提供了一种三维信息的确定方法、装置、电子设备、存储介质及程序产品，涉及人工智能技术领域，具体涉及机器视觉技术领域，可应用于自动驾驶场景下。具体实现方案为：获取二维图像；确定二维图像中的目标对象和目标对象在二维图像中的位置区域；通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息。本公开中实现了纯视觉的、目标对象的三维信息的检测方式，在保证准确度的同时，降低了检测成本。

Description

三维信息的确定方法、装置及计算机程序产品

技术领域

本公开涉及人工智能技术领域，具体涉及机器视觉技术领域，尤其涉及一种三维信息的确定方法、装置、电子设备、存储介质以及计算机程序产品，可应用于自动驾驶场景下。

背景技术

在自动驾驶技术中，自动驾驶车辆的环境感知技术十分重要。目前，自动驾驶车辆对驾驶环境的感知主要依靠激光雷达，对于一些小障碍物(例如，行人)，激光雷达打在上面的点较少，因此所获取的此类障碍物的点云数据就会比较稀疏，同时激光雷达的成本普遍较高。

发明内容

本公开提供了一种三维信息的确定方法、装置、电子设备、存储介质以及计算机程序产品。

根据第一方面，提供了一种三维信息的确定方法，包括：获取二维图像；确定二维图像中的目标对象和目标对象在二维图像中的位置区域；通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息。

根据第二方面，提供了一种三维信息的确定装置，包括：获取单元，被配置成获取二维图像；确定单元，被配置成确定二维图像中的目标对象和目标对象在二维图像中的位置区域；预测单元，被配置成通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。

根据第五方面，提供了一种计算机程序产品，包括：计算机程序，计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。

根据本公开的技术，提供了一种三维信息的确定方法，通过确定所获取的二维图像中的目标对象和目标对象在二维图像中的位置区域，并通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息，从而实现了纯视觉的、目标对象的三维信息的检测方式，在保证准确度的同时，降低了检测成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的三维信息的确定方法的一个实施例的流程图；

图3是根据本实施例的三维信息的确定方法的应用场景的示意图；

图4是根据本公开的三维信息的确定方法的又一个实施例的流程图；

图5是根据本公开的三维信息的确定装置的一个实施例的结构图；

图6是适于用来实现本公开实施例的计算机系统的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本公开的三维信息的确定方法及装置的示例性架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。终端设备101、102、103之间通信连接构成拓扑网络，网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时，其可以是支持网络连接，信息获取、交互、显示、处理等功能的各种电子设备，包括但不限于图像采集设备、智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如，获取终端设备101、102、103采集的二维图像，确定所获取的二维图像中的目标对象和目标对象在二维图像中的位置区域，并通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息的后台处理服务器。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

还需要说明的是，本公开的实施例所提供的三维信息的确定方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，三维信息的确定装置包括的各个部分(例如各个单元)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当三维信息的确定方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括三维信息的确定方法运行于其上的电子设备(例如终端设备或服务器)。

请参考图2，图2为本公开实施例提供的一种三维信息的确定方法的流程图。其中，在流程200中，包括以下步骤：

步骤201，获取二维图像。

本实施例中，三维信息的确定方法的执行主体(例如，图1中的终端设备或服务器)可以通过有线网络连接方式或无线网络连接方式从远程，或从本地获取二维图像。

二维图像通过图像采集设备采集，表征图像采集设备所处位置的周围环境信息。例如，在自动驾驶场景中，二维图像为自动驾驶车辆在驾驶过程中，通过设置于自动驾驶车辆上的图像采集设备采集的驾驶环境图像。又例如，在监控场景中，二维图像为监控摄像头所采集的监控区域图像。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤201：通过单目相机进行图像采集，得到二维图像。

以自动驾驶场景为例，自动驾驶车辆上可以设置一个或多个单目相机，每个单目相机均可以进行图像采集。

针对于单目相机采集到的每个二维图像，可以通过后续的信息处理过程预测其中的目标对象的三维信息。基于单目图像，实现了低成本的图像采集。

步骤202，确定二维图像中的目标对象和目标对象在二维图像中的位置区域。

本实施例中，上述执行主体可以确定二维图像中的目标对象和目标对象在二维图像中的位置区域。

作为示例，上述执行主体可以通过预训练的目标检测模型，确定二维图像中的目标对象和目标对象在二维图像中的位置区域。其中，目标检测模型用于表征二维图像和二维图像中的目标对象、目标对象在二维图像中的位置区域之间的对应关系。

目标检测模型可以是单阶段的目标检测模型，也可以是双阶段的目标检测模型。单阶段的目标检测模型旨在直接从二维图像中输出目标对象的检测框和目标对象的类别标签，例如是YOLO(You Only Look Once，你只需看一次)模型、SSD(Single Shot Multi-Box Detector，单次多盒探测器)模型、RetinaNet(视网膜网络)模型。

双阶段的目标检测模型通常分为两个阶段进行目标检测。

阶段一(候选框生成)：模型通过特征提取网络提取图像特征。然后，运用候选框生成算法来生成一系列潜在的候选目标框，这些候选目标框可能包含目标对象。其中，候选框生成算法例如是SS(Selective Search，选择性检索)或RPN(Region Proposal Network，区域候选网络)。

阶段二(目标分类与边界框回归)：候选目标框以及其与真实目标框的重叠情况(即IoU值)被输入到分类网络中，用于对目标对象进行分类和边界框回归。分类网络判断每个候选目标框是前景还是背景(通常使用softmax激活函数)，并为前景目标(如人、车等)分配类别标签。边界框回归网络对候选目标框的位置进行微调，以更准确地定位目标框。

双阶段的目标检测模型例如是Faster R-CNN(Region Convolutional NeuralNetworks，快速区域卷积神经网络)、R-CNN(Region Convolutional Neural Networks，区域卷积神经网络)、Mask R-CNN(Mask Region Convolutional Neural Networks，掩膜区域卷积神经网络)等模型。

步骤203，通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息。

本实施例中，上述执行主体可以通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息。

三维信息包括但不限于是目标对象的长、宽、高等尺寸信息，目标对象相对于二维图像的采集设备之间的姿态信息，目标对象与采集设备之间距离信息。

作为示例，上述执行主体可以将二维图像、二维图像中的目标对象和目标对象在二维图像中的位置区域，输入预训练的三维信息预测模型，三维信息预测模型根据目标对象、目标对象在二维图像中的位置区域，对二维图像中的每个目标对象进行特征提取，并根据提取到的特征进行三维信息预测，得到每个目标对象的三维信息。

三维信息预测模型可以是统一的三维信息预测模型，具有目标对象的各种三维信息的预测功能；也可以是由多个子模型组合而成的三维信息预测模型，每个子模型具有目标对象的一种三维信息的预测功能。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤203：

第一，通过三维信息预测模型中的特征提取网络，根据目标对象的位置区域，提取目标对象的特征数据。

对于二维图像中的每个目标对象，通过三维信息预测模型中的特征提取网络，根据该目标对象在二维图像中的位置区域，提取该目标对象的特征数据。

特征提取网络作为三维信息预测模型中的骨干网络，后续的姿态预测网络和尺寸预测网络均运用特征提取网络输出的特征数据进行三维信息的预测。

第二，通过三维信息预测模型中的姿态预测网络，根据特征数据，预测目标对象的姿态信息。

姿态信息包括但不限于是目标对象相对于二维图像的采集设备的方向信息，在上述方向信息下的角度信息以及目标对象与采集设备之间的距离信息。

第三，通过三维信息预测模型中的尺寸预测网络，根据特征数据，预测目标对象的三维尺寸信息。

姿态预测网络、尺寸预测网络包括多个线性层和多个激活层，线性层用于对特征数据进行线性变换，通过对特征数据进行线性组合，使网络能够学习特征数据的线性关系；激活层通过引入非线性变换，克服了线性模型的表达能力有限的问题，使得神经网络可以学习更加复杂的模式和特征，从而提高模型的预测准确性。

本实现方式中，提供了三维信息预测模型的具体网络结构，和通过三维信息预测模型确定三维信息的具体方式，提高了三维信息预测模型所预测的目标对象的姿态信息、三维尺寸信息的准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第二步骤：

首先，通过姿态预测网络中的方向预测网络，根据特征数据，预测目标对象相对于二维图像的采集设备的方向信息。

其中，方向信息可以通过方向类型表征，例如是前方、后方、左方、右方等方向类型。

方向预测网络包括多个线性层和多个激活层，用于对二维图像中的每个目标对象的特征数据进行处理，预测目标对象相对于二维图像的采集设备的方向信息。

然后，通过姿态预测网络中的角度预测网络，根据特征数据，预测目标对象相对于采集设备的角度信息。

角度预测网络包括多个线性层和多个激活层，用于对二维图像中的每个目标对象的特征数据进行处理，预测目标对象相对于二维图像的采集设备的角度信息。

对于二维图像中的每个目标对象，结合目标对象相对于采集设备的方向信息和角度信息，就可以确定目标对象相对于采集设备或设置采集设备的自动驾驶车辆的方位信息。

例如，方向信息为目标对象在采集设备的前方，角度信息为90°，则表明目标对象相对于采集设备的方位信息为，目标对象处于采集设备的正前方。

最后，根据目标对象在位置区域中的二维信息和三维尺寸信息，确定目标对象与采集设备之间的距离。

作为示例，上述执行主体可以目标对象在位置区域中的二维信息和三维尺寸信息，以及采集设备的内参，确定目标对象与采集设备之间的距离。其中，相机内参包括焦距、主点位置、像素尺寸、畸变参数等参数。

本实现方式中，姿态预测网络中包括用于预测目标对象对应的方向信息的方向预测网络和用于预测目标对象对应的角度信息的角度预测网络，通过各种三维信息对应的预测网络进行针对性的信息预测，并进一步根据目标对象在位置区域中的二维信息和三维尺寸信息，确定目标对象与采集设备之间的距离，提高了方向信息、角度信息、距离信息的预测准确度。

在本实施例的一些可选的实现方式中，上述执行可以通过如下方式执行上述角度信息的预测操作：

首先，通过角度预测网络，根据特征数据，预测正弦值和余弦值。

本实现方式中，角度预测网络并非直接预测目标对象相对于采集设备的角度信息，而是预测角度信息对应的正弦值和余弦值。

在神经网络的学习过程中，选择合适的激活函数和输出表示方式可以对模型的训练产生影响。本实现方式中，采用了正弦值和余弦值来表示角度信息，这种表示方式在处理周期性数据，如角度，时能够带来一些优势。这是因为正弦函数和余弦函数是周期性函数，具有连续性和平滑性。

当神经网络用正弦值和余弦值来表示角度信息时，它可以更快速地学习和拟合周期性模式。这种表示方式使得网络能够更好地捕捉到角度之间的周期性关系，从而更有效地进行训练。相比之下，如果直接用角度值进行训练，可能会导致模型在学习周期性模式时变得更困难。

因此，采用正弦和余弦值来表示角度信息有助于网络更快地学习周期性模式，提高模型在处理方向信息上的准确性和鲁棒性。

然后，根据正弦值和余弦值，确定目标对象相对于采集设备的角度信息。

作为示例，上述执行主体可以根据正弦值和余弦值，计算得到角度信息的正切值，进而根据正切值确定目标对象相对于采集设备的角度信息。

本实现方式中，提供了一种角度信息的具体确定方式，采用正弦值、余弦值的信息输出方式，可以使得角度预测网络在学习过程中更快拟合，提高角度信息的预测准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述方向信息的预测操作：

首先，通过方向预测网络，根据特征数据，确定目标对象属于多个方向类型中的每个目标类型的置信度。

其中，多个方向类型基于预设划分方式划分得到。例如，预设划分方式为将方向类型划分为前方和后方，前方对应的角度范围为(-π，0)，后方对应的角度范围为(0，π)。

对于基于预设划分方式划分得到的每个方向类型，通过方向预测网络，根据目标对象的特征数据，确定目标对象属于多个方向类型中的每个目标类型的置信度。

方向预测网络包括多个线性层和多个激活层，用于对二维图像中的每个目标对象的特征数据进行处理，预测每种方向类型下的置信度。

然后，将多个方向类型中置信度最大的目标方向类型所表征的方向信息，确定为目标对象相对于采集设备的方向信息。

本实现方式中，提供了一种方向信息的具体预测方式，借助于预设划分方式划分得到的方向类型，提高了方向信息的预测准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行基于正弦值和余弦值确定角度信息的过程：

首先，通过正弦值和余弦值，确定初始角度信息。

作为示例，上述执行主体可以根据正弦值和余弦值，计算得到角度信息的正切值，进而根据正切值确定目标对象相对于采集设备的初始角度信息。

然后，结合方向类型对应的角度和目标方向类型对应的索引值，调整初始角度，得到调整后角度信息。

本实现方式中，上述执行主体可以预设每个方向类型对应的索引值。继续以方向类型包括前方和后方为例，前方这一方向类型对应的角度为180°，索引值为0；后方这一方向类型对应的角度为180°，索引值为1。

上述执行主体可以通过如下公式计算得到调整后角度信息：

alpha’＝alpha+wedge/2-180

其中，alpha’表示调整后角度信息，alpha为初始角度信息，wedge表示方向类型对应的角度。

最后，响应于确定调整后角度信息小于或等于预设角度，将调整后角度信息确定为角度信息。

其中，预设角度信息可以根据预设划分方式确定。继续以上述包括前方和后方的预设划分方式为例，预设角度可以是180°。、

本实现方式中，提高了一种结合方向信息调整角度信息的具体方式，进一步提高了角度信息的预测准确度。

在本实施例的一些可选的实现方式中，上述执行主体还可以执行如下操作：响应于确定调整后角度信息大于预设角度，基于预设角度调整调整后角度信息，得到角度信息。

作为示例，响应于确定调整后角度信息大于预设角度，在调整后角度信息的基础上，减去两倍的预设角度，得到角度信息。

本实现方式中，提供了一种调整后角度信息大于预设角度情况下的角度信息确定方式，提高了信息处理过程的全面性和准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述距离信息的确定过程：根据二维信息中的二维高度信息、三维尺寸信息中的三维高度信息和采集设备的内参，确定目标对象与采集设备之间的距离。

本实现方式中，二维信息通过目标对象的最小包围框表征，二维高度信息即使最小包围框的高度信息。

作为示例，上述执行主体可以首先根据采集设备的焦距和像素尺寸，将最小包围框的高度信息转换为图像平面上目标对象实际高度的比例。比例是指在二维图像中检测到的目标对象的高度与目标对象在现实世界中的实际高度(三维高度信息)之间的比值关系。然后，根据三角形相似原理，使用实际高度比例和采集设备内参，计算目标对象与采集设备之间的距离

具体的，根据三角形的相似性原理，可以建立以下关系：

h/H＝f/D

其中，f是采集设备的焦距，D是目标对象与采集设备之间的距离，h是目标对象的二维高度信息，H是目标对象的三维高度信息。

根据上述关系，即可确定目标对象与采集设备之间的距离。需要注意的是，在计算距离信息之前，确保焦距f的单位与三维高度信息H和二维高度信息h的单位保持一致。

本实现方式中，提供了一种距离信息的具体确定方式，基于较小的数据计算量，提高了距离信息的确定准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第三步骤：

首先，根据目标对象的类别，确定类别下的对象的平均尺寸信息。

本实现方式中，上述执行主体或者与上述执行主体通信连接的电子设备中存储有每个类别的对象的平均尺寸。对于每种类别的对象，可以统计样本中该类别的目标对象的总数量和目标对象的尺寸总量；进而，基于尺寸总量和总数量计算得到平均尺寸。尺寸总量包括总长度、总宽度和总高度，平均尺寸包括平均长度、平均宽度和平均高度。

然后，通过尺寸预测网络，根据特征数据，预测目标对象相对于平均尺寸信息的增量尺寸信息。

尺寸预测网络包括多个线性层和多个激活层，用于对二维图像中的每个目标对象的特征数据进行处理，预测目标对象相对于对应类别的对象的平均尺寸信息的增量尺寸信息。

其中，增量尺寸信息包括长度增量、宽度增量和高度增量。

最后，结合平均尺寸信息和增量尺寸信息，确定目标对象的三维尺寸信息。

作为示例，对于二维图像中的每个目标对象，结合平均长度和长度增量，得到长度信息；结合平均宽度和宽度增量，得到宽度信息；结合平均高度和高度增量，得到高度信息。

本实现方式中，通过尺寸预测网络，预测目标对象相对于平均尺寸信息的增量尺寸信息，进而结合平均尺寸信息得到目标对象的三维尺寸信息，提高了三维尺寸信息的预测准确度。

首先，根据目标对象在二维图像中的位置区域，裁剪二维图像，得到目标对象图像。

二维图像中一般包括多个目标对象，对于每个目标对象，根据该目标对象在二维图像中的位置区域，裁剪二维图像，得到该目标对象的目标对象图像。

然后，通过三维信息预测模型中的特征提取网络，对目标对象图像进行特征提取，得到特征数据。

对于每个目标对象的目标对象图像，上述执行主体可以将该目标对象的目标对象图像输入三维信息预测模型中的特征提取网络，对该目标对象图像进行特征提取，得到该目标对象的特征数据。在后续的处理过程，可以对每个目标对象的特征数据进行针对性的处理。

本实现方式中，提供了一种特征数据的具体提取方式，基于裁剪后的目标对象图像，提高了所提取的特征数据的准确度。

继续参见图3，图3是根据本实施例的三维信息的确定方法的应用场景的一个示意图300。在图3的应用场景中，自动驾驶车辆301上设置有单目相机302。在自动驾驶车辆301的行驶过程中，单目相机302实时采集表征周围的驾驶环境的二维图像303，并将二维图像303传输至服务器304。服务器304获取二维图像303后，首选确定二维图像303中的目标对象和目标对象在二维图像中的位置区域；然后，通过预训练的三维信息预测模型305，根据目标对象的位置区域，预测目标对象的三维信息306。

本实施例中，提供了一种三维信息的确定方法，通过确定所获取的二维图像中的目标对象和目标对象在二维图像中的位置区域，并通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息，从而实现了纯视觉的目标对象的三维信息的检测方式，在保证准确度的同时，降低了检测成本。

继续参考图4，示出了根据本公开的三维信息的确定方法的又一个实施例的示意性流程400。在流程400中，包括以下步骤：

步骤401，通过单目相机进行图像采集，得到二维图像。

步骤402，确定二维图像中的目标对象和目标对象在二维图像中的位置区域。

步骤403，通过三维信息预测模型中的特征提取网络，根据目标对象的位置区域，提取目标对象的特征数据。

步骤404，通过角度预测网络，根据特征数据，预测正弦值和余弦值。

步骤405，通过正弦值和余弦值，确定初始角度信息。

步骤406，通过方向预测网络，根据特征数据，确定目标对象属于多个方向类型中的每个目标类型的置信度。

其中，多个方向类型基于预设划分方式划分得到。

步骤407，将多个方向类型中置信度最大的目标方向类型所表征的方向信息，确定为目标对象相对于采集设备的方向信息。

步骤408，结合方向类型对应的角度和目标方向类型对应的索引值，调整初始角度，得到调整后角度信息。

步骤409，响应于确定调整后角度信息小于或等于预设角度，将调整后角度信息确定为角度信息。

步骤410，响应于确定调整后角度信息大于预设角度，基于预设角度调整调整后角度信息，得到角度信息。

步骤411，根据目标对象在位置区域中的二维信息中的二维高度信息、三维尺寸信息中的三维高度信息和单目相机的内参，确定目标对象与采集设备之间的距离。

步骤412，根据目标对象的类别，确定类别下的对象的平均尺寸信息。

步骤413，通过尺寸预测网络，根据特征数据，预测目标对象相对于平均尺寸信息的增量尺寸信息。

步骤414，结合平均尺寸信息和增量尺寸信息，确定目标对象的三维尺寸信息。

从本实施例中可以看出，与图2对应的实施例相比，本实施例中的三维信息的确定方法的流程400具体说明了方向信息的确定过程、角度信息的确定过程、距离信息的确定过程和尺寸信息的确定过程，进一步提高了所预测的三维信息的准确度。

继续参考图5，作为对上述各图所示方法的实现，本公开提供了一种三维信息的确定装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，三维信息的确定装置500包括：获取单元501，被配置成获取二维图像；确定单元502，被配置成确定二维图像中的目标对象和目标对象在二维图像中的位置区域；预测单元503，被配置成通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息。

在本实施例的一些可选的实现方式中，预测单元503，进一步被配置成：通过三维信息预测模型中的特征提取网络，根据目标对象的位置区域，提取目标对象的特征数据；通过三维信息预测模型中的姿态预测网络，根据特征数据，预测目标对象的姿态信息；通过三维信息预测模型中的尺寸预测网络，根据特征数据，预测目标对象的三维尺寸信息。

在本实施例的一些可选的实现方式中，预测单元503，进一步被配置成：通过姿态预测网络中的方向预测网络，根据特征数据，预测目标对象相对于二维图像的采集设备的方向信息；通过姿态预测网络中的角度预测网络，根据特征数据，预测目标对象相对于采集设备的角度信息；根据目标对象在位置区域中的二维信息和三维尺寸信息，确定目标对象与采集设备之间的距离。

在本实施例的一些可选的实现方式中，预测单元503，进一步被配置成：通过角度预测网络，根据特征数据，预测正弦值和余弦值；根据正弦值和余弦值，确定目标对象相对于采集设备的角度信息。

在本实施例的一些可选的实现方式中，预测单元503，进一步被配置成：通过方向预测网络，根据特征数据，确定目标对象属于多个方向类型中的每个目标类型的置信度，其中，多个方向类型基于预设划分方式划分得到；将多个方向类型中置信度最大的目标方向类型所表征的方向信息，确定为目标对象相对于采集设备的方向信息。

在本实施例的一些可选的实现方式中，预测单元503，进一步被配置成：通过正弦值和余弦值，确定初始角度信息；结合方向类型对应的角度和目标方向类型对应的索引值，调整初始角度，得到调整后角度信息；响应于确定调整后角度信息小于或等于预设角度，将调整后角度信息确定为角度信息。

在本实施例的一些可选的实现方式中，预测单元503，进一步被配置成：响应于确定调整后角度信息大于预设角度，基于预设角度调整调整后角度信息，得到角度信息。

在本实施例的一些可选的实现方式中，预测单元503，进一步被配置成：根据二维信息中的二维高度信息、三维尺寸信息中的三维高度信息和采集设备的内参，确定目标对象与采集设备之间的距离。

在本实施例的一些可选的实现方式中，预测单元503，进一步被配置成：根据目标对象的类别，确定类别下的对象的平均尺寸信息；通过尺寸预测网络，根据特征数据，预测目标对象相对于平均尺寸信息的增量尺寸信息；结合平均尺寸信息和增量尺寸信息，确定目标对象的三维尺寸信息。

在本实施例的一些可选的实现方式中，预测单元，进一步被配置成：根据目标对象在二维图像中的位置区域，裁剪二维图像，得到目标对象图像；通过三维信息预测模型中的特征提取网络，对目标对象图像进行特征提取，得到特征数据。

在本实施例的一些可选的实现方式中，获取单元501，进一步被配置成：通过单目相机进行图像采集，得到二维图像。

本实施例中，提供了一种三维信息的确定装置，通过确定所获取的二维图像中的目标对象和目标对象在二维图像中的位置区域，并通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息，从而实现了纯视觉的目标对象的三维信息的检测方式，在保证准确度的同时，降低了检测成本。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任意实施例所描述的三维信息的确定方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的三维信息的确定方法。

本公开实施例提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任意实施例所描述的三维信息的确定方法。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如三维信息的确定方法。例如，在一些实施例中，三维信息的确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的三维信息的确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行三维信息的确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷；也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开实施例的技术方案，提供了一种三维信息的确定方法，通过确定所获取的二维图像中的目标对象和目标对象在二维图像中的位置区域，并通过预训练的三维信息预测模型，根据目标对象的位置区域，预测目标对象的三维信息，从而实现了纯视觉的目标对象的三维信息的检测方式，在保证准确度的同时，降低了检测成本。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种三维信息的确定方法，包括：

获取二维图像；

确定所述二维图像中的目标对象和所述目标对象在所述二维图像中的位置区域；

通过预训练的三维信息预测模型，根据所述目标对象的位置区域，预测所述目标对象的三维信息。

2.根据权利要求1所述的方法，其中，所述通过预训练的三维信息预测模型，根据所述目标对象的位置区域，预测所述目标对象的三维信息，包括：

通过所述三维信息预测模型中的特征提取网络，根据所述目标对象的位置区域，提取所述目标对象的特征数据；

通过所述三维信息预测模型中的姿态预测网络，根据所述特征数据，预测所述目标对象的姿态信息；

通过所述三维信息预测模型中的尺寸预测网络，根据所述特征数据，预测所述目标对象的三维尺寸信息。

3.根据权利要求1所述的方法，其中，所述通过所述三维信息预测模型中的姿态预测网络，根据所述特征数据，预测所述目标对象的姿态信息，包括：

通过所述姿态预测网络中的方向预测网络，根据所述特征数据，预测所述目标对象相对于所述二维图像的采集设备的方向信息；

通过所述姿态预测网络中的角度预测网络，根据所述特征数据，预测所述目标对象相对于所述采集设备的角度信息；

根据所述目标对象在所述位置区域中的二维信息和所述三维尺寸信息，确定所述目标对象与所述采集设备之间的距离。

4.根据权利要求3所述的方法，其中，所述通过所述姿态预测网络中的角度预测网络，根据所述特征数据，预测所述目标对象相对于所述采集设备的角度信息，包括：

通过所述角度预测网络，根据所述特征数据，预测正弦值和余弦值；

根据所述正弦值和所述余弦值，确定所述目标对象相对于所述采集设备的角度信息。

5.根据权利要求4所述的方法，所述通过所述姿态预测网络中的方向预测网络，根据所述特征数据，预测所述目标对象相对于所述二维图像的采集设备的方向信息，包括：

通过所述方向预测网络，根据所述特征数据，确定所述目标对象属于多个方向类型中的每个目标类型的置信度，其中，所述多个方向类型基于预设划分方式划分得到；

将所述多个方向类型中置信度最大的目标方向类型所表征的方向信息，确定为所述目标对象相对于所述采集设备的方向信息。

6.根据权利要求5所述的方法，其中，所述根据所述正弦值和所述余弦值，确定所述目标对象相对于所述采集设备的角度信息，包括：

通过所述正弦值和所述余弦值，确定初始角度信息；

结合所述方向类型对应的角度和所述目标方向类型对应的索引值，调整所述初始角度，得到调整后角度信息；

响应于确定所述调整后角度信息小于或等于预设角度，将所述调整后角度信息确定为所述角度信息。

7.根据权利要求6所述的方法，其中，所述根据所述正弦值和所述余弦值，确定所述目标对象相对于所述采集设备的角度信息，还包括：

响应于确定所述调整后角度信息大于所述预设角度，基于所述预设角度调整所述调整后角度信息，得到所述角度信息。

8.根据权利要求3所述的方法，其中，所述根据所述目标对象在所述位置区域中的二维信息和所述三维尺寸信息，确定所述目标对象与所述采集设备之间的距离，包括：

根据所述二维信息中的二维高度信息、所述三维尺寸信息中的三维高度信息和所述采集设备的内参，确定所述目标对象与所述采集设备之间的距离。

9.根据权利要求2所述的方法，其中，所述通过所述三维信息预测模型中的尺寸预测网络，根据所述特征数据，预测所述目标对象的三维尺寸信息，包括：

根据所述目标对象的类别，确定所述类别下的对象的平均尺寸信息；

通过所述尺寸预测网络，根据所述特征数据，预测所述目标对象相对于所述平均尺寸信息的增量尺寸信息；

结合所述平均尺寸信息和所述增量尺寸信息，确定所述目标对象的三维尺寸信息。

10.根据权利要求2所述的方法，其中，所述通过所述三维信息预测模型中的特征提取网络，根据所述目标对象的位置区域，提取所述目标对象的特征数据，包括：

根据所述目标对象在所述二维图像中的位置区域，裁剪所述二维图像，得到目标对象图像；

通过所述三维信息预测模型中的特征提取网络，对所述目标对象图像进行特征提取，得到所述特征数据。

11.根据权利要求1所述的方法，其中，所述获取二维图像，包括：

通过单目相机进行图像采集，得到所述二维图像。

12.一种三维信息的确定装置，包括：

获取单元，被配置成获取二维图像；

确定单元，被配置成确定所述二维图像中的目标对象和所述目标对象在所述二维图像中的位置区域；

预测单元，被配置成通过预训练的三维信息预测模型，根据所述目标对象的位置区域，预测所述目标对象的三维信息。

13.根据权利要求12所述的装置，其中，所述预测单元，进一步被配置成：

通过所述三维信息预测模型中的特征提取网络，根据所述目标对象的位置区域，提取所述目标对象的特征数据；通过所述三维信息预测模型中的姿态预测网络，根据所述特征数据，预测所述目标对象的姿态信息；通过所述三维信息预测模型中的尺寸预测网络，根据所述特征数据，预测所述目标对象的三维尺寸信息。

14.根据权利要求12所述的装置，其中，所述预测单元，进一步被配置成：

通过所述姿态预测网络中的方向预测网络，根据所述特征数据，预测所述目标对象相对于所述二维图像的采集设备的方向信息；通过所述姿态预测网络中的角度预测网络，根据所述特征数据，预测所述目标对象相对于所述采集设备的角度信息；根据所述目标对象在所述位置区域中的二维信息和所述三维尺寸信息，确定所述目标对象与所述采集设备之间的距离。

15.根据权利要求14所述的装置，其中，所述预测单元，进一步被配置成：

通过所述角度预测网络，根据所述特征数据，预测正弦值和余弦值；根据所述正弦值和所述余弦值，确定所述目标对象相对于所述采集设备的角度信息。

16.根据权利要求15所述的装置，所述预测单元，进一步被配置成：

通过所述方向预测网络，根据所述特征数据，确定所述目标对象属于多个方向类型中的每个目标类型的置信度，其中，所述多个方向类型基于预设划分方式划分得到；将所述多个方向类型中置信度最大的目标方向类型所表征的方向信息，确定为所述目标对象相对于所述采集设备的方向信息。

17.根据权利要求16所述的装置，其中，所述预测单元，进一步被配置成：

通过所述正弦值和所述余弦值，确定初始角度信息；结合所述方向类型对应的角度和所述目标方向类型对应的索引值，调整所述初始角度，得到调整后角度信息；响应于确定所述调整后角度信息小于或等于预设角度，将所述调整后角度信息确定为所述角度信息。

18.根据权利要求17所述的装置，其中，所述预测单元，进一步被配置成：

19.根据权利要求14所述的装置，其中，所述预测单元，进一步被配置成：

20.根据权利要求13所述的装置，其中，所述预测单元，进一步被配置成：

根据所述目标对象的类别，确定所述类别下的对象的平均尺寸信息；通过所述尺寸预测网络，根据所述特征数据，预测所述目标对象相对于所述平均尺寸信息的增量尺寸信息；结合所述平均尺寸信息和所述增量尺寸信息，确定所述目标对象的三维尺寸信息。

21.根据权利要求13所述的装置，其中，所述预测单元，进一步被配置成：

根据所述目标对象在所述二维图像中的位置区域，裁剪所述二维图像，得到目标对象图像；通过所述三维信息预测模型中的特征提取网络，对所述目标对象图像进行特征提取，得到所述特征数据。

22.根据权利要求12所述的装置，其中，所述获取单元，进一步被配置成：

通过单目相机进行图像采集，得到所述二维图像。

23.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。

25.一种计算机程序产品，包括：计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。