CN115222789A

CN115222789A - 实例深度估计模型的训练方法、装置及设备

Info

Publication number: CN115222789A
Application number: CN202210829429.6A
Authority: CN
Inventors: 彭亮; 吴小沛; 任海东; 钱炜; 杨政
Original assignee: Hangzhou Fabu Technology Co Ltd
Current assignee: Hangzhou Fabu Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-21

Abstract

本申请提供一种实例深度估计模型的训练方法、装置及设备。该实例深度估计模型的训练方法包括：获取初始实例深度估计模型，至少包括图像二维信息提取网络和图像三维信息提取网络，图像三维信息提取网络用于基于图像中目标物的二维信息预测图像中目标物的三维信息；图像中目标物的三维信息至少包括目标物的实例深度，目标物的实例深度根据目标物的视觉深度信息和属性深度信息确定。根据多张训练图像和多张训练图像的激光点云数据对初始实例深度估计模型进行训练，以获取每张训练图像中目标物的三维信息。达到终止条件时结束训练，得到目标实例深度估计模型。本申请用以解决在单目3D目标检测中，如何提升实例深度估计的准确性的问题。

Description

实例深度估计模型的训练方法、装置及设备

技术领域

本申请涉及三维目标检测技术，尤其涉及一种实例深度估计模型的训练方法、装置及设备。

背景技术

目标检测是计算机视觉领域的传统任务，与图像识别不同，目标检测不仅需要识别出图像上存在的物体，给出对应的类别，还需要将该物体的位置通过最小包围框(Bounding box)的方式给出。根据目标检测需要输出结果的不同，分为二维(2dimension，简称2D)目标检测和三维目标检测。一般将使用RGB图像进行目标检测，输出物体类别和在图像上的最小包围框的方式称为2D目标检测。将使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为三维(3dimension，简称3D)目标检测。3D目标检测广泛应用于自动驾驶、机器人导航等领域。

近年来所开发的用单目相机的单目3D目标检测由于具有比较多的优势而被广泛关注。在单目3D目标检测中，相机投影过程中目标物的深度信息会丢失，因此需要对目标物的实例深度进行估计。传统方案在进行实例深度估计时一般是直接使用神经网络估计，这种方案没有考虑到实例深度本身具有的耦合性(实例深度本身是和目标物与相机的相对位置相关)，所以估计到的实例深度是不准确的。

在单目3D目标检测中，如何提升实例深度估计的准确性，依然是需要解决的。

发明内容

本申请提供一种实例深度估计模型的训练方法、装置及设备，用以解决在单目3D目标检测中，如何提升实例深度估计的准确性的问题。

一方面，本申请提供一种实例深度估计模型的训练方法，包括：

获取初始实例深度估计模型，所述初始实例深度估计模型至少包括图像二维信息提取网络和图像三维信息提取网络，所述图像二维信息提取网络用于预测图像中目标物的二维信息，所述图像三维信息提取网络用于基于所述图像中目标物的二维信息预测所述图像中目标物的三维信息；所述图像中目标物的三维信息至少包括目标物的实例深度，所述目标物的实例深度根据所述目标物的视觉深度信息和属性深度信息确定，所述目标物的视觉深度信息和属性深度信息由所述图像三维信息提取网络中的部分网络输出；

获取多张训练图像和多张训练图像的激光点云数据，训练图像中包括至少一个目标物；

根据多张训练图像和多张训练图像的激光点云数据对所述初始实例深度估计模型进行训练，以获取每张训练图像中目标物的三维信息；

达到终止条件时结束训练，得到目标实例深度估计模型。

其中一个实施例中，所述图像二维信息提取网络包括深层特征提取网络；

所述根据多张训练图像和多张训练图像的激光点云数据对所述初始实例深度估计模型进行训练包括：

将多张训练图像输入至所述深层特征提取网络，得到每张训练图像的深层特征；

根据多张训练图像的激光点云数据标记每张训练图像中的目标物区域图像；

根据每张训练图像的深层特征和每张训练图像中的目标物区域图像对所述图像三维信息提取网络进行训练，以获取每张训练图像中目标物的视觉深度信息、属性深度信息和实例深度。

其中一个实施例中，所述图像三维信息提取网络包括目标物特征信息提取网络和计算网络，所述目标物特征信息提取网络包括视觉深度信息提取子网络和属性深度信息提取子网络；

所述根据每张训练图像的深层特征和每张训练图像中的目标物区域图像对所述图像三维信息提取网络进行训练，以获取每张训练图像中目标物的视觉深度信息、属性深度信息和实例深度包括：

根据每张训练图像的深层特征和每张训练图像中的目标物区域图像分别对视觉深度信息提取子网络和属性深度信息提取子网络进行训练，以获取视觉深度信息提取子网络预测的每张训练图像中目标物的视觉深度信息和属性深度信息提取子网络预测的每张训练图像中目标物的属性深度信息；所述视觉深度信息包括视觉深度和视觉深度不确定值，所述属性深度信息包括属性深度和属性深度不确定值；

将每张训练图像中目标物的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值输入至所述计算网络，以获取每张训练图像中目标物的实例深度。

其中一个实施例中，所述根据每张训练图像的深层特征和每张训练图像中的目标物区域图像分别对视觉深度信息提取子网络和属性深度信息提取子网络进行训练，以获取视觉深度信息提取子网络预测的每张训练图像中目标物的视觉深度信息和属性深度信息提取子网络预测的每张训练图像中目标物的属性深度信息包括：

将每张训练图像中的目标物区域图像划分为多张子区域图像，得到子区域图像集；

将所述子区域图像集分别输入至视觉深度信息提取子网络和属性深度信息提取子网络，以获取每张目标物区域图像中每张子区域图像的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值；

所述将每张训练图像中目标物的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值输入至所述计算网络，以获取每张训练图像中目标物的实例深度包括：

将每张子区域图像的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值输入至所述计算网络，以获取每张训练图像中目标物的实例深度。

其中一个实施例中，所述计算网络用于：

根据任意一张子区域图像的视觉深度和属性深度确定所述任意一张子区域图像的实例深度，其中，所述任意一张子区域图像属于任意一张训练图像中任意一张目标物区域图像；

根据所述任意一张子区域图像的视觉深度不确定值和属性深度不确定值确定所述任意一张子区域图像的实例深度不确定值；

根据所述任意一张子区域图像的实例深度和所述任意一张子区域图像的实例深度不确定值确定所述任意一张训练图像中目标物的实例深度。

其中一个实施例中，所述计算网络用于根据每张子区域图像的实例深度和每张子区域图像的实例深度不确定值确定每张训练图像中目标物的实例深度时，具体用于：

将所述任意一张子区域图像的实例深度不确定值转换实例深度的置信度；

根据所述任意一张子区域图像的实例深度、所述任意一张子区域图像的实例深度的置信度确定所述任意一张训练图像中目标物的实例深度。

其中一个实施例中，所述将所述任意一张子区域图像的实例深度不确定值转换实例深度的置信度包括：

根据公式P_ins＝exp(-u_ins)将所述任意一张子区域图像的实例深度不确定值转换实例深度的置信度；

其中，u_ins代表所述任意一张子区域图像的实例深度不确定值，P_ins代表所述任意一张子区域图像的实例深度的置信度。

其中一个实施例中，所述根据任意一张子区域图像的视觉深度和属性深度确定所述任意一张子区域图像的实例深度包括：

确定所述任意一张子区域图像的视觉深度和属性深度的和为所述任意一张子区域图像的实例深度；

所述根据所述任意一张子区域图像的视觉深度不确定值和属性深度不确定值确定所述任意一张子区域图像的实例深度不确定值包括：

计算所述任意一张子区域图像的视觉深度不确定值的二次方值以得到第一值，计算所述任意一张子区域图像的属性深度不确定值的二次方以得到第二值；

确定所述第一值和所述第二值的和的方根值为所述任意一张子区域图像的实例深度不确定值。

其中一个实施例中，每张子区域图像的视觉深度和视觉深度不确定值之间遵循拉普拉斯分布；

每张子区域图像的属性深度和属性深度不确定值之间遵循拉普拉斯分布。

其中一个实施例中，每张训练图像的尺寸相同，任意一张训练图像的尺寸为原始尺寸或原始尺寸的缩放尺寸，所述原始尺寸的缩放尺寸是对原始尺寸中具有仿射变换性质的尺寸进行缩放得到的尺寸；

至少一张不同的训练图像来源于同一张初始训练图像。

其中一个实施例中，所述终止条件包括以下任意一种或多种：训练时长达到预设时长、训练次数达到预设次数、所述初始实例深度估计模型的损失小于预设损失。

另一方面，本申请提供一种三维检测中实例深度估计方法，包括：

获取通过相机拍摄的待检测图像；

将所述待检测图像输入至如第一方面所述的实例深度估计模型的训练方法训练得到的目标实例深度估计模型，得到所述待检测图像中至少一个目标物的实例深度。

另一方面，本申请提供一种实例深度估计模型的训练装置，包括：

获取模块，用于获取初始实例深度估计模型，所述初始实例深度估计模型至少包括图像二维信息提取网络和图像三维信息提取网络，所述图像二维信息提取网络用于预测图像中目标物的二维信息，所述图像三维信息提取网络用于基于所述图像中目标物的二维信息预测所述图像中目标物的三维信息；所述图像中目标物的三维信息至少包括目标物的实例深度，所述目标物的实例深度根据所述目标物的视觉深度信息和属性深度信息确定，所述目标物的视觉深度信息和属性深度信息由所述图像三维信息提取网络中的部分网络输出；

所述获取模块还用于获取多张训练图像和多张训练图像的激光点云数据，训练图像中包括至少一个目标物；

训练模块，用于根据多张训练图像和多张训练图像的激光点云数据对所述初始实例深度估计模型进行训练，以获取每张训练图像中目标物的三维信息；

所述训练模块还用于达到终止条件时结束训练，得到目标实例深度估计模型。

另一方面，本申请还提供一种三维检测中实例深度估计装置，包括：

获取模块，用于获取通过相机拍摄的待检测图像；

处理模块，用于将所述待检测图像输入至如第一方面所述的实例深度估计模型的训练方法训练得到的目标实例深度估计模型，得到所述待检测图像中至少一个目标物的实例深度。

另一方面，本申请还提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的实例深度估计模型的训练方法，和/或，实现如第二方面所述的三维检测中实例深度估计方法。

另一方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述指令被执行时，使得计算机执行如第一方面所述的实例深度估计模型的训练方法，和/或，实现如第二方面所述的三维检测中实例深度估计方法。

另一方面，本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的实例深度估计模型的训练方法，和/或，实现如第二方面所述的三维检测中实例深度估计方法。

本申请的实施例提供一种实例深度估计模型的训练方法。提供一种初始实例深度估计模型，该初始实例深度估计模型包括图像二维信息提取网络和图像三维信息提取网络。所述图像二维信息提取网络用于预测图像中目标物的二维信息，所述图像三维信息提取网络用于基于所述图像中目标物的二维信息预测所述图像中目标物的三维信息；所述图像中目标物的三维信息至少包括目标物的实例深度，所述目标物的实例深度根据所述目标物的视觉深度信息和属性深度信息确定，所述目标物的视觉深度信息和属性深度信息由所述图像三维信息提取网络中的部分网络输出。

该初始实例深度估计模型在计算目标物的实例深度时，将计算实例深度的过程进行解耦，即，将实例深度改为利用视觉深度信息和属性深度信息计算确定。视觉深度信息与目标物与相机的相对位置相关，属性深度信息与目标物本身的属性相关，分别计算视觉深度信息和属性深度信息可以更全面和准确得获知目标物的实例深度。基于该初始实例深度估计模型训练得到的目标实例深度估计模型在应用时也是将计算实例深度的过程进行解耦，从而提高实例深度计算的准确度和全面性。

综上，本申请的实施例提供的实例深度估计模型的训练方法可以解决在单目3D目标检测中，如何提升实例深度估计的准确性的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请提供的一种示例性说明实例深度的示意图；

图2为本申请提供的实例深度估计模型的训练方法的一种应用场景示意图；

图3为本申请的一个实施例提供的实例深度估计模型的训练方法的流程示意图；

图4为本申请的一个实施例提供的训练图像的获取示意图；

图5为本申请的另一个实施例提供的训练图像的获取示意图；

图6为本申请的一个实施例提供的初始实例深度估计模型的网络结构和训练过程的示意图；

图7为本申请的一个实施例提供的三维检测中实例深度估计方法的流程示意图；

图8为本申请的一个实施例提供的实例深度估计模型的训练装置的示意图；

图9为本申请的一个实施例提供的三维检测中实例深度估计装置的示意图；

图10为本申请的一个实施例提供的电子设备的示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

目标检测是计算机视觉领域的传统任务，与图像识别不同，目标检测不仅需要识别出图像上存在的物体，给出对应的类别，还需要将该物体的位置通过最小包围框(Bounding box)的方式给出。根据目标检测需要输出结果的不同，分为二维(2dimension，简称2D)目标检测和三维目标检测。一般将使用RGB图像进行目标检测，输出物体类别和在图像上的最小包围框的方式称为2D目标检测。将使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为三维(3 dimension，简称3D)目标检测。3D目标检测广泛应用于自动驾驶、机器人导航等领域。

3D目标检测中比较常见的是使用单目相机的单目3D目标检测，在单目3D目标检测中，相机投影过程中目标物的深度信息会丢失，因此需要对目标物的实例深度进行估计。

以图1对目标汽车物的实例深度进行说明。以相机的位置为衡量基准，目标汽车1的实例深度等于目标汽车1的可见表面至相机的深度(视觉深度D_vis)与目标汽车1的属性深度D_att的和。同样的，目标汽车2的实例深度等于目标汽车2的可见表面至相机的深度(视觉深度D_vis)与目标汽车2的属性深度D_att的和。

传统方案在进行实例深度估计时一般是直接使用神经网络估计，这种方案没有考虑到实例深度本身具有的耦合性(实例深度本身是和目标物本身的内在属性以及目标物与相机的相对位置相关)，所以估计到的实例深度是不准确的。在单目3D目标检测中，如何提升实例深度估计的准确性，依然是需要解决的。

基于此，本申请提供一种实例深度估计模型的训练方法、装置及设备。该实例深度估计模型的训练方法提供一种初始实例深度估计模型，该初始实例深度估计模型在计算目标物的实例深度时，将计算实例深度的过程进行解耦，即，将实例深度改为利用视觉深度信息和属性深度信息计算确定。视觉深度信息与目标物与相机的相对位置相关，属性深度信息与目标物本身的属性相关，分别计算视觉深度信息和属性深度信息可以更全面和准确得获知目标物的实例深度。基于该初始实例深度估计模型训练得到的目标实例深度估计模型在应用时也是将计算实例深度的过程进行解耦，从而提高实例深度计算的准确度和全面性。

本申请提供的实例深度估计模型的训练方法应用于电子装置，该电子装置例如计算机、实验室使用的服务器等。图2为本申请提供的实例深度估计模型的训练方法的应用示意图，图中，该电子装置提供一种初始实例深度估计模型，该初始实例深度估计模型包括图像二维信息提取网络和图像三维信息提取网络。该图像二维信息提取网络用于预测图像中目标物的二维信息，该图像三维信息提取网络用于基于该图像中目标物的二维信息预测该图像中目标物的三维信息，该图像中目标物的三维信息至少包括目标物的实例深度。需要说明的是，该目标物的实例深度根据该目标物的视觉深度信息和属性深度信息确定，该目标物的视觉深度信息和属性深度信息由该图像三维信息提取网络中的部分网络输出。获取多张训练图像和多张训练图像的激光点云数据对该初始实例深度估计模型进行训练以得到目标实例深度估计模型。

请参见图3，本申请的一个实施例提供一种实例深度估计模型的训练方法，包括：

S310，获取初始实例深度估计模型，该初始实例深度估计模型至少包括图像二维信息提取网络和图像三维信息提取网络，该图像二维信息提取网络用于预测图像中目标物的二维信息，该图像三维信息提取网络用于基于该图像中目标物的二维信息预测该图像中目标物的三维信息；该图像中目标物的三维信息至少包括目标物的实例深度，该目标物的实例深度根据该目标物的视觉深度信息和属性深度信息确定，该目标物的视觉深度信息和属性深度信息由该图像三维信息提取网络中的部分网络输出。

该图像二维信息提取网络用于预测图像中目标物的二维信息，该目标物的二维信息包括图像中目标物的2D热图、目标物的2D中心点偏差和目标物的2D尺寸。该图像二维信息提取网络还包括深层特征提取网络，用于预测图像的深层特征。该深层特征提取网络为卷积层网络，该图像的深层特征例如以上描述的目标物的2D热图、目标物的2D中心点偏差和目标物的2D尺寸。

通过该目标物的二维信息可以实现目标物的二维盒子预测，结合目标物的激光点云数据和预测的图像的深层特征可以实现目标物的二维框估计。

该图像三维信息提取网络用于基于该图像中目标物的二维信息预测该图像中目标物的三维信息，该图像中目标物的三维信息至少包括目标物的实例深度。首先，在实现目标物的二维框估计后，通过RoI Align算法从图像的深层特征中提取到单个目标物的特征，将单个目标物的特征输入到该图像三维信息提取网络中，以预测出目标物的中间三维信息，并利用这些中间三维信息中的部分信息计算出目标物的实例深度。该目标物的中间三维信息例如包括目标物的3D尺寸、3D中心点偏差、朝向、视觉深度信息和属性深度信息，利用该中间三维信息中的视觉深度信息和属性深度信息可以确定出目标物的实例深度。利用该目标物的中间三维信息还可以实现最终的目标物的3D框预测。

该图像三维信息提取网络在预测目标物的实例深度时，是根据该目标物的视觉深度信息和属性深度信息确定目标物的实例深度。在一个可选的实施例中，该图像三维信息提取网络包括目标物特征信息提取网络和计算网络，该目标物特征信息提取网络包括视觉深度信息提取子网络和属性深度信息提取子网络。该视觉深度信息提取子网络用于预测目标物的视觉深度信息，该属性深度信息提取子网络用于预测目标物的属性深度信息。即，该图像三维信息提取网络在预测目标物的实例深度时，分别对目标物的视觉深度信息和属性深度信息进行预测，实现了实例深度预测的解耦，使得预测的实例深度更加全面和准确。

该初始实例深度估计模型中的网络结构也可以与本实施例提供的网络结构不同，只要可以实现分别预测目标物的视觉深度信息和属性深度信息，再基于分别预测的目标物的视觉深度信息和属性深度信息确定目标物的实例深度即可。

S320，获取多张训练图像和多张训练图像的激光点云数据，训练图像中包括至少一个目标物。

该训练图像如图4所示，包括至少一个目标物，该目标物如驾驶中由安装在汽车上的相机拍摄的其他汽车。

在一个可选的实施例中，可以采用仿射变换进行训练图像的扩充，以增加训练图像的数量和多样性。例如图4所示，将一个初始训练图像随机选中裁剪为多个训练图像，在裁剪后采用仿射变换的方法对选中裁剪的多个训练图像进行尺寸统一化处理，也就是说将选中裁剪的多个训练图像的尺寸都转换为相同的尺寸。

在单目成像中，视觉深度是一个重要的特性。对于基于单目的系统，视觉深度和高度依赖于目标物的2D盒子大小(远处的对象在图像上显示较小，近处的对象在图像上显示较大)和目标物在图像上的位置。如果对图像进行仿射变换，则需要对视觉深度进行相应的变换，其中深度值需要缩放。在进行训练图像的尺寸变换时目标物的视觉深度跟随训练图像的尺寸缩放比例进行缩放。

属性深度指的是从目标物的视觉表面到目标物的3D中心的深度偏移量。属性深度更可能与目标物的固有属性相关，例如，当汽车方向平行于3D空间中的z轴(深度方向)时，汽车尾部的属性深度为汽车的半长。相反，如果汽车方向平行于x轴，则属性深度为汽车的半宽度。属性深度取决于目标物的固有属性，相对于视觉深度的仿射敏感性，属性深度对任何仿射变换都是不变的。因为在进行训练图像的尺寸变换时目标物的属性深度不会改变。

例如一张训练图像进行尺寸更改的缩放因子为(S_x，S_y)，其中S_y代表在深度方向上的缩放因子。如图5所示(a)图为尺寸更改之前的训练图像，图5所示(b)图为尺寸更改之后的训练图像，则图5(a)和图5(b)中的属性深度是相等的(D_att1＝D_att2)。图5(a)中的视觉深度(D_vis1)与图5(b)中的视觉深度(D_vis2)之间的关系为：D_vis2＝D_vis1/S_y。

本步骤获取的多张训练图像中每张训练图像的尺寸相同，任意一张训练图像的尺寸为原始尺寸或原始尺寸的缩放尺寸，该原始尺寸的缩放尺寸是对原始尺寸中具有仿射变换性质的尺寸进行缩放得到的尺寸。除此之外，至少一张不同的训练图像来源于同一张初始训练图像。如此，将具有仿射变换性质的尺寸进行缩放以对训练图像的数量和多样性进行扩充，丰富了训练数据。在一个可选的实施例中，可以设置训练图像的上限数量或下限数量，以此控制每次训练的时长、质量等。

训练图像的激光点云数据是为了对训练图像中的目标物进行框选标记，即实现如步骤S310中描述的实现目标物的二维框估计。

S330，根据多张训练图像和多张训练图像的激光点云数据对该初始实例深度估计模型进行训练，以获取每张训练图像中目标物的三维信息。

如图6所示为该初始实例深度估计模型的网络结构和训练过程的示意图。该初始实例深度估计模型至少包括图像二维信息提取网络和图像三维信息提取网络。

该图像二维信息提取网络包括深层特征提取网络。首先，将多张训练图像输入至该深层特征提取网络，得到每张训练图像的深层特征。再根据多张训练图像的激光点云数据标记每张训练图像中的目标物区域图像，即实现目标物的二维框估计。再根据每张训练图像的深层特征和每张训练图像中的目标物区域图像对该图像三维信息提取网络进行训练，以获取每张训练图像中目标物的视觉深度信息、属性深度信息和实例深度。

该图像三维信息提取网络包括目标物特征信息提取网络和计算网络，该目标物特征信息提取网络包括视觉深度信息提取子网络和属性深度信息提取子网络。在训练时，该视觉深度信息提取子网络和该属性深度信息提取子网络是独立训练的，即，根据每张训练图像的深层特征和每张训练图像中的目标物区域图像分别对目标物特征信息提取网络中的视觉深度信息提取子网络和属性深度信息提取子网络进行训练。

根据每张训练图像的深层特征和每张训练图像中的目标物区域图像对视觉深度信息提取子网络进行训练，以获取该视觉深度信息提取子网络预测的每张训练图像中目标物的视觉深度信息。根据每张训练图像的深层特征和每张训练图像中的目标物区域图像对属性深度信息提取子网络进行训练，以获取属性深度信息提取子网络预测的每张训练图像中目标物的属性深度信息。

该视觉深度信息包括视觉深度和视觉深度不确定值，该属性深度信息包括属性深度和属性深度不确定值。视觉深度不确定值和属性深度不确定值其实是置信度的另一种表达，视觉深度不确定值越高，视觉深度置信度越低，同样的，属性深度不确定值越高，属性深度置信度越低。

3D目标检测难度大，2D目标检测的结果不能完全表达3D目标检测的置信度。在以前的方案中，一般是使用实例深度置信度或3D IOU损失与2D检测置信度集成后来表示最终的3D检测置信度。本实施例中已经将实例深度解耦为视觉深度和属性深度，那么可以进一步解耦实例深度的置信度。只有当目标物同时具有较高的视觉深度置信度和属性深度置信度时，实例深度才具有较高的置信度。假设每张子区域图像的视觉深度和视觉深度不确定值之间遵循拉普拉斯分布L(D_vis，u_vis)，其中D_vis代表视觉深度，u_vis代表视觉深度不确定值。每张子区域图像的属性深度和属性深度不确定值之间遵循拉普拉斯分布L(D_att，u_att)，其中D_att代表属性深度，u_att代表属性深度不确定值。

由关联的视觉和属性深度得出的实例深度分布是L(D_ins，u_ins)，其中D_ins＝D_vis+D_att，

其中D_ins代表实例深度，u_ins代表实例深度不确定值。

再将每张训练图像中目标物的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值输入至该计算网络，以获取每张训练图像中目标物的实例深度。

在一个可选的实施例中，根据每张训练图像的深层特征和每张训练图像中的目标物区域图像分别对视觉深度信息提取子网络和属性深度信息提取子网络进行训练时，将每张训练图像中的目标物区域图像划分为多张子区域图像，得到子区域图像集。

将该子区域图像集分别输入至视觉深度信息提取子网络和属性深度信息提取子网络，以获取每张目标物区域图像中每张子区域图像的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值。其中，视觉深度信息提取子网络预测的每张训练图像中目标物的视觉深度信息和属性深度信息，属性深度信息提取子网络预测的每张训练图像中目标物的属性深度信息。

例如将一个目标物区域图像划分为m*n个网格图像(例如7*7网格图像，得到49个子区域图像)，并为每个子区域图像分配一个视觉深度和属性深度，由该视觉深度信息提取子网络预测每个子区域图像的视觉深度信息，由该属性深度信息提取子网络预测每个子区域图像的属性深度信息。

在一个可选的实施例中，可以对子区域图像集中的子区域图像进行筛选以增强模型训练效果，例如筛除掉一些不清晰的子区域图像或其中目标物过少的子区域图像。

在获取每张子区域图像的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值后，将每张子区域图像的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值输入至该计算网络，以获取每张训练图像中目标物的实例深度。

在一个可选的实施例中，该计算网络用于执行以下3点所描述的方法：

1、根据任意一张子区域图像的视觉深度和属性深度确定该任意一张子区域图像的实例深度，其中，该任意一张子区域图像属于任意一张训练图像中任意一张目标物区域图像。

在一个可选的实施例中，确定该任意一张子区域图像的视觉深度和属性深度的和为该任意一张子区域图像的实例深度。

如上所描述的，D_ins＝D_vis+D_att，式中D_vis代表任意一张子区域图像的视觉深度，D_att代表任意一张子区域图像的属性深度，D_ins代表任意一张子区域图像的实例深度。

根据任意一张子区域图像的视觉深度和属性深度、公式D_ins＝D_vis+D_att可以确定任意一张子区域图像的实例深度。

2、根据该任意一张子区域图像的视觉深度不确定值和属性深度不确定值确定该任意一张子区域图像的实例深度不确定值。

在一个可选的实施例中，计算该任意一张子区域图像的视觉深度不确定值的二次方值以得到第一值，计算该任意一张子区域图像的属性深度不确定值的二次方以得到第二值。确定该第一值和该第二值的和的方根值为该任意一张子区域图像的实例深度不确定值。

如上所描述的，

式中u_vis代表任意一张子区域图像的视觉深度不确定值，

代表该第一值。u_att代表任意一张子区域图像的属性深度不确定值，

代表该第二值，u_ins代表任意一张子区域图像的实例深度不确定值。

根据任意一张子区域图像的视觉深度不确定值和属性深度、公式

可以确定任意一张子区域图像的实例深度不确定值。

3、根据该任意一张子区域图像的实例深度和该任意一张子区域图像的实例深度不确定值确定该任意一张训练图像中目标物的实例深度。

首先，根据公式P_ins＝exp(-u_ins)将任意一张训练图像中任意一张目标物区域图像的每张子区域图像的实例深度不确定值转换实例深度的置信度，其中，u_ins代表该任意一张子区域图像的实例深度不确定值，P_ins代表该任意一张子区域图像的实例深度的置信度。或者也可以使用其他方法或其他公式将该任意一张子区域图像的实例深度不确定值转换实例深度的置信度，本实施例不做限定。

再，根据该任意一张子区域图像的实例深度、该任意一张子区域图像的实例深度的置信度确定该任意一张训练图像中目标物的实例深度。针对该子区域图像集(即任意一张训练图像)，则可以根据公式

确定任意一张训练图像中目标物的实例深度。

对应的，实例深度置信值为

最终的3D目标检测的置信度为p＝p_2dp_ins，其中p_2d为2D目标检测的置信度。

S340，达到终止条件时结束训练，得到目标实例深度估计模型。

该终止条件包括以下任意一种或多种：训练时长达到预设时长、训练次数达到预设次数、该初始实例深度估计模型的损失小于预设损失。

初始实例深度估计模型的损失是基于该初始实例深度估计模型的损失函数确定的，以下对该初始实例深度估计模型的损失函数进行介绍。

针对图像二维信息提取网络部分：

遵循CenterNet中的设计。2D热图H(heatmap)旨在指示图像上的粗糙对象中心。二维偏移O_2d表示向二维粗糙中心的残差，二维尺寸S_2d表示二维盒子的高度和宽度。因此我们分别有损失函数L_H，

针对图像三维信息提取网络：

对于三维物体的维度，遵循典型的尺寸变换损失

对于方向的损失，网络预测相应的观察角，并使用多bin损失L_θ。同时，利用图像平面上的三维中心投影和实例深度来恢复物体的三维位置。对于三维中心投影，通过预测三维投影与二维中心的偏移量来实现。损失函数是:

使用*来表示相应的标签。如上所描述的，实例深度被解耦为视觉深度和属性深度。视觉深度标签是通过将LiDAR点投影到图像上得到的，属性深度标签是通过实例深度标签减去视觉深度标签得到的。结合不确定度，视觉深度损失为:

其中u_vis为不确定度。类似地，有属性深度损失

和实例深度损失

我们将所有损失项的权重设置为1.0。

综上，该初始实例深度估计模型的整体损失为：

综上，本实施例提供一种实例深度估计模型的训练方法。提供一种初始实例深度估计模型，该初始实例深度估计模型包括图像二维信息提取网络和图像三维信息提取网络。该图像二维信息提取网络用于预测图像中目标物的二维信息，该图像三维信息提取网络用于基于该图像中目标物的二维信息预测该图像中目标物的三维信息；该图像中目标物的三维信息至少包括目标物的实例深度，该目标物的实例深度根据该目标物的视觉深度信息和属性深度信息确定，该目标物的视觉深度信息和属性深度信息由该图像三维信息提取网络中的部分网络输出。

除此之外，本实施例提供的实例深度估计模型的训练方法还允许网络针对不同深度提取不同类型的特征，便于模型学习。得益于深度解耦，本实施例提供的方法还可以有效地进行基于仿射变换进行训练数据的增强。

请参见图7，本申请的一个实施例还提供一种三维检测中实例深度估计方法，包括：

S710，获取通过相机拍摄的待检测图像。

该待检测图像例如汽车行驶过程中由相机实时拍摄的图像，或者机器人行进过程中实时拍摄的图像。

S720，将该待检测图像输入至如以上任一项实施例提供的实例深度估计模型的训练方法训练得到的目标实例深度估计模型，得到该待检测图像中至少一个目标物的实例深度。

需要说明的是，在训练得到该目标实例深度估计模型的过程中需要使用激光点云数据来训练初始实例深度估计模型，但是在使用该目标实例深度估计模型时只需要该待检测图像便可以输出该待检测图像中至少一个目标物的实例深度。

将该待检测图像输入至该目标实例深度估计模型中，该目标实例深度估计模型基于解耦实例深度对该待检测图像进行处理，输出该待检测图像中至少一个目标物的实例深度。

综上，本实施例提供一种三维检测中实例深度估计方法，在获取待检测图像后，将该待检测图像输入至如上任一项实施例提供的实例深度估计模型的训练方法训练得到的目标实例深度估计模型。在计算目标物的实例深度时，将计算实例深度的过程进行解耦，即，将实例深度改为利用视觉深度信息和属性深度信息计算确定。视觉深度信息与目标物与相机的相对位置相关，属性深度信息与目标物本身的属性相关，分别计算视觉深度信息和属性深度信息可以更全面和准确得获知目标物的实例深度。基于该初始实例深度估计模型训练得到的目标实例深度估计模型在应用时也是将计算实例深度的过程进行解耦，从而提高实例深度计算的准确度和全面性。

请参见图8，本申请的一个实施例还提供一种实例深度估计模型的训练装置10，包括：

获取模块11，用于获取初始实例深度估计模型，该初始实例深度估计模型至少包括图像二维信息提取网络和图像三维信息提取网络，该图像二维信息提取网络用于预测图像中目标物的二维信息，该图像三维信息提取网络用于基于该图像中目标物的二维信息预测该图像中目标物的三维信息；该图像中目标物的三维信息至少包括目标物的实例深度，该目标物的实例深度根据该目标物的视觉深度信息和属性深度信息确定，该目标物的视觉深度信息和属性深度信息由该图像三维信息提取网络中的部分网络输出。

该获取模块11还用于获取多张训练图像和多张训练图像的激光点云数据，训练图像中包括至少一个目标物。

训练模块12，用于根据多张训练图像和多张训练图像的激光点云数据对该初始实例深度估计模型进行训练，以获取每张训练图像中目标物的三维信息。

该训练模块12还用于达到终止条件时结束训练，得到目标实例深度估计模型。该终止条件包括以下任意一种或多种：训练时长达到预设时长、训练次数达到预设次数、该初始实例深度估计模型的损失小于预设损失。

该图像二维信息提取网络包括深层特征提取网络，该训练模块12具体用于：将多张训练图像输入至该深层特征提取网络，得到每张训练图像的深层特征；根据多张训练图像的激光点云数据标记每张训练图像中的目标物区域图像；根据每张训练图像的深层特征和每张训练图像中的目标物区域图像对该图像三维信息提取网络进行训练，以获取每张训练图像中目标物的视觉深度信息、属性深度信息和实例深度。

该图像三维信息提取网络包括目标物特征信息提取网络和计算网络，该目标物特征信息提取网络包括视觉深度信息提取子网络和属性深度信息提取子网络。该训练模块12具体用于：根据每张训练图像的深层特征和每张训练图像中的目标物区域图像分别对视觉深度信息提取子网络和属性深度信息提取子网络进行训练，以获取视觉深度信息提取子网络预测的每张训练图像中目标物的视觉深度信息和属性深度信息提取子网络预测的每张训练图像中目标物的属性深度信息；该视觉深度信息包括视觉深度和视觉深度不确定值，该属性深度信息包括属性深度和属性深度不确定值；将每张训练图像中目标物的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值输入至该计算网络，以获取每张训练图像中目标物的实例深度。

该训练模块12具体用于：将每张训练图像中的目标物区域图像划分为多张子区域图像，得到子区域图像集；将该子区域图像集分别输入至视觉深度信息提取子网络和属性深度信息提取子网络，以获取每张目标物区域图像中每张子区域图像的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值；该将每张训练图像中目标物的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值输入至该计算网络，以获取每张训练图像中目标物的实例深度包括：将每张子区域图像的视觉深度、视觉深度不确定值、属性深度和属性深度不确定值输入至该计算网络，以获取每张训练图像中目标物的实例深度。

该计算网络用于：根据任意一张子区域图像的视觉深度和属性深度确定该任意一张子区域图像的实例深度，其中，该任意一张子区域图像属于任意一张训练图像中任意一张目标物区域图像；根据该任意一张子区域图像的视觉深度不确定值和属性深度不确定值确定该任意一张子区域图像的实例深度不确定值；根据该任意一张子区域图像的实例深度和该任意一张子区域图像的实例深度不确定值确定该任意一张训练图像中目标物的实例深度。

该计算网络具体用于：将该任意一张子区域图像的实例深度不确定值转换实例深度的置信度；根据该任意一张子区域图像的实例深度、该任意一张子区域图像的实例深度的置信度确定该任意一张训练图像中目标物的实例深度。

该计算网络具体用于：确定该任意一张子区域图像的视觉深度和属性深度的和为该任意一张子区域图像的实例深度。

该计算网络具体用于：计算该任意一张子区域图像的视觉深度不确定值的二次方值以得到第一值，计算该任意一张子区域图像的属性深度不确定值的二次方以得到第二值；确定该第一值和该第二值的和的方根值为该任意一张子区域图像的实例深度不确定值。

每张子区域图像的视觉深度和视觉深度不确定值之间遵循拉普拉斯分布，每张子区域图像的属性深度和属性深度不确定值之间遵循拉普拉斯分布。

每张训练图像的尺寸相同，任意一张训练图像的尺寸为原始尺寸或原始尺寸的缩放尺寸，该原始尺寸的缩放尺寸是对原始尺寸中具有仿射变换性质的尺寸进行缩放得到的尺寸。至少一张不同的训练图像来源于同一张初始训练图像。

请参见图9，本申请的一个实施例还提供一种三维检测中实例深度估计装置20，包括：

获取模块21，用于获取通过相机拍摄的待检测图像。

处理模块22，用于将该待检测图像输入至如以上任一项实施例提供的实例深度估计模型的训练方法训练得到的目标实例深度估计模型，得到该待检测图像中至少一个目标物的实例深度。

请参见图10，本申请的一个实施例还提供一种电子设备30，包括：处理器31，以及与该处理器通信连接的存储器32。该存储器32存储计算机执行指令，该处理器31执行该存储器32存储的计算机执行指令，以实现如上任一项实施例提供的实例深度估计模型的训练方法，和/或，实现如上任一项实施例提供的三维检测中实例深度估计方法。

本申请的一个实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，当该指令被执行时，使得计算机执行如上任一项实施例提供的实例深度估计模型的训练方法，和/或，实现如上任一项实施例提供的三维检测中实例深度估计方法。

本申请的一个实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上任一项实施例提供的实例深度估计模型的训练方法，和/或，实现如上任一项实施例提供的三维检测中实例深度估计方法。

需要说明的是，上述计算机可读存储介质可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器。也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所描述的方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种实例深度估计模型的训练方法，其特征在于，包括：

达到终止条件时结束训练，得到目标实例深度估计模型。

2.根据权利要求1所述的方法，其特征在于，所述图像二维信息提取网络包括深层特征提取网络；

3.根据权利要求2所述的方法，其特征在于，所述图像三维信息提取网络包括目标物特征信息提取网络和计算网络，所述目标物特征信息提取网络包括视觉深度信息提取子网络和属性深度信息提取子网络；

4.根据权利要求3所述的方法，其特征在于，所述根据每张训练图像的深层特征和每张训练图像中的目标物区域图像分别对视觉深度信息提取子网络和属性深度信息提取子网络进行训练，以获取视觉深度信息提取子网络预测的每张训练图像中目标物的视觉深度信息和属性深度信息提取子网络预测的每张训练图像中目标物的属性深度信息包括：

5.根据权利要求4所述的方法，其特征在于，所述计算网络用于：

6.根据权利要求5所述的方法，其特征在于，所述计算网络用于根据每张子区域图像的实例深度和每张子区域图像的实例深度不确定值确定每张训练图像中目标物的实例深度时，具体用于：

7.根据权利要求1所述的方法，其特征在于，每张训练图像的尺寸相同，任意一张训练图像的尺寸为原始尺寸或原始尺寸的缩放尺寸，所述原始尺寸的缩放尺寸是对原始尺寸中具有仿射变换性质的尺寸进行缩放得到的尺寸；

至少一张不同的训练图像来源于同一张初始训练图像。

8.一种三维检测中实例深度估计方法，其特征在于，包括：

获取通过相机拍摄的待检测图像；

将所述待检测图像输入至如权利要求1-7任一项所述的实例深度估计模型的训练方法训练得到的目标实例深度估计模型，得到所述待检测图像中至少一个目标物的实例深度。

9.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至7中任一项所述的实例深度估计模型的训练方法，和/或，实现如权利要求8所述的三维检测中实例深度估计方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述指令被执行时，使得计算机执行如权利要求1至7中任一项所述的实例深度估计模型的训练方法，和/或，实现如权利要求8所述的三维检测中实例深度估计方法。