CN113902897A

CN113902897A - 目标检测模型的训练、目标检测方法、装置、设备和介质

Info

Publication number: CN113902897A
Application number: CN202111152678.8A
Authority: CN
Inventors: 叶晓青; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-07
Anticipated expiration: 2041-09-29
Also published as: CN113902897B; US20230099113A1

Abstract

本公开提供了目标检测模型的训练、目标检测方法、装置、设备和介质，涉及人工智能领域，具体涉及计算机视觉和深度学习技术，可应用于3D视觉场景下。具体实现方案为：将样本图像输入至第一目标检测模型的点云特征提取网络中，得到生成点云的图像特征；将所述生成点云的图像特征输入至所述第一目标检测模型的第一鸟瞰图特征提取网络中，得到第一鸟瞰图特征；将所述第一鸟瞰图特征输入至所述第一目标检测模型的预测网络中，得到第一检测结果；根据所述样本图像的标准3D识别结果和所述第一检测结果，计算第一损失，并根据所述第一损失，训练所述第一目标检测模型。本公开实施例可以提高目标检测的准确率，降低目标检测的成本。

Description

目标检测模型的训练、目标检测方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉和深度学习技术，可应用于3D视觉场景下，尤其涉及目标检测模型的训练、目标检测方法、装置、设备和介质。

背景技术

计算机视觉技术正是想要赋予计算机人类的视觉识别和定位的功能。通过复杂的图像计算，计算机能够识别和定位出目标对象。

3D目标检测主要是检测3D物体，其中，3D物体通常以空间坐标(x，y，z)、尺寸大小(长，宽，高)和朝向角等参数表示。

发明内容

本公开提供了一种目标检测模型的训练、目标检测方法、装置、设备和介质。

根据本公开的一方面，提供了一种目标检测模型的训练方法，包括：

将样本图像输入至第一目标检测模型的点云特征提取网络中，得到生成点云的图像特征；

将所述生成点云的图像特征输入至所述第一目标检测模型的第一鸟瞰图特征提取网络中，得到第一鸟瞰图特征；

将所述第一鸟瞰图特征输入至所述第一目标检测模型的预测网络中，得到第一检测结果；

根据所述样本图像的标准3D识别结果和所述第一检测结果，计算第一损失，并根据所述第一损失，训练所述第一目标检测模型。

根据本公开的一方面，还提供了一种目标检测方法，包括：

将图像输入至目标检测模型中，在所述图像中识别3D目标空间，以及所述3D目标空间的目标类别；

其中，所述目标检测模型是根据如本公开任一项实施例所述的目标检测模型的训练方法训练得到。

根据本公开的一方面，提供了一种目标检测模型的训练装置，包括：

生成点云特征提取模块，用于将样本图像输入至第一目标检测模型的点云特征提取网络中，得到生成点云的图像特征；

鸟瞰图特征提取模块，用于将所述生成点云的图像特征输入至所述第一目标检测模型的第一鸟瞰图特征提取网络中，得到第一鸟瞰图特征；

第一检测结果获取模块，用于将所述第一鸟瞰图特征输入至所述第一目标检测模型的预测网络中，得到第一检测结果；

第一损失计算模块，用于根据所述样本图像的标准3D识别结果和所述第一检测结果，计算第一损失，并根据所述第一损失，训练所述第一目标检测模型。

根据本公开的一方面，还提供了一种目标检测模型的训练装置，包括：

3D目标检测模块，用于将图像输入至目标检测模型中，在所述图像中识别3D目标空间，以及所述3D目标空间的目标类别；其中，所述目标检测模型是根据如本公开任一项实施例所述的目标检测模型的训练方法训练得到。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述的目标检测模型的训练方法，或执行本公开任一实施例所述的目标检测方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任一实施例所述的目标检测模型的训练方法，或执行本公开任一实施例所述的目标检测方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任一实施例所述的目标检测模型的训练方法，或执行本公开任一实施例所述的目标检测方法。

本公开实施例可以提高目标检测的准确率，降低目标检测的成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种目标检测模型的训练方法的示意图；

图2是根据本公开实施例提供的一种目标检测模型的训练方法的示意图；

图3是根据本公开实施例提供的真值深度分布直方图；

图4是根据本公开实施例提供的备选深度区间的示意图；

图5是根据本公开实施例提供的一种目标检测模型的训练方法的示意图；

图6是根据本公开实施例提供的一种目标检测模型的训练场景图；

图7是根据本公开实施例提供的一种目标检测方法的示意图；

图8是根据本公开实施例提供的一种目标检测模型的训练装置的示意图；

图9是根据本公开实施例提供的一种目标检测装置的示意图；

图10是用来实现本公开实施例的目标检测模型的训练方法或目标检测方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例公开的一种目标检测模型的训练方法的流程图，本实施例可以适用于对用于实现3D目标检测的目标检测模型进行训练的情况。本实施例方法可以由目标检测模型的训练装置来执行，该装置可采用软件和/或硬件的方式实现，并具体配置于具有一定数据运算能力的电子设备中，该电子设备可以是客户端设备或服务器设备，客户端设备例如手机、平板电脑、车载终端和台式电脑等。

S101，将样本图像输入至第一目标检测模型的点云特征提取网络中，得到生成点云的图像特征。

样本图像用于训练目标检测模型，样本图像为单目2D图像，单目是指一个角度拍摄的图像，该样本图像不具有深度信息。可以是图像采集模块以前视视图下对设定场景环境进行采集得到的图像，例如，可以是车辆上的摄像头对前方路况进行采集得到的图像。

第一目标检测模型用于根据单目图像，识别出3D物体，具体是识别出3D物体的空间关键点坐标、空间长、空间宽、空间高和空间朝向角等空间属性，以及确定3D物体的类别。示例性的，第一目标检测模型可以是神经网络模型，例如可以包括编码网络和分类网络等。第一目标检测模型为预训练模型，即经过训练但未达到训练目标的模型。

点云特征提取网络用于从样本图像中提取图像特征，以及根据样本图像的图像像素确定生成点云，从而形成生成点云的图像特征。其中，点云特征网络至少包括编码网络和深度预测网络。编码网络用于提取图像特征；深度预测网络用于预测深度信息，并结合图像像素，确定生成点云。点云是指空间坐标系下的三维坐标点形成的集合。生成点云是指形成至少一个3D物体外表面的三维坐标点的集合。生成点云是指生成的点云，该生成点云是基于其他数据间接生成的伪点云，并非是真实的点云。生成点云的图像特征实际是与生成点云对应的图像像素提取的图像的特征。实际上，样本图像中不具有深度信息，无法直接获取真实点云，基于样本图像确定的生成点云，并非真实点云，从样本图像中提取图像特征，并将两者建立对应关系，形成生成点云的图像特征。

S102，将所述生成点云的图像特征输入至所述第一目标检测模型的第一鸟瞰图特征提取网络中，得到第一鸟瞰图特征。

鸟瞰图实际是指以俯视角度对设定场景环境进行采集得到的图像。第一鸟瞰图特征提取网络，用于从生成点云的图像特征中，提取第一鸟瞰图特征(Bird’s Eye View,BEV)。示例性的，第一鸟瞰图特征提取网络可以是Second网络(Sparsely EmbeddedConvolutional Detection，稀疏卷积检测网络)，或PointPillars(点体素检测网络)等。其中，SECOND网络可以包括体素网格特征提取网络、稀疏卷积层(中间层)和RPN网络(RegionProposal Network，区域生成网络)。实际上，图像特征可以表示正视图中3D物体的特征，鸟瞰图特征可以表示俯视图中3D物体的特征，例如，在样本图像中，深度不同并相互重叠的3D物体存在遮挡情况，被遮挡的3D物体难以准确识别，从而在图像特征中，难以准确区分在深度方向上重叠遮挡的3D物体，在转换为鸟瞰图特征之后，由于设定场景环境通常为平地，通常，在高度方向上，多个3D物体不会存在重叠，从而，鸟瞰图特征可以准确区分不同的3D物体。

S103，将所述第一鸟瞰图特征输入至所述第一目标检测模型的预测网络中，得到第一检测结果。

预测网络用于根据第一鸟瞰图特征输出第一检测结果。其中，第一检测结果为一个3D物体的检测结果。不同3D物体对应不同的第一检测结果。3D物体可以通过空间关键点坐标、空间长、空间宽、空间高和空间朝向角等属性信息表示。可以定义第一目标检测模型的第一检测结果为NA×D，其中，D＝{LWH，XYZ，ry}是一个7维的检测结果，L为长，W为宽，H为高，以及XYZ为(物体)中心点坐标，ry为朝向角。N为检测的第一检测结果的数量，NA表示第A个第一检测结果，也表示识别到的第A个3D物体，即NA标识第一检测结果。将一个第一检测结果经过相机内参投影到2D图像上，可以得到8个投影点，8个投影点的外接区域，确定为第一检测区域。其中，外接区域可以是外接矩形。其中，第一检测区域为第一目标检测模型对样本图像进行3D物体识别，确定的3D物体在图像中的投影区域。

S104，根据所述样本图像的标准3D识别结果和所述第一检测结果，计算第一损失，并根据所述第一损失，训练所述第一目标检测模型。

在目标检测模型的训练过程中，通常配置有作为真值的3D物体和该3D物体的真实类别，基于该3D物体和类别，确定标准3D识别结果。实际上，标准3D识别结果作为第一检测结果的真值，以验证第一检测结果是否正确。

第一损失用于约束第一检测结果与标准3D识别结果之间的差异，根据第一损失训练第一目标检测模型，可以提高第一目标检测模型的3D检测准确率。

第一损失的计算可以包括：根据各第一检测结果的空间属性中空间关键点坐标和各标准3D识别结果的空间属性中空间关键点坐标，获取以标准3D识别结果为真值的第一检测结果，并确定该标准3D识别结果与该标准3D识别结果对应；根据各标准3D识别结果的空间属性和对应的第一检测结果的空间属性，确定各标准3D识别结果对应的空间损失，空间属性包括下述至少一项：空间长、空间宽、空间高和空间朝向角；根据第一检测结果的第一检测类别和标准3D识别结果的目标类别，确定类别损失；根据各标准3D识别结果对应的空间损失和类别损失，进行统计，确定第一损失。其中，将空间关键点坐标距离相近的标准3D识别结果和第一检测结果，建立对应关系，其中，距离相近可以是两个坐标之间的距离小于等于设定距离阈值。在标准3D识别结果不存在对应的第一检测结果的情况下，以第一检测结果为空，根据标准3D识别结果计算第一损失。

空间属性包括多个元素，可以根据多个元素生成向量。示例性的，计算标准3D识别结果的空间属性与对应的第一检测结果的空间属性之间的差异，可以包括，计算标准3D识别结果与对应的第一检测结果之间的空间属性的向量差值，也即计算标准3D识别结果与对应的第一检测结果之间的空间长差值、空间宽差值、空间高差值和空间朝向角差值，确定该第一检测结果的空间损失。在标准3D识别结果不存在对应的第一检测结果的情况下，根据标准3D识别结果与空的第一检测结果(空间长、空间宽、空间高和空间朝向角可以均为0)的之间的空间长差值、空间宽差值、空间高差值和空间朝向角差值，确定该标准3D识别结果的空间损失。

类别用于表示区域中内容的类别，例如，类别包括下述至少一项：车辆、自行车、树木、标志线、行人和指示灯等。通常，采用指定数值表示类别。可以计算标准3D识别结果与对应的第一检测结果之间的类别对应的数值差值，确定为该标准3D识别结果的类别损失。在标准3D识别结果不存在对应的第一检测结果的情况下，根据标准3D识别结果与空的第一检测结果(类别对应的数值为0)的之间的类别对应的数值差值，确定该标准3D识别结果的类别损失。

对前述至少一个标准3D识别结果的空间损失和类别损失进行累计，确定为第一损失。其中，可以统计至少一个标准3D识别结果的空间损失，得到第一目标检测模型的空间损失，并统计至少一个标准3D识别结果的类别损失，得到第一目标检测模型的类别损失，对第一目标检测模型的空间损失和第一目标检测模型的类别损失进行加权累计，得到标准3D识别结果对应的第一损失。此外还有其他累计方式，例如，加权求和或乘积等，对此不具体限定。

现有的单目3D检测方法是基于图像进行包围3D物体的空间进行检测。但由于单张单目图像缺少深度信息，并且因为透视投影的近大远小的拍摄问题，导致基于单目图像进行3D检测的准确率低。

根据本公开的技术方案，通过样本图像预测深度信息，确定生成点云，并提取图像特征，得到生成点云的图像特征，并转换为第一鸟瞰图特征，可以在深度方向上精准区分3D物体，并基于第一鸟瞰图特征，预测3D物体，提高3D物体的目标检测准确率。

图2是根据本公开实施例公开的另一种目标检测模型的训练方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。所述将样本图像输入至第一目标检测模型的点云特征提取网络中，得到生成点云的图像特征，具体化为：将样本图像输入至所述点云特征提取网络中的编码器中，得到所述样本图像的图像特征；将所述图像特征输入至深度预测网络中，得到所述样本图像中像素点的深度；根据所述样本图像中像素点的深度，将所述样本图像中像素点转换为生成点云，并根据所述图像特征确定所述生成点云的图像特征。

S201，将样本图像输入至所述点云特征提取网络中的编码器中，得到所述样本图像的图像特征。

编码器是2D编码器，用于从样本图像中提取图像特征，提取的图像特征为2D图像特征。图像特征用于确定样本图像各像素点的深度，以及确定鸟瞰图特征。

S202，将所述图像特征输入至深度预测网络中，得到所述样本图像中像素点的深度。

深度预测网络用于根据图像特征确定样本图像中各像素点的深度。示例性的，深度预测网络可以包括多个卷积层和分类层。

S203，根据所述样本图像中像素点的深度，将所述样本图像中像素点转换为生成点云，并根据所述图像特征确定所述生成点云的图像特征。

样本图像中的像素可以采用二维坐标点表示，可以将样本图像定义为由像素点组成，每个像素点即二维坐标点。在像素点的基础上添加深度信息，可以形成三维坐标点，三维坐标点用于表示体素，体素点构成一个空间。从而可以实现二维坐标点转换为三维坐标点，以及实现样本图像中像素转换为体素。

示例性的，相机内参K，图像坐标系为uv轴，预测的深度图为D(u，v)，样本图像中点I(u，v)，基于如下公式，相机内参和深度图转换为三维坐标点：

则有对应的三维坐标点Pc为：

计算多个三维坐标点，形成生成点云。根据样本图像的图像特征，确定生成点云的图像特征。样本图像的图像特征可以与样本图像中的像素点存在对应关系，样本图像中的像素点可以转换为生成点云，相应的，可以将转换为三维坐标点的像素点对应的图像特征，确定为该三维坐标点的图像特征，并将组成生成点云的各三维坐标点的图像特征，确定为该生成点云的图像特征。图像特征实际是对样本图像进行处理得到的，图像特征的尺寸与样本图像的尺寸存在对应关系，根据尺寸对应关系，确定像素点与图像特征的对应关系。例如，图像特征的尺寸为20*20；样本图像为40*40；相应的，样本图像中4个像素点与图像特征中同一个特征点对应，其中，4个像素点中的一个像素点转换的三维坐标点与图像特征中该特征点对应。相应的，组成生成点云的各三维坐标点对应的特征点，形成的特征，确定为生成点云的图像特征。生成点云的图像特征，实际上包含了样本图像中可识别的3D物体的空间坐标和该3D物体投影到样本图像所在平面的图像特征。

可选的，所述将所述图像特征输入至深度预测网络中，得到所述样本图像中像素点的深度，包括：将所述图像特征输入至深度预测网络中，确定所述样本图像中像素点在预设的备选深度区间对应的深度预测置信度；根据各所述备选深度区间的中间深度值，和所述像素点在各所述备选深度区间对应的深度预测置信度，计算所述像素点的深度。

深度预测网络用于根据图像特征对像素点的深度进行分类，具体是根据图像特征检测像素点的深度落在预设的至少一个备选深度区间的概率。备选深度区间的中间深度值用于表示备选深度区间代表的深度值。备选深度区间的中间深度值，可以是指备选深度区间内的中位数，例如，备选深度区间的两个端点深度值之和的二分之一。深度预测置信度用于描述像素点的深度属于某个备选深度区域间的可信程度，可以是指像素点的深度属于某个备选深度区域间的概率。

示例性的，可以基于如下公式计算像素点的深度D：

其中，bin_i为第i个备选深度区间的中间深度值，w_i为第i个备选深度区间的置信度，又可以称为第i个备选深度区间的权重。N为备选深度区间的数量。

通过预测像素点的深度属于备选深度区间的置信度，而非直接估计深度，可以减少由于直接估计深度的误差回顾，将深度预测转换为深度属于某个备选深度区间的分类问题，提高深度预测网络的鲁棒性，可以减少深度预测误差，以及提高深度预测的准确率。

可选的，所述目标检测模型的训练方法，还包括：获取采集点云，所述采集点云与所述样本图像对应于同一采集场景；在所述采集点云中，获取感兴趣点云；根据所述感兴趣点云的深度，对所述采集点云对应的采集场景的深度进行区间划分，确定备选深度区间。

采集场景是指前方的空间。示例性的，采集场景为长70米、宽30米以及高30米的长方体，其中，长为深度范围，宽和高确定样本图像的对应的采集区域的尺寸。样本图像为基于单目的图像采集模块对采集场景进行前视图采集得到的图像；采集点云为雷达对采集场景进行采集得到的点云。采集点云为对3D物体的表面的点进行采集得到的真实的点云。

感兴趣点云为感兴趣3D物体的外表面的三维坐标点形成的集合。感兴趣点云包括至少一个感兴趣3D物体。其中，感兴趣3D物体是指指定的需要进行识别的3D物体。示例性的，在采集场景中包括指示灯、行人和车辆，感兴趣3D物体可以是指示灯和车辆。对采集点云中3D物体进行筛选，得到至少一个感兴趣3D物体的三维坐标点，形成感兴趣点云。示例性的，可以预先训练神经网络模型得到点云分类模型，根据点云分类模型对采集点云进行分类，筛选得到感兴趣点云。

感兴趣点云的深度是指感兴趣点云包括的三维坐标点的深度。感兴趣点云的深度用于确定感兴趣点云包括的三维坐标点的分布情况，以确定备选深度区间。如图3所示的深度直方图，感兴趣点云包括的三维坐标点的分布情况呈现正太分布。采集场景的深度是指采集场景对应的空间的长度，如前例，空间的长为70米，采集场景的深度为70米。对采集点云对应的采集场景的深度进行区间划分，可以是指对从0至采集场景的深度的深度区间进行划分。根据感兴趣点云的深度进行区间划分，可以是，根据各感兴趣点云包括的各三维坐标点的深度在深度区间的占比，在深度占比高的位置划分的区间的数量多和细；在深度占比低的位置划分的区间的数量少和粗。将划分得到的深度区间，确定为备选深度区间。

例如，在(55,65]的深度的三维坐标点的数量占全部三维坐标点的数量的比值为30％，在(65,75]的深度的三维坐标点的数量占全部三维坐标点的数量的比值为10％；相应的，(55,65]可以划分成3个区间，如(55,58]、(58,61]和(61,65]，(65,75]可以划分为1个区间，即(65,75]。根据图3的深度直方图，对应划分得到的备选深度区间可以如图4所示，例如，40米的深度的分布占比最高，40深度附近的区间划分最细，划分得到的备选深度区间最多；又如，70米的深度的分布占比最低，70深度附近的区间划分最粗，划分得到的备选深度区间最少。

通过对采集场景进行雷达采集得到采集点云，并筛选得到感兴趣点云，并在感兴趣点云中各三维坐标点的深度，对采集场景的深度的范围进行区间划分，得到备选深度区间，可以根据感兴趣点云的深度分布的疏密确定备选深度区间，可以使三维坐标点均衡的分布在不同的备选深度区间内，由此确定像素点的深度所属的备选深度区间，可以使检测到的备选深度区间与区间本身的位置无关，从而，检测到的备选深度区间的置信度可以准确表征像素点的深度属于该备选检测区间的概率，提高备选深度区间的分类准确性，提高像素点的深度预测准确率。

S204，将所述生成点云的图像特征输入至所述第一目标检测模型的第一鸟瞰图特征提取网络中，得到第一鸟瞰图特征。

S205，将所述第一鸟瞰图特征输入至所述第一目标检测模型的预测网络中，得到第一检测结果。

S206，根据所述样本图像的标准3D识别结果和所述第一检测结果，计算第一损失，并根据所述第一损失，训练所述第一目标检测模型。

根据本公开的技术方案，通过根据样本图像的图像特征预测样本图像中像素点的深度，基于像素点的深度，将像素点转换为三维坐标点，确定生成点云，并形成生成点云的图像特征，以转换为第一鸟瞰图特征，得到3D目标检测结果，可以在单目2D图像中添加深度信息，在深度方向上区分重叠的不同3D物体，提高3D物体的识别精度和准确率。

图5是根据本公开实施例公开的另一种目标检测模型的训练方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。将所述目标检测模型的训练方法优化为：将采集点云输入至第二目标检测模型中，得到第二鸟瞰图特征；根据所述第一鸟瞰图特征和所述第二鸟瞰图特征，确定特征差值，并根据特征差值和标准区域，计算特征一致性损失，其中，所述标准区域为所述标准3D识别结果投影在所述样本图像中的区域；并且，将所述根据所述第一损失，训练所述第一目标检测模型，具体化为：根据所述第一损失和所述特征一致性损失，训练所述第一目标检测模型。

S301，将样本图像输入至第一目标检测模型的点云特征提取网络中，得到生成点云的图像特征。

S302，将所述生成点云的图像特征输入至所述第一目标检测模型的第一鸟瞰图特征提取网络中，得到第一鸟瞰图特征。

S303，将所述第一鸟瞰图特征输入至所述第一目标检测模型的预测网络中，得到第一检测结果。

S304，根据所述样本图像的标准3D识别结果和所述第一检测结果，计算第一损失。

S305，将采集点云输入至第二目标检测模型中，得到第二鸟瞰图特征。

第二目标检测模型用于根据点云，识别出3D物体，具体是识别出3D物体的空间关键点坐标、空间长、空间宽、空间高和空间朝向角等信息。第二目标检测模型为训练完成的模型。第一目标检测模型和第二目标检测模型的结构不同，通常，第二目标检测模型的预测准确率高于第一目标检测模型的预测准确率，但是第二目标检测模型的运行速度和训练速度上慢于第一目标检测模型的运行速度和训练速度，而且第二目标检测模型的输入为点云，需要配置雷达采集得到。第一目标检测的输入为单目2D图像，仅需要一个摄像头即可实现，第二目标检测模型的输入数据的采集成本高于第一目标检测模型的输入数据的采集成本。

第二目标检测模型的输入为点云，输出为3D物体的空间属性和类别，中间特征为BEV_cloud，具体是W_B×H_B×C。针对该中间特征BEV_cloud，通过轻量级的2D的特征提取网络，得到L层第二鸟瞰图特征

其中，k＝1,2,3……K。中间特征BEV_cloud可以理解为一层第二鸟瞰图特征，L层第二鸟瞰图特征

是多层第二鸟瞰图特征。

S306，根据所述第一鸟瞰图特征和所述第二鸟瞰图特征，确定特征差值，并根据所述特征差值和标准区域，计算特征一致性损失，其中，所述标准区域为所述标准3D识别结果投影在所述样本图像中的区域。

特征差值可以是指第一鸟瞰图特征与第二鸟瞰图特征之间的差值。特征差值，用于表示第一鸟瞰图特征与第二鸟瞰图特征之间的差异。特征一致性损失用于约束第一目标检测模型学习得到的鸟瞰图特征与第二目标检测模型学习得到的鸟瞰图特征之间的差异，使得第一目标检测模型学习得到的鸟瞰图特征与第二目标检测模型学习得到的鸟瞰图特征更加接近。将标准3D物体投影到样本图像所在平面上，得到8个投影点，将8个投影点的外接区域，确定为该标准3D物体投影在样本图像的标准区域。

根据特征差值和标准区域，计算特征一致性损失，可以是将特征差值，与标准区域相乘，得到特征一致性损失。或者，可以将标准区域进行增大，根据特征差值和标准区域，计算特征一致性损失，可以是特征差值与增大的标准区域相乘，得到特征一致性损失。其中，增大的标准区域可以是指确定外接宽度，在标准区域上向外拼接外接宽度的像素，形成增大的标准区域。示例性的，外接宽度为5个像素。

可选的，所述第一鸟瞰图特征包括所述第一鸟瞰图特征提取网络中至少一个第一特征层输出的特征；所述第二目标检测模型包括第二鸟瞰图特征提取网络，所述第二鸟瞰图特征包括所述第二鸟瞰图特征提取网络中至少一个第二特征层输出的特征，所述第一特征层与所述第二特征层对应；所述根据所述第一鸟瞰图特征和所述第二鸟瞰图特征，确定特征差值，包括：根据所述第一特征层输出的特征与对应的第二特征层输出的特征之间的差异，计算所述第一特征层对应的差值，并确定特征差值。

第一目标检测模型包括第一鸟瞰图特征提取网络；第二目标检测模型包括第二鸟瞰图特征提取网络，第一鸟瞰图特征提取网络和第二鸟瞰图特征提取网络的网络结构相似，输入不同，输出相同。第一鸟瞰图特征提取网络根据生成点云的图像特征，生成第一鸟瞰图特征。第二鸟瞰图特征提取网络根据采集点云，生成第二鸟瞰图特征。第一鸟瞰图特征提取网络和第二鸟瞰图特征提取网络包括数量相同的特征层。第一鸟瞰图特征提取网络的第i特征层与第二鸟瞰图特征提取网络的第i特征层对应。

相应的，特征差值可以是指至少一个特征层的第一鸟瞰图特征与同一特征层的第二鸟瞰图特征之间的差值。根据特征差值和标准区域，计算特征一致性损失，累计至少一特征层的特征差值，并与增大的标准区域相乘，得到特征一致性损失。

可以基于如下公式计算特征一致性损失：

其中，

为第k层第一鸟瞰图特征，

为第k层第二鸟瞰图特征。示例性，k大于等于1且小于等于K，K为特征层总数。M_fg是指扩展前景区域，即增大的标准区域。在前景区域向外拼接外接宽度(n个像素)形成的区域。

通过计算第一目标检测模型的至少一层特征层的第一鸟瞰图特征，和第二目标检测模型的对应特征层的第二鸟瞰图特征，确定特征一致性损失，针对细分的至少一层的鸟瞰图特征，使得第一目标检测模型在生成的伪点云的图像特征学习得到的至少一个层的鸟瞰图特征与第二目标检测模型在真实点云学习得到的至少一个层的鸟瞰图特征更加接近，极大降低第一目标检测模型在生成的伪点云的图像特征的学习鸟瞰图特征的能力与第二目标检测模型在真实点云的学习鸟瞰图特征的能力之间的差距，精准提高第一目标检测模型在生成的伪点云的图像特征的学习特征的能力，以使第一目标检测模型提取的每层鸟瞰图特征都更加符合真实的鸟瞰图特征，提高第一目标检测模型的预测准确率。

可选的，至少一个特征层根据训练迭代轮次确定。示例性的，在训练过程中，可以采用渐进式训练方法，设第1到第K层的特征中，越往后越靠近输出层。在至少一个特征层中添加特征层的方式是倒序添加方式，即从最后一个特征层开始添加相邻前一个特征层。根据训练迭代轮次，倒序添加对应的特征层，以计算特征一致性损失。

训练迭代轮次小于第一轮次阈值，至少一个特征层为尾个特征层，即k为K；随着训练迭代论次的增加，慢慢加上第k＝K-2特征层的特征一致性损失，直到最后加上第k＝1特征层的特征一致性损失。示例性的，训练迭代轮次大于等于第一轮次阈值，且小于第二轮次阈值，在前述特征层的特征一致性损失的基础上，添加该大于等于第一轮次阈值，且小于第二轮次阈值范围对应的特征层的特征一致性损失。

通过根据训练迭代轮次，倒序添加对应的特征层，以计算特征一致性损失，实现渐进式特征分布引导第一目标检测模型的特征学习能力不断接近第二目标检测模型的特征学习能力，可以避免第一目标检测模型的学习要求超过了第一目标检测模型的学习能力，导致第一目标检测模型的训练效果下降，实现第一目标检测模型的训练稳定性，精准提高第一目标检测模型的3D目标检测准确率。

S307，根据所述第一损失和所述特征一致性损失，训练所述第一目标检测模型。

将特征一致性损失和第一损失，确定为第一目标检测模型的总损失，作为训练目标，训练第一目标检测模型。

可选的，所述第一检测结果包括：第一类别置信度；所述方法，还包括：将采集点云输入至第二目标检测模型中，得到第二检测结果，所述第二检测结果包括第二类别置信度；在所述第一检测结果和所述第二检测结果匹配的情况下，根据所述第一检测结果包括的第一类别置信度和所述第二检测结果包括的第二类别置信度，计算所述第一检测结果的置信度损失，并确定置信度一致性损失；所述根据所述第一损失和所述特征一致性损失，训练所述第一目标检测模型，包括：根据所述第一损失、所述特征一致性损失和所述置信度一致性损失，训练所述第一目标检测模型。

第二检测结果为第二目标检测模型根据采集点云识别出的3D目标检测的结果。第二检测结果可以包括批次、3D物体和3D物体的类别。可以定义第二检测结果为BxNxC，其中，B为批次(batch)，N表示第N个第二检测结果，也表示第N个3D物体。C为3D物体的类别。

类别置信度用于确定检测结果的检测类别的可信程度。类别置信度可以是指，检测结果的检测类别为某一类别的概率。通常，对检测结果进行分类，每个类别对应一个类别置信度，根据各类别置信度，选择一个类别作为检测类别，对应的置信度作为类别置信度，其中，选择的类别可以是置信度最高的类别。通常，第一目标检测模型，将最高类别置信度对应的类别，确定为第一检测类别，并将该最高类别置信度确定为第一类别置信度；第二目标检测模型，将最高类别置信度对应的类别，确定为第二检测类别，并将该最高类别置信度确定为第二类别置信度。

第一检测结果和第二检测结果匹配是指，第一检测结果和第二检测结果表示同一个3D物体，且包括的检测类别的类别置信度均大于预设类别置信度阈值。

可以理解的是，表示不同3D物体的第一检测结果和第二检测结果之间确定的置信度的差异，不能使第一目标检测模型学习到更准确的类别特征，因此需要将表示同一个3D物体的检测结果进行比较，使第一目标检测模型不断学习减少差距，才能实现提高第一目标检测模型针对该3D物体类别的识别准确率。第一检测结果和第二检测结果是否表示同一个3D物体，可以通过两个检测结果投影到样本图像上的区域之间的交并比(Intersectionover Union，IOU)检测。示例性的，根据第一检测结果的空间属性，将第一检测结果投影到样本图像所在平面上，得到8个投影点，将8个投影点的外接区域，确定为该第一检测结果投影在样本图像的第一检测区域。根据第二检测结果的空间属性，将第二检测结果投影到样本图像所在平面上，得到8个投影点，将8个投影点的外接区域，确定为该第二检测结果投影在样本图像的第二检测区域。计算第一检测区域和第二检测区域之间的交并比：基于如下公式计算第一检测区域和第二检测区域之间的交并比：

其中，box1为第一检测区域，box2为第二检测区域。分子为第一检测区域与第二检测区域交集的面积，分母为第一检测区域与第二检测区域并集的面积。在IOU大于设定交并比阈值的情况下，确定第一检测结果与第二检测结果表示同一个3D物体；在IOU小于等于设定交并比阈值的情况下，确定第一检测结果与第二检测结果表示不同3D物体。示例性的，交并比阈值为0.7。

检测结果包括的检测类别的类别置信度大于预设类别置信度阈值，表明检测类别是可信的。可以理解的是，在检测结果中，检测类别的类别置信度较低，表明模型自己认为该检测类别不准确，在这种情况下继续使模型学习，会导致第一目标检测模型无法学习到更准确的类别特征。因此需要两个检测结果的检测类别都是可信的，在这种情况下，才能使第一目标检测模型不断学习减少差距，实现提高第一目标检测模型针对该3D物体类别的识别准确率。示例性的，第一检测结果包括的第一检测类别的第一类别置信度大于预设类别置信度阈值，且第二检测结果包括的第二检测类别的第二类别置信度大于预设类别置信度阈值。例如，类别置信度阈值可以是0.3。

例如，在第一检测结果投影在样本图像中的第一检测区域和第二检测结果投影在样本图像中的第二检测区域的交并比大于预设交并比阈值，第一检测类别的第一类别置信度大于预设类别置信度阈值，且第二检测类别的第二类别置信度大于该预设类别置信度阈值的情况下，确定第一检测结果与第二检测结果匹配。

置信度一致性损失用于约束第一目标检测模型针对某一标准3D识别结果学习得到的类别置信度与第二目标检测模型针对该标准3D识别结果学习得到的类别置信度之间的差异，使得第一目标检测模型针对标准3D识别结果学习得到的类别置信度与第二目标检测模型针对该标准3D识别结果学习得到的类别置信度更加接近。置信度一致性损失根据第一目标检测模型和第二目标检测模型分别针对同一标准3D识别结果计算的类别置信度之间的差异确定。

置信度一致性损失可以根据第一目标检测模型针对标准3D识别结果的第一检测结果和第二目标检测模型针对该标准3D识别结果的第二检测结果的置信度之间的差异确定。针对每一个匹配的第一检测结果和第二检测结果，可以计算该匹配的第一检测结果的第一类别置信度和第二检测结果的第二类别置信度之间的置信度差值，累计多个匹配的第一检测结果和第二检测结果之间的置信度差值，计算置信度一致性损失。

可以基于如下公式计算置信度一致性损失L_{cls_consi}：

L_{cls_consi}＝smoothL1(‖score_BEV-score_img‖)

SmoothL1为绝对损失函数，表示平滑L1损失，score_img为第一类别置信度，score_BEV为第二类别置信度。score_BEV-score_img表示多个匹配的第一检测结果和第二检测结果之间的置信度差值。

引入置信度一致性损失，并将置信度一致性损失、特征一致性损失和第一损失，确定为第一目标检测模型的总损失，作为训练目标，训练第一目标检测模型。

相应的，前述总损失L基于如下公式计算：

L＝L_box3d+L_class+L_{cls_consi}+L_feature

通过额外配置第二目标检测模型，并计算第一目标检测模型的第一类别置信度，和第二检测模型的第二类别置信度，确定置信度一致性损失，使得第一目标检测模型在某一3D物体的学习得到的类别特征与第二目标检测模型在同一3D物体学习得到的类别特征更加接近，降低第一目标检测模型的学习类别特征的能力与第二目标检测模型的学习类别特征的能力之间的差距，提高第一目标检测模型的学习类别特征的能力，提高第一目标检测模型的类别预测准确率。

根据本公开的技术方案，通过计算第一目标检测模型的第一鸟瞰图特征，和第二目标检测模型的第二鸟瞰图特征，确定特征一致性损失，使得第一目标检测模型在生成的伪点云的图像特征学习得到的鸟瞰图特征与第二目标检测模型在真实点云学习得到的鸟瞰图特征更加接近，降低第一目标检测模型在生成的伪点云的图像特征的学习鸟瞰图特征的能力与第二目标检测模型在真实点云的学习鸟瞰图特征的能力之间的差距，提高第一目标检测模型在生成的伪点云的图像特征的学习特征的能力，以使第一目标检测模型从生成的伪点云的图像特征提取出更加符合真实的鸟瞰图特征，从而，提高第一目标检测模型的预测准确率。

图6是根据本公开实施例公开的一种目标检测模型的训练场景图。

如图6所示，样本图像408输入至第一目标检测模型，同时采集点云401输入至第二目标检测模型中，根据第二目标检测模型运行过程中的第二鸟瞰图特征与第一目标检测模型运行过程中的第一鸟瞰图特征之间的特征一致性损失，以及第二目标检测模型得到的第二检测结果的第二类别置信度与第一目标检测模型得到的第一检测结果的第一类别置信度之间的置信度一致性损失，作为增加的训练目标训练第一目标检测模型。其中，第二目标检测模型为预先训练的模型，在该过程中不需要继续训练，第二目标检测模型的参数固定。

其中，第二目标检测模型包括第二鸟瞰图特征提取网络402、第二多层特征提取网络404和第二检测头(head)预测网络406。第二目标检测模型的检测过程是：采集点云401输入至第二鸟瞰图特征提取网络402，得到第二中间特征403，并输入至第二多层特征提取网络404，得到多层的第二鸟瞰图特征405，并输入至第二检测头预测网络406，得到第二检测结果407。其中，第二检测结果407包括一个3D物体的尺寸、位置和朝向角等第二空间属性，以及该3D物体的第二检测类别和第二检测类别对应的第二置信度，第二空间属性和第二置信度组成408，其中，位置是指空间关键点坐标，尺寸是指空间长、空间宽和空间高。

第一目标检测模型包括编码器412、深度预测网络413、第一鸟瞰图特征提取网络417、第一多层特征提取网络419和第一检测头预测网络421。第一目标检测模型的检测过程是：样本图像411输入至编码器412，得到图像特征416，并将图像特征416输入至深度预测网络413，得到像素点在每个备选深度区间的分类概率，并计算得到像素点深度414，根据像素点深度414，与样本图像的像素点，相机内参，形成生成点云415，根据图像特征416和生成点云415，确定生成点云中每个三维坐标点对应的图像特征417，并输入至第一鸟瞰图特征提取网络418，得到第一中间特征419，并输入至第一多层特征提取网络419，得到多层的第一鸟瞰图特征421，并输入至第一检测头预测网络422，得到第一检测结果423。其中，第一检测结果423包括一个3D物体的尺寸、位置和朝向角等第一空间属性，以及该3D物体的第一检测类别和第一检测类别对应的第一置信度，第一空间属性和第一置信度组成424。

根据训练迭代轮次，确定计算特征一致性损失的特征层，通常是从最后一层慢慢往前增加。根据确定的至少一个特征层，计算该至少一个特征层输出的第一鸟瞰图特征和对应特征层输出的第二鸟瞰图特征之间的特征差值，并累加，与增大的标准区域相乘，确定特征一致性损失。其中，由于标准区域的数量为至少一个，可以将全部增大的标准区域组成一个标准图，与特征差值进行相乘，得到特征一致性损失。

获取多个匹配的第一检测结果423和第二检测结果407。针对每一个匹配的第一检测结果和第二检测结果，计算对应的第一检测类别424和对应的第二检测类别408之间的置信度差值，累计多个匹配的第一检测结果和第二检测结果之间的置信度差值，计算置信度一致性损失。

根据第一检测结果423与标准3D识别结果，计算第一检测结果的空间损失和类别损失，确定第一损失。

根据特征一致性损失、置信度一致性损失和第一损失之和，调整第一目标检测模型的参数。第二目标检测模型仅在训练阶段使用，在第一目标检测模块应用阶段，第二目标检测模型关联的训练内容剔除。

通过第二目标检测模型引导训练第一目标检测模型，在测试阶段可以仅需要提供真实采集的点云提取的鸟瞰图特征引导第一目标检测模型学习提取符合真实的鸟瞰图特征，并且通过约束第一目标检测模型和第二目标检测模型的类别的置信度一致性，以使第一目标检测模型在鸟瞰图特征和类别特征的学习能力不断接近第二目标检测模型，提高第一目标检测模型的3D目标检测的准确率，并在应用时，只保留第一目标检测模型，剔除第二目标检测模型的分支，兼顾第一目标检测模型的运行速度，和检测精度，并且不需要增加更多的样本，才能训练出第一目标检测模型更高的检测精度，可以在不增加额外计算量与训练数据的前提下，提升了单目3D检测的精度，降低训练成本。

图7是根据本公开实施例公开的一种目标检测方法的流程图，本实施例可以适用于根据训练目标检测模型，根据单目图像识别出3D物体的空间和类别的情况。本实施例方法可以由目标检测装置来执行，该装置可采用软件和/或硬件的方式实现，并具体配置于具有一定数据运算能力的电子设备中，该电子设备可以是客户端设备或服务器设备，客户端设备例如手机、平板电脑、车载终端和台式电脑等。

S501，将图像输入至目标检测模型中，在所述图像中识别3D目标空间，以及所述3D目标空间的目标类别；其中，所述目标检测模型是根据如本公开任一项实施例所述的目标检测模型的训练方法训练得到。

图像为需要是被3D物体的2D单目图像。3D目标空间为包围3D物体的空间。3D目标空间的目标类别是指3D目标空间包围的物体的类别。

例如在交通领域中，车辆上的摄像头对路面前方场景进行采集得到图像，将该图像输入至目标检测模型中，得到路面前方场景中目标类别为车辆的目标空间、目标类别为行人的目标空间和目标类别为指示灯的目标空间等。

又如，在小区监控场景中，小区配置的摄像头对小区场景进行采集得到的图像。将该图像输入至目标检测模型中，得到小区场景中目标类别为老人的目标空间、目标类别为儿童的目标空间和目标类别为车辆的目标空间等。

根据本公开的技术方案，通过本公开任一项实施例所述的目标检测模型的训练方法得到目标检测模型，并基于目标检测模型对图像进行目标检测，得到3D目标空间以及对应的目标类别，提高3D目标检测的准确率，加快目标检测的检测效率，降低目标检测的计算成本和部署成本。

根据本公开的实施例，图8是本公开实施例中的目标检测模型的训练装置的结构图，本公开实施例适用于对用于实现3D目标检测的目标检测模型进行训练的情况。该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图8所示的一种目标检测模型的训练装置600，包括：生成点云特征提取模块601、鸟瞰图特征提取模块602、第一检测结果获取模块603和第一损失计算模块604；其中，

生成点云特征提取模块601，用于将样本图像输入至第一目标检测模型的点云特征提取网络中，得到生成点云的图像特征；

鸟瞰图特征提取模块602，用于将所述生成点云的图像特征输入至所述第一目标检测模型的第一鸟瞰图特征提取网络中，得到第一鸟瞰图特征；

第一检测结果获取模块603，用于将所述第一鸟瞰图特征输入至所述第一目标检测模型的预测网络中，得到第一检测结果；

第一损失计算模块604，用于根据所述样本图像的标准3D识别结果和所述第一检测结果，计算第一损失，并根据所述第一损失，训练所述第一目标检测模型。

进一步的，所述生成点云特征提取模块601，包括：图像特征提取单元，用于将样本图像输入至所述点云特征提取网络中的编码器中，得到所述样本图像的图像特征；像素深度计算单元，用于将所述图像特征输入至深度预测网络中，得到所述样本图像中像素点的深度；生成点云特征确定单元，用于根据所述样本图像中像素点的深度，将所述样本图像中像素点转换为生成点云，并根据所述图像特征确定所述生成点云的图像特征。

进一步的，所述像素深度计算单元，包括：深度置信度计算子单元，用于将所述图像特征输入至深度预测网络中，确定所述样本图像中像素点在预设的备选深度区间对应的深度预测置信度；像素深度预测子单元，用于根据各所述备选深度区间的中间深度值，和所述像素点在各所述备选深度区间对应的深度预测置信度，计算所述像素点的深度。

进一步的，目标检测模型的训练装置，还包括：点云采集模块，用于获取采集点云，所述采集点云与所述样本图像对应于同一采集场景；感兴趣点云获取模块，用于在所述采集点云中，获取感兴趣点云；深度区间划分模块，用于根据所述感兴趣点云的深度，对所述采集点云对应的采集场景的深度进行区间划分，确定备选深度区间。

进一步的，目标检测模型的训练装置，还包括：第二鸟瞰图特征提取模块，用于将采集点云输入至第二目标检测模型中，得到第二鸟瞰图特征；特征一致性损失计算模块，用于根据所述第一鸟瞰图特征和所述第二鸟瞰图特征，确定特征差值，并根据特征差值和标准区域，计算特征一致性损失，其中，所述标准区域为所述标准3D识别结果投影在所述样本图像中的区域；所述第一损失计算模块604，包括：特征损失训练单元，用于根据所述第一损失和所述特征一致性损失，训练所述第一目标检测模型。

进一步的，所述第一鸟瞰图特征包括所述第一鸟瞰图特征提取网络中至少一个第一特征层输出的特征；所述第二目标检测模型包括第二鸟瞰图特征提取网络，所述第二鸟瞰图特征包括所述第二鸟瞰图特征提取网络中至少一个第二特征层输出的特征，所述第一特征层与所述第二特征层对应；所述特征一致性损失计算模块，包括：特征层差异计算单元，用于根据所述第一特征层输出的特征与对应的第二特征层输出的特征之间的差异，计算所述第一特征层对应的差值，并确定特征差值。

进一步的，所述第一检测结果包括：第一类别置信度；所述装置，还包括：置信度计算模块，用于将采集点云输入至第二目标检测模型中，得到第二检测结果，所述第二检测结果包括第二类别置信度；置信度损失计算模块，用于在所述第一检测结果和所述第二检测结果匹配的情况下，根据所述第一检测结果包括的第一类别置信度和所述第二检测结果包括的第二类别置信度，计算所述第一检测结果的置信度损失，并确定置信度一致性损失；所述第一损失计算模块604，包括：置信度损失训练单元，用于根据所述第一损失、所述特征一致性损失和所述置信度一致性损失，训练所述第一目标检测模型。

上述目标检测模型的训练装置可执行本公开任意实施例所提供的目标检测模型的训练方法，具备执行目标检测模型的训练方法相应的功能模块和有益效果。

根据本公开的实施例，图9是本公开实施例中的目标检测装置的结构图，本公开实施例适用于根据训练目标检测模型，根据单目图像识别出3D物体的空间和类别的情况。该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图9所示的一种目标检测装置700，包括：3D目标检测模块701；其中，

3D目标检测模块701，用于将图像输入至目标检测模型中，在所述图像中识别3D目标空间，以及所述3D目标空间的目标类别；其中，所述目标检测模型是根据如本公开任一项实施例所述的目标检测模型的训练方法训练得到。

上述目标检测装置可执行本公开任意实施例所提供的目标检测方法，具备执行目标检测方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备800的示意性区域图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如目标检测模型的训练方法或字符生成方法。例如，在一些实施例中，目标检测模型的训练方法或字符生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的目标检测模型的训练方法或字符生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测模型的训练方法或字符生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或区域图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述将样本图像输入至第一目标检测模型的点云特征提取网络中，得到生成点云的图像特征，包括：

将样本图像输入至所述点云特征提取网络中的编码器中，得到所述样本图像的图像特征；

将所述图像特征输入至深度预测网络中，得到所述样本图像中像素点的深度；

根据所述样本图像中像素点的深度，将所述样本图像中像素点转换为生成点云，并根据所述图像特征确定所述生成点云的图像特征。

3.根据权利要求2所述的方法，其中，所述将所述图像特征输入至深度预测网络中，得到所述样本图像中像素点的深度，包括：

将所述图像特征输入至深度预测网络中，确定所述样本图像中像素点在预设的备选深度区间对应的深度预测置信度；

根据各所述备选深度区间的中间深度值，和所述像素点在各所述备选深度区间对应的深度预测置信度，计算所述像素点的深度。

4.根据权利要求3所述的方法，还包括：

获取采集点云，所述采集点云与所述样本图像对应于同一采集场景；

在所述采集点云中，获取感兴趣点云；

根据所述感兴趣点云的深度，对所述采集点云对应的采集场景的深度进行区间划分，确定备选深度区间。

5.根据权利要求1所述的方法，还包括：

将采集点云输入至第二目标检测模型中，得到第二鸟瞰图特征；

根据所述第一鸟瞰图特征和所述第二鸟瞰图特征，确定特征差值，并根据所述特征差值和标准区域，计算特征一致性损失，其中，所述标准区域为所述标准3D识别结果投影在所述样本图像中的区域；

所述根据所述第一损失，训练所述第一目标检测模型，包括：

根据所述第一损失和所述特征一致性损失，训练所述第一目标检测模型。

6.根据权利要求5所述的方法，其中，所述第一鸟瞰图特征包括所述第一鸟瞰图特征提取网络中至少一个第一特征层输出的特征；所述第二目标检测模型包括第二鸟瞰图特征提取网络，所述第二鸟瞰图特征包括所述第二鸟瞰图特征提取网络中至少一个第二特征层输出的特征，所述第一特征层与所述第二特征层对应；

所述根据所述第一鸟瞰图特征和所述第二鸟瞰图特征，确定特征差值，包括：

根据所述第一特征层输出的特征与对应的第二特征层输出的特征之间的差异，计算所述第一特征层对应的差值，并确定特征差值。

7.根据权利要求5所述的方法，其中，所述第一检测结果包括：第一类别置信度；

所述方法，还包括：

将采集点云输入至第二目标检测模型中，得到第二检测结果，所述第二检测结果包括第二类别置信度；

在所述第一检测结果和所述第二检测结果匹配的情况下，根据所述第一检测结果包括的第一类别置信度和所述第二检测结果包括的第二类别置信度，计算所述第一检测结果的置信度损失，并确定置信度一致性损失；

所述根据所述第一损失和所述特征一致性损失，训练所述第一目标检测模型，包括：

根据所述第一损失、所述特征一致性损失和所述置信度一致性损失，训练所述第一目标检测模型。

8.一种目标检测方法，包括：

其中，所述目标检测模型是根据如权利要求1至7中任一项所述的目标检测模型的训练方法训练得到。

9.一种目标检测模型的训练装置，包括：

10.根据权利要求9所述的装置，其中，所述生成点云特征提取模块，包括：

图像特征提取单元，用于将样本图像输入至所述点云特征提取网络中的编码器中，得到所述样本图像的图像特征；

像素深度计算单元，用于将所述图像特征输入至深度预测网络中，得到所述样本图像中像素点的深度；

生成点云特征确定单元，用于根据所述样本图像中像素点的深度，将所述样本图像中像素点转换为生成点云，并根据所述图像特征确定所述生成点云的图像特征。

11.根据权利要求10所述的装置，其中，所述像素深度计算单元，包括：

深度置信度计算子单元，用于将所述图像特征输入至深度预测网络中，确定所述样本图像中像素点在预设的备选深度区间对应的深度预测置信度；

像素深度预测子单元，用于根据各所述备选深度区间的中间深度值，和所述像素点在各所述备选深度区间对应的深度预测置信度，计算所述像素点的深度。

12.根据权利要求11所述的装置，还包括：

点云采集模块，用于获取采集点云，所述采集点云与所述样本图像对应于同一采集场景；

感兴趣点云获取模块，用于在所述采集点云中，获取感兴趣点云；

深度区间划分模块，用于根据所述感兴趣点云的深度，对所述采集点云对应的采集场景的深度进行区间划分，确定备选深度区间。

13.根据权利要求9所述的装置，还包括：

第二鸟瞰图特征提取模块，用于将采集点云输入至第二目标检测模型中，得到第二鸟瞰图特征；

特征一致性损失计算模块，用于根据所述第一鸟瞰图特征和所述第二鸟瞰图特征，确定特征差值，并根据特征差值和标准区域，计算特征一致性损失，其中，所述标准区域为所述标准3D识别结果投影在所述样本图像中的区域；

所述第一损失计算模块，包括：

特征损失训练单元，用于根据所述第一损失和所述特征一致性损失，训练所述第一目标检测模型。

14.根据权利要求13所述的装置，其中，所述第一鸟瞰图特征包括所述第一鸟瞰图特征提取网络中至少一个第一特征层输出的特征；所述第二目标检测模型包括第二鸟瞰图特征提取网络，所述第二鸟瞰图特征包括所述第二鸟瞰图特征提取网络中至少一个第二特征层输出的特征，所述第一特征层与所述第二特征层对应；

所述特征一致性损失计算模块，包括：

特征层差异计算单元，用于根据所述第一特征层输出的特征与对应的第二特征层输出的特征之间的差异，计算所述第一特征层对应的差值，并确定特征差值。

15.根据权利要求13所述的装置，其中，所述第一检测结果包括：第一类别置信度；

所述装置，还包括：

置信度计算模块，用于将采集点云输入至第二目标检测模型中，得到第二检测结果，所述第二检测结果包括第二类别置信度；

置信度损失计算模块，用于在所述第一检测结果和所述第二检测结果匹配的情况下，根据所述第一检测结果包括的第一类别置信度和所述第二检测结果包括的第二类别置信度，计算所述第一检测结果的置信度损失，并确定置信度一致性损失；

所述第一损失计算模块，包括：

置信度损失训练单元，用于根据所述第一损失、所述特征一致性损失和所述置信度一致性损失，训练所述第一目标检测模型。

16.一种目标检测装置，包括：

3D目标检测模块，用于将图像输入至目标检测模型中，在所述图像中识别3D目标空间，以及所述3D目标空间的目标类别；其中，所述目标检测模型是根据如权利要求1至7中任一项所述的目标检测模型的训练方法训练得到。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的目标检测模型的训练方法，或权利要求8所述的目标检测方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的目标检测模型的训练方法，或权利要求8所述的目标检测方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的目标检测模型的训练方法，或权利要求8所述的目标检测方法。