CN116402976A

CN116402976A - 三维目标检测模型训练方法及装置

Info

Publication number: CN116402976A
Application number: CN202310221664.XA
Authority: CN
Inventors: 李想; 阴俊博; 李伟; 杨睿刚; 沈建冰
Original assignee: Inceptio Star Intelligent Technology Shanghai Co Ltd
Current assignee: Inceptio Star Intelligent Technology Shanghai Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-07

Abstract

本发明涉及三维目标检测技术领域，提供一种三维目标检测模型训练方法及装置，该方法包括：基于二维检测框及与其对应的第一三维点云数据估计所述第一三维点云数据的伪三维检测框，将伪三维检测框作为第一伪标签；根据第一三维点云数据和对应的第一伪标签，以及第二三维点云数据和对应的真实标签训练教师网络；将第一三维点云数据输入训练好的教师网络，获取教师网络输出的第二伪标签；根据第一三维点云数据和对应的第二伪标签，以及第二三维点云数据和对应的真实标签训练学生网络，将训练完成的学生网络作为所述三维目标检测模型。本发明减少了模型训练需要人工标注三维检测框的依赖，降低了模型训练成本，而且保证了最终训练完成模型的性能。

Description

三维目标检测模型训练方法及装置

技术领域

本发明涉及三维目标检测技术领域，尤其涉及一种三维目标检测模型训练方法及装置。

背景技术

三维目标检测在三维空间中检测出特定目标，广泛应用于机器人感知、自动驾驶等领域。利用激光雷达数据进行三维目标检测对自动驾驶系统具有重要意义，因为点云提供的信息比RGB图像更准确、更可靠。

现有技术中，全监督三维目标检测的研究已经进行了很长时间，并取得了很大的进展。然而，对于一个新引入的自动驾驶系统来说，点云中的3D标注是极其繁琐和耗时的，即现有的三维检测模型在训练时强依赖于三维标签，成本较高。

因此，探索从有限的激光雷达数据中学习数据效率的方法是有意义的。近年来，弱监督的方法获得了广泛的关注，弱监督三维目标检测通过更弱的监督信息，如：三维中心点、二维检测框等来达到近似全监督三维目标检测的效果，以此来降低标注成本和时间。根据有关研究统计，鸟瞰视角下的目标中心点标注比常规的三维检测框标注快15～45倍，二维检测框比三维检测框快3～16倍，并且现有的很多大规模2D数据集都已经包含了二维检测框。综上，弱监督的三维目标检测算法是一个有价值的方向。但是目前的弱监督方法依赖于在其他数据集上预训练的模型(如：检测器和分割器)提供监督信息(如：三维中心点、二维检测框)，数据集间的域差异会影响模型性能，即模型对三维目标检测的准确度会降低。

半监督学习技术是用少量有标注样本和大量未标注样本数据训练模型的一种方法，它可以替代全监督学习框架为自动驾驶减少对标注的依赖。目前，半监督算法通常只从无标签和有标签中学习，由于有标签的样本数据较少，虽然减少了标签标注的成本，但会影响模型性能。

发明内容

本发明提供一种三维目标检测模型训练方法及装置，用以解决现有的三维目标检测技术中由于样本标注繁琐和耗时导致的模型训练成本高的缺陷，实现在不影响模型检测性能的情况下，减少模型训练成本。

本发明提供一种三维目标检测模型训练方法，包括：

基于二维检测框及与其对应的第一三维点云数据估计所述第一三维点云数据的伪三维检测框，将所述伪三维检测框作为第一伪标签；

根据所述第一三维点云数据和对应的第一伪标签，以及第二三维点云数据和对应的真实标签训练教师网络；

将所述第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二伪标签；

根据所述第一三维点云数据和对应的第二伪标签，以及所述第二三维点云数据和对应的真实标签训练学生网络，将训练完成的学生网络作为所述三维目标检测模型，所述学生网络与教师网络具有相同的网络结构。

根据本发明提供的一种三维目标检测模型训练方法，基于二维检测框及与其对应的第一三维点云数据估计所述第一三维点云数据的伪三维检测框，包括：

过滤掉所述第一三维点云数据中的地面点云，得到过滤后的点云；

通过相机参数将所述过滤后的点云投影到二维图像坐标系下，筛选出位于所述二维检测框内的目标点云；

根据截锥和所述目标点云确定所述伪三维检测框，所述截锥由所述二维检测框和相机中图像传感器的中心位置确定。

根据本发明提供的一种三维目标检测模型训练方法，根据所述目标点云和截锥确定所述伪三维检测框，包括：

在所述截锥内对应鸟瞰视角下的侧面确定具有不同朝向角的多个包围所述目标点云的外接矩形框；

对于每个外接矩形框确定一个顶点作为关键点，与所述关键点连接的两条边为关键边，以所述关键点和关键边确定直角三角形；

对于每个外接矩形框，选择包含目标点云在所述侧面的投影点数量最多的直角三角形作为准目标直角三角形；

对于每个准目标直角三角形，计算目标点云在所述侧面的投影点中每个点到准目标直角三角形的两条关键边的第一距离和第二距离，将所述第一距离和第二距离均大于预设距离阈值的所有点组成临时点集合，选取临时点数量最少的临时点集合对应的准目标直角三角形作为目标直角三角形；

根据所述目标直角三角形对应的关键点作垂直于所述侧面的垂线，所述垂线与截锥的另一侧面相交形成第一交点，获取两条关键边所在直线分别与截锥的两条棱线的第二交点和第三交点，根据所述关键点、第一交点、第二交点和第三交点界定所述伪三维检测框。

根据本发明提供的一种三维目标检测模型训练方法，在所述截锥内对应鸟瞰视角下的侧面确定具有不同朝向角的多个包围所述目标点云的外接矩形框，包括：

在所述截锥内对应鸟瞰视角下的侧面确定朝向角为0度的外接矩形框，所述朝向角为外接矩形框中心到矩形边中点的连线与目标点云所在的雷达坐标系x轴的夹角；

朝同一方向按预定间隔角度旋转朝向角，旋转一次获取一个外接矩形框，直到旋转到90度，以确定多个包围所述目标点云的外接矩形框。

根据本发明提供的一种三维目标检测模型训练方法，将第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二伪标签，包括：

对第一三维点云数据作第一增广处理，将第一增广处理后的第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第一增广伪标签；

对第一三维点云数据作第二增广处理，将第二增广处理后的第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二增广伪标签。

根据本发明提供的一种三维目标检测模型训练方法，根据第一三维点云数据和对应的第二伪标签，以及第二三维点云数据和对应的真实标签训练学生网络，包括：

对所述第二三维点云数据和真实标签分别作第三增广处理，得到第三增广处理后的第二三维点云数据和真实增广标签；

将第一增广处理后的第一三维点云数据输入所述学生网络，获取学生网络输出的第一训练结果，将所述第一训练结果和第一增广伪标签带入检测损失函数；

将第二增广处理后的第一三维点云数据输入所述学生网络，获取学生网络输出的第二训练结果，将所述第二训练结果和第二增广伪标签带入所述检测损失函数；

将第三增广处理后的第二三维点云数据输入所述学生网络，获取学生网络输出的第三训练结果，将所述第三训练结果和真实增广标签带入所述检测损失函数；

在检测损失函数收敛时，所述学生网络训练完成。

根据本发明提供的一种三维目标检测模型训练方法，根据第一三维点云数据和对应的第二伪标签，以及第二三维点云数据和对应的真实标签训练学生网络，还包括：

在相同视角下对第一增广伪标签和第二增广伪标签中各伪三维检测框进行匹配，以构建伪三维检测框的正负样本对，其中，在所述第一增广伪标签中的第一伪三维检测框与所述第二增广伪标签中的第二伪三维检测框匹配成功的情况下，则第一伪三维检测框与第二伪三维检测框构成正样本对，第一伪三维检测框与第二增广伪标签中的其它伪三维检测框构成负样本对；

在鸟瞰视角下，采用第一增广伪标签对第一训练特征图提取第一检测框特征，采用第二增广伪标签对第二训练特征图提取第二检测框特征，所述第一训练特征图是学生网络在鸟瞰视角下对第一增广后的第一三维点云数据提取的二维特征图，第二训练特征图是学生网络在鸟瞰视角下对第二增广后的第一三维点云数据提取的二维特征图；

将所述第一检测框特征和第二检测框特征映射到嵌入空间，并根据预设的一致性损失函数约束所述第一检测框特征和第二检测框特征，使得正样本对特征距离越小，负样本对特征距离越大；

在所述一致性损失函数和所述检测损失函数的加权求和值收敛时，所述学生网络训练完成。

本发明还提供一种三维目标检测模型训练装置，包括：

伪三维检测框估计模块，用于基于二维检测框及与其对应的第一三维点云数据估计所述第一三维点云数据的伪三维检测框，将所述伪三维检测框作为第一伪标签；

教师网络训练模块，用于根据所述第一三维点云数据和对应的第一伪标签，以及第二三维点云数据和对应的真实标签训练教师网络；

第二伪标签获取模块，用于将所述第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二伪标签；

学生网络训练模块，用于根据所述第一三维点云数据和对应的第二伪标签，以及所述第二三维点云数据和对应的真实标签训练学生网络，将训练完成的学生网络作为所述三维目标检测模型，所述学生网络与教师网络具有相同的网络结构。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的三维目标检测模型训练方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的三维目标检测模型训练方法。

本发明提供的三维目标检测模型训练方法及装置，通过基于二维检测框及与其对应的第一三维点云数据估计所述第一三维点云数据的伪三维检测框，将所述伪三维检测框作为第一伪标签；根据第一三维点云数据和对应的第一伪标签，以及第二三维点云数据和对应的真实标签训练教师网络；将第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二伪标签；根据第一三维点云数据和对应的第二伪标签，以及第二三维点云数据和对应的真实标签训练学生网络，将训练完成的学生网络作为所述三维目标检测模型。本发明充分利用了弱标注监督的思想，即以事先得到的二维检测框和第一三维点云数据(即未标注的三维点云数据)估计伪三维检测框，通过伪三维检测框和少量真实标签训练教师网络，再根据教师网络输出第一三维点云数据对应的第二伪标签，减少了模型训练需要人工标注三维检测框的依赖，降低了模型训练的复杂度及耗时，从而降低了模型训练成本，而且在训练学生网络时，引入弱标注生成的第二伪标签作监督，保证了最终训练完成模型的性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的三维目标检测模型训练方法的流程示意图；

图2是本发明提供的三维目标检测模型训练方法中估计伪三维检测框的原理示意图；

图3是本发明提供的三维目标检测模型训练方法中教师网络训练示意图；

图4是本发明提供的三维目标检测模型训练方法中学生网络训练示意图；

图5是本发明提供的三维目标检测模型训练装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的三维目标检测模型训练方法如图1所示，具体流程包括：

步骤S110、基于二维检测框及与其对应的第一三维点云数据估计所述第一三维点云数据的伪三维检测框，将所述伪三维检测框作为第一伪标签。在构建训练数据集的过程中，拍摄二维样本图像的同时雷达会产生相应的三维点云数据，因此，每一个二维样本图像都对应一个三维点云数据，现有的训练数据集中包含有大量的二维样本图像及其对应的二维检测框，每个二维检测框也对应一个三维点云数据。由于三维检测框的标注复杂且耗时，本实施例中，只标注少量的三维点云数据，被标注的三维点云数据为第二三维点云数据，其对应有真实标签，大量的未标注的三维点云数据为第一三维点云数据。每个第二三维点云数据对应的真实标签是该第二三维点云数据被标注的所有三维检测框的集合，每个第一三维点云数据对应的第一伪标签是该第一三维点云数据被估计出的所有伪三维检测框的集合。本步骤中，通过二维检测框及与其对应的第一三维点云数据估计出第一三维点云数据的伪三维检测框，而只是对少量的三维点云数据作真实标签标注，大大减少了三维标注的耗时。

步骤S120、根据第一三维点云数据和对应的第一伪标签，以及第二三维点云数据和对应的真实标签训练教师网络。教师网络可以是现有的各种成熟的三维检测模型，在一些实施例中，教师网络使用了中心点模型(CenterPoint)作为基础的三维目标检测器。该检测器首次提出了基于中心点的方法来检测目标，该检测器主要可以分为三维骨干网络、体素特征编码(Voxel Feature Encoding，VFE)层和二维密集预测头三个部分。三维骨干网络用于将点云划分为等距的3D体素，通过堆叠的VFE层对每个体素进行编码，VFE层通过将逐点特征与局部聚合特征相结合，实现体素内的点间交互，然后用三维卷积进一步聚合局部体素特征，将点云转换为高维体积表示。这种高效的算法受益于稀疏点结构和体素网格上的高效并行处理。二维密集检测头通过二维卷积神经网络(Convolutional NeuralNetwork，CNN)提取到鸟瞰视角(Bird′s Eye View，BEV)下的二维特征图，然后二维密集检测头查找目标中心，并使用中心特征回归到完整的三维检测框。具体地，如图3所示，将第一三维点云数据p^U和第二三维点云数据p^L分别输入到教师网络，教师网络分别输出相应的训练结果G^U和G^L，将训练结果(G^U和G^L)分别与相应的第一伪标签y^U和真实标签y^L带入检测损失函数，检测损失函数收敛时，教师网络训练完成。

步骤S130、将第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二伪标签。教师网络训练好后则可以对第一三维点云数据进行三维目标检测，从而得到第二伪标签。由于教师网络的训练过程中，训练数据利用了第二三维点云数据和对应的真实标签，因此教师网络产生的第二伪标签比第一伪标签更加准确，噪声更小，可以使后续的学生模型的监督信息更好。

步骤S140、根据第一三维点云数据和对应的第二伪标签，以及第二三维点云数据和对应的真实标签训练学生网络，将训练完成的学生网络作为所述三维目标检测模型，所述学生网络与教师网络具有相同的网络结构。本步骤中，使用训练好的教师网络指导学生网络的学习，除了使用已有的有真实标签和无标签三维点云数据外，通过引入步骤S130生成的第二伪标签改善学生网络的半监督学习效果，保证最终训练的学生模型的性能。

本实施例的三维目标检测模型训练方法中，充分利用了弱标注监督的思想，即以事先得到的二维检测框和第一三维点云数据(即未标注的三维点云数据)估计伪三维检测框，通过伪三维检测框和少量真实标签训练教师网络，再根据教师网络输出第一三维点云数据对应的第二伪标签，减少了模型训练需要人工标注三维检测框的依赖，降低了模型训练的复杂度及耗时，从而降低了模型训练成本，而且在训练学生网络时，引入弱标注生成的第二伪标签作监督，保证了最终训练完成模型的性能。在自动驾驶领域中，可以减少训练模型所需的标注成本，并且感知模型的实际性能。

步骤S110中，二维检测框优选为人工标注的二维检测框，从而二维检测框不依赖于在其他数据集上预训练的模型(如：检测器和分割器)提供监督信息，避免了数据集间的域差异影响模型性能，进一步地提升了训练完成的三维目标检测模型的检测效果。

在一些实施例中，步骤S110包括：

步骤S111、过滤掉所述第一三维点云数据中的地面点云，得到过滤后的点云。具体地，通过RANSAC(RANdom SAmple Consensus)算法过滤地面点云，RANSAC算法为随机抽样一致算法，采用迭代的方式从一组包含离群的被观测数据中估算出数学模型的参数。而且该RANSAC算法是一个非确定性算法，在某种意义上说，它会产生一个在一定概率下合理的结果，而更多次的迭代会使这一概率增加。

步骤S112、通过相机参数将所述过滤后的点云投影到二维图像坐标系下，筛选出位于所述二维检测框内的目标点云，筛选后的点云可以看作是目标的粗略三维点云分割结果。其中，相机参数指拍摄与该第一三维点云数据对应的二维图像时用到的相机参数。

步骤S113、根据截锥和所述目标点云确定所述伪三维检测框，所述截锥由所述二维检测框和相机中图像传感器的中心位置确定。如图2所示，ABEF为二维检测框，AD、BC、EG和FH分别为截锥的四条棱线，AD、BC、EG和FH相交于相机的图像传感器的中心。

具体地，一种最直接的方式是在BEV视角下直接计算目标点云的最小外接矩形作为结果，最小外接矩形在z轴方向叠加，以确定出位于截锥内的所述伪三维检测框，从而实现了通过非深度学习的方式得到伪三维检测框。但是最小外接矩形的方法会对噪声点云敏感，并且可能存在多个面积相同的最小外接矩形，最终得到的伪三维检测框准确度不高。

如图2所示，为了提高伪三维检测框的准确度，在一些实施例中，步骤S113具体包括：

步骤一、在所述截锥内对应鸟瞰视角下的侧面(面ABCD所在平面，即xy确定的平面)确定具有不同朝向角的多个包围所述目标点云的外接矩形框，如：其中一个外接矩形框以a为一个顶点，顶点a连接的l₁和l₂为边的外接矩形框，其中，所述朝向角γ为外接矩形框中心到矩形边中点的连线与目标点云所在的雷达坐标系x轴的夹角。

步骤二、对于每个外接矩形框确定一个顶点作为关键点，如：点a，与所述关键点连接的两条边为关键边，以所述关键点和关键边确定直角三角形，每个外接矩形框都能被两条对角线划分成四个直角三角形。

步骤三、对于每个外接矩形框，选择包含目标点云在所述侧面的投影点数量最多的直角三角形作为准目标直角三角形，具体地，将目标点云投影到ABCD平面，四个直角三角形中包含目标点云的投影点数量最多的直角三角形作为准目标直角三角形。

步骤四、对于每个准目标直角三角形，计算目标点云在所述侧面的投影点中每个点到准目标直角三角形的两条关键边的第一距离和第二距离，将所述第一距离和第二距离均大于预设距离阈值的所有点组成临时点集合，选取临时点数量最少的临时点集合对应的准目标直角三角形作为目标直角三角形。具体地，可以定义一个目标函数如下：

f＝|P₀|/|P|

P₀＝{p|p∈P,‖p,l₁‖>θ&‖p,l₂‖>θ}

其中，P为目标点云集合，|P|表示集合P中点的数量，p为目标点云集合中的点，P₀为临时点集合，|P₀|表示集合P₀中点的数量，l₁和l₂分别为准目标直角三角形的两条关键边，即直角边，‖p,l₁‖和‖p,l₂‖分别表示点p到l₁和l₂的第一距离和第二距离，θ为距离阈值，可以为l₁或l₂的长度的1/10～1/5，&表示与操作。f越小表示距离两条关键边越近的点越多，说明朝向角越准确，避免噪声对朝向角的干扰，最终估计出的伪三维检测框越准确。具体地，在车辆自动驾驶中，由于车载雷达扫描的点云数据通常为前方物体(如前方车辆)的两个面的点云，通过上述步骤一至步骤四，可以找到一个外接矩形框的两条关键边，使得两个面的点云在上述侧面的投影点沿两条关键边分布，此时说明该外接矩形框的朝向角是比较准确的。

步骤五、根据所述目标直角三角形对应的关键点a作垂直于所述侧面ABCD的垂线，所述垂线与截锥的另一侧面EFGH相交形成第一交点e，获取两条关键边所在直线分别与截锥的两条棱线的第二交点b和第三交点d，根据所述关键点a、第一交点e、第二交点b和第三交点d界定所述伪三维检测框。需要说明的是若两条关键边l₁和l₂的长度较短，则沿远离关键点a的方向延长l₁和l₂，使l₁和l₂分别与截锥的两条棱线的第二交点b和第三交点d。

通过上述步骤一至步骤五，能够通过非深度学习的方法得到具有较高准确度的伪三维检测框。

具体地，上述步骤一中，在所述截锥内对应鸟瞰视角下的侧面确定朝向角为0度的外接矩形框；朝同一方向(顺时针或逆时针方向)按预定间隔角度旋转朝向角，旋转一次获取一个外接矩形框，直到旋转到90度，以确定多个包围所述目标点云的外接矩形框，其中，预定间隔角度可以为0.3～0.5度。通过按预定间隔角度旋转朝向角的方式可以有序地获取多个外接矩形框，而且通过调整预定间隔角度能够方便地调整确定的外接矩形框的个数，预定间隔角度越小，得到的外接矩形框的个数越多，理论上外接矩形框个数越多，最终能找到一个准确的朝向角的外接矩形框，从而得到的伪三维检测框越准确。

在一些实施例中，步骤S130具体包括：

对第一三维点云数据作第一增广处理，将第一增广处理后的第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第一增广伪标签。

第一增广处理和第二增广处理分别对同一个第一三维点云数据作两个不同方向的旋转处理，使同一个第一三维点云数据扩展成两个不同视角的第一三维点云数据，以便接下来训练学生网络时有更多的训练样本数据，同时便于后续一致性损失的应用。

如图4所示，在一些实施例中，步骤S140具体包括：

对所述第二三维点云数据和真实标签分别作第三增广处理，得到第三增广处理后的第二三维点云数据p^L和真实增广标签y^L。

将第一增广处理后的第一三维点云数据

输入所述学生网络，获取学生网络输出的第一训练结果/>

将所述第一训练结果/>

和第一增广伪标签/>

带入检测损失函数。

将第二增广处理后的第一三维点云数据

输入所述学生网络，获取学生网络输出的第二训练结果/>

将所述第二训练结果/>

和第二增广伪标签/>

带入所述检测损失函数。

将第三增广处理后的第二三维点云数据p^L输入所述学生网络，获取学生网络输出的第三训练结果G^L，将所述第三训练结果G^L和真实增广标签y^L带入所述检测损失函数。

在检测损失函数收敛时，所述学生网络训练完成。上述学生网络训练过程中，通过教师网络根据弱标注生成的第二伪标签作结合已标注的真实标签共同作监督，保证了最终训练完成模型的性能。

为了训练未标注的三维点云数据，即第一三维点云数据，进一步挖掘未标注数据中的信息，以减少不准确的伪标签的影响，具体地说，制定一个实例级别对比学习(box-wise contrast learning，BCL)的软训练目标，旨在学习基于检测框特征的跨视图特征一致性。因此，在一些实施例中，步骤S140还包括：

在相同视角下对第一增广伪标签

和第二增广伪标签/>

中各伪三维检测框进行匹配，以构建伪三维检测框的正负样本对，其中，所述第一增广伪标签/>

中的第一伪三维检测框与所述第二增广伪标签/>

中的第二伪三维检测框匹配成功(三维检测框的中心点基本重合，八个顶点的位置基本重合，则匹配成功)，则第一伪三维检测框与第二伪三维检测框构成正样本对，第一伪三维检测框与第二增广伪标签/>

中的其它伪三维检测框构成负样本对。正负样本对用来产生一致性损失，使得学生网络能够学习到基于检测框的跨视图一致性。具体地，可通过贪婪匹配的方式构建所述正负样本对，采用贪婪匹配能够保留更多的训练样本对。

在鸟瞰视角下，采用第一增广伪标签

对第一训练特征图/>

提取第一检测框特征/>

采用第二增广伪标签/>

对第二训练特征图/>

提取第二检测框特征/>

其中，第一训练特征图/>

是学生网络在鸟瞰视角下对第一增广后的第一三维点云数据提取的二维特征图，第二训练特征图/>

是学生网络在鸟瞰视角下对第二增广后的第一三维点云数据提取的二维特征图。具体地，采用双线性插值的方式提取检测框特征：

其中，I代表双线性插值函数。

将所述第一检测框特征和第二检测框特征映射到嵌入空间，并根据预设的一致性损失函数约束所述第一检测框特征和第二检测框特征，使得正样本对特征距离越小，负样本对特征距离越大。具体地，将所述第一检测框特征和第二检测框特征映射到嵌入空间是通过同一个1×1卷积层网络分别提取两个检测框特征

和/>

的特征，利用InfoNCE损失函数构建软训练目标，约束两个特征/>

和/>

的一致性。

在所述一致性损失函数和所述检测损失函数的加权求和值收敛时，所述学生网络训练完成。通过上述实例级别对比学习的软训练目标，提高了基于检测框特征的跨视图特征一致性，从而提升了训练完成学生网络的检测准确度。

在学生网络训练过程中，用每一次迭代之后的学生网络去更新教师网络，即用每一次迭代之后的学生网络代替教师网络，使得教师网络得到的第二伪标签更准确，从而训练时损失函数收敛更快，提高训练效率，而且使得最终训练完成的学生网络具有更准确的检测性能。

需要说明的是：上述实施例中教师网络和学生网络以CenterPoint模型作为基础的三维目标检测器，但是对于其中间结果都会生成鸟瞰视角下二维特征图的一些三维目标检测网络均可替换上述CenterPoint模型，因此，本发明实施例的三维目标检测模型训练方法并不局限于CenterPoint模型，具有一定的通用性。

下面对本发明提供的三维目标检测模型训练装置进行描述，下文描述的三维目标检测模型训练装置与上文描述的三维目标检测模型训练方法可相互对应参照。

如图5所示，本发明的三维目标检测模型训练装置包括：

伪三维检测框估计模块510，用于基于二维检测框及与其对应的第一三维点云数据估计所述第一三维点云数据的伪三维检测框，将所述伪三维检测框作为第一伪标签。

教师网络训练模块520，用于根据所述第一三维点云数据和对应的第一伪标签，以及第二三维点云数据和对应的真实标签训练教师网络。

第二伪标签获取模块530，用于将所述第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二伪标签。

学生网络训练模块540，用于根据所述第一三维点云数据和对应的第二伪标签，以及所述第二三维点云数据和对应的真实标签训练学生网络，将训练完成的学生网络作为所述三维目标检测模型，所述学生网络与教师网络具有相同的网络结构。

本实施例的三维目标检测模型训练装置中，充分利用了弱标注监督的思想，即以事先得到的二维检测框和第一三维点云数据(即未标注的三维点云数据)估计伪三维检测框，通过伪三维检测框和少量真实标签训练教师网络，再根据教师网络输出第一三维点云数据对应的第二伪标签，减少了模型训练需要人工标注三维检测框的依赖，降低了模型训练的复杂度及耗时，从而降低了模型训练成本，而且在训练学生网络时，引入弱标注生成的第二伪标签作监督，保证了最终训练完成模型的性能。

可选地，伪三维检测框估计模块510包括：

地面点云过滤模块，用于过滤掉所述第一三维点云数据中的地面点云，得到过滤后的点云。

目标点云筛选模块，用于通过相机参数将所述过滤后的点云投影到二维图像坐标系下，筛选出位于所述二维检测框内的目标点云。

伪三维检测框确定模块，用于根据截锥和所述目标点云确定所述伪三维检测框，所述截锥由所述二维检测框和相机中图像传感器的中心位置确定。

可选地，伪三维检测框确定模块包括：

外接矩形框确定模块，用于在所述截锥内对应鸟瞰视角下的侧面确定具有不同朝向角的多个包围所述目标点云的外接矩形框。

直角三角形确定模块，用于对于每个外接矩形框确定一个顶点作为关键点，与所述关键点连接的两条边为关键边，以所述关键点和关键边确定直角三角形。

准目标选择模块，用于对于每个外接矩形框，选择包含目标点云在所述侧面的投影点数量最多的直角三角形作为准目标直角三角形。

目标选择模块，用于对于每个准目标直角三角形，计算目标点云在所述侧面的投影点中每个点到准目标直角三角形的两条关键边的第一距离和第二距离，将所述第一距离和第二距离均大于预设距离阈值的所有点组成临时点集合，选取临时点数量最少的临时点集合对应的准目标直角三角形作为目标直角三角形。

伪三维检测框界定模块，用于根据所述目标直角三角形对应的关键点作垂直于所述侧面的垂线，所述垂线与截锥的另一侧面相交形成第一交点，获取两条关键边所在直线分别与截锥的两条棱线的第二交点和第三交点，根据所述关键点、第一交点、第二交点和第三交点界定所述伪三维检测框。

可选地，外接矩形框确定模块包括：

基准朝向角确定模块，用于在所述截锥内对应鸟瞰视角下的侧面确定朝向角为0度的外接矩形框，所述朝向角为外接矩形框中心到矩形边中点的连线与目标点云所在的雷达坐标系x轴的夹角。

朝向角旋转模块，用于朝同一方向按预定间隔角度旋转朝向角，旋转一次获取一个外接矩形框，直到旋转到90度，以确定多个包围所述目标点云的外接矩形框。

可选地，第二伪标签获取模块530包括：

第一增广处理模块，用于对第一三维点云数据作第一增广处理，将第一增广处理后的第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第一增广伪标签。

第二增广处理模块，用于对第一三维点云数据作第二增广处理，将第二增广处理后的第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二增广伪标签。

可选地，学生网络训练模块540具体用于：

对所述第二三维点云数据和真实标签分别作第三增广处理，得到第三增广处理后的第二三维点云数据和真实增广标签。

将第一增广处理后的第一三维点云数据输入所述学生网络，获取学生网络输出的第一训练结果，将所述第一训练结果和第一增广伪标签带入检测损失函数。

将第二增广处理后的第一三维点云数据输入所述学生网络，获取学生网络输出的第二训练结果，将所述第二训练结果和第二增广伪标签带入所述检测损失函数。

将第三增广处理后的第二三维点云数据输入所述学生网络，获取学生网络输出的第三训练结果，将所述第三训练结果和真实增广标签带入所述检测损失函数。

在检测损失函数收敛时，所述学生网络训练完成。

可选地，学生网络训练模块540还具体用于：

在相同视角下对第一增广伪标签和第二增广伪标签中各伪三维检测框进行匹配，以构建伪三维检测框的正负样本对，其中，在所述第一增广伪标签中的第一伪三维检测框与所述第二增广伪标签中的第二伪三维检测框匹配成功的情况下，则第一伪三维检测框与第二伪三维检测框构成正样本对，第一伪三维检测框与第二增广伪标签中的其它伪三维检测框构成负样本对。

在鸟瞰视角下，采用第一增广伪标签对第一训练特征图提取第一检测框特征，采用第二增广伪标签对第二训练特征图提取第二检测框特征，所述第一训练特征图是学生网络在鸟瞰视角下对第一增广后的第一三维点云数据提取的二维特征图，第二训练特征图是学生网络在鸟瞰视角下对第二增广后的第一三维点云数据提取的二维特征图。

将所述第一检测框特征和第二检测框特征映射到嵌入空间，并根据预设的一致性损失函数约束所述第一检测框特征和第二检测框特征，使得正样本对特征距离越小，负样本对特征距离越大。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行三维目标检测模型训练方法，该方法包括：

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的三维目标检测模型训练方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的三维目标检测模型训练方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种三维目标检测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的三维目标检测模型训练方法，其特征在于，基于二维检测框及与其对应的第一三维点云数据估计所述第一三维点云数据的伪三维检测框，包括：

3.根据权利要求2所述的三维目标检测模型训练方法，其特征在于，根据所述目标点云和截锥确定所述伪三维检测框，包括：

4.根据权利要求3所述的三维目标检测模型训练方法，其特征在于，在所述截锥内对应鸟瞰视角下的侧面确定具有不同朝向角的多个包围所述目标点云的外接矩形框，包括：

5.根据权利要求1～4中任一项所述的三维目标检测模型训练方法，其特征在于，将第一三维点云数据输入训练好的教师网络，获取所述教师网络输出的第二伪标签，包括：

6.根据权利要求5所述的三维目标检测模型训练方法，其特征在于，根据第一三维点云数据和对应的第二伪标签，以及第二三维点云数据和对应的真实标签训练学生网络，包括：

在检测损失函数收敛时，所述学生网络训练完成。

7.根据权利要求6所述的三维目标检测模型训练方法，其特征在于，根据第一三维点云数据和对应的第二伪标签，以及第二三维点云数据和对应的真实标签训练学生网络，还包括：

8.一种三维目标检测模型训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7中任一项所述的三维目标检测模型训练方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7中任一项所述的三维目标检测模型训练方法。