CN117115555A

CN117115555A - 一种基于噪声数据的半监督三维目标检测方法

Info

Publication number: CN117115555A
Application number: CN202311188737.6A
Authority: CN
Inventors: 赵峰; 祁禹坤; 陈泽徽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-11-24

Abstract

本发明公开了一种基于噪声数据的半监督三维目标检测方法，包括获取目标检测的数据集，该数据集包括标记数据集和未标记数据集；用标记数据集训练平均教师框架中的教师模型；用训练后的教师模型对未标记数据集进行推理，在未标记数据集上生成伪标签，得到伪标签数据集；从标记数据集和伪标签数据集中进行采样，利用抗噪声实例监督模块和密集特征一致性约束模块对噪声进行监督，获取有用信息，从而训练学生模型；用训练后的学生模型去进行检测任务。通过对无标签数据的软任务监督和无监督特征一致性正则化，提高了模型对于噪声伪标签的容忍度，并且提高了模型的泛化能力，本发明所述方法能够对三维目标进行有效检测，达到较高的精度。

Description

一种基于噪声数据的半监督三维目标检测方法

技术领域

本发明涉及目标检测领域，具体涉及一种基于噪声数据的半监督三维目标检测方法。

背景技术

目标检测是计算机视觉领域的传统任务，旨在识别出图像或视频中存在的物体，给出对应的类别，并将该物体的位置通过最小包围框的方式给出，其应用领域包括自动驾驶、监控系统、机器人感知、医学图像分析、航空航天等。根据目标检测任务的维度，可以将其分为二维目标检测和三维目标检测，其中三维目标检测以三维空间中的物体为检测目标，在各种应用中具有重要意义。

相较于传统的三维目标检测方法，半监督目标检测由于其简单性和对昂贵注释的依赖性较弱，近年来显示出很大的前景。当前主流的半监督目标检测主要基于两类框架：平均教师(Mean-Teacher，MT)和伪标签(Pseudo-Labeling，PL)。

这两类框架都存在较为明显的缺陷：平均教师(MT)模型采用了一种教师学生(teacher-student)范式，以端到端的训练方式在未标记数据上产生监督信号，但是这种模型不是模型不可知论的，导致模型的泛化能力较差；伪标签(PL)模型首先在标记数据上对模型进行训练，然后在未标记的数据上生成伪标签，供后续训练使用，它可以很容易地应用于任何检测器，但是最终的性能往往受到了伪标签质量的限制。尽管已经出现了提高伪标签质量的方法，但是在伪标签的生成过程仍不可避免的会产生噪声，干扰模型的收敛，甚至影响最终的性能。

发明内容

为解决上述问题，本发明提供一种基于噪声数据的半监督三维目标检测方法，以期设计出具备良好泛化能力，并且对噪声伪标签的容忍度较高的三维目标检测模型。

为解决上述技术问题，本发明采用如下技术方案：

一种基于噪声数据的半监督三维目标检测方法，包括以下步骤：

步骤一，获取目标检测的数据集，该数据集包括标记数据集和未标记数据集；

步骤二，用步骤一获得的标记数据集训练平均教师框架中的教师模型；

步骤三，用步骤二中训练后的教师模型对步骤一中获得的未标记数据集进行推理，在未标记数据集上生成伪标签，得到伪标签数据集；

步骤四，从步骤一获得的标记数据集和步骤三得到的伪标签数据集中进行采样，利用抗噪声实例监督模块和密集特征一致性约束模块对噪声进行监督，获取有用信息，并通过分类损失函数回归损失函数L_reg和一致性损失函数L_consist训练学生模型；

步骤五，用步骤四中训练后的学生模型去进行检测任务，得到检测结果。

进一步地，步骤四中，抗噪声实例监督模块分为分类模块和回归模块，分类模块进行分类和回归模块进行回归是目标检测中的两个过程，没有先后顺序，分类确定检测目标的类别，回归确定检测目标的具体检测框。

进一步地，步骤四中抗噪声实例监督模块的分类模块，将置信度c作为衡量伪标签质量的指标，根据置信度c以及学生模型预测结果与学生模型匹配的伪标签之间的交并比τ，将分类标签软化为在0到1范围内的值，并且将其视作真实结果框本身的质量和学生模型学习能力的结合；

采用交叉熵损失函数的变体，对非离散的分类标签进行监督，分类标签用质量分数表示，具体形式如下：

其中，表示教师模型预测的质量分数，y表示学生模型预测的质量分数，α为可设置的超参数，β为调制参数，/>即为分类损失。

进一步地，α设置为0.75。

进一步地，步骤二中抗噪声实例监督模块的回归模块，将每个边界框进行学生模型中的网络预测，建模为给定特征向量x的高斯分布h，具体形式如下：

其中μ(x)和σ(x)表示学生模型中的网络预测的每个回归项的均值和方差，表示高斯分布的符号；

将回归损失L_reg转化为负对数似然损失，具体形式如下：

进一步地，步骤四中，密集特征一致性约束模块用激光雷达点云数据作为输入，采用旋转、翻转操作对输入数据进行增强，对于给定的一个点云框架P和一组数据增强策略A，从A中随机抽取两个变换A₁和A₂，并将A₁和A₂应用于P，以生成两种不同的点云视图P₁和P₂，随后将增强的点云输入到点特征提取器中，生成鸟瞰图的特征；将获得的鸟瞰图特征反向返回到原始空间，并记录变换过程，得到返回后的特征和/>由此便推导出损失函数，即具有标准欧式距离损失的像素级特征一致性约束L_consist：

进一步地，引入前景聚焦掩模来选择性地正则化增强的鸟瞰图特征，在空间中为每个真实结果的中心(x_i，y_i)绘制高斯分布：

其中σ_i为常数，表示对象尺寸的标准差，为参考中心点，φ_i,x,y表示第i纬度下坐标(x，y)位置的高斯分布。

进一步地，σ_i＝2。

进一步地，通过在i维度上取最大值，将所有φ_i,x,y合并为一个掩码Φ，便得到了最终的密集特征一致性约束L_consist：

其中H和W分别表示特征图像的高和宽，φ_xy表示特征图像上以(x，y)为中心的掩码。

与现有技术相比，本发明的有益效果在于：

1.本发明基于半监督三维目标检测框架设计了一种基于噪声伪标记的半监督三维目标检测方法，通过将半监督学习任务视作一种包含噪声的学习任务，提出了克服模糊检测问题的两个核心模块：抗噪声实例监督模块和密集特征一致性约束模块。通过对无标签数据的软任务监督和无监督特征一致性正则化，提高了模型的泛化能力；并且提高了模型对于噪声的容忍度，减少了噪声对于模型性能的影响。

2.本发明所述方法能够对三维目标进行有效检测，达到较高的精度。通过在三维目标检测器稀疏嵌入卷积检测(Sparsely Embedded Convolutional Detection，SECOND)上实现我们的方法，在目前主流的自动驾驶数据集ONCE上取得了58.01平均精度(mAP)的超高精度，优于先前的半监督检测方法，相较于主流的自训练方法NoisyStudent提高了2.5mAP。在更强的检测器CenterPoint上，我们的方法相较于NoisyStudent也获得了1.8mAP的改进。

附图说明

图1为本发明所述的方法主要处理过程；

图2为本发明所述的抗噪声实例监督模块框架图；

图3为本发明所述的密集特征一致性约束模块框架图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

术语解释：

(1)激光雷达(LiDAR)点云数据，是由三维激光雷达设备扫描得到的空间点的数据集，每一个点都包含了三维坐标信息，也是常说的X、Y、Z三个元素，有的还包含颜色信息、反射强度信息、回波次数信息等；

(2)CenterPoint是一个激光点云三维目标检测与跟踪算法框架；

(3)ONCE(One millioN sCenEs)数据集是华为开源的一个具有2D+3D对象注释的大型自动驾驶数据集；

(4)ProficientTeacher是一种半监督3D检测模型；

(5)Quality Focal Loss是交叉熵损失函数的一种变体，对分类-质量联合分数连续值标签进行优化；

(6)Gaussian Focal Loss是一种用于目标检测任务的损失函数，是基于

Focal Loss的改进版本。Focal Loss是一种用于解决类别不平衡问题的损失函数，通过调整正负样本的权重来关注难以分类的样本。

(7)NLL Loss全称为Negative Log-Likelihood Loss，其含义是负对数似然损失。

本实施例提供一种基于噪声数据的半监督三维目标检测方法，通过将对未标记数据集的实例监督转变为抗噪声监督，以提高模型对噪声标签的容忍度，并通过在数据增强中根据数据变换对鸟瞰图(Bird’s-eye-view，BEV)特征进行反转，然后进行密集的逐像素正则化，将一致性约束应用于特征层，避免标签不够准确时对该策略带来的性能损害。

1.基于噪声数据的半监督三维目标检测方法

为了实现上述技术目的，本发明的技术方案是：

如图1所示，一种基于噪声数据的半监督三维目标检测方法，在获取包含标记数据和未标记数据的数据集之后，首先用标记数据集在教师模型上进行训练，并用训练好的教师模型在未标记数据集上进行推理，在未标记数据集上进行推理，产生伪标签，得到伪标签数据集；随后在标记数据集和伪标签数据集上进行统一采样，作为输入对学生模型进行训练，最终得到具有良好泛化能力的三维检测模型。在学生模型训练过程中，没有直接提升伪标签的质量，而是直接从噪声中学习获取有用信息，具体而言，主要通过两个核心模块来实现的：抗噪声实例监督模块和密集特征一致性约束模块，两个模块对噪声的监督在训练过程中是同时进行的：

1.1抗噪声实例监督模块

抗噪声实例监督模块，通过将对未标记数据集的实例监督转变为抗噪声监督，以提高模型对噪声标签的容忍度。

如图2所示，抗噪声实例监督模块主要分为分类模块和回归模块，具体的：

a.在分类模块中，将置信度c作为衡量伪标签质量的指标。根据置信度c以及学生模型预测结果与其匹配的伪标签之间的并交比(Intersection over Union，IoU)大小τ，将分类标签软化为在0到1范围内的值，并且将其视作真实结果(ground truth，GT)框本身的质量和学生模型学习能力的结合。

b.采用Quality Focal Loss对非离散的分类标签进行监督，其具体形式如下：

其中，表示教师模型预测的质量分数，y表示学生模型预测的质量分数，α为可设置的超参数，一般设置为0.75，β为调制参数，/>即为分类损失。这种损失函数的构造方法能够很容易扩展到其他连续版本的交叉熵损失，例如Gaussian Focal Loss。

c.除了分类损失之外，由于边界框的边界目标包含了七个自由度，并且训练样本较少，因此可能呈现更高的模糊性，产生误导性的回归目标。为了解决这个问题，将确定性的回归任务转化为概率优化任务，从而能够有效地处理误导性回归目标。具体而言，将每个边界框的网络预测建模为给定特征向量x的高斯分布h，具体形式如下：

其中μ(x)和σ(x)表示网络预测的每个回归项的均值和方差。

d.将回归损失L_reg转化为负对数似然损失(NLL loss)，其目标函数是使预测分布中的每个GT h的似然值最大化，具体形式如下：

通过将确定性回归任务转化为概率估计问题，该模型对训练数据中的噪声信息具有了更强的容忍度，从而使模型获得更好的性能。

1.2密集特征一致性约束模块

如图3所示，基于利用无监督学习来获得关于标签无关特征的有用信息策略，设计了一个密集特征一致性约束模块，通过在数据增强中根据数据变换对BEV特征进行反转，然后进行密集的逐像素正则化，将一致性约束应用于特征层，避免标签不够准确时对该策略带来的性能损害。

a.用激光雷达点云作为输入，通常可以采用旋转、翻转等操作对输入数据进行增强，对于给定的一个点云框架P和一组数据增强策略A，从A中随机抽取两个变换A₁和A₂，并将它们应用于P，以生成两种不同的点云视图P₁和P₂。随后将增强的点云输入到点特征提取器中，生成BEV的特征F，一旦获得BEV特征，只需将其反向返回到原始空间，并记录变换过程，得到返回后的特征和/>由此推导出具有标准欧式距离(L2)损失的像素级特征一致性约束L_consist：

b.考虑到基于点的三维特征只有在点存在的情况下才能保存有意义的信息，进一步引入了前景聚焦掩模来选择性地正则化增强的BEV特征。具体而言，在BEV空间中为每个GT中心(x_i,y_i)绘制了高斯分布：

其中σ_i为常数(设置为2)，表示对象尺寸的标准差，为参考中心点，φ_i,x,y表示第i纬度下坐标(x，y)位置的高斯分布。

c.由于特征映射是类无关的，通过在i维度上取最大值，将所有φ_i,x,y合并为一个掩码Φ，便得到了最终的密集特征一致性约束(损失函数)L_consist为：

其中H和W分别表示特征图像的高和宽，φ_xy表示特征图像上以(x，y)为中心的掩码，L_consist即为用于监督噪声数据的一致性损失函数。

通过在BEV空间上对齐密集的逐像素特征，模型可以逐渐学习提取变换不变特征的能力，并以自监督的方式充分利用未标记的数据。

2.测试方法

具体实施中，采用ONCE数据集进行测试，该数据集包含100万个激光雷达点云点云和700万个配对图像，其中只有15000个样本标注了3D边界框。训练过程中，首先对ONCE数据集进行80个epoch(所有的数据送入网络中，完成了一次前向计算和反向传播的过程)的教师网络训练，然后利用ProficientTeacher中提出的时空(Spatial-Temporal Ensemble，STE)模块在未标记的数据集上获得伪标签。依照官方的ONCE基准，从完整的标记集上的预训练检查点初始化学生模型，学生模型在ONCE数据集的小、中、大数据集中分别训练25、50、75个epoch，初始化学习率为1e-4，伪标签每25个epoch更新一次。整个实验在一台8NVIDIAV100 GPU机器上进行。

综上所述，本发明提出了一种基于噪声伪标记的半监督三维目标检测方法。通过将半监督学习视为一种有噪声的学习任务，提出了克服模糊检测问题的两个核心模块:抗噪声实例监督模块和密集特征一致性约束模块。通过对无标签数据的软任务监督和无监督特征一致性正则化，提高了模型对噪声伪标签的容忍度，提高了模型的泛化能力。最后，在ONCE数据集上的大量实验证明了我们方法的有效性和泛化性。此种方法可以为半监督三维物体检测中处理精度不足的伪标签提供一个全新的视角。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种基于噪声数据的半监督三维目标检测方法，包括以下步骤：

2.根据权利要求1所述的基于噪声数据的半监督三维目标检测方法，其特征在于，步骤四中，抗噪声实例监督模块分为分类模块和回归模块，分类模块进行分类和回归模块进行回归是目标检测中的两个过程，没有先后顺序，分类确定检测目标的类别，回归确定检测目标的具体检测框。

3.根据权利要求2所述的基于噪声数据的半监督三维目标检测方法，其特征在于，步骤四中抗噪声实例监督模块的分类模块，将置信度c作为衡量伪标签质量的指标，根据置信度c以及学生模型预测结果与学生模型匹配的伪标签之间的交并比τ，将分类标签软化为在0到1范围内的值，并且将其视作真实结果框本身的质量和学生模型学习能力的结合；

4.根据权利要求3所述的基于噪声数据的半监督三维目标检测方法，其特征在于，α设置为0.75。

5.根据权利要求2所述的基于噪声数据的半监督三维目标检测方法，其特征在于，步骤二中抗噪声实例监督模块的回归模块，将每个边界框进行学生模型中的网络预测，建模为给定特征向量x的高斯分布h，具体形式如下：

将回归损失L_reg转化为负对数似然损失，具体形式如下：

6.根据权利要求1所述的基于噪声数据的半监督三维目标检测方法，其特征在于，步骤四中，密集特征一致性约束模块用激光雷达点云数据作为输入，采用旋转、翻转操作对输入数据进行增强，对于给定的一个点云框架P和一组数据增强策略A，从A中随机抽取两个变换A₁和A₂，并将A₁和A₂应用于P，以生成两种不同的点云视图P₁和P₂，随后将增强的点云输入到点特征提取器中，生成鸟瞰图的特征；将获得的鸟瞰图特征反向返回到原始空间，并记录变换过程，得到返回后的特征和/>由此便推导出损失函数，即具有标准欧式距离损失的像素级特征一致性约束L_consist：

7.根据权利要求6所述的基于噪声数据的半监督三维目标检测方法，其特征在于，引入前景聚焦掩模来选择性地正则化增强的鸟瞰图特征，在空间中为每个真实结果的中心(x_i，y_i)绘制高斯分布：

8.根据权利要求7所述的基于噪声数据的半监督三维目标检测方法，其特征在于，σ_i＝2。

9.根据权利要求8所述的基于噪声数据的半监督三维目标检测方法，其特征在于，通过在i维度上取最大值，将所有φ_i,x,y合并为一个掩码Φ，便得到了最终的密集特征一致性约束L_consist：