CN113536920A

CN113536920A - 一种半监督三维点云目标检测方法

Info

Publication number: CN113536920A
Application number: CN202110652497.5A
Authority: CN
Inventors: 宋梁; 曾新华; 李蓝建; 张冠华; 蒋林华; 胡兴; 商慧亮
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-10-22
Anticipated expiration: 2041-06-11
Also published as: CN113536920B

Abstract

本发明公开了一种半监督三维点云目标检测方法。其包括如下步骤：（1）对输入教师模型和学生模型的点云进行随机下采样，教师模型的随机下采样数据作为教师模型的输入；（2）将学生模型的随机下采样数据经过随机变换，作为学生模型的输入；（3）训练学生模型时使用标签数据同步训练教师模型，每一次迭代后将训练好的学生模型作为教师模型进一步训练，通过教师网络对无标签的数据进行挖掘，得到伪标签用于指导学生网络的学习，获得三维点云目标检测结果。本发明可以减少三维目标检测深度学习模型对数据标签的依赖，降低数据标注的成本；使用部分标签就达到同样模型使用100%标签的精度；本实验模型泛化能力强，能够用到多种深度学习模型中。

Description

一种半监督三维点云目标检测方法

技术领域

本发明涉及一种半监督三维点云目标检测方法，涉及深度学习技术领域。

背景技术

随着多线激光雷达传感器价格的逐年下降，基于车载激光雷达进行汽车外界环境感知成为实现汽车无人驾驶的主流技术方案，同时也是汽车无人驾驶领域的关键技术和研究热点。基于激光雷达实现车外环境信息的感知就是在汽车行驶过程中通过车载激光雷达准确地估计出车外不同三维目标的类别和位置，即分类和定位。

目前的三维目标检测算法按照模型的输入可以分为：基于单目视觉的三维目标检测算法、基于体素的三维目标检测算法、基于原始点云的三维目标检测算法。

基于单目视觉的深度计算方法大致可以分为两类：1)基于卷积神经网络的深度估计；2)基于几何特征与成像原理的深度转换。但是目前基于单目视觉的深度估计本身也是视觉算法领域的研究热点和挑战，其估计精度远远没有达到实际应用的标准，因此基于该类方法的三维目标检测算法的检测精度往往较低。而基于几何特征的深度估计则只能针对特定种类目标，无法实现多类目标的高精度检测，对实验数据具有较高的要求。另外针对小尺寸目标的检测效果较差，适用于视野范围较小的场景。

基于体素的三维目标检测首先将三维点云体素化成三维网格或者体素表示。体素化的优点是体素这种表示形式保留了点云的形状信息，并且可以直接由于于三维卷积神经网络。然而由于三维点云的稀疏性和不规则性，体素化的方法会产生大量的空体素，在进行三维卷积时会产生非常多的空卷积，造成计算资源的浪费。

基于原始点云的三维目标检测算法，使用点云作为深度学习模型的输入。点云是点坐标的无序集合。由于传统的卷积神经网络需要高度规则的输入数据格式，由于点云的不规则特性，大多数研究者将点云转换为规则的3D体素网格或将其投影为图像进行学习。然而，在这种预处理过程中，空间信息往往会在一定程度上丢失。现在多使用可以处理点云数据的PointNet提取点云的特征，进而预测出目标的位置和大小。

综上所述，现有技术存在以下缺点：①过度依赖三维数据标注；②基于单目视觉的方法检精度低；③基于体素的三维标注计算量大；④标签的获取成本高；

发明内容

本发明旨在克服现有技术的不足，本发明利用了知识蒸馏的方法，以现有的基于点云的三维目标检测算法为基础模型，提出了三个一致性损失函数，使得模型能够使用无标签的点云数据进行学习，提高模型的准确率。

本发明提供一种半监督三维点云目标检测方法，包括以下步骤：

(1)对输入教师模型的点云和输入学生模型的点云进行随机的下采样，教师模型的点云直接作为教师模型的输入；

(2)将学生模型的随机下采样数据经过随机变换，作为学生模型的输入；随机变换包括翻转、旋转和缩放；

(3)在训练学生模型时使用标签数据同步训练教师模型，每一次迭代之后将训练好的学生模型作为教师模型进行进一步的训练，通过教师网络对无标签的数据进行挖掘，得到伪标签用于指导学生网络的学习，最后输出训练好的学生模型，获得三维点云目标检测结果；学生模型的总损失函数为：

L＝λ₁L_supervised+λ₂L_hint+λ₃L_consistency

其中L_supervised为标签数据的监督损失，无标签数据作为网络输入时无此损失，L_hint为隐藏层损失，L_consistency为学生模型和教师模型输出得到的预测结果的一致性损失，λ₁、λ₂和λ₃为控制这三个损失函数比例的超参数；

教师模型和学生模型均是PointRCNN模型，其检测流程如下：

第一阶段：利用PointNet++作为主干网络进行特征的提取，并对每个点进行分类，得到前景点和背景点的分割结果；添加一个head用来输出3D proposals，训练语义分割任务的时候，采用了focal loss；而对于bbox回归，将这个问题看成分类问题，沿着X，Z轴，打一定的格子，预测中心点是否在格子内部，同时预测一个res部分；在训练阶段，采用0.85的threshold作为nms的阈值，保留其中300个proposal，在测试的阶段仅仅保留100个进入到第二阶段；

第二阶段：利用得到的proposal，扩大一定的大小，获得更大的上下文信息，然后将相应的点的原始特征还有分割任务提取的特征进行融合；接着利用正交变换，转换到每个proposal的local坐标系，其中坐标系的中心点是proposal的center，X，Z轴平行于地面，X轴指向proposal的heading方向，这样的方式更有利于local特征的学习，同时学习的方式跟第一步一样，也是利用bin的方式，把回归问题转化成分类的问题。

本发明中，步骤(2)中，随机变换的参数包括

其中

表示以x为对称轴进行翻转的二进制参数，其值由下式得到：

其中∈是[0，1]区间内的随机生成数；同理

表示以y为对称轴进行翻转的二进制参数；

表示以z轴为旋转轴的旋转矩阵参数；

其中ω是旋转的角度，其值为[-Π/2，Π/2]之间；

为缩放系数，其值为[0.90，1.10]之间。

本发明中，步骤(3)中，学生模型和教师模型输出得到的预测结果的一致性损失L_consistency通过下式计算得到：

其中：

为中心一致性损失，

是分类一致性损失，

是边界框一致性损失；

设C_s＝{c_s}表示学生网络输出得到的检测框的中心点，C_t＝{c_t}表示教师网络输出的检测框中心点；由于学生网络的输入点云经过了随机变换，其检测到的检测框的中心点的坐标和教师网络检测到的检测框中心点不在同一坐标系上，需要将学生网络的中心点进行相应的逆变换转换到教师网络的坐标系上，设

为学生网络转换后的中心点坐标，采用

到C_t的最小欧式距离将其一一对应起来：

其中

表示对齐后的学生网络的中心点坐标，同理

表示教师网络输出的中心点对齐后的坐标，中心一致性损失

为下述函数：

设

为学生网络得到的分类结果，

为教师网络的分类结果，根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果，将

转换为

分类一致性损失

为

和

的KL散度：

同样的设

为学生模型的边界框参数，

为教师模型的边界框参数，根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果，将学生网络的边界框参数转换为

所以边界框一致性损失函数

为以下公式：

和现有技术相比，本发明的有益效果在于：

①本发明可以减少三维目标检测深度学习模型对数据标签的依赖，降低数据标注的成本。

②本发明使用部分的标签就能达到同样模型使用100％标签的精度。

③本实验模型泛化能力强，能够使用到多种深度学习模型中。

附图说明

图1为本发明的半监督三维目标检测方法的流程图。

图2为本发明的方法的数据处理方式。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细阐述。

图1为本发明的流程图。教师模型和学生模型采取相同的模型，这里使用模型是PointRCNN。解决方案中，教师模型由未经过数据增强的标签数据训练得到，教师模型的模型损失为监督学习损失。教师模型的训练在训练学生模型时使用标签数据同步训练教师模型，每一次迭代之后将训练好的学生模型作为教师模型进行进一步的训练。通过教师网络对无标签的数据进行挖掘，得到伪标签用于指导学生网络的学习。对于学生模型来说，其数据输入将会通过数据增强引入噪声，在模型层面上会进行随机深度和节点的丢弃，使得在训练过程中学生模型相对于教师模型来说参数更少降低学生模型的学习能力。图1中x_U表示无标签数据，x_L表示标签数据，x_U和x_L经过不同的数据增强方式(随机旋转、随机下采样、随机截取和随机缩放等)，得到了学生模型的输入数据

和教师模型的输入数据

由于数据增强操作会改变物体点云的位置和旋转角等，标签数据的数据标签y_L需要经过同样的变换得到

将

和

输入到学生模型中得到网络输出为

和

将

和

输入到教师网络得到输出为

和

由于教师网络和学生网络的数据输入经过了不同的数据增强，为了使用教师网络的预测指导学生网络需要将教师网络的预测结果转换到学生网络输入的坐标系上，将

和

转换为

和

下面将详细介绍数据处理的方式(图2)

(1)随机下采样

对输入教师模型的点云和输入学生模型的点云进行随机的下采样，这样得到的两幅点云图像在局部可能差异较大，但是从全局上看两幅点云图像仍然是同一场景，对于网络来说提取到的全局特征应该是一样，下文中的一致性损失函数的设计也是为了使得网络又能够对抗这种干扰能力而设计的。

(2)随机变换

随机变换包括了：翻转、旋转和缩放。将学生网络的随机下采样模型进行上述的转换得到新的点云图像，作为学生模型的输入。随机转换的参数包括了：

其中

表示以x为对称轴进行翻转的二进制参数，其值由下式得到：

其中∈是[0，1]区间内的随机生成数。同理

表示以y为对称轴进行翻转的二进制参数。

表示以z轴为旋转轴的旋转矩阵参数。

其中ω是旋转的角度，其值为[-Π/2，Π/2]之间。

最后

为缩放系数，其值为[0.90，1.10]之间。

下面将介绍鼓励学生模型和教师模型输出得到的预测结果尽量一致的一致性损失函数：

(1)中心一致性损失

设C_s＝{c_s}表示学生网络输出得到的检测框的中心点，C_t＝{c_t}表示教师网络输出的检测框中心点。由于学生网络的输入点云经过了随机变换，其检测到的检测框的中心点的坐标和教师网络检测到的检测框中心点不在同一坐标系上，需要将学生网络的中心点进行相应的逆变换转换到教师网络的坐标系上。设

为学生网络转换后的中心点坐标。由于学生网络和教师网络输出得到的检测框数量可能不一致，即

和C_t数量上可能不一致并且不是一一对应的，所以采用

到C_t的最小欧式距离将其一一对应起来。

其中

表示对齐后的学生网络的中心点坐标，同理

表示教师网络输出的中心点对齐后的坐标，中心一致性损失为下述函数：

(2)分类一致性损失

设

为学生网络得到的分类结果，

为教师网络的分类结果。根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果，可以将

转换为

分类一致性损失为

和

的KL散度：

(3)边界框一致性损失

同样的设

为学生模型的边界框参数，

为教师模型的边界框参数。根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果，可以将学生网络的边界框参数转换为

所以边界框一致性损失函数为以下公式：

总的一致性损失为三者之和：

教师模型中间层提取到的特征用于指导学生网络的学习。学生网络可以在基于特征层的蒸馏学习获取更多的信息以提高性能。这种学习方式被称为Hint Learning。总的来说，这类学习的目标损失函数为：

L_hint(FT，FS)＝D(TF_t(FT)，TF_S(FS))

其中FT为教师网络的提取到的特征，FS为学生网络提取到的特征。因为知识蒸馏教师网络和学生网络的模型结构大多是不一致的，FT和FS特征图维度可能会不一致，所以使用了TF_t和TF_S这两个转换函数将其维度调节一致。D(·)为距离函数，这里采用欧氏距离。受到这类思想的启发所以学生模型的损失由两部分组成：(1)学生模型和教师模型中间特征层提取到的特征的一致性损失(2)学生模型和教师模型输出得到的预测结果的一致性损失。学生模型的总损失函数为：

L＝λ₁L_supervised+λ₂L_hint+λ₃L_consistency

其中L_supervised为标签数据的监督损失，无标签数据作为网络输入时无此损失，L_hint为隐藏层损失，L_consistency为学生模型的输出

与

与

的一致性损失。λ₁、λ₂和λ₃为控制这三个损失函数比例的超参数。

检测模型采用了PointRCNN，其检测流程如下：

Stage 1：利用PointNet++作为主干网络进行特征的提取，并对每个点进行分类，得到前景点和背景点的分割结果。

本发明利用pointnet++作为backbone进行特征的提取，得到前景点背景点的分割结果，除此之外，本发明还额外添加了一个head用来输出3D proposals，这种方式经过试验得到的recall比anchor based的方法更高。训练semantic segmentation任务的时候，本发明采用了focalloss因为在点云中，前景点与背景点的分布是极度不均衡的。

而对于bbox regression的话，本发明把这个问题看成了分类问题，沿着X，Z轴，打了一定的格子，预测中心点是否在格子内部，同时本发明还预测了一个res部分。

在training阶段，本发明采用了0.85的threshold作为nms的阈值，保留其中300个proposal，在测试的阶段仅仅保留100个进入到第二个stage。

Stage 2：利用得到的proposal，稍微扩大一定的大小，获得更大的context信息，然后将相应的点的原始特征还有segmentation task提取的特征进行融合。

接着本发明利用Canonical Transformation(正交变换)，转换到每个proposal的local坐标系，其中坐标系的中心点是proposal的center，X，Z轴平行于地面，X轴指向proposal的heading方向，这样的方式更有利于local特征的学习，同时学习的方式跟stageone一样，也是利用bin的方式，把回归问题转化成分类的问题。

Claims

1.一种半监督三维点云目标检测方法，其特征在于，包括以下步骤：

L＝λ₁L_supervised+λ₂L_hint+λ₃L_consistency

学生模型和教师模型采用了PointRCNN，其检测流程如下：

第一阶段：利用PointNet++作为主干网络进行特征的提取，并对每个点进行分类，得到前景点和背景点的分割结果；添加一个head用来输出3D proposals，训练语义分割任务的时候，采用了focal loss；而对于bbox回归，将这个问题看成分类问题，沿着X,Z轴，打一定的格子，预测中心点是否在格子内部，同时预测一个res部分；在训练阶段，采用0.85的threshold作为nms的阈值，保留其中300个proposal，在测试的阶段仅仅保留100个进入到第二阶段；

第二阶段：利用得到的proposal，扩大一定的大小，获得更大的上下文信息，然后将相应的点的原始特征还有分割任务提取的特征进行融合；接着利用正交变换，转换到每个proposal的local坐标系，其中坐标系的中心点是proposal的center，X,Z轴平行于地面，X轴指向proposal的heading方向，这样的方式更有利于local特征的学习，同时学习的方式跟第一步一样，也是利用bin的方式，把回归问题转化成分类的问题。

2.根据权利要求1所述的目标检测方法，其特征在于，步骤(2)中，随机变换的参数包括