CN113221962B

CN113221962B - 一种解耦分类与回归任务的三维点云单阶段目标检测方法

Info

Publication number: CN113221962B
Application number: CN202110428644.0A
Authority: CN
Inventors: 何芸倩; 夏桂华; 张智; 苏丽; 王立鹏
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2022-06-21
Anticipated expiration: 2041-04-21
Also published as: CN113221962A

Abstract

本发明公开了一种解耦分类与回归任务的三维点云单阶段目标检测方法，步骤包括：(1)对于点云进行体素化处理，使数据从无须的点云变成有序的栅格结构，(2)利用三维稀疏卷积进行网络的特征提取从而得到高阶特征图，(3)在特征图中，使用双头的检测器聚合特征并预测出目标的分类、回归框以及方向。本发明为了解决目标检测子任务之间的特征纠缠问题，设计了双头的检测网络结构，能够在高维特征中分别提取分类与回归任务各自关注的特征，分别预测子任务。并且在解耦的基础上，利用联合检测的方法，将两个任务中相关信息相结合，共同预测目标类别。本发明提升了三维目标检测的准确率，并可以很容易的迁移到其他方法中。

Description

一种解耦分类与回归任务的三维点云单阶段目标检测方法

技术领域

本发明涉及一种解耦分类与回归任务的三维点云单阶段目标检测方法，属于计算机视觉三维点云处理领域。

背景技术

物体检测是计算机视觉领域中二维和三维空间的基础工作之一。准确的目标检测结果是跟踪等任务的前序，在智能交通、室内智能家居等应用中至关重要。根据网络构造结构，目标检测框架分为一阶段结构和两阶段结构。一阶段结构能够直接检测物体，而两级结构则增加了一个能够聚合整个物体完整局部特征的网络，从而用更多的时间以及计算资源换取更高的精度。

目标检测通常包括两个子任务：分类和回归。在二维检测网络中，大多数方法的分类和回归任务都共用一个检测，因此这两个任务被迫共用大部分参数值。这将导致一些准确性的损失，这在3D对象检测任务中也会发生。IoU-Net首先讨论了两个任务之间会产生冲突的事实，并提出了一个单独的IoU预测头来提高回归任务的精度，3D检测方法STD中也采用了类似的结构。但是，这些改进的多头结构多用于两阶段检测框架的细化部分。对于单阶段检测方法来说，没有第二阶段对预测结果进行细化，所以两个任务的特征纠缠得比较紧密。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种使用两个头来共同预测目标类别的扩展结构的解耦分类与回归任务的三维点云单阶段目标检测方法，在解耦的同时，充分利用其相关信息。

为解决上述技术问题，本发明的一种解耦分类与回归任务的三维点云单阶段目标检测方法，包括以下步骤：

步骤1：输入整个场景的点云数据，利用体素化方式将三维点云从无序的点集转化为规则的三维矩阵结构；

步骤2：在体素化后的规则数据上采用三维稀疏卷积网络进行特征提取，缩小特征尺寸并得到高阶特征，将最终的高阶三维特征图使用维度相连的方式融合z轴方向的信息，使用得到的二维鸟瞰图特征进行最终的结果预测；

步骤3：在特征提取后的场景鸟瞰图高阶特征中，分类与回归两个子任务分别使用两个平行的特征提取头来进行信息提取，得到分类信息与回归信息，使得鸟瞰图中每个超像素点都获得相应的分类预测和边框预测，其中角度预测包含于边框预测中，与边框的预测共享一个特征提取头，分类特征头只预测类别结果

回归头同时预测类别结果

和边框结果；

步骤4：执行训练阶段：使用联合预测方式，在回归头中提取类别信息，并最终将此类别预测与分类头得到的类别预测结合共同确认区域建议框的类别，构造联合损失函数：

其中，

是分类预测头的分类损失，

是回归预测头的分类损失，

是回归损失，L_dir表示方向的损失，α,β,γ是设定的调节分类损失、回归损失和方向损失所占比例的参数，λ是设定的调节分类预测头和回归预测头损失比例的参数；

预测结果包括分类预测分数s_cls和边框预测，预测结果与数据的标签做对比，通过损失函数计算两者之间的差距，通过计算损失函数梯度对网络参数进行学习优化，得到训练后的网络参数；

步骤5：执行应用阶段：将最终的预测分数进行排序，其中高于给定阈值的预测为最终结果，最终的预测结果为对应的预测框的结果，即预测到目标的位置与大小。

本发明还包括：

步骤5中最终的预测分数具体为：

其中s_cls表示最终的分类分数，

和

分别表示分类预测头和回归预测头的分类分数。

发明的有益效果：本发明提出了一种基于单级检测结构的解耦头，将两个头直接应用在高层特征图上，同时利用卷积神经网络对局部信息进行聚合，不同的卷积网络参数可以使两个头关注不同的特征，即分类任务更关注对象的突出特征，而回归任务更关注对象的边缘信息。在高级特征图上进行特征聚合，可以在不增加过多计算量的情况下，最大限度地提取可区分的特征。与分类特征对回归特征的抑制不同，回归特征也在一定程度上对预测得分有贡献。

解决分类与回归两个子任务特征的冲突纠缠，使用两个平行的预测头对两个子任务进行分别预测，能够使两个特征更专注于子任务的贡献；同时利用其原有的纠缠性，使用联合预测的方式，从两个检测头中同时预测物体类别，从不同特征贡献层面聚合互补，以得到更好的预测准确率。本发明的基于单级检测方法的解耦头结构，分别用于回归和分类任务，从而更改好的提取更关注于各自子任务的特征。本发明的一种扩展的联合策略，让专注于不同特征的两个预测头同时描述物体类别，来更好地表达物体的分类。本发明能够提升三维目标检测在车辆的检测中的准确率。

附图说明

图1是本发明方法流程示意图；

图2是使用解耦预测头进行结果预测；

图3是双头联合预测。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步说明。

本发明改进了传统的单阶段检测区域建议网络，可以用于提升通用的目标检测问题的效果。主要的步骤有：(1)对于点云进行体素化处理，使数据从无须的点云变成有序的栅格结构，(2)利用三维稀疏卷积进行网络的特征提取从而得到高阶特征图，(3)在特征图中，使用双头的检测器聚合特征并预测出目标的分类、回归框以及方向。本发明为了解决目标检测子任务之间的特征纠缠问题，设计了双头的检测网络结构，能够在高维特征中分别提取分类与回归任务各自关注的特征，分别预测子任务。并且在解耦的基础上，利用联合检测的方法，将两个任务中相关信息相结合，共同预测目标类别。本发明提升了三维目标检测的准确率，并可以很容易的迁移到其他方法中。

本发明涉及解耦的区域建议网络的三维单阶段目标检测方法。首先，利用体素化方式将三维点云从无序的点集转化为规则的三维矩阵结构，以便于局部特征的提取，另外用稠密的网格进行体素化能够一定程度的实现降采样效果，减小计算量。

其次，在体素化后的规则数据上进行特征提取。由于传统的二维卷积网络直接应用到三维会带来较大的计算损耗，而规则化的点云仍保留其数据的稀疏性，故使用稀疏卷积进行速度的提升。由于场景中的目标高度趋于一致，故预测目标框的长宽是区别较大的信息，在本发明中，最终的高阶特征图融合了z轴方向的信息，使用鸟瞰图特征进行最终的结果区域框提取。

再次，在特征提取后的场景鸟瞰图高阶特征中，对应分类与回归两个子任务使用两个平行的特征提取头来进行信息提取，使得每个超像素点都获得相应的区域建议分类与框。由于单阶段目标检测任务的单向性，两个子任务的信息纠缠较为严重，使用两组特征提取网络可以一定程度的解耦任务，获得更有针对性的预测信息。其中角度预测与框的预测共享一个特征提取头。

最后，在经过解耦头得到分类信息与回归信息后，考虑到回归信息关注的物体边缘信息对分类任务也有一定程度的贡献，在本发明中使用联合的预测方式，在回归头中使用小的系数提取类别信息，并在最终将此类别预测与分类头得到的类别预测结合，共同确认区域建议框的类别。

结合图1和图3，本发明具体包括以下步骤：

步骤一：输入整个场景的点云数据，利用体素化方式将三维点云从无序的点集转化为规则的三维矩阵结构，以便于局部特征的提取，另外用稠密的网格进行体素化能够一定程度的实现降采样效果，减小计算量。

步骤二：在体素化后的规则数据上进行特征提取，输入体素信息，使用三维稀疏卷积方法进行处理，从而缩小特征尺寸并得到高阶特征。由于传统的二维卷积网络直接应用到三维会带来较大的计算损耗，而规则化的点云仍保留其数据的稀疏性，故使用稀疏卷积进行速度的提升。由于场景中的目标高度趋于一致，故预测目标框的长宽是区别较大的信息，在本发明中，将最终的高阶三维特征图使用维度相连的方式融合z轴方向的信息，使用得到的二维鸟瞰图特征进行最终的结果预测。

步骤三：在特征提取后的场景鸟瞰图高阶特征中，对应分类与回归两个子任务使用两个平行的特征提取头来进行信息提取，使得鸟瞰图中每个超像素点都获得相应的分类预测和边框预测。由于单阶段目标检测任务的单向性，两个子任务的信息纠缠较为严重，使用两组特征提取网络可以一定程度的解耦任务，获得更有针对性的预测信息。

其中角度预测包含于边框预测中，与边框的预测共享一个特征提取头。分类特征头只预测类别的结果

输出维度是A×B×1，而回归头同时预测维度为A×B×1类别结果

和维度为A×B×7的边框结果。

方法的预测结果由分类预测分数s_cls和边框预测共同组成。本发明为深度学习方法，分为训练阶段与应用阶段。在训练阶段中，预测结果与数据的标签做对比，即通过损失函数计算两者之间的差距，通过计算损失函数梯度对网络参数进行学习优化，经过不断优化后的网络参数为应用阶段使用的参数。在应用阶段，此步骤的预测结果经过筛选后得到最终结果。

步骤四：在训练阶段，我们提出了一个联合的损失函数构成。在经过解耦头得到分类信息与回归信息后，考虑到回归信息关注的物体边缘信息对分类任务也有一定程度的贡献，在本发明中使用联合的预测方式，在回归头中使用小的系数提取类别信息，并在最终将此类别预测与分类头得到的类别预测结合，共同确认区域建议框的类别。

在训练阶段，对于单头和双头架构，将该端到端网络的损耗函数定义为:

L_total＝αL_cls+βL_reg+γL_dir

其中L_cls表示分类的损失，L_reg表示回归的损失，L_dir表示方向的损失。回归值和方向值共同构成了边框的预测。而α,β,γ则是这些组成的系数为经验设定参数。当使用联合预测时，本发明将损失函数定义为:

其中

是分类预测头的分类损失，

和

是回归预测头的分类和回归的损失。而λ则是平衡两个分类损失的系数。特别是当λ＝1时，它是一个普通的非联合双头结构预测函数。相应地，最终的分类预测得分也是由两个预测头的预测结果共同表示的。

步骤五：在应用的阶段，将预测结果根据最终的预测分数s_cls进行筛选从而得到最终输出。将最终的预测分数s_cls进行排序，其中高于阈值0.3的预测为最终结果，最终的预测结果为对应的预测框，即预测到目标的位置与大小。最终的预测分数也是根据损失函数设置的系数来设置的：

其中s_cls表示最终的分类分数，

和

分别表示两个预测头的分类分数。在同一个实验中，用于计算损失和预测的因子λ是相同的值。