CN112418084B

CN112418084B - 一种基于点云时序信息融合的三维目标检测方法

Info

Publication number: CN112418084B
Application number: CN202011317635.6A
Authority: CN
Inventors: 张立军; 李聪聪; 孟德建
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-12-16
Anticipated expiration: 2040-11-23
Also published as: CN112418084A

Abstract

本发明涉及本发明提供一种基于点云时序信息融合的三维目标检测方法，包括以下步骤：S1：获取当前帧点云数据；S2：通过体素特征提取网络，进行当前帧的伪图像构造；S3：将前帧先验信息和当前帧的伪图像进行融合，得到融合数据；S4：通过特征提取网络对融合数据进行特征提取；S5：基于热力图检测头进行目标定位和3D包围框回归，得到当前帧目标检测结果；S6：将当前帧目标检测结果进行空间坐标变换和过滤后，作为下一帧的前帧先验信息，与现有技术相比，本发明具有提高困难样本检测的召回率、降低误检率等优点。

Description

一种基于点云时序信息融合的三维目标检测方法

技术领域

本发明涉及计算机视觉与模式识别领域，尤其是涉及一种基于点云时序信息融合的三维目标检测方法。

背景技术

随着人们对驾驶时解放双手的渴望增加，自动驾驶技术受到越来越多的关注。而环境感知是自动驾驶技术最基础也是最具有挑战性的技术之一。环境感知通常由三部分组成，即目标检测、目标跟踪和轨迹预测。由此可见，目标检测任务完成的好坏，将会直接影响整个自动驾驶系统的安全性和稳定性。

伴随着最近几年人工智能的兴起，基于深度学习的目标检测方案层出不穷，并且取得了极大的成功。但是，这类研究大多还集中在图像处理领域，对于激光雷达生成的不规则的点云数据结构的研究仍然有限。目前大多数点云目标检测算法都是将单帧点云作为输入，因而，现阶段点云目标检测对于困难样本(小目标、遮挡目标等)的检测效果往往不尽如人意

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高困难样本检测的召回率、降低误检率的融合点云时序信息的三维目标检测方法，该方法有助于在不引入大量计算开销的前提下，充分利用前帧检测结果这一先验信息，从而提升当前帧目标检测的效果，尤其是提高对困难样本的检测效果。

本发明的目的可以通过以下技术方案来实现：

一种基于点云时序信息融合的三维目标检测方法，包括以下步骤：

S1：获取当前帧点云数据；

S2：通过体素特征提取网络，进行当前帧的伪图像构造；

S3：将前帧先验信息和当前帧的伪图像进行融合，得到融合数据；

S4：通过特征提取网络对融合数据进行特征提取；

S5：基于热力图检测头进行目标定位和3D包围框回归，得到当前帧目标检测结果；

S6：将当前帧目标检测结果进行空间坐标变换和过滤后，作为下一帧的前帧先验信息。

进一步地，所述的步骤S2具体包括：

S21：对当前帧点云进行体素划分，并从中提取出非空体素；

S22：基于FC全连接网络提取每个非空体素的高维特征；

S23：基于高维特征进行伪图像构造。

更进一步地，所述的步骤S21具体为：将整个L×W×H的点云按照dl×dw×dh的大小划分为若干体素，从所有体素中选出P个非空体素，建立每个非空体素在原始空间中的位置索引哈希表，并从每个非空体素中选出N个体素点，得到一个(P,N,D)维的非空体素矩阵，其中，D为每个体素点的特征数目；

所述的S22具体为：对步骤S21得到的非空体素矩阵，通过FC网络提取每个非空体素的C维高维特征，得到(P,N,C)维的矩阵，并对该(P,N,C)维的矩阵应用max-pooling池化操作得到(P,C)维的高维特征矩阵；

所述的步骤S23具体为：对步骤S22中得到的高维特征矩阵，利用步骤S21中的位置索引，映射回三维空间对应的位置上，生成(L/dl,W/dw,C)维的矩阵，即伪图像。

更进一步地，所述的步骤S21中，若所有非空体素数量大于P，则从中随机选P个；若非空体素数量小于P，则不足非空体素通过填零补充；

若非空体素中体素点的数量大于N，则从中随机选N个；若非空体素中体素点的数量小于N，则不足点通过填零补充。

进一步地，所述的步骤S3中，将前帧先验信息作为伪图像的额外通道进行拼接，实现二者的融合。

进一步地，在模型训练过程中，所述的前帧先验信息的获取方法为：

首先训练一个非时序信息融合网络，并利用该训练好的非时序信息融合网络对训练集进行检测，将每一帧的检测的结果，作为该帧对应下一帧的前帧先验信息。

进一步地，所述的特征提取网络采用CNN网络。

进一步地，所述的步骤S5具体包括：

S51：将特征提取网络提取的特征进行1×1卷积，生成热力图矩阵；

S52：通过热力图矩阵获取目标中心位置的x轴和y轴坐标；

S53：设置单独通道，通过1×1卷积分别对目标的尺寸、z轴坐标和朝向进行回归，最终得到检测目标的3D包围框。

更进一步地，所述的热力图矩阵的每个数值通过一个高斯分布渲染得到，该分布服从下式：

其中，x,y分别为热力图矩阵中任一位置的x轴坐标和y轴坐标，Y为该位置对应的数值，M为该帧点云所有目标的数目，i为该帧点云所有目标中的第i个目标，a,b分别为该目标的长和宽，x_i,y_i分别为该目标的中心坐标。

进一步地，所述的步骤S6具体包括：

S61：过滤当前帧目标检测结果中，距离自车大于50米的目标；

S62：将剩下的目标位置乘以坐标变换矩阵，生成所有目标在下一帧雷达坐标系下的坐标；

S63：将坐标变换后各目标坐标位置的值设置为该对应目标的检测分数，将其他位置的值设置为0，得到先验矩阵，作为下一帧的前帧先验信息。

与现有技术相比，本发明具有以下优点：

1)本发明通过本帧点云——体素特征提取——融合点云时序信息(前帧目标类别、位置、尺寸以及朝向等前帧先验信息)——基于2D CNN的特征提取网络——基于热力图的目标框提取的技术路线，在不引入大量计算开销的前提下，充分利用激光点云数据中的时序数据，将前帧先验信息与当前帧相互融合，为基于点云的三维检测提供了新思路，提高了困难样本检测的召回率、降低误检率；

2)本发明在前帧先验信息与当前帧相互融合中，提出了新的深度学习模型训练方法：为了避免模型普通训练的不收敛，在模型训练时，首先训练一个非时序信息融合网络，并利用该训练好的模型对训练集进行检测，将每一帧的检测的结果作为其下一帧的前帧先验信息进行融合，而在实际进行目标检测应用时，直接将当前帧检测结果作为其下一帧的前帧先验信息进行融合，保证前帧先验信息与当前帧相互融合能够最大程度提高困难目标检测的准确率；

3)本发明使用了基于热力图的检测头，一方面它不要进行非极大值抑制操作，另一方面，它生成的检测结果无需额外编码即可传递给下一帧使用，降低计算开销，从而提高了该方法的实时性；

4)本发明在进行帧间信息传递时，使用坐标变换，并通过距离指标对不可靠信息进行了过滤，从而避免相对静止带来的运动抵消，以及前一帧对目标的漏检或者误检对当前帧检测的误导，进一步提高困难目标检测的准确率。

附图说明

图1为本发明目标检测过程的流程示意图；

图2为本发明整体流程原理示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提供一种基于点云时序信息融合的三维目标检测方法，包括以下步骤：

S1：获取当前帧点云数据；

S2：通过体素特征提取网络，进行当前帧的伪图像构造；

S4：通过特征提取网络对融合数据进行特征提取；

具体包括以下几个部分：

(1)对当前帧点云进行体素划分

将整个L×W×H的点云场景按照dl×dw×dh的大小划分为若干体素。然后从所有体素中选出P个非空体素(若所有非空体素数量大于P，则从中随机选P个；若非空体素数量小于P，则不足非空体素填零补充)，同时建立每个非空体素在原始空间中的位置索引哈希表，最后从每个体素中选出N个体素点(若非空体素中的体素点数量大于N，则从中随机选N个；若非空体素中体素点的数量小于N，则不足点填零补充)。

(2)基于FC全连接网络提取每个非空体素高维特征

对上一步得到的(P,N,D)维的非空体素矩阵(其中D为每个点的特征数目)通过FC网络提取每个非空体素的C维高维特征，得到形如(P,N,C)维的矩阵，再对该矩阵应用max-pooling池化操作得到形如(P,C)维的高维特征矩阵。

(3)基于高维特征的伪图像构造

对(2)中得到的(P,C)维的高维特征矩阵，利用(1)中得到的位置索引，映射回三维空间对应的位置上，生成一张形如(L/dl,W/dw,C)的矩阵，也即一张伪图像。

(4)伪图像与前帧先验信息的特征融合

将前帧先验信息作为伪图像的额外通道进行拼接，实现二者的特征融合，得到融合数据。

前帧先验的获取在模型训练阶段和目标检测应用阶段有所不同：

模型训练时，由于模型在最开始难以“理解”之前帧先验信息，如果直接将之前帧检测结果作为本帧输入，将会导致本帧得到糟糕的检测结果，从而导致模型训练难以收敛。为避免上述问题，本发明首先训练一个非时序信息融合网络(如：PointPillars:FastEncoders for Object Detection from Point Clouds)，并利用该训练好的网络对训练集进行检测，将每一帧的检测的结果作为其下一帧的前帧先验信息进行融合；

目标检测应用时，可直接将当前帧检测结果作为其下一帧的前帧先验信息进行融合即可。

(5)基于CNN对融合特征进行提取特征

将融合数据送入一个2D CNN网络。首先经过三次下采样，增加模型的感受野；再将三个尺度下的特征进行上采样，使得不同尺度的特征具有相同形状，从而对三个尺度下的特征进行拼接。

(6)基于热力图检测头的目标定位和3D包围框回归，得到目标检测结果

将卷积后的特征再进行1×1卷积，生成一张形状如(L×W)的热力图矩阵，该矩阵的每个数值通过一个高斯分布渲染得到，该分布服从下式：

其中，x,y分别为热力图矩阵中坐标为任一位置的坐标，Y为该位置对应的数值，M为该帧点云所有目标的数目，i为该帧点云所有目标中的第i个目标，a,b分别为该目标的长和宽，x_i、y_i分别为该目标的中心坐标。如果有两个高斯函数发生重叠，则选择元素级最大的。如果某一个元素，大于它周围另外8个元素，我们则认为对应位置为某一目标的中心位置。对于目标的其他属性(例如尺寸、z方向位置以及朝向等)则通过设置单独的通道，借助1×1卷积进行回归得到。

(7)检测结果空间坐标变换与过滤。

由于热力图中包含了目标的位置和尺寸信息，而且它的形状与伪图像相同，因此不需要进行额外的编码，就可以将热力图作为本帧的检测结果传递给下一帧，从而避免多余的计算。但是为了避免相对静止带来的运动抵消，需要将每个点的坐标乘以坐标变换矩阵，将所有目标变换到下一帧雷达坐标系中。同时为了避免传递不可靠信息给下一帧，本发明将过滤掉50米以外的不可靠目标。

整体流程如图2所示，包括以下步骤：

步骤1：将整个L×W×H的点云场景按照dl×dw×dh为单位划分为若干体素。

步骤2：从所有体素中选出P个非空体素(若所有非空体素数量大于P，则从中随机选P个；若非空体素数量小于P，则不足非空体素填零补充)，同时建立每个非空体素在原始空间中的位置索引哈希表。最后从每个体素中选出N个点(若非空体素点的数量大于N，则从中随机选N个；若非空体素中点的数量小于N，则不足点填零补充)。

步骤3：对步骤2得到的(P,N,C)维的矩阵(其中C为每个点的特征数目)通过FC网络提取每个非空体素的高维特征，得到形如(P,N,C)维的矩阵。

步骤4：对步骤3得到的矩阵应用max-pooling操作得到形如(P,C)维的矩阵。

步骤5：对得到的(P,C)维的矩阵，利用位置索引，映射回三维空间对应的位置上，生成一张形如(L/dl,W/dw,C)的矩阵，也即一张伪图像。

步骤6：将前帧先验信息作为伪图像的额外通道进行拼接，实现二者的特征融合。

模型训练时，由于模型在最开始难以“理解”之前帧先验信息，如果直接将之前帧检测结果作为本帧输入，将会导致本帧得到糟糕的检测结果，从而导致模型训练难以收敛。为避免上述问题，有效的做法是：首先训练一个非时序信息融合网络(如：PointPillars:Fast Encoders for Object Detection from Point Clouds)，并利用该训练好的模型对训练集进行检测，将每一帧的检测的结果作为其下一帧的前帧先验信息进行融合。

步骤7：将融合数据送入一个CNN网络。首先经过三次下采样，增加模型的感受野；再将三个尺度下的特征进行上采样，使得不同尺度的特征具有相同形状，从而对三个尺度下的特征进行拼接。

步骤8：将卷积后的特征再进行1×1卷积，生成一张形状如(L×W)的热力图矩阵，该矩阵的每个数值通过一个高斯分布渲染得到，该分布服从下式：

其中x,y为热力图矩阵中坐标为任一位置的坐标，Y为该位置对应的数值，N为该帧点云所有目标的数目，i为该帧点云所有目标中的第i个目标，a,b为该目标的长和宽，x_i,y_i为该目标的中心坐标。如果有两个高斯函数发生重叠，我们选择元素级最大的。如果某一个元素，大于它周围另外8个元素，我们则认为对应位置为某一目标的中心位置。对于目标的其他属性(例如尺寸、z方向位置以及朝向等)则通过设置单独的通道，借助1×1卷积进行回归得到。

步骤9：丢弃掉检测到的目标中距离自车距离大于50米的目标。

步骤10：对剩下的目标位置乘以坐标变换矩阵(坐标变换矩阵可由数据集直接得到)，生成所有目标在下一帧雷达坐标系下的坐标。

步骤11：生成一个形状如(L/dl,W/dw,C+1)维的矩阵，将步骤10中得到的坐标位置取值为对应目标的检测分数，其他位置取值为0，得到的矩阵作为下帧检测的先验信息。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于点云时序信息融合的三维目标检测方法，其特征在于，包括以下步骤：

S1：获取当前帧点云数据；

S2：通过体素特征提取网络，进行当前帧的伪图像构造；

S4：通过特征提取网络对融合数据进行特征提取；

S6：将当前帧目标检测结果进行空间坐标变换和过滤后，作为下一帧的前帧先验信息；

所述的步骤S6具体包括：

2.根据权利要求1所述的一种基于点云时序信息融合的三维目标检测方法，其特征在于，所述的步骤S2具体包括：

S21：对当前帧点云进行体素划分，并从中提取出非空体素；

S22：基于FC全连接网络提取每个非空体素的高维特征；

S23：基于高维特征进行伪图像构造。

3.根据权利要求2所述的一种基于点云时序信息融合的三维目标检测方法，其特征在于，所述的步骤S21具体为：将整个L×W×H的点云按照dl×dw×dh的大小划分为若干体素，从所有体素中选出P个非空体素，建立每个非空体素在原始空间中的位置索引哈希表，并从每个非空体素中选出N个体素点，得到一个(P,N,D)维的非空体素矩阵，其中，D为每个体素点的特征数目；

4.根据权利要求1所述的一种基于点云时序信息融合的三维目标检测方法，其特征在于，所述的步骤S3中，将前帧先验信息作为伪图像的额外通道进行拼接，实现二者的融合。

5.根据权利要求4所述的一种基于点云时序信息融合的三维目标检测方法，其特征在于，在模型训练过程中，所述的前帧先验信息的获取方法为：

6.根据权利要求1所述的一种基于点云时序信息融合的三维目标检测方法，其特征在于，所述的特征提取网络采用CNN网络。

7.根据权利要求1所述的一种基于点云时序信息融合的三维目标检测方法，其特征在于，所述的步骤S5具体包括：

S52：通过热力图矩阵获取目标中心位置的x轴和y轴坐标；

8.根据权利要求7所述的一种基于点云时序信息融合的三维目标检测方法，其特征在于，所述的热力图矩阵的每个数值通过一个高斯分布渲染得到，该分布服从下式：

9.根据权利要求3所述的一种基于点云时序信息融合的三维目标检测方法，其特征在于，所述的步骤S21中，若所有非空体素数量大于P，则从中随机选P个；若非空体素数量小于P，则不足非空体素通过填零补充；