CN113269147B

CN113269147B - 基于空间和形状的三维检测方法、系统、存储及处理装置

Info

Publication number: CN113269147B
Application number: CN202110702571.XA
Authority: CN
Inventors: 叶阳阳; 邱海; 莫烁杰; 鲍志业
Original assignee: Zhejiang Haikang Zhilian Technology Co ltd
Current assignee: Zhejiang Haikang Zhilian Technology Co ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-07-05
Anticipated expiration: 2041-06-24
Also published as: CN113269147A

Abstract

本发明涉及计算机视觉技术领域，尤其涉及一种基于空间和形状的三维检测方法、系统、存储及处理装置，其旨在解决现有技术精度低、耗时大、不适用于实时系统的问题。本发明包括：通过三维网格体素表示激光点云数据并提取特征；通过稀疏卷积编码获取空间稀疏特征图；通过基于点和基于体素的编码获得空间注意力编码特征图；投影到顶视图后提取不同尺度的特征；通过注意力权重及卷积编码层提取形状注意力特征图；通过目标分类网络和回归定位网络获取目标类别和目标位置、尺寸、方向。本发明使用基于空间和形状编码的注意力机制，加强三维目标在空间中的特征编码，使其精度高、耗时短、实时性强、鲁棒性好。

Description

基于空间和形状的三维检测方法、系统、存储及处理装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于空间和形状的三维检测方法、系统、存储及处理装置。

背景技术

三维目标检测器需要输出可靠的空间和语义信息，即三维位置、方位、所占体积和类别。相对于二维物体检测，三维目标提供更多细节信息，但建模难度较大。三维物体检测一般采用距离传感器，如激光雷达、TOF相机、立体相机等，来预测更准确的目标信息。三维物体检测技术成为自动驾驶汽车、UVA、机器人等领域的关键技术。在交通场景中大部分准确的三维物体检测算法都是基于雷达传感器，它已经成为户外场景感知的基本传感器。而交通场景中目标感知是无人驾驶车辆感知周围目标的关键技术。

基于激光雷达的三维目标检测涉及两个重要问题。

第一个问题是如何针对从激光雷达传感器采样的得到的稀疏非均匀点云生成描述性特征。激光雷达因采样的特性导致离传感器近的地方采样点多，而在距离远的地方采样点少。点云的多样性分布会降低检测器的检测性能，以及导致检测结果的不稳定。

另一个问题是如何有效地对三维形状信息进行编码，实现更好的检测性能。三维物体检测的框架主要有两种:单阶段检测器和两阶段检测器。单阶段检测器效率更高，而两阶段检测器检测精度更高。由于区域候选网络输出需要裁剪的感兴趣区域ROI，导致两级检测器效率不高。但是，这些裁剪后的ROI为每个检测到的对象提供形状先验，通过后续的优化网络获得更高的检测精度。由于缺乏形状先验和后续的优化网络，单阶段检测器的性能低于两阶段检测器。然而，对于实时系统来说，两级检测器比较耗时。此外，两阶段检测器的第一阶段也缺乏考虑目标的空间和形状编码。

发明内容

为了克服上述技术缺陷，本发明的目的是提供基于空间和形状的三维检测方法、系统、存储及处理装置。

为实现上述目的，本发明通过以下技术方案予以实现：

基于空间和形状的三维检测方法，包括：

步骤1，获取包含目标物数据的激光点云作为待检测数据，并将所述待检测数据通过基于三维网络的体素来表征后通过特征提取器获取所述体素的特征表达；

步骤2，通过稀疏卷积编码所述体素的特征表达，提取所述待处理数据对应的空间稀疏特征图；

步骤3，将所述空间稀疏特征图分为两个分支，一个分支通过基于点的方式进行全局编码，另一个分支通过基于网格的方式进行局部编码，然后通过全局编码获取局部注意力权重和全局编码特征，最后将局部体素特征和局部注意力特征结合并与全局编码特征聚合的特征转为顶视特征图；

步骤4，通过区域候选网络生成两个分支，一个分支得到场景中目标的三维位置、尺寸和方向，另一个分支用于编码目标的形状特征提高目标的置信度；

步骤5，用于编码目标的形状的网络由特征编码分支和形状注意力分支，通过步骤4得到的目标位置、尺寸和方向信息结合自注意力的编码方式得到目标的形状编码特征，用于提高检测出目标的置信度。

进一步的，步骤1中“将所述待检测数据通过基于三维网络的体素来表征”，其方法为：点云

其中，D代表激光点云数据的体素表征，x_i、y_i、z_i分别代表激光点云数据中的第i个点相对于激光雷达的三维位置信息，R_i代表激光点云数据中的第i个点的反射率。

进一步的，步骤2中“通过稀疏卷积编码所述体素的特征表达，提取所述待处理数据对应的空间稀疏特征图”，其方法为：

其中，F代表通过特征提取器获取的体素的特征表达，D代表激光点云数据的体素表征，(x、y、z)代表空间稀疏特征图的空间坐标。

进一步的，步骤3中“一个分支通过基于点的方式进行全局编码”，其方法为：

利用最远点采样的方法在设定的半径内得到N个关键点，采用PointNet++网络编码这些关键点，通过设定的半径能得到更大的感受野，而不像基于体素的编码需要多次下采样来获得更大的感受野导致丢失局部信息，基于点的全局编码会输出两个分支，一个分支用于提供局部注意力特征F_sa，一个分支用于得到全局的特征编码F_sf，步骤3中一个分支通过基于网格的方式进行局部编码能够得到局部编码特征F_lf。

进一步的，步骤3中“将局部体素特征和局部注意力特征结合”，其方法为：

F_gl＝Tanh(F_sa)*F_lf

其中，F_gl为局部体素特征和局部注意力特征结合后的特征，

步骤3中“全局编码特征聚合的特征”其方法为：F_spa＝Concat(F_gl,F_sf)

其中，F_spa为局部和全局特征聚合后的特征，通过转换将该特征转为顶视图特征。

进一步的，步骤5中“用于编码目标的形状的网络由特征编码分支和形状注意力分支”其方法为：

F_ins＝PSWarping(Conv2D(F_in))

F_aw＝Conv(F_in)

其中，F_in为用于编码目标形状的输入特征，F_ins为提取出来的实例特征，F_aw为对应实例的注意力特征，

为带有注意力的目标实例编码，PSWarping表示目标部位敏感特征提取。

进一步的，所述目标分类网络通过交叉熵损失函数进行训练，所述交叉熵损失函数为：

其中，N代表计算损失的样本数，y_i代表正负样本，用0表示负样本，用1表示正样本，x_i代表样本的网络输出值。

进一步的，所述目标回归定位网络通过Smooth L1损失函数进行训练，所述SmoothL1损失函数为：

其中，x代表需要回归的残差。

进一步的，该三维目标检测系统包括输入模块、稀疏卷积编码模块、空间编码模块、注意力权重卷积模块、局部特征编码卷积模块、特征融合模块、目标分类模块、目标定位模块、输出模块；

所述输入模块，配置为获取包含目标物数据的激光点云作为待检测数据所述待检测数据通过基于三维网络的体素来表征后通过特征提取器获取所述体素的特征表达；

所述稀疏卷积编码模块，配置为通过稀疏卷积编码所述体素的特征表达，提取所述待处理数据对应的空间稀疏特征图；

所述空间编码模块，配置为将所述空间稀疏特征通过基于点的编码和基于体素编码特征的融合获得空间编码特征。

所述注意力权重卷积模块，配置为通过注意力权重层获取所述的注意力权重特征图；

所述特征融合模块，配置为将所述注意力权重特征图乘到所述编码特征图的对应区域，并进行特征拼接获得注意力特征图；

所述目标分类模块，配置为基于所述注意力特征图，通过训练好的目标分类网络获取待检测数据中目标类别；

所述目标定位模块，配置为基于所述注意力特征图，通过训练好的目标回归定位网络，获取待检测数据中目标位置、尺寸、方向；

所述输出模块，配置为输出获取的目标类别以及目标位置、尺寸、方向。

进一步的，其中存储有多条程序，所述程序适于由处理器加载并执行以实现基于空间和形状的三维检测方法。

进一步的，包括处理器，适于执行各条程序；以及存储装置，适于存储多条程序，所述程序适于由处理器加载并执行以实现。

综上所述，本发明的优点是：

本发明基于空间和形状的三维检测方法、系统、存储及处理装置，其使用基于体素和基于点的编码方式改善对点云低级特征编码不足的问题，通过基于形状注意力机制解决了目前基于单阶段检测器缺乏形状先验的问题，该方法可以改善目前单阶段三维目标检测器的检测性能，特别是针对具有明显形状特点的目标，检测精度高、检测耗时短、适用于实时系统、模型鲁棒性好。

附图说明

图1是本发明一实施中基于空间和形状的三维检测方法的流程示意图；

图2是本发明一实施例中基于空间和形状的三维检测方法的算法结构示意图；

图3是本发明一实施例中基于空间和形状的三维检测方法与其他方法检测结果的对比图；

图4是本发明一实施例中基于空间和形状的三维检测方法的数据集与检测结果示例图。

具体实施方式

下面将结合附图以及具体实施方式对发明作进一步的说明：

如图1所示，基于空间和形状的三维检测方法，包括：

其中，步骤1中“将所述待检测数据通过基于三维网络的体素来表征”，其方法为：点云

假设激光雷达点云包含一个范围为H、W、D的三维空间，分别表示垂直方向上的高度、水平方向上的位置和距离，每个体素的尺寸大小为ΔH×ΔW×ΔD，ΔH＝0.4m,ΔW＝0.2m,ΔD＝0.2m。整个三维空间的体素网格的尺寸可以通过计算H/ΔH,W/ΔW,D/ΔD得到。然后通过特征编码层(VFE)对每个体素中进行特征表达。这个特征提取器使用4维向量(分别是三维坐标和反射率)描述每个体素中的样本点，本发明一个实施例中，特征编码层(VFE)包括线性层、批处理规范化层(BN)、校正的线性单元层(ReLU)来提取点的向量特征。

其中，步骤2中“通过稀疏卷积编码所述体素的特征表达，提取所述待处理数据对应的空间稀疏特征图”，其方法为：

其中，步骤3中“一个分支通过基于点的方式进行全局编码”，其方法为：

其中，步骤3中“将局部体素特征和局部注意力特征结合”，其方法为：

F_gl＝Tanh(F_sa)*F_lf

其中，F_gl为局部体素特征和局部注意力特征结合后的特征，

F_ins＝PSWarping(Conv2D(F_in))

F_aw＝Conv(F_in)

如图2所示，本发明一实施例中基于空间和形状的三维检测方法的算法结构示意图，分为四个部分：其中第一个部分为基于体素编码的主体(Voxel-based backbone)，将输入激光雷达点云变为体素特征、第二个部分为空间特征聚合层(Spatial aggregation)，编码体素在三维空间中的特征、第三部分为区域推荐网络(Region proposal network)，输出目标的类别和尺寸。第四部分为基于部件的特征聚合(Part-aware aggregation)，注入基于部件的注意力并输出目标的置信度。

其中，所述目标分类网络通过交叉熵损失函数进行训练，所述交叉熵损失函数为：

其中，所述目标回归定位网络通过Smooth L1损失函数进行训练，所述Smooth L1损失函数为：

其中，x代表需要回归的残差。

其中，对于目标分类任务，将锚点和目标的交并比(IOU)大于0.6的设为正样本，将交并比小于0.45的设为负样本。定义一个三维的真实边界框为x_g,y_g,z_g,l_g,w_g,h_g,θ_g，其中，x,y,z是边界框的中心位置，l,w,h表示三维目标的长宽高，θ是目标在Z轴方向的航向角，用*_a表示正样本的锚点，用△*表示对应的残差，分别为边界框中心位置的残差△x,△y,△z、三维目标长宽高的残差△l,△w,△h、目标在Z轴方向转角的残差△θ分别如

△θ＝sin(θ_g-θ_a)所示，通过网络学习，预测真实三维目标的位置、尺寸和方向。

为了详细说明本发明的有效性，将本发明提出的方法应用于公开无人驾驶数据集KITTI。

如图3所示，本发明一实施例中基于形状注意力机制的三维检测方法与其他方法检测结果的对比图，结果图像中每组包括一幅RGB图像和激光雷达图，检测的结果分别投影到两幅图上。

其中，对于KITTI数据集，使用train数据集进行训练，使用test数据集进行测试。如图4所示，为本发明基于空间和形状的三维检测方法一种实施例的本发明方法与其他方法检测结果对比图，数据集对每类测试目标分为三个等级：容易、中等和困难。难度的划分是根据每个目标在相机图像中的高度，遮挡等级和截断程度。难度为容易的样本是边界框的高度大于40等于个像素，最大截断为15％，遮挡等级为完全可见；难度为中的样本是边界框的高度大于等于25像素，最大截断为30％，遮挡等级为部分遮挡；难度为困难的样本是边界框的高度大于等于25像素，最大截断为50％，遮挡等级为难以看见。BEV表示顶视图检测结果，3D表示三维边界框的检测结果。使用PASCAL标准(平均精度，AP)评估3D目标检测性能。

在对比方法中，用SPANet代表本发明，其余的方法为不同文献的方法，不同文献包括：

(MV3D)Chen X,Ma H,Wan J,et al.Multi-view 3d object detection networkfor autonomous driving[C]//Proceedings of the IEEE conference on ComputerVision and Pattern Recognition.2017:1907-1915.

(F-PointNet)Qi C R,Liu W,Wu C,et al.Frustum pointnets for 3d objectdetection from rgb-d data[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2018:918-927.

(AVOD)Ku J,Mozifian M,Lee J,et al.Joint 3d proposal generation andobject detection from view aggregation[C]//2018IEEE/RSJ InternationalConference on Intelligent Robots and Systems(IROS).IEEE,2018:1-8.

(PointRCNN)Shi S,Wang X,Li H.Pointrcnn:3d object proposal generationand detection from point cloud[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2019:770-779.

(Part2)Shi S,Wang Z,Shi J,et al.From points to parts:3d objectdetection from point cloud with part-aware and part-aggregation network[J].IEEE transactions on pattern analysis and machine intelligence,2020.

(PVRCNN)Shi S,Guo C,Jiang L,et al.Pv-rcnn:Point-voxel feature setabstraction for 3d object detection[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020:10529-10538.

(ContFuse)Liang M,Yang B,Wang S,et al.Deep continuous fusion formulti-sensor 3d object detection[C]//Proceedings of the European Conferenceon Computer Vision(ECCV).2018:641-656.

(SECOND)Yan Y,Mao Y,Li B.Second:Sparsely embedded convolutionaldetection[J].Sensors,2018,18(10):3337.

(PointPillars)Lang A H,Vora S,Caesar H,et al.Pointpillars:Fastencoders for object detection from point clouds[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:12697-12705.

(SARPNET)Ye Y,Chen H,Zhang C,et al.Sarpnet:Shape attention regionalproposal network for lidar-based 3d object detection[J].Neurocomputing,2020,379:53-63.

(TANET)Liu Z,Zhao X,Huang T,et al.Tanet:Robust 3d object detectionfrom point clouds with triple attention[C]//Proceedings of the AAAIConference on Artificial Intelligence.2020,34(07):11677-11684.

(SA-SSD)He C,Zeng H,Huang J,et al.Structure aware single-stage 3dobject detection from point cloud[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition.2020:11873-11882.

(3DSSD)Yang Z,Sun Y,Liu S,et al.3dssd:Point-based 3d single stageobject detector[C]//Proceedings of the IEEE/CVF conference on computer visionand pattern recognition.2020:11040-11048.

(Point-GNN)Shi W,Rajkumar R.Point-gnn:Graph neural network for 3dobject detection in a point cloud[C]//Proceedings of the IEEE/CVF conferenceon computer vision and pattern recognition.2020:1711-1719。

其中，该三维目标检测系统包括输入模块、稀疏卷积编码模块、空间编码模块、注意力权重卷积模块、局部特征编码卷积模块、特征融合模块、目标分类模块、目标定位模块、输出模块；

需要说明的是，上述实施例提供的三维目标检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

其中，其中存储有多条程序，所述程序适于由处理器加载并执行以实现所述的基于空间和形状的三维检测方法。

其中，还包括处理器，适于执行各条程序；以及存储装置，适于存储多条程序，所述程序适于由处理器加载并执行以实现。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种基于空间和形状的三维检测方法，其特征在于，包括：

步骤2，通过稀疏卷积编码所述体素的特征表达，提取所述待检测数据对应的空间稀疏特征图；

步骤3，将所述空间稀疏特征图分为两个分支，一个分支通过基于点的方式进行全局编码，另一个分支通过基于网格的方式进行局部编码获取局部体素特征，然后通过全局编码获取局部注意力权重和全局编码特征，最后将局部体素特征和局部注意力权重结合并与全局编码特征聚合的特征转为顶视特征图；

步骤3中“一个分支通过基于点的方式进行全局编码”，其方法为：

利用最远点采样的方法在设定的半径内得到N个关键点，采用PointNet++网络编码这些关键点，通过设定的半径能得到更大的感受，而不像基于体素的编码需要多次下采样来获得更大的感受野导致丢失局部信息，基于点的全局编码会输出两个分支，一个分支用于提供局部注意力权重F_sa，一个分支用于得到全局的特征编码F_sf；

步骤3中“一个分支通过基于网格的方式进行局部编码获取局部体素特征”，其方法为：通过基于网格的方式进行局部编码能够得到局部体素特征F_lf；

步骤3中“最后将局部体素特征和局部注意力权重结合并与全局编码特征聚合获得的特征”，其方法为：F_gl＝Tanh(F_sa)*F_lf

其中，F_gl为局部体素特征和局部注意力权重结合后的特征，

其中，F_spa为局部和全局特征聚合后的特征，通过转换将该特征转为顶视图特征；

步骤5，用于编码目标的形状的网络由特征编码分支和形状注意力分支，通过步骤4得到的三维位置、尺寸和方向信息结合自注意力的编码方式得到目标的形状编码特征，用于提高检测出目标的置信度；

步骤5中“用于编码目标的形状的网络由特征编码分支和形状注意力分支”其方法为：

F_ins＝PSWarping(Conv(F_in))

F_aw＝Conv(F_in)

2.根据权利要求1所述的基于空间和形状的三维检测方法，其特征在于，步骤1中“将所述待检测数据通过基于三维网络的体素来表征”，其方法为：点云

3.根据权利要求2所述的基于空间和形状的三维检测方法，其特征在于，步骤2中“通过稀疏卷积编码所述体素的特征表达，提取所述待检测数据对应的空间稀疏特征图”，其方法为：

4.根据权利要求1至3任一项所述的基于空间和形状的三维检测方法，其特征在于，所述目标分类网络通过交叉熵损失函数进行训练，所述交叉熵损失函数为：

5.根据权利要求1至3任一项所述的基于空间和形状的三维检测方法，其特征在于，所述目标回归定位网络通过Smooth L1损失函数进行训练，所述Smooth L1损失函数为：

其中，x代表需要回归的残差。

6.一种用于存储权利要求1所述的基于空间和形状的三维检测方法程序的存储装置，其特征在于，其中存储有多条程序，所述程序适于由处理器加载并执行以实现权利要求1所述的基于空间和形状的三维检测方法。

7.一种用于实现权利要求1所述的基于空间和形状的三维检测方法的处理装置，其特征在于，包括处理器，适于执行各条程序；以及存储装置，适于存储多条程序，所述程序适于由处理器加载并执行以实现权利要求1所述的基于空间和形状的三维检测方法。