CN112598635B

CN112598635B - 一种基于对称点生成的点云3d目标检测方法

Info

Publication number: CN112598635B
Application number: CN202011501459.1A
Authority: CN
Inventors: 邹炼; 范赐恩; 金伟正; 陈庆生; 李晓鹏; 李方玉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2024-03-12
Anticipated expiration: 2040-12-18
Also published as: CN112598635A

Abstract

本发明涉及一种基于对称点生成的点云3D目标检测方法。本发明首先对原始点云进行过滤并体素化检测空间，生成初始体素特征输入到对称点生成模块，通过其编解码结构获得高层语义特征并经过分类头和回归头进行前景点分割以及对称点预测，将预测的前景点对应的对称点集与非空体素中心点集组成增强点云作为区域提案网络的输入，通过其骨干网络进一步提取俯视图特征，并作为检测头的输入，检测头最终输出待检测物体的3D框。本发明利用检测对象的对称性，生成对称点，从根本上缓解了点云中物体结构缺失的问题，能够改善回归效果并提高检测精度，同时支持将RPN替换成其他基于体素的检测方法，使得原来检测效果较差的检测器也能产生具有竞争力的检测结果。

Description

一种基于对称点生成的点云3D目标检测方法

技术领域

本发明涉及自动驾驶、3D目标检测技术领域，具体地涉及一种基于对称点生成的3D目标检测算法。

背景技术

三维目标检测由于其在自主驾驶、机器人等领域的广泛应用，越来越受到工业界和学术界的关注。激光雷达传感器广泛应用于自动驾驶车辆和机器人中，以点云形式捕捉三维场景信息，为三维场景的感知和理解提供重要信息。由于点云可以保留物体的原始尺寸，所以不存在物体在图像中分辨率太低问题，而且即使在夜晚，激光雷达也能正常工作。因此，在点云场景下进行物体检测成为3D目标检测的热点。当前，3D目标检测方法主要分为两类，一种类基于图像的检测方法，比如chen等人提出的面向自主驾驶的单目三维目标检测(Monocular 3D Object Detection for Autonomous Driving)。该方法将单目中的3D物体检测问题看作两步完成：首先该方法提出了一个生成一组类相关的物体推荐候选框的方法，然后利用一个CNN网络利用这组候选框提取出高质量的3D物体检测框，是单目3D目标检测的开山之作。但是这类方法往往需要一系列假设条件，比如所有的物体底部都与地平面相接等，在实际检测中效果并不是很好。另一种是基于点云的检测方法，根据从点云提取特征方式的不同具体又可以划分为基于点的方法和基于体素的方法。基于点的方法使用PointNet和其变体从原始点云中提取逐点的特征，而基于体素的方法则是将整个3D空间划分成体素栅格，并使用规则的3D卷积神经网络提取体素特征。这类方法取得了很好的检测效果，但是也还存在一些问题。由于获取的点云稀疏且不规则，距离激光雷达较远的和被严重遮挡的物体往往只含有少量的点，会缺失很多结构信息，导致这类物体的检测精度较低。因此，人们开始研究如何在稀疏的点云里获得更多目标的结构信息去进行3D目标检测。本发明属于基于体素的检测方法，我们提出的是一种利用目标结构先验信息来补全目标在点云中缺失的对称部分的方法。将补全的对称部分和原始点云组成增强点云，作为检测网络的输入，可以从根本上缓解一些物体在点云中结构信息缺失较多问题。我们的方法不仅可以用于自动化驾驶领域汽车的检测，而且适用于在点云场景下各种具有对称性的物体的检测。

现有已有一些关于3D目标检测的专利(包括发明授权专利和发明公布专利)如下：

申请公布号为：CN110070025A的中国发明专利《基于单目图像的三维目标检测系统及方法》。此方法的思想是将三维目标检测转换到二维图像下的预测，然后应用摄像头标定参数将二维映射到摄像头三维坐标系下，重构出目标的三维目标框，通过对映射出的三维目标框进行进一步修正，得到精确的三维目标框，经两步法训练后进行精确三维目标检测。虽然这种方法成本较低，具有一定的应用价值，但是此方法精度较低，不适合要求高的场景。

申请公布号为：CN111079652A的中国发明专利《一种基于点云数据简易编码的3D目标检测方法》。此方法提出了一种点云数据的简易编码方式，该方法将点云数据栅格化，然后通过计算单个栅格内的几何信息和密度信息完成对单个栅格内点集的编码，通过特征拼接和M×N卷积的方式，进行高效的特征降维，最终构建基于点云数据的可应用于卷积神经网络的二维特征图，最后采用一套多尺度卷积的特征提取网络进行特征提取和3D目标检测。所述方法能够高效地将3D特征图降维为2D特征图，从而可以应用于不同2D卷积神经网络进行特征提取和3D目标检测，但是这种方法也因使用2D卷积从而不能很好地提取鲁棒的3D物体特征。

申请公布号为：CN111079685A的中国发明专利《一种3D目标检测方法》。该方法首先将点云鸟瞰图、待检测目标图像和前视图进行特征提取；得到鸟瞰图和待检测目标图像3D目标建议框，并将鸟瞰图、待检测目标图像和前视图各自融合后的特征图，通过逐像素相加平均进行总的特征图融合，得到最终的特征图融合结果；将3D目标建议框在最终融合的特征图上投影成2D目标建议框，得到该2D目标建议框对应的ROI区域特征，最后将该ROI区域特征进行候选目标的分类和回归，得到最终的3D目标检测候选框。该发明有效提高了检测网络在不同环境下对3D空间中感兴趣的不同目标的检测与定位性能，但是由于将点云投影成图像形式从而导致丢失了物体在3D空间中的信息，使得检测结果不太理想。

4)申请公布号为：CN111145174A的中国发明专利《基于图像语义特征进行点云筛选的3D目标检测方法》。该发明提出了一种基于图像语义特征进行点云筛选的3D目标检测方法。包括以下步骤：首先2D语义分割方法对图像数据进行分割得到语义预测。将生成的语义预测通过已知的投影矩阵投影到LIDAR点云空间中，从而使点云中的每一个点都能获得对应图像位置的语义类别属性。然后将车辆、行人、骑车人相关的点从原始点云中提取出来并形成视锥。其次将视锥作为深度3D目标检测器的输入，并设计符合视锥特性的损失函数来进行网络训练。该发明大大减少了3D检测的时间和计算需求，具有实时目标检测性能。该方法会严重依赖于图像的语义信息，导致不能检测出被遮挡的或被严重截断的物体。

发明内容

针对在点云场景下距离激光雷达较远的和被严重遮挡的物体结构缺失等问题，本发明提出了一种利用目标结构先验性补全其在点云中缺失的对称部分的3D目标检测方法，使用自动驾驶领域的KITTI数据集对网络进行训练，在生成的增强点云上进行检测，可以降低检测难度并且提高检测精度。

为实现上述目的，本发明的具体实现步骤为：

步骤1：过滤点云并体素化检测空间，计算对称点生成模块的输入即体素初始特征，生成前景点标签，生成对称点相对于前景点的位置偏移标签；

步骤2：搭建对称点生成模块，构造对称点生成模块中编码器、解码器，为对称点生成模块分别添加分类头和回归头，构建前景点分割任务的损失函数、对称点预测任务的损失函数，进一步构建对称点生成模块的损失函数；

步骤3：通过对称点生成模块预测的对称点相对于前景点的位置偏移，将预测的对称点组成对称点集，结合对称点集与体素中心点集生成增强点云；

步骤4：定义区域提案网络，构建区域提案网络中骨干网络，构建区域提案网络中检测头，构建区域提案网络网络的损失函数；

步骤5：使用点云网络训练集进行训练，通过步骤1的点云数据处理得到初始体素特征，接着通过步骤2的对称点生成模块得到前景点对应的对称点，然后通过步骤3将非空体素中心点与对称点组成增强点云，最后通过步骤4的区域提案网络得到最终的物体检测框，结合综合点云网络的损失函数，使用点云网络训练集中进行训练得到寻优化网络参数，用于构建训练后点云网络。

步骤6：将待检测场景的点云数据输入训练后的点云网络，进行3D检测框预测，得待检测场景中目标的3D检测框；

作为优选，步骤1所述过滤点云并体素化检测空间，具体步骤为：

原始点云为：

其中，表示第i个点的坐标，分别表示第i个点的x轴坐标、y轴坐标、z轴坐标，过滤掉原始点云中不在检测范围内的点，所述检测范围为

则过滤后的点云为其中O_j表示检测范围空间内第j个点的坐标，分别表示检测范围空间内第j个点的x轴坐标、y轴坐标、z轴坐标；

之后对检测范围空间进行体素化，体素尺寸为w_v×l_v×h_v，w_v,l_v,h_v分别表示体素的宽长高，则体素中心点集合为：

其中，V_(k,m,n)表示x轴方向上第k个、y轴方向上第m个、z轴方向上第n个体素中心点的坐标，具体计算公式如下：

体素化后的空间分辨率为W×L×H。体素中心点集合也可以简化表示成如下形式其中V_i表示第i个体素中心点，N₃＝W×L×H；

步骤1所述计算对称点生成模块的输入即体素初始特征，具体步骤为：

坐标为(k,m,n)的体素的初始特征f_(k,m,n)为落在其内部的点的坐标平均值，具体计算公式如下：

其中N_(k,m,n)表示落在坐标为(k,m,n)的体素内点的数量，O_q表示落在坐标为(k,m,n)的体素内第q个的坐标，因此所述体素初始特征为：

F＝{f_(k,m,n)|k∈[1,W],m∈[1,L],n∈[1,H],k,m,n∈Z}

其中，所述F的空间分辨率也为W×L×H，其张量表示形式为

[W L H 3]；

步骤1所述生成前景点标签，具体步骤为：

所谓前景点就是落在3D标注框内部的体素中心点，用(p_x,p_y,p_z)表示前景点坐标，其标签s为1，数量为N_pos。落在3D标注框内部的体素中心点被称作背景点，其标签s＝0；

用(x_g,y_g,z_g,w_g,l_g,h_g,θ_g)表示3D标注框，其中(x_g,y_g,z_g)表示3D标注框的中心点坐标，w_g,l_g,h_g表示3D标注框的宽长高，θ_g表示俯视视角下的旋转角。

步骤1生成对称点相对于前景点的位置偏移标签，具体步骤为：

首先使用下面公式计算出前景点在3D标注框内的对称点：

其中(r_x,r_y,r_z)表示前景点在3D框中的相对位置坐标。接着可以计算出对称点的相对位置坐标(1-r_x,r_y,r_z)，最后利用下面公式计算出对称点的位置标签(p_x′,p_y′,p_z′)

t_x′＝(1-r_x)w-0.5,t_y′＝r_yl-0.5,p_z′＝r_zh-0.5+c_z

则对称点相对于前景点的位置偏移标签为ΔP＝(p_x′-p_x,p_y′-p_y)。其中公式出现的变量含义已在前述给出。

作为优选，步骤2所述搭建对称点生成模块具体为：

所述对称点生成模块由编码器、解码器、任务头依次级联组成；

所述编码器由升维模块、下采样模块级联组成；

所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成，用来将特征的维度升高，其输入是初始体素特征，输出为升维后的体素特征，用张量表示为[W L HC₁],C₁为维度，W、L、H是其空间分辨率的宽、长、高；子流形卷积层的卷积核大小都为w₁×w₁×w₁，步长都为k₁×k₁×k₁；

所述下采样模块由三个下采样子块组成；每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成，用来降低特征的空间分辨率，减少计算量，其输入为升维后的体素特征，其输出为空间分辨率降低为2ⁿ倍的体素特征，这里n为子块个数，用张量表示为稀疏卷积层和稀疏卷积层的卷积核大小都为w₁×w₁×w₁，步长都为k₂×k₂×k₂；

所述解码器由上采样模块组成；

上采样模块由四个上采样子块构成，每个上采样子块由第一层稀疏卷积层、第二层稀疏卷积层、稀疏反卷积层组成，其输入为空间分辨率降低的体素特征，输出为原始空间分辨率的体素特征，其张量表示与升维后的体素特征相同，为[W L H C₁]；稀疏卷积层和稀疏反卷积层的卷积核大小均为w₁×w₁×w₁，步长都为k₂×k₂×k₂；

所述任务头由分类头和回归头并联组成；

所述的分类头和回归头均由一层线性层组成，其输入都是原始空间分辨率的体素特征；分类头的线性层的输入、输出维度分别为C₁、C₃，分类头的线性层的输入、输出维度分别为C₁、C₄，。输出分别是每个点的前景点分割分数以及其对称点相对于自身的偏移。卷积层的当一个点的前景点分割分数阈值T则被这个点被网络认为是前景点，将网络预测的前景点对应的对称点和体素中心点组成增强点云作为区域提案网络的输入；

上述模块的待寻优参数都是各个层的卷积核权值W_ij,W_ij表示第i层第j个卷积核权值；

步骤2所述构造对称点生成模块中编码器、解码器，具体步骤为为：

将一个卷积核尺寸为w₁×w₁×w₁、步长为k₂×k₂×k₂的稀疏卷积层和两个卷积核尺寸为w₁×w₁×w₁、步长为k₂×k₂×k₂的子流形卷积层组成的结构称为一个下采样模块的子块，这里令w₁＝3，k₂＝3；

用于输入初始体素特征，首先使用升维模块，即两个卷积核尺寸为w₁×w₁×w₁、步长为k₁×k₁×k₁的子流形卷积层将初始体素特征的维度升到C₁维；这里令k₁＝1，C₁＝16；

然后使用3个子块将特征空间分辨率下采样n倍，特征维度C₁从变为2C₁，C₂，C₂；

最终的下采样特征使用张量形式表示为

接着再使用4个上采样模块的子块将特征空间分辨率回复到原来的尺度，张量形式表示为[W L H C₁]；

所述上采样模块的子块，首先通过稀疏卷积将横向特征和底层特征进行融合和变换，然后通过稀疏逆卷积对融合后的特征空间分辨率上采样2倍；

步骤2所述分别添加分类头和回归头，具体步骤为：

对称点生成模块需要输出的是前景点预测分数和对称点相对于前景点的位置偏移分别表示网络预测的x、y方向上的位置偏移；因此需要添加在编码器解码器后并行添加一个分割模块输出前景点预测分数以及一个回归模块输出对称点相对于前景点的位置偏移；

所述分割模块由一层线性层构成，其输入为编码器-解码器结构的输出特征[W LH C₁]，其输出为体素中心点的前景点预测分数，是一个[N₃1]的张量，N₃是体素中心点个数；

所述回归模块由一层线性层构成，其输入为编码器-解码器结构的输出特征[W LH C₁]，其输出为对称点相对于前景点的位置偏移，是一个[N₃ 2]的张量，N₃是体素中心点个数；

步骤2所述构建前景点分割任务的损失函数、对称点预测任务的损失函数，进一步构建对称点生成模块的损失函数，具体步骤为：

前景点分割任务的损失函数如下式所示：

其中，s_i定义为二值标签，用来表示第i个体素中心点是否是前景点，是的话值为1，否则为0；是分割头输出的坐标第i个体素中心点的前景点预测分数，在区间[0,1]范围内；N_pos是前景点的个数；α_t、γ分别是第一超参数、是第二超参数；

网络预测的第i个对称点相对于第i个体素中心点的位置偏移为则对称点预测任务使用smooth-l1函数作为损失函数如下式所示：

其中，II[s_i＝1]是一个指示函数，s_i是第i个点的类别标签，N_pos为前景点个数，N₃为体素中心点个数，ΔP_i是第i个对称点相对于第i个体素中心点的位置偏移标签；

所述对称点生成模块的损失函数为：

L₁＝αL_seg+βL_reg

其中，α、β分别是平衡损失函数的第一超参数、平衡损失函数的第二超参数；

作为优选，步骤3所述通过对称点生成模块预测的对称点相对于前景点的位置偏移为：

为对称点生成模块预测的x方向的偏移，为对称点生成模块预测的x方向的偏移，算出预测的前景点对应的对称点位置为

p_x、p_y、p_z是前景点的x,y,z坐标；

步骤3所述将预测的对称点组成对称点集为：

S_i是第i个对称点坐标，为是第i个对称点的x坐标，为是第i个对称点的y坐标，为是第i个对称点的z坐标；

步骤3所述将对称点集与体素中心点集组成增强点云为：

E_i是第i个增强点坐标，为是第i个增强点的x坐标，为是第i个增强点的y坐标，为是第i个增强点的z坐标，再进行一次前述步骤1中体素化空间方法，并生成初始体素特征作为RPN网络中骨干网络的输入；

作为优选，步骤4所述区域提案网络由骨干网络和检测头级联组成；

骨干网络用来降低空间分辨率，提取具有高层语义的俯视图特征，由编码器构成，所述编码器由升维模块、下采样模块以及高度压缩模块级联组成；

所述高度压缩模块由一层稀疏卷积层组成，其卷积核大小为w₃×w₄×w₄，步长为k₃×k₄×k₄，其输入为体素化增强点云的体素初始特征，输出为俯视特征图，用张量表示为n为下采样模块个数；

检测头由上分支、下分支、回归头、分类头组成，上分支由六个卷积层和一个反卷积层级联组成，卷积层和反卷积层的卷积核大小均为w₅×w₅，步长为k₅×k₅；

下分支也由六个卷积层和一个反卷积层级联组成，卷积层的大小为w₆×w₆，步长为k₆×k₆；

回归头与分类头都由一层卷积层组成，其卷积核大小为w₇×w₇，步长为k₇×k₇；

检测头的输入为俯视特征图，输出为检测框的置信度以及检测框相对于锚点的位置偏移；

网络的待寻优参数为各层的卷积核权值W_mn，W_mn为第m层第n个卷积核的权值。

步骤4所述构建区域提案网络中骨干网络，具体步骤为：

将一个卷积核尺寸为w₁×w₁×w₁、步长为k₂×k₂×k₂的稀疏卷积层和两个卷积核尺寸为w₁×w₁×w₁、步长为k₂×k₂×k₂的子流形卷积层组成的结构称为一个下采样模块的子块；

用于输入初始体素特征，首先使用升维模块，即两个卷积核尺寸为w₁×w₁×w₁、步长为k₁×k₁×k₁的子流形卷积层将初始体素特征的维度升到C₁维；

然后使用3个子块将特征空间分辨率下采样n倍，特征维度C₁从变为2C₁，C₂，C₂；这里令C₂＝64，n＝8；

最终的下采样特征使用张量形式表示为

最后通过一层压缩特征高度的稀疏卷积层，其卷积核大小为w₃×w₄×w₄，步长为k₃×k₄×k₄，所以经过骨干网络提取的特征表示为张量形式

n为下采样模块子块个数，C₃为输出通道数，将其变形为俯视特征图表示形式这里C₄＝256。

步骤4所述构建区域提案网络中检测头，具体步骤为：

俯视特征图作为检测头的输入；

俯视特征图经过6个卷积核大小为w₅×w₅、步长为k₅×k₅、输出通道数减半的卷积层得到中间特征中间特征首先经过一个卷积核大小为3*3、步长为1*1、输出通道数加倍的反卷积层得到上层特征然后中间特征再经过一个卷积核大小为w₆×w₆、步长为k₆×k₆、输出通道数不变的卷积层将特征分辨率降低2倍，再经过五个卷积核大小为w₆×w₆、步长为k₆×k₆、输出通道数不变的卷积层和一个卷积核大小为w₆×w₆、步长为k₆×k₆、输出通道数不变的反卷积层得到下层特征

最后将上层特征和下层特征进行连接操作合成新的俯视特征图

新的俯视特征图再经过一个分类头和一个回归头得到网络预测的框的得分以及位置；

步骤4所述构建区域提案网络的损失函数，具体步骤为：

在俯视特征图的每个像素点上分配两种朝向的锚点，锚点表示形式为

(x_a,y_a,z_a,w_a,l_a,h_a,θ_a)；

(x_a,y_a,z_a)是锚点的中心坐标，w_a,l_a,h_a是锚点的宽长高，θ_a是俯视视角下的旋转角；

为锚点分配二值标签，当锚点与标注框的交并比IoU大于λ₁时被认为是正例，其标签σ为1，当锚点与标注框的交并比IoU小于λ₂时被认为是反例，其标签σ为0，IoU介于λ₁和λ₂之间的锚点被忽略；

分类分支的损失函数为：

N表示正反例数量，为W、L是体素特征空间分辨率的宽、长，n是下采样模块子块的个数，表示网络预测的第i个锚点的得分，α_t、γ是超参数。

回归分支使用Smooth-l1损失作为损失函数，将对回归的参数进行如下形式的编码：

其中，Δr_t表示编码值，r_g表示标注框参数值，r_a表示锚点框参数值，r∈{x,y,z,w,l,h,θ}，(x,y,z)表示框的中心点，w,h,l表示框的宽高长，θ表示俯视视角下的框旋转角，则使用Smooth-l₁损失函数作为回归损失如下式所示：

其中为检测头预测的编码值，RPN网络的损失函数为L₂＝γL_cls+ηL_bbox，γ、η也是平衡损失函数的超参数。

作为优选，步骤5所述综合点云网络的损失函数为：

L_total＝L₁+L₂＝L_seg+L_reg+2L_bbox+L_cls

步骤待寻优参数为：

对称点生成模块的卷积核权值即W_ij、区域提案网络的卷积核权值即W_mn，W_ij表示第i层第j个卷积核权值，i∈[1,N₅]，N₅为对称点生成模块的卷积层数，为第i层卷积层的卷积核个数，W_mn为第m层第n个卷积核的权值，m∈[1,N₆]，N₆为区域提案网络的卷积层数，为第m层卷积层的卷积核个数；

步骤5寻优后参数为：

对称点生成模块的卷积核权值即W_ij ^*、区域提案网络的卷积核权值即W_mn ^*，W_ij ^*表示第i层第j个卷积核权值，i∈[1,N₅]，N₅为对称点生成模块的卷积层数，为第i层卷积层的卷积核个数，W_mn ^*为第m层第n个卷积核的权值，m∈[1,N₆]，N₆为区域提案网络的卷积层数，为第m层卷积层的卷积核个数；

用梯度反向传播方法寻优，用KITTI数据集中的原始点云数据作为训练集样本为输入，以此指导网络训练，最终取L_total最小时的检测结果作为最终的检测结果。

作为优选，步骤6所述待检测场景中目标的3D检测框表示为：

[x^*,y^*,z^*,w^*,l^*,h^*,θ^*]

其中，(x^*,y^*,z^*)表示预测的3D检测框中心点，w^*,l^*,h^*表示预测的3D检测框宽长高，θ^*表示预测的3D检测框在俯视视角下的旋转角；

与现有技术相比，本发明优点如下：

现有的检测方法大多忽略了物体结构的先验信息，本发明利用检测对象的对称性，生成对称点，从根本上缓解了点云中物体结构缺失的问题，能够改善回归效果以及提高检测精度。

本发明支持将RPN替换成其他基于体素的检测方法，使得原来检测效果较差的检测器也能产生具有竞争力的检测结果。

本发明使用简单的计算方式可以从数据集本身获得对称点的位置标签。

附图说明

图1：为本发明技术方案的总体框图。

图2：为本发明对称点生成模块网络模型结构图。

图3：为本发明上采样和改善模块网络结构图。

图4：为检测头网络结构图。

具体实施方式

下面将结合附图，对本发明实施例中的实现步骤进行清楚、完整的描述。此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互结合。

下面结合图1至图4介绍本发明的具体实施方式：

步骤1所述过滤点云并体素化检测空间，具体步骤为：

原始点云为：

之后对检测范围空间进行体素化，体素尺寸为w_v×l_v×h_v，w_v,l_v,h_v分别表示体素的宽长高，w_v＝0.05m，l_v＝0.05m，h_v＝0.05m，则体素中心点集合为：

体素化后的空间分辨率为W×L×H。体素中心点集合也可以简化表示成如下形式其中V_i表示第i个体素中心点，N₃＝W×L×H，W＝1408，L＝1600，H＝40；

F＝{f_(k,m,n)|k∈[1,W],m∈[1,L],n∈[1,H],k,m,n∈Z}

其中，所述F的空间分辨率也为W×L×H，其张量表示形式为

[W L H 3]，W＝1408，L＝1600，H＝40；

步骤1所述生成前景点标签，具体步骤为：

首先使用下面公式计算出前景点在3D标注框内的对称点：

t_x′＝(1-r_x)w-0.5,t_y′＝r_yl-0.5,p_z′＝r_zh-0.5+c_z

步骤2所述搭建对称点生成模块具体为：

所述编码器由升维模块、下采样模块级联组成；

所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成，用来将特征的维度升高，其输入是初始体素特征，输出为升维后的体素特征，用张量表示为[W L HC₁],C₁为特征维度,C₁＝16，W、L、H是其空间分辨率的宽、长、高，W＝1408，L＝1600，H＝40；子流形卷积层的卷积核大小都为w₁×w₁×w₁，w₁＝3，步长都为k₁×k₁×k₁，k₁＝1；

所述下采样模块由三个下采样子块组成；每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成，用来降低特征的空间分辨率，减少计算量，其输入为升维后的体素特征，其输出为空间分辨率降低为2ⁿ倍的体素特征，这里n为子块个数，n＝3，用张量表示为

W＝1408，L＝1600，H＝40,C₂＝64；稀疏卷积层和稀疏卷积层的卷积核大小都为w₁×w₁×w₁,w₁＝3，步长都为k₂×k₂×k₂,k₂＝2；

所述解码器由上采样模块组成；

上采样模块由四个上采样子块构成，每个上采样子块由第一层稀疏卷积层、第二层稀疏卷积层、稀疏反卷积层组成，其输入为空间分辨率降低的体素特征，输出为原始空间分辨率的体素特征，其张量表示与升维后的体素特征相同，为[W L H C₁],W＝1408，L＝1600,H＝40,C₁＝16；稀疏卷积层和稀疏反卷积层的卷积核大小均为w₁×w₁×w₁,w₁＝3，步长都为k₂×k₂×k₂,k₂＝2；

所述任务头由分类头和回归头并联组成；

所述的分类头和回归头均由一层线性层组成，其输入都是原始空间分辨率的体素特征；分类头的线性层的输入、输出维度分别为C₁、C₃,C₁＝64,C₃＝1，分类头的线性层的输入、输出维度分别为C₁、C₄,C₁＝64,C₄＝2。输出分别是每个点的前景点分割分数以及其对称点相对于前景点的偏移。卷积层的当一个点的前景点分割分数阈值T则被这个点被网络认为是前景点，将网络预测的前景点对应的对称点和体素中心点组成增强点云作为区域提案网络的输入；

步骤2所述构造对称点生成模块中编码器、解码器，具体步骤为：

将一个卷积核尺寸为w₁×w₁×w₁、步长为k₂×k₂×k₂的稀疏卷积层和两个卷积核尺寸为w₁×w₁×w₁、步长为k₂×k₂×k₂的子流形卷积层组成的结构称为一个下采样模块的子块，这里令w₁＝3，k₂＝2；

用于输入初始体素特征，首先使用升维模块，即两个卷积核尺寸为w₁×w₁×w₁、步长为k₁×k₁×k₁的子流形卷积层将初始体素特征的维度升到C₁维；这里令w₁＝3，k₁＝1，C₁＝16；

然后使用3个子块将特征空间分辨率下采样n倍，特征维度C₁从变为2C₁，C₂，C₂；这里令C₁＝16，C₂＝64，n＝8；

最终的下采样特征使用张量形式表示为W＝1408，L＝1600,H＝40,C₂＝64；

接着再使用4个如图3所示的上采样模块的子块将特征空间分辨率回复到原来的尺度，张量形式表示为[W L H C₁]，W＝1408，L＝1600,H＝40,C₁＝16；

步骤2所述分别添加分类头和回归头，具体步骤为：

所述分割模块由一层线性层构成，其输入为编码器-解码器结构的输出特征[W LH C₁]，W＝1408，L＝1600,H＝40,C₁＝16，其输出为体素中心点的前景点预测分数，是一个[N₃ 1]的张量，N₃是体素中心点个数；

所述回归模块由一层线性层构成，其输入为编码器-解码器结构的输出特征[W LH C₁]，W＝1408，L＝1600,H＝40,C₁＝16，其输出为对称点相对于前景点的位置偏移，是一个[N₃ 2]的张量，N₃是体素中心点个数；

前景点分割任务的损失函数如下式所示：

其中，s_i定义为二值标签，用来表示第i个体素中心点是否是前景点，是的话值为1，否则为0；是分割头输出的坐标第i个体素中心点的前景点预测分数，在区间[0,1]范围内；N_pos是前景点的个数；α_t、γ分别是第一超参数、是第二超参数，分别设置为0.25、2；

所述对称点生成模块的损失函数为：

L₁＝αL_seg+βL_reg

其中，α、β分别是平衡损失函数的第一超参数、平衡损失函数的第二超参数，并分别设置为1，1；

如果一个体素中心点的前景点预测分数大于阈值T，则这个点是对称点生成模块预测的前景点；

步骤3所述通过对称点生成模块预测的对称点相对于前景点的位置偏移为：

p_x、p_y、p_z是前景点的x,y,z坐标；

步骤3所述将预测的对称点组成对称点集为：

步骤3所述将对称点集与体素中心点集组成增强点云为：

步骤4所述区域提案网络由骨干网络和检测头级联组成；

所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成，用来将特征的维度升高，其输入是初始体素特征，输出为升维后的体素特征，用张量表示为[W L HC₁],C₁为维度，W、L、H是其空间分辨率的宽、长、高，W＝1408，L＝1600,H＝40,C₁＝16；子流形卷积层的卷积核大小都为w₁×w₁×w₁，w₁＝3，步长都为k₁×k₁×k₁，k₁＝2；

所述下采样模块由三个下采样子块组成；每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成，用来降低特征的空间分辨率，减少计算量，其输入为升维后的体素特征，其输出为空间分辨率降低为2ⁿ倍的体素特征，这里n为子块个数，这里为3，用张量表示为W＝1408，L＝1600,H＝40,C₂＝64；稀疏卷积层和稀疏卷积层的卷积核大小都为w₁×w₁×w₁，w₁＝3，步长都为k₂×k₂×k₂，k₁＝2；

所述高度压缩模块由一层稀疏卷积层组成，其卷积核大小为w₃×w₃×w₄，w₃＝1，w₄＝3，步长为k₃×k₃×k₄，k₃＝1，k₄＝2其输入为体素化增强点云的体素初始特征，输出为俯视特征图，用张量表示为n为下采样模块个数，为3，W＝1408，L＝1600,H＝40,C₃＝128；

检测头由上分支、下分支、回归头、分类头组成，上分支由六个卷积层和一个反卷积层级联组成，卷积层和反卷积层的卷积核大小均为w₅×w₅，步长为k₅×k₅，w₅＝3，k₅＝1；

下分支也由六个卷积层和一个反卷积层级联组成，卷积层的大小为w₆×w₆，步长为k₆×k₆，w₆＝3，k₆＝1；

回归头与分类头都由一层卷积层组成，其卷积核大小为w₇×w₇，步长为k₇×k₇，w₇＝3，k₇＝1；

步骤4所述构建区域提案网络中骨干网络，具体步骤为：

最后通过一层压缩特征高度的稀疏卷积层，其卷积核大小为w₃×w₄×w₄，步长为k₃×k₄×k₄，所以经过骨干网络提取的特征表示为张量形式W＝1408，L＝1600,H＝40,C₃＝128，n为下采样模块子块个数，C₃为输出通道数，将其变形为俯视特征图表示形式这里C₄＝256。

步骤4所述构建区域提案网络中检测头，具体步骤为：

俯视特征图作为检测头的输入；

俯视特征图经过6个卷积核大小为w₅×w₅、步长为k₅×k₅、输出通道数减半的卷积层得到中间特征w₅＝3，k₅＝1，W＝1408，L＝1600，C₃＝128，中间特征首先经过一个卷积核大小为3*3、步长为1*1、输出通道数加倍的反卷积层得到上层特征W＝1408，L＝1600，C₄＝256然后中间特征再经过一个卷积核大小为w₆×w₆、步长为k₆×k₆、输出通道数不变的卷积层将特征分辨率降低2倍，再经过五个卷积核大小为w₆×w₆、步长为k₆×k₆、输出通道数不变的卷积层和一个卷积核大小为w₆×w₆、步长为k₆×k₆、输出通道数不变的反卷积层得到下层特征w₆＝3，k₆＝1，C₄＝256；

最后将上层特征和下层特征进行连接操作合成新的俯视特征图W＝1408，L＝1600，C₄＝256；

步骤4所述构建区域提案网络的损失函数，具体步骤为：

(x_a,y_a,z_a,w_a,l_a,h_a,θ_a)；

分类分支的损失函数为：

N表示正反例数量，为W、L是体素特征空间分辨率的宽、长，n是下采样模块子块的个数，表示网络预测的第i个锚点的得分，α_t、γ是超参数，分别设置为0.25、2。

其中，Δr_t表示编码值，r_g表示标注框参数值，r_a表示锚点框参数值，

r∈{x,y,z,w,l,h,θ}，(x,y,z)表示框的中心点，w,h,l表示框的宽高长，θ表示俯视视角下的框旋转角，则使用Smooth-l₁损失函数作为回归损失如下式所示：

其中为检测头预测的编码值，RPN网络的损失函数为L₂＝γL_cls+ηL_bbox，γ、η也是平衡损失函数的超参数，分别设置为1，2。

步骤5所述综合点云网络的损失函数为：

L_total＝L₁+L₂＝L_seg+L_reg+2L_bbox+L_cls

步骤待寻优参数为：

步骤5寻优后参数为：

步骤6所述待检测场景中目标的3D检测框表示为：

[x^*,y^*,z^*,w^*,l^*,h^*,θ^*]

其中，(x^*,y^*,z^*)表示预测的3D检测框中心点，w^*,l^*,h^*表示预测的3D检测框宽长高，θ^*表示预测的3D检测框在俯视视角下的旋转角。

应当理解的是，本申请书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本申请专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本申请权利要求所保护的范围情况下，还可以做出替换或变形，均落入本申请的保护范围之内，本申请的请求保护范围应以所附权利要求为准。

Claims

1.一种基于对称点生成的点云3D目标检测方法，其特征在于，包括以下步骤：

步骤5：使用点云网络训练集进行训练，通过步骤1的点云数据处理得到初始体素特征，接着通过步骤2的对称点生成模块得到前景点对应的对称点，然后通过步骤3将非空体素中心点与对称点组成增强点云，最后通过步骤4的区域提案网络得到最终的物体检测框，结合综合点云网络的损失函数，使用点云网络训练集中进行训练得到寻优化网络参数，用于构建训练后点云网络；

步骤1所述过滤点云并体素化检测空间为：

原始点云为：

体素化后的空间分辨率为W×L×H；体素中心点集合也可以简化表示成如下形式其中V_i表示第i个体素中心点，N₃＝W×L×H；

步骤1所述计算对称点生成模块的输入即体素初始特征为：

F＝{f_(k,m,n)|k∈[1,W],m∈[1,L],n∈[1,H],k,m,n∈Z}

其中，所述F的空间分辨率也为W×L×H，其张量表示形式为[W L H 3]；

步骤1所述生成前景点标签为：

所谓前景点就是落在3D标注框内部的体素中心点，用(p_x,p_y,p_z)表示前景点坐标，其标签s为1，数量为N_pos；落在3D标注框内部的体素中心点被称作背景点，其标签s＝0；

用(x_g,y_g,z_g,w_g,l_g,h_g,θ_g)表示3D标注框，其中(x_g,y_g,z_g)表示3D标注框的中心点坐标，w_g,l_g,h_g表示3D标注框的宽长高，θ_g表示俯视视角下的旋转角；

步骤1生成对称点相对于前景点的位置偏移标签为：

首先使用下面公式计算出前景点在3D标注框内的对称点：

其中(r_x,r_y,r_z)表示前景点在3D框中的相对位置坐标；接着可以计算出对称点的相对位置坐标(1-r_x,r_y,r_z)，最后利用下面公式计算出对称点的位置标签(p_x′,p_y′,p_z′)

t_x′＝(1-r_x)w-0.5,t_y′＝r_yl-0.5,p_z′＝r_zh-0.5+c_z

则对称点相对于前景点的位置偏移标签为ΔP＝(p_x′-p_x,p_y′-p_y)；

步骤2所述搭建对称点生成模块具体为：

所述编码器由升维模块、下采样模块级联组成；

所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成，用来将特征的维度升高，其输入是初始体素特征，输出为升维后的体素特征，用张量表示为[W L H C₁],C₁为维度，W、L、H是其空间分辨率的宽、长、高；子流形卷积层的卷积核大小都为w₁×w₁×w₁，步长都为k₁×k₁×k₁；

所述解码器由上采样模块组成；

所述任务头由分类头和回归头并联组成；

所述的分类头和回归头均由一层线性层组成，其输入都是原始空间分辨率的体素特征；分类头的线性层的输入、输出维度分别为C₁、C₃，分类头的线性层的输入、输出维度分别为C₁、C₄；输出分别是每个点的前景点分割分数以及其对称点相对于自身的偏移；卷积层的当一个点的前景点分割分数阈值T则被这个点被网络认为是前景点，将网络预测的前景点对应的对称点和体素中心点组成增强点云作为区域提案网络的输入；

步骤2所述构造对称点生成模块中编码器、解码器为：

最终的下采样特征使用张量形式表示为

步骤2所述分别添加分类头和回归头为：

所述分割模块由一层线性层构成，其输入为编码器-解码器结构的输出特征[W L HC₁]，其输出为体素中心点的前景点预测分数，是一个[N₃ 1]的张量，N₃是体素中心点个数；

所述回归模块由一层线性层构成，其输入为编码器-解码器结构的输出特征[W L HC₁]，其输出为对称点相对于前景点的位置偏移，是一个[N₃ 2]的张量，N₃是体素中心点个数；

步骤2所述构建前景点分割任务的损失函数、对称点预测任务的损失函数，进一步构建对称点生成模块的损失函数为：

前景点分割任务的损失函数如下式所示：

所述对称点生成模块的损失函数为：

L₁＝αL_seg+βL_reg

p_x、p_y、p_z是前景点的x,y,z坐标；

步骤3所述将预测的对称点组成对称点集为：

将步骤3所述对称点集与体素中心点集组成增强点云为：

步骤4所述区域提案网络由骨干网络和检测头级联组成；

网络的待寻优参数为各层的卷积核权值W_mn，W_mn为第m层第n个卷积核的权值；

步骤4所述构建区域提案网络中骨干网络为：

最终的下采样特征使用张量形式表示为

n为下采样模块子块个数，C₃为输出通道数，将其变形为俯视特征图表示形式这里C₄＝256；

步骤4所述构建区域提案网络中检测头为：

俯视特征图作为检测头的输入；

步骤4所述构建区域提案网络的损失函数为：

在俯视特征图的每个像素点上分配两种朝向的锚点，锚点表示形式为(x_a,y_a,z_a,w_a,l_a,h_a,θ_a)；

分类分支的损失函数为：

N表示正反例数量，为W、L是体素特征空间分辨率的宽、长，n是下采样模块子块的个数，表示网络预测的第i个锚点的得分，α_t、γ是超参数；

其中为检测头预测的编码值，RPN网络的损失函数为L₂＝γL_cls+ηL_bbox，γ、η也是平衡损失函数的超参数；

步骤5所述综合点云网络的损失函数为：

L_total＝L₁+L₂＝L_seg+L_reg+2L_bbox+L_cls

步骤待寻优参数为：

步骤5寻优后参数为：

2.根据权利要求1所述的基于对称点生成的点云3D目标检测方法，其特征在于：

步骤6所述待检测场景中目标的3D检测框表示为：

[x^*,y^*,z^*,w^*,l^*,h^*,θ^*]