CN113705631B

CN113705631B - 一种基于图卷积的3d点云目标检测方法

Info

Publication number: CN113705631B
Application number: CN202110913796.XA
Authority: CN
Inventors: 高陈强; 刘川东; 周渝曦
Original assignee: Daqing Ruiang Environmental Protection Technology Co ltd
Current assignee: Daqing Ruiang Environmental Protection Technology Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2024-01-23
Anticipated expiration: 2041-08-10
Also published as: CN113705631A

Abstract

本发明属于图像处理与计算机视觉技术领域，具体涉及一种基于图卷积的3D点云目标检测方法，该方法包括：将原始点云数据输入并进行预处理；将预处理后的点云数据进行体素化并输入训练好的3D点云目标检测模型中进行检测分析处理；对检测结果进行统计分析与后处理；所述3D点云目标检测模型包括3D稀疏卷积神经网络、提案生成网络、全局动态图卷积模块、局部静态图卷积模块和3D检测头模块；本方法利用图卷积建立3D目标之间的关系，提取更加丰富的依赖关系特征而且保留目标原本的空间信息，使得提取的特征能够更好的表达点云信息。

Description

一种基于图卷积的3D点云目标检测方法

技术领域

本发明属于图像处理与计算机视觉技术领域，具体涉及一种基于图卷积的3D点云目标检测方法。

背景技术

目前，2D视觉任务的深度学习取得了显著的进展，包括目标检测、分割以及姿态检测等等。相比于2D传统图像，3D点云包含了更多的几何信息与语义信息，同时3D点云目标检测在自动驾驶、增强现实(AR)和室内导航等方面拥有广泛的应用而受到了越来越多的关注。但由于点云的稀疏性与非结构化等特征，将2D方法直接运用于3D点云并不适用，故如何利用3D点云实现高精度的目标检测是非常重要的。

现有的3D目标检测方法可以分为两种，一种是基于多模态融合的方法，另一种是基于纯点云的方法。基于多模态融合的方法首先将点云映射到不同的视角，然后融合不同模式下的表征，然而这种映射将会损失很多的空间结构信息，导致精度不高，同时带来了更多的计算量。因此，目前多数检测框架采用第二种基于纯点云的方法，这种框架具体可以分为两类，一类为基于点的方法，将原始点云作为输入，利用迭代的聚类操作学习原始点云的表征，但由于其频繁的聚类操作带来了更多的计算量，同时点云密度不均也导致其性能的下降。另一类则是基于体素的方法，将点云均分为3D体素空间，利用堆叠的3D卷积层学习空间特征，但3D卷积操作同样具有计算成本大，并不能直接对稀疏的点云数据充分利用，从而出现精度不高的情况。由于以上现有的点云目标检测中有精度不高的情况，故需要一种新的方法来实现精准的3D目标检测。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于图卷积的3D点云目标检测方法，该方法包括：实时获取点云数据，将获取的点云数据输入到3D点云目标检测模型中，得到目标检测结果；根据目标检测结果对点云数据进行分类；

对3D点云目标检测模型进行训练的过程包括：

S1：获取原始点云数据，将原始点云数据划分为训练集和测试集；

S2：对训练集中的点云数据进行体素化；将体素化的点云数据输入到3D稀疏卷积网络中进行高维稀疏特征提取，得到不同尺度的高维稀疏体素特征；

S3：对不同尺度的稀疏体素特征进行紧密化处理，得到紧密特征；将紧密特征输入到提案生成网络中，得到高质量提案；

S4：对所有的高质量提案进行可信度筛选和非极大值抑制滤除处理，得到兴趣区域框，并将兴趣区域框映射到高维稀疏体素特征中，得到处于不同兴趣区域框内的高维稀疏特征；

S5：将不同兴趣区域框内的高维稀疏特征进行图构建，并采用图卷积模块对构建的图进行特征提取，得到高维兴趣区域框语义信息；

S6：将高维兴趣区域框语义信息输入到分类分支与回归分支得到最终的3D检测框与所属物体的类别信息；

S7：根据最终的3D检测框和所属物体的类别信息计算模型的损失函数，调制模型的参数，当损失函数值最小时，完成模型的训练。

优选的，对点云数据进行体素化的过程包括：选取一个张量，将该张量初始化为0值，设置体素的长、宽、高；遍历所有的点云数据，计算各个点云分别属于哪个体素，记录该体素的坐标以及每个体素的点数；计算每个体素内点云数据的平均坐标和反射强度；将每个体素内点云的平均坐标和反射强度作为初始特征。

优选的，3D稀疏卷积网络包括4个堆叠的稀疏卷积块，每个稀疏卷积块中包括一个稀疏卷积层；将体素特征输入到稀疏卷积层中，减少运算的复杂度和减小特征图的尺寸大小，每将经过一层稀疏卷积层的卷积后得到的特征还包括两个子流形稀疏卷积；将堆叠的稀疏卷积块将体素特征逐层输入，生成具有更小分辨率与更大区分度的特征，得到不同尺度的高维稀疏体素特征。

优选的，对不同尺度的稀疏体素特征进行紧密化处理包括将稀疏特征沿Z维度进行堆叠，得到紧密特征。

优选的，提案生成网络包括自顶向下的特征提取子网络和多尺度的特征融合子网络；自顶向下的特征提取子网络设置有两个标准的3×3卷积层；多尺度的特征融合子网络用于上采样并且Concate自顶向下生成的特征；输出的特征通过两个并行的1×1卷积层进行卷积，生成最终的3D提案与对应的类别，得到高质量提案。

优选的，得到兴趣区域框的过程包括：采用Softmax函数对RPN网络分类分支输出的高质量提案进行计算，得到高质量提案的类别置信度，并采用非极大值抑制方法将所有提案的类别置信度排序，选取最大的类别置信度及其对应的高质量提案；遍历其余的提案，若遍历的提案与当前最大的类别置信度提案的重叠面积大于设置的阈值时，提取当前最大类别置信度的提案，并从未处理的提案中继续选一个类别置信度最大的提案，重复上述过程以滤除重叠比例较高的框；将筛选出的3D提案作为兴趣区域框。

进一步的，设置的阈值为0.8。

优选的，得到高维兴趣区域框语义信息的过程包括：采用图卷积模块对构建的图进行特征提取；图卷积模块包括两个并行支路；第一支路采用特征在欧式空间中的关系，结合KNN构造图G＝(v，ε)，其中v与ε分别代表图的顶点与边；采用图卷积将图中的特征进行据集，得到动态全局图特征；第二支路采用特征的余弦相似度建立关系，结合KNN构造图；利用对称的通道聚合图卷积进行特征融合，得到静态局部图特征；将静态特征与动态特征进行融合得到高维兴趣区域框语义信息。

优选的，得到最终的3D检测框与所属物体的类别信息的过程包括：将高维兴趣框语义特征通过一个共享的2层感知机，生成特征向量送入两个并行的分支：一个分支用以3D框的回归，预测生成的3D框与真实3D框之间的残差信息，另一个分支用于计算类别置信度，预测与真实框交并比相联系的置信分数。

优选的，模型的损失函数表达式为：

L＝ωL_head+μL_RPN+λL_DIR

本发明的有益效果在于：1)本发明提出一种基于图卷积的3D点云目标检测方法，该方法不仅能够准确的检测出3D目标还具有较强的泛化能力。2)本方法利用图卷积建立3D目标之间的关系，提取更加丰富的依赖关系特征而且保留目标原本的空间信息，使得提取的特征能够更好的表达点云信息。

附图说明

图1为本发明的整体流程示意图；

图2为本发明的卷积网络框架图；

图3为本发明的提案生成网络结构示意图；

图4为本发明的全局动态图卷积模块示意图；

图5为本发明的局部静态图卷积模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于图卷积的3D点云目标检测方法，如图1所示，该方法包括：将原始点云数据输入并进行预处理；将预处理后的点云数据进行体素化并输入训练好的3D点云目标检测模型中进行检测分析处理；对检测结果进行统计分析与后处理；所述3D点云目标检测模型包括3D稀疏卷积神经网络、提案生成网络、全局动态图卷积模块、局部静态图卷积模块和3D检测头模块。

对3D点云目标检测模型进行训练的过程包括：

S1：获取原始点云数据，将原始点云数据划分为训练集和测试集。

首先将点云数据集按照7∶3的比例分成训练集与测试集，再对划分好的数据集进行预处理；对每个点云数据，在X轴上裁剪保留[0,70.4]m的范围，在Y轴裁剪保留[-40,40]m的范围，在Z轴裁剪保留[-3,1]m的范围。

S2：对训练集中的点云数据进行体素化；将体素化的点云数据输入到3D稀疏卷积网络中进行高维稀疏特征提取，得到不同尺度的高维稀疏体素特征。

对点云数据进行体素化的过程包括：采用基于哈希表的方法，先指定一个大小一定的张量并初始化为0值，将输入体素的尺寸设置为(0.05m,0.05m，0.1m)，然后遍历点云并计算点云属于哪个体素，同时记录所属体素坐标和每个体素的点数，最后得到所有体素、对应的坐标以及每个体素所包含的最大点数，并使用每个体素内点云的平均坐标与反射强度作为初始特征。

3D稀疏卷积网络的优点在于不仅考虑了点云中的3D空间信息，也利用了点云数据的稀疏性，使得计算量减小，如图2所示，稀疏卷积由四个卷积块组成，每一部分别包含{2，2,3,3}个子流形稀疏卷积和1个稀疏卷积，并且每部分中稀疏卷积在最后一层以实现对3D特征图2倍下采样，最终4个部分分别实现了1倍，2倍，4倍，8倍的下采样尺寸，通过训练能够得到基于体素的稀疏特征。

S3：对不同尺度的稀疏体素特征进行紧密化处理，得到紧密特征；将紧密特征输入到提案生成网络中，得到高质量提案。

如图3所示为提案生成网络，将8倍下采样的稀疏特征沿Z维度进行堆叠得到紧密的尺寸为的特征，由于自动驾驶场景中车辆、行人等的大小相差不大，故使用固定尺寸的锚点，精准预测的同时减少运算复杂度。对于车辆与行人，锚点大小分别设置为[w＝1.6,l＝3.9,h＝1.56]m和[w＝0.6,l＝0.8,h＝1.73]m，其中心分别为z＝-1.0m和z＝-0.6m，使用固定尺寸锚点后，每个类别共有/>个3D锚点框，数字2代表0°与90°两个不同的方向。

得到3D锚点框之后，送入由两部分组成的网络：一个自顶向下的特征提取子网络，带有两个标准的3×3卷积层，同时还有一个多尺度的特征融合子网络，用以上采样并且Concate自顶向下生成的特征。最后，输出的特征通过两个并行的1×1卷积层进行卷积，通过网络训练进行3D提案回归与对应的类别的预测，得到得到高质量提案。得到高质量提案所产生的损失函数为：

其中，N_fg代表前景锚点的数量，L_cls表示分类损失，L_reg表示回归损失，和/>为类别输出分支与框回归分支，/>与/>分别是类别标签与回归目标；/>代表回归损失计算时仅仅考虑前景锚点。分别使用Focal Loss与Huber Loss用于分类与回归。

S4：对所有的高质量提案进行可信度筛选和非极大值抑制滤除处理，得到兴趣区域框，并将兴趣区域框映射到高维稀疏体素特征中，得到处于不同兴趣区域框内的高维稀疏特征。

在得到多个3D提案后，利用非极大值抑制(NMS)滤除重叠比例较高的框，同时将类别置信度进行排序，筛选出128个的置信度较高3D提案，作为最终的兴趣区域框。将兴趣框映射到多尺度稀疏体素特征中，得到处于每个兴趣框内稀疏特征，之后通过两个1×1的卷积层获取每个框内的深层体素特征。

计算高质量提案的类别置信度的过程包括：将RPN网络的分类分支输出通过Softmax函数计算得到类别置信度。

采用非极大值抑制滤除重叠比例较高的框的过程包括：采用Softmax函数对RPN网络分类分支输出的高质量提案进行计算，得到高质量提案的类别置信度，并采用非极大值抑制方法将所有提案的类别置信度排序，选取最大的类别置信度及其对应的高质量提案；遍历其余的提案，若遍历的提案与当前最大的类别置信度提案的重叠面积大于设置的阈值时，提取当前最大类别置信度的提案，并从未处理的提案中继续选一个类别置信度最大的提案，重复上述过程以滤除重叠比例较高的框；将筛选出的3D提案作为兴趣区域框。

优选的，设置的阈值为0.8。

S5：将不同兴趣区域框内的高维稀疏特征进行图构建，并采用图卷积模块对构建的图进行特征提取，得到高维兴趣区域框语义信息。

得到高维兴趣区域框语义信息的过程包括：采用图卷积模块对构建的图进行特征提取；图卷积模块包括两个并行支路；第一支路采用特征在欧式空间中的关系，结合KNN构造图G＝(v,ε)，其中v与ε分别代表图的顶点与边；采用图卷积将图中的特征进行据集，得到动态全局图特征；第二支路采用特征的余弦相似度建立关系，结合KNN构造图；利用对称的通道聚合图卷积进行特征融合，得到静态局部图特征；将静态特征与动态特征进行融合得到高维兴趣区域框语义信息。

具体的，如图4所述，第一个分支利用特征在欧式空间中的关系，结合KNN构造图G＝(v,ε)，其中ν与ε分别代表图的顶点与边，该图包含自环结构，意味每个节点可能会指向自身。同时定义边的特征为e_ij＝h_θ(x_i,x_j)，其中为带有一系列可学习参数θ的非线性函数；其中，h_θ表示带有一系列可学习参数θ的非线性函数，x_i表示第i个点的坐标，x_j表示第j个点的坐标，/>表示映射之前的特征，/>表示映射之后的特征。为了更加全面地学习全局形状特征，邻接关系使用x_j-x_i捕获，使用了具有对称性的边特征函数

并且最终用多层感知机实现下述的图卷积：

e′_ijm＝ReLU(θ_m·(x_j-x_i)+φ_m·x_i)

θ＝(θ₁,...,θ_M,φ₁,...,φ_M)

其中，ReLU表示激活函数，θ_m表示第m个卷积的权重，φ_m表示与θ_m相似的卷积权重，x′_im表示通过最大值操作聚集边的特征，ε表示图的边。

如图5所示，另一支路使用特征余弦相似度代替欧式距离进行静态图的构造，首先需要计算邻接矩阵A：

其中，x_i代表特征向量，T表示转置。

其次，将特征向量与代表图顶点和节点的邻接矩阵A输入进行图卷积，在第l层的第i个特征的输出特征向量由其邻居特征点/>进行计算：

其中，W^l表示在所有点之间共享的自环矩阵，表示在第l层第i个点的输出特征向量，/>表示第l层第i个点的邻居，γ^l,j→i表示标量边注意力因子，r表示用以设置最大权重聚集矩阵等级的超参，/>均表示用于计算点i与点j的特征向量差异的函数。

矩阵在所有特征点之间共享，例如向量/>和标量/>等其余的特征聚集权重是由特征向量点i与j不同的函数计算得到，比如其中F由两层的多层感知机实现。r为控制聚和操作最大层数的超参量，目的是为了减少聚合操作的计算量与内存消耗。γ^l,j→i是一个特征向量注意力因子，与特征向量之间的余弦相似度有关。

最后将全局特征学习支路与局部特征学习支路进行融合，获取高维兴趣区域框语义特征。

S6：将高维兴趣区域框语义信息输入到分类分支与回归分支得到最终的3D检测框与所属物体的类别信息。

将兴趣区域框语义特征通过两个全连接层生成共享特征，送入分类置信度分支与回归分支得到最终的3D检测框与所属物体的类别信息。在分类置信度分支中，将预测框与真实框的IoU分数进行分配：

其中，IoU_i是第i个提案与对应的真实标注框之间的IoU，θ_L与θ_H为前景与背景的阈值，并且使用交叉熵损失用作置信度的预测，同样对于3D框的回归使用Huber Loss，对于3D框回归，使用下述的框编码函数：

θ_t＝θ_g-θ_a

其中，x，y，z为3D框的中心坐标；w，l，h分别为3D框的宽、长、高；θ为绕z轴的偏航旋转角度；下标t，g,a,分别代表编码之后的值，感兴趣3D框与真实的标注框；并且为感兴趣3D框的对角线长度。

最后一部分的损失函数表示如下式：

其中N_s为提取的兴趣框数量，1(IoU_i≥θ_reg)代表只有IoU_i≥θ_reg的兴趣框参与回归损失的计算。

整个网络的损失函数如下：

L＝ωL_head+μL_RPN+λL_DIR

其中ωμλ为控制各个部分损失大小的平衡因子。通过计算损失函数，返回更新参数，并不断进行迭代，提高模型识别准确度，当损失函数最小时，3D目标检测模型训练完成。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图卷积的3D点云目标检测方法，其特征在于，包括：实时获取点云数据，将获取的点云数据输入到3D点云目标检测模型中，得到目标检测结果；根据目标检测结果对点云数据进行分类；

对3D点云目标检测模型进行训练的过程包括：

得到高维兴趣区域框语义信息的过程包括：采用图卷积模块对构建的图进行特征提取；图卷积模块包括两个并行支路；

第一支路采用特征在欧式空间中的关系，结合KNN构造图G＝(ν,ε)，其中ν与ε分别代表图的顶点与边；采用图卷积将图中的特征进行据集，得到动态全局图特征；定义边的特征为e_ij＝h_θ(x_i,x_j)，其中h_θ:为带有一系列可学习参数θ的非线性函数；其中，h_θ表示带有一系列可学习参数θ的非线性函数，x_i表示第i个点的坐标，x_j表示第j个点的坐标，表示映射之前的特征，/>表示映射之后的特征；采用具有对称性的边特征函数和多层感知机进行图卷积，其表达式为：

e'_ijm＝ReLU(θ_m·(x_j-x_i)+φ_m·x_i)

θ＝(θ₁,...,θ_M,φ₁,...,φ_M)

其中，ReLU表示激活函数，θ_m表示第m个卷积的权重，φ_m表示与θ_m相似的卷积权重，x'_im表示通过最大值操作聚集边的特征，ε表示图的边；

第二支路采用特征的余弦相似度建立关系，结合KNN构造图；利用对称的通道聚合图卷积进行特征融合，得到静态局部图特征；将静态特征与动态特征进行融合得到高维兴趣区域框语义信息；具体包括：计算邻接矩阵A：

其中，x_i代表特征向量，T表示转置；

将特征向量与代表图顶点和节点的邻接矩阵A输入进行图卷积，在第l层的第i个特征的输出特征向量由其邻居特征点/>进行计算：

其中，W^l表示在所有点之间共享的自环矩阵，表示在第l层第i个点的输出特征向量，表示第l层第i个点的邻居，γ^l,j→i表示标量边注意力因子，r表示用以设置最大权重聚集矩阵等级的超参，/>均表示用于计算点i与点j的特征向量差异的函数；

将全局特征学习支路与局部特征学习支路进行融合，获取高维兴趣区域框语义特征；

S6：将高维兴趣区域框语义信息输入到分类分支与回归分支得到最终的3D检测框与所属物体的类别信息；具体包括：

将兴趣区域框语义特征通过两个全连接层生成共享特征，并将共享特征送入分类置信度分支与回归分支得到最终的3D检测框与所属物体的类别信息；在分类置信度分支中，将预测框与真实框的IoU分数进行分配：

其中，IoU_i是第i个提案与对应的真实标注框之间的IoU，θ_L与θ_H为前景与背景的阈值，并且使用交叉熵损失用作置信度的预测，同样对于3D框的回归使用HuberLoss，对于3D框回归；框编码函数为：

θ_t＝θ_g-θ_a

其中，x,y,z为3D框的中心坐标；w,l,h分别为3D框的宽、长、高；θ为绕z轴的偏航旋转角度；下标t,g,a,分别代表编码之后的值，感兴趣3D框与真实的标注框；并且为感兴趣3D框的对角线长度；

最后一部分的损失函数为：

其中N_s为提取的兴趣框数量，1(IoU_i≥θ_reg)代表只有IoU_i≥θ_reg的兴趣框参与回归损失的计算；

S7：根据最终的3D检测框和所属物体的类别信息计算模型的损失函数，调制模型的参数，当损失函数值最小时，完成模型的训练；模型的损失函数表达式为：

L＝ωL_head+μL_RPN+λL_DIR

其中，ω、μ、λ分别为控制各个部分损失大小的平衡因子，L_head表示检测头损失，L_RPN表示RPN网络的损失，L_DIR表示方向损失。

2.根据权利要求1所述的一种基于图卷积的3D点云目标检测方法，其特征在于，对点云数据进行体素化的过程包括：选取一个张量，将该张量初始化为0值，设置体素的长、宽、高；遍历所有的点云数据，计算各个点云分别属于哪个体素，记录该体素的坐标以及每个体素的点数；计算每个体素内点云数据的平均坐标和反射强度；将每个体素内点云的平均坐标和反射强度作为初始特征。

3.根据权利要求1所述的一种基于图卷积的3D点云目标检测方法，其特征在于，3D稀疏卷积网络包括4个堆叠的稀疏卷积块，每个稀疏卷积块中包括一个稀疏卷积层；将体素特征输入到稀疏卷积层中，稀疏卷积由四个卷积块组成，每一部分别包含{2,2,3,3}个子流形稀疏卷积和1个稀疏卷积，并且每部分中稀疏卷积在最后一层以实现对3D特征图2倍下采样，最终4个部分分别实现了1倍，2倍，4倍，8倍的下采样尺寸，通过训练能够得到基于体素的稀疏特征；将堆叠的稀疏卷积块将体素特征逐层输入，生成具有更小分辨率与更大区分度的特征，得到不同尺度的高维稀疏体素特征。

4.根据权利要求1所述的一种基于图卷积的3D点云目标检测方法，其特征在于，对不同尺度的稀疏体素特征进行紧密化处理包括将稀疏特征沿Z维度进行堆叠，得到紧密特征。

5.根据权利要求1所述的一种基于图卷积的3D点云目标检测方法，其特征在于，提案生成网络包括自顶向下的特征提取子网络和多尺度的特征融合子网络；自顶向下的特征提取子网络设置有两个标准的3×3卷积层；多尺度的特征融合子网络用于上采样并且Concate自顶向下生成的特征；输出的特征通过两个并行的1×1卷积层进行卷积，生成最终的3D提案与对应的类别，得到高质量提案。

6.根据权利要求1所述的一种基于图卷积的3D点云目标检测方法，其特征在于，得到兴趣区域框的过程包括：采用Softmax函数对RPN网络分类分支输出的高质量提案进行计算，得到高质量提案的类别置信度，并采用非极大值抑制方法将所有提案的类别置信度排序，选取最大的类别置信度及其对应的高质量提案；遍历其余的提案，若遍历的提案与当前最大的类别置信度提案的重叠面积大于设置的阈值时，提取当前最大类别置信度的提案，并从未处理的提案中继续选一个类别置信度最大的提案，重复上述过程以滤除重叠比例较高的框；将筛选出的3D提案作为兴趣区域框。

7.根据权利要求6所述的一种基于图卷积的3D点云目标检测方法，其特征在于，设置的阈值为0.8。