CN114998890B

CN114998890B - 一种基于图神经网络的三维点云目标检测算法

Info

Publication number: CN114998890B
Application number: CN202210586391.4A
Authority: CN
Inventors: 李念峰; 李岩; 王玉英; 陈发青; 申向峰; 范媛媛; 曲鹏宇; 王春湘; 丁天娇; 肖治国
Original assignee: Changchun University
Current assignee: Changchun University
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2023-03-10
Anticipated expiration: 2042-05-27
Also published as: CN114998890A

Abstract

本发明一种基于图神经网络的三维点云目标检测算法，属于目标检测技术领域；包括步骤S1、获取点云数据集；步骤S2、完成点云语义图的构建；步骤S3、通过局部池化简化图结构，完成特征提取；步骤S4、进行图重构，将重构语义图输入空洞图卷积模块；步骤S5、将加权特征与步骤S3的特征进行拼接，用于步骤S7；步骤S6、全局池化选择最大值池化和求和池化的方法，得到全局特征向量；步骤S7、将步骤S5和S6得到的点云特征和图特征拼接计算后，输入到分类和定位分支，预测目标类别，画出3D检测框；步骤S8、计算损失，以梯度下降法收敛，直至损失最小，停止训练。本发明在现实场景下，能实现目标的分类和定位，具有较高的区分度。

Description

一种基于图神经网络的三维点云目标检测算法

技术领域

本发明属于目标检测技术领域，尤其涉及一种基于图神经网络的三维点云目标检测算法。

背景技术

目前，三维目标检测研究方法包括基于激光雷达的检测方法、基于深度图像的检测方法等。但点云提供了真实世界的三维几何感知，能更精确地描述现实物体和环境特征。近年来，许多研究方法将激光点云作为输入，研究原始点云编码算法。基于三维点云的目标检测算法包括基于投影的检测方法、基于体素采样的检测方法以及直接面向点云的方法。

前两种方法先将点云转化为结构化数据，再采用卷积网络进行特征提取，但是存在计算复杂、特征丢失的问题。面向点云的检测方法又分为基于点的方法和基于图的方法，前者能有效捕捉局部特征，但不能获取点云之间的连接关系；后者保留了数据空间特征，能捕获点云拓扑结构。但是，部分研究的构图均匀度较弱，易受噪声影响。并且采用的图卷积算法难以避免点云特征信息不足和过平滑问题，容易损失有效信息，增加了点云识别难度，影响3D检测性能。

发明内容

本发明目的在于提供一种基于图神经网络的三维点云目标检测算法，以解决结构化的卷积模型已无法适用于非结构化的点云特征提取，将点云数据进行结构化处理又会增加计算损失。因此，选择将点云作为直接输入，不采用映射处理。然而，点云稀疏无序的特性，容易导致采样不均匀，引起噪声数据。点云编码算法难以规避信息不足和图卷积过平滑的问题。

为实现上述目的，本发明的一种基于图神经网络的三维点云目标检测算法的具体技术方案如下：

一种基于图神经网络的三维点云目标检测算法，包括以下步骤，且以下步骤顺次进行：

步骤S1、获取点云数据集，划分出训练集、验证集和测试集；

步骤S2、对训练数据中的原始点云集合进行采样和聚类的预处理后，对目标点云的邻域空间构建连接边，完成点云语义图的构建；

步骤S3、将点云图输入到局部池化模块中，提取局部深层抽象特征，进一步减少目标节点规模，简化图结构，将特征语义图输入到图卷积模块中，通过节点之间的连接关系完成特征交互，包括特征聚合和特征更新的计算过程；

步骤S4、在图卷积操作之后，以目标点云为中心进行邻域重构，将重构语义图输入空洞图卷积模块，增大卷积感知范围，降低邻域特征噪声影响；

步骤S5、通过注意力机制计算更新后的节点特征权重，将加权特征与所述步骤S3的特征进行向量拼接，用于步骤S7的池化操作；

步骤S6、全局池化模块的构建选择最大值池化和求和池化的方法，作为对称性函数，能实现点云的置换不变性，解决点的无序性问题；通过图卷积层的特征提取，已经获取到目标节点的邻域特征，为了实现全局特征的传递，将池化后的特征向量再进行均值池化，得到全局特征向量；均值函数相较于最大值函数的优势在于，最大值函数容易造成特征信息的丢失，而均值函数能更好地保留节点特征信息；

步骤S7、将步骤S5和S6得到的点云特征和图特征拼接计算后，输入到分类和定位分支，预测目标的类别，并画出3D检测框；

步骤S8、计算检测损失，以梯度下降法收敛，调整算法参数，直至损失最小，停止训练。

进一步，所述步骤S2点云语义图的构建流程包括：首先通过体素下采样算法，降低点云密度，保留有效信息；再通过KNN算法，遍历采样空间，确定目标点的K近邻；最后，在节点邻域空间中建立点的连接关系，构建邻接边，完成语义图构建。

进一步，所述步骤S2中原始点云集合为P，表示为：

P＝{P₁，P₂，P₃......P_n|(n≤N)}

其中P_i属性表示为(x_i，s_i)，由三维空间坐标x_i和状态属性s_i组成，在激光点云数据集下，采用激光反射强度表示；

对于给定的点云集合P，通过KNN算法捕捉到的邻域点云集合为：

捕捉到的拓扑关系表示为：

e(i,j)＝{(F_i,F_j)|j∈N_k(i)}

其中，F表示邻域点云集合，e(i,j)表示连接关系，D表示空间距离度量方式，采样欧式距离计算，Max表示取最远距离，Min表示取最近距离。F_i是目标中心点，F_k是待采样点，N_k(i)代表点F_i的邻域空间，F_j代表其中的邻节点。

进一步，所述步骤S2结束后，对训练数据先进行下采样处理，去除部分数据噪声，降低点云密度，得到目标点云集合；采用K最邻近算法对点云集合进行计算，使用Kd-Tree索引提高查询效率，遍历采样空间后，选取目标点云的K近邻，再进行所述步骤S3。

进一步，所述步骤S3中的，将特征语义图输入到图卷积模块后，图卷积计算采用消息传递网络实现，包括节点特征传递和更新两个阶段；采用的图卷积计算方式除点云坐标外，另引入目标节点和邻节点状态s_i和s_j，加入目标节点自身属性，弥补点云特征不足的问题，进一步增强节点特征；构建优化的图卷积模块，并且采用自动配准机制，减少平移方差，实现点云平移不变性；

图卷积模块采用多层感知机完成特征映射；特征聚合函数选择最大值函数，针对点云无序性，通过求取特征最大值，实现局部置换不变性。

进一步，所述步骤S3中的领域特征噪声，采用门控循环单元(Gate RecurrentUnit，GRU)作为状态更新器，过滤点云图中存在的大量噪声信息，减缓网络过平滑现象；目标节点t+1时刻下的状态取决于此时的邻域聚合信息和t时刻的属性，通过门控信号，控制保留聚合特征中的有效信息，过滤噪声；通过门控信号的权重互补增强更新状态的稳定性，特征向量之间的复合计算，采用多层感知机实现。

具体为，所述步骤S3中图卷积模块采用的图卷积计算方法引入点云坐标外、目标节点s_i和邻节点状态属性s_j，得到的图卷积特征聚合表达函数和特征更新函数为：

其中，l^t使用多层感知机完成特征映射，获取深层抽象特征。p选择特征聚合方式为Max，针对点云无序性，通过Max方法实现局部置换不变性；h^t(s_i ^t)使用节点i的状态计算了坐标偏移量，将h^t输出设置为0时，禁用该自动配准机制；图卷积通过引入目标和邻节点状态，完成局部节点对的特征交互、聚合。

进一步，所述步骤S3中的节点状态信息存在大量特征噪声，采用门控循环单元作为特征更新模型，完成语义图中特征噪声的过滤，减缓模型过平滑现象，更新函数表示为：

其中，z是门控信号，控制保留信息和过滤信息，目标节点t+1时刻下的状态属性取决于此时态下的聚合信息和t时刻的节点本身属性，门控单元通过权重的相互弥补实现更新状态的稳定；

图卷积模块包括三层感知机和一层门控循环单元，进行的特征维度映射表示为：

[N*900]→[N*600]→[N*600]→[N*300]

图卷积模块通过两次迭代，提取语义图的二阶邻域特征

所述步骤S4中点云语义图重构算法，将K值设置为50，采用KNN算法取出目标节点的50个近邻点，然后重新计算邻域特征；重构目的在于重构邻居关系，避免固定图结构下的聚合趋势相似。

进一步，所述步骤S4空洞图卷积模块的空洞图卷积的膨胀率参数设置为2，随机率设置为0.2，以增强模型的鲁棒性。

进一步，所述步骤S8中求取损失使用的损失函数包括分类损失和定位损失：

分类损失定义为平均交叉熵损失函数：

其中，

和

表示i节点的标签和预测概率；

通过Huber损失计算定位损失，在此取所有点的损失均值：

为防止模型过拟合，加入L2正则化损失函数：

Reg_loss＝∑_i(μ_ix_i-X_i)²+λ(μ_i)²

将三个部分的损失函数相加，得到模型全部损失计算函数：

Total_loss＝aAverage_loss+bLoc_loss+cReg_loss

其中a，b，c为常量因子，采用梯度下降法迭代求解最小化的损失函数和模型参数。

本发明的一种基于图神经网络的三维点云目标检测算法具有以下优点：该算法直接面向点云，构建点云语义图，通过图卷积捕捉点云的拓扑结构特征，完成点云之间的特征交互，用于全局视野下的目标检测任务；构建的目标检测网络能迅速扩大图卷积感知范围，优化过平滑问题，具有较高的鲁棒性和较优的性能。

附图说明

图1为本发明的一种基于图神经网络的三维点云目标检测算法的整体流程示意图。

图2为本发明的一种基于图神经网络的三维点云目标检测算法的图卷积模块示意图。

图3为本发明的一种基于图神经网络的三维点云目标检测算法的目标检测模型结构示意图。

图4为本发明的一种基于图神经网络的三维点云目标检测算法的全局池化层结构示意图。

图5为实施例1中的一种在KITTI数据集上的检测效果示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于图神经网络的三维点云目标检测算法做进一步详细的描述。

如图1-图4所示，本发明涉及一种基于图神经网络的三维点云目标检测模型，完成点云数据的渲染，使机器感知3D环境，可以应用于虚拟现实和自动驾驶领域。

整个算法流程可简单理解为：在局部池化操作之后，通过两个图卷积模块对语义图进行特征提取；在两层图卷积网络后，对点云集合重新构图，输入到空洞图卷积中，增大感知范围，减少邻域噪声影响；通过残差连接，将每次卷积得到的特征向量进行拼接计算；将点特征输入到全局池化层，得到全局特征向量；将局部特征和全局特征向量拼接后输入预测模块，进行目标分类和定位。

本发明提供一种基于图神经网络的三维点云目标检测算法，基于图神经网络和残差连接，实现点云的特征传递和更新，完成点云目标检测任务。经过测试，该算法在KITTI数据集(由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办的自动驾驶场景下的计算机视觉算法评测数据集)上能有效完成现实场景下的人和车的识别检测。该检测算法性能良好，具有较高区分度。

实施例1：

一种基于图神经网络的三维点云目标检测算法，如图1所示，该方法包括：将原始点云数据通过下采样降低点云密度；采用最近邻算法获取目标点云的近邻点，构建邻域空间和点云语义图；然后通过训练好的目标检测模型，提取点特征和图特征，用于实际场景下的目标分类和定位；对预测结果进行分析处理；所述的目标检测模型由图卷积层、残差连接网络以及池化层构成。

三维点云目标检测模型的训练过程包括：

S1：获取点云数据集，划分出训练集、验证集和测试集。

在KITTI数据集上完成模型的训练，按数据量分出7481个训练样本和7518个测试样本，每个样本都包含点云数据和相机图像；训练过程中，进一步将训练集划分为包含3721个样本的训练数据以及包含3769个样本的验证数据。

S2：对训练数据进行采样和聚合的预处理后，对目标点云的邻域空间构建连接边，完成点云语义图的构建。

构图方法(构图方法包括节点的选择以及构建连接边的方法)通过点的采样和聚类，捕捉局域拓扑关系，建立目标节点和邻节点之间的连接关系，选取基于Kd-Tree索引的KNN算法，首先确定划分维度，然后取出数据中值划分超平面，直至所有点划分完毕，Kd-Tree索引时间复杂度接近于log₂n，搜索效率较高，查询近邻点时，对于稀疏不均匀的点云，具有较高的鲁棒性。

点云语义图的构建流程包括：首先通过体素下采样算法，降低点云密度，保留有效信息；再通过KNN算法，遍历采样空间，确定目标点的K近邻；最后，在节点邻域空间中建立点的连接关系，构建邻接边，完成语义图构建。

原始点云集合为P，表示为：

P＝{P₁，P₂，P₃......P_n|(n≤N)}

其中P_i属性表示为(x_i，s_i)，由三维空间坐标x_i和状态属性s_i组成，在激光点云数据集下，采用激光反射强度表示。

捕捉到的拓扑关系表示为：

e(i,j)＝{(F_i,F_j)|j∈N_k(i)}

S3：将点云图输入到局部池化模块中，提取局部深层抽象特征，进一步减少目标节点规模，简化图结构，将特征语义图输入到图卷积模块中，通过节点之间的连接关系完成特征交互，包括特征聚合和特征更新的计算过程。

采用的图卷积计算方法除点云坐标外，另引入目标节点和邻节点状态属性s_i和s_j，引入节点自身属性，增强点的特征信息，构建的图卷积采用自动配准机制，减少点云平移方差，得到的图卷积特征聚合表达函数和特征更新函数为：

其中，l^t使用多层感知机完成特征映射，获取深层抽象特征。p选择特征聚合方式为Max，针对点云无序性，通过Max方法实现局部置换不变性。h^t(s_i ^t)使用节点i的状态计算了坐标偏移量，将h^t输出设置为0时，禁用该自动配准机制。图卷积通过引入目标和邻节点状态，完成局部节点对的特征交互、聚合。

节点状态属性信息存在大量特征噪声，采用门控循环单元作为特征更新模型，完成语义图中特征噪声的过滤，减缓模型过平滑现象，更新函数表示为：

其中，z是门控信号，控制保留信息和过滤信息，目标节点t+1时刻下的状态属性取决于此时态下的聚合信息和t时刻的节点本身属性，门控单元通过权重的相互弥补实现更新状态的稳定。

图卷积模块包括三层感知机和一层门控循环单元，结构如图2所示，进行的特征维度映射表示为：

[N*900]→[N*600]→[N*600]→[N*300]

图卷积模块通过两次迭代，提取语义图的二阶邻域特征。

S4：在图卷积操作之后，以目标点云为中心进行邻域重构，将重构语义图输入空洞图卷积模块，增大卷积感知范围，降低邻域噪声影响。

重构图目的在于重构点云连接关系，避免固定图结构下的聚合特征趋向相似。并且通过一层空洞图卷积，增大图卷积感受野，减少邻域噪声信息干扰。

在2层图卷积模块后，重构点云邻域空间。重构方法采用KNN算法重新获取目标节点的邻节点，优选的，设置k值为50。

将空洞卷积扩展到非欧式数据空间中，与图神经网络结合，扩大图卷积感知范围，优选的，计算过程中Dilated rate设置为2，并设置Random rate为0.2，以增强模型鲁棒性。

S5：通过注意力机制计算更新后的节点特征权重，将加权特征与S3的特征进行向量拼接，用于S7的池化操作。

将局部池化特征表示为节点t⁰时刻的状态State₀，通过一个软注意力机制，计算出节点特征的权重分值；将分值赋予t²时刻下的节点状态State₂，计算出加权特征；并将State₀与State₃进行特征拼接操作，输入全局池化层，得到语义图全局特征。

目标检测模型在三层图卷积模块的结构基础上，增加了残差连接，如图3所示，通过跳跃残差连接和空洞图卷积，扩大了图卷积特征感知范围，增强了点云特征信息，在不同时刻的状态差值下，抑制节点状态的趋向，优化模型特征提取性能。

S6：全局池化选取最大值和求和池化的对称性函数，获取局部邻域特征后，再次进行均值池化计算，得到全局特征。

优选的，全局池化方法选择Max池化和Sum池化算法，最大值函数和求和函数是对称性函数，能实现点云的置换不变性，解决点云无序性问题，全局池化层结构如图4所示。

通过图卷积模块的特征提取，获取到局部邻域特征，为了实现全局特征的传递，将池化后的点特征向量，再次进行Mean池化操作，计算得到的特征作为全局特征向量。Mean函数相比于Max函数的优势在于，Max函数易造成特征的丢失，而Mean函数则更好地保留了节点特征。

S7：将S5和S6得到的点云特征和图特征拼接计算后，输入到分类和定位分支，预测目标的类别，并画出3D检测框；

将图卷积层和池化层输出的点特征向量与图特征向量拼接计算后，输入到目标检测模块，在分类分支中预测目标类别，在定位分支中标出检测边界框。

3D检测边界框和锚点参数为(x,y,z,l,w,h,θ)，其中(x,y,z)代表边界框中心位置，(l,w,h)代表长宽高，θ是偏航角，使用节点坐标对边界框编码：

其中，l_m，h_m，w_m，θ_m为常量因子。

S8：计算检测损失，以梯度下降法收敛，调整算法参数，直至损失最小，停止训练。

损失函数包括分类损失和定位损失。

分类损失定义为平均交叉熵损失函数：

其中，

和

表示i节点的标签和预测概率。

通过Huber损失计算定位损失，在此取所有点的损失均值：

为防止模型过拟合，加入L2正则化损失函数：

Reg_loss＝∑_i(μ_ix_i-X_i)²+λ(μ_i)²

将三个部分的损失函数相加，得到模型全部损失计算函数：

Total_loss＝aAverage_loss+bLoc_loss+cReg_loss

其中a，b，c为常量因子，采用梯度下降法迭代求解最小化的损失函数和模型参数，当损失函数值最小时，停止训练，保存模型和参数。

使用测试集对训练好的模型进行测试，目标检测模型能识别实际场景下的目标Car、Cyclist和Pedestrian，并且能画出物体检测框，在现实场景下模型对物体类别和位置都具有较高的区分度。

综上可知，一种基于图神经网络的目标检测算法直接面向原始点云数据，通过图卷积、空洞图卷积以及残差连接等模块，编码点云的有效信息，优化了点云特征信息不足和网络过平滑的问题。

通过融合图卷积层输出的点云局部特征和池化层输出的图全局特征，有效获取点云之间的连接关系和图的结构信息，捕捉点云的坐标、状态属性和空间特征，优化点云稀疏性问题。

图卷积的特征传递阶段引入点云的坐标信息和状态属性，增强特征，完成特征交互；特征更新阶段采用门控循环单元对特征噪声进行过滤，保留邻域特征中的有效信息，提高节点状态更新的稳定性。

该检测算法在现实场景下，能实现目标的分类和定位，具有较高的区分度。

实施例1：

将目标检测算法在KITTI数据集上进行验证，检测效果如图5所示。现实场景图中标记出了Car，pedestrian,cyclist三种目标的真值；对应地，通过检测算法在点云检测图中标出预测值。

在KITTI测试集上进行测试，得到简单的3D检测模式下的平均精度(the AveragePrecision，AP)，如表1所示。

表1

	Car	Pedestrian	Cyclist
				AP	84.22	43.89	69.59

根据检测结果，目标检测算法有效地完成了分类和定位的分支任务，对Car、Cyclist和Pedestrian三类目标，实现了较高的区分度。标注的目标检测框，对三类目标进行了预测和定位，预测值与真值接近；针对数据更加充分的Car目标，目标检测算法的平均精度达到80％以上。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于图神经网络的三维点云目标检测算法，其特征在于，包括以下步骤，且以下步骤顺次进行：

步骤S3、将点云图输入到局部池化模块中，提取局部深层抽象特征，将特征语义图输入到图卷积模块中，通过节点之间的连接关系完成特征交互，包括特征聚合和特征更新的计算过程；

步骤S6、全局池化模块的构建选择最大值池化和求和池化的方法，作为对称性函数，将池化后的特征向量再进行均值池化，得到全局特征向量；

2.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S2点云语义图的构建流程包括：首先通过体素下采样算法，降低点云密度，保留有效信息；再通过KNN算法，遍历采样空间，确定目标点的K近邻；最后，在节点邻域空间中建立点的连接关系，构建邻接边，完成语义图构建。

3.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S2中原始点云集合为P，表示为：

P＝{P₁，P₂，P₃......P_n|(n≤N)}

捕捉到的拓扑关系表示为：

e(i,j)＝{(F_i,F_j)|j∈N_k(i)}

其中，F表示邻域点云集合，e(i,j)表示连接关系，D表示空间距离度量方式，采样欧式距离计算，Max表示取最远距离，Min表示取最近距离；F_i是目标中心点，F_k是待采样点，N_k(i)代表点F_i的邻域空间，F_j代表其中的邻节点。

4.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S2结束后，对训练数据先进行下采样处理，去除部分数据噪声，降低点云密度，得到目标点云集合；采用K最邻近算法对点云集合进行计算，使用Kd-Tree索引提高查询效率，遍历采样空间后，选取目标点云的K近邻，再进行所述步骤S3。

5.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S3中的，将特征语义图输入到图卷积模块后，图卷积计算采用消息传递网络实现，包括节点特征传递和更新两个阶段；

6.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S3中图卷积模块采用的图卷积计算方法引入点云坐标外、目标节点s_i和邻节点状态属性s_j，得到的图卷积特征聚合表达函数和特征更新函数为：

其中，l^t使用多层感知机完成特征映射，获取深层抽象特征；p选择特征聚合方式为Max，针对点云无序性，通过Max方法实现局部置换不变性；h^t(s_i ^t)使用节点i的状态计算了坐标偏移量，将h^t输出设置为0时，禁用自动配准机制；图卷积通过引入目标和邻节点状态，完成局部节点对的特征交互、聚合。

7.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S3中的节点状态信息存在大量特征噪声，采用门控循环单元作为特征更新模型，完成语义图中特征噪声的过滤，减缓模型过平滑现象，更新函数表示为：

[N*900]→[N*600]→[N*600]→[N*300]

图卷积模块通过两次迭代，提取语义图的二阶邻域特征。

8.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S4采用KNN算法进行重构，取出目标节点的50个近邻点，然后重新计算邻域特征。

9.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S4空洞图卷积模块的空洞图卷积的膨胀率参数设置为2，随机率设置为0.2，以增强模型的鲁棒性。

10.根据权利要求1所述的基于图神经网络的三维点云目标检测算法，其特征在于，所述步骤S8中求取损失使用的损失函数包括分类损失和定位损失：

分类损失定义为平均交叉熵损失函数：

其中，

和

表示i节点的标签和预测概率；

通过Huber损失计算定位损失，在此取所有点的损失均值：

为防止模型过拟合，加入L2正则化损失函数：

Reg_loss＝∑_i(μ_ix_i-X_i)²+λ(μ_i)²

将三个部分的损失函数相加，得到模型全部损失计算函数：

Total_loss＝aAverage_loss+bLoc_loss+cReg_loss