CN114120067A

CN114120067A - 一种物体识别方法、装置、设备及介质

Info

Publication number: CN114120067A
Application number: CN202111474275.5A
Authority: CN
Inventors: 王奕超; 范渊; 刘博�
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-01

Abstract

本申请公开了一种物体识别方法、装置、设备及介质，包括：获取训练数据集；其中，所述训练数据集中包括点云数据样本和所述点云数据样本对应的标签信息；提取每一所述点云数据样本的三维特征和二维特征，并将所述三维特征和所述二维特征融合，以得到每一所述点云数据样本的融合特征；将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型；当获取到待识别点云数据，则利用所述训练后模型输出所述待识别点云数据对应的物体识别结果。这样，模型能够学习到点云数据的三维特征和二维特征，利用训练后的模型，能够提升针对大场景点云数据的物体识别的准确度，并避免计算量过大的问题。

Description

一种物体识别方法、装置、设备及介质

技术领域

本申请涉及物体识别技术领域，特别涉及一种物体识别方法、装置、设备及介质。

背景技术

LiDAR(即Light Detection and Ranging，激光雷达测量)是一种光学遥感技术，通过使用激光收集物体信息，包括物体坐标、颜色、强度和海拔等各种信息。目前多用于城市规划、3D数字城市建模、森林资源调查和地表检测等各种领域，LiDAR点云分类是激光雷达处理和机器学习领域的重要研究课题。在室外城市环境中，越来越多的应用需要点云分类的结果，如智能驾驶、机器人导航、场景三维建模等，因此复杂大场景的点云分类是一项重要的研究任务。

目前，现有的一些大场景点云分类方法通常是利用多视图或体素化方法将无组织点云转换成一种规则结构，然而在基于多视图的方法中，由于其需要经过多个不同角度投影点云数据形成二维的图像，这样会容易丢失一部分点云的三维信息；而体素化网络是将点云输入到一个体素化网络中，在很大程度上取决于体素的大小，体素较大容易造成计算量增多，体素量较小容易导致计算复杂度加大，虽然这种方法确实提高了点云分类的性能，但由于其计算量大，voxel网格分辨率低，占用了大量内存，丢失了本地信息，仍然不适合复杂的大场景。

发明内容

有鉴于此，本申请的目的在于提供一种物体识别方法、装置、设备及介质，能够提升针对大场景点云数据的物体识别的准确度，并避免计算量过大的问题。其具体方案如下：

第一方面，本申请公开了一种物体识别方法，包括：

获取训练数据集；其中，所述训练数据集中包括点云数据样本和所述点云数据样本对应的标签信息；

提取每一所述点云数据样本的三维特征和二维特征，并将所述三维特征和所述二维特征融合，以得到每一所述点云数据样本的融合特征；

将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型；

当获取到待识别点云数据，则利用所述训练后模型输出所述待识别点云数据对应的物体识别结果。

可选的，所述提取每一所述点云数据样本的三维特征，包括：

在每一所述点云数据样本中选取离每个点最近的第一预设数量个点以得到每个点的第一目标邻域点；

针对任一点，利用该点的所述第一目标邻域点计算该点的三维特征矩阵；

针对任一所述点云数据样本，将该点云数据样本的全部点的三维特征矩阵组成该点云数据样本的三维特征。

可选的，所述针对任一点，利用该点的所述第一目标邻域点计算该点的三维特征矩阵，包括：

针对任一点，利用该点的所述第一目标邻域点计算该点对应的多个预设特征值；

基于所述多个预设特征值构建该点的三维特征矩阵。

可选的，提取每一所述点云数据样本的二维特征，包括：

将每一所述点云数据样本沿X、Y、Z三个方向进行二维平面投影，得到投影数据；

在每一所述投影数据中选取离每个点最近的第二预设数量个点以得到每个点的第二目标邻域点；

针对任一点，利用该点的所述第二目标邻域点计算该点的二维特征矩阵；

针对任一所述点云数据样本，将该点云数据样本的全部点的二维特征矩阵组成该点云数据样本的二维特征。

可选的，所述将所述三维特征和所述二维特征融合，以得到每一所述点云数据样本的融合特征，包括：

针对每一所述点云数据样本，将每一点的所述三维特征矩阵与所述二维特征矩阵进行融合为二维特征矩阵以得到融合特征矩阵，并将所有点的融合特征矩阵确定为该点云数据样本的融合特征。

可选的，所述将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型之前，还包括：

获取初始模型；其中，所述初始模型为剔除了T-Net结构的PointNet模型。

可选的，所述将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型之后，还包括：

获取测试数据集；其中，所述训练数据集中包括点云测试数据和所述点云测试对应的测试标签；

利用所述训练后模型输出所述点云测试数据对应的物体识别结果；

基于所述物体识别结果和相应的所述测试标签评估所述训练后模型的识别准确度。

第二方面，本申请公开了一种物体识别装置，包括：

训练数据集获取模块，用于获取训练数据集；其中，所述训练数据集中包括点云数据样本和所述点云数据样本对应的标签信息；

特征提取模块，用于提取每一所述点云数据样本的三维特征和二维特征；

特征融合模块，用于将所述三维特征和所述二维特征融合，以得到每一所述点云数据样本的融合特征；

模型训练模块，用于将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型；

物体识别模块，用于当获取到待识别点云数据，则利用所述训练后模型输出所述待识别点云数据对应的物体识别结果。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的物体识别方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的物体识别方法。

可见，本申请实施例先获取训练数据集，其中，所述训练数据集中包括点云数据样本和所述点云数据样本对应的标签信息，然后提取每一所述点云数据样本的三维特征和二维特征，并将所述三维特征和所述二维特征融合，以得到每一所述点云数据样本的融合特征，之后将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型，当获取到待识别点云数据，则利用所述训练后模型输出所述待识别点云数据对应的物体识别结果。也即，本申请在模型训练前，先提取点云数据样本的三维特征和二维特征，并进行融合，得到融合特征，然后利用融合特征对模型进行训练，这样，模型能够学习到点云数据的三维特征和二维特征，利用训练后的模型，能够提升针对大场景点云数据的物体识别的准确度，并避免计算量过大的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种物体识别方法流程图；

图2为本申请公开的一种物体识别装置结构示意图；

图3为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，现有的一些大场景点云分类方法通常是利用多视图或体素化方法将无组织点云转换成一种规则结构，然而在基于多视图的方法中，由于其需要经过多个不同角度投影点云数据形成二维的图像，这样会容易丢失一部分点云的三维信息；而体素化网络是将点云输入到一个体素化网络中，在很大程度上取决于体素的大小，体素较大容易造成计算量增多，体素量较小容易导致计算复杂度加大，虽然这种方法确实提高了点云分类的性能，但由于其计算量大，voxel网格分辨率低，占用了大量内存，丢失了本地信息，仍然不适合复杂的大场景。为此，本申请提供了一种物体识别方案，能够提升针对大场景点云数据的物体识别的准确度，并避免计算量过大的问题。

参见图1所示，本申请实施例公开了物体识别方法，包括：

步骤S11：获取训练数据集；其中，所述训练数据集中包括点云数据样本和所述点云数据样本对应的标签信息。

需要指出的是，ALS(即Airborne Laser Scanning，机载激光扫描)系统可以同时获取地物的几何信息和辐射信息，在点云分类中得到了广泛的应用，本申请实施例可采用ALS系统采集的点云数据集作为训练数据，标签信息可以包括植物、电线杆、地面、建筑物及电线五种标签。

步骤S12：提取每一所述点云数据样本的三维特征和二维特征，并将所述三维特征和所述二维特征融合，以得到每一所述点云数据样本的融合特征。

在具体的实施方式中，提取每一所述点云数据样本的三维特征，包括：在每一所述点云数据样本中选取离每个点最近的第一预设数量个点以得到每个点的第一目标邻域点；针对任一点，利用该点的所述第一目标邻域点计算该点的三维特征矩阵；针对任一所述点云数据样本，将该点云数据样本的全部点的三维特征矩阵组成该点云数据样本的三维特征。

其中，针对任一点，利用该点的所述第一目标邻域点计算该点对应的多个预设特征值；基于所述多个预设特征值构建该点的三维特征矩阵。

并且，在具体的实施方式中，提取每一所述点云数据样本的二维特征，包括：将每一所述点云数据样本沿X、Y、Z三个方向进行二维平面投影，得到投影数据；在每一所述投影数据中选取离每个点最近的第二预设数量个点以得到每个点的第二目标邻域点；针对任一点，利用该点的所述第二目标邻域点计算该点的二维特征矩阵；针对任一所述点云数据样本，将该点云数据样本的全部点的二维特征矩阵组成该点云数据样本的二维特征。

其中，对大场景点云数据X、Y、Z三个方向的YOZ、XOZ、XOY平面进行二维投影，得到相应的投影数据。也即，点云数据样本的每一点都存在三个投影数据对应的二维特征矩阵。并且，针对任一点，利用该点的所述第二目标邻域点计算该点对应的多个特征值；基于所述多个特征值构建该点的二维特征矩阵。

进一步的，第一预设数量和第二预设数量可以均为同一数量，比如均为50。

例如，针对点云数据样本的每个点通过KNN方法选取周围50个点计算17个特征值，得到该点的三维特征特征矩阵。对点云数据样本X、Y、Z三个方向的YOZ、XOZ、XOY平面进行二维投影，得到3个平面的投影数据，针对任一点，每个投影数据中，通过KNN方法选取每个点周围50个点计算5个特征值，得到该点基于每个投影数据的二维特征矩阵。也即，不论是在二维还是在三维平面上，均以每一点为中心，通过KNN方法计算周围最近的50个点组成一个计算单位，基于每个点云的3维和2维最近点云，每个点的三维特征矩阵为:[L_λ,N_x,N_y,N_z,P_λ,S_λ,M_x,M_y,M_z,O_λ,A_λ,E_λ,T_λ,C_λ,D,Q,V]；其中，[N_x,N_y,N_z]^T表示该点的最大分布方向，[M_x,M_y,M_z]^T表示该点的最小分布方向，V表示垂直度。二维特征矩阵为[r_k,D_2D,R_λ,2D,S_2D,EVratio_2D]，其中r_k为最优邻域半径，D_2D为2维的局部点密度，R_λ,2D为特征值比率，S_2D为特征值的和，EVratio_2D高度方差。

其中，对于一个点X_i＝(x_i,y_i,z_i)在它周围n个邻域点基础上，可以计算出中心点值

然后再计算

协方差矩阵表示为

从协方差矩阵表中计算得出λ₁、λ₂、λ₃，且λ₁＞λ₂＞λ₃，使用这些特征值可以计算出构成三维特征矩阵的预设特征值，其中，

基于点云表面形状的特征：反映每个点的微小区域内的局部曲面变化，如下式:

利用特征值可以推导出维度方面的特征，包括线状，面状，簇状属性，分别为:

点云的基本属性三维局部点密度的定义：

三维点P(x,y,z)，则上式中K为点P的最近邻个数，r_k-NN为该点到其所在球邻域内第K个点P_k(x_k，y_k，z_k)的距离，即球半径为：

基于前三个最近邻P₁，P₂，P₃和其本身P，可求得该点的最近邻四面体体积Q:

高程特征度量公式垂直度：

Verticality＝1-|n_z|

其中，n_z为z轴上计算的第三个高程向量值。

局部三维形状特征包括全方差O_λ，各向异性A_λ，特征熵E_λ，以及该点处的轨迹T_λ，则以上参数求解公式分别为：

其中，e₁，e₂，e₃均为0-1化处理后的特征值。

设点P对应的二维结构张量为S₂，即二维协方差矩阵，其对应的特征值为λ_2，2D，λ_1，2D，那么可求得特征值的比率为：

该参数能代表平面二维结构，为了避免求得的特征值等于0，假设一个很小的正数ε，使得当λ_1，2D或λ_2，2D为0时，令λ_1，2D＝ε或λ_2，2D＝ε。

此外，还可提取特征值的和：

S_2D＝λ_1，1D+λ_2，2D

给定点P_k＝(x_k，y_k)为点P的第k个邻近点，k为点P的最优圆邻域尺寸参数，则点P处的最优圆邻域半径r_k公式：

另外，关于二维特征矩阵中的局部点密度和高度方差的计算方式可参考现有技术在此不再进行赘述。

进一步的，在具体的实施方式中，可以针对每一所述点云数据样本，将每一点的所述三维特征矩阵与所述二维特征矩阵进行融合为二维特征矩阵以得到融合特征矩阵，并将所有点的融合特征矩阵确定为该点云数据样本的融合特征。

具体的，可以通过Fuse操作将提取的二维特征矩阵和三维特征矩阵进行融合，此时得到的多维特征矩阵为二维的矩阵值[32x32]。三维特征矩阵中包括三维点云特征值共17个，每个平面投影数据对应的二维特征矩阵中的二维特征值为5个，3个平面共15个二维特征值，最终组合成32个特征值，然后将这32个值进行交叉排列成32*32的矩阵。

步骤S13：将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型。

在具体的实施方式中，本申请实施例预先获取初始模型；其中，所述初始模型为剔除了T-Net结构的PointNet模型。

需要指出的是，PointNet原型通常用在CAD点云上，本申请将其与大场景相结合，模型输入数据不是点云数据，因此，剔除T-Net结构。

其中，点云特征图也即融合特征的特征值经过卷积层提取出来之后，更多关注的是特征值相对于其他特征值的相对位置，pooling和downsampling操作就是这样的一种操作，它收集了卷积核感受野周围相对信息并输出对这片感受野的反应信息，pooling操作有助于提取一系列的特征值，这些特征值不随放大和平移操作而变化，有助于提高泛化减少过拟合现象。

Z_l表示第L层输出的特征图，

表示第L层输入的特征图，f(*)表示池化操作，常见的池化操作有max、average、Overlapping。本申请实施例中网络层中使用的是maxpooling操作，将得到的特征映射分割成若干个大小不同的块，取其小块中最大的值，达到增大感受野的效果。

激活函数作为一个决策函数，有助于学习复杂的模式。不同的激活函数适用于不同的网络层，不同的激活函数加速网络的效果也不一样，根据网络选取合适的激活函数，常见的激活函数有sigmoid、tanh、relu。本申请实施例采用的是relu激活函数，可以解决梯度消失和加快训练速度。

表示激活函数的输入，f_A(*)是指f(x)所表示的relu激活函数。

Batch Normalization可以看做是为了防止神经网络的层数加深造成反向传播梯度消失，将网络层中神经元的值重新规划到一定范围内，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。公式如下所示：

FC Layer层主要用于网络的低部进行分类。它从前一层获取输入，并全局分析所有前一层的输出。它将选定的特征进行非线性组合，用于数据分类。

进一步的，本申请实施例可以获取测试数据集；其中，所述训练数据集中包括点云测试数据和所述点云测试对应的测试标签；利用所述训练后模型输出所述点云测试数据对应的物体识别结果；基于所述物体识别结果和相应的所述测试标签评估所述训练后模型的识别准确度。

例如，为了与公开模型对比性能，对比其他方法在oakland 3D数据集上的分类结果，对比结果如下表1所示。本申请在电线杆和电线两个标签上分类的分类效果比较差，这两类的点比较少，分类的错误比较多，电线杆类和线这两类别的分类精度分别为20.2％和64.8％，与其他的文献相比较差。因为这些类别的点本来就是数据量少，当对这些类别的点进行在x,y,z方向投影时，势必会造成部分不同类别的点的重合覆盖，从而影响计算该类点的二维特征精度的计算。但是对于类别的点比较有优势，类别多的覆盖了类别少的点，所以在最终的结果呈现出类别多的点准确率高，类别少的点准确率低的现象。可见，本申请方案在Oakland 3D数据集取得了一个非常好的效果，在总的训练精度上达到了98.0％的一个分类精度，在其他不同类的分类精度上也具备一定的优势。

表1

步骤S14：当获取到待识别点云数据，则利用所述训练后模型输出所述待识别点云数据对应的物体识别结果。

可以理解的是，本申请可以应用于在无人机着陆过程中，寻找合适的空白着陆点，在实际运用场景中将经过无人机扫描的实时激光点云数据，经过网络模型处理后，区分植物，建筑，空白地面，电线杆，从而可以准确的寻找空白陆地进行着陆。

参见图2所示，本申请实施例公开了一种物体识别装置，包括：

训练数据集获取模块11，用于获取训练数据集；其中，所述训练数据集中包括点云数据样本和所述点云数据样本对应的标签信息。

特征提取模块12，用于提取每一所述点云数据样本的三维特征和二维特征。

特征融合模块13，用于将所述三维特征和所述二维特征融合，以得到每一所述点云数据样本的融合特征。

模型训练模块14，用于将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型。

物体识别模块15，用于当获取到待识别点云数据，则利用所述训练后模型输出所述待识别点云数据对应的物体识别结果。

其中，特征提取模块12，具体用于在每一所述点云数据样本中选取离每个点最近的第一预设数量个点以得到每个点的第一目标邻域点；针对任一点，利用该点的所述第一目标邻域点计算该点的三维特征矩阵；针对任一所述点云数据样本，将该点云数据样本的全部点的三维特征矩阵组成该点云数据样本的三维特征。

进一步的，特征提取模块12，具体用于针对任一点，利用该点的所述第一目标邻域点计算该点对应的多个预设特征值；基于所述多个预设特征值构建该点的三维特征矩阵。

在具体的实施方式中，特征提取模块12，具体用于将每一所述点云数据样本沿X、Y、Z三个方向进行二维平面投影，得到投影数据；在每一所述投影数据中选取离每个点最近的第二预设数量个点以得到每个点的第二目标邻域点；针对任一点，利用该点的所述第二目标邻域点计算该点的二维特征矩阵；针对任一所述点云数据样本，将该点云数据样本的全部点的二维特征矩阵组成该点云数据样本的二维特征。

特征融合模块13，具体用于针对每一所述点云数据样本，将每一点的所述三维特征矩阵与所述二维特征矩阵进行融合为二维特征矩阵以得到融合特征矩阵，并将所有点的融合特征矩阵确定为该点云数据样本的融合特征。

进一步的，所述装置还包括模型获取模块，用于获取初始模型；其中，所述初始模型为剔除了T-Net结构的PointNet模型。

另外，所述装置还包括，模型测试模块，用于获取测试数据集；其中，所述训练数据集中包括点云测试数据和所述点云测试对应的测试标签；利用所述训练后模型输出所述点云测试数据对应的物体识别结果；基于所述物体识别结果和相应的所述测试标签评估所述训练后模型的识别准确度。

参见图3所示，本申请实施例公开了一种电子设备20，包括处理器21和存储器22；其中，所述存储器22，用于保存计算机程序；所述处理器21，用于执行所述计算机程序，前述实施例公开的物体识别方法。

关于上述物体识别方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

并且，所述存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，所述电子设备20还包括电源23、通信接口24、输入输出接口25和通信总线26；其中，所述电源23用于为所述电子设备20上的各硬件设备提供工作电压；所述通信接口24能够为所述电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的物体识别方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种物体识别方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种物体识别方法，其特征在于，包括：

2.根据权利要求1所述的物体识别方法，其特征在于，所述提取每一所述点云数据样本的三维特征，包括：

3.根据权利要求2所述的物体识别方法，其特征在于，所述针对任一点，利用该点的所述第一目标邻域点计算该点的三维特征矩阵，包括：

基于所述多个预设特征值构建该点的三维特征矩阵。

4.根据权利要求2所述的物体识别方法，其特征在于，提取每一所述点云数据样本的二维特征，包括：

5.根据权利要求4所述的物体识别方法，其特征在于，所述将所述三维特征和所述二维特征融合，以得到每一所述点云数据样本的融合特征，包括：

6.根据权利要求1所述的物体识别方法，其特征在于，所述将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型之前，还包括：

7.根据权利要求1所述的物体识别方法，其特征在于，所述将所述融合特征输入初始模型以对所述初始模型进行训练，得到训练后模型之后，还包括：

8.一种物体识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的物体识别方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的物体识别方法。