CN116363439A

CN116363439A - 一种基于多头自注意力的点云分类方法、装置及设备

Info

Publication number: CN116363439A
Application number: CN202310434484.XA
Authority: CN
Inventors: 刘学君; 王文晖; 晏涌; 沙芸; 江逸楠; 崔忠骥; 韩冉冉; 栾海英
Original assignee: Beijing Institute of Petrochemical Technology
Current assignee: Beijing Institute of Petrochemical Technology
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-06-30

Abstract

本申请涉及一种基于多头自注意力的点云分类方法、装置及设备，属于大数据处理技术领域。本申请通过获取原始点云的样本数据集，对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量，构建基于多头自注意力的待训练模型，将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，本申请通过将点云的样本数据集中点云分布归一化，提取高维度的特征向量，将该高维度的特征向量送入训练完成的多头自注意力的点云分类模型，提取不同注意力下点云的特征，并进行模型运算最终得到点云分类结果，有助于帮助解决采用现有点云分类技术对点云进行分类，由于丢失特征导致分类准确率低的问题。

Description

一种基于多头自注意力的点云分类方法、装置及设备

技术领域

本发明属于大数据处理技术领域，具体涉及一种基于多头自注意力的点云分类方法、装置及设备。

背景技术

随着我国社会经济的快速发展，各种危险化学品(简称“危化品”)的应用也越来越广泛，但张家口11.23爆炸事故、天津港8.12爆炸事故等重大安全事故的发生，都表明着我国危化品仓储安全管理体系还存在严重不足。传统的人工巡查和值班方式费时费力、效率低下，使用远程相机的监控方式提高了效率，但受到遮挡、光照的问题的影响较为严重，因此需要一种更加有效的危化品仓库监管方法。

随着三维成像技术的发展，结构光测量、激光扫描等技术趋于成熟，物体表面的三维坐标能够精准而快速的获取，从而生成场景的三维数据，能够更好地感知和理解周围环境。三维数据包含了场景的深度信息，能够表示物体的表面形状，在机器人、AR/VR、人机交互、遥感测绘等多个领域具有广阔的应用前景。三维数据具有深度信息，可以较好的解决危化品仓储中的许多问题，因此使用三维数据对危化品仓库中的货物进行分类监管是近年来的研究主流方向。

然而，与二维图像中像素的规则排列方式不同，点云数据是无序的，这使得它很难直接应用卷积来获取三维点之间的局部相关性信息。同时，由于采集方法的原因，点云数据常常是非均匀分布的，不同局部区域的点云密度常常不等，这会为特征提取时，数据点的采样带来困难。此外，三维空间中物体的形变较二维图像更为复杂，除三个维度的仿射变换外，还有非刚体形变需要考虑。因此，点云在分类上的主要问题就是其稀疏性和无序性。

目前，点云分类任务的主要方法主要有基于多视图的分类方法、基于体素表示的方法和基于点的表示方法三种。

基于多视图的分类方法是将三维点云投影到二维平面中，通过处理不同角度的投影图来对点云进行分类，其关键问题在于如何将多个视图的特征融合为一个有区别的全局特征。Abdullah Hamdi使用了端到端的多视图转换网络(MVTN)，对不同视角的图像分配权重，为特定任务找到其最佳视图，但其所需视角数量大，运算速度慢。Tianyu Huang将不同视角下的深度图使用编码器进行编码，然后使用对比学习的方法将深度特征与视觉特征对其，但其受到图像深度域差距的影响较大。

基于体素表示的方法是将点云体素化，再进行分类。Maosheng Ye在多尺度上进行体素化，然后使用体素卷积(VoxelConv)的方法对体素化后的点云提取特征，然后进行分类，但其在高分辨率下的分类速度较慢，并且占用内存较大。Lifa Zhu使用局部编码器的方式对点云进行体素化，然后使用金字塔池化在多个尺度上进行特征融合，最后使用自适应特征提取层对特征进行池化。基于体素化的方法取得了一定的成果，但该类方法会损失重要的细节特征，因此难以得到进一步的提升。

现有的大多方法都是基于点的表示方法，通过对原始数据直接处理，保留了点云的完整性。Charles R.Qi首先提出了一种新型的处理点云数据的深度学习模型，并验证了它能够用于点云数据的多种认知任务，如分类、语义分割和目标识别。网络使用点数据作为输入，使用特征转换对每个点独立提取特征，然后通过最大池化层聚合点特性，最后使用softmax层得到点云的分类结果。PointNet只是简单的将所有点连接起来，仅仅考虑了全局特征，而丢失了每个点的局部信息。Xu Ma使用简单分层网络提取局部几何特征，然后使用多层残差网络处理局部特征并进行分类，该方法缩减了参数量，提高了运算速度，但丢失了部分局部特征。

所有这些分类技术的主要缺点是由于丢失特征导致分类的准确率低。

发明内容

本申请提供一种基于多头自注意力的点云分类方法、装置及设备，有助于帮助解决采用现有点云分类技术对点云进行分类，由于丢失特征导致分类准确率低的问题。

为实现以上目的，本申请采用如下技术方案：

根据本发明实施例的第一方面，提供一种基于多头自注意力的点云分类方法，包括：

获取原始点云的样本数据集；

对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量；

构建基于多头自注意力的待训练模型；

将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，其中，所述基于多头自注意力的点云分类模型用于得到点云分类结果。

优选地，对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量，包括：

将所述原始点云的样本数据集中点经过平移、放缩后，得到第一点云样本数据集；

对所述第一点云样本数据进行筛选，删除一定噪点，得到第二点云样本数据集；

使用一个单层全连接神经网络提取所述第二点云样本数据集中每个点更大范围的特征，并将所述特征通过最大池化进行合并，得到所述点云的特征向量，其中，所述单层全连接神经网络，包括：Liner层,BatchNorm层和ReLU层。

优选地，使用一个单层全连接神经网络提取所述第二点云样本数据集中每个点更大范围的特征，包括：

从所述原始点云样本数据集中选取与所述第二点云样本数据集中每个点对应的类内点组成类内点集合，其中，所述类内点为满足一定条件的邻域点；

将所述第二点云样本数据集中每个点与其对应的类内点使用曲线连接起来；

使用状态描述符来描述所述曲线的当前状态；

根据所述曲线当前状态确定所述曲线接下来的前进方向，从所述原始点云样本数据集中选取下一个点，直到所述类内点集合中包含了足够的点，其中，所述类内点集合即为所述第二点云样本数据集中点对应的更大范围的特征。

优选地，所述待训练模型，包括：

编码器和解码器；

所述编码器，用于使用多头自注意力模块对所述点云进行全局特征向量提取，其中，所述多头自注意力模块由多个独立的自注意力模块构成；

所述解码器，用于对所述全局特征解码，得到所述点云的分类结果。

优选地，所述解码器，包括：

一个三层全连接神经网络，其中，每层所述全连接神经网络包括:Liner层,BatchNorm层和ReLU层。

优选地，所述特征向量包括：所述点云的样本数据集中训练集数据对应的第一特征向量和所述点云的样本数据集中测试集数据对应的第二特征向量；以及，将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，包括：

将所述第一特征向量送入优化后的所述待训练模型，得到所述训练集数据对应的第一分类结果；

将所述第一分类结果与真实分类结果进行对比，得出误差；

根据所述误差对所述待训练模型进行优化；

将所述第二特征向量送入优化后的所述待训练模型，得到所述测试集数据对应的第二分类结果；

将所述第二分类结果与真实分类结果进行对比，得出分类准确率,直到所述准确率达到一个稳定的数值时，则训练完成；

保存训练完成的所述待训练模型，得到所述基于多头自注意力的点云分类模型。

优选地，将所述第一特征向量送入优化后的所述待训练模型，得到所述训练集数据对应的第一分类结果；以及，将所述第二特征向量送入优化后的所述待训练模型，得到所述测试集数据对应的第二分类结果，包括：

将所述第一特征向量送入待训练模型编码器的多头自注意力模块，得到第一全局特征向量；

将所述第一全局特征向量送入待训练模型解码器进行解码，得到所述训练集数据对应的第一分类结果；

以及，将所述第二特征向量送入待训练模型编码器的多头自注意力模块，得到第二全局特征向量；

将所述第二全局特征向量送入待训练模型解码器进行解码，得到所述测试集数据对应的第二分类结果。

优选地，所述方法包括：

获取待分类点云数据；

对所述待分类点云数据进行特征提取，获得所述待分类点云的特征向量；

将所述特征向量送入基于如权利要求1所述的基于多头自注意力的点云分类模型，得到所述待分类点云的分类结果。

根据本发明实施例的第二方面，提供一种基于多头自注意力的点云分类装置，包括：点云分类模块；

所述点云分类模块用于执行上述所述的方法。

根据本发明实施例的第三方面，提供一种基于多头自注意力的点云分类设备，包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述所述的方法。

本申请采用以上技术方案，至少具备以下有益效果：

本申请通过获取原始点云的样本数据集，对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量，构建基于多头自注意力的待训练模型，将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，其中，所述基于多头自注意力的点云分类模型用于得到点云分类结果，本申请通过将点云的样本数据集中点云分布归一化，提取高维度的特征向量，将该高维度的特征向量送入训练完成的多头自注意力的点云分类模型，提取不同注意力下点云的特征，并进行模型运算最终得到点云分类结果，有助于帮助解决采用现有点云分类技术对点云进行分类，由于丢失特征导致分类准确率低的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种基于多头自注意力的点云分类方法的流程图；

图2是根据一示例性实施例示出的原始点云分布图；

图3是根据一示例性实施例示出的下采样后点云分布图；

图4是根据一示例性实施例示出的曲线行进过程中可能产生的循环示意图；

图5是根据一示例性实施例示出的多头自注意力机制示意框图；

图6是根据一示例性实施例示出的单个维度上的SA计算过程示意框图；

图7是根据另一示例性实施例示出的一种基于多头自注意力的点云分类方法的整体架构图；

图8是根据一示例性实施例示出的注意力头个数与最终分类准确率和不同头间距离的关系变化趋势图；

图9是根据一示例性实施例示出的8头注意力分配权重灰度图；

图10是根据一示例性实施例示出的12头注意力分配权重灰度图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

请参阅图1，图1是根据一示例性实施例示出的一种基于多头自注意力的点云分类方法的流程图，如图1所示，该方法包括如下步骤：

步骤S11、获取原始点云的样本数据集；

步骤S12、对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量；

步骤S13、构建基于多头自注意力的待训练模型；

步骤S14、将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，其中，所述基于多头自注意力的点云分类模型用于得到点云分类结果。

需要说明的是，在具体实践中，本实施例提供的基于多头自注意力的点云分类方法需要加载在电子设备的控制器中运行。

所述电子设备包括但不限于：台式机、笔记本电脑等。

可以理解的是，本实施例提供的技术方案，通过获取原始点云的样本数据集，对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量，构建基于多头自注意力的待训练模型，将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，其中，所述基于多头自注意力的点云分类模型用于得到点云分类结果，本申请通过将点云的样本数据集中点云分布归一化，提取高维度的特征向量，将该高维度的特征向量送入训练完成的多头自注意力的点云分类模型，提取不同注意力下点云的特征，并进行模型运算最终得到点云分类结果，有助于帮助解决采用现有点云分类技术对点云进行分类，由于丢失特征导致分类准确率低的问题。

在具体实践中，步骤S11中提及的“原始点云的样本数据集”包含多个点云数据，本实施例将这些点云数据用作模型训练的训练样本数据。

需要说明的是，由于点云数据的分布是稀疏矩阵，并且在空间中具有非常离散的特征点，因此简单使用MLP处理数据会降低模型的准确率，因为不同的点云在空间中的离散程度和几何结构都不同。因此，本申请使用了仿射变换的方法，根据数据集自身的特征，将空间中的点经过平移、放缩后，使其在整体上有较为一致的分布。

现有的transformer模型的注意力机制能够很好的聚合全局信息，但在局部信息提取上有所欠缺，而NLP通过使用非全局的头可以实现强迫注意力保持在局部范围内，但点云具有无序性，空间中的邻域可能在数据集上并不相邻，因此非全局的头在点云中不适用。

因此，本申请设计了一种点嵌入方法，通过下采样和特征聚合的方法，将局部特征合并。下采样过程可以对点云进行筛选，从中删除一定的噪点，并且让数据集在输入模型前保持一致的数据量，从而提升模型的分类性能。特征聚合过程将空间中距离相近的点分为一类，然后将其合并，并在更高维度上提取特征，增加的特征丰富度的同时减少了无用特征的数量。

由于危化品仓库货物的点云分布具有相似性，例如钢瓶和玻璃瓶等物品，因此在低维下难以分类，需要将其映射到更高维度。在PointNet中使用MLP将特征映射到高维度，但在映射过程中丢失了局部信息。因此本申请使用特征聚合的方法，在保留原有局部特征的基础上将其映射到高维空间。

在具体实践中，步骤S12“对所述点云的样本数据集进行特征提取，获得所述点云的特征向量”，具体为：

1.将所述点云的样本数据集中点经过平移、放缩后，得到第一点云样本数据集。

需要说明的是，本申请使用了仿射变换的方法，根据数据集自身的特征，将空间中的点经过平移、放缩后，使其在整体上有较为一致的分布。

在具体实践中，仿射变换的方法具体为：假设{f_i}_{i＝1,2,…,N}为一片数量为N的点云，其中每个点都是以三维向量的形式表示的，则可以用公式1计算仿射变换后每个点的坐标。

其中

为样本整体的质心，/>

为数据集的标准差，d为样本维度，在点云中，d为3，α、β是两个可训练的参数，用于控制仿射过程中放缩和平移的尺度。ε为控制参数，本算法中设置为1e-5，保证计算过程不会出现分母为0的情况。此外，向量乘法时使用的是哈达玛积的方式。

由于σ是和点云分布相关的参数，因此该方法可以将不同分布的数据集调整为统一的形式，变换后的数据集在形式上服从正态分布，同时保留了原有的几何特性。仿射变换后得到的一个包含N个点的新点云即为第一点云样本数据集。

2.对所述第一点云样本数据进行筛选，删除一定噪点，得到第二点云样本数据集。

需要说明的是，本申请使用了下采样过程对点云进行筛选，从中删除一定的噪点，并且让数据集在输入模型前保持一致的数据量，从而提升模型的分类性能。

在具体实践中，本申请中点云下采样方法采用最远点采样(FPS)方法。

使用FPS将N个点下采样至c个点的过程如下：

①从点云中随机选取一个点作为采样后点集的初始点。

②此时已被选取的点称为集合A，还未被选取的点称为集合B。对于B里面的点p_b，记录其与集合A中j个点的最小距离，记为

如公式2所示。

③使用一个长度为N的数组D，存储B中点到A的距离，

④在N中选取距离最大的点，将其从B放入A中。

⑤更新集合A和集合B，然后按照公式3更新N中的值。

⑥重复步骤④和⑤，直到集合A中包含了c个点。

本申请经过多次试验，最终取得c＝128，此时，点云在经过下采样后，保留了整体特征，并减少了点云数量。采样前后的点云分布如图2和图3所示，图2是根据一示例性实施例示出的原始点云分布图，图3是根据一示例性实施例示出的下采样后点云分布图。点云下采样后得到的一个包含128个点的新点云即为第二点云样本数据集。

3.使用一个单层全连接神经网络提取所述第二点云样本数据集中每个点更大范围的特征，并将所述特征通过最大池化进行合并，得到所述点云的特征向量，其中，所述单层全连接神经网络，包括：Liner层,BatchNorm层和ReLU层。

需要说明的是，本申请使用特征聚合的方法，在保留原有局部特征的基础上将其映射到高维空间。

在具体实践中，特征聚合过程包括聚类和合并，其中，使用曲线聚类方法进行聚类，然后使用一个单层全连接神经网络提取每个点更大范围的特征，最后使用最大池化的方法将每个类中的多个特征合并为一个特征。

在具体实践中，假设点云下采样后得到了一个包含128个点的第二点云样本数据集A，原始点云样本数据集B，特征聚合过程就是为A中的任意一点p_A,i，在B中按照一定条件找到其m个邻域点，然后将这些点合并为一个特征，总体的计算过程如公式4所示。

f_i＝MP(LBR{p_A,i,p_B,j|j＝1,2,……,m}) (4)

其中，p_A,i表示下采样后第二点云样本数据集A中第i个点，p_B,j表示从原始点云样本数据集B中提取的第j个邻域点，m表示领域点的个数，LBR是包含了Liner,BatchNorm和ReLU三个网络层的模块，输入维度为3，输出维度为64，MP为最大池化，f_i表示p_A,i及其邻域点经过特征聚合后的特征。

在具体实践中，曲线聚类方法具体包括如下步骤：

使用状态描述符来描述所述曲线的当前状态；

在具体实践中，现有的特征聚合方法一般使用k-means作为选取邻域点的条件，但k-means仅仅使用距离作为聚类条件，而危化品点云的数据较为精密，并且具有局部特征相似的特点，因此仅使用距离信息在聚类时会产生误差。

为了解决上述问题，本文提出了一种曲线聚类方法来获取更大范围的特征。对于A中的点p_A,i，在B中选取一系列与其相关的点，称为p_A,i的类内点时。在选取过程中，使用曲线将p_A,i和其类内点连接起来，然后使用状态描述符来描述曲线的当前状态，通过曲线当前状态确定曲线接下来的前进方向，选取下一个点，直到p_A,类中包含了足够的点。

首先选取初始点

计算初始特征描述符的过程如公式5所示。

s₀＝BR(p_A,)(5)

其中LBR的输入维度为3，输出维度为16，s₀为初始特征描述符。然后在B中以p_A,i为中心寻找m个近邻点，并分别计算选取每个点后的评分，如公式6所示。

α_j＝BR₂(MP(s₀,LBR₁(p_B,1,j)),j＝1,2,……,m(6)

其中LBR₁的输入维度为3，输出维度为16；LBR₂的输入维度为16，输出维度为1，p_B,1,j表示选取第1个点时邻域中的第j个点，α_j为p_B,1,j的评分。将其中评分最高的点作为选取的第一个点，即p_B,1＝_B,1,(())。此时曲线上包含了两个点，因此曲线的状态描述符也需要更新，更新过程如公式7所示。

s₁＝P(s₀,LBR(p_B,1))(7)

其中LBR的输入维度为3，输出维度为16，s₁为更新后的特征描述符。假设当前已经选取了k个点，在选取第k+1个点时，在B中以第k个点为中心选取m个近邻点，并按照公式8-10计算每个近邻点的评分和更新状态描述符。

α_j＝LBR₂(MP(s_k,LBR₁(p_B,k+1,j))),j＝1,2,……,m (8)

p_B,k+1＝p_{B,k+1,argmax(softmax(α))} (9)

s_k+1＝MP(s_k,LBR₁(p_B,k+1)) (10)

曲线选取点的过程，本质上是根据当前曲线的状态对所有可能选取的下一个点进行评分，然后将评分最高的点选取为类内点。这种简单的评分方式可能会导致循环，因为对于固定的曲线，公式8总会具有相同的输出，因此应该避免曲线在行进过程中选取到重复点。曲线可能产生的循环请参阅图4，图4是根据一示例性实施例示出的曲线行进过程中可能产生的循环示意图。

对于单点循环，可以通过排除自身点的方式避免这种循环。对于其他可能产生的循环，本文通过调整曲线行进的方向来避免循环的发生。假设当前选取的点为p_B,k，曲线当前的行进方向为

计算p_B,k到达其邻域中每个候选点的方向向量/>

然后使用公式11计算每个邻域点的方向权重。

公式10中，当曲线的行进方向和候选点的行进方向的夹角越大时，其对应的方向权重越小，当两向量完全反向时，d_j＝0。使用方向权重可以改变每个候选点的评分，从而避免循环的产生，此时公式8变为公式12。

α_j＝d_j·LBR₂(MP(s_k,LBR₁(p_B,k+1,j))),j＝1,2,……,m (12)

在具体实践中，下采样后第二点云样本数据集中每个点的类内所包含的点的个数应该根据原始点云样本数据集中点云数量确定。经过试验，本申请曲线聚类方法为A中的每个点选取了m＝32个类内点。

因此，使用公式12将A中的每个点和其类内点合并为一个特征向量，具体过程如公式13所示。

f_i＝MP(LBR(p_A,i,p_B,k|k＝1,2,……,32)) (13)

其中，p_A,i表示集合A中第i个点，p_B,k表示p_A,i的第k个类内点，LBR的输入维度为3，输出维度为64，MP为最大池化，f_i表示第i个聚类合并后的特征向量，f_i即为点云的特征向量。

在具体实践中，步骤S13中提及的“待训练模型”包括：编码器和解码器。编码器用于使用多头自注意力模块对所述点云进行全局特征向量提取，其中，多头自注意力模块由多个独立的自注意力模块构成；解码器，用于对所述全局特征解码，得到所述点云的分类结果。

在具体实践中，优选地，解码器由一个三层全连接神经网络构成，其中，每层全连接神经网络包括:Liner层,BatchNorm层和ReLU层。

需要说明的是，目前所采用的一般点云分类方法为PointNet，其达到了较高的准确率，但其只是简单的对单独点提取特征，而丢失了每个点与其周围点的联合特征。

受到Vaswani A的启发，本申请设计了一种使用多头自注意力模块对点云进行全局特征提取，然后进行分类的方法。自注意力(self-attention，SA)模块其具有相同维度的输入和输出。SA根据不同特征之间的关注程度，来聚合空间中不同位置点的联合特征。但在点云中，不同类别的点可能具有不同的权重矩阵，而单个SA模块在处理时是共享权重的，因此本申请使用多头自注意力(multi-headself-attention，MHSA)模块，即使用多个独立的SA模块提取不同注意力下点云的特征，并且这些SA间互相独立，每个特征只在对应的SA内部分配注意力。

在具体实践中，步骤S14中提及的“特征向量”包括：所述点云的样本数据集中训练集数据对应的第一特征向量和所述点云的样本数据集中测试集数据对应的第二特征向量。

需要说明的是，第一特征向量和第二特征向量是通过将训练集数据和测试集数据分别进行特征提取得到的，训练集数据和测试集数据均是来自所述点云的样本数据集。

在具体实践中，步骤S14“将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型”，具体为：

1.将所述第一特征向量送入优化后的所述待训练模型，得到所述训练集数据对应的第一分类结果。

在具体实践中，将所述第一特征向量送入优化后的所述待训练模型，得到所述训练集数据对应的第一分类结果,具体为：

将所述第一全局特征向量送入待训练模型解码器进行解码，得到所述训练集数据对应的第一分类结果。

2.将所述第一分类结果与真实分类结果进行对比，得出误差。

3.根据所述误差对所述待训练模型进行优化。

在具体实践中，根据误差使用随机梯度下降法对待训练模型中每个网络层的权重矩阵参数进行优化。

4.将所述第二特征向量送入优化后的所述待训练模型，得到所述测试集数据对应的第二分类结果。

在具体实践中，将所述第二特征向量送入优化后的所述待训练模型，得到所述测试集数据对应的第二分类结果，具体为：

将所述第二特征向量送入待训练模型编码器的多头自注意力模块，得到第二全局特征向量；

5.将所述第二分类结果与真实分类结果进行对比，得出分类准确率,直到所述准确率达到一个稳定的数值时，则训练完成。

6.保存训练完成的所述待训练模型，得到所述基于多头自注意力的点云分类模型。

在具体实践中，将所述第一特征向量送入待训练模型编码器的多头自注意力模块，得到第一全局特征向量；以及，将所述第二特征向量送入待训练模型编码器的多头自注意力模块，得到第二全局特征向量，具体过程如下：

请参阅图5，图5是根据一示例性实施例示出的多头自注意力机制示意框图，如图5所示，第一特征向量或第二特征向量作为输入特征，送入多头自注意力模块提取不同注意力下的点云特征。输入特征首先经过每个SA模块提取对应的输出特征，然后将每个输出特征按行进行串联，得到最终特征。由于多头自注意力模块生成的最终特征是多个维度的特征，为了便于后期处理，需要对最终特征进行降维，本申请使用了一个三层的全连接神经网络对最终特征进行降维，得到最终的全局特征即第一全局特征向量或第二全局特征向量。

需要说明的是，假设取注意力头个数为N_h，每个SA输出的特征维度为d_e，将每个SA输出的特征按行进行串联后，最终特征的维度为N_hd_e，其中d_e为特征维度。通过调整注意力头个数N_h的值，使得输入和输出不再相同。由于多头自注意力模块生成的是多个维度的特征，为了便于后期处理，需要对其进行降维，本申请使用了一个三层的全连接神经网络对其进行降维，神经元个数分别为4_e，2_e和d_e，此时MHSA模块输出为

F_outm即为最终的全局特征。经过实验，本申请最终取注意力头个数(SA模块个数)N_h＝8，最终特征向量的维度为8_e，其中，d_e为特征维度，输出和输入不再相同。三层全连接神经网络构成，其中，每层全连接神经网络包括:Liner层,BatchNorm层和ReLU层。

将所述第一全局特征向量送入待训练模型解码器进行解码，得到所述训练集数据对应的第一分类结果；以及，将所述第二全局特征向量送入待训练模型解码器进行解码，得到所述测试集数据对应的第二分类结果，具体为：F_outm即为最终的全局特征，也即第一全局特征向量或第二全局特征向量。

由于F_outm为一个高度聚合的特征，需要使用解码器将其解码，得到点云的分类结果，解码器可以用公式14整体概括。

c_P＝softmax((LBR(LBR(MP(F_outm)))))(14)

其中，MP表示最大池化，c_P为物体分类类别的概率分布。首先对编码器的输出进行最大池化，保留特征上最显著的部分，然后使用一个三层的全连接神经网络进行解码，神经元个数分别为256，256和40，并对结果使用softmax归一化指数函数进行归一化，输出物体类别的概率分布，将概率最大的类别作为物体的分类结果。三层全连接神经网络构成，其中，每层全连接神经网络包括:Liner层,BatchNorm层和ReLU层。

C_P中概率最大的类别作为点云的分类结果即第一分类结果或第二分类结果。

在具体实践中，MHSA只是使用了多个SA，并且这些SA间互相独立，每个特征只在对应的SA内部分配注意力，因此每个SA的计算过程相同。

请参阅图6，图6是根据一示例性实施例示出的单个维度上的SA计算过程示意框图，如图6所示，展示了两个特征在一个维度上的SA计算过程如下：图6中，f1、f2为点嵌入后的特征向量，将其分别与三个权重矩阵相乘，可以得到每个特征的查询向量q，键向量k和值向量v。对于特征f1，使用自身的查询向量q1和自身的键向量k1转置相乘T，得到注意力权重w1，再将注意力权重w1和自身的值向量v1相乘得到权重特征f1’。使用f1的查询向量q1和特征f2的键向量k2转置相乘T，得到注意力权重w2，再将注意力权重w2和特征f2的值向量v2计算得到权重特征f2’，将所有权重特征求和(即权重特征f1’和权重特征f2’求和)后得到特征f1经过SA模块的输出fout1。

在点云数据上使用SA模块时，可以将整个点云视为一个句子，其中每个嵌入后的特征视为一个单词。假设在上一节中，点嵌入的输出是一片具有N个d_e维向量的特征图

对于F_e，计算其各个特征间的关联程度，以及不同特征间的相似程度。SA首先提取点云的查询矩阵Q、键矩阵K和值矩阵V，具体计算过程如公式15所示。

Q,K,V,＝F_e·(W_q,W_k,W_v) (15)

其中，W_q,W_k,W_v为共享权值并且可学习的线性变换，d_a是查询矩阵和键矩阵的维度，d_a与d_e并不要求相等。之后使用Q和K计算不同特征向量之间的关注程度，得到注意力矩阵，如公式16所示。

其中Φ′为注意力矩阵。对于Φ′中的元素，将其按行做softmax，得到最终的权重矩阵Φ，如公式17所示。

最后将权重矩阵与值矩阵相乘，得到SA模块的最终输出，如公式18所示。

F_out＝Φ·V (18)

MHSA中单个SA的处理过程与上述过程相同，只是使用了多个SA，并且这些SA间互相独立，每个特征只在对应的SA内部分配注意力，因此可以并行处理。

在具体实践中，优选地，所述方法包括：

获取待分类点云数据；

请参阅图7，图7是根据另一示例性实施例示出的一种基于多头自注意力的点云分类方法的整体架构图，如图7所示，给定一片点数为N的三维点云数据，其维度为N*3。首先对数据进行仿射变换，该过程不改变数据的维度；之后对其进行特征聚合，得到高维度的特征图，此时点数缩减到了128，但每个点上特征的维度提高到了64维。之后将特征图输入到多个自注意力模块组成的编码器中，将每个自注意力模块的输出按行串联，得到最终特征，然后将最终特征通过一个三层的全连接神经网络，其中神经元个数分别为256，256，40，并对结果使用softmax归一化，输出物体的概率分布，将概率最大的类别作为物体的分类结果。

可以理解的是，本申请提出了一种基于多头自注意力机制的点云识别模型，通过提取点之间的关系，来对点云进行分类。首先对点云样本进行仿射变换，使其在空间上具有统一的分布，然后进行特征聚合，将局部临近点聚合为特征向量，然后对特征进行编码，得到高维度的特征。最后使用解码器将高维特征解码，得到最终的分类结果。

所述点云分类模块用于执行上述所述的方法。

可以理解的是，基于多头自注意力的点云分类装置中点云分类模块用于执行上述所述的方法，通过获取原始点云的样本数据集，对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量，构建基于多头自注意力的待训练模型，将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，其中，所述基于多头自注意力的点云分类模型用于得到点云分类结果，本申请通过将点云的样本数据集中点云分布归一化，提取高维度的特征向量，将该高维度的特征向量送入训练完成的多头自注意力的点云分类模型，提取不同注意力下点云的特征，并进行模型运算最终得到点云分类结果，有助于帮助解决采用现有点云分类技术对点云进行分类，由于丢失特征导致分类准确率低的问题。

本申请提供一种基于多头自注意力的点云分类设备，包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的方法。

关于上述实施例中的基于多头自注意力的点云分类设备，其存储器、处理器具体执行方法过程已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，基于多头自注意力的点云分类设备中处理器执行所述计算机程序时，实现上述的方法，通过获取原始点云的样本数据集，对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量，构建基于多头自注意力的待训练模型，将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，其中，所述基于多头自注意力的点云分类模型用于得到点云分类结果，本申请通过将点云的样本数据集中点云分布归一化，提取高维度的特征向量，将该高维度的特征向量送入训练完成的多头自注意力的点云分类模型，提取不同注意力下点云的特征，并进行模型运算最终得到点云分类结果，有助于帮助解决采用现有点云分类技术对点云进行分类，由于丢失特征导致分类准确率低的问题。

危化品仓库深度相机点云三维重建进行安全状态监测中，存在空间空旷，货物图像点云分布稀疏和低维下分布相似的分类难题。基于上述问题，提出了一种基于多头自注意力机制的点云识别方法。算法首先将点云通过仿射变换算法将数据集分布归一化，解决分布稀疏的问题，然后融合数据下采样与聚合特征算法得到高维度的仓库货物特征图，解决低维下分布近似的问题，再使用多头自注意力编码器对特征图进行编码，得到不同头下的特征，并将其合并为特征图。最后使用一个多层的全连接神经网络作为解码器，将特征图解码为最终的物体分类。在modelnet40数据集和危化品货物自建数据集上分别进行对比实验，结果表明，针对危化品仓库货物图像点云分类的准确率低的问题，本申请算法与其他不同分类算法相比，准确率提升从0.5％到7.8％不等。

本申请的硬件环境为IntelCorei9-10900k，GeforceRTX3090显卡，32GB运行内存，调试环境为Windows10，python3.8.3，pytorch1.10.1，cuda版本为11.3。

本申请中进行对比实验所采用的数据集为ModelNet40数据集和危化品仓库货物自建数据集。ModelNet40共有12311个人造物体网格化的CAD模型，每个物体都有对应类别，共有40个类别。数据集中的9843个模型用于训练，2486个模型用于测试。危化品仓库货物自建数据集中，包含了8个类别，其中包括5种危化品，分别是油桶、纸箱、玻璃瓶、瓷瓶和钢瓶，以及三种非危化品杂物，分别为桌子、椅子和人。

在实验参数设置上，优化方式为随机梯度下降，训练轮次为250次，批次大小为32，学习率使用指数下降方式从0.1下降至0.0001，对每个网络层均使用BN归一化和ReLU激活函数，并且解码器中的网络层均添加了参数为0.3的dropout层。

仿射变换通过将物体的分布归一化，降低因点云分布和几何结构不同产生的误差。本申请在ModelNet40数据集上，对一些现有点云分类方法和本申请方法，分别使用或不使用仿射变换训练模型，并且进行了对比。分类准确率结果如表1所示。实验表明，仿射变换能够在一定程度上提高分类准确率。

表1使用仿射变换时模型的分类准确率

为了探寻注意力头的作用机制，本申请还对不同头数的情况分别做了研究。Sangeetha K认为，在注意力机制中使用多头自注意力的目的是增加不同注意力的分布，提高分类准确率。因此，应该保证不同头的关注位置不同。注意力头本质上是一个向量，因此可以用向量距离来衡量不同头之间关注程度的差异。如果两个头的距离较小，则说明两个头关注的位置近似，反之则说明两个头关注了不同位置的特征。图8中展示了随着头数增多，不同头间平均距离和最终分类的准确率的变化趋势。

从图8中可以看出，分类的准确率随着头数的提升有了提高，当数量达到8个时，准确率达到93.7％。当头数继续增加时，头间距离减小，此时说明不同头之间的关注位置有所重叠，但准确率不再提升，并且由于增加了参数量，分类速度有所下降，因此本申请采用的注意力头个数为8个。

为了具体探究不同头数时注意力权重分配的区别，本申请使用灰度图的方式展示了每个头在每个特征下分配的权重。图9和图10中分别展示了头数为8和12时，第一个位置的特征在不同头中的权重分配。

其中，每一列都表示某一个位置的特征在不同头中的权重，用灰度表示权重大小，颜色越浅则权重越大。对比图9和图10，可以看出，在头数为8时，几乎没有特征受到2个以上注意力头的关注，这说明不同头的关注位置有了明显差别，仅有少部分重叠，此时多个头能够有效的关注不同位置的特征。

在ModelNet40数据集中，共有40类物体的点云。将本申请算法与其他分类算法进行比较，评价指标主要包括总体类别准确率(OverallAccuracy，OA)和平均类别准确率(meanAccuracy，mAcc)。结果表明，本申请算法在OA和mAcc上都有最优的表现。具体的结果在表2中展示。

/>

表2在ModelNet40数据集上的分类准确率

从表2中可以看出，与体素化的分类方法VoxNet相比，本申请使用的局部特征聚合方法避免了体素化导致的细节特征损失，因此在整体分类准确率上提高了7.8％；与多视角的分类方法MVCNN相比，本申请直接对点进行处理，避免了将三维点云转化为二维平面过程中的特征损失，在整体分类准确率上提升了2.6％。与经典的基于点的分类算法PointNet、PointNet++和PointCNN相比，本申请考虑了点之间的关联特征，在整体分类准确率上提升了1.5％～4.5％。与DGCNN、PCT等基于点的方法相比，本申请使用的多头自注意力可以更好的提取不同类别间的区别，在整体分类准确率上提升了0.5％～0.8％。

在自建危化品仓库货物数据集中，共有8类物体的点云。将本申请算法与其他分类算法进行比较，评价指标同样使用OA和mAcc。结果表明，本申请算法在OA和mAcc上都有最优的表现。具体的结果在表3中展示。

表3在自建数据集上的分类准确率

从表3中可以看出，与经典的PointNet相比，本申请算法在整体准确率上提升了2.5％。与现有的一些基于点的算法相比，本申请方法在整体准确率上提升了0.1％～5.5％。

此外，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行上述任一项所述方法的步骤。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”、“多”的含义是指至少两个。

应该理解，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者可能同时存在居中元件；当一个元件被称为“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件,此外，这里使用的“连接”可以包括无线连接；使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为：表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多头自注意力的点云分类方法，其特征在于，包括：

获取原始点云的样本数据集；

构建基于多头自注意力的待训练模型；

2.根据权利要求1所述的方法，其特征在于，对所述原始点云的样本数据集进行特征提取，获得所述点云的特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，使用一个单层全连接神经网络提取所述第二点云样本数据集中每个点更大范围的特征，包括：

使用状态描述符来描述所述曲线的当前状态；

4.根据权利要求1所述的方法，其特征在于，所述待训练模型，包括：

编码器和解码器；

5.根据权利要求4所述的方法，其特征在于，所述解码器，包括：

6.根据权利要求5所述的方法，其特征在于，所述特征向量包括：所述点云的样本数据集中训练集数据对应的第一特征向量和所述点云的样本数据集中测试集数据对应的第二特征向量；以及，将所述特征向量送入待训练模型，进行模型训练，得到训练完成的基于多头自注意力的点云分类模型，包括：

将所述第一分类结果与真实分类结果进行对比，得出误差；

根据所述误差对所述待训练模型进行优化；

7.根据权利要求6所述的方法，其特征在于，将所述第一特征向量送入优化后的所述待训练模型，得到所述训练集数据对应的第一分类结果；以及，将所述第二特征向量送入优化后的所述待训练模型，得到所述测试集数据对应的第二分类结果，包括：

8.一种基于多头自注意力的点云分类方法，其特征在于，包括：

获取待分类点云数据；

9.一种基于多头自注意力的点云分类装置，其特征在于，包括点云分类模块；

所述点云分类模块用于执行权利要求1-8任一项所述的方法。

10.一种基于多头自注意力的点云分类设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-8任一项所述的方法。