CN113569979A

CN113569979A - 一种基于注意力机制的三维物体点云分类方法

Info

Publication number: CN113569979A
Application number: CN202110902691.4A
Authority: CN
Inventors: 庄佳衍; 金天星; 崔玥; 肖江剑
Original assignee: Ningbo Institute of Material Technology and Engineering of CAS
Current assignee: Ningbo Institute of Material Technology and Engineering of CAS
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-10-29
Anticipated expiration: 2041-08-06
Also published as: CN113569979B

Abstract

本发明公开了一种基于注意力机制的三维物体点云分类方法，包括确定网络训练用的样本数据与精度评价标准，构建层级结构学习局部区域特征的ATT‑PointNet++网络，将样本数据在ATT‑PointNet++网络上进行训练，将待预测数据导入训练好的ATT‑PointNet++网络中进行预测，采用精度评价标准对预测结果进行评估，得到评估结果。本发明通过引入注意力池化层来提高网络在降维过程中的信息传递率，从而提高网络对局部区域信息的有效利用率，使得公共数据集上的点云分类精度更高。

Description

一种基于注意力机制的三维物体点云分类方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于注意力机制的三维物体点云分类方法。

背景技术

近年来，3D采集技术快速发展，我们可以利用3D扫描仪、激光雷达等设备更加容易地获取到原始3D数据。在众多3D数据中，点云作为基本代表，已经在3D视觉领域中引起了研究者们的广泛关注，常应用于数字孪生城市的三维建模与可视化，数据智能视角下的虚拟地理环境建设，海洋系统与气候变化模拟等领域。

点云作为常见的三维重建表达形式之一，是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合，其独立描述每个点的相关属性信息，包括三维坐标x、y、z和颜色特征等。相对于二维图像，点云数据规避了图像采集过程中遇到的姿态、光照等问题且可视化后的三维点云数据不仅可以很好的表达物体的形状特征，还可以在不同视角下通过旋转、缩放等操作了解三维结构信息，包含丰富空间信息的点云具有不可替代的优势。然而，点云本身自带的特性使得点云数据处理与应用充满挑战，包括：(1)点云无序性：点云是数据集的表达点的集合，对点的顺序不敏感，只考虑坐标，则点云数据是一组nx3的点集合。其中n代表点云数量，3代表该点云的x、y、z三维空间坐标。扫描设备的选型不同以及在不同坐标系下采集点云都会使得同一对象的三维点云排列顺序千差万别。值得注意的是，点云的顺序不影响三维空间结构的表示方式且点的组合方式共有n！种。(2)点云密度不一致性：点云场景复杂多样，激光雷达的采样点覆盖相对于场景的尺度来讲，具有很强的稀疏性。同一场景下，不同物体的点云密度以及点云数量可能都不同。(3)非结构性：二维图像属于结构化的数据，二维卷积可利用卷积核获得局部特征矩阵。而点云数据具有非结构化性，二维卷积难以从不规则的数据中获得点的空间信息，这也使得早期研究者们通常是将点云转换成一个规则的数据，多视图或体素再处理。

近些年来，国内外对三维点云数据的分类、分割进行了广泛的研究。基于多视图的方法，早期研究者们处理点云数据的方式是将点云投影到多个视图的二维图像中，将3D问题转化为2D问题，使得可以用传统卷积网络解决对象检测的任务。以多视图CNN(MVCNN)为例，首先获取三维目标形状在不同视角下的二维图像，对每个视图进行图像特征提取，最后通过池化层和完全连接层将不同视角的图像进行聚合得到最终的语义分割结果。然而该类方法并不能有效地利用每张视图的局部特征信息，并且在投影过程中会丢失大量的几何结构信息。基于体素的方法，利用占用网格将环境状态表示为随机变量的3D网格，并根据传入的传感器数据和先验知识维持其占用率的概率估计，应用强大的3D神经网络在语义分割等方面也取得了不错的结果。OctNet利用八叉树将存储器分配和计算集中到相关的密集区域，加深网络深度，Kd-Net]则通过Kd-tree方法用于提高点云计算、存储效率。但是总体而言，体素化算法空间复杂度高，同时体素的网格分辨率较高会增大计算负担，较低会导致细节丢失，因此基于体素的方式实际实用性相对较低。

基于离散点云的方法，PointNet作为基于点云的开创性方法，为后续的研究提供了能够直接输入原始点云的深度学习架构，有效解决点云的旋转不变特性和点云无序性问题。在分类任务中取得了较为可观的成果，但没有考虑局部特征，语义分割任务效果不佳。

如何提供一种可提高网络对局部区域信息的有效利用率的点云分类方案，是一个急需解决的问题。

发明内容

本发明的主要目的在于提供一种基于注意力机制的三维物体点云分类方法，从而克服现有技术的不足。

为实现前述发明目的，本发明采用的技术方案包括：一种基于注意力机制的三维物体点云分类方法，包括以下步骤：

S1，确定网络训练用的样本数据与精度评价标准，所述样本数据由点云基准数据集ModelNet40中选取，所述精度评价标准为使用精确度和平均交并化作为点云模型分类的度量标准；

S2，构建层级结构学习局部区域特征的ATT-PointNet++网络，将所述样本数据在所述ATT-PointNet++网络上进行训练，所述训练方法包括：

S21，从样本数据中选取多个点分别作为对应的局部区域的中心点；

S22，在所述中心点的周围选取多个邻近点来构造所述局部区域；

S23，利用PointNet网络从局部区域中提取局部特征，再利用注意力机制学习所述局部特征，在局部区域范围内计算加权求和得到注意力池化结果；

S3，将待预测数据导入训练好的所述ATT-PointNet++网络中进行预测，采用所述精度评价标准对预测结果进行评估，得到评估结果。

在一优选实施例中，所述S1中，对所述样本数据进行数据增强，所述增强方法包括：将点云基准数据集中的点云坐标值在0.8～1.25倍的随机缩放，在[-0.1,0.1]范围内平移，以及15％～20％点的随机丢失，选取出所述样本数据。

在一优选实施例中，在所述S2的训练过程中，将选取的样本数据作为ATT-PointNet++网络的输入，并总体迭代多次获得最优点云分类网络参数。

在一优选实施例中，所述精确度的表达公式为：

其中，OA为网络的总体分类评估指标，p_ii表示所有正确预测的类的数量，p表示点云网络的所有点数。

在一优选实施例中，所述S21中，采用最远点采样法从样本数据中选取多个所述中心点，所述最远点采样法包括：

S211，将样本数据中的所有点归类到第一集合和第二集合内，其中，第一集合表示选中的点构成的集合，第二集合表示未选中的点构成的集合，在初始情况下，所述第一集合为空，所述第二集合包含所有点；

S212，在所述第二集合中进行随机采样，得到第一个点放入所述第一集合中；

S213，分别计算所述第二集合中的每一个点到所述第一个点的距离，选取距离最大的点，将其移动到第一集合中，作为第一集合内的第二个点；

S214，计算第二集合中的每个点分别到所述第一个点和第二个点的距离，从得到的两个距离值中选取最小的距离值作为每个点到第一集合的距离值，并从每个点到第一集合的距离值中选取最大的距离值对应的点放入到第一集合中，作为第一集合内的第三个点；

S215，按照所述S214中选取点的方式，直至选取所需数量的点到第一集合中为止。

在一优选实施例中，所述S22包括：

S221，采用查询球方法进行数据划分，所述数据划分包括：以所述中心点为球中心，设置球半径，得到多个邻近点的空间坐标；

S222，利用所述中心点和所述空间坐标，得到相对于中心点的空间位置关系；

S223，将所述相对空间位置关系与对应的局部区域范围内点云数据属性特征进行拼接，得到局部区域。

在一优选实施例中，所述局部区域的计算公式为：

其中，u_i(i∈N)和u_i ^k分别表示中心点和邻近点的空间坐标，

表示特征拼接，

表示相对位移矢量。

在一优选实施例中，所述S23包括：

S231，利用PointNet网络的特征提取层，通过共享权重的卷积将各局部区域信息连接起来，构建以区域信息为单位的局部特征向量；

S232，利用注意力机制学习所述局部特征，将学习到的特征值作为对应采样点的权重；

S233，在局部区域范围内计算加权求和得到全局特征向量，作为注意力池化结果。

在一优选实施例中，所述全局特征向量的表达式为：

AttenPool(f_i')＝Atten(conv(f_i'))；

其中，AttenPool为注意力池化操作，conv(fi’)为局部特征。

在一优选实施例中，所述ATT-PointNet++网络包括多个下采样层，所述下采样层包括采样层、聚合层和注意力池化特征提取层，所述采样层用于从样本数据中选取多个点分别作为对应的局部区域的中心点；所述聚合层用于在所述中心点的周围选取多个邻近点来构造所述局部区域；所述注意力池化特征提取层用于利用PointNet网络从局部区域中提取局部特征，再利用注意力机制学习所述局部特征，在局部区域范围内计算加权求和得到注意力池化结果。

与现有技术相比较，本发明的有益效果至少在于：本发明设计了一个以PointNet和PointNet++为基础的基于自注意力机制的点云语义分割网络ATT-PointNet++，通过引入注意力池化层来提高网络在降维过程中的信息传递率，从而提高网络对局部区域信息的有效利用率，使得公共数据集上的点云分类精度(mIoU)更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施方式中三维物体点云分类方法的流程示意图；

图2是本发明步骤S2的流程示意图；

图3是本发明ATT-PointNet++网络的结构示意图；

图4是本发明注意力池化的原理示意图；

图5是本发明注意力打分示意图。

具体实施方式

通过应连同所附图式一起阅读的以下具体实施方式将更完整地理解本发明。本文中揭示本发明的详细实施例；然而，应理解，所揭示的实施例仅具本发明的示范性，本发明可以各种形式来体现。因此，本文中所揭示的特定功能细节不应解释为具有限制性，而是仅解释为权利要求书的基础且解释为用于教示所属领域的技术人员在事实上任何适当详细实施例中以不同方式采用本发明的代表性基础。

如图1所示，本发明所揭示的一种基于注意力机制的三维物体点云分类方法，包括以下步骤：

S1，确定网络训练用的样本数据与精度评价标准，所述样本数据由点云基准数据集ModelNet40中选取，所述精度评价标准为使用精确度和平均交并化作为点云模型分类的度量标准。

具体地，数据集ModelNet40是斯坦福大学提供的点云基准数据集，由40个类中的9843个训练模型和2468个测试模型组成。为了提高网络分类的鲁棒性，对这些样本数据进行数据增强，具体增强方法包括：将点云基准数据集中的点云坐标值在0.8～1.25倍的随机缩放，在[-0.1,0.1]范围内平移，以及15％～20％点的随机丢失，选取出所述样本数据。所述精度评价标准为使用精确度和平均交并化(mIoU)作为点云网络分类的度量标准，其中，精确度即标记正确的点云数量占总点云数的比例，具体公式如下：

式中：OA为网络的总体分类评估指标，p_ii表示所有正确预测的类的数量，p表示点云网络的所有点数，OA值越大，说明分类效果越好。

S2，构建层级结构学习局部区域特征的ATT-PointNet++网络，将所述样本数据在所述ATT-PointNet++网络上进行训练。

具体地，本发明在PointNet网络基础上，结合分层结构、最远点采样算法(FPS)构建了层级结构学习局部区域特征的ATT-PointNet++网络，其结构如图3所示，ATT-PointNet++网络本质上是PointNet网络的分层版本，在整体网络结构中，每一个下采样层对点云中的点都进行局部划分，提取整体特征，被称为抽样集(Set abstraction)。在抽样集中，主要由采样层、聚合层以及注意力池化特征提取层三层构成。如图2所示，所述训练方法包括以下步骤：

S21，从样本数据中选取多个点分别作为对应的局部区域的中心点。

具体地，这一步骤由采样层实现，采样层与基于CNN(卷积神经网络)的图像处理方法类似，点云数据处理同样需要将大场景点云数据划分成不同子区域(即局部区域)。但与图像处理不同，规则子区域内点云数量具有显著差异。为了保证输入CNN的点云数量保持一致，需对规则子区域内的点云数据进行采样并分批次输入到CNN。为了保证采样结果尽可能均匀分布在对应规则子区域，采用最远点采样法FPS(Farthest Point Sampling)来维持采样点在规则子区域内的基本结构。在众多点云数据中，假设有n个点，需要采样k个点，所述最远点采样法具体包括以下步骤：

S211，将样本数据中的所有点归类到第一集合A和第二集合B内，其中，第一集合A表示选中的点构成的集合，第二集合B表示未选中的点构成的集合，在初始情况下，所述第一集合A为空，所述第二集合B包含所有点。

S212，在所述第二集合B中进行随机采样，得到第一个点放入所述第一集合A中。

S213，分别计算所述第二集合B中的每一个点到所述第一个点的距离，选取距离最大的点，将其移动到第一集合A中，作为第一集合A内的第二个点。

S214，计算第二集合B中的每个点分别到所述第一个点和第二个点的距离，从得到的两个距离值中选取最小的距离值作为每个点到第一集合A的距离值，并从每个点到第一集合A的距离值中选取最大的距离值对应的点放入到第一集合A中，作为第一集合A内的第三个点。

S215，按照所述S214中选取点的方式，直至选取所需数量(即k个点)的点到第一集合A中为止。

相比于随机采样，最远点采样算法在减小点云密度的同时，能够最大程度的保留点云的空间几何结构特征，保证采样后的点具有较好的覆盖率。对于经FPS采样得到的点云U＝{f_i|i＝1,…,N}，其中：N为点云个数f_i＝[u_i,v_i]∈R^3+d,u_i＝(x_i,y_i,z_i)∈R³表示第i个点的3个空间坐标，v_i∈R^d对应第i个点云存储的d维属性特征(原始RGB或中间学习特征)。

S22，在所述中心点的周围选取多个邻近点来构造所述局部区域。

具体地，这一步骤由聚合层实现，所述S22包括：

S221，采用查询球方法进行数据划分，所述数据划分包括：以所述中心点为球中心，设置球半径，得到多个邻近点的空间坐标。

S222，利用所述中心点和所述空间坐标，得到相对于中心点的空间位置关系。

具体地，在上述的采样层中，已利用FPS算法从全部数据集中选出若干中心点u_i，ATT-PointNet网络采用查询球方法实现数据划分，以中心采样点为球中心，设置球半径，实现数据集中局部区域的划分，得到k个邻近点的空间坐标u_i ^k。之后利用中心点u_i和邻近点的空间坐标u_i ^k得到相对于中心点的空间位置关系(B,N,K,3)，再与对应邻域范围内点云数据属性特征(即RGB信息)(B,N,K,d)进行拼接，其中，B表示批次大小，N表示每个批次点数，K表示邻域点个数。所述局部区域的具体计算公式如下：

其中：u_i(i∈N)和u_i ^k分别表示中心点和邻近点的空间坐标，

表示特征拼接，

表示相对位移(方向)矢量。

S23，利用PointNet网络从局部区域中提取局部特征，再利用注意力机制学习所述局部特征，在局部区域范围内计算加权求和得到注意力池化结果。

注意力机制利用相关特征学习权重分布，再将学习得到的权重施加于特征上，从而进一步提取相关知识，实现池化的效果。通常注意力机制分为三个部分，分别为查询(Query)、键(Key)、值(value)，其中Query是由外部传入，并与Key进行相似度比较，从而来决定每个Value所需提供信息的多少，即注意力打分(如图5所示)。本发明的不同之处在于，Query为中心点特征本身，利用Query与每项Key(即近邻点特征)进行相似度计算，并利用Softmax进行归一化得到权值，计算公式如下。

其中，q为中心点特征本身。

具体地，结合图4所示，这一步骤由注意力池化特征提取层实现，PointNet网络采用最大池化操作聚合邻域特征以生成全局特征向量来解决点云排序问题。这种以无参数方式实现降维的操作在特征传递的过程中会丢失大量有用的信息。为避免信息传递过程中重要信息的大量丢失，本发明利用注意力机制来确保空间结构特征的重要信息尽可能传递。该注意力池化输出的全局特征向量为：

AttenPool(f_i')＝Atten(conv(f_i'))；

其中，AttenPool为注意力池化操作，conv(fi’)为局部特征。

首先利用PointNet实现点云从低维空间到高维的局部特征提取。PointNet网络负责提取点云局部特征的主要为特征提取层(MLP层)，通过共享权重的卷积实现，每一层卷积核大小如均为1x1，即利用特征提取层将各局部区域信息连接起来，构建以区域信息为单位的局部特征向量，其中B代表批次大小，N表示每个批次含有N个点云，这里将K个邻域点划分为3维空间位置和d维属性特征两部分，通过MLP特征提取层之后，特征维度变为C。再利用上文所述注意力机制进一步学习局部特征conv(f_i’)，将学习到的特征值(score)视为对应采样点的权重，在邻域范围内计算加权求和得到注意力池化结果，即全局特征向量。其中相似度计算采用点积模型：

优选地，步骤S2在训练过程中，选择k(如1024)个点作为输入，总体迭代多次(如300次)获得最优点云分类模型参数。且在每一轮训练结束都对精确度和平均交并化(mIoU)进行评估，若精度不断上升且趋于平稳，则网络鉴定完毕。

具体地，将待预测数据导入训练好的ATT-PointNet++网络网络进行预测，以总体分类精度和类属分类精度作为度量标准，并将评估结果进行可视化操作，将本发明与现有先进方法的评估结果进行比较，从而评估出本发明网络在现有方法中的竞争力。在ModelNet40数据集上相较于PointNet，我们提出的ATT-PointNet++的整体分类精度提升了3.5％，相较于PointNet++也有0.8％的提升。PointNet++采用最大池化操作传递局部特征，ATT-PointNet++利用注意力机制模块提高了网络特征的传递效率，能够有效提高网络模型对局部点云模型几何结构的学习能力。从实验结果看，如下表所示，ATT-PointNet++在分类评估中优于以上先进方法，证明了引入注意力机制能有效提高深度网络模型的分类性能。

本发明在原有的PointNet和PointNet++点云分类网络的基础上，提出了一种基于自注意力机制的新的点云语义分割网络结构模型，在每一组采样集(set abstraction)中加入注意力机制，能大幅提高网络对局部区域信息的利用率，从而提高网络分类效率，对于现有3D点云数据的分类网络具有更好的特征提取能力。

本发明的各方面、实施例、特征及实例应视为在所有方面为说明性的且不打算限制本发明，本发明的范围仅由权利要求书界定。在不背离所主张的本发明的精神及范围的情况下，所属领域的技术人员将明了其它实施例、修改及使用。

应理解，各步骤的次序或执行特定动作的次序并非十分重要，只要本发明教示保持可操作即可。此外，可同时进行两个或两个以上步骤或动作。

Claims

1.一种基于注意力机制的三维物体点云分类方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：所述S1中，对所述样本数据进行数据增强，所述增强方法包括：将点云基准数据集中的点云坐标值在0.8～1.25倍的随机缩放，在[-0.1,0.1]范围内平移，以及15％～20％点的随机丢失，选取出所述样本数据。

3.根据权利要求1所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：在所述S2的训练过程中，将选取的样本数据作为ATT-PointNet++网络的输入，并总体迭代多次获得最优点云分类网络参数。

4.根据权利要求1所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：所述精确度的表达公式为：

5.根据权利要求1所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：所述S21中，采用最远点采样法从样本数据中选取多个所述中心点，所述最远点采样法包括：

6.根据权利要求1所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：所述S22包括：

7.根据权利要求6所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：所述局部区域的计算公式为：

其中，u_i(i∈N)和u_i ^k分别表示中心点和邻近点的空间坐标，

表示特征拼接，

表示相对位移矢量。

8.根据权利要求7所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：所述S23包括：

9.根据权利要求8所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：所述全局特征向量的表达式为：

AttenPool(f_i')＝Atten(conv(f_i'))；

其中，AttenPool为注意力池化操作，conv(fi’)为局部特征。

10.根据权利要求1所述的一种基于注意力机制的三维物体点云分类方法，其特征在于：所述ATT-PointNet++网络包括多个下采样层，所述下采样层包括采样层、聚合层和注意力池化特征提取层，所述采样层用于从样本数据中选取多个点分别作为对应的局部区域的中心点；所述聚合层用于在所述中心点的周围选取多个邻近点来构造所述局部区域；所述注意力池化特征提取层用于利用PointNet网络从局部区域中提取局部特征，再利用注意力机制学习所述局部特征，在局部区域范围内计算加权求和得到注意力池化结果。