CN116258903A - 基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法 - Google Patents
基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法 Download PDFInfo
- Publication number
- CN116258903A CN116258903A CN202310223966.0A CN202310223966A CN116258903A CN 116258903 A CN116258903 A CN 116258903A CN 202310223966 A CN202310223966 A CN 202310223966A CN 116258903 A CN116258903 A CN 116258903A
- Authority
- CN
- China
- Prior art keywords
- node
- point cloud
- adjacent
- points
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法,属于三维点云分类领域,包括层次图卷积模块、空间注意力模块、相似度对比模块。基于多视野、不同密度稀疏程度得到邻接点,以图卷积的方式结合自身点云特征得到新的特征向量,注入空间注意力机制得到新节点的特征向量;扩大感受野,在新节点的基础上按照结构相似度合并与新节点相似的邻居节点,得到多层次超节点信息,减少局部信息的冗余并加强局部特征。计算法向量特征并加入到点云的全局特征,提高点云的整体特征信息。本发明收集多层次邻居节点特征并结合空间注意力达到强化局部特征的目的,可以更进一步提高三维点云处理分类网络的鲁棒性。
Description
技术领域
本发明主要涉及深度学习领域,尤其涉及一种基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法
背景技术
三维点云的分类方法有很多,早期的工作中通过多视图、体素化等方法,对三维点云数据进行转化,间接地学习特征。随着三维雷达技术的发展,三维点云数据以其易处理,高精度的特点,逐渐成为三维数据的主要表示方法。三维点云的数据格式一般包含了三维位置坐标(x,y,z)以及一个矢量属性,如颜色、反射强度等。Qi[1]等人首次将点云数据作为直接输入,进行特征学习,减少了大量前期的数据预处理工作,同时相较于多视图、体素化等方法,减少了数据转化中的特征丢失问题。三维点云可以应用在无人驾驶车项目,通过自主采集和制作高精地图记录完整的三维道路信息,能在厘米级精度实现车辆定位。基于三维点云数据的优势,三维点云数据也常被用于目标识别[2]、室内导航[3]等领域。
在基于感知机和特征池化的点云分类方法中,PointNet++[4]中有多尺度的操作,对于点云信息量不多的局部区域会造成信息冗余。为了解决此问题,KOMARIICHEVA等人[5]提出了环形卷积(A-CNN)。这种新的卷积算子可以通过在计算中指定环形结构和方向,更好地捕获每个点的局部几何特征,但是未充分考虑点云数据的稀疏程度。近年来,深度学习在图神经网络领域得到广泛应用。基于深度学习实现的图神经网络可以处理非结构化数据,在点云分类、点云分割方面取得了突破[6]。基于点云形状旋转进行数据增强的网络,未考虑到点云的旋转不变性。为了解决该问题,CHEN等人[7]提出了深度层次聚类网络,采用层次聚类来探索层次结构树中的点云几何结构,提高了旋转变换的鲁棒性。
本发明优化了环形卷积中针对不同稀疏程度点云数据特征提取方式,并借鉴层次聚类思想,注入改进过后的空间注意力机制,进行分类任务训练。提高了点云局部特征提取能力,提高了点云分类的鲁棒性。
参考文献:
[1]C.R.Qi,H.Su,K.Mo,and L.J.Guibas,“PointNet:Deep Learning on PointSetsfor 3D Classifification and Segmentation,”in 2017IEEE Conference onComputer Vision and Pattern Recognition(CVPR),Juul.2017,pp.77-85,read.
[2]Z.Ren and E.B.Sudderth.3D object detection with latent support
surfaces.In The IEEE Conference on Computer Vision and PatternRecognition(CVPR),June 2018.
[3]Lu,W.,et al.″L3-Net:Towards Learning Based LiDAR Localization forAutonomous Driving.″2019IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR)IEEE,2020.
[4]QI C R,YI L,SU H,et al.Pointnet++:deep hierarchical featurelearningon point sets in a metric space[EB/OL].[2022-04-07].https://arxiv.org/pdf/1706.02413.pdf.
[5]KOMARICHEV A,ZICHUN Z,JING H.A-cnn:annularly convolutional neuralnetworks on point clouds[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2019.
[6]JOSEPH R,MOR A Z,RON K.Momen^et:flavor the moments in learning toclassify shapes[C]//Proceedings of the IEEE/CVF International Conference onComputer Vision Workshops,2019.
[7]CHEN C,LI G,XU R,et al.Clusternet:deep hierarchical clusternetwork with rigorously rotation-invariant representation for pointcloudanalysis[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,2019.
发明内容
本发明所要解决的技术问题是如何增强三维点云分类局部特征,增加三维点云分类的准确性研究。
本发明为了解决以上问题,通过以下技术手段实现并解决:
一种基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法,包括层次图卷积模块、空间注意力模块、相似度对比模块。其中层次图卷积模块,包括基于查询点的多视野、不同密度稀疏程度的K个邻接点的筛选,并以图卷积的方式结合查询点自身点云特征得到新的特征向量。其中空间注意力模块,包括改进DAnet操作步骤,去掉影响形状特征的reshape操作,引入动态的标度特征参数进行较远距离点形状关联,和空间注意力矩阵相乘得到强化的特征参数,即为新的节点特征向量。其中相似度对比模块,包括对新节点进行KNN查询得到新节点的邻居节点,在新节点的基础上按照结构相似度合并与新节点相似的邻居节点,得到多层次超节点信息,减少相似节点的信息冗余并加强局部特征。计算超节点的法向量,将带有法向量特征的超节点的局部特征和带有法向量信息输入的全局特征进行融合,最后的到点云的分类结果。
进一步的所述层次图卷积模块包括筛选多视野、不同密度稀疏程度的K个邻接点。对于任意给出的点云节点,每个节点的度不一样,查找的邻近点可能包含在不同大小的局部区域内,导致信息冗余,不同位置点的密度也不一样。为了得到K个邻近点的特征信息,进行如下操作:
基于以下定义:图的定义如下,G=(V,C),其中V为点云节点的集合,C为边的集合。每个节点j都对应其特征xj,可以用矩阵XN*T表示,C为N×K的邻接矩阵,其中N代表节点数,T为节点特征向量的维度,K表示邻近点的数量。
针对点云节点Q={X,Y,Z},其中{X,Y,Z}分别表示节点Q的三维坐标值,提供M1和M2两个不同的感受野,r1和r2表示不同感受野的半径大小,其中r1<r2,M1<M2。通过KNN进行点云节点Q的邻近点查询,并投影到点云节点Q的切平面,根据不同感受野邻域点密度的比例提取邻域内的邻接点,找到K个邻近点。
以半径为r1的M1感受野为例说明K个邻接点的查找过程,首先计算不同感受野体积比例,计算公式为其中b1表示半径r1的M1感受野球的体积比例,b2表示半径r1的M1感受野球和半径r2的感受野M2中间环体积的比例。然后计算点云的法向量,计算公式为:/>n=b1×K。其中xi表示第i个邻接点,/>表示节点Q周围邻接点的平均坐标值,Nor为法向量,||n||表示n的范数。
然后计算M1视野中这n个邻接点在Q点处的切平面的投影向量。计算公式为:Yj=Xj-((Q-Xj)·Nor)·Nor,其中Yj为邻接节点j在切平面的投影向量。
选取一个投影向量Yi连接Q得到一个基准Z=Yi-Q,计算剩下的投影向量相对于该基准的角度,角度计算公式为其中Yj表示除了投影向量Yi其他的投影向量,θj表示除了投影向量Yi其他投影向量的角度。此时θj的范围为(0,2π),将整个范围分为(0,π)(π,2π)两个区域,依次在这两个区域中随机取邻接点Xi,直到取得的邻接点个数为m个,其中/>n表示M1视野中邻接点的个数。
将得到的邻接点向量拼接起来可以表示为一个数组[X1,X2,...Xm]。对于半径r1的M1感受野球和半径r2的感受野M2中间环体积做上述相同步骤的操作,得到邻接点向量数组[Xm+1,Xm+2,...Xm+s],其中s表示半径r1的M1感受野球和半径r2的感受野M2中间环体积中取得的邻接点个数。整合两个邻接点向量数组即可得到点云Q的P个邻接点向量信息,这种方法得到的邻接点考虑了点的密度分布,也避免了邻接点信息的冗余。
另一个操作为图卷积提取局部特征生成新节点,对于得到的P个邻接点向量包含点云物体的局部信息,定义P个邻居点向量矩阵为集合C,其中C的表达式为C={Xj:j=1,2,3…P}。其中Xj表示邻接点j的特征向量。基于图卷积的方式,引入拉普拉斯矩阵并进行归一化,公式为Hl+1=σ(LHlWl),H0=X,/>其中σ为非线性激活函数,实验中采用了ReLU激活函数,Wl为第l层的权重参数矩阵,D为自身的度矩阵,/>为度矩阵和邻接点矩阵的插值,X为第一层输入,最后得到Hl+1即为第l+1层图卷积的特征向量。
在新节点的基础上注入空间注意力模块,其特征在于,包括一下步骤:
分别使用两个互相独立的卷积操作生成两个新的特征S,F。在DANet中,得到两个新特征之后会进行reshape操作,之后再将两个新特征S,F相乘,
再通过softmax得到空间注意力权重,但是reshape操作会丢失点云的空间特征信息。本次设计的空间注意力模块,删除DANet中的reshape操作,直接将新特征S,F相乘得到权重注意力矩阵U,再经过softmax进行归一化,计算公为:其中N表示点的个数,Si,Fj表示点i,点j的特征,Uij表示点i,点j的相似性,值越大,表示相似性越高。
将特征H与空间注意力矩阵U相乘,并与标度参数σ相乘,最后和特征H相加,得到增强的输出特征W,即为新节点特征。其中σ是初始值为0的可学习的标度参数,并设定其可学习最大值不超过1,设置可学习的标度参数可以增强较远距离之前点的空间特征的联系,有利于提取空间结构特征。增强的新节点特征W,计算公式为:其中Hj,Hi表示点j,点i的特征。引入空间注意力机制可以建立点之间的全局结构关系,提取点之间的远距离,深层次的语义信息
进一步的进行相似度合并,包括以下步骤:
基于得到的新节点W,进行KNN查询,找到邻接点矩阵信息C,通过相似度对比模块进一步合并局部信息。设计相似度对比模块步骤如下:
步骤一、邻接点距离相似度对比,首先选取新节点W的某个邻接节点Ci,对Ci进行kNN查询得到邻接矩阵M,计算节点W和邻接矩阵C中每个节点的欧氏距离和,计算Ci和邻接矩阵M中每个节点的欧氏距离和。得到的两个距离和相除得到S1。
步骤二、权重和度相似度对比,分为两类,一种是完全一致的邻居节点,可直接得到S1=1;另一种需要对比局部特征的空间结构,按照结构的相似性,进行节点合并,相似度对比公式为:其中/>表示W,Ci所组成边的权重值,表示节点W,Ci的度。
步骤三、将得到的S1和S2分配不同权重并相加,计算公式为S=α·S1+β·S2,当s大于某个设定的值,则合并W,Ci这两个节点并得到新的超节点。合并之后得到的超节点信息能感受到距离比较远的节点信息,具有更丰富的局部特征信息。
接下来进行特征融合,计算得到的超节点的法向量,通过MLP计算全局特征,融合超节点局部特征,法向量,全局特征进行训练,最后得到点云的分类结果。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.基于三维点云数据不规则的特点,提出多层次化图卷积模块,提供不同感受野,考虑到了不同三维点云数据稀疏度的差别,对于稀疏度差别较大的点云数据,也能根据感受野比例、稀疏程度更准确的找到相对完整的局部特征,在此基础上提供法向量信息能更加更富局部特征信息。通过这样的改进,能够更高效准确地学习到点云的特征。
2.基于改进的空间注意力机制和相似度对比合并方法。通过改进DAnet操作步骤并动态的引入标度参数获取的空间注意力图,可以考虑到不同距离远近点的空间结构联系,在此基础上引入相似度对比合并机制,对相似度较高的节点进行合并,减少重复点的影响,提升获取局部特征能力。
3.本发明中提出的算法分别在在ModelNet10和ModelNet40数据集上进行三维点云分类,与之前的算法相比,分类准确率均有明显的提升。详情见表1和表2。
附图说明
图1为本发明整体流程架构图。
图2为本发明中多层图卷积邻近点选取示意图。
图3为本发明中空间注意力机制模块示意图。
图4为本发明中相似度对比模块示意图。
图5为PointNet网络架构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提出一种基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法,通过层次图卷积模块、空间注意力模块、相似度对比模块,达到减少信息冗余,增强局部特征的目的。
步骤一、进行层次图卷积模块操作,此操作包括基于查询点的多视野、不同密度稀疏程度的K个邻接点的筛选,并以图卷积的方式结合查询点自身点云特征得到新的特征向量。
基于以下定义:图的定义如下,G=(V,C),其中V为点云节点的集合,C为边的集合。每个节点j都对应其特征xj,可以用矩阵XN*T表示,C为N×K的邻接矩阵,其中N代表节点数,T为节点特征向量的维度,K表示邻近点的数量。
对于任意给出的点云节点Q,Q∈V,以节点Q为中心节点,计算其他点云节点到节点Q的距离,找到最远距离dmax和最近距离dmin。随机选择两个节点,选择的两个节点需满足πdmin 3=απ(dmax 3-dmin 3),0<α<2,若不满足上述条件,则先固定一个点,继续选取另一个点,直到满足上述条件。选出的两个节点到节点Q的距离即为r1,r2。这样可以保证提供的的两个不同的感受野M1,M2差距相对较小。
分别在感受野M1,M2范围内,对节点Q进行KNN邻近点查询,并投影到点云节点Q的切平面,根据不同感受野邻域点密度的比例提取邻域内的邻接点,找到K个邻近点。实际操作过程中分别取K为15,20,25,30。
2.计算节点Q的法向量,对邻接点进行平面拟合,使用最小二乘法得到拟合的平面,拟合平面的向量为法向量,计算公式为: 其中xi表示第i个邻接点,/>表示节点Q周围邻接点的平均坐标值,Nor为法向量,||n||表示n的范数。
3.计算M1视野中这n个邻接点在Q点处的切平面的投影向量。此处做投影处理将三维空间数据投影到二维空间数据,可以在平面内根据点的个数,估计三维空间不同感受野中点的密度。计算公式为:Yj=Xj-((Q-Xj)·Nor)·Nor,其中Yj为邻接节点j在切平面的投影向量。
4.选取一个投影向量Yi连接Q得到一个基准Z=Yi-Q,计算剩下的投影向量相对于该基准的角度,角度计算公式为其中Yj表示除了投影向量Yi其他的投影向量,θj表示除了投影向量Yi其他投影向量的角度。此时θj的范围为(0,2π),将整个范围分为(0,π)(π,2π)两个区域,依次在这两个区域中随机取邻接点Xi,直到取得的邻接点个数为m个,其中/> n表示M1视野中邻接点的个数。
5.将感受野M1得到的邻接点向量拼接起来,表示为一个数组[X1,X2,...Xm]。
6.对于感受野M2,执行上述步骤3,4,5得到感受野M2筛选后的邻接向量数组[Xm+1,Xm+2,...Xm+s],其中s表示半径r1的M1感受野球和半径r2的感受野M2中间环体积中取得的邻接点个数。
7.将步骤5,6操作得到的邻接点向量数组拼接,得到[X1,X2,...Xm,...Xm+s]。,这种方法得到的m+s个邻接点考虑了点的密度分布,也避免了邻接点信息的冗余,记P=m+s。
8.步骤7得到的P个邻接包含节点Q的局部信息,定义P个邻居点向量矩阵为集合C,其中C的表达式为C={Xj:j=1,2,3…P}。其中Xj表示邻接点j的特征向量。
9.对于邻接点的向量矩阵做归一化操作,这里采用主流的拉普拉斯矩阵归一化方法,计算公式为其中D为自身的度矩阵,/>为度矩阵和邻接点矩阵的插值,对于单个节点运算来说,做归一化就是除以它节点的度,这样每一条邻接边信息传递的值就被规范化了。
10.采用图卷积的方式,引入拉普拉斯矩阵并进行归一化,公式为Hl+1=σ(LHlWl),H0=X,/>其中σ为非线性激活函数,实验中采用了ReLU激活函数,Wl为第l层的权重参数矩阵,D为自身的度矩阵,/>为度矩阵和邻接点矩阵的插值,X为第一层输入,最后得到Hl+1即为第l+1层图卷积的特征向量。
步骤二、在新节点的基础上注入空间注意力模块,点云的空间特征能更好的反应点云的类别特征,对于步骤一得到的特征H,分别使用两个互相独立的卷积操作生成两个新的特征S,F。在DANet中,得到两个新特征之后会进行reshape操作,之后再将两个新特征S,F相乘,再通过softmax得到空间注意力权重,但是reshape操作会丢失点云的空间特征信息。本次设计的空间注意力模块,删除DANet中的reshape操作,直接将新特征S,F相乘得到权重注意力矩阵U,再经过softmax进行归一化,计算公为: 其中N表示点的个数,Si,Fj表示点i,点j的特征,Uij表示点i,点j的相似性,值越大,表示相似性越高。
将特征H与空间注意力矩阵U相乘,并与标度参数σ相乘,最后和特征H相加,得到增强的输出特征W,即为新节点特征。其中σ是初始值为0的可学习的标度参数,并设定其可学习最大值不超过1,设置可学习的标度参数可以增强较远距离之前点的空间特征的联系,有利于提取空间结构特征。增强的新节点特征W,计算公式为:其中Hj,Hi表示点j,点i的特征。引入空间注意力机制可以建立点之间的全局结构关系,提取点之间的远距离,深层次的语义信息。设置σ为初始0,每次增加0.1,达到0.5之后每次增加0.01。引入空间注意力机制可以建立点之间的全局结构关系,提取点之间的远距离,深层次的语义信息。/>
步骤三、引入相似度对比模块,进一步增加感受野范围,强化局部特征。
基于得到的新节点W,进行KNN查询,找到邻接点矩阵信息C,通过相似度对比模块进一步合并局部信息。设计相似度对比模块步骤如下:
1.邻接点距离相似度对比,首先选取新节点W的某个邻接节点Ci,对Ci进行kNN查询得到邻接矩阵M,计算节点W和邻接矩阵C中每个节点的欧氏距离和,计算Ci和邻接矩阵M中每个节点的欧氏距离和。得到的两个距离和相除得到S1。
2.权重和度相似度对比,分为两类,一种是完全一致的邻居节点,可直接得到S1=1;另一种需要对比局部特征的空间结构,按照结构的相似性,进行节点合并,相似度对比公式为:其中/>表示W,Ci所组成边的权重值,/>表示节点W,Ci的度。
3.将得到的S1和S2分配不同权重并相加,计算公式为S=α·S1+β·S2,当s大于某个设定的值,则合并W,Ci这两个节点并得到新的超节点。合并之后得到的超节点信息能感受到距离比较远的节点信息,具有更丰富的局部特征信息。为简单方便起见,这里认为权重和度的相似度比较具有更高的优先级。设置α为0.3,β为0.7。当S大于0.8,则认为这两个节点相似。则对W,Ci归一化后取节点信息的平均值新的超节点。在进行卷积操作得到超节点的特征,最终通过卷积操作得到的n×128。
步骤四、结合强化后的局部特征于全局特征进行点云分类。
在pointNet网络中,首先预测了一个变换矩阵,进行变换操作,然后使用MLP对每个点做一个embedding,之后再在特征空间中预测了变换矩阵,进行变换操作,然后又做了embedding,最后maxpooling得到全局特征。这样实际上只解决了最基本的如何满足点云性质问题,只捕捉到了全局信息。
本次设计对pointNet网络的部分操作进行了改进。在输入数据格式上,首先计算点的法向量信息,依据步骤一的方法,对邻接点进行平面拟合,使用最小二乘法得到拟合的平面,拟合平面向量得到法向量特征。其次将两次预测的变换矩阵和变换操作去除,直接对点云进行三次MLP操作,分别设置抽样点数为n=256,512,1024,2048,batch_size为8,16,32,64则初始输入点云的信息分别为256×4,512×4,1024×4,2048×4,分别经过64,128,1024维度的MLP操作得到n×1024的全局特征,连接超节点的局部特征得到n×1152的特征矩阵,最后将融合后的特征通过全连接层进行分类。
实验在Ubuntu 18.04系统上进行,使用NVIDIA GeForce RTX 306012GB的gpu以及10.1版本的cuda。实验分别设置邻接点个数K取值为10,15,20,25。分别在第30、70、100、120次迭代时进行学习率衰减,衰减率分别设置为0.1、0.1、0.2、0.2,初始学习率为0.001。为,为了防止过拟合分别在每个全连接层加入了batch normalization层和参数为0.3的dropout层。
下表为本发明和其他方法得到的三维点云分类结果。
表1.ModelNet40分类结果
模型 | 输入格式 | 平均精度 | 总体精度 |
PointNet | (x,y,z) | 86.2 | 89.2 |
PointNet++ | (x,y,z) | 89.4 | 90.7 |
PointCNN | (x,y,z) | 88.1 | 92.1 |
A-CNN | (x,y,z,n) | 88.8 | 92.3 |
本次发明 | (x,y,z,n) | 90.2 | 92.9 |
表2.ModelNet10分类结果
模型 | 输入格式 | 平均精度 | 总体精度 |
KD-Net | (x,y,z) | 93.5 | 94.0 |
PCNN | (x,y,z) | 94.0 | 94.7 |
PointASNL | (x,y,z) | 94.4 | 95.2 |
A-CNN | (x,y,z,n) | 94.3 | 94.9 |
本次发明 | (x,y,z,n) | 94.8 | 95.5 |
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (4)
1.基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法,其特征在于:包括层次图卷积模块、空间注意力模块、相似度对比模块;其中层次图卷积模块,包括基于查询点的多视野、不同密度稀疏程度的K个邻接点的筛选,并以图卷积的方式结合查询点自身点云特征得到新的特征向量;其中空间注意力模块,包括改进DAnet操作步骤,去掉影响形状特征的reshape操作,引入动态的标度特征参数进行较远距离点形状关联,和空间注意力矩阵相乘得到强化的特征参数,即为新的节点特征向量;其中相似度对比模块,包括对新节点进行KNN查询得到新节点的邻居节点,在新节点的基础上按照结构相似度合并与新节点相似的邻居节点,得到多层次超节点信息,减少相似节点的信息冗余并加强局部特征;计算超节点的法向量,将带有法向量特征的超节点的局部特征和带有法向量信息输入的全局特征进行融合,最后得到点云的分类结果。
2.根据权利要求1所述的基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法,其特征在于,层次图卷积模块包括以下步骤:
步骤一、筛选查询点多视野、不同密度稀疏程度的K个邻接点:
对于任意给出的点云节点,每个节点的度不一样,查找的邻近点可能包含在不同大小的局部区域内,导致信息冗余,不同位置点的密度也不一样;为了得到K个邻近点的特征信息,进行如下操作:
基于以下定义:图的定义如下,G=(V,C),其中V为点云节点的集合,C为边的集合;每个节点j都对应其特征xj,用矩阵XN*T表示,C为N×K的邻接矩阵,其中N代表节点数,T为节点特征向量的维度,K表示邻近点的数量;
针对点云节点Q={X,Y,Z},其中{X,Y,Z}分别表示节点Q的三维坐标值,提供M1和M2两个不同的感受野,r1和r2表示不同感受野的半径大小,其中r1<r2,M1<M2;通过KNN进行点云节点Q的邻近点查询,并投影到点云节点Q的切平面,根据不同感受野邻域点密度的比例提取邻域内的邻接点,找到K个邻近点;以半径为r1的M1感受野说明K个邻接点的查找过程,首先计算不同感受野体积比例,计算公式为其中b1表示半径r1的M1感受野球的体积比例,b2表示半径r1的M1感受野球和半径r2的感受野M2中间环体积的比例;然后计算点云的法向量,计算公式为:/> n=b1×K;其中xi表示第i个邻接点,/>表示节点Q周围邻接点的平均坐标值,Nor为法向量,||n||表示n的范数;
然后计算M1视野中这n个邻接点在节点Q处的切平面的投影向量;计算公式为:Yi=Xi-((Q-Xi)·Nor)·Nor,其中Yi为邻接节点i在切平面的投影向量,Q={X,Y,Z}分别表示节点Q的三维坐标值;
选取一个投影向量Yi连接Q得到一个基准Z=Yi-Q,计算剩下的投影向量相对于该基准的角度,角度计算公式为其中Yj表示除了投影向量Yi其他的投影向量,θj表示除了投影向量Yi其他投影向量的角度;此时θj的范围为(0,2π),将整个范围分为(0,π)(π,2π)两个区域,依次在这两个区域中随机取邻接点Xi,直到取得的邻接点个数为m个,其中/>n表示M1视野中邻接点的个数;/>
将得到的邻接点向量拼接起来表示为一个数组[X1,X2,...Xm];对于半径r1的M1感受野球和半径r2的感受野M2中间环体积做上述相同步骤的操作,得到邻接点向量数组[Xm+1,Xm+2,...Xm+s],其中s表示半径r1的M1感受野球和半径r2的感受野M2中间环体积中取得的邻接点个数;整合两个邻接点向量数组即可得到点云Q的P个邻接点向量信息;
步骤二、邻接点图卷积提取特征操作
3.根据权利要求2所述的基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法,其特征在于,空间注意力模块包括以下步骤:
对于得到的特征H,分别使用两个互相独立的卷积操作生成两个新的特征S,F;在DANet中,得到两个新特征之后会进行reshape操作,之后再将两个新特征S,F相乘,再通过softmax得到空间注意力权重,但是reshape操作会丢失点云的空间特征信息;本次设计的空间注意力模块,删除DANet中的reshape操作,直接将新特征S,F相乘得到权重注意力矩阵U,再经过softmax进行归一化,计算公为:其中N表示点的个数,Si,Fj表示点i,点j的特征,Uij表示点i,点j的相似性,值越大,表示相似性越高;
4.根据权利要求3所述的基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法,其特征在于,相似度对比模块包括以下步骤:
得到的新节点特征W,进行KNN查询,找到邻接点矩阵信息C,通过相似度对比模块进一步合并局部信息;设计相似度对比模块步骤如下:
步骤一、邻接点距离相似度对比,首先选取新节点W的某个邻接节点Ci,对Ci进行kNN查询得到邻接矩阵M,计算节点W和邻接矩阵C中每个节点的欧氏距离和,计算Ci和邻接矩阵M中每个节点的欧氏距离和;得到的两个距离和相除得到S1;
步骤二、权重和度相似度对比,分为两类,一种是完全一致的邻居节点,可直接得到S1=1;另一种需要对比局部特征的空间结构,按照结构的相似性,进行节点合并,相似度对比公式为: 其中/>表示W,Ci所组成边的权重值,/>表示节点W,Ci的度;/>
步骤三、将得到的S1和S2分配不同权重并相加,计算公式为S=α·S1+β·S2,当s大于某个设定的值,则合并W,Ci这两个节点并得到新的超节点;
接下来进行特征融合,计算得到的超节点的法向量,通过MLP计算全局特征,融合超节点局部特征,法向量,全局特征进行训练,最后得到点云的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310223966.0A CN116258903A (zh) | 2023-03-09 | 2023-03-09 | 基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310223966.0A CN116258903A (zh) | 2023-03-09 | 2023-03-09 | 基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116258903A true CN116258903A (zh) | 2023-06-13 |
Family
ID=86682392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310223966.0A Pending CN116258903A (zh) | 2023-03-09 | 2023-03-09 | 基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116258903A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797625A (zh) * | 2023-07-20 | 2023-09-22 | 无锡埃姆维工业控制设备有限公司 | 一种单目三维工件位姿估计方法 |
CN117649530A (zh) * | 2024-01-30 | 2024-03-05 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
-
2023
- 2023-03-09 CN CN202310223966.0A patent/CN116258903A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797625A (zh) * | 2023-07-20 | 2023-09-22 | 无锡埃姆维工业控制设备有限公司 | 一种单目三维工件位姿估计方法 |
CN116797625B (zh) * | 2023-07-20 | 2024-04-19 | 无锡埃姆维工业控制设备有限公司 | 一种单目三维工件位姿估计方法 |
CN117649530A (zh) * | 2024-01-30 | 2024-03-05 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
CN117649530B (zh) * | 2024-01-30 | 2024-04-23 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kanezaki et al. | Rotationnet: Joint object categorization and pose estimation using multiviews from unsupervised viewpoints | |
Wei et al. | Superpixel hierarchy | |
CN116258903A (zh) | 基于层次化图卷积网络和空间注意力机制的三维点云数据分类方法 | |
Chen et al. | HAPGN: Hierarchical attentive pooling graph network for point cloud segmentation | |
CN113536232B (zh) | 用于无人驾驶中激光点云定位的正态分布变换方法 | |
CN113628263A (zh) | 一种基于局部曲率及其近邻特征的点云配准方法 | |
CN113706710A (zh) | 基于fpfh特征差异的虚拟点多源点云融合方法及系统 | |
CN113989340A (zh) | 一种基于分布的点云配准方法 | |
Li et al. | Point cloud registration based on direct deep features with applications in intelligent vehicles | |
CN115082716A (zh) | 一种面向道路精细重建的多源点云粗匹配算法 | |
Shi et al. | City-scale continual neural semantic mapping with three-layer sampling and panoptic representation | |
Liu et al. | A fragment fracture surface segmentation method based on learning of local geometric features on margins used for automatic utensil reassembly | |
Wang et al. | A Geometry Feature Aggregation Method for Point Cloud Classification and Segmentation | |
Ng et al. | RadialNet: a point cloud classification approach using local structure representation with radial basis function | |
Liu et al. | An approach to 3D building model retrieval based on topology structure and view feature | |
Li et al. | Efficient and accurate object detection for 3D point clouds in intelligent visual internet of things | |
Li et al. | Geometric invariant representation learning for 3D point cloud | |
Ma et al. | Triplet-Graph: Global Metric Localization based on Semantic Triplet Graph for Autonomous Vehicles | |
Li et al. | 3D Point Cloud Segmentation for Complex Structure Based on PointSIFT | |
CN113989547B (zh) | 基于图卷积深度神经网络的三维点云数据分类系统及方法 | |
Wu et al. | Learning Robust Point Representation for 3D Non-Rigid Shape Retrieval | |
Chen et al. | A fast voxel-based method for outlier removal in laser measurement | |
Chen et al. | Point cloud 3D object detection method based on density information-local feature fusion | |
Cheng et al. | Research on classification method of 3D point cloud model based on KE-PointVNet | |
Sun et al. | Simultaneous Localization and Mapping Based on Semantic Information Optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |