CN114693923A - 一种基于上下文和注意力的三维点云语义分割方法 - Google Patents
一种基于上下文和注意力的三维点云语义分割方法 Download PDFInfo
- Publication number
- CN114693923A CN114693923A CN202210221944.6A CN202210221944A CN114693923A CN 114693923 A CN114693923 A CN 114693923A CN 202210221944 A CN202210221944 A CN 202210221944A CN 114693923 A CN114693923 A CN 114693923A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- point
- matrix
- data
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000011218 segmentation Effects 0.000 title claims abstract description 57
- 230000002787 reinforcement Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 107
- 238000012549 training Methods 0.000 claims description 39
- 238000005070 sampling Methods 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 13
- 238000005728 strengthening Methods 0.000 claims description 8
- 238000009827 uniform distribution Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于上下文和注意力的三维点云语义分割方法,包括:步骤1,对输入三维点云模型数据集采集数据;步骤2,用关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;步骤3,用上下文—注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征;步骤4,采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。
Description
技术领域
本发明属于计算机图像处理和计算机图形学领域,尤其涉及一种基于上下文和注意力的三维点云语义分割方法。
背景技术
近年来,随着三维数据采集设备的不断发展和普及,三维模型数据出现了爆炸式增长,同时也吸引了研究人员对三维模型数据理解和处理的研究兴趣。三维模型主要表现形式有点云、体素、面片等,其中由于点云数据可以很轻松地通过简易设备获取和对光照等外界因素不敏感等诸多优势,使得三维点云模型的分析成为了热点的研究领域。但是点云数据同样存在一些特点:不规则、无序以及较为稀疏。这些特点使得如何对点云数据进行处理和理解变得十分困难。目前,深度学习技术在二维图像领域的研究已经取得了优秀的成果。然而,不同于天然拥有位置结构的二维图像,三维点云模型的无序性使得二维图像上的卷积操作无法直接应用于三维点云模型上,导致深度学习的方法应用于三维模型的分析变得困难重重。
虽然三维点云模型的语义分割问题很基础,但是它却十分有挑战性,有以下几点原因:
1、属于同一部件的点云必须被正确的标注为同一语义标签;
2、全局和局部特征必须被有效聚合起来分析才能实现更好的分割结果;
3、分析方法必须对降采样、噪声以及同类模型的多样性具有鲁棒性。
近年来,三维点云语义分割领域出现了许多方法,大致分为以下四个类别:基于多层感知机的方法、基于点云卷积的方法、基于递归神经网络的方法、基于图的方法等。
基于多层感知机的方法使用共享的多层网络来共享参数。如文献1C.R.Qi,H.Su,K.Mo,and L.J.Guibas.PointNet:Deep Learning on Point Sets for 3DClassification and Segmentation.2017.、文献2C.R.Qi,L.Yi,H.Su,andL.J.Guibas.Pointnet++:Deep hierarchical feature learning on point sets in ametric space.Advances in neural information processing systems,2017,30.等通过融合多尺度信息,使用共享的多层感知机对各点云信息进行特征提取,但共享的多层感知机很难聚焦点云的局部几何联系。
基于点云卷积的方法通过直接对输入的点云数据进行卷积操作,来提取点云特征。如文献3S.B.Hua,K.M.Tran,and K.S.Yeung.Pointwise convolutional neuralnetworks.Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:984-993.、文献4Y.Li,R.Bu,M.Sun,W.Wu,X.Di.and B.Chen,Pointcnn:Convolution on x-transformed points.Advances in neural information processingsystems.2018;31.提出对点云使用逐点卷积的方法,通过在整个点云区域中进行滑动地卷积计算并让每个卷积核范围内的点云都具有相同的权重。文献5H.Thomas,C.R.Qi,J.E.Deschaud,B.Marcotegui,and Goulette.Kpconv:Flexible and deformableconvolution for point clouds.Proceedings of the IEEE/CVF internationalconference on computer vision.2019:6411-6420.提出通过建立分布而不是计算相似度来得到核变换矩阵的值,进而实现点积。文献6 Y.Liu,B.Fan,S.Xiang,C.Pan.Relation-shape convolutional neural network for point cloud analysis.Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:8895-8904.通过构建局部邻域形状卷积来增强特征的表征能力。相比于传统构建核变换矩阵的方式,这种方式更好地适应复杂的点云几何形状变化。
基于递归神经网络的方法可以通过递归地传递和利用隐式存在于点云的上下文特征,并且利用这些特征增强点云的特征表征能力从而提高分割精度。文献7Z.Zhao,M.Liu,K.Ramani.DAR-Net:Dynamic aggregation network for semantic scenesegmentation.arXiv preprint arXiv:1907.12022,2019.、文献8F.Liu,S.Li,L.Zhang,C.Zhou,R.Ye,Y.Wang,and J.Lu.3DCNN-DQN-RNN:A deep reinforcement learningframework for semantic parsing of large-scale 3D point clouds.Proceedings ofthe IEEE international conference on computer vision.2017:5678-5687.、文献9X.Ye,J.Li,H.Huang,L.Du,and X.Zhang.3d recurrent neural networks with contextfusion for point cloud semantic segmentation.Proceedings of the Europeanconference on computer vision(ECCV).2018:403-417.等通过设计动态特征聚合的方式,来融合局部和全局特征。
基于图的方法首先根据点云的位置来确定点云模型中所有点的邻接关系,将点云数据构建成一个图结构的数据。图作为一种较为自然的数据结构很适合处理点云这类不规则的数据。文献10Y.Shen,C.Feng,Y.Yang,and D.Tian.Mining point cloud localstructures by kernel correlation and graph pooling.Proceedings of the IEEEconference on computer vision and pattern recognition.2018:4548-4557.定义点云集合的邻接关系由核相关性度量的几何相似性决定,并在每个节点及其邻居节点上实现卷积。文献11D.Boscaini,J.Masci,S.Melzi,M.M.Bronstein,U.Castellani,andP.Vandergheynst.Learning class-specific descriptors for deformable shapesusing localized spectral convolutional networks.Computer Graphics Forum.2015,34(5):13-23.、文献12L.Yi,H.Su,X.Guo,and J.L.Guibas.Syncspeccnn:Synchronizedspectral cnn for 3d shape segmentation.Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:2282-2290.、文献13D.K.Hammond,P.Vandergheynst,R.Gribonval.Wavelets on graphs via spectral graphtheory.Applied and Computational Harmonic Analysis,2011,30(2):129-150.等在谱域上定义图上的卷积。然而,这些方法通常需要计算大量的参数。
最近,注意力机制在各领域如机器翻译、物体检测和语义分割等得到了广泛的应用。在三维模型分割领域,图卷积神经网络最先引入了注意力机制。文献14L.Wang,Y.Huang,Y.Hou,S.Zhang,and J.Shan.Graph attention convolution for point cloudsemantic segmentation.Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:10296-10305.、文献15J.Yang,Q.Zhang,B.Ni,L.Li,J.Liu,M.Zhou,and Q.Tian.Modeling point clouds with self-attention andgumbel subset sampling.Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:3323-3332.等通过构建点云自注意力变换网络来进行点云理解。此外,上下文信息同样成为三维点云相关研究的焦点。文献16M.Defferrard,X.Bresson,P.Vandergheynst.Convolutional neural networks ongraphs with fast localized spectral filtering.Advances in neural informationprocessing systems,2016,29.、文献17G.Yu,K.Liu,Y.Zhang,C.Zhu,and K.Xu.Partnet:Arecursive part decomposition network for fine-grained and hierarchical shapesegmentation.Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:9491-9500.等分别利用图卷积和递归神经网络来利用上下文信息增强特征表征能力。但是这些方法将上下文或者注意力嵌入深层网络,因此制约了这些模块的普适性。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于上下文和注意力的三维点云语义分割方法,包括以下步骤:
步骤1,对输入的三维点云模型数据集采集数据;
步骤2,通过关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;
步骤3,用上下文和注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征;
步骤4,采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。
步骤1包括如下步骤:
步骤1-1,将输入的三维点云模型数据集S={STrain,STest}划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型;
步骤1-2,设定输入单个三维点云模型si(记录了三维模型所有点的坐标,该三维模型取自包含了16中类型的3D模型的ShapeNet标准3D点云模型语义分割数据集)以及对所有点所属部件的标签集li(记录了模型每个点所属部件种类的标签,该数据集共有50种部件),从所有点云数据中随机采样N个点作为网络输入点集Pi={p1,p2,...pi,...,pN},从标签集li中取出与第i个点Pi相对应的标签组成新的标签集gi,i取值为1~N;步骤1-1中的数据集经过采样得到新的数据集P={PTrain,PTest},使得网络分割过程中不同点云模型的特征形状可以保持一致,实验中发现采样N个点能有效兼顾到硬件GPU的性能和;PTrain表示采样后的点云训练集,PTest表示采样后的点云测试集;
步骤1-3,对步骤1-2得到的训练集PTrain进行随机尺度缩放和平移,其中缩放因子u从均匀分布U(0.8,1.25)中采样,平移量从均匀分布U(-0.1,0.1)中采样。
其中,步骤1-2包括如下步骤:
步骤1-2-1,对单个三维点云模型si,其点云集合为si={si1,si2,...sij,..,sin},其中sij表示点云模型si的第j个点数据,j取值为1~n;从索引集合Q={1,2,...,n}中进行有放回抽样,重复N次得到采样后索引集合Q1={q1,q2,...qk,...,qN},ik∈I,其中qk表示第k次从集合Q中抽样的索引;
步骤1-2-2,将步骤1-2-1中的点云集合si中的点云下标与Q1中元素对应的点云加入到采样点集P中,得到新的点云模型数据Pi={p1,p2,...pk,...,pN},其中pk为步骤1-2-1中sij的j取qk,即
步骤1-2-3,重复步骤1-2-1和1-2-2,直至训练集中所有三维点云模型均已完成采样结束。
在步骤1-3中,对每个点云数据的坐标,即点云数据前3维进行随机尺度缩放和平移,如此可以提高模型训练效果和鲁棒性。
步骤2包括如下步骤:
步骤2-1,对于采样后的点云训练集PTrain={P1,P2,...Pi,...,Pn},采集其各个点的真实标签GTrain={G1,G2,...Gi,...,Gn}和点云数据输入到关系形状网络中进行训练,经过编码器提取高维点云特征,其中Pi指的是第i个点云模型的数据,Gi指的是第i个点云模型的每个点的真实标签集合;
步骤2-2,对步骤2-1中提取的点云特征进行上采样解码,得到符合输入形状并包含关系信息的点云特征。利用双线性插值逐步增大点云基数,直至达到输入形状N,最终得到N×512维的特征矩阵。
其中,步骤2-1包括以下步骤:
步骤2-1-1,对于单个点云模型数据Pi,依照最远点采样策略对点云数据进行分组,通过迭代选取与全部点云数据欧式距离最大的点作为球心,得到点云分组PGi={pg1,pg2,...,pgi,...,pgm},其中pgi={pi1,..,pik,..pin},pgi表示第i个点云组,pik表示pgi中第k个点,通过最远点采样可以使得采样点云在原点云数据上覆盖范围最大化;
步骤2-1-2,步骤2-1-1中的PGi经过正向传播的卷积操作后,被提取为m×512维的特征矩阵fi;
步骤2-1-3,重复步骤2-1-1和步骤2-1-2共3次,每次重复过程中m分别为512、128、1,n分别为32、32、128,分别得到第一阶段的点云分组PGi-1、第二阶段的点云分组PGi-2、第三阶段的点云分组PGi-3和第一阶段的点云特征矩阵fi-1、第二阶段的点云特征矩阵fi-2、第三阶段的点云特征矩阵fi-3。
步骤3包括以下步骤:
步骤3-1,对于单个点云模型数据Pi以及其对应的真实标签G,经过步骤2得到的特征矩阵经过上下文模块,得到具备上下文先验知识的类内特征矩阵和类间特征矩阵;
步骤3-2,由步骤3-1得到的类内特征矩阵和类间特征矩阵经过自注意力模块进行强化,对全局依赖关系进行建模,得到具备上下文先验和全局语义关联的点云特征。
其中,步骤3-1包括以下步骤:
步骤3-1-1,对于步骤2中得到的N×512维特征矩阵,利用1x1卷积操作降维至N×256维,得到新的特征矩阵F,通过与其转置矩阵相乘,得到N×N维的类内特征矩阵M,类间特征矩阵I-M,其中I表示单位矩阵;聚合类内特征和类间特征,得到包含上下文先验的特征矩阵Fe,即:
Fe=concat(M,(I-M)F)
其中,concat表示对特征在最后一个维度上进行拼接聚合。
其中,分别表示类内的正确率、类内的召回率、类间的特异性;cij表示矩阵C的(i,j)元,mij表示矩阵M的(i,j)元,μ是一个非负极小值,在本发明中根据经验设置μ=0.0001,用于控制网络训练过程中出现除数全0而溢出的情况。
计算学习的上下文矩阵,即类内特征矩阵M(形状为N×N,mn∈M,n∈[1,N2])与矩阵C(形状为N×N,cn∈C,n∈[1,N2])的二进制交叉损失并最终通过加权两损失得到最终的上下文损失具体计算公式如下:
其中,λu和λg表示各自的权重值,本发明中将λu和λg设定为1。
在步骤3-2中,所述自注意力模块采用8头注意力,并对步骤3-1-1中得到的包含上下文先验的特征矩阵Fe进行切分为8个小的子集合,分别对每个集合进行自注意力矩阵计算,最后汇总成具备整体注意力关系的全局注意力矩阵中。通过自注意力机制进行了全局关系建模和强化,得到最终的特征矩阵。
在步骤4中对步骤3中得到的特征矩阵经过全连接层(Fully Connected Layer),并最终经过Softmax多分类器对输入的多维特征向量进行多标签预测,得到点云数据语义分割的概率图,将点云数据每个点预测概率最大的标签作为该点的预测标签,和对应的真实标签Gi对比,计算语义分割损失与步骤3-1-2中的相加作为总损失进行反向传播,最终得到训练的包含上下文先验知识的点云分割网络,具体计算公式如下。
其中,w为对应的权重,c为类别,x为网络输出预测标签。
本发明的方法致力于解决将3D点云模型分割成带标签的语义部分。基于点云模型的组成部分来对模型进行分析和推理在计算机视觉、机器人和虚拟现实等领域被大量应用,如混合模型分析、目标检测与跟踪、3D重建、风格迁移、机器人漫游和抓取等,这也使得这项工作变得十分有意义。
有益效果:本发明方法受启发于先采用关系形状网络进行点云特征提取,然后通过上下文-注意力模块引入上下文先验知识对特征进行约束,得到具备类内类间关系的特征矩阵。最后通过分类器对完备的特征图进行部件预测,得到最后的语义分割图。在整个过程中,该方法通过嵌入到通用点云特征提取骨干网络后,融合先验的语义上下文知识,促使网络明确点云部件不同类别的边界,经过自注意力模块的强化,进一步提升点云语义分割标注的效果,整个方法体系高效而实用。本发明方法优化了通用点云分割过程中部件边缘区域的分割效果,既保证了整体分割精度,又提高了边缘细节。此外,本发明方法设计了一种可便捷嵌入的上下文模块,可以广泛适用于常见的点云分割网络,帮助网络进一步提升三维点云模型语义分割标注的结果。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1a为未分割的原始模型。
图1b为语义分割后的标签着色渲染结果。
图2为本发明方法的整体网络框架图。
图3为本发明中上下文-注意力模块框架图。
图4为本发明方法在ShapeNetPart数据集上语义分割效果渲染图。
图5为本发明流程图。
具体实施方式
如图5所示,本发明公开了基于上下文-注意力的三维点云语义分割方法,本发明采集待分割的三维模型中N个点云数据和对应部件标签;将模型训练集的点云数据和部件标签输入网络模型进行训练,将模型测试集的点云数据输入训练好的网络模型,得到所有点的部件预测标签;分割网络中利用最远点采样对三维点云模型进行分组,使得分组后点云在原点云数据中覆盖范围最大化;对每个组的点云数据进行基于点与球心点云坐标的欧式距离的卷积操作,得到具备关系信息的点云特征矩阵;通过上下文-注意力模块计算对应的上下文特征图,利用先验的部件标签生成的特征图进行监督训练;对得到上下文先验的特征图进行注意力矩阵计算,强化类间关系和全局依赖;再通过分类器计算点云预测为每个部件的概率,选取最大值作为最终的预测部件标签。
对于给定的三维点云模型数据集S={STrain,STest},划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型,本发明经过如下步骤,完成对数据集内的模型的语义分割标注,目标任务如图1a所示,流程图如图2和图5所示:
具体包括如下步骤:
步骤1,对输入的三维点云模型数据集采集数据;
步骤2,关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;
步骤3,用上下文-注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征;
步骤4,采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。
步骤1包括如下步骤:
步骤1-1,将输入的三维点云模型数据集S={STrain,STest}划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型;
步骤1-2,假设输入单个三维点云模型si(记录了三维模型所有点的坐标,该三维模型取自包含了16中类型的3D模型的ShapeNetPart标准3D点云模型语义分割数据集)以及对所有点所属部件的标签集li(记录了模型每个点所属部件种类的标签,该数据集共有50种部件),从所有点云数据中随机采样N个点作为网络输入点集Pi={p1,p2,...pi,...,pN},从标签集li中取出与Pi相对应的标签组成新的标签集gi,步骤1-1中的数据集经过采样得到新的数据集P={PTrain,PTest},使得网络分割过程中不同点云模型的特征形状可以保持一致,实验中发现采样N=2048个点能有效兼顾到硬件GPU的性能;
步骤1-3,对步骤1-2得到的训练集PTrain进行随机尺度缩放和平移,其中缩放因子u从均匀分布U(0.8,1.25)中采样,平移量从均匀分布U(-0.1,0.1)中采样。
其中,步骤1-2包括如下步骤:
步骤1-2-1,对单个三维点云模型si,其点云集合为si={si1,si2,...sij,..,sin},其中sij表示点云模型si的第j个点数据,从索引集合Q={1,2,...,n}中进行有放回抽样,重复N次得到采样后索引集合Q1={q1,q2,...qk,...,qN},ik∈I,其中q表示第k次从集合Q中抽样的索引;
步骤1-2-3,重复步骤1-2-1和1-2-2,直至训练集中所有三维点云模型均已完成采样结束。
在步骤1-3中,对每个点云数据的坐标,即点云数据前3维进行随机尺度缩放和平移,如此可以提高模型训练效果和鲁棒性。
步骤2包括如下步骤:
步骤2-1,对于采样后的点云训练集PTrain={P1,P2,...Pi,...,Pn},采集其各个点的真实标签GTrain={G1,G2,...Gi,...,Gn}和点云数据输入到关系形状网络中进行训练,经过编码器提取高维点云特征,其中Pi指的是第i个点云模型的数据,Gi指的是第i个点云模型的每个点的真实标签集合;
步骤2-2,对步骤2-1中提取的点云特征进行上采样解码,得到符合输入形状并包含关系信息的点云特征。利用双线性插值逐步增大点云基数,直至达到输入形状N,最终得到N×512维的特征矩阵。
其中,步骤2-1包括以下步骤:
步骤2-1-1,对于单个点云模型数据Pi,依照最远点采样策略对点云数据进行分组,通过迭代选取与全部点云数据欧式距离最大的点作为球心,得到点云分组PGi={pg1,pg2,...,pgi,...,pgm},其中pgi={pi1,..,pik,..pin},表示第i个点云组,pik表示第pgi中第k个点,通过最远点采样可以使得采样点云在原点云数据上覆盖范围最大化;
步骤2-1-2,步骤2-1-1中的PGi经过正向传播的卷积操作后,被提取为m×512维的特征矩阵fi;
步骤2-1-3,重复步骤2-1-1和步骤2-1-2共3次,每次重复过程中m分别512、128、1,n分别为32、32、128,分别得到PGi-1、PGi-2、PGi-3和fi-1、fi-2、fi-3,形成不同尺度分组下的特征矩阵。
步骤3包括以下步骤:
步骤3-1,对于单个点云模型数据Pi以及其对应的真实标签G,经过步骤2得到的特征矩阵经过上下文模块,得到具备上下文先验知识的类内特征矩阵和类间特征矩阵;
步骤3-2,由步骤3-1得到的类内特征矩阵和类间特征矩阵经过自注意力模块进行强化,对全局依赖关系进行建模,得到具备上下文先验和全局语义关联的点云特征。
其中,步骤3-1包括以下步骤:
步骤3-1-1,对于步骤2中得到的N×512维特征矩阵,利用1x1卷积操作降维至N×256维,得到新的特征矩阵F,通过与其转置矩阵相乘,得到N×N维的类内特征矩阵M,类间特征矩阵I-M,其中I表示单位矩阵;聚合类内特征和类间特征,得到包含上下文先验的特征矩阵Fe,即:
Fe=concat(M,(I-M)F)
其中,concat表示对特征在最后一个维度上进行拼接聚合。
其中,分别表示分别代表类内的正确率、类内的召回率、类间的特异性;cij表示矩阵C的(i,j)元,mij表示矩阵M的(i,j)元,μ是一个非负极小值,在本发明中根据经验设置μ=0.0001,用于控制网络训练过程中出现除数全0而溢出的情况。
计算学习的上下文矩阵,即类内特征M(形状为N×N,mn∈M,n∈[1,N2])与矩阵C(形状为N×N,cn∈C,n∈[1,N2])的二进制交叉损失并最终通过加权两损失得到最终的上下文损失具体计算公式如下:
其中,λu和λg表示各自的权重值,本发明中将λu和λg设定为1。
在步骤3-2中,自注意力机制采用8头注意力,并对步骤3-1-1中得到的包含上下文先验的特征矩阵Fe进行切分为8个小的子集合,分别对每个集合进行自注意力矩阵计算,最后汇总成具备整体注意力关系的全局注意力矩阵中。通过自注意力机制进行了全局关系建模和强化,得到最终的特征矩阵。
在步骤4中对步骤3中得到的特征矩阵经过全连接层(Fully Connected Layer),并最终经过Softmax多分类器对输入的多维特征向量进行多标签预测,得到点云数据语义分割的概率图,将点云数据每个点预测概率最大的标签作为该点的预测标签,和对应的真实标签Gi对比,计算语义分割损失与步骤3-1-2中的相加作为总损失进行反向传播,最终得到训练的包含上下文先验知识的点云分割网络,具体计算公式如下。
其中,w为对应的权重,c为类别,x为网络输出预测标签。将测试集STest输入到训练好的网络模型,得到训练集所有点云的语义分割标注。
实施例
本发明的目标任务如图1a和图1b所示,图1a为未分割的原始模型,图1b为语义分割后的标签着色渲染结果,整个方法的网络结构如图2所示,图3是核心的上下文-注意力模块细节示意图。下面根据实施例说明本发明的各个步骤。
步骤(1),对对输入的三维点云模型数据集S采集数据。具体分为以下几个步骤:
步骤(1.1),将输入的三维点云模型数据集S={STrain,STest}划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型;
步骤(1.2),输入单个三维点云模型si以及对所有点所属部件的标签集li,从所有点云数据中随机采样N个点作为网络输入点集Pi={p1,p2,...pi,...,pN},从标签集li中取出与Pi相对应的标签组成新的标签集gi,步骤1-1中的数据集经过采样得到新的数据集P={PTrain,PTest},使得网络分割过程中不同点云模型的特征形状可以保持一致;该步骤具体又可以分为如下步骤:
步骤(1.2.1),对单个三维点云模型si,其点云集合为si={si1,si2,...sij,..,sin},其中sij表示点云模型si的第j个点数据,从索引集合Q={1,2,...,n}中进行有放回抽样,重复N次得到采样后索引集合Q1={q1,q2,...qk,...,qN},ik∈I,其中q表示第k次从集合Q中抽样的索引;
步骤(1.2.2)将步骤(1.2.1)中的点云集合si中的点云下标与Q1中元素对应的点云加入到采样点集P中,得到新的点云模型数据Pi={p1,p2,...pk,...,pN},其中pk为步骤1-2-1中的
步骤(1.2.3),重复步骤(1.2.1)和步骤(1.2.2),直至训练集中所有三维点云模型均已完成采样结束。
步骤(1.3),对步骤1-2得到的训练集PTrain进行随机尺度缩放和平移,其中缩放因子u从均匀分布U(0.8,1.25)中采样,平移量从均匀分布U(-0.1,0.1)中采样。具体在每个点云数据的坐标实施,即点云数据前3维上进行随机尺度缩放和平移。
步骤(2),用关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;
步骤(2.1),将对于采样后的点云训练集PTrain,采集其各个点的真实标签GTrain和点云数据输入到关系形状网络中进行训练,经过编码器提取高维点云特征;该步骤具体又可以分为如下步骤:
步骤(2.1.1),对于单个点云模型数据Pi,依照最远点采样策略对点云数据进行分组,通过迭代选取与全部点云数据欧式距离最大的点作为球心,得到点云分组PGi={pg1,pg2,...,pgi,...,pgm},其中pgi={pi1,..,pik,..pin},表示第i个点云组,pik表示第pgi中第k个点;
步骤(2.1.2),步骤(2.1.1)中的PGi经过正向传播的卷积操作后,被提取为m×512维的特征矩阵fi;
步骤(2.1.3),重复步骤(2.1.1)和步骤(2.1.2)共3次,每次重复过程中m分别512、128、1,n分别为32、32、128,分别得到PGi-1、PGi-2、PGi-3和fi-1、fi-2、fi-3。
步骤(2.2),对步骤(2.1)中提取的点云特征进行上采样解码,采用双线性插值策略将点云特征上采样至N×512维,即符合输入形状并包含关系信息的点云特征。
步骤(3),用上下文-注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征。
步骤(3.1),对于单个点云模型数据Pi以及其对应的真实标签G,经过步骤2得到的特征矩阵经过上下文模块,得到学习到上下文先验知识的类内特征矩阵和类间特征矩阵;该步骤具体又可以分为如下步骤:
步骤(3.1.1),对于步骤(2)中得到的N×512维特征矩阵,利用1x1卷积操作降维至N×256维,得到新的特征矩阵F,通过与其转置矩阵相乘,得到N×N维的类内特征矩阵M,类间特征矩阵I-M,其中I表示单位矩阵;聚合类内特征和类间特征,得到包含上下文先验的特征矩阵Fe,即:
Fe=concat(M,(I-M)F);
其中,concat表示对特征在最后一个维度上进行拼接聚合。
其中,分别表示分别代表类内的正确率、类内的召回率、类间的特异性;cij表示矩阵C的(i,j)元,mij表示矩阵M的(i,j)元,μ是一个非负极小值,在本发明中根据经验设置μ=0.0001,用于控制网络训练过程中出现除数全0而溢出的情况。
计算学习的上下文矩阵,即类内特征M(形状为N×N,mn∈M,n∈[1,N2])与矩阵C(形状为N×N,cn∈C,n∈[1,N2])的二进制交叉损失并最终通过加权两损失得到最终的上下文损失具体计算公式如下:
其中,λu和λg表示各自的权重值,本发明中将λu和λg设定为1。
步骤(3.2),由步骤3-1得到的类内特征矩阵和类间特征矩阵经过自注意力模块进行强化,对全局依赖关系进行建模,得到具备上下文先验和全局语义关联的点云特征。
步骤(4),采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。对步骤3中得到的特征矩阵经过多层感知机,并最终经过Softmax多分类器对输入的多维特征向量进行多标签预测,得到点云数据语义分割的概率图,将点云数据每个点预测概率最大的标签作为该点的预测标签,和对应的真实标签Gi对比,计算语义分割损失与步骤(3.1.2)中的相加作为总损失进行反向传播,最终得到训练的包含上下文先验知识的点云分割网络,具体计算公式如下。
其中,w为对应的权重,c为类别,x为网络输出预测标签。
结果分析
本发明方法的实验环境参数如下:
对模型进行数据采集和融合上下文先验的点云分割网络的训练和测试过程的实验平台参数为Windows10 64位操作系统、Intel(R)Core(TM)i7-5820K CPU 3.30GHz、内存64GB,显卡为Titan X GPU 12GB采用Python编程语言,并采用了Pytorch第三方开源库来实现。
本发明方法与点云语义分割经典方法:文献1中的方法(简称PointNet)文献2中的方法(简称PointNet++)文献4中的方法(简称PointCNN)文献6中的方法(简称RSCNN)的对比实验结果(如表1所示)分析如下:
在公认的三维三维模型点云部件分割数据集ShapeNetPart上进行了实验,每一类的数据集的类别名称如表1第一列所示,其中各类别名称含义为Airplane(飞机)、Bag(包)、Cap(帽子)、Car(汽车)、Chair(椅子)、Earphone(耳机)、Guitar(吉他)、Knife(刀)、Lamp(灯)、Laptop(便携式电脑)、Motorbike(摩托车)、Mug(马克杯)、Pistol(手枪)、Rocket(火箭)、Skateboard(滑雪板)、Table(桌子);训练集和测试集的划分如表1第二列所示;语义分割标注效果渲染图对比如图4所示;语义分割标注准确率对比如表1和表2所示。
如表1和表2的结果对比(表1展示了本发明方法与其他方法在ShapeNetPart数据集上语义分割标注平均交并比指标对比,表2展示了本发明方法与其他方法在ShapeNetPart数据集上语义分割标注平均交并比指标统计对比)所示,本发明方法部分领先于其他方法,在16个物体类别中,本发明方法共有10个物体类别上结果领先于其他方法。本发明方法与PointCNN各有优劣,如表1和表2所示,本发明方法在Instance Average IoU(物体实例交并比的平均)上超过了PointCNN,在Class Average IoU(类别交并比的平均)上略微落后。具体到所有物体类别上,本发明方法在仅在4个类别上落后于PointCNN,并在其余12个物体类别上均领先PointCNN。
表1
表2
PointNet | PointNet++ | PointCNN | RSCNN | 本发明方法 | |
Class Average IoU | 80.4 | 81.9 | 84.6 | 84.0 | 84.4 |
Instance Average IoU | 83.7 | 85.1 | 86.1 | 86.2 | 87.1 |
在自对比实验中,分别去掉上下文-注意力模块中的上下文先验模块和自注意力模块,与最终的实验结果准确率对比如表3所示,表明了上下文先验模块和自注意力模块能够显著提升最终的语义分割标注准确率。
表3
本发明提供了一种基于上下文和注意力的三维点云语义分割方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种基于上下文和注意力的三维点云语义分割方法,其特征在于,包括以下步骤:
步骤1,对输入的三维点云模型数据集采集数据;
步骤2,通过关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;
步骤3,用上下文和注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征;
步骤4,采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1,将输入的三维点云模型数据集S={STrain,STest}划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型;
步骤1-2,设定输入单个三维点云模型si以及对所有点所属部件的标签集li,从所有点云数据中随机采样N个点作为网络输入点集Pi={p1,p2,...pi,...,pN},从标签集li中取出与第i个点Pi相对应的标签组成新的标签集gi,i取值为1~N;步骤1-1中的数据集经过采样得到新的数据集P={PTrain,PTest};PTrain表示采样后的点云训练集,PTest表示采样后的点云测试集;
步骤1-3,对步骤1-2得到的训练集PTrain进行随机尺度缩放和平移,其中缩放因子u从均匀分布U(0.8,1.25)中采样,平移量从均匀分布U(-0.1,0.1)中采样。
3.根据权利要求2所述的方法,其特征在于,步骤1-2包括如下步骤:
步骤1-2-1,对单个三维点云模型si,其点云集合为si={si1,si2,...sij,..,sin},其中sij表示点云模型si的第j个点数据,j取值为1~n;从索引集合Q={1,2,...,n}中进行有放回抽样,重复N次得到采样后索引集合Q1={q1,q2,...qk,...,qN},ik∈I,其中qk表示第k次从集合Q中抽样的索引;
步骤1-2-2,将步骤1-2-1中的点云集合si中的点云下标与Q1中元素对应的点云加入到采样点集P中,得到新的点云模型数据Pi={p1,p2,...pk,...,pN},其中pk为步骤1-2-1中sij的j取qk,即
步骤1-2-3,重复步骤1-2-1和1-2-2,直至训练集中所有三维点云模型均已完成采样结束。
4.根据权利要求3所述的方法,其特征在于,步骤1-3中,在每个点云数据的坐标,即点云数据前3维上进行随机尺度缩放和平移。
5.根据权利要求4所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1,对于采样后的点云训练集PTrain,采集各个点的真实标签GTrain和点云数据输入到关系形状网络中进行训练,经过编码器提取高维点云特征;
步骤2-2,对步骤2-1中提取的点云特征进行上采样解码,得到符合输入形状并包含关系信息的点云特征。
6.根据权利要求5的方法,其特征在于,步骤2-1包括以下步骤:
步骤2-1-1,对于单个点云模型数据Pi,依照最远点采样策略对点云数据进行分组,通过迭代选取与全部点云数据欧式距离最大的点作为球心,得到点云分组PGi={pg1,pg2,...,pgi,...,pgm},其中pgi={pi1,...,pik,...pin},pgi表示第i个点云组,pik表示pgi中第k个点;
步骤2-1-2,步骤2-1-1中的PGi经过正向传播的卷积操作后,被提取为m×512维的特征矩阵fi;
步骤2-1-3,重复步骤2-1-1和步骤2-1-2共3次,每次重复过程中m分别为512、128、1,n分别为32、32、128,分别得到第一阶段的点云分组PGi-1、第二阶段的点云分组PGi-2、第三阶段的点云分组PGi-3和第一阶段的点云特征矩阵fi-1、第二阶段的点云特征矩阵fi-2、第三阶段的点云特征矩阵fi-3。
7.根据权利要求6的方法,其特征在于,步骤2-2中采用双线性插值策略将点云特征上采样至N×512维。
8.根据权利要求7的方法,其特征在于,步骤3包括如下步骤:
步骤3-1,对于单个点云模型数据Pi以及其对应的真实标签G,经过步骤2得到的特征矩阵经过上下文模块,得到学习到上下文先验知识的类内特征矩阵和类间特征矩阵;
步骤3-2,由步骤3-1得到的类内特征矩阵和类间特征矩阵经过自注意力模块进行强化,对全局依赖关系进行建模,得到具备上下文先验和全局语义关联的点云特征。
9.根据权利要求8的方法,其特征在于,步骤3-1包括:
步骤3-1-1,对于步骤2中得到的N×512维特征矩阵,利用1x1卷积操作降维至N×256维,得到新的特征矩阵F,通过与其转置矩阵相乘,得到N×N维的类内特征矩阵M,类间特征矩阵I-M,其中I表示单位矩阵;聚合类内特征和类间特征,得到包含上下文先验的特征矩阵Fe,即:
Fe=concat(M,(I-M)F)
其中,concat表示对特征在最后一个维度上进行拼接聚合;
其中,λu和λg表示各自的权重值,本发明中将λu和λg设定为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221944.6A CN114693923A (zh) | 2022-03-09 | 2022-03-09 | 一种基于上下文和注意力的三维点云语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221944.6A CN114693923A (zh) | 2022-03-09 | 2022-03-09 | 一种基于上下文和注意力的三维点云语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114693923A true CN114693923A (zh) | 2022-07-01 |
Family
ID=82138116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210221944.6A Pending CN114693923A (zh) | 2022-03-09 | 2022-03-09 | 一种基于上下文和注意力的三维点云语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693923A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019048A (zh) * | 2022-07-08 | 2022-09-06 | 北京百度网讯科技有限公司 | 三维场景分割方法、模型训练方法、装置和电子设备 |
CN116091777A (zh) * | 2023-02-27 | 2023-05-09 | 阿里巴巴达摩院(杭州)科技有限公司 | 点云全景分割及其模型训练方法、电子设备 |
-
2022
- 2022-03-09 CN CN202210221944.6A patent/CN114693923A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019048A (zh) * | 2022-07-08 | 2022-09-06 | 北京百度网讯科技有限公司 | 三维场景分割方法、模型训练方法、装置和电子设备 |
CN116091777A (zh) * | 2023-02-27 | 2023-05-09 | 阿里巴巴达摩院(杭州)科技有限公司 | 点云全景分割及其模型训练方法、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Howard et al. | Mobilenets: Efficient convolutional neural networks for mobile vision applications | |
CN112184752A (zh) | 一种基于金字塔卷积的视频目标跟踪方法 | |
Ali et al. | A hybrid geometric spatial image representation for scene classification | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
Tan et al. | Robust object recognition via weakly supervised metric and template learning | |
CN111695494A (zh) | 一种基于多视角卷积池化的三维点云数据分类方法 | |
Biasotti et al. | SHREC’14 track: Retrieval and classification on textured 3D models | |
CN114693923A (zh) | 一种基于上下文和注意力的三维点云语义分割方法 | |
Ryan Fanello et al. | Low compute and fully parallel computer vision with hashmatch | |
Zhang et al. | Local k-nns pattern in omni-direction graph convolution neural network for 3d point clouds | |
CN106970956A (zh) | 一种基于张量的三维模型检索方法 | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
Lee et al. | Connectivity-based convolutional neural network for classifying point clouds | |
Xu et al. | MSGCNN: Multi-scale graph convolutional neural network for point cloud segmentation | |
Yu et al. | Hope: Hierarchical object prototype encoding for efficient object instance search in videos | |
Zhang et al. | Graph-PBN: Graph-based parallel branch network for efficient point cloud learning | |
CN118628736A (zh) | 基于聚类思想的弱监督室内点云语义分割方法、装置及介质 | |
Ren et al. | Research on infrared small target segmentation algorithm based on improved mask R-CNN | |
Li et al. | Image decomposition with multilabel context: Algorithms and applications | |
Zhou et al. | GTNet: Graph transformer network for 3D point cloud classification and semantic segmentation | |
Zhou et al. | Retrieval and localization with observation constraints | |
Chekir | A deep architecture for log-Euclidean Fisher vector end-to-end learning with application to 3D point cloud classification | |
Fan et al. | Siamese graph convolution network for face sketch recognition: an application using graph structure for face photo-sketch recognition | |
Jiang et al. | Robust 3d face alignment with efficient fully convolutional neural networks | |
Wang et al. | Image target recognition based on improved convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |