CN114693923A - 一种基于上下文和注意力的三维点云语义分割方法 - Google Patents

一种基于上下文和注意力的三维点云语义分割方法 Download PDF

Info

Publication number
CN114693923A
CN114693923A CN202210221944.6A CN202210221944A CN114693923A CN 114693923 A CN114693923 A CN 114693923A CN 202210221944 A CN202210221944 A CN 202210221944A CN 114693923 A CN114693923 A CN 114693923A
Authority
CN
China
Prior art keywords
point cloud
point
matrix
data
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210221944.6A
Other languages
English (en)
Inventor
张岩
张化鹏
刘琨
谢吉雨
贾晓玉
郑鹏飞
何振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210221944.6A priority Critical patent/CN114693923A/zh
Publication of CN114693923A publication Critical patent/CN114693923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于上下文和注意力的三维点云语义分割方法,包括:步骤1,对输入三维点云模型数据集采集数据;步骤2,用关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;步骤3,用上下文—注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征;步骤4,采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。

Description

一种基于上下文和注意力的三维点云语义分割方法
技术领域
本发明属于计算机图像处理和计算机图形学领域,尤其涉及一种基于上下文和注意力的三维点云语义分割方法。
背景技术
近年来,随着三维数据采集设备的不断发展和普及,三维模型数据出现了爆炸式增长,同时也吸引了研究人员对三维模型数据理解和处理的研究兴趣。三维模型主要表现形式有点云、体素、面片等,其中由于点云数据可以很轻松地通过简易设备获取和对光照等外界因素不敏感等诸多优势,使得三维点云模型的分析成为了热点的研究领域。但是点云数据同样存在一些特点:不规则、无序以及较为稀疏。这些特点使得如何对点云数据进行处理和理解变得十分困难。目前,深度学习技术在二维图像领域的研究已经取得了优秀的成果。然而,不同于天然拥有位置结构的二维图像,三维点云模型的无序性使得二维图像上的卷积操作无法直接应用于三维点云模型上,导致深度学习的方法应用于三维模型的分析变得困难重重。
虽然三维点云模型的语义分割问题很基础,但是它却十分有挑战性,有以下几点原因:
1、属于同一部件的点云必须被正确的标注为同一语义标签;
2、全局和局部特征必须被有效聚合起来分析才能实现更好的分割结果;
3、分析方法必须对降采样、噪声以及同类模型的多样性具有鲁棒性。
近年来,三维点云语义分割领域出现了许多方法,大致分为以下四个类别:基于多层感知机的方法、基于点云卷积的方法、基于递归神经网络的方法、基于图的方法等。
基于多层感知机的方法使用共享的多层网络来共享参数。如文献1C.R.Qi,H.Su,K.Mo,and L.J.Guibas.PointNet:Deep Learning on Point Sets for 3DClassification and Segmentation.2017.、文献2C.R.Qi,L.Yi,H.Su,andL.J.Guibas.Pointnet++:Deep hierarchical feature learning on point sets in ametric space.Advances in neural information processing systems,2017,30.等通过融合多尺度信息,使用共享的多层感知机对各点云信息进行特征提取,但共享的多层感知机很难聚焦点云的局部几何联系。
基于点云卷积的方法通过直接对输入的点云数据进行卷积操作,来提取点云特征。如文献3S.B.Hua,K.M.Tran,and K.S.Yeung.Pointwise convolutional neuralnetworks.Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:984-993.、文献4Y.Li,R.Bu,M.Sun,W.Wu,X.Di.and B.Chen,Pointcnn:Convolution on x-transformed points.Advances in neural information processingsystems.2018;31.提出对点云使用逐点卷积的方法,通过在整个点云区域中进行滑动地卷积计算并让每个卷积核范围内的点云都具有相同的权重。文献5H.Thomas,C.R.Qi,J.E.Deschaud,B.Marcotegui,and Goulette.Kpconv:Flexible and deformableconvolution for point clouds.Proceedings of the IEEE/CVF internationalconference on computer vision.2019:6411-6420.提出通过建立分布而不是计算相似度来得到核变换矩阵的值,进而实现点积。文献6 Y.Liu,B.Fan,S.Xiang,C.Pan.Relation-shape convolutional neural network for point cloud analysis.Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:8895-8904.通过构建局部邻域形状卷积来增强特征的表征能力。相比于传统构建核变换矩阵的方式,这种方式更好地适应复杂的点云几何形状变化。
基于递归神经网络的方法可以通过递归地传递和利用隐式存在于点云的上下文特征,并且利用这些特征增强点云的特征表征能力从而提高分割精度。文献7Z.Zhao,M.Liu,K.Ramani.DAR-Net:Dynamic aggregation network for semantic scenesegmentation.arXiv preprint arXiv:1907.12022,2019.、文献8F.Liu,S.Li,L.Zhang,C.Zhou,R.Ye,Y.Wang,and J.Lu.3DCNN-DQN-RNN:A deep reinforcement learningframework for semantic parsing of large-scale 3D point clouds.Proceedings ofthe IEEE international conference on computer vision.2017:5678-5687.、文献9X.Ye,J.Li,H.Huang,L.Du,and X.Zhang.3d recurrent neural networks with contextfusion for point cloud semantic segmentation.Proceedings of the Europeanconference on computer vision(ECCV).2018:403-417.等通过设计动态特征聚合的方式,来融合局部和全局特征。
基于图的方法首先根据点云的位置来确定点云模型中所有点的邻接关系,将点云数据构建成一个图结构的数据。图作为一种较为自然的数据结构很适合处理点云这类不规则的数据。文献10Y.Shen,C.Feng,Y.Yang,and D.Tian.Mining point cloud localstructures by kernel correlation and graph pooling.Proceedings of the IEEEconference on computer vision and pattern recognition.2018:4548-4557.定义点云集合的邻接关系由核相关性度量的几何相似性决定,并在每个节点及其邻居节点上实现卷积。文献11D.Boscaini,J.Masci,S.Melzi,M.M.Bronstein,U.Castellani,andP.Vandergheynst.Learning class-specific descriptors for deformable shapesusing localized spectral convolutional networks.Computer Graphics Forum.2015,34(5):13-23.、文献12L.Yi,H.Su,X.Guo,and J.L.Guibas.Syncspeccnn:Synchronizedspectral cnn for 3d shape segmentation.Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:2282-2290.、文献13D.K.Hammond,P.Vandergheynst,R.Gribonval.Wavelets on graphs via spectral graphtheory.Applied and Computational Harmonic Analysis,2011,30(2):129-150.等在谱域上定义图上的卷积。然而,这些方法通常需要计算大量的参数。
最近,注意力机制在各领域如机器翻译、物体检测和语义分割等得到了广泛的应用。在三维模型分割领域,图卷积神经网络最先引入了注意力机制。文献14L.Wang,Y.Huang,Y.Hou,S.Zhang,and J.Shan.Graph attention convolution for point cloudsemantic segmentation.Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:10296-10305.、文献15J.Yang,Q.Zhang,B.Ni,L.Li,J.Liu,M.Zhou,and Q.Tian.Modeling point clouds with self-attention andgumbel subset sampling.Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:3323-3332.等通过构建点云自注意力变换网络来进行点云理解。此外,上下文信息同样成为三维点云相关研究的焦点。文献16M.Defferrard,X.Bresson,P.Vandergheynst.Convolutional neural networks ongraphs with fast localized spectral filtering.Advances in neural informationprocessing systems,2016,29.、文献17G.Yu,K.Liu,Y.Zhang,C.Zhu,and K.Xu.Partnet:Arecursive part decomposition network for fine-grained and hierarchical shapesegmentation.Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:9491-9500.等分别利用图卷积和递归神经网络来利用上下文信息增强特征表征能力。但是这些方法将上下文或者注意力嵌入深层网络,因此制约了这些模块的普适性。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于上下文和注意力的三维点云语义分割方法,包括以下步骤:
步骤1,对输入的三维点云模型数据集采集数据;
步骤2,通过关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;
步骤3,用上下文和注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征;
步骤4,采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。
步骤1包括如下步骤:
步骤1-1,将输入的三维点云模型数据集S={STrain,STest}划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型;
步骤1-2,设定输入单个三维点云模型si(记录了三维模型所有点的坐标,该三维模型取自包含了16中类型的3D模型的ShapeNet标准3D点云模型语义分割数据集)以及对所有点所属部件的标签集li(记录了模型每个点所属部件种类的标签,该数据集共有50种部件),从所有点云数据中随机采样N个点作为网络输入点集Pi={p1,p2,...pi,...,pN},从标签集li中取出与第i个点Pi相对应的标签组成新的标签集gi,i取值为1~N;步骤1-1中的数据集经过采样得到新的数据集P={PTrain,PTest},使得网络分割过程中不同点云模型的特征形状可以保持一致,实验中发现采样N个点能有效兼顾到硬件GPU的性能和;PTrain表示采样后的点云训练集,PTest表示采样后的点云测试集;
步骤1-3,对步骤1-2得到的训练集PTrain进行随机尺度缩放和平移,其中缩放因子u从均匀分布U(0.8,1.25)中采样,平移量从均匀分布U(-0.1,0.1)中采样。
其中,步骤1-2包括如下步骤:
步骤1-2-1,对单个三维点云模型si,其点云集合为si={si1,si2,...sij,..,sin},其中sij表示点云模型si的第j个点数据,j取值为1~n;从索引集合Q={1,2,...,n}中进行有放回抽样,重复N次得到采样后索引集合Q1={q1,q2,...qk,...,qN},ik∈I,其中qk表示第k次从集合Q中抽样的索引;
步骤1-2-2,将步骤1-2-1中的点云集合si中的点云下标与Q1中元素对应的点云加入到采样点集P中,得到新的点云模型数据Pi={p1,p2,...pk,...,pN},其中pk为步骤1-2-1中sij的j取qk,即
Figure BDA0003537822610000051
步骤1-2-3,重复步骤1-2-1和1-2-2,直至训练集中所有三维点云模型均已完成采样结束。
在步骤1-3中,对每个点云数据的坐标,即点云数据前3维进行随机尺度缩放和平移,如此可以提高模型训练效果和鲁棒性。
步骤2包括如下步骤:
步骤2-1,对于采样后的点云训练集PTrain={P1,P2,...Pi,...,Pn},采集其各个点的真实标签GTrain={G1,G2,...Gi,...,Gn}和点云数据输入到关系形状网络中进行训练,经过编码器提取高维点云特征,其中Pi指的是第i个点云模型的数据,Gi指的是第i个点云模型的每个点的真实标签集合;
步骤2-2,对步骤2-1中提取的点云特征进行上采样解码,得到符合输入形状并包含关系信息的点云特征。利用双线性插值逐步增大点云基数,直至达到输入形状N,最终得到N×512维的特征矩阵。
其中,步骤2-1包括以下步骤:
步骤2-1-1,对于单个点云模型数据Pi,依照最远点采样策略对点云数据进行分组,通过迭代选取与全部点云数据欧式距离最大的点作为球心,得到点云分组PGi={pg1,pg2,...,pgi,...,pgm},其中pgi={pi1,..,pik,..pin},pgi表示第i个点云组,pik表示pgi中第k个点,通过最远点采样可以使得采样点云在原点云数据上覆盖范围最大化;
步骤2-1-2,步骤2-1-1中的PGi经过正向传播的卷积操作后,被提取为m×512维的特征矩阵fi
步骤2-1-3,重复步骤2-1-1和步骤2-1-2共3次,每次重复过程中m分别为512、128、1,n分别为32、32、128,分别得到第一阶段的点云分组PGi-1、第二阶段的点云分组PGi-2、第三阶段的点云分组PGi-3和第一阶段的点云特征矩阵fi-1、第二阶段的点云特征矩阵fi-2、第三阶段的点云特征矩阵fi-3。
步骤3包括以下步骤:
步骤3-1,对于单个点云模型数据Pi以及其对应的真实标签G,经过步骤2得到的特征矩阵经过上下文模块,得到具备上下文先验知识的类内特征矩阵和类间特征矩阵;
步骤3-2,由步骤3-1得到的类内特征矩阵和类间特征矩阵经过自注意力模块进行强化,对全局依赖关系进行建模,得到具备上下文先验和全局语义关联的点云特征。
其中,步骤3-1包括以下步骤:
步骤3-1-1,对于步骤2中得到的N×512维特征矩阵,利用1x1卷积操作降维至N×256维,得到新的特征矩阵F,通过与其转置矩阵相乘,得到N×N维的类内特征矩阵M,类间特征矩阵I-M,其中I表示单位矩阵;聚合类内特征和类间特征,得到包含上下文先验的特征矩阵Fe,即:
Fe=concat(M,(I-M)F)
其中,concat表示对特征在最后一个维度上进行拼接聚合。
步骤3-1-2,对于步骤3-1中的真实标签G,得到N×N维的协方差矩阵C,计算M与C的差距
Figure BDA0003537822610000061
作为Loss(损失)中的一部分,具体计算公式如下:
Figure BDA0003537822610000062
Figure BDA0003537822610000063
Figure BDA0003537822610000064
Figure BDA0003537822610000065
其中,
Figure BDA0003537822610000066
分别表示类内的正确率、类内的召回率、类间的特异性;cij表示矩阵C的(i,j)元,mij表示矩阵M的(i,j)元,μ是一个非负极小值,在本发明中根据经验设置μ=0.0001,用于控制网络训练过程中出现除数全0而溢出的情况。
计算学习的上下文矩阵,即类内特征矩阵M(形状为N×N,mn∈M,n∈[1,N2])与矩阵C(形状为N×N,cn∈C,n∈[1,N2])的二进制交叉损失
Figure BDA0003537822610000067
并最终通过加权两损失得到最终的上下文损失
Figure BDA0003537822610000071
具体计算公式如下:
Figure BDA0003537822610000072
Figure BDA0003537822610000073
其中,λu和λg表示各自的权重值,本发明中将λu和λg设定为1。
在步骤3-2中,所述自注意力模块采用8头注意力,并对步骤3-1-1中得到的包含上下文先验的特征矩阵Fe进行切分为8个小的子集合,分别对每个集合进行自注意力矩阵计算,最后汇总成具备整体注意力关系的全局注意力矩阵中。通过自注意力机制进行了全局关系建模和强化,得到最终的特征矩阵。
在步骤4中对步骤3中得到的特征矩阵经过全连接层(Fully Connected Layer),并最终经过Softmax多分类器对输入的多维特征向量进行多标签预测,得到点云数据语义分割的概率图,将点云数据每个点预测概率最大的标签作为该点的预测标签,和对应的真实标签Gi对比,计算语义分割损失
Figure BDA0003537822610000074
与步骤3-1-2中的
Figure BDA0003537822610000075
相加作为总损失
Figure BDA0003537822610000076
进行反向传播,最终得到训练的包含上下文先验知识的点云分割网络,具体计算公式如下。
Figure BDA0003537822610000077
Figure BDA0003537822610000078
其中,w为对应的权重,c为类别,x为网络输出预测标签。
本发明的方法致力于解决将3D点云模型分割成带标签的语义部分。基于点云模型的组成部分来对模型进行分析和推理在计算机视觉、机器人和虚拟现实等领域被大量应用,如混合模型分析、目标检测与跟踪、3D重建、风格迁移、机器人漫游和抓取等,这也使得这项工作变得十分有意义。
有益效果:本发明方法受启发于先采用关系形状网络进行点云特征提取,然后通过上下文-注意力模块引入上下文先验知识对特征进行约束,得到具备类内类间关系的特征矩阵。最后通过分类器对完备的特征图进行部件预测,得到最后的语义分割图。在整个过程中,该方法通过嵌入到通用点云特征提取骨干网络后,融合先验的语义上下文知识,促使网络明确点云部件不同类别的边界,经过自注意力模块的强化,进一步提升点云语义分割标注的效果,整个方法体系高效而实用。本发明方法优化了通用点云分割过程中部件边缘区域的分割效果,既保证了整体分割精度,又提高了边缘细节。此外,本发明方法设计了一种可便捷嵌入的上下文模块,可以广泛适用于常见的点云分割网络,帮助网络进一步提升三维点云模型语义分割标注的结果。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1a为未分割的原始模型。
图1b为语义分割后的标签着色渲染结果。
图2为本发明方法的整体网络框架图。
图3为本发明中上下文-注意力模块框架图。
图4为本发明方法在ShapeNetPart数据集上语义分割效果渲染图。
图5为本发明流程图。
具体实施方式
如图5所示,本发明公开了基于上下文-注意力的三维点云语义分割方法,本发明采集待分割的三维模型中N个点云数据和对应部件标签;将模型训练集的点云数据和部件标签输入网络模型进行训练,将模型测试集的点云数据输入训练好的网络模型,得到所有点的部件预测标签;分割网络中利用最远点采样对三维点云模型进行分组,使得分组后点云在原点云数据中覆盖范围最大化;对每个组的点云数据进行基于点与球心点云坐标的欧式距离的卷积操作,得到具备关系信息的点云特征矩阵;通过上下文-注意力模块计算对应的上下文特征图,利用先验的部件标签生成的特征图进行监督训练;对得到上下文先验的特征图进行注意力矩阵计算,强化类间关系和全局依赖;再通过分类器计算点云预测为每个部件的概率,选取最大值作为最终的预测部件标签。
对于给定的三维点云模型数据集S={STrain,STest},划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型,本发明经过如下步骤,完成对数据集内的模型的语义分割标注,目标任务如图1a所示,流程图如图2和图5所示:
具体包括如下步骤:
步骤1,对输入的三维点云模型数据集采集数据;
步骤2,关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;
步骤3,用上下文-注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征;
步骤4,采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。
步骤1包括如下步骤:
步骤1-1,将输入的三维点云模型数据集S={STrain,STest}划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型;
步骤1-2,假设输入单个三维点云模型si(记录了三维模型所有点的坐标,该三维模型取自包含了16中类型的3D模型的ShapeNetPart标准3D点云模型语义分割数据集)以及对所有点所属部件的标签集li(记录了模型每个点所属部件种类的标签,该数据集共有50种部件),从所有点云数据中随机采样N个点作为网络输入点集Pi={p1,p2,...pi,...,pN},从标签集li中取出与Pi相对应的标签组成新的标签集gi,步骤1-1中的数据集经过采样得到新的数据集P={PTrain,PTest},使得网络分割过程中不同点云模型的特征形状可以保持一致,实验中发现采样N=2048个点能有效兼顾到硬件GPU的性能;
步骤1-3,对步骤1-2得到的训练集PTrain进行随机尺度缩放和平移,其中缩放因子u从均匀分布U(0.8,1.25)中采样,平移量从均匀分布U(-0.1,0.1)中采样。
其中,步骤1-2包括如下步骤:
步骤1-2-1,对单个三维点云模型si,其点云集合为si={si1,si2,...sij,..,sin},其中sij表示点云模型si的第j个点数据,从索引集合Q={1,2,...,n}中进行有放回抽样,重复N次得到采样后索引集合Q1={q1,q2,...qk,...,qN},ik∈I,其中q表示第k次从集合Q中抽样的索引;
步骤1-2-2,将步骤1-2-1中的点云集合si中的点云下标与Q1中元素对应的点云加入到采样点集P中,得到新的点云模型数据Pi={p1,p2,...pk,...,pN},其中pk为步骤1-2-1中的
Figure BDA0003537822610000101
步骤1-2-3,重复步骤1-2-1和1-2-2,直至训练集中所有三维点云模型均已完成采样结束。
在步骤1-3中,对每个点云数据的坐标,即点云数据前3维进行随机尺度缩放和平移,如此可以提高模型训练效果和鲁棒性。
步骤2包括如下步骤:
步骤2-1,对于采样后的点云训练集PTrain={P1,P2,...Pi,...,Pn},采集其各个点的真实标签GTrain={G1,G2,...Gi,...,Gn}和点云数据输入到关系形状网络中进行训练,经过编码器提取高维点云特征,其中Pi指的是第i个点云模型的数据,Gi指的是第i个点云模型的每个点的真实标签集合;
步骤2-2,对步骤2-1中提取的点云特征进行上采样解码,得到符合输入形状并包含关系信息的点云特征。利用双线性插值逐步增大点云基数,直至达到输入形状N,最终得到N×512维的特征矩阵。
其中,步骤2-1包括以下步骤:
步骤2-1-1,对于单个点云模型数据Pi,依照最远点采样策略对点云数据进行分组,通过迭代选取与全部点云数据欧式距离最大的点作为球心,得到点云分组PGi={pg1,pg2,...,pgi,...,pgm},其中pgi={pi1,..,pik,..pin},表示第i个点云组,pik表示第pgi中第k个点,通过最远点采样可以使得采样点云在原点云数据上覆盖范围最大化;
步骤2-1-2,步骤2-1-1中的PGi经过正向传播的卷积操作后,被提取为m×512维的特征矩阵fi
步骤2-1-3,重复步骤2-1-1和步骤2-1-2共3次,每次重复过程中m分别512、128、1,n分别为32、32、128,分别得到PGi-1、PGi-2、PGi-3和fi-1、fi-2、fi-3,形成不同尺度分组下的特征矩阵。
步骤3包括以下步骤:
步骤3-1,对于单个点云模型数据Pi以及其对应的真实标签G,经过步骤2得到的特征矩阵经过上下文模块,得到具备上下文先验知识的类内特征矩阵和类间特征矩阵;
步骤3-2,由步骤3-1得到的类内特征矩阵和类间特征矩阵经过自注意力模块进行强化,对全局依赖关系进行建模,得到具备上下文先验和全局语义关联的点云特征。
其中,步骤3-1包括以下步骤:
步骤3-1-1,对于步骤2中得到的N×512维特征矩阵,利用1x1卷积操作降维至N×256维,得到新的特征矩阵F,通过与其转置矩阵相乘,得到N×N维的类内特征矩阵M,类间特征矩阵I-M,其中I表示单位矩阵;聚合类内特征和类间特征,得到包含上下文先验的特征矩阵Fe,即:
Fe=concat(M,(I-M)F)
其中,concat表示对特征在最后一个维度上进行拼接聚合。
步骤3-1-2,对于步骤3-1中的真实标签G,得到N×N维的协方差矩阵C,计算M与C的差距
Figure BDA0003537822610000111
作为Loss(损失)中的一部分,具体计算公式如下:
Figure BDA0003537822610000112
Figure BDA0003537822610000113
Figure BDA0003537822610000114
Figure BDA0003537822610000115
其中,
Figure BDA0003537822610000116
分别表示分别代表类内的正确率、类内的召回率、类间的特异性;cij表示矩阵C的(i,j)元,mij表示矩阵M的(i,j)元,μ是一个非负极小值,在本发明中根据经验设置μ=0.0001,用于控制网络训练过程中出现除数全0而溢出的情况。
计算学习的上下文矩阵,即类内特征M(形状为N×N,mn∈M,n∈[1,N2])与矩阵C(形状为N×N,cn∈C,n∈[1,N2])的二进制交叉损失
Figure BDA0003537822610000117
并最终通过加权两损失得到最终的上下文损失
Figure BDA0003537822610000118
具体计算公式如下:
Figure BDA0003537822610000119
Figure BDA00035378226100001110
其中,λu和λg表示各自的权重值,本发明中将λu和λg设定为1。
在步骤3-2中,自注意力机制采用8头注意力,并对步骤3-1-1中得到的包含上下文先验的特征矩阵Fe进行切分为8个小的子集合,分别对每个集合进行自注意力矩阵计算,最后汇总成具备整体注意力关系的全局注意力矩阵中。通过自注意力机制进行了全局关系建模和强化,得到最终的特征矩阵。
在步骤4中对步骤3中得到的特征矩阵经过全连接层(Fully Connected Layer),并最终经过Softmax多分类器对输入的多维特征向量进行多标签预测,得到点云数据语义分割的概率图,将点云数据每个点预测概率最大的标签作为该点的预测标签,和对应的真实标签Gi对比,计算语义分割损失
Figure BDA0003537822610000121
与步骤3-1-2中的
Figure BDA0003537822610000122
相加作为总损失
Figure BDA0003537822610000123
进行反向传播,最终得到训练的包含上下文先验知识的点云分割网络,具体计算公式如下。
Figure BDA0003537822610000124
Figure BDA0003537822610000125
其中,w为对应的权重,c为类别,x为网络输出预测标签。将测试集STest输入到训练好的网络模型,得到训练集所有点云的语义分割标注。
实施例
本发明的目标任务如图1a和图1b所示,图1a为未分割的原始模型,图1b为语义分割后的标签着色渲染结果,整个方法的网络结构如图2所示,图3是核心的上下文-注意力模块细节示意图。下面根据实施例说明本发明的各个步骤。
步骤(1),对对输入的三维点云模型数据集S采集数据。具体分为以下几个步骤:
步骤(1.1),将输入的三维点云模型数据集S={STrain,STest}划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型;
步骤(1.2),输入单个三维点云模型si以及对所有点所属部件的标签集li,从所有点云数据中随机采样N个点作为网络输入点集Pi={p1,p2,...pi,...,pN},从标签集li中取出与Pi相对应的标签组成新的标签集gi,步骤1-1中的数据集经过采样得到新的数据集P={PTrain,PTest},使得网络分割过程中不同点云模型的特征形状可以保持一致;该步骤具体又可以分为如下步骤:
步骤(1.2.1),对单个三维点云模型si,其点云集合为si={si1,si2,...sij,..,sin},其中sij表示点云模型si的第j个点数据,从索引集合Q={1,2,...,n}中进行有放回抽样,重复N次得到采样后索引集合Q1={q1,q2,...qk,...,qN},ik∈I,其中q表示第k次从集合Q中抽样的索引;
步骤(1.2.2)将步骤(1.2.1)中的点云集合si中的点云下标与Q1中元素对应的点云加入到采样点集P中,得到新的点云模型数据Pi={p1,p2,...pk,...,pN},其中pk为步骤1-2-1中的
Figure BDA0003537822610000131
步骤(1.2.3),重复步骤(1.2.1)和步骤(1.2.2),直至训练集中所有三维点云模型均已完成采样结束。
步骤(1.3),对步骤1-2得到的训练集PTrain进行随机尺度缩放和平移,其中缩放因子u从均匀分布U(0.8,1.25)中采样,平移量从均匀分布U(-0.1,0.1)中采样。具体在每个点云数据的坐标实施,即点云数据前3维上进行随机尺度缩放和平移。
步骤(2),用关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;
步骤(2.1),将对于采样后的点云训练集PTrain,采集其各个点的真实标签GTrain和点云数据输入到关系形状网络中进行训练,经过编码器提取高维点云特征;该步骤具体又可以分为如下步骤:
步骤(2.1.1),对于单个点云模型数据Pi,依照最远点采样策略对点云数据进行分组,通过迭代选取与全部点云数据欧式距离最大的点作为球心,得到点云分组PGi={pg1,pg2,...,pgi,...,pgm},其中pgi={pi1,..,pik,..pin},表示第i个点云组,pik表示第pgi中第k个点;
步骤(2.1.2),步骤(2.1.1)中的PGi经过正向传播的卷积操作后,被提取为m×512维的特征矩阵fi
步骤(2.1.3),重复步骤(2.1.1)和步骤(2.1.2)共3次,每次重复过程中m分别512、128、1,n分别为32、32、128,分别得到PGi-1、PGi-2、PGi-3和fi-1、fi-2、fi-3。
步骤(2.2),对步骤(2.1)中提取的点云特征进行上采样解码,采用双线性插值策略将点云特征上采样至N×512维,即符合输入形状并包含关系信息的点云特征。
步骤(3),用上下文-注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征。
步骤(3.1),对于单个点云模型数据Pi以及其对应的真实标签G,经过步骤2得到的特征矩阵经过上下文模块,得到学习到上下文先验知识的类内特征矩阵和类间特征矩阵;该步骤具体又可以分为如下步骤:
步骤(3.1.1),对于步骤(2)中得到的N×512维特征矩阵,利用1x1卷积操作降维至N×256维,得到新的特征矩阵F,通过与其转置矩阵相乘,得到N×N维的类内特征矩阵M,类间特征矩阵I-M,其中I表示单位矩阵;聚合类内特征和类间特征,得到包含上下文先验的特征矩阵Fe,即:
Fe=concat(M,(I-M)F);
其中,concat表示对特征在最后一个维度上进行拼接聚合。
步骤(3.1.2),对于步骤(3.1)中的真实标签G,得到N×N维的协方差矩阵C,计算M与C的差距
Figure BDA0003537822610000141
作为Loss(损失)中的一部分,具体计算公式如下:
Figure BDA0003537822610000142
Figure BDA0003537822610000143
Figure BDA0003537822610000144
Figure BDA0003537822610000145
其中,
Figure BDA0003537822610000146
分别表示分别代表类内的正确率、类内的召回率、类间的特异性;cij表示矩阵C的(i,j)元,mij表示矩阵M的(i,j)元,μ是一个非负极小值,在本发明中根据经验设置μ=0.0001,用于控制网络训练过程中出现除数全0而溢出的情况。
计算学习的上下文矩阵,即类内特征M(形状为N×N,mn∈M,n∈[1,N2])与矩阵C(形状为N×N,cn∈C,n∈[1,N2])的二进制交叉损失
Figure BDA00035378226100001510
并最终通过加权两损失得到最终的上下文损失
Figure BDA0003537822610000152
具体计算公式如下:
Figure BDA0003537822610000153
Figure BDA0003537822610000154
其中,λu和λg表示各自的权重值,本发明中将λu和λg设定为1。
步骤(3.2),由步骤3-1得到的类内特征矩阵和类间特征矩阵经过自注意力模块进行强化,对全局依赖关系进行建模,得到具备上下文先验和全局语义关联的点云特征。
步骤(4),采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。对步骤3中得到的特征矩阵经过多层感知机,并最终经过Softmax多分类器对输入的多维特征向量进行多标签预测,得到点云数据语义分割的概率图,将点云数据每个点预测概率最大的标签作为该点的预测标签,和对应的真实标签Gi对比,计算语义分割损失
Figure BDA0003537822610000155
与步骤(3.1.2)中的
Figure BDA0003537822610000156
相加作为总损失
Figure BDA0003537822610000157
进行反向传播,最终得到训练的包含上下文先验知识的点云分割网络,具体计算公式如下。
Figure BDA0003537822610000158
Figure BDA0003537822610000159
其中,w为对应的权重,c为类别,x为网络输出预测标签。
结果分析
本发明方法的实验环境参数如下:
对模型进行数据采集和融合上下文先验的点云分割网络的训练和测试过程的实验平台参数为Windows10 64位操作系统、Intel(R)Core(TM)i7-5820K CPU 3.30GHz、内存64GB,显卡为Titan X GPU 12GB采用Python编程语言,并采用了Pytorch第三方开源库来实现。
本发明方法与点云语义分割经典方法:文献1中的方法(简称PointNet)文献2中的方法(简称PointNet++)文献4中的方法(简称PointCNN)文献6中的方法(简称RSCNN)的对比实验结果(如表1所示)分析如下:
在公认的三维三维模型点云部件分割数据集ShapeNetPart上进行了实验,每一类的数据集的类别名称如表1第一列所示,其中各类别名称含义为Airplane(飞机)、Bag(包)、Cap(帽子)、Car(汽车)、Chair(椅子)、Earphone(耳机)、Guitar(吉他)、Knife(刀)、Lamp(灯)、Laptop(便携式电脑)、Motorbike(摩托车)、Mug(马克杯)、Pistol(手枪)、Rocket(火箭)、Skateboard(滑雪板)、Table(桌子);训练集和测试集的划分如表1第二列所示;语义分割标注效果渲染图对比如图4所示;语义分割标注准确率对比如表1和表2所示。
如表1和表2的结果对比(表1展示了本发明方法与其他方法在ShapeNetPart数据集上语义分割标注平均交并比指标对比,表2展示了本发明方法与其他方法在ShapeNetPart数据集上语义分割标注平均交并比指标统计对比)所示,本发明方法部分领先于其他方法,在16个物体类别中,本发明方法共有10个物体类别上结果领先于其他方法。本发明方法与PointCNN各有优劣,如表1和表2所示,本发明方法在Instance Average IoU(物体实例交并比的平均)上超过了PointCNN,在Class Average IoU(类别交并比的平均)上略微落后。具体到所有物体类别上,本发明方法在仅在4个类别上落后于PointCNN,并在其余12个物体类别上均领先PointCNN。
表1
Figure BDA0003537822610000161
Figure BDA0003537822610000171
表2
PointNet PointNet++ PointCNN RSCNN 本发明方法
Class Average IoU 80.4 81.9 84.6 84.0 84.4
Instance Average IoU 83.7 85.1 86.1 86.2 87.1
在自对比实验中,分别去掉上下文-注意力模块中的上下文先验模块和自注意力模块,与最终的实验结果准确率对比如表3所示,表明了上下文先验模块和自注意力模块能够显著提升最终的语义分割标注准确率。
表3
Figure BDA0003537822610000172
本发明提供了一种基于上下文和注意力的三维点云语义分割方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于上下文和注意力的三维点云语义分割方法,其特征在于,包括以下步骤:
步骤1,对输入的三维点云模型数据集采集数据;
步骤2,通过关系形状网络对点云数据进行逐点特征提取,得到包含形状信息的点云特征;
步骤3,用上下文和注意力模块对提取的点云特征进行类内类间特征约束和强化,得到具备上下文先验和全局语义关联的点云特征;
步骤4,采用多层感知机分类器对点云特征进行分类,得到点云数据中每个点的最终预测标签。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1,将输入的三维点云模型数据集S={STrain,STest}划分为训练集STrain={s1,s2,...si,...,sn}和测试集STest={sn+1,sn+2,...,sn+j,...,sn+m},其中si表示训练集中第i个模型,sn+j表示测试集中第j个模型;
步骤1-2,设定输入单个三维点云模型si以及对所有点所属部件的标签集li,从所有点云数据中随机采样N个点作为网络输入点集Pi={p1,p2,...pi,...,pN},从标签集li中取出与第i个点Pi相对应的标签组成新的标签集gi,i取值为1~N;步骤1-1中的数据集经过采样得到新的数据集P={PTrain,PTest};PTrain表示采样后的点云训练集,PTest表示采样后的点云测试集;
步骤1-3,对步骤1-2得到的训练集PTrain进行随机尺度缩放和平移,其中缩放因子u从均匀分布U(0.8,1.25)中采样,平移量从均匀分布U(-0.1,0.1)中采样。
3.根据权利要求2所述的方法,其特征在于,步骤1-2包括如下步骤:
步骤1-2-1,对单个三维点云模型si,其点云集合为si={si1,si2,...sij,..,sin},其中sij表示点云模型si的第j个点数据,j取值为1~n;从索引集合Q={1,2,...,n}中进行有放回抽样,重复N次得到采样后索引集合Q1={q1,q2,...qk,...,qN},ik∈I,其中qk表示第k次从集合Q中抽样的索引;
步骤1-2-2,将步骤1-2-1中的点云集合si中的点云下标与Q1中元素对应的点云加入到采样点集P中,得到新的点云模型数据Pi={p1,p2,...pk,...,pN},其中pk为步骤1-2-1中sij的j取qk,即
Figure FDA0003537822600000021
步骤1-2-3,重复步骤1-2-1和1-2-2,直至训练集中所有三维点云模型均已完成采样结束。
4.根据权利要求3所述的方法,其特征在于,步骤1-3中,在每个点云数据的坐标,即点云数据前3维上进行随机尺度缩放和平移。
5.根据权利要求4所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1,对于采样后的点云训练集PTrain,采集各个点的真实标签GTrain和点云数据输入到关系形状网络中进行训练,经过编码器提取高维点云特征;
步骤2-2,对步骤2-1中提取的点云特征进行上采样解码,得到符合输入形状并包含关系信息的点云特征。
6.根据权利要求5的方法,其特征在于,步骤2-1包括以下步骤:
步骤2-1-1,对于单个点云模型数据Pi,依照最远点采样策略对点云数据进行分组,通过迭代选取与全部点云数据欧式距离最大的点作为球心,得到点云分组PGi={pg1,pg2,...,pgi,...,pgm},其中pgi={pi1,...,pik,...pin},pgi表示第i个点云组,pik表示pgi中第k个点;
步骤2-1-2,步骤2-1-1中的PGi经过正向传播的卷积操作后,被提取为m×512维的特征矩阵fi
步骤2-1-3,重复步骤2-1-1和步骤2-1-2共3次,每次重复过程中m分别为512、128、1,n分别为32、32、128,分别得到第一阶段的点云分组PGi-1、第二阶段的点云分组PGi-2、第三阶段的点云分组PGi-3和第一阶段的点云特征矩阵fi-1、第二阶段的点云特征矩阵fi-2、第三阶段的点云特征矩阵fi-3。
7.根据权利要求6的方法,其特征在于,步骤2-2中采用双线性插值策略将点云特征上采样至N×512维。
8.根据权利要求7的方法,其特征在于,步骤3包括如下步骤:
步骤3-1,对于单个点云模型数据Pi以及其对应的真实标签G,经过步骤2得到的特征矩阵经过上下文模块,得到学习到上下文先验知识的类内特征矩阵和类间特征矩阵;
步骤3-2,由步骤3-1得到的类内特征矩阵和类间特征矩阵经过自注意力模块进行强化,对全局依赖关系进行建模,得到具备上下文先验和全局语义关联的点云特征。
9.根据权利要求8的方法,其特征在于,步骤3-1包括:
步骤3-1-1,对于步骤2中得到的N×512维特征矩阵,利用1x1卷积操作降维至N×256维,得到新的特征矩阵F,通过与其转置矩阵相乘,得到N×N维的类内特征矩阵M,类间特征矩阵I-M,其中I表示单位矩阵;聚合类内特征和类间特征,得到包含上下文先验的特征矩阵Fe,即:
Fe=concat(M,(I-M)F)
其中,concat表示对特征在最后一个维度上进行拼接聚合;
步骤3-1-2,对于步骤3-1中的真实标签G,得到N×N维的协方差矩阵C,计算M与C的差距
Figure FDA0003537822600000031
作为Loss损失中的一部分,具体计算公式如下:
Figure FDA0003537822600000032
Figure FDA0003537822600000033
Figure FDA0003537822600000034
Figure FDA0003537822600000035
其中,
Figure FDA0003537822600000036
分别表示类内的正确率、类内的召回率、类间的特异性;cij表示矩阵C的(i,j)元,mij表示矩阵M的(i,j)元,μ是一个非负极小值;
计算学习的上下文矩阵,即类内特征M与矩阵C的二进制交叉损失
Figure FDA0003537822600000037
并最终通过加权两损失得到最终的上下文损失
Figure FDA0003537822600000038
具体计算公式如下:
Figure FDA0003537822600000039
Figure FDA00035378226000000310
其中,λu和λg表示各自的权重值,本发明中将λu和λg设定为1。
10.根据权利要求9的方法,其特征在于,步骤3-2中,所述自注意力模块采用8头注意力,并对步骤3-1-1中得到的包含上下文先验的特征矩阵Fe进行全局关系建模和强化,得到最终的特征矩阵;
步骤4中,对步骤3中得到的特征矩阵经过全连接层,并最终经过Softmax多分类器对输入的多维特征向量进行多标签预测,得到点云数据语义分割的概率图,将点云数据每个点预测概率最大的标签作为该点的预测标签,和对应的真实标签Gi对比,计算语义分割损失
Figure FDA0003537822600000041
与步骤3-1-2中的
Figure FDA0003537822600000042
相加作为总损失
Figure FDA0003537822600000043
进行反向传播,最终得到训练的包含上下文先验知识的点云分割网络,具体计算公式如下:
Figure FDA0003537822600000044
Figure FDA0003537822600000045
其中,w为对应的权重,c为类别,x为网络输出预测标签。
CN202210221944.6A 2022-03-09 2022-03-09 一种基于上下文和注意力的三维点云语义分割方法 Pending CN114693923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210221944.6A CN114693923A (zh) 2022-03-09 2022-03-09 一种基于上下文和注意力的三维点云语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221944.6A CN114693923A (zh) 2022-03-09 2022-03-09 一种基于上下文和注意力的三维点云语义分割方法

Publications (1)

Publication Number Publication Date
CN114693923A true CN114693923A (zh) 2022-07-01

Family

ID=82138116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221944.6A Pending CN114693923A (zh) 2022-03-09 2022-03-09 一种基于上下文和注意力的三维点云语义分割方法

Country Status (1)

Country Link
CN (1) CN114693923A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019048A (zh) * 2022-07-08 2022-09-06 北京百度网讯科技有限公司 三维场景分割方法、模型训练方法、装置和电子设备
CN116091777A (zh) * 2023-02-27 2023-05-09 阿里巴巴达摩院(杭州)科技有限公司 点云全景分割及其模型训练方法、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019048A (zh) * 2022-07-08 2022-09-06 北京百度网讯科技有限公司 三维场景分割方法、模型训练方法、装置和电子设备
CN116091777A (zh) * 2023-02-27 2023-05-09 阿里巴巴达摩院(杭州)科技有限公司 点云全景分割及其模型训练方法、电子设备

Similar Documents

Publication Publication Date Title
Howard et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
Ali et al. A hybrid geometric spatial image representation for scene classification
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
Tan et al. Robust object recognition via weakly supervised metric and template learning
CN111695494A (zh) 一种基于多视角卷积池化的三维点云数据分类方法
Biasotti et al. SHREC’14 track: Retrieval and classification on textured 3D models
CN114693923A (zh) 一种基于上下文和注意力的三维点云语义分割方法
Ryan Fanello et al. Low compute and fully parallel computer vision with hashmatch
Zhang et al. Local k-nns pattern in omni-direction graph convolution neural network for 3d point clouds
CN106970956A (zh) 一种基于张量的三维模型检索方法
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
Lee et al. Connectivity-based convolutional neural network for classifying point clouds
Xu et al. MSGCNN: Multi-scale graph convolutional neural network for point cloud segmentation
Yu et al. Hope: Hierarchical object prototype encoding for efficient object instance search in videos
Zhang et al. Graph-PBN: Graph-based parallel branch network for efficient point cloud learning
CN118628736A (zh) 基于聚类思想的弱监督室内点云语义分割方法、装置及介质
Ren et al. Research on infrared small target segmentation algorithm based on improved mask R-CNN
Li et al. Image decomposition with multilabel context: Algorithms and applications
Zhou et al. GTNet: Graph transformer network for 3D point cloud classification and semantic segmentation
Zhou et al. Retrieval and localization with observation constraints
Chekir A deep architecture for log-Euclidean Fisher vector end-to-end learning with application to 3D point cloud classification
Fan et al. Siamese graph convolution network for face sketch recognition: an application using graph structure for face photo-sketch recognition
Jiang et al. Robust 3d face alignment with efficient fully convolutional neural networks
Wang et al. Image target recognition based on improved convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination