CN114170465A - 基于注意力机制的3d点云分类方法、终端设备及存储介质 - Google Patents

基于注意力机制的3d点云分类方法、终端设备及存储介质 Download PDF

Info

Publication number
CN114170465A
CN114170465A CN202111495212.8A CN202111495212A CN114170465A CN 114170465 A CN114170465 A CN 114170465A CN 202111495212 A CN202111495212 A CN 202111495212A CN 114170465 A CN114170465 A CN 114170465A
Authority
CN
China
Prior art keywords
point cloud
point
layer
points
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111495212.8A
Other languages
English (en)
Inventor
范天伟
安岗
佟曼
王金石
李森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111495212.8A priority Critical patent/CN114170465A/zh
Publication of CN114170465A publication Critical patent/CN114170465A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种基于注意力机制的3D点云分类方法、终端设备及计算机可读存储介质,其中,所述方法包括:创建注意力机制神经网络模型,所述注意力机制神经网络模型包括M层相连的注意力机制卷积网络层;将3D点云逐级输入至所述注意力机制卷积网络层中,得到3D点云中所有点的点类特征;以及,基于3D点云中所有点的点类特征对所述3D点云进行分类。本公开针对3D点云的无序等特性,创建基于注意力机制的神经网络模型,在学习过程中可以关注到3D点云中重要的点及其特征持续被神经网络关注,且能够考虑到到点云中边的属性,相较于普通神经网络而言点云的分类结果准确率更高。

Description

基于注意力机制的3D点云分类方法、终端设备及存储介质
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种基于注意力机制的3D点云分类方法、一种终端设备以及一种计算机可读存储介质。
背景技术
3D点云是3D对象表面几何构造的一种无序化表示,可通过3D深度相机等3D视觉技术采集获取,3D点云可在三维物体重建、逆向工程设计、无人驾驶、机器人等领域中应用。因此,在机器视觉领域,已经有2D向3D视觉发展的趋势,3D点云数据也正在迅速增长。
与人类视觉不同的是,如何教会机器准确地识别3D对象并进行3D点云的高效分类,是一项极具挑战的任务,虽然目前已提出利用神经网络对3D点云进行深度学习来完成对3D点云的分类工作,来提高点云分类的准确定,但由于点云中的点有坐标,除了考虑点的属性,还要考虑边的属性,采用普通图神经网络进行点云分类时,其准确率较低。
发明内容
本公开提供了一种基于注意力机制的3D点云分类方法、终端设备及计算机可读存储介质,以至少解决目前采用普通神经网络对3D点云分类准确率低等问题。
为实现上述目的,本公开提供一种基于注意力机制的3D点云分类方法,包括:
创建注意力机制神经网络模型,所述注意力机制神经网络模型包括M层相连的注意力机制卷积网络层;
将3D点云逐级输入至所述注意力机制卷积网络层中,得到3D点云中所有点的点类特征;以及,
基于3D点云中所有点的点类特征对所述3D点云进行分类。
在一种实施方式中,所述方法还包括:
在所述注意力机制卷积网络层中插入残差连接。
在一种实施方式中,在将3D点云逐级输入至所述注意力机制卷积网络层中之前,还包括:
对3D点云进行对称变换,得到经过对称变换的3D点云;
将3D点云逐级输入至所述注意力机制卷积网络层中,得到所述3D点云中所有点的点类特征,包括:
将经过对称变换的3D点云逐级输入至所述注意力机制卷积网络层中,得到所述3D点云中所有点的点类特征。
在一种实施方式中,对3D点云进行对称变换,包括:
采用PointNet对称函数对3D点云进行对称变换。
在一种实施方式中,将3D点云逐级输入至所述注意力机制卷积网络层中,得到3D点云中所有点的点类特征,包括:
将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征;
对3D点云中所有点最终的全局点类特征和局部边缘点类特征进行池化聚合操作,得到3D点云中所有点的点类特征。
在一种实施方式中,所述方法还包括:
在所述注意力机制卷积网络层中插入EgeConv点云局部特征提取算法;
将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征,包括:
将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,基于所述EgeConv点云局部特征提取算法分别提取第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中的3D点云中所有点的局部边缘点类特征。
在一种实施方式中,将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征,包括:
将3D点云输入至第1层注意力机制卷积网络层中,提取3D点云所有点的初始全局点类特征和初始局部边缘点类特征;
将所述初始全局点类特征和初始局部边缘点类特征进行池化聚合,得到所述初始全局点类特征和初始局部边缘点类特征的一维特征向量;
将所述一维特征向量送入编码器-解码器结构学习所述一维特征向量的共享注意力权重;
采用Sigmoid门控函数对所述共享注意力权重进行重新校准,得到校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重;
基于校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重获取3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
将3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
将3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
判断下一层注意力机制卷积网络层是否为第M层,若是,则将3D点云所有点在本层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征。
在一种实施方式中,将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征,包括:
将3D点云输入至第1层注意力机制卷积网络层中,提取3D点云所有点的初始全局点类特征和初始局部边缘点类特征;
将所述初始全局点类特征和初始局部边缘点类特征进行池化聚合,得到所述初始全局点类特征和初始局部边缘点类特征的一维特征向量;
将所述一维特征向量送入编码器-解码器结构学习所述一维特征向量的共享注意力权重;
采用Sigmoid门控函数对所述共享注意力权重进行重新校准,得到校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重;
基于校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重获取3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
将3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
将3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
判断下一层注意力机制卷积网络层是否为第M层,若是,则将3D点云所有点在本层注意力机制卷积网络层的全局点类特征和局部边缘点类特征以及3D点云所有点在第1层到第M-1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征。
在一种实施方式中,对3D点云中所有点最终的全局点类特征和局部边缘点类特征进行池化聚合操作,包括:
采用平均池化聚合和最大池化聚合对3D点云中所有点最终的全局点类特征和局部边缘点类特征分别进行池化聚合操作。
在一种实施方式中,基于3D点云中所有点的点类特征对所述3D点云进行分类,包括:
将3D点云中所有点的点类特征输入至MLP多层感知系统中,在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类,得到分类结果。
在一种实施方式中,在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类之后,还包括:
利用Triplet损失函数对分类结果进行分析,得到分析结果;
基于所述分析结果判断分类结果的损失值是否满足期望值,若否,则返回在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类的步骤重新基于3D点云中所有点的点类特征对所述3D点云进行分类,直到分类结果的损失值满足期望值。
为实现上述目的,本公开还提供一种终端设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行所述的基于注意力机制的3D点云分类方法。
为实现上述目的,本公开还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行所述的基于注意力机制的3D点云分类方法。
本公开提供的技术方案可以包括以下有益效果:
本公开提供的基于注意力机制的3D点云分类方法,通过创建注意力机制神经网络模型,所述注意力机制神经网络模型包括M层相连的注意力机制卷积网络层,然后将3D点云逐级输入至所述注意力机制卷积网络层中,得到3D点云中所有点的点类特征,并基于3D点云中所有点的点类特征对所述3D点云进行分类。本公开针对3D点云的无序等特性,创建基于注意力机制的神经网络模型,在学习过程中可以关注到3D点云中重要的点及其特征持续被神经网络关注,且能够考虑到到点云中边的属性,相较于普通神经网络而言点云的分类结果准确率更高。
本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
图1为本公开实施例提供的一种基于注意力机制的3D点云分类方法的流程示意图;
图2为本公开实施例提供的另一种基于注意力机制的3D点云分类方法的流程示意图;
图3为本公开实施例提供的又一种基于注意力机制的3D点云分类方法的流程示意图之一;
图4为本公开实施例中提取每一层AMN层的3D点云中所有点的全局点类特征和局部边缘点类特征的流程示意图;
图5为本公开实施例提供的又一种基于注意力机制的3D点云分类方法的流程示意图之二;
图6为本公开实施例中对3D点云中所有点的全局点类特征和局部边缘点类特征分别进行池化聚合操作的流程示意图;
图7为本公开实施例提供的一种终端设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序;并且,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
为解决上述问题,本公开实施例提供了一种基于注意力机制的3D点云分类方法,如图1所示,所述方法包括步骤S101-S103。
在步骤S101中,创建注意力机制神经网络模型,所述注意力机制神经网络模型包括M层相连的注意力机制卷积网络层。
本实施例中,注意力机制神经网络(Attention Mechanisms Network,以下简称AMN)模型的创建,通过在卷积神经网络(Convolutional Neural Networks,简称CNN)模型中加入注意力机制,其中注意力机制可以看成是一个组合函数,通过计算注意力的概率分布,来突出某个关键输入对输出的影响,其对于无序点云而言,可以使点云中重要的点例如轮廓点、骨架点及其特征持续被神经网络关注,且除了考虑点属性之外,考虑了边的属性,相较于普通神经网络而言能够更准确地执行分类任务。
在一种实施方式中,可以通过不断训练注意力机制神经网络模型的参数,例如权值、偏置量参数等,使得所创建的注意力神经网络模型具有更高的准确率。
在步骤S102中,将3D点云逐级输入至所述注意力机制卷积网络层中,得到3D点云中所有点的点类特征。
具体地,逐级将3D点云输入到M层相连的注意力机制神经网络层AMN中以提取点云的类特征(第一级先将三维向量映射到64维高维空间上),即上一级AMN网络的输出又将作为下一级AMN网络的输入,采用分层特征表示方式形式,通过多级AMN网络可以获得更多层次、更加丰富的点云语义特征表征。
需要说明的是,本实施例中所提到的点类特征即用于对3D点云进行分类的特征。
在一种实施方式中,为了避免梯度消失,同时加速特征收敛,所述方法还包括以下步骤:在注意力机制卷积网络层中插入残差连接。残差连接允许低层的原始信息直接传到后续的高层,让高层专注残差的学习,避免模型的退化。
进一步地,考虑到3D点云的无序性,通过将输入的3D点云首先进行对称变换,使输入的点云顺序不变,保证点云置换不变性,以便于进行后续工作,提高点云分类的准确率及效率,具体方式已在后述实施例进行详述,此处不再赘述。
在步骤S103中,基于3D点云中所有点的点类特征对所述3D点云进行分类。
相较于普通卷积神经网络,本实施例基于点云的无序特性,结合注意力机制所创建的注意力机制神经网络模型,在接收到输入3D点云后可以关注到点云中重要的点及其特征持续被神经网络关注,并能够考虑到边的属性(点与点之间的距离),能够更准确地执行点云分类任务。
请参照图2,图2为本公开实施例提供的另一种基于注意力机制的3D点云分类方法,考虑到点云在进行深度学习时的排列不变性变换也是3D点云分类的重要问题,在上一实施例的基础上,本实施例通过首先对3D点云进行对称变换,再将经过对称变换后的3D点云输入至模型中进行学习,最终完成点云的分类,具体地,在将3D点云逐级输入至所述注意力机制卷积网络层中(步骤S102)之前,还包括步骤S201,并将步骤S102进一步划分为步骤S102a。
需要说明的是,随着深度学习技术的不断成熟,如何利用深度学习工具实现对3D点云的分类处理成为一大研究方向,但是,3D点云是非结构化的数据,点云零散稀疏地分布在三维空间,表示为xyz坐标点,并不像2D图像那样有结构化的网格来帮助普通神经网络进行例如卷积神经网络运行卷积操作,同时,3D点云在CNN运算中表示为一个N×3的矩阵,其中行向量N表示点云个数,列向量表示每个点的xyz三维坐标,在几何上两个完全不同的矩阵可以表示同一个点云集,但两个不同的矩阵在CNN中的运行结果是截然不同的,因此对点云的排列不变性变换也是3D点云处理的重要一环。
在步骤S201中,对3D点云进行对称变换,得到经过对称变换的3D点云。
具体地,设以N×3的原始3D点云PC为输入,行向量N表示点云集合中点的个数,列向量表示每个点的xyz三维坐标,通过对称变换网络对点云几何变换生成3×3对称变换矩阵,N×3原始点云PC与3×3对称变换矩阵进行矩阵相乘后,得到经过对称变换后的N×3的3D点云集PC’。
本实施例中,采用PointNet对称函数对3D点云进行对称变换。
通过采用PointNet(vanilla)对点云进行对称变换,同时可以逐点提取3D点云的全局特征。
相关技术中,在用深度学习方法在处理点云时,往往需要将其转换为特定视角下的深度图像(2D映射)或者三维体素(Voxel)等更为规整的格式以便于定义权重共享的卷积操作等。或者直接利用PointNet算法,基于PointNet分类网络对输入的点云进行输入变换(input transform)和特征变换(feature transform),随后进行特征聚合,但是这种架构没有办法捕获由度量空间点引起的局部结构,而局部结构对3D点云卷积架构又是十分重要的,因为这将限制它识别细粒度图案和泛化应用到复杂场景的能力。而本实施例中,在输入至模型之前对3D点云利用PointNet对称函数进行点云的对称变换,再输入到注意力机制卷积神经网络层中,可以实现对点云全局和局部特征的提取。
在步骤S102a中,将经过对称变换的3D点云逐级输入至所述注意力机制卷积网络层中,得到所述3D点云中所有点的点类特征。
因为点云的无序性,对输入点云通过诸如PointNet(vanilla)等对称函数方法进行变换,在任意一个Hausdorff空间上连续的函数且变换网络层数足够的情况下PC’可视为无限接近PC,以此将所有点对齐到一个正则空间,使点云的输入顺序不变,保证了点云置换不变性,以便之后能够输入到卷积网络中进行后续工作。
请参照图3,图3为本公开实施例提供的又一种基于注意力机制的3D点云分类方法,考虑到现有技术中点云分类缺乏有效的局部区域特征分析,本实施例在每个注意力机制卷积神经网络层中插入点云局部特征提取算法,结合点云的全局点类特征和局部点类特征完成对3D点云的分类,具体地,将经过对称变换的3D点云逐级输入至所述注意力机制卷积网络层中,得到所述3D点云中所有点的点类特征(步骤S102a)进一步划分为步骤S102a’和步骤S102a”,
在步骤S102a’中,将经过对称变换的3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征。
由上所述,3D点云在经过对其变换后就能驻点提取出其全局特征,但仍然缺少有效的局部区域特征,本实施例通过在每个层注意力机制卷积网络AMN层中插入局部特征提取算法,来获取点云局部特征。在一种实施方式中,通过插入EgeConv点云局部特征提取算法实现对点云局部特征的提取,所述方法还包括以下步骤:
在所述注意力机制卷积网络层中插入EgeConv点云局部特征提取算法;
将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征(步骤S102a),具体为以下步骤:
将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,基于所述EgeConv点云局部特征提取算法分别提取第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中的3D点云中所有点的局部边缘点类特征。
本实施例中,将EdgeConv等点云局部特征提取方法引入,来获取点云局部区域特征,具体而言,通过建立每个点与周围相邻点的局部区域特征结构表征,并运用多尺度局部点云簇增加鲁棒性。因此,AMN层既能够在提取点云局部形状特征的同时,又可以获取全局特征,同时保持了整体点云排列不变性,这种分层特征表示方式充分结合了全局点类特征和局部边缘类特征,以此获得更好的点云分类表现。
在步骤S102a”中,对3D点云中所有点最终的全局点类特征和局部边缘点类特征进行池化聚合操作,得到3D点云中所有点的点类特征。
进一步地,本实施例AMN层还将通过注意力机制分别逐点计算全局点类特征和局部边缘类特征的注意力权重值,重新标定每个网络层产生的类特征,并与权重矩阵相乘以将调整后的特征输入到下一层AMN网络中,运用注意机制可以使点云中重要的点(如轮廓点、骨架点)及其特征持续被神经网络关注,以此来更好地执行分类任务。以下以两种实施方式作为示例:
在一种实施方式中,利用第M层的输出特征获取3D点云的全局点类特征和局部边缘点类特征,具体地,将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征(步骤S102a),包括以下步骤a-h:
a.将3D点云输入至第1层注意力机制卷积网络层中,提取3D点云所有点的初始全局点类特征和初始局部边缘点类特征。
具体地,经过对称变换(可以基于上述实施例采用PointNet或者其它方式)后的点云输入至AMN层即可获得3D点云中各点的全局特征,由于缺乏有效的局部区域特征,通过在AMN层中插入以EdgeConv为例的点云局部边缘特征提取算法提取点云的局部边缘点类特征,输入到第1层的AMN中即获取初始全局点类特征和初始局部边缘点类特征。
b.将所述初始全局点类特征和初始局部边缘点类特征进行池化聚合,得到所述初始全局点类特征和初始局部边缘点类特征的一维特征向量。
c.将所述一维特征向量送入编码器-解码器结构学习所述一维特征向量的共享注意力权重;
d.采用Sigmoid门控函数对所述共享注意力权重进行重新校准,得到校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重;
e.基于校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重获取3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
f.将3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
g.将3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征。
针对步骤b-f,AMN层具体的运作原理结合图4所示,可以理解的是,同样适用于第2层到第M-1层的AMN层的操作,具体地,首先输入全局点类特征(包括第一层的初始全局点类特征)和局部边缘点类特征(包括第一层的初始局部边缘点类特征)进行最大池化聚合得到单向量,然后将其送入共享权重的编码器-解码器架构中来学习全局/边缘特征的注意力权重值,以判定其对输出的影响。
其中,编码器用于在原始数据中找到某种模式,通过压缩原始维度数据的方式以生成最有意义的上下文简洁表征,解码器会利用这些上下文进行上采样到原始维度,以生成描述性知识等高维度输出数据,编码器-解码器架构的目的是可以通过显式地建模卷积特征的通道之间的相互依赖程度来提高网络产生的表示质量,网络可以据此为输入分配不同的注意力权重值,实现对特征通道的重新校准机制,以便网络可以选择性地强调重要信息特征,抑制不重要的特征。之后通过Sigmoid门控函数来获得每个点的全局点类特征和边缘局部类特征的注意权重,权重值被控制在0-1之间,且每个特征通道(全局特征和边缘局部特征)的权重相加之和为1,使用权重矩阵与原始信息相乘的方式重新缩放全局点类特征和边缘局部类特征,调整它们对输出的影响,本层重新校准后的全局点类特征和边缘局部类特征连接起来后,将被送入下一层AMN网络中。
h.判断下一层注意力机制卷积网络层是否为第M层,若是,则将3D点云所有点在本层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征。
本实施例中,在将对齐后的点云送入一系列相连的注意力机制卷积网络层中,并通过分层特征表示全局点类特征和局部边缘类特征,在第M(1024)层输出的所有点的全局点类特征和局部边缘点类特征将获得更好的点云分类表现。
在另一种实施方式中,为充分利用各个AMN层的特征输出,并获得完整的全局上下文聚合信息,需将之前每个AMN层的输出连接起来,并将连接后的输出送入最后一层AMN(1024)层中,生成一个N×1024的输出结果,具体地,将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征(步骤S102a),包括以下步骤:
a.将3D点云输入至第1层注意力机制卷积网络层中,提取3D点云所有点的初始全局点类特征和初始局部边缘点类特征;
将所述初始全局点类特征和初始局部边缘点类特征进行池化聚合,得到所述初始全局点类特征和初始局部边缘点类特征的一维特征向量;
b.将所述一维特征向量送入编码器-解码器结构学习所述一维特征向量的共享注意力权重;
c.采用Sigmoid门控函数对所述共享注意力权重进行重新校准,得到校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重;
d.基于校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重获取3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
e.将3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
f.将3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
g’.判断下一层注意力机制卷积网络层是否为第M层,若是,则将3D点云所有点在本层注意力机制卷积网络层的全局点类特征和局部边缘点类特征以及3D点云所有点在第1层到第M-1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征。
需要说明的是,本示例与上一示例不同之处在于,本示例输入至第M层AMN层的信息为第1层-第M-1层中每一层的输出结果,而上一示例输入至第M层AMN层的信息为第M-1层的输出结果,相较于上一示例而言能够更加充分利用各个AMN层的特征输出,相应的,信息冗余程度也更大。
在一种实施方式中,对3D点云中所有点最终的全局点类特征和局部边缘点类特征进行池化聚合操作(步骤S102b),包括以下步骤:
采用平均池化聚合和最大池化聚合对3D点云中所有点最终的全局点类特征和局部边缘点类特征分别进行池化聚合操作。
可以理解的是,平均池化(avgpooling)和最大池化(maxpooling)为池化操作的两种常用方式,其中,平均池化可以保留背景信息,在feature map上以窗口的形式进行滑动(类似卷积的窗口滑动),操作为取窗口内的平均值作为结果,经过操作后,feature map降采样,减少了过拟合现象;最大池化则可以提取特征纹理,减少无用信息的影响。本实施例在提取到3D点云所有点的全局点类特征和局部边缘点类特征之后,利用两种池化聚合操作进行聚合,可以在减少过拟合现象的同时,减少冗余信息。
本实施例以另一种示例情况(每个AMN层的输出结果连接输入到第M层)为例,结合图5和图6所示,对最终输出的N×1024点云全局点类特征和局部边缘类特征,该向量对3D点云表征明显是冗余的,通过同时运用平均池化聚合和最大池化聚合,得到两个向量表示,将其送入共享权重的编码器-解码器架构中,通过Sigmoid门控函数获得两种聚合方式对最终输出结果的影响权重值,之后使用注意力权重值重新调整各自池化操作的输出,最后将重新校准后的平均池化和最大池化的输出进行连接,得到一个1×1024维的向量,这个向量是N个点的点云全局特征(即3D点云中所有点的点类特征)。这种基于注意力机制的全局特征聚合操作相较于仅使用某种单一聚合方法具有更大优势,能够提高约15%的点云分类效率。
进一步地,基于3D点云中所有点的点类特征对所述3D点云进行分类(步骤S103),包括以下步骤:
将3D点云中所有点的点类特征输入至MLP多层感知系统中,在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类,得到分类结果。
可以理解的是,多层感知机(Multilayer Perceptron,简称MLP)除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构,本实施例利用多层感知机MLP的全连接结构实现点云的分类,具体地,将1024维全局聚合特征向量(即3D点云中所有点的点类特征)输入到一个三层全连接层的的MLP多层感知系统中(MLP(512,256,c)),用于对点云完成最终分类工作,最后一层网络为MLP(c),输出1×c维向量,c是最后输出的分类类目数,每一列的值即为点云属于该类的得分值,然后根据每个点在每类的得分值获得分类结果。
进一步地,为了进一步提高3D点云分类的准确性,本实施例采用Triplet损失函数进行优化,使获得的分类结果达到最优,具体地,在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类之后,还包括以下步骤:
利用Triplet损失函数对分类结果进行分析,得到分析结果;
基于所述分析结果判断分类结果的损失值是否满足期望值,若否,则返回在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类的步骤重新基于3D点云中所有点的点类特征对所述3D点云进行分类,直到分类结果的损失值满足期望值。
在一种实施方式中,可以通过不断优化MLP多层感知系统的参数来进一步在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类的步骤重新基于3D点云中所有点的点类特征对所述3D点云进行分类。
具体地,Triplet损失函数根据以下公式得到:
Figure BDA0003399860900000151
上式中,L(F,F+,F-)表示分类结果中点云分类关系的损失,其损失越小说明分类准确度越高,F表示分类结果中任意两个点对之间的类特征匹配度,F+表示正匹配点对的类特征匹配度,F-表示负匹配点对的类特征匹配度,m为阈值参数,其中m、F+和F-为给定数值。
基于相同的技术构思,本公开实施例相应还提供一种终端设备,如图7所示,包括存储器71和处理器72,所述存储器71中存储有计算机程序,当所述处理器72运行所述存储器71存储的计算机程序时,所述处理器72执行所述的基于注意力机制的3D点云分类方法。
基于相同的技术构思,本公开实施例相应还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行所述的基于注意力机制的3D点云分类方法。
综上,本公开实施例提出的基于深度学习的3D点云分类方法,通过对3D点云进行对称变换对齐,并将对齐后的点云送入一系列相连的注意力机制卷积网络层中,并通过分层特征表示全局点类特征和局部边缘类特征,以此获得更好的点云分类表现,该过程中,为了避免梯度消失,在卷积层中插入了残差连接。之后,对最终输出的类特征,通过注意力机制同时运用平均池化聚合和最大池化聚合,并通过注意力机制重新校准聚合操作,以提高分类处理性能,最后将聚合后的特征向量送入多层感知系统中完成对3D点云的分类工作,并引入Triplet损失函数,通过不断优化模型参数使损失函数L值最小,来达到自监督优化目的,进一步提高点云分类准确度。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (13)

1.一种基于注意力机制的3D点云分类方法,其特征在于,包括:
创建注意力机制神经网络模型,所述注意力机制神经网络模型包括M层相连的注意力机制卷积网络层;
将3D点云逐级输入至所述注意力机制卷积网络层中,得到3D点云中所有点的点类特征;以及,
基于3D点云中所有点的点类特征对所述3D点云进行分类。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述注意力机制卷积网络层中插入残差连接。
3.根据权利要求1所述的方法,其特征在于,在将3D点云逐级输入至所述注意力机制卷积网络层中之前,还包括:
对3D点云进行对称变换,得到经过对称变换的3D点云;
将3D点云逐级输入至所述注意力机制卷积网络层中,得到所述3D点云中所有点的点类特征,包括:
将经过对称变换的3D点云逐级输入至所述注意力机制卷积网络层中,得到所述3D点云中所有点的点类特征。
4.根据权利要求3所述的方法,其特征在于,对3D点云进行对称变换,包括:
采用PointNet对称函数对3D点云进行对称变换。
5.根据权利要求3所述的方法,其特征在于,将3D点云逐级输入至所述注意力机制卷积网络层中,得到3D点云中所有点的点类特征,包括:
将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征;
对3D点云中所有点最终的全局点类特征和局部边缘点类特征进行池化聚合操作,得到3D点云中所有点的点类特征。
6.根据权利要求5所述的方法,其特征在于,还包括:
在所述注意力机制卷积网络层中插入EgeConv点云局部特征提取算法;
将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征,包括:
将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,基于所述EgeConv点云局部特征提取算法分别提取第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中的3D点云中所有点的局部边缘点类特征。
7.根据权利要求5或6所示的方法,其特征在于,将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征,包括:
将3D点云输入至第1层注意力机制卷积网络层中,提取3D点云所有点的初始全局点类特征和初始局部边缘点类特征;
将所述初始全局点类特征和初始局部边缘点类特征进行池化聚合,得到所述初始全局点类特征和初始局部边缘点类特征的一维特征向量;
将所述一维特征向量送入编码器-解码器结构学习所述一维特征向量的共享注意力权重;
采用Sigmoid门控函数对所述共享注意力权重进行重新校准,得到校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重;
基于校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重获取3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
将3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
将3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
判断下一层注意力机制卷积网络层是否为第M层,若是,则将3D点云所有点在本层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征。
8.根据权利要求5或6所述的方法,其特征在于,将3D点云逐级输入到第1层的注意力机制卷积网络层至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征,包括:
将3D点云输入至第1层注意力机制卷积网络层中,提取3D点云所有点的初始全局点类特征和初始局部边缘点类特征;
将所述初始全局点类特征和初始局部边缘点类特征进行池化聚合,得到所述初始全局点类特征和初始局部边缘点类特征的一维特征向量;
将所述一维特征向量送入编码器-解码器结构学习所述一维特征向量的共享注意力权重;
采用Sigmoid门控函数对所述共享注意力权重进行重新校准,得到校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重;
基于校准后的初始全局点类特征的注意力权重以及校准后的初始局部边缘点类特征的注意力权重获取3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
将3D点云所有点在第1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
将3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至下一层注意力机制卷积网络层中,继续获取3D点云所有点在下一层注意力机制卷积网络层的全局点类特征和局部边缘点类特征;
判断下一层注意力机制卷积网络层是否为第M层,若是,则将3D点云所有点在本层注意力机制卷积网络层的全局点类特征和局部边缘点类特征以及3D点云所有点在第1层到第M-1层注意力机制卷积网络层的全局点类特征和局部边缘点类特征输入至第M层的注意力机制卷积网络层中,得到3D点云中所有点最终的全局点类特征和局部边缘点类特征。
9.根据权利要求5所述的方法,其特征在于,对3D点云中所有点最终的全局点类特征和局部边缘点类特征进行池化聚合操作,包括:
采用平均池化聚合和最大池化聚合对3D点云中所有点最终的全局点类特征和局部边缘点类特征分别进行池化聚合操作。
10.根据权利要求1所述的方法,其特征在于,基于3D点云中所有点的点类特征对所述3D点云进行分类,包括:
将3D点云中所有点的点类特征输入至MLP多层感知系统中,在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类,得到分类结果。
11.根据权利要求10所述的方法,其特征在于,在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类之后,还包括:
利用Triplet损失函数对分类结果进行分析,得到分析结果;
基于所述分析结果判断分类结果的损失值是否满足期望值,若否,则返回在MLP多层感知系统中基于3D点云中所有点的点类特征对所述3D点云进行分类的步骤重新基于3D点云中所有点的点类特征对所述3D点云进行分类,直到分类结果的损失值满足期望值。
12.一种终端设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1至11中任一项所述的基于注意力机制的3D点云分类方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,所述处理器执行根据权利要求1至11中任一项所述的基于注意力机制的3D点云分类方法。
CN202111495212.8A 2021-12-08 2021-12-08 基于注意力机制的3d点云分类方法、终端设备及存储介质 Pending CN114170465A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111495212.8A CN114170465A (zh) 2021-12-08 2021-12-08 基于注意力机制的3d点云分类方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111495212.8A CN114170465A (zh) 2021-12-08 2021-12-08 基于注意力机制的3d点云分类方法、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN114170465A true CN114170465A (zh) 2022-03-11

Family

ID=80484556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111495212.8A Pending CN114170465A (zh) 2021-12-08 2021-12-08 基于注意力机制的3d点云分类方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN114170465A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456064A (zh) * 2022-09-05 2022-12-09 江汉大学 基于点云的物体分类方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456064A (zh) * 2022-09-05 2022-12-09 江汉大学 基于点云的物体分类方法及相关设备
CN115456064B (zh) * 2022-09-05 2024-02-02 江汉大学 基于点云的物体分类方法及相关设备

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN112633350B (zh) 一种基于图卷积的多尺度点云分类实现方法
WO2019178702A1 (en) Systems and methods for polygon object annotation and a method of training an object annotation system
CN111209910A (zh) 用于语义分割的系统、方法和非暂时性计算机可读介质
EP3905194A1 (en) Pose estimation method and apparatus
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN108334805B (zh) 检测文档阅读顺序的方法和装置
CN111126385A (zh) 一种可变形活体小目标的深度学习智能识别方法
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN110348531B (zh) 具有分辨率适应性的深度卷积神经网络构建方法及应用
CN112183491A (zh) 表情识别模型及训练方法、识别方法、装置和计算设备
KR20190126857A (ko) 이미지에서 오브젝트 검출 및 표현
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN114170465A (zh) 基于注意力机制的3d点云分类方法、终端设备及存储介质
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
WO2024060839A1 (zh) 对象操作方法、装置、计算机设备以及计算机存储介质
CN117237643A (zh) 一种点云语义分割方法及系统
CN116935122A (zh) 基于3D-WGMobileNet的图像分类方法及系统
CN116468902A (zh) 图像的处理方法、装置和非易失性计算机可读存储介质
CN116109868A (zh) 基于轻量化神经网络的图像分类模型构建和小样本图像分类方法
CN112906829B (zh) 一种基于Mnist数据集的数字识别模型构建方法及装置
US20220406035A1 (en) Neural network model training method and apparatus for complex characteristic classification and common localization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination