CN115375877A - 一种基于通道注意力机制的三维点云分类方法及装置 - Google Patents
一种基于通道注意力机制的三维点云分类方法及装置 Download PDFInfo
- Publication number
- CN115375877A CN115375877A CN202211145322.6A CN202211145322A CN115375877A CN 115375877 A CN115375877 A CN 115375877A CN 202211145322 A CN202211145322 A CN 202211145322A CN 115375877 A CN115375877 A CN 115375877A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- feature
- features
- global
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于通道注意力机制的三维点云分类方法及装置,包括:获取点云的三维坐标并进行预处理得到点云的坐标特征;将点云的坐标特征输入到训练好的点云特征识别模型中,得到第一数量的点云全局特征;点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练,点云全局特征学习任务基于通道注意力机制学习点云全局上下文结构信息,通道注意力机制是基于特征通道且嵌入了邻接矩阵的注意力机制;将第一数量的点云全局特征输入到训练好的点云分类模型中,输出三维点云的分类结果。本发明同时嵌入点云局部特征动态融合和全局特征学习,模型参数量更少,训练速度更快,能提高网络性能和模型的鲁棒性。
Description
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种基于通道注意力机制的三维点云分类方法及装置。
背景技术
近年来3D点云数据出现在许多应用领域,如自动驾驶技术和机器人领域。与二维图像不同,点云是三维或着更高维的数据,有丰富的空间几何信息和结构信息,如何直接从点云中提取语义是一项迫切的要求,这对自动驾驶领域的发展起着至关重要的作用。但由于点云是无序的、非结构化的,这使得设计神经网络来处理它们成为一项挑战。为了应对这一挑战,出现了多种在3D点云上进行深度学习的方法。
Transformer这一自然语言处理领域的主流框架已被应用于图像视觉任务中,比流行的卷积神经网络具有更好的性能。但Transformer在点云领域还是处于一个刚起步的阶段,还有待对其运用进一步开发。传统的Transformer网络是基于点云的自注意模块,具有计算的二次复杂性,提升效果的同时还带来了大量的计算量,导致网络性能较低。
另外,为了克服点云的无序性、非结构化的难题,目前绝大多数方法都是采用对称的Max Pooling函数进行解决,但此方法的弊端在于只提取出局部特征的最大权重,这不可避免的会造成一些信息的丢失,从而导致提取的局部特征代表性不全面,导致点云分类结果不够准确。
发明内容
本发明的目的是提供一种基于通道注意力机制的三维点云分类方法及装置,以解决现有技术中点云分类中特征表征不全面导致分类结果不够准确、网络性能和鲁棒性较低的技术问题。
本发明的目的,可以通过如下技术方案实现:
一种基于通道注意力机制的三维点云分类方法,包括:
获取点云的三维坐标并进行预处理得到点云的坐标特征;
将所述点云的坐标特征输入到训练好的点云特征识别模型中,得到第一数量的点云全局特征;其中,所述点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练,所述点云全局特征学习任务基于通道注意力机制学习点云全局上下文结构信息,所述通道注意力机制是基于特征通道且嵌入了邻接矩阵的注意力机制;
将所述第一数量的点云全局特征输入到训练好的点云分类模型中,输出三维点云的分类结果,所述点云分类模型基于点云全局特征进行训练。
可选地,所述点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练包括:
根据点云的坐标特征进行邻域点选取得到对应的多个点云局部图特征;
将所述多个点云局部图特征和所述点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征;
根据所述点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征。
可选地,将所述多个局部图特征和所述点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征包括:
将所述局部图特征进行升维操作,得到更高维度的局部图特征向量;
将所述点云的坐标特征进行升维操作,得到更高维度的点云坐标特征向量;
局部图特征向量进行最大池化操作,得到局部聚合特征向量;
基于动态融合机制将所述局部聚合特征向量和所述点云坐标特征向量进行自适应动态融合,得到点云局部融合特征。
可选地,基于动态融合机制将所述局部聚合特征向量和所述点云坐标特征向量进行自适应动态融合,得到点云局部融合特征包括:
将fj1和fi1相加形成紧凑的特征表示,即fu=fj1+fi1;
对fu进行两次MLP操作得到更新后的特征向量fu1;
利用sigmoid函数将fu1压缩成注意向量,并为其分配权重分数Wu1;
通过fL=Wu1×fj1+(1-Wu1)×fi1得到点云局部融合特征;
其中,fL为点云局部融合特征,fj1为局部聚合特征向量,fi1为点云坐标特征向量。
可选地,根据所述点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征包括:
将所述点云局部融合特征与相应的注意力权重进行卷积运算得到注意力矩阵,所述注意力权重包括查询权重、关键字权重和值权重;
将所述注意力矩阵转化为多头注意的注意力矩阵,以便充分学习特征向量信息;
利用基于特征通道的自注意力向量,引入可学习的参数以获得更均匀的注意力权重;
将所述自注意力向量与值权重进行结合计算;
创建一个可学习的邻接矩阵,将所述邻接矩阵嵌入到自注意力机制中以充分学习特征通道中的图节点特征;
将学习更新之后的全局特征与输入特征通过残差连接,以保证特征的整体性和多样性,得到点云全局特征。
可选地,将所述邻接矩阵嵌入到自注意力机制中以充分学习特征通道中的图节点特征,得到点云全局特征包括:
将G与V结合后通过激活函数relu得到新的特征向量:G=relu(G+Q);
将学习更新之后的全局特征与输入特征通过残差连接,以保证特征的整体性和多样性,即F=relu(bn(mlp(F))+fL);
其中,N为点云的数量,fL为点云局部融合特征,d0为点云局部融合特征的通道数量,h为多头注意的数量,d1为特征向量F的通道维度,bn是BatchNorm函数,MLP为多层感知机,F为点云全局特征。
可选地,所述点云分类模型基于点云全局特征进行训练包括:
将多个点云全局特征进行拼接操作得到第一全局特征向量,再经过一个共享的MLP更新特征表示得到第二全局特征向量;
利用最大值池化和平均值池化分别对所述第二全局特征向量进行池化操作,然后进行拼接操作得到第三全局特征向量;
将所述第三全局特征向量输入至全连接层,输出点云的分类结果。
可选地,对点云的三维坐标进行预处理包括:
对点云的三维坐标进行下采样操作、数据转换及随机的数据增强操作。
本发明还提供了一种基于通道注意力机制的三维点云分类装置,包括:
点云坐标特征获取模块,用于获取点云的三维坐标并进行预处理得到点云的坐标特征;
点云全局特征获取模块,用于将所述点云的坐标特征输入到训练好的点云特征识别模型中,得到第一数量的点云全局特征;其中,所述点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练,所述点云全局特征学习任务基于通道注意力机制学习点云全局上下文结构信息,所述通道注意力机制是基于特征通道且嵌入了邻接矩阵的注意力机制;
点云分类输出模块,用于将所述第一数量的点云全局特征输入到训练好的点云分类模型中,输出三维点云的分类结果,所述点云分类模型基于点云全局特征进行训练。
可选地,点云全局特征获取模块包括训练模块,所述训练模块包括:
点云局部特征模块,用于根据点云的坐标特征进行邻域点选取得到对应的多个点云局部图特征;
点云局部融合特征模块,用于将所述多个点云局部图特征和所述点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征;
点云全局特征模块,用于根据所述点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征。
基于上述技术方案,本发明带来的有益效果是:
本发明首先获取点云的坐标特征,然后将点云的坐标特征输入到训练好的点云特征识别模型,使用局部特征动态融合和全局特征学习同时嵌入的方式,逐步提高特征空间的维度,以便充分学习特征向量信息;基于通道注意力机制获取点云全局特征,能获取点云全局上下文结构信息,模型参数量更少以及训练速度更快,改善了DGCNN模型存在的问题,提高了网络性能和模型的鲁棒性。
附图说明
图1为本发明的方法流程示意图;
图2为本发明方法实施例的分类流程示意图;
图3为本发明中基于KNN算法提取点云局部图特征的流程示意图;
图4为本发明中自适应动态融合的流程示意图;
图5为本发明获取点云全局特征的流程示意图;
图6为本发明中ModelNet40数据集的测试准确率结果对比图;
图7为本发明中ModelNet40数据集的损失函数数据图。
具体实施方式
术语解释:
DGCNN(Dynamic Graph CNN for Learning on Point Clouds,动态图CNN用于学习点云)模型,提出了一种新的神经网络模块EdgeConv,作用于在网络的每一层中动态计算图结构,以更好地捕捉点云的局部几何特征,同时仍然保持排列不变性。
本发明实施例提供了一种基于通道注意力机制的三维点云分类方法及装置,以解决现有技术中点云分类中特征表征不全面导致分类结果不够准确、网络性能和鲁棒性较低的技术问题。
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
DGCNN模型提出利用图卷积的方式对点云局部特征进行抽象映射,提取出局部区域内点间的几何结构关系,关注的重点在于中心点与邻域点之间的关系。这些方法都将研究重点放在设计精密的点云局部特征提取上,忽略了局部点云之间的长程点关系和全局上下文结构信息。
近年来,Transformer这一自然语言处理领域的主流框架已被应用于图像视觉任务中,比流行的卷积神经网络具有更好的性能。Transformer主要由解码器和编码器构成,主要包括输入(字)嵌入、位置(顺序)编码和自我关注三个主要模块。
其中,自我注意模块是Transformer的核心组件,根据全局上下文为其输入特征生成细化的注意特征。首先,自我注意将输入嵌入和位置编码的总和作为输入,通过训练的线性层为每个单词计算三个向量:查询、关键字和值。然后,通过匹配(点乘)查询和关键向量,可以获得任意两个单词之间的注意权重。最后,将注意力特征定义为所有值向量与注意力权重的加权和。显然,每个单词的输出注意特征与所有输入特征相关,使其能够学习全局上下文。
Transformer的所有操作都是可并行且顺序独立的。理论上,它可以代替卷积神经网络中的卷积运算,具有更好的通用性。但Transformer在点云领域还是处于一个刚起步的阶段,还有待对其运用进一步开发。传统的Transformer网络是基于点云的自注意模块,具有计算的二次复杂性,提升效果的同时还带来了大量的计算量。例如:PCT基于Transformer的原理,对传统的Transformer网络进行了进一步改进,引入领域嵌入模块和偏移注意力模块以获得传统Transformer更优的结果。核心思想是在点的嵌入部分引入领域嵌入以获得更多局部领域信息;在编码器部分引入Off-Attention模块,通过自注意力权重和局部输入点特征嵌入之差的方式输出偏移注意,但仍然没有避免注意力模块的二次计算复杂性。
另外,为了克服点云的无序性、非结构化的难题,目前绝大多数方法都是采用对称的Max Pooling函数进行解决,但此方法的弊端在于只提取出局部特征的最大权重,这不可避免的会造成一些信息的丢失,从而导致提取的局部特征代表性不全面。因此,点云的局部特征融合和全局特征学习成为了点云分类任务的当务之急。
本发明提供的基于通道注意力机制的三维点云分类方法,是一种基于通道注意力机制的点云全局特征学习的分类方法,首先采用新的动态局部特征融合方式,即采用局部图特征和原始点云特征相互融合的方式,丰富局部特征表示,提取更多更全面的局部特征向量。其次,提出一种基于特征通道的注意力机制,来学习全局上下文结构和信息交互。
请参阅图1,本发明提供的基于通道注意力机制的三维点云分类方法的实施例,包括:
S100:获取点云的三维坐标并进行预处理得到点云的坐标特征;
S200:将所述点云的坐标特征输入到训练好的点云特征识别模型中,得到第一数量的点云全局特征;其中,所述点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练,所述点云全局特征学习任务基于通道注意力机制学习点云全局上下文结构信息,所述通道注意力机制是基于特征通道且嵌入了邻接矩阵的注意力机制;
S300:将所述第一数量的点云全局特征输入到训练好的点云分类模型中,输出三维点云的分类结果,所述点云分类模型基于点云全局特征进行训练。
在步骤S100中,获取原始3D点云的三维坐标,将原始点云的三维坐标经过下采样、数据转换及随机打乱的数据增强操作得到点云的坐标信息即坐标特征。优选的实施方式,得到的点云坐标信息p∈RN×3,其中,N为点云的个数,例如N为1024,3为点云的输入通道维度。
在步骤S200中,将点云的坐标特征输入到训练好的点云特征识别模型中,得到第一数量的点云全局特征;其中,点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练,点云全局特征学习任务基于通道注意力机制学习点云全局上下文结构信息,通道注意力机制是基于特征通道且嵌入了邻接矩阵的注意力机制。优选的实施方式,第一数量为4个,本实施例得到4个点云全局特征。
本实施例中,训练好的点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练得到的,具体包括:
根据点云的坐标特征进行邻域点选取得到对应的多个点云局部图特征;
将多个点云局部图特征和点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征;
根据点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征。
在点云特征识别模型的训练过程中,首先,根据点云的坐标特征进行邻域点选取得到对应的多个点云局部图特征,优选的实施方式,通过点云的坐标信息利用KNN对所获取的点云进行邻域点选取,并利用邻域点与原始点之间的相对位置信息得到相应的点云局部图特征。具体地,将步骤S1中的每个原始点云作为中心点i,其初始的邻居点j是通过K-nearest neighbor(KNN)算法获得的,pi,pj分别代表中心点和邻居点的坐标信息,fi∈RN×3表示原始点云的特征即中心点特征,邻居点特征fj∈RN×d×k是局部每个邻居点与其相对应的中心点的欧几里德距离所得,即相对位置特征。
然后,将多个点云局部图特征和点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征。具体地,将点云局部图特征与点云的坐标信息一并输入点云局部融合特征模块进行局部特征自适应动态融合,将点云局部特征向量输送至高维度空间进行学习和融合,并得到已更新的高维度融合特征。请参阅图4,具体步骤如下:
S21:将点云局部图特征fj通过公式(1)进行升维操作,得到更高维度的局部图特征向量。
fj0=δ{bn(MLP(fj))},fj∈RN×d×k (1)
其中MLP(Multi-layer Perceptron)为多层感知机,δ是激活函数,bn是BatchNorm函数,d0表示此时的特征通道数量,k表示每个局部的邻域点个数,优选的实施方式,d0为64,k为20。
S22:将原始点云中心点特征fi通过公式(2)进行升维操作,得到更高维度的原始中心点特征向量。
fi1=δ{bn(MLP(fi))},fi∈RN×3 (2)
S24:为了更好地利用由fj1捕获的局部细粒度结构信息和由fi1捕获的原始坐标形状信息,本实施例提出了一种动态融合机制,将学习到的局部图特征向量fj1和中心点特征向量fi1通过动态融合机制进行融合。具体地,先将fj1和fi1相加形成紧凑的特征表示,即fu=fj1+fi1;其次对fu进行两次上述MLP操作得到更新之后的特征向量fu1,再利用sigmoid函数对fu1压缩成注意向量,并为其分配权重分数Wu1;最后通过公式(3)得到最终的特征表示。
fL=Wu1×fj1+(1-Wu1)×fi1 (3)
值得注意的是,这是一个动态特征融合过程,将具有丰富局部信息的点云局部图特征和具有全局信息的原始中心点特征进行自适应动态融合,形成的特征占比由权重分数衡量,有利于填补最大池化函数的缺陷。
需要说明的是,为了利用由fj1捕获的局部细粒度结构信息和由fi1捕获的原始坐标形状信息,DGCNN模型是采用线性聚合(即加法)对它们进行聚合然而,线性聚合不是特征自适应的,因此限制了学习点特征的容量。
为了学习局部点云之间的长程点关系和全局上下文结构信息,本实施例根据点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征,将融合的局部特征信息输入基于通道注意力机制的点云全局特征学习模块中。
特征表示对模型性能至关重要,本发明提出基于特征通道和邻接矩阵的注意力机制,利用注意力块深层内容的全局关系来丰富特征表示。通过从特征通道中学习图节点,可以在特征通道上构建图,这可以在输入数量较大的情况下节省计算成本。另外,用可学习的邻接矩阵同时初始化多个图,通过各种图状态增强节点特征的多样性。目的是为了全局信息聚合和关系交互,充分学习点云全局上下文结构信息。
请参阅图5,自我关注能够在全局范围内建模长期依赖关系,将得到的局部特征表示fL输送至基于通道注意力机制的点云全局特征学习模块中进行全局结构下上文学习。
根据所述点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征包括:将所述点云局部融合特征与相应的注意力权重进行卷积运算得到注意力矩阵,所述注意力权重包括查询权重、关键字权重和值权重;将所述注意力矩阵转化为多头注意的注意力矩阵,以便充分学习特征向量信息;利用基于特征通道的自注意力向量,引入可学习的参数以获得更均匀的注意力权重;将所述自注意力向量与值权重进行结合计算;创建一个可学习的邻接矩阵,将所述邻接矩阵嵌入到自注意力机制中以充分学习特征通道中的图节点特征,将学习更新之后的全局特征与输入特征通过残差连接,以保证特征的整体性和多样性,得到点云全局特征。
具体步骤如下:
S33:一般的自注意力机制是得到N2维度的自注意力向量,具有计算的二次复杂性,但本发明利用基于特征通道的自注意力向量,表示为:本实施例引入了一个可学习的参数τ,它在Softmax之前缩放内积,表示为允许更清晰或更均匀的注意权重分布。该计算是采用向量点积的计算方式,由于在实例案中,N2(1024×1024)的值远大于d1 2,d1∈[16,16,32,64]的值,故大大减少了计算复杂度,且效果与自注意力相当。
S35:为了增强特征通道中的图节点特征的多样性,本发明创建了一个可学习的邻接矩阵用来学习各种图状态,并且能同时初始化多个图,将其嵌入至注意力机制中以充分学习图特征相关性和丰富特征表示,具体如下所示:
S353:将G与V结合后通过激活函数得到新的特征向量:G=relu(G+Q)
S38:最后将学习更新之后的全局特征与输入特征通过残差连接,以保证特征的整体性和多样性,即:F=relu(bn(mlp(F))+fL)。
其中,N为点云的数量,fL为点云局部融合特征,d0为点云局部融合特征的通道数量,h为多头注意的数量,d1为特征向量F的通道维度,bn是BatchNorm函数,MLP为多层感知机,F为点云全局特征。
为了充分学习点云的特征表示,本发明构建的点云特征识别模型,重复上述步骤4次,利用MLP分别将点云全局特征的特征维度升至64、64、128、256,使用动态局部特征融合和全局特征学习同时嵌入的方式,逐步提高特征空间的维度,以便充分学习特征向量信息。
需要说明的是,图5中,q_conv()、k_conv()、v_conv()中的参数n,c(h,d)为步骤S32中的多头注意;步骤S33中的attn_q_k(h,c,c)与现有技术中的维度不同,减少了计算量(n×n→c×c);Temp torch.ones(h,1,1)为步骤S33中的可学习参数;多维邻接矩阵至Relu(h,d,n)与步骤S35对应,表示将邻接矩阵嵌入到注意力机制中。
本实施例提供的基于通道注意力机制的三维点云分类方法,获取原始点云三维坐标矩阵pi和特征fi∈RN×3,维度是N×3,N为中心点(原始点云)的个数;通过KNN算法得到邻域点pj和局部图特征fj∈RN×d×k,特征维度是N×d×k,其中fj∈{f1,f2,...,fn},N为中心点数,d为局部图特征的通道,k为邻域点数,fj为成对相对位置信息;再将其输送至动态局部特征融合模块,该模块先将fj和fi通过共享的多层感知器(MLP)进行升维操作,以获得更高维空间的特征映射,在后续的重复步骤中动态局部特征融合模块利用MLP分别将特征维度升至64、64、128、256,再将更新后的fj进行max pooling局部特征聚合操作,以获取表征每个局部的特征信息,得到相应的聚合局部特征向量和通过特殊的动态局部特征融合方式,均衡max pooling和原始点云位置特征得到融合之后的特征向量最后利用基于通道注意力机制的点云全局特征学习模块将融合后的特征向量fL进行全局信息聚合和关系交互,充分学习点云全局上下文结构信息。
在步骤S300中,将第一数量的点云全局特征输入到训练好的点云分类模型中,输出三维点云的分类结果,点云分类模型基于点云全局特征进行训练。
点云分类模型基于点云全局特征进行训练包括:将多个点云全局特征进行拼接操作得到第一全局特征向量,再经过一个共享的MLP更新特征表示得到第二全局特征向量;利用最大值池化和平均值池化分别对所述第二全局特征向量进行池化操作,然后进行拼接操作得到第三全局特征向量;将所述第三全局特征向量输入至全连接层,输出点云的分类结果。
具体地,请参阅图2,将重复上述步骤4次之后得到的4个点云全局特征进行拼接操作,得到通道维度为512的特征向量,再经过一个共享的MLP更新特征表示,将通道维度升至1024。
为了减少max pooling函数带来的数据丢失以及突出边缘化特征,本实施例同时利用max pooling和avg pooling对得到的通道维度为1024的最终特征分别进行池化操作,并将max pooling和avg pooling的结果进行拼接。
将拼接得到的结果输送至全连接层进行特征分类输出,得到最终的点云分类结果并输出。其中,除了最后一个全连接层外,每个全连接层后面都包含batch norm、Relu和Dropout函数。
本发明实施例提供的基于通道注意力机制的三维点云分类方法,首先获取点云的坐标特征,然后将点云的坐标特征输入到训练好的点云特征识别模型,使用局部特征动态融合和全局特征学习同时嵌入的方式,逐步提高特征空间的维度,以便充分学习特征向量信息;基于通道注意力机制获取点云全局特征,能获取点云全局上下文结构信息,模型参数量更少以及训练速度更快,改善了DGCNN模型存在的问题,提高了网络性能和模型的鲁棒性。
请参阅图2,本发明提供的基于通道注意力机制的三维点云分类方法的另一实施例,包括如下步骤:
步骤S1:获取3D点云三维坐标,将所述原始点云三维坐标经过下采样和一定的数据增强操作,并将得到的坐标信息输入局部特征提取模块。
步骤S1中获取3D点云三维坐标,将原始点云三维坐标经过下采样操作和数据转换及随机打乱的数据增强策略,并将得到的坐标信息输入局部特征提取模块,得到点云坐标信息p∈RN×3,其中N为输入点的个数,3为点的输入通道维度,实施例中N为1024。
步骤S2:通过点云的坐标信息利用KNN对所获取的点云进行邻域点选取,并利用邻域点与原始点之间的相对位置信息得到相应的局部图特征。
步骤S3:再将局部图特征与原始中心点(点云)一并输入动态局部特征融合模块,将局部特征向量输送至高维度空间进行学习和融合,并得到已更新的高维度局部融合特征。通过该模块所获得的特征信息不仅包含丰富的局部几何信息,而且同时包含原始点的坐标信息,弥补了上述max pooling池化操作的局部特征信息丢失的缺点。
步骤S4:为了学习局部点云之间的长程点关系和全局上下文结构信息,本发明将融合的局部特征信息输入基于通道注意力机制的点云全局特征学习模块中。特征表示对模型性能至关重要,本发明提出基于图推理和图卷积的多图推理模块,利用注意力块深层内容的全局关系来丰富特征表示。通过从通道中学习图节点,可以在特征通道上构建图,这可以在输入数量较大的情况下节省计算成本。另外,用可学习的邻接矩阵同时初始化多个图,通过各种图状态增强节点特征的多样性。目的是为了全局信息聚合和关系交互,充分学习点云全局上下文结构信息。
步骤S5:为了充分学习点云的特征表示,本发明构建了一个网络模型,重复上述步骤(步骤S1-S4)4次,使用动态局部特征融合和全局特征学习同时嵌入的方式,逐步提高特征空间的维度,以便充分学习特征向量信息。
步骤S6:将重复上述步骤4次之后得到的4个全局特征进行拼接操作,得到维度为512的特征向量,再经过一个共享的MLP更新特征表示,将维度升至1024。
步骤S7:为了减少max pooling函数带来的数据丢失以及突出边缘化特征,我们同时利用max pooling和avg pooling对步骤6得到的最终特征分别进行池化操作,并将maxpooling和avg pooling的结果进行拼接。
步骤S8:将步骤7的结果输送至全连接层进行特征分类输出,并得到最终结果。
本发明还提供了一种基于通道注意力机制的三维点云分类装置的实施例,包括:
点云坐标特征获取模块,用于获取点云的三维坐标并进行预处理得到点云的坐标特征;
点云全局特征获取模块,用于将所述点云的坐标特征输入到训练好的点云特征识别模型中,得到第一数量的点云全局特征;其中,所述点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练,所述点云全局特征学习任务基于通道注意力机制学习点云全局上下文结构信息,所述通道注意力机制是基于特征通道且嵌入了邻接矩阵的注意力机制;
点云分类输出模块,用于将所述第一数量的点云全局特征输入到训练好的点云分类模型中,输出三维点云的分类结果,所述点云分类模型基于点云全局特征进行训练。
优选地,点云全局特征获取模块包括训练模块,所述训练模块包括:
点云局部特征模块,用于根据点云的坐标特征进行邻域点选取得到对应的多个点云局部图特征;
点云局部融合特征模块,用于将所述多个点云局部图特征和所述点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征;
点云全局特征模块,用于根据所述点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征。
请参阅图6和图7,本发明的具体实施例是在ModelNet40数据集上进行评估,该数据集包含40个物体类别,共12311个网格化CAD模型,其中9843个用于训练,其余2468个用于测试。我们遵循DGCNN中相同的数据预处理:对于每个模型,我们对前1024个点进行采样,并利用random translation和random suffle策略进行数据增强。并且本发明只使用坐标信息作为输入,并没有额外使用法向量。为了验证本发明的效果,实验其它设置均与DGCNN模型相同。
本发明提供的基于通道注意力机制的三维点云分类方法及装置,是基于DGCNN网络模型并加入动态局部特征聚合模块以及基于通道注意力机制的点云全局特征学习模块,改善DGCNN模型存在的问题,提高网络性能和模型的鲁棒性。
本发明与现有技术相比,具有以下优点:
本发明提出的方法与PCT的模型性能相当,但模型参数量更少以及训练速度更快,更比大多数卷积神经网络(例如DGCNN模型)性能和鲁棒性更强。在ModelNet40数据集上的总体分类准确率达到了93.2%,平均准确率达到了90.4%,效果均高于DGCNN充分证明了本发明方法的有效性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或电连接可以是通过一些接口,装置或单元的间接耦合或电连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于通道注意力机制的三维点云分类方法,其特征在于,包括:
获取点云的三维坐标并进行预处理得到点云的坐标特征;
将所述点云的坐标特征输入到训练好的点云特征识别模型中,得到第一数量的点云全局特征;其中,所述点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练,所述点云全局特征学习任务基于通道注意力机制学习点云全局上下文结构信息,所述通道注意力机制是基于特征通道且嵌入了邻接矩阵的注意力机制;
将所述第一数量的点云全局特征输入到训练好的点云分类模型中,输出三维点云的分类结果,所述点云分类模型基于点云全局特征进行训练。
2.根据权利要求1所述的基于通道注意力机制的三维点云分类方法,其特征在于,所述点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练包括:
根据点云的坐标特征进行邻域点选取得到对应的多个点云局部图特征;
将所述多个点云局部图特征和所述点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征;
根据所述点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征。
3.根据权利要求2所述的基于通道注意力机制的三维点云分类方法,其特征在于,将所述多个局部图特征和所述点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征包括:
将所述局部图特征进行升维操作,得到更高维度的局部图特征向量;
将所述点云的坐标特征进行升维操作,得到更高维度的点云坐标特征向量;
局部图特征向量进行最大池化操作,得到局部聚合特征向量;
基于动态融合机制将所述局部聚合特征向量和所述点云坐标特征向量进行自适应动态融合,得到点云局部融合特征。
4.根据权利要求3所述的基于通道注意力机制的三维点云分类方法,其特征在于,基于动态融合机制将所述局部聚合特征向量和所述点云坐标特征向量进行自适应动态融合,得到点云局部融合特征包括:
将fj1和fi1相加形成紧凑的特征表示,即fu=fj1+fi1;
对fu进行两次MLP操作得到更新后的特征向量fu1;
利用sigmoid函数将fu1压缩成注意向量,并为其分配权重分数Wu1;
通过fL=Wu1×fj1+(1-Wu1)×fi1得到点云局部融合特征;
其中,fL为点云局部融合特征,fj1为局部聚合特征向量,fi1为点云坐标特征向量。
5.根据权利要求2所述的基于通道注意力机制的三维点云分类方法,其特征在于,根据所述点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征包括:
将所述点云局部融合特征与相应的注意力权重进行卷积运算得到注意力矩阵,所述注意力权重包括查询权重、关键字权重和值权重;
将所述注意力矩阵转化为多头注意的注意力矩阵,以便充分学习特征向量信息;
利用基于特征通道的自注意力向量,引入可学习的参数以获得更均匀的注意力权重;
将所述自注意力向量与值权重进行结合计算;
创建一个可学习的邻接矩阵,将所述邻接矩阵嵌入到自注意力机制中以充分学习特征通道中的图节点特征;
将学习更新之后的全局特征与输入特征通过残差连接,以保证特征的整体性和多样性,得到点云全局特征。
6.根据权利要求5所述的基于通道注意力机制的三维点云分类方法,其特征在于,将所述邻接矩阵嵌入到自注意力机制中以充分学习特征通道中的图节点特征,得到点云全局特征包括:
将G与V结合后通过激活函数relu得到新的特征向量:G=relu(G+Q);
将学习更新之后的全局特征与输入特征通过残差连接,以保证特征的整体性和多样性,即F=relu(bn(mlp(F))+fL);
其中,N为点云的数量,fL为点云局部融合特征,d0为点云局部融合特征的通道数量,h为多头注意的数量,d1为特征向量F的通道维度,bn是BatchNorm函数,MLP为多层感知机,F为点云全局特征。
7.根据权利要求1所述的基于通道注意力机制的三维点云分类方法,其特征在于,所述点云分类模型基于点云全局特征进行训练包括:
将多个点云全局特征进行拼接操作得到第一全局特征向量,再经过一个共享的MLP更新特征表示得到第二全局特征向量;
利用最大值池化和平均值池化分别对所述第二全局特征向量进行池化操作,然后进行拼接操作得到第三全局特征向量;
将所述第三全局特征向量输入至全连接层,输出点云的分类结果。
8.根据权利要求1-7任意一项所述的基于通道注意力机制的三维点云分类方法,其特征在于,对点云的三维坐标进行预处理包括:
对点云的三维坐标进行下采样操作、数据转换及随机的数据增强操作。
9.一种基于通道注意力机制的三维点云分类装置,其特征在于,包括:
点云坐标特征获取模块,用于获取点云的三维坐标并进行预处理得到点云的坐标特征;
点云全局特征获取模块,用于将所述点云的坐标特征输入到训练好的点云特征识别模型中,得到第一数量的点云全局特征;其中,所述点云特征识别模型基于点云局部图特征融合任务和点云全局特征学习任务进行训练,所述点云全局特征学习任务基于通道注意力机制学习点云全局上下文结构信息,所述通道注意力机制是基于特征通道且嵌入了邻接矩阵的注意力机制;
点云分类输出模块,用于将所述第一数量的点云全局特征输入到训练好的点云分类模型中,输出三维点云的分类结果,所述点云分类模型基于点云全局特征进行训练。
10.根据权利要求9所述的基于通道注意力机制的三维点云分类装置,其特征在于,点云全局特征获取模块包括训练模块,所述训练模块包括:
点云局部特征模块,用于根据点云的坐标特征进行邻域点选取得到对应的多个点云局部图特征;
点云局部融合特征模块,用于将所述多个点云局部图特征和所述点云的坐标特征进行升维操作和自适应动态融合,得到点云局部融合特征;
点云全局特征模块,用于根据所述点云局部融合特征和通道注意力机制学习点云全局上下文结构信息,得到点云全局特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211145322.6A CN115375877A (zh) | 2022-09-20 | 2022-09-20 | 一种基于通道注意力机制的三维点云分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211145322.6A CN115375877A (zh) | 2022-09-20 | 2022-09-20 | 一种基于通道注意力机制的三维点云分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115375877A true CN115375877A (zh) | 2022-11-22 |
Family
ID=84071210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211145322.6A Pending CN115375877A (zh) | 2022-09-20 | 2022-09-20 | 一种基于通道注意力机制的三维点云分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115375877A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830375A (zh) * | 2022-11-25 | 2023-03-21 | 中国科学院自动化研究所 | 点云分类方法及装置 |
CN116977572A (zh) * | 2023-09-15 | 2023-10-31 | 南京信息工程大学 | 一种多尺度动态图卷积的建筑物立面结构提取方法 |
CN117649530A (zh) * | 2024-01-30 | 2024-03-05 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
CN115830375B (zh) * | 2022-11-25 | 2024-09-24 | 中国科学院自动化研究所 | 点云分类方法及装置 |
-
2022
- 2022-09-20 CN CN202211145322.6A patent/CN115375877A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830375A (zh) * | 2022-11-25 | 2023-03-21 | 中国科学院自动化研究所 | 点云分类方法及装置 |
CN115830375B (zh) * | 2022-11-25 | 2024-09-24 | 中国科学院自动化研究所 | 点云分类方法及装置 |
CN116977572A (zh) * | 2023-09-15 | 2023-10-31 | 南京信息工程大学 | 一种多尺度动态图卷积的建筑物立面结构提取方法 |
CN116977572B (zh) * | 2023-09-15 | 2023-12-08 | 南京信息工程大学 | 一种多尺度动态图卷积的建筑物立面结构提取方法 |
CN117649530A (zh) * | 2024-01-30 | 2024-03-05 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
CN117649530B (zh) * | 2024-01-30 | 2024-04-23 | 武汉理工大学 | 基于语义级拓扑结构的点云特征提取方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN111353076B (zh) | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 | |
CN115375877A (zh) | 一种基于通道注意力机制的三维点云分类方法及装置 | |
CN105930382A (zh) | 一种用2d图片搜索3d模型的方法 | |
CN113868366B (zh) | 一种面向流数据的在线跨模态检索方法与系统 | |
CN108304573A (zh) | 基于卷积神经网络和监督核哈希的目标检索方法 | |
CN114019370B (zh) | 基于灰度图像和轻量级cnn-svm模型的电机故障检测方法 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN114970517A (zh) | 一种基于多模态交互的上下文感知的面向视觉问答的方法 | |
CN116049467A (zh) | 一种基于标签视觉联合感知的无监督图像检索方法和系统 | |
CN111858984A (zh) | 一种基于注意力机制哈希检索的图像匹配方法 | |
CN110704665A (zh) | 一种基于视觉注意力机制的图像特征表达方法及系统 | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
JP2022113135A (ja) | ニューラルネットワークトレーニング方法及び装置 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN112699215A (zh) | 基于胶囊网络与交互注意力机制的评级预测方法及系统 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN114202021A (zh) | 一种基于知识蒸馏的高效图像分类方法及系统 | |
CN117634459A (zh) | 目标内容生成及模型训练方法、装置、系统、设备及介质 | |
CN116797850A (zh) | 基于知识蒸馏和一致性正则化的类增量图像分类方法 | |
Yang et al. | Representation Surgery for Multi-Task Model Merging | |
CN117727022A (zh) | 一种基于Transformer稀疏编解码的三维点云目标检测方法 | |
CN116738983A (zh) | 模型进行金融领域任务处理的词嵌入方法、装置、设备 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |