CN117078956A - 一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络 - Google Patents
一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络 Download PDFInfo
- Publication number
- CN117078956A CN117078956A CN202311128982.8A CN202311128982A CN117078956A CN 117078956 A CN117078956 A CN 117078956A CN 202311128982 A CN202311128982 A CN 202311128982A CN 117078956 A CN117078956 A CN 117078956A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- point
- attention
- features
- cloud data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 34
- 230000007246 mechanism Effects 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims 5
- 230000005540 biological transmission Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种为了解决现有技术缺陷提出了一种基于点云并行多尺度特征提取和注意力机制的点云分类分割网络Parallel‑Net,具体涉及一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络,旨在提升准确率。该方法采用并行多尺度特征提取和交叉注意力机制,包括以下步骤:1)输入点云数据,进行特征学习;2)通过降采样算法进行特征抽取和采样;3)引入自注意力机制计算位置相关性;4)使用交叉注意力处理多个下采样后的点云特征;5)应用上采样算法传递特征信息。该发明能有效提取3D点云特征,提高点云分类和实体分割准确率。
Description
技术领域
本发明涉及3D点云物体分类以及物体分割特征提取技术领域,特别是涉及到一种基于并行多尺度特征提取,以及残差连接和上采样的点云特征融合的点云分类和点云实体分割网络。
背景技术
点云数据(point cloud data)是指在一个三维坐标系统中的一组向量的集合。扫描资料以点的形式记录,每一个点包含有三维坐标,有些可能含有颜色信息(RGB)或反射强度信息(Intensity)。
点云分类分割技术的背景可以追溯到计算机视觉和机器学习领域的发展,点云分类分割技术的背景可以归结为对三维数据处理算法的研究和发展,包括传感器技术的进步、深度学习方法的应用等。这些技术推动了点云分类分割技术的不断发展和应用。点云分类分割技术是指将点云数据中的点按照其所属的类别进行分类和分割的算法和方法。它在计算机视觉、自动驾驶、机器人感知等领域有着重要的应用。通过对道路、车辆、行人等物体进行分类和分割,可以帮助自动驾驶系统更好地感知和理解周围环境,实现智能决策和路径规划。
点云分类分割任务面临以下几个方面挑战和困难:
1、点云数据在采集过程中可能存在遮挡、缺失和稀疏导致点云数据的不完整性和不均匀性,给分类分割算法带来了困难。
2、由于传感器噪声、环境干扰等因素,点云数据中常常包含有噪声和异常值,降低分类分割算法其准确性和鲁棒性。
3、点云数据在不同视角、尺度和姿态下具有不变性。分类分割算法需要能够识别和学习到这些不变性特征,以便对物体进行准确分类和分割。
为了解决这些挑战,研究者们提出了一系列的点云分类分割算法和方法。其中,基于深度学习的方法如PointNet、PointNet++、PointCNN、Point transformer等方法通过利用全连接或者卷积神经网络(CNN)在点云数据上进行操作可以对点云数据进行端到端的处理和学习,提取局部特征并进行分类和分割。但以上方法是针对多层的特征融合结果提取局部特征,且由于点云特征的串行学习导致网络的输出准确性不高。为此,本发明为了解决上述现有技术缺陷提出了一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络,对于点云数据的分类以及实体分割有着更好的效果。
发明内容
本发明的目的在于基于Resnet中的残差连接,Transformer中的矩阵运算以及PointNet++中的SA(Set Abstraction)和上采样,提供出一种对3D点云信息特征提取方法Parallel-Net网络,用于提升点云分类和实体分割的准确率。
为了实现上述目的,本发明采用如下技术方案:一种基于点云并行多尺度特征提取和交叉注意力机制的点云分类分割网络结构,包括如下步骤:
步骤一、输入点云数据集,并通过全连接层进行第一次特征学习。通过全连接层将输入的点云数据转化为初始的特征表示。
步骤二、采用降采样算法进行特征抽取和采样。特征抽取通过局部区域的消息传递来捕捉点云的局部特征,而采样则用于减少点云的数量并保留全局结构信息。通过这两个步骤,可以获得更高层次的特征表示。
步骤三、利用自注意力机制对点云输入序列中不同位置的相关性来计算每个位置的注意力权重。通过计算每个点与其他点之间的相似性,得到每个点的关注度,然后将这些权重与输入向量相乘并求和,得到加权后的表示,从而实现对不同位置的关注度调控。
步骤四、使用交叉注意力算法处理具有不同点云特征尺度的下采样后的点云数据特征。在计算注意力权重时,同时考虑不同序列点云特征数据之间的相关性。通过这种方式,增强了模型对不同特征之间关系的表达能力和性能。
步骤五、采用上采样算法将已知分辨率下的点云数据转换为更高分辨率的点云网格。然后,通过一个类似于卷积的操作,将每个点的特征信息从低分辨率的局部区域传递到高分辨率的局部区域,完成对得到的不同尺度的点云特征进行特征融合。
步骤六、设计Parallel-Net的网络结构,根据点云的分类分割任务的不同数据集,设计相应的损失函数以及优化器,以及在训练过程中对网络参数进行优化调整。
进一步地,针对输入的点云数据集X∈RN×6,设计一个由一个输入层,一个归一化层,一个激活层所组成的全连接层进行第一次特征学习,通过一个包含多个全连接层或者卷积层和激活函数的神经网络模型,用于学习点云的局部特征表示,即得到每个点的注意力得分,通过第一次特征学习,有效提取点云数据的全局信息。
进一步地,通过下采样生成降采样后的较小规模的点云数据,在减少运算量的情况下,降采样能够从原始的点云数据中提取出重要的特征。
进一步地,通过给定输入点云数据序列X,我们首先通过线性变换得到三个不同的序列:查询序列、键序列和值序列,接下来,计算点与点之间的注意力权重,最后输出向量C包含了点云数据特征序列中每个元素的重要信息,这些信息根据元素之间的关联性进行加权。
进一步地,通过局部点云特征和全局点云特征的交叉注意了机制学习,得到局部特征作为的查询序列与键序列之间的关联性加权得到的全局特征作为值序列的重要信息。
进一步地,对输入点云进行区域划分,在每个区域内,使用特定的插值方法对点云进行上采样,将上采样后的点云与原始点云进行合并算每个新生成点与其最近邻点之间的距离和权重,以得出新点的坐标。
进一步地,实验过程中,采用交叉熵损失函数衡量预测结果与真实标签之间的差异程度,并分别采用SGD(Stochastic Gradient Descent)优化器,Adam优化器和AdamW优化器进行实验,
点云分类任务中,使用ModelNet40数据集,在训练过程中,每个模型采集的点云点数为N=1024,初始点云数据特征维度d=6,在训练前对输入的点云数据进行强化;
在点云实体分割任务中,本发明使用ShapeNet数据集,在训练过程中,每个模型采集的点云点数为N=1024,初始点云数据特征维度d=9,在训练前对输入的点云数据进行强化,例如范围缩放,区域平移,随机失活;
在训练中,对数据输入的batch_size设置为4~16进行测试,epoch设置为200~1000进行测试,eps设置为1e-8,通过不同方式的训练,达到目标值。
本发明具有以下有益效果:
本发明采用了一种并行计算的方法来进行多尺度下采样的局部特征提取。通过在不同尺度上对点云数据进行下采样,我们可以捕获到点云数据的不同级别的细节和全局结构。接下来,针对每个下采样后的点云数据集,我们引入自注意力机制来学习每个位置之间的相关性,从而增强了模型对点云数据内部的重要信息的关注能力。为了进一步提高模型的表达能力和性能,我们引入交叉注意力机制。这个机制考虑了多个下采样后的点云数据特征之间的关联性,通过计算注意力权重来捕捉它们之间的关系。通过这种方式,我们能够更好地建模点云数据中不同特征之间的相互作用,提高了模型的准确性和鲁棒性。最后,采用上采样算法将已知分辨率下的点云数据转换为更高分辨率的点云网格。通过类似于卷积的操作,将低分辨率的局部区域的特征信息传递到高分辨率的局部区域,以使得模型能够更好地捕捉点云数据的细节和精确信息。
综上所述,本发明通过并行多尺度特征提取、自注意力机制、交叉注意力机制和上采样等方法,提供了一种有效的点云数据特征提取方法,从而提升了点云分类和实体分割任务的准确性和性能。
附图说明
图1为本发明的点云分类分割任务网络结构;
具体实施方式
下面结合附图对本发明的实施方式做出详细的说明,使得发明目的、技术方案、特征等更加易于理解,显然,所描述的实施里仅仅是本发明一部分实施例。基于分发明的中的实施例,本领域普通技术人员在没有做出创造劳动前提下所获得的所有其他实施里,都属于本发明保护的范围。实施例仅用于解释本发明,而不是对本发明的限定。
步骤一、输入点云数据集,针对输入的点云数据集X∈RN×6,设计一个由一个输入层,一个归一化层,一个激活层所组成的全连接层进行第一次特征学习,则在第一次特征学习中多层感知机输出为:
αi=softmax(MLP(Xi))
其中,Xi表示输入的第i个局部区域内的点云数据,αi是每个点的注意力得分。这里的MLP是一个包含多个全连接层(或者卷积层)和激活函数的神经网络模型,用于学习点云的局部特征表示。通过MLP对每个点特征进行映射后,再应用softmax函数,即可得到每个点的注意力得分。通过第一次特征学习,有效提取点云数据的全局信息。
步骤二、通过降采样算法进行特征抽取和采样。特征抽取通过局部区域的消息传递来捕捉点云的局部特征,而采样则用于减少点云的数量并保留全局结构信息。
下采样公式可以表示为:
其中:
α是输入的经过多层感知学习后的点云数据,α={α1,α2,…αn},其中每一个αi代表一个特征点的特征向量。
fMLP(.)是一个多层感知机,用于将每一个点的特征向量转换为更高级的特征表示。
g(.)是变换函数,它可以对点云进行变换以增加模型的不变性。
fdownsample(α)是降采样函数,它通过最大池化操作来选择重要的点,并生成降采样后的较小规模的点云数据。
在该公式中,N′表示降采样后点云的点数,通常远小于N。通过应用这个公式,降采样能够从原始的点云数据中提取出重要的特征。
步骤三、自注意力机制,我们利用自注意力机制分对点云全局特征和局部特种中序列不同位置的相关性来计算每个位置的注意力权重。然后,将这些权重与输入向量相乘并求和,得到加权后的表示,从而实现对不同位置的关注度调控。
自注意力机制的公式如下所示:
1、给定输入点云数据序列X,我们首先通过线性变换得到三个不同的序列:查询序列Q、键序列K和值序列V。
Q=X·WQ+bQ
K=X·WK+bK
V=X·WV+bV
其中,WQ、WK和WV是可学习的权重矩阵,bQ、bK和bV是可学习的偏置向量。
接下来,计算注意力权重矩阵A,其中每个元素Aij代表了查询序列Qi与键序列Kj之间的相关程度:
其中,softmax函数用于对注意力得分进行归一化处理,是一个缩放因子,用于控制注意力权重的稳定性。注意力得分的计算过程中,使用了查询序列Q与键序列K的点积,点积结果除以了/>进行缩放。
最后,我们使用注意力权重矩阵A对值序列V进行加权求和,得到自注意力机制的输出向量C:
C=A·V
输出向量C包含了点云数据特征序列X中每个元素的重要信息,这些信息根据元素之间的关联性进行加权。
步骤四、交叉注意力(cross-attention)。通过使用交叉注意力算法,处理具有多个下采样后的点云数据特征之间建立关联,在计算注意力权重时同时考虑不同序列点云特征数据之间的相关性,,并将不同序列的点云特征信息传递给其他输入点云特征序列。从而增强了模型的表达能力和性能。
点云全局特征充当查询序列Q,点云局部特征充当键序列K和值序列V,我们首先计算查询序列与键序列之间的相似度得分矩阵S:
S=Q·KT
其中,Q为查询序列K为键序列,^T表示转置操作,·表示矩阵乘法。
接下来,我们通过对相似度得分矩阵(S)进行归一化处理,得到注意力权重矩阵(A):
A=softmax(S)
注意力权重矩阵(A)中,每行的元素代表了该行对应的查询与键的相似度分布。通过对注意力权重矩阵(A)和值序列(V)进行加权求和,我们得到最终的输出向量(C):
C=A·V
最后,输出向量C包含了根据查询序列Q与键序列K之间的关联性加权得到的值序列V的重要信息。
步骤五、上采样算法。通过上采样算法将已知分辨率下的点云数据转换为更高分辨率的点云网格。然后,通过一个类似于卷积的操作,将每个点的特征信息从低分辨率的局部区域传递到高分辨率的局部区域,具体步骤如下:
1、对输入点云进行分层聚类或者网格化等方式进行区域划分。
2、在每个区域内,使用特定的插值方法对点云进行上采样。
3、将上采样后的点云与原始点云进行合并。
4、最终通过计算每个新生成点与其最近邻点之间的距离和权重,以得出新点的坐标。
步骤六、设计Parallel-Net的网络训练方法,根据点云的分类分割任务的不同数据集,设计相应的损失函数以及优化器,以及在训练过程中对网络参数进行优化调整。
1.损失函数以及优化器设置
本发明的实验过程中,采用交叉熵损失函数衡量预测结果与真实标签之间的差异程度。并分别采用SGD(Stochastic Gradient Descent)优化器,Adam优化器和AdamW优化器进行实验。
2.训练数据集选择
点云分类任务中,本发明使用ModelNet40数据集。ModelNet40数据集包含了40个不同类别的约12,311个物体模型。每个物体模型都被分成两部分:训练集和测试集。训练集包含9,843个物体,测试集包含2,468个物体。此外,为了增强数据集的多样性,每个物体模型都有12个不同的变换,包括平移、旋转、缩放等。在训练过程中,每个模型采集的点云点数为N=1024,初始点云数据特征维度d=6。在训练前对输入的点云数据进行强化,例如范围缩放,区域平移,随机失活。
在点云实体分割任务中,本发明使用ShapeNet数据集它包含超过50个物体类别,涵盖了广泛的日常生活物体,如椅子、桌子、汽车、飞机、动物等。每个物体都以三维网格(3Dmesh)的形式表示,并且具有不同的姿态和尺度。ShapeNet数据集提供了丰富的注释信息,包括物体的分类标签、几何信息、部件分割、姿态和场景语义等。ShapeNet数据集中的样本数量相对较大,具体的样本数量如下:总模型数量51300个,训练集样本数量40913个,验证集样本数量4888个,测试集样本数量5499个。在训练过程中,每个模型采集的点云点数为N=1024,初始点云数据特征维度d=9。在训练前对输入的点云数据进行强化,例如范围缩放,区域平移,随机失活。
3.确定网络训练的初始化参数
在训练中,对数据输入的batch_size设置为4~16进行测试,epoch设置为200~1000进行测试,eps设置为1e-8。
步骤七、Parallel-Net的网络性能分析
在点云分类和分割任务中,常用的指标包括以下几种:
准确率(Accuracy):表示正确分类或分割的点云数量与总点云数量之比。其公式为:
平均交并比(Average Intersection over Union,mIoU):也称为Jaccard指数,是通过计算预测结果与真实标签之间的交集面积与并集面积的比值来评估模型性能的指标。其公式为:
其中,N表示类别的数量,IOU_i表示第i个类别的交并比(Intersection overUnion)。对于每个类别i,可以使用以下公式计算其交并比(IOU_i):
IOU_i=(交集面积)/(并集面积)
其中,"交集面积"表示预测结果和真实标签之间的交集的面积,"并集面积"表示预测结果和真实标签之间的并集的面积。
F1分数(F1Score):综合考虑了精确度(Precision)和召回率(Recall),可以衡量模型在分类或分割任务中的综合性能。F1分数越高,表示模型在保持高准确度的同时,又具有较高的召回率。其公式为:
其中,精确度和召回率的计算如下:
均方误差(Mean Square Error,MSE):MSE计算了预测结果与真实标签之间的差异的平方的平均值,值越小表示模型预测结果越接近真实标签。其公式为
其中,N表示样本数量,yi表示第i个样本的真实值,表示模型对第i个样本的预测值。对于每个样本i,计算其预测值与真实值之间的差异,然后进行平方运算。将所有样本的平方差求和并除以样本数量N,得到均方误差(MSE)。
Parallel-Net在ModelNet40数据集的分类性能,整体准确率OA为92.7%,类别平均准确率mAcc为90.6%。
表1:Parallel-Net在ModelNet40数据集的分类性能对比Parallel-Net在ShapeNet数据集的分类性能,mIOU为86.2%。
表2:Parallel-Net在ShapeNet数据集的分类性能对比
经过综合实验分析,本发明的Parallel-Net网络相比Point Transformer网络在分类和实体分割的性能相近,但是参数量和运算量优于Point Transformer网络,与其他网络模型相比,分类分割的准确率有了提升。
以上内容结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明,在不脱离本发明的构思和前提下,还可以做出同等替代或者明显变形,而且性能或用途相同,都应该视作本发明的保护范围。
Claims (7)
1.一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络,包括如下步骤:
步骤一、输入点云数据集,并通过全连接层进行第一次特征学习,通过全连接层将输入的点云数据转化为初始的特征表示;
步骤二、采用降采样算法进行特征抽取和采样,特征抽取通过局部区域的消息传递来捕捉点云的局部特征,而采样则用于减少点云的数量并保留全局结构信息,通过这两个步骤,可以获得更高层次的特征表示;
步骤三、利用自注意力机制对点云输入序列中不同位置的相关性来计算每个位置的注意力权重,通过计算每个点与其他点之间的相似性,得到每个点的关注度,然后将这些权重与输入向量相乘并求和,得到加权后的表示,从而实现对不同位置的关注度调控;
步骤四、使用交叉注意力算法处理具有不同点云特征尺度的下采样后的点云数据特征,在计算注意力权重时,同时考虑不同序列点云特征数据之间的相关性,通过这种方式,增强了模型对不同特征之间关系的表达能力和性能;
步骤五、采用上采样算法将已知分辨率下的点云数据转换为更高分辨率的点云网格,然后,通过一个类似于卷积的操作,将每个点的特征信息从低分辨率的局部区域传递到高分辨率的局部区域,完成对得到的不同尺度的点云特征进行特征融合;
步骤六、设计Parallel-Net的网络结构,根据点云的分类分割任务的不同数据集,设计相应的损失函数以及优化器,以及在训练过程中对网络参数进行优化调整。
2.根据权利要求1所述的一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络,其特征在于,针对输入的点云数据集X∈RN×6,设计一个由一个输入层,一个归一化层,一个激活层所组成的全连接层进行第一次特征学习,通过一个包含多个全连接层或者卷积层和激活函数的神经网络模型,用于学习点云的局部特征表示,即得到每个点的注意力得分,通过第一次特征学习,有效提取点云数据的全局信息。
3.根据权利要求1所述的一种基多尺度点云特征提取融合的点云分类分割网络方法,其特征在于,通过下采样生成降采样后的较小规模的点云数据,在减少运算量的情况下,降采样能够从原始的点云数据中提取出重要的特征。
4.根据权利要求1所述的一种基多尺度点云特征提取融合的点云分类分割网络方法,其特征在于通过给定输入点云数据序列X,我们首先通过线性变换得到三个不同的序列:查询序列、键序列和值序列,接下来,计算点与点之间的注意力权重,最后输出向量C包含了点云数据特征序列中每个元素的重要信息,这些信息根据元素之间的关联性进行加权。
5.根据权利要求1所述的一种基多尺度点云特征提取融合的点云分类分割网络方法,其特征在于,通过局部点云特征和全局点云特征的交叉注意了机制学习,得到局部特征作为的查询序列与键序列之间的关联性加权得到的全局特征作为值序列的重要信息。
6.根据权利要求1所述的一种基多尺度点云特征提取融合的点云分类分割网络方法,其特征在于,对输入点云进行区域划分,在每个区域内,使用特定的插值方法对点云进行上采样,将上采样后的点云与原始点云进行合并算每个新生成点与其最近邻点之间的距离和权重,以得出新点的坐标。
7.根据权利要求1所述的一种基多尺度点云特征提取融合的点云分类分割网络方法,其特征在于:
实验过程中,采用交叉熵损失函数衡量预测结果与真实标签之间的差异程度,并分别采用SGD(Stochastic Gradient Descent)优化器,Adam优化器和AdamW优化器进行实验,
点云分类任务中,使用ModelNet40数据集,在训练过程中,每个模型采集的点云点数为N=1024,初始点云数据特征维度d=6,在训练前对输入的点云数据进行强化;
在点云实体分割任务中,本发明使用ShapeNet数据集,在训练过程中,每个模型采集的点云点数为N=1024,初始点云数据特征维度d=9,在训练前对输入的点云数据进行强化,例如范围缩放,区域平移,随机失活;
在训练中,对数据输入的batch_size设置为4~16进行测试,epoch设置为200~1000进行测试,eps设置为1e-8,通过不同方式的训练,达到目标值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311128982.8A CN117078956A (zh) | 2023-09-04 | 2023-09-04 | 一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311128982.8A CN117078956A (zh) | 2023-09-04 | 2023-09-04 | 一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078956A true CN117078956A (zh) | 2023-11-17 |
Family
ID=88702253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311128982.8A Pending CN117078956A (zh) | 2023-09-04 | 2023-09-04 | 一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078956A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788409A (zh) * | 2023-12-27 | 2024-03-29 | 南京国础科学技术研究院有限公司 | 一种基于数据增强与多尺度特征学习路面裂缝检测方法 |
-
2023
- 2023-09-04 CN CN202311128982.8A patent/CN117078956A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788409A (zh) * | 2023-12-27 | 2024-03-29 | 南京国础科学技术研究院有限公司 | 一种基于数据增强与多尺度特征学习路面裂缝检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN111368769B (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN114972213A (zh) | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN113033398B (zh) | 一种手势识别方法、装置、计算机设备及存储介质 | |
CN112784782B (zh) | 一种基于多视角双注意网络的三维物体识别方法 | |
CN112819080B (zh) | 一种高精度通用的三维点云识别方法 | |
CN114743007A (zh) | 一种基于通道注意力与多尺度融合的三维语义分割方法 | |
CN113345106A (zh) | 一种基于多尺度多层级转换器的三维点云分析方法及系统 | |
CN115496928A (zh) | 基于多重特征匹配的多模态图像特征匹配方法 | |
CN114612660A (zh) | 一种基于多特征融合点云分割的三维建模方法 | |
CN117078956A (zh) | 一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络 | |
CN117152416A (zh) | 一种基于detr改进模型的稀疏注意力目标检测方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
Zuo et al. | A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields | |
Wei et al. | An automated detection model of threat objects for X-ray baggage inspection based on depthwise separable convolution | |
CN115222998A (zh) | 一种图像分类方法 | |
CN115147601A (zh) | 基于自注意力全局特征增强的城市街道点云语义分割方法 | |
Yang et al. | An improved algorithm for the detection of fastening targets based on machine vision | |
CN117152427A (zh) | 基于扩散模型和知识蒸馏的遥感图像语义分割方法与系统 | |
CN116386042A (zh) | 一种基于三维池化空间注意力机制的点云语义分割模型 | |
Wang et al. | Self-supervised learning for high-resolution remote sensing images change detection with variational information bottleneck | |
Liu et al. | Iris double recognition based on modified evolutionary neural network | |
Pei et al. | FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction | |
Li et al. | Focus on local: transmission line defect detection via feature refinement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |