CN115375910B - 一种基于注意力机制的点云特征提取方法及装置 - Google Patents
一种基于注意力机制的点云特征提取方法及装置 Download PDFInfo
- Publication number
- CN115375910B CN115375910B CN202211116427.9A CN202211116427A CN115375910B CN 115375910 B CN115375910 B CN 115375910B CN 202211116427 A CN202211116427 A CN 202211116427A CN 115375910 B CN115375910 B CN 115375910B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- data
- layer
- feature
- pyramid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000005070 sampling Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于注意力机制的点云特征提取方法及装置,涉及智能驾驶技术领域,该方法包括:利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔;利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T‑1层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到最终的点云特征数据。本申请能够降低点云特征上采样时的语义信息损失,提高主干网络的点云特征提取性能。
Description
技术领域
本申请涉及自动驾驶技术领域,尤其是涉及一种基于注意力机制的点云特征提取方法及装置。
背景技术
在对点云数据进行特征提取时,需要利用主干网络提取点云的空间位置信息和语义信息。主干网络有2个部分组成:编码器和解码器。
目前,绝大多数解码器的上采样层在融合来自与它分辨率相同的编码器中提取到的语义信息时,会将两部分点云特征在通道维度上进行拼接,这样的拼接操作会使得点云特征维度增加,占用额外的存储空间,并且直接拼接也会导致语义信息模糊。因此,需要进一步使用多层感知机进行处理。解码器的多层感知机往往会压缩通道维度,减少数据量,使得融合后的语义信息更加明确。但是,点云的通道维度大量的压缩可能会导致一些重要的语义信息的丢失的问题。
发明内容
有鉴于此,本申请提供了一种基于注意力机制的点云特征提取方法及装置,以解决现有技术存在的上述技术问题。
第一方面,本申请实施例提供了一种基于注意力机制的点云特征提取方法,所述方法包括:
对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层点云特征数据;
利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
进一步,所述编码器包括T个依次连接的局部融合层;利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔;包括:
其中,1≤t≤T;第t-1层数据的点云个数为维度为为的第j个点云的特征,N(i)为第i个点云的邻居点云的集合;Δpij为第i个点云与第j个点云的相对坐标,Δpij=pi-pj,pi为第i个点云的空间位置坐标,pj为第j个点云的空间位置坐标;G(·,·)为编码函数;R(·)为归约函数;S(·)表示降采样函数;
进一步,利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据;包括:
进一步,将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行点数拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;包括:
进一步,其特征在于,对第一特征金字塔的第零层数据、第二特征金字塔的初始第零层数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据;包括:
利用线性投影矩阵WQ、WK和WV进行如下变换,得到矩阵Q、矩阵K和矩阵V:
其中,stack(·)表示点数拼接;
计算交叉注意力矩阵atten:
其中,atten为1×7的矩阵;
计算注意力机制输出结果fatten:
其中,norm(·)表示正规化函数;
利用前馈网络对fatten进行处理,得到前馈网络输出结果FFN:
FFN=max(0,fattenW1+b1)W2+b2
进一步,所述编码器待训练的参数包括:T个局部融合层的参数;所述解码器待训练的参数包括:T-2个多层感知机的参数,线性投影矩阵WQ、WK和WV和前馈网络的参数。
第二方面,本申请实施例提供了一种基于注意力机制的点云特征提取装置,所述装置包括:
预处理单元,用于对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
编码处理单元,用于利用预先训练完成的编码器对点云特征数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层的点云特征数据;
解码处理单元,用于利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的基于注意力机制的点云特征提取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现本申请实施例的基于注意力机制的点云特征提取方法。
本申请能够降低点云特征上采样时的语义信息损失,提高主干网络的点云特征提取性能。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于注意力机制的点云特征提取方法的流程图;
图2为本申请实施例提供的基于注意力机制的点云特征提取装置的功能结构图;
图3为本申请实施例提供的电子设备的功能结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请实施例提供的技术方案进行说明。
在对点云进行特征提取时,往往需要利用主干网络提取点云的空间位置信息和语义信息。主干网络有2个部分组成:编码器和解码器。
编码器往往由若干不同点分辨率的特征提取层组成,经过每个特征提取层后,点云的分辨率降低,点数变少但是通道维度变高,语义信息更加丰富。解码器由若干不同点分辨率的上采样层组成,每一个上采样层都融合了来自与它分辨率相同的编码器中提取到的的语义信息,保证了细粒度的语义信息的有效传递。这样的结构被称为特征金字塔,可以有效地提取点云的语义信息,并能将在低分辨率下收集到的高维语义信息赋予到原始高分辨率的点云中,为接下来的下游任务如三维目标检测、三维目标追踪等做基础。
目前,绝大多数解码器的上采样层在融合来自与它分辨率相同的编码器中提取到的语义信息时,会将两部分点云特征在通道维度上进行拼接,这样的拼接操作会使得点云特征维度增加,占用额外的存储空间,并且直接拼接也会导致语义信息模糊。因此,需要进一步使用多层感知机进行处理。解码器的多层感知机往往会压缩通道维度,减少数据量,使得融合后的语义信息更加明确。但是,点云的通道维度大量的压缩可能会导致一些重要的语义信息的丢失的问题。
为解决上述技术问题,本申请实施例提供了一种基于注意力机制的点云特征提取方法,通过注意力机制降低点云特征上采样时的语义信息损失,提高主干网络上采样时的特征提取性能。
在人类处理从自然界中收集到的信息(如图像信号、声音信号)时,往往会选择性地处理信号。通常人们只关注那些对决策、行为有用的信号,这样的机制的称为“注意力机制”。
在深度学习中,注意力机制最先被应用在自然语言处理领域,因为自然语言处理需要讨论单词与单词之间的关系,分析在整句话中,对句子意思产生最大影响的词汇。基于注意力机制的网络Transformer的出现,为自然语言处理在研究打开了一个新的方向。实验证明,基于注意力机制的Transformer网络模型具有非常好长序列信息建模能力,在算法的性能上优于传统的循环神经网络、长短期记忆网络。Transformer在自然语言处理领域掀起的研究热潮影响到了计算机视觉领域,有专家学者将Transformer模型引用到了二维图像处理中,通过构建Transformer模型,分析图像局部区域之间的关系,为下游任务(如图像分类、检测、分割任务)提供信息。
如图1所示,本申请实施例提供了一种基于注意力机制的点云特征提取方法,包含如下步骤:
步骤101:对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
其中,原始点云数据中的点云个数非常庞大,首先进行采样处理,使点云数据中包含固定个数的点云,例如512个。
步骤102:利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层点云特征数据;
构建编码器部分的特征金字塔的方式很多,如基于多层感知机的方法、基于图神经网络的方法、基于伪网络卷积的方法。
本实施例中,该步骤包括:
其中,1≤t≤T;第t-1层数据的点云个数为维度为为的第j个点云的特征,N(i)为第i个点云的邻居点云的集合;Δpij为第i个点云与第j个点云的相对坐标,Δpij=pi-pj,pi为第i个点云的空间位置坐标,pj为第j个点云的空间位置坐标;G(·,·)为编码函数;R(·)为归约函数;S(·)表示降采样函数;
步骤103:利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
在本实施例中,解码器完成编码器的逆运算,从编码器得到的第一特征金字塔的第T层点云特征数据开始,逐层进行上采样和降维处理,其中,对第一特征金字塔的第T层点云特征数据分别进行两次上采样;对于第T-1层到第一层,利用多层感知机对第一特征金字塔的当前层点云特征数据和第二特征金字塔的初始当前层点云特征数据(第二特征金字塔的上一层点云特征数据上采样得到)进行处理,得到第二特征金字塔的当前层点云特征数据;对于第零层,对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
其中,第T层的处理过程为:
第T-1层的处理过程为:
第零层的处理过程为:
利用线性投影矩阵WQ、WK和WV进行如下变换,得到矩阵Q、矩阵K和矩阵V:
其中,stack(·)表示点数拼接;
计算交叉注意力矩阵atten:
其中,atten为1×7的矩阵;
计算注意力机制输出结果fatten:
其中,norm(·)表示正规化函数;
利用前馈网络对fatten进行处理,得到前馈网络输出结果FFN:
FFN=max(0,fattenW1+b1)W2+b2
在本实施例中,编码器和解码器都需要提前进行训练,所述编码器待训练的参数包括:T个局部融合层的参数;所述解码器待训练的参数包括:T-2个多层感知机的参数,线性投影矩阵WQ、WK和WV和前馈网络的参数。
基于上述实施例,本申请实施例提供了一种基于注意力机制的点云特征提取装置,参阅图2所示,本申请实施例提供的基于注意力机制的点云特征提取装置200至少包括:
预处理单元201,用于对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
编码处理单元202,用于利用预先训练完成的编码器对点云特征数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层的点云特征数据;
解码处理单元203,用于利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
需要说明的是,本申请实施例提供的基于注意力机制的点云特征提取装置200解决技术问题的原理与本申请实施例提供的基于注意力机制的点云特征提取方法相似,因此,本申请实施例提供的基于注意力机制的点云特征提取装置200的实施可以参见本申请实施例提供的基于注意力机制的点云特征提取方法的实施,重复之处不再赘述。
基于上述实施例,本申请实施例还提供了一种电子设备,参阅图3所示,本申请实施例提供的电子设备300至少包括:处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序,处理器301执行计算机程序时实现本申请实施例提供的基于注意力机制的点云特征提取方法。
本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中,总线303表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器302可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)3021和/或高速缓存存储器3022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)3023。
存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025,程序模块3024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等),和/或,与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口305进行。并且,电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器306通过总线303与电子设备300的其它模块通信。应当理解,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图3所示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的基于注意力机制的点云特征提取方法。具体地,该可执行程序可以内置或者安装在电子设备300中,这样,电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于注意力机制的点云特征提取方法。
本申请实施例提供的基于注意力机制的点云特征提取方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在电子设备300上运行时,该程序代码用于使电子设备300执行本申请实施例提供的基于注意力机制的点云特征提取方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,对本申请的技术方案进行修改或者等同替换,都不脱离本申请技术方案的精神和范围,其均应涵盖在本申请的权利要求范围当中。
Claims (8)
1.一种基于注意力机制的点云特征提取方法,其特征在于,所述方法包括:
对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层点云特征数据;
利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据;
所述编码器包括T个依次连接的局部融合层;利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔;包括:
其中,1≤t≤T;第t-1层数据的点云个数为维度为 为的第j个点云的特征,N(i)为第i个点云的邻居点云的集合;Δpij为第i个点云与第j个点云的相对坐标,Δpij=pi-pj,pi为第i个点云的空间位置坐标,pj为第j个点云的空间位置坐标;G(·,·)为编码函数;R(·)为归约函数;S(·)表示降采样函数;
3.根据权利要求1所述的基于注意力机制的点云特征提取方法,其特征在于,将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行点数拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;包括:
4.根据权利要求3所述的基于注意力机制的点云特征提取方法,其特征在于,对第一特征金字塔的第零层数据、第二特征金字塔的初始第零层数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据;包括:
利用线性投影矩阵WQ、WK和WV进行如下变换,得到矩阵Q、矩阵K和矩阵V:
其中,stack(·)表示点数拼接;
计算交叉注意力矩阵atten:
其中,atten为1×7的矩阵;
计算注意力机制输出结果fatten:
其中,norm(·)表示正规化函数;
利用前馈网络对fatten进行处理,得到前馈网络输出结果FFN:
FFN=max(0,fattenW1+b1)W2+b2
5.根据权利要求4所述的基于注意力机制的点云特征提取方法,其特征在于,所述编码器待训练的参数包括:T个局部融合层的参数;所述解码器待训练的参数包括:T-2个多层感知机的参数,线性投影矩阵WQ、WK和WV和前馈网络的参数。
6.一种基于注意力机制的点云特征提取装置,其特征在于,所述装置包括:
预处理单元,用于对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
编码处理单元,用于利用预先训练完成的编码器对点云特征数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层的点云特征数据;
解码处理单元,用于利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据;
所述编码器包括T个依次连接的局部融合层;利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔;包括:
其中,1≤t≤T;第t-1层数据的点云个数为维度为 为的第j个点云的特征,N(i)为第i个点云的邻居点云的集合;Δpij为第i个点云与第j个点云的相对坐标,Δpij=pi-pj,pi为第i个点云的空间位置坐标,pj为第j个点云的空间位置坐标;G(·,·)为编码函数;R(·)为归约函数;S(·)表示降采样函数;
7.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的基于注意力机制的点云特征提取方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-5任一项所述的基于注意力机制的点云特征提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211116427.9A CN115375910B (zh) | 2022-09-14 | 2022-09-14 | 一种基于注意力机制的点云特征提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211116427.9A CN115375910B (zh) | 2022-09-14 | 2022-09-14 | 一种基于注意力机制的点云特征提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115375910A CN115375910A (zh) | 2022-11-22 |
CN115375910B true CN115375910B (zh) | 2023-04-14 |
Family
ID=84071851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211116427.9A Active CN115375910B (zh) | 2022-09-14 | 2022-09-14 | 一种基于注意力机制的点云特征提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115375910B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128941A (zh) * | 2023-02-08 | 2023-05-16 | 西安电子科技大学 | 一种基于跳跃注意力机制的点云配准方法 |
CN116091849B (zh) * | 2023-04-11 | 2023-07-25 | 山东建筑大学 | 基于分组解码器的轮胎花纹分类方法、系统、介质及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177555B (zh) * | 2021-05-21 | 2022-11-04 | 西南大学 | 基于跨层级跨尺度跨注意力机制的目标处理方法及装置 |
CN113345106A (zh) * | 2021-06-24 | 2021-09-03 | 西南大学 | 一种基于多尺度多层级转换器的三维点云分析方法及系统 |
CN113870422B (zh) * | 2021-11-30 | 2022-02-08 | 华中科技大学 | 一种点云重建方法、装置、设备及介质 |
CN114363633A (zh) * | 2021-12-30 | 2022-04-15 | 中山大学 | 基于全自注意力网络的深度点云压缩编码方法 |
-
2022
- 2022-09-14 CN CN202211116427.9A patent/CN115375910B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115375910A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115375910B (zh) | 一种基于注意力机制的点云特征提取方法及装置 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN114283430A (zh) | 跨模态图文匹配训练方法及装置、存储介质、电子设备 | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111651573B (zh) | 一种智能客服对话回复生成方法、装置和电子设备 | |
WO2022253074A1 (zh) | 一种数据处理方法及相关设备 | |
CN114418030B (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN113889076B (zh) | 语音识别及编解码方法、装置、电子设备及存储介质 | |
CN113961736B (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN110795549A (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN112270246B (zh) | 视频行为识别方法及装置、存储介质、电子设备 | |
CN114821050A (zh) | 一种基于transformer的指称图像分割方法 | |
US20240135610A1 (en) | Image generation using a diffusion model | |
CN111597341A (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN115588013A (zh) | 一种基于全尺度融合和流场注意力的图像分割方法 | |
CN113869205A (zh) | 对象检测方法、装置、电子设备和存储介质 | |
JP2023133274A (ja) | Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体 | |
CN115116470B (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
CN115100107A (zh) | 一种皮肤镜图像分割方法及系统 | |
CN115115835A (zh) | 图像的语义分割方法、装置、设备、存储介质及程序产品 | |
KR102348689B1 (ko) | 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약 | |
CN116601682A (zh) | 经由以时间残差连接为特征的机器学习模型对顺序数据的改进处理 | |
CN113963289A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN111833235A (zh) | 图像转换方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |