CN115375910B - 一种基于注意力机制的点云特征提取方法及装置 - Google Patents

一种基于注意力机制的点云特征提取方法及装置 Download PDF

Info

Publication number
CN115375910B
CN115375910B CN202211116427.9A CN202211116427A CN115375910B CN 115375910 B CN115375910 B CN 115375910B CN 202211116427 A CN202211116427 A CN 202211116427A CN 115375910 B CN115375910 B CN 115375910B
Authority
CN
China
Prior art keywords
point cloud
data
layer
feature
pyramid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211116427.9A
Other languages
English (en)
Other versions
CN115375910A (zh
Inventor
张新钰
王力
张皓明
谢涛
李骏
吴新刚
李金伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211116427.9A priority Critical patent/CN115375910B/zh
Publication of CN115375910A publication Critical patent/CN115375910A/zh
Application granted granted Critical
Publication of CN115375910B publication Critical patent/CN115375910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于注意力机制的点云特征提取方法及装置,涉及智能驾驶技术领域,该方法包括:利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔;利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T‑1层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到最终的点云特征数据。本申请能够降低点云特征上采样时的语义信息损失,提高主干网络的点云特征提取性能。

Description

一种基于注意力机制的点云特征提取方法及装置
技术领域
本申请涉及自动驾驶技术领域,尤其是涉及一种基于注意力机制的点云特征提取方法及装置。
背景技术
在对点云数据进行特征提取时,需要利用主干网络提取点云的空间位置信息和语义信息。主干网络有2个部分组成:编码器和解码器。
目前,绝大多数解码器的上采样层在融合来自与它分辨率相同的编码器中提取到的语义信息时,会将两部分点云特征在通道维度上进行拼接,这样的拼接操作会使得点云特征维度增加,占用额外的存储空间,并且直接拼接也会导致语义信息模糊。因此,需要进一步使用多层感知机进行处理。解码器的多层感知机往往会压缩通道维度,减少数据量,使得融合后的语义信息更加明确。但是,点云的通道维度大量的压缩可能会导致一些重要的语义信息的丢失的问题。
发明内容
有鉴于此,本申请提供了一种基于注意力机制的点云特征提取方法及装置,以解决现有技术存在的上述技术问题。
第一方面,本申请实施例提供了一种基于注意力机制的点云特征提取方法,所述方法包括:
对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层点云特征数据;
利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
进一步,所述编码器包括T个依次连接的局部融合层;利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔;包括:
获取点云数据
Figure BDA0003845747880000021
其点云个数为
Figure BDA0003845747880000022
维度为
Figure BDA0003845747880000023
则第一特征金字塔的第零层点云特征数据为
Figure BDA0003845747880000024
利用第t个局部融合层对第一特征金字塔的第t-1层点云特征数据
Figure BDA0003845747880000025
进行处理,得到第t层点云特征数据
Figure BDA0003845747880000026
其第i个点云的特征
Figure BDA0003845747880000027
为:
Figure BDA0003845747880000028
其中,1≤t≤T;第t-1层数据
Figure BDA0003845747880000029
的点云个数为
Figure BDA00038457478800000210
维度为
Figure BDA0003845747880000031
Figure BDA0003845747880000032
的第j个点云的特征,
Figure BDA0003845747880000033
N(i)为第i个点云的邻居点云的集合;Δpij为第i个点云与第j个点云的相对坐标,Δpij=pi-pj,pi为第i个点云的空间位置坐标,pj为第j个点云的空间位置坐标;G(·,·)为编码函数;R(·)为归约函数;S(·)表示降采样函数;
则第一特征金字塔包括:第零层点云特征数据
Figure BDA0003845747880000034
第一层点云特征数据
Figure BDA0003845747880000035
…、第T-1层点云特征数据
Figure BDA0003845747880000036
和第T层点云特征数据
Figure BDA0003845747880000037
进一步,利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据;包括:
将第一特征金字塔的第T层点云特征数据
Figure BDA0003845747880000038
作为第二层特征金字塔的第T层点云特征数据
Figure BDA0003845747880000039
对第二特征金字塔的第T层点云特征数据
Figure BDA00038457478800000310
进行上采样处理,得到上采样数据
Figure BDA00038457478800000311
点云个数为
Figure BDA00038457478800000312
维度为
Figure BDA00038457478800000313
对第二特征金字塔的第T层点云特征数据
Figure BDA00038457478800000314
进行上采样处理,得到第二特征金字塔的初始第T-1层点云特征数据
Figure BDA00038457478800000315
点云个数为
Figure BDA00038457478800000316
维度为
Figure BDA00038457478800000317
进一步,将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行点数拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;包括:
将第一特征金字塔的第T-1层点云特征数据
Figure BDA00038457478800000318
和第二特征金字塔的初始第T-1层点云特征数据
Figure BDA00038457478800000319
进行维度拼接,得到拼接后的点云特征数据,点云个数为
Figure BDA00038457478800000320
维度为
Figure BDA00038457478800000321
利用多层感知机对拼接后的点云特征数据进行降维处理,得到第二特征金字塔的第T-1层点云特征数据
Figure BDA0003845747880000041
点云个数及维度与第一特征金字塔的第T-1层点云特征数据
Figure BDA0003845747880000042
相同;
对第二特征金字塔的第T-1层点云特征数据
Figure BDA0003845747880000043
进行上采样,得到点数减半且维度不变的第二特征金字塔的初始第T-2层点云特征数据
Figure BDA0003845747880000044
进一步,其特征在于,对第一特征金字塔的第零层数据、第二特征金字塔的初始第零层数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据;包括:
将上采样数据
Figure BDA0003845747880000045
按照维度分解为:
Figure BDA0003845747880000046
维度均为
Figure BDA0003845747880000047
将第二特征金字塔的初始第零层点云特征数据
Figure BDA0003845747880000048
分解为:
Figure BDA0003845747880000049
Figure BDA00038457478800000410
维度均为
Figure BDA00038457478800000411
分别对:
Figure BDA00038457478800000412
Figure BDA00038457478800000413
的维度取最大值,得到
Figure BDA00038457478800000414
Figure BDA00038457478800000415
利用线性投影矩阵WQ、WK和WV进行如下变换,得到矩阵Q、矩阵K和矩阵V:
Figure BDA00038457478800000416
Figure BDA00038457478800000417
Figure BDA00038457478800000418
其中,stack(·)表示点数拼接;
计算交叉注意力矩阵atten:
Figure BDA00038457478800000419
其中,atten为1×7的矩阵;
计算注意力机制输出结果fatten
Figure BDA0003845747880000051
其中,norm(·)表示正规化函数;
利用前馈网络对fatten进行处理,得到前馈网络输出结果FFN:
FFN=max(0,fattenW1+b1)W2+b2
其中,W1
Figure BDA0003845747880000052
的矩阵,W2
Figure BDA0003845747880000053
的矩阵,b1
Figure BDA0003845747880000054
的矩阵;b2
Figure BDA0003845747880000055
的矩阵;
则第二特征金字塔的第零层点云特征数据
Figure BDA0003845747880000056
为:
Figure BDA0003845747880000057
其中,
Figure BDA0003845747880000058
的点云个数和维度与第一特征金字塔的第零层点云特征数据
Figure BDA0003845747880000059
的点云个数和维度相同。
则原始点云数据的点云特征数据为
Figure BDA00038457478800000510
进一步,所述编码器待训练的参数包括:T个局部融合层的参数;所述解码器待训练的参数包括:T-2个多层感知机的参数,线性投影矩阵WQ、WK和WV和前馈网络的参数。
第二方面,本申请实施例提供了一种基于注意力机制的点云特征提取装置,所述装置包括:
预处理单元,用于对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
编码处理单元,用于利用预先训练完成的编码器对点云特征数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层的点云特征数据;
解码处理单元,用于利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的基于注意力机制的点云特征提取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现本申请实施例的基于注意力机制的点云特征提取方法。
本申请能够降低点云特征上采样时的语义信息损失,提高主干网络的点云特征提取性能。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于注意力机制的点云特征提取方法的流程图;
图2为本申请实施例提供的基于注意力机制的点云特征提取装置的功能结构图;
图3为本申请实施例提供的电子设备的功能结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请实施例提供的技术方案进行说明。
在对点云进行特征提取时,往往需要利用主干网络提取点云的空间位置信息和语义信息。主干网络有2个部分组成:编码器和解码器。
编码器往往由若干不同点分辨率的特征提取层组成,经过每个特征提取层后,点云的分辨率降低,点数变少但是通道维度变高,语义信息更加丰富。解码器由若干不同点分辨率的上采样层组成,每一个上采样层都融合了来自与它分辨率相同的编码器中提取到的的语义信息,保证了细粒度的语义信息的有效传递。这样的结构被称为特征金字塔,可以有效地提取点云的语义信息,并能将在低分辨率下收集到的高维语义信息赋予到原始高分辨率的点云中,为接下来的下游任务如三维目标检测、三维目标追踪等做基础。
目前,绝大多数解码器的上采样层在融合来自与它分辨率相同的编码器中提取到的语义信息时,会将两部分点云特征在通道维度上进行拼接,这样的拼接操作会使得点云特征维度增加,占用额外的存储空间,并且直接拼接也会导致语义信息模糊。因此,需要进一步使用多层感知机进行处理。解码器的多层感知机往往会压缩通道维度,减少数据量,使得融合后的语义信息更加明确。但是,点云的通道维度大量的压缩可能会导致一些重要的语义信息的丢失的问题。
为解决上述技术问题,本申请实施例提供了一种基于注意力机制的点云特征提取方法,通过注意力机制降低点云特征上采样时的语义信息损失,提高主干网络上采样时的特征提取性能。
在人类处理从自然界中收集到的信息(如图像信号、声音信号)时,往往会选择性地处理信号。通常人们只关注那些对决策、行为有用的信号,这样的机制的称为“注意力机制”。
在深度学习中,注意力机制最先被应用在自然语言处理领域,因为自然语言处理需要讨论单词与单词之间的关系,分析在整句话中,对句子意思产生最大影响的词汇。基于注意力机制的网络Transformer的出现,为自然语言处理在研究打开了一个新的方向。实验证明,基于注意力机制的Transformer网络模型具有非常好长序列信息建模能力,在算法的性能上优于传统的循环神经网络、长短期记忆网络。Transformer在自然语言处理领域掀起的研究热潮影响到了计算机视觉领域,有专家学者将Transformer模型引用到了二维图像处理中,通过构建Transformer模型,分析图像局部区域之间的关系,为下游任务(如图像分类、检测、分割任务)提供信息。
如图1所示,本申请实施例提供了一种基于注意力机制的点云特征提取方法,包含如下步骤:
步骤101:对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
其中,原始点云数据中的点云个数非常庞大,首先进行采样处理,使点云数据中包含固定个数的点云,例如512个。
步骤102:利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层点云特征数据;
构建编码器部分的特征金字塔的方式很多,如基于多层感知机的方法、基于图神经网络的方法、基于伪网络卷积的方法。
本实施例中,该步骤包括:
获取点云数据
Figure BDA0003845747880000091
其点云个数为
Figure BDA0003845747880000092
维度为
Figure BDA0003845747880000093
则第一特征金字塔的第零层点云特征数据为
Figure BDA0003845747880000094
利用第t个局部融合层对第一特征金字塔的第t-1层点云特征数据
Figure BDA0003845747880000095
进行处理,得到第t层点云特征数据
Figure BDA0003845747880000096
其第i个点云的特征
Figure BDA0003845747880000097
为:
Figure BDA0003845747880000098
其中,1≤t≤T;第t-1层数据
Figure BDA0003845747880000099
的点云个数为
Figure BDA00038457478800000910
维度为
Figure BDA00038457478800000911
Figure BDA00038457478800000912
的第j个点云的特征,
Figure BDA00038457478800000913
N(i)为第i个点云的邻居点云的集合;Δpij为第i个点云与第j个点云的相对坐标,Δpij=pi-pj,pi为第i个点云的空间位置坐标,pj为第j个点云的空间位置坐标;G(·,·)为编码函数;R(·)为归约函数;S(·)表示降采样函数;
则第一特征金字塔包括:第零层点云特征数据
Figure BDA0003845747880000101
第一层点云特征数据
Figure BDA0003845747880000102
…、第T-1层点云特征数据
Figure BDA0003845747880000103
和第T层点云特征数据
Figure BDA0003845747880000104
以三层特征金字塔为例,第零层点云特征数据
Figure BDA0003845747880000105
的点云个数和维度为512和256,第1层点云特征数据
Figure BDA0003845747880000106
的点云个数和维度为256和512,第二层点云特征数据
Figure BDA0003845747880000107
的点云个数和维度为128和1024。
步骤103:利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
在本实施例中,解码器完成编码器的逆运算,从编码器得到的第一特征金字塔的第T层点云特征数据开始,逐层进行上采样和降维处理,其中,对第一特征金字塔的第T层点云特征数据分别进行两次上采样;对于第T-1层到第一层,利用多层感知机对第一特征金字塔的当前层点云特征数据和第二特征金字塔的初始当前层点云特征数据(第二特征金字塔的上一层点云特征数据上采样得到)进行处理,得到第二特征金字塔的当前层点云特征数据;对于第零层,对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
其中,第T层的处理过程为:
将第一特征金字塔的第T层点云特征数据
Figure BDA0003845747880000111
作为第二层特征金字塔的第T层点云特征数据
Figure BDA0003845747880000112
对第二特征金字塔的第T层点云特征数据
Figure BDA0003845747880000113
进行上采样处理,得到上采样数据
Figure BDA0003845747880000114
点云个数为
Figure BDA0003845747880000115
维度为
Figure BDA0003845747880000116
对第二特征金字塔的第T层点云特征数据
Figure BDA0003845747880000117
进行上采样处理,得到第二特征金字塔的初始第T-1层点云特征数据
Figure BDA0003845747880000118
点云个数为
Figure BDA0003845747880000119
维度为
Figure BDA00038457478800001110
第T-1层的处理过程为:
将第一特征金字塔的第T-1层点云特征数据
Figure BDA00038457478800001111
和第二特征金字塔的初始第T-1层点云特征数据
Figure BDA00038457478800001112
进行维度拼接,得到拼接后的点云特征数据,点云个数为
Figure BDA00038457478800001113
维度为
Figure BDA00038457478800001114
利用多层感知机对拼接后的点云特征数据进行降维处理,得到第二特征金字塔的第T-1层点云特征数据
Figure BDA00038457478800001115
点云个数及维度与第一特征金字塔的第T-1层点云特征数据
Figure BDA00038457478800001116
相同;
对第二特征金字塔的第T-1层点云特征数据
Figure BDA00038457478800001117
进行上采样,得到点数减半且维度不变的第二特征金字塔的初始第T-2层点云特征数据
Figure BDA00038457478800001118
第零层的处理过程为:
将上采样数据
Figure BDA00038457478800001119
按照维度分解为:
Figure BDA00038457478800001120
维度均为
Figure BDA0003845747880000121
将第二特征金字塔的初始第零层点云特征数据
Figure BDA0003845747880000122
分解为:
Figure BDA0003845747880000123
Figure BDA0003845747880000124
维度均为
Figure BDA0003845747880000125
分别对:
Figure BDA0003845747880000126
Figure BDA0003845747880000127
的维度取最大值,得到
Figure BDA0003845747880000128
Figure BDA0003845747880000129
利用线性投影矩阵WQ、WK和WV进行如下变换,得到矩阵Q、矩阵K和矩阵V:
Figure BDA00038457478800001210
Figure BDA00038457478800001211
Figure BDA00038457478800001212
其中,stack(·)表示点数拼接;
计算交叉注意力矩阵atten:
Figure BDA00038457478800001213
其中,atten为1×7的矩阵;
计算注意力机制输出结果fatten
Figure BDA00038457478800001214
其中,norm(·)表示正规化函数;
利用前馈网络对fatten进行处理,得到前馈网络输出结果FFN:
FFN=max(0,fattenW1+b1)W2+b2
其中,W1
Figure BDA00038457478800001215
的矩阵,W2
Figure BDA00038457478800001216
的矩阵,b1
Figure BDA00038457478800001217
的矩阵;b2
Figure BDA00038457478800001218
的矩阵;
则第二特征金字塔的第零层点云特征数据
Figure BDA00038457478800001219
为:
Figure BDA00038457478800001220
其中,
Figure BDA0003845747880000131
的点云个数和维度与第一特征金字塔的第零层点云特征数据
Figure BDA0003845747880000132
的点云个数和维度相同。
则原始点云数据的点云特征数据为
Figure BDA0003845747880000133
以三层特征金字塔为例,第二层点云特征数据
Figure BDA0003845747880000134
的点云个数和维度为128和1024。第一层点云特征数据
Figure BDA0003845747880000135
的点云个数和维度为256和512,第零层点云特征数据
Figure BDA0003845747880000136
的点云个数和维度为512和256。
在本实施例中,编码器和解码器都需要提前进行训练,所述编码器待训练的参数包括:T个局部融合层的参数;所述解码器待训练的参数包括:T-2个多层感知机的参数,线性投影矩阵WQ、WK和WV和前馈网络的参数。
基于上述实施例,本申请实施例提供了一种基于注意力机制的点云特征提取装置,参阅图2所示,本申请实施例提供的基于注意力机制的点云特征提取装置200至少包括:
预处理单元201,用于对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
编码处理单元202,用于利用预先训练完成的编码器对点云特征数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层的点云特征数据;
解码处理单元203,用于利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据。
需要说明的是,本申请实施例提供的基于注意力机制的点云特征提取装置200解决技术问题的原理与本申请实施例提供的基于注意力机制的点云特征提取方法相似,因此,本申请实施例提供的基于注意力机制的点云特征提取装置200的实施可以参见本申请实施例提供的基于注意力机制的点云特征提取方法的实施,重复之处不再赘述。
基于上述实施例,本申请实施例还提供了一种电子设备,参阅图3所示,本申请实施例提供的电子设备300至少包括:处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序,处理器301执行计算机程序时实现本申请实施例提供的基于注意力机制的点云特征提取方法。
本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中,总线303表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器302可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)3021和/或高速缓存存储器3022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)3023。
存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025,程序模块3024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等),和/或,与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口305进行。并且,电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器306通过总线303与电子设备300的其它模块通信。应当理解,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图3所示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的基于注意力机制的点云特征提取方法。具体地,该可执行程序可以内置或者安装在电子设备300中,这样,电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于注意力机制的点云特征提取方法。
本申请实施例提供的基于注意力机制的点云特征提取方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在电子设备300上运行时,该程序代码用于使电子设备300执行本申请实施例提供的基于注意力机制的点云特征提取方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,对本申请的技术方案进行修改或者等同替换,都不脱离本申请技术方案的精神和范围,其均应涵盖在本申请的权利要求范围当中。

Claims (8)

1.一种基于注意力机制的点云特征提取方法,其特征在于,所述方法包括:
对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层点云特征数据;
利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据;
所述编码器包括T个依次连接的局部融合层;利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔;包括:
获取点云数据
Figure FDA0004056335890000011
其点云个数为
Figure FDA0004056335890000012
维度为
Figure FDA0004056335890000013
则第一特征金字塔的第零层点云特征数据为
Figure FDA0004056335890000014
利用第t个局部融合层对第一特征金字塔的第t-1层点云特征数据
Figure FDA0004056335890000021
进行处理,得到第t层点云特征数据
Figure FDA0004056335890000022
其第i个点云的特征
Figure FDA0004056335890000023
为:
Figure FDA0004056335890000024
其中,1≤t≤T;第t-1层数据
Figure FDA0004056335890000025
的点云个数为
Figure FDA0004056335890000026
维度为
Figure FDA0004056335890000027
Figure FDA0004056335890000028
Figure FDA0004056335890000029
的第j个点云的特征,
Figure FDA00040563358900000210
N(i)为第i个点云的邻居点云的集合;Δpij为第i个点云与第j个点云的相对坐标,Δpij=pi-pj,pi为第i个点云的空间位置坐标,pj为第j个点云的空间位置坐标;G(·,·)为编码函数;R(·)为归约函数;S(·)表示降采样函数;
则第一特征金字塔包括:第零层点云特征数据
Figure FDA00040563358900000211
第一层点云特征数据
Figure FDA00040563358900000212
第T-1层点云特征数据
Figure FDA00040563358900000213
和第T层点云特征数据
Figure FDA00040563358900000214
2.根据权利要求1所述的基于注意力机制的点云特征提取方法,其特征在于,利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据;包括:
将第一特征金字塔的第T层点云特征数据
Figure FDA00040563358900000215
作为第二层特征金字塔的第T层点云特征数据
Figure FDA00040563358900000216
对第二特征金字塔的第T层点云特征数据
Figure FDA00040563358900000217
进行上采样处理,得到上采样数据
Figure FDA00040563358900000218
点云个数为
Figure FDA00040563358900000219
维度为
Figure FDA00040563358900000220
对第二特征金字塔的第T层点云特征数据
Figure FDA00040563358900000221
进行上采样处理,得到第二特征金字塔的初始第T-1层点云特征数据
Figure FDA00040563358900000222
点云个数为
Figure FDA00040563358900000223
维度为
Figure FDA00040563358900000224
3.根据权利要求1所述的基于注意力机制的点云特征提取方法,其特征在于,将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行点数拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;包括:
将第一特征金字塔的第T-1层点云特征数据
Figure FDA0004056335890000031
和第二特征金字塔的初始第T-1层点云特征数据
Figure FDA0004056335890000032
进行维度拼接,得到拼接后的点云特征数据,点云个数为
Figure FDA0004056335890000033
维度为
Figure FDA0004056335890000034
利用多层感知机对拼接后的点云特征数据进行降维处理,得到第二特征金字塔的第T-1层点云特征数据
Figure FDA0004056335890000035
点云个数及维度与第一特征金字塔的第T-1层点云特征数据
Figure FDA0004056335890000036
相同;
对第二特征金字塔的第T-1层点云特征数据
Figure FDA0004056335890000037
进行上采样,得到点数减半且维度不变的第二特征金字塔的初始第T-2层点云特征数据
Figure FDA0004056335890000038
4.根据权利要求3所述的基于注意力机制的点云特征提取方法,其特征在于,对第一特征金字塔的第零层数据、第二特征金字塔的初始第零层数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据;包括:
将上采样数据
Figure FDA0004056335890000039
按照维度分解为:
Figure FDA00040563358900000310
维度均为
Figure FDA00040563358900000311
将第二特征金字塔的初始第零层点云特征数据
Figure FDA00040563358900000312
分解为:
Figure FDA00040563358900000313
Figure FDA00040563358900000314
维度均为
Figure FDA00040563358900000315
分别对:
Figure FDA00040563358900000316
Figure FDA00040563358900000317
的维度取最大值,得到
Figure FDA00040563358900000318
Figure FDA00040563358900000319
利用线性投影矩阵WQ、WK和WV进行如下变换,得到矩阵Q、矩阵K和矩阵V:
Figure FDA0004056335890000041
Figure FDA0004056335890000042
Figure FDA0004056335890000043
其中,stack(·)表示点数拼接;
计算交叉注意力矩阵atten:
Figure FDA0004056335890000044
其中,atten为1×7的矩阵;
计算注意力机制输出结果fatten
Figure FDA0004056335890000045
其中,norm(·)表示正规化函数;
利用前馈网络对fatten进行处理,得到前馈网络输出结果FFN:
FFN=max(0,fattenW1+b1)W2+b2
其中,W1
Figure FDA0004056335890000046
的矩阵,W2
Figure FDA0004056335890000047
的矩阵,b1
Figure FDA0004056335890000048
的矩阵;b2
Figure FDA0004056335890000049
的矩阵;
则第二特征金字塔的第零层点云特征数据
Figure FDA00040563358900000410
为:
Figure FDA00040563358900000411
其中,
Figure FDA00040563358900000412
的点云个数和维度与第一特征金字塔的第零层点云特征数据
Figure FDA00040563358900000413
的点云个数和维度相同;
则原始点云数据的点云特征数据为
Figure FDA00040563358900000414
5.根据权利要求4所述的基于注意力机制的点云特征提取方法,其特征在于,所述编码器待训练的参数包括:T个局部融合层的参数;所述解码器待训练的参数包括:T-2个多层感知机的参数,线性投影矩阵WQ、WK和WV和前馈网络的参数。
6.一种基于注意力机制的点云特征提取装置,其特征在于,所述装置包括:
预处理单元,用于对原始点云数据进行采样处理,得到包含预设点云数量的点云数据;
编码处理单元,用于利用预先训练完成的编码器对点云特征数据进行逐层下采样及升维处理,得到第一特征金字塔,所述第一特征金字塔包括T+1层的点云特征数据;
解码处理单元,用于利用预先训练完成的解码器对第二特征金字塔的第T层点云特征数据分别进行两次上采样处理,得到上采样数据及第二特征金字塔的初始第T-1层点云特征数据,其中第二特征金字塔的第T层点云特征数据和第一特征金字塔的第T层点云特征数据相同;将第一特征金字塔的第T-1层点云特征数据和第二特征金字塔的初始第T-1层点云特征数据进行拼接后,再进行降维处理,得到第二特征金字塔的第T-1层点云特征数据,对第二特征金字塔的第T-1层点云特征数据进行上采样得到第二特征金字塔的初始第T-2层点云特征数据;向下逐层进行处理,直至得到第二特征金字塔的初始第零层点云特征数据;对第一特征金字塔的第零层点云特征数据、第二特征金字塔的初始第零层点云特征数据和上采样数据进行交叉注意力机制处理,得到原始点云数据的点云特征数据;
所述编码器包括T个依次连接的局部融合层;利用预先训练完成的编码器对点云数据进行逐层下采样及升维处理,得到第一特征金字塔;包括:
获取点云数据
Figure FDA0004056335890000051
其点云个数为
Figure FDA0004056335890000052
维度为
Figure FDA0004056335890000053
则第一特征金字塔的第零层点云特征数据为
Figure FDA0004056335890000054
利用第t个局部融合层对第一特征金字塔的第t-1层点云特征数据
Figure FDA0004056335890000061
进行处理,得到第t层点云特征数据
Figure FDA0004056335890000062
其第i个点云的特征
Figure FDA0004056335890000063
为:
Figure FDA0004056335890000064
其中,1≤t≤T;第t-1层数据
Figure FDA0004056335890000065
的点云个数为
Figure FDA0004056335890000066
维度为
Figure FDA0004056335890000067
Figure FDA0004056335890000068
Figure FDA0004056335890000069
的第j个点云的特征,
Figure FDA00040563358900000610
N(i)为第i个点云的邻居点云的集合;Δpij为第i个点云与第j个点云的相对坐标,Δpij=pi-pj,pi为第i个点云的空间位置坐标,pj为第j个点云的空间位置坐标;G(·,·)为编码函数;R(·)为归约函数;S(·)表示降采样函数;
则第一特征金字塔包括:第零层点云特征数据
Figure FDA00040563358900000611
第一层点云特征数据
Figure FDA00040563358900000612
第T-1层点云特征数据
Figure FDA00040563358900000613
和第T层点云特征数据
Figure FDA00040563358900000614
7.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的基于注意力机制的点云特征提取方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-5任一项所述的基于注意力机制的点云特征提取方法。
CN202211116427.9A 2022-09-14 2022-09-14 一种基于注意力机制的点云特征提取方法及装置 Active CN115375910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211116427.9A CN115375910B (zh) 2022-09-14 2022-09-14 一种基于注意力机制的点云特征提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211116427.9A CN115375910B (zh) 2022-09-14 2022-09-14 一种基于注意力机制的点云特征提取方法及装置

Publications (2)

Publication Number Publication Date
CN115375910A CN115375910A (zh) 2022-11-22
CN115375910B true CN115375910B (zh) 2023-04-14

Family

ID=84071851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211116427.9A Active CN115375910B (zh) 2022-09-14 2022-09-14 一种基于注意力机制的点云特征提取方法及装置

Country Status (1)

Country Link
CN (1) CN115375910B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128941A (zh) * 2023-02-08 2023-05-16 西安电子科技大学 一种基于跳跃注意力机制的点云配准方法
CN116091849B (zh) * 2023-04-11 2023-07-25 山东建筑大学 基于分组解码器的轮胎花纹分类方法、系统、介质及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177555B (zh) * 2021-05-21 2022-11-04 西南大学 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN113345106A (zh) * 2021-06-24 2021-09-03 西南大学 一种基于多尺度多层级转换器的三维点云分析方法及系统
CN113870422B (zh) * 2021-11-30 2022-02-08 华中科技大学 一种点云重建方法、装置、设备及介质
CN114363633A (zh) * 2021-12-30 2022-04-15 中山大学 基于全自注意力网络的深度点云压缩编码方法

Also Published As

Publication number Publication date
CN115375910A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN115375910B (zh) 一种基于注意力机制的点云特征提取方法及装置
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN112950471A (zh) 视频超分处理方法、装置、超分辨率重建模型、介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN111651573B (zh) 一种智能客服对话回复生成方法、装置和电子设备
WO2022253074A1 (zh) 一种数据处理方法及相关设备
CN114418030B (zh) 图像分类方法、图像分类模型的训练方法及装置
CN113889076B (zh) 语音识别及编解码方法、装置、电子设备及存储介质
CN113961736B (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN110795549A (zh) 短文本对话方法、装置、设备及存储介质
CN112270246B (zh) 视频行为识别方法及装置、存储介质、电子设备
CN114821050A (zh) 一种基于transformer的指称图像分割方法
US20240135610A1 (en) Image generation using a diffusion model
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN115588013A (zh) 一种基于全尺度融合和流场注意力的图像分割方法
CN113869205A (zh) 对象检测方法、装置、电子设备和存储介质
JP2023133274A (ja) Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体
CN115116470B (zh) 音频处理方法、装置、计算机设备和存储介质
CN115100107A (zh) 一种皮肤镜图像分割方法及系统
CN115115835A (zh) 图像的语义分割方法、装置、设备、存储介质及程序产品
KR102348689B1 (ko) 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약
CN116601682A (zh) 经由以时间残差连接为特征的机器学习模型对顺序数据的改进处理
CN113963289A (zh) 目标检测方法、装置、电子设备及存储介质
CN111833235A (zh) 图像转换方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant