CN115294563A - 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置 - Google Patents

一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置 Download PDF

Info

Publication number
CN115294563A
CN115294563A CN202210863984.0A CN202210863984A CN115294563A CN 115294563 A CN115294563 A CN 115294563A CN 202210863984 A CN202210863984 A CN 202210863984A CN 115294563 A CN115294563 A CN 115294563A
Authority
CN
China
Prior art keywords
point cloud
semantic
local
module
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210863984.0A
Other languages
English (en)
Inventor
何发智
宋宇鹏
戴季成
鄢小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210863984.0A priority Critical patent/CN115294563A/zh
Publication of CN115294563A publication Critical patent/CN115294563A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置,其中的方法构建了深度学习模型,包括局部语义自注意力学习模块,能够并行地感知全局上下文信息和获取更细粒度的局部语义特征,从而增强整个网络框架的感知能力;通过4个局部语义学习模块得到不同模块之间点云的局部和全局特征并进行特征汇聚得到全局联合特征,然后将学习阶段所得的联合特征分别送至后续的点云分类和点云分割阶段;得到语义分类结果和最终的分割结果;本发明能获取3D数据中关键的局部几何语义信息,在点云分类应用任务、点云分割任务和大型室内场景语义分割任务等多种3D点云分析应用上有明显的优势。

Description

一种基于Transformer的增强了局部语义学习能力的3D点云 分析方法及装置
技术领域
本发明涉及计算机视觉、人工智能技术领域,尤其涉及一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置。
背景技术
近年来,三维模型受到了越来越多的关注。3D点云是一种重要的三维数据表示方法,也是三维数据中最简单的表示方法。点云的组成主要是一组在空间位置上分布的离散点,与Voxel和Mesh等其他三维数据表示形式相比,三维点云数据不仅在数据尺度上较小,而且可以通过三维扫描设备直接获取。随着3D传感器和点云数据采集设备,如3D扫描仪、LiDAR、RGB-D相机等的不断突破,使得点云处理方法能绕过传统昂贵的网格重建或去噪,而直接处理点云。大大提高了点云数据的处理效率,也降低了数据转换过程中的损耗。因此,近年来随着硬件设备和点云处理技术的进步,3D点云数据处理已被应用于机器人、自动驾驶、工业制造等多个领域。
然而,由于点云离散且无序的数据结构使得其处理一直是一个巨大的挑战。一些研究人员提出的三维点云处理技术大幅度提升了点云的处理效率和质量,但是点云数据中包含的复杂几何语义信息一直是研究的重点也存在挑战。这一过程中,受2D视觉处理的影响,一些方法侧重于如何使用常规卷积来处理从3D点云转换而来的常规3D网格。显然,使用3D网格处理点云数据不仅会因为数据转换而产生误差,而且会面临巨大的计算负担。在这项工作中,我们专注于应用深度学习技术直接处理3D点云数据。
PointNet首次提出使用深度学习端到端地直接处理点云数据并在点云分类和分割任务上取得了令人满意的结果。PointNet采用全局聚合而不考虑局部结构,导致网络感知细粒度的能力较弱。后续的人们提出了不同的方法基于深度学习的点云学习方法,PointCNN设计了X-transform来将点与内核相关联,从而使点云数据变得“规则化”,从而使用标准的操作算子。Atzmon等提出了PCNN:将卷积神经网络应用于点云的新框架。DGCNN提出了一个边卷积的操作,通过聚合点云局部形状的特征来学习局部几何信息,同时保持排列的不变性。KPConv设计了一个核函数,以球体作为局部学习区域来转换点的特征。PAConv提出在点云学习过程中使用动态权重矩阵,以构建局部点云几何信息。
虽然最近的一些点云处理方法利用局部特征来提升性能,但是这些方法在全局长距离感知能力是不足的。与此同时,基于Transformer框架的网络模型相比于上述的方法类型能够在长距离依赖过程中更好的感知全局信息,因而被迁移到视觉领域的任务中,并在多个视觉数据集上取得了突破性的结果。在3D点云处理中,国等人提出了Point cloudTransformer(PCT)使用Transformer框架进行点云特征学习。赵等人提出的PointTransformer(PT)设计了一个自注意力网络,也在点云任务上取得了良好的效果。然而,在复杂的三维视觉任务中,局部信息是理解3D全局语义的关键,无论是卷积网络还是Transformer框架。将Transformer框架直接应用于无序、不规则的点云数据中仅仅感知全局特征信息是不够的。
由此可知,现有技术中的方法因点云几何语义信息挖掘不充分和3D点云对象的形状感知能力不足从而导致点云分类和分割的效果不佳。
发明内容
本发明提供了一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置,用以解决或者至少部分解决现有技术中存在的分类和分割效果不佳的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于Transformer的增强了局部语义学习能力的3D点云分析方法,包括:
获取3D点云数据,并进行预处理;
构建用于点云语义分类和分割的模型,该模型包括输入特征嵌入模块、局部语义自注意力学习模块、聚合模块、池化模块、分类模块以及分割模块,其中,输入特征嵌入模块用于对3D点云目标仿射变换并学习得到高维度的点云patch向量,局部语义自注意力学习模块用于根据高维度的点云patch向量进行点云patch的全局特征和局部语义信息的特征学习,局部语义自注意力学习模块包括多个局部语义自注意力学习单元,第一个局部语义自注意力学习单元以输入特征嵌入模块得到的高维度的点云patch向量为输入进行计算,后面的每一个局部语义自注意力学习单元均以前一个局部语义自注意力学习单元的输出作为输入进行计算,聚合模块用于将每一个局部语义自注意力学习单元得到的局部特征进行聚合得到聚合特征,池化模块用于对聚合特征通过池化操作进行降维,得到全局聚合特征;语义分类模块用于基于全局聚合特征和3D点云数据分类的损失函数优化得到语义分类结果,语义分割模块用于基于全局聚合特征和3D点云数据分割的损失函数优化得到每一部分的分割结果;
利用构建的点云语义分类和分割的模型进行3D点云数据的语义分类和分割。
在一种实施方式中,特征嵌入模块的处理过程包括:
将初始化的原始点云数据
Figure BDA0003757815630000031
输入到输入特征嵌入模块中,采用T-Net对
Figure BDA0003757815630000032
进行仿射变换,得到经过仿射变换的点云数据集数据
Figure BDA0003757815630000033
采用最远点采样算法在点云表面均匀采样得到候选点集
Figure BDA0003757815630000034
使用K近邻算法获取候选点集
Figure BDA0003757815630000035
中每个点局部语义上最相关的k个点;
对每一个候选点集上的点在局部语义区域上学习局部点云语义信息,然后将所有的局部语义信息进行特征聚合,并使用多层感知机学习并特征升维,具体的聚合关系为:
Figure BDA0003757815630000036
其中
Figure BDA0003757815630000037
表示经过K近邻算法得到的局部区域的点云,Max表示最大池化操作,Fout作为输入特征嵌入模块最终输出的特征向量。
在一种实施方式中,局部语义自注意力学习单元的数量为4个,局部语义自注意力学习模块的处理过程包括:
第一个局部语义自注意力学习单元以输入特征嵌入模块得到的特征向量为输入进行计算,得到第一局部特征;
第二个局部语义自注意力学习单元以第一局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第二局部特征;
第三个局部语义自注意力学习单元以第二局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第三局部特征;
第四个局部语义自注意力学习单元以第三局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第四局部特征。
在一种实施方式中,每一个局部语义自注意力学习单元的计算过程包括:
在输入特征嵌入模块得到的高维度的点云patch向量的基础上添加原始坐标信息后,作为自注意力机制中的Q,K,V特征向量,采用其中的特征向量Q和K计算得到注意力权重特征A,并使用Softmax进行归一化;
对特征向量V通过局部语义特征学习函数fagg进行特征信息学习,得到包含局部语义信息的特征向量V′;
将包含局部语义信息的特征向量V′与注意力权重特征A结合,得到自注意力特征向量FSa
将每一个局部语义自注意力学习单元的原始输入特征Fin与自注意力特征向量FSa利用偏移注意力策略进行结合,具体如下:
F′out=LBR(Fin-FSa)+Fin
其中,F′out为自注意力输出特征;
采用一组线性归一化层学习自注意力输出特征F′out和当前层的原始输入特征Fin特征,得到对应的局部特征,具体如下:
Figure BDA0003757815630000041
其中
Figure BDA0003757815630000042
表示第i个局部语义自注意力学习单元LSL-SA输出的局部特征。
在一种实施方式中,聚合模块的聚合过程为:
Figure BDA0003757815630000043
其中,
Figure BDA0003757815630000044
表示第一局部特征到第四局部特征,FSo为全局聚合特征,为一个1024维的全局特征向量。
在一种实施方式中,语义分类模块包括三个线性全连接层,语义分类模块的处理过程为:
将池化模块得到的特征向量分别输入521维和256维的线性全连接层;
根据3D点云分类任务,通过最后一个线性全连接层输出k个候选类的不同判断结果。
在一种实施方式中,语义分割模块包括四个线性全连接层,语义分割模块的处理过程为:
将池化模块得到的特征向量、原始输入数据
Figure BDA0003757815630000045
的语义类别通过MLP特征升维得到的64维的类别编码特征进行结合得到结合后的特征向量;
将结合后的特征向量分别输入512维、256维和128维的线性全连接层;
根据3D点云分割任务,通过最后一个线性全连接层对N个点作M个语义子类别的分割,得到最终分割结果,N为点云的数量,M为语义类别的数量。
基于同样的发明构思,本发明第二方面提供了一种基于Transformer的增强了局部语义学习能力的3D点云分析装置,包括:
数据获取与预处理模块,用于获取3D点云数据,并进行预处理;
模型构建模块,用于构建用于点云语义分类和分割的模型,该模型包括输入特征嵌入模块、局部语义自注意力学习模块、聚合模块、池化模块、分类模块以及分割模块,其中,输入特征嵌入模块用于对3D点云目标仿射变换并学习得到高维度的点云patch向量,局部语义自注意力学习模块用于根据高维度的点云patch向量进行点云patch的全局特征和局部语义信息的特征学习,局部语义自注意力学习模块包括多个局部语义自注意力学习单元,第一个局部语义自注意力学习单元以输入特征嵌入模块得到的高维度的点云patch向量为输入进行计算,后面的每一个局部语义自注意力学习单元均以前一个局部语义自注意力学习单元的输出作为输入进行计算,聚合模块用于将每一个局部语义自注意力学习单元得到的局部特征进行聚合得到聚合特征,池化模块用于对聚合特征通过池化操作进行降维,得到全局聚合特征;语义分类模块用于基于全局聚合特征和3D点云数据分类的损失函数优化得到语义分类结果,语义分割模块用于基于全局聚合特征和3D点云数据分割的损失函数优化得到每一部分的分割结果;
语义分类与分割模块,用于利用构建的点云语义分类和分割的模型进行3D点云数据的语义分类和分割。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
相对于现有技术,本发明的优点和有益的技术效果如下:
本发明构建了用于点云语义分类和分割的模型,该模型包括输入特征嵌入模块、局部语义自注意力学习模块、聚合模块、池化模块、分类模块以及分割模块,通过输入特征嵌入模块可以对3D点云目标仿射变换并学习得到高维度的点云patch向量,通过局部语义自注意力学习模块可以根据高维度的点云patch向量进行点云patch的全局特征和局部语义信息的特征学习,总体来说,本发明通过深度模型学习点云几何语义信息,并将局部语义自注意力机制融合于一个深度网络模型中,学习3D点云形状识别的鲁棒性特征,克服噪声、空间形变等不确定性问题,提高了3D点云形状识别的正确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于Transformer的增强了局部语义学习能力的3D点云分析方的流程示意图;
图2为本发明实施例中构建的用于点云语义分类和分割的模型的结构示意图;
图3为本发明实施例中输入特征嵌入模块(IFE)的工作流示意图;
图4为本发明实施例中局部语义学习自注意力模块(LSL-SA)的架构图。
具体实施方式
本发明实施例公开了一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置,该方法包括:一种可以部署在本地计算设备上的新型的局部语义学习点云Transformer网络框架,其中包含了本发明提出的局部语义学习自注意力机制(LocalSemantic Learning Self-attention,LSL-SA),该机制中从整体上理解3D数据的语义信息,同时在局部特征学习上得到了增强,能够更好地处理无序且不规则的点云,尤其适用于点云等具有高价值几何信息的任务;该机制被集成在专门设计的局部语义学习自注意力模块中能够并行地感知全局上下文信息和获取更细粒度的局部语义特征,从而增强整个网络框架的感知能力;该方法可以以端到端的方式与典型的点云深度学习网络结构集成和兼容,发明中通过4个局部语义学习单元得到不同单元之间点云的局部和全局特征并进行特征汇聚得到全局联合特征,然后将学习阶段所得的联合特征分别送至后续的点云分类和点云分割阶段;在三维点云分类任务中,三个全连通层,分别为521、256和最终不同候选类别;在点云分割任务中,将两种不同池化方式全局的1024维特征和前层所得的LSL-SA特征结合得到(1024+1024+64)维局部和全局混合特征,再经过四个全连接层,得到最终的分割结果。
本发明的基于Transformer的增强了局部语义学习能力的3D点云分析方法可以用于各种CAX领域的3D点云处理中,能获取3D数据中关键的局部几何语义信息,在点云分类应用任务、点云分割任务和大型室内场景语义分割任务等多种3D点云分析应用上有明显的优势。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于Transformer的增强了局部语义学习能力的3D点云分析方法,包括:
S1:获取3D点云数据,并进行预处理;
S2:构建用于点云语义分类和分割的模型,该模型包括输入特征嵌入模块、局部语义自注意力学习模块、聚合模块、池化模块、分类模块以及分割模块,其中,输入特征嵌入模块用于对3D点云目标仿射变换并学习得到高维度的点云patch向量,局部语义自注意力学习模块用于根据高维度的点云patch向量进行点云patch的全局特征和局部语义信息的特征学习,局部语义自注意力学习模块包括多个局部语义自注意力学习单元,第一个局部语义自注意力学习单元以输入特征嵌入模块得到的高维度的点云patch向量为输入进行计算,后面的每一个局部语义自注意力学习单元均以前一个局部语义自注意力学习单元的输出作为输入进行计算,聚合模块用于将每一个局部语义自注意力学习单元得到的局部特征进行聚合得到聚合特征,池化模块用于对聚合特征通过池化操作进行降维,得到全局聚合特征;语义分类模块用于基于全局聚合特征和3D点云数据分类的损失函数优化得到语义分类结果,语义分割模块用于基于全局聚合特征和3D点云数据分割的损失函数优化得到每一部分的分割结果;
S3:利用构建的点云语义分类和分割的模型进行3D点云数据的语义分类和分割。
图1是根据本发明一实施例的一种基于Transformer的增强了局部语义学习能力的3D点云分析方法的流程图,下面以图1为例来说明本发明的一些具体实现流程,如图1所示,所述的基于Transformer的增强了局部语义学习能力的3D点云分析方法和点云分类和点云分割应用包括以下步骤:
步骤S1,在计算装置中输入3D点云数据信息并数据预处理,在ModelNet40数据集训练时,先按照设定批次大小加载数据,并使用抖动,旋转,平移的方式进行数据增强。
步骤S2,通过提出的输入特征嵌入模块对3D点云对象仿射变换并学习去得到高维度的点云patch向量,并将其输入至后续网络模块中;
步骤S3,利用提出的LSL-SA进行点云patch的全局特征和局部语义信息的特征学习
Figure BDA0003757815630000071
步骤S4,将点特征学习阶段中所有核相关学习模块的特征进行聚合。
步骤S5,将所述的不同阶段所聚合的全局特征FSo通过池化操作进行降维;
步骤S6,基于全局聚合特征联合3D点云数据分类的损失函数优化得到分类结果;
步骤S7,基于全局聚合特征联合3D点云数据分割的损失函数优化得到每一部分的分割结果,最终完成分割任务。
步骤S1中,在本发明一实施例中,硬件设备为中央处理单元(CPU):Intel i510500(4.3GHz)。图形处理器(GPU):NVIDIA GeForce RTX 3090(24G显存);内存存储器:64G;物理数据存储器:SSD(500G)。调试硬件设备正常后,分别安装软件:PyTorch平台的设计和实现,编程语言Python 3.8,torch 1.8等软件编译平台,完成后部署本发明代码并输入数据。
图2是根据本发明一实施例整体的点云数据处理模型结构图。
在一种实施方式中,特征嵌入模块的处理过程包括:
S21:将初始化的原始点云数据
Figure BDA0003757815630000072
输入到输入特征嵌入模块中,采用T-Net对
Figure BDA0003757815630000073
进行仿射变换,得到经过仿射变换的点云数据集数据
Figure BDA0003757815630000074
S22:采用最远点采样算法在点云表面均匀采样得到候选点集
Figure BDA0003757815630000075
S23:使用K近邻算法获取候选点集
Figure BDA0003757815630000076
中每个点局部语义上最相关的k个点;
S24:对每一个候选点集上的点在局部语义区域上学习局部点云语义信息,然后将所有的局部语义信息进行特征聚合,并使用多层感知机学习并特征升维,具体的聚合关系为:
Figure BDA0003757815630000081
其中
Figure BDA0003757815630000082
表示经过K近邻算法得到的局部区域的点云,Max表示最大池化操作,Fout作为输入特征嵌入模块最终输出的特征向量。
图3是根据本发明一实施例的输入嵌入模块结构流程图,下面以图3为例来说明本发明在IFE模块时点云数据处理过程。
在步骤S21的实施过程中,每个3D点云对象经过预处理后包含1024个点,并使用一个由多个隐藏层组成的回归网络T-net,学习得到仿射变换因子Aθ,可以被表示如下:
Figure BDA0003757815630000083
其中Aθ是由元素θ11~θ33组成的3×3的仿射因子矩阵,然后将仿射变换因子Aθ与原始输入点集
Figure BDA0003757815630000084
结合得到
Figure BDA0003757815630000085
在步骤S22的实施过程中,使用FPS算法均匀采样点数设置为512,得到均匀采样的候选点集
Figure BDA0003757815630000086
在步骤S23的实施过程中,局部语义范围K设置为16。
在步骤S24的实施过程中,对于每个点都采用最大池化的方式进行特征聚合,同时在特征升维过程中使用MLP将特征维度升至256维,因此经过IFE模块后每个点都学习得到256维的特征信息。
在一种实施方式中,局部语义自注意力学习单元的数量为4个,局部语义自注意力学习模块的处理过程包括:
第一个局部语义自注意力学习单元以输入特征嵌入模块得到的特征向量为输入进行计算,得到第一局部特征;
第二个局部语义自注意力学习单元以第一局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第二局部特征;
第三个局部语义自注意力学习单元以第二局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第三局部特征;
第四个局部语义自注意力学习单元以第三局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第四局部特征。
在一种实施方式中,每一个局部语义自注意力学习单元的计算过程包括:
S31:在输入特征嵌入模块得到的高维度的点云patch向量的基础上添加原始坐标信息后,作为自注意力机制中的Q,K,V特征向量,采用其中的特征向量Q和K计算得到注意力权重特征A,并使用Softmax进行归一化;
S32:对特征向量V通过局部语义特征学习函数fagg进行特征信息学习,得到包含局部语义信息的特征向量V′;
S33:将包含局部语义信息的特征向量V′与注意力权重特征A结合,得到自注意力特征向量FSa
S34:将每一个局部语义自注意力学习单元的原始输入特征Fin与自注意力特征向量FSa利用偏移注意力策略进行结合,具体如下:
F′out=LBR(Fin-FSa)+Fin
其中,F′out为自注意力输出特征;
S35:采用一组线性归一化层学习自注意力输出特征F′out和当前层的原始输入特征Fin特征,得到对应的局部特征,具体如下:
Figure BDA0003757815630000091
其中
Figure BDA0003757815630000092
表示第i个局部语义自注意力学习单元LSL-SA输出的局部特征。
具体来说,图4是根据本发明一实施例的局部语义自注意力学习模块的数据流程结构图。
具体的,所述步骤S3包括以下步骤:
在步骤S31的实施过程中,将IFE得到的256维特征向量分别作为Q,K和V进行自注意力的计算,首先得到注意力权重特征A=(α)i,j=Q·KT,然后使用Softmax进行归一化,可以被表示如下:
Figure BDA0003757815630000093
其中αi,j表示相对当前中心点xi和其对应相关的语义关系邻域点xj所产生的自注意力权重,由注意力分布权重
Figure BDA0003757815630000094
及加权平均权重
Figure BDA0003757815630000095
并经过一系列操作,如加权求和∑计算所得;
在步骤S32的实施过程中,设计了局部语义信息学习函数
Figure BDA0003757815630000096
Figure BDA0003757815630000097
其中
Figure BDA0003757815630000098
为局部邻域特征,xi为当前位置中心点,xj表示对于xj表示当前中心点的语义关系邻域点,一组可学习的参数θ用于学习局部语义信息,采用max作为通道对称函数。
在步骤S33的实施过程中,将包含了局部语义信息的特征向量V′与注意力权重特征A结合,得到自注意力特征向量FSa,可以被表示为:FSa=A·V′;
在步骤S34的实施过程中:
自注意力可以总结为
Figure BDA0003757815630000099
Figure BDA00037578156300000910
是网络模型在输入数据中学习的参数。
在步骤S35的实施过程中:
采用了4组LSL-SA,因而分别得到
Figure BDA0003757815630000101
的LSL-SA特征向量,除第一组LSL-SA外,其他层的特征输入都为上一组的LSL-SA的和经过IFE的原始输入的特征向量。
在一种实施方式中,聚合模块的聚合过程为:
Figure BDA0003757815630000102
其中,
Figure BDA0003757815630000103
表示第一局部特征到第四局部特征,FSo为全局聚合特征,为一个1024维的全局特征向量。
进一步地,步骤S4中将点特征学习阶段中所有核相关学习模块的特征进行聚合。
在本发明一实施例中,点特征学习阶段将前层的核相关学习模块分别为:256,256,256,256维特征向量聚合,可表示为:
Figure BDA0003757815630000104
其中每一组LSL-SA模块的输出特征为
Figure BDA0003757815630000105
聚合得到整体聚合特征向量为FSo
步骤S5,将所述的不同阶段所聚合的全局特征FSo通过池化操作进行降维。
进一步地,所述步骤S5中的池化操作表示为:
Fg=Max(FSo)
在本发明一实施例中,最大池化操作后将原始学习得来的聚合特征最大池化为统一的1024维特征向量,另外,在分割任务时,还采用了平均池化操作Avg,被表示为Fg=Avg(FSp)得到另一组1024维的特征向量。
在一种实施方式中,语义分类模块包括三个线性全连接层,语义分类模块的处理过程为:
将池化模块得到的特征向量分别输入521维和256维的线性全连接层;
根据3D点云分类任务,通过最后一个线性全连接层输出k个候选类的不同判断结果。
具体来说,步骤S6,基于全局聚合特征联合3D点云数据分类的损失函数优化得到分类结果。
具体实施过程中,步骤S6包括以下步骤:
步骤S61,将S5中得到的1024维点特征向量分别输入521维和256维的线性全连接层;
步骤S62,通过前两层线性全连接层后,根据3D点云分类任务,输出k个候选类的不同判断结果;
在本发明一实施例中,3D形状识别应用中,模型需要在输入原始点云中判别其语义类别,当前实例在ModelNet40数据集上评估,判断候选类K为40,所得结果就是最终判别结果,实现3D形状识别分类应用。
在一种实施方式中,语义分割模块包括四个线性全连接层,语义分割模块的处理过程为:
将池化模块得到的特征向量、原始输入数据
Figure BDA0003757815630000111
的语义类别通过MLP特征升维得到的64维的类别编码特征进行结合得到结合后的特征向量;
将结合后的特征向量分别输入512维、256维和128维的线性全连接层;
根据3D点云分割任务,通过最后一个线性全连接层对N个点作M个语义子类别的分割,得到最终分割结果,N为点云的数量,M为语义类别的数量。
步骤S7,基于全局聚合特征联合3D点云数据分割的损失函数优化得到每一部分的分割结果,最终完成分割任务。
进一步地,所述步骤S7包括以下步骤:
步骤S71,将S5中得到的两种不同池化方式的特征与类别特征相结合得到用于分割的Fseg特征向量;
具体实施过程中,所述步骤S71中的特征向量聚合表示为:
Fseg=cat(Fg1,Fg2,Fc)
其中cat表示聚合操作,Fg1表示经过最大池化操作所得的全局特征向量,Fg2表示经过平均池化操作所得的全局特征向量,Fc表示One-hot类别编码特征。
具体实施过程中,步骤S7通过下述步骤来实现:
步骤S72,将综合了前层的向量分别输入512维、256维和128维的线性全连接层;
步骤S73,通过前三层线性全连接层的特征向量后,根据3D点云分割任务,对N个点作M个语义子类别的分割,得到最终分割结果,具体请参见实审参考资料,分别对应点云部件语义分割应和大型室内场景语义分割应用。
具体地,实审参考资料的一个附图包括根据本发明一实施例的在点云部件分割应用任务的效果图,下面以该附图为例来说明本发明点云部件语义分割应用时的处理过程;在本发明一实施例中,在3D点云部件分割应用任务中,需要完成对一个3D点云目标的不同部分的语义分割,本实例测试部件语义分割在ShapeNet数据集评估测试,有50个部件的语义类别,根据步骤S73,其中N为2048,M为50,最终每个点的语义标签,根据不同3D点云模型中不同的部件语义分割,所得结果就是最终判别的语义结果。
具体地,实审参考资料的另一个附图根据本发明一实施例的在大型室内场景语义分割应用时的效果图,下面以该附图为例来说明本发明在大型室内场景语义分割应用时的处理过程;在本发明一实施例中,在大型室内场景语义分割应用任务中,使用S3DIS数据集评估测试,根据3D点云的每个点的语义标签对272间室内场景内的全部的13类别点云标签语义判别,每个3D点云对象包含4096个点,每个点都包含不同的语义信息,根据步骤S73,其中N为4096,M为13,最终每个点的语义标签。
以网上公开的3D点云形状数据集作为测试对象,比如在ModelNet40,ShapeNet,S3DIS数据集上测试。本发明行是基于深度学习的Transformer框架学习点云特征的3D点云的分类和分割方法及应用,并设计实现了一个完整的模型框架及在计算设备上部署,提高了3D点云形状的识别精确率,由此可见本发明方法的有效性。
实施例二
基于同样的发明构思,本实施例提供了一种基于Transformer的增强了局部语义学习能力的3D点云分析装置,包括:
数据获取与预处理模块,用于获取3D点云数据,并进行预处理;
模型构建模块,用于构建用于点云语义分类和分割的模型,该模型包括输入特征嵌入模块、局部语义自注意力学习模块、聚合模块、池化模块、分类模块以及分割模块,其中,输入特征嵌入模块用于对3D点云目标仿射变换并学习得到高维度的点云patch向量,局部语义自注意力学习模块用于根据高维度的点云patch向量进行点云patch的全局特征和局部语义信息的特征学习,局部语义自注意力学习模块包括多个局部语义自注意力学习单元,第一个局部语义自注意力学习单元以输入特征嵌入模块得到的高维度的点云patch向量为输入进行计算,后面的每一个局部语义自注意力学习单元均以前一个局部语义自注意力学习单元的输出作为输入进行计算,聚合模块用于将每一个局部语义自注意力学习单元得到的局部特征进行聚合得到聚合特征,池化模块用于对聚合特征通过池化操作进行降维,得到全局聚合特征;语义分类模块用于基于全局聚合特征和3D点云数据分类的损失函数优化得到语义分类结果,语义分割模块用于基于全局聚合特征和3D点云数据分割的损失函数优化得到每一部分的分割结果;
语义分类与分割模块,用于利用构建的点云语义分类和分割的模型进行3D点云数据的语义分类和分割。
由于本发明实施例二所介绍的装置为实施本发明实施例一中基于Transformer的增强了局部语义学习能力的3D点云分析方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于Transformer的增强了局部语义学习能力的3D点云分析方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,包括存储、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于Transformer的增强了局部语义学习能力的3D点云分析方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于Transformer的增强了局部语义学习能力的3D点云分析方法,其特征在于,包括:
获取3D点云数据,并进行预处理;
构建用于点云语义分类和分割的模型,该模型包括输入特征嵌入模块、局部语义自注意力学习模块、聚合模块、池化模块、分类模块以及分割模块,其中,输入特征嵌入模块用于对3D点云目标仿射变换并学习得到高维度的点云patch向量,局部语义自注意力学习模块用于根据高维度的点云patch向量进行点云patch的全局特征和局部语义信息的特征学习,局部语义自注意力学习模块包括多个局部语义自注意力学习单元,第一个局部语义自注意力学习单元以输入特征嵌入模块得到的高维度的点云patch向量为输入进行计算,后面的每一个局部语义自注意力学习单元均以前一个局部语义自注意力学习单元的输出作为输入进行计算,聚合模块用于将每一个局部语义自注意力学习单元得到的局部特征进行聚合得到聚合特征,池化模块用于对聚合特征通过池化操作进行降维,得到全局聚合特征;语义分类模块用于基于全局聚合特征和3D点云数据分类的损失函数优化得到语义分类结果,语义分割模块用于基于全局聚合特征和3D点云数据分割的损失函数优化得到每一部分的分割结果;
利用构建的点云语义分类和分割的模型进行3D点云数据的语义分类和分割。
2.如权利要求1所述的基于Transformer的增强了局部语义学习能力的3D点云分析方法,其特征在于,特征嵌入模块的处理过程包括:
将初始化的原始点云数据
Figure FDA0003757815620000011
输入到输入特征嵌入模块中,采用T-Net对
Figure FDA0003757815620000012
进行仿射变换,得到经过仿射变换的点云数据集数据
Figure FDA0003757815620000013
采用最远点采样算法在点云表面均匀采样得到候选点集
Figure FDA0003757815620000014
使用K近邻算法获取候选点集
Figure FDA0003757815620000015
中每个点局部语义上最相关的k个点;
对每一个候选点集上的点在局部语义区域上学习局部点云语义信息,然后将所有的局部语义信息进行特征聚合,并使用多层感知机学习并特征升维,具体的聚合关系为:
Figure FDA0003757815620000016
其中
Figure FDA0003757815620000017
表示经过K近邻算法得到的局部区域的点云,Max表示最大池化操作,Fout作为输入特征嵌入模块最终输出的特征向量。
3.如权利要求1所述的基于Transformer的增强了局部语义学习能力的3D点云分析方法,其特征在于,局部语义自注意力学习单元的数量为4个,局部语义自注意力学习模块的处理过程包括:
第一个局部语义自注意力学习单元以输入特征嵌入模块得到的特征向量为输入进行计算,得到第一局部特征;
第二个局部语义自注意力学习单元以第一局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第二局部特征;
第三个局部语义自注意力学习单元以第二局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第三局部特征;
第四个局部语义自注意力学习单元以第三局部特征和输入特征嵌入模块得到的特征向量为输入进行计算,得到第四局部特征。
4.如权利要求3所述的基于Transformer的增强了局部语义学习能力的3D点云分析方法,其特征在于,每一个局部语义自注意力学习单元的计算过程包括:
在输入特征嵌入模块得到的高维度的点云patch向量的基础上添加原始坐标信息后,作为自注意力机制中的Q,K,V特征向量,采用其中的特征向量Q和K计算得到注意力权重特征A,并使用Softmax进行归一化;
对特征向量V通过局部语义特征学习函数fagg进行特征信息学习,得到包含局部语义信息的特征向量V′;
将包含局部语义信息的特征向量V′与注意力权重特征A结合,得到自注意力特征向量FSa
将每一个局部语义自注意力学习单元的原始输入特征Fin与自注意力特征向量FSa利用偏移注意力策略进行结合,具体如下:
F′out=LBR(Fin-Fsa)+Fin
其中,F′out为自注意力输出特征;
采用一组线性归一化层学习自注意力输出特征F′out和当前层的原始输入特征Fin特征,得到对应的局部特征,具体如下:
Figure FDA0003757815620000021
其中
Figure FDA0003757815620000022
表示第i个局部语义自注意力学习单元LSL-SA输出的局部特征。
5.如权利要求3所述的基于Transformer的增强了局部语义学习能力的3D点云分析方法,其特征在于,聚合模块的聚合过程为:
Figure FDA0003757815620000023
其中,
Figure FDA0003757815620000024
表示第一局部特征到第四局部特征,FSo为全局聚合特征,为一个1024维的全局特征向量。
6.如权利要求1所述的基于Transformer的增强了局部语义学习能力的3D点云分析方法,其特征在于,语义分类模块包括三个线性全连接层,语义分类模块的处理过程为:
将池化模块得到的特征向量分别输入521维和256维的线性全连接层;
根据3D点云分类任务,通过最后一个线性全连接层输出k个候选类的不同判断结果。
7.如权利要求1所述的基于Transformer的增强了局部语义学习能力的3D点云分析方法,其特征在于,语义分割模块包括四个线性全连接层,语义分割模块的处理过程为:
将池化模块得到的特征向量、原始输入数据
Figure FDA0003757815620000031
的语义类别通过MLP特征升维得到的64维的类别编码特征进行结合得到结合后的特征向量;
将结合后的特征向量分别输入512维、256维和128维的线性全连接层;
根据3D点云分割任务,通过最后一个线性全连接层对N个点作M个语义子类别的分割,得到最终分割结果,N为点云的数量,M为语义类别的数量。
8.一种基于Transformer的增强了局部语义学习能力的3D点云分析装置,其特征在于,包括:
数据获取与预处理模块,用于获取3D点云数据,并进行预处理;
模型构建模块,用于构建用于点云语义分类和分割的模型,该模型包括输入特征嵌入模块、局部语义自注意力学习模块、聚合模块、池化模块、分类模块以及分割模块,其中,输入特征嵌入模块用于对3D点云目标仿射变换并学习得到高维度的点云patch向量,局部语义自注意力学习模块用于根据高维度的点云patch向量进行点云patch的全局特征和局部语义信息的特征学习,局部语义自注意力学习模块包括多个局部语义自注意力学习单元,第一个局部语义自注意力学习单元以输入特征嵌入模块得到的高维度的点云patch向量为输入进行计算,后面的每一个局部语义自注意力学习单元均以前一个局部语义自注意力学习单元的输出作为输入进行计算,聚合模块用于将每一个局部语义自注意力学习单元得到的局部特征进行聚合得到聚合特征,池化模块用于对聚合特征通过池化操作进行降维,得到全局聚合特征;语义分类模块用于基于全局聚合特征和3D点云数据分类的损失函数优化得到语义分类结果,语义分割模块用于基于全局聚合特征和3D点云数据分割的损失函数优化得到每一部分的分割结果;
语义分类与分割模块,用于利用构建的点云语义分类和分割的模型进行3D点云数据的语义分类和分割。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。
CN202210863984.0A 2022-07-21 2022-07-21 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置 Pending CN115294563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210863984.0A CN115294563A (zh) 2022-07-21 2022-07-21 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210863984.0A CN115294563A (zh) 2022-07-21 2022-07-21 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置

Publications (1)

Publication Number Publication Date
CN115294563A true CN115294563A (zh) 2022-11-04

Family

ID=83823419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210863984.0A Pending CN115294563A (zh) 2022-07-21 2022-07-21 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置

Country Status (1)

Country Link
CN (1) CN115294563A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620001A (zh) * 2022-12-15 2023-01-17 长春理工大学 基于3d点云双边扩增算法的视觉辅助系统
CN116452931A (zh) * 2023-04-11 2023-07-18 北京科技大学 一种层级敏感的图像特征聚合方法
CN117197063A (zh) * 2023-08-30 2023-12-08 深圳职业技术学院 基于多视角投影和transformer模型的点云质量评价方法及相关产品
CN117649530A (zh) * 2024-01-30 2024-03-05 武汉理工大学 基于语义级拓扑结构的点云特征提取方法、系统及设备
CN118015284A (zh) * 2024-04-09 2024-05-10 中国空气动力研究与发展中心低速空气动力研究所 基于生成对抗网络的点云分割方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620001A (zh) * 2022-12-15 2023-01-17 长春理工大学 基于3d点云双边扩增算法的视觉辅助系统
CN115620001B (zh) * 2022-12-15 2023-04-07 长春理工大学 基于3d点云双边扩增算法的视觉辅助系统
CN116452931A (zh) * 2023-04-11 2023-07-18 北京科技大学 一种层级敏感的图像特征聚合方法
CN116452931B (zh) * 2023-04-11 2024-03-19 北京科技大学 一种层级敏感的图像特征聚合方法
CN117197063A (zh) * 2023-08-30 2023-12-08 深圳职业技术学院 基于多视角投影和transformer模型的点云质量评价方法及相关产品
CN117649530A (zh) * 2024-01-30 2024-03-05 武汉理工大学 基于语义级拓扑结构的点云特征提取方法、系统及设备
CN117649530B (zh) * 2024-01-30 2024-04-23 武汉理工大学 基于语义级拓扑结构的点云特征提取方法、系统及设备
CN118015284A (zh) * 2024-04-09 2024-05-10 中国空气动力研究与发展中心低速空气动力研究所 基于生成对抗网络的点云分割方法及系统

Similar Documents

Publication Publication Date Title
CN111242208B (zh) 一种点云分类方法、分割方法及相关设备
Alani et al. Hand gesture recognition using an adapted convolutional neural network with data augmentation
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN115294563A (zh) 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN112949673A (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN110222718B (zh) 图像处理的方法及装置
KR20180004898A (ko) 딥러닝 기반의 이미지 처리 기술 및 그 방법
CN109034206A (zh) 图像分类识别方法、装置、电子设备及计算机可读介质
CN114972213A (zh) 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法
WO2022012668A1 (zh) 一种训练集处理方法和装置
Bose et al. In-situ recognition of hand gesture via Enhanced Xception based single-stage deep convolutional neural network
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
Owoyemi et al. Spatiotemporal learning of dynamic gestures from 3d point cloud data
CN114998638A (zh) 基于动静态卷积融合神经网络的多视图三维点云分类方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
CN114333049A (zh) 猪只攻击行为识别方法、系统、计算机设备和存储介质
CN114972794A (zh) 基于多视图Pooling Transformer的三维对象识别方法
Culurciello et al. An analysis of the connections between layers of deep neural networks
Chua et al. Visual IoT: ultra-low-power processing architectures and implications
Li Parallel two-class 3D-CNN classifiers for video classification
Nguyen et al. A comprehensive taxonomy of dynamic texture representation
Chun-man et al. Face expression recognition based on improved MobileNeXt

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination