CN115019053A - 一种用于点云分类分割的动态图语义特征提取方法 - Google Patents
一种用于点云分类分割的动态图语义特征提取方法 Download PDFInfo
- Publication number
- CN115019053A CN115019053A CN202210617973.4A CN202210617973A CN115019053A CN 115019053 A CN115019053 A CN 115019053A CN 202210617973 A CN202210617973 A CN 202210617973A CN 115019053 A CN115019053 A CN 115019053A
- Authority
- CN
- China
- Prior art keywords
- features
- semantic
- feature
- group
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明属于点云特征提取技术领域,特别是涉及一种用于点云分类分割的动态图语义特征提取方法。
背景技术
计算机视觉一直是一个很活跃的研究课题,尤其是三维视觉;而三维数据的表现形式通常有投影图像、网格、体素、点云。
点云保留了三维空间中物体的原始几何信息,其表达方式简单,不需要任何的离散化。随着3D采集技术的快速发展,点云也变得易于获取,包括各种3D scanners,LiDARs。三维点云数据因获取途径广、精度高等优点被广泛用于现代工程中的各个领域,包括机器人、遥感等。近年来,深度学习成为研究计算机视觉、自然语言处理的热点。因为点云的不规则性、离散化等特征,使得基于深度学习的三维点云特征提取方法具有挑战性。而点云特征提取对于点云后续的分类分割任务是十分重要的。本发明主要研究点云的分类和部分分割;
基于图的方法:点云在空间中是离散分布的,点与点之间没有显著的联系。而图结构可以很好的构建点与点之间的关系。作为点云中使用图论思想的先驱Simonovsky等人将每个点视为图的顶点,并通过有向边将每个顶点与其所有相邻点相连接。然后使用滤波器、多层感知机(MLP)等提出了边缘条件卷积(ECC)。PointNet是第一个直接处理点云的网络。但是其不能很好的处理点周围的邻域信息,点与点之间缺乏很好的信息交互。PointNet++利用构建图解决了以上问题。其使用FPS采样得到点集,再使用球查找找到每个点的邻域,融合邻域信息。但是PointNet++中的点特征学习是以孤立的方式学习的,因此LocalSpecGCN被提了出来。其是在构建的局部图上将其转换在谱域上学习特征,然后用递归聚类和池化解决孤立学习点的特征的问题。同样,为了解决PointNet点与点之间的信息交互问题,DGCNN使用最邻近算法KNN来构建局部图融合点的特征,之后在特征空间中动态的更新图。DeepGCN采用了在训练深度卷积神经网络中成功的概念,主要是残余连接、密集连接和扩张卷积。提出允许训练非常深入的图卷积神经网络GCNs。So-Net使用point-to-node knn而不是node-to-point knn来精准控制感受野提取点云特征。GACNet使用图注意力聚合邻居点的特征,具体是对不同的邻近点分配适当的注意力权重,根据邻近点的动态学习特征。
基于注意力的方法:注意力机制最早是在视觉图像领域提出来,后来被广泛用于NLP领域,如文本摘要和阅读理解。自那以后,注意力机制开始在计算机视觉中得到广泛应用。SENet带来了一种有效的、轻量级的门控机制,可以通过通道的重要性自行重新校准特征图。其考虑的是不同通道的像素的重要性可能不一样。而CBAM考虑到同一个通道的不同位置像素重要性也可能不一样,即空间层面上。所以在SENet的基础上添加了空间注意力。受NLP领域提出的Transformer的影响,PAT使用自注意力机制和group shuffle注意力来获得点云的重要性特征。L2G提出了提出了局部到全局的自编码器,通过局部到全局的重构同时学习点云的局部和全局结构。Point Transformer是基于向量自注意力机制来提取点云特征,注意力的输入是下采样后的点云的位置和特征。PCT通过使用transformer固有的顺序不变性来避免定义点云数据的顺序和通过偏移注意力机制来进行特征学习。
基于其他方法的:MVCNN使用多视图的方法对3D形状识别。其利用同一件三维形状的不同视角下的图,结合起来提取三维形状描述算子。PVNet是第一个结合了多视图和点云的方法进行3D形状识别。其利用多视图数据中的高级特征对点云数据中不同结构特征的内在相关性和可识别性进行建模。VoteNet采用的是体积表示来表示点云。其通过骨干网选择一组种子点,学习它们的特征,然后对这些种子点进行霍夫投票。Kd-net为输入点云构造kD-tree,然后从叶到根进行分层特征提取。CP-Net考虑每个点的重要性,通过自适应性关键点采样提取点云特征进行分类任务。
现有的技术主要存在以下问题:
点云是一种非结构化、不规则,且在空间中离散分布的非欧数据。Graphconvolution networks(GCNs)由于其能用图表示非欧数据的优势,得到了很多的应用。在点云中构建图能够很好地建立点与点之间的联系,并将图上的点可以看作一个规则有序的点集输入神经网络。图的构建方式有在谱域和空域中两种方式,而在谱域中构建图,特征分解很浪费计算资源和内存的,因此一般是在空域中构建图。Pointnet++扩展了PointNet,它不仅考虑了全局信息,还考虑了局部细节。使用最远点采样得到点集,再通过球查找构建局部图,之后使用MLP和最大池化来聚合点云的局部特征。DGCNN通过使用k邻近算法构建局部图,使用非对称函数聚合点云的局部特征和全局特征,之后使用MLP和最大池化聚合点的信息。PointWeb使用最远点采样得到点集,再通过knn构建局部图。提出了一个专注于研究局部点云图内各点之间的关系的AFA模块,在信息聚合时使用MLP和最大池化。大部分基于图的方法处理点云的局部特征时,构图后通常采用1x1卷积增加通道数,然后使用最大池化聚合特征。但是聚合特征后并没有通道之间的直接语义信息交互。而且仅使用最大池化,这损失了每个节点的特征和节点之间的关系信息。
为此,本发明为了解决现有技术的缺陷,以提供出本发明的一一种用于点云分类分割的动态图语义特征提取方法。
发明内容
本发明的目的在于提供一种用于点云分类分割的动态图语义特征提取方法,用于解决上述背景技术中的现有技术问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种用于点云分类分割的动态图语义特征提取方法,包括以下步骤:
输入具有n个点的C维数据P;
x′i=hθ(xi,xj)
通过边缘函数hθ聚合点xi的邻居特征;
通过最大池化获得局部图上最有代表性的语义信息X′,获得语义特征最明显的位置;
利用组整体的特征空间分布来调整单通道语义特征;X′={x1,...,xC′},将特征图按照通道维数分为G组,即每组有m(m=C’/G)维特征;首先求得组内各个通道均值,用于表示单通道特征ci,之后再更新组内特征,同时对组内点的不同特征相加,得到整组的语义特征pg;
再对整组的语义特征pg进行归一化处理;
将图注意力和语义特征通过可学习的标量α和β对特征进行聚合,得到聚合特征f。
进一步地,所述C维数据P表示为:
P={pi∈RC,i=0,...,N-1}。
进一步地,所述局部图G=(V,E)的构建基于每个点周围邻近的k个点。
进一步地,所述边缘函数hθ表示为:
hθ(xi,xj)=hθ(xi,xj-xi)
其中,xi为全局特征,xi-xj为局部特征;
并通过多层感知机MLP处理,得到所有局部图的语义特征X,表示为:
X=MLP(hθ(xi,xj))。
进一步地,所述最有代表性的语义信息X′表示为:
X′=max(X)。
进一步地,所述单通道特征ci表示为:
其中,i表示通道上的特征,N表示有N个点,更新组内特征得到:
其中,j表示点,取值范围在1~N;
对组内点的不同特征相加,整组的语义特征pg,表示为:
其中,pg表示一个组的语义特征,i表示第g组的单通道,g表示是第G组特征。
进一步地,所述整组的语义特征pg进行归一化处理后表示为:
引入学习尺度参数γ和偏移β调整组归一化数据,得到整组的语义特征pg归一化后调整表示为:
ag=γ·pg+β。
进一步地,得到权重
W=t(X);
W为权重,t()为多层感知机MLP经过softmax处理;
进一步地,所述聚合特征f的标识为:
f=α·fg+β·fp。
本发明具有以下有益效果:
本发明通过获得局部图中语义特征最强的特征,这样之后利用各组全局统计特征与局部位置特征的相似性作为注意指导,生成语义特征提取的掩模,并采用非对称函数获取点云的局部特征和全局特征,之后使用最大池化聚合该点和其邻居点的全局和局部特征。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的局部动态示意图;
图2为本发明的效果示意图;
图3为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-3所示,本发明为一种用于点云分类分割的动态图语义特征提取方法。
1.动态图构建
传统的GCN会随着网络的加深而产生过度平滑的问题,且感受野大小不变。为了解决这一问题,我们构建局部动态图,并在特征空间中动态更新图。
输入具有n个点的C维数据P={pi∈RC,i=0,...,N-1},原始数据C=3,只表示X,Y,Z坐标;
x′i=hθ(xi,xj)
为了聚合点xi的邻居特征,选用如下非对称的边缘函数hθ。这样不仅有全局特征xi还有局部特征xi-xj。
hθ(xi,xj)=hθ(xi,xj-xi)
之后输出使用多层感知机MLP得到所有局部图的语义特征X。
X=MLP(hθ(xi,xj))
1.1语义特征交互
一个通道对应一个特征图,其是对某个特征的检测。通道中某一处数值的强弱就是对当前特征强弱的反应,说明同一通道中的特征分布是不一样的。
而不同通道关注的特征可能不同,即不同通道的特征分布也是不同的。当网络在浅层的时候,注意到是浅层特征,当网络层数越深时,关注的就是一些高级语义特征。
为了提取语义交互特征,更好地进行分类分割任务;
为获得语义特征最明显的地方,因此首先使用最大池化获得局部图上最有代表性的语义信息X′:
X′=max(X)
利用组整体的特征空间分布来调整单通道语义特征。X′={x1,...,xC′},将特征图按照通道维数分为G组,即每组有m(m=C’/G)维特征。首先求得组内各个通道均值,用于表示单通道特征ci:
其中i表示通道上的特征,N表示有N个点。更新组内特征:
其中,j表示点,取值范围在1~N。
对组内点的不同特征相加,得到整组的语义特征pg,g表示是第G组特征。
然后对整组的语义特征pg进行归一化处理。
其中ε是为了避免出现分母为0的情况,μg是整组的语义特征pg的均值,σg是pg的标准差。
和常用的归一化方法一样,我们引入可学习尺度参数γ和偏移β来调整组归一化数据,得到整组的语义特征pg归一化后调整表示为:
ag=γ·pg+β
1.2图注意力
仅使用最大池化来聚合局部特征,这损失了每个节点的特征和节点之间的关系信息。而节点与节点之间的关系是有不同重要性的,我们使局部点云特征自己指导自己设计不一样的权重W;方法t()是多层感知机MLP经过softmax处理:
W=t(X)
2.特征聚合
最后是两个分支特征的聚合部分,我们引入两个可学习的标量来聚合特征。让其自适应聚合语义特征和点与点之间的细粒度特征,以此增强局部图的上下文信息。
f=α·fg+β·fp。
3.总结
本发明最主要的是通过语义特征交互、图注意力这两个分支和这两个分支特征的融合。
语义特征交互部分:一个通道对应一个特征图,其是对某个特征的检测。一组通道则对应一组特征图,单个特征图的关注重点(即语义)和一组特征图的关注重点是不同的。通过获得局部图中语义特征最强的特征,这样之后利用各组全局统计特征与局部位置特征的相似性作为注意指导,生成语义特征提取的掩模。再经过数据归一化处理后得到注意力分数和原来的特征相乘。
图注意力部分:使用k邻近算法找到每个点的最近的k个邻居点,采用非对称函数获取点云的局部特征和全局特征,之后使用图注意力给图上的不同特征分配不同的权重,之后使用求和聚合图上的特征。
特征融合部分:使用两个可学习的标量自适应的融合语义特征交互部分特征和图注意力部分特征。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该本发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种用于点云分类分割的动态图语义特征提取方法,其特征在于:包括以下步骤:
输入具有n个点的C维数据P;
x′i=hθ(xi,xj)
通过边缘函数hθ聚合点xi的邻居特征;
通过最大池化获得局部图上最有代表性的语义信息X′,获得语义特征最明显的位置;
利用组整体的特征空间分布来调整单通道语义特征;X′={x1,...,xC′},将特征图按照通道维数分为G组,即每组有m(m=C’/G)维特征;首先求得组内各个通道均值,用于表示单通道特征ci,之后再更新组内特征,同时对组内点的不同特征相加,得到整组的语义特征pg;
再对整组的语义特征pg进行归一化处理;
将图注意力和语义特征通过可学习的标量α和β对特征进行聚合,得到聚合特征f。
2.根据权利要求1所述的一种用于点云分类分割的动态图语义特征提取方法,其特征在于,所述C维数据P表示为:
P={pi∈RC,i=0,...,N-1}。
3.根据权利要求1所述的一种用于点云分类分割的动态图语义特征提取方法,其特征在于,所述局部图G=(V,E)的构建基于每个点周围邻近的k个点。
4.根据权利要求1所述的一种用于点云分类分割的动态图语义特征提取方法,其特征在于,所述边缘函数hθ表示为:
hθ(xi,xj)=hθ(xi,xj-xi)
其中,xi为全局特征,xi-xj为局部特征;
并通过多层感知机MLP处理,得到所有局部图的语义特征X,表示为:
X=MLP(hθ(xi,xj))。
5.根据权利要求1所述的一种用于点云分类分割的动态图语义特征提i取方法,其特征在于,所述最有代表性的语义信息X′表示为:
X′=max(X)。
10.根据权利要求1所述的一种用于点云分类分割的动态图语义特征提取方法,其特征在于,所述聚合特征f的标识为:
f=α·fg+β·fp。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210617973.4A CN115019053A (zh) | 2022-06-01 | 2022-06-01 | 一种用于点云分类分割的动态图语义特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210617973.4A CN115019053A (zh) | 2022-06-01 | 2022-06-01 | 一种用于点云分类分割的动态图语义特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019053A true CN115019053A (zh) | 2022-09-06 |
Family
ID=83073988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210617973.4A Pending CN115019053A (zh) | 2022-06-01 | 2022-06-01 | 一种用于点云分类分割的动态图语义特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019053A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496161A (zh) * | 2023-12-29 | 2024-02-02 | 武汉理工大学 | 一种点云分割方法及装置 |
-
2022
- 2022-06-01 CN CN202210617973.4A patent/CN115019053A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496161A (zh) * | 2023-12-29 | 2024-02-02 | 武汉理工大学 | 一种点云分割方法及装置 |
CN117496161B (zh) * | 2023-12-29 | 2024-04-05 | 武汉理工大学 | 一种点云分割方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021043193A1 (zh) | 神经网络结构的搜索方法、图像处理方法和装置 | |
WO2020221200A1 (zh) | 神经网络的构建方法、图像处理方法及装置 | |
Han et al. | CNNs-based RGB-D saliency detection via cross-view transfer and multiview fusion | |
WO2023280065A1 (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
CN111583263B (zh) | 一种基于联合动态图卷积的点云分割方法 | |
WO2019237240A1 (zh) | 一种增强型生成式对抗网络以及目标样本识别方法 | |
CN113705769B (zh) | 一种神经网络训练方法以及装置 | |
Deng et al. | MVF-Net: A multi-view fusion network for event-based object classification | |
WO2022001805A1 (zh) | 一种神经网络蒸馏方法及装置 | |
KR20200028330A (ko) | 네트워크 연산 에지 전반에 걸쳐 연속적으로 애플리케이션을 작동하는 딥 러닝과 인공 지능에서 지속적인 메모리 기반 학습을 가능하게 하는 시스템 및 방법 | |
CN111489358A (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN111462282A (zh) | 一种场景图生成方法 | |
CN105787501B (zh) | 输电线路走廊区域自动选择特征的植被分类方法 | |
WO2021051987A1 (zh) | 神经网络模型训练的方法和装置 | |
CN113449736B (zh) | 一种基于深度学习的摄影测量点云语义分割方法 | |
CN113191387A (zh) | 结合无监督学习与数据自增强的文物碎片点云分类方法 | |
CN110263855B (zh) | 一种利用共基胶囊投影进行图像分类的方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
CN114723583A (zh) | 基于深度学习的非结构化电力大数据分析方法 | |
CN113449612B (zh) | 一种基于子流型稀疏卷积的三维目标点云识别的方法 | |
CN113096239A (zh) | 一种基于深度学习的三维点云重建方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN115019053A (zh) | 一种用于点云分类分割的动态图语义特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |