CN115272673A - 一种基于三维目标上下文表示的点云语义分割方法 - Google Patents
一种基于三维目标上下文表示的点云语义分割方法 Download PDFInfo
- Publication number
- CN115272673A CN115272673A CN202210897118.3A CN202210897118A CN115272673A CN 115272673 A CN115272673 A CN 115272673A CN 202210897118 A CN202210897118 A CN 202210897118A CN 115272673 A CN115272673 A CN 115272673A
- Authority
- CN
- China
- Prior art keywords
- voxel
- dimensional
- point cloud
- empty
- sparse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于三维目标上下文表示的点云语义分割方法,属于计算机视觉技术领域。首先构建由原始点云和点云语义标注构成的数据集,并划分为训练集、验证集和测试集;然后构建引入三维目标上下文表示的三维稀疏网络模型,并在训练集上进行训练;最后将训练好的模型在测试数据上进行测试,获取测试点云的语义标注。本发明提供的方法在基于三维稀疏卷积神经网络的基础上,引入了三维目标上下文表示,使得对每个体素分类时能够考虑其与不同类别区域之间的相互关系,有效聚合大范围语义上下文信息,有助于提高语义分割的准确性。
Description
技术领域
本发明属于计算机视觉技术领域,尤其涉及基于深度学习的三维点云语义分割领域。
背景技术
近年来,深度学习技术快速发展并在计算机视觉的各种任务中取得成功应用。随着三维传感器在机器人等领域的广泛应用,基于三维点云的深度学习逐渐成为研究热点。与图像语义分割类似,三维点云语义分割就是为点云中的每个三维点赋予一个语义标签,实现全场景的语义理解。但是,与图像数据相比,三维点云具有稀疏性、无序性和非结构性的特点,使得利用神经网络进行处理时有所区别。目前,主流的点云语义分割方法主要有三种,第一种是将三维点云转化为距离图像(Range Image)再利用二维卷积神经网络进行处理,这种方法可以充分利用成熟的二维卷积神经网络,但是损失了部分三维几何信息,影响分割性能;第二种是直接对三维点云利用点云网络(PointNet)进行处理,这类方法由于需要对数量庞大的点云进行迭代采样和邻域搜素,导致计算量大,无法实时应用与大规模场景;第三种是将三维空间划分为三维栅格,将点云转换为稀疏体素(Voxel),并利用稀疏三维卷积神经网络进行处理,这类方法保留的三维几何信息,同时能够通过稀疏卷积网络进行灵活的网络结构设计和较为快速的计算。因此,本发明采用基于三维稀疏卷积网络的方法进行点云语义分割。
在各种计算机视觉任务中,上下文信息扮演者重要角色,在图像语义分割中,研究者就提出了诸多聚合上下文信息的方法,如ASPP(Chen,L.C.,Papandreou,G.,Schroff,F.,Adam,H.:Rethinking atrous convolution for semantic image segmentation.arXiv:1706.05587(2017)),PMP(Zhao,H.,Shi,J.,Qi,X.,Wang,X.,Jia,J.:Pyramid sceneparsing network.In:CVPR(2017))等,为了提取非局部上下文信息,文献(Wang,X.et al.(2018)‘Non-local Neural Networks’,CVPR2018,pp.7794–7803.)提出了非局部神经网络,该模型与近年来流行的自注意力(Self-attention)模块异曲同工,能够有效提高网络性能。在文献(Yuan,Y.,Chen,X.and Wang,J.(2020)‘Segmentation Transformer:Object-Contextual Representations for Semantic Segmentation’,Lecture Notes inComputer Science),12351LNCS,pp.173–190.doi:10.1007/978-3-030-58539-6_11.)中,作者指出,由于每个像素的标记为该像素所属对象的类别,在提取某个像素的上下文信息时,应该重点关注其与各个类别区域之间的关系,并提出了一种目标上下文表示(Objectcontextual representation,OCR),在多个语义分割标注数据集上取得了超越其他现有方法的性能。但是,由于三维点云的特点,这一思想尚未在点云分割中应用,本发明受到OCR启发,将目标上下文表示拓展到稀疏三维点云,结合稀疏卷积神经网络,提出三维目标上下文表示(3D-OCR),并应用于三维点云语义分割,提高点云分割性能。
发明内容
本发明的目的是通过引入三维语义上下文信息,提高三维点云语义分割性能。
为达到上述目的,本发明提出一种引入三维目标上下文表示的三维稀疏神经网络点云分割方法,该方法包括如下步骤:
S1.构建由原始点云和点云语义标注构成的数据集,并划分为训练集、验证集和测试集;
S2.构建引入三维目标上下文表示的三维稀疏网络模型,并在训练集上进行训练;
S3.将训练好的模型在测试数据上进行测试,获取测试点云的语义标注。
所述步骤S2的具体步骤如下:
S22.构建三维稀疏卷积骨干网络,提取稀疏体素的高层特征Y,并将其输入至一个辅助线性分类网络,获取所有非空体素属于K个类别的得分Saux;
S23.根据每个非空体素的分类得分,将所有非空体素组织成K个三维广义目标区域M1,M2,...MK,并对每个三维广义目标区域Mk,提取目标区域表示fk:
S24.为提取非空体素与上述广义目标区域的关系上下文,通过如下公式计算非空体素与上述目标区域表示的相关性:
S25.综合非空体素与所有广义目标区域之间的相关性,计算非空体素的三维目标上下文表示Z:
S26.将目标上下文表示Z与高层特征Y拼接(concat)并进行特征变换后组成新的体素特征G:
gi=γ([yi;zi])
S27.将G输入至线性分类层,计算每个非空体素的最终类别得分S;
S28.根据辅助分类得分和最终分类得分计算损失:
loss=CE(S,L)+λ·CE(Saux,L)
其中,CE为交叉熵损失函数,λ为调节辅助分类任务和最终分类任务重要性的权重参数。
S29.利用随机梯度下降算法更新网络参数,在训练集上迭代一定数量的epoch,记录在验证集合上性能最佳的参数。
所述步骤S3的具体步骤如下:
S31.采用S21相同的体素化方法,对测试点云进行体素化,构成输入稀疏特征张量Xt;
S32.将Xt输入至S2步训练好的三维稀疏卷积神经网络中,获取所有非空体素的最终类别得分St;
S33.计算每个体素的标记:
S34.利用S31步中点云与体素的映射关系,将体素的语义标记映射到所有划分到该体素中的三维点,获取最终的点云语义标记。
与现有技术相比,本发明有效收益在于:
本发明提供的方法在基于三维稀疏卷积神经网络的基础上,引入了三维目标上下文表示,使得对每个体素分类时能够考虑其与不同类别区域之间的相互关系,有效聚合大范围语义上下文信息,有助于提高语义分割的准确性。
附图说明
图1是本发明方法训练和测试的计算流程示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的详细描述。
本实例以SemanticKITTI点云语义分割数据为例,SemanticKITTI数据集是文献(Behley,Jens,Martin Garbade,Andres Milioto,Jan Quenzel,Sven Behnke,CyrillStachniss,and Juergen Gall.2019.“SemanticKITTI:A Dataset for Semantic SceneUnderstanding of LiDAR Sequences,”no.iii.http://arxiv.org/abs/1904.01416.)构建的一个点云语义分割数据集,该数据集对KITTI Odometry数据集的22个点云序列进行了28类语义类别标注,序列00-10为训练集合,11-21为测试集。与文献(Zhu,Xinge,Hui Zhou,Tai Wang,Fangzhou Hong,Yuexin Ma,Wei Li,Hongsheng Li,and Dahua Lin.2020.“Cylindrical and Asymmetrical 3D Convolution Networks for LiDARSegmentation.”http://arxiv.org/abs/2011.10033.)类似,我们将原始训练集中的08序列作为验证集,其他序列作为训练集,同时将不同运动状态的类别进行合并,忽略点数很少的类别,最终保留19类语义类别。
S1.将SemanticKITTI数据集00-07、09-10序列作为训练集,08序列作为验证集,11-21序列作为测试集;
S2.构建引入三维目标上下文表示的三维稀疏网络模型,并在训练集上进行训练;
S3.将训练好的模型在测试数据上进行测试,获取测试点云的语义标注。
上述第二步的详细步骤为:
S21.按照体素尺寸0.05,将有标注的点云划分到三维体素中,参照文献(Choy,Christopher,Junyoung Gwak,and Silvio Savarese.2019.“4D Spatio-TemporalConvnets:Minkowski Convolutional Neural Networks.”Proceedings of the IEEEComputer Society Conference on Computer Vision and Pattern Recognition 2019-June:3070-79.https://doi.org/10.1109/CVPR.2019.00319.)中的稀疏张量量化方法,以点云的位置[x,y,z]为坐标,以位置和反射率[x,y,z,intensity]为特征经过稀疏张量量化后,得到非空体素 的坐标索引ci、体素特征xi和标记li,构成输入稀疏特征张量X和稀疏标记张量L;
S22.将MinkowskiUNet作为骨干网络,提取稀疏体素的高层特征Y,并将其输入至一个辅助线性分类网络,获取所有非空体素属于K=19个类别的得分Saux;
S23.根据每个非空体素的分类得分,将所有非空体素组织成K个三维广义目标区域M1,M2,...MK,并对每个三维广义目标区域Mk,提取目标区域表示fk:
S24.为提取非空体素与上述广义目标区域的关系上下文,通过如下公式计算非空体素与上述目标区域表示的相关性:
S25.综合非空体素与所有广义目标区域之间的相关性,计算非空体素的三维目标上下文表示Z:
S26.将目标上下文表示Z与高层特征Y拼接(concat)并进行特征变换后组成新的体素特征G:
gi=γ([yi;zi])
S27.将G输入至线性分类层,计算每个非空体素的最终类别得分S;
S28.根据辅助分类得分和最终分类得分计算损失:
loss=CE(S,L)+λ·CE(Saux,L)
其中,CE为交叉熵损失函数,λ为调节辅助分类任务和最终分类任务重要性的权重参数。
S29.利用随机梯度下降算法更新网络参数,在训练集上迭代一定数量的epoch,记录在验证集合上性能最佳的参数。
所述步骤S3的具体步骤如下:
S31.采用S21相同的体素化方法,对测试点云进行体素化,构成输入稀疏特征张量Xt;
S32.将Xt输入至S2步训练好的三维稀疏卷积神经网络中,获取所有非空体素的最终类别得分St;
S33.计算每个体素的标记:
S34.利用S31步中点云与体素的映射关系,将体素的语义标记映射到所有划分到该体素中的三维点,获取最终的点云语义标记。
虽然本发明已通过实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明所做出的各种改变以及变化仍属于本发明的范围。
Claims (1)
1.一种引入三维目标上下文表示的三维稀疏神经网络点云分割方法,其特征在于,该方法包括如下步骤:
S1.构建由原始点云和点云语义标注构成的数据集,并划分为训练集、验证集和测试集;
S2.构建引入三维目标上下文表示的三维稀疏网络模型,并在训练集上进行训练;
S3.将训练好的模型在测试数据上进行测试,获取测试点云的语义标注;
所述步骤S2的具体步骤如下:
S22.构建三维稀疏卷积骨干网络,提取稀疏体素的高层特征Y,并将其输入至一个辅助线性分类网络,获取所有非空体素属于K个类别的得分Saux;
S23.根据每个非空体素的分类得分,将所有非空体素组织成K个三维广义目标区域M1,M2,...MK,并对每个三维广义目标区域Mk,提取目标区域表示fk:
S24.为提取非空体素与上述广义目标区域的关系上下文,通过如下公式计算非空体素与上述目标区域表示的相关性:
S25.综合非空体素与所有广义目标区域之间的相关性,计算非空体素的三维目标上下文表示Z:
S26.将目标上下文表示Z与高层特征Y拼接(concat)并进行特征变换后组成新的体素特征G:
gi=γ([yi;zi]) (5)
S27.将G输入至线性分类层,计算每个非空体素的最终类别得分S;
S28.根据辅助分类得分和最终分类得分计算损失:
loss=CE(S,L)+λ·CE(Saux,L) (6)
其中,CE为交叉熵损失函数,λ为调节辅助分类任务和最终分类任务重要性的权重参数;
S29.利用随机梯度下降算法更新网络参数,在训练集上迭代一定数量的epoch,记录在验证集合上性能最佳的参数;
所述步骤S3的具体步骤如下:
S31.采用S21相同的体素化方法,对测试点云进行体素化,构成输入稀疏特征张量Xt;
S32.将Xt输入至S2步训练好的三维稀疏卷积神经网络中,获取所有非空体素的最终类别得分St;
S33.计算每个体素的标记:
S34.利用S31步中点云与体素的映射关系,将体素的语义标记映射到所有划分到该体素中的三维点,获取最终的点云语义标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897118.3A CN115272673A (zh) | 2022-07-28 | 2022-07-28 | 一种基于三维目标上下文表示的点云语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897118.3A CN115272673A (zh) | 2022-07-28 | 2022-07-28 | 一种基于三维目标上下文表示的点云语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115272673A true CN115272673A (zh) | 2022-11-01 |
Family
ID=83771507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210897118.3A Pending CN115272673A (zh) | 2022-07-28 | 2022-07-28 | 一种基于三维目标上下文表示的点云语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272673A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310349A (zh) * | 2023-05-25 | 2023-06-23 | 西南交通大学 | 基于深度学习的大规模点云分割方法、装置、设备及介质 |
-
2022
- 2022-07-28 CN CN202210897118.3A patent/CN115272673A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310349A (zh) * | 2023-05-25 | 2023-06-23 | 西南交通大学 | 基于深度学习的大规模点云分割方法、装置、设备及介质 |
CN116310349B (zh) * | 2023-05-25 | 2023-08-15 | 西南交通大学 | 基于深度学习的大规模点云分割方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108665481B (zh) | 多层深度特征融合的自适应抗遮挡红外目标跟踪方法 | |
CN111462120B (zh) | 一种基于语义分割模型缺陷检测方法、装置、介质及设备 | |
Deng et al. | A voxel graph cnn for object classification with event cameras | |
CN110490915B (zh) | 一种基于卷积受限玻尔兹曼机的点云配准方法 | |
CN112183675B (zh) | 一种基于孪生网络的针对低分辨率目标的跟踪方法 | |
CN114170410A (zh) | 基于PointNet的图卷积与KNN搜索的点云零件级分割方法 | |
CN109002771B (zh) | 一种基于递归神经网络的遥感图像分类方法 | |
CN117094999B (zh) | 一种跨尺度缺陷检测方法 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
CN115359407A (zh) | 一种视频中的多车辆跟踪方法 | |
Yu et al. | LFPNet: Lightweight network on real point sets for fruit classification and segmentation | |
Qian et al. | Classification of rice seed variety using point cloud data combined with deep learning | |
CN115272673A (zh) | 一种基于三维目标上下文表示的点云语义分割方法 | |
Tian et al. | Real-time semantic segmentation network based on lite reduced atrous spatial pyramid pooling module group | |
Zhang et al. | Development of image processing based on deep learning algorithm | |
CN112967296B (zh) | 一种点云动态区域图卷积方法、分类方法及分割方法 | |
Van Hoai et al. | Feeding Convolutional Neural Network by hand-crafted features based on Enhanced Neighbor-Center Different Image for color texture classification | |
CN113610760A (zh) | 一种基于u型残差神经网络的细胞图像分割示踪方法 | |
CN116129118B (zh) | 基于图卷积的城市场景激光LiDAR点云语义分割方法 | |
CN109584194B (zh) | 基于卷积变分概率模型的高光谱图像融合方法 | |
He et al. | SCIR-Net: Structured color image representation based 3D object detection network from point clouds | |
Shi et al. | Pairwise attention encoding for point cloud feature learning | |
Qiao et al. | Point clouds segmentation of rapeseed siliques based on sparse-dense point clouds mapping | |
Liu et al. | Visualization of the image geometric transformation group based on riemannian manifold | |
CN112907475B (zh) | 一种冰晶图片的自动分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |