CN115272673A

CN115272673A - 一种基于三维目标上下文表示的点云语义分割方法

Info

Publication number: CN115272673A
Application number: CN202210897118.3A
Authority: CN
Inventors: 肖良; 赵大伟; 商尔科; 朱琪; 聂一鸣; 戴斌
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-01

Abstract

本发明公开一种基于三维目标上下文表示的点云语义分割方法，属于计算机视觉技术领域。首先构建由原始点云和点云语义标注构成的数据集，并划分为训练集、验证集和测试集；然后构建引入三维目标上下文表示的三维稀疏网络模型，并在训练集上进行训练；最后将训练好的模型在测试数据上进行测试，获取测试点云的语义标注。本发明提供的方法在基于三维稀疏卷积神经网络的基础上，引入了三维目标上下文表示，使得对每个体素分类时能够考虑其与不同类别区域之间的相互关系，有效聚合大范围语义上下文信息，有助于提高语义分割的准确性。

Description

一种基于三维目标上下文表示的点云语义分割方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及基于深度学习的三维点云语义分割领域。

背景技术

近年来，深度学习技术快速发展并在计算机视觉的各种任务中取得成功应用。随着三维传感器在机器人等领域的广泛应用，基于三维点云的深度学习逐渐成为研究热点。与图像语义分割类似，三维点云语义分割就是为点云中的每个三维点赋予一个语义标签，实现全场景的语义理解。但是，与图像数据相比，三维点云具有稀疏性、无序性和非结构性的特点，使得利用神经网络进行处理时有所区别。目前，主流的点云语义分割方法主要有三种，第一种是将三维点云转化为距离图像(Range Image)再利用二维卷积神经网络进行处理，这种方法可以充分利用成熟的二维卷积神经网络，但是损失了部分三维几何信息，影响分割性能；第二种是直接对三维点云利用点云网络(PointNet)进行处理，这类方法由于需要对数量庞大的点云进行迭代采样和邻域搜素，导致计算量大，无法实时应用与大规模场景；第三种是将三维空间划分为三维栅格，将点云转换为稀疏体素(Voxel)，并利用稀疏三维卷积神经网络进行处理，这类方法保留的三维几何信息，同时能够通过稀疏卷积网络进行灵活的网络结构设计和较为快速的计算。因此，本发明采用基于三维稀疏卷积网络的方法进行点云语义分割。

在各种计算机视觉任务中，上下文信息扮演者重要角色，在图像语义分割中，研究者就提出了诸多聚合上下文信息的方法，如ASPP(Chen,L.C.,Papandreou,G.,Schroff,F.,Adam,H.:Rethinking atrous convolution for semantic image segmentation.arXiv:1706.05587(2017))，PMP(Zhao,H.,Shi,J.,Qi,X.,Wang,X.,Jia,J.:Pyramid sceneparsing network.In:CVPR(2017))等，为了提取非局部上下文信息，文献(Wang,X.et al.(2018)‘Non-local Neural Networks’,CVPR2018,pp.7794–7803.)提出了非局部神经网络，该模型与近年来流行的自注意力(Self-attention)模块异曲同工，能够有效提高网络性能。在文献(Yuan,Y.,Chen,X.and Wang,J.(2020)‘Segmentation Transformer:Object-Contextual Representations for Semantic Segmentation’,Lecture Notes inComputer Science),12351LNCS,pp.173–190.doi:10.1007/978-3-030-58539-6_11.)中，作者指出，由于每个像素的标记为该像素所属对象的类别，在提取某个像素的上下文信息时，应该重点关注其与各个类别区域之间的关系，并提出了一种目标上下文表示(Objectcontextual representation，OCR)，在多个语义分割标注数据集上取得了超越其他现有方法的性能。但是，由于三维点云的特点，这一思想尚未在点云分割中应用，本发明受到OCR启发，将目标上下文表示拓展到稀疏三维点云，结合稀疏卷积神经网络，提出三维目标上下文表示(3D-OCR)，并应用于三维点云语义分割，提高点云分割性能。

发明内容

本发明的目的是通过引入三维语义上下文信息，提高三维点云语义分割性能。

为达到上述目的，本发明提出一种引入三维目标上下文表示的三维稀疏神经网络点云分割方法，该方法包括如下步骤：

S1.构建由原始点云和点云语义标注构成的数据集，并划分为训练集、验证集和测试集；

S2.构建引入三维目标上下文表示的三维稀疏网络模型，并在训练集上进行训练；

S3.将训练好的模型在测试数据上进行测试，获取测试点云的语义标注。

所述步骤S2的具体步骤如下：

S21.根据场景大小、精度和速度要求选择适当的体素尺寸，将有标注的点云划分到三维体素中，对非空体素

计算其坐标索引c_i、体素特征x_i和标记l_i，构成输入稀疏特征张量X和稀疏标记张量L；

S22.构建三维稀疏卷积骨干网络，提取稀疏体素的高层特征Y，并将其输入至一个辅助线性分类网络，获取所有非空体素属于K个类别的得分S^aux；

S23.根据每个非空体素的分类得分，将所有非空体素组织成K个三维广义目标区域M₁，M₂，...M_K，并对每个三维广义目标区域M_k，提取目标区域表示f_k：

其中，

为非空体素集合，y_i为骨干提取的体素i的高层特征，a_ki为衡量体素i属于M_k的程度的系数，该系数为将辅助分类器得到的类别S^aux进行空间Softmax运算后得到：

S24.为提取非空体素与上述广义目标区域的关系上下文，通过如下公式计算非空体素与上述目标区域表示的相关性：

其中

表示y与f之间的相关性，w_ik则为归一化之后的相关性系数；

和φ表示特征变化函数，通常由线性映射批归一化-非线性激活函数组成；

S25.综合非空体素与所有广义目标区域之间的相关性，计算非空体素的三维目标上下文表示Z：

其中，ρ和δ为变换函数，与S24中的

和φ类似，同样由线性映射批归一化-非线性激活函数组成。

S26.将目标上下文表示Z与高层特征Y拼接(concat)并进行特征变换后组成新的体素特征G：

g_i＝γ([y_i；z_i])

其中特征变换γ与S24中的

和φ类似，同样由线性映射批归一化-非线性激活函数组成；

S27.将G输入至线性分类层，计算每个非空体素的最终类别得分S；

S28.根据辅助分类得分和最终分类得分计算损失：

loss＝CE(S，L)+λ·CE(S^aux，L)

其中，CE为交叉熵损失函数，λ为调节辅助分类任务和最终分类任务重要性的权重参数。

S29.利用随机梯度下降算法更新网络参数，在训练集上迭代一定数量的epoch，记录在验证集合上性能最佳的参数。

所述步骤S3的具体步骤如下：

S31.采用S21相同的体素化方法，对测试点云进行体素化，构成输入稀疏特征张量X^t；

S32.将X^t输入至S2步训练好的三维稀疏卷积神经网络中，获取所有非空体素的最终类别得分S^t；

S33.计算每个体素的标记：

其中

表示体素i的类别得分。

S34.利用S31步中点云与体素的映射关系，将体素的语义标记映射到所有划分到该体素中的三维点，获取最终的点云语义标记。

与现有技术相比，本发明有效收益在于：

本发明提供的方法在基于三维稀疏卷积神经网络的基础上，引入了三维目标上下文表示，使得对每个体素分类时能够考虑其与不同类别区域之间的相互关系，有效聚合大范围语义上下文信息，有助于提高语义分割的准确性。

附图说明

图1是本发明方法训练和测试的计算流程示意图；

具体实施方式

下面结合附图和实施例对本发明作进一步的详细描述。

本实例以SemanticKITTI点云语义分割数据为例，SemanticKITTI数据集是文献(Behley，Jens，Martin Garbade，Andres Milioto，Jan Quenzel，Sven Behnke，CyrillStachniss，and Juergen Gall.2019.“SemanticKITTI：A Dataset for Semantic SceneUnderstanding of LiDAR Sequences，”no.iii.http://arxiv.org/abs/1904.01416.)构建的一个点云语义分割数据集，该数据集对KITTI Odometry数据集的22个点云序列进行了28类语义类别标注，序列00-10为训练集合，11-21为测试集。与文献(Zhu，Xinge，Hui Zhou，Tai Wang，Fangzhou Hong，Yuexin Ma，Wei Li，Hongsheng Li，and Dahua Lin.2020.“Cylindrical and Asymmetrical 3D Convolution Networks for LiDARSegmentation.”http://arxiv.org/abs/2011.10033.)类似，我们将原始训练集中的08序列作为验证集，其他序列作为训练集，同时将不同运动状态的类别进行合并，忽略点数很少的类别，最终保留19类语义类别。

S1.将SemanticKITTI数据集00-07、09-10序列作为训练集，08序列作为验证集，11-21序列作为测试集；

上述第二步的详细步骤为：

S21.按照体素尺寸0.05，将有标注的点云划分到三维体素中，参照文献(Choy，Christopher，Junyoung Gwak，and Silvio Savarese.2019.“4D Spatio-TemporalConvnets：Minkowski Convolutional Neural Networks.”Proceedings of the IEEEComputer Society Conference on Computer Vision and Pattern Recognition 2019-June：3070-79.https://doi.org/10.1109/CVPR.2019.00319.)中的稀疏张量量化方法，以点云的位置[x，y，z]为坐标，以位置和反射率[x，y，z，intensity]为特征经过稀疏张量量化后，得到非空体素

的坐标索引c_i、体素特征x_i和标记l_i，构成输入稀疏特征张量X和稀疏标记张量L；

S22.将MinkowskiUNet作为骨干网络，提取稀疏体素的高层特征Y，并将其输入至一个辅助线性分类网络，获取所有非空体素属于K＝19个类别的得分S^aux；

其中，

其中