CN116129118A - 基于图卷积的城市场景激光LiDAR点云语义分割方法 - Google Patents

基于图卷积的城市场景激光LiDAR点云语义分割方法 Download PDF

Info

Publication number
CN116129118A
CN116129118A CN202310082361.4A CN202310082361A CN116129118A CN 116129118 A CN116129118 A CN 116129118A CN 202310082361 A CN202310082361 A CN 202310082361A CN 116129118 A CN116129118 A CN 116129118A
Authority
CN
China
Prior art keywords
graph
point cloud
convolution
netvlad
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310082361.4A
Other languages
English (en)
Other versions
CN116129118B (zh
Inventor
张蕊
孟晓曼
金玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Water Resources and Electric Power
Original Assignee
North China University of Water Resources and Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Water Resources and Electric Power filed Critical North China University of Water Resources and Electric Power
Priority to CN202310082361.4A priority Critical patent/CN116129118B/zh
Publication of CN116129118A publication Critical patent/CN116129118A/zh
Application granted granted Critical
Publication of CN116129118B publication Critical patent/CN116129118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于计算机视觉技术领域,公开一种基于图卷积的城市场景激光LiDAR点云语义分割方法,包括:利用基于KNN算法的图注意力卷积进行建模,通过注意力机制为不同邻节点分配不同权重,更好地聚集邻域信息;对NetVLAD算法进行改进,提出NetVLAD++算法,应用于城市场景三维地物目标的语义标识和精准提取,通过充分提取点云特征,更好地融合了局部特征和全局上下文特征,提高了网络模型分割效果;将NetVLAD++算法和基于KNN算法的图注意力卷积模型进行融合,构成一个完整的网络模型进行端到端的训练,使用训练好的模型对城市场景激光点云进行语义分割。本发明提高了城市场景点云语义分割的精度和效果。

Description

基于图卷积的城市场景激光LiDAR点云语义分割方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于图卷积的城市场景激光LiDAR点云语义分割方法。
背景技术
随着卷积神经网络技术的迅速出现,基于深度学习的语义分割精度得到了大幅度提高。深度学习已经广泛应用于二维图像的处理中,但由于三维点云数据的不规则性、无序性等特点,使其在点云语义分割上的应用仍面临着诸多挑战。目前,基于深度学习技术的三维点云语义分割方法按照数据的表现形式可分为间接基于点云的方法和直接基于点云的方法。间接基于点云的方法是将不规则点云转化为规则的结构(包括投影、体素和多视图等),然后将转化后的数据作为网络模型的输入。该类方法可以很好地弥补卷积神经网络难以处理点云数据的缺陷,但其在转换过程中会不可避免地造成一些重要的信息的损失,因此研究者们提出了直接基于点云的方法,最具代表性的是斯坦福大学Qi提出的PointNet和PointNet++。PointNet成功解决了点云的无序性,但由于PointNet中每个点的特征都是独立学习的,因此无法捕获点之间的局部特征来提取细粒度特征。为了解决这一问题,PointNet++方法以层次结构特征来学习点云的特征,通过加深网络层,使得局部特征更加精确,但是由于其网络结构设计复杂,所以导致运算复杂度过高。
针对PointNet和PointNet++的不足,许多网络也对其进行了改进。受2D图像中使用的尺度不变特征变换的启发,PointSIFT网络通过一个方向编码单元对八个方向的信息进行堆叠和编码,然后将各个编码层获取的信息进行联合,最终得到了点的空间特征。由于增加了参数,使得该方法计算量增大;同时,其所提取的局部特征对于方向也过于敏感。Thomas等人提出了一种适用于点云的扩张卷积网络,该网络的核心部分为KPConv,取半径邻域内的点作为输入,根据空间内的点到中心的欧式距离计算每个点与其相邻点之间的权重,利用核点卷积得到每个点的新特征,其中,中心点的选取根据点在空间的位置进行特殊处理得到。由于KPConv中核点数是可以任意设置的,它比逐点卷积等固定卷积核的方法更灵活。为了加强点云之间的特征联系,Engelmann等人在PointNet的研究基础上,设计出一种将点云块分组处理的方法。首先使用多尺度块和网络块获得输入级上下文,然后将PointNet提取的逐块特征依次做合并或循环合并,以获得输出级的上下文。循环合并能够将有关场景的信息保留,很好地提升学习效率,但该方法学习到的局部特征不足。为了更好的解决局部几何特征提取不充分以及相邻点之间的关系信息获取不足的问题,3P-RNN利用逐点金字塔池化捕获不同尺度的局部上下文信息,并使用双向分层RNN融合更大范围的空间相关性数据。该方法在室内外点云数据集上均取得了较好的效果,泛化能力强,但其对于一些相似的语义类(如门和墙)的区分有限。RSNet受到PointSIFT的启发,提出了一种将切片池化层、循环神经网络(Recurrent Neural Network,RNN)层和切片反池化层组合的轻量级局部依赖性建模模块。该方法将输入的无序点云特征从x、y、z三个方向切片,利用切片池化层将无序点特征集转换为特征向量序列并提取特征,采用双向RNN学习切片间的相关性,最后利用切片反池化层将序列中的特征分配回各个原始点。虽然该方法对于一些平面目标(如桌子等)有较高的分割精度,但将点云切片化会严重影响对点之间相互关系的学习,同时也没有明确每个点的局部特征学习邻域。
图卷积方法将卷积运算与图结构相结合。图卷积神经网络能够依赖图中节点之间的信息传递来捕获图中依赖关系,在计算机视觉领域的应用越来越广泛。利用图卷积网络性质可以有效地获取点云的空间几何结构,基于图卷积的方法将点云中的每个点视为图的顶点,并为每个点的邻域图生成有向边,在空间域或频谱域中进行特征学习,以捕获3D点云的局部几何结构信息。空间域的图卷积方法通过对空间邻域点采用多层感知机来达到卷积的目的。DGCNN网络采用了一个可微模块EdgeConv来提取点云的局部几何特征。其所构建的图是动态的,在网络的每一层之后进行更新,构建新的图结构。该网络提高了分割性能,但空间变换网络的引入使得网络中可训练参数相应增加,从而增加模型的优化难度。为了减小网络模型的优化难度,LDGCNN采用DenseNet的思想,将不同的动态图的层次特征连接起来,计算出边缘信息向量,减小了网络的规模,有效地避免了梯度消失的问题。FGCN网络使用图卷积网络(GCN)将空间信息或局部邻域特征编码为对称图结构,对无向对称图中相邻点的空间排列进行编码,并将其与从2D CNN提取的特征一起传递到包含三层局部图卷积的图卷积网络,利用局部和全局特征对3D点云进行语义分割,以生成完整的分割图。该网络能够有效提高分割任务的整体性能,但与现有架构相比,需要占用更多的内存。DDGCN网络将方向和距离结合起来,进一步获取点云中的局部特征。首先,该网络以邻接矩阵的形式获取点云中的采样点,其次,通过计算每个点之间的余弦相似度,得到点云的相似度矩阵,然后选择KNN算法来提取最相似的点,形成局部邻域图,最后,对邻域图进行动态图卷积,得到点云的局部特征。该网络在分类和语义分割任务中具有较好的性能效果。
频谱域的图卷积方法将卷积定义为频谱滤波,其通过将图信号和图拉普拉斯特征向量相乘实现。SpecGCN针对PointNet++忽略相邻点之间的关系信息的问题提出了一种局部谱图卷积方法,通过在局部图上使用谱图卷积获取每个点的邻域结构信息,使用图池化递归聚类谱坐标以聚合节点特征。RGCNN基于谱图理论,将点云中的点特征看作是图上的信号,用切比雪夫多项式近似定义了对图的卷积。RGCNN通过在自身的每一层中更新图拉普拉斯矩阵自适应地捕获动态图结构信息。该方法虽然相比于传统谱图卷积降低了计算复杂度,但计算复杂度受KNN的K取值的影响波动,无法适用于大规模数据集。
目前,图卷积网络的方法考虑了点之间的几何关系,能在一定程度上的捕获局部特征。但由于特征的各向同性,标准卷积在点云语义分割中存在固有的局限性,忽略了物体的边缘轮廓结构,导致分割结果中物体轮廓差,杂散区域小。而注意力机制的基本思想是使系统忽略无关信息而关注重要信息,通过神经网络算出梯度并且通过前向传播和后向反馈来学习得到注意力的权重,可以从众多信息中找到对当前任务更重要的信息。因此,图注意力网络可以通过注意力机制为不同的邻节点分配不同的权重,从而能够更好地聚集邻域信息。
发明内容
本发明的目的在于提出一种基于图卷积的城市场景激光LiDAR点云语义分割方法,以更好的提取城市场景激光点云局部和全局特征,进一步提高网络模型分割精度,解决现有网络模型点云特征提取不充分的问题。
为了实现上述目的,本发明采用以下技术方案:
一种基于图卷积的城市场景激光LiDAR点云语义分割方法,包括:
步骤1:以DGCNN网络模型为基础模型,调整各个参数值,训练初步图卷积神经网络模型;
步骤2:采用图注意力卷积对DGCNN中边卷积EdgeConv进行优化:使用注意力权重区分无向连通图中每个点的K个邻节点的重要程度,设计图注意力边卷积块Att-EdgeConv;
步骤3:利用图注意力边卷积块Att-EdgeConv对城市场景三维地物目标进行建模,训练深度图注意力卷积神经网络模型,利用训练得到的模型对城市场景激光点云进行语义分割,得到城市场景点云语义初步分割结果;
步骤4:NetVLAD算法经过归一化后忽略了局部特征间的差异,可能导致不同聚类簇中出现相似的特征分布,从而对特征分布相似的点做出错误判断,据此对NetVLAD算法进行改进,提出NetVLAD++算法,设计NetVLAD++模块;
步骤5:将NetVLAD++模块与Att-EdgeConv块融合为一个特征提取块,与所述深度图注意力卷积神经网络模型构成一个完整的模型,进行端到端的训练;
步骤6:利用训练得到的模型对城市场景激光点云进行语义分割,得到城市场景点云语义分割结果。
进一步地,所述步骤2中,按照以下方式得到无向连通图:
通过KNN算法计算城市场景激光点云中每个点与剩余所有点之间的距离,并按照升序的方式进行排序,选取前K个点作为每个点的K个最近邻,每个点与其K个邻节点构成边,从而形成无向连通图。
进一步地,所述图注意力边卷积块Att-EdgeConv具体用于:
将图注意力机制作用于DGCNN网络进行边卷积运算的过程中,计算城市场景激光点云中每个点的K个最近邻,采用注意力机制来确定K个邻节点对目标节点的重要性,为无向连通图中每个点的邻节点分配不同的注意力权重,提取出目标节点的局部结构信息,得到物体的轮廓边界特征。
进一步地,所述注意力权重是根据城市场景激光点云中每个点与其K个邻节点之间的相对位置和特征差分计算得到的,然后注意力权重与K个邻节点的特征相乘得到的特征向量作为中心点的新特征。
进一步地,采用斯坦福大学提供的大场景室内3D点云数据集(Stanford Large-Scale 3D Indoor Spaces Dataset,S3DIS)进行初步图卷积神经网络模型及深度图注意力卷积神经网络模型的训练。
进一步地,所述NetVLAD算法是用于解决端到端的场景识别问题,它将传统的局部聚合描述子向量(Vector of Locally Aggregated Descriptors,VLAD)结构嵌入到卷积神经网络中,得到了一个新的NetVLAD层。
进一步地,所述步骤4包括:将NetVLAD层的输入特征和输出特征进行连接操作,将其作为NetVLAD++算法的输出特征向量,可有效融合局部特征和全局特征,解决NetVLAD算法对局部特征描述不足的问题,完成NetVLAD++模块设计。
进一步地,采用斯坦福大学提供的大场景室内3D点云数据集(Stanford Large-Scale 3D Indoor Spaces Dataset,S3DIS)进行步骤5中最终构建模型端到端的训练。
与现有技术相比,本发明具有的有益效果:
本发明利用基于KNN算法的图注意力卷积进行建模,通过注意力机制为不同邻节点分配不同权重,更好地聚集邻域信息。充分利用地物目标的三维结构信息提高图卷积神经网络模型的感知能力,并有效利用物体的轮廓边界提高网络模型边缘提取能力,解决了点云语义分割中标准卷积由于忽略物体的边缘结构导致分割结果中物体轮廓差、杂散区域小等问题。本发明对NetVLAD算法进行改进,提出NetVLAD++算法,应用于城市场景三维地物目标的语义标识和精准提取。通过充分提取点云特征,更好地融合了局部特征和全局上下文特征,提高了网络模型分割效果。最后,本发明将NetVLAD++算法和基于KNN算法的图注意力卷积模型进行融合,构成一个完整的网络模型进行端到端的训练,使用训练好的模型对城市场景激光点云进行语义分割。总的来说,本发明提高了城市场景点云语义分割的精度和效果。
附图说明
图1为本发明实施例一种基于图卷积的城市场景激光LiDAR点云语义分割方法的流程示意图;
图2为本发明实施例基于图注意力方法提取物体的轮廓边界特征的局部技术路线图;
图3为本发明实施例基于NetVLAD++算法的局部技术路线图;
图4为本发明实施例S3DIS点云数据集的6个区域示意图,所述6个区域包含272个3D房间场景,分为13个语义类别(墙壁、桌子、椅子等);
图5为本发明实施例点云分割结果图;其中(a)为原图,(b)为网络分割图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于图卷积的城市场景激光LiDAR点云语义分割方法,包括:
步骤1:以DGCNN网络模型为基础模型,调整各个参数值,训练初步图卷积神经网络模型;
步骤2:采用图注意力卷积对DGCNN中边卷积EdgeConv进行优化:使用注意力权重区分无向连通图中每个点的K个邻节点的重要程度,设计图注意力边卷积块Att-EdgeConv;
步骤3:利用图注意力边卷积块Att-EdgeConv对城市场景三维地物目标进行建模,训练深度图注意力卷积神经网络模型,利用训练得到的模型对城市场景激光点云进行语义分割,得到城市场景点云语义初步分割结果;
步骤4:对NetVLAD算法进行改进,提出NetVLAD++算法,设计NetVLAD++模块;
步骤5:将NetVLAD++模块与Att-EdgeConv块融合为一个特征提取块,与所述深度图卷积神经网络构成一个完整的模型,进行端到端的训练;
步骤6:利用训练得到的模型对城市场景激光点云进行语义分割,得到城市场景点云语义分割结果。
具体地,DGCNN网络用边卷积运算(EdgeConv)考虑了点之间的几何关系,可以在一定程度上提取点云局部特征,且DGCNN网络所构建的图是动态的,在网络每一层之后进行更新,构造新的图结构。故本实施例步骤1中以DGCNN为基础模型,对其进行精调,并在S3DIS数据集上进行预训练。
进一步地,所述步骤2中,按照以下方式得到无向连通图:
通过KNN算法计算城市场景激光点云中每个点与剩余所有点之间的距离,并按照升序的方式进行排序,选取前K个点作为每个点的K个最近邻,每个点与其邻节点构成边,从而形成无向连通图。
进一步地,所述图注意力边卷积块Att-EdgeConv具体用于:
将图注意力机制作用于DGCNN网络进行边卷积运算的过程中,计算城市场景激光点云中每个点的K个最近邻,采用注意力机制来确定K个邻节点对目标节点的重要性,为无向连通图中每个点的邻节点分配不同的注意力权重,提取出目标节点的局部结构信息,得到物体的轮廓边界特征。
进一步地,所述注意力权重是根据城市场景激光点云中每个点与其K个邻节点之间的相对位置和特征差分计算得到的,然后注意力权重与K个邻节点的特征相乘得到的特征向量作为中心点的新特征。
进一步地,采用斯坦福大学提供的大场景室内3D点云数据集(Stanford Large-Scale 3D Indoor Spaces Dataset,S3DIS)进行初步图卷积神经网络模型及深度图注意力卷积神经网络模型的训练。
进一步地,所述NetVLAD算法是用于解决端到端的场景识别问题,它将传统的局部聚合描述子向量(Vector of Locally Aggregated Descriptors,VLAD)结构嵌入到卷积神经网络中,得到了一个新的NetVLAD层。
进一步地,所述步骤4包括:将NetVLAD层的输入特征和输出特征进行连接操作,将其作为NetVLAD++算法的输出特征向量,可有效融合局部特征和全局特征,解决NetVLAD算法对局部特征描述不足的问题,完成NetVLAD++模块设计。
进一步地,采用斯坦福大学提供的大场景室内3D点云数据集(Stanford Large-Scale 3D Indoor Spaces Dataset,S3DIS)进行步骤5中最终构建模型端到端的训练。
为更好的理解本发明,进行如下具体阐述:
1,物体的轮廓边界特征提取
如图2所示,本实施例基于图注意力机制对物体的轮廓边界进行特征提取。
将图注意力机制作用于DGCNN网络进行边卷积运算的过程中,计算城市激光点云中每个点的K个最近邻,采用注意力机制来确定K个邻节点对目标节点的重要性,为无向连通图中每个点的邻节点分配不同的注意力权重,提取出目标节点的局部结构信息,解决图卷积神经网络对物体边缘轮廓描述较差的问题。
为了学习更多的三维几何信息,使用KNN算法计算每个点的K个最近邻,并形成无向连通图(V,E),其中V∈1,2,……N是图的顶点;E∈|V|×|V|是图的边。
给定一组点云P={p1,p2,...,pN}∈R3,用h={h1,h2,...,hN}∈RF来代表每个点的特征,其中F为特征的维度。对每一个点i与其邻节点的权重计算公式为:
Figure BDA0004067897980000081
其中Δpij=pj-pi,Δhij=Mg(hj)-Mg(hi),Mg为一个维度F到M的映射函数,||为拼接操作。
Figure BDA0004067897980000086
可以表示M个通道上的特征
Figure BDA0004067897980000088
最后将其对所有的j进行Softmax操作使得所有的权重和为1,公式如下:
Figure BDA0004067897980000083
其中αij,M代表第j个点对于第i个点在第M个通道上的权重值。随后更新每个点的特征,图卷积算子的公式如下:
Figure BDA0004067897980000084
其中αij表示为M个通道上的权重{αij,1,αij,2,...,αij,M},*代表逐项相乘,h′i是经过图卷积之后的输出值,即每个点更新后的特征。
2,全局和局部特征信息融合
如图3所示,本实施例使用NetVLAD++算法融合点云全局和局部特征信息。
将NetVLAD层的输入特征和输出特征进行连接,作为NetVLAD++层的输出,进一步融合局部和全局特征,提高网络模型的分割精度。
VLAD是一种特征池化方法,存储了特征向量及聚类中心的残差。给定N个F维的局部特征{xi}为输入,P个聚类中心{cp}为参数,VLAD的输出V为P×F维的矩阵,再将其进一步归一化为一个向量作为全局特征。公式如下所示:
Figure BDA0004067897980000085
其中xi(j)代表第i个局部特征的第j个特征值;cp(j)代表第p个聚类中心的第j个特征值,系数ap(xi)计算每个局部特征到聚类中心的距离权重,把局部特征描述子xi在每个聚类簇下的权重设为为0或1,权重为1代表该特征离某个聚类簇中心近,权重为0说明距离聚类簇中心较远。由于ap(xi)的不连续性,VLAD无法反向传播进行训练。
NetVLAD算法对VLAD算法的缺点进行了改良,其对系数ap(xi)进行Softmax操作,把局部特征描述子xi在每个聚类簇下的权重调整为0-1之间,权重高代表该特征离某个聚类簇中心近,权重低说明离簇中心较远。对系数ap(xi)进行Softmax操作公式如下:
Figure BDA0004067897980000091
进一步将上次进行平方展开,可得到下式:
Figure BDA0004067897980000092
其中
Figure BDA0004067897980000093
b=-α||cp||2,α是一个正常数,控制响应随距离大小的衰减。当α→∞时,就与原VLAD的方法相同。NetVLAD算法与原始VLAD相比,具有更好的灵活性。NetVLAD算法输出的特征向量公式为:
Figure BDA0004067897980000094
NetVLAD算法通过求取特征点与聚类中心的残差和,整合局部特征形成全局特征描述符,而经过归一化的残差和注重于特征间的相对分布关系,忽略了特征间的差异,可能导致不同聚类簇中出现相似的特征分布,从而对特征分布相似的点做出错误判断。
为此,本实施例对NetVLAD算法进行改进,提出NetVLAD++算法,将NetVLAD层的输入特征和输出特征进行连接操作,将其作为NetVLAD++算法的输出特征向量,可以有效融合局部特征和全局特征,也可解决NetVLAD算法中的不足之处,NetVLAD++算法输出特征向量公式为:
Figure BDA0004067897980000095
进一步地,将NetVLAD++模块与Att-EdgeConv块融合为一个特征提取块,与所述深度图卷积神经网络构成一个完整的模型,进行端到端的训练,对其进行精调,并在S3DIS数据集上进行预训练。
如图4所示,本实施例基于图注意力机制和NetVLAD++算法对城市场景激光点云数据进行特征提取,更进一步提升网络分割精度。
综上,本发明利用基于KNN算法的图注意力卷积进行建模,通过注意力机制为不同邻节点分配不同权重,更好地聚集邻域信息。充分利用地物目标的三维结构信息提高图卷积神经网络模型的感知能力,并有效利用物体的轮廓边界提高网络模型边缘提取能力,解决了点云语义分割中标准卷积由于忽略物体的边缘结构导致分割结果中物体轮廓差、杂散区域小等问题。本发明对NetVLAD算法进行改进,提出NetVLAD++算法,应用于城市场景三维地物目标的语义标识和精准提取。通过充分提取点云特征,更好地融合了局部特征和全局上下文特征,提高了网络模型分割效果。最后,本发明将NetVLAD++算法和基于KNN算法的图注意力卷积模型进行融合,构成一个完整的网络模型进行端到端的训练,使用训练好的模型对城市场景激光点云进行语义分割。总的来说,本发明提高了城市场景点云语义分割的精度和效果。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于图卷积的城市场景激光LiDAR点云语义分割方法,其特征在于,包括:
步骤1:以DGCNN网络模型为基础模型,调整各个参数值,训练初步图卷积神经网络模型;
步骤2:采用图注意力卷积对DGCNN中边卷积EdgeConv进行优化:使用注意力权重区分无向连通图中每个点的K个邻节点的重要程度,设计图注意力边卷积块Att-EdgeConv;
步骤3:利用图注意力边卷积块Att-EdgeConv对城市场景三维地物目标进行建模,训练深度图注意力卷积神经网络模型,利用训练得到的模型对城市场景激光点云进行语义分割,得到城市场景点云语义初步分割结果;
步骤4:对NetVLAD算法进行改进,提出NetVLAD++算法,设计NetVLAD++模块;
步骤5:将NetVLAD++模块与Att-EdgeConv块融合为一个特征提取块,与所述深度图注意力卷积神经网络模型构成一个完整的模型,进行端到端的训练;
步骤6:利用训练得到的模型对城市场景激光点云进行语义分割,得到城市场景点云语义分割结果。
2.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法,其特征在于,所述步骤2中,按照以下方式得到无向连通图:
通过KNN算法计算城市场景激光点云中每个点与剩余所有点之间的距离,并按照升序的方式进行排序,选取前K个点作为每个点的K个最近邻,每个点与其K个邻节点构成边,从而形成无向连通图。
3.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法,其特征在于,所述图注意力边卷积块Att-EdgeConv具体用于:
将图注意力机制作用于DGCNN网络进行边卷积运算的过程中,计算城市场景激光点云中每个点的K个最近邻,采用注意力机制来确定K个邻节点对目标节点的重要性,为无向连通图中每个点的邻节点分配不同的注意力权重,提取出目标节点的局部结构信息,得到物体的轮廓边界特征。
4.根据权利要求3所述的基于图卷积的城市场景激光LiDAR点云语义分割方法,其特征在于,所述注意力权重是根据城市场景激光点云中每个点与其K个邻节点之间的相对位置和特征差分计算得到的,然后注意力权重与K个邻节点的特征相乘得到的特征向量作为中心点的新特征。
5.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法,其特征在于,采用S3DIS数据集进行初步图卷积神经网络模型及深度图注意力卷积神经网络模型的训练。
6.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法,其特征在于,通过所述NetVLAD算法将传统的局部聚合描述子向量结构嵌入到卷积神经网络中,得到一个NetVLAD层。
7.根据权利要求6所述的基于图卷积的城市场景激光LiDAR点云语义分割方法,其特征在于,所述步骤4包括:将NetVLAD层的输入特征和输出特征进行连接操作,将其作为NetVLAD++算法的输出特征向量,完成NetVLAD++模块设计。
8.根据权利要求1所述的基于图卷积的城市场景激光LiDAR点云语义分割方法,其特征在于,采用S3DIS数据集进行步骤5中最终构建模型端到端的训练。
CN202310082361.4A 2023-01-17 2023-01-17 基于图卷积的城市场景激光LiDAR点云语义分割方法 Active CN116129118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310082361.4A CN116129118B (zh) 2023-01-17 2023-01-17 基于图卷积的城市场景激光LiDAR点云语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310082361.4A CN116129118B (zh) 2023-01-17 2023-01-17 基于图卷积的城市场景激光LiDAR点云语义分割方法

Publications (2)

Publication Number Publication Date
CN116129118A true CN116129118A (zh) 2023-05-16
CN116129118B CN116129118B (zh) 2023-10-20

Family

ID=86307834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310082361.4A Active CN116129118B (zh) 2023-01-17 2023-01-17 基于图卷积的城市场景激光LiDAR点云语义分割方法

Country Status (1)

Country Link
CN (1) CN116129118B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011685A (zh) * 2023-09-27 2023-11-07 之江实验室 场景识别方法、装置和电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907602A (zh) * 2021-01-28 2021-06-04 中北大学 一种基于改进k-近邻算法的三维场景点云分割方法
CN113313176A (zh) * 2021-06-02 2021-08-27 东南大学 一种基于动态图卷积神经网络的点云分析方法
US20220101103A1 (en) * 2020-09-25 2022-03-31 Royal Bank Of Canada System and method for structure learning for graph neural networks
CN114358246A (zh) * 2021-12-27 2022-04-15 东北林业大学 三维点云场景的注意力机制的图卷积神经网络模块
US20220148311A1 (en) * 2022-01-24 2022-05-12 Intel Corporation Segment fusion based robust semantic segmentation of scenes
CN115272696A (zh) * 2022-07-26 2022-11-01 中国科学技术大学 一种基于自适应卷积和局部几何信息的点云语义分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220101103A1 (en) * 2020-09-25 2022-03-31 Royal Bank Of Canada System and method for structure learning for graph neural networks
CN112907602A (zh) * 2021-01-28 2021-06-04 中北大学 一种基于改进k-近邻算法的三维场景点云分割方法
CN113313176A (zh) * 2021-06-02 2021-08-27 东南大学 一种基于动态图卷积神经网络的点云分析方法
CN114358246A (zh) * 2021-12-27 2022-04-15 东北林业大学 三维点云场景的注意力机制的图卷积神经网络模块
US20220148311A1 (en) * 2022-01-24 2022-05-12 Intel Corporation Segment fusion based robust semantic segmentation of scenes
CN115272696A (zh) * 2022-07-26 2022-11-01 中国科学技术大学 一种基于自适应卷积和局部几何信息的点云语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XU JIANG.ET.: "Dynamic Graph CNN with Attention Module for 3D Hand Pose Estimation", 《 ADVANCES IN NEURAL NETWORKS – ISNN 2019》, pages 87 - 96 *
孔昕: "基于深度学习的三维点云语义分割及其在机器人中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1, pages 138 - 1133 *
张蕊等: "图卷积神经网络在点云语义分割中的研究综述", 《计算机工程与应用》, vol. 58, no. 24, pages 29 - 46 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011685A (zh) * 2023-09-27 2023-11-07 之江实验室 场景识别方法、装置和电子装置
CN117011685B (zh) * 2023-09-27 2024-01-09 之江实验室 场景识别方法、装置和电子装置

Also Published As

Publication number Publication date
CN116129118B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Zhang et al. A review of deep learning-based semantic segmentation for point cloud
Chen et al. Research of improving semantic image segmentation based on a feature fusion model
Wei et al. Superpixel hierarchy
CN110120097B (zh) 大场景机载点云语义建模方法
CN109410321B (zh) 基于卷积神经网络的三维重建方法
CN112101430B (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
CN104090972A (zh) 用于三维城市模型检索的图像特征提取和相似性度量方法
CN110543581A (zh) 基于非局部图卷积网络的多视图三维模型检索方法
CN113838109B (zh) 一种低重合度点云配准方法
Su et al. DLA-Net: Learning dual local attention features for semantic segmentation of large-scale building facade point clouds
Alidoost et al. Knowledge based 3D building model recognition using convolutional neural networks from LiDAR and aerial imageries
CN110334656A (zh) 基于信源概率加权的多源遥感图像水体提取方法及装置
CN116129118B (zh) 基于图卷积的城市场景激光LiDAR点云语义分割方法
CN111611960B (zh) 一种基于多层感知神经网络大区域地表覆盖分类方法
CN114612660A (zh) 一种基于多特征融合点云分割的三维建模方法
Kong et al. Event-VPR: End-to-end weakly supervised deep network architecture for visual place recognition using event-based vision sensor
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
Zhang et al. A dual attention neural network for airborne LiDAR point cloud semantic segmentation
CN114120095A (zh) 一种基于空中三维模型的移动机器人自主定位系统及方法
CN116030255A (zh) 一种三维点云语义分割的系统及方法
CN114565774B (zh) 基于局部几何与全局结构联合学习的3d图卷积分类方法
CN115272673A (zh) 一种基于三维目标上下文表示的点云语义分割方法
Wang et al. A Geometry Feature Aggregation Method for Point Cloud Classification and Segmentation
CN114549917B (zh) 一种数据表征增强的点云分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant