CN116824585A - 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 - Google Patents

一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 Download PDF

Info

Publication number
CN116824585A
CN116824585A CN202310807520.2A CN202310807520A CN116824585A CN 116824585 A CN116824585 A CN 116824585A CN 202310807520 A CN202310807520 A CN 202310807520A CN 116824585 A CN116824585 A CN 116824585A
Authority
CN
China
Prior art keywords
point cloud
features
layer
semantic segmentation
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310807520.2A
Other languages
English (en)
Inventor
罗甫林
曾涛
郭坦
刘嘉敏
段宇乐
石光耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202310807520.2A priority Critical patent/CN116824585A/zh
Publication of CN116824585A publication Critical patent/CN116824585A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明涉及一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置,该方法包括以下步骤:S1:对获取目标区域点云进行数据降采样预处理;S2:将处理后的航空激光点云数据输入至预先建立的多级上下文特征融合网络编码层,并把每层特征输入跨层注意力模块,得到跨层连接特征;S3:将编码特征通过解码层上采样至所述待分割点云的尺度大小,通过多层级特征融合模块融合各级解码特征,然后由Softmax函数得到航空激光点云的最终分割结果;S4:构建混合损失函数来得到分割结果与真实值之间的误差,根据误差值,利用随机梯度下降法进行反向传播训练,对模型参数进行动态调整,得到稳健的分割结果。本发明所述方法和装置能够有效增强点特征表达和空间信息的关联,提高对点云多尺度上下文特征的信息感知能力,获得更加精细的语义分割结果。

Description

一种基于多级上下文特征融合网络的航空激光点云语义分割 方法与装置
技术领域
本发明属于计算机视觉技术领域,涉及一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置。
背景技术
LiDAR是一种通过发射激光脉冲并测量其返回时间来获取物体的三维信息。与传统遥感技术相比,LiDAR具有高分辨率、光照无关和穿透能力强等优势。通过将激光雷达设备搭载在有人机或无人机上进行航空扫描,可以获取覆盖大范围地区的航空激光点云数据。这种技术不受光照和阴影的影响,能够在不同时间和天气条件下进行精确的地物观测。在城市点云中,航空激光点云数据蕴含着丰富的人文和自然目标信息,对语义分割、城市三维建模和高精度地图绘制等应用至关重要。然而,由于航空激光点云数据量巨大、城市区域复杂且地物的几何属性变化多样,现有算法在地物语义分割的精细提取方面仍面临挑战。
传统点云处理方法主要包括基于特征提取的方法、基于聚类的方法和基于分割的方法。基于特征提取的方法通过计算点云中的几何、颜色或其他属性的特征值,如表面法线、曲率等,来识别和分类地物。基于聚类的方法将点云数据分为不同的簇或群集,每个簇代表一个地物类别,常用的算法包括K-means和DBSCAN。基于分割的方法将点云分割成更小的子区域,通过区域生长、分水岭等算法来实现语义分割。
然而,传统点云处理方法存在一些缺点。首先,这些方法对于复杂的地物几何属性变化和噪声敏感,导致处理结果不够精确和稳定。其次,传统方法通常需要手动选择参数或特征,这在大规模数据集上是不可行的,并且对用户依赖较高。此外,传统方法对于大规模、高密度的点云数据计算量较大,处理速度较慢。另外,传统方法在处理遮挡、不完整数据和复杂背景等挑战时表现不佳。最后,这些方法通常缺乏对语义信息的高级理解和上下文推理能力,难以实现对地物的精细分类和识别。
为了克服这些缺点,研究人员正在探索新的点云处理方法,如深度学习和机器学习技术的应用。这些方法利用神经网络模型和大规模训练数据,能够自动学习和提取特征,并具备更强的适应性和泛化能力。目前,基于深度学习的方法在三维点云语义分割方面取得了显著的效果改进,相较于传统点云分割方法,具有更好的性能表现。根据点云数据的组织和管理类型,可以将现有的技术方法总结为以下三种:基于投影的方法、基于体素的方法和基于点的方法。
基于投影的方法利用点云数据在二维平面上的投影信息进行分割。通常,将点云投影到图像平面或特定的几何投影空间,然后使用二维卷积神经网络(CNN)进行语义分割。这种方法能够利用图像分割领域的成熟技术和深度学习架构,对点云数据进行高效的处理和分析。
基于体素的方法将点云数据转换为体素(三维像素)表示,并将其作为输入进行语义分割。通过将点云空间划分为规则的体素网格,每个体素中的点云信息可以编码为体素特征。然后,使用三维卷积神经网络(3D CNN)对体素进行分割,以获取点云的语义信息。这种方法能够保留更多的点云结构信息,但在处理大规模点云时可能受限于计算和存储资源的挑战。
基于点的方法直接对点云数据进行分割,每个点作为网络的输入。此类方法能够充分利用点云数据的几何和位置信息,例如Thomas等人提出了核点连续卷积网络KPConv,然而,该网络对每个下采样层只包含一个核点卷积(KPConv),不能对不同密度的点云实现高鲁棒的多层次特征提取;黄等人提出了一个局部差异注意力和全局感知注意力器网络(GraNet),用于航空激光点云数据的语义分割。该方法首先通过注意力加权来提取特征,以学习有代表性的几何信息。但是,这种方法没有考虑无序点云的全局上下文信息,因而无法充分识别细粒度点云语义特征。
综上所述,现有技术在航空激光点云语义分割中均未充分考虑多层次上下文的特征学习,且忽略了各语义类别的不平衡性。因此,提出一种能够多级特征提取和融合的方法,达到提升语义分割的鲁棒性和精度是一件具有重要意义的研究。
发明内容
有鉴于此,本发明的目的在于提供一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置,挤压扩展多层感知器模块(SE-MLP)通过使用多个MLP对通道信息进行压缩和扩展,结合残差连接,增强了核点卷积算子(KPConv)的局部特征表示;对于下采样路径中,为了提升跳跃连接通道特征信息传播的有效性,采用的通道自注意力模块(CSA)可以通过特征信息加权聚合的方式提取点云数据的上下文特征;跨层注意力融合模块(CAF)将不同解码阶段的特征分别进行注意力加权学习,可以提高点云精细分割的鉴别力。本方法和装置可以更好地获得和分析航空激光点云,并且在分割类别不均衡点云方面比其他方法具有优势。
为达到上述目的,本发明提供如下技术方案:
一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:该方法包括以下步骤:S1:对获取目标区域点云进行数据降采样预处理;S2:将处理后的航空激光点云数据输入至预先建立的多级上下文特征融合网络编码层,并把每层特征输入跨层注意力模块,得到跨层连接特征;S3:将编码特征通过解码层上采样至所述待分割点云的尺度大小,通过多层级特征融合模块融合各级解码特征,然后由Softmax函数得到航空激光点云的最终分割结果;S4:构建混合损失函数来得到分割结果与真实值之间的误差,根据误差值,利用随机梯度下降法进行反向传播训练,对模型参数进行动态调整,得到稳健的分割结果。
进一步,在步骤S1中,采用KD-tree算法对获取目标的点云数据进行降采样预处理。
7、进一步,在步骤S2中,将处理后的航空激光点云数据输入至建立的多级上下文特征融合网络编码层,即将采集的点云训练数据输入核点卷积块(KPConv),对点云特征进行学习,得到核点卷积后的特征;在下采样中利用压缩扩展多层感知机(SE-MLP)模块对核点卷积KPConv操作后的点云特征再次进行局部邻域特征的聚集,实现下采样阶段特征的有效表示,具体的,先采用核点卷积操作对点云特征进行提取,得到特征xkp,如下:
xi kp=KPConv(xi in),i=1,2,3,4,5
其中,i=1,2,3,4,5为不同尺度的编码层,xi in为输入点云样本特征,KPConv()表示的是KPConv函数,其公式如下:
其中,是点云P内固定半径r(r∈R)的邻域集合,即Nx={xi∈x∣||xi-x||≤r},xi是属于点云x的任意子集,fi是点云子集xi对应的特征,核函数κ的公式如下:
其中,表示球形核点3D空间中的位置,nk表示核函数κ的核点个数,Wk是对应核点的权重矩阵;
核点卷积操作后的特征被SE-MLP压缩扩展,得到判别特征,同时,引入了批归一化技术(BN)来提高所提出网络的可训练性,经过多层感知机运算后的特征/>的表示如下:
式中,i=1,2,3,4,5为不同尺度的编码层,为SE-MLP中不同层的可学习参数,∑为求和运算,/>为矩阵点积;
基于利用残差信息设计SE-MLP模块,提高网络深度和特征表示能力,该模块有效地进行挤压扩展运算,对局部特征进行聚合,增强点云特征的多样性表示;对于SE-MLP的输出,可以得到公式如下:
其中,ReLU()表示激活函数,即为ReLU(x)=max(0,x)。
8、进一步,为了让MCFN的下采样路径和上采样路径之间的信息传播得到加强,从有单一的跳跃连接路径中获得通道内多层级的点云上下文特征,设计了适用于KPConv操作的通道自注意力模块(CSA);给定输入特征矩阵为点集,将/>投影到三个不同的特征子空间,形成查询、键和值,分别为/>R,S和V的计算如下:
其中,i为不同的下采样层,表示成对MLP操作,即压缩一半的输入特征,然后将其恢复到原始尺度;最后,可以计算出加上跳跃连接的输出特征映射为:
式中,其用于将张量映射成概率分布;/>为矩阵点积;CSA模块的输出特征为/>其中i为不同的下采样层,该模块突出了跳跃连接的底层特征,可以帮助相似语义特征获得更好的鉴别力。
9、进一步,经过五层上述编码模块后进行解码操作,在浅层特征经过CSA模块后和高层特征进行拼接,对拼接张量利用1x1卷积操作并进行上采样,采用跨层注意力融合模块(CAF)来实现解码阶段1x1卷积操作后不同上采样层的高级特征信息融合,其公式如下:
其中,为可学习的权重,i=6,7,8为不同尺度的解码层,,γ为BN层中的归一化缩放比例因子,/>和/>分别对应CAF模块的不同上采样层的输出特征和输入特征,σ()是sogmoid函数,即为sigmoid(x)=1/(1+e-x),ψ()表示平均池化操作,CAF模块在不同的上采样层提取不同的点云特征,实现了多层次的信息聚合,聚合公式如下:
其中,Fadd为3层上采样层的聚合特征,为张量拼接操作。
10、进一步,将CAF操作后的征张量经过两层全连接层,经Softmax函数得到的语义分割结果,为了解决数据的不平衡问题,引入了焦点损失函数,损失函数设置如下:
其中,其中λ一般设置为2,αt表示类别权重参数,N表示点云的数量,ρjc表示第j个样本归入c类别的概率;
为了加强MCFN对不平衡数据的鲁棒性,引入了加权交叉熵损失函数,它可以通过对每个类别赋予不同的权重来更好地处理数据不平衡的情况,加权交叉熵可以表示为:
其中,N表示样本数量,yn,i表示第n个样本是否属于第i个类别,yn,i=1表示属于,yn,i=0表示不属于;log(pn,i)表示模型对第n个样本属于第i个类别的预测概率的自然对数;根据上述损失函数可以得到总体损失函数为:
Ltotal=LBCE+LFL
根据所述总体损失函数以及反向传播过程优化所述语义分割框架的模型参数,训练完成后,获得训练好的语义分割框架;通过训练好的语义分割框架对输入样本进行判别,输出稳健的语义分割结果。
本发明的有益效果在于:
本发明所提出的压缩扩展多层感知机模块可以有效聚集核点卷积运算后的点云局部邻域特征。本发明提出了适合于核点卷积的通道自注意力模块来挖掘多层次的上下文信息,生成具有鉴别力的语义特征。本发明提出的跨层注意力融合模块将不同解码阶段的高级特征进行注意力特征融合学习,实现层间信息交互,提高了点云精细分割效果。本发明提出了一种基于多级上下文特征融合网络的航空激光点云语义分割方法MCFN,该网络专注于多层次特征表示学习,对航空激光点云具有较强表征能力。在二个航空激光扫描点云数据集上的实验结果表明,所提出的MCFN的性能优于目前最先进的航空激光点云语义分割方法。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明方法流程图;
图2为机载平台采集点云示意图;
图3为用于航空激光点云语义分割的多级上下文特征融合网络(MCFN)图、压缩扩展多层感知机模块(SE-MLP)、通道自注意力模块(CSA)和跨层注意力融合模块(CAF);
图4为本发明MCFN网络的实验对比结果图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明。
图1为本发明方法流程图,本发明提供一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置,如图所示,在点云获取阶段,采用无人机或者有人机搭载LiDAR,可以快速获取空间遥感信息,包括地理位置、反射强度等信息,完成目标区域点云数据的采集。用于语义分割的深度学习网络如图3所示,它可以从航空激光点云中学习到精细的、具有代表性的地物特征。网络由核点卷积模块(KPConv)、压缩扩展多层感知机模块(SE-MLP)、通道自注意力模块(CSA)和跨层注意力融合模块(CAF)组成。首先,点云数据通过五层核点卷积模块获得局部特征,之后,通过SE-MLP模块从这些局部特征中获取并聚集具有多层次精细表示能力的语义特征。然后,低级和高级特征的拼接之间嵌入了CSA模块,对上下文语义信息进行注意力加权学习。最后,在解码阶段,CAF模块用于挖掘不同层次解码层的高层语义,并与网络的输出融合。本发明提出了以关键信息多层次融合学习为重点的多级上下文特征融合网络以挖掘类别分布不均衡航空激光点云的内在信息,生成具有鉴别力的高层语义特征。
具体来说,本发明技术方案包括以下内容:
1.数据预处理和降采样:对获取的目标区域点云采用KD-tree算法对获取目标的点云数据进行降采样预处理。
2.将处理后的点云训练数据输入核点卷积块(KPConv),如图3所示。将采集的点云训练数据输入核点卷积块(KPConv),对点云特征进行学习,得到核点卷积后的特征;在下采样中利用压缩扩展多层感知机(SE-MLP)模块对核点卷积KPConv操作后的点云特征再次进行局部邻域特征的聚集,实现下采样阶段特征的有效表示,具体的,先采用核点卷积操作对点云特征进行提取,得到特征xkp,如下:
xi kp=KPConv(xi in),i=1,2,3,4,5
其中,i=1,2,3,4,5为不同尺度的编码层,xi in为输入点云样本特征,KPConv()表示的是KPConv函数,其公式如下:
其中,是点云P内固定半径r(r∈R)的邻域集合,即Nx={xi∈x∣||xi-x||r},xi是属于点云x的任意子集,fi是点云子集xi对应的特征,核函数κ的公式如下:
其中,表示球形核点3D空间中的位置,nk表示核函数κ的核点个数,Wk是对应核点的权重矩阵;
核点卷积操作后的特征被SE-MLP压缩扩展,得到判别特征,同时,引入了批归一化技术(BN)来提高所提出网络的可训练性,经过多层感知机运算后的特征/>的表示如下:
式中,i=1,2,3,4,5为不同尺度的编码层,为SE-MLP中不同层的可学习参数,∑为求和运算,/>为矩阵点积;
基于利用残差信息设计SE-MLP模块,提高网络深度和特征表示能力,该模块有效地进行挤压扩展运算,对局部特征进行聚合,增强点云特征的多样性表示;对于SE-MLP的输出,可以得到公式如下:
其中,ReLU()表示激活函数,即为ReLU(x)=max(0,x)。
3.为了让MCFN的下采样路径和上采样路径之间的信息传播得到加强,从有单一的跳跃连接路径中获得通道内多层级的点云上下文特征,设计了适用于KPConv操作的通道自注意力模块(CSA);给定输入特征矩阵为点集,将/>投影到三个不同的特征子空间,形成查询、键和值,分别为/>R,S和V的计算如下:
其中,i为不同的下采样层,表示成对MLP操作,即压缩一半的输入特征,然后将其恢复到原始尺度;最后,可以计算出加上跳跃连接的输出特征映射为:
式中,其用于将张量映射成概率分布;/>为矩阵点积;CSA模块的输出特征为/>其中i为不同的下采样层,该模块突出了跳跃连接的底层特征,可以帮助相似语义特征获得更好的鉴别力。
4.经过五层上述编码模块后进行解码操作,在浅层特征经过CSA模块后和高层特征进行拼接,对拼接张量利用1x1卷积操作并进行上采样,采用跨层注意力融合模块(CAF)来实现解码阶段1x1卷积操作后不同上采样层的高级特征信息融合,其公式如下:
其中,为可学习的权重,i=6,7,8为不同尺度的解码层,,γ为BN层中的归一化缩放比例因子,/>和/>分别对应CAF模块的不同上采样层的输出特征和输入特征,σ()是sogmoid函数,即为sigmoid(x)=1/(1+e-x),ψ()表示平均池化操作,CAF模块在不同的上采样层提取不同的点云特征,实现了多层次的信息聚合,聚合公式如下:
其中,Fadd为3层上采样层的聚合特征,为张量拼接操作。
5.将CAF操作后的征张量经过两层全连接层,经Softmax函数得到的语义分割结果,为了解决数据的不平衡问题,引入了焦点损失函数,损失函数设置如下:
其中,其中λ一般设置为2,αt表示类别权重参数,N表示点云的数量,ρjc表示第j个样本归入c类别的概率;
为了加强MCFN对不平衡数据的鲁棒性,引入了加权交叉熵损失函数,它可以通过对每个类别赋予不同的权重来更好地处理数据不平衡的情况,加权交叉熵可以表示为:
其中,N表示样本数量,yn,i表示第n个样本是否属于第i个类别,yn,i=1表示属于,yn,i=0表示不属于;log(pn,i)表示模型对第n个样本属于第i个类别的预测概率的自然对数;根据上述损失函数可以得到总体损失函数为:
Ltotal=LBCE+LFL
根据所述总体损失函数以及反向传播过程优化所述语义分割框架的模型参数,训练完成后,获得训练好的语义分割框架;通过训练好的语义分割框架对输入样本进行判别,输出稳健的语义分割结果。
如图4是本发明所述的MCFN语义分割网络在一个开源机载城市点云数据集LASDU上的实验结果,其中图(a)是真值,图(b)是KPConv算法的结果,图(c)是我们所提算法MCFN的结果,与真值相比,可以看到,MCFN算法椭圆区域中的类别被很好地分割出来。本发明的分割效果还可以通过对比实验进一步说明。在LASDU数据集上采用本发明方法和其他现有方法PointNet++、PointCNN、PointConv、DGCNN、ShellNet、PosPool、KPConv方法进行对比,如表1所示,分别计算总体精度Overall Accuracy(OA)、平均F1指数Avg.F1,其中,总体精度OA越大,说明所有被预测为正确的结果中正确的比例越高;平均F1指数Avg.F1越大,说明结果的综合评价越好。表1给出了不同方法检测结果的各项指标值:
表1MCFN与各种方法在LASDU数据集上的比较
可以看出,本发明方法在该数据集上取得了最佳的OA和Avg.F1。这也说明本发明所述方法的性能优于其他的航空激光点云语义分割方法。本发明提出的方法可以获得更好的效果,并且在类别为地面、建筑物、树木、人造物方面比其他方法具有优势。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:该方法包括以下步骤:
S1:对获取目标区域点云进行数据降采样预处理;
S2:将处理后的航空激光点云数据输入至预先建立的多级上下文特征融合网络编码层,并把每层特征输入跨层注意力模块,得到跨层连接特征;
S3:将编码特征通过解码层上采样至所述待分割点云的尺度大小,通过多层级特征融合模块融合各级解码特征,然后由Softmax函数得到航空激光点云的最终分割结果;
S4:构建混合损失函数来得到分割结果与真实值之间的误差,根据误差值,利用随机梯度下降法进行反向传播训练,对模型参数进行动态调整,得到稳健的分割结果。
2.根据权利要求1所述的一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:在步骤S2中,将处理后的航空激光点云数据输入至建立的多级上下文特征融合网络编码层,即将采集的点云训练数据输入核点卷积块(KPConv),对点云特征进行学习,得到核点卷积后的特征;在下采样中利用压缩扩展多层感知机(SE-MLP)模块对核点卷积KPConv操作后的点云特征再次进行局部邻域特征的聚集,实现下采样阶段特征的有效表示,具体的,先采用核点卷积操作对点云特征进行提取,得到特征xkp,如下:
xi kp=KPConv(xi in),i=1,2,3,4,5
其中,i=1,2,3,4,5为不同尺度的编码层,xi in为输入点云样本特征,KPConv()表示的是KPConv函数,其公式如下:
其中,是点云P内固定半径r(r∈R)的邻域集合,即Nx={xi∈x∣||xi-x||≤r},xi是属于点云x的任意子集,fi是点云子集xi对应的特征,核函数κ的公式如下:
其中,表示球形核点3D空间中的位置,nk表示核函数κ的核点个数,Wk是对应核点的权重矩阵;
核点卷积操作后的特征被SE-MLP压缩扩展,得到判别特征,同时,引入了批归一化技术(BN)来提高所提出网络的可训练性,经过多层感知机运算后的特征/>的表示如下:
式中,i=1,2,3,4,5为不同尺度的编码层,W1 i,W3 i,/>为SE-MLP中不同层的可学习参数,∑为求和运算,/>为矩阵点积;
基于利用残差信息设计SE-MLP模块,提高网络深度和特征表示能力,该模块有效地进行挤压扩展运算,对局部特征进行聚合,增强点云特征的多样性表示;对于SE-MLP的输出,可以得到公式如下:
其中,ReLU()表示激活函数,即为ReLU(x)=max(0,x)。
3.根据权利要求2所述的一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:在步骤S2中,为了让MCFN的下采样路径和上采样路径之间的信息传播得到加强,从有单一的跳跃连接路径中获得通道内多层级的点云上下文特征,设计了适用于KPConv操作的通道自注意力模块(CSA);给定输入特征矩阵为点集,将投影到三个不同的特征子空间,形成查询、键和值,分别为/>R,S和V的计算如下:
其中,i为不同的下采样层,表示成对MLP操作,即压缩一半的输入特征,然后将其恢复到原始尺度;最后,可以计算出加上跳跃连接的输出特征映射为:
式中,其用于将张量映射成概率分布;/>为矩阵点积;CSA模块的输出特征为/>其中i为不同的下采样层,该模块突出了跳跃连接的底层特征,可以帮助相似语义特征获得更好的鉴别力。
4.根据权利要求3所述的一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:在步骤S3中,经过五层上述编码模块后进行解码操作,在浅层特征经过CSA模块后和高层特征进行拼接,对拼接张量利用1x1卷积操作并进行上采样,采用跨层注意力融合模块(CAF)来实现解码阶段1x1卷积操作后不同上采样层的高级特征信息融合,其公式如下:
其中,为可学习的权重,i=6,7,8为不同尺度的解码层,,γ为BN层中的归一化缩放比例因子,/>和/>分别对应CAF模块的不同上采样层的输出特征和输入特征,σ()是sogmoid函数,即为sigmoid(x)=1/(1+e-x),ψ()表示平均池化操作,CAF模块在不同的上采样层提取不同的点云特征,实现了多层次的信息聚合,聚合公式如下:
其中,Fadd为3层上采样层的聚合特征,为张量拼接操作。
5.根据权利要求4所述的一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:在步骤S4中,将CAF操作后的征张量经过两层全连接层,经Softmax函数得到的语义分割结果,为了解决数据的不平衡问题,引入了焦点损失函数,损失函数设置如下:
其中,其中λ一般设置为2,αt表示类别权重参数,N表示点云的数量,ρjc表示第j个样本归入c类别的概率;
为了加强MCFN对不平衡数据的鲁棒性,引入了加权交叉熵损失函数,它可以通过对每个类别赋予不同的权重来更好地处理数据不平衡的情况,加权交叉熵可以表示为:
其中,N表示样本数量,yn,i表示第n个样本是否属于第i个类别,yn,i=1表示属于,yn,i=0表示不属于;log(pn,i)表示模型对第n个样本属于第i个类别的预测概率的自然对数;根据上述损失函数可以得到总体损失函数为:
Ltotal=LBCE+LFL
根据所述总体损失函数以及反向传播过程优化所述语义分割框架的模型参数,训练完成后,获得训练好的语义分割框架;通过训练好的语义分割框架对输入样本进行判别,输出稳健的语义分割结果。
6.一种递多级上下文特征融合网络的航空激光点云语义分割装置,其特征在于:所述装置包括处理器、存储器,以及存储在所述存储器上可被所述处理器执行的基于多级上下文特征融合网络的航空激光点云语义分割程序,其中所述基于多级上下文特征融合网络的航空激光点云语义分割程序执行时,实现如权利要求1至5中任一项所述方法的步骤。
CN202310807520.2A 2023-07-04 2023-07-04 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 Pending CN116824585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310807520.2A CN116824585A (zh) 2023-07-04 2023-07-04 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310807520.2A CN116824585A (zh) 2023-07-04 2023-07-04 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置

Publications (1)

Publication Number Publication Date
CN116824585A true CN116824585A (zh) 2023-09-29

Family

ID=88127321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310807520.2A Pending CN116824585A (zh) 2023-07-04 2023-07-04 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置

Country Status (1)

Country Link
CN (1) CN116824585A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117014633A (zh) * 2023-10-07 2023-11-07 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117092612A (zh) * 2023-10-18 2023-11-21 湘潭大学 基于激光雷达的自动驾驶导航方法
CN117553807A (zh) * 2024-01-12 2024-02-13 湘潭大学 基于激光雷达的自动驾驶导航方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117014633A (zh) * 2023-10-07 2023-11-07 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117014633B (zh) * 2023-10-07 2024-04-05 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117092612A (zh) * 2023-10-18 2023-11-21 湘潭大学 基于激光雷达的自动驾驶导航方法
CN117092612B (zh) * 2023-10-18 2024-01-26 湘潭大学 基于激光雷达的自动驾驶导航方法
CN117553807A (zh) * 2024-01-12 2024-02-13 湘潭大学 基于激光雷达的自动驾驶导航方法及系统
CN117553807B (zh) * 2024-01-12 2024-03-22 湘潭大学 基于激光雷达的自动驾驶导航方法及系统

Similar Documents

Publication Publication Date Title
CN109829399B (zh) 一种基于深度学习的车载道路场景点云自动分类方法
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN110135267B (zh) 一种大场景sar图像细微目标检测方法
CN110472627B (zh) 一种端到端的sar图像识别方法、装置及存储介质
CN108875813B (zh) 一种基于几何图像的三维网格模型检索方法
CN116824585A (zh) 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置
Jing et al. Fine building segmentation in high-resolution SAR images via selective pyramid dilated network
Chen et al. Agricultural remote sensing image cultivated land extraction technology based on deep learning
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN112163114B (zh) 一种基于特征融合的图像检索方法
Karim et al. A brief review and challenges of object detection in optical remote sensing imagery
Nurkarim et al. Building footprint extraction and counting on very high-resolution satellite imagery using object detection deep learning framework
CN116468740A (zh) 一种图像语义分割模型及分割方法
CN112733736A (zh) 基于增强过采样的类别不平衡高光谱图像分类方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
Hu et al. RGB-D image multi-target detection method based on 3D DSF R-CNN
CN116385902A (zh) 一种遥感大数据处理方法、系统及云平台
Li et al. Evaluation the performance of fully convolutional networks for building extraction compared with shallow models
CN111598140A (zh) 一种基于胶囊网络的遥感图像分类方法
Li et al. Standardized object-based dual CNNs for very high-resolution remote sensing image classification and standardization combination effect analysis
Li et al. 3D large-scale point cloud semantic segmentation using optimal feature description vector network: OFDV-Net
Wang et al. FPA-DNN: a forward propagation acceleration based deep neural network for ship detection
Pu et al. An automatic method for tree species point cloud segmentation based on deep learning
Xue et al. Adaptive neighbourhood recovery method for machine learning based 3D point cloud classification
Yang et al. Research on Target Detection Technology Based on Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination