CN116824585A - 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 - Google Patents
一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 Download PDFInfo
- Publication number
- CN116824585A CN116824585A CN202310807520.2A CN202310807520A CN116824585A CN 116824585 A CN116824585 A CN 116824585A CN 202310807520 A CN202310807520 A CN 202310807520A CN 116824585 A CN116824585 A CN 116824585A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- features
- layer
- semantic segmentation
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000011218 segmentation Effects 0.000 title claims abstract description 60
- 230000004927 fusion Effects 0.000 title claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 42
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000011478 gradient descent method Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000001125 extrusion Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 241000001667 Eueretagrotis sigmoides Species 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 208000024891 symptom Diseases 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 53
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明涉及一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置,该方法包括以下步骤:S1:对获取目标区域点云进行数据降采样预处理;S2:将处理后的航空激光点云数据输入至预先建立的多级上下文特征融合网络编码层,并把每层特征输入跨层注意力模块,得到跨层连接特征;S3:将编码特征通过解码层上采样至所述待分割点云的尺度大小,通过多层级特征融合模块融合各级解码特征,然后由Softmax函数得到航空激光点云的最终分割结果;S4:构建混合损失函数来得到分割结果与真实值之间的误差,根据误差值,利用随机梯度下降法进行反向传播训练,对模型参数进行动态调整,得到稳健的分割结果。本发明所述方法和装置能够有效增强点特征表达和空间信息的关联,提高对点云多尺度上下文特征的信息感知能力,获得更加精细的语义分割结果。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置。
背景技术
LiDAR是一种通过发射激光脉冲并测量其返回时间来获取物体的三维信息。与传统遥感技术相比,LiDAR具有高分辨率、光照无关和穿透能力强等优势。通过将激光雷达设备搭载在有人机或无人机上进行航空扫描,可以获取覆盖大范围地区的航空激光点云数据。这种技术不受光照和阴影的影响,能够在不同时间和天气条件下进行精确的地物观测。在城市点云中,航空激光点云数据蕴含着丰富的人文和自然目标信息,对语义分割、城市三维建模和高精度地图绘制等应用至关重要。然而,由于航空激光点云数据量巨大、城市区域复杂且地物的几何属性变化多样,现有算法在地物语义分割的精细提取方面仍面临挑战。
传统点云处理方法主要包括基于特征提取的方法、基于聚类的方法和基于分割的方法。基于特征提取的方法通过计算点云中的几何、颜色或其他属性的特征值,如表面法线、曲率等,来识别和分类地物。基于聚类的方法将点云数据分为不同的簇或群集,每个簇代表一个地物类别,常用的算法包括K-means和DBSCAN。基于分割的方法将点云分割成更小的子区域,通过区域生长、分水岭等算法来实现语义分割。
然而,传统点云处理方法存在一些缺点。首先,这些方法对于复杂的地物几何属性变化和噪声敏感,导致处理结果不够精确和稳定。其次,传统方法通常需要手动选择参数或特征,这在大规模数据集上是不可行的,并且对用户依赖较高。此外,传统方法对于大规模、高密度的点云数据计算量较大,处理速度较慢。另外,传统方法在处理遮挡、不完整数据和复杂背景等挑战时表现不佳。最后,这些方法通常缺乏对语义信息的高级理解和上下文推理能力,难以实现对地物的精细分类和识别。
为了克服这些缺点,研究人员正在探索新的点云处理方法,如深度学习和机器学习技术的应用。这些方法利用神经网络模型和大规模训练数据,能够自动学习和提取特征,并具备更强的适应性和泛化能力。目前,基于深度学习的方法在三维点云语义分割方面取得了显著的效果改进,相较于传统点云分割方法,具有更好的性能表现。根据点云数据的组织和管理类型,可以将现有的技术方法总结为以下三种:基于投影的方法、基于体素的方法和基于点的方法。
基于投影的方法利用点云数据在二维平面上的投影信息进行分割。通常,将点云投影到图像平面或特定的几何投影空间,然后使用二维卷积神经网络(CNN)进行语义分割。这种方法能够利用图像分割领域的成熟技术和深度学习架构,对点云数据进行高效的处理和分析。
基于体素的方法将点云数据转换为体素(三维像素)表示,并将其作为输入进行语义分割。通过将点云空间划分为规则的体素网格,每个体素中的点云信息可以编码为体素特征。然后,使用三维卷积神经网络(3D CNN)对体素进行分割,以获取点云的语义信息。这种方法能够保留更多的点云结构信息,但在处理大规模点云时可能受限于计算和存储资源的挑战。
基于点的方法直接对点云数据进行分割,每个点作为网络的输入。此类方法能够充分利用点云数据的几何和位置信息,例如Thomas等人提出了核点连续卷积网络KPConv,然而,该网络对每个下采样层只包含一个核点卷积(KPConv),不能对不同密度的点云实现高鲁棒的多层次特征提取;黄等人提出了一个局部差异注意力和全局感知注意力器网络(GraNet),用于航空激光点云数据的语义分割。该方法首先通过注意力加权来提取特征,以学习有代表性的几何信息。但是,这种方法没有考虑无序点云的全局上下文信息,因而无法充分识别细粒度点云语义特征。
综上所述,现有技术在航空激光点云语义分割中均未充分考虑多层次上下文的特征学习,且忽略了各语义类别的不平衡性。因此,提出一种能够多级特征提取和融合的方法,达到提升语义分割的鲁棒性和精度是一件具有重要意义的研究。
发明内容
有鉴于此,本发明的目的在于提供一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置,挤压扩展多层感知器模块(SE-MLP)通过使用多个MLP对通道信息进行压缩和扩展,结合残差连接,增强了核点卷积算子(KPConv)的局部特征表示;对于下采样路径中,为了提升跳跃连接通道特征信息传播的有效性,采用的通道自注意力模块(CSA)可以通过特征信息加权聚合的方式提取点云数据的上下文特征;跨层注意力融合模块(CAF)将不同解码阶段的特征分别进行注意力加权学习,可以提高点云精细分割的鉴别力。本方法和装置可以更好地获得和分析航空激光点云,并且在分割类别不均衡点云方面比其他方法具有优势。
为达到上述目的,本发明提供如下技术方案:
一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:该方法包括以下步骤:S1:对获取目标区域点云进行数据降采样预处理;S2:将处理后的航空激光点云数据输入至预先建立的多级上下文特征融合网络编码层,并把每层特征输入跨层注意力模块,得到跨层连接特征;S3:将编码特征通过解码层上采样至所述待分割点云的尺度大小,通过多层级特征融合模块融合各级解码特征,然后由Softmax函数得到航空激光点云的最终分割结果;S4:构建混合损失函数来得到分割结果与真实值之间的误差,根据误差值,利用随机梯度下降法进行反向传播训练,对模型参数进行动态调整,得到稳健的分割结果。
进一步,在步骤S1中,采用KD-tree算法对获取目标的点云数据进行降采样预处理。
7、进一步,在步骤S2中,将处理后的航空激光点云数据输入至建立的多级上下文特征融合网络编码层,即将采集的点云训练数据输入核点卷积块(KPConv),对点云特征进行学习,得到核点卷积后的特征;在下采样中利用压缩扩展多层感知机(SE-MLP)模块对核点卷积KPConv操作后的点云特征再次进行局部邻域特征的聚集,实现下采样阶段特征的有效表示,具体的,先采用核点卷积操作对点云特征进行提取,得到特征xkp,如下:
xi kp=KPConv(xi in),i=1,2,3,4,5
其中,i=1,2,3,4,5为不同尺度的编码层,xi in为输入点云样本特征,KPConv()表示的是KPConv函数,其公式如下:
其中,是点云P内固定半径r(r∈R)的邻域集合,即Nx={xi∈x∣||xi-x||≤r},xi是属于点云x的任意子集,fi是点云子集xi对应的特征,核函数κ的公式如下:
其中,表示球形核点3D空间中的位置,nk表示核函数κ的核点个数,Wk是对应核点的权重矩阵;
核点卷积操作后的特征被SE-MLP压缩扩展,得到判别特征,同时,引入了批归一化技术(BN)来提高所提出网络的可训练性,经过多层感知机运算后的特征/>的表示如下:
式中,i=1,2,3,4,5为不同尺度的编码层,为SE-MLP中不同层的可学习参数,∑为求和运算,/>为矩阵点积;
基于利用残差信息设计SE-MLP模块,提高网络深度和特征表示能力,该模块有效地进行挤压扩展运算,对局部特征进行聚合,增强点云特征的多样性表示;对于SE-MLP的输出,可以得到公式如下:
其中,ReLU()表示激活函数,即为ReLU(x)=max(0,x)。
8、进一步,为了让MCFN的下采样路径和上采样路径之间的信息传播得到加强,从有单一的跳跃连接路径中获得通道内多层级的点云上下文特征,设计了适用于KPConv操作的通道自注意力模块(CSA);给定输入特征矩阵为点集,将/>投影到三个不同的特征子空间,形成查询、键和值,分别为/>R,S和V的计算如下:
其中,i为不同的下采样层,表示成对MLP操作,即压缩一半的输入特征,然后将其恢复到原始尺度;最后,可以计算出加上跳跃连接的输出特征映射为:
式中,其用于将张量映射成概率分布;/>为矩阵点积;CSA模块的输出特征为/>其中i为不同的下采样层,该模块突出了跳跃连接的底层特征,可以帮助相似语义特征获得更好的鉴别力。
9、进一步,经过五层上述编码模块后进行解码操作,在浅层特征经过CSA模块后和高层特征进行拼接,对拼接张量利用1x1卷积操作并进行上采样,采用跨层注意力融合模块(CAF)来实现解码阶段1x1卷积操作后不同上采样层的高级特征信息融合,其公式如下:
其中,为可学习的权重,i=6,7,8为不同尺度的解码层,,γ为BN层中的归一化缩放比例因子,/>和/>分别对应CAF模块的不同上采样层的输出特征和输入特征,σ()是sogmoid函数,即为sigmoid(x)=1/(1+e-x),ψ()表示平均池化操作,CAF模块在不同的上采样层提取不同的点云特征,实现了多层次的信息聚合,聚合公式如下:
其中,Fadd为3层上采样层的聚合特征,为张量拼接操作。
10、进一步,将CAF操作后的征张量经过两层全连接层,经Softmax函数得到的语义分割结果,为了解决数据的不平衡问题,引入了焦点损失函数,损失函数设置如下:
其中,其中λ一般设置为2,αt表示类别权重参数,N表示点云的数量,ρjc表示第j个样本归入c类别的概率;
为了加强MCFN对不平衡数据的鲁棒性,引入了加权交叉熵损失函数,它可以通过对每个类别赋予不同的权重来更好地处理数据不平衡的情况,加权交叉熵可以表示为:
其中,N表示样本数量,yn,i表示第n个样本是否属于第i个类别,yn,i=1表示属于,yn,i=0表示不属于;log(pn,i)表示模型对第n个样本属于第i个类别的预测概率的自然对数;根据上述损失函数可以得到总体损失函数为:
Ltotal=LBCE+LFL
根据所述总体损失函数以及反向传播过程优化所述语义分割框架的模型参数,训练完成后,获得训练好的语义分割框架;通过训练好的语义分割框架对输入样本进行判别,输出稳健的语义分割结果。
本发明的有益效果在于:
本发明所提出的压缩扩展多层感知机模块可以有效聚集核点卷积运算后的点云局部邻域特征。本发明提出了适合于核点卷积的通道自注意力模块来挖掘多层次的上下文信息,生成具有鉴别力的语义特征。本发明提出的跨层注意力融合模块将不同解码阶段的高级特征进行注意力特征融合学习,实现层间信息交互,提高了点云精细分割效果。本发明提出了一种基于多级上下文特征融合网络的航空激光点云语义分割方法MCFN,该网络专注于多层次特征表示学习,对航空激光点云具有较强表征能力。在二个航空激光扫描点云数据集上的实验结果表明,所提出的MCFN的性能优于目前最先进的航空激光点云语义分割方法。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明方法流程图;
图2为机载平台采集点云示意图;
图3为用于航空激光点云语义分割的多级上下文特征融合网络(MCFN)图、压缩扩展多层感知机模块(SE-MLP)、通道自注意力模块(CSA)和跨层注意力融合模块(CAF);
图4为本发明MCFN网络的实验对比结果图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明。
图1为本发明方法流程图,本发明提供一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置,如图所示,在点云获取阶段,采用无人机或者有人机搭载LiDAR,可以快速获取空间遥感信息,包括地理位置、反射强度等信息,完成目标区域点云数据的采集。用于语义分割的深度学习网络如图3所示,它可以从航空激光点云中学习到精细的、具有代表性的地物特征。网络由核点卷积模块(KPConv)、压缩扩展多层感知机模块(SE-MLP)、通道自注意力模块(CSA)和跨层注意力融合模块(CAF)组成。首先,点云数据通过五层核点卷积模块获得局部特征,之后,通过SE-MLP模块从这些局部特征中获取并聚集具有多层次精细表示能力的语义特征。然后,低级和高级特征的拼接之间嵌入了CSA模块,对上下文语义信息进行注意力加权学习。最后,在解码阶段,CAF模块用于挖掘不同层次解码层的高层语义,并与网络的输出融合。本发明提出了以关键信息多层次融合学习为重点的多级上下文特征融合网络以挖掘类别分布不均衡航空激光点云的内在信息,生成具有鉴别力的高层语义特征。
具体来说,本发明技术方案包括以下内容:
1.数据预处理和降采样:对获取的目标区域点云采用KD-tree算法对获取目标的点云数据进行降采样预处理。
2.将处理后的点云训练数据输入核点卷积块(KPConv),如图3所示。将采集的点云训练数据输入核点卷积块(KPConv),对点云特征进行学习,得到核点卷积后的特征;在下采样中利用压缩扩展多层感知机(SE-MLP)模块对核点卷积KPConv操作后的点云特征再次进行局部邻域特征的聚集,实现下采样阶段特征的有效表示,具体的,先采用核点卷积操作对点云特征进行提取,得到特征xkp,如下:
xi kp=KPConv(xi in),i=1,2,3,4,5
其中,i=1,2,3,4,5为不同尺度的编码层,xi in为输入点云样本特征,KPConv()表示的是KPConv函数,其公式如下:
其中,是点云P内固定半径r(r∈R)的邻域集合,即Nx={xi∈x∣||xi-x||r},xi是属于点云x的任意子集,fi是点云子集xi对应的特征,核函数κ的公式如下:
其中,表示球形核点3D空间中的位置,nk表示核函数κ的核点个数,Wk是对应核点的权重矩阵;
核点卷积操作后的特征被SE-MLP压缩扩展,得到判别特征,同时,引入了批归一化技术(BN)来提高所提出网络的可训练性,经过多层感知机运算后的特征/>的表示如下:
式中,i=1,2,3,4,5为不同尺度的编码层,为SE-MLP中不同层的可学习参数,∑为求和运算,/>为矩阵点积;
基于利用残差信息设计SE-MLP模块,提高网络深度和特征表示能力,该模块有效地进行挤压扩展运算,对局部特征进行聚合,增强点云特征的多样性表示;对于SE-MLP的输出,可以得到公式如下:
其中,ReLU()表示激活函数,即为ReLU(x)=max(0,x)。
3.为了让MCFN的下采样路径和上采样路径之间的信息传播得到加强,从有单一的跳跃连接路径中获得通道内多层级的点云上下文特征,设计了适用于KPConv操作的通道自注意力模块(CSA);给定输入特征矩阵为点集,将/>投影到三个不同的特征子空间,形成查询、键和值,分别为/>R,S和V的计算如下:
其中,i为不同的下采样层,表示成对MLP操作,即压缩一半的输入特征,然后将其恢复到原始尺度;最后,可以计算出加上跳跃连接的输出特征映射为:
式中,其用于将张量映射成概率分布;/>为矩阵点积;CSA模块的输出特征为/>其中i为不同的下采样层,该模块突出了跳跃连接的底层特征,可以帮助相似语义特征获得更好的鉴别力。
4.经过五层上述编码模块后进行解码操作,在浅层特征经过CSA模块后和高层特征进行拼接,对拼接张量利用1x1卷积操作并进行上采样,采用跨层注意力融合模块(CAF)来实现解码阶段1x1卷积操作后不同上采样层的高级特征信息融合,其公式如下:
其中,为可学习的权重,i=6,7,8为不同尺度的解码层,,γ为BN层中的归一化缩放比例因子,/>和/>分别对应CAF模块的不同上采样层的输出特征和输入特征,σ()是sogmoid函数,即为sigmoid(x)=1/(1+e-x),ψ()表示平均池化操作,CAF模块在不同的上采样层提取不同的点云特征,实现了多层次的信息聚合,聚合公式如下:
其中,Fadd为3层上采样层的聚合特征,为张量拼接操作。
5.将CAF操作后的征张量经过两层全连接层,经Softmax函数得到的语义分割结果,为了解决数据的不平衡问题,引入了焦点损失函数,损失函数设置如下:
其中,其中λ一般设置为2,αt表示类别权重参数,N表示点云的数量,ρjc表示第j个样本归入c类别的概率;
为了加强MCFN对不平衡数据的鲁棒性,引入了加权交叉熵损失函数,它可以通过对每个类别赋予不同的权重来更好地处理数据不平衡的情况,加权交叉熵可以表示为:
其中,N表示样本数量,yn,i表示第n个样本是否属于第i个类别,yn,i=1表示属于,yn,i=0表示不属于;log(pn,i)表示模型对第n个样本属于第i个类别的预测概率的自然对数;根据上述损失函数可以得到总体损失函数为:
Ltotal=LBCE+LFL
根据所述总体损失函数以及反向传播过程优化所述语义分割框架的模型参数,训练完成后,获得训练好的语义分割框架;通过训练好的语义分割框架对输入样本进行判别,输出稳健的语义分割结果。
如图4是本发明所述的MCFN语义分割网络在一个开源机载城市点云数据集LASDU上的实验结果,其中图(a)是真值,图(b)是KPConv算法的结果,图(c)是我们所提算法MCFN的结果,与真值相比,可以看到,MCFN算法椭圆区域中的类别被很好地分割出来。本发明的分割效果还可以通过对比实验进一步说明。在LASDU数据集上采用本发明方法和其他现有方法PointNet++、PointCNN、PointConv、DGCNN、ShellNet、PosPool、KPConv方法进行对比,如表1所示,分别计算总体精度Overall Accuracy(OA)、平均F1指数Avg.F1,其中,总体精度OA越大,说明所有被预测为正确的结果中正确的比例越高;平均F1指数Avg.F1越大,说明结果的综合评价越好。表1给出了不同方法检测结果的各项指标值:
表1MCFN与各种方法在LASDU数据集上的比较
可以看出,本发明方法在该数据集上取得了最佳的OA和Avg.F1。这也说明本发明所述方法的性能优于其他的航空激光点云语义分割方法。本发明提出的方法可以获得更好的效果,并且在类别为地面、建筑物、树木、人造物方面比其他方法具有优势。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:该方法包括以下步骤:
S1:对获取目标区域点云进行数据降采样预处理;
S2:将处理后的航空激光点云数据输入至预先建立的多级上下文特征融合网络编码层,并把每层特征输入跨层注意力模块,得到跨层连接特征;
S3:将编码特征通过解码层上采样至所述待分割点云的尺度大小,通过多层级特征融合模块融合各级解码特征,然后由Softmax函数得到航空激光点云的最终分割结果;
S4:构建混合损失函数来得到分割结果与真实值之间的误差,根据误差值,利用随机梯度下降法进行反向传播训练,对模型参数进行动态调整,得到稳健的分割结果。
2.根据权利要求1所述的一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:在步骤S2中,将处理后的航空激光点云数据输入至建立的多级上下文特征融合网络编码层,即将采集的点云训练数据输入核点卷积块(KPConv),对点云特征进行学习,得到核点卷积后的特征;在下采样中利用压缩扩展多层感知机(SE-MLP)模块对核点卷积KPConv操作后的点云特征再次进行局部邻域特征的聚集,实现下采样阶段特征的有效表示,具体的,先采用核点卷积操作对点云特征进行提取,得到特征xkp,如下:
xi kp=KPConv(xi in),i=1,2,3,4,5
其中,i=1,2,3,4,5为不同尺度的编码层,xi in为输入点云样本特征,KPConv()表示的是KPConv函数,其公式如下:
其中,是点云P内固定半径r(r∈R)的邻域集合,即Nx={xi∈x∣||xi-x||≤r},xi是属于点云x的任意子集,fi是点云子集xi对应的特征,核函数κ的公式如下:
其中,表示球形核点3D空间中的位置,nk表示核函数κ的核点个数,Wk是对应核点的权重矩阵;
核点卷积操作后的特征被SE-MLP压缩扩展,得到判别特征,同时,引入了批归一化技术(BN)来提高所提出网络的可训练性,经过多层感知机运算后的特征/>的表示如下:
式中,i=1,2,3,4,5为不同尺度的编码层,W1 i,W3 i,/>为SE-MLP中不同层的可学习参数,∑为求和运算,/>为矩阵点积;
基于利用残差信息设计SE-MLP模块,提高网络深度和特征表示能力,该模块有效地进行挤压扩展运算,对局部特征进行聚合,增强点云特征的多样性表示;对于SE-MLP的输出,可以得到公式如下:
其中,ReLU()表示激活函数,即为ReLU(x)=max(0,x)。
3.根据权利要求2所述的一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:在步骤S2中,为了让MCFN的下采样路径和上采样路径之间的信息传播得到加强,从有单一的跳跃连接路径中获得通道内多层级的点云上下文特征,设计了适用于KPConv操作的通道自注意力模块(CSA);给定输入特征矩阵为点集,将投影到三个不同的特征子空间,形成查询、键和值,分别为/>R,S和V的计算如下:
其中,i为不同的下采样层,表示成对MLP操作,即压缩一半的输入特征,然后将其恢复到原始尺度;最后,可以计算出加上跳跃连接的输出特征映射为:
式中,其用于将张量映射成概率分布;/>为矩阵点积;CSA模块的输出特征为/>其中i为不同的下采样层,该模块突出了跳跃连接的底层特征,可以帮助相似语义特征获得更好的鉴别力。
4.根据权利要求3所述的一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:在步骤S3中,经过五层上述编码模块后进行解码操作,在浅层特征经过CSA模块后和高层特征进行拼接,对拼接张量利用1x1卷积操作并进行上采样,采用跨层注意力融合模块(CAF)来实现解码阶段1x1卷积操作后不同上采样层的高级特征信息融合,其公式如下:
其中,为可学习的权重,i=6,7,8为不同尺度的解码层,,γ为BN层中的归一化缩放比例因子,/>和/>分别对应CAF模块的不同上采样层的输出特征和输入特征,σ()是sogmoid函数,即为sigmoid(x)=1/(1+e-x),ψ()表示平均池化操作,CAF模块在不同的上采样层提取不同的点云特征,实现了多层次的信息聚合,聚合公式如下:
其中,Fadd为3层上采样层的聚合特征,为张量拼接操作。
5.根据权利要求4所述的一种基于多级上下文特征融合网络的航空激光点云语义分割方法(MCFN),其特征在于:在步骤S4中,将CAF操作后的征张量经过两层全连接层,经Softmax函数得到的语义分割结果,为了解决数据的不平衡问题,引入了焦点损失函数,损失函数设置如下:
其中,其中λ一般设置为2,αt表示类别权重参数,N表示点云的数量,ρjc表示第j个样本归入c类别的概率;
为了加强MCFN对不平衡数据的鲁棒性,引入了加权交叉熵损失函数,它可以通过对每个类别赋予不同的权重来更好地处理数据不平衡的情况,加权交叉熵可以表示为:
其中,N表示样本数量,yn,i表示第n个样本是否属于第i个类别,yn,i=1表示属于,yn,i=0表示不属于;log(pn,i)表示模型对第n个样本属于第i个类别的预测概率的自然对数;根据上述损失函数可以得到总体损失函数为:
Ltotal=LBCE+LFL
根据所述总体损失函数以及反向传播过程优化所述语义分割框架的模型参数,训练完成后,获得训练好的语义分割框架;通过训练好的语义分割框架对输入样本进行判别,输出稳健的语义分割结果。
6.一种递多级上下文特征融合网络的航空激光点云语义分割装置,其特征在于:所述装置包括处理器、存储器,以及存储在所述存储器上可被所述处理器执行的基于多级上下文特征融合网络的航空激光点云语义分割程序,其中所述基于多级上下文特征融合网络的航空激光点云语义分割程序执行时,实现如权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310807520.2A CN116824585A (zh) | 2023-07-04 | 2023-07-04 | 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310807520.2A CN116824585A (zh) | 2023-07-04 | 2023-07-04 | 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824585A true CN116824585A (zh) | 2023-09-29 |
Family
ID=88127321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310807520.2A Pending CN116824585A (zh) | 2023-07-04 | 2023-07-04 | 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824585A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117014633A (zh) * | 2023-10-07 | 2023-11-07 | 深圳大学 | 一种跨模态数据压缩方法、装置、设备及介质 |
CN117092612A (zh) * | 2023-10-18 | 2023-11-21 | 湘潭大学 | 基于激光雷达的自动驾驶导航方法 |
CN117553807A (zh) * | 2024-01-12 | 2024-02-13 | 湘潭大学 | 基于激光雷达的自动驾驶导航方法及系统 |
-
2023
- 2023-07-04 CN CN202310807520.2A patent/CN116824585A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117014633A (zh) * | 2023-10-07 | 2023-11-07 | 深圳大学 | 一种跨模态数据压缩方法、装置、设备及介质 |
CN117014633B (zh) * | 2023-10-07 | 2024-04-05 | 深圳大学 | 一种跨模态数据压缩方法、装置、设备及介质 |
CN117092612A (zh) * | 2023-10-18 | 2023-11-21 | 湘潭大学 | 基于激光雷达的自动驾驶导航方法 |
CN117092612B (zh) * | 2023-10-18 | 2024-01-26 | 湘潭大学 | 基于激光雷达的自动驾驶导航方法 |
CN117553807A (zh) * | 2024-01-12 | 2024-02-13 | 湘潭大学 | 基于激光雷达的自动驾驶导航方法及系统 |
CN117553807B (zh) * | 2024-01-12 | 2024-03-22 | 湘潭大学 | 基于激光雷达的自动驾驶导航方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829399B (zh) | 一种基于深度学习的车载道路场景点云自动分类方法 | |
CN107679250B (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
CN108875813B (zh) | 一种基于几何图像的三维网格模型检索方法 | |
CN116824585A (zh) | 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 | |
Jing et al. | Fine building segmentation in high-resolution SAR images via selective pyramid dilated network | |
Chen et al. | Agricultural remote sensing image cultivated land extraction technology based on deep learning | |
CN112950780B (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
Karim et al. | A brief review and challenges of object detection in optical remote sensing imagery | |
Nurkarim et al. | Building footprint extraction and counting on very high-resolution satellite imagery using object detection deep learning framework | |
CN116468740A (zh) | 一种图像语义分割模型及分割方法 | |
CN112733736A (zh) | 基于增强过采样的类别不平衡高光谱图像分类方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
Hu et al. | RGB-D image multi-target detection method based on 3D DSF R-CNN | |
CN116385902A (zh) | 一种遥感大数据处理方法、系统及云平台 | |
Li et al. | Evaluation the performance of fully convolutional networks for building extraction compared with shallow models | |
CN111598140A (zh) | 一种基于胶囊网络的遥感图像分类方法 | |
Li et al. | Standardized object-based dual CNNs for very high-resolution remote sensing image classification and standardization combination effect analysis | |
Li et al. | 3D large-scale point cloud semantic segmentation using optimal feature description vector network: OFDV-Net | |
Wang et al. | FPA-DNN: a forward propagation acceleration based deep neural network for ship detection | |
Pu et al. | An automatic method for tree species point cloud segmentation based on deep learning | |
Xue et al. | Adaptive neighbourhood recovery method for machine learning based 3D point cloud classification | |
Yang et al. | Research on Target Detection Technology Based on Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |