CN117351212B - 一种基于双向多尺度注意力的水利环境下的点云分割方法 - Google Patents

一种基于双向多尺度注意力的水利环境下的点云分割方法 Download PDF

Info

Publication number
CN117351212B
CN117351212B CN202311621825.0A CN202311621825A CN117351212B CN 117351212 B CN117351212 B CN 117351212B CN 202311621825 A CN202311621825 A CN 202311621825A CN 117351212 B CN117351212 B CN 117351212B
Authority
CN
China
Prior art keywords
attention
scale
point cloud
self
linear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311621825.0A
Other languages
English (en)
Other versions
CN117351212A (zh
Inventor
周维
焦健斌
许海霞
魏名安
聂旺
盘运红
周敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202311621825.0A priority Critical patent/CN117351212B/zh
Publication of CN117351212A publication Critical patent/CN117351212A/zh
Application granted granted Critical
Publication of CN117351212B publication Critical patent/CN117351212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双向多尺度注意力的水利环境下的点云分割方法,包括以下步骤:数据预处理,得到最终经过预处理的点云坐标和点云特征;建立模型:通过分析双向的多尺度注意力过程,设计双向多尺度自注意力子模块,构建端到端的语义分割深度学习网络模型;模型的训练和测试:确定所建立的语义分割深度学习网络模型的参数,并检验所设计的语义分割深度学习网络模型的分割效果。本发明提出的基于双向多尺度注意力的水利环境下的点云分割方法在针对水利场景点云语义分割的问题上相对于其他算法提高了精度,优化了可视化结果。

Description

一种基于双向多尺度注意力的水利环境下的点云分割方法
技术领域
本发明涉及一种基于双向多尺度注意力的水利环境下的点云分割方法。
背景技术
随着感知系统获取点云数据质量的提高,点云语义分割受到了学术界和工业界的广泛关注,其主要任务是对点云进行点级语义分类,以感知环境变化。
在技术上,点云语义分段经历了从基于手工特征到基于深度学习的方法转变。早期使用基于手工设计点特征与随机森林、聚类等传统机器学习方法相结合进行点云分段,这类方法对点云表示能力较弱。近年来,受益于深度学习在图像语义分割领域的进展,出现了将神经网络应用于点云处理的方法。代表性网络结构包括PointNet++、PointNeXt等,可以直接对点云进行端到端语义理解,这类方法明显提高了点云表示能力。
在应用上,基于深度学习技术的点云语义分割已在自动驾驶、机器人、无人机导航等领域得到应用。例如,通过对激光雷达点云进行语义分割,识别出道路、行人、车辆等类别,为自动驾驶汽车环境感知提供关键信息。然而,对构建水利数字孪生至关重要的水利环境全范围自动场景识别仍面临挑战。
针对跨密度的水利场景下的点云语义分割深度学习方法具有以下困难:(1)水利工程区域点云同时包含与水利相关的工程场地以及难以区分的生活区域等,物体不规则,特征识别困难。(2)同类别及跨类别点云覆盖区域变化差异均大,例如大坝与混凝土堤体积差异达百倍,森林与零散树木难以划分,需要对体积变化敏感。(3)基于深度学习的分割模型评估建立在以点为单位数据上,不同类别边界易产生离散点,不利于水利工程区域划分,影响分割效果。(4)无人机采集设备、操作环境、实施方案不同采集方案导致不同区域点云密度存在差异,影响对局部特征的识别。
发明内容
为了解决上述技术问题,本发明提供一种算法简单、精度高的基于双向多尺度注意力的水利环境下的点云分割方法。
本发明解决上述问题的技术方案是:
一种基于双向多尺度注意力的水利环境下的点云分割方法,包括以下步骤:
步骤1)数据预处理,得到最终经过预处理的点云坐标和点云特征/>
步骤2)建立模型:通过分析双向的多尺度注意力过程,设计双向多尺度自注意力子模块,构建端到端的语义分割深度学习网络模型;
步骤2)中,双向多尺度自注意力子模块通过多尺度采样一致性结构捕捉水利场景的多尺度范围下的特征信息,再通过空间结构和语义特征进行双向的向量自注意力结构对语义信息进一步聚合,提高点云语义分割的准确性;
步骤2)具体过程为:
2-1)构建基于多尺度采样一致性结构与双向的向量自注意力结构的双向多尺度自注意力子模块,通过语义特征和空间结构的双向自注意力机制对多尺度特征进行特征聚合;
2-2)构建基于双向多尺度自注意力子模块的双向多尺度自注意力编解码模块,双向多尺度自注意力编解码模块进行连续4次下、上采样,并逐步通过双向多尺度自注意力子模块聚合特征,实现对数据预处理后的点云数据进行语义类别的感知,获得双向多尺度自注意力编解码模块的输出特征/>
2-3)建立输出模块,输出模块通过使用线性层对输出特征/>进一步融合提取,得到点云的预测值/>
步骤3)模型的训练和测试:确定所建立的语义分割深度学习网络模型的参数,并检验所设计的语义分割深度学习网络模型的分割效果。
上述基于双向多尺度注意力的水利环境下的点云分割方法,所述步骤1)中,数据预处理包括对原始点云坐标的体素化处理来统一点云密度以及最小值标准化、随机缩放、保持z轴不变的随机旋转、随机高斯噪声、随机水平旋转和随机的空间移动操作;对原始点云特征/>中的RGB进行色彩对比度增强、色彩偏移和抖动处理,经处理后的点云坐标与特征分别记为/>和/>,定义点云对应真实值/>,并分为训练集和测试集。
上述基于双向多尺度注意力的水利环境下的点云分割方法,所述步骤2-1)中,双向多尺度自注意力子模块由多尺度采样一致性结构与双向的向量自注意力结构构成,其中多尺度采样一致性结构的建立过程为:
首先通过邻域搜索kNN算法来查找邻域,令多尺度采样一致性结构输入特征和对应点云坐标分别为和/>,上标m表示多尺度采样一致性结构,第i个点通过kNN算法获得大中小三种尺度邻域索引为/>,上标n=1,2,3分别表示大中小三种尺度,则第i个点的邻域特征表示为/>,第i个点的邻域坐标表示为/>,/>和/>分别表示第i个点的邻域中第j个点的特征和坐标,然后采用/>来提取每个邻域中所有点特征的最大值;最后,将不同尺度下的点云进行拼接,以实现多尺度采样一致性,数学表示如下:
其中,∈/>表示/>中第i个点的坐标,MLP表示多层感知机,/>表示对总数为3的数或表达式在特征维度进行拼接,/>表示第i个点多尺度采样一致性后的输出特征,所有点的特征表示为/>
总结上述过程的输入输出关系表达为:
其中表示多尺度采样一致性结构。
上述基于双向多尺度注意力的水利环境下的点云分割方法,所述步骤2-1)中,双向的向量自注意力结构的建立过程为:
首先通过空间信息增强结构SIC引入极坐标来提高空间位置关系的敏感性,令SIC输入点云坐标和特征分别为和/>,上标t表示空间信息增强结构SIC,第/>个点通过kNN算法获得的邻域索引为/>,则第/>个点的邻域特征和坐标分别为/>和/>,其中/>、/>分别表示为第/>个点的邻域中第/>个点的特征和坐标,记/>中第/>个点的坐标为/>,/>和/>相对坐标表示为 (/>),则第个点的邻域中极坐标的极径、极角、仰角分别为/>、/>;将/>与点云的相对坐标在特征维度进行拼接即可得到该邻域新的空间信息/>,拼接过程表示为:
然后,将和/>通过特征向量自注意力模块,特征向量自注意力模块首先对输入特征/>使用特征查询线性权重/>和特征键线性权重/>对输入特征进行编码,以实施注意力操作;同时,引入/>增强特征处理的空间位置关系;最后,通过 Softmax 函数获得了特征信息向量的注意力权重编码,将注意力权重编码与使用特征表示线性权重/>编码的特征信息向量进行哈达玛乘积并求和,从而获得特征向量自注意力特征,数学表示如下:
其中,表示/>中第/>个点的特征,/>表示/>中第/>个点的坐标,/>表示特征关系线性层Linear,/>表示特征关系线性层/>,/>表示哈达玛乘积,/>表示第/>个点经过特征向量自注意力模块的输出特征,上标f表示特征向量自注意力模块;
接着,将和/>通过空间向量自注意力模块,空间向量自注意力模块首先对/>使用空间查询线性权重/>和空间键线性权重/>对输入特征进行编码,以实施注意力操作;同时,引入/>增强特征处理的空间位置关系;然后,通过 Softmax 函数来获取空间信息向量的注意力权重编码,并将注意力权重编码与空间表示线性权重/>编码后的特征信息向量进行哈达玛乘积并求和,从而获得空间向量自注意力特征,数学表示如下:
其中,表示/>中第/>个点的特征,/>表示空间关系线性层Linear,/>表示空间注意力线性层Linear,m(.)表示计算局部邻域点相同位置特征的平均值,/>表示第/>个点经过空间向量自注意力模块的输出特征,上标s表示空间向量自注意力模块;
最后,使用特征拼接操作,并通过参数可学习的线性变换矩阵完成特征注意力和空间注意力的语义信息合成,该过程表示为:
其中表示第/>个点经过语义特征和空间结构双向注意力的输出特征,所有点的特征表示为/>
总结上述过程的输入输出关系表达为:
其中,为双向向量自注意力结构。
上述基于双向多尺度注意力的水利环境下的点云分割方法,所述步骤2-1)中,令双向多尺度自注意力子模块的点云输入特征和坐标分别为和/>,上标/>表示双向多尺度自注意力子模块,首先,将/>和/>通过多尺度采样一致性结构,获得输出特征/>,然后,通过k个残差连接的线性层Linear、双向的向量自注意力结构和线性层Linear对特征进行注意力增强,最终输出经过双向的多尺度注意力聚合特征/>;并保存对应的点云坐标/>,总结上述过程输入输出关系表达为:
其中,为双向多尺度自注意力子模块。
上述基于双向多尺度注意力的水利环境下的点云分割方法,所述步骤2-2)中,采用所述步骤2-1)中双向多尺度自注意力子模块BiMssc 进行特征融合、最远点采样算法进行下采样和三线性插值算法/>进行上采样,构建的双向多尺度自注意力编解码模块,输入为/>,输出为/>, 具体操作过程如下:
其中,表示第l层级的输出特征,/>表示第/>次采样后的输出坐标,/>表示使用线性层对特征进行提取,“/>”表示特征按位相加。
上述基于双向多尺度注意力的水利环境下的点云分割方法,所述步骤2-3)中,对输入特征使用两组线性层Linear对特征进行提取,并将通道数调整为指定分类数/>,具体过程如下:
其中,
上述基于双向多尺度注意力的水利环境下的点云分割方法,所述步骤3)中,对建立的语义分割深度学习网络模型进行训练,将点云坐标和特征/>通过基于双向多尺度自注意力编解码模块获得特征图/>,再经过输出模块后获得预测值/>,将预测值/>与真实值GT进行交叉熵运算,度量预测值与真实值的误差,即计算损失;通过反向传播算法对定义的语义分割深度学习网络模型参数进行迭代优化训练,训练到整个模型收敛为止;其中损失函数如下:
其中和/>分别表示/>和/>中指定分类数/>的第/>类别的真实值和预测值,利用随机梯度下降SGD,优化器优化函数Loss 使损失值达到最小。
上述基于双向多尺度注意力的水利环境下的点云分割方法,所述步骤3)中,将测试集的点云数据输入到训练好的语义分割深度学习网络模型中,推理测试点云的语义类别预测值,再通过对点云进行众位数滤波处理离散点获得新的预测值/>,具体过程如下:
其中为统计/>所构成邻域中每个类别数量;根据新的预测值/>与真实值计算平均类别交并比mIoU、平均类别准确率mAcc、整体精确度OA,直到所有测试集测试完成,给出最终的预测准确度。
本发明的有益效果在于:本发明提出的基于双向多尺度注意力的水利环境下的点云分割方法在针对水利场景点云语义分割的问题上相对于其他算法提高了精度,优化了可视化结果,具体表现为:
1、相对于以往一些网络模型,本发明提出的模型通过简洁的结构设计比较容易实现。
2、本发明通过在步骤1)中对点云进行体素化进行数据预处理,提高了模型在不同密度点云上的适应能力,有利于局部特征的识别。
3、本发明通过在步骤2-1)中建立多尺度采样一致性结构子模块,提高了对同类别及跨类别点云覆盖区域变化差异均大场景的适应性,对体积变化更为敏感。
4、本发明通过在步骤2-1)中建立双向的向量自注意力子模块,提高了对水利工程区域特征识别困难场景的识别能力。
5、本发明通过对在步骤3)中对点云应用众位数滤波进行数据后处理,有效减少了预测结果中的离散点,可视化效果更好。
附图说明
图1为本发明的流程图。
图2为双向多尺度自注意力子模块的结构示意图。
图3为双向多尺度自注意力编解码模块的结构示意图。
图4为本发明在Water Conservancy Segment 3D数据集的实验可视化结果图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1所示,一种基于双向多尺度注意力的水利环境下的点云分割方法,包括以下步骤:
步骤1)数据预处理,得到最终经过预处理的点云坐标和点云特征/>
发明采集了中国大藤峡、广州高州水库以及粤港澳大湾区的工程区和周边环境的点云数据。这些数据的获取是在相关部门和机构的许可下进行的,以确保合法性和道德性。基于这些数据,本发明构建了一个新的数据集,命名为Water Conservancy Segment 3D,该数据集包含约2.65亿个点。数据集的划分依据了中国的《国家基本比例尺地图图式》标准,划分为5大类和15小类。
数据预处理包括将数据以25cm的体素边长对原始点云坐标和特征/>体素化,再使用空间坐标的最小值标准化每个数据,缩放比例为0.2的随机缩放,保持z轴不变的随机旋转,标准差为0.01高斯噪声,最大值为0.1cm的空间随机平移,然后对色彩信息增加标准差为0.005的色彩抖动,得到点云坐标和特征分别为/>和/>,定义点云对应真实值/>,并分为训练集和测试集。
步骤2)建立模型:通过分析双向的多尺度注意力过程,设计双向多尺度自注意力子模块,构建端到端的语义分割深度学习网络模型。
所述步骤2)中,双向多尺度自注意力子模块通过多尺度采样一致性结构捕捉水利场景的多尺度范围下的特征信息,再通过空间结构和语义特征进行双向的向量自注意力结构对语义信息进一步聚合,提高点云语义分割的准确性;
步骤2)具体过程为:
2-1)构建基于多尺度采样一致性结构与双向的向量自注意力结构的双向多尺度自注意力子模块,通过语义特征和空间结构的双向自注意力机制对多尺度特征进行特征聚合。
如图2所示,双向多尺度自注意力子模块由多尺度采样一致性结构Mssc与双向的向量自注意力结构BiTrans构成,其中多尺度采样一致性结构的建立过程为:
首先通过邻域搜索kNN算法来查找邻域,令多尺度采样一致性结构输入特征和对应点云坐标分别为和/>,上标m表示多尺度采样一致性结构,第i个点通过kNN算法获得大中小三种尺度邻域索引为/>,上标n=1,2,3分别表示大中小三种尺度,则第i个点的邻域特征表示为/>,第i个点的邻域坐标表示为/>,/>和/>分别表示第i个点的邻域中第j个点的特征和坐标,然后采用/>来提取每个邻域中所有点特征的最大值;最后,将不同尺度下的点云进行拼接,以实现多尺度采样一致性,数学表示如下:
其中,∈/>表示/>中第i个点的坐标,MLP表示多层感知机,/>表示对总数为3的数或表达式在特征维度进行拼接,/>表示第i个点多尺度采样一致性后的输出特征,所有点的特征表示为/>
总结上述过程的输入输出关系表达为:
其中表示多尺度采样一致性结构。
双向的向量自注意力结构的建立过程为:
首先通过空间信息增强结构SIC引入极坐标来提高空间位置关系的敏感性,令SIC输入点云坐标和特征分别为和/>,上标t表示空间信息增强结构SIC,第/>个点通过kNN算法获得的邻域索引为/>,则第/>个点的邻域特征和坐标分别为/>和/>,其中/>、/>分别表示为第/>个点的邻域中第/>个点的特征和坐标,记/>中第/>个点的坐标为/>,/>和/>相对坐标表示为 (/>),则第/>个点的邻域中极坐标的极径、极角、仰角分别为/>、/>;将/>与点云的相对坐标在特征维度进行拼接即可得到该邻域新的空间信息/>,拼接过程表示为:
然后,将和/>通过特征向量自注意力模块,特征向量自注意力模块首先对输入特征/>使用特征查询线性权重/>和特征键线性权重/>对输入特征进行编码,以实施注意力操作;同时,引入/>增强特征处理的空间位置关系;最后,通过 Softmax 函数获得了特征信息向量的注意力权重编码,将注意力权重编码与使用特征表示线性权重/>编码的特征信息向量进行哈达玛乘积并求和,从而获得特征向量自注意力特征,数学表示如下:
其中,表示/>中第/>个点的特征,/>表示/>中第/>个点的坐标,/>表示特征关系线性层Linear,/>表示特征关系线性层/>,/>表示哈达玛乘积,/>表示第/>个点经过特征向量自注意力模块的输出特征,上标f表示特征向量自注意力模块;
接着,将和/>通过空间向量自注意力模块,空间向量自注意力模块首先对/>使用空间查询线性权重/>和空间键线性权重/>对输入特征进行编码,以实施注意力操作;同时,引入/>增强特征处理的空间位置关系;然后,通过 Softmax 函数来获取空间信息向量的注意力权重编码,并将注意力权重编码与空间表示线性权重/>编码后的特征信息向量进行哈达玛乘积并求和,从而获得空间向量自注意力特征,数学表示如下:
其中,表示/>中第/>个点的特征,/>表示空间关系线性层Linear,/>表示空间注意力线性层Linear,m(.)表示计算局部邻域点相同位置特征的平均值,/>表示第个点经过空间向量自注意力模块的输出特征,上标s表示空间向量自注意力模块;
最后,使用特征拼接操作,并通过参数可学习的线性变换矩阵完成特征注意力和空间注意力的语义信息合成,该过程表示为:
其中表示第/>个点经过语义特征和空间结构双向注意力的输出特征,所有点的特征表示为/>
总结上述过程的输入输出关系表达为:
其中,为双向向量自注意力结构。
基于多尺度采样一致性结构与双向的向量自注意力结构,双向多尺度自注意力子模块建立过程为:
令双向多尺度自注意力子模块的点云输入特征和坐标分别为和/>,上标/>表示双向多尺度自注意力子模块,首先,将/>和/>通过多尺度采样一致性结构,获得输出特征/>,然后,通过k个残差连接的线性层Linear、双向的向量自注意力结构和线性层Linear对特征进行注意力增强,最终输出经过双向的多尺度注意力聚合特征/>;并保存对应的点云坐标/>,总结上述过程输入输出关系表达为:
其中,为双向多尺度自注意力子模块。
2-2)构建基于双向多尺度自注意力子模块的双向多尺度自注意力编解码(BiMissc codec)模块,双向多尺度自注意力编解码模块进行连续4次下、上采样,并逐步通过双向多尺度自注意力子模块聚合特征,实现对点云数据进行语义类别的感知,获得点云特征/>
如图3所示,采用所述步骤2-1)中双向多尺度自注意力子模块BiMssc 进行特征融合、最远点采样算法进行下采样和三线性插值算法/>进行上采样,构建的双向多尺度自注意力编解码模块,输入为/>,输出为/>,。最远点采样算法进行下采样的步长为[4,4,4,4],三线性插值算法进行上采样的步长为[4,4,4,4],双向多尺度自注意力子模块中残差深度分别为[1,2,3,5,2,2,5,3,2,1];
具体过程如下:
其中,表示第l层级的输出特征,/>表示第/>次采样后的输出坐标,/>表示使用线性层对特征进行提取,“/>”表示特征按位相加。
2-3)建立输出模块,输出模块通过使用线性层对输出特征/>进一步融合提取,得到点云的预测值/>
如图3所示,对输入特征使用两组线性层Linear对特征进行提取,并将通道数调整为指定分类数/>,具体过程如下:
其中,
步骤3)模型的训练和测试:确定所建立的语义分割深度学习网络模型的参数,并检验所设计的语义分割深度学习网络模型的分割效果。
所述步骤3)中,对建立的语义分割深度学习网络模型进行训练,将点云坐标和特征/>通过基于双向多尺度自注意力编解码模块获得特征图/>,再经过输出模块后获得预测值/>,将预测值/>与真实值GT进行交叉熵运算,度量预测值与真实值的误差(损失计算);通过反向传播算法对定义的语义分割深度学习网络模型参数进行迭代优化训练,训练到整个模型收敛为止;其中损失函数如下:
其中和/>分别表示/>和/>中指定分类数/>的第/>类别的真实值和预测值,利用随机梯度下降SGD,优化器优化函数Loss 使损失值达到最小。
将测试集的点云数据输入到训练好的语义分割深度学习网络模型中,推理测试点云的语义类别预测值,再通过对点云进行众位数滤波处理离散点获得新的预测值D,具体过程如下:
其中统计/>所构成邻域中每个类别数量。根据新的预测值/>与真实值计算平均类别交并比mIoU、平均类别准确率mAcc、整体精确度OA,直到所有测试集测试完成,给出最终的预测准确度。
表1为本发明所述的方法在 Water Conservancy Segment 3D中的准确度。
PointNet++[1]和PointNext[2]为点云语义分割中经典的深度模型,其中She. /Con. /Cem. /Dir. /Slo. /Sca. /Veg. /Gra. /Dry. /Woo. /Bar. /Wat. /Dit. /Oth.分别表示类别Ceiling /Floor /Beam /Column /Window /Table /Chair /Bookcase /Board /Clutter,采用平均类别交并比mIoU、平均类别准确率mAcc、整体精确度 OA,评估点云语义分割最终的预测准确度,由表1此可知,本发明的模型OA与mIoU远超PointNet++和PointNext,测试的可视化效果如图4所示,本发明模型预测值与GT基本一致,表现出强大的水利环境地物分割能力。

Claims (7)

1.一种基于双向多尺度注意力的水利环境下的点云分割方法,其特征在于,包括以下步骤:
步骤1)数据预处理,得到最终经过预处理的点云坐标P和点云特征X;
步骤2)建立模型:通过分析双向的多尺度注意力过程,设计双向多尺度自注意力子模块,构建端到端的语义分割深度学习网络模型;
步骤2)中,双向多尺度自注意力子模块通过多尺度采样一致性结构捕捉水利场景的多尺度范围下的特征信息,再通过空间结构和语义特征进行双向的向量自注意力结构对语义信息进一步聚合,提高点云语义分割的准确性;
步骤2)具体过程为:
2-1)构建基于多尺度采样一致性结构与双向的向量自注意力结构的双向多尺度自注意力子模块,通过语义特征和空间结构的双向自注意力机制对多尺度特征进行特征聚合;
所述步骤2-1)中,双向多尺度自注意力子模块由多尺度采样一致性结构与双向的向量自注意力结构构成,其中多尺度采样一致性结构的建立过程为:
首先通过邻域搜索kNN算法来查找邻域,令多尺度采样一致性结构输入特征和对应点云坐标分别为Xm和Pm,上标m表示多尺度采样一致性结构,第i个点通过kNN算法获得大中小三种尺度邻域索引为上标n=1,2,3分别表示大中小三种尺度,则第i个点的邻域特征表示为/>第i个点的邻域坐标表示为/> 和/>分别表示第i个点的邻域中第j个点的特征和坐标,然后采用maxpooling来提取每个邻域中所有点特征的最大值;最后,将不同尺度下的点云进行拼接,以实现多尺度采样一致性,数学表示如下:
其中,表示Pm中第i个点的坐标,MLP表示多层感知机,/>表示对总数为3的数或表达式在特征维度进行拼接,ei表示第i个点多尺度采样一致性后的输出特征,所有点的特征表示为E;
总结上述过程的输入输出关系表达为:
E=Mssc(Xm,,Pm);
其中Mssc(.)表示多尺度采样一致性结构;
双向的向量自注意力结构的建立过程为:
首先通过空间信息增强结构SIC引入极坐标来提高空间位置关系的敏感性,令SIC输入点云坐标和特征分别为Pt和Xt,上标t表示空间信息增强结构SIC,第i′个点通过kNN算法获得的邻域索引为则第i′个点的邻域特征和坐标分别为/>其中/>分别表示为第i′个点的邻域中第j′个点的特征和坐标,记Pt中第i′个点的坐标为/> 和/>相对坐标表示为(ai′j′,bi′j′,ci′j′),则第i′个点的邻域中极坐标的极径、极角、仰角分别为 与点云的相对坐标在特征维度进行拼接即可得到该邻域新的空间信息拼接过程表示为:
然后,将和/>通过特征向量自注意力模块,特征向量自注意力模块首先对输入特征使用特征查询线性权重qf和特征键线性权重kf对输入特征进行编码,以实施注意力操作;同时,引入/>增强特征处理的空间位置关系;最后,通过Softmax函数获得了特征信息向量的注意力权重编码,将注意力权重编码与使用特征表示线性权重vf编码的特征信息向量进行哈达玛乘积并求和,从而获得特征向量自注意力特征,数学表示如下:
其中,表示/>中第j′个点的特征,/>表示Xt中第i′个点的坐标,γf(.)表示特征关系线性层Linear,ψf(.)表示特征关系线性层Linear,⊙表示哈达玛乘积,/>表示第i′个点经过特征向量自注意力模块的输出特征,上标f表示特征向量自注意力模块;
接着,将和/>通过空间向量自注意力模块,空间向量自注意力模块首先对/>使用空间查询线性权重qs和空间键线性权重ks对输入特征进行编码,以实施注意力操作;同时,引入/>增强特征处理的空间位置关系;然后,通过Softmax函数来获取空间信息向量的注意力权重编码,并将注意力权重编码与空间表示线性权重vs编码后的特征信息向量进行哈达玛乘积并求和,从而获得空间向量自注意力特征,数学表示如下:
其中,表示/>中第j′个点的特征,γs(.)表示空间关系线性层Linear,ψs(.)表示空间注意力线性层Linear,m(.)表示计算局部邻域点相同位置特征的平均值,/>表示第i′个点经过空间向量自注意力模块的输出特征,上标s表示空间向量自注意力模块;
最后,使用特征拼接操作,并通过参数可学习的线性变换矩阵W完成特征注意力和空间注意力的语义信息合成,该过程表示为:
其中yi′表示第i′个点经过语义特征和空间结构双向注意力的输出特征,所有点的特征表示为Y;
总结上述过程的输入输出关系表达为:
Y=BiTrans(Xt,Pt) ;
其中,BiTrans(.)为双向向量自注意力结构;
2-2)构建基于双向多尺度自注意力子模块的双向多尺度自注意力编解码模块,双向多尺度自注意力编解码模块进行连续4次下、上采样,并逐步通过双向多尺度自注意力子模块聚合特征,实现对数据预处理后的点云数据P,X进行语义类别的感知,获得双向多尺度自注意力编解码模块的输出特征F;
2-3)建立输出模块,输出模块通过使用线性层Linear对输出特征F进一步融合提取,得到点云的预测值Z;
步骤3)模型的训练和测试:确定所建立的语义分割深度学习网络模型的参数,并检验所设计的语义分割深度学习网络模型的分割效果。
2.根据权利要求1所述的基于双向多尺度注意力的水利环境下的点云分割方法,其特征在于,所述步骤1)中,数据预处理包括对原始点云坐标Pori的体素化处理来统一点云密度以及最小值标准化、随机缩放、保持z轴不变的随机旋转、随机高斯噪声、随机水平旋转和随机的空间移动操作;对原始点云特征Xori中的RGB进行色彩对比度增强、色彩偏移和抖动处理,经处理后的点云坐标与特征分别记为P和X,定义点云对应真实值GT,并分为训练集和测试集。
3.根据权利要求1所述的基于双向多尺度注意力的水利环境下的点云分割方法,其特征在于,所述步骤2-1)中,令双向多尺度自注意力子模块的点云输入特征和坐标分别为Xg和Pg,上标g表示双向多尺度自注意力子模块,首先,将Xg和Pg通过多尺度采样一致性结构,获得输出特征Xg′,然后,通过k个残差连接的线性层Linear、双向的向量自注意力结构和线性层Linear对特征进行注意力增强,最终输出经过双向的多尺度注意力聚合特征G;并保存对应的点云坐标Pg,总结上述过程输入输出关系表达为:
G,Pg=BiMssc(Xg,Pg);
其中,BiMssc(.)为双向多尺度自注意力子模块。
4.根据权利要求3所述的基于双向多尺度注意力的水利环境下的点云分割方法,其特征在于,所述步骤2-2)中,采用所述步骤2-1)中双向多尺度自注意力子模块BiMssc进行特征融合、最远点采样算法Fps进行下采样和三线性插值算法Ti进行上采样,构建的双向多尺度自注意力编解码模块,输入为X、P,输出为F、P,具体操作过程如下:
其中,Xl表示第l层级的输出特征,Pu表示第u次采样后的输出坐标,Linear(.)表示使用线性层对特征进行提取,表示特征按位相加。
5.根据权利要求4所述的基于双向多尺度注意力的水利环境下的点云分割方法,其特征在于,所述步骤2-3)中,对输入特征F使用两组线性层Linear对特征进行提取,并将通道数调整为指定分类数C,具体过程如下:
Z=Linear(Linear(F));
其中,Z为点云的预测值。
6.根据权利要求2所述的基于双向多尺度注意力的水利环境下的点云分割方法,其特征在于,所述步骤3)中,对建立的语义分割深度学习网络模型进行训练,将点云坐标P和特征X通过基于双向多尺度自注意力编解码模块获得特征图F,再经过输出模块后获得预测值Z,将预测值Z与真实值GT进行交叉熵运算,度量预测值与真实值的误差,即计算损失;通过反向传播算法对定义的语义分割深度学习网络模型参数进行迭代优化训练,训练到整个模型收敛为止;其中损失函数如下:
其中GTc和Zc分别表示GT和Z中指定分类数C的第c类别的真实值和预测值,利用随机梯度下降SGD,优化器优化函数Loss使损失值达到最小。
7.根据权利要求2所述的基于双向多尺度注意力的水利环境下的点云分割方法,其特征在于,所述步骤3)中,将测试集的点云数据输入到训练好的语义分割深度学习网络模型中,推理测试点云的语义类别预测值Z,再通过对点云进行众位数滤波处理离散点获得新的预测值D,具体过程如下:
D=max(count(Z));
其中count(.)为统计Z所构成邻域中每个类别数量;根据新的预测值D与真实值计算平均类别交并比mIoU、平均类别准确率mAcc、整体精确度OA,直到所有测试集测试完成,给出最终的预测准确度。
CN202311621825.0A 2023-11-30 2023-11-30 一种基于双向多尺度注意力的水利环境下的点云分割方法 Active CN117351212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311621825.0A CN117351212B (zh) 2023-11-30 2023-11-30 一种基于双向多尺度注意力的水利环境下的点云分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311621825.0A CN117351212B (zh) 2023-11-30 2023-11-30 一种基于双向多尺度注意力的水利环境下的点云分割方法

Publications (2)

Publication Number Publication Date
CN117351212A CN117351212A (zh) 2024-01-05
CN117351212B true CN117351212B (zh) 2024-03-01

Family

ID=89365261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311621825.0A Active CN117351212B (zh) 2023-11-30 2023-11-30 一种基于双向多尺度注意力的水利环境下的点云分割方法

Country Status (1)

Country Link
CN (1) CN117351212B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020681A (zh) * 2019-03-27 2019-07-16 南开大学 基于空间注意力机制的点云特征提取方法
CN114332302A (zh) * 2021-12-02 2022-04-12 广东工业大学 一种基于多尺度自注意力网络的点云补全系统及方法
CN115620009A (zh) * 2021-07-27 2023-01-17 苏州星航综测科技有限公司 一种基于船舶图像的多尺度语义分割技术
EP4120192A1 (en) * 2021-07-14 2023-01-18 Bayerische Motoren Werke Aktiengesellschaft Computing device comprising an end-to-end learning-based architecture for determining a scene flow from two consecutive scans of point clouds
CN115862000A (zh) * 2022-12-22 2023-03-28 重庆长安汽车股份有限公司 目标检测方法、装置、车辆及存储介质
CN115965788A (zh) * 2023-01-12 2023-04-14 黑龙江工程学院 基于多视角图结构特征注意力卷积的点云语义分割方法
CN116229079A (zh) * 2023-03-30 2023-06-06 重庆邮电大学 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统
KR102546206B1 (ko) * 2023-03-09 2023-06-22 주식회사 인피닉 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN116386042A (zh) * 2023-03-24 2023-07-04 湘潭大学 一种基于三维池化空间注意力机制的点云语义分割模型
CN116503602A (zh) * 2023-05-11 2023-07-28 东南大学 基于多层级边缘增强的非结构化环境三维点云语义分割方法
CN116597071A (zh) * 2023-04-04 2023-08-15 电子科技大学 一种基于可学习的k临近点采样的缺陷点云数据重建方法
CN116843898A (zh) * 2023-06-29 2023-10-03 西安邮电大学 基于双尺度特征提取与自注意力的点云语义分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053426B (zh) * 2020-10-15 2022-02-11 南京航空航天大学 一种基于深度学习的大规模三维铆钉点云提取方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020681A (zh) * 2019-03-27 2019-07-16 南开大学 基于空间注意力机制的点云特征提取方法
EP4120192A1 (en) * 2021-07-14 2023-01-18 Bayerische Motoren Werke Aktiengesellschaft Computing device comprising an end-to-end learning-based architecture for determining a scene flow from two consecutive scans of point clouds
CN115620009A (zh) * 2021-07-27 2023-01-17 苏州星航综测科技有限公司 一种基于船舶图像的多尺度语义分割技术
CN114332302A (zh) * 2021-12-02 2022-04-12 广东工业大学 一种基于多尺度自注意力网络的点云补全系统及方法
CN115862000A (zh) * 2022-12-22 2023-03-28 重庆长安汽车股份有限公司 目标检测方法、装置、车辆及存储介质
CN115965788A (zh) * 2023-01-12 2023-04-14 黑龙江工程学院 基于多视角图结构特征注意力卷积的点云语义分割方法
KR102546206B1 (ko) * 2023-03-09 2023-06-22 주식회사 인피닉 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN116386042A (zh) * 2023-03-24 2023-07-04 湘潭大学 一种基于三维池化空间注意力机制的点云语义分割模型
CN116229079A (zh) * 2023-03-30 2023-06-06 重庆邮电大学 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统
CN116597071A (zh) * 2023-04-04 2023-08-15 电子科技大学 一种基于可学习的k临近点采样的缺陷点云数据重建方法
CN116503602A (zh) * 2023-05-11 2023-07-28 东南大学 基于多层级边缘增强的非结构化环境三维点云语义分割方法
CN116843898A (zh) * 2023-06-29 2023-10-03 西安邮电大学 基于双尺度特征提取与自注意力的点云语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PTANet: Triple Attention Network for point cloud semantic segmentation;Haozhe Cheng等;《Engineering Applications of Artificial Intelligence》;第102卷;第1-12页 *
基于上下文注意力CNN的三维点云语义分割;杨军;党吉圣;;通信学报(第07期);第199-207页 *
杨军 ; 党吉圣 ; .基于上下文注意力CNN的三维点云语义分割.通信学报.2020,(第07期),第199-207页. *

Also Published As

Publication number Publication date
CN117351212A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN110738697B (zh) 基于深度学习的单目深度估计方法
Tong et al. Recognition of asphalt pavement crack length using deep convolutional neural networks
CN108985238B (zh) 联合深度学习和语义概率的不透水面提取方法及系统
CN110929607B (zh) 一种城市建筑物施工进度的遥感识别方法和系统
CN108875813B (zh) 一种基于几何图像的三维网格模型检索方法
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
CN107944353B (zh) 基于轮廓波bspp网络的sar图像变化检测方法
CN111797920B (zh) 门控特征融合的深度网络不透水面遥感提取方法及系统
CN109977968B (zh) 一种深度学习分类后比较的sar变化检测方法
CN110751644B (zh) 道路表面裂纹检测方法
CN109829507B (zh) 航拍高压输电线路环境检测方法
CN113988147B (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN113610070A (zh) 一种基于多源数据融合的滑坡灾害识别方法
CN112163496A (zh) 一种基于语义分割的嵌入式终端水库水位预警方法
CN112288758B (zh) 一种电力设备红外与可见光图像配准方法
CN109344818A (zh) 一种基于深度卷积网络的光场显著目标检测方法
Zhu et al. Information extraction of high resolution remote sensing images based on the calculation of optimal segmentation parameters
CN116824585A (zh) 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置
CN111222576B (zh) 一种高分辨率遥感图像分类方法
CN114612315A (zh) 一种基于多任务学习的高分辨率影像缺失区域重建方法
CN117351212B (zh) 一种基于双向多尺度注意力的水利环境下的点云分割方法
CN116934820A (zh) 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统
CN112634447B (zh) 一种露头岩层分层方法、装置、设备及存储介质
CN112819813B (zh) 一种地下管线智能识别方法、装置及存储介质
Marques et al. Deep learning-based pore segmentation of thin rock sections for aquifer characterization using color space reduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant