CN110111345A - 一种基于注意力网络的3d点云分割方法 - Google Patents
一种基于注意力网络的3d点云分割方法 Download PDFInfo
- Publication number
- CN110111345A CN110111345A CN201910399005.9A CN201910399005A CN110111345A CN 110111345 A CN110111345 A CN 110111345A CN 201910399005 A CN201910399005 A CN 201910399005A CN 110111345 A CN110111345 A CN 110111345A
- Authority
- CN
- China
- Prior art keywords
- network
- point
- amnet
- point cloud
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力网络的3D点云分割的方法,解决了现有语义分割对全局上下文信息利用不足的技术问题。其过程包括:对3D点云数据集数据预处理;构建基于注意力网络和多尺度模块的AMNet分割网络,对训练集数据进行训练;再对测试集数据拉伸处理;用AMNet模型文件进行网络性能评估,用D‑KNN模块对结果优化,输出最终分割结果。本发明通过AMNet充分利用全局上下文信息,获得精确的分割结果,有效减少了点云数据处理的空间消耗,降低了空间成本,同时提高了分割结果精确性。本发明用于3D点云语义分割。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种3D点云分割的方法,具体是一种基于注意力网络的3D点云分割方法,用于3D点云分割。
背景技术
机载激光雷达(LiDAR,Light Detection And Ranging)系统通过发射和接收激光脉冲获得的地表密集高精度三维点坐标被称为激光雷达点云数据。点云数据的处理,特别是点云分割是三维重建,场景理解和目标识别跟踪等各项应用或任务处理的基础,是人工智能领域的研究热点问题,也是难点问题,受到越来越多的研究者的关注。
大连理工大学在其申请的专利“一种场景点云语义分割方法”(申请号:CN201811204443.7,公开号:CN109410307A)中提出基于深度学习技术进行大规模密集场景点云语义分割。主要采用将点云的三维坐标系重建为二维坐标系,在二维坐标系上分别进行图像语义分割,最后通过插值将二维坐标系信息进行重组,得到三维点云语义分割信息。该方法能够解决传统点云场景理解易受数据分辨率限制、局部特征不够鲁棒等技术难题。该方法将点云的三维坐标系重建为二维坐标系,计算过程繁琐。
孙颖等在其申请的专利“基于多尺度卷积神经网络的语义分割方法”(申请号:CN201711391395.2,公开号:CN108230329A)中提出多尺度卷积神经网络与多尺度分割后处理相结合的方法,用于激光雷达点云数据的语义分割。主要获取激光雷达点云数据中的模态内特征,基于多尺度卷积神经网络进行模态间特征提取,采用多尺度分割方法提取地物边界,优化分割结果。该方法采用多尺度卷积神经网络避免固定尺度卷积神经网络在感受野上受到限制的问题,能在多个尺度上提取特征,有利于提高图像分类精度。该方法使用的编码-解码器卷积神经网络架构能将从池化层导出的低分辨率特征上采样到输入分辨率,但因为上采样层缺乏上下文信息,导致上采样后的物体边界变得模糊且不可逆。
现有技术对3D点云分割时大多是将点云的三维坐标系重建为二维坐标系,计算过程繁琐,同时对于全局上下文信息的捕捉不足,导致上采样后的物体边界变得模糊且不可逆。
发明内容
本发明的目的是针对现有技术的不足和缺陷,提出一种利用全局上下文信息精度更高的基于注意力网络的3D点云分割方法。
本发明是一种基于注意力网络的3D点云分割方法,其特征在于,包括有以下步骤:
步骤1获取点云数据,并进行预处理:将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,对数据进行预处理,将预处理后数据样本分为训练集、测试集;
步骤2构建训练网络,得到AMNet模型文件:构建训练网络,采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成的点云分割网络,简称AMNet;将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件;
步骤3测试集拉伸处理:根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据;
步骤4网络性能评估:利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣;
步骤5利用D-KNN模块进行结果优化:利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出3D点云数据最终分割结果。
与现有技术相比,本发明具有以下优点:
(1)引入注意力网络(Attention Network,简称ANet):在语义分割网络中,较低层神经元捕捉的低层信息包含较精确的位置信息,语义信息较少;较高层神经元捕捉的高层信息包含较具的语义信息,但是包含的位置信息不精确,本发明的注意力网络通过结合下采样层和上采样层的信息,可以更好的捕获全局上下文信息;
(2)进行拉伸处理:由于3D点云数据只有x,y,z位置坐标,强度,回波次数五种信息,而对于低矮建筑和地面以及地面和水等点云信息高度值相差很小的数据,分割网络不易识别,所以,本发明将数据通过拉伸处理,增强点云数据高度值的空间差异性,便于识别与分割;
(3)利用D-KNN模块进行结果优化:网络进行分割之前,需要对每个场景进行切块处理,此时,某些类别在场景中占据的比例过大,切块处理会导致一种类别占据一块,导致此类和其他类别之间的空间关系的丢失,容易错分成其他类别,本发明采用D-KNN模块对整个场景进行遍历纠错,对各种场景中各种比例的类别的分割效果都比较好。
附图说明
图1是本发明的基本流程图;
图2是本发明的AMNet网络结构模型示意图。
具体实施方式
下面结合附图和实例对本发明详细说明
实施例1
目前,各种三维扫描设备的广泛使用产生了大量的点云数据,与此同时,3D打印,虚拟现实,场景重建的应用环境对点云数据的处理提出种种需求。点云数据的处理,特别是点云分割是三维重建,场景理解和目标识别跟踪等各项应用或任务处理的基础,分割结果有利于对象识别与分类,是人工智能领域的研究热点问题,也是难点问题,受到越来越多的研究者的关注。
现有的点云分割网络,例如PointNet,PointNet++,PointSIFT网络等实现了直接将三维点云数据直接输入网络进行训练,但依旧没有充分的利用全局上下文信息来学习更好的特征表示,针对如此现状,本发明展开了创新与研究。
本发明提出一种基于注意力网络的3D点云分割方法,参见图1,包括有以下步骤:
步骤1获取点云数据,并进行预处理:将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,对数据进行预处理,将预处理后数据样本分为训练集和测试集。
将预处理后数据样本按照一定比例分为训练集和测试集。本例中按照A:1分成训练集和测试集,A可以取任意值。
步骤2构建训练网络,得到AMNet模型文件:构建训练网络,采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成的点云分割网络,简称AMNet;AMNet主干网络包括一个MSG模块,一个ANet支干网络,三个下采样层(Res model简称Re),三个上采样层(FP model,简称FP);将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件。
步骤3测试集拉伸处理:根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据。
步骤4网络性能评估:利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣。
步骤5利用D-KNN模块进行结果优化:利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出3D点云数据最终分割结果。
本发明提供了一种基于注意力网络的3D点云分割的方法,本发明在分割网络中加入注意力网络,形成AMNet分割网络,可以充分利用网络的全局上下文信息,提高分割精度。在测试集数据初步分割之前,进行测试集数据拉伸处理,增强数据的空间结构。最后,利用D-KNN模块,对拉伸后的测试集初步分割结果进行优化,解决测试集某些类别在场景中占据的比例过大,切块时和其他类别之间的空间关系丢失的技术问题。整体上是一个利用了全局上下文信息,使分割精度更高的整体方案。
实施例2
基于注意力网络的3D点云分割方法同实施例1,步骤2中所述的得到AMNet模型文件,具体包括以下步骤:
(2.1)构建训练网络:训练网络采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成点云分割网络,简称AMNet;AMNet主干网络包括一个MSG模块,一个ANet支干网络,三个下采样层(Res model简称Re),三个上采样层(FP model,简称FP)。
其中,注意力支干网络(Attention Network,简称ANet)包括两个转置单元,两个相乘单元,一个相加单元,两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
其中,多尺度模块(MSG模块)包括MSG1,MSG2,MSG3,MSG1包括一个降维单元,一个连接层,九个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;MSG2包括一个降维单元,一个连接层,九个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;MSG3包括一个降维单元,一个连接层,2个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
其中,下采样层包括Re1,Re2,Re3,Re1包括两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;Re2包括两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;Re3包括三个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
(2.2)将训练集数据输入AMNet网络进行训练:
(2.2a)将训练集数据输入AMNet网络的第一层下采样层(Re1)。
(2.2b)将(2.2a)的结果输入第一层MSG(MSG1)。
(2.2c)将(2.2b)的结果输入第二层下采样层(Re2)。
(2.2d)将(2.2c)的结果输入第二层MSG模块(MSG2)。
(2.2e)将(2.2d)的结果输入第三层下采样层(Re3)。
(2.2f)将(2.2e)的结果输入第三层MSG模块(MSG3)。
(2.2g)将(2.2f)的结果输入第一层上采样层(FP1)。
(2.2h)将(2.2d)和(2.2g)的输出结果输入ANet支干网络,ANet支干网络将(2.2g)的输出和(2.2d)的输出进行转置并相乘,并且通过一个卷积层,
(2.2i)将(2.2h)的输出结果输入第二层上采样层(FP2)。
(2.2j)将(2.2i)的输出和(2.2b)的输出结果输入ANet支干网络,ANet支干网络将(2.2i)的输出和(2.2b)的输出进行转置并相乘,并且通过一个卷积层。
(2.2k)将(2.2j)的输出结果输入第三层上采样层(FP3),从而建立从底层特征到高层语义的映射,将结果输出。
(2.3)得到训练好的AMNet模型文件。
在语义分割网络中引入注意力网络,在语义分割网络中,较低层神经元捕捉的低层信息包含较精确的位置信息,语义信息较少;较高层神经元捕捉的高层信息包含较具的语义信息,但是包含的位置信息不精确,本发明的注意力网络通过结合下采样层和上采样层的语义信息和位置信息,可以更好的捕获全局上下文信息,提高分割精度。
实施例3
基于注意力网络的3D点云分割方法同实施例1-2,步骤3所述的拉伸公式,具体是:
s=1-(tanh(z1))2
z1=(ln((1+threshold)/(1-threshold)))/(-2)
其中:f(z)表示测试集的点云数据的z值经过拉伸公式处理后得到的新的z值,threshold控制线性函数的斜率s值的大小以及线性函数和tanh函数相交点z1的值的大小,threshold的取值范围为[1/2,1]。
threshold越大,线性函数和tanh函数相交点z1离原点的距离越远,测试集的点云数据的z值小于z1时,采用tanh函数拉伸,测试集的点云数据的z值大于等于z1值时采用线性拉伸。
threshold越大,z1值越大,线性函数斜率s越小,测试集的点云数据的z值被拉伸的越小,各点的z值的空间差异越小。
由于3D点云数据只有x,y,z位置坐标,强度,回波次数五种信息,而对于低矮建筑和地面以及地面和水等点云信息高度值相差很小的数据,分割网络不易识别,所以,本发明将数据通过拉伸处理,增强点云数据高度值的空间差异性,便于识别与分割,进一步提高分割精度。
实施例4
基于注意力网络的3D点云分割方法同实施例1-3,步骤5所述的D-KNN模块,其构成包括有以下步骤:
(5.1)搜索测试集样本中每个点,得到每点的K近邻点:使用K最近邻搜索方法统计测试集样本中每个点的k个近邻点{nm},n表示样本中的第n个点,nm表示第n个点的第m近邻,m∈[1,k]。
K最近邻(k-Nearest Neighbor,KNN)算法,是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
测试集数据标签有N种,以其中一种建筑为例:
(5.2)遍历每点的K近邻点,寻找符合条件点:对测试集样本中每个点,以每个被分类为建筑的点作为起始点,利用深度优先搜索方法对其k近邻点进行搜索,搜索条件为且点nm也被分类为建筑,其中,表示nm点的z值,nz表示n点的z值,Δz是搜索过程中允许的两点的z值的差值。
搜索完毕后,统计搜索过程中符合搜索条件的点的总数,记为S,将这S个点的ng值设置为S,ng表示和该点空间高度差小于Δz的点的总数。
(5.3)遍历每点的K近邻点,标记符合条件点:对测试集样本中每点,以每个被分为建筑且其ng>T的点作为起始点,对其k近邻点进行搜索,搜索条件为搜索完毕后,将搜索树上所有点的类别标记为建筑,其中,T表示和该点空间高度差小于Δz的点的总数的最小值,T=100。
(5.4)遍历测试集样本中的N个类别,重复步骤(5.2)和(5.3),对每一个类别的点遍历其K近邻点,寻找所有类别各自的符合条件的点并进行标记。
(5.5)得到3D点云数据最终的分割结果。
网络进行测试集数据分割之前,需要对每个场景进行切块处理,此时,某些类别在场景中占据的比例过大,切块处理会导致某一类别占据一块,导致此类别和其他类别之间的空间关系的丢失,容易错分成其他类别,本发明采用D-KNN模块对整个场景进行遍历纠错,对各种场景中各种比例的类别的分割效果都比较好。
本发明是一种基于注意力网络的3D点云分割方法。通过读取3D点云数据集,将其转换为本发明所需数据格式且进行数据预处理;然后构建一个基于注意力网络(AttentionNetwork)和多尺度模块(Multi-scale group model,简称MSG)的点云分割网络,简称AMNet网络;再对该网络进行训练;最后进行网络性能的评估。本发明通过注意力网络利用全局上下文信息在语义分割中的影响,获得了更好的特征表达;本发明采用深度优先搜索(D-KNN)网络对场景进行遍历纠错,对各种场景的鲁棒性都比较好。有效地减少了点云数据处理的空间消耗,同时提高了网络预测性能,降低了学习成本。
下面给出一个更加详细的例子,对本发明进一步说明
实施例5
基于注意力网络的3D点云分割方法同实施例1-4,下面结合图1-2对本发明作详细说明。
一种基于注意力网络的3D点云分割方法,如图1所示,包括以下步骤:
步骤1获取点云数据,并进行预处理:
将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,从而对数据进行预处理,将预处理后数据样本分为训练集、测试集。
步骤2构建训练网络,得到AMNet模型文件:
构建训练网络,采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成的点云分割网络,简称AMNet;将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件。
步骤3测试集拉伸处理:
根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据。
步骤4网络性能评估:
利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣。
步骤5利用D-KNN模块进行结果优化:
利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出最终分割结果。
在本发明中,具体地实施例操作如下:
步骤1获取点云数据,并进行预处理:将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,从而对数据进行预处理,将预处理后数据样本分为训练集、测试集,具体操作如下:
选取的数据集为Urban Semantic 3D(US3D)数据集。该点云数据中每一个点包含x,y,z,i,r数据值,分别代表每个点在激光雷达坐标系下的x,y,z轴坐标位置,强度,回波次数的信息。
再进一步,对获取的点云数据,使用PCL(Ponit Cloud Library)中VoxelGrid类体素化网格方法进行体素滤波预处理,减少点云的数量,同时保存点云的形状特征。
更进一步,对预处理后的点云数据,按照9:1的比例随机分为训练集和测试集,进而将其切成点云块,每块包含8192个点。
步骤2构建训练网络,得到AMNet模型文件:构建训练网络,采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成的点云分割网络,简称AMNet;将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件,具体描述如下:
(2.1)AMNet主干网络包括一个MSG模块,一个注意力支干网络(AttentionNetwork,简称ANet),三个下采样层(Res model简称Re),三个上采样层(FP model,简称FP),参见图2。
其中,注意力支干网络(Attention Network,简称ANet)包括两个转置单元,两个相乘单元,一个相加单元,两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
其中,多尺度模块(MSG模块)包括MSG1,MSG2,MSG3,MSG1包括一个降维单元,一个连接层,九个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;MSG2包括一个降维单元,一个连接层,九个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;MSG3包括一个降维单元,一个连接层,2个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
其中,下采样层包括Re1,Re2,Re3,Re1包括两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;Re2包括两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;Re3包括三个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
(2.2)将训练集数据输入AMNet网络进行训练:
(2.2a)将训练集数据输入AMNet网络的第一层下采样层(Re1)。
(2.2b)将(2.2a)的结果输入第一层MSG(MSG1)。
(2.2c)将(2.2b)的结果输入第二层下采样层(Re2)。
(2.2d)将(2.2c)的结果输入第二层MSG模块(MSG2)。
(2.2e)将(2.2d)的结果输入第三层下采样层(Re3)。
(2.2f)将(2.2e)的结果输入第三层MSG模块(MSG3)。
(2.2g)将(2.2f)的结果输入第一层上采样层(FP1)。
(2.2h)将(2.2d)和(2.2g)的输出结果输入ANet支干网络,ANet支干网络将(2.2g)的输出和(2.2d)的输出进行转置并相乘,并且通过一个卷积层,
(2.2i)将(2.2h)的输出结果输入第二层上采样层(FP2)。
(2.2j)将(2.2i)的输出和(2.2b)的输出结果输入ANet支干网络,ANet支干网络将(2.2i)的输出和(2.2b)的输出进行转置并相乘,并且通过一个卷积层。
(2.2k)将(2.2j)的输出结果输入第三层上采样层(FP3),从而建立从底层特征到高层语义的映射,将结果输出。
(2.3)得到训练好的AMNet模型文件。
步骤3测试集拉伸处理:根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据,具体拉伸公式如下:
s=1-(tanh(z1))2
z1=(ln((1+threshold)/(1-threshold)))/(-2)
其中:f(z)表示测试集的点云数据的z值经过拉伸公式处理后得到的新的z值,threshold控制线性函数的斜率s值的大小以及线性函数和tanh函数相交点z1的值的大小,threshold的取值范围为[1/2,1]。
threshold越大,线性函数和tanh函数相交点z1离原点的距离越远,测试集的点云数据的z值小于z1时,采用tanh函数拉伸,测试集的点云数据的z值大于等于z1值时采用线性拉伸。
threshold越大,z1值越大,线性函数斜率s越小,测试集的点云数据的z值被拉伸的越小,各点的z值的空间差异越小。
步骤4网络性能评估:利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣,具体操作如下:
用训练好的AMNet模型文件对拉伸后的测试集数据逐点进行预测,进而生成混淆矩阵(confusion matrix),确定分割的精度和可靠性。
混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。其中,矩阵的每一列表示的是模型预测的样本情况;矩阵的每一行表示的样本的真实情况。
步骤5利用D-KNN模块进行结果优化:利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出3D点云数据最终分割结果,具体操作如下:
(5.1)搜索测试集样本中每个点,得到每点的K近邻点:使用K最近邻搜索方法统计测试集样本中每个点的k个近邻点{nm},n表示样本中的第n个点,nm表示第n个点的第m近邻,m∈[1,k]。
K最近邻(k-Nearest Neighbor,KNN)算法,是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
测试集数据标签有N种,以其中一种建筑为例:
(5.2)遍历每点的K近邻点,寻找符合条件点:对测试集样本中每个点,以每个被分类为建筑的点作为起始点,利用深度优先搜索方法对其k近邻点进行搜索,搜索条件为且点nm也被分类为建筑,其中,表示nm点的z值,nz表示n点的z值,Δz是搜索过程中允许的两点的z值的差值。
搜索完毕后,统计搜索过程中符合搜索条件的点的总数,记为S,将这S个点的ng值设置为S,ng表示和该点空间高度差小于Δz的点的总数。
(5.3)遍历每点的K近邻点,标记符合条件点:对测试集样本中每点,以每个被分为建筑且其ng>T的点作为起始点,对其k近邻点进行搜索,搜索条件为搜索完毕后,将搜索树上所有点的类别标记为建筑,其中,T表示和该点空间高度差小于Δz的点的总数的最小值,T=100。
(5.4)遍历测试集样本中的N个类别,重复步骤(5.2)和(5.3),对每一个类别的点遍历其K近邻点,寻找符合条件点并标记。
(5.5)得到输入的3D点云数据最终的分割结果。
与现有技术相比,本发明有效地减少了点云数据处理的空间消耗,同时提高了网络分割性能,降低了学习成本。
下面通过实验数据对本发明的技术效果再做说明
实施例6
基于注意力网络的3D点云分割方法同实施例1-5,本发明利用AMNet网络对UrbanSemantic 3D(US3D)数据集数据进行分割,本数据集包括地面,高植被,建筑物,水和高架桥五种类别。对分割结果进行统计,得到各类的分割精度,下面结合表1对本发明作详细说明。
表1:本发明对Urban Semantic 3D(US3D)数据集分割结果
模型 | OA | 地面 | 高植被 | 建筑物 | 水 | 高架桥 |
PointSIFT | 0.9755 | 0.9737 | 0.9612 | 0.8846 | 0.9206 | 0.8114 |
本发明 | 0.9869 | 0.9887 | 0.9640 | 0.9370 | 0.9506 | 0.9396 |
表1中,OA值是一个衡量图像分割精度的重要指标。OA可解释为每个类别的识别精度的平均值,对于PointSIFT分割模型,在本发明所用的3D点云数据集上,各类的精度分别为地面0.9737,高植被0.9612,建筑物0.8846,水0.9206,高架桥0.8114,平均精度(OA)为0.9755,而本发明所用的AMNet模型,各类的精度分别为地面0.9887,高植被0.9640,建筑物0.9370,水0.9506,高架桥0.9396,平均精度(OA)为0.9869,各类的识别精度以及平均精度都高于现有模型。
综上所述,本发明公开的一种基于注意力网络的3D点云分割的方法,解决了现有语义分割方法中对全局上下文信息利用不足的技术问题。其过程包括:首先对3D点云数据集进行数据预处理;然后构建一个基于注意力网络和多尺度模块的AMNet分割网络,对训练集数据进行训练;再对测试集数据进行拉伸处理;用训练好的AMNet模型文件进行网络性能评估,利用D-KNN模块进行结果优化,输出最终分割结果。本发明通过注意力网络利用全局上下文信息在语义分割中的影响,获得精确的分割结果;采用D-KNN模块对分割结果优化。本发明充分利用全局上下文信息,有效减少了点云数据处理的空间消耗,降低了空间成本,同时提高了分割结果精确性。本发明用于3D点云语义分割。
Claims (4)
1.一种基于注意力网络的3D点云分割方法,其特征在于,包括有以下步骤:
步骤1获取点云数据,并进行预处理:将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,对数据进行预处理,将预处理后数据样本分为训练集、测试集;
步骤2构建训练网络,得到AMNet模型文件:构建训练网络,采用基于注意力网络和多尺度模块构成的点云分割网络,简称AMNet;将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件;
步骤3测试集拉伸处理:根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据;
步骤4网络性能评估:利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣;
步骤5利用D-KNN模块进行结果优化:利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出3D点云数据最终分割结果。
2.根据权利要求1所述的一种基于注意力网络的3D点云分割方法,其特征在于,步骤2中所述的得到AMNet模型文件,具体包括以下步骤:
(2.1)构建训练网络:训练网络采用基于注意力网络和多尺度模块构成点云分割网络,简称AMNet;AMNet主干网络包括一个MSG模块,一个ANet支干网络,三个下采样层,三个上采样层;
(2.2)将训练集数据输入AMNet网络进行训练:
(2.2a)将训练集数据输入AMNet网络的第一层下采样层;
(2.2b)将(2.2a)的结果输入AMNet网络的第一层MSG;
(2.2c)将(2.2b)的结果输入AMNet网络的第二层下采样层;
(2.2d)将(2.2c)的结果输入AMNet网络的第二层MSG模块;
(2.2e)将(2.2d)的结果输入AMNet网络的第三层下采样层;
(2.2f)将(2.2e)的结果输入AMNet网络的第三层MSG模块;
(2.2g)将(2.2f)的结果输入AMNet网络的第一层上采样层;
(2.2h)将(2.2d)和(2.2g)的输出结果输入ANet支干网络,ANet支干网络将(2.2g)的输出和(2.2d)的输出进行转置并相乘,并且通过一个卷积层,
(2.2i)将(2.2h)的输出结果输入AMNet网络的第二层上采样层;
(2.2j)将(2.2i)的输出和(2.2b)的输出结果输入ANet支干网络,ANet支干网络将(2.2i)的输出和(2.2b)的输出进行转置并相乘,并且通过一个卷积层;
(2.2k)将(2.2j)的输出结果输入AMNet网络的第三层上采样层,从而建立从底层特征到高层语义的映射,将结果输出;
(2.3)得到训练好的AMNet模型文件。
3.根据权利要求1所述的一种基于注意力网络的3D点云分割方法,其特征在于,步骤3所述的拉伸公式,具体是:
s=1-(tanh(z1))2
z1=(ln((1+threshold)/(1-threshold)))/(-2)
其中:f(z)表示测试集的点云数据的z值经过拉伸公式处理后得到的新的z值,threshold控制线性函数的斜率s值的大小以及线性函数和tanh函数相交点z1的值的大小,threshold的取值范围为[1/2,1];
threshold越大,线性函数和tanh函数相交点z1离原点的距离越远,测试集的点云数据的z值小于z1时,采用tanh函数拉伸,测试集的点云数据的z值大于等于z1值时采用线性拉伸;
threshold越大,z1值越大,线性函数斜率s越小,测试集的点云数据的z值被拉伸的越小,各点的z值的空间差异越小。
4.根据权利要求1所述的一种基于注意力网络的3D点云分割方法,其特征在于,步骤5所述的D-KNN模块,其构成包括有以下步骤:
(5.1)搜索测试集样本中每个点,得到每点的K近邻点:使用K最近邻搜索方法统计测试集样本中每个点的k个近邻点{nm},n表示样本中的第n个点,nm表示第n个点的第m近邻,m∈[1,k];
测试集数据标签有N种,以其中一种建筑为例:
(5.2)遍历每点的K近邻点,寻找符合条件点:对测试集样本中每个点,以每个被分类为建筑的点作为起始点,利用深度优先搜索方法对其k近邻点进行搜索,搜索条件为且点nm也被分类为建筑,其中,表示nm点的z值,nz表示n点的z值,Δz是搜索过程中允许的两点的z值的差值;
搜索完毕后,统计搜索过程中符合搜索条件的点的总数,记为S,将这S个点的ng值设置为S,ng表示和该点空间高度差小于Δz的点的总数;
(5.3)遍历每点的K近邻点,标记符合条件点:对测试集样本中每点,以每个被分为建筑且其ng>T的点作为起始点,对其k近邻点进行搜索,搜索条件为搜索完毕后,将搜索树上所有点的类别标记为建筑,其中,T表示和该点空间高度差小于Δz的点的总数的最小值;
(5.4)遍历测试集样本中的N个类别,重复步骤(5.2)和(5.3),对每一个类别的点遍历其K近邻点,寻找所有类别各自的符合条件的点并进行标记;
(5.5)得到3D点云数据最终的分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910399005.9A CN110111345B (zh) | 2019-05-14 | 2019-05-14 | 一种基于注意力网络的3d点云分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910399005.9A CN110111345B (zh) | 2019-05-14 | 2019-05-14 | 一种基于注意力网络的3d点云分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110111345A true CN110111345A (zh) | 2019-08-09 |
CN110111345B CN110111345B (zh) | 2023-04-28 |
Family
ID=67489923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910399005.9A Active CN110111345B (zh) | 2019-05-14 | 2019-05-14 | 一种基于注意力网络的3d点云分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111345B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503148A (zh) * | 2019-08-26 | 2019-11-26 | 清华大学 | 一种具有尺度不变性的点云对象识别方法 |
CN110781894A (zh) * | 2019-09-29 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 点云语义分割方法、装置及电子设备 |
CN111028238A (zh) * | 2019-12-17 | 2020-04-17 | 湖南大学 | 一种基于机器人视觉的复杂异形曲面三维分割方法及系统 |
CN111724467A (zh) * | 2020-06-02 | 2020-09-29 | 山东师范大学 | 一种用于3d打印的体素模型生成方法及系统 |
CN111968121A (zh) * | 2020-08-03 | 2020-11-20 | 电子科技大学 | 一种基于实例嵌入与语义融合的三维点云场景分割方法 |
CN112200248A (zh) * | 2020-10-13 | 2021-01-08 | 北京理工大学 | 一种基于dbscan聚类的城市道路环境下的点云语义分割方法、系统及存储介质 |
CN112819080A (zh) * | 2021-02-05 | 2021-05-18 | 四川大学 | 一种高精度通用的三维点云识别方法 |
CN113393474A (zh) * | 2021-06-10 | 2021-09-14 | 北京邮电大学 | 一种基于特征融合的三维点云的分类和分割方法 |
CN113449744A (zh) * | 2021-07-15 | 2021-09-28 | 东南大学 | 一种基于深度特征表达的三维点云语义分割方法 |
CN113538372A (zh) * | 2021-07-14 | 2021-10-22 | 重庆大学 | 三维目标检测方法、装置、计算机设备和存储介质 |
CN113780146A (zh) * | 2021-09-06 | 2021-12-10 | 西安电子科技大学 | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
CN114322793A (zh) * | 2022-03-16 | 2022-04-12 | 科大天工智能装备技术(天津)有限公司 | 基于全局分割网络的工件尺寸测量方法、装置及存储介质 |
CN115393597A (zh) * | 2022-10-31 | 2022-11-25 | 之江实验室 | 基于脉冲神经网络与激光雷达点云的语义分割方法及装置 |
CN115512226A (zh) * | 2022-10-08 | 2022-12-23 | 中国石油大学(华东) | 融入注意力机制多尺度CNN的LiDAR点云滤波方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3073443A1 (en) * | 2015-03-23 | 2016-09-28 | Université de Mons | 3D Saliency map |
CN109325505A (zh) * | 2018-09-11 | 2019-02-12 | 北京陌上花科技有限公司 | 用于嵌入式设备的实例分割方法及装置、手机端 |
US20190108639A1 (en) * | 2017-10-09 | 2019-04-11 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Semantic Segmentation of 3D Point Clouds |
-
2019
- 2019-05-14 CN CN201910399005.9A patent/CN110111345B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3073443A1 (en) * | 2015-03-23 | 2016-09-28 | Université de Mons | 3D Saliency map |
US20190108639A1 (en) * | 2017-10-09 | 2019-04-11 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Semantic Segmentation of 3D Point Clouds |
CN109325505A (zh) * | 2018-09-11 | 2019-02-12 | 北京陌上花科技有限公司 | 用于嵌入式设备的实例分割方法及装置、手机端 |
Non-Patent Citations (3)
Title |
---|
RUNFA TANG等: "Video object segmentation via attention-modulating networks", 《ELECTRONICS LETTERS》 * |
向杰等: "基于深度学习的手分割算法研究", 《智能计算机与应用》 * |
熊汉江等: "基于2D-3D语义传递的室内三维点云模型语义分割", 《武汉大学学报(信息科学版)》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503148A (zh) * | 2019-08-26 | 2019-11-26 | 清华大学 | 一种具有尺度不变性的点云对象识别方法 |
CN110503148B (zh) * | 2019-08-26 | 2022-10-11 | 清华大学 | 一种具有尺度不变性的点云对象识别方法 |
CN110781894A (zh) * | 2019-09-29 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 点云语义分割方法、装置及电子设备 |
CN111028238A (zh) * | 2019-12-17 | 2020-04-17 | 湖南大学 | 一种基于机器人视觉的复杂异形曲面三维分割方法及系统 |
CN111028238B (zh) * | 2019-12-17 | 2023-06-02 | 湖南大学 | 一种基于机器人视觉的复杂异形曲面三维分割方法及系统 |
CN111724467A (zh) * | 2020-06-02 | 2020-09-29 | 山东师范大学 | 一种用于3d打印的体素模型生成方法及系统 |
CN111724467B (zh) * | 2020-06-02 | 2024-05-17 | 山东师范大学 | 一种用于3d打印的体素模型生成方法及系统 |
CN111968121B (zh) * | 2020-08-03 | 2021-12-03 | 电子科技大学 | 一种基于实例嵌入与语义融合的三维点云场景分割方法 |
CN111968121A (zh) * | 2020-08-03 | 2020-11-20 | 电子科技大学 | 一种基于实例嵌入与语义融合的三维点云场景分割方法 |
CN112200248A (zh) * | 2020-10-13 | 2021-01-08 | 北京理工大学 | 一种基于dbscan聚类的城市道路环境下的点云语义分割方法、系统及存储介质 |
CN112819080A (zh) * | 2021-02-05 | 2021-05-18 | 四川大学 | 一种高精度通用的三维点云识别方法 |
CN113393474A (zh) * | 2021-06-10 | 2021-09-14 | 北京邮电大学 | 一种基于特征融合的三维点云的分类和分割方法 |
CN113538372A (zh) * | 2021-07-14 | 2021-10-22 | 重庆大学 | 三维目标检测方法、装置、计算机设备和存储介质 |
CN113449744A (zh) * | 2021-07-15 | 2021-09-28 | 东南大学 | 一种基于深度特征表达的三维点云语义分割方法 |
CN113780146A (zh) * | 2021-09-06 | 2021-12-10 | 西安电子科技大学 | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
CN113780146B (zh) * | 2021-09-06 | 2024-05-10 | 西安电子科技大学 | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
CN114322793A (zh) * | 2022-03-16 | 2022-04-12 | 科大天工智能装备技术(天津)有限公司 | 基于全局分割网络的工件尺寸测量方法、装置及存储介质 |
CN115512226A (zh) * | 2022-10-08 | 2022-12-23 | 中国石油大学(华东) | 融入注意力机制多尺度CNN的LiDAR点云滤波方法 |
CN115512226B (zh) * | 2022-10-08 | 2024-08-20 | 中国石油大学(华东) | 融入注意力机制多尺度CNN的LiDAR点云滤波方法 |
CN115393597A (zh) * | 2022-10-31 | 2022-11-25 | 之江实验室 | 基于脉冲神经网络与激光雷达点云的语义分割方法及装置 |
CN115393597B (zh) * | 2022-10-31 | 2023-01-24 | 之江实验室 | 基于脉冲神经网络与激光雷达点云的语义分割方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110111345B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111345A (zh) | 一种基于注意力网络的3d点云分割方法 | |
CN110245709B (zh) | 基于深度学习和自注意力的3d点云数据语义分割方法 | |
CN114202696A (zh) | 基于上下文视觉的sar目标检测方法、装置和存储介质 | |
CN112183432B (zh) | 一种基于中分辨率sar图像的建筑区提取方法以及系统 | |
CN104899562B (zh) | 基于纹理分割融合的雷达遥感影像人工建筑识别算法 | |
CN113705580B (zh) | 基于深度迁移学习的高光谱图像分类方法 | |
CN106295613A (zh) | 一种无人机目标定位方法及系统 | |
CN113223042B (zh) | 一种遥感影像深度学习样本智能采集方法及设备 | |
CN112163496B (zh) | 一种基于语义分割的嵌入式终端水库水位预警方法 | |
CN113887517B (zh) | 基于并行注意力机制的农作物遥感图像语义分割方法 | |
CN115546650A (zh) | 基于yolo-v网络的检测遥感影像中舰船方法 | |
Chen et al. | ASF-Net: Adaptive screening feature network for building footprint extraction from remote-sensing images | |
CN116630798A (zh) | 一种基于改进YOLOv5的SAR图像飞机目标检测方法 | |
CN110210431A (zh) | 一种基于点云语义标注和优化的点云分类方法 | |
CN117830788B (zh) | 一种多源信息融合的图像目标检测方法 | |
US20230419659A1 (en) | Method and system for processing point-cloud data | |
Dong et al. | New quantitative approach for the morphological similarity analysis of urban fabrics based on a convolutional autoencoder | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN116403121A (zh) | 水体指数与极化信息多路径融合的遥感图像水域分割方法、系统及设备 | |
CN115512333A (zh) | 一种sar图像的车辆目标检测方法和系统 | |
Lin et al. | An unsupervised transformer-based multivariate alteration detection approach for change detection in VHR remote sensing images | |
CN114764880B (zh) | 多成分gan重建的遥感图像场景分类方法 | |
CN106570124B (zh) | 基于对象级关联规则的遥感图像语义检索方法及系统 | |
Wang et al. | FPA-DNN: a forward propagation acceleration based deep neural network for ship detection | |
Luo et al. | Real-time pedestrian detection method based on improved YOLOv3 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |