CN110111345B - 一种基于注意力网络的3d点云分割方法 - Google Patents

一种基于注意力网络的3d点云分割方法 Download PDF

Info

Publication number
CN110111345B
CN110111345B CN201910399005.9A CN201910399005A CN110111345B CN 110111345 B CN110111345 B CN 110111345B CN 201910399005 A CN201910399005 A CN 201910399005A CN 110111345 B CN110111345 B CN 110111345B
Authority
CN
China
Prior art keywords
network
point cloud
point
data
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910399005.9A
Other languages
English (en)
Other versions
CN110111345A (zh
Inventor
焦李成
李玲玲
贾美霞
李艾瑾
吴兆阳
丁静怡
张丹
郭雨薇
唐旭
冯志玺
张梦旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910399005.9A priority Critical patent/CN110111345B/zh
Publication of CN110111345A publication Critical patent/CN110111345A/zh
Application granted granted Critical
Publication of CN110111345B publication Critical patent/CN110111345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于注意力网络的3D点云分割的方法,解决了现有语义分割对全局上下文信息利用不足的技术问题。其过程包括:对3D点云数据集数据预处理;构建基于注意力网络和多尺度模块的AMNet分割网络,对训练集数据进行训练;再对测试集数据拉伸处理;用AMNet模型文件进行网络性能评估,用D‑KNN模块对结果优化,输出最终分割结果。本发明通过AMNet充分利用全局上下文信息,获得精确的分割结果,有效减少了点云数据处理的空间消耗,降低了空间成本,同时提高了分割结果精确性。本发明用于3D点云语义分割。

Description

一种基于注意力网络的3D点云分割方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种3D点云分割的方法,具体是一种基于注意力网络的3D点云分割方法,用于3D点云分割。
背景技术
机载激光雷达(LiDAR,Light Detection And Ranging)系统通过发射和接收激光脉冲获得的地表密集高精度三维点坐标被称为激光雷达点云数据。点云数据的处理,特别是点云分割是三维重建,场景理解和目标识别跟踪等各项应用或任务处理的基础,是人工智能领域的研究热点问题,也是难点问题,受到越来越多的研究者的关注。
大连理工大学在其申请的专利“一种场景点云语义分割方法”(申请号:CN201811204443.7,公开号:CN109410307A)中提出基于深度学习技术进行大规模密集场景点云语义分割。主要采用将点云的三维坐标系重建为二维坐标系,在二维坐标系上分别进行图像语义分割,最后通过插值将二维坐标系信息进行重组,得到三维点云语义分割信息。该方法能够解决传统点云场景理解易受数据分辨率限制、局部特征不够鲁棒等技术难题。该方法将点云的三维坐标系重建为二维坐标系,计算过程繁琐。
孙颖等在其申请的专利“基于多尺度卷积神经网络的语义分割方法”(申请号:CN201711391395.2,公开号:CN108230329A)中提出多尺度卷积神经网络与多尺度分割后处理相结合的方法,用于激光雷达点云数据的语义分割。主要获取激光雷达点云数据中的模态内特征,基于多尺度卷积神经网络进行模态间特征提取,采用多尺度分割方法提取地物边界,优化分割结果。该方法采用多尺度卷积神经网络避免固定尺度卷积神经网络在感受野上受到限制的问题,能在多个尺度上提取特征,有利于提高图像分类精度。该方法使用的编码-解码器卷积神经网络架构能将从池化层导出的低分辨率特征上采样到输入分辨率,但因为上采样层缺乏上下文信息,导致上采样后的物体边界变得模糊且不可逆。
现有技术对3D点云分割时大多是将点云的三维坐标系重建为二维坐标系,计算过程繁琐,同时对于全局上下文信息的捕捉不足,导致上采样后的物体边界变得模糊且不可逆。
发明内容
本发明的目的是针对现有技术的不足和缺陷,提出一种利用全局上下文信息精度更高的基于注意力网络的3D点云分割方法。
本发明是一种基于注意力网络的3D点云分割方法,其特征在于,包括有以下步骤:
步骤1获取点云数据,并进行预处理:将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,对数据进行预处理,将预处理后数据样本分为训练集、测试集;
步骤2构建训练网络,得到AMNet模型文件:构建训练网络,采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成的点云分割网络,简称AMNet;将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件;
步骤3测试集拉伸处理:根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据;
步骤4网络性能评估:利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣;
步骤5利用D-KNN模块进行结果优化:利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出3D点云数据最终分割结果。
与现有技术相比,本发明具有以下优点:
(1)引入注意力网络(Attention Network,简称ANet):在语义分割网络中,较低层神经元捕捉的低层信息包含较精确的位置信息,语义信息较少;较高层神经元捕捉的高层信息包含较具的语义信息,但是包含的位置信息不精确,本发明的注意力网络通过结合下采样层和上采样层的信息,可以更好的捕获全局上下文信息;
(2)进行拉伸处理:由于3D点云数据只有x,y,z位置坐标,强度,回波次数五种信息,而对于低矮建筑和地面以及地面和水等点云信息高度值相差很小的数据,分割网络不易识别,所以,本发明将数据通过拉伸处理,增强点云数据高度值的空间差异性,便于识别与分割;
(3)利用D-KNN模块进行结果优化:网络进行分割之前,需要对每个场景进行切块处理,此时,某些类别在场景中占据的比例过大,切块处理会导致一种类别占据一块,导致此类和其他类别之间的空间关系的丢失,容易错分成其他类别,本发明采用D-KNN模块对整个场景进行遍历纠错,对各种场景中各种比例的类别的分割效果都比较好。
附图说明
图1是本发明的基本流程图;
图2是本发明的AMNet网络结构模型示意图。
具体实施方式
下面结合附图和实例对本发明详细说明
实施例1
目前,各种三维扫描设备的广泛使用产生了大量的点云数据,与此同时,3D打印,虚拟现实,场景重建的应用环境对点云数据的处理提出种种需求。点云数据的处理,特别是点云分割是三维重建,场景理解和目标识别跟踪等各项应用或任务处理的基础,分割结果有利于对象识别与分类,是人工智能领域的研究热点问题,也是难点问题,受到越来越多的研究者的关注。
现有的点云分割网络,例如PointNet,PointNet++,PointSIFT网络等实现了直接将三维点云数据直接输入网络进行训练,但依旧没有充分的利用全局上下文信息来学习更好的特征表示,针对如此现状,本发明展开了创新与研究。
本发明提出一种基于注意力网络的3D点云分割方法,参见图1,包括有以下步骤:
步骤1获取点云数据,并进行预处理:将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,对数据进行预处理,将预处理后数据样本分为训练集和测试集。
将预处理后数据样本按照一定比例分为训练集和测试集。本例中按照A:1分成训练集和测试集,A可以取任意值。
步骤2构建训练网络,得到AMNet模型文件:构建训练网络,采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成的点云分割网络,简称AMNet;AMNet主干网络包括一个MSG模块,一个ANet支干网络,三个下采样层(Res model简称Re),三个上采样层(FP model,简称FP);将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件。
步骤3测试集拉伸处理:根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据。
步骤4网络性能评估:利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣。
步骤5利用D-KNN模块进行结果优化:利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出3D点云数据最终分割结果。
本发明提供了一种基于注意力网络的3D点云分割的方法,本发明在分割网络中加入注意力网络,形成AMNet分割网络,可以充分利用网络的全局上下文信息,提高分割精度。在测试集数据初步分割之前,进行测试集数据拉伸处理,增强数据的空间结构。最后,利用D-KNN模块,对拉伸后的测试集初步分割结果进行优化,解决测试集某些类别在场景中占据的比例过大,切块时和其他类别之间的空间关系丢失的技术问题。整体上是一个利用了全局上下文信息,使分割精度更高的整体方案。
实施例2
基于注意力网络的3D点云分割方法同实施例1,步骤2中所述的得到AMNet模型文件,具体包括以下步骤:
(2.1)构建训练网络:训练网络采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成点云分割网络,简称AMNet;AMNet主干网络包括一个MSG模块,一个ANet支干网络,三个下采样层(Res model简称Re),三个上采样层(FP model,简称FP)。
其中,注意力支干网络(Attention Network,简称ANet)包括两个转置单元,两个相乘单元,一个相加单元,两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
其中,多尺度模块(MSG模块)包括MSG1,MSG2,MSG3,MSG1包括一个降维单元,一个连接层,九个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;MSG2包括一个降维单元,一个连接层,九个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;MSG3包括一个降维单元,一个连接层,2个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
其中,下采样层包括Re1,Re2,Re3,Re1包括两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;Re2包括两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;Re3包括三个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
(2.2)将训练集数据输入AMNet网络进行训练:
(2.2a)将训练集数据输入AMNet网络的第一层下采样层(Re1)。
(2.2b)将(2.2a)的结果输入第一层MSG(MSG1)。
(2.2c)将(2.2b)的结果输入第二层下采样层(Re2)。
(2.2d)将(2.2c)的结果输入第二层MSG模块(MSG2)。
(2.2e)将(2.2d)的结果输入第三层下采样层(Re3)。
(2.2f)将(2.2e)的结果输入第三层MSG模块(MSG3)。
(2.2g)将(2.2f)的结果输入第一层上采样层(FP1)。
(2.2h)将(2.2d)和(2.2g)的输出结果输入ANet支干网络,ANet支干网络将(2.2g)的输出和(2.2d)的输出进行转置并相乘,并且通过一个卷积层,
(2.2i)将(2.2h)的输出结果输入第二层上采样层(FP2)。
(2.2j)将(2.2i)的输出和(2.2b)的输出结果输入ANet支干网络,ANet支干网络将(2.2i)的输出和(2.2b)的输出进行转置并相乘,并且通过一个卷积层。
(2.2k)将(2.2j)的输出结果输入第三层上采样层(FP3),从而建立从底层特征到高层语义的映射,将结果输出。
(2.3)得到训练好的AMNet模型文件。
在语义分割网络中引入注意力网络,在语义分割网络中,较低层神经元捕捉的低层信息包含较精确的位置信息,语义信息较少;较高层神经元捕捉的高层信息包含较具的语义信息,但是包含的位置信息不精确,本发明的注意力网络通过结合下采样层和上采样层的语义信息和位置信息,可以更好的捕获全局上下文信息,提高分割精度。
实施例3
基于注意力网络的3D点云分割方法同实施例1-2,步骤3所述的拉伸公式,具体是:
Figure BDA0002059126430000061
s=1-(tanh(z1))2
z1=(ln((1+threshold)/(1-threshold)))/(-2)
其中:f(z)表示测试集的点云数据的z值经过拉伸公式处理后得到的新的z值,threshold控制线性函数的斜率s值的大小以及线性函数和tanh函数相交点z1的值的大小,threshold的取值范围为[1/2,1]。
threshold越大,线性函数和tanh函数相交点z1离原点的距离越远,测试集的点云数据的z值小于z1时,采用tanh函数拉伸,测试集的点云数据的z值大于等于z1值时采用线性拉伸。
threshold越大,z1值越大,线性函数斜率s越小,测试集的点云数据的z值被拉伸的越小,各点的z值的空间差异越小。
由于3D点云数据只有x,y,z位置坐标,强度,回波次数五种信息,而对于低矮建筑和地面以及地面和水等点云信息高度值相差很小的数据,分割网络不易识别,所以,本发明将数据通过拉伸处理,增强点云数据高度值的空间差异性,便于识别与分割,进一步提高分割精度。
实施例4
基于注意力网络的3D点云分割方法同实施例1-3,步骤5所述的D-KNN模块,其构成包括有以下步骤:
(5.1)搜索测试集样本中每个点,得到每点的K近邻点:使用K最近邻搜索方法统计测试集样本中每个点的k个近邻点{nm},n表示样本中的第n个点,nm表示第n个点的第m近邻,m∈[1,k]。
K最近邻(k-Nearest Neighbor,KNN)算法,是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
测试集数据标签有N种,以其中一种建筑为例:
(5.2)遍历每点的K近邻点,寻找符合条件点:对测试集样本中每个点,以每个被分类为建筑的点作为起始点,利用深度优先搜索方法对其k近邻点进行搜索,搜索条件为
Figure BDA0002059126430000071
且点nm也被分类为建筑,其中,
Figure BDA0002059126430000072
表示nm点的z值,nz表示n点的z值,Δz是搜索过程中允许的两点的z值的差值。
搜索完毕后,统计搜索过程中符合搜索条件的点的总数,记为S,将这S个点的ng值设置为S,ng表示和该点空间高度差小于Δz的点的总数。
(5.3)遍历每点的K近邻点,标记符合条件点:对测试集样本中每点,以每个被分为建筑且其ng>T的点作为起始点,对其k近邻点进行搜索,搜索条件为
Figure BDA0002059126430000073
搜索完毕后,将搜索树上所有点的类别标记为建筑,其中,T表示和该点空间高度差小于Δz的点的总数的最小值,T=100。
(5.4)遍历测试集样本中的N个类别,重复步骤(5.2)和(5.3),对每一个类别的点遍历其K近邻点,寻找所有类别各自的符合条件的点并进行标记。
(5.5)得到3D点云数据最终的分割结果。
网络进行测试集数据分割之前,需要对每个场景进行切块处理,此时,某些类别在场景中占据的比例过大,切块处理会导致某一类别占据一块,导致此类别和其他类别之间的空间关系的丢失,容易错分成其他类别,本发明采用D-KNN模块对整个场景进行遍历纠错,对各种场景中各种比例的类别的分割效果都比较好。
本发明是一种基于注意力网络的3D点云分割方法。通过读取3D点云数据集,将其转换为本发明所需数据格式且进行数据预处理;然后构建一个基于注意力网络(AttentionNetwork)和多尺度模块(Multi-scale group model,简称MSG)的点云分割网络,简称AMNet网络;再对该网络进行训练;最后进行网络性能的评估。本发明通过注意力网络利用全局上下文信息在语义分割中的影响,获得了更好的特征表达;本发明采用深度优先搜索(D-KNN)网络对场景进行遍历纠错,对各种场景的鲁棒性都比较好。有效地减少了点云数据处理的空间消耗,同时提高了网络预测性能,降低了学习成本。
下面给出一个更加详细的例子,对本发明进一步说明
实施例5
基于注意力网络的3D点云分割方法同实施例1-4,下面结合图1-2对本发明作详细说明。
一种基于注意力网络的3D点云分割方法,如图1所示,包括以下步骤:
步骤1获取点云数据,并进行预处理:
将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,从而对数据进行预处理,将预处理后数据样本分为训练集、测试集。
步骤2构建训练网络,得到AMNet模型文件:
构建训练网络,采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成的点云分割网络,简称AMNet;将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件。
步骤3测试集拉伸处理:
根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据。
步骤4网络性能评估:
利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣。
步骤5利用D-KNN模块进行结果优化:
利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出最终分割结果。
在本发明中,具体地实施例操作如下:
步骤1获取点云数据,并进行预处理:将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,从而对数据进行预处理,将预处理后数据样本分为训练集、测试集,具体操作如下:
选取的数据集为Urban Semantic 3D(US3D)数据集。该点云数据中每一个点包含x,y,z,i,r数据值,分别代表每个点在激光雷达坐标系下的x,y,z轴坐标位置,强度,回波次数的信息。
再进一步,对获取的点云数据,使用PCL(Ponit Cloud Library)中VoxelGrid类体素化网格方法进行体素滤波预处理,减少点云的数量,同时保存点云的形状特征。
更进一步,对预处理后的点云数据,按照9:1的比例随机分为训练集和测试集,进而将其切成点云块,每块包含8192个点。
步骤2构建训练网络,得到AMNet模型文件:构建训练网络,采用基于注意力网络(Attention Network,简称ANet)和多尺度模块(Multi-scale group model,简称MSG)构成的点云分割网络,简称AMNet;将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件,具体描述如下:
(2.1)AMNet主干网络包括一个MSG模块,一个注意力支干网络(AttentionNetwork,简称ANet),三个下采样层(Res model简称Re),三个上采样层(FP model,简称FP),参见图2。
其中,注意力支干网络(Attention Network,简称ANet)包括两个转置单元,两个相乘单元,一个相加单元,两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
其中,多尺度模块(MSG模块)包括MSG1,MSG2,MSG3,MSG1包括一个降维单元,一个连接层,九个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;MSG2包括一个降维单元,一个连接层,九个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;MSG3包括一个降维单元,一个连接层,2个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
其中,下采样层包括Re1,Re2,Re3,Re1包括两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;Re2包括两个卷积层,每个卷积层的卷积核大小都是1×1,步长为1;Re3包括三个卷积层,每个卷积层的卷积核大小都是1×1,步长为1。
(2.2)将训练集数据输入AMNet网络进行训练:
(2.2a)将训练集数据输入AMNet网络的第一层下采样层(Re1)。
(2.2b)将(2.2a)的结果输入第一层MSG(MSG1)。
(2.2c)将(2.2b)的结果输入第二层下采样层(Re2)。
(2.2d)将(2.2c)的结果输入第二层MSG模块(MSG2)。
(2.2e)将(2.2d)的结果输入第三层下采样层(Re3)。
(2.2f)将(2.2e)的结果输入第三层MSG模块(MSG3)。
(2.2g)将(2.2f)的结果输入第一层上采样层(FP1)。
(2.2h)将(2.2d)和(2.2g)的输出结果输入ANet支干网络,ANet支干网络将(2.2g)的输出和(2.2d)的输出进行转置并相乘,并且通过一个卷积层,
(2.2i)将(2.2h)的输出结果输入第二层上采样层(FP2)。
(2.2j)将(2.2i)的输出和(2.2b)的输出结果输入ANet支干网络,ANet支干网络将(2.2i)的输出和(2.2b)的输出进行转置并相乘,并且通过一个卷积层。
(2.2k)将(2.2j)的输出结果输入第三层上采样层(FP3),从而建立从底层特征到高层语义的映射,将结果输出。
(2.3)得到训练好的AMNet模型文件。
步骤3测试集拉伸处理:根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据,具体拉伸公式如下:
Figure BDA0002059126430000101
s=1-(tanh(z1))2
z1=(ln((1+threshold)/(1-threshold)))/(-2)
其中:f(z)表示测试集的点云数据的z值经过拉伸公式处理后得到的新的z值,threshold控制线性函数的斜率s值的大小以及线性函数和tanh函数相交点z1的值的大小,threshold的取值范围为[1/2,1]。
threshold越大,线性函数和tanh函数相交点z1离原点的距离越远,测试集的点云数据的z值小于z1时,采用tanh函数拉伸,测试集的点云数据的z值大于等于z1值时采用线性拉伸。
threshold越大,z1值越大,线性函数斜率s越小,测试集的点云数据的z值被拉伸的越小,各点的z值的空间差异越小。
步骤4网络性能评估:利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣,具体操作如下:
用训练好的AMNet模型文件对拉伸后的测试集数据逐点进行预测,进而生成混淆矩阵(confusion matrix),确定分割的精度和可靠性。
混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。其中,矩阵的每一列表示的是模型预测的样本情况;矩阵的每一行表示的样本的真实情况。
步骤5利用D-KNN模块进行结果优化:利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出3D点云数据最终分割结果,具体操作如下:
(5.1)搜索测试集样本中每个点,得到每点的K近邻点:使用K最近邻搜索方法统计测试集样本中每个点的k个近邻点{nm},n表示样本中的第n个点,nm表示第n个点的第m近邻,m∈[1,k]。
K最近邻(k-Nearest Neighbor,KNN)算法,是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
测试集数据标签有N种,以其中一种建筑为例:
(5.2)遍历每点的K近邻点,寻找符合条件点:对测试集样本中每个点,以每个被分类为建筑的点作为起始点,利用深度优先搜索方法对其k近邻点进行搜索,搜索条件为
Figure BDA0002059126430000111
且点nm也被分类为建筑,其中,
Figure BDA0002059126430000112
表示nm点的z值,nz表示n点的z值,Δz是搜索过程中允许的两点的z值的差值。
搜索完毕后,统计搜索过程中符合搜索条件的点的总数,记为S,将这S个点的ng值设置为S,ng表示和该点空间高度差小于Δz的点的总数。
(5.3)遍历每点的K近邻点,标记符合条件点:对测试集样本中每点,以每个被分为建筑且其ng>T的点作为起始点,对其k近邻点进行搜索,搜索条件为
Figure BDA0002059126430000113
搜索完毕后,将搜索树上所有点的类别标记为建筑,其中,T表示和该点空间高度差小于Δz的点的总数的最小值,T=100。
(5.4)遍历测试集样本中的N个类别,重复步骤(5.2)和(5.3),对每一个类别的点遍历其K近邻点,寻找符合条件点并标记。
(5.5)得到输入的3D点云数据最终的分割结果。
与现有技术相比,本发明有效地减少了点云数据处理的空间消耗,同时提高了网络分割性能,降低了学习成本。
下面通过实验数据对本发明的技术效果再做说明
实施例6
基于注意力网络的3D点云分割方法同实施例1-5,本发明利用AMNet网络对UrbanSemantic 3D(US3D)数据集数据进行分割,本数据集包括地面,高植被,建筑物,水和高架桥五种类别。对分割结果进行统计,得到各类的分割精度,下面结合表1对本发明作详细说明。
表1:本发明对Urban Semantic 3D(US3D)数据集分割结果
模型 OA 地面 高植被 建筑物 高架桥
PointSIFT 0.9755 0.9737 0.9612 0.8846 0.9206 0.8114
本发明 0.9869 0.9887 0.9640 0.9370 0.9506 0.9396
表1中,OA值是一个衡量图像分割精度的重要指标。OA可解释为每个类别的识别精度的平均值,对于PointSIFT分割模型,在本发明所用的3D点云数据集上,各类的精度分别为地面0.9737,高植被0.9612,建筑物0.8846,水0.9206,高架桥0.8114,平均精度(OA)为0.9755,而本发明所用的AMNet模型,各类的精度分别为地面0.9887,高植被0.9640,建筑物0.9370,水0.9506,高架桥0.9396,平均精度(OA)为0.9869,各类的识别精度以及平均精度都高于现有模型。
综上所述,本发明公开的一种基于注意力网络的3D点云分割的方法,解决了现有语义分割方法中对全局上下文信息利用不足的技术问题。其过程包括:首先对3D点云数据集进行数据预处理;然后构建一个基于注意力网络和多尺度模块的AMNet分割网络,对训练集数据进行训练;再对测试集数据进行拉伸处理;用训练好的AMNet模型文件进行网络性能评估,利用D-KNN模块进行结果优化,输出最终分割结果。本发明通过注意力网络利用全局上下文信息在语义分割中的影响,获得精确的分割结果;采用D-KNN模块对分割结果优化。本发明充分利用全局上下文信息,有效减少了点云数据处理的空间消耗,降低了空间成本,同时提高了分割结果精确性。本发明用于3D点云语义分割。

Claims (2)

1.一种基于注意力网络的3D点云分割方法,其特征在于,包括有以下步骤:
步骤1获取点云数据,并进行预处理:将从激光雷达中获取的3D点云数据集转换为与预处理数据所需格式相匹配的格式,对数据进行预处理,将预处理后数据样本分为训练集、测试集;
步骤2构建训练网络,得到AMNet模型文件:构建训练网络,采用基于注意力网络和多尺度模块构成的点云分割网络,简称AMNet;将训练集数据输入AMNet网络进行训练,得到训练好的AMNet模型文件;具体包括以下步骤:
(2.1)构建训练网络:训练网络采用基于注意力网络和多尺度模块构成点云分割网络,简称AMNet;AMNet主干网络包括一个MSG模块,一个ANet支干网络,三个下采样层,三个上采样层;
(2.2)将训练集数据输入AMNet网络进行训练:
(2.2a)将训练集数据输入AMNet网络的第一层下采样层;
(2.2b)将(2.2a)的结果输入AMNet网络的第一层MSG;
(2.2c)将(2.2b)的结果输入AMNet网络的第二层下采样层;
(2.2d)将(2.2c)的结果输入AMNet网络的第二层MSG模块;
(2.2e)将(2.2d)的结果输入AMNet网络的第三层下采样层;
(2.2f)将(2.2e)的结果输入AMNet网络的第三层MSG模块;
(2.2g)将(2.2f)的结果输入AMNet网络的第一层上采样层;
(2.2h)将(2.2d)和(2.2g)的输出结果输入ANet支干网络,ANet支干网络将(2.2g)的输出和(2.2d)的输出进行转置并相乘,并且通过一个卷积层,(2.2i)将(2.2h)的输出结果输入AMNet网络的第二层上采样层;
(2.2j)将(2.2i)的输出和(2.2b)的输出结果输入ANet支干网络,ANet支干网络将(2.2i)的输出和(2.2b)的输出进行转置并相乘,并且通过一个卷积层;
(2.2k)将(2.2j)的输出结果输入AMNet网络的第三层上采样层,从而建立从底层特征到高层语义的映射,将结果输出;
(2.3)得到训练好的AMNet模型文件;
步骤3测试集拉伸处理:根据tanh函数和线性函数将测试集的点云数据的z轴数据值利用拉伸公式进行扩展处理,得到拉伸后的测试集数据;
步骤4网络性能评估:利用训练好的AMNet模型文件对拉伸后的测试集数据进行分割,得到测试集数据的初步分割结果,分割准确率的高低代表网络性能的优劣;
步骤5利用D-KNN模块进行结果优化:利用K最近邻搜索方法以及深度优先搜索方法相结合共同构成的D-KNN模块,对拉伸后的测试集初步分割结果进行优化,输出3D点云数据最终分割结果;D-KNN模块,其构成包括有以下步骤:
(5.1)搜索测试集样本中每个点,得到每点的K近邻点:使用K最近邻搜索方法统计测试集样本中每个点的k个近邻点{nm},n表示样本中的第n个点,nm表示第n个点的第m近邻,m∈[1,k];
测试集数据标签有N种,以其中一种建筑为例:
(5.2)遍历每点的K近邻点,寻找符合条件点:对测试集样本中每个点,以每个被分类为建筑的点作为起始点,利用深度优先搜索方法对其k近邻点进行搜索,搜索条件为
Figure FDA0004066034940000021
且点nm也被分类为建筑,其中,
Figure FDA0004066034940000022
表示nm点的z值,nz表示n点的z值,Δz是搜索过程中允许的两点的z值的差值;
搜索完毕后,统计搜索过程中符合搜索条件的点的总数,记为S,将这S个点的ng值设置为S,ng表示和该点空间高度差小于Δz的点的总数;
(5.3)遍历每点的K近邻点,标记符合条件点:对测试集样本中每点,以每个被分为建筑且其ng>T的点作为起始点,对其k近邻点进行搜索,搜索条件为
Figure FDA0004066034940000023
搜索完毕后,将搜索树上所有点的类别标记为建筑,其中,T表示和该点空间高度差小于Δz的点的总数的最小值;
(5.4)遍历测试集样本中的N个类别,重复步骤(5.2)和(5.3),对每一个类别的点遍历其K近邻点,寻找所有类别各自的符合条件的点并进行标记;
(5.5)得到3D点云数据最终的分割结果。
2.根据权利要求1所述的一种基于注意力网络的3D点云分割方法,其特征在于,步骤3所述的拉伸公式,具体是:
Figure FDA0004066034940000031
s=1-(tanh(z1))2
z1=(ln((1+threshold)/(1-threshold)))/(-2)
其中:f(z)表示测试集的点云数据的z值经过拉伸公式处理后得到的新的z值,threshold控制线性函数的斜率s值的大小以及线性函数和tanh函数相交点z1的值的大小,threshold的取值范围为[1/2,1];
threshold越大,线性函数和tanh函数相交点z1离原点的距离越远,测试集的点云数据的z值小于z1时,采用tanh函数拉伸,测试集的点云数据的z值大于等于z1值时采用线性拉伸;
threshold越大,z1值越大,线性函数斜率s越小,测试集的点云数据的z值被拉伸的越小,各点的z值的空间差异越小。
CN201910399005.9A 2019-05-14 2019-05-14 一种基于注意力网络的3d点云分割方法 Active CN110111345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910399005.9A CN110111345B (zh) 2019-05-14 2019-05-14 一种基于注意力网络的3d点云分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910399005.9A CN110111345B (zh) 2019-05-14 2019-05-14 一种基于注意力网络的3d点云分割方法

Publications (2)

Publication Number Publication Date
CN110111345A CN110111345A (zh) 2019-08-09
CN110111345B true CN110111345B (zh) 2023-04-28

Family

ID=67489923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910399005.9A Active CN110111345B (zh) 2019-05-14 2019-05-14 一种基于注意力网络的3d点云分割方法

Country Status (1)

Country Link
CN (1) CN110111345B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503148B (zh) * 2019-08-26 2022-10-11 清华大学 一种具有尺度不变性的点云对象识别方法
CN111028238B (zh) * 2019-12-17 2023-06-02 湖南大学 一种基于机器人视觉的复杂异形曲面三维分割方法及系统
CN111724467B (zh) * 2020-06-02 2024-05-17 山东师范大学 一种用于3d打印的体素模型生成方法及系统
CN111968121B (zh) * 2020-08-03 2021-12-03 电子科技大学 一种基于实例嵌入与语义融合的三维点云场景分割方法
CN112200248B (zh) * 2020-10-13 2023-05-12 北京理工大学 一种基于dbscan聚类的城市道路环境下的点云语义分割方法、系统及存储介质
CN112819080B (zh) * 2021-02-05 2022-09-02 四川大学 一种高精度通用的三维点云识别方法
CN113393474B (zh) * 2021-06-10 2022-05-13 北京邮电大学 一种基于特征融合的三维点云的分类和分割方法
CN113538372B (zh) * 2021-07-14 2022-11-15 重庆大学 三维目标检测方法、装置、计算机设备和存储介质
CN113449744A (zh) * 2021-07-15 2021-09-28 东南大学 一种基于深度特征表达的三维点云语义分割方法
CN113780146B (zh) * 2021-09-06 2024-05-10 西安电子科技大学 基于轻量化神经架构搜索的高光谱图像分类方法及系统
CN114322793B (zh) * 2022-03-16 2022-07-15 科大天工智能装备技术(天津)有限公司 基于全局分割网络的工件尺寸测量方法、装置及存储介质
CN115393597B (zh) * 2022-10-31 2023-01-24 之江实验室 基于脉冲神经网络与激光雷达点云的语义分割方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3073443A1 (en) * 2015-03-23 2016-09-28 Université de Mons 3D Saliency map
CN109325505A (zh) * 2018-09-11 2019-02-12 北京陌上花科技有限公司 用于嵌入式设备的实例分割方法及装置、手机端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004202B2 (en) * 2017-10-09 2021-05-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for semantic segmentation of 3D point clouds

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3073443A1 (en) * 2015-03-23 2016-09-28 Université de Mons 3D Saliency map
CN109325505A (zh) * 2018-09-11 2019-02-12 北京陌上花科技有限公司 用于嵌入式设备的实例分割方法及装置、手机端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Video object segmentation via attention-modulating networks;Runfa Tang等;《Electronics Letters》;20190418;第455-457页 *
基于2D-3D语义传递的室内三维点云模型语义分割;熊汉江等;《武汉大学学报(信息科学版)》;20181205(第12期);第550-556页 *
基于深度学习的手分割算法研究;向杰等;《智能计算机与应用》;20190203(第03期);第254-262页 *

Also Published As

Publication number Publication date
CN110111345A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110111345B (zh) 一种基于注意力网络的3d点云分割方法
CN109829399B (zh) 一种基于深度学习的车载道路场景点云自动分类方法
CN113780149B (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN112232391B (zh) 一种基于U-net网络和SC-SAM注意力机制的大坝裂缝检测方法
CN110728658A (zh) 一种基于深度学习的高分辨率遥感影像弱目标检测方法
CN111043988B (zh) 一种基于图形学和深度学习的单张条纹投影测量方法
Liu et al. Multi-scale attention integrated hierarchical networks for high-resolution building footprint extraction
CN111524117A (zh) 一种基于特征金字塔网络的隧道表面缺陷检测方法
CN114187310A (zh) 基于八叉树和PointNet++网络的大规模点云分割方法
CN114943902A (zh) 基于多尺度特征感知网络的城市植被无人机遥感分类方法
CN113627440A (zh) 一种基于轻量级神经网络的大规模点云语义分割方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
Tian et al. Semantic segmentation of remote sensing image based on GAN and FCN network model
Shi et al. Photovoltaic installations change detection from remote sensing images using deep learning
CN107358625B (zh) 基于SPP Net和感兴趣区域检测的SAR图像变化检测方法
CN117151983A (zh) 一种基于小波启发和高频增强的图像全色锐化方法
CN115456957B (zh) 一种全尺度特征聚合的遥感影像变化检测的方法
CN116563310A (zh) 点云分割方法、装置、设备及存储介质
Wang et al. FPA-DNN: a forward propagation acceleration based deep neural network for ship detection
CN115631412A (zh) 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法
CN114565753A (zh) 一种基于改进YOLOv4网络的无人机小目标识别方法
CN115424140A (zh) 星载海量图像数据分布式协同快速高精度处理系统及方法
CN114241470A (zh) 一种基于注意力机制的自然场景文字检测方法
CN114155524A (zh) 单阶段3d点云目标检测方法及装置、计算机设备、介质
Lan et al. Spatial-Transformer and Cross-Scale Fusion Network (STCS-Net) for Small Object Detection in Remote Sensing Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant