CN113850811B - 基于多尺度聚类和掩码打分的三维点云实例分割方法 - Google Patents
基于多尺度聚类和掩码打分的三维点云实例分割方法 Download PDFInfo
- Publication number
- CN113850811B CN113850811B CN202110319414.0A CN202110319414A CN113850811B CN 113850811 B CN113850811 B CN 113850811B CN 202110319414 A CN202110319414 A CN 202110319414A CN 113850811 B CN113850811 B CN 113850811B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- instance
- clustering
- dimensional
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000011218 segmentation Effects 0.000 title claims abstract description 35
- 230000000873 masking effect Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000001629 suppression Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 101100216185 Oryza sativa subsp. japonica AP25 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于多尺度聚类和掩码的三维点云实例分割方法,基于深度网络模型预测三维点云的语义和物体中心,通过采用多尺度聚类算法得到聚类实例,再基于掩码和打分网络细化,得到最终的三维点云实例分割结果,从而有效分割多种物体。本发明能够解决单阈值聚类中不能有效分割多种间隔的物体和三维点云实例聚类中存在的噪声点的技术问题,提高三维点云实例分割的精度,提升实例分割效果。
Description
技术领域
本发明属于三维点云数据处理技术领域,涉及基于深度学习的三维点云实例分割技术,具体涉及一种基于多尺度聚类和掩码打分的三维点云实例分割方法。
背景技术
在三维点云数据处理领域的现有技术中,通过三维点云实例分割技术区分场景中各类别的各种物体个体。其中,Li Jiang等人提出三维点云实例分割方法PointGroup(LiJiang,Hengshuang Zhao,Shaoshuai Shi,Shu Liu,ChiWing Fu,and JiayaJia.Pointgroup:Dual-set point grouping for 3d instance segmentation.In CVPR,2020.),该方法使用深度学习方法估计出三维空间中的物体中心点,再通过单一聚类阈值的聚类算法来得到初步的实例聚类,然后通过打分判断聚类得到的实例的好坏,从而实现对三维点云实例的分割。
但是,由于三维空间点云中的不同实例之间存在多种多样的空间间隔(如图1所示),很难使用单一的聚类阈值对三维点云空间中的物体/实例进行有效聚类,而且聚类出来的点云实例可能会存在一些错误的噪声点。因此,现有的三维点云实例分割技术存在单一聚类阈值和聚类噪声点的问题,不能有效分割三维空间点云中多种间隔的物体,三维空间点云实例分割精度不高,三维点云实例分割的效果不佳。
发明内容
本发明的目的是提供一种基于多尺度聚类和掩码的三维点云实例分割方法,用以解决单阈值聚类中不能有效分割多种间隔的物体,以及三维点云实例聚类中存在的噪声点的技术问题,提高三维点云实例分割的精度,提升实例分割效果。
本发明的技术方案是:
一种基于多尺度聚类和掩码的三维点云实例分割方法,基于深度网络预测三维点云的语义和物体中心,通过采用多尺度聚类算法得到聚类实例,再基于掩码和打分网络细化,得到最终的三维点云实例分割结果,从而有效分割多种物体;本发明的方法包括如下步骤:
A.基于深度网络预测点云语义和物体中心,具体包括如下步骤:
A1.建立点云特征提取网络,输入为三维点的点云,输出为点云特征;
建立用于提取点云特征的深度神经网络Φ(·),该点云特征提取网络以包含N个三维点的点云为输入,其中k0是输入三维点pi的特征维度,输入点云的特征一般是三维点pi坐标μi=(xi,yi,zi)和颜色qi=(ri,gi,bi)。Φ(·)输出点云特征F=Φ(P),其中/> fi是每个输入三维点对应的提取特征,k1是提取特征的维度。
A2.建立用于生成点云语义的神经网络层,以点云特征F为输入,输出点云语义概率;
建立用于生成点云语义的神经网络层该网络层以点云特征F为输入,输出点云语义概率/>其中ci是每个三维点的语义概率,L是语义类别数。取最大概率对应的类别得到预测的语义标签/>si为每个三维点的预测语义标签。在网络训练阶段,根据训练数据集中给定的真值语义标签/>其中/>为每个三维点的真值语义标签,以及所述网络预测的语义概率C,得到以下语义优化函数
其中,是交叉熵函数,N为点云中三维点的个数,ci是每个三维点的语义概率,为每个三维点的真值语义标签。
A3.建立用于生成点云中心的神经网络层,以点云特征F为输入,输出点云的中心偏移量;
建立用于生成点云中心的神经网络层ψ(·),该网络层以点云特征F为输入,输出中心偏移量其中/>是每个三维点在三个坐标轴方向上的偏移量。将预测的偏移量和原坐标相加,得到预测的点云中心/>其中oi=μi+di是每个三维点的中心坐标位置。在网络训练阶段,根据训练数据集合中得到的真值偏移量/> 其中/>是每个三维点在三个坐标轴方向上的真值偏移量,以及所述网络预测的偏移量D,得到以下偏移量优化函数:
其中,I是真值实例,|I|是真值实例的个数,Nj是真值实例Ij中点的数量。
B.根据上述网络预测的点云语义标签S和点云中心O,进行多尺度聚类,得到初始候选实例;多尺度聚类具体包括如下步骤:
B1.设定聚类次数为H;
B2.在其中的第h次聚类中,给定一个聚类阈值Th,将具有相同点云语义标签且与点云中心的距离小于Th的个三维点pj聚类成一个实例/>将本次聚类得到的|Gh|个实例组成一组实例/>
更具体地,在包含N个三维点的点云中,每个三维点pi都对应有一个网络预测的语义标签si和预测的中心oi。遍历每个三维点,如果三维点pi和pj的语义相同,即si=sj,且||oi-oj||<Th,那么将pi和pj放入同一个实例中。
B3.给定一个比Th更大的聚类阈值Th+1,将具有相同的点云语义标签且与点云中心的距离小于Th+1的实例进行聚类,得到一组更大的实例
B4.重复B3聚类H次,将H次聚类得到的不同的聚类实例收集起来,作为初始候选实例|G|为初始候选实例中元素的数目;最终得到的|G|个候选实例中,每个候选实例/>由属于该候选实例的|Gi|个三维点pj构成,|Gi|为每个候选实例中三维点的数目;记|G|个候选实例总共包含/>个点。。
C.根据上述聚类得到的初始候选实例G,采用掩码打分的网络结构来对初始候选实例G进行细化并打分,得到的分数用于步骤D的非极大值抑制算法中;具体包括如下步骤:
C1.根据候选实例从点云特征/>中选出对应的实例的特征U。
更具体地,在包含N个三维点的点云中,每个三维点pi都对应有一个点云特征提取网络Φ(·)提取的特征fi,同时,每个候选实例/>都由一系列三维点构成,将其中每个三维点pj对应的特征fk取出来构成实例Gi的特征/>将|G|个候选实例的特征/>输入到提取实例特征的网络Ω(·)中,得到更好的实例特征/> 其中M是|G|个候选实例总共包含的点数,k1是特征的维度。
C2.建立用于生成实例掩码的网络层η(·),该网络层以U为输入,输出实例掩码概率
C3.通过将网络预测得到的掩码概率其中bi是每个三维点的掩码概率。掩码概率大于0.5和小于0.5的点分别取值为1和0,得到掩码其中mi是每个三维点的掩码值。
C4.在网络训练阶段,根据训练数据集得到的真值掩码其中是每个三维点的掩码值,以及网络预测得到的掩码概率B,得到以下掩码优化函数:
其中,|G|候选实例的个数,Ng是第g个候选实例中三维点的个数。
C5.建立提取实例打分特征的网络层ω(·),该网络层以U为输入,输出实例打分的特征Eg=η(U),其中 是每个实例对应的打分特征,|G|是候选实例的个数,k2是输出实例特征的维度。
C6.根据上述得到的掩码M,提出掩码池化层对Eg进行掩码池化,池化的方向是每个实例中的每个点,得到掩码的打分特征Em=Pooling(M*Eg),其中 是每个掩码对应的打分特征。
C7.最后建立给掩码打分的网络层ζ(·),该网络层以Em为输入,得到掩码打分E=ζ(Em),其中ei是每个实例对应的打分。
根据训练数据集得到的真值分数 是每个实例对应的真值打分,以及所述网络得到的掩码打分E,得到以下打分优化函数/>
表示预测的打分和真值打分的损失,|G|是候选实例的个数。
D.网络的训练测试如下:
训练的时候将上述所有优化函数相加作为总的优化函数
具体实施时,优化采用的是Adam优化器,训练的初始学习率设为0.001。
测试阶段,根据得到的候选实例G,以及对应的掩码M,打分E,通过非极大值抑制算法从掩码后的候选实例中选出最终的实例R。具体地,非极大值抑制算法将根据每个实例预测的打分,从重叠较多(IoU(Intersection over Union)大于0.3)的候选实例中,选打分最高的作为最终的实例结果。
通过上述步骤,实现基于多尺度聚类和掩码的三维点云实例分割。为了评价最终得到的实例R与真值实例I的接近程度,我们采用实例分割中的AP(Average Precious)指标来衡量。
与现有技术相比,本发明的有益效果是:
通过本发明提供的基于多尺度聚类和掩码的三维点云实例分割方法,解决单阈值聚类中不能有效分割多种间隔的物体,以及三维点云实例聚类中存在的噪声点的技术问题,提高三维点云实例分割的精度,提升了三维点云实例分割的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例采用基于多尺度聚类和掩码进行三维点云实例分割的应用场景的示意图。
图2为本发明实施例采用基于多尺度聚类和掩码进行三维点云实例分割方法的流程框图。
图3为本发明实施例的点云特征提取网络结构示意图。
图4为本发明实施例的实例特征提取网络结构示意图。
图5为本发明实施例的多尺度聚类示意图。
图6为本发明实施例的实例分割结果对比示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例采用基于多尺度聚类和掩码进行三维点云实例分割的应用场景示意。其中该场景主要包含一个比较大的桌子和一些挨得比较近的一排椅子,当要分割开椅子时,需要比较小的分割阈值来避免将不同的椅子分为同一个椅子,当要分割出桌子时,需要一个比较大的分割阈值来防止丢失一些桌子点。
请参考,图2为本发明实施例的三维点云实例分割的实现方法的流程示意图。具体实施时,本发明方法包括如下步骤:
A.基于深度网络预测点云语义和物体中心,具体包括如下步骤:
步骤A1:我们采用公开数据集ScanNet作为训练和测试数据集。训练数据包含1201个场景的三维点云,以及它们对应的实例标签;测试数据有100个场景的点云,真值结果放在ScanNet的官网上,不对外公开,将测试集的预测结果提交至官网,官网返回评价的AP(Average Precious)结果。建立用于提取点云特征的深度神经网络Φ(·),该点云特征提取网络以ScanNet训练集中的点云P为输入,输出点云特征F=Φ(P)。所述Φ(·)采用由稀疏三维卷积所构建的U-Net网络结构,U-Net的网络结构如图3所示,是一个编码-解码的网络结构,其中的网络层主要由稀疏三维卷积构成;
步骤A2:建立用于生成点云语义的神经网络层,该网络层由两层1*1卷积,和一个SoftMax层构成。该网络层以点云特征F为输入,输出点云语义概率C。在网络训练阶段,使用以下语义优化函数:
步骤A2:建立用于生成点云语义的神经网络层ψ(·),该网络层由两层1*1卷积构成。该网络层以点云特征F为输入,输出中心偏移量D。将预测的偏移量和原坐标相加,得到预测的中心O。在网络训练阶段,使用以下偏移量优化函数:
B.根据上述网络预测的语义S和中心O,具体实施时采用一种基于语义和中心进行多尺度聚类得到初始候选实例的方法,包括如下步骤:
给定一个聚类阈值T1(如T1=0.01),将具有相同语义且与中心点距离小于T1的三维点聚类成一组实例G1,如图5第一行所示,可以分割开挨得近的小实例。
给定一个比T1更大的聚类阈值T2(如T2=0.03),将具有相同语义且中心点小于T2的三维点聚类得到一组更大的实例G2;
给定一个比T2更大的聚类阈值T3(如T3=0.05),将具有相同语义且中心点小于T3的三维点聚类得到一组更大的实例G3。如图5所示,第一行左图中是比较小的阈值(T1=0.01)得到的实例,主要把一些比较小的物体(比如书架上的小物体)给分割开来了;第二行中左图中是是比较大的阈值(T1=0.05)得到的实例,主要把一些比较大的物体(比如书架,桌子)给分割开来了。
最后将3次聚类得到的不同的聚类实例收集起来,作为候选实例G={G1∪G2∪G3}。
根据深度学习网络预测的点云语义和中心,本发明提供一种基于语义和中心进行多尺度聚类得到候选实例的方法。在第h次聚类中,给定一个聚类阈值Th,聚类得到一组实例Gh。在第h+1次聚类中,给定一个比Th更大的聚类阈值Th+1,聚类得到一组更大的实例Gh+1。重复聚类H次,最后将H次聚类得到的不同的聚类实例收集起来,作为选实例 算法归纳如下所示。
本发明采用算法的伪代码如下:
C.根据上述聚类得到的初始候选实例G,本发明提供一种掩码打分的网络结构来给每个候选实例细化并打分;
建立提取实例特征的网络Ω(·)。建立用于生成实例掩码的网络层η(·),该网络层以实例特征U为输入,得到实例掩码M。建立提取实例打分特征的网络层ω(·),该网络层以实例特征U为输入,输出实例打分的特征Eg=η(U)。根据得到的掩码M,建立掩码池化层对Eg进行掩码池化。最后建立给掩码打分的网络层ζ(·),该网络层以Em为输入,得到掩码打分E=ζ(Em)。
具体包括如下步骤:
根据候选实例G,从点云特征F中选出对应的实例的特征U,输入到提取实例特征的网络Ω(·)中,得到更好的实例特征U=Ω(U)。该实例特征提取网络是一个较小的U-Net结构,采用如图4所示的U-Net结构。
建立用于生成实例掩码的网络层η(·),该网络层是有两层1*1卷积,和一个Sigmoid层构成。该网络层以U为输入,输出实例掩码B=η(U)。在网络训练阶段,使用以下掩码优化函数:
其中真值掩码由候选实例G和真值实例I之间的IoU(Intersection overUnion)决定,具体来说就是,选取和候选实例Gi的IoU最大的真值实例Ii作为对应的真值实例。Gi和Ii相交的部分取值为1,不相交的部分取值为0,构成Gi对应的真值掩码/>如图5所示,第二列图中是比较小的阈值(T1=0.01)和比较大的阈值(T1=0.05)得到的实例在掩码之后的结果,比如第二行右图把书架中多余的点给去掉了,得到了更加清晰的书架结构。
建立提取实例打分特征的网络层ω(·),该网络层有两层1*1卷积,和一个Sigmoid层构成构成。该网络层以U为输入,输出实例打分的特征Eg。
根据上述得到的掩码M,提出掩码池化层对Eg进行掩码池化,池化的方向是每个实例中的每个点,得到掩码的打分特征Em=Pooling(M*Eg)。池化采用的是最大池化操作。
建立给掩码打分的网络层ζ(·),该网络层包含两层全连接层。该网络层以Em为输入,得到掩码打分E=ζ(Em)。在网络训练阶段,使用以下打分优化函数:
其中真值分数由掩码后的实例和真值实例之间的IoU决定,当IoU小于0.3的时候分数为0,当IoU大于0.7的时候分数为1,其余分数等于IoU。
D.网络的训练测试如下:
训练的时候将上述所有优化函数相加作为总的优化函数:
优化采用的是Adam优化器,训练的初始学习率设为0.001。
测试阶段,根据得到的候选实例G,以及对应的掩码M,打分E,通过非极大值抑制算法从掩码后的候选实例中选出最终的实例R。
本发明实施例中,采用根据点云语义和中心进行多尺度聚类,来得到候选实例,故在每一个尺度的聚类中,考虑了不同大小物体之间不同的空间间隔,可以保证聚类能够分割开挨得近的小物体,也可以防止聚类丢失大物体的一些点,从而解决了单一尺度聚类方法中,没有考虑物体多种尺度和间隔导致最终的实例分割结果会分割不开挨得近的小物体,以及丢失大物体中一些点的问题。如图6中第一行所展示的那样,PointGroup方法丢失了大物体(如桌子)中的一些点,而我们的发明能得到更完整的分割。如图6中第二行所示,PointGroup方法没能分割开一些挨得很近的物体(如椅子),而我们的方法能够较好将其的分割开来。
同时,由于一些物体的结构比较复杂,聚类得到的实例里面可能包含一些多余的点,我们的发明在聚类得到的实例后面增加了掩码打分机制,能够借助掩码去掉多余的点。如图6中第一行所示,PointGroup方法分割得到的柜子出现了一些多余的点,而我们的发明能够将多余的点去掉,得到更清晰的柜子的结构。
表1采用现有方法和本发明进行实例分割的定量结果对比
AP | AP50 | AP25 | |
3D-BEVIS[1] | 11.7 | 24.8 | 40.1 |
3D-SIS[2] | 16.1 | 38.2 | 55.8 |
MASC[3] | 25.4 | 44.7 | 61.5 |
SALoss[4] | 26.2 | 45.9 | 69.5 |
PanopticFusion[5] | 21.4 | 47.8 | 69.3 |
3D-BoNet[6] | 25.3 | 48.8 | 68.7 |
SSEN[7] | 38.4 | 57.5 | 72.4 |
3D-MPA[8] | 35.5 | 57.5 | 72.4 |
OccuSeg[9] | 44.3 | 61.1 | 73.7 |
PointGroup[10] | 40.7 | 63.6 | 73.9 |
GICN[11] | 34.1 | 63.8 | 77.8 |
MaskGroup(本发明) | 43.4 | 66.4 | 79.2 |
表1中的参考文献如下:
[1]Cathrin Elich,Francis Engelmann,Jonas Schult,Theodora Kontogianni,and Bastian Leibe.3d-bevis:Birds-eye-view instance segmentation.CoRR,2019.
[2]Ji Hou,Angela Dai,and Matthias Nieβner.3d-sis:3d semantic instancesegmentation of rgb-d scans.In CVPR,2019.
[3]Chen Liu and Yasutaka Furukawa.MASC:multi-scale affinity withsparse convolution for 3d instance segmentation.CoRR,2019.
[4]Zhidong Liang,Ming Yang,Hao Li,and Chunxiang Wang.3d instanceembedding learning with a structure-aware loss function for point cloudsegmentation.IEEE Robotics and Automation Letters,2020
[5]Gaku Narita,Takashi Seno,Tomoya Ishikawa,and YohsukeKaji.Panopticfusion:Online volumetric semantic mapping at the level of stuffand things.In IROS,2019.
[6]Bo Yang,Jianan Wang,Ronald Clark,Qingyong Hu,Sen Wang,AndrewMarkham,and Niki Trigoni.Learning object bounding boxes for 3d instancesegmentation on point clouds.In NeurIPS,2019.
[7]Dongsu Zhang,Junha Chun,Sang Kyun Cha,and Young Min Kim.Spatialsemantic embedding network:Fast 3d instance segmentation with deep metriclearning.CoRR,2020.
[8]Francis Engelmann,Martin Bokeloh,Alireza Fathi,Bastian Leibe,andMatthias Nieβner.3d-mpa:Multi-proposal aggregation for 3d semantic instancesegmentation.In CVPR,2020.
[9]Lei Han,Tian Zheng,Lan Xu,and Lu Fang.Occuseg:Occupancy-aware 3dinstance segmentation.In CVPR,2020.
[10]Li Jiang,Hengshuang Zhao,Shaoshuai Shi,Shu Liu,ChiWing Fu,andJiaya Jia.Pointgroup:Dual-set point grouping for 3d instance segmentation.InCVPR,2020.
[11]Shih-Hung Liu,Shang-Yi Yu,Shao-Chi Wu,Hwann-Tzong Chen,and Tyng-Luh Liu.Learning gaussian instance segmentation in point clouds.CoRR,2020.
从定量结果上来看(如表1所示),PointGroup方法在公开数据集ScanNet的测试集上获得了63.6AP50(average precision at IoU 50),而本发明方法则达到了66.4AP50。这表明我们的发明能够带来更好的实例分割精度。
Claims (6)
1.一种基于多尺度聚类和掩码的三维点云实例分割方法,基于深度网络模型预测三维点云的语义和物体中心,通过采用多尺度聚类算法得到聚类实例,再基于掩码和打分网络细化,得到最终的三维点云实例分割结果,从而有效分割多种物体;包括如下步骤:
A.基于深度网络预测点云语义和物体中心,具体包括如下步骤:
A1.建立点云特征提取网络,输入为三维点的点云,输出为点云特征;
建立用于提取点云特征的深度神经网络Φ(·),为点云特征提取网络;对于包含N个三维点的点云其中k0是输入三维点pi的特征维度,N为点云中三维点的个数;该点云特征提取网络输入点云特征为点云坐标μi=(xi,yi,zi)和颜色qi=(ri,gi,bi);输出为点云特征F=Φ(P),其中/>fi是每个输入三维点pi对应的提取特征,k1是提取特征的维度;
A2.建立用于生成点云语义的神经网络层,以点云特征F为输入,输出点云语义概率;
建立用于生成点云语义的神经网络层该神经网络层以点云特征F为输入,输出点云语义概率/>其中ci是每个三维点的语义概率,L是语义类别数;
获取最大语义概率对应的类别,得到预测的语义标签si为每个三维点的预测语义标签;
在网络训练阶段,根据训练数据集中给定的真值语义标签和点云语义概率C,得到语义优化函数/>表示为:
其中,是交叉熵函数,/>为每个三维点的真值语义标签;
A3.建立用于生成点云中心的神经网络层,以点云特征F为输入,输出点云的中心偏移量;
建立用于生成点云中心的神经网络层ψ(·),该网络层以点云特征F为输入,输出中心偏移量其中/>是每个三维点在三个坐标轴方向上的偏移量;将预测的偏移量和原坐标相加,得到预测的点云中心/>其中oi=μi+di是每个三维点的中心坐标位置;
在网络训练阶段,根据训练数据集合中得到的真值偏移量以及网络预测的偏移量D,得到偏移量优化函数/>表示为:
其中,I是真值实例,|I|是真值实例的个数,Nj是真值实例Ij中点的数量;是每个三维点在三个坐标轴方向上的真值偏移量;
B.根据网络预测的点云语义标签S和点云中心O进行多尺度聚类,得到初始候选实例 每个候选实例/>由属于该候选实例的|Gi|个三维点pj构成;记为|G|个候选实例总共包含/>个点;
进行多尺度聚类具体包括如下步骤:
B1.设定聚类次数为H;
B2.在其中的第h次聚类中,给定一个聚类阈值Th,将具有相同点云语义标签且与点云中心的距离小于Th的个三维点pj聚类成一个实例/>将本次聚类得到的|Gh|个实例组成一组实例/>
B3.给定一个比Th更大的聚类阈值Th+1,将具有相同的点云语义标签且与点云中心的距离小于Th+1的实例进行聚类,得到一组更大实例
B4.重复B3聚类H次,将H次聚类得到的不同的聚类实例作为初始候选实例,即 最终得到的|G|个候选实例中,每个候选实例/>由属于该候选实例的|Gi|个三维点pj构成,记|G|个候选实例总共包含/>个点;
C.采用掩码打分的网络结构对初始候选实例G进行细化并打分得到分数;包括如下步骤:
C1.根据候选实例从点云特征/>中选出对应的实例的特征U;
C2.建立用于生成实例掩码的网络层η(·),以U为该网络层的输入,输出实例掩码概率
C3.通过网络预测得到的掩码概率得到掩码其中mi是每个三维点的掩码值;bi是每个三维点的掩码概率;
C4.在网络训练阶段,根据训练数据集得到的真值掩码和网络预测得到的掩码概率B,得到掩码优化函数/>表示为:
其中,|G|为候选实例的个数;Ng是第g个候选实例中三维点的个数;是每个三维点的掩码值;
C5.建立提取实例打分特征的网络层ω(·),该网络层以U为输入,输出实例打分的特征Eg=η(U),其中 是每个实例对应的打分特征;k2是输出实例特征的维度;
C6.根据上述得到的掩码Mm,通过掩码池化层对Eg进行掩码池化,池化的方向是每个实例中的每个点,得到掩码的打分特征Em=Pooling(M*Eg),其中 是每个掩码对应的打分特征;
C7.建立给掩码打分的网络层ζ(·),该网络层以Em为输入,得到掩码打分E=ζ(Em),其中ei是每个实例对应的打分;
根据训练数据集得到的真值分数和掩码打分E,得到打分优化函数表示为:
表示预测的打分和真值打分的损失;/>是每个实例对应的真值打分;
将所有优化函数相加,作为总的优化函数
D.测试阶段,根据得到的候选实例G、对应的掩码Mm、打分E,通过非极大值抑制算法从掩码后的候选实例中选出最终的实例R;
通过上述步骤,实现基于多尺度聚类和掩码的三维点云实例分割。
2.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法,其特征是,具体地,优化采用Adam优化器。
3.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法,其特征是,测试阶段中,非极大值抑制算法具体是根据每个预测的打分,从IoU大于设置阈值的候选实例中,选预测打分最高的实例作为最终的实例。
4.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法,其特征是,步骤B2中,具体地,在包含N个三维点的点云中,每个三维点pi均对应一个网络预测的语义标签si和预测的中心oi;
遍历每个三维点,如果三维点pi和pj的语义相同,即si=sj,且‖oi-oj‖<Th,则将pi和pj放入同一个实例中。
5.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法,其特征是,步骤C1中,具体地,在包含N个三维点的点云中,每个三维点pi均对应一个点云特征提取网络Φ(·)提取的特征fi,每个候选实例/>均由一系列三维点构成;
将每个候选实例中每个三维点pj对应的特征fk构成实例Gi的特征/>
将|G|个候选实例的特征输入到提取实例特征的网络Ω(·)中,得到实例特征/>其中M是|G|个候选实例总共包含的点数,k1是特征的维度。
6.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法,其特征是,步骤C3中,具体地,将掩码概率B大于0.5和小于0.5的点分别取值为1和0,得到掩码Mm。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110319414.0A CN113850811B (zh) | 2021-03-25 | 2021-03-25 | 基于多尺度聚类和掩码打分的三维点云实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110319414.0A CN113850811B (zh) | 2021-03-25 | 2021-03-25 | 基于多尺度聚类和掩码打分的三维点云实例分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113850811A CN113850811A (zh) | 2021-12-28 |
CN113850811B true CN113850811B (zh) | 2024-05-28 |
Family
ID=78972921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110319414.0A Active CN113850811B (zh) | 2021-03-25 | 2021-03-25 | 基于多尺度聚类和掩码打分的三维点云实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850811B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648676B (zh) * | 2022-03-25 | 2024-05-24 | 北京百度网讯科技有限公司 | 点云处理模型的训练和点云实例分割方法及装置 |
CN116612285A (zh) * | 2023-06-15 | 2023-08-18 | 重庆市测绘科学技术研究院(重庆市地图编制中心) | 建筑物点云数据分割、点云数据语义分割方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660062A (zh) * | 2019-08-31 | 2020-01-07 | 南京理工大学 | 一种基于PointNet的点云实例分割方法及系统 |
CN111275026A (zh) * | 2020-03-23 | 2020-06-12 | 复旦大学 | 一种三维点云联合语义和实例分割的方法 |
CN111489358A (zh) * | 2020-03-18 | 2020-08-04 | 华中科技大学 | 一种基于深度学习的三维点云语义分割方法 |
CN111507982A (zh) * | 2019-06-28 | 2020-08-07 | 浙江大学 | 一种基于深度学习的点云语义分割方法 |
WO2021009258A1 (en) * | 2019-07-15 | 2021-01-21 | Promaton Holding B.V. | Object detection and instance segmentation of 3d point clouds based on deep learning |
CN112529917A (zh) * | 2020-12-22 | 2021-03-19 | 中国第一汽车股份有限公司 | 一种三维目标分割方法、装置、设备和存储介质 |
-
2021
- 2021-03-25 CN CN202110319414.0A patent/CN113850811B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507982A (zh) * | 2019-06-28 | 2020-08-07 | 浙江大学 | 一种基于深度学习的点云语义分割方法 |
WO2021009258A1 (en) * | 2019-07-15 | 2021-01-21 | Promaton Holding B.V. | Object detection and instance segmentation of 3d point clouds based on deep learning |
CN110660062A (zh) * | 2019-08-31 | 2020-01-07 | 南京理工大学 | 一种基于PointNet的点云实例分割方法及系统 |
CN111489358A (zh) * | 2020-03-18 | 2020-08-04 | 华中科技大学 | 一种基于深度学习的三维点云语义分割方法 |
CN111275026A (zh) * | 2020-03-23 | 2020-06-12 | 复旦大学 | 一种三维点云联合语义和实例分割的方法 |
CN112529917A (zh) * | 2020-12-22 | 2021-03-19 | 中国第一汽车股份有限公司 | 一种三维目标分割方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113850811A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Howard et al. | Mobilenets: Efficient convolutional neural networks for mobile vision applications | |
CN110660062B (zh) | 一种基于PointNet的点云实例分割方法及系统 | |
WO2017113232A1 (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN113850811B (zh) | 基于多尺度聚类和掩码打分的三维点云实例分割方法 | |
JP2015506026A (ja) | 画像分類 | |
CN107273824B (zh) | 基于多尺度多方向局部二值模式的人脸识别方法 | |
CN110188763B (zh) | 一种基于改进图模型的图像显著性检测方法 | |
CN109948534B (zh) | 采用快速密度峰值聚类进行人脸识别的方法 | |
CN104038792B (zh) | 用于iptv监管的视频内容分析方法及设备 | |
CN110598061A (zh) | 一种多元图融合的异构信息网嵌入方法 | |
CN112784929A (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN115482418B (zh) | 基于伪负标签的半监督模型训练方法、系统及应用 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111931763A (zh) | 一种基于随机形态边缘几何建模的深度场景文本检测方法 | |
CN111325237A (zh) | 一种基于注意力交互机制的图像识别方法 | |
WO2017201605A1 (en) | Large scale social graph segmentation | |
CN108805280B (zh) | 一种图像检索的方法和装置 | |
CN109993070B (zh) | 一种基于全局距离尺度损失函数的行人再识别方法 | |
CN112766421A (zh) | 基于结构感知的人脸聚类方法和装置 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN113658199B (zh) | 基于回归修正的染色体实例分割网络 | |
CN111368865A (zh) | 遥感影像储油罐检测方法、装置、可读存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |