CN113850811B

CN113850811B - 基于多尺度聚类和掩码打分的三维点云实例分割方法

Info

Publication number: CN113850811B
Application number: CN202110319414.0A
Authority: CN
Inventors: 钟敏; 曾钢
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2024-05-28
Anticipated expiration: 2041-03-25
Also published as: CN113850811A

Abstract

本发明公布了一种基于多尺度聚类和掩码的三维点云实例分割方法，基于深度网络模型预测三维点云的语义和物体中心，通过采用多尺度聚类算法得到聚类实例，再基于掩码和打分网络细化，得到最终的三维点云实例分割结果，从而有效分割多种物体。本发明能够解决单阈值聚类中不能有效分割多种间隔的物体和三维点云实例聚类中存在的噪声点的技术问题，提高三维点云实例分割的精度，提升实例分割效果。

Description

基于多尺度聚类和掩码打分的三维点云实例分割方法

技术领域

本发明属于三维点云数据处理技术领域，涉及基于深度学习的三维点云实例分割技术，具体涉及一种基于多尺度聚类和掩码打分的三维点云实例分割方法。

背景技术

在三维点云数据处理领域的现有技术中，通过三维点云实例分割技术区分场景中各类别的各种物体个体。其中，Li Jiang等人提出三维点云实例分割方法PointGroup(LiJiang,Hengshuang Zhao,Shaoshuai Shi,Shu Liu,ChiWing Fu,and JiayaJia.Pointgroup:Dual-set point grouping for 3d instance segmentation.In CVPR,2020.)，该方法使用深度学习方法估计出三维空间中的物体中心点，再通过单一聚类阈值的聚类算法来得到初步的实例聚类，然后通过打分判断聚类得到的实例的好坏，从而实现对三维点云实例的分割。

但是，由于三维空间点云中的不同实例之间存在多种多样的空间间隔(如图1所示)，很难使用单一的聚类阈值对三维点云空间中的物体/实例进行有效聚类，而且聚类出来的点云实例可能会存在一些错误的噪声点。因此，现有的三维点云实例分割技术存在单一聚类阈值和聚类噪声点的问题，不能有效分割三维空间点云中多种间隔的物体，三维空间点云实例分割精度不高，三维点云实例分割的效果不佳。

发明内容

本发明的目的是提供一种基于多尺度聚类和掩码的三维点云实例分割方法，用以解决单阈值聚类中不能有效分割多种间隔的物体，以及三维点云实例聚类中存在的噪声点的技术问题，提高三维点云实例分割的精度，提升实例分割效果。

本发明的技术方案是：

一种基于多尺度聚类和掩码的三维点云实例分割方法，基于深度网络预测三维点云的语义和物体中心，通过采用多尺度聚类算法得到聚类实例，再基于掩码和打分网络细化，得到最终的三维点云实例分割结果，从而有效分割多种物体；本发明的方法包括如下步骤：

A.基于深度网络预测点云语义和物体中心，具体包括如下步骤：

A1.建立点云特征提取网络，输入为三维点的点云，输出为点云特征；

建立用于提取点云特征的深度神经网络Φ(·)，该点云特征提取网络以包含N个三维点的点云为输入，其中k₀是输入三维点p_i的特征维度，输入点云的特征一般是三维点p_i坐标μ_i＝(x_i,y_i,z_i)和颜色q_i＝(r_i,g_i,b_i)。Φ(·)输出点云特征F＝Φ(P)，其中/> f_i是每个输入三维点对应的提取特征，k₁是提取特征的维度。

A2.建立用于生成点云语义的神经网络层，以点云特征F为输入，输出点云语义概率；

建立用于生成点云语义的神经网络层该网络层以点云特征F为输入，输出点云语义概率/>其中c_i是每个三维点的语义概率，L是语义类别数。取最大概率对应的类别得到预测的语义标签/>s_i为每个三维点的预测语义标签。在网络训练阶段，根据训练数据集中给定的真值语义标签/>其中/>为每个三维点的真值语义标签，以及所述网络预测的语义概率C，得到以下语义优化函数

其中，是交叉熵函数，N为点云中三维点的个数，c_i是每个三维点的语义概率，为每个三维点的真值语义标签。

A3.建立用于生成点云中心的神经网络层，以点云特征F为输入，输出点云的中心偏移量；

建立用于生成点云中心的神经网络层ψ(·)，该网络层以点云特征F为输入，输出中心偏移量其中/>是每个三维点在三个坐标轴方向上的偏移量。将预测的偏移量和原坐标相加，得到预测的点云中心/>其中o_i＝μ_i+d_i是每个三维点的中心坐标位置。在网络训练阶段，根据训练数据集合中得到的真值偏移量/> 其中/>是每个三维点在三个坐标轴方向上的真值偏移量，以及所述网络预测的偏移量D，得到以下偏移量优化函数：

其中，I是真值实例，|I|是真值实例的个数，N_j是真值实例I_j中点的数量。

B.根据上述网络预测的点云语义标签S和点云中心O，进行多尺度聚类，得到初始候选实例；多尺度聚类具体包括如下步骤：

B1.设定聚类次数为H；

B2.在其中的第h次聚类中，给定一个聚类阈值T_h，将具有相同点云语义标签且与点云中心的距离小于T_h的个三维点p_j聚类成一个实例/>将本次聚类得到的|G^h|个实例组成一组实例/>

更具体地，在包含N个三维点的点云中，每个三维点p_i都对应有一个网络预测的语义标签s_i和预测的中心o_i。遍历每个三维点，如果三维点p_i和p_j的语义相同，即s_i＝s_j，且||o_i-o_j||<T_h，那么将p_i和p_j放入同一个实例中。

B3.给定一个比T_h更大的聚类阈值T_h+1，将具有相同的点云语义标签且与点云中心的距离小于T_h+1的实例进行聚类，得到一组更大的实例

B4.重复B3聚类H次，将H次聚类得到的不同的聚类实例收集起来，作为初始候选实例|G|为初始候选实例中元素的数目；最终得到的|G|个候选实例中，每个候选实例/>由属于该候选实例的|G_i|个三维点p_j构成，|G_i|为每个候选实例中三维点的数目；记|G|个候选实例总共包含/>个点。。

C.根据上述聚类得到的初始候选实例G，采用掩码打分的网络结构来对初始候选实例G进行细化并打分，得到的分数用于步骤D的非极大值抑制算法中；具体包括如下步骤：

C1.根据候选实例从点云特征/>中选出对应的实例的特征U。

更具体地，在包含N个三维点的点云中，每个三维点p_i都对应有一个点云特征提取网络Φ(·)提取的特征f_i，同时，每个候选实例/>都由一系列三维点构成，将其中每个三维点p_j对应的特征f_k取出来构成实例G_i的特征/>将|G|个候选实例的特征/>输入到提取实例特征的网络Ω(·)中，得到更好的实例特征/> 其中M是|G|个候选实例总共包含的点数，k₁是特征的维度。

C2.建立用于生成实例掩码的网络层η(·)，该网络层以U为输入，输出实例掩码概率

C3.通过将网络预测得到的掩码概率其中b_i是每个三维点的掩码概率。掩码概率大于0.5和小于0.5的点分别取值为1和0，得到掩码其中m_i是每个三维点的掩码值。

C4.在网络训练阶段，根据训练数据集得到的真值掩码其中是每个三维点的掩码值，以及网络预测得到的掩码概率B，得到以下掩码优化函数：

其中，|G|候选实例的个数，N_g是第g个候选实例中三维点的个数。

C5.建立提取实例打分特征的网络层ω(·)，该网络层以U为输入，输出实例打分的特征E^g＝η(U)，其中是每个实例对应的打分特征，|G|是候选实例的个数，k₂是输出实例特征的维度。

C6.根据上述得到的掩码M，提出掩码池化层对E^g进行掩码池化，池化的方向是每个实例中的每个点，得到掩码的打分特征E^m＝Pooling(M*E^g)，其中是每个掩码对应的打分特征。

C7.最后建立给掩码打分的网络层ζ(·)，该网络层以E^m为输入，得到掩码打分E＝ζ(E^m)，其中e_i是每个实例对应的打分。

根据训练数据集得到的真值分数是每个实例对应的真值打分，以及所述网络得到的掩码打分E，得到以下打分优化函数/>

表示预测的打分和真值打分的损失，|G|是候选实例的个数。

D.网络的训练测试如下：

训练的时候将上述所有优化函数相加作为总的优化函数

具体实施时，优化采用的是Adam优化器，训练的初始学习率设为0.001。

测试阶段，根据得到的候选实例G，以及对应的掩码M，打分E，通过非极大值抑制算法从掩码后的候选实例中选出最终的实例R。具体地，非极大值抑制算法将根据每个实例预测的打分，从重叠较多(IoU(Intersection over Union)大于0.3)的候选实例中，选打分最高的作为最终的实例结果。

通过上述步骤，实现基于多尺度聚类和掩码的三维点云实例分割。为了评价最终得到的实例R与真值实例I的接近程度，我们采用实例分割中的AP(Average Precious)指标来衡量。

与现有技术相比，本发明的有益效果是：

通过本发明提供的基于多尺度聚类和掩码的三维点云实例分割方法，解决单阈值聚类中不能有效分割多种间隔的物体，以及三维点云实例聚类中存在的噪声点的技术问题，提高三维点云实例分割的精度，提升了三维点云实例分割的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例采用基于多尺度聚类和掩码进行三维点云实例分割的应用场景的示意图。

图2为本发明实施例采用基于多尺度聚类和掩码进行三维点云实例分割方法的流程框图。

图3为本发明实施例的点云特征提取网络结构示意图。

图4为本发明实施例的实例特征提取网络结构示意图。

图5为本发明实施例的多尺度聚类示意图。

图6为本发明实施例的实例分割结果对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例采用基于多尺度聚类和掩码进行三维点云实例分割的应用场景示意。其中该场景主要包含一个比较大的桌子和一些挨得比较近的一排椅子，当要分割开椅子时，需要比较小的分割阈值来避免将不同的椅子分为同一个椅子，当要分割出桌子时，需要一个比较大的分割阈值来防止丢失一些桌子点。

请参考，图2为本发明实施例的三维点云实例分割的实现方法的流程示意图。具体实施时，本发明方法包括如下步骤：

步骤A1：我们采用公开数据集ScanNet作为训练和测试数据集。训练数据包含1201个场景的三维点云，以及它们对应的实例标签；测试数据有100个场景的点云，真值结果放在ScanNet的官网上，不对外公开，将测试集的预测结果提交至官网，官网返回评价的AP(Average Precious)结果。建立用于提取点云特征的深度神经网络Φ(·)，该点云特征提取网络以ScanNet训练集中的点云P为输入，输出点云特征F＝Φ(P)。所述Φ(·)采用由稀疏三维卷积所构建的U-Net网络结构，U-Net的网络结构如图3所示，是一个编码-解码的网络结构，其中的网络层主要由稀疏三维卷积构成；

步骤A2：建立用于生成点云语义的神经网络层，该网络层由两层1*1卷积，和一个SoftMax层构成。该网络层以点云特征F为输入，输出点云语义概率C。在网络训练阶段，使用以下语义优化函数：

步骤A2：建立用于生成点云语义的神经网络层ψ(·)，该网络层由两层1*1卷积构成。该网络层以点云特征F为输入，输出中心偏移量D。将预测的偏移量和原坐标相加，得到预测的中心O。在网络训练阶段，使用以下偏移量优化函数：

B.根据上述网络预测的语义S和中心O，具体实施时采用一种基于语义和中心进行多尺度聚类得到初始候选实例的方法，包括如下步骤：

给定一个聚类阈值T₁(如T₁＝0.01)，将具有相同语义且与中心点距离小于T₁的三维点聚类成一组实例G¹，如图5第一行所示，可以分割开挨得近的小实例。

给定一个比T₁更大的聚类阈值T₂(如T₂＝0.03)，将具有相同语义且中心点小于T₂的三维点聚类得到一组更大的实例G²；

给定一个比T₂更大的聚类阈值T₃(如T₃＝0.05)，将具有相同语义且中心点小于T₃的三维点聚类得到一组更大的实例G³。如图5所示，第一行左图中是比较小的阈值(T₁＝0.01)得到的实例，主要把一些比较小的物体(比如书架上的小物体)给分割开来了；第二行中左图中是是比较大的阈值(T₁＝0.05)得到的实例，主要把一些比较大的物体(比如书架，桌子)给分割开来了。

最后将3次聚类得到的不同的聚类实例收集起来，作为候选实例G＝{G¹∪G²∪G³}。

根据深度学习网络预测的点云语义和中心，本发明提供一种基于语义和中心进行多尺度聚类得到候选实例的方法。在第h次聚类中，给定一个聚类阈值T_h，聚类得到一组实例G^h。在第h+1次聚类中，给定一个比T_h更大的聚类阈值T_h+1，聚类得到一组更大的实例G^h+1。重复聚类H次，最后将H次聚类得到的不同的聚类实例收集起来，作为选实例算法归纳如下所示。

本发明采用算法的伪代码如下：

C.根据上述聚类得到的初始候选实例G，本发明提供一种掩码打分的网络结构来给每个候选实例细化并打分；

建立提取实例特征的网络Ω(·)。建立用于生成实例掩码的网络层η(·)，该网络层以实例特征U为输入，得到实例掩码M。建立提取实例打分特征的网络层ω(·)，该网络层以实例特征U为输入，输出实例打分的特征E^g＝η(U)。根据得到的掩码M，建立掩码池化层对E^g进行掩码池化。最后建立给掩码打分的网络层ζ(·)，该网络层以E^m为输入，得到掩码打分E＝ζ(E^m)。

具体包括如下步骤：

根据候选实例G，从点云特征F中选出对应的实例的特征U，输入到提取实例特征的网络Ω(·)中，得到更好的实例特征U＝Ω(U)。该实例特征提取网络是一个较小的U-Net结构，采用如图4所示的U-Net结构。

建立用于生成实例掩码的网络层η(·)，该网络层是有两层1*1卷积，和一个Sigmoid层构成。该网络层以U为输入，输出实例掩码B＝η(U)。在网络训练阶段，使用以下掩码优化函数：

其中真值掩码由候选实例G和真值实例I之间的IoU(Intersection overUnion)决定，具体来说就是，选取和候选实例G_i的IoU最大的真值实例I_i作为对应的真值实例。G_i和I_i相交的部分取值为1，不相交的部分取值为0，构成G_i对应的真值掩码/>如图5所示，第二列图中是比较小的阈值(T₁＝0.01)和比较大的阈值(T₁＝0.05)得到的实例在掩码之后的结果，比如第二行右图把书架中多余的点给去掉了，得到了更加清晰的书架结构。

建立提取实例打分特征的网络层ω(·)，该网络层有两层1*1卷积，和一个Sigmoid层构成构成。该网络层以U为输入，输出实例打分的特征E^g。

根据上述得到的掩码M，提出掩码池化层对E^g进行掩码池化，池化的方向是每个实例中的每个点，得到掩码的打分特征E^m＝Pooling(M*E^g)。池化采用的是最大池化操作。

建立给掩码打分的网络层ζ(·)，该网络层包含两层全连接层。该网络层以E^m为输入，得到掩码打分E＝ζ(E^m)。在网络训练阶段，使用以下打分优化函数：

其中真值分数由掩码后的实例和真值实例之间的IoU决定，当IoU小于0.3的时候分数为0，当IoU大于0.7的时候分数为1，其余分数等于IoU。

D.网络的训练测试如下：

训练的时候将上述所有优化函数相加作为总的优化函数：

优化采用的是Adam优化器，训练的初始学习率设为0.001。

测试阶段，根据得到的候选实例G，以及对应的掩码M，打分E，通过非极大值抑制算法从掩码后的候选实例中选出最终的实例R。

本发明实施例中，采用根据点云语义和中心进行多尺度聚类，来得到候选实例，故在每一个尺度的聚类中，考虑了不同大小物体之间不同的空间间隔，可以保证聚类能够分割开挨得近的小物体，也可以防止聚类丢失大物体的一些点，从而解决了单一尺度聚类方法中，没有考虑物体多种尺度和间隔导致最终的实例分割结果会分割不开挨得近的小物体，以及丢失大物体中一些点的问题。如图6中第一行所展示的那样，PointGroup方法丢失了大物体(如桌子)中的一些点，而我们的发明能得到更完整的分割。如图6中第二行所示，PointGroup方法没能分割开一些挨得很近的物体(如椅子)，而我们的方法能够较好将其的分割开来。

同时，由于一些物体的结构比较复杂，聚类得到的实例里面可能包含一些多余的点，我们的发明在聚类得到的实例后面增加了掩码打分机制，能够借助掩码去掉多余的点。如图6中第一行所示，PointGroup方法分割得到的柜子出现了一些多余的点，而我们的发明能够将多余的点去掉，得到更清晰的柜子的结构。

表1采用现有方法和本发明进行实例分割的定量结果对比

	AP	AP50	AP25
				3D-BEVIS[1]	11.7	24.8	40.1
3D-SIS[2]	16.1	38.2	55.8
				MASC[3]	25.4	44.7	61.5
SALoss[4]	26.2	45.9	69.5
				PanopticFusion[5]	21.4	47.8	69.3
3D-BoNet[6]	25.3	48.8	68.7
				SSEN[7]	38.4	57.5	72.4
3D-MPA[8]	35.5	57.5	72.4
				OccuSeg[9]	44.3	61.1	73.7
PointGroup[10]	40.7	63.6	73.9
				GICN[11]	34.1	63.8	77.8
MaskGroup(本发明)	43.4	66.4	79.2

表1中的参考文献如下：

[1]Cathrin Elich,Francis Engelmann,Jonas Schult,Theodora Kontogianni,and Bastian Leibe.3d-bevis:Birds-eye-view instance segmentation.CoRR,2019.

[2]Ji Hou,Angela Dai,and Matthias Nieβner.3d-sis:3d semantic instancesegmentation of rgb-d scans.In CVPR,2019.

[3]Chen Liu and Yasutaka Furukawa.MASC:multi-scale affinity withsparse convolution for 3d instance segmentation.CoRR,2019.

[4]Zhidong Liang,Ming Yang,Hao Li,and Chunxiang Wang.3d instanceembedding learning with a structure-aware loss function for point cloudsegmentation.IEEE Robotics and Automation Letters,2020

[5]Gaku Narita,Takashi Seno,Tomoya Ishikawa,and YohsukeKaji.Panopticfusion:Online volumetric semantic mapping at the level of stuffand things.In IROS,2019.

[6]Bo Yang,Jianan Wang,Ronald Clark,Qingyong Hu,Sen Wang,AndrewMarkham,and Niki Trigoni.Learning object bounding boxes for 3d instancesegmentation on point clouds.In NeurIPS,2019.

[7]Dongsu Zhang,Junha Chun,Sang Kyun Cha,and Young Min Kim.Spatialsemantic embedding network:Fast 3d instance segmentation with deep metriclearning.CoRR,2020.

[8]Francis Engelmann,Martin Bokeloh,Alireza Fathi,Bastian Leibe,andMatthias Nieβner.3d-mpa:Multi-proposal aggregation for 3d semantic instancesegmentation.In CVPR,2020.

[9]Lei Han,Tian Zheng,Lan Xu,and Lu Fang.Occuseg:Occupancy-aware 3dinstance segmentation.In CVPR,2020.

[10]Li Jiang,Hengshuang Zhao,Shaoshuai Shi,Shu Liu,ChiWing Fu,andJiaya Jia.Pointgroup:Dual-set point grouping for 3d instance segmentation.InCVPR,2020.

[11]Shih-Hung Liu,Shang-Yi Yu,Shao-Chi Wu,Hwann-Tzong Chen,and Tyng-Luh Liu.Learning gaussian instance segmentation in point clouds.CoRR,2020.

从定量结果上来看(如表1所示)，PointGroup方法在公开数据集ScanNet的测试集上获得了63.6AP50(average precision at IoU 50)，而本发明方法则达到了66.4AP50。这表明我们的发明能够带来更好的实例分割精度。

Claims

1.一种基于多尺度聚类和掩码的三维点云实例分割方法，基于深度网络模型预测三维点云的语义和物体中心，通过采用多尺度聚类算法得到聚类实例，再基于掩码和打分网络细化，得到最终的三维点云实例分割结果，从而有效分割多种物体；包括如下步骤：

建立用于提取点云特征的深度神经网络Φ(·)，为点云特征提取网络；对于包含N个三维点的点云其中k₀是输入三维点p_i的特征维度，N为点云中三维点的个数；该点云特征提取网络输入点云特征为点云坐标μ_i＝(x_i,y_i,z_i)和颜色q_i＝(r_i,g_i,b_i)；输出为点云特征F＝Φ(P)，其中/>f_i是每个输入三维点p_i对应的提取特征，k₁是提取特征的维度；

建立用于生成点云语义的神经网络层该神经网络层以点云特征F为输入，输出点云语义概率/>其中c_i是每个三维点的语义概率，L是语义类别数；

获取最大语义概率对应的类别，得到预测的语义标签s_i为每个三维点的预测语义标签；

在网络训练阶段，根据训练数据集中给定的真值语义标签和点云语义概率C，得到语义优化函数/>表示为：

其中，是交叉熵函数，/>为每个三维点的真值语义标签；

建立用于生成点云中心的神经网络层ψ(·)，该网络层以点云特征F为输入，输出中心偏移量其中/>是每个三维点在三个坐标轴方向上的偏移量；将预测的偏移量和原坐标相加，得到预测的点云中心/>其中o_i＝μ_i+d_i是每个三维点的中心坐标位置；

在网络训练阶段，根据训练数据集合中得到的真值偏移量以及网络预测的偏移量D，得到偏移量优化函数/>表示为：

其中，I是真值实例，|I|是真值实例的个数，N_j是真值实例I_j中点的数量；是每个三维点在三个坐标轴方向上的真值偏移量；

B.根据网络预测的点云语义标签S和点云中心O进行多尺度聚类，得到初始候选实例每个候选实例/>由属于该候选实例的|G_i|个三维点p_j构成；记为|G|个候选实例总共包含/>个点；

进行多尺度聚类具体包括如下步骤：

B1.设定聚类次数为H；

B3.给定一个比T_h更大的聚类阈值T_h+1，将具有相同的点云语义标签且与点云中心的距离小于T_h+1的实例进行聚类，得到一组更大实例

B4.重复B3聚类H次，将H次聚类得到的不同的聚类实例作为初始候选实例，即最终得到的|G|个候选实例中，每个候选实例/>由属于该候选实例的|G_i|个三维点p_j构成，记|G|个候选实例总共包含/>个点；

C.采用掩码打分的网络结构对初始候选实例G进行细化并打分得到分数；包括如下步骤：

C1.根据候选实例从点云特征/>中选出对应的实例的特征U；

C2.建立用于生成实例掩码的网络层η(·)，以U为该网络层的输入，输出实例掩码概率

C3.通过网络预测得到的掩码概率得到掩码其中m_i是每个三维点的掩码值；b_i是每个三维点的掩码概率；

C4.在网络训练阶段，根据训练数据集得到的真值掩码和网络预测得到的掩码概率B，得到掩码优化函数/>表示为：

其中，|G|为候选实例的个数；N_g是第g个候选实例中三维点的个数；是每个三维点的掩码值；

C5.建立提取实例打分特征的网络层ω(·)，该网络层以U为输入，输出实例打分的特征E^g＝η(U)，其中是每个实例对应的打分特征；k₂是输出实例特征的维度；

C6.根据上述得到的掩码Mm，通过掩码池化层对E^g进行掩码池化，池化的方向是每个实例中的每个点，得到掩码的打分特征E^m＝Pooling(M*E^g)，其中是每个掩码对应的打分特征；

C7.建立给掩码打分的网络层ζ(·)，该网络层以E^m为输入，得到掩码打分E＝ζ(E^m)，其中e_i是每个实例对应的打分；

根据训练数据集得到的真值分数和掩码打分E，得到打分优化函数表示为：

表示预测的打分和真值打分的损失；/>是每个实例对应的真值打分；

将所有优化函数相加，作为总的优化函数

D.测试阶段，根据得到的候选实例G、对应的掩码Mm、打分E，通过非极大值抑制算法从掩码后的候选实例中选出最终的实例R；

通过上述步骤，实现基于多尺度聚类和掩码的三维点云实例分割。

2.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法，其特征是，具体地，优化采用Adam优化器。

3.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法，其特征是，测试阶段中，非极大值抑制算法具体是根据每个预测的打分，从IoU大于设置阈值的候选实例中，选预测打分最高的实例作为最终的实例。

4.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法，其特征是，步骤B2中，具体地，在包含N个三维点的点云中，每个三维点p_i均对应一个网络预测的语义标签s_i和预测的中心o_i；

遍历每个三维点，如果三维点p_i和p_j的语义相同，即s_i＝s_j，且‖o_i-o_j‖<T_h，则将p_i和p_j放入同一个实例中。

5.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法，其特征是，步骤C1中，具体地，在包含N个三维点的点云中，每个三维点p_i均对应一个点云特征提取网络Φ(·)提取的特征f_i，每个候选实例/>均由一系列三维点构成；

将每个候选实例中每个三维点p_j对应的特征f_k构成实例G_i的特征/>

将|G|个候选实例的特征输入到提取实例特征的网络Ω(·)中，得到实例特征/>其中M是|G|个候选实例总共包含的点数，k₁是特征的维度。

6.如权利要求1所述基于多尺度聚类和掩码的三维点云实例分割方法，其特征是，步骤C3中，具体地，将掩码概率B大于0.5和小于0.5的点分别取值为1和0，得到掩码Mm。