CN114821248A

CN114821248A - 面向点云理解的数据主动筛选标注方法和装置

Info

Publication number: CN114821248A
Application number: CN202210764315.8A
Authority: CN
Inventors: 黄惠; 杨国庆; 赖文韬
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-07-29
Anticipated expiration: 2042-07-01
Also published as: CN114821248B

Abstract

本申请涉及一种面向点云理解的数据主动筛选标注方法和装置，通过将初始点云数据输入特征提取模型，以提取有标注点云数据的第一特征和无标注点云数据的第二特征，其中，初始点云数据包括有标注点云数据和无标注点云数据。将无标注点云数据输入分类模型得到无标注点云数据的分类结果。根据分类结果和有标注点云数据的真实标签，从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据，其中，伪标签根据分类结果确定。根据第一特征、各目标点云数据的第二特征和分类结果，从各目标点云数据中筛选出待标注点云数据。该方法能够减少点云数据的标注时间和人力成本。

Description

面向点云理解的数据主动筛选标注方法和装置

技术领域

本申请涉及技术处理技术领域，特别是涉及一种面向点云理解的数据主动筛选标注方法和装置。

背景技术

随着激光雷达、深度相机等采集设备的不断发展，包含丰富几何、形状以及尺度信息的三维点云数据成为了空间数字表达的重要数据形式。三维点云数据是指在一个三维坐标系统中的一组向量的集合。

但是，三维点云数据不仅无序，排列无规则，且规模庞大，目前靠人工从三维点云数据中筛选出目标点云数据，以对目标点云数据进行标注。然而，目前的三维点云数据的筛选需耗费大量的时间与人力成本。

发明内容

基于此，有必要针对上述技术问题，提供一种耗时与人力成本少的面向点云理解的数据主动筛选标注方法和装置。

第一方面，本申请提供了一种面向点云理解的数据主动筛选标注方法，包括：

将初始点云数据输入特征提取模型，以提取有标注点云数据的第一特征和无标注点云数据的第二特征，其中，所述初始点云数据包括所述有标注点云数据和所述无标注点云数据；

将所述无标注点云数据输入分类模型得到所述无标注点云数据的分类结果；

根据所述分类结果和所述有标注点云数据的真实标签，从所述无标注点云数据中确定和所述真实标签相同的伪标签的各目标点云数据，其中，所述伪标签根据所述分类结果确定；

根据所述第一特征、各所述目标点云数据的第二特征和所述分类结果，从各所述目标点云数据中筛选出待标注点云数据。

在其中一个实施例中，所述根据所述第一特征、各所述目标点云数据的第二特征和所述分类结果，从各所述目标点云数据中筛选出待标注点云数据，包括：

确定各所述目标点云数据的第二特征到所述第一特征之间的目标特征距离；

根据各所述目标特征距离和所述分类结果，从各所述目标点云数据中筛选出待标注点云数据。

在其中一个实施例中，所述根据各所述目标特征距离和所述分类结果，从各所述目标点云数据中筛选出待标注点云数据，包括：

根据所述目标点云数据的分类结果确定所述目标点云数据的信息熵值；

根据各所述目标点云数据的目标特征距离和所述信息熵值确定所述目标点云数据的标注价值；

根据各所述目标点云数据的标注价值，从各所述目标点云数据中筛选出待标注点云数据。

在其中一个实施例中，所述根据各所述目标点云数据的标注价值，从各所述目标点云数据中筛选出待标注点云数据，包括：

根据各所述目标点云数据的第一数量、所述初始点云数据的第二数量以及所述目标点云数据的标注价值，从各所述目标点云数据中筛选出待标注点云数据。

在其中一个实施例中，所述根据各所述目标点云数据的第一数量、所述初始点云数据的第二数量以及所述目标点云数据的标注价值，从各所述目标点云数据中筛选出待标注点云数据，包括：

确定所述第一数量与所述第二数量的比值；

根据所述比值和预设的点云数据标注数量阈值确定所述待标注点云数据的第三数量；

从所述目标点云数据中筛选出所述第三数量的待标注点云数据。

在其中一个实施例中，所述确定各所述目标点云数据的第二特征到所述第一特征之间的目标特征距离，包括：

针对各所述目标点云数据的第二特征，确定所述第二特征到各所述第一特征之间的特征距离；

针对各所述目标点云数据的第二特征，确定所述第二特征对应的特征距离中最小的特征距离，并将最小的特征距离作为所述第二特征到所述第一特征之间的目标特征距离。

在其中一个实施例中，所述方法还包括：

将点云数据样本输入第一编码模块得到第一编码数据，并将所述第一编码数据输入第一投影模块得到当前次的第一归一化特征；

将所述点云数据样本进行坐标变换处理，得到坐标变换处理后的点云数据样本；

将所述坐标变换处理后的点云数据样本输入第二编码模块得到第二编码数据，并将所述第二编码数据输入第二投影模块得到当前次的第二归一化特征；

将所述第一归一化特征和所述第二归一化特征作为正例对，并将所述第一归一化特征和所述当前次之前得到的各第二归一化特征组成负例对集合；

根据所述正例对和所述负例对集合，训练初始特征提取模型得到所述特征提取模型。

第二方面，本申请还提供了一种面向点云理解的数据主动筛选标注装置，其特征在于，所述装置包括：

提取模块，用于将初始点云数据输入特征提取模型，以提取有标注点云数据的第一特征和无标注点云数据的第二特征，其中，所述初始点云数据包括所述有标注点云数据和所述无标注点云数据；

第一获得模块，将所述无标注点云数据输入分类模型得到所述无标注点云数据的分类结果；

确定模块，根据所述分类结果和所述有标注点云数据的真实标签，从所述无标注点云数据中确定和所述真实标签相同的伪标签的各目标点云数据，其中，所述伪标签根据所述分类结果确定；

筛选模块，根据所述第一特征、各所述目标点云数据的第二特征和所述分类结果，从各所述目标点云数据中筛选出待标注点云数据。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述面向点云理解的数据主动筛选标注方法和装置，通过将初始点云数据输入特征提取模型，以提取有标注点云数据的第一特征和无标注点云数据的第二特征，并将无标注点云数据输入分类模型得到无标注点云数据的分类结果，进而根据分类结果和有标注点云数据的真实标签，从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据，根据第一特征、各目标点云数据的第二特征和分类结果，从各目标点云数据中筛选出待标注点云数据。能够实现通过主动标记策略从无标注点云数据中筛选出合适的最有价值点云数据作为待标注点云数据。通过充分挖掘初始点云数据的特征来实现从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据，由于各目标点云数据的数据量相对于初始点云数据中的无标注点云数据的数据量少，因此能够实现在较少数据量中的目标点云数据中快速筛选出待标注点云数据，进而能够减少点云数据的标注时间和标注成本，且筛选过程不需要人为参与，能够节省整个筛选过程所需的时间和人力成本。

附图说明

图1为本申请其中一个实施例中面向点云理解的数据主动筛选标注方法的流程示意图；

图2为本申请其中一个实施例中面向点云理解的数据主动筛选标注方法的流程示意图；

图3为本申请其中一个实施例中面向点云理解的数据主动筛选标注方法的流程示意图；

图4为本申请其中一个实施例中面向点云理解的数据主动筛选标注方法的流程示意图；

图5为本申请其中一个实施例中面向点云理解的数据主动筛选标注方法的流程示意图；

图6为本申请其中一个实施例中面向点云理解的数据主动筛选标注方法的流程示意图；

图7是本申请一个实施例中的特征提取模型结构示意图；

图8是本申请一个实施例中的特征提取模型训练架构示意图；

图9是本申请一个实施例中的分类模型结构示意图；

图10是本申请一个实施例中映射空间中的点云特征向量分布情况；

图11是本申请一个实施例中点云分割任务分割效果可视对比图；

图12是本申请一个实施例中随机标注与点云数据筛选模型进行标注的ModelNet分类精度变化图；

图13是本申请一个实施例中随机标注与点云数据筛选模型进行标注的ShapeNet平均精度变化图；

图14是本申请一个实施例中随机标注与点云数据筛选模型进行标注的ShapeNet平均交并比变化图；

图15是本申请一个实施例中面向点云理解的数据主动筛选标注装置的结构框图；

图16是本申请一个实施例中计算机设备内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，图1是本申请实施例提供的面向点云理解的数据主动筛选标注方法的流程示意图之一，以该方法应用于计算机设备，包括以下步骤：

S101、将初始点云数据输入特征提取模型，以提取有标注点云数据的第一特征和无标注点云数据的第二特征。

其中，初始点云数据包括有标注点云数据和无标注点云数据。可以提取有标注点云数据的第一特征，并提取无标注点云数据的第二特征。

本实施例中的特征提取模型为一种基于对比学习对初始对比学习训练模型进行训练后获得的模型，初始对比学习训练模型为自监督模型，能够对点云数据的特征进行有效提取，充分挖掘点云数据的特征。

S102、将无标注点云数据输入分类模型得到无标注点云数据的分类结果。

S103、根据分类结果和有标注点云数据的真实标签，从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据。

其中，伪标签根据分类结果确定。例如，分类结果为（1/3，2/3），该分类结果表示无标注点云数据属于沙发的概率为1/3，属于椅子的概率为2/3，则该无标注点云数据的伪标签为椅子。

又因为分类模型的准确率不可能是百分之百，且输入的点云数据为无标注点云数据，所以将无标注点云数据输入分类模型得到的分类结果并不清楚其精准度，所以根据分类结果确定的标签为伪标签。

为了尽可能的平均选取无标注点云数据，本实施例选取与真实标签相同的伪标签的各目标点云数据作为待标记数据集，从待标注数据集中筛选出合适的点云数据进行标注。

S104、根据第一特征、各目标点云数据的第二特征和分类结果，从各目标点云数据中筛选出待标注点云数据。

此步骤为一种主动标注策略，主动标注策略不受限于特定数据集，通过充分挖掘数据集的特征，来实现在较少标注情况下各类点云理解任务中都能接近监督学习的效果。主动标注策略，可以有效地作用在不同点云数据集上，具有普适性。其中，特定数据集指点云数据的数据类型是固定的。

具体的，本实施例的面向点云理解的数据主动筛选标注方法已经将待标注点云数据筛选出来，不需要再进行人工筛选，该方法能够节省人工筛选的时间和人力。需要说明的是，筛选出的待标注点云数据可以通过人工标注，也可以是其它标注方法进行标注。

本实施例提供的面向点云理解的数据主动筛选标注方法，通过将初始点云数据输入特征提取模型，以提取有标注点云数据的第一特征和无标注点云数据的第二特征，并将无标注点云数据输入分类模型得到无标注点云数据的分类结果；根据伪标签和有标注点云数据的真实标签，从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据，进而根据第一特征、各目标点云数据的第二特征和分类结果，从各目标点云数据中筛选出待标注点云数据。由于特征提取模型能够充分挖掘提取有标注点云数据的第一特征和无标注点云数据的第二特征，并将无标注点云数据输入分类模型得到无标注点云数据的分类结果，从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据，进而根据第一特征、各目标点云数据的第二特征和分类结果，从各目标点云数据中筛选出待标注点云数据，以实现通过主动标记策略从无标注点云数据中筛选出合适的最有价值点云数据作为待标注点云数据。通过充分挖掘初始点云数据的特征来实现从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据，由于各目标点云数据的数据量相对于初始点云数据中的无标注点云数据的数据量少，因此能够实现在较少数据量中的目标点云数据中快速筛选出待标注点云数据，进而能够减少点云数据的标注时间和标注成本，且筛选过程不需要人为参与，能够节省整个筛选过程所需的时间和人力成本。

参照图2，图2是本申请实施例提供的另一种面向点云理解的数据主动筛选标注方法的流程示意图。本实施例涉及的是如何根据第一特征、各目标点云数据的第二特征和分类结果，从各目标点云数据中筛选出待标注点云数据的一种可选的实现方式。在上述实施例的基础上，上述的S104包括以下步骤：

S201、确定各目标点云数据的第二特征到第一特征之间的目标特征距离。

由于目标特征距离反映的是特征丰富度，因此通过确定各目标点云数据的第二特征到第一特征之间的目标特征距离，进而根据各目标特征距离和伪标签，从各目标点云数据中筛选出待标注点云数据，能够有利于目标任务的完成。具体的，目标任务可以是但不限于点云分割任务或者点云分类任务。

具体的，目标特征距离可以通过下述公式（1）计算：

（1）

其中，f _s为第一特征，f＇为第二特征，q₂表示第一特征与第二特征之间的特征距离，目标特征距离可以为目标点云数据的第二特征到各第一特征之间的特征距离中的最大的特征距离，也可以将该最大的特征距离乘以预设系数后得到的结果作为目标特征距离。

S202、根据各目标特征距离和分类结果，从各目标点云数据中筛选出待标注点云数据。

本实施例中，通过目标特征距离和分类结果，从各目标点云数据中筛选出待标注点云数据，能够提高筛选的无标注点云数据的平均度和信息丰富程度，有利于点云目标任务的完成。

参照图3，图3是本申请实施例提供的另一种面向点云理解的数据主动筛选标注方法的流程示意图。本实施例涉及的是如何根据各目标特征距离和伪标签，从各目标点云数据中筛选出待标注点云数据。在上述实施例的基础上，上述的S202包括以下步骤：

S301、根据目标点云数据的分类结果确定目标点云数据的信息熵值。

信息熵是用来衡量点云数据中包含的信息量的多少，当信息熵较小时，说明该点云数据的信息量较为充足，当信息熵较大时，说明点云数据可以作为不确定的样本进行标注。

具体的，信息熵值可以通过下述的公式（2）计算：

（2）

其中，c为分类结果，q₁表示信息熵值。

由于目标特征距离反映的是特征丰富度，因此，从各目标特征距离中确定最大的目标特征距离，从而可以最大程度的反映特征丰富度。

S302、根据各目标点云数据的目标特征距离和信息熵值确定目标点云数据的标注价值。

S303、根据各目标点云数据的标注价值，从各目标点云数据中筛选出待标注点云数据。

点云数据的标注价值越高，越值得被标注。具体的，标注价值可以通过下述的公式（3）计算：

（3）

其中，q表示标注价值，W_e与W_d为权重超参数，取值范围均为0到1。

根据各目标点云数据的目标特征距离和信息熵值确定无标注点云数据的标注价值，从而实现根据标注价值确定待标注点云数据，以对较高特征丰富度所对应的点云数据进行标注，扩大整个标注点云数据的信息丰富程度。由于相同标签的点云数据在特征空间中应是彼此接近的，所以目标特征距离越大的目标点云数据越有标注价值，即伪标签所对应的点云数据与真实标签所对应点云数据之间的距离越大，则该目标点云数据越有标注价值。

本实施例中，通过各目标点云数据的目标特征距离和信息熵值确定目标点云数据的标注价值，然后根据标注价值选取待标注数据，能够从各目标点云数据中筛选出最值得标注的点云数据。

可选的，上述的S303、根据无标注点云数据的标注价值，从各目标点云数据中筛选出待标注点云数据，可以通过如下方式实现：

根据各目标点云数据的第一数量、初始点云数据的第二数量以及目标点云数据的标注价值，从各目标点云数据中筛选出待标注点云数据。

本实施例中，第一数量指与真实标签相同的伪标签下的无标注点云数据的数量，第二数量为初始点云数据的数量。

参照图4，图4是本申请实施例提供的另一种面向点云理解的数据主动筛选标注方法的流程示意图。本实施例涉及的是如何根据各目标点云数据的第一数量、初始点云数据的第二数量以及目标点云数据的标注价值，从各目标点云数据中筛选出待标注点云数据的一种可选的实现方式。在上述实施例的基础上，该方法包括以下步骤：

S401、确定第一数量与第二数量的比值。

S402、根据比值和预设的点云数据标注数量阈值确定待标注点云数据的第三数量。

预设的点云数据标注数量阈值是特定类别下需要标注的点云数据的数量。本实施例中，第三数量具体可以等于比值和预设的点云数据标注数量阈值的乘积。

具体的，待标注点云数据可以通过下述的公式（3）计算：

（3）

其中，k为预设的点云数据标注数量阈值，N _c为目标点云数据的数量即第一数量，N为初始点云数据的数量即第二数量，k_c为待标注点云数据的第三数量。

S403、从目标点云数据中筛选出第三数量的待标注点云数据。

具体的，将目标点云数据的标注价值从大到小排列，然后从大到小选择出第三数量的点云数据，即为我们最终筛选出的点云数据。

本实施例中，通过预设的点云数据标注数量阈值是特定类别下需要标注的点云数据数量，能够确定出特定类别下需要标注的点云数量，与基于分类结果和目标特征距离获得标注价值构成对应关系，筛选出最优标注点云数据。

参照图5，图5是本申请实施例提供的另一种面向点云理解的数据主动筛选标注方法的流程示意图。本实施例涉及的是如何确定各目标点云数据的第二特征到第一特征之间的目标特征距离。在上述实施例的基础上，上述S201包括以下步骤：

S501、针对各目标点云数据的第二特征，确定第二特征到各第一特征之间的特征距离。

在实际点云数据筛选过程中，已标注的点云数据一般为多个，所对应的第一特征也为多个，第二特征到所有第一特征的距离也为多个。

S502、针对各目标点云数据的第二特征，确定第二特征对应的特征距离中最小的特征距离，并将最小的特征距离作为第二特征到第一特征之间的目标特征距离。

本实施例中，通过对比第二特征到各第一特征之间的特征距离，能够确定出目标特征距离，将第二特征到各第一特征之间的特征距离中的最小的特征距离作为第二特征到第一特征之间的目标特征距离，可以将所有的第一特征视为一个整体，从而确定出第二特征到第一特征之间的目标特征距离。

为了能够对点云数据的特征进行有效提取，在一个具体的实施例中，面向点云理解的数据主动筛选标注方法还包括获得特征提取模型的过程。参考图6，图6是本申请实施例提供的另一种面向点云理解的数据主动筛选标注方法的流程示意图。在上述实施例的基础上，获得特征提取模型的过程包括如下步骤：

S601、将点云数据样本输入第一编码模块得到第一编码数据，并将第一编码数据输入第一投影模块得到当前次的第一归一化特征。

本实施例中的编码模块即特征提取模块，投影模块为特征空间投影模块。

S602、将点云数据样本进行坐标变换处理，得到坐标变换处理后的点云数据样本。

S603、将坐标变换处理后的点云数据样本输入第二编码模块得到第二编码数据，并将第二编码数据输入第二投影模块得到当前次的第二归一化特征。

S604、将第一归一化特征和第二归一化特征作为正例对，并将第一归一化特征和当前次之前得到的各第二归一化特征组成负例对集合。

具体是，一个锚点样本（第一归一化特征）和一个对应的需要在特征空间上拉近的样本（第二归一化特征）组成一组正例对，同时和多个对应的需要在特征空间上相互远离的样本（第二归一化特征）组成多组负例对，最后用一组正例对和多组负例对计算对应的损失来实现特征空间上的拉近和远离。

例如，第一次得到的第一归一化特征和第二归一化特征为A1和B1，第二次得到的第一归一化特征和第二归一化特征为A2和B2，第三次得到的第一归一化特征和第二归一化特征为A3和B3，若当前次为第三次，则A3和B3组成一对正例对，A3和B1、A3和B2分别组成两个负例对，这两个负例对组成负例对集合。

S605、根据正例对和负例对集合，训练初始特征提取模型得到特征提取模型。

其中特征提取模型包括我们需要的特征提取模块，即第一编码模块。

本实施例中，通过正例对和负例对集合训练初始特征提取模型以获得特征提取模型，正例对和负例对集合用于进行对比学习训练，能够在没有监督信号的前提下训练点云特征提取模型，最终获得能够有效提取点云数据特征的特征提取模块。

在一个具体的实施例中，根据面向点云理解的数据主动筛选标注方法可以形成点云数据筛选模型，点云数据筛选模型由特征提取模型、分类模型和主动选择模型组成。参照图7，图7是本申请实施例提供的一种特征提取模型结构示意图。本实施例中，特征提取模型包括一个编码模块和一个投影模块。参照图8，图8是特征提取模型的训练架构图。本实施例中的特征提取模型的训练架构是一种根据MoCo架构改进的基于对比学习的预训练架构，该架构包括上分支h₁和下分支h₂，两个分支结构一样，均包括一个编码模块和一个投影模块。为了便于区分，我们将分支h₁的编码模块命名为第一编码模块，投影模块命名为第一投影模块，将分支h₂的编码模块命名为第二编码模块，投影模块命名为第二投影模块。特征提取模型的训练架构还包括一个负例对缓存区，负例对缓存区用于存储第二投影模块输出的第二归一化特征，每一个归一化特征向量均存储于负例对缓存区，当前次第一投影模块中输出的第一归一化特征与当前次之前得到的各第二归一化特征组成负例对集合，负例对缓存区的设计能够提升特征提取模型的训练效果。第一投影模块输出的第一归一化特征和第二投影模块输出的第二归一化特征作为正例对。第二编码模块的参数根据第一编码模块的参数进行动量更新。

需要说明的是，当前次第一投影模块输出的第一归一化特征与当前次第二投影模块中输出的第二归一化特征不构成负例对，负例对缓存区存储的与第一归一化向量构成负例对的第二归一化特征当前次之前第二投影模块输出的第二归一化特征。

输入第二编码模块的点云数据通过输入第一编码模块的点云数据进行坐标变换获得。具体的，坐标变换包括但不限于旋转、平移、缩放以及随机扰动。

本实施例中，输入第一编码模块的点云数据为P₂，P₂经过坐标变换后为P₁，将P₁和P₂分别输入到分支h₂和分支h₁中进行处理。为了便于训练且不失一般性，我们选用PointNet的特征提取部分作为本实施例的分支h₂和分支h₁中相同的编码模块，分别将输入点云数据的三维坐标扩张为64、128、1024维的逐点特征。然后将编码模块提取到的逐点特征分别输入到分支h₂和分支h₁中的投影模块进行处理，进一步投射到特征空间，分别得到第一归一化特征和第二归一化特征。

本实施例的特征提取模型进行时，还在归一化的特征空间中计算PointInfoloss，并进行反向传输对模型进行训练。上部分分支h₁参数θ_h1通过反向传输实现更新，下部分分支h₂参数θ_h2则是根据h₁的参数进行动量更新，动量更新公式如下：

其中，m为超参数，0＜m＜1。

将经过训练后获得的模型参数固定并用于后续的主动学习策略过程中选择点云数据进行标注。计算PointInfo loss的损失函数的具体形式如下：

其中，P_o为正例对集合，Ne 为负例对集合。下标i和j代表同一点云数据的不同变换特征，f_i与f_j构成正例对，f_i与f_k构成负例对，τ为温度参数，用于控制正负例对参与计算的比例。

具体的，本实施例在进行特征提取模型训练时，PointInfo loss趋于0时，特征提取模型训练完成。

本实施例的面向点云理解的数据主动筛选标注方法所使用的特征提取模型是基于对比学习训练获得，所得特征提取模型能够有效的对特征进行提取。

参照图9，图9是本申请实施例提供的一种分类模型结构示意图。本实施例中，分类模型包括一个编码模块和一个特征分类模块。将存在标签的无标注点云数据输入到特征分类模型中，能够获得无标注点云数据的伪标签。本实施例中，特征分类模块由多层全连接网络构成，将归一化特征输入到分类模型中得到对该点云数据的分类概率。分类模型采用交叉熵进行训练，经过训练后同时固定训练所得到的分类模型参数。交叉熵计算方式如下：

其中，K为所存在的类别数量，y_ij为符号函数，样本i属于类别j时y_ij取1，其余取0，p_ij为观测样本i属于类别j的预测概率。

具体的，本实施例在进行分类模型训练时，交叉熵趋于0时，分类模型训练完成。

本实施例的面向点云理解的数据主动筛选标注方法所使用的分类模型能够计算出无标注点云数据的伪标签，为计算无标注点云数据的标注价值计算提供支持。

本实施例中根据第一特征、各目标点云数据的第二特征和伪标签，从各目标点云数据中筛选出待标注点云数据通过主动选择模型进行。

为了挑选一些最有价值即能够最大化促进最终分类效果的点云数据进行标注。本实施例中分别从点云样本均衡、点云特征丰富程度以及点云数据的不确定性等几个角度分别设计选择指标对无标注点云数据进行选择。

基于不确定性的指标选择。由于空间分布存在差异，点云筛选模型识别不同的点云数据的能力也不相同，会存在较难分类的点云数据，而这部分难以识别的点云数据会极大的促进点云数据筛选模型的训练工作，因此首先提出选择此种较难识别的点云数据作为评价指标。

具体的，信息熵值是根据伪标签确定的，将未标注点云数据P'∈R ^N×3输入到分类模型中获得对应的分类预测结果即伪标签c∈R ^K，将每个点云数据预测结果的信息熵记为q ₁。

基于特征丰富程度的选择指标。信息的丰富程度对于点云数据筛选模型的训练同样至关重要，当训练数据中的信息量足够多时，则可以保证所得到的点云数据筛选模型具有良好的性能，当存在部分标注点云数据后，其它未标注的点云数据对整体信息量的贡献会出现不同，而在其中选择信息最为丰富的点云数据进行标注可以扩大整个标注数据的信息丰富程度，从而更有利于目标任务的完成。该指标可以通过无标注点云数据特征与已标注点云数据特征间的距离获得，假设无标注点云数据P输入到对比学习模型中获得的特征为f_p，已标记的点云数据特征为f_c，该指标可用如下计算公式进行计算：

通过该指标的选择可以充分拓展训练样本即无标注点云数据中特征的多样性，可以有效促进点云数据筛选模型性能。

基于样本均衡的指标改进。样本类别均衡对于模型性能的影响较大，因此在点云数据筛选过程中还需要对样本的均衡程度予以关注。确保所筛选的数据是在各个类别均衡分布，以免点云数据筛选模型针对某种类别出现过拟合的状况。因此在保证特征丰富程度的同时本实施例的主动学习策略另一考量因素则是标注点云数据的样本数量分布情况，进一步改进基于特征丰富程度的指标。通过在计算过程中只考虑与其标签一致的点云特征分布情况，从而更多关注于样本类别所关注的特征情况。按照原标注数据的真实标签和之前获得的未标注数据的伪标签进行分类，将分类标签记为s，将同一类别下的已标注点云数据特征f _s即第一特征与伪标签为s的无标注点云数据特征f'即第二特征将会进行特征距离的计算，得到分数q ₂。

本实施例中具体以分类标签s为座椅对确定各目标点云数据的第二特征到第一特征之间的目标特征距离进行说明。参照图10，图10表示在映射空间中的点云特征向量分布情况。如图10所示，具有真实标签的已标注点云数据为两个，目标点云数据的数量为三个。其中，虚线方框中的点云为有真实标签的点云数据，其余为预测标签与真实标签点云数据相同的点云数据。

具体的，针对各目标点云数据的第二特征，确定第二特征到各第一特征之间的特征距离在图中的体现是分别通过计算式（1），计算出三个目标点云数据到已标注点云数据的距离d1-d6。

具体的，针对各目标点云数据的第二特征，确定第二特征对应的特征距离中最小的特征距离，并将最小的特征距离作为第二特征到第一特征之间的目标特征距离，在图10中的体现是图10中的d1、d3和d5分别标识三个目标点云数据到两个已标注点云数据之间的目标特征距离。例如，最下方的圆形虚线框出的目标点云数据（沙发）到两个已标注点云数据的特征距离分别为d5和d6，d5小于d6，则将d5作为该目标点云数据的第二特征与第一特征之间的目标特征距离。

又根据式（3）可知，目标特征距离越大，目标点云数据的标注价值越大，目标特征距离中d5大于d1和d3，因此虚线圆框框出的数据，将有很大可能会作为接下来需要被标注的点云数据。

本实施例中，主动选择模型通过计算无标注点云数据的标注价值q和特定类别下的需要标注的点云数据数量k_c选定出待标注点云数据。

最后，主动选择模型将无标注点云数据的标注价值从大到小排序，选取前k_c个点云数据作为待标注点云数据。

为了验证本实施例点云数据筛选模型筛选出的待标注点云数据的准确率，本实施例通过点云分割任务和点云分类任务进行验证。

参照图11，图11是点云分割任务中分割效果可视对比图。将监督模型、随机标注以及本实施例点云数据筛选模型所获得的标注点云数据在分割任务中进行对比。由图11可得，本实施例的点云数据筛选模型可在预测结果上达到监督学习模型的水平，而选用随机标注的方法，在只能进行少量标注的前提下会影响部分类别的分割结果，产生分割误差，尤其是对于一些数量较少的类别，由于随机选择并没有针对性的考虑此类目标，模型更难预测此类目标的结果，导致出现错误分割。

参照图12，图12是随机标注与通过本实施例点云数据筛选模型进行标注的ModelNet分类精度变化图。本实施例中为了验证点云数据筛选模型的有效性，选用ModelNet40作为实验数据集， ModelNet40共包含40个不同分类的三维模型，按照其原生形式划分训练集与验证集，其中训练集共包含9843个样本，验证集包含有2468个样本。通过在每个点云上采用FPS进行采样处理，将输入点云中点的数量固定为2048。训练过程中特征提取模型的设置如下，温度参数τ设置为0.07，设置特征提取模型内置负例对缓存区的长度为65536，输入到特征提取模型的一批数量级为8，对两个结构相同的编码模块经过相同的初始化操作后，其中第一编码模块采用反向传输策略进行更新，而第二编码模块则采用动量更新，其中第二编码模块的动量更新参数为0.99。整个特征提取模型的训练过程采用Adam优化器，对于学习率采用等间隔衰减策略，初始学习率为0.001，衰减率为0.7，衰减周期为20轮，每一次的训练轮数设置为200，每一次迭代共选择100个数据进行标注。

设定W_d与W_e均为0.5进行点云数据筛选模型的训练，记录每一次迭代完毕后在测试数据上的准确率，并与采用随机选择标注的方法进行对比。从图11中可见，在标注数量较少的情况下，本实施例中的点云数据筛选模型与随机选择标注策略所训练出的模型精度基本一致，这是由于在早期有标注数据数量较少的情况下，选择策略所基于的模型特征提取性能较差，此时的特征难以反映数据本身的实际特点，因此早期的效果与随机选择标注情况较为一致。随着迭代轮数的增加，标注样本的数量也逐渐增加，此时训练所得到的点云数据筛选模型特征提取能力得到了较大的加强，所提取到的特征具备一定的代表性，主动选择策略的优越性开始体现，其在测试数据上已经能够超越随机选择标注的结果。之后随着标注数量的进一步增加，主动选择标注的模型精度也进一步增加，而随机选择标注的结果则趋于缓慢平稳的上升，两者之间的差距进一步扩大。根据实验中所得到的数据，在接近于10%的标注数据训练的情况下，点云数据筛选模型精度要高于随机选择标注的模型精度结果20%以上，证明了主动选择策略对于该点云理解任务的有效性。

参照图13和14，图13是随机标注与通过本实施例点云数据筛选模型进行标注的ShapeNet平均精度变化图，图14是随机标注与通过本实施例点云数据筛选模型进行标注的ShapeNet平均交并比变化图。从图13和14可以看出，本实施例的点云数据筛选模型的平均精度和平均交并比均是优于随机标注方式。

本实施例的点云数据筛选模型，能够筛选出无标注点云数据中的标注价值较高的点云数据，能够替代人工筛选，节省时间和人力成本。且主动选择模型能够有效作用在不同的点云数据集上，具有普适性。另外，该点云数据筛选模型的准确度、平均精度和平均交并比都比较优异。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的面向点云理解的数据主动筛选标注方法的面向点云理解的数据主动筛选标注装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个面向点云理解的数据主动筛选标注装置实施例中的具体限定可以参见上文中对于面向点云理解的数据主动筛选标注方法的限定，在此不再赘述。

在一个实施例中，如图15所示，图15是本申请实施例提供的一种面向点云理解的数据主动筛选标注装置的结构框图，该装置1500包括：

提取模块1501，用于将初始点云数据输入特征提取模型，以提取有标注点云数据的第一特征和无标注点云数据的第二特征，其中，初始点云数据包括有标注点云数据和无标注点云数据；

第一获得模块1502，将无标注点云数据输入分类模型得到无标注点云数据的分类结果；

确定模块1503，根据分类结果和有标注点云数据的真实标签，从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据；

筛选模块1504，根据第一特征、各目标点云数据的第二特征和分类结果，从各目标点云数据中筛选出待标注点云数据。

在其中一个实施例中，筛选模块1504包括：

确定子模块，用于确定各目标点云数据的第二特征到第一特征之间的目标特征距离；

筛选子模块，用于根据各目标特征距离和分类结果，从各目标点云数据中筛选出待标注点云数据。

在其中一个实施例中，筛选子模块包括：

第一确定单元，用于根据目标点云数据的分类结果确定目标点云数据的信息熵值；

第二确定单元，用于根据各目标点云数据的目标特征距离和信息熵值确定目标点云数据的标注价值；

筛选单元，用于根据各目标点云数据的标注价值，从各目标点云数据中筛选出待标注点云数据。

在其中一个实施例中，筛选单元，具体用于根据各目标点云数据的第一数量、初始点云数据的第二数量以及目标点云数据的标注价值，从各目标点云数据中筛选出待标注点云数据。

在其中一个实施例中，筛选单元，具体用于确定第一数量与第二数量的比值；根据比值和预设的点云数据标注数量阈值确定待标注点云数据的第三数量；从目标点云数据中筛选出第三数量的待标注点云数据。

在其中一个实施例中，确定子模块，具体用于针对各目标点云数据的第二特征，确定第二特征到各第一特征之间的特征距离。

在其中一个实施例中，确定子模块，具体用于针对各目标点云数据的第二特征，确定第二特征对应的特征距离中最小的特征距离，并将最小的特征距离作为第二特征到第一特征之间的目标特征距离。

在其中一个实施例中，装置还可以包括：

第二获得模块，用于将点云数据样本输入第一编码模块得到第一编码数据，并将第一编码数据输入第一投影模块得到当前次的第一归一化特征。

变换模块，用于将点云数据样本进行坐标变换处理，得到坐标变换处理后的点云数据样本。

第三获得模块，用于将坐标变换处理后的点云数据样本输入第二编码模块得到第二编码数据，并将第二编码数据输入第二投影模块得到当前次的第二归一化特征。

对比模块，用于将第一归一化特征和第二归一化特征作为正例对，并将第一归一化特征和当前次之前得到的各第二归一化特征组成负例对集合。

训练模块，用于根据正例对和负例对集合，训练初始特征提取模型得到特征提取模型。

上述面向点云理解的数据主动筛选标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储点云数据筛选数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面向点云理解的数据主动筛选标注方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

将初始点云数据输入特征提取模型，以提取有标注点云数据的第一特征和无标注点云数据的第二特征，其中，初始点云数据包括有标注点云数据和无标注点云数据；

将无标注点云数据输入分类模型得到无标注点云数据的分类结果；

根据分类结果和有标注点云数据的真实标签，从无标注点云数据中确定和真实标签相同的伪标签的各目标点云数据，其中，伪标签根据分类结果确定；

根据第一特征、各目标点云数据的第二特征和分类结果，从各目标点云数据中筛选出待标注点云数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种面向点云理解的数据主动筛选标注方法，其特征在于，包括：

2.根据权利要求1所述的面向点云理解的数据主动筛选标注方法，其特征在于，所述根据所述第一特征、各所述目标点云数据的第二特征和所述分类结果，从各所述目标点云数据中筛选出待标注点云数据，包括：

3.根据权利要求2所述的面向点云理解的数据主动筛选标注方法，其特征在于，所述根据各所述目标特征距离和所述分类结果，从各所述目标点云数据中筛选出待标注点云数据，包括：

4.根据权利要求3所述的面向点云理解的数据主动筛选标注方法，其特征在于，所述根据各所述目标点云数据的标注价值，从各所述目标点云数据中筛选出待标注点云数据，包括：

5.根据权利要求4所述的面向点云理解的数据主动筛选标注方法，其特征在于，所述根据各所述目标点云数据的第一数量、所述初始点云数据的第二数量以及所述目标点云数据的标注价值，从各所述目标点云数据中筛选出待标注点云数据，包括：

确定所述第一数量与所述第二数量的比值；

6.根据权利要求2-5任意一项所述的面向点云理解的数据主动筛选标注方法，其特征在于，所述确定各所述目标点云数据的第二特征到所述第一特征之间的目标特征距离，包括：

7.根据权利要求1-5任意一项所述的面向点云理解的数据主动筛选标注方法，其特征在于，所述方法还包括：

8.一种面向点云理解的数据主动筛选标注装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的方法的步骤。