CN115100099A

CN115100099A - 点云数据的处理方法、装置、设备及介质

Info

Publication number: CN115100099A
Application number: CN202210474272.XA
Authority: CN
Inventors: 李金珂; 何潇; 程晓强; 张丹
Original assignee: Uisee Technologies Beijing Co Ltd
Current assignee: Uisee Technologies Beijing Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-09-23

Abstract

本发明公开了一种点云数据的处理方法、装置、设备及介质。所述点云数据的处理方法，包括：将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征；将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征；将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。本方案能够在较低内存占用的前提下，提升体素的特征表达能力，并提高点云数据的数据处理效果。

Description

点云数据的处理方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种点云数据的处理方法、装置、设备及介质。

背景技术

雷达已经被广泛的应用于自动驾驶等智能感知任务当中，如点云语义分割以及目标检测等。

目前，在做分类感知任务时，为了降低点云特征识别的复杂度，会先对点云做体素化处理，进而对体素进行特征提取，如利用2D网络和3D网络对体素的特征进行提取。其中，2D网络，如Polar-Net(极坐标投影网络)，利用2D卷积提取特征。3D网络，如DS-Net(密集尺度单栏神经网络)，直接利用3D卷积为每个体素提取特征。

而2D网络虽然具备延迟低的优点，但是精度有限，根据提取的特征在高度空间上对体素的区分度较差。3D网络精度比2D网络要好，但是耗时严重，且内存占用大。

发明内容

本发明提供了一种点云数据的处理方法、装置、设备及介质，能够在较低内存占用的前提下，提升体素的特征表达能力，并提高点云数据的数据处理效果。

根据本发明的一方面，提供了一种点云数据的处理方法，包括：

将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征；

将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征；

将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。

根据本发明的另一方面，提供了一种点云数据的处理装置，包括：

体素特征获取模块，用于将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征；

像素特征获取模块，用于将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征；

特征拼接模块，用于将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的点云数据的处理方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的点云数据的处理方法。

本实施例的技术方案，通过将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征，进而将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征，从而将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。将体素特征以及像素特征进行融合，可以提升体素的特征的表达能力，而利用体素拼接特征可以对点云中的目标进行快速识别分类，解决了现有技术中基于2D网络提取的特征对体素的区分度较差，以及3D网络对体素的特征进行识别时内存占用大耗时严重的问题，提升体素的特征表达能力，并提高点云数据的数据处理效果。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种点云数据的处理方法的流程图；

图2为本发明实施例提供的另一种点云数据的处理方法的流程图；

图3是本发明实施例提供的一种三维点云数据的全景分割方法的流程图；

图4是本发明实施例提供的另一种三维点云数据的全景分割方法的流程图；

图5是本发明实施例提供的一种视野空间的示意图；

图6是本发明实施例提供的一种语义分割结果的示意图；

图7是本发明实施例提供的一种偏移点的点云示意图；

图8是本发明实施例提供的一种伪热力图；

图9是本发明实施例提供的一种实例ID预测结果的示意图；

图10是本发明实施例提供的一种中心重组后的结果展示图；

图11是本发明实施例提供的一种全景分割系统的数据处理的流程图；

图12是本发明实施例提供的一种三维点云数据的全景分割装置的示意图；

图13是本发明提供的另一种全景分割系统；

图14是本发明实施例提供的一种目标邻居体素取值的分析折线图；

图15是本发明实施例提供的一种全景分割的流程图；

图16为本发明实施例提供的一种点云数据的处理装置的结构示意图；

图17示出了可以用来实施本发明的实施例的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例提供的一种点云数据的处理方法的流程图，本实施例可适用于高精度识别体素的特征，并进行特征融合的情况，该方法可以由点云数据的处理装置来执行，该点云数据的处理装置可以采用硬件和/或软件的形式实现，该点云数据的处理装置可配置于电子设备中。

如图1所示，该方法包括：

S110、将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征。

其中，点特征可以是点云中的点具备的特征。可选的，点特征可以包括但不限于点的位置(如在三维坐标系下的x轴坐标、y轴坐标以及z轴坐标)以及强度等。体素特征可以是根据点特征确定的，体素具有的特征，用于进行特征融合。点特征与体素特征的特征维度为至少一维。

在本发明实施例中，可以首先获取点云中各点的点特征，进而对点云所在的空间进行体素划分，从而使点云中的各点划分至多个体素中，进一步对各体素内划入点的点特征进行处理，得到与各体素对应的体素特征。

S120、将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征。

其中，预设图像可以是预先设定的具有所需像素点数的二维图像。示例性的，预设图像可以是H*W的二维图像，H表示水平方向的像素点数，W表示竖直方向的像素点数。投影结果可以是各体素在预设图像进行俯视投影后，得到的俯视投影图。像素特征可以是根据投影结果确定的，预设图像中像素包括的特征，用于进行特征融合。可选的，像素特征可以包括第一像素特征以及第二像素特征。第一像素特征与第二像素特征的特征维度相同，具体包括的特征可以不同或部分相同。示例性的，第一像素特征可以包括特征1、特征2以及特征3，第二像素特征可以包括特征1、特征3以及特征4。

在本发明实施例中，可以将各体素向预设图像进行俯视投影，得到投影结果，进而根据投影至预设图像的各像素的体素以及体素特征，确定各体素在预设图像的像素特征。

可选的，可以根据应用需要以及投影结果，获取各体素在预设图像中的第一像素特征以及第二像素特征。

S130、将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。

其中，特征拼接可以用将同一体素的像素特征与体素特征进行特征融合。体素拼接特征可以是特征拼接的结果。每个体素具有与之对应的体素拼接特征。可选的，体素拼接特征可以包括第一体素拼接特征，以及第二体素拼接特征。第一体素拼接特征可以为体素特征与第一像素特征进行特征拼接的结果。第二体素拼接特征可以为体素特征与第二像素特征进行特征拼接的结果。

在本发明实施例中，可以将预设图像的各像素包括的像素特征，分别分配至投影到各像素的体素，进而将属于相同体素的体素特征与像素特征进行特征拼接，形成与各体素分别对应的体素拼接特征。

可选的，可以将预设图像的像素的第一像素特征以及第二像素特征，分配至投影到相应像素的体素，进而将属于相同体素的体素特征与第一像素特征进行特征拼接，形成与各体素分别对应的第一体素拼接特征，还可以将属于相同体素的体素特征与第二像素特征进行特征拼接，形成与各体素分别对应的第二体素拼接特征。

在本方案中，像素特征可以便于对投影至预设图像不同位置的体素进行区分，而体素特征由于携带了体素的独立特征，能够对高度空间上的不同体素进行区分，将体素特征以及像素特征进行特征拼接，得到的体素拼接特征能够从多个维度表征体素的特征，也即得到区分性更强的体素的特征，当利用区分性更强的体素拼接特征对点云进行全景分割时，能够保证全景分割的准确性。

图2为本发明实施例提供的另一种点云数据的处理方法的流程图，本发明实施例以上述实施例为基础进行具体化，在本发明实施例中，给出了根据各体素内所划入点的点特征，获取各体素的体素特征的具体可选的实现方式。如图2所示，该方法包括：

S210、将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征。

在本发明的一个可选实施例中，S210具体可以包括：

S211、将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征以及体素的数量，生成第一待处理矩阵图。

其中，第一待处理矩阵图可以是根据各体素内所划入点的点特征以及体素的数量确定的矩阵集合。

在本发明实施例中，将点云中的各点分别划入至多个体素后，可以进一步根据各体素内所划入点的点特征、各体素内所划入点的数量以及点特征的特征维度，生成第一待处理矩阵图。

可选的，第一待处理矩阵图可以是

的矩阵集合。N表示体素的数量，

表示体素内所划入点的数量，K表示点特征的特征维度。

S212、利用多层神经网络以及最大池化层，对第一待处理矩阵图进行特征维度处理，得到各体素的体素特征。

在本发明实施例中，可以利用多层神经网络对第一待处理矩阵图中的点特征的特征维度进行升维处理，进而通过最大池化层对升维处理结果中各体素内所划入点的个数进行压缩，并进一步通过多层神经网络对完成压缩的升维处理结果的点特征的特征维度进行压缩，得到各体素的体素特征。

S220、将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征。

在本发明的一个可选实施例中，根据投影结果，获取各体素在预设图像中的像素特征，包括：根据投影结果获取第二待处理矩阵图；利用多层神经网络以及最大池化层，对第二待处理矩阵图进行特征维度处理，得到待处理像素特征图；获取二维语义分割网络；将待处理像素特征图，输入至二维语义分割网络，得到各体素在预设图像中的像素特征。

其中，第二待处理矩阵图可以是根据投影结果确定的包括落入像素的体素数量以及体素特征的矩阵集合。可选的，第二待处理矩阵图可以是

的矩阵集合，H表示水平方向的像素点数，W表示竖直方向的像素点数，

表示像素中落入体素的数量，J表示体素特征的维度。待处理像素特征图可以是第二待处理矩阵图进行特征维度处理后得到的二维特征图。二维语义分割网络可以是用于语义分割的神经网络，如U-Net等。

在本发明实施例中，可以根据投影结果中投影至各像素的体素、预设图像的像素数量以及体素特征生成第二待处理矩阵图，进而利用多层神经网络对第二待处理矩阵图的体素特征的维度进行升维处理，进而利用最大池化层对升维处理结果中投影至各像素的体素数量进行压缩，得到二维特征图，并进一步获取二维语义分割网络，并将二维特征图输入至二维语义分割网络，通过二维语义分割网络提取俯视视角下的像素间经过空间交互的特征，以根据二维语义分割网络的输出结果，获取各体素在预设图像中的像素特征。

可选的，可以通过二维语义分割网络，提取俯视视角下的用于进行语义分割的特征，以根据二维语义分割网络输出的特征图，确定各体素在预设图像中的第一像素特征，还可以提取俯视视角下的用于进行实例分割的特征，以根据二维语义分割网络输出的特征图，确定各体素在预设图像中的第二像素特征。

S230、将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。

在本发明的一个可选实施例中，点云数据的处理方法，还可以包括：将与体素对应的体素拼接特征输入至语义分类器，获得带有语义类型的体素；根据带有语义类型的体素以及体素中点云中的点，获取带有语义类型的点云。

其中，语义分类器可以用于进行语义分割。

在本发明实施例中，可以分别将与各体素对应的体素拼接特征输入至语义分类器，得到带有语义类型的体素，进而将同一体素内的点云中的点赋予与所属体素相同的语义类型，使得点云中的点均具有语义类型，也即点云可以包括体素的体素拼接特征。

可选的，所述体素拼接特征包括第一体素拼接特征，可以将与各体素对应的第一体素拼接特征输入至语义分类器，获得带有语义类型的体素，并将同一体素内的点云中的点赋予与所属体素相同的语义类型，此时点云包括体素的第一体素拼接特征。

在本发明的一个可选实施例中，在获得带有语义类型的体素之后，还可以包括：根据带有语义类型的体素，获取目标体素；基于体素拼接特征和目标体素，获取目标体素的目标体素拼接特征；根据目标体素拼接特征，对目标体素进行实例分割。

其中，目标体素可以是区别于背景的需要进行实例分割的体素。示例性的，在汽车自动驾驶领域中，目标体素可以是表征车和/或人的体素。本发明实施例对目标体素表征的具体实体类型不作限定。目标体素拼接特征可以是与目标体素对应的体素拼接特征。可选的，体素拼接特征包括第二体素拼接特征，基于第二体素拼接特征与目标体素，形成与目标体素对应的目标体素拼接特征。

在本发明实施例中，可以根据体素的语义类型，从全部体素中确定需要进行实例分割的目标体素，进而从体素拼接特征中筛选出与目标体素对应的体素拼接特征，即筛选出目标体素拼接特征，进一步基于目标体素拼接特征，对与目标体素拼接特征对应的目标体素进行实例分割。

可选的，可以根据体素的语义类型确定目标体素，进而从第二体素拼接特征中筛选出与目标体素对应的特征，从而筛选出目标体素拼接特征，进一步基于目标体素拼接特征，对与目标体素拼接特征对应的目标体素进行实例分割。

在本发明的一个可选实施例中，根据目标体素拼接特征，对目标体素进行实例分割，可以包括：基于最邻近节点算法，获取与目标体素匹配的目标邻居体素；基于体素拼接特征，获取目标邻居体素的目标邻居体素拼接特征；根据目标体素拼接特征以及目标邻居体素拼接特征，创建局部注意力矩阵图；根据局部注意力矩阵图，获取目标体素的优化体素拼接特征；根据优化体素拼接特征，对目标体素进行实例分割。

其中，最邻近节点算法可以是一种依据临近样本进行数据分类的算法，如K-NearestNeighbor算法等。目标邻居体素可以是以目标体素为中心，一定空间范围内的目标体素。目标邻居体素拼接特征可以是与目标邻居体素对应的体素拼接特征。可选的，目标邻居体素拼接特征可以是与目标邻居体素对应的第二体素拼接特征。局部注意力矩阵图可以是根据目标体素拼接特征以及目标邻居体素拼接特征生成的注意力矩阵。优化体素拼接特征可以是根据局部注意力矩阵图确定的体素拼接特征。可选的，局部注意力矩阵图可以是根据与目标邻居体素对应的第二体素拼接特征，和与目标体素对应的第二体素拼接特征，生成的注意力矩阵。

在本发明实施例中，可以基于最邻近节点算法，获取与目标体素临近的目标邻居体素，进而从体素拼接特征中，获取与目标邻居体素对应的目标邻居体素拼接特征，从而将目标邻居体素拼接特征以及目标体素拼接特征输入至transform中，transform根据目标邻居体素拼接特征以及目标体素拼接特征，生成局部注意力矩阵图，以通过局部注意力矩阵图建立目标体素与临近的目标邻居体素之间的相似度关系，进而输出与目标体素对应的优化体素拼接特征，进一步基于优化体素拼接特征，对与优化体素拼接特征对应的目标体素进行实例分割。

可选的，在获取目标邻居体素之后，可以从第二体素拼接特征中，获取与目标邻居体素对应的目标邻居体素拼接特征，从而将目标邻居体素拼接特征，以及与目标体素对应的第二体素拼接特征输入至transform中，transform根据与目标邻居体素对应的第二体素拼接特征，和与目标体素对应的第二体素拼接特征，生成局部注意力矩阵图。

在本发明的一个可选实施例中，根据目标体素拼接特征，对目标体素进行实例分割，包括：将目标体素拼接特征输入到已训练好的偏移量预测神经网络，获得目标体素的偏移量；基于偏移量和目标体素，获得偏移体素；将偏移体素向目标预设图像进行俯视投影，并根据目标预设图像中每个像素中偏移体素的数量，获得每个像素的像素值；根据像素值，获取预设区域里像素值最高的像素；根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识；根据目标中心的实例标识，获得属于目标中心的目标体素的实例标识。

其中，偏移量预测神经网络可以用于确定点云中的体素在中心聚类时，各体素的偏移量。本发明实施例并不对偏移量预测神经网络的具体类型进行限定。偏移体素可以是根据偏移量对目标体素进行位置偏移后的体素。目标预设图像可以是预先设定的二维图像，预设的图像的尺寸可以根据展示需要进行自行设定。可选的，目标预设图像与预设图像的尺寸以及像素数量可以相同或不同。预设区域可以是目标预设图像中的区域。可选的，可以按照需要对目标预设图像进行划分得到多个预设区域，还可以将整个目标预设图像作为一个预设区域。示例性的，假设目标预设图像的尺寸为3dm*7dm，若将目标预设图像划分成100个尺寸相同的预设区域，则预设区域的尺寸为0.3dm*0.7dm。目标中心可以是预设区域里像素值最高的像素在目标预设图像中的位置，用于代表实例中心。可选的，当目标预设图像划分为一个预设区域时，目标中心唯一，当目标预设图像划分为多个预设区域时，每个预设区域存在一个目标中心。实例标识可以是用于区分不同实例的标记。

在本发明实施例中，可以首先将目标体素拼接特征，或携带目标体素拼接特征的体素输入到已训练好的偏移量预测神经网络中，并根据偏移量预测神经网络对各目标体素进行中心聚类，获得各目标体素的偏移量，进而根据与各目标体素匹配的偏移量，对各目标体素分别进行位置偏移处理，得到各偏移体素。在得到偏移体素之后，可以根据需要获取目标预设图像，进而将偏移体素向目标预设图像进行俯视投影，从而根据俯视投影时目标预设图像中每个像素点落入的偏移体素的数量，确定目标预设图像中每个像素的像素值，进而可以根据目标预设图像中每个像素的像素值以及目标预设图像的预设区域，确定预设区域中像素值最高的像素。具体的，当目标预设图像划分为一个预设区域时，将目标预设图像中像素值最高的像素，作为预设区域里像素值最高的像素。当目标预设图像划分为多个预设区域时，分别获取各预设区域中像素值最高的像素。将像素值最高的像素在目标预设图像的位置作为目标中心，从而建立目标中心与预设区域的一对一匹配关系，进而为目标中心分配匹配的实例标识。进一步，将目标中心的实例标识分配到俯视投影至该目标中心所属预设区域的目标体素，使得属于目标中心的目标体素获得实例标识。

可选的，当目标预设图像划分为一个预设区域时，仅需为一个目标中心分配实例标识。当目标预设图像划分为多个预设区域时，需要为与各预设区域分别对应的各目标中心分配匹配的实例标识。

在本发明的一个可选实施例中，根据优化体素拼接特征，对目标体素进行实例分割，可以包括：将优化体素拼接特征输入到已训练好的偏移量预测神经网络，获得目标体素的偏移量；基于偏移量和目标体素，获得偏移体素；将偏移体素向目标预设图像进行俯视投影，并根据目标预设图像中每个像素中偏移体素的数量，获得每个像素的像素值；根据像素值，获取预设区域里像素值最高的像素；根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识；根据目标中心的实例标识，获得属于目标中心的目标体素的实例标识。

在本发明时候实例中，还可以将优化体素拼接特征输入到已训练好的偏移量预测神经网络，获得目标体素的偏移量，并进行基于偏移量和目标体素，获得偏移体素等后续操作，以获得属于目标中心的目标体素的实例标识。

在本发明的一个可选实施例中，将偏移体素向目标预设图像进行俯视投影，可以包括：获取偏移体素的预设的空间尺寸；基于预设的空间尺寸，获得目标预设图像；其中，预设的空间尺寸与目标预设图像中的每个像素匹配；将偏移体素向目标预设图像进行俯视投影。

其中，预设的空间尺寸可以是预先设定的二维空间尺寸。可选的，预设的空间尺寸可以是一个a*b的二维空间尺寸，a与b的大小可以相同或不同，a与b的度量单位可以是分米或米等，本发明实施例并不对a与b的度量单位进行限定。

在本发明实施例中，可以根据目标预设图像的分辨率要求，对俯视视角下的偏移体素的俯视二维图像进行划分，确定预设的空间尺寸，并基于预设的空间尺寸，获得像素与预设的空间尺寸匹配的目标预设图像，从而将偏移体素向目标预设图像进行俯视投影。

在本发明的一个可选实施例中，根据像素值，获取预设区域里像素值最高的像素，可以包括：比较预设区域中每个像素的像素值，获取预设区域像素值最高的像素。

在本发明实施例中，当目标预设图像划分为一个预设区域时，比较目标预设图像中每个像素的像素值，将目标预设图像中像素值最高的像素作为预设区域里像素值最高的像素。当目标预设图像划分为多个预设区域时，分别获取各预设区域中每个像素的像素值，进而以预设区域为单位对各预设区域中每个像素的像素值进行比较(仅对属于相同预设区域内像素的像素值进行比较)，从而获得取各预设区域像素值最高的像素。

在本发明的一个可选实施例中，并为目标中心分配匹配的实例标识，可以包括：获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据当前目标中心以及先验尺寸数据，获取与当前目标中心匹配的待检测范围；在确定待检测范围内不存在其他目标中心时，不更新当前目标中心的实例标识。

其中，待处理语义类型可以是与当前目标中心匹配的语义类型，也即需要对实体标识进行更新判别的点云的语义类型。先验尺寸数据可以是用于表征根据经验确定的实体半径。待检测范围可以是以当前目标中心为原点，以先验尺寸数据为半径确定的区域范围。

在本发明实施例中，可以首先获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据，进一步以当前目标中心为圆心，先验尺寸数据为半径，获取与当前目标中心匹配的待检测范围，进而遍历待检测范围内的目标中心，当待检测范围内不存在其他目标中心时，当前目标中心的实例标识不变，也不利用当前目标中心的实例标识对其他目标中心的实例标识进行更新处理。

在本发明的一个可选实施例中，并为目标中心分配匹配的实例标识，可以包括：获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据当前目标中心以及先验尺寸数据，获取与当前目标中心匹配的待检测范围；在确定待检测范围内存在其他目标中心时，将待检测范围内存的目标中心的实例标识进行合并处理。

在本发明实施例中，获取与当前目标中心匹配的待检测范围之后，进一步遍历待检测范围内的目标中心，当待检测范围内存在其他目标中心时，可以将当前目标中心的实例标识作为待检测范围内的其他目标中心的实例标识。

在本发明的一个可选实施例中，并为目标中心分配匹配的实例标识，可以包括：获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据当前目标中心以及先验尺寸数据，获取与当前目标中心匹配的待检测范围；在确定待检测范围内存在的其他目标中心，并与当前目标中心的语义类型相同时，将待检测范围内存的目标中心的实例标识进行合并处理。

在本发明实施例中，获取与当前目标中心匹配的待检测范围之后，进一步遍历待检测范围内的目标中心，当待检测范围内存在其他目标中心时，可以进一步获取待检测范围内其他目标中心的语义类型，从而将当前目标中心的实例标识作为待检测范围内，与当前目标中心的语义类型相同的其他目标中心的实例标识。

在本发明的一个可选实施例中，根据目标中心体素的实例标识，获得属于目标中心体素的目标体素的实例标识之后，还可以包括：根据目标体素的实例标识以及体素中点云中的点，获取与点云中各点匹配的实例标识。

在本发明实施例中，可以以体素为实例标识的分配单元，将目标体素的实例标识分别分配至划入该目标体素的点云中的点，使得点云中的点都分配有实例标识。

示例性的，假设体素A的实例标识为1，体素A内划入的点云中的点a，b以及c的实例标识也为1。

在本发明实施例中，通过将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征以及体素的数量，生成第一待处理矩阵图，并利用多层神经网络以及最大池化层，对第一待处理矩阵图进行特征维度处理，得到各体素的体素特征，从而将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征，进而将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。将体素特征以及像素特征进行融合，可以提升体素的特征的表达能力，而利用体素拼接特征可以对点云中的目标进行快速识别分类，解决了现有技术中基于2D网络提取的特征对体素的区分度较差，以及3D网络对体素的特征进行识别时内存占用大耗时严重的问题，提升体素的特征表达能力，并提高点云数据的数据处理效果。

本发明实施例还包括：

A1、一种三维点云数据的全景分割方法，包括：获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得所述目标点的偏移量；基于所述偏移量和所述目标点，获得偏移点；将所述偏移点向预设的图像进行俯视投影，并根据所述图像中每个像素中偏移点的数量，获得每个像素的像素值；根据所述像素值，获取预设区域里像素值最高的像素；根据所述像素值最高的像素确定目标中心，并为所述目标中心分配匹配的实例标识；根据所述目标中心的实例标识，获得属于所述目标中心的目标点的实例标识。

A2、根据A1所述的方法，所述获取带有语义类型的点云，包括：获取激光雷达扫描得到的点云；将所述点云输入至预先训练的语义分割神经网络中，获取带有语义类型的点云。

A3、根据A2所述的方法，所述将所述偏移点向预设的图像进行俯视投影，包括：获取所述偏移点的预设的空间尺寸；基于所述预设的空间尺寸，获得预设的图像；其中，所述预设的空间尺寸与预设的图像中的每个像素匹配；将所述偏移点向预设的图像进行俯视投影。

A4、根据A1所述的方法，所述根据所述像素值，获取预设区域里像素值最高的像素，包括：比较所述预设区域中每个像素的像素值，获取所述预设区域像素值最高的像素。

A5、根据A1-A4中任一所述的方法，所述并为所述目标中心分配匹配的实例标识，包括：获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内不存在其他目标中心时，不更新所述当前目标中心的实例标识。

A6、根据A1-A4中任一所述的方法，所述并为所述目标中心分配匹配的实例标识，包括：获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内存在其他目标中心时，将所述待检测范围内存的目标中心的实例标识进行合并处理。

A7、根据A1-A4中任一所述的方法，所述并为所述目标中心分配匹配的实例标识，包括：获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内存在的其他目标中心，并与所述当前目标中心的语义类型相同时，将所述待检测范围内存的目标中心的实例标识进行合并处理。

B1、一种全景分割装置，包括：偏移量获取模块，用于获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得所述目标点的偏移量；偏移点获得模块，用于基于所述偏移量和所述目标点，获得偏移点；像素值获得模块，用于将所述偏移点向预设的图像进行俯视投影，并根据所述图像中每个像素中偏移点的数量，获得每个像素的像素值；峰值像素获取模块，用于根据所述像素值，获取预设区域里像素值最高的像素；第一实例标识分配模块，用于根据所述像素值最高的像素确定目标中心，并为所述目标中心分配匹配的实例标识；第二实例标识分配模块，用于根据所述目标中心的实例标识，获得属于所述目标中心的目标点的实例标识。

C1、一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求A1-A7中任一所述的三维点云数据的全景分割方法。

D1、一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的三维点云数据的全景分割方法。

在本发明的一个可选实施例中，在所述获取带有语义类型的点云之前，还包括：将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征；将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征；将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征；其中，点云包括体素的体素拼接特征。

在本发明实施例中，得到与体素对应的体素拼接特征之后，可以进一步将同一体素内的点云中的点赋予与所属体素相同的体素拼接特征，也即点云具有体素的体素拼接特征，从而可以获取带有语义类型并具有体素拼接特征的点云，以将带有语义类型并具有体素拼接特征的点云中的目标点输入到已训练好的偏移量预测神经网络，并继续执行A1中的获得目标点的偏移量等后续步骤。

图3是本发明实施例提供的一种三维点云数据的全景分割方法的流程图，本实施例可适用于高效精准的全景分割的情况，该方法可以由三维点云数据的全景分割装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在电子设备中。该电子设备可以是终端设备，也可以是服务器设备等，本发明实施例并不对执行三维点云数据的全景分割方法的电子设备的类型进行限定。相应的，如图3所示，该方法包括如下操作：

S310、获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得目标点的偏移量。

其中，目标点可以是区别于背景的需要进行实例分割的点。示例性的，在汽车自动驾驶领域中，目标点可以是点云中表征车和/或人的点。本发明实施例对目标点表征的具体实体类型不作限定。偏移量预测神经网络还可以用于确定点云中的点在中心聚类时，各点的偏移量。本发明实施例并不对偏移量预测神经网络的具体类型进行限定。

在本发明实施例中，可以首先对点云进行语义分割，获取带有语义类型的点云，进而从带有语义类型的点云中确定需要进行实例分割的各目标点，从而将点云中的各目标点输入至已训练好的偏移量预测神经网络中，并根据偏移量预测神经网络对各目标点进行中心聚类，获得各目标点的偏移量。

示例性的，可以将语义类型为车和行人的点云中的点作为目标点，进而将车和行人的点云中的点输入至已经训练好的偏移量预测神经网络，偏移量预测神经网络可以将各点云中的点向所属的点云中心进行聚类，得到目标点向各自点云中心的偏移量。

S320、基于偏移量和目标点，获得偏移点。

其中，偏移点可以是根据偏移量对目标点进行位置偏移后的点。

在本发明实施例中，可以根据与各目标点匹配的偏移量，对各目标点分别进行位置偏移处理，得到各偏移点。

S330、将偏移点向预设的图像进行俯视投影，并根据图像中每个像素中偏移点的数量，获得每个像素的像素值。

其中，预设的图像可以是预先设定的二维图像，预设的图像的尺寸可以根据展示需要进行自行设定。预设的图像即为上文中的目标预设图像。

在本发明实施例中，可以先根据需要获取预设的图像，进而将偏移点向预设的图像进行俯视投影，从而根据俯视投影时预设的图像中每个像素点落入的偏移点的数量，确定预设的图像中每个像素的像素值。

S340、根据像素值，获取预设区域里像素值最高的像素。

其中，预设区域可以是预设的图像中的区域。可选的，可以按照需要对预设的图像进行划分得到多个预设区域，还可以将整个预设的图像作为一个预设区域。示例性的，假设预设的图像的尺寸为3dm*7dm，若将预设的图像划分成100个尺寸相同的预设区域，则预设区域的尺寸为0.3dm*0.7dm。

在本发明实施例中，可以根据预设的图像中每个像素的像素值以及预设的图像的预设区域，确定预设区域中像素值最高的像素。具体的，当预设的图像划分为一个预设区域时，将预设的图像中像素值最高的像素，作为预设区域里像素值最高的像素。当预设的图像划分为多个预设区域时，分别获取各预设区域中像素值最高的像素。

S350、根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识。

其中，目标中心可以是预设区域里像素值最高的像素在预设的图像中的位置，用于代表实例中心。可选的，当预设的图像划分为一个预设区域时，目标中心唯一，当预设的图像划分为多个预设区域时，每个预设区域存在一个目标中心。实例标识可以是用于区分不同实例的标记。

在本发明实施例中，可以将像素值最高的像素在预设的图像的位置作为目标中心，从而建立目标中心与预设区域的一对一匹配关系，进而为目标中心分配匹配的实例标识。具体的，当预设的图像划分为一个预设区域时，仅需为一个目标中心分配实例标识。当预设的图像划分为多个预设区域时，需要为与各预设区域分别对应的各目标中心分配匹配的实例标识。

S360、根据目标中心的实例标识，获得属于目标中心的目标点的实例标识。

在本发明实施例中，可以将目标中心的实例标识分配至目标中心所在点云的其他目标点，也即将目标中心的实例标识分配至属于目标中心的目标点，以使属于目标中心的目标点获得实例标识。

本实施例的技术方案，通过获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得目标点的偏移量，从而基于偏移量和目标点，获得偏移点，进一步将偏移点向预设的图像进行俯视投影，并根据图像中每个像素中偏移点的数量，获得每个像素的像素值，进而根据像素值，获取预设区域里像素值最高的像素，并根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识，以根据目标中心的实例标识，获得属于目标中心的目标点的实例标识。在本方案中偏移点俯视投影后，根据预设区域里像素值最高的像素确定目标中心，可以使目标中心与偏移点具有良好的对应关系，还可以使目标点所在点云确定唯一的中心。根据目标中心的实例标识，获得属于目标中心的目标点的实例标识，可以高效准确的确定属于目标中心的目标点的实例标识，解决了现有技术中目标检测网络检测出的目标中心的数量存在误差，导致目标中心与偏移点的对应关系无法得到保证、系统耗时增加以及数据预准备的复杂度高的问题，还解决了引入启发式聚类算法导致的耗时严重以及参数调整复杂的问题，能够在保证系统运行效果的前提下，降低数据配置复杂度，高效精准的实现全景分割。

图4是本发明实施例提供的另一种三维点云数据的全景分割方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了将偏移点向预设的图像进行俯视投影的具体的可选的实施方式，将偏移点向预设的图像进行俯视投影的具体过程，可以为：获取偏移点的预设的空间尺寸；基于预设的空间尺寸，获得预设的图像；其中，预设的空间尺寸与预设的图像中的每个像素匹配；将偏移点向预设的图像进行俯视投影。相应的，如图4所示，该方法包括如下操作：

S410、获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得目标点的偏移量。

在本发明的一个可选实施例中，获取带有语义类型的点云，可以包括：获取激光雷达扫描得到的点云；将点云输入至预先训练的语义分割神经网络中，获取带有语义类型的点云。

其中，语义分割神经网络可以是任意类型的神经网络，只要能对点云进行语义分割即可，本发明实施例并不对语义分割神经网络的具体类型进行限定。

在本发明实施例中，可以基于激光雷达对需要扫描的空间进行扫描，得到点云，进而将点云输入至预先训练的语义分割神经网络中，以通过语义分割神经网络对点云的语义类型进行识别，得到带有语义类型的至少一个点云。

S420、基于偏移量和目标点，获得偏移点。

S430、获取偏移点的预设的空间尺寸。

在本发明实施例中，可以根据预设的图像的分辨率要求，对俯视视角下的偏移点的俯视二维图像进行划分，确定偏移点的预设的空间尺寸。

S440、基于预设的空间尺寸，获得预设的图像。

其中，预设的空间尺寸与预设的图像中的每个像素匹配，预设的图像的一个像素与二维空间中预设的空间尺寸相对应。

在本发明实施例中，可以基于预设的空间尺寸，获得像素与预设的空间尺寸匹配的预设的图像。

示例性的，假设预设的空间尺寸为0.2m*0.3m，则预设的图像的每个像素与一个0.2m*0.3m的空间尺寸对应。

S450、将偏移点向预设的图像进行俯视投影，并根据图像中每个像素中偏移点的数量，获得每个像素的像素值。

在本发明实施例中，可以将偏移点向预设的图像进行俯视投影，在俯视投影时可以统计预设的图像的每个像素中投影的偏移点的数量，进而将预设的图像的每个像素中投影的偏移点的数量作为每个像素点的特征信息，从而确定每个像素的像素值。

S460、根据像素值，获取预设区域里像素值最高的像素。

具体的，当预设的图像划分为一个预设区域时，比较预设的图像中每个像素的像素值，将预设的图像中像素值最高的像素作为预设区域里像素值最高的像素。当预设的图像划分为多个预设区域时，分别获取各预设区域中每个像素的像素值，进而以预设区域为单位对各预设区域中每个像素的像素值进行比较(仅对属于相同预设区域内像素的像素值进行比较)，从而获得取各预设区域像素值最高的像素。

S470、根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识。

S480、根据目标中心的实例标识，获得属于目标中心的目标点的实例标识。

在一个具体的例子中，执行三维点云数据的全景分割方法的全景分割系统，可以用于确定点云的语义类型以及不同实例的实例标识，全景分割系统可以包括语义分割模块、中心回归模块、聚类伪热力图生成模块以及中心重组模块。将无人车的激光雷达扫描的如图5所示的当前视野空间的点云，输入至全景分割系统的语义分割模块，基于语义分割模块的语义分割神经网络(如现有的PointNet、PolarNet等)对点云的语义类型进行识别，得到带有语义类型的点云，并将带有语义类型的点云输入至中心回归模块，语义分割结果参照图6。

中心回归模块用于根据逐点的语义类型，筛选出属于前景点(目标点)类型的点云，如行人、车辆的点云(此时还无法区分属于不同实例的点，如属于两辆不同车辆的点云无法被区分开)，进而将前景点输入至已训练好的偏移量预测神经网络，得到前景点的偏移量ΔP＝(Δx，Δy，Δz)，从而基于前景点的位置坐标P＝(x，y，z)以及前景点的偏移量，对前景点进行位置偏移，也即对前景点进行中心回归，得到偏移点的点云，(偏移点的点云示意图可参见图7)，将三维空间的偏移点发送至聚类伪热力图生成模块。经过上述处理个前景点都向各自实例发生了聚集，不同实例点间的空间距离也被增大。其中，ΔP表示前景点的偏移量，Δx表示前景点在x轴上的偏移量，Δy表示前景点在y轴上的偏移量，Δz表示前景点在z轴上的偏移量。P表示前景点的位置前景点的位置坐标，x表示前景点在x轴上的坐标，y表示前景点在y轴上的坐标，z表示前景点在z轴上的坐标。

聚类伪热力图生成模块，用于将三维空间的偏移点的俯视视角下的二维图像投影到预设的图像，并根据预设的图像中每个像素中偏移点的数量，绘制伪热力图。该伪热力图与目标检测网络预测目标的作用相似，但不需要通过训练一个神经网络来获得。在现实中，不同的前景点在俯视视角下极少发生重叠，所以俯视图是相对理想的处理不同实例信息的空间，信息被降到2D后，一些高效的计算机视觉算子能够被加以利用。在投影过程中，定义2D照片(预设的图像)的每一个像素对应偏移点的俯视视角下的二维图像的中0.2m*0.2m的空间尺寸，所有偏移点都可以被投影到一张尺寸为(H，W)的2D照片中，记录每一个像素落入的偏移点的个数，简单的以点的个数为像素的特征信息，一张聚类的伪热力图便被生成了，如图8所示。基于这张伪热力图，可以将局部峰值最高的像素(预设区域像素值最高的像素)表示目标中心。可选的，可以基于滑窗式的2D最大池化操作，高效的提取出2D照片中像素的局部峰值的位置，得到目标中心。在获得目标中心后，可以为每一个目标中心分配一个实例ID，所有偏移点都将基于最紧邻的原则被分配为距离自身最近的目标中心的实例ID(如果偏移点距离多个目标中心的距离相同，则将与偏移点距离相同的一个目标中心的实例ID作为该偏移点的实例)，所有的前景点便获得了实例ID，且不依赖于启发式的聚类算法，加上语义分割模块中已经预测出的所有点云的语义类型，即可完成高效的全景分割任务。

在获得三维空间的偏移点后，还可以通过目标检测网络基于目标级别的信息对这些前景点做划分，若已经检测出空间中存在若干个车辆、行人，可以根据目标检测网络，判断前景点具体属于哪一个物体即可完成实例分割的任务，而通过一个目标检测网络来预测目标级别的信息，一方面增加了系统耗时，另一方面，目标检测网络预测出的目标在数量和位置上可能存在与聚集的点簇不一致的结果。而聚类伪热力图生成模块确定的目标中心与被平移后的前景点簇(偏移点构成的簇)有着天然的对应关系，只要有前景点聚集的地方，就一定有一个目标中心被生成。相比之下，基于目标检测网络来确定目标中心，检测出的目标物体的数量无法保证，检测出来的目标中心与聚集的点簇信息在位置上无法保证有良好的对应关系。

目标中心的产生基于前景点向实例中心的聚集，在驾驶场景中，属于小目标的点云向中心回归的效果会普遍优于大目标，大目标在激光雷达传感器中更容易只被观察到局部信息，如图9中一辆小车预测出一个实例ID，公交车预测出多个实例ID，即属于小车的点向小车中心的聚集效果较好，经过上述操作获得了正确的实例ID，而属于公交车的点，当公交车离激光雷达较近时，公交车只有一面被激光雷达扫描到，偏移量预测神经网络没有足够的信息准确推理属于公交车点的偏移量，参照公交车放大图形中的点云的分段结果可以确定属于公交车的点会被预测出了4个目标中心，从而产生了4个实例ID，而不是期望的单实例ID。

为了在中心回归不理想的情况下也能良好分割大目标，通过中心重分组模块，可以对目标中心做一次分组，被划分为相同组的目标中心具备相同的实例ID。具体做法如下：

1、基于伪热力图，利用窗口2D均值池化操作统计每一个像素附近(滑窗内)不同语义类别点的个数，基于最大个数投票的原则确定每个像素的语义类别。

2、赋予每个语义类别一个先验的尺寸(先验尺寸数据)，这个尺寸来源于目标检测数据集的统计，如针对小车，可以基于数据集统计小车的平均尺寸，基于这个尺寸确立每个语义类别的最小半径R＝0.5*min(L,W)，其中W，L代表了目标的平均宽和长。

3、经过以上步骤，每个目标中心都有各自的最小半径，可以视为各自的带宽，从某一个目标中心开始遍历，在这次遍历中其被视为基础中心C_b，实例ID为G_b，最小带宽为B_b，若在带宽内存在另一个目标中心C_t，其ID为G_t，则所有ID为G_t的中心都将被重新分配为基础中心的实例ID，即G_b。除了带宽约束，还可以增加基础中心C_b和目标中心C_t必须为同一语义类别的约束，这样对于拥挤场景的不同语义类别效果会更好，如对离车辆很近的行人的区分。

直至完成全部目标中心的遍历，满足步骤3条件的目标中心会被重新分配实例ID，如图10所示，经过中心重分组后，原本被划分为多ID的公交车能够被完整分割，使公交车有且仅有一个实例ID。

图11是本发明实施例提供的一种全景分割系统的数据处理的流程图，如图11所示，全景分割系统接收激光雷达扫描的点云，进而基于语义分割神经网络对点云进行语义分割，得到带有语义类型的点云，并基于语义类型筛选点云中的前景点，并对前景点进行中心回归处理(即根据偏移量对前景点进行移动)，得到偏移点，并进一步将偏移点向2D照片进行俯视投影，生成伪热力图，从而基于伪热力图中像素的像素值，获得多个目标中心。在得到多个目标中心之后，对目标中心进行中心重分组，得到各目标中心的实例ID。

在点云全景分割领域，Panoptic-PolarNet方法目前是业界领先的，其通过训练的目标检测网络来获得目标中心的热力图(目标级别的信息)，将热力图引入本方案的全景分割系统，也即替换掉聚类伪热力图生成模块，得到学习的热力图的全景分割方法。在表1中可以看到本方案的三维点云数据的全景分割方法显著提高了全景分割精度(PQ:panopticquality)。

表1学习的热力图的全景分割方法与本方案的全景分割效果的对比表

如表1所示，根据学习的热力图的全景分割方法对点云中所有点进行全景分割后的PQ为69.1，而利用本方案的全景分割方法对点云中所有点进行全景分割后的PQ为73.4(相较于学习的热力图的全景分割方法提升了4.3)，可见本方案在对点云中所有点进行全景分割时的全景分割精度得到了提升。根据学习的热力图的全景分割方法对点云中前景点进行全景分割后的PQ为65.7，而利用本方案的全景分割方法对点云中前景点进行全景分割后的PQ为72.5(相较于学习的热力图的全景分割方法提升了6.8)，可见本方案在对点云中所有点以及前景点进行全景分割时的全景分割精度得到了提升。

本方案的全景分割方法在业界最主要的两大数据集semanticKITTI和nuScenes的全景分割任务上均排名第一，具体可参见表2和表3的对比情况。

表2三种评估维度下的全景分割方法的分割效果对比表

其中，SQ表示分割质量，SQ(Th)表示对前景点的分割质量。如表2所示，本方案与Sxubj全景分割方法的全景分割精度相同，且全景分割精度高于AF2S3Net全景分割方法。相较于Sxubj全景分割方法和AF2S3Net全景分割方法，本方案的全景分割方法的分割质量更高。而且相较于Sxubj全景分割方法和AF2S3Net全景分割方法，本方案的全景分割方法对前景点进行全景分割时的分割质量更高，可见本方案的全景分割方法的分割质量最好。

表3四种评估维度下全景分割方法的分割效果对比表

方法名	PQ	mIoU	SQ	RQ
					Panoptic-PHNet(本方案)	0.815	0.815	0.919	0.884
SPVCNN++-Panoptic	0.791	0.803	0.909	0.868
					Team_AX_Semantioc	0.731	0.730	0.888	0.818
PolarStrem-1	0.709	0.697	0.859	0.817

其中，mIoU表示语义分割的评估指标，指预测出来的东西和真值做交比并集的计算，预测的东西和真值约接近，mIoU约接近1。RQ表示识别质量。如表3所示，本方案的全景分割方法相较于SPVCNN++-Panoptic、Team_AX_Semantioc以及PolarStrem-1全景分割方法，在全景分割精度、语义分割、分割质量以及识别质量这4个指标上效果均为最佳，表明本方案的全景分割方法的全景分割效果最好。

综上，本方案提出的三维点云数据全景分割方法，不依赖于目标检测的结果，也不依赖于对经验参数有很高要求且耗时严重的启发式聚类算法，相较于依赖目标检测来分割不同点云实例的方法，本方案无需引入目标检测网络，而依赖目标检测的方法严重受限于目标检测的精度，而伪热力图的生成不依赖于需要学习的目标级别的任务的引入，通过一致性的投影操作，可以获得绝对高召回率目标级别的信息输出，配合中心重分组模块，整个实例分割部分的精度与效率相较于先有方法有巨大提升，从而提升细粒度的点云感知任务的效率，并且本方案扩展性强，在统一的框架下能够获得细粒度的语义信息、实例信息、以及目标中心的信息。

本实施例的技术方案，通过获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得目标点的偏移量，进而基于偏移量和目标点，获得偏移点，并获取预设的空间尺寸，从而基于预设的空间尺寸，获得预设的图像，进一步将偏移点向预设的图像进行俯视投影，并根据图像中每个像素中偏移点的数量，获得每个像素的像素值，以根据像素值，获取预设区域里像素值最高的像素，从而根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识，最终根据目标中心的实例标识，获得属于目标中心的目标点的实例标识。在本方案中偏移点俯视投影后，根据预设区域里像素值最高的像素确定目标中心，可以使目标中心与偏移点具有良好的对应关系，还可以使目标点所在点云确定唯一的中心。根据目标中心的实例标识，获得属于目标中心的目标点的实例标识，可以高效准确的确定属于目标中心的目标点的实例标识。而根据基于预设的空间尺寸，获得预设的图像，可以建立预设的空间尺寸与获得预设的图像的像素的对应关系，以灵活满足像素的显示需求，解决了现有技术中目标检测网络检测出的目标中心的数量存在误差，导致目标中心与偏移点的对应关系无法得到保证、系统耗时增加以及数据预准备的复杂度高的问题，还解决了引入启发式聚类算法导致的耗时严重以及参数调整复杂的问题，能够在保证系统运行效果的前提下，降低数据配置复杂度，灵活的满足用户的像素显示需求，高效精准的实现全景分割。

图12是本发明实施例提供的一种三维点云数据的全景分割装置的示意图，如图12所示，所述装置包括：偏移量获取模块510、偏移点获得模块520、像素值获得模块530、峰值像素获取模块540、第一实例标识分配模块550以及第二实例标识分配模块560，其中：

偏移量获取模块510，用于获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得目标点的偏移量；

偏移点获得模块520，用于基于偏移量和目标点，获得偏移点；

像素值获得模块530，用于将偏移点向预设的图像进行俯视投影，并根据图像中每个像素中偏移点的数量，获得每个像素的像素值；

峰值像素获取模块540，用于根据像素值，获取预设区域里像素值最高的像素；

第一实例标识分配模块550，用于根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识；

第二实例标识分配模块560，用于根据目标中心的实例标识，获得属于目标中心的目标点的实例标识。

可选的，偏移量获取模块510，具体用于获取激光雷达扫描得到的点云；将所述点云输入至预先训练的语义分割神经网络中，获取带有语义类型的点云。

可选的，像素值获得模块530，具体用于获取预设的空间尺寸；基于所述偏移点的预设的空间尺寸，获得预设的图像；其中，所述预设的空间尺寸与预设的图像中的每个像素匹配；将所述偏移点向预设的图像进行俯视投影。

可选的，峰值像素获取模块540，具体用于比较所述预设区域中每个像素的像素值，获取所述预设区域像素值最高的像素。

可选的，第一实例标识分配模块550，具体用于获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内不存在其他目标中心时，不更新所述当前目标中心的实例标识。

可选的，第一实例标识分配模块550，具体用于获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内存在其他目标中心时，将所述待检测范围内存的目标中心的实例标识进行合并处理。

可选的，第一实例标识分配模块550，具体用于获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内存在的其他目标中心，并与所述当前目标中心的语义类型相同时，将所述待检测范围内存的目标中心的实例标识进行合并处理。

上述三维点云数据的全景分割装置可执行本发明任意实施例所提供的三维点云数据的全景分割方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的三维点云数据的全景分割方法。

由于上述所介绍的三维点云数据的全景分割装置为可以执行本发明实施例中的三维点云数据的全景分割方法的装置，故而基于本发明实施例中所介绍的三维点云数据的全景分割方法，本领域所属技术人员能够了解本实施例的三维点云数据的全景分割装置的具体实施方式以及其各种变化形式，所以在此对于该三维点云数据的全景分割装置如何实现本发明实施例中的三维点云数据的全景分割方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中三维点云数据的全景分割方法所采用的装置，都属于本申请所欲保护的范围。

本发明实施例还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的三维点云数据的全景分割方法，包括：获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得目标点的偏移量；基于偏移量和目标点，获得偏移点；将偏移点向预设的图像进行俯视投影，并根据图像中每个像素中偏移点的数量，获得每个像素的像素值；根据像素值，获取预设区域里像素值最高的像素；根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识；根据目标中心的实例标识，获得属于目标中心的目标点的实例标识。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory，ROM)、可擦式可编程只读存储器((Erasable Programmable Read OnlyMemory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

图13是本发明提供的另一种全景分割系统，如图13所示，全景分割系统，包括：体素编码器、2D俯视图编码器、2D基础网络、第一特征拼接模块、第二特征拼接模块、Knn-Transformer模块、语义分类器、中心回归模块、聚类伪热力图生成模块以及中心重组模块。其中，

体素编码器可以先获取N_p×K的点云，以及点云中点的K维点特征，并将点云进行体素化，确定各体素内所划入的点，将点云划分为

的第一待处理矩阵图，针对点云中的每一个点利用MLP(Multilayer Perceptron，多层神经网络)层将每个点的特征维度从K维提升至256维，进一步针对

的维度应用maxpooling(最大池化层)对升维后的第一待处理矩阵图进行压缩，输出N×1×256维度的特征，最后再用MLP层，将256维压缩至16，得到Nx16的特征矩阵，此特征矩阵代表了N个体素的16维特征。并将Nx16的特征矩阵发送至2D俯视图编码器。

2D俯视图编码器，用于接收Nx16的特征矩阵，并预先设定一个HxW的空间俯视图(预设图像)，根据体素中心所在的位置将N个体素投影至HxW的空间俯视图中，进而将空间俯视图划分成H x W x

x 16的第二待处理矩阵图，其中

表示像素落入不同体素的数量，从而利用MLP层将体素特征的特征维度从16升到64，然后针对

的维度，利用maxpooling层将其压缩，得到一个HxWx64的2D特征图(待处理像素特征图)。将2D特征图输入给2D基础网络(二维语义分割网络)。

2D基础网络，用于提取俯视图视角下更大感受野的特征，并输出两个不同的HxWxL的特征图，其中一个HxWxL的特征图可以提供L维的第一像素特征，另一个HxWxL的特征图可以提供L维的第二像素特征。

第一特征拼接模块，为了对每一个体素做分类，提取每一个体素辨识度高的特征，根据N个体素落入空间俯视图各像素的情况，将第一像素特征分配给每一个体素，得到NxL维信息。具体可以将落入相同像素的至少一个体素分配与该像素对应的L维第一像素特征。由于处于空间中相同柱状体内的体素，其L维信息是相同，不具备彼此的区分性，因此，将NxL维信息和每个体素的Nx16维信息拼接在一起，得到NxC维的第一体素拼接特征，其中C＝L+16。这样设置的意义在于L维信息是空间俯视图上经过大感受野卷积操作提取出的特征，方便快速区分空间俯视图中落入不同像素的体素，而16维信息是各体素独立获取的特征，有助于区分属于俯视图下落入同一像素的体素。

由于体素编码器耗时非常少，点云数据处理系统耗时占比大的地方主要在2D基础网络，融合体素特征和像素特征，可以使得点云数据处理系统的耗时和2D网络相近，并获得区分性更强的体素的特征。

语义分类器，用于获取与体素对应的第一体素拼接特征，并根据第一体素拼接特征对体素的语义类型进行识别，从而根据体素的语义类型将目标体素的索引发送至第二特征拼接模块。

第二特征拼接模块，用于根据N个体素落入空间俯视图各像素的情况，将第二像素特征分配给每一个体素，得到NxL维信息，具体可以将落入相同像素的至少一个体素分配与该像素对应的L维第二像素特征，将NxL维信息和每个体素的Nx16维信息拼接在一起，得到NxC维的第二体素拼接特征。假设语义分类器发送至本模块的目标体素的索引为M个，可以筛选出与目标体素对应的MxC维的第二体素拼接特征。进一步将MxC维的第二体素拼接特征发送至Knn-Transformer模块。

现有的transformer计算注意力矩阵时，会计算任意一个体素和其他所有体素的相似度关系，生成MxM的注意力矩阵，其计算复杂度高且占用内存大。而本方案中的Knn-Transformer模块，通过输入MxC维的第二体素拼接特征(M是目标体素的数量，C为目标体素拼接特征的维度)，基于目标体素的位置信息，直接为每一个目标体素寻找k个目标邻居体素，然后生成一张Mxk的局部注意力矩阵图，并输出优化体素拼接特征，进而将优化体素拼接特征发送至中心回归模块。本方案通过Knn-Transformer模块代替现有的transformer模型，可以大大降低计算复杂度。

中心回归模块用于将优化体素拼接特征输入至已训练好的偏移量预测神经网络，得到目标体素的偏移量ΔP＝(Δx，Δy，Δz)，从而基于目标体素中心的位置坐标P＝(x，y，z)以及目标体素中心的偏移量，对目标体素进行位置偏移，也即对目标体素进行中心回归，得到偏移体素，将三维空间的偏移体素发送至聚类伪热力图生成模块。经过上述处理个前景点都向各自实例发生了聚集，不同体素间的空间距离也被增大。其中，ΔP表示目标体素中心的偏移量，Δx表示目标体素中心在x轴上的偏移量，Δy表示目标体素中心在y轴上的偏移量，Δz表示目标体素中心在z轴上的偏移量。P表示目标体素中心的位置坐标，x表示目标体素中心在x轴上的坐标，y表示目标体素中心在y轴上的坐标，z表示前景中心在z轴上的坐标。

聚类伪热力图生成模块，用于将三维空间的偏移体素的俯视视角下的二维图像投影到目标预设图像，并根据目标预设图像中每个像素中偏移体素的数量，绘制伪热力图。该伪热力图与目标检测网络预测目标的作用相似，但不需要通过训练一个神经网络来获得。在现实中，不同的目标体素在俯视视角下极少发生重叠，所以俯视图是相对理想的处理不同实例信息的空间，信息被降到2D后，一些高效的计算机视觉算子能够被加以利用。在投影过程中，定义2D照片(预设的图像)的每一个像素对应偏移体素的俯视视角下的二维图像的中0.2m*0.2m的空间尺寸，所有偏移体素都可以被投影到一张尺寸为(H，W)的2D照片中，记录每一个像素落入的偏移体素的个数，简单的以点的个数为像素的特征信息，一张聚类的伪热力图便被生成了。基于这张伪热力图，可以将局部峰值最高的像素(预设区域像素值最高的像素)表示目标中心。可选的，可以基于滑窗式的2D最大池化操作，高效的提取出2D照片中像素的局部峰值的位置，得到目标中心。在获得目标中心后，可以为每一个目标中心分配一个实例ID，所有偏移体素都将基于最紧邻的原则被分配为距离自身最近的目标中心的实例ID(如果偏移体素距离多个目标中心的距离相同，则将与偏移体素距离相同的一个目标中心的实例ID作为该偏移体素的实例)，所有的目标体素便获得了实例ID，且不依赖于启发式的聚类算法，加上语义分类器中已经预测出的所有体素的语义类型，即可完成高效的全景分割任务。

在获得三维空间的偏移体素后，判断目标体素具体属于哪一个物体即可完成实例分割的任务，而通过一个目标检测网络来预测目标级别的信息，一方面增加了系统耗时，另一方面，目标检测网络预测出的目标在数量和位置上可能存在与聚集的体素簇不一致的结果。而聚类伪热力图生成模块确定的目标中心与被平移后的目标体素簇(偏移体素构成的簇)有着天然的对应关系，只要有目标体素聚集的地方，就一定有一个目标中心被生成。相比之下，基于目标检测网络来确定目标中心，检测出的目标物体的数量无法保证，检测出来的目标中心与聚集的目标体素簇信息在位置上无法保证有良好的对应关系。

目标中心的产生基于目标体素向实例中心的聚集，在驾驶场景中，属于小目标的体素向中心回归的效果会普遍优于大目标，大目标在激光雷达传感器中更容易只被观察到局部信息。例如，一辆小车预测出一个实例ID，公交车预测出多个实例ID，即属于小车的体素向小车中心的聚集效果较好，经过上述操作获得了正确的实例ID，而属于公交车的体素，当公交车离激光雷达较近时，公交车只有一面被激光雷达扫描到，偏移量预测神经网络没有足够的信息准确推理属于公交车体素的偏移量，参照公交车放大图形中的分段结果可以确定属于公交车的体素会被预测出了4个目标中心，从而产生了4个实例ID，而不是期望的单实例ID。

为了在中心回归不理想的情况下也能良好的分割大目标，通过中心重分组模块，可以对目标中心做一次分组，被划分为相同组的目标中心具备相同的实例ID。具体做法如下：

1、基于伪热力图，利用窗口2D均值池化操作统计每一个像素附近(滑窗内)不同语义类别体素的个数，基于最大个数投票的原则确定每个像素的语义类别。

直至完成全部目标中心的遍历，满足步骤3条件的目标中心会被重新分配实例ID，经过中心重分组后，原本被划分为多ID的公交车能够被完整分割，使公交车有且仅有一个实例ID。

本方案中提出的全景分割系统的全景分割效果可以参见表4以及表5。

表4 2D网络提取特征与体素拼接特征进行全景分割的分割效果对比表

方法	PQ	mIoU
			俯视图特征	60.6	64.5
体素拼接特征	61.7	65.7

如表4所示，在semanticKITTI数据集上，其中俯视图特征代表的是2D网络提取特征的方法，相较于俯视图特征方法，本方案利用体素拼接特征进行全景分割指标PQ上提升了1.1％，mIoU指标上提升了1.2％。

表5有无Knn-Transformer模块的全景分割效果对比表

方法	PQ	PQ<sup>Th</sup>
			无Knn-Transformer模块	61.2	68.1
有Knn-Transformer模块	61.7	69.3

如表5所示，针对全景分割任务，基于Knn-Transformer模块强化目标体素拼接特征来预测每个体素的实例中心偏移，进而进行后续的实例分割，相较于无Knn-Transformer模块的方式，PQ指标上提升了0.5％，在PQ^Th指标上提升了1.2％。PQ^Th表示目标体素的全景分割精度。

如图14显示了Knn-Transformer模型中，目标邻居体素个数k的取值对分割精度的影响。随着k的增大，目标体素的全景分割精度PQ^Th在提升，但在达到25之后就基本饱和了，甚至将k提升到最大值N，精度也不会发生变化。当k提升到最大值时，意味着任意体素和其他所有体素计算相似度关系，等价为现有的transformer网络。当Knn-Transformer模块在k取值为25时，就已经和现有transformer在点云全景分割任务中取得一样的精度，但是我们的计算复杂要远低于现有的tansformer。若输入有M个元素，现有的transformer计算复杂度是M²，而本方案的计算复杂度是Mxk，其中k取值25。由于一帧点云体素的数量往往成千上万，基于本方案的Knn-Transformer模型可以大大降低注意力矩阵图的计算复杂度。

图15是本发明实施例提供的一种全景分割的流程图，如图15所示，可以将雷达点云输入至体素编码器，体素编码器将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征，并将体素特征输入至2D俯视图编码器，以通过2D俯视图编码器生成待处理像素特征图，并将待处理像素特征图发送至2D基础网络。通过2D基础网络得到各体素在预设图像中的像素特征，将体素特征以及像素特征进行特征拼接，得到体素拼接特征，从而将体素拼接特征分别输入至语义分类器和Knn-Transformer模块，进一步根据语义分类器的输出结果得到各体素以及点云中点的语义类型，并基于Knn-Transformer模块利用体素拼接特征中的目标体素拼接特征获取优化体素拼接特征，进而将优化体素拼接特征输入至实例分割器，进行实例分割。

图16为本发明实施例提供的一种点云数据的处理装置的结构示意图。如图16所示，该装置包括：体素特征获取模块710、像素特征获取模块720以及特征拼接模块730，其中：

体素特征获取模块710，用于将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征；

像素特征获取模块720，用于将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征；

特征拼接模块730，用于将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。

本实施例的技术方案，通过将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征，进而将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征，从而将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。将体素特征以及像素特征进行融合，可以提升体素的特征的表达能力，而利用体素拼接特征可以对点云中目标进行快速识别分类，解决了现有技术中基于2D网络提取的特征对体素的区分度较差，以及3D网络对体素的特征进行识别时内存占用大耗时严重的问题，提升体素的特征表达能力，并提高点云数据的数据处理效果。

可选的，体素特征获取模块710,具体用于点特征，获取各体素的体素特征，包括：根据所述各体素内所划入点的点特征以及所述体素的数量，生成第一待处理矩阵图；利用多层神经网络以及最大池化层，对所述第一待处理矩阵图进行特征维度处理，得到各体素的体素特征。

可选的，像素特征获取模块720，具体用于根据所述投影结果获取第二待处理矩阵图；利用多层神经网络以及最大池化层，对所述第二待处理矩阵图进行特征维度处理，得到待处理像素特征图；获取二维语义分割网络；将所述待处理像素特征图，输入至所述二维语义分割网络，得到各体素在预设图像中的像素特征。

可选的，点云数据的处理装置还包括语义分割模块，用于将与所述体素对应的体素拼接特征输入至语义分类器，获得带有语义类型的体素；根据所述带有语义类型的体素以及体素中点云中的点，获取带有语义类型的点云。

可选的，点云数据的处理装置还包括实例分割模块，用于根据所述带有语义类型的体素，获取目标体素；基于所述体素拼接特征和所述目标体素，获取所述目标体素的目标体素拼接特征；根据所述目标体素拼接特征，对所述目标体素进行实例分割。

可选的，实例分割模块，具体用于基于最邻近节点算法，获取与所述目标体素匹配的目标邻居体素；基于所述体素拼接特征，获取所述目标邻居体素的目标邻居体素拼接特征；根据所述目标体素拼接特征以及所述目标邻居体素拼接特征，创建局部注意力矩阵图；根据所述局部注意力矩阵图，获取目标体素的优化体素拼接特征；根据所述优化体素拼接特征，对所述目标体素进行实例分割。

可选的，实例分割模块包括偏移量获取单元、偏移体素获得单元、像素值获得单元、峰值像素获取单元、第一实例标识分配单元以及第二实例标识分配单元；其中，偏移量获取单元用于将所述目标体素拼接特征输入到已训练好的偏移量预测神经网络，获得所述目标体素的偏移量；偏移体素获得单元，用于基于所述偏移量和所述目标体素，获得偏移体素；像素值获得单元，用于将所述偏移体素向目标预设图像进行俯视投影，并根据所述目标预设图像中每个像素中偏移体素的数量，获得每个像素的像素值；第一实例标识分配单元，用于根据所述像素值，获取预设区域里像素值最高的像素；根据所述像素值最高的像素确定目标中心，并为所述目标中心分配匹配的实例标识；第二实例标识分配单元，用于根据所述目标中心的实例标识，获得属于所述目标中心的目标体素的实例标识。

可选的，偏移量获取单元，还用于将所述优化体素拼接特征输入到已训练好的偏移量预测神经网络，获得所述目标体素的偏移量。

可选的，像素值获得单元，具体用于获取所述偏移体素的预设的空间尺寸；基于所述预设的空间尺寸，获得目标预设图像；其中，所述预设的空间尺寸与目标预设图像中的每个像素匹配；将所述偏移体素向目标预设图像进行俯视投影。

可选的，峰值像素获取单元，具体用于比较所述预设区域中每个像素的像素值，获取所述预设区域像素值最高的像素。

可选的，第一实例标识分配单元，具体用于获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内不存在其他目标中心时，不更新所述当前目标中心的实例标识。

可选的，第一实例标识分配单元，具体用于获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内存在其他目标中心时，将所述待检测范围内存的目标中心的实例标识进行合并处理。

可选的，第一实例标识分配单元，具体用于获取当前目标中心，以及与待处理语义类型匹配的先验尺寸数据；根据所述当前目标中心以及所述先验尺寸数据，获取与所述当前目标中心匹配的待检测范围；在确定所述待检测范围内存在的其他目标中心，并与所述当前目标中心的语义类型相同时，将所述待检测范围内存的目标中心的实例标识进行合并处理。

本发明实施例所提供的点云数据的处理装置可执行本发明任意实施例所提供的点云数据的处理方法，具备执行方法相应的功能模块和有益效果。

图17示出了可以用来实施本发明的实施例的电子设备的结构示意图。如图17所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如点云数据的处理方法。

在一些实施例中，云数据的处理方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的点云数据的处理方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征；将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征；将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。处理器11还可以被配置为执行获取带有语义类型的点云，将点云中的目标点输入到已训练好的偏移量预测神经网络，获得目标点的偏移量；基于偏移量和目标点，获得偏移点；将偏移点向预设的图像进行俯视投影，并根据图像中每个像素中偏移点的数量，获得每个像素的像素值；根据像素值，获取预设区域里像素值最高的像素；根据像素值最高的像素确定目标中心，并为目标中心分配匹配的实例标识；根据目标中心的实例标识，获得属于目标中心的目标点的实例标识。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种点云数据的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各体素内所划入点的点特征，获取各体素的体素特征，包括：

根据所述各体素内所划入点的点特征以及所述体素的数量，生成第一待处理矩阵图；

利用多层神经网络以及最大池化层，对所述第一待处理矩阵图进行特征维度处理，得到各体素的体素特征。

3.根据权利要求1所述的方法，其特征在于，所述根据投影结果，获取各体素在预设图像中的像素特征，包括：

根据所述投影结果获取第二待处理矩阵图；

利用多层神经网络以及最大池化层，对所述第二待处理矩阵图进行特征维度处理，得到待处理像素特征图；

获取二维语义分割网络；

将所述待处理像素特征图，输入至所述二维语义分割网络，得到各体素在预设图像中的像素特征。

4.根据权利要求1所述方法，其特征在于，所述方法，还包括：

将与所述体素对应的体素拼接特征输入至语义分类器，获得带有语义类型的体素；

根据所述带有语义类型的体素以及体素中点云中的点，获取带有语义类型的点云。

5.根据权利要求4所述的方法，其特征在于，在所述获得带有语义类型的体素之后，还包括：

根据所述带有语义类型的体素，获取目标体素；

基于所述体素拼接特征和所述目标体素，获取所述目标体素的目标体素拼接特征；

根据所述目标体素拼接特征，对所述目标体素进行实例分割。

6.根据权利要求5所述方法，其特征在于，所述根据所述目标体素拼接特征，对所述目标体素进行实例分割，包括：

基于最邻近节点算法，获取与所述目标体素匹配的目标邻居体素；

基于所述体素拼接特征，获取所述目标邻居体素的目标邻居体素拼接特征；

根据所述目标体素拼接特征以及所述目标邻居体素拼接特征，创建局部注意力矩阵图；

根据所述局部注意力矩阵图，获取目标体素的优化体素拼接特征；

根据所述优化体素拼接特征，对所述目标体素进行实例分割。

7.根据权利要求5所述的方法，其特征在于，所述根据所述目标体素拼接特征，对所述目标体素进行实例分割，包括：

将所述目标体素拼接特征输入到已训练好的偏移量预测神经网络，获得所述目标体素的偏移量；

基于所述偏移量和所述目标体素，获得偏移体素；

将所述偏移体素向目标预设图像进行俯视投影，并根据所述目标预设图像中每个像素中偏移体素的数量，获得每个像素的像素值；

根据所述像素值，获取预设区域里像素值最高的像素；

根据所述像素值最高的像素确定目标中心，并为所述目标中心分配匹配的实例标识；

根据所述目标中心的实例标识，获得属于所述目标中心的目标体素的实例标识。

8.一种点云数据的处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的点云数据的处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的点云数据的处理方法。