CN117132964A

CN117132964A - 模型训练方法、点云编码方法、对象处理方法及装置

Info

Publication number: CN117132964A
Application number: CN202311110272.2A
Authority: CN
Inventors: 叶晓青; 韩钧宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-28

Abstract

本公开涉及人工智能技术领域，具体为计算机视觉、深度学习、大模型等技术领域，可应用于自动驾驶、鸟瞰图感知等场景，具体涉及一种模型训练方法、点云编码方法、对象处理方法及装置。具体实现方案为：获取与第一训练场景对应的第一点云数据；获取对第一训练场景的场景图像进行处理，获得的图像特征图；通过点云编码模型对第一点云数据进行编码，获得第一点云特征图；基于第一点云特征图与图像特征图之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。采用本公开可以提高点云编码结果的可靠性。

Description

模型训练方法、点云编码方法、对象处理方法及装置

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉、深度学习、大模型等技术领域，可应用于自动驾驶、鸟瞰图感知等场景，具体涉及一种模型训练方法、点云编码方法、对象处理方法及装置。

背景技术

随着人工智能技术的发展，三维对象的检测技术和/或分割技术不断得到应用。例如，在自动驾驶、鸟瞰图感知等场景中，在通过激光雷达采集到点云数据之后，可以对点云数据进行编码，获得点云编码结果，并据此执行三维对象的检测任务和/或分割任务。

发明内容

本公开提供了一种模型训练方法、点云编码方法、对象处理方法及装置。

根据本公开的一方面，提供了一种点云编码模型训练方法，包括：

获取与第一训练场景对应的第一点云数据；

获取对第一训练场景的场景图像进行处理，获得的图像特征图；

通过点云编码模型对第一点云数据进行编码，获得第一点云特征图；

基于第一点云特征图与图像特征图之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。

根据本公开的另一方面，提供了一种对象处理模型训练方法，包括：

获取与第二训练场景对应的第二点云数据；

通过目标编码模型对第二点云数据进行编码，获得第二点云特征图；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型；

通过对象处理模型对第二点云特征图进行处理，获得预测处理结果；

基于预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练，获得经过训练的对象处理模型。

根据本公开的另一方面，提供了一种点云编码方法，包括：

获取与第一目标场景对应的第一待编点云；

通过目标编码模型对第一待编点云进行编码，获得第一点云编码结果；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型。

根据本公开的另一方面，提供了一种对象处理方法，包括：

获取与第二目标场景对应的第二待编点云；

通过目标编码模型对第二待编点云进行编码，获得第二点云编码结果；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型；

通过目标处理模型对第二点云编码结果进行处理，获得对象处理结果；其中，目标处理模型为通过对象处理模型训练方法获得的经过训练的对象处理模型。

根据本公开的另一方面，提供了一种点云编码模型训练装置，包括：

第一点云获取单元，用于获取与第一训练场景对应的第一点云数据；

第一图像处理单元，用于获取对第一训练场景的场景图像进行处理，获得的图像特征图；

第一点云处理单元，用于通过点云编码模型对第一点云数据进行编码，获得第一点云特征图；

第一模型训练单元，用于基于第一点云特征图与图像特征图之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。

根据本公开的另一方面，提供了一种对象处理模型训练装置，包括：

第二点云获取单元，用于获取与第二训练场景对应的第二点云数据；

第二点云处理单元，用于通过目标编码模型对第二点云数据进行编码，获得第二点云特征图；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型；

预测处理结果获取单元，用于通过对象处理模型对第二点云特征图进行处理，获得预测处理结果；

第二模型训练单元，用于基于预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练，获得经过训练的对象处理模型。

根据本公开的另一方面，提供了一种点云编码装置，包括：

第一待编点云获取单元，用于获取与第一目标场景对应的第一待编点云；

第一待编点云处理单元，用于通过目标编码模型对第一待编点云进行编码，获得第一点云编码结果；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型。

根据本公开的另一方面，提供了一种对象处理装置，包括：

第二待编点云获取单元，用于获取与第二目标场景对应的第二待编点云；

第二待编点云处理单元，用于通过目标编码模型对第二待编点云进行编码，获得第二点云编码结果；其中，目标编码模型为通过权利要求1～8中任一项的方法获得的经过训练的点云编码模型；

对象处理结果获取单元，用于通过目标处理模型对第二点云编码结果进行处理，获得对象处理结果；其中，目标处理模型为通过对象处理模型训练方法获得的经过训练的对象处理模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；

与该至少一个处理器通信连接的存储器；

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

采用本公开可以提高点云编码结果的可靠性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种点云编码模型训练方法的流程示意图；

图2和图3为本公开实施例提供的一种点云编码模型训练方法的辅助性说明图；

图4为本公开实施例提供的一种点云编码模型训练方法的完整性流程辅助说明图；

图5为本公开实施例提供的一种点云编码模型训练方法的场景示意图；

图6为本公开实施例提供的一种对象处理模型训练方法的流程示意图；

图7为本公开实施例提供的一种对象处理模型训练方法的辅助性说明图；

图8为本公开实施例提供的一种对象处理模型训练方法的场景示意图；

图9为本公开实施例提供的一种点云编码方法的流程示意图；

图10为本公开实施例提供的一种点云编码方法的辅助性说明图；

图11为本公开实施例提供的一种点云编码方法的场景示意图；

图12为本公开实施例提供的一种对象处理方法的流程示意图；

图13为本公开实施例提供的一种对象处理方法的辅助性说明图；

图14为本公开实施例提供的一种对象处理方法的场景示意图；

图15为本公开实施例提供的一种点云编码模型训练装置的示意性结构框图；

图16为本公开实施例提供的一种对象处理模型训练装置的示意性结构框图；

图17为本公开实施例提供的一种点云编码装置的示意性结构框图；

图18为本公开实施例提供的一种对象处理装置的示意性结构框图；

图19为本公开实施例提供的一种电子设备的示意性结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如背景技术所述的，在自动驾驶、鸟瞰图(Bird's Eye View，BEV)感知等场景中，在通过激光雷达采集到点云数据之后，可以对点云数据进行编码，获得点云编码结果，并据此执行三维对象的检测任务和/或分割任务。但经发明人研究发现，由于点云数据通常仅携带少量特征信息，例如，空间位置信息和反射率信息，而缺乏类似于图像所具有的丰富纹理信息，因此，在对点云数据进行编码，获得点云编码结果时，所能够依赖的特征信息较少，最终，会影响点云编码结果的特征表达能力，也即，影响点云编码结果的可靠性。

基于以上研究，本公开实施例提供了一种点云编码模型训练方法，其可以应用于电子设备。以下，将结合图1所示流程示意图，对本公开实施例提供的一种点云编码模型训练方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其它顺序执行所示出或描述的步骤。

步骤S101，获取与第一训练场景对应的第一点云数据；

步骤S102，获取对第一训练场景的场景图像进行处理，获得的图像特征图；

步骤S103，通过点云编码模型对第一点云数据进行编码，获得第一点云特征图；

步骤S104，基于第一点云特征图与图像特征图之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。

其中，第一训练场景可以是包括多个三维对象的任意场景，而多个三维对象可以包括建筑物、道路交通设施、机动车、非机动车、行人等对象。

其中，第一点云数据可以通过激光雷达采集，其包括三维空间中的散布的多个空间点、且每个空间点具有对应的位置信息和反射率信息；场景图像可以通过相机采集，其属于红绿蓝(Red Green Blue，RGB)图像，具有丰富纹理信息。

本公开实施例中，在获取到场景图像之后，可以对场景图像进行处理，获得与场景图像对应的图像特征图。在一具体示例中，对场景图像进行处理旨在提取场景图像中每个像素点的特征，也即，高维特征表达，同时，对场景图像中的每个像素点进行像素类别的分配，以获得与场景图像对应的图像特征图。基于此，可以理解的是，本公开实施例中，图像特征图中的每个像素点都可以携带自身的特征、且具有对应的像素类别。

此外，本公开实施例中，可以在获取图像特征图的同时，通过点云编码模型对第一点云数据进行编码，获得与第一点云数据对应的第一点云特征图。在一具体示例中，对第一点云数据进行编码旨在学习第一点云数据中每个空间点的空间编码，获得所有空间点的特征，然后，将所有空间点的特征聚合为全局点云特征，以作为与第一点云数据对应的第一点云特征图。基于此，本公开实施例中，点云编码模型可以是PointNet、PointNet++、Second等模型，或是可以用于对点云数据进行编码的其它模型。

在获取到图像特征图和第一点云特征图之后，可以获得第一点云特征图与图像特征图之间的特征分布差异，并基于该特征分布差异对点云编码模型进行训练，也即，基于该特征分布差异引导点云编码模型学习，获得经过训练的点云编码模型。其中，特征分布差异用于表征第一点云特征图与图像特征图在特征分布情况上的差异、且对云编码模型进行训练的目的在于最小化特征分布差异。

请结合图2，采用本公开实施例提供的点云编码模型训练方法，可以获取与第一训练场景对应的第一点云数据；获取对第一训练场景的场景图像进行处理，获得的图像特征图；通过点云编码模型对第一点云数据进行编码，获得第一点云特征图；基于第一点云特征图与图像特征图之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。其中，第一训练场景的场景图像具有的丰富纹理信息，因此，对场景图像进行处理，获得的图像特征图具有较强的特征表达能力，那么，在通过点云编码模型对第一点云数据进行编码，获得第一点云特征图，以及获得第一点云特征图与图像特征图之间的特征分布差异，并基于该特征分布差异对点云编码模型进行训练(也即，基于该特征分布差异引导点云编码模型学习)，获得经过训练的点云编码模型之后的应用阶段，在获取到与目标场景对应的待编点云，并通过经过训练的点云编码模型对待编点云进行编码，获得点云编码结果时，便可弥补待编点云中缺少丰富纹理信息的缺陷，以提高点云编码结果的特征表达能力，也即，提高点云编码结果的可靠性。

如前所述的，本公开实施例中，图像特征图中的每个像素点都可以携带自身的特征、且具有对应的像素类别。其中，像素类别可以不指定具体的语义类别，而仅用于像素类别的区分。

请结合图3，假设，图像特征图中有16个像素点。其中，像素点A1、像素点A2和像素点A3属于同一像素类别，具体为像素类别I，但像素类别I不指定具体的语义类别；像素点B1、像素点B2、像素点B3和像素点B4属于同一像素类别，具体为像素类别II，但像素类别II不指定具体的语义类别；像素点C1、像素点C2和像素点C3属于同一像素类别，具体为像素类别III，但像素类别III不指定具体的语义类别；像素点D1、像素点D2和像素点D3属于同一像素类别，具体为像素类别IV，但像素类别IV不指定具体的语义类别；像素点E1、像素点E2和像素点E3属于同一像素类别，具体为像素类别V，但像素类别V不指定具体的语义类别。

基于此，可以理解的是，本公开实施例中，图像特征图实际可以被分割为多个图像特征区域，每个图像特征区域中的所有像素点属于同一像素类别，因此，对于多个图像特征区域中的每个图像特征区域，也可以用该图像特征区域中所有像素点的像素类别来定义该图像特征区域的区域类别。

请结合图3，图像特征图实际被分割为5个图像特征区域。其中，第一图像特征区域301包括像素点A1、像素点A2和像素点A3，因此，可以定义第一图像特征区域301的区域类别为区域类别I；第二图像特征区域302包括像素点B1、像素点B2、像素点B3和像素点B4，因此，可以定义第二图像特征区域302的区域类别为区域类别II；第三图像特征区域303包括像素点C1、像素点C2和像素点C3，因此，可以定义第三图像特征区域303的区域类别为区域类别III；第四图像特征区域304包括像素点D1、像素点D2和像素点D3，因此，可以定义第四图像特征区域304的区域类别为区域类别IV；第五图像特征区域305包括像素点E1、像素点E2和像素点E3，因此，可以定义第五图像特征区域305的区域类别为区域类别V。

为实现以上处理结果，在一些可选的实施方式中，“获取对第一训练场景的场景图像进行处理，获得的图像特征图”可以包括以下步骤：

通过图像分割模型，对第一训练场景的场景图像进行视觉分割，获得图像特征图；其中，图像特征图包括多个图像特征区域。

其中，图像分割模型是预先经过训练的，其具有较强的图像分割能力。

本公开实施例中，图像分割模型可以是“一切分割”模型(Segment AnythingModel，SAM)、通用分割模型(Segment Everything In Context，SegGPT)、“一次性分割一切”模型(Segment Everything Everywhere All At Once，SEEM)等模型。

在获取到第一训练场景的场景图像之后，可以直接将场景图像输入图像分割模型，获得图像分割模型的输出作为与场景图像对应的图像特征图。该图像特征图中的每个像素点都可以携带自身的特征、且具有对应的像素类别，因此，可以将图像特征图看作多个图像特征区域，每个图像特征区域中的所有像素点属于同一像素类别，也即，每个图像特征区域对应一个区域类别。

通过以上步骤，本公开实施例中，可以直接通过图像分割模型，对第一训练场景的场景图像进行视觉分割，获得图像特征图。由于图像分割模型是预先经过训练的，其具有较强的图像分割能力，因此，可以提高图像特征图中多个图像特征区域的分割准确度，同时，可以提高图像特征图的获取效率。

基于以上处理结果，在一些可选的实施方式中，“基于第一点云特征图与图像特征图之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型”可以包括以下步骤：

获取第一点云数据与场景图像之间的对应关系；

按照对应关系对第一点云特征图进行分割，获得多个点云特征区域；其中，多个点云特征区域与多个图像特征区域一一对应；

基于多个点云特征区域与多个图像特征区域之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。

其中，第一点云数据与场景图像之间的对应关系可以用于表征第一点云数据中每个空间点在场景图像中所对应的像素点。

本公开实施例中，按照对应关系对第一点云特征图进行分割，便可获得多个点云特征区域、且多个点云特征区域与多个图像特征区域一一对应，因此，具有对应关系的点云特征区域和图像特征区域属于同类区域对，也即，对应有相同的区域类别。

请结合图3，按照对应关系对第一点云特征图进行分割，可以获得第一点云特征区域301'、第二点云特征区域302'、第三点云特征区域303'、第四点云特征区域304'和第五点云特征区域305'。其中，第一点云特征区域301'与图像特征图中的第一图像特征区域301对应、且其对应区域类别I，第二点云特征区域302'与图像特征图中的第二图像特征区域302对应、且其对应区域类别II，第三点云特征区域303'与图像特征图中的第三图像特征区域303对应、且其对应区域类别III，第四点云特征区域304'与图像特征图中的第四图像特征区域304对应、且其对应区域类别IV，第五点云特征区域305'与图像特征图中的第五图像特征区域305对应、且其对应区域类别V。

在获取到多个点云特征区域之后，便可基于多个点云特征区域与多个图像特征区域之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。在一具体示例中，对于多个点云特征区域中的每个点云特征区域，可以分别获取其与多个图像特征区域中每个图像特征区域之间的特征分布差异，再据此对点云编码模型进行训练，获得经过训练的点云编码模型。

通过以上步骤，本公开实施例中，可以将第一点云特征图分割为多个点云特征区域、且多个点云特征区域与多个图像特征区域一一对应，因此，对于多个点云特征区域中的每个点云特征区域，可以分别获取其与所有图像特征区域之间的特征分布差异，再据此对点云编码模型进行训练，获得经过训练的点云编码模型。这相当于在保持原有特征区域差异的整体计算范围的情况下，减小了特征分布差异的计算区域粒度，从而可以提高特征分布差异的准确度，以提高点云编码模型的训练效果。

在一些可选的实施方式中，“获取第一点云数据与场景图像之间的对应关系”可以包括以下步骤：

获取激光雷达与相机之间的外参数；其中，激光雷达为采集第一点云数据所用的采集设备，相机为采集场景图像所用的采集设备；

获取相机的内参数；

基于外参数和内参数，获得第一点云数据与场景图像之间的对应关系。

其中，外参数用于表征激光坐标系到相机坐标系的转换关系，激光坐标系为激光雷达的坐标系，相机坐标系为相机的坐标系。在一具体示例中，可以利用激光雷达测量的三维空间点和相机测量的标定板的三维坐标来构建约束，从而实现外参数的标定；在另一具体示例中，可以利用激光雷达测量的三维空间点和相机采集的对应图像的二维特征(包括点特征、线段特征等特征)来构建约束，从而实现外参数的标定，本公开实施例对此不作赘述。

其中，内参数为与相机自身特性相关的参数，例如，相机的焦距、像素大小等参数。

在获取到激光雷达与相机之间的外参数，以及相机的内参数之后，首先，可以基于外参数，将第一点云数据从激光坐标系下变换到相机坐标系下，然后，基于内参数，将已变换到相机坐标系下的第一点云数据投影到场景图像上，从而确定第一点云数据与场景图像之间的对应关系，也即，确定第一点云数据中每个空间点在场景图像中所对应的像素点。

通过以上步骤，本公开实施例中，可以获取激光雷达与相机之间的外参数，以及相机的内参数，并直接基于外参数和内参数，获得第一点云数据与场景图像之间的对应关系。由于外参数和内参数是激光雷达和相机本身的固定参数，存在不变性，因此，基于外参数和内参数，获得第一点云数据与场景图像之间的对应关系可以保证对应关系的准确性，从而提高第一点云特征图的分割准确度。

在一些可选的实施方式中，“基于多个点云特征区域与多个图像特征区域之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型”可以包括以下步骤：

分别将每个点云特征区域和每个图像特征区域作为目标区域，计算目标区域的特征分布，以获得多个第一特征分布和多个第二特征分布；其中，针对每个点云特征区域，在将点云特征区域作为目标区域时，获得的特征分布为第一特征分布，针对每个图像特征区域，在将图像特征区域作为目标区域时，获得的特征分布为第二特征分布；

计算多个第一特征分布与多个第二特征分布之间的损失，作为多个点云特征区域与多个图像特征区域之间的特征分布差异；

基于特征分布差异对点云编码模型进行训练，获得经过训练的点云编码模型。

其中，目标区域的特征分布用于表征目标区域上的特征分布情况。在目标区域为点云特征区域时，其特征分布被定义为第一特征分布，具体用于表征该点云特征区域上空间点的特征分布情况；在目标区域为图像特征区域时，其特征分布被定义为第二特征分布，具体用于表征该图像特征区域上像素点的特征分布情况。

请结合图3，图像特征图包括多个图像特征区域，分别为第一图像特征区域301、第二图像特征区域302、第三图像特征区域303、第四图像特征区域304和第五图像特征区域305；对应的，第一点云特征图被分割为第一点云特征区域301'、第二点云特征区域302'、第三点云特征区域303'、第四点云特征区域304'和第五点云特征区域305'。

此后，可以分别将第一点云特征区域301'、第二点云特征区域302'、第三点云特征区域303'、第四点云特征区域304'、第五点云特征区域305'、第一图像特征区域301、第二图像特征区域302、第三图像特征区域303、第四图像特征区域304和第五图像特征区域305作为目标区域，计算目标区域的特征分布。在此过程中，在将第一点云特征区域301'作为目标区域时，获得的特征分布为第一特征分布，具体可以被定义为第一特征分布I，以此类推，可以获得与第二点云特征区域302'对应的第一特征分布II、与第三点云特征区域303'对应的第一特征分布III、与第四点云特征区域304'对应的第一特征分布IV，以及与第五点云特征区域305'对应的第一特征分布V；同理，在将第一图像特征区域301作为目标区域时，获得的特征分布为第二特征分布，具体可以被定义为第二特征分布I，以此类推，可以获得与第二图像特征区域302对应的第二特征分布II、与第三图像特征区域303对应的第二特征分布III、与第四图像特征区域304对应的第二特征分布IV，以及与第五图像特征区域305对应的第二特征分布V。

在获取到多个第一特征分布和多个第二特征分布之后，可以计算多个第一特征分布与多个第二特征分布之间的损失，作为多个点云特征区域与多个图像特征区域之间的特征分布差异，并基于特征分布差异对点云编码模型进行训练，获得经过训练的点云编码模型。在一具体示例中，对于多个第一特征分布中的每个第一特征分布，可以分别获取其与多个第二特征分布中每个第二特征分布之间的损失，以获得该第一特征分布与多个第二特征分布之间的特征分布差异，再据此对点云编码模型进行训练，获得经过训练的点云编码模型。

通过以上步骤，本公开实施例中，可以将每个点云特征区域和每个图像特征区域作为目标区域，计算目标区域的特征分布，以获得多个第一特征分布和多个第二特征分布，并计算多个第一特征分布与多个第二特征分布之间的损失，作为多个点云特征区域与多个图像特征区域之间的特征分布差异，再基于特征分布差异对点云编码模型进行训练，获得经过训练的点云编码模型。也即，本公开实施例中，每个点云特征区域的第一特征分布和每个图像特征区域的第二特征分布都是单独计算的，具有较高的准确度，因此，在计算多个第一特征分布与多个第二特征分布之间的损失，作为多个点云特征区域与多个图像特征区域之间的特征分布差异时，可以进一步提高特征分布差异的准确度，以提高点云编码模型的训练效果。

在一些可选的实施方式中，“计算目标区域的特征分布”可以包括以下步骤：

对目标区域进行池化处理，获得区域池化结果；

计算目标区域与区域池化结果之间的相似度，作为目标区域的特征分布。

其中，池化处理可以是平均池化处理，也可以是最大池化处理，本公开实施例对此不作具体限制。此外，可以理解的是，本公开实施例中，对目标区域的所有处理可以理解为针对目标区域中所有点的特征所进行的处理。

在获得目标区域的区域池化结果之后，可以计算目标区域与区域池化结果之间的相似度，作为目标区域的特征分布。在一具体示例中，可以计算目标区域与区域池化结果之间的余弦相似度，作为目标区域的特征分布。

以池化处理为最大池化处理为例，“对目标区域进行池化处理，获得区域池化结果”的步骤可以表征为：

其中，用于表征目标区域，maxpool用于表征对目标区域进行最大池化处理，用于表征与目标区域对应的区域池化结果。

进一步地，本公开实施例中，“计算目标区域与区域池化结果之间的相似度，作为目标区域的特征分布”的步骤可以表征为：

其中，用于表征目标区域，/>用于表征与目标区域对应的区域池化结果，cos_sim用于表征计算目标区域与区域池化结果之间的相似度，/>用于表征目标区域的特征分布。

通过以上步骤，本公开实施例中，可以对目标区域进行池化处理，获得区域池化结果，并计算目标区域与区域池化结果之间的相似度，作为目标区域的特征分布。在此过程中，涉及的计算逻辑简单，可以提高目标区域的特征分布的获取效率。同时，在计算目标区域与区域池化结果之间的余弦相似度，作为目标区域的特征分布时，由于余弦相似度在高维特征表达的相关数据处理中具有良好的表现，因此，也可以提高目标区域的特征分布的准确度。

在一些可选的实施方式中，“对目标区域进行池化处理，获得区域池化结果”可以包括以下步骤：

对目标区域进行最大池化处理，获得区域池化结果。

也即，本公开实施例中，可以优选对目标区域进行最大池化处理，获得区域池化结果，而次选对目标区域进行平均池化处理，获得区域池化结果。

通过以上步骤，本公开实施例中，可以对目标区域进行最大池化处理，获得区域池化结果。由于最大池化处理相对于其它池化处理方法(例如，平均池化处理)而言，具有更少的计算量，因此，可以进一步提高目标区域的特征分布的获取效率。

在一些可选的实施方式中，“计算多个第一特征分布与多个第二特征分布之间的损失”可以包括以下步骤：

通过预先构建的损失函数，计算多个第一特征分布与多个第二特征分布之间的损失；其中，损失函数的构建原则包括最小化同类特征对之间的损失，以及最大化异类特征对之间的损失，同类特征对包括具有对应关系的第一特征分布和第二特征分布，异类特征对包括不具有对应关系的第一特征分布和第二特征分布。

其中，损失函数可以是交叉熵损失函数，也即，Softmax损失函数。

如前所述的，本公开实施例中，损失函数的构建原则包括最小化同类特征对之间的损失，以及最大化异类特征对之间的损失，同类特征对包括具有对应关系的第一特征分布和第二特征分布，异类特征对包括不具有对应关系的第一特征分布和第二特征分布。其中，具有对应关系的第一特征分布和第二特征分布中，该第一特征分布所对应的点云特征区域和该第二特征分布所对应的图像特征区域属于同类区域对，也即，对应有相同的区域类别；对应的，不具有对应关系的第一特征分布和第二特征分布中，该第一特征分布所对应的点云特征区域和该第二特征分布所对应的图像特征区域属于异类区域对，也即，对应有不同的区域类别。

其中，第一点云特征区域301'和第一图像特征区域301属于同类区域对、且第一点云特征区域301'对应第一特征分布I，第一图像特征区域301对应第二特征分布I；第二点云特征区域302'和第二图像特征区域302属于同类区域对、且第二点云特征区域302'对应第一特征分布II，第二图像特征区域302对应第二特征分布II；第三点云特征区域303'和第三图像特征区域303属于同类区域对、且第三点云特征区域303'对应第一特征分布III，第三图像特征区域303对应第二特征分布III；第四点云特征区域304'和第四图像特征区域304属于同类区域对、且第四点云特征区域304'对应第一特征分布IV，第四图像特征区域304对应第二特征分布IV；第五点云特征区域305'和第五图像特征区域305属于同类区域对、且第五点云特征区域305'对应第一特征分布V，第五图像特征区域305对应第二特征分布V。

那么，第一特征分布I和第二特征分布I属于同类特征对，第一特征分布II和第二特征分布II属于同类特征对，第一特征分布III和第二特征分布III属于同类特征对，第一特征分布IV和第二特征分布IV属于同类特征对，第一特征分布V和第二特征分布V属于同类特征对。除此之外的其它特征对则属于异类特征对，例如，第一特征分布I与除第二特征分布I以外的其它第二特征分布均属于异类特征对，第二特征分布I与除第一特征分布I以外的其它第一特征分布均属于异类特征对。

基于以上需求，本公开实施例中，“通过预先构建的损失函数，计算多个第一特征分布与多个第二特征分布之间的损失”的步骤可以表征为：

其中，M为图像特征图中图像特征区域的总数量，也等于第一点云特征图中点云特征区域的总数量，用于表征M个图像特征区域中第i个图像特征区域所对应的第二特征分布，/>用于表征M个点云特征区域中第i个点云特征区域所对应的第一特征分布，用于表征M个点云特征区域中第j个点云特征区域所对应的第一特征分布，Loss_cl用于表征多个(此处，被表征为M个)第一特征分布与多个(此处，被表征为M个)第二特征分布之间的损失。

通过以上步骤，本公开实施例中，可以通过预先构建的损失函数，计算多个第一特征分布与多个第二特征分布之间的损失。由于损失函数的构建原则包括最小化同类特征对之间的损失，以及最大化异类特征对之间的损失，同类特征对包括具有对应关系的第一特征分布和第二特征分布，异类特征对包括不具有对应关系的第一特征分布和第二特征分布，因此，在点云编码模型的训练过程中，不仅可以对同类特征对起到相似性的正向引导作用，还可以对异类特征对起到相似性的反向引导作用，以优化对点云编码模型的学习引导效果，从而进一步提高点云编码模型的训练效果。

此外，需要说明的是，本公开实施例中，在计算出多个第一特征分布与多个第二特征分布之间的损失，作为多个点云特征区域与多个图像特征区域之间的特征分布差异时，若特征分布差异满足第一收敛条件，则将此时的点云编码模型作为经过训练的点云编码模型；若特征分布差异不满足第一收敛条件，则基于特征分布差异对点云编码模型进行训练(也即，对点云编码模型的参数进行更新)，再进入下一轮训练，也即，获得新的特征分布差异，直至新的特征分布差异满足第一收敛条件时，获得经过训练的点云编码模型，该满足第一收敛条件的新的特征分布差异可以被定义为目标损失。其中，第一收敛条件可以根据实际应用需求设定，本公开实施例对此不作具体限制。

以下，将结合图4，对本公开实施例提供的一种点云编码模型训练方法的完整性流程进行说明。

(1)获取第一训练场景的场景图像，以及与第一训练场景对应的第一点云数据。

(2)获取激光雷达与相机之间的外参数；其中，激光雷达为采集第一点云数据所用的采集设备，相机为采集场景图像所用的采集设备；获取相机的内参数；基于外参数和内参数，获得第一点云数据与场景图像之间的对应关系。

(3)通过图像分割模型，对第一训练场景的场景图像进行视觉分割，获得图像特征图；其中，图像特征图包括多个图像特征区域。

也即，在获取到第一训练场景的场景图像之后，可以直接将场景图像输入图像分割模型，获得图像分割模型的输出作为与场景图像对应的图像特征图。该图像特征图中的每个像素点都可以携带自身的特征、且具有对应的像素类别，因此，可以将图像特征图看作多个图像特征区域，每个图像特征区域中的所有像素点属于同一像素类别，也即，每个图像特征区域对应一个区域类别。

(4)通过点云编码模型对第一点云数据进行编码，获得第一点云特征图。

(5)按照第一点云数据与场景图像之间的对应关系对第一点云特征图进行分割，获得多个点云特征区域；其中，多个点云特征区域与多个图像特征区域一一对应。

(6)分别将每个点云特征区域和每个图像特征区域作为目标区域，计算目标区域的特征分布，以获得多个第一特征分布和多个第二特征分布；其中，针对每个点云特征区域，在将点云特征区域作为目标区域时，获得的特征分布为第一特征分布，针对每个图像特征区域，在将图像特征区域作为目标区域时，获得的特征分布为第二特征分布。

其中，计算目标区域的特征分布包括：对目标区域进行池化处理，获得区域池化结果；计算目标区域与区域池化结果之间的相似度，作为目标区域的特征分布。

(7)通过预先构建的损失函数，计算多个第一特征分布与多个第二特征分布之间的损失，作为多个点云特征区域与多个图像特征区域之间的特征分布差异；其中，损失函数的构建原则包括最小化同类特征对之间的损失，以及最大化异类特征对之间的损失，同类特征对包括具有对应关系的第一特征分布和第二特征分布，异类特征对包括不具有对应关系的第一特征分布和第二特征分布。

(8)基于多个点云特征区域与多个图像特征区域之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。

请参阅图5，为本公开实施例提供的一种点云编码模型训练方法的场景示意图。

如前所述的，本公开实施例提供的点云编码模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，服务器、工作台、大型计算机、台式计算机、膝上计算机，或其它适合的计算机。

电子设备可以用于：

获取与第一训练场景对应的第一点云数据；

其中，其中，第一训练场景可以是包括多个三维对象的任意场景，而多个三维对象可以包括建筑物、道路交通设施、机动车、非机动车、行人等对象。

其中，第一点云数据可以通过激光雷达采集，其包括三维空间中的散布的多个空间点、且每个空间点具有对应的位置信息和反射率信息；场景图像可以通过相机采集，其属于RGB图像，具有丰富纹理信息。

需要说明的是，本公开实施例中，图5所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图5示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种对象处理模型训练方法，其可以应用于电子设备。以下，将结合图6所示流程示意图，对本公开实施例提供的一种对象处理模型训练方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其它顺序执行所示出或描述的步骤。

步骤S601，获取与第二训练场景对应的第二点云数据；

步骤S602，通过目标编码模型对第二点云数据进行编码，获得第二点云特征图；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型；

步骤S603，通过对象处理模型对第二点云特征图进行处理，获得预测处理结果；

步骤S604，基于预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练，获得经过训练的对象处理模型。

其中，第二训练场景可以是包括多个三维对象的任意场景，而多个三维对象可以包括建筑物、道路交通设施、机动车、非机动车、行人等对象；第二点云数据可以通过激光雷达采集，其包括三维空间中的散布的多个空间点、且每个空间点具有对应的位置信息和反射率信息。

本公开实施例中，在获取到与第二训练场景对应的第二点云数据之后，可以通过目标编码模型对第二点云数据进行编码，获得与第二点云数据对应的第二点云特征图。其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型，因此，结合前述点云编码模型训练方法实施例中的相关描述，目标编码模型可以是PointNet、PointNet++、Second等模型，或是可以用于对点云数据进行编码的其它模型。

此外，本公开实施例中，在获取到第二点云特征图之后，可以通过对象处理模型对第二点云特征图进行处理，获得针对第二点云数据的预测处理结果。在一具体示例中，对象处理模型为三维对象检测模型，而预测处理结果为针对第二点云数据的三维对象检测结果；在另一具体示例中，对象处理模型为三维对象分割模型，而预测处理结果为针对第二点云数据的三维对象分割结果。也即，本公开实施例中，对象处理模型可以是三维对象检测模型，也可以是三维对象分割模型，以提高对象处理模型训练方法的可应用范围。其中，三维对象检测模型可以是PointRCNN、Second等模型；三维对象分割模型可以是Mask3D模型。

此外，本公开实施例中，可以在获取预测处理结果的同时，获取与第二点云数据对应的处理结果标签，并基于预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练，获得经过训练的对象处理模型。其中，在对象处理模型为三维对象检测模型时，与第二点云数据对应的处理结果标签可以是针对第二点云数据的对象检测标签，其可以包括多个对象检测框；在对象处理模型为三维对象分割模型时，与第二点云数据对应的处理结果标签可以是针对第二点云数据的对象分割标签，其可以包括第二点云数据中每个空间点所对应的点类别。

请结合图7，采用本公开实施例提供的对象处理模型训练方法，可以获取与第二训练场景对应的第二点云数据；通过目标编码模型对第二点云数据进行编码，获得第二点云特征图；通过对象处理模型对第二点云特征图进行处理，获得预测处理结果；预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练，获得经过训练的对象处理模型。由于目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型，因此，第二点云特征图具有较强的特征表达能力，也即，具有较高的可靠性，那么，在通过对象处理模型对第二点云特征图进行处理，获得预测处理结果，并预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练时，就可以提高对象处理模型的训练效果，从而提高经过训练的对象处理模型的点云数处理能力。

在一具体示例中，在基于预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练时，可以计算预测处理结果与处理结果标签之间的任务损失，若任务损失满足第二收敛条件，则将此时的对象处理模型作为经过训练的对象处理模型；若任务损失不满足第二收敛条件，则基于任务损失对对象处理模型进行训练(也即，对对象处理模型的参数进行更新)，再进入下一轮训练，也即，获得新的任务损失，直至新的任务损失满足第二收敛条件时，获得经过训练的对象处理模型。其中，第二收敛条件可以根据实际应用需求设定，本公开实施例对此不作具体限制。

在另一具体示例中，在基于预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练时，也可以在计算出预测处理结果与处理结果标签之间的任务损失之后，获取该任务损失与前述点云编码模型训练方法实施例中所描述的目标损失的损失和，该过程可以表征为：

Loss＝Loss_cl′+Loss_task

其中，Loss_cl′用于表征前述点云编码模型训练方法实施例中所描述的目标损失，Loss_task用于表征预测处理结果与处理结果标签之间的任务损失，Loss用于表征该任务损失与前述点云编码模型训练方法实施例中所描述的目标损失的损失和。

若损失和满足第三收敛条件，则将此时的对象处理模型作为经过训练的对象处理模型；若损失和不满足第三收敛条件，则基于损失和对对象处理模型进行训练(也即，对对象处理模型的参数进行更新)，再进入下一轮训练，也即，获得新的损失和，直至新的损失和满足第三收敛条件时，获得经过训练的对象处理模型。其中，第三收敛条件可以根据实际应用需求设定，本公开实施例对此不作具体限制。在该示例中，可以通过预测处理结果与处理结果标签之间的任务损失，对前述点云编码模型训练方法实施例中所描述的目标损失进行至少部分补偿，以进一步提高对象处理模型的训练效果，从而提高经过训练的对象处理模型的点云数处理能力。

此外，需要说明的是，本公开实施例中，在对象处理模型为三维对象检测模型时，可以通过交叉熵损失函数，计算预测处理结果与处理结果标签之间的任务损失；在对象处理模型为三维对象分割模型时，可以通过交叉熵损失函数或绝对值损失函数(也即，L1损失函数)，计算预测处理结果与处理结果标签之间的任务损失。

请参阅图8，为本公开实施例提供的一种对象处理模型训练方法的场景示意图。

如前所述的，本公开实施例提供的对象处理模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，服务器、工作台、大型计算机、台式计算机、膝上计算机，或其它适合的计算机。

电子设备可以用于：

获取与第二训练场景对应的第二点云数据；

需要说明的是，本公开实施例中，图8所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图8示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种点云编码方法，其可以应用于电子设备。以下，将结合图9所示流程示意图，对本公开实施例提供的一种点云编码方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其它顺序执行所示出或描述的步骤。

步骤S901，获取与第一目标场景对应的第一待编点云；

步骤S902，通过目标编码模型对第一待编点云进行编码，获得第一点云编码结果；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型。

其中，第一目标场景可以是包括多个三维对象的任意场景，而多个三维对象可以包括建筑物、道路交通设施、机动车、非机动车、行人等对象；第一待编点云可以通过激光雷达采集，其包括三维空间中的散布的多个空间点、且每个空间点具有对应的位置信息和反射率信息。

在获取到与第一目标场景对应的第一待编点云之后，可以通过目标编码模型对第一待编点云进行编码，获得与第一待编点云对应的第一点云编码结果。其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型，因此，结合前述点云编码模型训练方法实施例中的相关描述，目标编码模型可以是PointNet、PointNet++、Second等模型，或是可以用于对点云数据进行编码的其它模型。

请结合图10，采用本公开实施例提供的点云编码方法，可以获取与第一目标场景对应的第一待编点云；目标编码模型对第一待编点云进行编码，获得第一点云编码结果。由于目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型，因此，第一点云编码结果具有较强的特征表达能力，也即，具有较高的可靠性。

请参阅图11，为本公开实施例提供的一种点云编码方法的场景示意图。

如前所述的，本公开实施例提供的点云编码方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，服务器、工作台、大型计算机、台式计算机、膝上计算机，或其它适合的计算机。此外，需要说明的是，本公开实施例中，点云编码方法应用于自动驾驶、BEV感知等场景中时，电子设备也可以是自动驾驶车辆上安装的车载计算机。电子设备可以用于：

获取与第一目标场景对应的第一待编点云；

需要说明的是，本公开实施例中，图11所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图11示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种对象处理方法，其可以应用于电子设备。以下，将结合图12所示流程示意图，对本公开实施例提供的一种对象处理方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其它顺序执行所示出或描述的步骤。

步骤S1201，获取与第二目标场景对应的第二待编点云；

步骤S1202，通过目标编码模型对第二待编点云进行编码，获得第二点云编码结果；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型；

步骤S1203，通过目标处理模型对第二点云编码结果进行处理，获得对象处理结果；其中，目标处理模型为通过对象处理模型训练方法获得的经过训练的对象处理模型。

其中，第二目标场景可以是包括多个三维对象的任意场景，而多个三维对象可以包括建筑物、道路交通设施、机动车、非机动车、行人等对象；第二待编点云可以通过激光雷达采集，其包括三维空间中的散布的多个空间点、且每个空间点具有对应的位置信息和反射率信息。

在获取到与第二目标场景对应的第二待编点云之后，可以通过目标编码模型对第二待编点云进行编码，获得与第二待编点云对应的第二点云编码结果。其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型，因此，结合前述点云编码模型训练方法实施例中的相关描述，目标编码模型可以是PointNet、PointNet++、Second等模型，或是可以用于对点云数据进行编码的其它模型。

在获取到第二点云编码结果之后，可以通过目标处理模型对第二点云编码结果进行处理，获得与第二待编点云对应的对象处理结果。其中，目标处理模型为通过对象处理模型训练方法获得的经过训练的对象处理模型。结合前述对象处理模型训练方法实施例中的相关描述，对象处理模型可以是三维对象检测模型，也可以是三维对象分割模型，以提高对象处理模型训练方法的可应用范围。其中，三维对象检测模型可以是PointRCNN、Second等模型；三维对象分割模型可以是Mask3D模型。

请结合图13，采用本公开实施例提供的对象处理方法，可以获取与第二目标场景对应的第二待编点云；目标编码模型对第二待编点云进行编码，获得第二点云编码结果；通过目标处理模型对第二点云编码结果进行处理，获得对象处理结果。一方面，由于目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型，因此，第二点云编码结果具有较强的特征表达能力，也即，具有较高的可靠性；另一方面，由于目标处理模型为通过对象处理模型训练方法获得的经过训练的对象处理模型，具有较强的点云数处理能力，因此，可以提高对象处理结果的可靠性。

请参阅图14，为本公开实施例提供的一种对象处理方法的场景示意图。

如前所述的，本公开实施例提供的对象处理方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，服务器、工作台、大型计算机、台式计算机、膝上计算机，或其它适合的计算机。此外，需要说明的是，本公开实施例中，点云编码方法应用于自动驾驶、BEV感知等场景中时，电子设备也可以是自动驾驶车辆上安装的车载计算机。

电子设备可以用于：

获取与第二目标场景对应的第二待编点云；

需要说明的是，本公开实施例中，图14所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图14示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

为了更好地实施点云编码模型训练方法，本公开实施例还提供一种点云编码模型训练装置，其可以集成在电子设备中。以下，将结合图15所示结构示意图，对公开实施例提供的一种点云编码模型训练装置1500进行说明。

点云编码模型训练装置1500，包括：

第一点云获取单元1501，用于获取与第一训练场景对应的第一点云数据；

第一图像处理单元1502，用于获取对第一训练场景的场景图像进行处理，获得的图像特征图；

第一点云处理单元1503，用于通过点云编码模型对第一点云数据进行编码，获得第一点云特征图；

第一模型训练单元1504，用于基于第一点云特征图与图像特征图之间的特征分布差异，对点云编码模型进行训练，获得经过训练的点云编码模型。

在一些可选的实施方式中，图像特征图包括多个图像特征区域、且每个图像特征区域对应一个区域类别；第一模型训练单元1504用于：

获取第一点云数据与场景图像之间的对应关系；

在一些可选的实施方式中，第一模型训练单元1504用于：

对目标区域进行池化处理，获得区域池化结果；

在一些可选的实施方式中，第一模型训练单元1504用于：

对目标区域进行最大池化处理，获得区域池化结果。

在一些可选的实施方式中，第一模型训练单元1504用于：

获取相机的内参数；

在一些可选的实施方式中，第一图像处理单元1502：

本公开实施例的点云编码模型训练装置1500的各单元的具体功能和示例的描述，可以参见前述点云编码模型训练方法实施例中对应步骤的相关描述，在此不再赘述。

为了更好地实施点对象处理模型训练方法，本公开实施例还提供一种对象处理模型训练装置，其可以集成在电子设备中。以下，将结合图16所示结构示意图，对公开实施例提供的一种对象处理模型训练装置1600进行说明。

对象处理模型训练装置1600，包括：

第二点云获取单元1601，用于获取与第二训练场景对应的第二点云数据；

第二点云处理单元1602，用于通过目标编码模型对第二点云数据进行编码，获得第二点云特征图；其中，目标编码模型为通过权利要求1～8中任一项的方法获得的经过训练的点云编码模型；

预测处理结果获取单元1603，用于通过对象处理模型对第二点云特征图进行处理，获得预测处理结果；

第二模型训练单元1604，用于基于预测处理结果以及与第二点云数据对应的处理结果标签，对对象处理模型进行训练，获得经过训练的对象处理模型。

在一些可选的实施方式中，对象处理模型为三维对象检测模型或三维对象分割模型。

本公开实施例的对象处理模型训练装置1600的各单元的具体功能和示例的描述，可以参见前述对象处理模型训练方法实施例中对应步骤的相关描述，在此不再赘述。

为了更好地实施点云编码方法，本公开实施例还提供一种点云编码装置，其可以集成在电子设备中。以下，将结合图17所示结构示意图，对公开实施例提供的一种点云编码装置1700进行说明。

点云编码装置1700，包括：

第一待编点云获取单元1701，用于获取与第一目标场景对应的第一待编点云；

第一待编点云处理单元1702，用于通过目标编码模型对第一待编点云进行编码，获得第一点云编码结果；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型。

本公开实施例的点云编码装置1700的各单元的具体功能和示例的描述，可以参见前述点云编码方法实施例中对应步骤的相关描述，在此不再赘述。

为了更好地实施点对象处理方法，本公开实施例还提供一种对象处理装置，其可以集成在电子设备中。以下，将结合图18所示结构示意图，对公开实施例提供的一种对象处理装置1800进行说明。

对象处理装置1800，包括：

第二待编点云获取单元1801，用于获取与第二目标场景对应的第二待编点云；

第二待编点云处理单元1802，用于通过目标编码模型对第二待编点云进行编码，获得第二点云编码结果；其中，目标编码模型为通过点云编码模型训练方法获得的经过训练的点云编码模型；

对象处理结果获取单元1803，用于通过目标处理模型对第二点云编码结果进行处理，获得对象处理结果；其中，目标处理模型为通过对象处理模型训练方法获得的经过训练的对象处理模型。

本公开实施例的对象处理装置1800的各单元的具体功能和示例的描述，可以参见前述对象处理方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图19示出了可以用来实施本公开的实施例的示例电子设备1900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图19所示，设备1900包括计算单元1901，其可以根据存储在只读存储器(Read-Only Memory，ROM)1902中的计算机程序或从存储单元1908加载到随机访问存储器(RandomAccess Memory，RAM)1903中的计算机程序，来执行各种适当的动作和处理。在RAM 1903中，还可存储设备1900操作所需的各种程序和数据。计算单元1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(Input/Output，I/O)接口1905也连接至总线1904。

设备1900中的多个部件连接至I/O接口1905，包括：输入单元1906，例如，键盘、鼠标等；输出单元1907，例如，各种类型的显示器、扬声器等；存储单元1908，例如，磁盘、光盘等；以及通信单元1909，例如，网卡、调制解调器、无线通信收发机等。通信单元1909允许设备1900通过诸如因特网的计算机网络和/或各种电信网络与其它设备交换信息/数据。

计算单元1901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1901的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1901执行上文所描述的各个方法和处理，例如，点云编码模型训练方法、对象处理模型训练方法、点云编码方法和对象处理方法中的至少一者。例如，在一些实施例中，点云编码模型训练方法、对象处理模型训练方法、点云编码方法和对象处理方法中的至少一者可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如，存储单元1908。在一些实施例中，计算机程序的部分或全部可以经由ROM 1902和/或通信单元1909而被载入和/或安装到设备1900上。当计算机程序加载到RAM 1903并由计算单元1901执行时，可以执行上文描述的点云编码模型训练方法、对象处理模型训练方法、点云编码方法和对象处理方法中的至少一者的一个或多个步骤。备选地，在其它实施例中，计算单元1901可以通过其它任何适当的方式(例如，借助于固件)而被配置为执行点云编码模型训练方法、对象处理模型训练方法、点云编码方法和对象处理方法中的至少一者。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Product，ASSP)、芯片上系统的系统(System On Chip，SOC)、负载可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或多个计算机程序中，该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或前述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、光学储存设备、磁储存设备、或前述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)显示器或液晶显示器(Liquid Crystal Display，LCD))；以及键盘和指向装置(例如，鼠标或轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或包括中间件部件的计算系统(例如，应用服务器)、或包括前端部件的计算系统(例如，具有图形用户界面或网络浏览器的用户计算机，用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)、或包括这种后台部件、中间件部件、或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local AreaNetwork，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或是结合了区块链的服务器。

本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行点云编码模型训练方法。

本公开实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现点云编码模型训练方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。此外，本公开中，诸如“第一”、“第二”、“第三”等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。此外，本公开中“多个”，可以理解为至少两个。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其它因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种点云编码模型训练方法，包括：

获取与第一训练场景对应的第一点云数据；

获取对所述第一训练场景的场景图像进行处理，获得的图像特征图；

通过点云编码模型对所述第一点云数据进行编码，获得第一点云特征图；

基于所述第一点云特征图与所述图像特征图之间的特征分布差异，对所述点云编码模型进行训练，获得经过训练的点云编码模型。

2.根据权利要求1所述的方法，其中，所述图像特征图包括多个图像特征区域、且每个所述图像特征区域对应一个区域类别；所述基于所述第一点云特征图与所述图像特征图之间的特征分布差异，对所述点云编码模型进行训练，获得经过训练的点云编码模型，包括：

获取所述第一点云数据与所述场景图像之间的对应关系；

按照所述对应关系对所述第一点云特征图进行分割，获得多个点云特征区域；其中，所述多个点云特征区域与所述多个图像特征区域一一对应；

基于所述多个点云特征区域与所述多个图像特征区域之间的特征分布差异，对所述点云编码模型进行训练，获得经过训练的点云编码模型。

3.根据权利要求2所述的方法，其中，所述基于所述多个点云特征区域与所述多个图像特征区域之间的特征分布差异，对所述点云编码模型进行训练，获得经过训练的点云编码模型，包括：

分别将每个所述点云特征区域和每个所述图像特征区域作为目标区域，计算所述目标区域的特征分布，以获得多个第一特征分布和多个第二特征分布；其中，针对每个所述点云特征区域，在将所述点云特征区域作为目标区域时，获得的特征分布为第一特征分布，针对每个所述图像特征区域，在将所述图像特征区域作为目标区域时，获得的特征分布为第二特征分布；

计算所述多个第一特征分布与所述多个第二特征分布之间的损失，作为所述多个点云特征区域与所述多个图像特征区域之间的特征分布差异；

基于所述特征分布差异对所述点云编码模型进行训练，获得经过训练的点云编码模型。

4.根据权利要求3所述的方法，其中，所述计算所述目标区域的特征分布，包括：

对所述目标区域进行池化处理，获得区域池化结果；

计算所述目标区域与所述区域池化结果之间的相似度，作为所述目标区域的特征分布。

5.根据权利要求4所述的方法，其中，所述对所述目标区域进行池化处理，获得区域池化结果，包括：

对所述目标区域进行最大池化处理，获得所述区域池化结果。

6.根据权利要求3所述的方法，其中，所述计算所述多个第一特征分布与所述多个第二特征分布之间的损失，包括：

通过预先构建的损失函数，计算所述多个第一特征分布与所述多个第二特征分布之间的损失；其中，所述损失函数的构建原则包括最小化同类特征对之间的损失，以及最大化异类特征对之间的损失，所述同类特征对包括具有对应关系的第一特征分布和第二特征分布，所述异类特征对包括不具有对应关系的第一特征分布和第二特征分布。

7.根据权利要求2所述的方法，其中，所述获取所述第一点云数据与所述场景图像之间的对应关系，包括：

获取激光雷达与相机之间的外参数；其中，所述激光雷达为采集所述第一点云数据所用的采集设备，所述相机为采集所述场景图像所用的采集设备；

获取所述相机的内参数；

基于所述外参数和所述内参数，获得所述第一点云数据与所述场景图像之间的对应关系。

8.根据权利要求2～7中任一项所述的方法，其中，所述获取对所述第一训练场景的场景图像进行处理，获得的图像特征图，包括：

通过图像分割模型，对所述第一训练场景的场景图像进行视觉分割，获得所述图像特征图；其中，所述图像特征图包括所述多个图像特征区域。

9.一种对象处理模型训练方法，包括：

获取与第二训练场景对应的第二点云数据；

通过目标编码模型对所述第二点云数据进行编码，获得第二点云特征图；其中，所述目标编码模型为通过权利要求1～8中任一项所述的方法获得的所述经过训练的点云编码模型；

通过对象处理模型对所述第二点云特征图进行处理，获得预测处理结果；

基于所述预测处理结果以及与所述第二点云数据对应的处理结果标签，对所述对象处理模型进行训练，获得经过训练的对象处理模型。

10.根据权利要求9所述的方法，其中，所述对象处理模型为三维对象检测模型或三维对象分割模型。

11.一种点云编码方法，包括：

获取与第一目标场景对应的第一待编点云；

通过目标编码模型对所述第一待编点云进行编码，获得第一点云编码结果；其中，所述目标编码模型为通过权利要求1～8中任一项所述的方法获得的所述经过训练的点云编码模型。

12.一种对象处理方法，包括：

获取与第二目标场景对应的第二待编点云；

通过目标编码模型对所述第二待编点云进行编码，获得第二点云编码结果；其中，所述目标编码模型为通过权利要求1～8中任一项所述的方法获得的所述经过训练的点云编码模型；

通过目标处理模型对所述第二点云编码结果进行处理，获得对象处理结果；其中，所述目标处理模型为通过权利要求9或10所述的方法获得的所述经过训练的对象处理模型。

13.一种点云编码模型训练装置，包括：

第一图像处理单元，用于获取对所述第一训练场景的场景图像进行处理，获得的图像特征图；

第一点云处理单元，用于通过点云编码模型对所述第一点云数据进行编码，获得第一点云特征图；

第一模型训练单元，用于基于所述第一点云特征图与所述图像特征图之间的特征分布差异，对所述点云编码模型进行训练，获得经过训练的点云编码模型。

14.根据权利要求13所述的训练装置，其中，所述图像特征图包括多个图像特征区域、且每个所述图像特征区域对应一个区域类别；所述第一模型训练单元用于：

获取所述第一点云数据与所述场景图像之间的对应关系；

15.根据权利要求14所述的训练装置，其中，所述第一模型训练单元用于：

16.根据权利要求15所述的训练装置，其中，所述第一模型训练单元用于：

对所述目标区域进行池化处理，获得区域池化结果；

17.根据权利要求16所述的训练装置，其中，所述第一模型训练单元用于：

18.根据权利要求15所述的训练装置，其中，所述第一模型训练单元用于：

19.根据权利要求14所述的训练装置，其中，所述第一模型训练单元用于：

获取所述相机的内参数；

20.根据权利要求14～19中任一项所述的训练装置，其中，所述第一图像处理单元：

21.一种对象处理模型训练装置，包括：

第二点云处理单元，用于通过目标编码模型对所述第二点云数据进行编码，获得第二点云特征图；其中，所述目标编码模型为通过权利要求1～8中任一项所述的方法获得的所述经过训练的点云编码模型；

预测处理结果获取单元，用于通过对象处理模型对所述第二点云特征图进行处理，获得预测处理结果；

第二模型训练单元，用于基于所述预测处理结果以及与所述第二点云数据对应的处理结果标签，对所述对象处理模型进行训练，获得经过训练的对象处理模型。

22.根据权利要求21所述的装置，其中，所述对象处理模型为三维对象检测模型或三维对象分割模型。

23.一种点云编码装置，包括：

第一待编点云处理单元，用于通过目标编码模型对所述第一待编点云进行编码，获得第一点云编码结果；其中，所述目标编码模型为通过权利要求1～8中任一项所述的方法获得的所述经过训练的点云编码模型。

24.一种对象处理装置，包括：

第二待编点云处理单元，用于通过目标编码模型对所述第二待编点云进行编码，获得第二点云编码结果；其中，所述目标编码模型为通过权利要求1～8中任一项所述的方法获得的所述经过训练的点云编码模型；

对象处理结果获取单元，用于通过目标处理模型对所述第二点云编码结果进行处理，获得对象处理结果；其中，所述目标处理模型为通过权利要求9或10所述的方法获得的所述经过训练的对象处理模型。

25.一种电子设备，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～12中任一项所述的方法。