CN114429631B

CN114429631B - 三维对象检测方法、装置、设备以及存储介质

Info

Publication number: CN114429631B
Application number: CN202210103407.1A
Authority: CN
Inventors: 邹智康; 叶晓青; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2023-11-14
Anticipated expiration: 2042-01-27
Also published as: CN114429631A

Abstract

本公开提供了三维对象检测方法、装置、设备以及存储介质，涉及人工智能领域，尤其涉及计算机视觉、图像识别和深度学习技术。具体实现方案为：获取第一图像和N个点云数据，所述第一图像和所述N个点云数据为在同一场景下采集得到的；在所述第一图像中确定每个点云数据对应的P个像素点，所述P为大于或等于1的整数；根据每个点云数据对应的P个像素点，对所述第一图像和所述N个点云数据进行融合处理，得到融合特征；对所述融合特征进行对象检测处理，以在所述N个点云数据中确定至少一个三维对象。本公开方案能够提高三维对象检测结果的准确性。

Description

三维对象检测方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉、图像识别和深度学习技术，尤其涉及一种三维对象检测方法、装置、设备以及存储介质。

背景技术

随着人工智能技术的发展，三维对象检测技术广泛应用于各种领域。例如，智能机器人或者自动驾驶车辆在移动过程中，可以利用三维对象检测技术实现对周围障碍物的探测，从而躲避障碍物。

相关技术中，可以在智能机器人或者自动驾驶车辆上设置激光雷达。在智能机器人或者自动驾驶车辆移动过程中，通过激光雷达采集点云数据。对点云数据进行特征提取，得到点云特征。进而，利用点云特征进行三维对象检测。

然而，上述方式中，三维对象检测结果的准确性不高。

发明内容

本公开提供了一种三维对象检测方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种三维对象检测方法，包括：

获取第一图像和N个点云数据，所述第一图像和所述N个点云数据为在同一场景下采集得到的，所述N为大于1的整数；

在所述第一图像中确定每个点云数据对应的P个像素点，所述P为大于或等于1的整数；

根据每个点云数据对应的P个像素点，对所述第一图像和所述N个点云数据进行融合处理，得到融合特征；

对所述融合特征进行对象检测处理，以在所述N个点云数据中确定至少一个三维对象。

根据本公开的第二方面，提供了一种三维对象检测装置，包括：

获取模块，用于获取第一图像和N个点云数据，所述第一图像和所述N个点云数据为在同一场景下采集得到的，所述N为大于1的整数；

确定模块，用于在所述第一图像中确定每个点云数据对应的P个像素点，所述P为大于或等于1的整数；

处理模块，用于根据每个点云数据对应的P个像素点，对所述第一图像和所述N个点云数据进行融合处理，得到融合特征；

检测模块，用于对所述融合特征进行对象检测处理，以在所述N个点云数据中确定至少一个三维对象。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种可能的应用场景的示意图；

图2为本公开实施例提供的一种三维对象检测方法的流程示意图；

图3为本公开实施例提供的另一种三维对象检测方法的流程示意图；

图4为本公开实施例提供的一种三维对象检测过程的示意图；

图5为本公开实施例提供的一种类别特征的确定方法的流程示意图；

图6为本公开实施例提供的一种类别特征的确定过程的示意图；

图7为本公开实施例提供的一种三维对象检测装置的结构示意图；

图8为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供一种三维对象检测方法、装置、设备以及存储介质，应用于人工智能领域，具体涉及计算机视觉、图像识别和深度学习技术领域，能够提高三维对象检测结果的准确性。

为了便于理解本公开的技术方案，首先结合图1对本公开可能的应用场景进行举例说明。

图1为本公开实施例提供的一种可能的应用场景的示意图。如图1所示，自动驾驶车辆101在道路中行驶。自动驾驶车辆101设置有激光雷达以及摄像头。在自动驾驶车辆行驶过程中，可以通过激光雷达采集点云数据，以及通过摄像头采集图像。进一步的，通过对点云数据和图像进行对象检测处理，确定出道路中存在的障碍物，从而自动驾驶车辆在行驶过程中可以躲避障碍物。其中，上述的障碍物可以为行人104、自行车103、其他车辆102、交通设施105等。

本公开实施例中，上述对点云数据和图像进行对象检测处理的过程可以由车端执行，还可以由云端执行。当由车端执行时，本公开实施例的执行主体可以为自动驾驶车辆101，或者为设置在自动驾驶车辆101中的三维对象检测装置。当由云端执行时，自动驾驶车辆101将采集到的点云数据和图像发送至云端。云端对点云数据和图像进行对象检测处理，得到对象检测结果，并将对象检测结果返回给自动驾驶车辆101。

需要说明的是，图1是以自动驾驶场景为例进行举例说明的，本公开实施例还可以应用于其他更多的需要进行对象检测的场景中。例如，智能机器人移动场景、虚拟现实场景等，本公开实施例不做一一举例说明。

本公开实施例中，在进行对象检测处理时，不仅利用点云数据，还同时利用了同一场景下采集到的图像，即，将图像和点云数据融合起来进行对象检测。由于图像中存在大量的语义信息，这些语义信息可以对点云数据的特征进行补充，从而提高检测结果的准确性。

下面结合具体的实施例对本公开技术方案进行说明。下面的几个具体实施例可以相互结合，对于相同或者相似的概念或过程，可能在某些实施例中不再赘述。

图2为本公开实施例提供的一种三维对象检测方法的流程示意图。如图2所示，本实施例的方法包括：

S201：获取第一图像和N个点云数据，所述第一图像和所述N个点云数据为在同一场景下采集得到的，所述N为大于1的整数。

示例性的，以图1所示的自动驾驶场景为例进行举例说明。自动驾驶车辆上设置有摄像头和激光雷达。在自动驾驶车辆行驶过程中，可以通过摄像头采集第一图像，并通过激光雷达采集得到N个点云数据。第一图像和N个点云数据是在同一场景下采集得到的。二者的采集时刻可以相同或者接近。

本公开实施例中，N个点云数据是指一帧点云数据，即激光雷达采集一次得到的点云数据。N个点云数据也可以称为一帧点云数据或者称为一帧点云图像。N个点云数据可以以点云图像的形式存在，也可以以其他形式存在，本实施例对此不作限定。

示例性的，N个点云数据中包括N个点的数据。每个点的数据包括该点的位置信息和激光反射强度。例如，每个点的数据可以表示为(x,y,z,r)，其中，x,y,z表示该点的三维坐标，r表示该点的激光反射强度。这样，每个点的数据表示为4维向量，N个点云数据可以表示为N*4的矩阵。

示例性的，第一图像中包括多个像素点。例如，第一图像的宽度记为W，第一图像的高度记为H，则第一图像中包括W*H个像素点。

S202：在所述第一图像中确定每个点云数据对应的P个像素点，所述P为大于或等于1的整数。

本实施例中，由于第一图像和N个点云数据是在同一场景下采集得到的，因此，N个点云数据和第一图像中的像素点之间具有对应关系。

一种可能的实现方式中，若第i个点云数据和第一图像中的第j个像素点均对应场景中的同一位置点，则可以认为第i个点云数据和第一图像中的第j个像素点具有对应关系。也就是说，将第一图像中的第j个像素点作为第i个点云数据对应的像素点。

能够理解，在确定了第i个点云数据与第一图像中的第j个像素点之间的对应关系之后，可以利用第一图像中第j个像素点所表达的特征信息对第i个点云数据的特征信息进行补充，从而使得第i个点云数据的特征信息更加丰富，有助于提高对象检测的准确性。

上述实现方式中，针对每个点云数据，可以在第一图像中确定出一个像素点。即，点云数据和像素点之间是一对一的关系。该情况下，若第一图像中的第j个像素点的特征信息不准确时，会影响第i个点云数据的特征信息的准确性。本公开实施例的另一种可能的实现方式中，可以针对每个点云数据，在第一图像中确定出该点云数据对应的多个像素点。也就是说，建立点云数据与像素点之间的一对多的关系。这样，可以利用多个像素点所表达的特征信息对一个点云数据的特征信息进行补充，从而使得该点云数据的特征信息更加丰富，并且更加准确。

示例性的，以第i个点云数据为例，假设第i个点云数据与第一图像中的第j个像素点对应场景中的同一位置点，则可以在第一图像中的第j个像素点周围确定至少一个像素点，将第j个像素点与其周围的至少一个像素点确定为第i个点云数据对应的多个像素点。

可选的，可以采用如下方式在第一图像中确定每个点云数据对应的P个像素点：

若P等于1，则在第一图像中对该点云数据进行投影处理，得到投影像素点，并将该投影像素点作为该点云数据对应的像素点。

若P为大于1的整数，则在第一图像中对该点云数据进行投影处理，得到投影像素点，并在第一图像中所述投影像素点的周围预设范围内确定P-1个邻近像素点；将所述投影像素点以及所述P-1个邻近像素点，确定为该点云数据对应的P个像素点。

S203：根据每个点云数据对应的P个像素点，对所述第一图像和所述N个点云数据进行融合处理，得到融合特征。

能够理解，在S202中确定出各点云数据与第一图像中的像素点之间的对应关系之后，可以根据上述对应关系，对第一图像和N个点云数据进行融合处理，得到融合特征。融合特征中既包括了第一图像至少部分像素点的图像特征，还包括了N个点云数据所表达的点云特征。

需要说明的是，本实施例中可以采用多种方式，对第一图像和N个点云数据进行融合处理。例如，可以将各点云数据对应的P个像素点的图像特征叠加到对应的点云数据上，得到融合特征。又例如，还可以根据各点云数据对应的P个像素点的图像特征对N个点云数据进行加权计算，得到融合特征。当然，还可以采用其他方式对第一图像和N个点云数据进行融合处理，本实施例对此不作限定。

S204：对所述融合特征进行对象检测处理，以在所述N个点云数据中确定至少一个三维对象。

示例性的，可以通过事先训练好的检测模型，对融合特征进行对象检测处理。例如，将融合特征输入到检测模型中，检测模型在N个点云数据中确定出至少一个三维对象。需要说明的是，本实施例对于检测模型的网络结构以及训练过程不做限定。

本实施例提供的三维对象检测方法，包括：获取第一图像和N个点云数据，第一图像和N个点云数据为在同一场景下采集得到的；在第一图像中确定每个点云数据对应的P个像素点，P为大于或等于1的整数；根据每个点云数据对应的P个像素点，对第一图像和N个点云数据进行融合处理，得到融合特征；对融合特征进行对象检测处理，以在N个点云数据中确定至少一个三维对象。由于图像中存在大量的语义信息，通过对第一图像和N个点云数据进行融合处理，能够利用第一图像中语义信息对点云数据的点云特征进行补充和丰富，从而，使得融合特征中的特征信息更加全面。这样，对融合特征进行对象检测处理，能够提高检测结果的准确性。

在上述实施例的基础上，下面结合几个具体的实施例，对本公开技术方案进行更详细的说明。

图3为本公开实施例提供的另一种三维对象检测方法的流程示意图。如图3所示，

S301：获取第一图像和N个点云数据，所述第一图像和所述N个点云数据为在同一场景下采集得到的，所述N为大于1的整数。

应理解，S301的具体实现方式与S201类似，此处不做赘述。

S302：获取所述第一图像对应的第一图像特征，以及获取所述N个点云数据对应的第一点云特征。

为了便于理解，下面结合图4介绍本实施例中的三维对象检测过程。

图4为本公开实施例提供的一种三维对象检测过程的示意图。如图4所示，假设N个点云数据记为N*4。4表示每个点云数据的维度，例如每个点云数据可以表示为(x,y,z,r)，其中，x,y,z表示该点的三维坐标，r表示该点的激光反射强度。假设第一图像记为H*W，其中H表示第一图像的高，W表示第一图像的宽，H*W也可以理解为第一图像中的像素数量。

示例性的，参见图4，可以通过点云特征提取网络对N个点云数据进行特征提取，得到N个点云数据对应的第一点云特征。示例性的，第一点云特征可以表示为N*M，其中，N表示点的数量，M可以每个点的特征维度。M为大于4的整数。

示例性的，继续参见图4，可以通过图像特征提取网络对第一图像进行特征提取，得到第一图像对应的第一图像特征。示例性的，第一图像特征可以记为H*W*S。H*W可以理解为第一图像中的像素数量，S可以理解为每个像素的特征维度。

S303：在所述第一图像中确定每个点云数据对应的P个像素点，所述P为大于或等于1的整数。

应理解，S303的具体实现方式可以参见S202的详细描述，此处不做赘述。

S304：根据每个点云数据对应的P个像素点、所述第一图像特征和所述第一点云特征，确定所述N个点云数据对应的类别特征。

本实施例中，N个点云数据对应的类别特征用于指示每个点云数据对应C个预设类别的对象的概率。C为大于或者等于1的整数。

在基于深度学习的对象检测技术中，对点云数据进行对象检测的过程，可以视为对每个点云数据进行分类的过程，即，确定出每个点云数据属于预设类别的概率。

为了便于理解，下面以图1所示的自动驾驶场景为例进行举例说明。假设该应用场景中，需要检测是否存在障碍物。则对象检测过程可以视为二分类问题，需要确定出每个点云数据对应的位置点是否有障碍物，即确定出该点云数据对应的位置点有障碍物的概率。该情况下，C＝1。

假设图1所示应用场景中，需要检测出行人、自行车、车辆、道路基础设施4个类别的障碍物。则对象检测过程可以视为4分类问题，需要确定出每个点云数据对应的位置点对应行人的概率、对应自行车的概率、对应车辆的概率、对应道路基础设施的概率。该情况下，C＝4。

本实施例中，可以根据每个点云数据对应的P个像素点、所述第一图像特征和所述第一点云特征，确定所述N个点云数据对应的类别特征。其中，类别特征可以记为N*C。即每个点云数据对应C维特征，每一维特征可以表示该点云数据对应某个类别的对象的概率。

上述S304的处理过程可以理解为，利用第一图像特征和第一点云特征，对所述N个点云数据的类别进行预判的过程；或者说，利用第一图像特征和第一点云特征，对所述N个点云数据的类别进行投票的过程。

示例性的，继续参见图4，可以将第一图像特征(H*W*S)和第一点云特征(N*M)输入至投票网络(或者称为类别预判网络)中，通过投票网络根据每个点云数据对应的P个像素点、第一图像特征(H*W*S)、以及第一点云特征(N*M)，对每个点云数据的类别进行预判，确定每个点云数据各自对应C个类别的对象的概率，从而得到N个点云数据对应的类别特征(N*C)。

S305：对所述N个点云数据对应的类别特征和所述N个点云数据进行第一融合处理，得到所述融合特征。

本实施例中，第一融合处理的方式可以为：利用N个点云数据对应的类别特征，对N个点云数据的维度进行扩充，得到融合特征。

示例性的，继续参见图4，利用N个点云数据对应的类别特征(N*C)对N个点云数据(N*4)进行维度扩充，得到融合特征(N*(4+C))。

应理解，由于类别特征(N*C)是根据第一图像特征(H*W*S)和第一点云特征(N*M)得到的，类别特征(N*C)中包括了第一图像特征(H*W*S)中的至少部分特征。进而，对类别特征(N*C)和N个点云数据进行第一融合处理，得到融合特征，这样，融合特征中不仅包括第一点云特征，还包括第一图像特征中的至少部分特征，使得融合特征包括的特征信息更全面。这样，对融合特征进行对象检测处理，能够提高检测结果的准确性。

S306：通过预设检测模型对所述融合特征进行对象检测处理，得到对象检测结果，所述对象检测结果包括所述至少一个三维对象的对象信息，所述对象信息包括所述三维对象在所述N个点云数据对应的点云图像中的位置、所述三维对象的尺寸和所述三维对象的朝向。

示例性的，继续参见图4，将融合特征(N*(4+C))输入至预设检测模型，预设检测模型输出对象检测结果。图4中，为了方便示例，N个点云数据以点云图像的形式进行示意。预设检测模型输出的对象检测结果中，在点云图像中以立体框的形式标注了至少一个三维对象。这样，标注结果指示了每个三维对象在点云图像中的位置(例如xyz坐标)、每个三维对象的尺寸(例如长宽高)、以及每个三维对象的朝向(例如朝向角)。

一些可能的实现方式中，在得到对象检测结果之后，还可以包括：显示N个点云数据对应的点云图像、以及在点云图像上显示对象检测结果。例如，如图4所示，在点云图像上采用立体框的形式标注各三维对象。这样，用户可以直观观看到检测结果。

另一些可能的实现方式中，在得到对象检测结果之后，还可以包括：向预设设备发送对象检测结果。示例性，当实施例的执行主体为云端时，云端向自动驾驶车辆发送对象检测结果，以便自动驾驶车辆根据对象检测结果进行驾驶决策，从而躲避障碍物。

本实施例中，利用投票网络对第一图像特征和第一点云特征进行分析，确定出N个点云数据对应的类别特征，并将类别特征和N个点云数据进行第一融合处理，得到融合特征。该过程中，有效利用了第一图像中的语义信息对第一点云特征进行补充，使得得到的融合特征更加全面和丰富。进而，对融合特征进行对象检测处理，能够提高检测结果的准确性。

在上述图3或图4所示实施例的基础上，下面结合图5和图6，说明如何利用第一图像特征和第一点云特征，得到N个点云数据对应的类别特征。本实施例可以作为S304的一种可能的实现方式。

图5为本公开实施例提供的一种类别特征的确定方法的流程示意图。图6为本公开实施例提供的一种类别特征的确定过程的示意图。如图5所示，本实施例的方法，包括：

S501：根据每个点云数据对应的P个像素点，在所述第一图像特征中确定每个点云数据对应的子图像特征，得到N个子图像特征；一个子图像特征中包括所述P个像素点对应的图像特征。

举例而言，以第i个点云数据为例，可以通过投影的方式将第i个点云数据投影到第一图像上，确定出一个投影像素点，并在投影像素点的周围预设范围内确定出P-1个邻近像素点。将投影像素点和P-1个邻近像素点作为第i个点云数据对应的P个像素点。

进而，在第一图像特征(H*W*S)中确定出这P个像素点对应的图像特征。由于每个像素点对应的特征维度为S，则P个像素点共可以得到P*S维度的特征。本实施例中，将该P个像素点对应的特征作为第i个点云数据对应的子图像特征(P*S)。

这样，针对每个点云数据，可以从第一图像特征中确定出子图像特征(P*S)。针对N个点云数据，则可以从第一图像特征中确定出N个子图像特征(N*(P*S))。

示例性的，参见图6，投票网络中可以包括采样单元。将第一点云特征(N*M)和第一图像特征(H*W*S)输入到采样单元中，采样单元可以根据每个点云数据对应的P个像素点，从第一图像特征中确定出每个点云数据对应的子图像特征，从而得到N个子图像特征(N*P*S)。

S502：对所述N个子图像特征和所述第一点云特征进行第二融合处理，得到中间融合特征。

一种可能的实现方式中，可以采用如下方式进行第二融合处理：将N个子图像特征和第一点云特征进行相加，得到中间融合特征。

另一种可能的实现方式中，可以采用如下方式进行第二融合处理：根据所述第一点云特征的维度，对所述N个子图像特征进行维度变化处理得到第二图像特征，所述第二图像特征和所述第一点云特征的维度相同；根据第二图像特征对第一点云特征进行加权处理，得到第二点云特征；将第一点云特征和第二点云特征进行相加处理，得到中间融合特征。

一种可能的实现方式中，根据第二图像特征对第一点云特征进行加权处理，得到第二点云特征，可以采用如下方式实现：将第二图像特征与第一点云特征进行相乘，得到第二点云特征。

示例性的，参见图6，投票网络中还可以包括维度处理单元。将N个子图像特征(N*(P*S))输入维度处理单元，维度处理单元对N个子图像特征(N*(P*S))进行维度变化处理，得到第二图像特征(N*M)。将第二图像特征(N*M)与第一点云特征(N*M)进行相乘，得到第二点云特征。将第二点云特征和第一点云特征进行相加，得到中间融合特征(N*M)。

可选的，上述的维度处理单元可以采用全连接层实现。

本实施例中，通过将第二图像特征与第一点云特征进行相乘，相当于利用第二图像特征对第一点云特征进行加权，从而达到利用第一图像中语义信息对第一点云特征进行补充和完善的效果。进一步的，通过将上述相乘得到的第二点云特征与第一点云特征进行相加，得到中间融合特征，可以防止加权错误影响原有的第一点云特征，从而保证中间融合特征的准确性。

S503：对所述中间融合特征进行分类处理，得到所述N个点云数据对应的类别特征。

示例性的，继续参见图6，投票网络中还可以包括分类单元。将中间融合特征(N*M)输入至分类单元，分类单元对中间融合特征(N*M)进行分类处理，得到N个点云数据对应的类别特征(N*C)。

可选的，上述分类单元可以采用全连接层实现。

本实施例中，通过根据每个点云数据对应的P个像素点，在第一图像特征中确定每个点云数据对应的子图像特征，得到N个子图像特征，并对N个子图像特征和第一点云特征进行第二融合处理，得到中间融合特征，提高了中间融合特征的准确性；进而，对中间融合特征进行分类处理，得到的类别特征的准确性更高。

本公开实施例中，通过将图像和点云数据融合起来进行对象检测，使得可以利用图像中存在大量的语义信息，对点云数据的特征进行补充，从而提高检测结果的准确性。另外，由于本公开实施例中，对图像和点云数据的融合处理过程是在预设检测模型之前进行的，因此，不需要对预设检测模型的结构和内部处理过程进行修改，从而，本公开实施例可以支持与各种现有检测模型和未来检测模型进行配合使用，提高了应用场景的灵活性。

图7为本公开实施例提供的一种三维对象检测装置的结构示意图。该装置可以软件和/或硬件的形式。如图7所示，本实施例提供的三维对象检测装置700，包括：获取模块701、确定模块702、处理模块703、检测模块704。其中，

获取模块701，用于获取第一图像和N个点云数据，所述第一图像和所述N个点云数据为在同一场景下采集得到的，所述N为大于1的整数；

确定模块702，用于在所述第一图像中确定每个点云数据对应的P个像素点，所述P为大于或等于1的整数；

处理模块703，用于根据每个点云数据对应的P个像素点，对所述第一图像和所述N个点云数据进行融合处理，得到融合特征；

检测模块704，用于对所述融合特征进行对象检测处理，以在所述N个点云数据中确定至少一个三维对象。

一种可能的实现方式中，所述处理模块703包括：

获取单元，用于获取所述第一图像对应的第一图像特征，以及获取所述N个点云数据对应的第一点云特征；

第一处理单元，用于根据每个点云数据对应的P个像素点、所述第一图像特征和所述第一点云特征，确定所述N个点云数据对应的类别特征；

第二处理单元，用于对所述N个点云数据对应的类别特征和所述N个点云数据进行第一融合处理，得到所述融合特征。

一种可能的实现方式中，所述第一处理单元包括：

第一处理子单元，用于根据每个点云数据对应的P个像素点，对所述第一图像特征和所述第一点云特征进行第二融合处理，得到所述N个点云数据对应的中间融合特征；

第二处理子单元，用于对所述中间融合特征进行分类处理，得到所述N个点云数据对应的类别特征。

一种可能的实现方式中，所述第一处理子单元具体用于：

根据每个点云数据对应的P个像素点，在所述第一图像特征中确定每个点云数据对应的子图像特征，得到N个子图像特征；一个子图像特征中包括所述P个像素点对应的图像特征；

对所述N个子图像特征和所述第一点云特征进行所述第二融合处理，得到所述中间融合特征。

一种可能的实现方式中，所述第一处理子单元具体用于：

根据所述第一点云特征的维度，对所述N个子图像特征进行维度变化处理得到第二图像特征，所述第二图像特征和所述第一点云特征的维度相同；

根据所述第二图像特征对所述第一点云特征进行加权处理，得到第二点云特征；

将所述第一点云特征和所述第二点云特征进行相加处理，得到所述中间融合特征。

一种可能的实现方式中，所述第一处理子单元具体用于：

将所述第二图像特征与所述第一点云特征相乘，得到所述第二点云特征。

一种可能的实现方式中，所述P为大于1的整数，所述确定模块702包括：

投影单元，用于针对所述N个点云数据中的每个点云数据，在所述第一图像中对所述点云数据进行投影处理，得到投影像素点；

第一确定单元，用于在所述第一图像中所述投影像素点的周围预设范围内确定P-1个邻近像素点；

第二确定单元，用于将所述投影像素点和所述P-1个邻近像素点，确定为所述点云数据对应的P个像素点。

一种可能的实现方式中，所述检测模块704包括：检测单元；

所述检测单元，用于通过预设检测模型对所述融合特征进行对象检测处理，得到对象检测结果，所述对象检测结果包括所述至少一个三维对象的对象信息，所述对象信息包括所述三维对象在所述N个点云数据对应的点云图像中的位置、所述三维对象的尺寸和所述三维对象的朝向。

一种可能的实现方式中，本实施例的装置还包括：

显示模块，用于显示所述N个点云数据对应的点云图像、以及在所述点云图像上显示所述对象检测结果；或者，

发送模块，用于向预设设备发送所述对象检测结果。

本实施例提供的三维对象检测装置，可用于执行上述任意方法实施例提供的三维对象检测方法，其实现原理和技术效果类似，此处不做赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如三维对象检测方法。例如，在一些实施例中，三维对象检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的三维对象检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行三维对象检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种三维对象检测方法，包括：

针对所述N个点云数据中的每个点云数据，在所述第一图像中对所述点云数据进行投影处理，得到投影像素点；

在所述第一图像中所述投影像素点的周围预设范围内确定P-1个邻近像素点；

将所述投影像素点和所述P-1个邻近像素点，确定为所述点云数据对应的P个像素点，所述P为大于1的整数；

获取所述第一图像对应的第一图像特征，以及获取所述N个点云数据对应的第一点云特征；

将所述第一图像特征和所述第一点云特征输入至投票网络中，通过所述投票网络根据每个点云数据对应的P个像素点、所述第一图像特征和所述第一点云特征，对每个点云数据的类别进行预判，确定所述N个点云数据对应的类别特征，所述N个点云数据对应的类别特征用于指示每个点云数据对应C个预设类别的对象的概率，所述C为大于或者等于1的整数；每个类别特征包括所述第一图像特征中的至少部分特征；

利用所述N个点云数据对应的类别特征对所述N个点云数据的维度进行扩充，得到融合特征；

对所述融合特征进行对象检测处理，以在所述N个点云数据中确定至少一个三维对象；

所述投票网络还包括采样单元、维度处理单元和分类单元；

所述采样单元用于根据每个点云数据对应的P个像素点，在所述第一图像特征中确定每个点云数据对应的子图像特征，得到N个子图像特征；一个子图像特征中包括所述P个像素点对应的图像特征；

所述维度处理单元用于对所述N个子图像特征进行维度变化处理得到第二图像特征，所述第二图像特征和所述第一点云特征的维度相同；

利用所述第二图像特征对所述第一点云特征进行加权处理，得到第二点云特征；

将所述第一点云特征和所述第二点云特征进行相加处理，得到中间融合特征；

所述分类单元用于对所述中间融合特征进行分类处理，得到所述N个点云数据对应的类别特征。

2.根据权利要求1所述的方法，其中，利用所述第二图像特征对所述第一点云特征进行加权处理，得到第二点云特征，包括：

3.根据权利要求1或2所述的方法，其中，对所述融合特征进行对象检测处理，以在所述N个点云数据中确定至少一个三维对象，包括：

通过预设检测模型对所述融合特征进行对象检测处理，得到对象检测结果，所述对象检测结果包括所述至少一个三维对象的对象信息，所述对象信息包括所述三维对象在所述N个点云数据对应的点云图像中的位置、所述三维对象的尺寸和所述三维对象的朝向。

4.根据权利要求3所述的方法，通过预设检测模型对所述融合特征进行对象检测处理，得到对象检测结果之后，还包括：

显示所述N个点云数据对应的点云图像、以及在所述点云图像上显示所述对象检测结果；或者，

向预设设备发送所述对象检测结果。

5.一种三维对象检测装置，包括：

确定模块，用于针对所述N个点云数据中的每个点云数据，在所述第一图像中对所述点云数据进行投影处理，得到投影像素点；

处理模块，包括获取单元、第一处理单元和第二处理单元；

所述获取单元，用于获取所述第一图像对应的第一图像特征，以及获取所述N个点云数据对应的第一点云特征；

所述第一处理单元，用于将所述第一图像特征和所述第一点云特征输入至投票网络中，通过所述投票网络根据每个点云数据对应的P个像素点、所述第一图像特征和所述第一点云特征，确定所述N个点云数据对应的类别特征，所述N个点云数据对应的类别特征用于指示每个点云数据对应C个预设类别的对象的概率，所述C为大于或者等于1的整数；每个类别特征包括所述第一图像特征中的至少部分特征；

所述第二处理单元，用于利用所述N个点云数据对应的类别特征对所述N个点云数据的维度进行扩充，得到融合特征；

检测模块，用于对所述融合特征进行对象检测处理，以在所述N个点云数据中确定至少一个三维对象；

所述投票网络还包括采样单元、维度处理单元和分类单元；

6.根据权利要求5所述的装置，其中，利用所述第二图像特征对所述第一点云特征进行加权处理，得到第二点云特征，包括：

7.根据权利要求5或6所述的装置，其中，所述检测模块包括：检测单元；

8.根据权利要求7所述的装置，还包括：

发送模块，用于向预设设备发送所述对象检测结果。

9. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至4中任一项所述的方法。