CN111222395B

CN111222395B - 目标检测方法、装置与电子设备

Info

Publication number: CN111222395B
Application number: CN201911001369.3A
Authority: CN
Inventors: 谢亮; 项超; 余正旭; 徐国栋; 杨政; 蔡登�; 何晓飞
Original assignee: Hangzhou Fabu Technology Co Ltd
Current assignee: Hangzhou Fabu Technology Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2023-05-23
Anticipated expiration: 2039-10-21
Also published as: CN111222395A

Abstract

本申请实施例公开了一种目标检测方法、装置与电子设备，该方法包括：获取待检测场景的二维图像和点云数据；对二维图像进行语义分割，获得二维图像中每一个像素点的语义特征信息，以及对点云数据进行特征检测，获得点云数据中每个离散点的三维特征信息；针对点云数据中的每一个离散点，将离散点的三维特征信息与离散点对应的像素点的语义特征信息进行融合，获得每个离散点的第一融合特征信息；基于每个离散点的第一融合特征信息，获得待检测场景中的目标物的三维检测结果。即本申请将图像分割任务与三维目标检测任务结合在一起，并通过逐点融合的方式，提高了三维目标检测的准确性。

Description

目标检测方法、装置与电子设备

技术领域

本申请涉及计算机图像处理技术领域，尤其涉及一种目标检测方法、装置与电子设备。

背景技术

随着智能驾驶技术的快速发展，三维目标检测得到了研究者的广泛关注。三维目标检测的任务是，根据车载传感器获取到的数据，检测周围环境中的物体(如车辆、非机动车、行人等)。三维目标检测的难点在于，如何准确获得物体的位置、尺寸以及朝向信息，其检测准确性直接影响自动驾驶的行车安全。

目前常见的三维目标检测方法是将三维点云与二维图像进行特征融合，获得目标物的三维检测结果，具体是将三维点云转换成点云鸟瞰图，将点云鸟瞰图与二维图像进行特征融合。但是，基于鸟瞰图的融合存在较大的量化误差，导致检测结果不准确。

发明内容

本申请实施例提供一种目标检测方法、装置与电子设备，提高目标物的检测准确性。

第一方面，本申请实施例提供一种目标检测方法，包括：

获取待检测场景的二维图像和点云数据，所述待检测场景中包括目标物；

对所述二维图像进行语义分割，获得所述二维图像中每一个像素点的语义特征信息，以及对所述点云数据进行特征检测，获得所述点云数据中每个离散点的三维特征信息；

针对所述点云数据中的每一个离散点，将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息；

基于每个所述离散点的第一融合特征信息，确定所述待检测场景中的目标物的三维检测结果。

在第一方面的一种可能的实现方式中，所述将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息，包括：

从所述点云数据中获取所述离散点的K个临近点，以及所述K个临近点分别对应的像素点的语义特征信息，所述K个临近点包括所述离散点；

针对所述K个临近点中的每一个临近点，将所述临近点对应的像素点的语义特征信息和所述临近点与所述离散点的坐标偏移量进行拼接，获得所述离散点与每个临近点的拼接特征信息；

根据所述离散点与每个临近点的拼接特征信息，确定所述离散点的第一融合特征信息。

在第一方面的一种可能的实现方式中，所述根据所述离散点与每个临近点的拼接特征信息，获得所述离散点的第一融合特征信息，包括：

将所述离散点与每个临近点的拼接特征信息通过由多层感知机近似的连续卷积，获得所述离散点与每个临近点的近似特征信息；

根据所述离散点与每个临近点的近似特征信息，确定所述离散点的第一融合特征信息。

在第一方面的一种可能的实现方式中，所述根据所述离散点与每个临近点的近似特征信息，确定所述离散点的第一融合特征信息，包括：

将所述离散点与每个临近点的拼接特征信息进行点池化操作，获得所述离散点的池化特性信息；

根据所述离散点的池化特性信息，确定所述离散点的第一融合特征信息。

将所述离散点与每个临近点的近似特征信息进行基于注意力机制的融合操作，获得所述离散点的第二融合特性信息；

根据所述离散点的第二融合特性信息，确定所述离散点的第一融合特征信息。

将所述离散点与每个临近点的近似特征信息进行叠加操作，获得所述离散点的叠加特性信息；

根据所述离散点的叠加特性信息，确定所述离散点的第一融合特征信息。

在第一方面的一种可能的实现方式中，所述方法还包括：

将所述离散点的叠加特性信息、所述离散点的第二融合特性信息、所述离散点的池化特性信息中的任意一个作为所述离散点的第一融合特征信息；

或者，将所述离散点的三维特征信息、所述离散点的叠加特性信息、所述离散点的第二融合特性信息和所述离散点的池化特性信息中的至少两项进行拼接，将拼接后的特性信息作为所述离散点的第一融合特征信息。

在第一方面的一种可能的实现方式中，所述方法还包括：

获取多张二维训练图像，所述二维训练图像中的目标物类别标注为前景，所述二维训练图像中除所述目标物类别之外的其他类别标注为背景；

使用多张二维训练图像训练所述语义分割网络；

所述对所述二维图像进行语义分割，获得所述二维图像中每一个像素点的语义特征信息，包括：

将所述二维图像输入训练好的语义分割网络，获得所述二维图像中每一个像素点的语义特征信息。

第二方面，本申请实施例提供一种目标检测装置，包括：

获取模块，用于获取待检测场景的二维图像和点云数据，所述待检测场景中包括目标物；

处理模块，用于对所述二维图像进行语义分割，获得所述二维图像中每一个像素点的语义特征信息，以及对所述点云数据进行特征检测，获得所述点云数据中每个离散点的三维特征信息；

融合模块，用于针对所述点云数据中的每一个离散点，将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息；

确定模块，用于基于每个所述离散点的第一融合特征信息，确定所述待检测场景中的目标物的三维检测结果。

在第二方面的一种可能的实现方式中，所述融合模块，具体用于从所述点云数据中获取所述离散点的K个临近点，以及所述K个临近点分别对应的像素点的语义特征信息，所述K个临近点包括所述离散点；针对所述K个临近点中的每一个临近点，将所述临近点对应的像素点的语义特征信息和所述临近点与所述离散点的坐标偏移量进行拼接，获得所述离散点与每个临近点的拼接特征信息；根据所述离散点与每个临近点的拼接特征信息，确定所述离散点的第一融合特征信息。

在第二方面的一种可能的实现方式中，所述融合模块，具体用于将所述离散点与每个临近点的拼接特征信息通过由多层感知机近似的连续卷积，获得所述离散点与每个临近点的近似特征信息；根据所述离散点与每个临近点的近似特征信息，确定所述离散点的第一融合特征信息。

在第二方面的一种可能的实现方式中，所述融合模块，还具体用于将所述离散点与每个临近点的拼接特征信息进行点池化操作，获得所述离散点的池化特性信息；根据所述离散点的池化特性信息，确定所述离散点的第一融合特征信息。

在第二方面的一种可能的实现方式中，所述融合模块，还具体用于将所述离散点与每个临近点的近似特征信息进行基于注意力机制的融合操作，获得所述离散点的第二融合特性信息；根据所述离散点的第二融合特性信息，确定所述离散点的第一融合特征信息。

在第二方面的一种可能的实现方式中，所述融合模块，还具体用于将所述离散点与每个临近点的近似特征信息进行叠加操作，获得所述离散点的叠加特性信息；根据所述离散点的叠加特性信息，确定所述离散点的第一融合特征信息。

在第二方面的一种可能的实现方式中，所述融合模块，具体用于将所述离散点的叠加特性信息、所述离散点的第二融合特性信息、所述离散点的池化特性信息中的任意一个作为所述离散点的第一融合特征信息；或者，将所述离散点的三维特征信息、所述离散点的叠加特性信息、所述离散点的第二融合特性信息和所述离散点的池化特性信息中的至少两项进行拼接，将拼接后的特性信息作为所述离散点的第一融合特征信息。

在第二方面的一种可能的实现方式中，所述装置还包括训练模块，

训练模块，用于获取多张二维训练图像，所述二维训练图像中的目标物类别标注为前景，所述二维训练图像中除所述目标物类别之外的其他类别标注为背景；并使用多张二维训练图像训练所述语义分割网络；

所述处理模块，具体用于将所述二维图像输入训练好的语义分割网络，获得所述二维图像中每一个像素点的语义特征信息。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序，以实现如第一方面任一项所述的目标检测方法。

第四方面，本申请实施例提供一种电子设备，包括摄像头、激光雷达、处理器和存储器。

其中，摄像头，用于拍摄待检测场景的二维图像；

激光雷达，用于采集待检测场景的点云数据；

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如第一方面任一项所述的目标检测方法。

第五方面，本申请实施例提供一种计算机存储介质，存储介质包括计算机程序，计算机程序用于实现上述第一方面所述的目标检测方法。

第六方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述第一方面所述的目标检测方法。

第七方面，本申请实施例提供一种芯片，包括处理器，处理器用于运行计算机程序，以使得安装有芯片的电子设备执行如上述第一方面所述的目标检测方法。

本申请实施例提供的目标检测方法、装置与电子设备，通过获取待检测场景的二维图像和点云数据，所述待检测场景中包括目标物；对所述二维图像进行语义分割，获得所述二维图像中每一个像素点的语义特征信息，以及对所述点云数据进行特征检测，获得所述点云数据中每个离散点的三维特征信息；针对所述点云数据中的每一个离散点，将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息；基于每个所述离散点的第一融合特征信息，获得所述待检测场景中的目标物的三维检测结果。即本申请实施例将图像分割任务与三维目标检测任务结合在一起，并通过逐点融合的方式，将点云数据中的每个离散点的三维特征信息和对应的像素点的语义特征信息相融合，提高了三维目标检测的准确性。

附图说明

图1为本申请一实施例提供的目标检测方法的流程图；

图2为本申请实施例的一种系统架构图；

图3为本申请实施例涉及的神经网络示意图；

图4为图3所示的网络的一种示例图；

图5为本申请另一实施例提供的目标检测方法的流程图；

图6为本申请另一实施例提供的目标检测方法的流程图；

图7为本申请另一实施例提供的目标检测方法的流程图；

图8为本申请另一实施例提供的目标检测方法的流程图；

图9为本申请实施例涉及的融合过程示意图；

图10为本申请实施例提供的一种目标检测装置的结构示意图；

图11为本申请一实施例提供的电子设备的结构示意图；

图12为本申请另一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例的方法适用于计算机图像处理技术中需要进行目标检测的领域，例如适用于智能驾驶领域，其中智能驾驶包括自动驾驶和辅助驾驶。本申请实施例以智能驾驶领域为例进行说明。

在智能驾驶中，摄像机与激光雷达是最常见的感知环境的车载传感器。其中，激光雷达是智能驾驶领域中最常用的三维传感器，可以对周围环境进行扫描，产生一系列三维离散点描述物体的三维位置与形状。由于激光雷达点云是离散的数据格式，目前基于点云的三维目标检测方法首先将三维点云量化为一个鸟瞰图(Birds-eye-view，简称BEV)或者体素(voxels)等形式的伪图片，再通过传统的卷积神经网络提取特征进行检测。激光雷达点云虽然能够获取物体准确的三维空间位置和形状，但是点云并不包含色彩语义信息并且极其稀疏，点云的这些缺点导致仅基于激光雷达点云的三维目标检测的方法不能够处理一些复杂场景，如较远的物体、遮挡较大的物体。摄像机产生的二维RGB图像，比点云更加密集并且具有色彩语义信息，但由于不具有深度信息，因而基于单目图像的三维目标检测算法的准确性比基于点云的方法差很多。

近年来，许多三维物体检测的方法依赖多传感器的融合，但是由于三维点云与二维图像具有不同的数据格式，如何有效融合来自不同传感器的特征信息仍然是一个主要挑战。上述直接或者通过连续卷积融合图像与点云鸟瞰图的方法虽然融合了来自不同传感器的数据，但是存在一些缺陷使得融合不够高效。直接融合的方式忽略了摄像机视角与点云鸟瞰图视角的差别，基于连续卷积的方法虽然可以准确的对应三维空间点与图像上的像素，但是基于鸟瞰图的融合存在较大的量化误差，对特征融合以及物体检测准确性都有较大影响。

为了解决上述技术问题，本申请实施例通过将点云数据的三维特征和二维像素点的像素特征进行逐点融合，同时将二维图像分割任务与三维目标检测结合起来，获得准确的三维目标检测结果。

需要说明的是，在本发明实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A以及其它信息确定B。

在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。

另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

下面以具体的示例，对本申请实施例提供的目标检测方案进行详细介绍。

图1为本申请实施例提供的目标检测方法的流程图，如图1所示，本申请实施例的方法包括：

S101、获取待检测场景的二维图像和点云数据，所述待检测场景中包括目标物。

图2为本申请实施例的一种系统架构图，包括电子设备、激光雷达和摄像头，该电子设备包括处理器和存储器，其中处理器与激光雷达和摄像头通信连接，该处理器还与车辆的智能驾驶系统连接。上述电子设备、激光雷达和摄像头均安装在车辆上。

在实际应用中，激光雷达用于对车辆行驶环境进行扫描，获得车辆行驶环境的三维点云数据，摄像头用于对车辆行驶环境进行拍照，获得车辆行驶环境的二维图像，该二维图像为RGB图像。上述激光雷达和摄像头采集的车辆行驶环境可以理解为待检测场景。接着，激光雷达将采集的点云数据发送给电子设备，摄像头将采集的二维图像发送给电子设备。电子设备中的处理器根据本申请实施例的步骤，对点云数据和二维图进行处理，获得待检测场景中目标物的三维检测结果，并将目标物的三维检测结果发送给智能驾驶系统。智能驾驶系统根据目标物的三维检测结果来驾驶车辆。

本申请实施例的执行主体为上述的电子设备，具体可以为电子设备中的处理器。

需要说明的是，上述图2示出的电子设备、激光雷达和摄像头三者分离设置。可选的，上述激光雷达和/或摄像头可以集成在电子设备，与电子设备为一个整体。

S102、对所述二维图像进行语义分割，获得所述二维图像中每一个像素点的语义特征信息，以及对所述点云数据进行特征检测，获得所述点云数据中每个离散点的三维特征信息。

图3为本申请实施例涉及的神经网络示意图，图4为图3所示的网络的一种示例图，如图4所示，上述三维检测子网络可以为Point RCNN。

如图3和图4所示，该网络包括：三维检测子网络、语义分割子网络和融合模块，其中三维检测子网络分为第一阶段和第二阶段。

在实际应用中，将上述获得的待检测场景的点云数据输入该三维检测子网络的第一阶段中，该三维检测子网络的第一阶段可以输出点云数据中每一个离散点的三维特征信息。将上述获得的待检测场景的二维图像输入语义分割子网络，该语义分割子网络输出二维图像中每一个像素点的语义特征信息。

在使用图3或图4所示的网络进行特性信息提取之前，还包括对语义分割子网络和三维检测子网络的训练。

其中，语义分割子网络的训练过程包括步骤A1和步骤A2：

步骤A1、获取多张二维训练图像，所述二维训练图像中的目标物类别标注为前景，所述二维训练图像中除所述目标物类别之外的其他类别标注为背景。

步骤A2、使用多张二维训练图像训练所述语义分割网络。

具体的，本申请实施例可以使用KITTI语义分割数据集来预训练，将其中的语义分割标签进行二值化处理，将除了要目标物类别之外的其他类别都视作背景，将目标物类别作为前景。

像素点的语义特征信息包括该像素点属于前景的概率。

其中，三维检测子网络的训练包括如下步骤：

步骤B1、处理点云数据，对每一个样本，只取摄像机图像视锥范围内的点，并且随机采样预设数量(例如16384)个3D点作为每个样本的点云输入，如果点云数据不足，可从已有3D点中随机采样补足。

步骤B2、训练三维检测子网络，将上述步骤B1处理过的点云数据输入三维检测子网络的第一阶段。将从步骤A2得到的像素点的语义特征信息通过融合模块与三维检测子网络第一阶段提取到的3D点的三维特征信息融合，将融合后的特征信息组作为三维检测子网络的第二阶段的输入，获得预测结果。

步骤B3、将从步骤B2得到的预测结果与标注进行误差损失计算。

可选的，损失函数可以与Point RCNN定义一致。

S103、针对所述点云数据中的每一个离散点，将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息。

继续参照图3和图4所示，语义分割子网络将获得的每一个像素点的语义特征信息输入融合模块，三维检测子网络的第一阶段将获得的点云数据中每一个离散点的三维特征信息输入到融合模块中。融合模块将像素点的语义特征信息结合到三维点云上。

具体是，融合模块针对点云数据中的每一个离散点，将该离散点投射到二维图像上，获得该离散点在该二维图像上对应的像素点。接着，将该离散点的三维特征信息与该离散点对应的像素点的语义特征信息进行融合，将融合结果作为该离散点的第一融合特征信息。

这样，参照上述方法可以获得点云数据中每一个离散点的第一融合特征信息。

S104、基于每个所述离散点的第一融合特征信息，确定所述待检测场景中的目标物的三维检测结果。

根据上述步骤，获得点云数据中每一个离散点的第一融合特征信息后，基于每个离散点的第一融合特性信息可以获得待检测场景中的目标物的三维检测结果。

具体的，继续参照上述图3或图4所示，融合模块获得每个离散点的第一融合特征信息后，将每个离散点的第一融合特征信息输入到三维检测子网络的第二阶段。三维检测子网络的第二阶段输出待检测场景中目标物的三维检测结果。

本申请实施例，将图像分割任务与三维目标检测任务结合在一起，通过图像分割子网络提取到丰富语义信息，提升了三维目标检测的准确性。同时基于逐点融合方式，高效地融合了来自不同传感器的3D点的特征。

本申请实施例提供的目标检测方法，通过获取待检测场景的二维图像和点云数据，所述待检测场景中包括目标物；对所述二维图像进行语义分割，获得所述二维图像中每一个像素点的语义特征信息，以及对所述点云数据进行特征检测，获得所述点云数据中每个离散点的三维特征信息；针对所述点云数据中的每一个离散点，将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息；基于每个所述离散点的第一融合特征信息，获得所述待检测场景中的目标物的三维检测结果。即本申请实施例将图像分割任务与三维目标检测任务结合在一起，并通过逐点融合的方式，将点云数据中的每个离散点的三维特征信息和对应的像素点的语义特征信息相融合，提高了三维目标检测的准确性。

图5为本申请另一实施例提供的目标检测方法的流程图，在上述实施例的基础上，本申请实施例涉及是将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息的具体过程，如图5所示，上述S103包括：

S201、从所述点云数据中获取所述离散点的K个临近点，以及所述K个临近点分别对应的像素点的语义特征信息。

以离散点1为例，上述K个临近点为点云数据中距离该离散点1距离最近的K个离散点，这K个临近点中包括离散点1自身。

可选的，可以利用KNN算法寻找离散点p_i的K个最近邻点p_k∈Neighbor(p_i)。

通过相机标定参数，将该上述K个临近点映射到二维图像的图像坐标中，并确定这K个临近点中每一个临近点对应的像素点，并获得这些对应的像素点的语义特性信息。

例如将K个临近点中第k个临近点对应的像素点的语义特性信息记为f_k，其中k为大于0小于等于K的正整数。

S202、针对所述K个临近点中的每一个临近点，将所述临近点对应的像素点的语义特征信息和所述临近点与所述离散点的坐标偏移量进行拼接，获得所述离散点与每个临近点的拼接特征信息。

以K个临近点中的第k个临近点为例，可以通过公式(1)，获得离散点与第k个临近点的拼接特征信息。

f′_k＝CONCAT(f_k，x_k-x_i) (1)

其中，x_k，x_i分别代表第k个临近点p_k和当前离散点p_i的三维坐标，x_k-x_i代表了临近点p_k到离散点p_i的位置偏移。

根据上述公式，可以获得该离散点与每一个临近点的拼接特征信息。

S203、根据所述离散点与每个临近点的拼接特征信息，确定所述离散点的第一融合特征信息。

本申请实施例中根据离散点与每个临近点的平均特征信息，确定离散点的第一融合特性信息的方式包括但不限于如下几种方式：

方式一，如图6所示，S203根据所述离散点与每个临近点的拼接特征信息，确定所述离散点的第一融合特征信息，包括：

S20311、将所述离散点与每个临近点的拼接特征信息通过由多层感知机近似的连续卷积，获得所述离散点与每个临近点的近似特征信息。

具体的，可以通过公式(2)，将离散点与每个临近点的拼接特征信息通过连续卷积操作，该连续卷积用多层感知机(MLP)近似，获得离散点与每个临近点的近似特征信息。

其中

C为语义特征的维度数，/>

C′是经过MLP之后的特征维度数。

S20312、根据所述离散点与每个临近点的近似特征信息，确定所述离散点的第一融合特征信息。

根据上述步骤，可以获得离散点与每个临近点的近似特征信息后，基于该离散点与每个临近点的近似特性信息，确定离散点的第一融合特性信息。

在一种示例中，上述S20312可以包括如下步骤C1和步骤C2：

步骤C1、将所述离散点与每个临近点的近似特征信息进行叠加操作，获得所述离散点的叠加特性信息。

具体的，根据如下公式(3)将所述离散点与每个临近点的近似特征信息进行叠加操作，获得所述离散点的叠加特性信息。

步骤C2、根据所述离散点的叠加特性信息，确定所述离散点的第一融合特征信息。

本申请实施例对根据所述离散点的叠加特性信息，确定所述离散点的第一融合特征信息的方式不做限制。

在一种示例中，将上述步骤确定的离散点的叠加特性信息作为该离散点的第一融合特性信息。

在另一种示例中，将上述步骤确定的离散点的叠加特性信息和该离散点的其他特征信息进行融合，将融合结果作为该离散点的第一融合特性信息。例如，将离散点的叠加特性信息和该离散点的三维特性信息进行融合，获得第一融合特性信息。

方式二，如图7所示，S203根据所述离散点与每个临近点的拼接特征信息，确定所述离散点的第一融合特征信息，包括：

S20321、将所述离散点与每个临近点的拼接特征信息进行点池化操作，获得所述离散点的池化特性信息。

具体的，根据如下方式(4)和(5)，将离散点与每个临近点的拼接特征信息进行点池化(Point-Pooling)操作。

其中，

S20322、根据所述离散点的池化特性信息，确定所述离散点的第一融合特征信息。

本申请实施例对根据所述离散点的池化特性信息，确定所述离散点的第一融合特征信息的方式不做限制。

在一种示例中，将上述步骤确定的离散点的池化特性信息作为该离散点的第一融合特性信息。

在另一种示例中，将上述步骤确定的离散点的池化特性信息和该离散点的其他特征信息进行融合，将融合结果作为该离散点的第一融合特性信息。例如，将离散点的池化特性信息和/或该离散点的三维特性信息和/或离散点的叠加特性信息进行融合，获得第一融合特性信息。

方式三，如图8所示，S203根据所述离散点与每个临近点的拼接特征信息，确定所述离散点的第一融合特征信息，包括：

S20331、将所述离散点与每个临近点的近似特征信息进行基于注意力机制的融合操作，获得所述离散点的第二融合特性信息。

具体的，根据公式(6)，将离散点与每个临近点的近似特征信息

基于注意力机制的融合操作，获得离散点的第二融合特性信息。/>

其中，ω_k为每个临近点特征向量的加权参数。

S20332、根据所述离散点的第二融合特性信息，确定所述离散点的第一融合特征信息。

本申请实施例对根据离散点的第二融合特性信息，确定所述离散点的第一融合特征信息的方式不做限制。

在一种示例中，将上述步骤确定的离散点的第二融合特性信息作为该离散点的第一融合特性信息。

在另一种示例中，将上述步骤确定的离散点的第二融合特性信息和该离散点的其他特征信息进行融合，将融合结果作为该离散点的第一融合特性信息。例如，将离散点的第二融合特性信息、和/或离散点的池化特性信息、和/或该离散点的三维特性信息、和/或离散点的叠加特性信息进行融合，获得第一融合特性信息。

根据上述步骤，可以获得离散点的第二融合特性信息、离散点的池化特性信息和离散点的叠加特性信息。

在一些实施例中，可以将上述离散点的第二融合特性信息、离散点的池化特性信息和离散点的叠加特性信息中的任意一个作为离散点的第一融合特性信息。

在一些实施例中，将上述离散点的第二融合特性信息、离散点的池化特性信息和离散点的叠加特性信息中任意两个进行融合，将融合后的特性信息作为该离散点的第一融合特性信息。

在一些实施例中，如图9所示，根据公式(7)，将上述离散点的第二融合特性信息、离散点的池化特性信息和离散点的叠加特性信息进行融合，将融合后的特性信息作为该离散点的第一融合特性信息。

在一些实施例中，可以将所述离散点的三维特征信息、所述离散点的叠加特性信息、所述离散点的第二融合特性信息和所述离散点的池化特性信息中的至少两项进行拼接，将拼接后的特性信息作为所述离散点的第一融合特征信息。

示例性的，根据公式(8)，将离散点的三维特征信息、叠加特性信息、第二融合特性信息和池化特性信息进行拼接，得到离散点的第一融合特征信息。

其中，

为离散点的三维特性信息。

本申请实施例，通过上述方法可以准确确定出点云数据中了每一个离散点的三维特征信息。

在一些实施例中，上述S102、对点云数据进行特征检测，获得点云数据中每个离散点的三维特征信息之外，并产生初始三维区域(proposals)。根据上述步骤获得点云数据中每个离散点的第一融合特性信息后，将上述初始三维区域扩大，取到扩大后区域内局部的3D点，并将这些3D点进行平移和旋转，使它们的坐标中心位于该区域中心，x坐标轴朝向为区域朝向。

下面通过将本申请实施例的方法与现有技术进行对比，以体现本申请提出的目标检测方法的技术效果。

在一个大型公开3D目标检测数据集KITTI上将本申请实施例提出的目标检测方法与其他目前前沿的基于多传感器的三维目标检测方式进行对比。

其中，KITTI3D目标检测数据集包含训练(training)和测试(testing)两个子集，其中training包含有7481个带有标注的样本，testing包含7518个不带有标注的样本，testing集上的测试结果只有通过上传到KITTI官方测试网站上才能得到。本申请按照主流的划分方式，将training集划分为包含3712个样本的train集和包含3769个样本的val(validation，校验)集。上述图3或图4所示的网络在train集上进行训练，在val和test集上进行测试。

本申请主要在3D平均准确率(3D Average Precision，简称3D AP)指标上进行评测。总共比较了4个目前主流的三维目标检测算法：MV3D、ContFuse、AVOD-FPN和F-Network。整体对比结果如表1所示。

表1

从表1可以看出，本申请实施例提出的目标检测方法，在KITTI 3D目标检测数据集的val和test集上3D AP指标均获得最优效果，充分展示了本申请的优越性。

为了进一步说明本申请所提出的目标检测方法的每一部分都是有效的，本实施例进行了全方面的拆解验证。对比了不加入图像信息的Point RCNN基线算法和本本申请的目标检测方法。同时，对比了融合步骤中，是否加入点池化(Point Pooling)与基于注意力机制的特征聚合(Attentive Aggregation)操作对于性能的影响。对比结果如表2所示。

表2

从表2上可以看出，融合来自图像的语义特征之后，结果比单纯依靠原始点云要好，并且在最后完整的整体框架，达到了所有拆解验证中的最优结果。这些对比结果充分说明本申请实施例中每一步设计的有效性。

除此之外，本实施例还进行了多任务结合的效果对比，对比结果如表3所示。

表3

从表3上可以看出，多任务结合可以给最终的检测结果带来较为明显的提升，充分说明了本申请将图像语义分割任务与三维目标检测任务结合的有效性。

图10为本申请实施例提供的一种目标检测装置的结构示意图，该目标检测装置可以是上述的电子设备，也可以是电子设备的部件(例如，集成电路，芯片等等)，如图10所示，该目标检测装置100可以包括：

获取模块110，用于获取待检测场景的二维图像和点云数据，所述待检测场景中包括目标物；

处理模块120，用于对所述二维图像进行语义分割，获得所述二维图像中每一个像素点的语义特征信息，以及对所述点云数据进行特征检测，获得所述点云数据中每个离散点的三维特征信息；

融合模块130，用于针对所述点云数据中的每一个离散点，将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息；

确定模块140，用于基于每个所述离散点的第一融合特征信息，确定所述待检测场景中的目标物的三维检测结果。

在一些实施例中，上述融合模块130，具体用于从所述点云数据中获取所述离散点的K个临近点，以及所述K个临近点分别对应的像素点的语义特征信息；针对所述K个临近点中的每一个临近点，将所述临近点对应的像素点的语义特征信息和所述临近点与所述离散点的坐标偏移量进行拼接，获得所述离散点与每个临近点的拼接特征信息；根据所述离散点与每个临近点的拼接特征信息，确定所述离散点的第一融合特征信息。

在一些实施例中，上述融合模块130，所述融合模块，具体用于将所述离散点与每个临近点的拼接特征信息通过由多层感知机近似的连续卷积，获得所述离散点与每个临近点的近似特征信息；根据所述离散点与每个临近点的近似特征信息，确定所述离散点的第一融合特征信息。

在一些实施例中，上述融合模块130，所述融合模块，还具体用于将所述离散点与每个临近点的拼接特征信息进行点池化操作，获得所述离散点的池化特性信息；根据所述离散点的池化特性信息，确定所述离散点的第一融合特征信息。

在一些实施例中，上述融合模块130，所述融合模块，还具体用于将所述离散点与每个临近点的近似特征信息进行基于注意力机制的融合操作，获得所述离散点的第二融合特性信息；根据所述离散点的第二融合特性信息，确定所述离散点的第一融合特征信息。

在一些实施例中，上述融合模块130，所述融合模块，还具体用于将所述离散点与每个临近点的近似特征信息进行叠加操作，获得所述离散点的叠加特性信息；根据所述离散点的叠加特性信息，确定所述离散点的第一融合特征信息。

在一些实施例中，上述融合模块130，所述融合模块，具体用于将所述离散点的叠加特性信息、所述离散点的第二融合特性信息、所述离散点的池化特性信息中的任意一个作为所述离散点的第一融合特征信息；或者，将所述离散点的三维特征信息、所述离散点的叠加特性信息、所述离散点的第二融合特性信息和所述离散点的池化特性信息中的至少两项进行拼接，将拼接后的特性信息作为所述离散点的第一融合特征信息。

可选的，继续参照图8所示，所述装置还包括训练模块150，

训练模块150，用于获取多张二维训练图像，所述二维训练图像中的目标物类别标注为前景，所述二维训练图像中除所述目标物类别之外的其他类别标注为背景；并使用多张二维训练图像训练所述语义分割网络；

所述处理模块120，具体用于将所述二维图像输入训练好的语义分割网络，获得所述二维图像中每一个像素点的语义特征信息。

本申请实施例的目标检测装置，可以用于执行上述各方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图11为本申请一实施例提供的电子设备的结构示意图，如图11所示，本实施例的电子设备200包括：

存储器210，用于存储计算机程序；

处理器220，用于执行所述计算机程序，以实现上述物体检测方法，其实现原理和技术效果类似，此处不再赘述。

图12为本申请另一实施例提供的电子设备的结构示意图，如图12所示，本实施例的电子设备300包括：摄像头310、激光雷达320、处理器330和存储器340。

其中，摄像头310，用于拍摄待检测场景的二维图像；

激光雷达320，用于采集待检测场景的点云数据；

存储器330，用于存储计算机程序；

处理器340，用于执行所述计算机程序，以实现上述物体检测方法，其实现原理和技术效果类似，此处不再赘述。

本申请还提供一种计算机存储介质，存储介质包括计算机程序，计算机程序用于实现如上述任一实施例中的目标检测方法。

本申请还提供一种计算机程序产品，计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行如上述任一实施例中的目标检测方法。

本申请还提供一种芯片，包括处理器，处理器用于运行计算机程序，以使得安装有芯片的电子设备执行如上述任一实施例中的目标检测方法。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述装置的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述装置实施例中的对应过程，在此不再赘述。另外，各个装置实施例之间、各个装置实施例之间也可以互相参考，在不同实施例中的相同或对应内容可以互相引用，不做赘述。

Claims

1.一种目标检测方法，其特征在于，包括：

基于每个所述离散点的第一融合特征信息，确定所述待检测场景中的目标物的三维检测结果；

其中，所述将所述离散点的三维特征信息与所述离散点对应的像素点的语义特征信息进行融合，获得每个所述离散点的第一融合特征信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述离散点与每个临近点的拼接特征信息，获得所述离散点的第一融合特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述离散点与每个临近点的近似特征信息，确定所述离散点的第一融合特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述离散点与每个临近点的近似特征信息，确定所述离散点的第一融合特征信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述离散点与每个临近点的近似特征信息，确定所述离散点的第一融合特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

使用多张二维训练图像训练语义分割网络；

8.一种目标检测装置，其特征在于，包括：

确定模块，用于基于每个所述离散点的第一融合特征信息，确定所述待检测场景中的目标物的三维检测结果；

其中，所述融合模块，具体用于从所述点云数据中获取所述离散点的K个临近点，以及所述K个临近点分别对应的像素点的语义特征信息，所述K个临近点包括所述离散点；针对所述K个临近点中的每一个临近点，将所述临近点对应的像素点的语义特征信息和所述临近点与所述离散点的坐标偏移量进行拼接，获得所述离散点与每个临近点的拼接特征信息；根据所述离散点与每个临近点的拼接特征信息，确定所述离散点的第一融合特征信息。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序，以实现如权利要求1-7任一项所述的目标检测方法。