CN115035490A

CN115035490A - 目标检测方法、装置、设备和存储介质

Info

Publication number: CN115035490A
Application number: CN202110240321.9A
Authority: CN
Inventors: 刘凯旋; 苗振伟; 朱均; 陈纪凯; 郝培涵; 占新; 卿泉
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Wuzhou Online E Commerce Beijing Co ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-09-09

Abstract

本发明实施例提供一种目标检测方法、装置、设备和存储介质，该方法包括：获取采集时间对齐的多帧图像和多组点云数据；分别对多帧图像进行语义分割处理，以得到多帧图像各自包含的类别；根据点云数据和图像的对应关系以及多帧图像各自包含的类别，确定多组点云数据中各数据点的类别。在多组点云数据中分别获取组成待确认目标的数据点的类别，并根据多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中待确认目标的初始检测结果的准确性，目标组点云数据是多组点云数据中的任一组。通过累积多帧图像的语义，以对其中一组点云数据中待确认目标的初始检测结果进行准确性检验，保证最终得到准确的检测结果。

Description

目标检测方法、装置、设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标检测方法、装置、设备和存储介质。

背景技术

在很多应用场景中都会遇到目标检测任务，其中，目标检测任务是指检测出图像中是否包含设定的目标对象，并在检测到图像中包含设定的目标对象时，在图像中标记出包含该目标对象的检测框(通常为目标对象的最小外接矩形框)。

以自动驾驶场景为例，在自动驾驶场景中，自动驾驶车辆的环境感知能力对安全、智能驾驶具有重要意义，而目标检测是环境感知的核心功能，通过目标检测可以使自动驾驶车辆知道周围存在哪些动态的对象(如行人、车辆、骑车的人，等等)以及静态的对象(如护栏、绿化带、路桩，等等)，从而进行安全、合理的路线规划和驾驶控制。

而如果目标检测结果将某种类别的对象错误地识别成了其他类别的对象，将会对基于目标检测结果而执行的后续处理过程造成严重影响。比如在自动驾驶场景中，如果将绿化带错误地识别成了行人，那么可能使得自动驾驶车辆做出错误的驾驶控制决策。例如：如果识别正确，则原本可以高速前行，但是由于将绿化带错误识别成了行人，为了躲避行人，则可能做出减速绕行的错误决定。由此可见，提高目标检测结果的准确性，是亟待解决的问题。

发明内容

本发明实施例提供一种目标检测方法、装置、设备和存储介质，可以提高目标检测结果的准确性。

第一方面，本发明实施例提供一种目标检测方法，该方法包括：

获取采集时间对齐的多帧图像和多组点云数据；

分别对所述多帧图像进行语义分割处理，以得到所述多帧图像各自包含的类别；

根据点云数据和图像的对应关系以及所述多帧图像各自包含的类别，确定所述多组点云数据中各数据点的类别；

在所述多组点云数据中分别获取组成待确认目标的数据点的类别，并根据所述多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中所述待确认目标的初始检测结果的准确性，所述目标组点云数据是所述多组点云数据中的任一组。

第二方面，本发明实施例提供一种目标检测装置，该装置包括：

数据获取模块，用于获取采集时间对齐的多帧图像和多组点云数据；

语义分割模块，用于分别对所述多帧图像进行语义分割处理，以得到所述多帧图像各自包含的类别；

点云处理模块，用于根据点云数据和图像的对应关系以及所述多帧图像各自包含的类别，确定所述多组点云数据中各数据点的类别；

目标检验模块，用于在所述多组点云数据中分别获取组成待确认目标的数据点的类别，并根据所述多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中所述待确认目标的初始检测结果的准确性，所述目标组点云数据是所述多组点云数据中的任一组。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的目标检测方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的目标检测方法。

在上述本发明实施例提供的方案中，通过时序累积和多信息融合的方式来实现目标对象(即本文中的待确认目标)的准确检测，该目标对象是对应于预设的第一类别的对象。具体来说，以自动驾驶场景为例，比如自动驾驶车辆上部署有摄像头和探测器(如激光雷达探测器)，通过摄像头可以拍摄车辆周围的环境，以得到对应的图像，通过探测器可以采集周围环境对应的点云数据。实际应用中，可以连续采集多帧图像和多组点云数据，这多帧图像与多组点云数据的采集时间是一一对齐的。假设当前对某组点云数据(称为目标组点云数据)进行目标检测处理，以得到待确认目标的初始检测结果，但是，该初始检测结果可能不准确，为了确定该初始检测结果的准确性，首先，分别对多帧图像进行语义分割处理，以得到每帧图像包含的类别，即每帧图像中各像素的类别，之后，根据点云数据和图像的对应关系以及多帧图像各自包含的类别，确定多组点云数据中各数据点的类别。最终，在多组点云数据中分别获取组成待确认目标的数据点的类别，并根据多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中待确认目标的初始检测结果的准确性。通过累积多帧图像的语义，使得能够记录一段时间内多组点云数据中包含的若干数据点的类别分布情况，最终基于得到的这一段时间内的稳定、丰富的数据点的类别分布情况的辅助，对其中任一组点云数据对应的待确认目标的初始检测结果进行误检判定，以保证待确认目标的最终类别检测结果的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标检测方法的流程图；

图2为本发明实施例提供的一种点云检测结果的示意图；

图3为本发明实施例提供的一种目标检测场景的示意图；

图4为本发明实施例提供的一种时序语义地图生成过程的流程图；

图5为本发明实施例提供的一种栅格划分结果的示意图；

图6为本发明实施例提供的一种遮挡情形的示意图；

图7为本发明实施例提供的一种目标检测方法的流程图；

图8为本发明实施例提供的一种遮挡分类模型的组成示意图；

图9为本发明实施例提供的一种目标检测装置的结构示意图；

图10为与图9所示实施例提供的目标检测装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的目标检测方案可以由一电子设备来执行，该电子设备可以是诸如无人机、自动驾驶车辆等智能设备，以可以是诸如PC机、笔记本电脑等终端设备，也可以是云端的服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为虚拟服务器，或者也可以为云服务器。

本发明实施例提供的目标检测方案可以适用于自动驾驶等应用场景中，在自动驾驶场景中，可以在自动驾驶车辆上部署有摄像头和探测器(如激光雷达探测器)，通过摄像头可以拍摄车辆周围的环境，以得到对应的图像，通过探测器可以采集周围环境对应的点云数据。这样可以采用点云数据和图像信息融合的方式完成目标检测任务。在自动驾驶场景中，该目标检测任务可以是检测出预设的某一种或多种类别的对象，比如可以是人、车等类别的对象。

在本发明实施例中，假设目标检测的目的即为检测出对应于预设的第一类别的对象。其中，该第一类别可以是一种类别也可以是几种类别，比如，第一类别可以是车，也可以是人和车。

在自动驾驶场景中，自动驾驶车辆周围存在的物体除了包括诸如人、车这些动态移动的对象外，还会包括诸如护栏、树木、绿化带、各种道路指示牌等静态的对象。在某些应用需求下，自动驾驶车辆可能更加关注周围存在的诸如人、车这些动态对象，因此，需要准确感知到这些动态对象的存在，此时，上述第一类别可以是与这些动态对象对应的类别，比如人和车。如果将上述静态对象错误地识别成上述动态对象，势必对基于动态对象的检测结果而执行的后续处理过程产生不利影响。举例来说，假设将绿化带错误地识别成了行人，那么自动驾驶车辆所执行的控制逻辑可能是减速绕行，以避让行人，但是实际上前方存在的只是绿化带，并不需要减速绕行，快速驶过即可，由此可见，这种检测错误将会使得自动驾驶车辆做出错误的控制决策。

基于此，本发明实施例提供的目标检测方案的整体思路是：当对某时刻采集的点云数据进行目标检测处理，以得到该点云数据中包含的对应于第一类别的待确认目标的初始检测结果后，需要判断该初始检测结果的准确性，当确定该初始检测结果不准确时，给予校正。结合上述举例来说就是：如果基于某时刻采集的点云数据发现前方某位置处存在人、车这种类别的待确认目标时，需要确定该初始检测结果是否正确，如果发现其实前方该位置实际上存在的是其他类别的目标，比如绿化带，则确定上述第一类别的待确认目标的初始检测结果是错误的，此时，可以将检测出的待确认目标的类别校正为正确的类别，从而忽略待确认目标为第一类别的初始检测结果。

实际应用中，可以预先训练好一个点云检测模型，以通过该点云检测模型完成基于点云数据的目标检测任务。简单来说，假设该点云检测模型被用于检测第一类别的目标，那么，将某时刻采集的点云数据输入到点云检测模型中，该点云检测模型会输出其认为是第一类别的目标所对应的检测框，即点云检测模型认为该检测框内包含的目标即是属于第一类别的。

可以理解的是，由于该点云检测模型是用于检测第一类别的目标的，因此，点云检测模型输出的即为其认为是第一类别的目标的检测结果，但是实际上，该目标可能并非对应于第一类别，即点云检测模型的输出结果可能有误。而发现并修正这种错误即为本发明实施例提供的目标检测方法所要解决的问题。由于上述目标的初始检测结果可能有误，因此，下文中将该目标称为待确认目标，即待确认其初始检测结果是否准确的目标。

值得说明的是，本发明实施例提供的目标检测方案不仅可以适用于上述举例的自动驾驶场景，还可以适用于其他应用场景中。在不同应用场景中，可以根据实际需求而设定不同的第一类别，即不同应用场景中需要准确检测出的类别可以不同。

下面结合以下一些实施例具体说明本文中目标检测方案的执行过程。

图1为本发明实施例提供的一种目标检测方法的流程图，如图1所示，该方法包括如下步骤：

101、获取采集时间对齐的多帧图像和多组点云数据。

102、分别对多帧图像进行语义分割处理，以得到所述多帧图像各自包含的类别。

103、根据点云数据和图像的对应关系以及多帧图像各自包含的类别，确定多组点云数据中各数据点的类别。

104、在多组点云数据中分别获取组成待确认目标的数据点的类别，并根据多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中待确认目标的初始检测结果的准确性。

其中，目标组点云数据是多组点云数据中的任一组。本实施例中假设的是对目标组点云数据进行目标检测处理，以获得其中待确认目标的初始检测结果，需要对该初始检测结果的准确性进行判定的情形。结合前文的介绍，这里的初始检测结果是指在目标组点云数据中检测出对应于第一类别的待确认目标。

概括来说，在本实施例提供的方案中，是通过时序累积和多信息融合的方式来实现第一类别的待确认目标的准确检测。其中，多信息融合的方式是指点云数据和图像相融合。其中，时序累积，简单来说是指累积连续的多帧图像的语义信息。

以自动驾驶场景为例，自动驾驶车辆在行驶过程中需要不断感知周围的环境，以确定周围存在的各种对象，为后续的路线规划、安全和顺畅地行驶提供决策的依据。本实施例中，假设在某种应用需求下，自动驾驶车辆需要准确地感知周围存在的第一类别的对象。

为了感知周围环境，首先需要对周围环境进行数据采集。本发明实施例中，采集的数据包括点云数据和图像这两种数据。其中，图像中会包含丰富的语义信息，点云数据中包括空间坐标信息(三维坐标)和反映物体表面特征的反射强度(intensity)信息。

自动驾驶车辆可以连续地采集多帧图像和多组点云数据，这多帧图像与多组点云数据的采集时间是对齐的，即在T1时刻采集一组点云数据以及一帧图像，在T2时刻又采集一组点云数据以及一帧图像，以此类推。其中，一组点云数据由若干数据点构成，每个数据点可以具有三维坐标和反射强度等属性信息。激光雷达探测器可以进行各种角度的旋转，从而可以获得对应于自动驾驶车辆周围存在的各种对象的点云数据。

实际应用中，可以对每个时刻采集的一组点云数据进行目标检测处理，以得到某时刻采集的一组点云数据中认为是第一类别的待确认目标的初始检测结果。进一步地，可以结合多帧图像和多组点云数据来验证该时刻对应的初始检测结果的准确性。实际应用中，假设当前对Ti时刻采集的一组点云数据进行了目标检测处理，那么，上述多帧图像和多组点云数据可以是在Ti时刻前后的预设时长(比如2秒)内连续采集到的。或者，实际应用中，也可以将预设时长(比如2秒)内每隔设定时间间隔采集的多帧图像和多组点云数据作为一个整体，对其中每组点云数据的初始检测结果都使用这多帧图像和多组点云数据来进行初始检测结果准确性的判定。

在采集到多帧图像和多组点云数据后，分别对多帧图像进行语义分割处理，以得到每帧图像包含的类别，即每帧图像中各像素的类别。

其中，语义分割处理可以通过预先训练好的语义分割模型来实现，将每帧图像输入到语义分割模型中，语义分割模型会输出该帧图像中各个像素所对应的类别。语义分割模型可以实现为某种神经网络结构，比如卷积神经网络、循环神经网络，等等。语义分割模型的工作原理可以参考现有相关技术实现，在此不赘述。语义分割模型可以实现像素级的分类识别。

这里仅强调，语义分割模型可以被训练成具有识别多种类别的能力，结合本文中目标检测的目的，这多种类别中至少包括上述第一类别，当然，还可以包括其他类别。比如，当第一类别包括人、车时，语义分割模型不仅可以具有识别人、车的能力，还可以具有识别诸如绿化带、护栏等类别的能力。

在得到每帧图像中像素各自对应的类别后，可以根据多帧图像的类别识别结果确定多组点云数据中各数据点的类别。具体来说，将多帧图像中的任一帧作为目标帧图像，将多组点云数据中与目标帧图像时间对齐的一组点云数据作为目标组点云数据，可以根据目标帧图像中各像素的类别，确定目标组点云数据中各数据点的类别。也就是说，根据点云数据和图像的一一对应关系以及多帧图像各自包含的类别，确定多组点云数据中各数据点的类别。

其中，以目标组点云数据为例，根据与其对应的目标帧图像中各像素的类别，确定目标组点云数据中各数据点的类别，可以实现为：

将目标组点云数据向目标帧图像进行投影，以确定目标组点云数据中各数据点与目标帧图像中各像素的对应关系，之后，根据该对应关系和目标帧图像中各像素的类别，确定目标组点云数据中各数据点的类别。针对每组点云数据都进行这样的处理，最终会得到多组点云数据中各数据点的类别。

实际应用中，可以预先标定用于采集点云数据的激光雷达探测器和用于采集图像的摄像头所对应的旋转平移矩阵，该旋转平移矩阵即反映出点云数据中各数据点的三维坐标与对应图像中的各像素位置之间的映射关系。基于该旋转平移矩阵将目标组点云数据向目标帧图像进行投影，从而可以确定目标组点云数据中各数据点与目标帧图像中各像素的对应关系。其中，数据点与像素并不一定是一一对应的关系，可能多个数据点会对应于一个像素。

当确定目标组点云数据中某数据点与目标帧图像中某像素对应时，以该像素对应的类别作为该数据点对应的类别。

这样，可以得到每组点云数据中各数据点分别对应的类别。之后，可以基于多组点云数据中各数据点的类别来辅助判断其中每组点云数据对应的待确认目标的初始检测结果的准确性。

其中，可以分别针对每组点云数据进行第一类别的目标检测处理，从而得到每组点云数据对应的待确认目标的初始检测结果。

将多组点云数据中任一组点云数据作为目标组点云数据，下面以目标组点云数据为例，说明如何根据多组点云数据中各数据点的类别来确定目标组点云数据中待确认目标的初始检测结果的准确性。

为便于理解，结合图2来示例性说明得到目标组点云数据中待确认目标的初始检测结果的情形。在图2中，假设基于点云检测模型对目标组点云数据进行目标检测处理后输出图中示意的包含待确认目标的检测框i，其中，点云检测模型认为检测框i中包含的待确认目标是对应于第一类别的。假设该第一类别包括人和车，在图2中，假设检测框i中包含的待确认目标实际上是绿化带，由此可见，点云检测模型的输出结果是错误的，即目标组点云数据中待确认目标的初始检测结果是错误的。

基于上述得到的多组点云数据中各数据点的类别，可以发现并校正上述错误。具体地，需要在多组点云数据中分别获取组成待确认目标的数据点的类别，并根据多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中待确认目标的初始检测结果的准确性。

概括来说，可以根据多组点云数据中各数据点的类别，生成时序语义地图，该时序语义地图中描述了不同数据点对应的类别，进而，根据时序语义地图对上述目标组点云数据中待确认目标的初始检测结果进行校正，即修正检测框i内待确认目标的类别识别结果。

其中，可选地，根据多组点云数据中各数据点的类别，生成时序语义地图，可以实现为：记录多组点云数据中各数据点的三维坐标以及对应的类别，将记录结果作为时序语义地图。

值得说明的是，由于多组点云数据的采集时间之间间隔比较短，比如为200毫秒，因此，相邻的两组或几组点云数据中可能会有重叠的数据点，即同一数据点在几组点云数据中可能重复出现。假设某数据点在相邻的N组点云数据中重复出现，N小于或等于上述多组点云数据的总组数，此时，基于N组点云数据中各数据点的类别，该数据点对应的类别可能存在不唯一的情况，此时，可以最终确定该数据点对应的类别为类别出现次数最多的那个类别。比如，N＝4,在这四组点云数据中，假设在其中三组点云数据中该数据点对应的类别为类别A，在另一组点云数据中该数据点对应的类别为类别B，由于类别A出现3次，类别B出现1次，因此，可以最终确定该数据点对应的类别为类别A。

在得到上述时序语义地图后，根据时序语义地图对目标组点云数据中待确认目标的初始检测结果的准确性进行判定和校正，具体可以包括：根据时序语义地图，确定检测框i内包含的数据点的类别；根据检测框i内包含的数据点的类别，确定目标组点云数据中待确认目标对应的第二类别；若第二类别与第一类别不一致，则以第二类别校正目标组点云数据中待确认目标的第一类别的初始检测结果。

其中，由于检测框i是基于目标组点云数据得到的，即对目标组点云数据进行第一类别的待确认目标的检测得到的，所以检测框i内包含的数据点是目标组点云数据中组成待确认目标的数据点。检测框i内会包含对应于待确认目标的多个数据点，在时序语义地图中定位这多个数据点以得到这多个数据点分别对应的类别。

可选地，根据这多个数据点分别对应的类别，确定目标组点云数据中待确认目标对应的第二类别，可以实现为：如果这多个数据点对应的类别是同一类别，则确定第二类别即为该同一类别；如果这多个数据点对应的类别是不同类别，则可以确定第二类别是数据点数量占比最高的那个类别。

举例来说，假设检测框i内一共有100个数据点，这100个数据点中对应于类别a的数据点有70个，对应于类别b的数据点的数量有20个，对应于类别c的数据点的数量有10个，那么可以确定上述第二类别为类别a。

如上文所述，像素对应的类别中可能包括第一类别以及除第一类别之外的其他类别，从而，根据像素对应的类别而确定出的数据点的类别也包括第一类别以及除第一类别之外的其他类别，所以，根据上述多个数据点对应的类别所确定出的第二类别可能与第一类别一致，也可能与第一类别不一致。

当第二类别与第一类别一致时，即检测框i内包含的待确认目标确实是对应于第一类别，定目标组点云数据中待确认目标的初始检测结果无误。

而当第二类别与第一类别不一致时，即检测框i内包含的待确认目标实际上不对应于第一类别，定目标组点云数据中待确认目标的初始检测结果有误。此时，可以将检测框i关联上第二类别，以实现类别校正。或者，也可以直接删除检测框i，以表明并未从目标组点云数据中检测到对应于第一类别的目标，如图2中所示。

为便于理解上述目标检测方案在实际应用场景中的作用，下面结合图3来示例性说明。

在图3中，假设某自动驾驶车辆上部署有摄像头C1和激光雷达探测器C2，用以感知周围的环境，其中，摄像头C1用于拍摄车辆前方环境的图像，激光雷达探测器C2可以360度旋转，以用于采集车辆周围的点云数据。假设在车辆行进过程中，在先后10个采集时间通过摄像头C1和激光雷达探测器C2分别采集了十帧图像和十组点云数据，分别表示为图像1-图像10，以及点云数据组1-点云数据组10。为了能够实时地感知周围的环境，可以通过对不同时刻采集的点云数据进行目标检测处理，以检测出周围存在哪些关注的对象，假设自动驾驶车辆关注的是第一类别的目标对象，比如行人、车辆等。

在图3中，以点云数据组5为例，假设对点云数据组5进行目标检测处理后，初始情况下，从点云数据组5中识别出其中包括行人和车辆这种待确认目标，并以图中示意的检测框1将检测出的行人框选出来，以检测框2将检测出的车辆也框选出来。

但是，实际上，如图3中所示，检测框1内存在的实际上并非是行人这种待确认目标，也就是说，从点云数据组5中检测出的检测框1是错误的。为了修正这种错误，结合已经采集的上述10帧图像和10组点云数据来修正该初始检测结果。

简单来说，通过提取这10帧图像的语义信息——各像素对应的类别，并结合相同采集时刻采集的点云数据和图像之间的映射关系，累积这10组点云数据中各数据点所对应的类别，最终，结合一段时间内采集的这10组点云数据所包含的语义信息来辅助修正一组点云数据中待确认目标的初始检测结果。详细的修正过程可以参考前述其他实施例中的说明，在此不赘述。

在图3中，假设基于多组点云数据所对应的语义信息最终确定上述检测框1中包含的并非行人这种待确认目标，从而，最终输出的检测结果如图3中所示，仅输出包含检测框2的检测结果，而忽略初始得到的检测框1这个检测结果。基于输出的检测框2中包含的数据点的三维坐标，自动驾驶车辆可以得知在周围何处位置存在检测框2中的车辆，以便做出准确的行驶控制决策。

综上，通过对一段时间内连续采集的多帧图像进行语义分割以累积得到多帧图像对应的语义信息，并基于多组点云数据中数据点与多帧图像中像素的对应关系，得到这多组点云数据中数据点的类别分布情况，最终基于累积的这一段时间内的稳定、丰富的数据点的类别分布情况的辅助，对其中各组点云数据中待确认目标的初始检测结果有误误检进行判定及校正，保证最终得到的检测结果的准确性。

以上实施例中介绍了一种时序语义地图的生成过程，可选地，时序语义地图还可以采用如图4所示实施例介绍的方案来生成。

图4为本发明实施例提供的一种时序语义地图生成过程的流程图，如图4所示，该时序语义地图生成过程包括如下步骤：

401、将多组点云数据中各数据点向地面进行投影，以得到多组点云数据中各数据点对应的投影坐标。

402、根据预设的栅格尺寸，对由多组点云数据中各数据点对应的投影坐标所界定的投影区域进行栅格划分，以得到多个栅格。

403、根据多个栅格中各数据点的类别，确定多个栅格各自对应的类别。

404、根据多个栅格各自对应的类别，生成时序语义地图，时序语义地图中描述了不同栅格对应的类别。

点云数据中每个数据点都是以三维坐标来表示的，数据点向地面投影，即忽略数据点的高度信息。假设某数据点的三维坐标表示为(x,y,z)，向地面投影后得到的投影坐标表示为(x,y)。从而可以理解的是，当多个数据点的横纵坐标相同，仅高度坐标不同时，这多个数据点对应的投影坐标是一致的。

在得到多组点云数据中各数据点对应的投影坐标后，可选地，可以确定出包含这些投影坐标的最小矩形区域作为上述投影区域。之后，以预设的栅格尺寸对该投影区域进行栅格划分，会得到多个栅格。

在另一可选实施例中，也可以根据多组点云数据各自包含的数据点所对应的投影坐标，确定多组点云数据各自对应的投影区域，之后，确定多组点云数据各自对应的投影区域的重叠区域，根据预设的栅格尺寸，对该重叠区域进行栅格划分，以得到多个栅格。为便于理解，结合图5来示例性说明。

在图5中，假设存在三组点云数据，对每组点云数据中数据点向地面投影后得到数据点对应的投影坐标，以黑点表示投影坐标。确定每组点云数据对应的投影区域，在图5中，三个投影区域分别表示为A、B、C。

可选地，一组点云数据对应的投影区域可以是包含这组点云数据对应的投影坐标的最小矩形区域。或者，可选地，也可以是小于该最小矩形区域的一个区域。比如，实际上，激光雷达探测器能够探测到的距离可能比较远，而自动驾驶车辆可能仅关注某目标距离范围内存在的对象，该目标距离小于激光雷达探测器的感知距离，而某时刻采集的一组点云数据可以认为是以该时刻自动驾驶车辆的位置为中心，通过激光雷达探测器向自动驾驶车辆的四周进行探测而得到的，所以，可以以该时刻自动驾驶车辆的位置为中心，确定出长度和宽度方向均为两倍的上述目标距离的矩形区域作为这组点云数据对应的投影区域。

图5中示意的三个投影区域可以是通过上述任一种方式得到的。如图5中所示，由于这三组点云数据是在很短时间才分别采集的，因此，这三个投影区域会有很大面积的重叠，假设重叠区域表示为D，以预设栅格尺寸对该重叠区域D进行栅格划分，得到多个栅格。

值得说明的是，之所以选定上述重叠区域进行栅格划分是因为：随着自动驾驶车辆的移动，对于某时刻来说，之前时刻距离车辆很近的环境在下一时刻可能将移出视野范围，这部分环境对后续时刻的目标对象检测结果的校正来说，作用比较小，为了降低后续计算量，可以忽略这部分环境的作用。

一个栅格内包含多个投影坐标，这多个投影坐标是对应于多个数据点的，因此，为便于描述，可以认为这多个数据点是属于该栅格中的数据点。

对于目标栅格j，可以根据栅格j中各数据点的类别确定栅格j所对应的类别，目标栅格j可以是多个栅格中任一个。

具体地，对于栅格j，可以根据栅格j中各数据点的类别，确定在栅格j中不同类别分别对应的数据点数量占比，以根据不同类别分别对应的数据点数量占比，确定栅格j对应的类别。

其中，具体地，若第一类别对应的数据点数量占比大于设定阈值，则确定栅格j对应的类别为第一类别；若第一类别对应的数据点数量占比小于或等于设定阈值，则确定栅格j对应的类别为其他类别中数据点数量占比最高的类别。

举例来说，假设栅格j内包括100个数据点，并假设这100个数据点中对应于类别a的数据点有70个，对应于类别b的数据点的数量有20个，对应于类别c的数据点的数量有10个，则类别a对应的数据点数量占比为70％，类别b对应的数据点数量占比为20％，类别c对应的数据点数量占比为10％。

若假设上述设定阈值为15％，并假设第一类别为类别a，则由于第一类别对应的数据点数量占比70％大于该设定阈值，则确定栅格j对应的类别为第一类别，即类别a。

若假设上述设定阈值为15％，并假设第一类别为类别c，则由于第一类别对应的数据点数量占比10％小于该设定阈值，则确定栅格j对应的类别不为第一类别。需要进一步根据类别a和类别b各自对应的数据点数量占比来确定栅格j对应的类别，最终确定结果为：栅格j对应的类别为类别a。

在得到每个栅格对应的类别后，可以生成一个包含多个栅格的二维地图，并在该二维地图上标记每个栅格对应的类别以及位置范围，以得到时序语义地图。其中，“时序”二字用以强调最终得到的语义地图是融合了连续采集的多帧图像的语义信息而创建的。

仍以图2中示意的目标组点云数据中待确认目标的初始检测结果——检测框i为例，在得到上述时序语义地图后，可以根据时序语义地图确定检测框i内包含的数据点的类别，之后根据检测框i内包含的数据点的类别确定目标组点云数据中待确认目标对应的第二类别，若第二类别与第一类别不一致，则以第二类别校正第一类别。

具体地，先根据时序语义地图，确定与检测框i内包含的数据点对应的至少一个栅格，之后，根据该至少一个栅格各自对应的类别，确定目标组点云数据中待确认目标对应的第二类别。

具体地，将检测框i内包含的多个数据点向时序语义地图中包含的栅格进行投影，可以得到每个数据点对应的栅格。假设检测框i内包含的数据点一共对应于M个栅格，M大于或等于1。可选地，上述第二类别可以根据拥有检测框i内最多的数据点的栅格的类别确定，比如，检测框i内包含100个数据点，其中80个数据点都落入栅格K内，则将第二类别确定为栅格K对应的类别。可选地，如果M个栅格中存在对应于第一类别的栅格，则也可以直接确定第二类别即为第一类别。

以上实施例中介绍的是结合多帧图像的语义信息来检验从一组点云数据中得到的待确认目标的初始检测结果的准确性。

在另一可选实施例中，除了可以结合多帧图像的语义信息来检验某组点云数据中待确认目标的初始检测结果的准确性外，还可以基于相应时刻采集的一帧图像的语义信息来检验该时刻采集的这组点云数据中待确认目标的初始检测结果的准确性，只是，此时需要对这帧图像进行一些处理，因为这帧图像中可能存在遮挡情形。

具体来说，实际应用中，不同对象间的遮挡情形也会影响点云数据中待确认目标的检测结果的准确性。举例来说，如图6中所示，假设有两个小朋友站在了一个石桩后面，从自动驾驶车辆的视角来看，这个石桩遮挡了这两个小朋友的部分身体。由于这个遮挡情形的存在，自动驾驶车辆此时拍得的图像中，由于缺乏三维空间的信息，可能无法准确识别出遮挡区域内像素的类别，比如，可能直接将被遮挡区域内对应的像素的类别确定为石桩，而忽略了被遮挡住的小朋友。此时，如果直接使用这帧图像来检验相同采集时刻采集到的一组点云数据中待确认目标的检测结果的准确性，将无法得到准确的检验结果。为此，提供了图7所示实施例的解决方案。

图7为本发明实施例提供的一种目标检测方法的流程图，如图7所示，该方法包括如下步骤：

701、获取采集时间对齐的多帧图像和多组点云数据。

702、分别对多帧图像进行语义分割处理，以得到多帧图像各自包含的类别。

703、根据点云数据和图像的对应关系以及多帧图像各自包含的类别，确定多组点云数据中各数据点的类别。

704、在多组点云数据中分别获取组成待确认目标的数据点的类别。

705、确定目标组点云数据中组成待确认目标的数据点中是否存在被遮挡的数据点，若存在被遮挡的数据点，则根据目标组点云数据中组成待确认目标的未被遮挡的数据点的类别以及多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中待确认目标的初始检测结果的准确性。

其中，如前文所述，目标组点云数据是多组点云数据中的任一组。本实施例中假设对目标组点云数据进行第一类别的目标检测，从中得到待确认目标的初始检测结果，即在目标组点云数据中初始检测到了对应于第一类别的待确认目标，检测结果可以通过输出包含待确认目标的检测框的形式来表示。从而，在目标组点云数据中，组成待确认目标的数据点即为目标组点云数据中位于该检测框内的数据点。同理可以确定其他各组点云数据中组成待确认目标的数据点。

以上步骤701-704的具体实施过程可以参考前述其他实施例中的相关说明，在此不赘述。

本实施例中，为了避免上文所述的遮挡情形的干扰，在对目标组点云数据进行目标检测的前提下，在得到与目标组点云数据对应的目标帧图像中各像素对应的类别后，将目标帧图像中像素各自对应的类别(即目标帧图像中包含的类别)和目标组点云数据输入到预设的遮挡分类模型中，以确定目标组点云数据中组成待确认目标的数据点的分类结果，该分类结果指示数据点是否被遮挡。

其中，目标帧图像中像素各自对应的类别是基于对目标帧图像进行语义分割处理后得到的，该语义分割结果可能因为遮挡情形的存在而不准确，即部分像素对应的类别识别结果可信，而另一部分像素(被遮挡区域对应的像素)对应的类别识别结果不可信。

因此，通过遮挡分类模型得到目标组点云数据中组成待确认目标的各数据点是否被遮挡后，可以从中确定出未被遮挡的数据点。

之后，将这未被遮挡的数据点投影到目标帧图像中，以在目标帧图像中确定与这些未被遮挡的数据点对应的目标像素。目标帧图像中这些目标像素因为对应于未被遮挡的数据点，因此确定这些目标像素的类别识别结果是可靠的。

最后，基于这些目标像素各自对应的类别，可以对应地确定出上述未被遮挡的数据点的类别。进而，根据目标组点云数据中组成待确认目标的未被遮挡的数据点的类别，以及多组点云数据中组成待确认目标的数据点的类别(即时序语义地图)，确定目标组点云数据中待确认目标的初始检测结果的准确性。

具体地，假设在目标组点云数据中待确认目标的初始检测结果为第一类别；假设根据多组点云数据中组成待确认目标的数据点的类别，确定出目标组点云数据中待确认目标对应于第二类别。那么上述未被遮挡的数据点的类别的主要作用是：根据目标组点云数据中组成待确认目标的未被遮挡的数据点的类别，确定目标组点云数据中待确认目标对应的第三类别。从而，若第二类别和第三类别均与第一类别不同，则以第二类别和第三类别中置信度高的类别校正第一类别；若第二类别和/或第三类别与第一类别相同，则确定待确认目标对应于第一类别的初始检测结果正确。

其中，根据多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中待确认目标对应于第二类别的过程，可以参考前述实施例中的说明，在此不赘述。

其中，假设未被遮挡的数据点有多个，可选地，根据这多个数据点各自对应的类别，确定目标组点云数据中待确认目标对应的第三类别，可以实现为：

若多个数据点中对应于第一类别的数据点数量占比大于设定阈值，则确定第三类别即为第一类别；若多个数据点中对应于第一类别的数据点数量占比小于或等于设定阈值，则确定第三类别为其他类别中像素占比最高的类别。

举例来说，假设多个数据点由100个点构成，并假设这100个数据点中对应于类别a的数据点有70个，对应于类别b的数据点有20个，对应于类别c的数据点有10个，则类别a对应的数据点数量占比为70％，类别b对应的数据点数量占比为20％，类别c对应的数据点数量占比为10％。

若假设上述设定阈值为15％，并假设第一类别为类别a，则由于第一类别对应的数据点数量占比70％大于该设定阈值，则确定第三类别即为第一类别。

若假设上述设定阈值为15％，并假设第一类别为类别c，则由于第一类别对应的数据点数量占比10％小于该设定阈值，则确定第三类别不为第一类别。需要进一步根据类别a和类别b各自对应的数据点数量占比来确定第三类别，最终确定结果为：类别a。

综上，结合多帧图像的语义信息累积结果以及对点云数据中数据点是否是被遮挡的分类结果，可以更加准确地确定出一组点云数据中待确认目标的初始检测结果的准确性。

下面介绍下遮挡分类模型的组成以及工作原理。

首先，遮挡分类模型是基于如下原理来实现数据点是否被遮挡的分类的：针对目标帧图像中相邻的多个像素来说，这多个像素对应于同一类别，比如都对应于同一个人。在目标组点云数据中确定与这多个像素对应的多个数据点，其中，这多个数据点的数量大于或等于多个像素的数量。如果不存在遮挡情形，即这个人前面没有其他物体遮挡，那么这多个数据点的位置会比较集中，或者说，这多个数据点相对自动驾驶车辆(仅以自动驾驶场景为例)的位置之间的距离是比较接近的。但是，如果存在遮挡情形，即这个人前面有其他物体遮挡，那么这多个数据点中会有一部分数据点相对自动驾驶车辆的位置之间的距离比较近，而另一部分数据点相对自动驾驶车辆的位置之间的距离比较远，这些距离比较远的数据点即为被遮挡的数据点。

如图8所示，遮挡分类模型中可以包括第一特征提取网络、第二特征提取网络、分类输出网络。

以目标组点云数据以及与其对应的目标帧图像为例，通过遮挡分类模型可以输出目标组点云数据中数据点各自对应的分类结果，具体可以包括如下步骤：

将目标组点云数据输入到第一特征提取网络，以获取目标组点云数据中数据点各自对应的空间特征；

将目标帧图像中像素各自对应的类别和目标组点云数据输入第二特征提取网络，通过第二特征提取网络将目标组点云数据向目标帧图像中进行投影，以在目标帧图像中确定目标组点云数据中数据点各自对应的像素，并标记目标帧图像中像素具有相对应的数据点的多维属性信息，提取标记有多维属性信息的目标帧图像的语义特征；

将所述语义特征和所述空间特征输入到分类输出网络，以通过分类输出网络输出目标组点云数据中数据点各自对应的分类结果。

其中，原始采集的数据点所具有的多维属性信息包括：三维坐标和反射强度。在目标帧图像中，一个像素已经具有通过语义分割得到的类别信息，再为其标记上相对应的数据点的三维坐标和反射强度，这样，一个像素将具有更加丰富的信息。

其中，上述空间特征是指对数据点原本包括的上述多维属性信息进行特征提取后得到的更高维的特征。

其中，经过上述空间特征的提取，可以得到各个像素位置对应的空间特征，经过上述语义特征的提取，可以得到各个像素位置对应的语义特征，相同像素位置的语义特征和空间特征拼接在一起，输入到分类输出网络中。

分类输出网络用以输出目标组点云数据中各数据点是否被遮挡的分类结果。可选地，该分类结果的一种输出方式可以是：在目标帧图像中确定出与目标组点云数据中数据点对应的像素，在像素上标记出对应的数据点的分类结果。

实际应用中，第一特征提取网络可以实现为多层全连接网络，分类输出网络也可以实现为多层全连接网络，第二特征提取网络中可以包括卷积网络，用于对标记有多维属性信息的目标帧图像进行语义特征的提取。

另外，如果输入信息中加入待确认目标在目标组点云数据中对应的位置信息，即标记出目标组点云数据中组成待确认目标的数据点，那么最终在遮挡分类模型的输出结果中可以直接得到目标组点云数据中组成待确认目标的各数据点是否是被遮挡的分类结果。

以下将详细描述本发明的一个或多个实施例的目标检测装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图9为本发明实施例提供的一种目标检测装置的结构示意图，如图9所示，该装置包括：数据获取模块11、语义分割模块12、点云处理模块13、目标检验模块14。

数据获取模块11，用于获取采集时间对齐的多帧图像和多组点云数据。

语义分割模块12，用于分别对所述多帧图像进行语义分割处理，以得到所述多帧图像各自包含的类别。

点云处理模块13，用于根据点云数据和图像的对应关系以及所述多帧图像各自包含的类别，确定所述多组点云数据中各数据点的类别。

目标检验模块14，用于在所述多组点云数据中分别获取组成待确认目标的数据点的类别，并根据所述多组点云数据中组成待确认目标的数据点的类别，确定目标组点云数据中所述待确认目标的初始检测结果的准确性，所述目标组点云数据是所述多组点云数据中的任一组。

可选地，在所述目标组点云数据中所述待确认目标的初始检测结果为第一类别；目标检验模块14具体可以用于：根据所述多组点云数据中各数据点的类别，生成时序语义地图；根据所述时序语义地图，确定目标检测框内包含的数据点的类别；其中，所述目标检测框内包含的数据点是所述目标组点云数据中组成所述待确认目标的数据点；根据所述目标检测框内包含的数据点的类别，确定所述目标组点云数据中所述待确认目标对应的第二类别；若所述第二类别与所述第一类别不一致，则以所述第二类别校正所述第一类别。

在生成时序语义地图的过程中，可选地，目标检验模块14具体可以用于：将所述多组点云数据中各数据点向地面进行投影，以得到所述多组点云数据中各数据点对应的投影坐标；根据预设的栅格尺寸，对由所述多组点云数据中各数据点对应的投影坐标所界定的投影区域进行栅格划分，以得到多个栅格；根据所述多个栅格中各数据点的类别，确定所述多个栅格各自对应的类别；根据所述多个栅格各自对应的类别，生成时序语义地图，所述时序语义地图中描述了不同栅格对应的类别。对所述目标组点云数据进行目标检测处理，以获得包含目标对象的检测框。

可选地，在划分栅格的过程中，目标检验模块14具体可以用于：根据所述多组点云数据各自包含的数据点所对应的投影坐标，确定所述多组点云各自对应的投影区域；确定所述多组点云各自对应的投影区域的重叠区域；根据预设的栅格尺寸，对所述重叠区域进行栅格划分，以得到多个栅格。

可选地，目标检验模块14具体可以用于：对于所述多个栅格中的目标栅格，根据所述目标栅格中各数据点的类别，确定在所述目标栅格中不同类别分别对应的数据点数量占比；根据所述不同类别分别对应的数据点数量占比，确定所述目标栅格对应的类别，所述目标栅格是所述多个栅格中的任一个。

可选地，在确定所述目标组点云数据中所述待确认目标对应的第二类别的过程中，目标检验模块14具体可以用于：根据所述时序语义地图，确定与所述目标检测框内包含的数据点对应的至少一个栅格；根据所述至少一个栅格各自对应的类别，确定所述目标组点云数据中所述待确认目标对应的第二类别。

可选地，目标检验模块14还可以用于：确定所述目标组点云数据中组成所述待确认目标的数据点中是否存在被遮挡的数据点；若存在被遮挡的数据点，则根据所述目标组点云数据中组成所述待确认目标的未被遮挡的数据点的类别以及所述多组点云数据中组成待确认目标的数据点的类别，确定所述目标组点云数据中所述待确认目标的初始检测结果的准确性。

其中，目标检验模块14具体可以用于：将目标帧图像中包含的类别和所述目标组点云数据输入到预设的遮挡分类模型中，以确定所述目标组点云数据中组成所述待确认目标的数据点的分类结果，所述分类结果指示数据点是否被遮挡，所述目标帧图像与所述目标组点云的采集时间对齐。

其中，在所述目标组点云数据中所述待确认目标的初始检测结果为第一类别，以及根据所述多组点云数据中组成待确认目标的数据点的类别，确定所述目标组点云数据中所述待确认目标对应于第二类别的情形下；可选地，目标检验模块14具体可以用于：根据所述目标组点云数据中组成所述待确认目标的未被遮挡的数据点的类别，确定所述目标组点云数据中所述待确认目标对应的第三类别；若所述第二类别和所述第三类别均与所述第一类别不同，则以所述第二类别和所述第三类别中置信度高的类别校正所述第一类别；若所述第二类别和/或所述第三类别与所述第一类别相同，则确定所述待确认目标对应于第一类别的初始检测结果正确。

图9所示装置可以执行前述图1至图8所示实施例中提供的目标检测方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图9所示目标检测装置的结构可实现为一电子设备，如图10所示，该电子设备可以包括：处理器21、存储器22。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述图1至图8所示实施例中提供的目标检测方法。

可选地，该电子设备中还可以包括通信接口23，用于与其他设备进行通信。

实际应用中，该电子设备可以是车载终端设备。可选地，该车载终端设备可以设于自动驾驶车辆中。

在不同类型的自动驾驶车辆中，会面临不同的目标检测任务，即不同驾驶环境中需要识别出的目标可能是不同的。本发明实施例提供的目标检测方案可以适用于不同类型的自动驾驶车辆。

另外，不同类型的自动驾驶车辆中，除了可以部署有运行上述目标检测方法的相关软件、硬件外，还会部署有其他的算法模块。

当然，根据自动驾驶车辆类型的不同，这些算法模块也会有所不同。例如，对于物流车辆、公共服务车辆、医疗服务车辆、终端服务车辆会涉及不同的算法模块。下面分别针对这四种自动驾驶车辆对算法模块进行举例说明：

其中，物流车辆是指物流场景中使用的车辆，例如可以是带自动分拣功能的物流车辆、带冷藏保温功能的物流车辆、带测量功能的物流车辆。这些物流车辆会涉及不同算法模块。

例如，对于物流车辆，可以带有自动化的分拣装置，该分拣装置可以在物流车辆到达目的地后自动把货物取出并搬送、分拣、存放。这就涉及用于货物分拣的算法模块，该算法模块主要实现货物取出、搬运、分拣以及存放等逻辑控制。

又例如，针对冷链物流场景，物流车辆还可以带有冷藏保温装置，该冷藏保温装置可以实现运输的水果、蔬菜、水产品、冷冻食品以及其它易腐烂的食品进行冷藏或保温，使之处于合适的温度环境，解决易腐烂食品的长途运输问题。这就涉及用于冷藏保温控制的算法模块，该算法模块主要用于根据食品(或物品)性质、易腐性、运输时间、当前季节、气候等信息动态、自适应计算冷餐或保温的合适温度，根据该合适温度对冷藏保温装置进行自动调节，这样在车辆运输不同食品或物品时运输人员无需手动调整温度，将运输人员从繁琐的温度调控中解放出来，提高冷藏保温运输的效率。

又例如，在大多物流场景中，是根据包裹体积和/或重量进行收费的，而物流包裹的数量非常庞大，单纯依靠快递员对包裹体积和/或重量进行测量，效率非常低，人工成本较高。因此，在一些物流车辆中，增设了测量装置，可自动测量物流包裹的体积和/或重量，并计算物流包裹的费用。这就涉及用于物流包裹测量的算法模块，该算法模块主要用于识别物流包裹的类型，确定物流包裹的测量方式，如进行体积测量还是重量测量或者是同时进行体积和重量的组合测量，并可根据确定的测量方式完成体积和/或重量的测量，以及根据测量结果完成费用计算。

其中，公共服务车辆是指提供某种公共服务的车辆，例如可以是消防车、除冰车、洒水车、铲雪车、垃圾处理车辆、交通指挥车辆等。这些公共服务车辆会涉及不同算法模块。

例如，对于自动驾驶的消防车，其主要任务是针对火灾现场进行合理的灭火任务，这就涉及用于灭火任务的算法模块，该算法模块至少需要实现火灾状况的识别、灭火方案的规划以及对灭火装置的自动控制等逻辑。

又例如，对于除冰车，其主要任务是清除路面上结的冰雪，这就涉及除冰的算法模块，该算法模块至少需要实现路面上冰雪状况的识别、根据冰雪状况制定除冰方案，如哪些路段需要采取除冰，哪些路段无需除冰，是否采用撒盐方式、撒盐克数等，以及在确定除冰方案的情况下对除冰装置的自动控制等逻辑。

其中，医疗服务车辆是指能够提供一种或多种医疗服务的自动驾驶车辆，该种车辆可提供消毒、测温、配药、隔离等医疗服务，这就涉及提供各种自助医疗服务的算法模块，这些算法模块主要实现消毒需求的识别以及对消毒装置的控制，以使消毒装置为病人进行消毒，或者对病人位置的识别，控制测温装置自动贴近病人额头等位置为病人进行测温，或者，用于实现对病症的判断，根据判断结果给出药方并需要实现对药品/药品容器的识别，以及对取药机械手的控制，使之按药方为病人抓取药品，等等。

其中，终端服务车辆是指可代替一些终端设备面向用户提供某种便利服务的自助型的自动驾驶车辆，例如这些车辆可以为用户提供打印、考勤、扫描、开锁、支付、零售等服务。

例如，在一些应用场景中，用户经常需要到特定位置去打印或扫描文档，费时费力。于是，出现一种可以为用户提供打印/扫描服务的终端服务车辆，这些服务车辆可以与用户终端设备互联，用户通过终端设备发出打印指令，服务车辆响应打印指令，自动打印用户所需的文档并可自动将打印出的文档送至用户位置，用户无需去打印机处排队，可极大地提高打印效率。或者，可以响应用户通过终端设备发出的扫描指令，移动至用户位置，用户将待扫描的文档放置的服务车辆的扫描工具上完成扫描，无需到打印/扫描机处排队，省时省力。这就涉及提供打印/扫描服务的算法模块，该算法模块至少需要识别与用户终端设备的互联、打印/扫描指令的响应、用户位置的定位以及行进控制等。

又例如，随着新零售服务的开展，越来越多的电商借助于自助售货机将商品销售送到了各大办公楼、公共区，但这些自助售货机被放置在固定位置，不可移动，用户需要到该自助售货机跟前才能购买所需商品，便利性还是较差。于是出现了可提供零售服务的自助驾驶车辆，这些服务车辆可以承载商品自动移动，并可提供对应的自助购物类APP或购物入口，用户借助于手机等终端通过APP或购物入口可以向提供零售服务的自动驾驶车辆进行下单，该订单中包括待购买的商品名称、数量以及用户位置，该车辆收到下单请求之后，可以确定当前剩余商品是否具有用户购买的商品以及数量是否足够，在确定具有用户购买的商品且数量足够的情况下，可携带这些商品自动移动至用户位置，将这些商品提供给用户，进一步提高用户购物的便利性，节约用户时间，让用户将时间用于更为重要的事情上。这就涉及提供零售服务的算法模块，这些算法模块主要实现响应用户下单请求、订单处理、商品信息维护、用户位置定位、支付管理等逻辑。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述图1至图8所示实施例中提供的目标检测方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标检测方法，其特征在于，包括：

获取采集时间对齐的多帧图像和多组点云数据；

2.根据权利要求1所述的方法，其特征在于，所述确定目标组点云数据中所述待确认目标的初始检测结果的准确性，包括：

确定所述目标组点云数据中组成所述待确认目标的数据点中是否存在被遮挡的数据点；

若存在被遮挡的数据点，则根据所述目标组点云数据中组成所述待确认目标的未被遮挡的数据点的类别以及所述多组点云数据中组成待确认目标的数据点的类别，确定所述目标组点云数据中所述待确认目标的初始检测结果的准确性。

3.根据权利要求1所述的方法，其特征在于，在所述目标组点云数据中所述待确认目标的初始检测结果为第一类别；

所述确定目标组点云数据中所述待确认目标的初始检测结果的准确性，包括：

根据所述多组点云数据中各数据点的类别，生成时序语义地图；

根据所述时序语义地图，确定目标检测框内包含的数据点的类别；其中，所述目标检测框内包含的数据点是所述目标组点云数据中组成所述待确认目标的数据点；

根据所述目标检测框内包含的数据点的类别，确定所述目标组点云数据中所述待确认目标对应的第二类别；

若所述第二类别与所述第一类别不一致，则以所述第二类别校正所述第一类别。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多组点云数据中各数据点的类别，生成时序语义地图，包括：

将所述多组点云数据中各数据点向地面进行投影，以得到所述多组点云数据中各数据点对应的投影坐标；

根据预设的栅格尺寸，对由所述多组点云数据中各数据点对应的投影坐标所界定的投影区域进行栅格划分，以得到多个栅格；

根据所述多个栅格中各数据点的类别，确定所述多个栅格各自对应的类别；

根据所述多个栅格各自对应的类别，生成时序语义地图，所述时序语义地图中描述了不同栅格对应的类别。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标检测框内包含的数据点的类别，确定所述目标组点云数据中所述待确认目标对应的第二类别，包括：

根据所述时序语义地图，确定与所述目标检测框内包含的数据点对应的至少一个栅格；

根据所述至少一个栅格各自对应的类别，确定所述目标组点云数据中所述待确认目标对应的第二类别。

6.根据权利要求4所述的方法，其特征在于，所述根据预设的栅格尺寸，对由所述多组点云数据中各数据点对应的投影坐标所界定的投影区域进行栅格划分，以得到多个栅格，包括：

根据所述多组点云数据各自包含的数据点所对应的投影坐标，确定所述多组点云各自对应的投影区域；

确定所述多组点云各自对应的投影区域的重叠区域；

根据预设的栅格尺寸，对所述重叠区域进行栅格划分，以得到多个栅格。

7.根据权利要求4所述的方法，其特征在于，所述根据所述多个栅格中各数据点的类别，确定所述多个栅格各自对应的类别，包括：

对于所述多个栅格中的目标栅格，根据所述目标栅格中各数据点的类别，确定在所述目标栅格中不同类别分别对应的数据点数量占比；

根据所述不同类别分别对应的数据点数量占比，确定所述目标栅格对应的类别，所述目标栅格是所述多个栅格中的任一个。

8.根据权利要求2所述的方法，其特征在于，所述确定所述目标组点云数据中组成所述待确认目标的数据点中是否存在被遮挡的数据点，包括：

将目标帧图像中包含的类别和所述目标组点云数据输入到预设的遮挡分类模型中，以确定所述目标组点云数据中组成所述待确认目标的数据点的分类结果，所述分类结果指示数据点是否被遮挡，所述目标帧图像与所述目标组点云的采集时间对齐。

9.根据权利要求2所述的方法，其特征在于，在所述目标组点云数据中所述待确认目标的初始检测结果为第一类别；根据所述多组点云数据中组成待确认目标的数据点的类别，确定所述目标组点云数据中所述待确认目标对应于第二类别；

所述根据所述目标组点云数据中组成所述待确认目标的未被遮挡的数据点的类别以及所述多组点云数据中组成待确认目标的数据点的类别，确定所述目标组点云数据中所述待确认目标的初始检测结果的准确性，包括：

根据所述目标组点云数据中组成所述待确认目标的未被遮挡的数据点的类别，确定所述目标组点云数据中所述待确认目标对应的第三类别；

若所述第二类别和所述第三类别均与所述第一类别不同，则以所述第二类别和所述第三类别中置信度高的类别校正所述第一类别；

若所述第二类别和/或所述第三类别与所述第一类别相同，则确定所述待确认目标对应于第一类别的初始检测结果正确。

10.一种图像检测装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的图像检测方法。

12.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的图像检测方法。