CN112102409B

CN112102409B - 目标检测方法、装置、设备及存储介质

Info

Publication number: CN112102409B
Application number: CN202010996337.8A
Authority: CN
Inventors: 戴华东; 朱皓; 龚晖; 张天琦; 程浩; 邹明杰
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2023-09-01
Anticipated expiration: 2040-09-21
Also published as: CN112102409A

Abstract

本发明实施例提供了一种目标检测方法、装置、设备及存储介质，方法包括：将点云数据向二维空间进行映射，得到第一映射图像，将第一映射图像与场景图像进行融合，在融合图像中进行目标检测，将得到的检测结果再逆映射至三维空间中，得到目标检测结果；第一方面，融合图像为二维数据，在二维数据中进行目标检测，降低了计算量；第二方面，融合图像包含点云数据和场景图像两方面的数据，基于这两方面的数据进行目标检测，提高了检测结果的准确性；第三方面，将融合图像中的检测结果逆映射至三维空间中，得到了三维空间中的检测结果；可见，本方案在不降低检测结果准确性的情况下，降低了计算量，并且得到了三维空间中的检测结果。

Description

目标检测方法、装置、设备及存储介质

技术领域

本发明涉及图像识别技术领域，特别是涉及一种目标检测方法、装置、设备及存储介质。

背景技术

一些场景中，需要检测图像中的目标，如人体、车辆等，以对目标进行跟踪或定位。例如，无人超市、无人商场等购物场所中，通常设置监控设备，在监控设备采集的图像中进行目标检测，以对顾客进行跟踪，或者确定顾客在场所中的位置。

一些相关方案中，采集场景的点云数据，基于点云数据进行目标检测。点云数据为三维数据，在三维数据中进行目标检测，计算量较大。

发明内容

本发明实施例的目的在于提供一种目标检测方法、装置、设备及存储介质，以降低计算量。

为达到上述目的，本发明实施例提供了一种目标检测方法，包括：

获取针对同一场景采集的点云数据和场景图像；

将所述点云数据向二维空间进行映射，得到第一映射图像；

将所述场景图像与所述第一映射图像进行融合，得到融合图像；

在所述融合图像中进行目标检测，得到第一检测结果；

通过将所述第一检测结果逆映射至三维空间中，得到目标检测结果。

可选的，所述场景图像为俯视图像，所述二维空间为地平面所对应的二维空间。

可选的，所述通过将所述第一检测结果逆映射至三维空间中，得到目标检测结果，包括：

将所述第一检测结果逆映射至三维空间中，得到三维检测结果；

基于所述点云数据，确定所述场景图像中各像素点的深度信息；将所述深度信息与所述场景图像进行融合，得到深度图像；在所述深度图像中进行目标检测，得到二维检测结果；

将所述三维检测结果与所述二维检测结果进行匹配校验，得到目标检测结果。

可选的，待检测的目标为人体；所述在所述融合图像中进行目标检测，得到第一检测结果，包括：

在所述融合图像中进行头肩检测，得到头肩检测框；

所述将所述第一检测结果逆映射至三维空间中，得到三维检测结果，包括：

将所述头肩检测框逆映射至三维空间中，得到三维头肩框；

所述在所述深度图像中进行目标检测，得到二维检测结果，包括：

在所述深度图像中进行头肩检测，得到二维头肩框；

所述将所述三维检测结果与所述二维检测结果进行匹配校验，得到目标检测结果，包括：

基于预先确定的点云坐标系与图像坐标系之间的映射关系，将所述三维头肩框与所述二维头肩框转换至同一坐标系；

在所述同一坐标系中，将所述三维头肩框与所述二维头肩框进行匹配校验，得到目标检测结果。

可选的，所述场景图像为俯视图像，所述二维空间为地平面所对应的二维空间；所述在所述同一坐标系中，将所述三维头肩框与所述二维头肩框进行匹配校验，得到目标检测结果之后，还包括：

采用预设滤波算法，剔除所述目标检测结果中的噪点，得到剔除后的目标检测结果；确定所述剔除后的目标检测结果中的最高点；在所述剔除后的目标检测结果中，选取所述最高点以下预设高度范围内的点，作为目标的头肩点集；计算所述头肩点集中心点的位置，作为目标定位结果。

可选的，所述将所述三维检测结果与所述二维检测结果进行匹配校验，得到目标检测结果之后，还包括：

基于所述目标检测结果，分别在所述点云数据和所述深度图像中提取目标的特征；

基于所述目标的特征对所述目标进行跟踪。

可选的，所述将所述点云数据向二维空间进行映射，得到第一映射图像，包括：

在所述点云数据中，选择高度满足预设条件的点，作为待映射点；所述预设条件为针对待检测目标的高度范围设定的；

将所述待映射点向地平面所对应的二维空间进行映射，得到第一映射图像。

可选的，所述场景图像为RGB图像，所述第一映射图像中像素点的像素值表示像素点对应至真实物理世界中的点的高度值；

所述将所述场景图像与所述第一映射图像进行融合，得到融合图像，包括：

将所述场景图像向地平面方向进行映射，得到第二映射图像；

将所述第二映射图像与所述第一映射图像进行融合，得到融合图像，所述融合图像为包含RGB和高度的四通道图像。

为达到上述目的，本发明实施例提供了一种目标检测装置，包括：

获取模块，用于获取针对同一场景采集的点云数据和场景图像；

映射模块，用于将所述点云数据向二维空间进行映射，得到第一映射图像；

融合模块，用于将所述场景图像与所述第一映射图像进行融合，得到融合图像；

检测模块，用于在所述融合图像中进行目标检测，得到第一检测结果；

逆映射模块，用于通过将所述第一检测结果逆映射至三维空间中，得到目标检测结果。

可选的，所述逆映射模块，包括：

逆映射子模块，用于将所述第一检测结果逆映射至三维空间中，得到三维检测结果；

融合子模块，用于基于所述点云数据，确定所述场景图像中各像素点的深度信息；将所述深度信息与所述场景图像进行融合，得到深度图像；

检测子模块，用于在所述深度图像中进行目标检测，得到二维检测结果；

校验子模块，用于将所述三维检测结果与所述二维检测结果进行匹配校验，得到目标检测结果。

可选的，待检测的目标为人体；

所述检测模块，具体用于：在所述融合图像中进行头肩检测，得到头肩检测框；

所述逆映射子模块，具体用于：将所述头肩检测框逆映射至三维空间中，得到三维头肩框；

所述检测子模块，具体用于：在所述深度图像中进行头肩检测，得到二维头肩框；

所述校验子模块，具体用于：基于预先确定的点云坐标系与图像坐标系之间的映射关系，将所述三维头肩框与所述二维头肩框转换至同一坐标系；在所述同一坐标系中，将所述三维头肩框与所述二维头肩框进行匹配校验，得到目标检测结果。

可选的，所述场景图像为俯视图像，所述二维空间为地平面所对应的二维空间；所述装置还包括：

定位模块，用于采用预设滤波算法，剔除所述目标检测结果中的噪点，得到剔除后的目标检测结果；确定所述剔除后的目标检测结果中的最高点；在所述剔除后的目标检测结果中，选取所述最高点以下预设高度范围内的点，作为目标的头肩点集；计算所述头肩点集中心点的位置，作为目标定位结果。

可选的，所述装置还包括：

提取模块，用于基于所述目标检测结果，分别在所述点云数据和所述深度图像中提取目标的特征；

跟踪模块，用于基于所述目标的特征对所述目标进行跟踪。

可选的，所述映射模块，具体用于：

所述融合模块，具体用于：将所述场景图像向地平面方向进行映射，得到第二映射图像；将所述第二映射图像与所述第一映射图像进行融合，得到融合图像，所述融合图像为包含RGB和高度的四通道图像。

为达到上述目的，本发明实施例提供了一种电子设备，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任意一种目标检测方法。

为达到上述目的，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种目标检测方法。

应用本发明所示实施例，将点云数据向二维空间进行映射，得到第一映射图像，将第一映射图像与场景图像进行融合，在融合图像中进行目标检测，将得到的检测结果再逆映射至三维空间中，得到目标检测结果；第一方面，融合图像为二维数据，在二维数据中进行目标检测，降低了计算量；第二方面，融合图像包含点云数据和场景图像两方面的数据，基于这两方面的数据进行目标检测，提高了检测结果的准确性；第三方面，将融合图像中的检测结果逆映射至三维空间中，得到了三维空间中的检测结果；可见，本方案在不降低检测结果准确性的情况下，降低了计算量，并且得到了三维空间中的检测结果。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的目标检测方法的第一种流程示意图；

图2为本发明实施例提供的一种目标跟踪状态之间的切换情况示意图；

图3为本发明实施例提供的目标检测方法的第二种流程示意图；

图4为本发明实施例提供的一种目标检测装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了达到上述目的，本发明实施例提供了一种目标检测方法、装置、设备及存储介质，该方法及装置可以应用于各种电子设备，具体不做限定。下面首先对该目标检测方法进行详细说明。

图1为本发明实施例提供的目标检测方法的第一种流程示意图，包括：

S101：获取针对同一场景采集的点云数据和场景图像。

本发明实施例中所说的场景可以为需要进行目标检测的各种场景，例如无人超市、无人商场等购物场所、或者其他监控场景，具体不做限定。在这些购物场所中，待检测的目标可以为人体，在道路监控场景中，待检测目标可以为车辆，具体目标不做限定。

一种情况下，可以在场景中设置立体视觉摄像机，通过立体视觉摄像机同时采集得到点云数据和场景图像。或者，另一种情况下，也可以在场景中设置图像采集设备和点云采集设备，通过图像采集设备采集场景图像，通过点云采集设备采集点云数据。

举例来说，该场景图像可以为RGB(Red Green Blue，红绿蓝)图像，或者也可以为YUV(“Y”表示明亮度(Luminance或Luma)，也就是灰阶值，“U”和“V”表示的则是色度(Chrominance或Chroma)，用于描述影像色彩及饱和度)，或者也可以为红外图像，或者也可以为其他类型的二维图像，具体图像类型不做限定。该点云数据中的点与该场景图像中的像素点存在对应关系。

S102：将点云数据向二维空间进行映射，得到第一映射图像。

点云数据可以理解为三维数据，其中包含每个点在三维空间中的位置坐标。为了与后续内容中的映射图像相区分，将S102中得到的映射图像称为第一映射图像。第一映射图像可以理解为二维数据，将点云数据向二维空间进行映射可以理解为对数据的降维处理。

一种实施方式中，场景图像为俯视图像，S102中的二维空间为地平面所对应的二维空间。以室内场景为例来说，可以在屋顶架设图像采集设备，采集人体的俯视图像，这种情况下，可以将俯视图像向地平面方向进行映射。以室外道路交通场景为例来说，可以在道路上方架设图像采集设备，采集车辆的俯视图像，这种情况下，也可以将俯视图像向地平面方向进行映射。

或者其他实施方式中，也可以采集其他角度的图像，例如，也可以采集目标的正面视图，将正面视图向某个与水平面垂直的平面进行映射，具体采集角度与映射方向不做限定。

如果场景图像为俯视图像，一种实施方式中，S102可以包括：在所述点云数据中，选择高度满足预设条件的点，作为待映射点；将所述待映射点向地平面所对应的二维空间进行映射，得到第一映射图像。

如上所述，待检测目标可以为人体、车辆等，待检测目标的高度范围一般是固定的，可以针对待检测目标的高度范围设定该预设条件。例如，可以将上述预设条件设定为人体的高度范围：1m—2m，再例如，可以将上述预设条件设定为车辆的高度范围可以：1m—2m，具体高度范围可以根据实际情况设定。

或者，对于一些室内场景来说，可以基于场景的入口高度设定上述预设条件。例如，场景的入口高度为2.5m，也就是说高于2.5m的目标不能进入该场景中，可以将上述预设条件设定为小于2.5m。

此外，一些高度过低的点通常是由地面和噪声共同影响而产生的，通过上述预设条件可以将这些点滤除，提高第二映射图像的有效性。

以真实物理世界为参照设定上述预设条件时，需要考虑到真实物理世界坐标系与图像坐标系之间的比例关系，例如，将预设条件设定为高于1m、低于2m，假设真实物理世界坐标系与图像坐标系之间的比例为20：1，则该预设条件在图像坐标系中表示为高于5cm，低于10cm。

S103：将场景图像与第一映射图像进行融合，得到融合图像。

如上所述，该点云数据与该场景图像对应同一场景，点云数据中的点与场景图像中的像素点之间存在对应关系，因此，可以将场景图像与第一映射图像进行融合。

一种实施方式中，S103可以包括：将所述场景图像向地平面方向进行映射，得到第二映射图像；将所述第二映射图像与所述第一映射图像进行融合，得到融合图像。

本实施方式中，先按照与S102相同的映射方式，对场景图像进行映射，然后再将映射后的场景图像与映射后的点云数据进行融合，得到融合图像。

如果场景图像为俯视图像，一种情况下，场景图像为RGB图像，第一映射图像中像素点的像素值表示像素点对应至真实物理世界中的点的高度值，这种情况下，该融合图像可以为RGB+H的四通道图像，H表示高度。这样，增加了高度信息，有效提高后续内容中目标检测的准确率。

一种实施方式中，可以先分别对第一映射图像和第二映射图像进行预处理，然后再对预处理后的两种第二映射图像进行融合，得到融合图像。

举例来说，预处理可以包括：图像滤波、非目标背景像素抑制等处理。滤波可以理解为对第二映射图像进行平滑处理，以减少图像畸变、匹配误差等影响，具体滤波算法不做限定，如均值滤波、或者中值滤波等等。通过滤波可以去除第二映射图像中的异常像素点。

场景中通常存在一些干扰目标，如花盆、货架等物品，一些情况下，有可能将这些物体目标检测为人体。可以采用非目标背景像素抑制算法，根据这些物体目标位置长时间固定不变的特点，逐渐减小(如以一定速率减小)这些物体目标区域的像素值(也就是高度值)，这样，可以起到对非目标背景像素的抑制作用。

通过上述预处理，能够得到噪点较少、背景较稳定的第二映射图像。将上述两种第二映射图像进行融合，能够得到噪点较少、背景较稳定的融合图像。

S104：在融合图像中进行目标检测，得到第一检测结果。

为了与后续内容中的检测结果相区分，将S104中得到的检测结果称为第一检测结果。

一种实施方式中，待检测的目标为人体；S104可以包括：在融合图像中进行头肩检测，得到头肩检测框。或者，另一种实施方式中，待检测的目标为车辆；S104可以包括：在融合图像中进行车辆检测，得到车辆检测框。具体的待检测目标不做限定。

第一方面，融合图像由二维图像(第一映射图像和场景图像均为二维图像)融合而成，因此融合图像为二维数据，在二维数据中进行目标检测，降低了计算量；第二方面，融合图像包含点云数据和场景图像两方面的数据，基于这两方面的数据进行目标检测，提高了检测结果的准确性。

S105：通过将第一检测结果逆映射至三维空间中，得到目标检测结果。

融合图像虽然为二维数据，但其中保留了三维数据的信息。例如上述一种情况下，点云数据和场景图像为俯视图像，将俯视图像向地平面方向进行高度映射，第二映射图像中像素点的像素值表示像素点对应至真实物理世界中的点的高度值，这样，保留了高度这一维度的信息。因此，能够将第一检测结果逆映射至三维空间中。

一种实施方式中，可以将第一检测结果逆映射至三维空间中得到的三维检测结果作为目标检测结果。

或者，另一种实施方式中，S105可以包括：将所述第一检测结果逆映射至三维空间中，得到三维检测结果；基于所述点云数据，确定所述场景图像中各像素点的深度信息；将所述深度信息与所述场景图像进行融合，得到深度图像；在所述深度图像中进行目标检测，得到二维检测结果；将所述三维检测结果与所述二维检测结果进行匹配校验，得到目标检测结果。

如上所述，该点云数据与该场景图像对应同一场景，点云数据中的点与场景图像中的像素点之间存在对应关系，因此，可以基于点云数据，确定场景图像中各像素点的深度信息。上述一种情况下，场景图像为RGB图像，这种情况下，得到的深度图像为RGB+D图像，D表示深度。相比于在场景图像中进行目标检测，在深度图像中进行目标检测，能够提高检测结果的准确性。

举例来说，这里所说的匹配校验可以包括：对三维检测结果和二维检测结果取均值，或者对三维检测结果和二维检测结果进行加权处理。如上所述，点云数据和场景图像中的像素点之间存在对应关系，假设对于真实物理世界的点A来说，其在三维检测结果中的坐标为a1，在二维检测结果中的坐标为a2，则可以计算a1*α+a2*β，作为目标检测结果，其中，α表示三维检测结果对应的权重，β表示二维检测结果对应的权重。

一些情况下，如果仅得到了三维检测结果，而未能得到二维检测结果，则将三维检测结果作为目标检测结果；如果仅得到了二维检测结果，而未能得到三维检测结果，则将二维检测结果作为目标检测结果。

此外，在匹配校验过程中，可以结合检测结果的置信度、检测结果中的点数量、目标高度等信息，去除明显误检的检测结果，这样，可以提高目标检出率和检准率。

上述一种实施方式中，待检测的目标为人体，对人体进行头肩检测，这种实施方式中，可以将所述头肩检测框逆映射至三维空间中，得到三维头肩框；在所述深度图像中进行头肩检测，得到二维头肩框；基于预先确定的点云坐标系与图像坐标系之间的映射关系，将所述三维头肩框与所述二维头肩框转换至同一坐标系；在所述同一坐标系中，将所述三维头肩框与所述二维头肩框进行匹配校验，得到目标检测结果。

一些情况下，采集点云数据的点云采集设备以及采集场景图像的图像采集设备的位置可以是固定的，这样，可以通过标定，确定点云坐标系与图像坐标系之间的映射关系。或者，上述一种情况下，通过立体视觉摄像机同时采集得到点云数据和场景图像，这种情况下，通过立体视觉摄像机的内部参数，可以确定点云坐标系与图像坐标系之间的映射关系。确定该映射关系的具体方式不做限定。

一种情况下，可以将三维头肩框与二维头肩框转换至图像坐标系，或者也可以将三维头肩框与二维头肩框转换至点云坐标系，坐标系的转换不做限定。

在通过映射得到的图像中，头肩框一般为一片连续的团块。本实施方式中，在融合图像中，可以根据头肩框的映射团块的大小和形状等属性，排除一些噪声目标或区域，还可以排除一些不连续的区域。而且相对于人体区域来说，头肩区域的遮挡较小，在图像各区域特征变化不大，因此将头肩框用于后续匹配、关联，可以提高匹配、关联的准确性。

本实施方式中，将三维头肩框与二维头肩框进行匹配校验，实现了查漏补缺、相互校验，增加了人体下蹲、戴帽子等情况下的头肩框检出率，降低了货架、背包等目标的误检率。

一种实施方式中，S105之后，可以分别在所述点云数据和所述深度图像中提取目标的特征；基于所述目标的特征对所述目标进行跟踪。

举例来说，S105中得到的目标检测结果可以包括目标在场景图像中的位置，可以基于该位置在场景图像中提取目标的图像特征，如颜色、纹理、形状等特征。后续可以基于这些特征，对目标进行跟踪。

此外，还可以通过点云数据中包括的三维空间中的坐标，确定目标在三维空间中的位置，可以通过目标在三维空间中的位置，对目标进行跟踪。还可以通过点云数据中的空间特征，对目标进行跟踪。

可见，本实施方式中，可以通过目标的图像坐标、图像特征、三维空间坐标和点云空间特征等特征，来关联前后帧图像中的目标，这样，可以实现实时、稳定的目标跟踪。

举例来说，可以采用二维检测结果IOU(Intersection over Union，交并比)匹配、二维检测结果IOU匹配、目标所在图像区域的颜色直方图、目标尺寸大小、目标长宽比、目标有效三维点数、目标映射面积、目标高度、目标点云高度直方图和目标三维形状等组合特征，通过匈牙利关联策略对前后帧图像中的目标进行关联。

举例来说，在将前后帧图像中的目标进行关联的基础上，可以通过切换不同跟踪状态，来实现目标连续跟踪。参考图2所示，将目标的跟踪状态共分为5种：S0表示目标待生成状态(Candidate)，S1表示目标跟踪状态(Tracking)，S2表示目标单帧丢失状态(Lost)，S3表示目标不可信状态(Hold)，S4表示目标完全消失状态(Delete)。各状态切换条件包括：A1—A11，A1表示目标生成且已稳定关联，A2表示目标当前帧关联失败，A3表示目标多帧关联失败，A4表示目标消失，A5表示目标未生成直接消失，A6表示目标重新关联，A7表示目标重新稳定检测，A8表示目标还在待生成，A9表示目标稳定跟踪，A10表示目标连续未关联，A11表示目标连续不可信。图2中示出了各跟踪状态之间的切换情况。

本实施方式中，在点云数据和场景图像相结合的目标检测基础上，通过目标图像坐标位置、图像特征、点云坐标位置和点云特征等关联前后帧检测目标，实现多目标跟踪，提高了目标跟踪的准确率。即使存在目标遮挡的情况，也能够通过上述特征对目标进行跟踪。

上述一种实施方式中，场景图像为俯视图像，二维空间为地平面所对应的二维空间，这种实施方式中，在同一坐标系中，将所述三维头肩框与所述二维头肩框进行匹配校验，得到目标检测结果之后，还可以基于目标检测结果对目标进行精确定位。

本实施方式中得到的目标定位结果可以为三维空间中的位置，也可以为图像坐标系中的位置，具体不做限定。

以三维空间中的位置为例来说，上述实施方式中得到了三维头肩框，可以根据三维头肩框与点云数据之间的映射关系，直接得到三维头肩框中的点在三维空间中的位置。上述实施方式中还得到了二维头肩框，可以根据相机映射矩阵、以及场景图像也点云数据之间的对应关系，可以得到二维头肩框中的点在三维空间中的位置。因此，在将三维头肩框与二维头肩框进行匹配校验，得到目标检测结果之后，可以得到目标检测结果在三维空间中的位置。

一种实施方式中，可以采用预设滤波算法，剔除所述目标检测结果中的噪点，得到剔除后的目标检测结果；确定所述剔除后的目标检测结果中的最高点；在所述剔除后的目标检测结果中，选取所述最高点以下预设高度范围内的点，作为目标的头肩点集；计算所述头肩点集中心点的位置，作为目标定位结果。

举例来说，可以先采用高斯滤波，计算目标检测结果中各点的坐标均值和标准差，可以基于标准差剔除一部分离散点，具体剔除条件可以基于实际情况设定。或者，也可以采用其他滤波算法，如中位值滤波法、算术平均滤波法等等，具体滤波算法不做限定。为了方便描述，将剔除后剩余的点称为剔除后的目标检测结果。

然后，对该剔除后的目标检测结果中的点进行高度排序，可以使用直方图统计这些点的高度值。例如，可以从最高点开始，由高往低依次剔除噪声点，这样，可以降低点云数据中产生噪点的影响。可以根据该剔除后的目标检测结果中的最高点，确定目标的高度H，由H往下截取一个预设高度范围内的所有点作为目标的头肩点集。

计算该头肩点集中心点的位置，作为目标定位结果。该位置可以为三维空间中的位置，也可以为图像坐标系中的位置，具体不做限定。

一种实施方式中，还可以通过聚类分析降低遮挡干扰。例如，可以采用k-means、mean-shift等聚类方法，根据距离关系将目标检测结果中的点分为N类，N表示正整数，可以取2或3，具体数值不做限定。根据类别间的距离筛选出遮挡目标的点，这样可以降低遮挡干扰。具体聚类算法不做限定。

可见，本实施方式中，通过高斯滤波和直方图统计等处理，以及对目标检测结果进行有效筛选，能够实现在三维空间中对目标进行精确定位。

应用本发明所示实施例，第一方面，点云数据为三维数据，融合图像为二维数据，也就是将三维数据映射得到二维数据，实现了数据维度降低，并且有效保留了目标三维结构和坐标位置信息，在二维数据中进行目标检测，降低了计算量，这样，本实施例能够在嵌入式平台实时运行。

第二方面，融合图像包含点云数据和场景图像两方面的数据，基于这两方面的数据进行目标检测，利用两者各自优势，目标检出率和检准率高，对环境适应能力强。

第三方面，将融合图像中的检测结果逆映射至三维空间中，得到了三维空间中的检测结果；可见，本方案在不降低检测结果准确性的情况下，降低了计算量，并且得到了三维空间中的检测结果。

第四方面，相对于人体的其他特征而言，利用人体的头肩特征进行目标检测、定位、跟踪，抗遮挡性强且稳定性高。

第五方面，上述一种实施方式中，通过点云数据和场景图像，通过映射融合等处理得到多通道数据，基于该多通道数据能够得到目标的图像坐标、图像特征、三维空间坐标和点云空间特征等等，特征种类丰富，基于这些特征进行目标检测，能够有效提高目标检出和检准率，基于这些特征来关联前后帧图像中的目标，可以实现实时、稳定的目标跟踪。

第六方面，一些情况下，训练目标检测模型的过程中，需要对目标进行标定，如果是在点云数据中进行标定，点云数据复杂度较高，标定工作量较大，而采用本发明实施例，可以对三维数据进行降维处理，在二维数据中进行标定，降低了标定计算量。

图3为本发明实施例提供的目标检测方法的第二种流程示意图，包括：

S301：获取立体视觉摄像机针对同一场景采集的点云数据和场景图像。

举例来说，本发明实施例中所说的场景可以为无人超市、无人商场等购物场所，在这些购物场所中，待检测的目标可以为人体。可以吸顶安装立体视觉摄像机，可以依据实际空间大小对立体视觉摄像机进行垂直安装或倾斜安装，立体视觉摄像机的架设角度不做限定。立体视觉摄像机同时采集点云数据和场景图像，该点云数据与该场景图像对应同一场景，点云数据中的点与场景图像中的像素点之间存在对应关系。场景图像可以为RGB图像。

本发明实施例中，使用立体视觉摄像机作为数据源，后续内容中可以实现对检测范围内的人体目标进行实时检测、跟踪。

S302：在点云数据中，选择高度满足预设条件的点，作为待映射点；所述预设条件为针对人体高度范围设定的。

如上所述，待检测目标可以为人体，人体高度范围一般是固定的，例如该预设条件可以设定为1m—2m。或者，对于一些室内场景来说，可以基于场景的入口高度设定上述预设条件。例如，场景的入口高度为2.5m，也就是说高于2.5m的目标不能进入该场景中，可以将上述预设条件设定为小于2.5m。

此外，一些高度过低的点通常是由地面和噪声共同影响而产生的，通过上述预设条件可以将这些点滤除，提高后续映射的有效性。

S303：将待映射点向地平面所对应的二维空间进行映射，得到第一映射图像。

第一映射图像中像素点的像素值表示像素点对应至真实物理世界中的点的高度值。

一种实施方式中，可以先对第一映射图像进行预处理。举例来说，预处理可以包括：图像滤波、非目标背景像素抑制等处理。滤波可以理解为对第二映射图像进行平滑处理，以减少图像畸变、匹配误差等影响，具体滤波算法不做限定，如均值滤波、或者中值滤波等等。通过滤波可以去除第一映射图像中的异常像素点。

S304：将场景图像向地平面方向进行映射，得到第二映射图像。

S303和S304中的映射方式可以是相同的。

一种实施方式中，可以先对第二映射图像进行预处理。举例来说，预处理可以包括：图像滤波、非目标背景像素抑制等处理。滤波可以理解为对第二映射图像进行平滑处理，以减少图像畸变、匹配误差等影响，具体滤波算法不做限定，如均值滤波、或者中值滤波等等。通过滤波可以去除第二映射图像中的异常像素点。

S305：将第二映射图像与第一映射图像进行融合，得到融合图像，融合图像为包含RGB和高度的四通道图像。

上述实施方式中，可以对第一映射图像和第二映射图像进行预处理，这种实施方式中，可以将预处理后的两种第二映射图像进行融合，能够得到噪点较少、背景较稳定的融合图像。

如上所述，场景图像为RGB图像，第一映射图像中像素点的像素值表示像素点对应至真实物理世界中的点的高度值，这种情况下，该融合图像可以为RGB+H的四通道图像，H表示高度。本发明实施例提供的目标检测方案中增加了高度信息，有效提高后续内容中目标检测的准确率。

如上所述，该点云数据与该场景图像对应同一场景，点云数据中的点与场景图像中的像素点之间存在对应关系，因此，可以将场景图像的映射图像(第二映射图像)与点云数据的映射图像(第一映射图像)进行融合。

S306：在融合图像中进行头肩检测，得到头肩检测框。

本发明实施例中，对图像中的人体进行头肩检测，相对于人体的其他特征而言，利用人体的头肩特征进行目标检测、定位、跟踪，抗遮挡性强且稳定性高。

在通过映射得到的图像中，头肩框一般为一片连续的团块。本实施例中，在融合图像中，可以根据头肩框的映射团块的大小和形状等属性，排除一些噪声目标或区域，还可以排除一些不连续的区域。而且相对于人体区域来说，头肩区域的遮挡较小，在图像各区域特征变化不大，因此将头肩框用于后续匹配、关联，可以提高匹配、关联的准确性。

S307：将头肩检测框逆映射至三维空间中，得到三维头肩框。

融合图像虽然为二维数据，但其中保留了三维数据的信息。如上所述，点云数据和场景图像为俯视图像，将俯视图像向地平面方向进行高度映射，第二映射图像中像素点的像素值表示像素点对应至真实物理世界中的点的高度值，这样，保留了高度这一维度的信息。因此，能够将头肩检测框逆映射至三维空间中。

S308：基于点云数据，确定场景图像中各像素点的深度信息；将深度信息与场景图像进行融合，得到深度图像。

如上所述，该点云数据与该场景图像对应同一场景，点云数据中的点与场景图像中的像素点之间存在对应关系，因此，可以基于点云数据，确定场景图像中各像素点的深度信息。

S309：在深度图像中进行头肩检测，得到二维头肩框。

上述一种情况下，场景图像为RGB图像，这种情况下，得到的深度图像为RGB+D图像，D表示深度。相比于在场景图像中进行目标检测，在深度图像中进行目标检测，能够提高检测结果的准确性。

S310：基于预先确定的点云坐标系与图像坐标系之间的映射关系，将三维头肩框与二维头肩框转换至同一坐标系。

例如，可以将三维头肩框与二维头肩框转换至图像坐标系，或者也可以将三维头肩框与二维头肩框转换至点云坐标系，坐标系的转换不做限定。

S311：在该同一坐标系中，将三维头肩框与二维头肩框进行匹配校验，得到目标检测结果。

举例来说，这里所说的匹配校验可以包括：对三维头肩框和二维头肩框中的像素点取均值，或者对三维头肩框和二维头肩框中的像素点进行加权处理。如上所述，点云数据和场景图像中的像素点之间存在对应关系，假设对于真实物理世界的点A来说，其在三维头肩框中的坐标为a1，在二维头肩框中的坐标为a2，则可以计算a1*α+a2*β，作为目标检测结果，其中，α表示三维头肩框对应的权重，β表示二维头肩框对应的权重。

一些情况下，如果仅得到了三维头肩框，而未能得到二维头肩框，则将三维头肩框作为目标检测结果；如果仅得到了二维头肩框，而未能得到三维头肩框，则将二维头肩框作为目标检测结果。

此外，在匹配校验过程中，可以结合头肩框的置信度、头肩框中的点数量、目标高度等信息，去除明显误检的检测结果，这样，可以提高目标检出率和检准率。

将三维头肩框与二维头肩框进行匹配校验，实现了查漏补缺、相互校验，增加了人体下蹲、戴帽子等情况下的头肩框检出率，降低了货架、背包等目标的误检率。

本实施例中，在得到目标检测结果后，还可以对目标进行跟踪、以及对目标进行精确定位。

下面对目标跟踪进行说明：

可以分别在点云数据和深度图像中提取目标的特征：例如目标在深度图像中的颜色、纹理、形状等特征，目标在点云数据中的空间特征、三维空间坐标，二维检测结果IOU(Intersection over Union，交并比)匹配、二维检测结果IOU匹配、目标所在图像区域的颜色直方图、目标尺寸大小、目标长宽比、目标有效三维点数、目标映射面积、目标高度、目标点云高度直方图和目标三维形状等组合特征；基于这些特征，来关联前后帧图像中的目标，这样，可以实现实时、稳定的目标跟踪。

本实施例中，在点云数据和深度图像相结合的目标检测基础上，通过目标图像坐标位置、图像特征、点云坐标位置和点云特征等关联前后帧检测目标，实现多目标跟踪，提高了目标跟踪的准确率。即使存在目标遮挡的情况，也能够通过上述特征对目标进行跟踪。

下面对目标定位进行说明：

得到三维头肩框后，可以根据三维头肩框与点云数据之间的映射关系，直接得到三维头肩框中的点在三维空间中的位置。得到二维头肩框后，可以根据相机映射矩阵、以及场景图像与点云数据之间的对应关系，得到二维头肩框中的点在三维空间中的位置。因此，在将三维头肩框与二维头肩框进行匹配校验，得到目标检测结果之后，可以得到目标检测结果在三维空间中的位置。

计算该头肩点集中心点在三维空间中的位置，作为目标定位结果。

与上述方法实施例相对应，本发明实施例还提供了一种目标检测装置，如图4所示，包括：

获取模块401，用于获取针对同一场景采集的点云数据和场景图像；

映射模块402，用于将所述点云数据向二维空间进行映射，得到第一映射图像；

融合模块403，用于将所述场景图像与所述第一映射图像进行融合，得到融合图像；

检测模块404，用于在所述融合图像中进行目标检测，得到第一检测结果；

逆映射模块405，用于通过将所述第一检测结果逆映射至三维空间中，得到目标检测结果。

一种实施方式中，所述场景图像为俯视图像，所述二维空间为地平面所对应的二维空间。

一种实施方式中，逆映射模块405包括：逆映射子模块、检测子模块和校验子模块(图中未示出)，其中，

一种实施方式中，待检测的目标为人体；

检测模块404具体用于：在所述融合图像中进行头肩检测，得到头肩检测框；

一种实施方式中，所述场景图像为俯视图像，所述二维空间为地平面所对应的二维空间；所述装置还包括：

定位模块(图中未示出)，用于采用预设滤波算法，剔除所述目标检测结果中的噪点，得到剔除后的目标检测结果；确定所述剔除后的目标检测结果中的最高点；在所述剔除后的目标检测结果中，选取所述最高点以下预设高度范围内的点，作为目标的头肩点集；计算所述头肩点集中心点的位置，作为目标定位结果。

一种实施方式中，所述装置还包括：提取模块和跟踪模块(图中未示出)，其中，

跟踪模块，用于基于所述目标的特征对所述目标进行跟踪。

一种实施方式中，映射模块402具体用于：

一种实施方式中，所述场景图像为RGB图像，所述第一映射图像中像素点的像素值表示像素点对应至真实物理世界中的点的高度值；

融合模块403具体用于：将所述场景图像向地平面方向进行映射，得到第二映射图像；将所述第二映射图像与所述第一映射图像进行融合，得到融合图像，所述融合图像为包含RGB和高度的四通道图像。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501和存储器502，

存储器502，用于存放计算机程序；

处理器501，用于执行存储器502上所存放的程序时，实现上述任意一种目标检测方法。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种目标检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任意一种目标检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、设备实施例、计算机可读存储介质实施例、以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种目标检测方法，其特征在于，包括：

获取针对同一场景采集的点云数据和场景图像；

将所述点云数据向二维空间进行映射，得到第一映射图像；

在所述融合图像中进行目标检测，得到第一检测结果；

通过将所述第一检测结果逆映射至三维空间中，得到目标检测结果；

所述通过将所述第一检测结果逆映射至三维空间中，得到目标检测结果，包括：

基于预先确定的点云坐标系与图像坐标系之间的映射关系，将三维头肩框与二维头肩框转换至同一坐标系；其中，所述第一检测结果包括所述融合图像中的头肩检测框，所述三维头肩框为将所述融合图像中的头肩检测框逆映射至三维空间中得到的，所述二维头肩框为所述场景的深度图像中的头肩框；

在所述同一坐标系中，将所述三维头肩框与所述二维头肩框进行匹配校验，得到目标检测结果；

2.根据权利要求1所述的方法，其特征在于，所述通过将所述第一检测结果逆映射至三维空间中，得到目标检测结果，包括：

3.根据权利要求2所述的方法，其特征在于，待检测的目标为人体；所述在所述融合图像中进行目标检测，得到第一检测结果，包括：

在所述融合图像中进行头肩检测，得到头肩检测框；

将所述头肩检测框逆映射至三维空间中，得到三维头肩框；

在所述深度图像中进行头肩检测，得到二维头肩框。

4.根据权利要求2所述的方法，其特征在于，所述将所述三维检测结果与所述二维检测结果进行匹配校验，得到目标检测结果之后，还包括：

基于所述目标的特征对所述目标进行跟踪。

5.根据权利要求1所述的方法，其特征在于，所述场景图像为俯视图像，所述二维空间为地平面所对应的二维空间；所述将所述点云数据向二维空间进行映射，得到第一映射图像，包括：

6.根据权利要求1所述的方法，其特征在于，所述场景图像为俯视图像，所述二维空间为地平面所对应的二维空间；所述场景图像为RGB图像，所述第一映射图像中像素点的像素值表示像素点对应至真实物理世界中的点的高度值；

7.一种目标检测装置，其特征在于，包括：

逆映射模块，用于通过将所述第一检测结果逆映射至三维空间中，得到目标检测结果；

8.一种电子设备，其特征在于，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。