CN114581867B

CN114581867B - 目标检测方法、设备、存储介质及程序产品

Info

Publication number: CN114581867B
Application number: CN202210198080.0A
Authority: CN
Inventors: 郑炜栋; 钱闻韬
Original assignee: Ecarx Hubei Tech Co Ltd
Current assignee: Ecarx Hubei Tech Co Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2024-05-14
Anticipated expiration: 2042-03-01
Also published as: CN114581867A

Abstract

本申请实施例提供一种目标检测方法、设备、存储介质及程序产品，该方法包括获取多个目标图像，将多个所述目标图像进行特征提取，获得对应的多个图像特征图，将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图，将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果，根据各个所述分类识别结果，确定目标检测结果。本申请实施例能够有效提高检测结果的准确度。

Description

目标检测方法、设备、存储介质及程序产品

技术领域

本申请实施例涉及自动驾驶技术领域，尤其涉及一种目标检测方法、设备、存储介质及程序产品。

背景技术

在自动驾驶感知领域中，准确地感知周围的环境是保证车辆安全行驶的重要前提，因此目标检测是一个重要且基础的研究领域。目标检测是指通过分析计算车上各个传感器实时采集到的数据得到车辆周围的目标信息。

相关技术中，通常是采用多个相机获取图像，并对单个相机的图像进行处理后，得到对应图像的目标检测结果，进而通过将各个相机的目标检测结果进行融合去重后得到最终的目标列表。

然而，实现本申请过程中，发明人发现现有技术中至少存在如下问题：由于单个相机采集范围有限，在采集区域边缘仅能获取到一些目标的部分影像，使得单个相机的目标检测结果准确度较低，影响最终的目标列表的准确率。

发明内容

本申请实施例提供一种目标检测方法、设备、存储介质及程序产品，以提高目标检测的准确率。

第一方面，本申请实施例提供一种目标检测方法，包括：

获取多个目标图像；

将多个所述目标图像进行特征提取，获得对应的多个图像特征图；

将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图；

将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果；

根据各个所述分类识别结果，确定目标检测结果。

在一种可能的设计中，所述获取多个目标图像，包括：

获取多个相机分别采集的待处理图像；

从多个所述相机中选定目标相机，并获取所述目标相机的时间戳；

针对每个非目标相机采集的多个待处理图像，计算获得各个待处理图像的时间戳分别与所述目标相机的时间戳之间的差值，将各个所述差值中最小值对应的图像，确定为所述目标图像；所述非目标相机为多个所述相机中除所述目标相机之外的相机。

在一种可能的设计中，所述将多个所述目标图像进行特征提取，获得对应的多个图像特征图，包括：

对多个所述目标图像进行下采样，获得下采样后的多个目标图像；

将所述下采样后的多个目标图像基于第一神经网络模型进行特征提取，获得对应的多个图像特征图。

在一种可能的设计中，所述第一神经网络模型包括残差网络，和/或，特征金字塔网络。

在一种可能的设计中，所述将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图，包括：

基于所述目标坐标系，确定立体检测范围；所述立体检测范围被划分为多个立体栅格；

确定各所述图像特征图的像素坐标系分别与所述目标坐标系之间的第一转换关系；

针对每个栅格，根据所述第一转换关系和所述栅格的各顶点在所述目标坐标系下的坐标，在各个图像特征图中确定所述栅格对应的目标图像块；将各个所述目标图像块内的特征值确定为所述栅格的特征值；

根据各个所述栅格的特征值，生成所述三维体素特征图。

在一种可能的设计中，所述确定各所述图像特征图的像素坐标系分别与所述目标坐标系之间的第一转换关系，包括：

针对每个图像特征图，根据对应的相机的内参和外参，确定对应的目标图像的像素坐标系与所述目标坐标系之间的第二转换关系；所述外参为所述相机的相机坐标系与所述目标坐标系之间的转换关系；

获取所述目标图像与所述图像特征图之间的尺寸比例关系；

根据所述尺寸比例关系和所述第二转换关系，确定所述第一转换关系。

在一种可能的设计中，所述将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果，包括：

将所述三维体素特征图输入第二神经网络模型，获得位于目标平面内的各栅格分别对应的目标分类识别结果；所述目标平面与所述立体检测范围相交；

根据各个所述目标分类识别结果，确定各所述目标图像中的各个目标物的分类识别结果。

在一种可能的设计中，所述获取多个目标图像之前，还包括：

对采集所述目标图像对应的各个相机进行标定，获得各相机的内参和外参；所述外参为所述相机的相机坐标系与所述目标坐标系之间的转换关系。

第二方面，本申请实施例提供一种目标检测设备，包括：

获取模块，获取多个目标图像；

特征提取模块，将多个所述目标图像进行特征提取，获得对应的多个图像特征图；

映射模块，将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图；

分类识别模块，将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果；

确定模块，用于根据各个所述分类识别结果，确定目标检测结果。

第三方面，本申请实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上第一方面以及第一方面各种可能的设计所述的方法。

本实施例提供的目标检测方法、设备、存储介质及程序产品，该方法包括获取多个目标图像，将多个所述目标图像进行特征提取，获得对应的多个图像特征图，将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图，将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果，根据各个所述分类识别结果，确定目标检测结果。本申请实施例提供的目标检测方法，通过将多个相机分别采集的目标图像进行特征提取，得到各目标图像分别对应的图像特征图，进而将各图像特征图的二维特征映射到同一目标坐标系下，得到包含信息更加全面的整体的三维体素特征图特征图，再对该三维体素特征图进行分类识别，可以避免单独对单个相机的图像进行目标检测后，再将各相机的目标检测结果进行融合导致检测效果较差的问题，能够有效提高检测结果的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的目标检测方法的应用场景图；

图2为本申请实施例提供的目标检测方法的流程示意图；

图3为本申请实施例提供的目标检测方法中多相机的时间同步示意图；

图4为本申请实施例提供的图像特征图与目标坐标系下的立体检测区域的映射关系示意图；

图5为本申请实施例提供的第二神经网络的结构示意图；

图6为本申请实施例提供的目标物体的位置、尺寸和角度的示意图；

图7为本申请实施例提供的目标检测设备的结构示意图；

图8为本申请实施例提供的目标检测设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在自动驾驶感知领域中，为了保证车辆的安全行驶，准确地感知周围的环境是最重要的前提，因此，目标检测是一个最重要和基础的研究领域。目标检测是指通过分析计算车辆上各个传感器实时采集到的数据得到车辆周围的目标信息。

其中，摄像头是一种非常重要的传感器，通过摄像头采集的图像拥有丰富的色彩和纹理信息，基于图像可以检测车辆周围重要的目标信息，例如车辆、骑行者、行人等。为了检测车辆周边的目标，自动驾驶车辆上往往会布置多个相机以覆盖360°的检测范围。

在相关技术中，通常是采用多个相机获取图像，并对单个相机的图像进行处理后，得到对应图像的目标检测结果，进而通过将各个相机的目标检测结果进行融合去重后得到最终的目标列表。然而，上述方式至少存在以下不足：首先，每个相机的视野范围有限，很多目标在一个相机中只能看到目标的一部分，导致检测效果不佳，其次，每个相机单独检测得到的目标经过测距后存在误差，导致后端对各个相机得到的检测结果进行融合去重时不仅需要进行繁杂的调参工作，而且最终的效果还不理想。

为解决上述技术问题，本申请发明人研究发现，可以通过将多个相机分别采集的目标图像进行特征提取，得到各目标图像分别对应的图像特征图，进而将各图像特征图的二维特征映射到同一目标坐标系下，得到包含信息更加全面的整体的三维体素特征图特征图，再对该三维体素特征图进行分类识别，可以避免单独对单个相机的图像进行目标检测后，再将各相机的目标检测结果进行融合导致检测效果较差的问题，能够有效提高检测结果的准确度。基于此，本申请实施例提供一种目标检测方法，以提高目标检测结果的准确度。

图1为本申请实施例提供的目标检测方法的应用场景图。如图1所示，车辆101设置有多个相机，其中包括前视相机101、后视相机103、4个侧视相机，其中，各相机具有各自对应的拍摄范围，例如，4个侧视相机中位于左后位置的侧视相机104的拍摄范围为区域105。多个相机用于将采集的目标图像发送给车辆的车机(未示出)，车机用于基于各个目标图像进行目标检测。可选地，车机还可以将目标图像发送给服务器，由服务器基于目标图像确定目标检测结果，并将目标检测结果返回给车机，以使车机基于目标检测结果对车辆安全行驶进行控制。本实施例中，相机的数量和设置位置可以根据实际需要进行确定，本实施例对此不做限定。

在具体实现过程中，各相机分别将采集的目标图像发送给车机，车机在获取到各个目标图像后，将多个所述目标图像进行特征提取，获得对应的多个图像特征图，将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图，将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果，根据各个所述分类识别结果，确定目标检测结果。

本申请实施例提供的目标检测方法，通过将多个相机分别采集的目标图像进行特征提取，得到各目标图像分别对应的图像特征图，进而将各图像特征图的二维特征映射到同一目标坐标系下，得到包含信息更加全面的整体的三维体素特征图特征图，再对该三维体素特征图进行分类识别，可以避免单独对单个相机的图像进行目标检测后，再将各相机的目标检测结果进行融合导致检测效果较差的问题，能够有效提高检测结果的准确度。

需要说明的是，图1所示的场景示意图仅仅是一个示例，本申请实施例描述的目标检测方法以及场景是为了更加清楚地说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请实施例提供的目标检测方法的流程示意图。如图2所示，该方法包括：

201、获取多个目标图像。

本实施例的执行主体可以为计算机、平板电脑、车辆的车机等数据处理设备。

本实施例中，目标图像的来源可以是由设置在车辆上的多个视觉传感器，例如相机采集获得的。

车载多相机实时采集图片，每个相机的图像采集可能存在差异，为了将各相机采集的图像进行同步，在一些实施例中，所述获取多个目标图像，可以包括：获取多个相机分别采集的待处理图像；从多个所述相机中选定目标相机，并获取所述目标相机的时间戳；针对每个非目标相机采集的多个待处理图像，计算获得各个待处理图像的时间戳分别与所述目标相机的时间戳之间的差值，将各个所述差值中最小值对应的图像，确定为所述目标图像；所述非目标相机为多个所述相机中除所述目标相机之外的相机。

示例性的，图3为本申请实施例提供的目标检测方法中多相机的时间同步示意图。如图3所示，多个相机可以包括前视相机、侧视相机和后视相机。可以以前视相机的时间戳为基准，取其他相机最接近该时刻的图像作为目标图像。前视相机以50ms为周期进行图像采集，针对前视相机采集的每个时间戳，将该时间戳对应的前视相机采集的图像，以及与该时间戳最接近的其他相机采集的图像，均作为目标图像，实现各相机的同步。本实施例中一前视相机的时间戳为基准仅为示例，可以根据实际需要以其他相机的时间戳为基准，或者采用其他方式进行相机时间的同步，本实施例对此不做限定。

为了实现对相机采集的图像进行三维场景的重建，可以对相机进行标定，在一些实施例中，在所述获取多个目标图像之前，还可以包括：对采集所述目标图像对应的各个相机进行标定，获得各相机的内参和外参；所述外参为所述相机的相机坐标系与所述目标坐标系之间的转换关系。

具体的，对于每个相机，可以标定获得相机的内参和外参。相机的内参为相机的像素坐标系与相机坐标系之间的转换关系，相机的内参可以用以下表达式进行表示：

相机的外参，可以是相机的相机坐标系与目标坐标系之间的转换关系，其中目标坐标系可以为任一三维坐标系，举例来说，目标坐标系可以为车辆的惯性测量单元(Inertial Measurement Unit，IMU)的传感坐标系作为目标坐标系。相机的外参可以表示为：

其中，I2C_i为IMU的传感坐标系与第i个相机的相机坐标系之间的转换矩阵。i为车辆的六个相机的序号。

202、将多个所述目标图像进行特征提取，获得对应的多个图像特征图。

在一些实施例中，为了减少计算量，可以对图像进行下采样，具体的，所述将多个所述目标图像进行特征提取，获得对应的多个图像特征图，可以包括：对多个所述目标图像进行下采样，获得下采样后的多个目标图像；将所述下采样后的多个目标图像基于第一神经网络模型进行特征提取，获得对应的多个图像特征图。

在一些实施例中，所述第一神经网络模型包括残差网络，和/或，特征金字塔网络。

本实施例中，第一神经网络可以采用残差网络，例如resnet-34。可以将多个目标图像直接输入，或者经过下采样后再输入残差网络，然后获得多个目标图像分别对应的图像特征图。

在一些实施例中，为了提高检出率以及特征提取的准确性，可以增加融合层，例如可以增加特征金字塔网络(Feature Pyramid Networks，FPN)对第一神经网络，例如残差网络的最后N层网络层的输出结果进行融合处理，以得到准确性更高的图像特征图。

示例性的，将6个相机，即车载摄像头实时采集到的图像作为目标图像输入，基于深度学习方法对目标图像进行特征提取。

具体的，原始输入为6张由不同相机在不同角度下拍摄得到的目标图像，每张图像的分辨率为1920×1080。

首先，为了减少计算量，可以通过双线性插值下采样2倍得到960×540的图像，再将该图像输入第一神经网络，即第一阶段的神经网络，以残差网络resnet-34为主体，输入的图像为6×3×1920×1080(6为图像数量，3为图像通道数，1920×1080为图像的长和宽)，最后三层的输出尺寸分别为6×128×120×68、6×256×60×34和6×512×30×17。

最后，为了提高特征提取的准确率，在上述基础上，可以加入一个FPN层，将最后三层输出的特征图输入FPN层，FPN层输出尺寸为6×64×120×68，定义为F，即第一阶段的神经网络输出的图像特征图。

可以理解，除了上述采用深度学习的方式进行特征提取之外，还可以采用尺度不变特征变换SIFT、方向梯度直方图HOG等其他方式进行特征提取。本实施例对此不做限定。

203、将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图。

本实施例中，可以将多个图像特征图中的二维特征映射到同一目标坐标系下，将各图像特征图中的特征融合到目标坐标系下车辆周围的立体检测区域内，从而可以获得三维体素特征图。

在一些实施例中，所述将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图，可以包括：基于所述目标坐标系，确定立体检测范围；所述立体检测范围被划分为多个立体栅格；确定各所述图像特征图的像素坐标系分别与所述目标坐标系之间的第一转换关系；针对每个栅格，根据所述第一转换关系和所述栅格的各顶点在所述目标坐标系下的坐标，在各个图像特征图中确定所述栅格对应的目标图像块；将各个所述目标图像块内的特征值确定为所述栅格的特征值；根据各个所述栅格的特征值，生成所述三维体素特征图。

本实施例中，所述确定各所述图像特征图的像素坐标系分别与所述目标坐标系之间的第一转换关系，可以包括：针对每个图像特征图，根据对应的相机的内参和外参，确定对应的目标图像的像素坐标系与所述目标坐标系之间的第二转换关系；所述外参为所述相机的相机坐标系与所述目标坐标系之间的转换关系；获取所述目标图像与所述图像特征图之间的尺寸比例关系；根据所述尺寸比例关系和所述第二转换关系，确定所述第一转换关系。

示例性的，在通过步骤202得到6张64×120×68的图像特征图后，此时图像特征图处于各自的坐标系下，通过每个相机的标定参数(内参和外参)，可以将所有图像特征图映射到同一目标坐标系下，例如，车辆的IMU坐标系。

具体的，如图4所示，可以定义车辆周围目标的立体检测范围403为车辆前后50米，车辆左右40米，高度范围是-0.5m～3m，以0.5m为分辨率将立体检测范围403划分多个立体栅格，即每一个栅格为0.5m×0.5m×0.5m，共有7×200×160个立体栅格。每一个栅格分别映射到6张图像特征图上提取相对应的图像特征值。每个立体栅格共有8个角点，定义如下：

其中，corners_j为在IMU坐标系下，栅格的第j个角点，j为角点的序号。

根据每一个相机的外参，得到该栅格在各个相机坐标系下的坐标：

其中，为栅格的第j个角点在第i个目标图像中在第i个相机的相机坐标系下的坐标，/>为栅格的第j个角点在IMU坐标系下的坐标，I2C_i为第i个相机的外参，i为6个相机，也即6个目标图像的序号，j为栅格的8个角点的序号。

通过相机内参得到其在各个图像特征图中的坐标：

其中，为栅格的第j个角点在第i个目标图像中在第i个相机的相机坐标系下的坐标，K_i为第i个相机的内参，/>为栅格的第j个角点在第i个目标图像的第i个像素坐标系下的像素坐标，i为6个相机，也即6个目标图像的序号，j为栅格的8个角点的序号。

另外，由于目标图像经过了下采样和第一阶段的神经网络，尺寸由原来的1920*1080变为120*68，相当于下采样16倍，因此，由公式(4)和(5)得到的图像坐标需要进行相应的尺寸缩放，才可以得到其在图像特征图上的坐标(u,v均为整数)：

其中，16为图像特征图与目标图像之间的缩放比例，为栅格的第j个角点在第i个图像特征图的图像坐标系下的像素坐标，i为6个相机，也即6个图像特征图的序号，j为栅格的8个角点的序号。

每一个栅格在每个图像特征图上均有8个坐标，取左上角坐标和右下角坐标对应的方框，示例的，如图4所示，取目标栅格401相对的两个角点的坐标，也即去图像特征图中左上角坐标和右下角坐标可以得到对应的目标图像块patch402，即：

patch_i＝[minu，minv，maxu，maxv]

其中，patch_i为第i个图像特征图中与栅格对应的图像块，minu为图像块的最小横坐标，minv为图像块的最小纵坐标，maxu为图像块的最大横坐标，minv为图像块的最大纵坐标，为栅格的各角点在第i个图像特征图中的横坐标中的最小值，/>为栅格的各角点在第i个图像特征图中的纵坐标中的最小值，/>为栅格的各角点在第i个图像特征图中的横坐标中的最大值，/>为栅格的各角点在第i个图像特征图中的纵坐标中的最大值。

每一个栅格在6张图像特征图上都会得到一个patch，若patch_i满足如下条件：

minu＜120，maxu＞minu，minv＜68，maxv＞minv

则表示栅格在第i个图像特征图上有相应的图像特征值，定义每一个栅格特征值为：

其中，c为通道序号，F_{i，c，u，v}为第i个图像特征图中第c个通道的图像特征值的坐标，voxel_k，c为第c个通道第k个栅格的特征值。

最终所有voxe1组成基于车辆IMU坐标系下的特征图，尺寸为7×64×200×160，定义为V，即三维体素特征图。

204、将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果。

具体的，可以将三维体素特征图输入第二神经网络，即第二阶段神经网络，通过第二神经网络对三维体素特征图进行分类识别，可以获得各所述目标图像中的各个目标物的分类识别结果。

在一些实施例中，所述将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果，可以包括：将所述三维体素特征图输入第二神经网络模型，获得位于目标平面内的各栅格分别对应的目标分类识别结果；所述目标平面与所述立体检测范围相交；根据各个所述目标分类识别结果，确定各所述目标图像中的各个目标物的分类识别结果。

本实施例中，目标平面可以为车辆所在平面。例如，车辆如果在地面，那么目标平面即为地面，目标平面内的各栅格即为立体检测范围中的第一层的栅格。

分类识别结果可以包括物体类别置信度、物体位置偏差、物体尺寸、物体角度等信息。

示例性的，在步骤203得到尺寸为7×64×200×160的三维体素特征图V之后，可以将该三维体素特征图输入第二神经网络。如图5所示，第二神经网络可以包括全连接层(Fully Connect)、多个残差网络模块以及最后用于输出分类结果的4个检测网络头，具体包括类别置信度头(Score Head)、尺寸头(Dim Head)、位置偏差头(Pos Head)和角度头(Angle Head)。

三维体素特征图V经过全连接层后得到64×200×160的特征图，经过8层残差网络模块得到最终64×200×160(64是通道数，200*160就是目标平面的x和y对应的范围，原点位置就是-40米和-50米的位置，每个坐标点(x，y)都对应目标平面内栅格里面的物理坐标点)的特征图，经过4个检测网络头分别得到每个坐标点(x，y)即每个位置的物体类别、物体尺寸、物体位置以及物体角度。类别置信度头Score Head输出相对应位置的物体属于某一类别的置信度，输出尺寸为n×200×160，n为检测物体的类别数量，定义为ClassMap；尺寸头Dim Head输出相对应位置的物体的长宽高，输出尺寸为3×200×160，定义为DimensionMap；位置偏差头Pos Head输出相对应位置的物体相对于该位置对应的栅格的物理坐标点(例如栅格中心点坐标)的位置偏差量，输出尺寸为3×200×160，定义为PositionMap；角度头Angle Head输出相对应位置的物体的航向角，输出尺寸为2×200×160，定义为AngleMap。

205、根据各个所述分类识别结果，确定目标检测结果。

示例性的，在通过步骤204得到每一个位置的物体的类别、尺寸、位置偏差及航向角后，为了减少计算量，可以在ClassMap上进行一次非极大值抑制(NMS)，删除同一类别重叠度较高的目标。

进而，设定一个阈值T，若Class Map中某一位置(i，u，v)的值大于T，则认为该位置存在物体，如图6所示，目标位置601存在物体602，可以依据以下公式计算该物体602的三维信息：

y＝u×0.5-50+PositionMap(0，u，v) (9)

其中，PositionMap(0，u，v)为位置偏差头Pos Head输出相对应位置的物体相对于该位置对应的栅格的物理坐标点(例如栅格中心点坐标)的位置偏差量的x的分量。

x＝v×0.5-40+PositionMap(1，u，v) (10)

其中，PositionMap(1，u，v)为位置偏差头Pos Head输出相对应位置的物体相对于该位置对应的栅格的物理坐标点(例如栅格中心点坐标)的位置偏差量的y的分量。

z＝PositionMap(2，u，v) (11)

其中，PositionMap(2，u，v)为位置偏差头Pos Head输出相对应位置的物体相对于该位置对应的栅格的物理坐标点(例如栅格中心点坐标)的位置偏差量的z的分量。

l＝DimensionMap(0，u，v) (12)

其中，DimensionMap(0，u，v)为尺寸头Dim Head输出相对应位置的物体的长。

w＝DimensionMap(1，u，v) (13)

其中，DimensionMap(1，u，v)为尺寸头Dim Head输出相对应位置的物体的宽。

h＝DimensionMap(2，u，v) (14)

其中，DimensionMap(1，u，v)为尺寸头Dim Head输出相对应位置的物体的高。

其中，AngleMap(0，u，v)为角度头Angle Head输出相对应位置的物体与x轴的夹角，AngleMap(1，u，v)为角度头Angle Head输出相对应位置的物体与y轴的夹角。

每一个目标的输出结果为：

ObjectList_i＝[class x y z l w h heading_angle] (16)

其中，class为目标类别，(x，y，z)为目标中心点坐标，(l，w，h)为目标的长宽高，heading_angle为目标的航向角，遍历ClassMap得到最终的目标列表ObjectList。

本实施例提供的目标检测方法，通过将多个相机分别采集的目标图像进行特征提取，得到各目标图像分别对应的图像特征图，进而将各图像特征图的二维特征映射到同一目标坐标系下，得到包含信息更加全面的整体的三维体素特征图特征图，再对该三维体素特征图进行分类识别，可以避免单独对单个相机的图像进行目标检测后，再将各相机的目标检测结果进行融合导致检测效果较差的问题，能够有效提高检测结果的准确度。

图7为本申请实施例提供的目标检测设备的结构示意图。如图7所示，该目标检测设备70包括：分帧模块701、检测模块702以及确定模块703。

获取模块701，获取多个目标图像；

特征提取模块702，将多个所述目标图像进行特征提取，获得对应的多个图像特征图。

映射模块703，将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图。

分类识别模块704，将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果。

确定模块705，用于根据各个所述分类识别结果，确定目标检测结果。

本申请实施例提供的目标检测设备，通过将多个相机分别采集的目标图像进行特征提取，得到各目标图像分别对应的图像特征图，进而将各图像特征图的二维特征映射到同一目标坐标系下，得到包含信息更加全面的整体的三维体素特征图特征图，再对该三维体素特征图进行分类识别，可以避免单独对单个相机的图像进行目标检测后，再将各相机的目标检测结果进行融合导致检测效果较差的问题，能够有效提高检测结果的准确度。

本申请实施例提供的目标检测设备，可用于执行上述的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图8为本申请实施例提供的电子设备的硬件结构框图，该设备可以是计算机，消息收发设备，平板设备，医疗设备，车辆的车机设备等。

设备80可以包括以下一个或多个组件：处理组件801，存储器802，电源组件803，多媒体组件804，音频组件805，输入/输出(I/O)接口806，传感器组件807，以及通信组件808。

处理组件801通常控制设备80的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件801可以包括一个或多个处理器809来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件801可以包括一个或多个模块，便于处理组件801和其他组件之间的交互。例如，处理组件801可以包括多媒体模块，以方便多媒体组件804和处理组件801之间的交互。

存储器802被配置为存储各种类型的数据以支持在设备80的操作。这些数据的示例包括用于在设备80上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件803为设备80的各种组件提供电力。电源组件803可以包括电源管理系统，一个或多个电源，及其他与为设备80生成、管理和分配电力相关联的组件。

多媒体组件804包括在所述设备80和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件804包括一个前置摄像头和/或后置摄像头。当设备80处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件805被配置为输出和/或输入音频信号。例如，音频组件805包括一个麦克风(MIC)，当设备80处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或经由通信组件808发送。在一些实施例中，音频组件805还包括一个扬声器，用于输出音频信号。

I/O接口806为处理组件801和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件807包括一个或多个传感器，用于为设备80提供各个方面的状态评估。例如，传感器组件807可以检测到设备80的打开/关闭状态，组件的相对定位，例如所述组件为设备80的显示器和小键盘，传感器组件807还可以检测设备80或设备80一个组件的位置改变，用户与设备80接触的存在或不存在，设备80方位或加速/减速和设备80的温度变化。传感器组件807可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件807还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件807还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件808被配置为便于设备80和其他设备之间有线或无线方式的通信。设备80可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件808经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件808还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备80可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器802，上述指令可由设备80的处理器809执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上目标检测设备执行的目标检测方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种目标检测方法，其特征在于，该方法包括：

获取多个目标图像；

根据各个所述分类识别结果，确定目标检测结果；

所述获取多个目标图像，包括：

获取多个相机分别采集的待处理图像；

针对每个非目标相机采集的多个待处理图像，计算获得各个待处理图像的时间戳分别与所述目标相机的时间戳之间的差值，将各个所述差值中最小值对应的图像，确定为所述目标图像；所述非目标相机为多个所述相机中除所述目标相机之外的相机；

所述将多个所述图像特征图中的特征值映射到同一目标坐标系下，获得三维体素特征图，包括：

根据各个所述栅格的特征值，生成所述三维体素特征图。

2.根据权利要求1所述的方法，其特征在于，所述将多个所述目标图像进行特征提取，获得对应的多个图像特征图，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一神经网络模型包括残差网络，和/或，特征金字塔网络。

4.根据权利要求1所述的方法，其特征在于，所述确定各所述图像特征图的像素坐标系分别与所述目标坐标系之间的第一转换关系，包括：

获取所述目标图像与所述图像特征图之间的尺寸比例关系；

5.根据权利要求3所述的方法，其特征在于，所述将所述三维体素特征图进行分类识别，获得各所述目标图像中的各个目标物的分类识别结果，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述获取多个目标图像之前，还包括：

7.一种目标检测设备，其特征在于，包括：

获取模块，获取多个目标图像；

确定模块，用于根据各个所述分类识别结果，确定目标检测结果；

所述获取模块，具体用于获取多个相机分别采集的待处理图像；从多个所述相机中选定目标相机，并获取所述目标相机的时间戳；针对每个非目标相机采集的多个待处理图像，计算获得各个待处理图像的时间戳分别与所述目标相机的时间戳之间的差值，将各个所述差值中最小值对应的图像，确定为所述目标图像；所述非目标相机为多个所述相机中除所述目标相机之外的相机；

所述映射模块，具体用于：

根据各个所述栅格的特征值，生成所述三维体素特征图。

8.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至6任一项所述的目标检测方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6任一项所述的目标检测方法。