CN117292355A

CN117292355A - 一种目标融合感知方法、装置、计算机设备及存储介质

Info

Publication number: CN117292355A
Application number: CN202311262242.3A
Authority: CN
Inventors: 张兰心; 贾成禹; 杨达
Original assignee: Sany Automobile Manufacturing Co Ltd
Current assignee: Sany Automobile Manufacturing Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-26

Abstract

本发明涉及目标识别技术领域，公开了一种目标融合感知方法、装置、计算机设备及存储介质，方法包括：对相机和激光雷达进行空间同步和时间同步；通过相机和激光雷达分别获取同一时刻的图像数据和点云数据，并分别对图像数据和点云数据进行目标识别，得到图像目标信息和点云目标信息；将3D检测框投影到图像数据的平面中，通过2D检测框和3D检测框之间的距离判断图像目标信息和点云目标信息中识别的目标是否是同一目标；当识别的目标是同一目标时，根据第一目标置信度和第二目标置信度确定目标的目标类别；将3D检测框和目标类别映射到图像数据中，得到目标融合检测结果。本发明解决了目标融合准确度较低的问题。

Description

一种目标融合感知方法、装置、计算机设备及存储介质

技术领域

本发明涉及目标识别技术领域，具体涉及一种目标融合感知方法、装置、计算机设备及存储介质。

背景技术

对于工程机械而言，转向数字化、智能化是提升行业核心竞争力的必经之路。目前智能网联化的目标是在封闭/半封闭场景实现自动驾驶作业，而这一目标的实现依赖于设备对周围环境的感知结果并进行自主决策。于感知设备而言，摄像头受光照的影响较为敏感，且难以获取精确的目标深度信息，激光雷达的点云数据无法获取目标颜色、纹理等特征信息，所以仅依靠单一传感器已经无法满足自动驾驶对环境感知的要求，多传感器融合已经成为当前主流的环境感知方案。中国专利CN113111887B公开了一种基于相机和激光雷达信息融合的语义分割方法及系统，其主要内容为：首先使用深度神经网络在图像中确定目标物体的2D检测框，然后将2D检测框映射到点云数据中，利用相机和激光雷达之间的转换关系筛选出2D检测框中的目标点云，并对目标点云进行密度聚类，然后采用改进的四邻域聚类对原始点云进行分割；最后融合不同的聚类结果得到带有语义标签的点云分割结果。但是这种先识别图像再识别点云的方法使得目标融合的误差较大，因为图像数据和点云数据不一定能够对齐，检测到的目标可能不一致，使得并不是同一物体被融合，造成目标识别误差。

发明内容

有鉴于此，本发明提供了一种目标融合感知方法、装置、计算机设备及存储介质，以解决目标融合准确度较低的问题。

第一方面，本发明提供了一种目标融合感知方法，方法包括：对相机和激光雷达进行空间同步和时间同步；通过相机和激光雷达分别获取同一时刻的图像数据和点云数据，并分别对图像数据和点云数据进行目标识别，得到图像目标信息和点云目标信息，图像目标信息包括目标的2D检测框和第一目标置信度，点云目标信息包括目标的3D检测框和第二目标置信度，第一目标置信度和第二目标置信度均用于表示识别到的目标属于各个预设类别的概率；将3D检测框投影到图像数据的平面中；通过2D检测框和投影后的3D检测框之间的距离，判断图像目标信息和点云目标信息中分别识别的目标是否是相同目标；当图像目标信息和点云目标信息中分别识别的目标是相同目标时，根据第一目标置信度和第二目标置信度确定识别的相同目标的目标类别；将3D检测框和目标类别映射到图像数据中，得到目标融合检测结果。

在一种可选地实施方式中，通过2D检测框和投影后的3D检测框之间的距离判断图像目标信息和点云目标信息中分别识别的目标是否是相同目标，包括：计算投影后的3D检测框和2D检测框的中心点欧氏距离；当中心点欧氏距离小于等于预设距离阈值时，判定投影后的3D检测框和2D检测框识别的目标是相同目标。

在一种可选地实施方式中，根据第一目标置信度和第二目标置信度确定该相同目标的目标类别，包括：确定第一目标置信度和第二目标置信度中置信度最大的类别，并将置信度最大的类别作为目标类别。

在一种可选地实施方式中，图像数据中的目标通过YOLOv7模型进行识别，点云数据中的目标通过PointPillars模型进行识别；其中，YOLOv7模型和PointPillars模型在训练完成后均进行模型参数量化，模型参数的量化步骤通过下式进行：

式中，R表示量化前的模型参数，Q表示量化后的模型参数，S表示量化后可表示的最小刻度，Z表示量化前的0点对应的量化后的值，R_max和R_min分别表示量化前的模型参数的数据类型对应的取值范围，Q_max和Q_min分别表示量化后的模型参数的数据类型对应的取值范围，量化前的模型参数为浮点型，量化后的模型参数为定点整型。

在一种可选地实施方式中，分别对图像数据和点云数据进行目标识别，包括：将图像数据输入YOLOv7模型，输出第一结果图像；将第一结果图像与反量化比例相乘，得到第二结果图像；获取第二结果图像中的2D检测框、第一目标类别信息和第一目标类别信息对应的第一目标置信度，第一目标类别信息包括多个预设类别；将点云数据纳入多个体素中，得到体素集；从前视和俯视角度分别对体素集进行投影映射处理，得到多个伪图像；将伪图像输入PointPillars模型，输出第一结果点云；将第一结果点云与反量化比例相乘，得到第二结果点云；获取第二结果点云中的3D检测框、第二目标类别信息和第二类别信息对应的第二目标置信度，第二目标类别信息包括多个预设类别。

在一种可选地实施方式中，对相机和激光雷达进行空间同步和时间同步，包括：获取相机内参、图像样本和点云样本，图像样本和点云样本是同一时间拍摄的数据；分别从点云样本和图像样本中选取4对以上互相对应的3D点和图像像素点，并通过采用PnP算法计算相机与激光雷达之间的旋转矩阵和平移矩阵；通过旋转矩阵、平移矩阵和相机内参组成的标定矩阵标定相机的像素点和激光雷达感应点的位置，完成空间同步；通过激光雷达和车辆处理器接收组合导航系统持续发送的GPRMC数据和PPS脉冲信号；通过激光雷达解析GPRMC数据，获取GPS时间，并根据PPS脉冲信号将激光雷达的时间与GPS时间同步；通过车辆处理器根据检测到的PPS脉冲信号同时发送脉冲触发信号到相机，以使相机进行拍摄。

在一种可选地实施方式中，方法还包括：当中心点欧氏距离大于预设距离阈值时，判定3D检测框识别的目标和2D检测框识别的目标是不同目标，并通过相机和激光雷达分别获取前一帧的图像数据和前一帧的点云数据；分别从前一帧的图像数据和前一帧的点云数据中获取同一位置的第二3D检测框和第二2D检测框；判断第二3D检测框中是否存在3D检测框识别的目标，并判断第二2D检测框中是否存在2D检测框识别的目标；当第二3D检测框中存在3D检测框识别的目标时，输出3D检测框对应的点云目标信息；当第二2D检测框中存在2D检测框识别的目标时，输出2D检测框对应的图像目标信息。

第二方面，本发明提供了一种目标融合感知装置，装置包括：设备同步模块，用于对相机和激光雷达进行空间同步和时间同步；目标识别模块，用于通过相机和激光雷达分别获取同一时刻的图像数据和点云数据，并分别对图像数据和点云数据进行目标识别，得到图像目标信息和点云目标信息，图像目标信息包括目标的2D检测框和第一目标置信度，点云目标信息包括目标的3D检测框和第二目标置信度，第一目标置信度和第二目标置信度均用于表示识别到的目标属于各个预设类别的概率；投影模块，用于将3D检测框投影到图像数据的平面中；目标匹配模块，用于通过2D检测框和投影后的3D检测框之间的距离判断图像目标信息和点云目标信息中分别识别的目标是否是相同目标；类别识别模块，用于当图像目标信息和点云目标信息中分别识别的目标是相同目标时，根据第一目标置信度和第二目标置信度确定识别的相同目标的目标类别；信息融合模块，用于将3D检测框和目标类别映射到图像数据中，得到目标融合检测结果。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法。

本发明实施例提供的技术方案，具有如下优点：

首先利用空间和时间都同步完成的相机和激光雷达一起拍摄同一位置的感知数据，然后通过处理器获取同一时刻的图像数据和点云数据，从而如果当前场景存在目标，应当同时存在于图像数据和点云数据中。之后从两条路径分别对图像数据和点云数据进行目标识别，两份图像都会识别到一些目标，通过图像中目标的2D检测框和点云中目标的3D检测框之间的距离先判断是不是位置相同的同一目标，在属于同一目标的前提下再利用两种检测框的置信度综合分析该目标的类别，当确定了类别之后，再把类别信息和3D检测框融合到2D图像中，能够显著提高数据融合的准确度。避免了相关技术在点云数据中将2D检测框映射到实际不存在目标的位置，还进行了错误融合的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种目标融合感知方法的流程示意图；

图2是根据本发明实施例的一种目标融合感知方法的另一个流程示意图；

图3是根据本发明实施例的一种目标融合感知装置的结构框图；

图4是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明实施例，提供了一种目标融合感知方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种目标融合感知方法，可用于上述的计算机设备，图1是根据本发明实施例的一种目标融合感知方法的流程图，该流程包括如下步骤：

步骤S101，对相机和激光雷达进行空间同步和时间同步。

具体地，本发明实施例提供的技术方案的主要思想是同时通过激光雷达和相机做目标识别检测，再对不同的情况选择不同的传感器结果来进行融合策略判断，从而提高目标融合感知的准确性。从而，首先需要对相机和激光雷达进行空间同步和时间同步，调整相机和激光雷达拍摄的位置为同一位置保证空间同步，从而采集的图像数据和点云数据上的各个位置能够一一对应；调整相机和激光雷达采集数据的时间戳相同，完成时间同步，从而避免进行匹配融合的数据不是同一时刻数据，避免出现匹配错误。

步骤S102，通过相机和激光雷达分别获取同一时刻的图像数据和点云数据，并分别对图像数据和点云数据进行目标识别，得到图像目标信息和点云目标信息，图像目标信息包括目标的2D检测框和第一目标置信度，点云目标信息包括目标的3D检测框和第二目标置信度，第一目标置信度和所述第二目标置信度均用于表示识别到的目标属于各个预设类别的概率。

具体地，之后通过相机和激光雷达采集同一时刻的图像数据和点云数据，然后利用目标检测算法分别针对图像数据和点云数据进行目标识别，得到图像数据中的图像目标信息和点云数据中的点云目标信息。可采用的目标检测算法包括但不限于以Faster R-CNN为代表的Two-Stage算法和以SSD、YOLO为代表的One-Stage算法，本实施例仅以此举例，不以此为限。

图像目标信息和点云目标信息中的目标可能包括一个，也可能包括多个，还可能没有检测到目标。根据实际检测情况，检测到的目标均具有检测框和置信度两个参数，其中图像目标信息包括各个目标的2D检测框，2D检测框没有深度信息，只能根据目标的位置、大小和颜色进行框选，第一目标置信度表示的是2D检测框把框选的目标检测成各个预设类别物体的概率。其中点云目标信息包括各个目标的3D检测框，3D检测框具有深度信息，但是不能很好表达目标的颜色，第二目标置信度表示的是3D检测框把框选的目标检测成各个类别物体的概率。

步骤S103，将所述3D检测框投影到所述图像数据的平面中。

步骤S104：通过所述2D检测框和投影后的3D检测框之间的距离，判断所述图像目标信息和所述点云目标信息中分别识别的目标是否是相同目标。

具体地，本实施例根据图像目标信息和点云目标信息中的检测框，将所述3D检测框投影到所述图像数据的平面中之后，两两匹配2D检测框和3D检测框之间的距离，根据2D检测框和3D检测框的距离远近判断两种数据中是否都检测到了同一目标。例如：假设图像目标信息和点云目标信息中只检测到了一个目标，则只包括一个2D检测框和一个3D检测框，如果它们的距离相近且小于预设距离阈值，则表示图像数据和点云数据检测到的是同一个目标，如果它们的距离较远且大于等于预设距离阈值，则表示图像数据和点云数据检测到的不是同一个目标，如果不是同一个目标则不能进行感知融合，从而避免感知融合错误。

步骤S105，当所述图像目标信息和所述点云目标信息中分别识别的目标是相同目标时，根据所述第一目标置信度和所述第二目标置信度确定识别的相同目标的目标类别。

具体地，当某个2D检测框和某个3D检测框识别的目标是同一个目标时，从而检测到的框内数据可以进行感知融合，但是融合后的目标应当是什么物体，还需预先判断，从而根据第一目标置信度和第二目标置信度共同分析该目标的类别最大概率是什么，从而保障物体类别识别的准确度。

步骤S106，将3D检测框和目标类别映射到图像数据中，得到目标融合检测结果。

具体地，最后，将3D检测框和目标类别映射到图像数据中得到目标融合检测结果，既有图像颜色、轮廓、位置信息，也有3D的图像深度信息，而且还保证了目标类别的准确度。通过这一方案，避免了相关技术在点云数据中将图像识别的2D检测框映射到实际不存在目标的位置，还进行了错误融合的问题。

在一些可选地实施方式中，上述步骤S104包括：

步骤a1，计算所述投影后的3D检测框和所述2D检测框的中心点欧氏距离。

步骤a2，当所述中心点欧氏距离小于等于预设距离阈值时，判定所述投影后的3D检测框和所述2D检测框识别的目标是相同目标。

具体地，由于3D和2D检测框的表现形式不同，如果利用检测框的边界点等位置计算框的距离难免产生误差，为了提高距离计算的准确度，本实施例先将3D检测框按照轮廓投影到图像数据中，得到3D检测框在图像中的2D轮廓，然后确定投影后的3D检测框和2D检测框各自的中心点，从而以两个中心点的欧氏距离衡量两个检测框的距离，能够进一步提高两个框整体匹配程度的衡量准确率，提高相同目标识别的准确率。具体是将3D检测框投影到图像中后，依次遍历当前帧图像中的2D检测框，设图像检测框中心点设为M，点云检测框中心点设为N，计算M与N的欧式距离Dnk，如果Dnk大于等于设定的预设距离阈值Threshold1，则判断为不同的障碍物目标，若计算得Dnk小于设定的预设距离阈值Threshold1，则将该图像检测框与点云检测框相匹配，判断为同一障碍物。

在一些可选地实施方式中，上述步骤S105包括：

步骤b1，确定第一目标置信度和第二目标置信度中置信度最大的类别，并将置信度最大的类别作为目标类别。

具体地，当图像检测框和点云检测框判定为同一目标时，进而结合两个框关联的置信度分析该物体具体是什么物体。本发明实施例利用第一目标置信度和第二目标置信度中置信度最大的类别确定目标类别，从而提高目标类别的准确性。例如：2D检测框对应的第一置信度包括汽车60％、人10％、狗5％、垃圾桶20％、自行车5％、其他类别是0％，3D检测框对应的第二置信度包括汽车40％、人5％、垃圾桶50％、自行车5％、其他类别是0％，从而根据最大的置信度60％确定当前目标类别为汽车。

在一个具体地实施例中，当出现两个不同类别的置信度数值一样并且都最大时，难以判断概率最大的类别是什么，本实施例可以进一步将第一置信度和第二置信度中各个对应类别的置信度相加再计算各个类别置信度的平均值，利用平均值中的最大值判断当前目标的实际类别，从而进一步提高类别检测的准确率。

在一些可选地实施方式中，图像数据中目标通过YOLOv7模型进行识别，点云数据中的目标通过PointPillars模型进行识别。

具体地，YOLOv7模型是近年来最新提出的目标检测模型，该模型超越YOLOv5、YOLOX、PPYOLOE、YOLOR等目标检测网络，在5FPS到160FPS范围内的速度和准确度都超过了所有已知的目标检测器，并且在GPU V100上30FPS或更高的所有已知实时目标检测器中具有最高的准确度。本发明实施例基于YOLOv7模型实现图像端的目标检测，能够显著提高目标检测的准确率。

在训练YOLOv7模型阶段，获取COCO数据集(COCO数据集是微软于2014年出资标注的Microsoft COCO数据集)，从COCO数据集中挑选自动驾驶场景下关注度较高的类别，形成目标检测数据集，例如类别可包括行人、汽车、自行车、货车、骑行人等。将训练集输入至YOLOv7模型中进行训练，输出训练好的YOLOv7模型。YOLOv7总体结构由Input、Backbone、Head、Detect四部分结构组成。Input部分为640*640*3的数据输入，Backbone是骨干网络，由CBS、ELAN、MP-1三种网络结构组成，Head是头部网络由CBS、SPPCSPC、E-ELAN、MP-2、RepConv几部分组成，Detect回归层，用于将模型的输出进行数据回归，得物体所述的类别。

PointPillars模型是一种用于3D检测领域的神经网络模型，将点云数据转换为稀疏的体素表示，再利用卷积神经网络进行目标检测。在训练PointPillars模型阶段，本发明实施例获取KITTI数据集(KITTI数据集是一台载有4个摄像头，一台Velodyne 3D激光雷达以及一台GPS/IMU导航设备的车辆行驶在道路所采集得到的数据集)，并从KITTI数据集中挑选自动驾驶场景下关注度较高的类别，形成目标检测数据集。可用类别包括行人、汽车、自行车、货车、骑行人等。将训练集输入至PointPillars模型中进行训练，输出训练好的PointPillars模型。PointPillars模型包括了三个主要阶段：Pillar Feature Net：将点云转化为稀疏伪图像的特征编码器网络；Backbone(2D卷积)：一个将伪图像处理为高级表示的2D卷积主干；Detection Head(SSD算法)：一个检测和回归3D框的检测头。

当YOLOv7模型和PointPillars模型训练好后，可以分别用于图像目标检测和点云目标检测。但是在实际应用中，相关技术的深度学习算法以及本发明实施例直接采用的YOLOv7模型和PointPillars模型对计算能力和资源都有非常高的要求，从而使融合感知神经网络方法及系统的实现大多需要基于GPU处理器来实现，使用成本极高，不适合来进行产品的开发和使用，如果能使用成本更低的NPU处理器来实现目标检测就能够显著降低产品的生产和研发成本。

基于此，本发明实施例提出了如下模型参数量化方法对训练完成的YOLOv7模型和PointPillars模型进行模型参数量化，从而将模型中的浮点参数转成低比特定点参数，显著减少模型参数的大小，降低处理器的计算强度和内存消耗。其中模型参数的量化步骤通过下式进行：

例如：默认输入模型参数float范围为(-1，1)，对于嵌入式来说，如果以INT8类型为量化类型为例，则需要控制输入范围在(-128，127)之间。从而通过上述公式将(-1，1)映射成(-128，127)，因此输入的量化比例(量化后可表示的最小刻度)为S＝2/(128+127)≈1/128＝0.0078125，分子分母需要用2^x对齐。因为图像值输入不能为负，因此量化会牺牲掉(-128，0)的范围精度，那么R_max和R_min分别是1和-1，Q_max和Q_min分别是127和-128。从而量化前的参数R和S的比值再加上量化前的0点对应的量化后的值Z即可得到量化后的参数Q。

通过本发明实施例提供的方案，本发明实施例利用准确度更高的YOLOv7模型和PointPillars模型进行目标检测的任务就能够在低成本的NPU处理器上运行，从而在保证检测准确率的条件下，还显著降低了产品成本。

在一些可选地实施方式中，上述步骤S102包括：

步骤c1，将图像数据输入YOLOv7模型，输出第一结果图像；

步骤c2，将第一结果图像与反量化比例相乘，得到第二结果图像；

步骤c3，获取第二结果图像中的2D检测框、第一目标类别信息和第一目标类别信息对应的第一目标置信度，所述第一目标类别信息包括多个所述预设类别；

步骤c4，将点云数据纳入多个体素中，得到体素集；

步骤c5，从前视和俯视角度分别对体素集进行投影映射处理，得到多个伪图像；

步骤c6，将伪图像输入PointPillars模型，输出第一结果点云；

步骤c7，将第一结果点云与反量化比例相乘，得到第二结果点云；

步骤c8，获取第二结果点云中的3D检测框、第二目标类别信息和第二类别信息对应的第二目标置信度，所述第二目标类别信息包括多个所述预设类别。

具体地，根据上述量化后的模型，当进行图像目标检测时，首先将图像数据输入YOLOv7模型，通过YOLOv7模型对数据进行检测，快速输出第一结果图像。由于模型量化会对模型的精度带来一定损失，从而对检测结果的精度造成一定影响，故本发明实施例还通过预设的反量化比例将低比特定点数据恢复成浮点数据，得到正常输出，其中反量化比例为S(Q-Z)，参数含义同前述实施例。虽然恢复的数据与原始浮点数据依然存在差别，但是通过本发明实施例提供的方案可以在一定程度上提高目标识别结果的检测精度。例如：将相机在t时刻获取的图像数据传入量化后的YOLOv7模型中，经过模型推理，将输出的结果乘反量化比例output_dequant_scale得到正常的输出，获取图像中识别的第n个物体的第一目标类别信息ClassIdn、第一目标置信度Confidencen、2D检测框(left，top，w，h)，其中left是图像中第n个目标二维最小包围框的左上角点横坐标，top是左上角点纵坐标，w是最小包围框的宽，h是最小包围框的高，此为目标视觉检测结果输出；其中第一目标类别信息是包括多种预设类别的信息，例如人、猫、狗、车等目标类别。

同理，针对PointPillars模型，先将激光雷达在t时刻获取的原始点云数据纳入一个个体素中，构成规则的、密集分布的体素集，从前视和俯视角度对体素集进行投影映射处理，获得一个个伪图片的数据，以便于卷积神经网络处理。再将这些数据传入量化的PointPillars模型中，经过模型推理，将输出的结果乘反量化比例dequant_scale得到正常的输出。在PointPillars输出的结果中，得到了预测的第k个物体的类别Labelk、类别分数Scorek、3D检测框(x，y，z，w，l，h，θ)，其中x、y、z是目标中心点到选择的锚框(锚框是目标检测任务中定义的一系列固定大小和宽高比的矩形框，这些矩形框会在图像上不同的位置上进行滑动，并作为候选框来预测目标物体的位置和类别)左上顶点的偏移数值，w，l，h是基于选择的锚框的长宽高的调整系数，θ预测了3D检测框的旋转角度即得到了3D检测框的朝向。从而通过反量化比例处理输出结果能够在一定程度上提高目标识别结果的检测精度。

在一些可选地实施方式中，上述步骤S101包括：

步骤d1，获取相机内参、图像样本和点云样本，图像样本和点云样本是同一时间拍摄的数据；

步骤d2，分别从所述点云样本和所述图像样本中选取4对以上互相对应的3D点和图像像素点，并通过采用PnP算法计算相机与激光雷达之间的旋转矩阵和平移矩阵；

步骤d3，通过所述旋转矩阵、所述平移矩阵和所述相机内参组成的标定矩阵标定所述相机的像素点和激光雷达感应点的位置，完成所述空间同步；

步骤d4，通过激光雷达和车辆处理器接收组合导航系统持续发送的GPRMC数据和PPS脉冲信号；

步骤d5，通过激光雷达解析GPRMC数据获取GPS时间，并根据PPS脉冲信号将激光雷达的时间与GPS时间同步；

步骤d6，通过车辆处理器根据检测到的PPS脉冲信号同时发送脉冲触发信号到相机，以使相机进行拍摄。

具体地，为了提高相机和雷达在空间以及时间上同步的可靠性，本发明实施例除了在物理上对设备位置进行调整之外，还可以利用标定算法提高同步精度。

首先，针对空间同步，根据相机采集的图像，本实施例利用张正友标定法及MABTLAB标定工具，获取相机内参f，畸变系数K。根据畸变系数K对图像进行畸变矫正后选取4对以上激光雷达点云中的3D点及其相对应的图像像素点(因为有8个未知量需要求解，所以至少需要八个方程，从而需要四对数据点)，利用其3D空间点位置(X，Y，Z)及该点的2D图像投影位置(u，v)，采用PnP算法，获取相机与激光雷达之间的外参R，T矩阵，完成联合标定，从而将相机的像素点和激光雷达感应点互相对应。公式可以表示为：

式中fu和fv分别为水平与垂直方向上的有效焦距长度，u₀和v₀为图像中心点位置坐标，R与T分别为相机与3D激光雷达间的旋转矩阵和平移矩阵。

针对时间同步，需要相机和激光雷达的时间戳对齐，在本发明实施例中，采用基于GPS的时间同步机制实现时间同步。具体通过组合导航连续向激光雷达发送GPRMC数据和PPS同步脉冲信号，激光雷达通过解析GPRMC数据获取GPS时间，同时根据PPS脉冲信号计算自身设备时间和GPRMC数据中记录的GPS时间的误差，从而根据误差和接收的GPS时间计算自身设备当前的准确时间，以实现激光雷达时间与组合导航时间的同步。同时，GPRMC数据和PPS同步脉冲信号发还送给车辆处理器，车辆处理器检测到PPS同步脉冲信号后会给相机发送脉冲触发信号，触发相机拍照采图，从而实现激光雷达和相机的时间戳同步。

具体地，GPRMC数据格式如下：

$GPRMC,<1>,<2>,<3>,<4>,<5>,<6>,<7>,<8>,<9>,<10>,<11>,<12>*hh

其中，<1>：UTC时间；<2>：定位状态，A＝有效定位，V＝无效定位；<3>：纬度；<4>：纬度半球，N(北半球)或S(南半球)；<5>：经度；<6>：经度半球，E(东经)或W(西经)；<7>：地面速率；<8>：地面航向；<9>：UTC日期；<10>：磁偏角；<11>：磁偏角方向，E(东)或W(西)；<12>：模式指示(A＝自主定位，D＝差分，E＝估算，N＝数据无效)；*后hh为$到*所有字符的异或和。

在一些可选地实施方式中，本发明实施例提供的一种目标融合感知方法，还包括如下步骤：

步骤e1，当所述中心点欧氏距离大于所述预设距离阈值时，判定所述3D检测框识别的目标和所述2D检测框识别的目标是不同目标，并通过所述相机和所述激光雷达分别获取前一帧的图像数据和前一帧的点云数据；

步骤e2，分别从所述前一帧的图像数据和所述前一帧的点云数据中获取同一位置的第二3D检测框和第二2D检测框；

步骤e3，判断所述第二3D检测框中是否存在所述3D检测框识别的目标，并判断所述第二2D检测框中是否存在所述2D检测框识别的目标；当所述第二3D检测框中存在所述3D检测框识别的目标时，输出所述3D检测框对应的所述点云目标信息；

步骤e4，当所述第二2D检测框中存在所述2D检测框识别的目标时，输出所述2D检测框对应的所述图像目标信息。

具体地，如图2所示，本发明实施例根据中心点欧氏距离判断两种数据是否是同一目标后，主要进行三种处理。其中第一种则是上述实施例中两个目标判定为同一目标的情况，能够显著降低目标感知融合的误差率，提高目标感知融合的准确度。第二种和第三种情况则是目标只被图像数据检测到和目标只被点云数据检测到，其中，当中心点欧氏距离大于预设距离阈值时，判定3D检测框和2D检测框识别的目标不是同一目标，所以3D检测框内的目标是指被点云数据检测到，2D检测框中的目标是只被图像数据检测到。

本发明实施例为了避免发生误判，从而分别获取前一帧的图像数据和前一帧的点云数据，然后对前一帧的图像数据和前一帧的点云数据中的同一位置再进行一次目标识别，得到第二3D检测框和第二2D检测框。进而判断第二3D检测框和第二2D检测框中是否存在3D检测框和2D检测框识别的目标，从而辅助验证当前帧的3D检测框和2D检测框是否真的检测到了对应物体。如果前一帧的检测结果表示对应位置确实具有当前帧的3D检测框和2D检测框对应的物体，从而判定当前帧3D检测框和2D检测框识别的目标是真实目标。从而单独输出图像数据的识别结果，即图像目标信息，包括物体的类别信息ClassIdn、置信度Confidencen和2D检测框，同时单独输出激光雷达识别结果，即点云目标信息，包括物体的类别Labelk、各个类别的类别分数Scorek和3D检测框。通过这一方案，在检测到的目标不是同一目标时也不直接丢弃数据，而是利用前一帧的数据进行验证，当前一帧的数据验证当前帧的数据检测的目标是真实目标时，依然分别输出各自的检测结果，从而保证了目标感知的准确度，避免数据本身对目标匹配产生的影响造成目标感知结果缺失的问题。

另外，在单独输出点云目标信息和图像目标信息之后，还可以进一步利用输出的置信度对点云目标信息和图像目标信息进行筛选，对于置信度特别低的信息剔除，进一步提高目标感知结果的准确率。例如剔除各个类别的置信度都在0.2以下的点云目标信息和图像目标信息，减少目标识别的误判。

另外，如果前一帧的检测结果表示对应位置没有当前帧的3D检测框和2D检测框对应的物体，从而暂时判定当前帧3D检测框和2D检测框识别的目标是误判，结束当前帧。然后利用下一帧的检测结果再进行辅助验证，如果下一帧的检测结果表示对应位置的3D检测框和2D检测框存在对应物体，从而当前帧的检测结果不是误判，再输出当前帧的检测结果。

通过本发明实施例提供的技术方案，提供的双路径融合感知方法和策略使误识别概率显著降低。本发明提供的技术方案可以避免阴影、天气、光强等造成的影响，可以实现的对任意场景下的障碍物感知与决策。解决了基于计算机视觉的障碍物检测系统的环境适应能力差、抗干扰能力不强的问题。另外，在模型训练后引入模型量化算法，在保证精度的前提下，通过软件量化我们的融合感知模型，来使模型可以低功耗的在算力较低的NPU处理器上来进行推理，同时模型更加轻量化，满足嵌入式设备实时检测的要求，也一定程度上降低了成本。

在本实施例中还提供了一种目标融合感知装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种目标融合感知装置，如图3所示，包括：

设备同步模块301，用于对相机和激光雷达进行空间同步和时间同步；

目标识别模块302，用于通过所述相机和所述激光雷达分别获取同一时刻的图像数据和点云数据，并分别对所述图像数据和点云数据进行目标识别，得到图像目标信息和点云目标信息，所述图像目标信息包括目标的2D检测框和第一目标置信度，所述点云目标信息包括目标的3D检测框和第二目标置信度，所述第一目标置信度和所述第二目标置信度均用于表示识别到的目标属于各个预设类别的概率；

投影模块303，用于将所述3D检测框投影到所述图像数据的平面中；

目标匹配模块304，用于通过所述2D检测框和投影后的3D检测框之间的距离判断所述图像目标信息和所述点云目标信息中分别识别的目标是否是相同目标；

类别识别模块305，用于当所述图像目标信息和所述点云目标信息中分别识别的目标是相同目标时，根据所述第一目标置信度和所述第二目标置信度确定识别的相同目标的目标类别；

信息融合模块306，用于将3D检测框和目标类别映射到图像数据中，得到目标融合检测结果。

在一些可选的实施方式中，目标匹配模块304包括：

距离计算单元，用于计算图像数据中的3D检测框和2D检测框的中心点欧氏距离；

第一匹配单元，用于当中心点欧氏距离小于等于预设距离阈值时，判定3D检测框和2D检测框识别的目标是同一目标。

在一些可选地实施方式中，类别识别模块305包括：

最大置信度识别单元，用于确定第一目标置信度和第二目标置信度中置信度最大的类别，并将置信度最大的类别作为目标类别。

在一些可选地实施方式中，图像数据中目标通过YOLOv7模型进行识别，点云数据中的目标通过PointPillars模型进行识别；其中，YOLOv7模型和PointPillars模型在训练完成后均进行模型参数量化，目标融合感知装置还包括：

量化模块，用于通过下式对模型参数进行量化：

在一种可选地实施方式中，目标识别模块302包括：

第一识别单元，用于将图像数据输入YOLOv7模型，输出第一结果图像；

第一反量化单元，用于将第一结果图像与反量化比例相乘，得到第二结果图像；

第一结果提取单元，用于获取第二结果图像中的2D检测框、第一目标类别信息和第一目标类别信息对应的第一目标置信度；

第一数据转换单元，用于将点云数据纳入多个体素中，得到体素集；

第二数据转换单元，用于从前视和俯视角度分别对体素集进行投影映射处理，得到多个伪图像；

第二识别单元，用于将伪图像输入PointPillars模型，输出第一结果点云；

第二反量化单元，将第一结果点云与反量化比例相乘，得到第二结果点云；

第二结果提取单元，获取第二结果点云中的3D检测框、第二目标类别信息和第二类别信息对应的第二目标置信度。

在一些可选地实施方式中，上述设备同步模块301，包括：

数据获取单元，用于获取相机内参、图像样本和点云样本，图像样本和点云样本是同一时间拍摄的数据；

矩阵计算单元，用于分别从所述点云样本和所述图像样本中选取4对以上互相对应的3D点和图像像素点，并通过采用PnP算法计算相机与激光雷达之间的旋转矩阵和平移矩阵；

空间同步单元，用于通过旋转矩阵、平移矩阵和相机内参组成的标定矩阵标定相机的像素点和激光雷达感应点的位置，完成空间同步；

信号接收单元，用于通过激光雷达和车辆处理器接收组合导航系统持续发送的GPRMC数据和PPS脉冲信号；

第一时间同步单元，用于通过激光雷达解析GPRMC数据获取GPS时间，并根据PPS脉冲信号将激光雷达的时间与GPS时间同步；

第二时间同步单元，用于通过车辆处理器根据检测到的PPS脉冲信号同时发送脉冲触发信号到相机，以使相机进行拍摄。

在一些可选地实施方式中，目标融合感知装置还包括：

前一帧数据获取模块，用于当所述中心点欧氏距离大于所述预设距离阈值时，判定所述3D检测框识别的目标和所述2D检测框识别的目标是不同目标，并通过所述相机和所述激光雷达分别获取前一帧的图像数据和前一帧的点云数据；

验证识别模块，用于分别从所述前一帧的图像数据和所述前一帧的点云数据中获取同一位置的第二3D检测框和第二2D检测框；

验证检测模块，用于判断所述第二3D检测框中是否存在所述3D检测框识别的目标，并判断所述第二2D检测框中是否存在所述2D检测框识别的目标；

点云结果输出模块，用于当所述第二3D检测框中存在所述3D检测框识别的目标时，输出所述3D检测框对应的所述点云目标信息；

图像结果输出模块，用于当所述第二2D检测框中存在所述2D检测框识别的目标时，输出所述2D检测框对应的所述图像目标信息。

上述各个模块和单元的更进一步的功能描述与上述对应方法实施例相同，在此不再赘述。

本实施例中的一种目标融合感知装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific Integrated Circuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图3所示的一种目标融合感知装置。

请参阅图4，图4是本发明可选实施例提供的一种计算机设备的结构示意图，如图4所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种目标融合感知方法，其特征在于，所述方法包括：

对相机和激光雷达进行空间同步和时间同步；

通过所述相机和所述激光雷达分别获取同一时刻的图像数据和点云数据，并分别对所述图像数据和所述点云数据进行目标识别，得到图像目标信息和点云目标信息，所述图像目标信息包括目标的2D检测框和第一目标置信度，所述点云目标信息包括目标的3D检测框和第二目标置信度，所述第一目标置信度和所述第二目标置信度均用于表示识别到的目标属于各个预设类别的概率；

将所述3D检测框投影到所述图像数据的平面中；

通过所述2D检测框和投影后的3D检测框之间的距离，判断所述图像目标信息和所述点云目标信息中分别识别的目标是否是相同目标；

当所述图像目标信息和所述点云目标信息中分别识别的目标是相同目标时，根据所述第一目标置信度和所述第二目标置信度确定识别的相同目标的目标类别；

将所述3D检测框和所述目标类别映射到所述图像数据中，得到目标融合检测结果。

2.根据权利要求1所述的方法，其特征在于，所述通过所述2D检测框和投影后的3D检测框之间的距离判断所述图像目标信息和所述点云目标信息中分别识别的目标是否是相同目标，包括：

计算所述投影后的3D检测框和所述2D检测框的中心点欧氏距离；

当所述中心点欧氏距离小于等于预设距离阈值时，判定所述投影后的3D检测框和所述2D检测框识别的目标是相同目标。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标置信度和所述第二目标置信度确定该相同目标的目标类别，包括：

确定所述第一目标置信度和所述第二目标置信度中置信度最大的类别，并将所述置信度最大的类别作为所述目标类别。

4.根据权利要求1所述的方法，其特征在于，所述图像数据中的目标通过YOLOv7模型进行识别，所述点云数据中的目标通过PointPillars模型进行识别；其中，所述YOLOv7模型和所述PointPillars模型在训练完成后均进行模型参数量化，所述模型参数的量化步骤通过下式进行：

式中，R表示量化前的模型参数，Q表示量化后的模型参数，S表示量化后可表示的最小刻度，Z表示量化前的0点对应的量化后的值，R_max和R_min分别表示量化前的模型参数的数据类型对应的取值范围，Q_max和Q_min分别表示量化后的模型参数的数据类型对应的取值范围，所述量化前的模型参数为浮点型，所述量化后的模型参数为定点整型。

5.根据权利要求4所述的方法，其特征在于，所述分别对所述图像数据和点云数据进行目标识别，包括：

将所述图像数据输入所述YOLOv7模型，输出第一结果图像；

将所述第一结果图像与反量化比例相乘，得到第二结果图像；

获取所述第二结果图像中的2D检测框、第一目标类别信息和所述第一目标类别信息对应的第一目标置信度，所述第一目标类别信息包括多个所述预设类别；

将所述点云数据纳入多个体素中，得到体素集；

从前视和俯视角度分别对所述体素集进行投影映射处理，得到多个伪图像；

将所述伪图像输入所述PointPillars模型，输出第一结果点云；

将所述第一结果点云与所述反量化比例相乘，得到第二结果点云；

获取所述第二结果点云中的3D检测框、第二目标类别信息和所述第二类别信息对应的第二目标置信度，所述第二目标类别信息包括多个所述预设类别。

6.根据权利要求1所述的方法，其特征在于，所述对相机和激光雷达进行空间同步和时间同步，包括：

获取相机内参、图像样本和点云样本，所述图像样本和点云样本是同一时间拍摄的数据；

分别从所述点云样本和所述图像样本中选取4对以上互相对应的3D点和图像像素点，并通过采用PnP算法计算相机与激光雷达之间的旋转矩阵和平移矩阵；

通过所述旋转矩阵、所述平移矩阵和所述相机内参组成的标定矩阵标定所述相机的像素点和激光雷达感应点的位置，完成所述空间同步；

通过所述激光雷达和车辆处理器接收组合导航系统持续发送的GPRMC数据和PPS脉冲信号；

通过所述激光雷达解析所述GPRMC数据，获取GPS时间，并根据所述PPS脉冲信号将所述激光雷达的时间与所述GPS时间同步；

通过所述车辆处理器根据检测到的所述PPS脉冲信号同时发送脉冲触发信号到所述相机，以使所述相机进行拍摄。

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当所述中心点欧氏距离大于所述预设距离阈值时，判定所述3D检测框识别的目标和所述2D检测框识别的目标是不同目标，并通过所述相机和所述激光雷达分别获取前一帧的图像数据和前一帧的点云数据；

分别从所述前一帧的图像数据和所述前一帧的点云数据中获取同一位置的第二3D检测框和第二2D检测框；

判断所述第二3D检测框中是否存在所述3D检测框识别的目标，并判断所述第二2D检测框中是否存在所述2D检测框识别的目标；当所述第二3D检测框中存在所述3D检测框识别的目标时，输出所述3D检测框对应的所述点云目标信息；

当所述第二2D检测框中存在所述2D检测框识别的目标时，输出所述2D检测框对应的所述图像目标信息。

8.一种目标融合感知装置，其特征在于，所述装置包括：

设备同步模块，用于对相机和激光雷达进行空间同步和时间同步；

目标识别模块，用于通过所述相机和所述激光雷达分别获取同一时刻的图像数据和点云数据，并分别对所述图像数据和点云数据进行目标识别，得到图像目标信息和点云目标信息，所述图像目标信息包括目标的2D检测框和第一目标置信度，所述点云目标信息包括目标的3D检测框和第二目标置信度，所述第一目标置信度和所述第二目标置信度均用于表示识别到的目标属于各个预设类别的概率；

投影模块，用于将所述3D检测框投影到所述图像数据的平面中；

目标匹配模块，用于通过所述2D检测框和投影后的3D检测框之间的距离判断所述图像目标信息和所述点云目标信息中分别识别的目标是否是相同目标；

类别识别模块，用于当所述图像目标信息和所述点云目标信息中分别识别的目标是相同目标时，根据所述第一目标置信度和所述第二目标置信度确定识别的相同目标的目标类别；

信息融合模块，用于将所述3D检测框和所述目标类别映射到所述图像数据中，得到目标融合检测结果。

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。