CN116310679A

CN116310679A - 多传感器融合目标检测方法、系统、介质、设备及终端

Info

Publication number: CN116310679A
Application number: CN202310199401.3A
Authority: CN
Inventors: 王建东; 孙恒; 张涛; 曹泽鹏; 张志为; 马志宇; 胡涵睿; 蒋文婷; 李烨城; 李守文; 张向涛
Original assignee: Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology
Current assignee: Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology
Priority date: 2023-03-04
Filing date: 2023-03-04
Publication date: 2023-06-23

Abstract

本发明属于目标检测技术领域，公开了一种多传感器融合目标检测方法、系统、介质、设备及终端，通过雷达点投影和视觉图像双通道，使用卡尔曼滤波算法完成雷达目标帧之间的关联，采用Resnet‑50主干作为特征图的特征提取网络，使用张正友标定法完成相机内外参数的标定；通过坐标系转换将雷达点投影到图像的方式实现空间关联，使用拉格朗日插值法实现时间关联；通过对雷达点生成的感兴趣区域进行自注意力和交叉注意力处理，得到最终目标检测结果。本发明基于雷达投影点的注意力机制利用雷达点所在位置特征帮助检测图片的类别和位置信息，使被检测的图片位置和类别精度鲁棒性更高，并在实际场景的车路数据集中实验验证了本发明的有效性。

Description

多传感器融合目标检测方法、系统、介质、设备及终端

技术领域

本发明属于目标检测技术领域，尤其涉及一种多传感器融合目标检测方法、系统、介质、设备及终端。

背景技术

近些年，随着计算机视觉的快速发展，目标检测技术应用于自动驾驶、智慧医疗、智能安防、文本识别等领域，自动驾驶领域。自动驾驶的车路场景中存在着大量复杂的障碍物，而目标检测能够快速的识别车辆、行人等障碍物，保障了检测目标的实时性和准确度，从而提高了自动驾驶的安全性；目标检测应用于医学图像辅助分析，在对病症进行分类、识别和预测方面具有高准确度；目标检测算法能够准确地检测到图像场景中的文字，并对文字图像进行翻译得到文本字符；在智能安防中，目标检测从实时视频中提取前景中的有效目标和无效目标，提升了安防的鲁棒性和减少了安防人员的工作量。但利用单一传感器进行目标检测存在着信息单一、精度低等缺点。这些缺点对目标检测的精度有很大的影响，限制了目标检测技术的实施和应用。每个传感器都有自己的优缺点。相机传感器的优点是成本低、信息丰富、易于感知分类，缺点是对照明环境的适应性差，难以获取目标的三维信息；雷达传感器的优点是对天气适应性好，可以适应夜间和各种复杂环境，能准确获取目标的垂直位置和垂直速度，缺点是很难实现目标分类，并且无法区分静止目标。因此，融合多元异构的传感器数据来提升目标检测能力成为了新的亮点。

然而，在车路复杂场景下如十字路口等场景下车辆和行人存在着遮挡问题，而且对于实际的复杂车路场景，场景的全局上下文信息是关键，在本发明中，证明了基于现有传感器融合方法的目标检测策略在车辆和行人部分遮挡和复杂场景的情况下表现不佳，这些场景需要全局上下文推理，例如在不受控制的路口处理从多个方向迎面而来的车辆和行人的交通。因此，亟需设计一种新的多传感器融合目标检测方法及多传感器融合目标检测系统。

通过上述分析，现有技术存在的问题及缺陷为：

(1)毫米波雷达在不同的距离下存在测量误差，测量误差的增加会将真实的雷达点过滤掉，会严重影响融合检测的准确度和鲁棒性。其次，主流的融合方法都需要完成坐标系的标定与转换，然而，在实际的车路场景中，雷达点到图像坐标系的标定与转换会存在投影不准确的问题，因为雷达视野和角度、投影所使用的转移矩阵存在误差的影响，会使得雷达点无法准确的投影到目标附近，最终导致目标关联失败和目标检测鲁棒性降低。

(2)现有的相机传感器对照明环境的适应性差，难以获取目标的三维信息；雷达传感器很难实现目标分类，并且无法区分静止目标。

(3)传统的卷积神经网络无法获得融合点处的上下文信息，因此，在复杂的密集场景下，基于现有传感器融合方法的目标检测策略在车辆和行人部分遮挡和复杂场景的情况下存在表现不佳的问题。

发明内容

针对现有技术存在的问题，本发明提供了一种多传感器融合目标检测方法、系统、介质、设备及终端，尤其涉及一种基于注意力机制的多传感器融合目标检测方法、系统、介质、设备及终端。

本发明是这样实现的，一种多传感器融合目标检测方法，多传感器融合目标检测方法包括：在雷达和相机传感器数据的时空关联的基础上，通过扩展卡尔曼滤波算法对雷达点进行预处理，算法可以自适应的学习滤波器超参数，提高传感器的检测精度，降低传感器的检测误差对融合检测带来的影响，并完成多传感器数据的时空关联，采用Resnet-50主干作为特征图的特征提取网络，使用张正友标定法完成相机内外参数的标定；通过坐标系转换将雷达点投影到图像的方式实现空间关联，使用拉格朗日插值法实现时间关联；通过对雷达点生成的感兴趣区域进行自注意力和交叉注意力处理，得到最终的目标检测结果。

进一步，多传感器融合目标检测方法包括以下步骤：

步骤一，基于扩展卡尔曼滤波算法构建雷达目标跟踪算法，根据雷达的状态转移矩阵和噪声参数建立相关运动状态预测和更新方程；

步骤二，相机参数标定：将世界坐标系的点与像素坐标系的点进行对应，获得相机的内外参数，用于相机坐标系和世界坐标系之间的转换；

步骤三，雷达与图像空间关联：利用内外参矩阵将世界坐标系转换到图像坐标系，将雷达点转换到图像坐标系，实现雷达点和图像之间的空间关联；

步骤四，雷达与图像时间关联：毫米波雷达在二维坐标系中每隔20Hz输入一次探测结果，对每个车辆轨迹进行拉格朗日插值以重新采样雷达数据；

步骤五，感兴趣区域生成：将雷达点投影到图像后，将雷达点附近像素点作为感兴趣区域，将感兴趣区域作为自注意力和交叉注意力关注的重点区域；

步骤六，基于注意力的目标检测：通过Resnet-50主干卷积神经网络生成特征图并进行特征提取，通过自注意力处理得到最终的目标检测结果。

进一步，步骤一中的基于扩展卡尔曼滤波算法构建雷达目标跟踪算法包括：

(1)推导雷达测量函数

ρ表示雷达到障碍物的距离，

是障碍物方位角度，/>

从x轴逆时针旋转为正，实际测量的角度/>

是负的；径向速度/>

是将速度v投影到雷达线路上，处理雷达数据将极坐标转换为笛卡尔坐标，则转换公式如下：

距离ρ是雷达到障碍物的距离，定义为：

是ρ和x方向之间的角度，定义为：

径向速度

则定义为：

得到毫米波雷达的测量函数为：

(2)构建扩展卡尔曼滤波的雅可比矩阵

(3)对雷达运动状态进行预测

当雷达目标的当前位置和速度为ρ，物体保持相同的速度在运动，利用ρ′函数进行预测计算，则预测方程如下所示：

ρ′＝f(ρ,u)

P′＝FPF^T+Q

(4)更新雷达运动状态

使用测量功能将状态矢量映射到传感器的测量空间，将激光雷达测量位置和预测的物体位置进行比较，则雷达更新方程如下所示：

y′＝z-h(x′)

S＝HP′H^T+R

K＝P′H^TS^-1

x＝x′-Ky

P＝(I-KH)P′

其中x是传感器到目标车辆的前方距离，y是自我车辆至目标车辆的横向距离，P是由计算得到的预测值的协方差矩阵，与H和传感器误差R计算得到卡尔曼增益K。

进一步，步骤二中的相机参数标定包括：通过拍摄多张标定板的图片，使用张正友棋盘标注的方式获取相机的内外参数；使用相机从不同角度、不同距离对棋盘格进行拍摄，获得相机的内外参并将相机坐标系转化到图像坐标系以及像素坐标系，得到相机内外参数和比例因子，如下式所示：

进一步，步骤三中，通过使用步骤二得到内外参矩阵，完成摄像机初步校准，实现图像坐标系和世界坐标系之间的转换，选择以摄像机为原点建立世界坐标系；将雷达相对坐标系转换到世界坐标系后，将雷达点转换到图像坐标系。

选择摄像机的0°方向作为世界坐标系的y轴，y轴顺时针90°方向为世界坐标系的x轴，使用张正友标定法获得图像坐标与世界坐标的比例和相机的内外参矩阵，得到图像坐标系与世界坐标系的对应关系，由以下等式描述：

其中，H表示内外参矩阵的乘积，Z表示像素坐标与世界坐标的比例因子，u和v表示像素坐标，U和V表示相应的世界坐标，通过坐标转换得到像素坐标对应的世界坐标，完成像素坐标系与世界坐标系的转换。

进一步，步骤六中，经过雷达目标跟踪、雷达点和图像时间和空间对齐并生成感兴趣区域后，通过Resnet-50主干卷积神经网络生成不同维度、多尺度的特征图；将特征图翻译成特征图序列，输入到编码器中对特征图序列进行特征提取，并在解码器中学习自注意力和交叉注意力；对特征图序列中的感兴趣区域部分进行自注意力处理，得到最终的目标检测结果。

其中，通过解码器预测出固定大小的N个预测，其中N被设置为显著大于图像中对象的典型数量。当雷达投影到图片上的点产生m个感兴趣区域，并在m个感兴趣区域的基础随机生成N-m个随机预测；经过解码器的输出生成N个预测结果，结果包含检测的类别和位置的二元组(c,box)，其中c代表物体的类别，box表示物体检测框在图片中的位置；采用匈牙利算法进行二分图匹配，对预测集合和真实集合的元素进行对应，分别计算每个预测结果与真实结果之间的损失，并使得匹配的总损失最小。检测结果由类别和位置的二元组组成，每个预测结果的损失值由类别损失和损失两部分组成，表示两种损失的线性组合；最后通过匈牙利算法匹配所有的最优解；其中，检测结果的表达式如下：

因检测的结果由类别和位置的二元组组成，因此，由等式4-5所示，每个预测结果的损失值由类别损失L1和box的位置损失L_iou两部分组成，其中表示两种损失的线性组合,b_i表示真实值，

表示预测值。最后，如等式4-6所描述，/>

表示预测目标的位置，/>

表示识别的目标类别为空集/>

时值为0，否则为0，最终通过匈牙利算法匹配的所有目标值的最优损失L_H。

本发明的另一目的在于提供一种应用所述的多传感器融合目标检测方法的多传感器融合目标检测系统，多传感器融合目标检测系统包括：

雷达目标帧关联模块，用于通过雷达点投影和视觉图像双通道，使用卡尔曼滤波算法完成雷达目标帧之间的关联；

相机内外参数标定模块，用于采用Resnet-50主干作为特征图的特征提取网络，使用张正友标定法完成相机内外参数的标定；

空间/时间关联模块，用于通过坐标系转换将雷达点投影到图像的方式实现空间关联，使用拉格朗日插值法实现时间关联；

融合目标检测模块，用于通过对雷达点生成的感兴趣区域进行自注意力和交叉注意力处理，得到最终的目标检测结果。

本发明的另一目的在于提供一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的多传感器融合目标检测方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的多传感器融合目标检测方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，信息数据处理终端用于实现所述的多传感器融合目标检测系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一，针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

针对在目标检测和跟踪场景下，现有的基于单传感器的目标检测方法在检测过程中存在鲁棒性差的问题，本发明使用毫米波雷达与相机融合进行目标检测的解决方案。针对在复杂的密集场景下，基于现有传感器融合方法的目标检测策略在车辆和行人部分遮挡和复杂场景的情况下表现不佳的问题，本发明提出了一种基于注意力机制的多传感器融合目标检测方法，也是一种新型的多传感器融合的目标检测方法，利用注意力机制整合图像和毫米波雷达数据，最后在实际场景的车路数据集中实验验证了本发明融合目标检测方法的有效性。

本发明的多传感器融合目标检测方法，对投影到图像上的雷达点设置固定的长宽生成感兴趣区域，该区域可以大致覆盖目标的位置，感兴趣区域将作为解码器的输入；应用注意力机制对感兴趣区域进行目标检测，使用注意力机制有利于提取和检测图像上下文信息，进一步提高了检测和融合的鲁棒性，即使在雷达投影到图像上的点有偏移的情况下，使用该方式也可以得到目标的检测结果；最后使用基于匈牙利算法的二分图匹配损失对解码器输出的预测框和预测种类进行匹配损失的计算，将图像预测框中的物体类别和预测框作为二元组输出，与真实标注图片的物体类别和位置进行匈牙利匹配，加快模型的收敛。

本发明的基于扩展卡尔曼滤波算法的雷达目标跟踪算法，已知雷达目标的径向速度、与障碍物的距离和角度皆为非线性模型，且过程噪声与观测噪声皆呈高斯分布，无法使用卡尔曼滤波进行目标跟踪，根据雷达的状态转移矩阵和噪声等参数建立相关运动状态预测和更新方程，可以有效实现帧之间的雷达目标的关联，有效的获得雷达的id。本发明通过使用雷达点投影到图像上后，将雷达点附近像素点作为感兴趣区域，生成到的感兴趣区域会作为自注意力和交叉注意力关注的重点区域的方式，以便于基于注意力的目标检测方法的实施。

本发明能够解决在车路复杂场景下如十字路口等场景下车辆和行人存在着遮挡问题，并在实际的复杂车路场景中，提取场景关键的全局上下文信息。在本发明中，证明了基于现有传感器融合方法的目标检测策略在车辆和行人部分遮挡和复杂场景的情况下表现不佳，这些场景需要全局上下文推理，例如在不受控制的路口处理从多个方向迎面而来的车辆和行人的交通。本发明基于雷达投影点的注意力机制会利用雷达点所在位置的特征来帮助检测图片的类别和位置信息，使被检测的图片位置和类别精度鲁棒性更高。

本发明将雷达与视频监控防区内目标的速度、距离、方位、运动方向等信息，并智能驱动高清快速网络智能球机对入侵目标进行实时动态跟踪和智能变焦清晰抓拍复核，同时实时主动发出声光报警提示，清晰显示目标的运动轨迹和入侵场景，实现了雷达自动发现和识别可疑入侵目标，自动调动摄像头追踪和监视可疑目标的功能，并可自动实现声光报警和短信报警，从而大大提高了监视人员的工作效率，实现了对监控范围内行人进行目标检测和报警处理。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明提供了一种基于注意力机制的多传感器融合目标检测方法，能够在车辆和行人部分遮挡和复杂场景的情况下表现强鲁棒性的目标检测算法。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

本发明的技术方案填补了国内外业内技术空白：

单一的视觉相机传感器的检测识别精度有限，且稳定性不佳，其检测的距离范围也较不准确。此外，相机易受光线、天气等因素的影响，尤其是在夜间、雾天和雨天。相比之下，雷达受到天气等因素的影响较小，稳定性较高，测量距离的精度也较高，能够测量更远的距离。然而，当前毫米波雷达的分辨率较低，对金属敏感，因此物体的识别性能相对较差，无法获取目标的特征信息。因此，在实际环境中，单一传感器无法解决所有目标检测和跟踪问题。毫米波雷达与相机的融合在目标检测方面也是一个趋势。

卷积神经网络受到感受野和特征图尺度的影响，在有车辆遮挡的情况下表现不佳，无法提取被遮挡行人和车辆的全局上下文信息。因此本发明提出使用Transforme模型处理特征图，结合Transformer强大的全局特征提取能力可以有效应对复杂车路场景下行人车辆被遮挡的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多传感器融合目标检测方法流程图；

图2是本发明实施例提供的多传感器融合目标检测方法原理图；

图3是本发明实施例提供的雷达数据与视觉图像插值示意图；

图4是本发明实施例提供的雷达与图像空间关联流程图；

图5是本发明实施例提供的使用棋盘标定法进行相机参数标定的示意图；

图6是本发明实施例提供的智慧哨兵安防系统结构示意图；

图中：1、物联网设备；11、摄像头；12、继电器；13、报警器；14、雷达；2、互联网；3、服务器端；31、推流盒子；32、服务器；4、核心路由器；5、核心交换机；6、客户端；61、PC端；62、移动端。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种多传感器融合目标检测方法、系统、介质、设备及终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的多传感器融合目标检测方法包括以下步骤：

S101，通过雷达点投影和视觉图像双通道，使用卡尔曼滤波算法完成雷达目标帧之间的关联；

S102，采用Resnet-50主干作为特征图的特征提取网络，使用张正友标定法完成相机内外参数的标定；

S103，通过坐标系转换将雷达点投影到图像的方式实现空间关联，使用拉格朗日插值法实现时间关联；

S104，通过对雷达点生成的感兴趣区域进行自注意力和交叉注意力处理，得到最终的目标检测结果。

作为优选实施例，如图2所示，本发明实施例提供的多传感器融合目标检测方法具体包括以下步骤：

S1：基于扩展卡尔曼滤波算法的雷达目标跟踪算法：已知雷达目标的径向速度、与障碍物的距离和角度皆为非线性模型，且过程噪声与观测噪声皆呈高斯分布，无法使用卡尔曼滤波进行目标跟踪，根据雷达的状态转移矩阵和噪声等参数建立相关运动状态预测和更新方程。该步骤可以有效实现帧之间的雷达目标的关联，有效的获得雷达的id。

本发明实施例提供的基于扩展卡尔曼滤波算法的雷达目标跟踪算法中，转换函数不是一个线性函数，非线性测量不能应用高斯分布，因此也无法使用卡尔曼滤波。为了解决这个问题，就需要使用扩展卡尔曼滤波。

其中，基于扩展卡尔曼滤波算法的雷达目标跟踪算法包括以下四步：

(1)推导雷达测量函数；

(2)扩展卡尔曼滤波的雅可比矩阵；

(3)对雷达运动状态进行预测；

(4)更新雷达运动状态。

S2：相机参数标定：通过拍摄多张标定板的图片，再通过多个实际中的点(世界坐标系中的点)和图片上的点(像素坐标系中的点)的一一对应，即可求出世界坐标和像素坐标的对应关系。该步骤可以获得相机的内外参数，用于相机坐标系和世界坐标系之间的转换。

本发明实施例提供的相机参数标定中，通过拍摄多张标定板的图片，使用张正友棋盘标注的方式获取到相机的内外参数，使用相机从不同角度，不同距离对棋盘格进行拍摄，以便获得相机的内外参并将相机坐标系转化到图像坐标系以及像素坐标系，得到的相机内外参数和比例因子。

通过使用步骤S2得到内外参矩阵，完成摄像机初步校准，目的是实现图像坐标系和世界坐标系之间的转换，选择以摄像机为原点来建立世界坐标系。

S3：雷达与图像空间关联，通过使用步骤S2得到内外参矩阵，可以实现世界坐标系上到图像坐标系的转换，将雷达相对坐标系转换到世界坐标系之后，进一步可以将雷达点转换到图像坐标系，实现雷达点和图像之间的空间关联。

S4：雷达与图像时间关联：毫米波雷达在其二维坐标系中每隔20Hz输入一次探测结果，包括每个物体的位置、速度和步骤S1得到的目标的id。为了保持雷达数据采样频率与视频帧的一致性，本方法对每个车辆轨迹进行拉格朗日插值以重新采样雷达数据，假定在短时间内，车辆速度变化很小，因此在此时间段内使用同一速度。通过插值可以有效的对时间进行对齐。

S5：生成感兴趣区域：使用雷达点投影到图像上之后，本发明将雷达点附近像素点作为感兴趣区域，生成到的感兴趣区域会作为自注意力和交叉注意力关注的重点区域。该步骤生成的感兴趣区域便于步骤S6的基于注意力的目标检测方法的实施。

S6：基于注意力的目标检测方法：经过前五个步骤的雷达目标跟踪、雷达点和图像时间和空间对齐并生成感兴趣区域之后，通过Resnet-50主干卷积神经网络生成不同维度、多尺度的特征图，并将特征图翻译成为特征图序列，输入到编码器中对特征图序列进行特征提取，并在解码器中学习自注意力和交叉注意力，感兴趣区域在解码器中起到了检测引导的作用，并对特征图序列中的感兴趣区域部分进行自注意力处理，得到最终的目标检测结果。

本发明实施例提供的多传感器融合目标检测系统包括：

为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本发明应用在了智慧道路系统。硬件系统主要由物联网设备组成，用于采集数据。软件系统包括服务端和客户端两部分。服务端主要负责处理传感器数据，并根据安防人员的需求提前划定检测防区。同时，摄像头和雷达传感器融合实现对防区范围内目标的检测功能。对于防区内出现的陌生人员或车辆，系统会立即发出声光报警，并对检测目标进行拍照或录像。报警信息以及照片、视频等信息都会存储在服务端数据库中，并在客户端进行系统展示。客户端可以通过与服务端数据交互，实时地获取智慧道路系统的实时信息，包括报警信息、照片和视频等。

步骤1：在雷达目标跟踪方面，使用基于扩展卡尔曼滤波算法的雷达目标跟踪算法中，根据雷达目标的径向速度、与障碍物的距离和角度皆为非线性模型，且过程噪声与观测噪声皆满足高斯分布的特点，可以根据雷达的状态转移矩阵和噪声等参数建立相关运动状态预测和更新方程，有效的实现帧之间的雷达目标的关联，和获得雷达的id。

本发明实施例提供的基于扩展卡尔曼滤波算法的雷达目标跟踪算法包括：

(1)推导雷达测量函数；

毫米波雷达返回以下几种数据：ρ表示雷达到障碍物的距离，

是障碍物方位角度。这里要注意，/>

从x轴逆时针旋转为正，所以在这种情况下，实际测量的角度/>

其实上是负的。

径向速度

是将速度v投影到雷达线路上。因此，处理雷达数据首先需要将极坐标转换为笛卡尔坐标，具体转换公式如下：

距离ρ是雷达到障碍物的距离，可以定义为：

是ρ和x方向之间的角度，可以定义为：

径向速度

则定义为：

由此可得到毫米波雷达的测量函数：

此时可以发现，这个转换函数不是一个线性函数，非线性测量不能应用高斯分布，因此也无法使用卡尔曼滤波。为了解决这个问题，就需要使用扩展卡尔慢滤波。

(2)扩展卡尔曼滤波的雅可比矩阵；

(3)对雷达运动状态进行预测；

假设本发明知道一个雷达目标的当前位置和速度为ρ。本发明可以预测物体在一秒钟之后的状态，因为本发明知道一秒钟前的物体位置和速度，本发明可以假设物体保持相同的速度在运动。利用ρ′函数做预测计算。但也许对象没有保持完全相同的速度，也许物体改变方向，加速或减速。所以当本发明预测一秒钟后，状态的不确定性就会增加，预测方程如下所示：

ρ′＝f(ρ,u)

P′＝FPF^T+Q

(4)更新雷达运动状态；

在更新步骤中，本发明使用测量功能将状态矢量映射到传感器的测量空间。为了给出具体的例子，激光雷达仅测量物体的位置。但扩展卡尔曼滤波器能够模拟物体的位置和速度，所以乘以测量函数H矩阵将会丢弃状态向量x中的速度信息。然后，激光雷达测量位置就可以和本发明预测的物体位置进行比较，上述雷达更新方程如下所示：

y′＝z-h(x′)

S＝HP′H^T+R

K＝P′H^TS^-1

x＝x′-Ky

P＝(I-KH)P′

步骤2：相机参数标定：如图5所示，通过拍摄多张标定板的图片，使用张正友棋盘标注的方式获取到相机的内外参数，使用相机从不同角度，不同距离对棋盘格进行拍摄，以便获得相机的内外参并将相机坐标系转化到图像坐标系以及像素坐标系，得到的相机内外参数和比例因子如下式所示：

步骤3：雷达与图像空间关联：通过使用步骤二得到内外参矩阵，完成摄像机初步校准，目的是实现图像坐标系和世界坐标系之间的转换，选择以摄像机为原点来建立世界坐标系，如图4所示。选择摄像机的0°方向作为世界坐标系的y轴，y轴顺时针90°方向为世界坐标系的x轴，使用张正友标定法获得图像坐标与世界坐标的比例和相机的内外参矩阵。由此，可以得到图像坐标系与世界坐标系的对应关系，它们的关系由以下等式描述：

其中，H表示内外参矩阵的乘积，Z表示比例因子(像素坐标与世界坐标的比例)，u和v表示像素坐标，U和V表示相应的世界坐标，通过坐标转换可以得到像素坐标对应的世界坐标。至此，完成了像素坐标系与世界坐标系的转换。雷达坐标系与世界坐标系位于同一平面上，它以雷达的位置为原点，雷达正对0°方向为Y轴，垂直于雷达正面的方向为雷达坐标系的X轴，这点与世界坐标系一致。雷达探测没有提供有关接收高度的信息，这增加了融合数据类型的难度。假设雷达探测的三维坐标从车辆行驶的地面返回。然后在垂直于该平面的方向上延伸投影，以考虑待检测对象的垂直延伸。本发明假设雷达探测的高度扩展为3米，物体水平宽度默认为2米。

步骤4：雷达与图像时间关联：因为雷达与相机是异构传感器，雷达与摄像机在采集数据的时间上存在差异，如西电路为例，毫米波雷达数据的采集频率为20Hz，海康摄像头采集图像数据的频率为25Hz，其中雷达数据包括每个物体的二维位置坐标、xy方向上的速度Vx、Vy和id，而摄像机只有图像信息。为了保持雷达数据的采样频率与视频帧的一致性，假设雷达目标在短时间内的速度不变。

对每个雷达目标点的位置信息进行插值，以对雷达数据进行重新采样，插值在两个雷达数据点之间执行，它们之间的间隔为50ms。在如此短的时间内，车辆速度变化很小。因此，如图3所示，本发明选择了线性插值方法。假设t＝50ms和t＝100ms时的雷达数据x坐标已知(y坐标和速度差值方法与x轴相同)，由此可以得到以下等式中的插值关系：

步骤5：生成感兴趣区域：使用雷达点投影到图像上之后，将雷达点附近像素点作为感兴趣区域，生成到的感兴趣区域会作为自注意力和交叉注意力关注的重点区域。该步骤生成的感兴趣区域便于步骤6的基于注意力的目标检测方法的实施。

本发明实施例提供的生成感兴趣区域，经过步骤1～步骤4，将摄像机像素雷达数据相关联，雷达数据以2米的宽度、3米的高度等比例映射到图像平面，该投影的区域即为感兴趣区域，这些感兴趣区域将作为Transformer中Decoder解码器的输入，至此完成雷达和图像数据空间上的关联。

步骤6：基于注意力的目标检测方法：经过前五个步骤的雷达目标跟踪、雷达点和图像时间和空间对齐并生成感兴趣区域之后，通过Resnet-50主干卷积神经网络生成不同维度、多尺度的特征图，并将特征图翻译成为特征图序列，输入到编码器中对特征图序列进行特征提取，并在解码器中学习自注意力和交叉注意力，感兴趣区域在解码器中起到了检测引导的作用，并对特征图序列中的感兴趣区域部分进行自注意力处理，得到最终的目标检测结果。

本发明实施例提供的基于注意力的目标检测方法具体步骤如下：

(1)生成多尺度特征图

将雷达和图像融合之后，通过Resnet-50主干卷积神经网络提取特征图，根据不同的维度输入来获取多尺度的特征图，可以获得多尺度的信息，以便于提高小目标的检测精度。

(2)基于雷达点的自注意力机制

通过自注意力机制能够学习雷达投影点附近像素点之间的关系，使检测器的注意力集中在雷达点附近和其局部，可以快速捕获雷达投影点附近有用的信息，提高目标检测的精度，也避免了检测的开销和浪费并提高了检测效率。也就是说，基于雷达投影点的自注意力机制会利用雷达点所在位置的特征来帮助检测图片的类别和位置信息，使被检测的图片位置和类别精度鲁棒性更高。

(3)基于雷达点的多头交叉注意力机制

自注意力机制会学习雷达投影点附近像素点之间的关系，而交叉注意力则能够获得雷达投影点全局上下文的推理信息，在传统的基于注意力的目标检测当中，通过动态随机的方式选取解码器的位置和类别查询，而这种动态随机的方式大大的降低了检测效率和精度，而雷达到图像的投影点所生成的感兴趣区域可以用作辅助解码器的位置和类别查询，使得解码器对类别和位置的检测更加关注雷达点投影生成的感兴趣区域，从而提交目标检测的鲁棒性和检测精度，并提高了模型收敛的时间。

(4)基于匈牙利算法的二分图匹配损失函数

通过解码器的一次过程中预测出一组固定大小的N个预测，其中N被设置为显著大于图像中对象的典型数量。假设雷达投影到图片上的点产生了m个感兴趣区域，为了补全N个预测，在m个感兴趣区域的基础上会随机生成N-m个随机预测。最终，经过解码器的输出会生成N个预测结果，结果包含了检测的类别和位置的二元组(c,box)，其中c代表物体的类别，box表示物体检测框在图片中的位置。然后，采用匈牙利算法进行二分图匹配，即对预测集合和真实集合的元素进行一一对应，分别计算每个预测结果与真实结果之间的损失，并使得匹配的总损失最小。

因检测的结果由类别和位置的二元组组成，因此，由以下等式所示，每个预测结果的损失值由类别损失和损失两部分组成，其中表示两种损失的线性组合。最后，如等式所描述，通过匈牙利算法匹配所有的最优解。

步骤7：基于注意力机制的多传感器融合目标检测系统：如图6所示，本发明实施例基于提出的基于注意力机制的多传感器融合目标检测方法设计与实现智慧哨兵安防系统，该智慧哨兵安防系统主要针对安防场景，通过雷达以及摄像头作为数据的输入，对指定区域实现入侵检测以及实时报警功能。

本发明将雷达与视频监控防区内目标的速度、距离、方位、运动方向等信息，并智能驱动高清快速网络智能球机对入侵目标进行实时动态跟踪和智能变焦清晰抓拍复核，同时实时主动发出声光报警提示，清晰显示目标的运动轨迹和入侵场景，实现了雷达自动发现和识别可疑入侵目标，自动调动摄像头追踪和监视可疑目标的功能，并可自动实现声光报警和短信报警，从而大大提高了监视人员的工作效率，可以实现对监控范围内行人进行目标检测和报警处理。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种多传感器融合目标检测方法，其特征在于，多传感器融合目标检测方法包括：通过雷达点投影和视觉图像双通道，使用卡尔曼滤波算法完成雷达目标帧之间的关联，采用Resnet-50主干作为特征图的特征提取网络，使用张正友标定法完成相机内外参数的标定；通过坐标系转换将雷达点投影到图像的方式实现空间关联，使用拉格朗日插值法实现时间关联；通过对雷达点生成的感兴趣区域进行自注意力和交叉注意力处理，得到最终的目标检测结果。

2.如权利要求1所述的多传感器融合目标检测方法，其特征在于，多传感器融合目标检测方法包括以下步骤：

3.如权利要求2所述的多传感器融合目标检测方法，其特征在于，步骤一中的基于扩展卡尔曼滤波算法构建雷达目标跟踪算法包括：

(1)推导雷达测量函数

ρ表示雷达到障碍物的距离，

是障碍物方位角度，/>

从x轴逆时针旋转为正，实际测量的角度/>

是负的；径向速度/>

距离ρ是雷达到障碍物的距离，定义为：

是ρ和x方向之间的角度，定义为：

径向速度

则定义为：

得到毫米波雷达的测量函数为：

(2)构建扩展卡尔曼滤波的雅可比矩阵

(3)对雷达运动状态进行预测

当雷达目标的当前位置和速度为x，物体保持相同的速度在运动，利用x'＝Fx+ν函数进行预测计算，则预测方程如下所示：

ρ′＝f(ρ,u)

P′＝FPF^T+Q

(4)更新雷达运动状态

y′＝z-h(x′)

S＝HP′H^T+R

K＝P′H^TS^-1

x＝x′-Ky

P＝(I-KH)P′

4.如权利要求2所述的多传感器融合目标检测方法，其特征在于，步骤二中的相机参数标定包括：通过拍摄多张标定板的图片，使用张正友棋盘标注的方式获取相机的内外参数；使用相机从不同角度、不同距离对棋盘格进行拍摄，获得相机的内外参并将相机坐标系转化到图像坐标系以及像素坐标系，得到相机内外参数和比例因子，如下式所示：

5.如权利要求2所述的多传感器融合目标检测方法，其特征在于，通过使用步骤二得到内外参矩阵，完成摄像机初步校准，实现图像坐标系和世界坐标系之间的转换，选择以摄像机为原点建立世界坐标系；将雷达相对坐标系转换到世界坐标系后，将雷达点转换到图像坐标系；

6.如权利要求2所述的多传感器融合目标检测方法，其特征在于，步骤六中，经过雷达目标跟踪、雷达点和图像时间和空间对齐并生成感兴趣区域后，通过Resnet-50主干卷积神经网络生成不同维度、多尺度的特征图；将特征图翻译成特征图序列，输入到编码器中对特征图序列进行特征提取，并在解码器中学习自注意力和交叉注意力；对特征图序列中的感兴趣区域部分进行自注意力处理，得到最终的目标检测结果；

其中，通过解码器预测出固定大小的N个预测，其中N被设置为显著大于图像中对象的典型数量；当雷达投影到图片上的点产生m个感兴趣区域，并在m个感兴趣区域的基础随机生成N-m个随机预测；经过解码器的输出生成N个预测结果，结果包含检测的类别和位置的二元组(c,box)，其中c代表物体的类别，box表示物体检测框在图片中的位置；采用匈牙利算法进行二分图匹配，对预测集合和真实集合的元素进行对应，分别计算每个预测结果与真实结果之间的损失，并使得匹配的总损失最小；检测结果由类别和位置的二元组组成，每个预测结果的损失值由类别损失和损失两部分组成，表示两种损失的线性组合；最后通过匈牙利算法匹配所有的最优解；其中，检测结果的表达式如下：

7.一种应用如权利要求1～6任意一项所述的多传感器融合目标检测方法的多传感器融合目标检测系统，其特征在于，多传感器融合目标检测系统包括：

8.一种计算机设备，其特征在于，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～6任意一项所述的多传感器融合目标检测方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～6任意一项所述的多传感器融合目标检测方法的步骤。

10.一种信息数据处理终端，其特征在于，信息数据处理终端用于实现如权利要求7所述的多传感器融合目标检测系统。