CN118096834A

CN118096834A - 一种基于yolo的多传感器融合动态物体跟踪方法

Info

Publication number: CN118096834A
Application number: CN202410501205.1A
Authority: CN
Inventors: 陈宗海; 张梦杰; 王纪凯; 李剑宇; 王可智; 徐萌
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-04-25
Filing date: 2024-04-25
Publication date: 2024-05-28
Anticipated expiration: 2044-04-25
Also published as: CN118096834B

Abstract

本发明涉及物体跟踪技术领域，公开了一种基于YOLO的多传感器融合动态物体跟踪方法，通过激光雷达采集场景中的激光点云，通过相机采集场景的图像，并实现场景中的动态物体的跟踪；具体包括：检测并匹配图像上的关键特征点；通过车辆坐标系到相机坐标系的旋转矩阵和平移矩阵，以及相机坐标系到像素坐标系的转换矩阵，将激光点云投影到图像上；使用YOLO算法进行图像目标识别：对于任意一个动态物体，根据相邻两帧图像中关键特征点的匹配关系，在相邻图像帧中找到该动态物体，实现动态物体的跟踪；本发明能够将图像信息与激光点云信息融合，以获取动态物体的实时位置和速度，从而支持移动机器人在导航决策中的应用。

Description

一种基于YOLO的多传感器融合动态物体跟踪方法

技术领域

本发明涉及物体跟踪技术领域，具体涉及一种基于YOLO的多传感器融合动态物体跟踪方法。

背景技术

随着无人驾驶技术的迅猛发展，动态物体跟踪作为核心技术亦呈现蓬勃的发展势头。传统目标检测长期以来仅局限于在二维平面上提供预测框，无法为无人驾驶车辆在复杂多变的交通环境中的安全行驶提供具备空间结构的深度信息。为实现无人驾驶汽车在实际道路中的正常运行，三维（3D）动态物体跟踪的任务不仅仅包括识别物体类别，还需在此基础上准确捕捉物体在三维空间中的位置、大小、朝向和速度，并输出物体的历史轨迹，以便为下层的预测和决策模块提供关键信息，制定安全的决策。总体而言，传统的动态物体跟踪方法包括基于图像的动态物体跟踪和基于激光点云的动态物体跟踪。

1.基于图像的动态物体跟踪：

其主要原理是通过车载摄像头感知周围环境，依赖物体的运动特性和独特特征来实现对检测对象的识别。该过程包括使用帧差法对目标车辆进行识别，通过去除背景，利用多帧图片的连续性进行对比，以预测处于运动状态的目标车辆；或者通过光流法，利用连贯图像中的像素进行匹配，计算得出运动物体的参数，并以此进行物体类别的决策。然而，这些方法都以物体的运动特征为检测切入点，存在限制条件多、计算量大等缺陷，因此在大规模应用中面临一定困难。局部关键特征点的尺度不变特征（SIFT）、图像方向梯度的直方图特征（HOG）以及多种局部特征融合的方案等方法虽然被尝试，但效果仍然远远不及深度学习方法。

2.基于激光点云的动态物体跟踪：

VoxelNet模型提出了体素概念，以规避原始激光点云的无序特性，将激光点云划分为一系列体素，并通过对每个体素提取局部特征进行检测。尽管这种方法在处理激光点云的无序性方面取得了一定成功，但仍然需要大量计算资源，难以满足实时性的需求。虽然基于体素的方法有效解决了原始激光点云无序性的问题，但体素化过程可能导致激光点云失去重要的语义信息，引发信息缺失。特别是在复杂交通场景中，这种方法难以准确再现真实场景。

激光点云本身蕴含丰富的物理结构信息，而逐点处理网络PointNet则直接以原始激光点云数据作为检测网络的数据源，从而避免造成原始激光点云中的物理信息丢失。这种直接将原始激光点云作为输入的目标检测网络在根源上避免了激光点云中深度信息的丧失。然而，激光点云数据本身具有庞大且复杂的特点，不经过充分处理直接输入检测网络对计算机算力水平提出了较高要求，同时也会显著增加检测网络的数据处理时间。

整个无人驾驶环境感知系统如果仅依赖单一类型传感器感知交通环境信息的问题，则难以应对复杂多变的交通环境，从而无法确保无人驾驶的安全性。

发明内容

为解决上述技术问题，本发明提供一种基于YOLO的多传感器融合动态物体跟踪方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于YOLO的多传感器融合动态物体跟踪方法，通过激光雷达采集场景中的激光点云，通过相机采集场景的图像，并实现场景中的动态物体的跟踪；具体包括以下步骤：

步骤一，检测并匹配图像上的关键特征点：对于图像上的每一个像素点，定义一个局部窗口，通过使用滤波器来获取所述局部窗口内的像素梯度，像素梯度包括水平梯度和垂直梯度/>，构建结构矩阵/>：/>；

通过对结构矩阵进行特征值分解，得到特征值/>和/>；定义一个角点响应函数来表示特征值的较小者，即/>，如果R小于设定的阈值，则角点响应函数/>对应的像素点为具有角点特征的像素点；将图像中具有角点特征的像素点作为关键特征点，对每个关键特征点周围的局部图像结构进行建模，生成二进制的描述子；

对于一帧图像上的每个描述子D1，在相邻帧图像的中寻找与描述子D1具有最小汉明距离的一个描述子D2，则描述子D1对应的关键特征点与描述子D2对应的关键特征点为匹配的关键特征点，进而得到相邻两帧图像中所有关键特征点的匹配关系；

步骤二，通过车辆坐标系到相机坐标系的旋转矩阵和平移矩阵，以及相机坐标系到像素坐标系的转换矩阵，将激光点云投影到图像上；

步骤三，使用YOLO算法进行图像目标识别：采用YOLO算法为场景中的动态物体生成二维边界框，二维边界框内的关键特征点为所述动态物体对应的关键特征点；二维边界框内的激光点云为所述动态物体对应的激光点云；

步骤四，相邻的两帧图像分别记为，其中/>为时刻/>采集到的图像，/>为时刻/>采集到的图像；对于任意一个动态物体/>，对图像/>中动态物体/>所对应的激光点云的三维坐标求均值，将得到的结果作为动态物体/>中心位置在图像/>中的三维坐标/>；根据相邻两帧图像中关键特征点的匹配关系，在第/>帧图像/>中找到动态物体/>，对第/>帧图像/>中动态物体/>所对应的激光点云的三维坐标求均值，将得到的结果作为动态物体/>中心位置在图像/>中的三维坐标/>；根据动态物体/>中心位置在图像/>中的三维坐标/>，以及动态物体/>中心位置在图像/>中的三维坐标/>，得到动态物体/>的位移距离；根据动态物体/>的位移距离以及相邻两帧图像/>的时间间隔，得到动态物体的运动速度；实现动态物体的跟踪。

进一步地，还包括能够得到车辆从正常行驶到发生碰撞所用时间的碰撞检测过程；所述碰撞检测过程具体包括：

车辆从正常行驶到发生碰撞所用的时间为：

；

其中，表示/>时刻车辆距离相机中心的水平距离，/>表示/>时刻车辆速度；/>是关于距离权重/>与速度权重/>的函数；/>表示/>时刻车辆高度在相机平面的投影高度；表示/>时刻车辆高度在相机平面的投影高度；/>表示相邻两帧图像之间的时间间隔，；动态物体/>在图像/>中第i个关键特征点和第j个关键特征点之间的距离记为/>；动态物体/>在图像/>中第i个关键特征点和第j个关键特征点之间的距离记为/>；将多个关键特征点对(/>在相邻两帧图像的距离之比/>的中位数，作为动态物体/>在相邻两帧图像的比例/>。

进一步地，步骤三中，采用YOLO算法为场景中的动态物体生成二维边界框时，YOLO算法所采用的的神经网络能够输出包含同一个动态物体的多个二维边界框，使用非极大值抑制算法来除去多余的二维边界框，对一个动态物体仅保留具有最高置信度的二维边界框。

进一步地，步骤三中采用YOLO算法为场景中的动态物体生成二维边界框时，将YOLO算法所采用的的神经网络输出的二维边界框，缩小设定的比例后，作为最终的二维边界框。

进一步地，步骤一中，具体采用BRISK算法，对每个关键特征点周围的局部图像结构进行建模，生成二进制的描述子。

与现有技术相比，本发明的有益技术效果是：

本发明通过采用轻量级网络YOLO v5以满足实时性要求，并将图像信息与激光点云信息融合，以获取动态物体的实时位置和速度，计算动态物体与无人车碰撞时间，可视化动态物体追踪效果，从而支持移动机器人在鲁棒的导航决策中的应用。

附图说明

图1为针孔模型示意图；

图2为车辆坐标系到相机坐标系的平移变换示意图；

图3为TTC（碰撞时间）模型示意图；

图4为任意两个关键特征点的连线在相邻帧图像上的示意图；

图5为本发明的跟踪效果示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明中的基于YOLO的多传感器融合动态物体跟踪方法，包括：

A．将激光点云投影到相机采集的图像上：

如图1所示，针孔成像模型所示，三维世界中的动态物体上的3D点P经过相机中心的光线投影可以投影到成像平面上的点P’。在三维空间中，投影关系可以表达为下式：

；

其中，为点P的向量形式，/>为点P’的向量形式，点P’的横坐标/>，点P’的纵坐标/>，利用上式可以根据物体在三维空间中的位置以及相机焦距，计算出实际物体在成像平面中的二维位置。/>表示焦距。

在三维空间中，点在成像平面上的投影与在实际数字图像中所看到的并不直接对应，而实际数字图像是由成千上万的像素组成。将点从相机坐标系下转换到像素坐标系下，转换公式为：

；

其中为像素坐标系下的横坐标和纵坐标，/>是通过相机标定获取的有关相机畸变的参数，/>是相机的主点坐标。

则三维世界的点P到相机采集的图像的投影方程可表述为：

；

其中，中间参数，中间参数/>；/>为三维世界中的动态物体上的点P投影到相机采集的图像上后，得到的点的向量。

由于动态物体的激光点云是在激光雷达坐标系中表示，除了相机自身参数构成的投影几何关系外，还需要获取相机和激光雷达在公共参考坐标系中的相对位置关系。激光雷达坐标系到相机坐标系的转换涉及平移和旋转坐标系操作，需要将这些操作应用到每个激光点云上。通过采用线性变换，可以使用向量表示3D点，3D点的平移、旋转、缩放和透视投影等操作可用矩阵与向量相乘表示，从而简化投影符号。然而，由于所需的投影方程涉及对z的除法，导致非线性性，阻碍将其转换为更方便的矩阵-向量形式。为避免这个问题，一种方法是改变坐标系，将欧几里得坐标系转换为齐次坐标系。尽管在这两个坐标系之间切换是一个非线性操作，但一旦进入齐次坐标系，上述投影变换关系将变为线性，从而可以使用简单的矩阵-向量乘法来表示。欧几里得坐标系与齐次坐标系的转换关系如下：

。

在n维欧几里德坐标系中，一个点可以由一个n维向量表示。通过简单地将数字1作为一个额外的分量就可以将其转换成(n +1)维齐次坐标。在齐次坐标系下，将投影方程表示为矩阵-向量形式：

；

其中，表示在齐次坐标系下三维世界的点P到相机采集的图像的投影方程，相机的内在参数被提取到一个矩阵中，称之为相机的内参矩阵K。

为了将在激光雷达坐标系中测量到的激光点云投影到相机坐标系中，需要在投影操作中添加一个额外的转换，能够将激光点云从车辆坐标系关联到相机坐标系，通常，这种投影操作可以分为平移（translation）和旋转（rotation）。如图2所示，平移描述了从点到新位置点/>的线性移动，可以通过给/>加上一个平移向量/>实现：

；

在齐次坐标系中，可以通过连接一个m维单位矩阵进行表示，其中m是/>和/>的元素个数。这样，平移操作就可以表示为简单的矩阵-向量乘法：

；

其中，表示齐次坐标系下平移操作的矩阵表达；/>表示平移向量的/>分量，/>表示平移向量的/>分量；中间变量/>；/>表示平移矩阵。

同理，旋转操作可以通过乘以一个旋转矩阵来表示。包含/>和/>的组合矩阵称为外参矩阵E。此时我们拥有了激光雷达坐标系到相机坐标系的转换矩阵E，以及相机坐标系到像素坐标系的转换矩阵（即相机的内参矩阵）K。因此，完整的将激光点云投影到相机所采集图像所需的投影方程为：

。

B．使用YOLO进行图像目标识别

通过投影方程成功将激光点云投影到相机采集的图像中后，为了最终获取动态物体的位置与速度，需要利用图像处理技术来识别动态物体，分离匹配的关键特征点以及投影在图像中的激光点云，并将其与特定的动态物体关联起来。

通过采用图像处理技术，可以利用各种检测器与描述子来检测和匹配图像中的关键特征点，从而相对准确地分离出目标动态物体。这有助于避免包含前方场景中路面和静止障碍物的匹配信息，从而减少失真。采用YOLO算法，可为场景中的所有动态物体生成一组二维（2D）边界框。基于这些二维边界框，可以轻松将匹配的关键特征点与动态物体相关联，从而实现对速度的稳定估计。

与基于分类器的系统（如HOG或者SVM）不同，YOLO是一种基于神经网络的、面向整个图像的目标检测算法，因此其预测值取决于整个图像的全部内容。在进行预测时，YOLO采用单层网络模型，而不像R-CNN系统那样依赖上千层网络模型。这使得在输出相似预测结果的情况下，YOLO算法具有非常快的预测速度，从而满足无人车导航对实时性的要求。

YOLO v5相较于其他版本采用了更轻量级的神经网络结构，以适应大多数无人车平台的计算资源限制。本发明以YOLO v5为基础，使用了YOLO作者提供的预训练网络权重并进行相关的模型配置。加载网络后，数据流进入网络模型时，YOLO以"Blobs"作为基本单元来保存、通信和操作信息。Blob是一种标准序列和统一存储接口，用于许多框架。在数学上，一个Blob是以C-contiguous方式存储的M维序列，其中M是数据的批量大小（batch size）。将文件中加载的图像数据转换为用于神经网络的输入块后，进行前向传递，以获取预测的二维边界框作为神经网络的输出。神经网络的输出是一个长度为c（Blob类别个数）的数组，其中每个类别的前四个值分别表示二维边界框的中心的X坐标、中心的Y坐标、宽度和高度；第五个值表示该二维边界框只包含一个目标的置信度。为避免多个二维边界框实际包含同一个目标，本发明使用非极大值抑制算法（NMS）来除去多余的二维边界框，并仅保留具有最高置信度的二维边界框。获得目标检测的二维边界框后，进行激光点云投影，并将投影在同一个二维边界框内的激光点云进行聚类。由于YOLO识别的二维边界框往往比实际物体大一些，可能导致一些不属于动态物体的激光点云被聚类到该物体上。为解决这一问题，将二维边界框在原来的基础上缩小一定比例，以确保投影在缩小后的二维边界框上的激光点云得到保留。

C．检测并匹配关键特征点

使用Shi-Tomasi角点检测法进行角点检测，其基本原理如下：首先，对于图像上的每一个像素点定义一个局部窗口（通常为/>或/>的邻域），通过使用Sobel等滤波器来获取该局部窗口内的像素梯度（水平梯度/>和垂直梯度/>）。接着，使用局部窗口内的梯度信息构建结构矩阵/>：

；

通过对结构矩阵进行特征值分解，得到特征值/>和/>，特征值/>和/>表示了局部区域的主要运动方向。

定义一个角点响应函数来表示特征值的较小者，即/>，角点响应函数反映了局部窗口包含角点的程度。通过设置一个阈值，可筛选出具有明显角点特征的像素点。

通过Shi-Tomasi角点检测法获取了包含图像关键信息的角点位置，将这些点作为关键特征点考虑，并利用BRISK算法对每个关键特征点周围的局部图像结构进行建模，生成二进制描述子。在BRISK算法中，二进制描述子的构建通过简单的像素灰度值比较实现，生成一个级联的二进制比特串来描述每个特征点。BRISK算法采用邻域采样模式，以特征点为圆心，构建多个不同半径的离散化Bresenham同心圆，然后在每个同心圆上获得具有相同间距的N个采样点。由于这种邻域采样模式在采样时可能产生图像灰度混叠的影响，因此首先对图像进行了高斯平滑，即对所有采样点进行标准差为的高斯滤波，并且所使用的高斯函数标准差/>与各自同心圆上点间距成正比。假设在/>个采样点中任意选取一对采样点，其平滑后的灰度值分别为/>和/>，/>表示第/>个采样点，/>表示第/>个采样点，/>表示第/>个采样点的高斯标准差，/>表示第/>个采样点的高斯标准差；则两个采样点/>的局部梯度/>为：

。

假设把所有采样点对构成的集合记为，则

。

那么短距离采样点对构成的集合S，以及长距离采样点对构成的集合L分别为：

；

其中，设置距离阈值为，/>，其中/>为特征点的尺度。

由于长距离采样点对含有更多的特征点角度信息，且局部梯度相互抵消，所以可以在集合L中计算出特征点的总体特征模式方向为：

；

然后将采样模式围绕特征点旋转角度，进而二进制描述子具有了旋转不变性。最后在旋转后的短距离采样点对集合S内，对所有的采样点对/>行像素灰度值比较，最终形成二进制字符串描述子。其中，/>表示总体特征模式方向的/>分量，/>表示总体特征模式方向的/>分量，/>为在旋转模式下的采样点对，/>表示旋转模式下的第/>个采样点，/>表示旋转模式下的第/>个采样点。

使用暴力匹配（Brute-Force Matching）法来匹配二进制的描述子，该方法是一种基于简单遍历的特征匹配方法，通过比较两帧之间的所有的描述子对，使用汉明距离的度量来衡量两个描述子的相似性，汉明距离越小，表示两个二进制描述子越相似，选取最相似的两个描述子为最佳匹配。通过匹配得到关键特征点的对应关系，估计动态物体在图像中的运动。

D．基于图像的目标追踪与碰撞检测

上述已将激光点云投影到YOLO算法识别到的二维边界框中，且通过图像特征点检测与匹配获得关键特征点的匹配关系。将投影后落入到动态物体二维边界框中的激光点云经过滤后，分别对二维边界框中的多个激光点云的x坐标、y坐标、z坐标求均值，得到均值坐标点作为该动态物体在三维空间的中心位置。根据关键特征点的匹配关系，找到相邻帧中的该动态物体，同样对落入该动态物体二维边界框中的所有激光点云进行求均值操作，获得了动态物体在相邻帧中的中心位置，通过时间戳信息计算相邻帧的时间间隔，便可估计动态物体的运动速度，为下层的预测和决策模块提供关键信息。

工程中常采用碰撞时间（Time-To-Collision，TTC）作为交通决策的线索。TTC是指车辆正常行驶到发生碰撞所用的时间。如图3中的模型所示：

，/>；

由，得到：

；

得

。

传统碰撞时间表示物体之间的距离除以它们的相对速度。这部分反映了在当前速度下，物体之间碰撞所需的时间，这是TTC的线性部分。为了更符合某些情况下物体之间动态变化的非线性特性，本发明引入二次项来表征TTC：

；

通过公式看出TTC只和函数、时间间隔和投影比例相关。/>定义为：

；

其中是关于距离权重/>与速度权重/>的函数，/>为/>的函数表达式，距离权重与速度权重的选择可以通过实验和仿真进行调整。

通过引入二次项，当物体之间的距离较小或者物体速度过快时，二次项的存在使得TTC的变化速率加快，能够更好地捕捉了在接近碰撞时物体减速的情况，因为速度减缓将导致TTC增长得更快。通过反馈使得系统决策对处于距离比较接近或速度较快的情况更为敏感，使得系统做出相应反应的速度更快。

针对图像中的动态物体，本发明已经提取了代表物体的关键特征点，这些关键特征点在不同帧上相对唯一。在某一帧的上提取的关键特征点，正常情况下，这些关键特征点在下一帧上依然会出现，并且相对关系不变，由此可以通过追踪关键特征点实现相邻帧之间的动态物体追踪。如图4所示，求得两帧图像中任意两个关键特征点连线的比例,/>,…/>，通过求取这些比例的中位数作为动态物体在相邻帧尺寸之间的比例/>，从而根据TTC公式求得到动态物体的碰撞时间。

E.目标跟踪可视化

为了能够验证本发明的动态物体跟踪效果，对追踪结果在图形化工具Rviz中进行可视化。将带有YOLO算法识别的二维边界框以及投影了激光点云的图像以ROS话题的形式发布。以动态物体的中心位置坐标为正方体的几何中心，分别计算落在二维边界框中经过滤后的激光点云，计算：

，/>，/>；

其中，、/>、/>、/>、/>、/>分别为激光点云x坐标的最大值、y坐标的最大值、z坐标的最大值、x坐标的最小值、y坐标的最小值和z坐标的最小值。/>、/>、为正方体的长宽高，绘制正方体来表征物体，并将绘制的正方体以话题的形式发布，在Rviz中订阅发布的话题。跟踪效果如图5所示。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于YOLO的多传感器融合动态物体跟踪方法，通过激光雷达采集场景中的激光点云，通过相机采集场景的图像，并实现场景中的动态物体的跟踪；具体包括以下步骤：

步骤一，检测并匹配图像上的关键特征点：对于图像上的每一个像素点，定义一个局部窗口，通过使用滤波器来获取所述局部窗口内的像素梯度，像素梯度包括水平梯度/>和垂直梯度/>，构建结构矩阵/>：/>；

通过对结构矩阵进行特征值分解，得到特征值/>和/>；定义一个角点响应函数/>来表示特征值的较小者，即/>，如果R小于设定的阈值，则角点响应函数/>对应的像素点为具有角点特征的像素点；将图像中具有角点特征的像素点作为关键特征点，对每个关键特征点周围的局部图像结构进行建模，生成二进制的描述子；

步骤四，相邻的两帧图像分别记为，其中/>为时刻/>采集到的图像，/>为时刻/>采集到的图像；对于任意一个动态物体/>，对图像/>中动态物体/>所对应的激光点云的三维坐标求均值，将得到的结果作为动态物体/>中心位置在图像/>中的三维坐标/>；根据相邻两帧图像中关键特征点的匹配关系，在第/>帧图像/>中找到动态物体/>，对第/>帧图像/>中动态物体/>所对应的激光点云的三维坐标求均值，将得到的结果作为动态物体/>中心位置在图像/>中的三维坐标/>；根据动态物体/>中心位置在图像/>中的三维坐标/>，以及动态物体中心位置在图像/>中的三维坐标/>，得到动态物体/>的位移距离；根据动态物体/>的位移距离以及相邻两帧图像/>的时间间隔，得到动态物体的运动速度；实现动态物体的跟踪。

2.根据权利要求1所述的基于YOLO的多传感器融合动态物体跟踪方法，其特征在于，还包括能够得到车辆从正常行驶到发生碰撞所用时间的碰撞检测过程；所述碰撞检测过程具体包括：

车辆从正常行驶到发生碰撞所用的时间为：

；

其中，表示/>时刻车辆距离相机中心的水平距离，/>表示/>时刻车辆速度；/>是关于距离权重/>与速度权重/>的函数；/>表示/>时刻车辆高度在相机平面的投影高度；/>表示/>时刻车辆高度在相机平面的投影高度；/>表示相邻两帧图像之间的时间间隔，；动态物体/>在图像/>中第i个关键特征点和第j个关键特征点之间的距离记为/>；动态物体/>在图像/>中第i个关键特征点和第j个关键特征点之间的距离记为/>；将多个关键特征点对(/>在相邻两帧图像的距离之比/>的中位数，作为动态物体/>在相邻两帧图像的比例/>。

3.根据权利要求1所述的基于YOLO的多传感器融合动态物体跟踪方法，其特征在于，步骤三中，采用YOLO算法为场景中的动态物体生成二维边界框时，YOLO算法所采用的的神经网络能够输出包含同一个动态物体的多个二维边界框，使用非极大值抑制算法来除去多余的二维边界框，对一个动态物体仅保留具有最高置信度的二维边界框。

4.根据权利要求1所述的基于YOLO的多传感器融合动态物体跟踪方法，其特征在于，步骤三中采用YOLO算法为场景中的动态物体生成二维边界框时，将YOLO算法所采用的的神经网络输出的二维边界框，缩小设定的比例后，作为最终的二维边界框。

5.根据权利要求1所述的基于YOLO的多传感器融合动态物体跟踪方法，其特征在于，步骤一中，具体采用BRISK算法，对每个关键特征点周围的局部图像结构进行建模，生成二进制的描述子。