CN112307921B

CN112307921B - 一种车载端多目标识别跟踪预测方法

Info

Publication number: CN112307921B
Application number: CN202011141884.4A
Authority: CN
Inventors: 万千; 刘华磊; 彭国庆; 郑钰; 谢振友
Original assignee: Hualan Design Group Co ltd; Guilin University of Electronic Technology
Current assignee: Hualan Design Group Co ltd; Guilin University of Electronic Technology
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-05-17
Anticipated expiration: 2040-10-22
Also published as: CN112307921A

Abstract

本发明公开了一种车载端多目标识别跟踪预测方法，该方法是基于YOLOv5s（You Only Look Once v5s）和FairMOT（Fair Multi‑Object Tracking）融合的车载端多目标识别跟踪预测方法，通过使用YOLOv5s深度学习对象检测技术快速准确实时地检测道路前方车辆、行人、障碍物等，并将YOLOv5s模型融入FairMOT架构检测模块在单个网络中进行目标检测和重新识别跟踪，实现道路上车辆前方交通目标的位置检测、类型识别、多目标运动轨迹跟踪，从而达到对车辆前方交通目标换道、跟驰、减速等驾驶行为的预测。

Description

一种车载端多目标识别跟踪预测方法

技术领域

本发明属于智能交通中的自动驾驶领域，针对混合交通场景下，自动驾驶车辆需要对于前方车辆、行人、障碍物等目标进行快速、准确的识别与跟踪，从而实现对于前方目标换道、跟驰、减速等驾驶行为预测的问题，提出的一种基于YOLOv5s和FairMOT融合的车载端多目标识别跟踪预测方法。

背景技术

近年来，以事故的大幅度减少作为目标的自动驾驶逐渐成为社会的需要。汽车预防性安全技术和目标检测算法结合已经发展成为一种自动驾驶辅助技术，该技术可以自动执行由人类执行的部分汽车驾驶，并且有望进一步提高汽车驾驶的安全性。在自动驾驶技术中，复杂环境中目标物体的识别和跟踪是一项高难度的挑战，也是需要解决的重点任务之一。其包括车辆识别、车辆类型识别、非机动车识别、行人识别、交通标志识别、障碍物识别与避让等等。

汽车中目标识别跟踪系统，通过计算机视觉来观测车辆周围交通环境，并从实时视频信号中自动识别并跟踪目标，实现对于前方目标换道、跟驰、减速等驾驶行为预测，为自动驾驶，如启动、停止、转向、加速和减速等操作提供依据。由于实际路况极度复杂，基于传统目标检测的辅助驾驶技术性能难以得到大幅提升。现有的自动驾驶技术，虽然可以依赖于先进的雷达系统来弥补，但却大大增加了系统实现的成本。近几年来，随着卷积神经网络对特征提取和分类的高效性，基于深度学习框架实现快速有效的目标检测，也逐渐成为计算机视觉中目标识别发展新方向。

发明内容

发明目的：为了实现混合交通场景下车载端快速、准确、视频速率级别地多目标识别与跟踪，从而对前方行人行为或车辆换道、跟驰、减速等驾驶行为进行预测。本发明提供一种基于YOLOv5s和FairMOT融合的车载端多目标识别跟踪预测方法，克服现有技术的不足，使用YOLOv5s提高多目标推理识别的速度，减少了目标识别模型尺寸，降低模型部署成本且适用于移动端，随后将YOLOv5s目标识别算法与FairMOT相结合，实现在单个网络中同时完成对象检测和身份嵌入（Re-ID）功能从而通过共享大部分计算来减少整体目标检测跟踪时间，并通过去锚、多层特征聚合以及学习低维特征显著提高跟踪精度，最终实现高速率、高精度、适用于车载端的多目标识别跟踪预测。可在混合交通场景下实现无人驾驶车辆的主动减速、避让、换道、跟驰等行为，对智能交通自动化驾驶系统建设具有重大的实用价值。

为解决上述技术问题，本发明采用以下技术方案：

一种车载端多目标识别跟踪预测方法，该方法是一种基于YOLOv5s和FairMOT融合的车载端多目标识别跟踪预测方法，包括如下步骤：

（1）YOLOv5s算法交通场景下多目标识别模型训练

①交通场景数据集的建立及标记，通过对实际场景下大量图片的拍摄以及道路交通场景下监控视频的收集，使用lablimg对样本图象进行标记，使用VOTT（Visual ObjectTagging Tool）对视频数据进行标记，需要指出的是，这两类标记软件本质上都是对单张图片的标记，不同的是视频标记软件具有筛选样本图像、基于跟踪的粗略自动标记等功能，减少了标记的流程，充分利用了视频图像的关联性。建立标记的数据集主要包含四种类别的交通对象，分别为货车、汽车、客车、行人。为保证YOLOv5s在训练时从样本中学习到普遍的特征，样本图像来自不同场景、同场景下不同角度的视频，且样本图像中包含每一类别同颜色和形态目标数百个。

②YOLOv5s图像数据增强（Data Augmentation），图像增强是从现有的训练数据中创建新的训练样本。上述对于交通场景数据集的建立过程中，已经采集并标记尽可能多的数据，但我们不可能为每一个现实世界场景捕捉一个图像，因此我们需要调整现有的训练数据以推广到其他情况，从而允许模型适应更广泛的情况。多样化的先进数据增强技术是最大限度地利用数据集，使对象检测框架取得性能突破的关键，常用的数据增强方法有图像遮挡(Random Erase，Cutout，Hide and Seek，Grid Mask ，MixUp)、多图组合（CutMix，Mosaic）、自对抗训练(Self-Adversarial Training，简称SAT）等。YOLOv5s通过数据加载器传递每一批训练数据，并同时增强训练数据。数据加载器进行三种数据增强：缩放（Scale），色彩空间调整和马赛克增强（Mosaic data augmentation），Mosaic augmentation是使用四张训练图像按一定比例组合成一张图像，使模型学会在更小的范围内识别对象，其次还有助于显著减少对batch-size的需求。YOLOv5s通过一系列图像增强技术步骤，可以在不增加推理时延的情况下提高模型的泛化能力。

③Backbone—在不同图像细粒度上聚合并形成图像特征的卷积神经网络。YOLOv5s模型训练过程中使用跨阶段局部网络CSPNet（Cross Stage Partial Networks）作为Backbone，从输入图像中提取丰富的信息特征。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题，将梯度的变化从头到尾地集成到特征图中，因此减少了模型的参数量和FLOPS数值，既保证了推理速度和准确率，又减小了模型尺寸。

CSPNet实际上是基于Densnet的思想，复制基础层的特征映射图，通过denseblock 发送副本到下一个阶段，从而将基础层的特征映射图分离出来。这样可以有效缓解梯度消失问题(通过非常深的网络很难去反推丢失信号) ，支持特征传播，鼓励网络重用特征，从而减少网络参数数量。

④Neck—一系列混合和组合图像特征的网络层，并将图像特征传递到预测层。Neck主要用于生成特征金字塔，特征金字塔会增强模型对于不同缩放尺度对象的检测，从而能够识别不同大小和尺度的同一个物体。在YOLOv4的研究中，路径聚合网络PANET被认为是最适合YOLO的特征融合网络，因此YOLOv5s延续使用PANET作为Neck来聚合特征。

PANET基于Mask R-CNN和FPN框架，同时加强了信息传播。该网络的特征提取器采用了一种新的增强自下向上路径的FPN结构，改善了低层特征的传播。第三条通路的每个阶段都将前一阶段的特征映射作为输入，并用3×3卷积层处理它们。输出通过横向连接被添加到自上而下通路的同一阶段特征图中，这些特征图为下一阶段提供信息。同时使用自适应特征池化(Adaptive feature pooling)恢复每个候选区域和所有特征层次之间被破坏的信息路径，聚合每个特征层次上的每个候选区域，避免被任意分配。

⑤Head-YOLOv5s检测层,模型Head主要用于最终检测部分。这些不同缩放尺度的Head被用来检测不同大小的物体，它在特征图上应用锚定框，并生成带有类概率、对象得分和包围框的最终输出向量。

（2）FairMOT多目标跟踪

目前已有的MOT（多目标跟踪）方法通常通过两个独立的模型—对象检测和Re-ID（重新标识）解决该问题：检测模型首先通过对图像中的框进行边界界定来定位感兴趣的对象，然后，关联模型为每个边界框提取重新标识（Re-ID）特征，并根据在特征上定义的某些度量将其链接到现有轨道之一。近年来，分别在对象检测和Re-ID上取得了显着进步，这反过来又提高了跟踪性能。但是它们（两步法）通常非常慢，因为对象检测和Re-ID功能嵌入都需要大量计算，而两个网络不共享功能。因此很难实现许多应用中所需的视频速率推断。

随着深度学习中多任务学习的成熟，联合检测物体并学习Re-ID特征的单步方法已开始引起更多关注。核心思想是在单个网络中同时完成对象检测和身份嵌入（Re-ID）功能，以通过共享大部分计算来减少推理时间。由于两个模型共享大多数功能，因此它们具有显着减少推理时间的潜力。然而，与两步法相比单步法的准确性通常会有所下降。但是FairMOT多目标跟踪通过去锚、多层特征聚合以及学习低维特征显著提高了单步法所有基准上的跟踪精度。

①去锚，当前的单步法跟踪器都是基于锚的，因为它们是从对象检测器修改而来的。但是，有两个原因造成了锚点不适合学习Re-ID功能。首先，对应于不同图像补丁的多个锚点可能负责估计同一对象的身份，这导致网络的严重歧义。此外，通常会将特征图降级采样8次以平衡精度和速度。这对于检测是可以接受的，但对于Re-ID来说太粗糙了，因为对象中心可能与在粗略锚点位置提取的用于预测对象身份的特征不对齐。FairMOT是通过将MOT问题处理为位于高分辨率特征图顶部的像素级关键点（对象中心）估计和身份分类问题，即采用无锚对象检测方法来估计高分辨率特征图上的对象中心，消除锚点减轻了歧义性问题，并且高分辨率特征图的使用使Re-ID特征能够更好地与对象中心对齐。

②多层特征聚合，这对于MOT尤为重要，因为Re-ID功能需要利用低级和高级功能来容纳大小两种对象。由于提高了处理标度变化的能力，从而有助于减少单步法的身份切换。

③Re-ID学习低维特征，以往的ReID方法通常学习高维特征，并在其基准上取得了较好的结果。但低维特征实际上对MOT更好，因为它的训练图像比ReID少（我们不能使用ReID数据集，因为它们仅提供裁剪后的图像）。学习低维特征有助于减少过拟合小数据的风险，并提高跟踪的鲁棒性。

④将YOLOv5s检测模型载入FairMOT单步法多目标跟踪算法的目标检测模块，再将对象检测和Re-ID（重新标识）任务一起端到端训练，即在单个网络中完成两项任务，并通过FairMOT中去锚、多层特征聚合以及学习低维特征等方式提高跟踪精度，从而达到快速、准确的多目标识别跟踪。

多目标跟踪 (MOT) 是计算机视觉领域中的重要任务，近年来，目标检测和 Re-ID在各自的发展中都取得巨大进步，并提升了目标跟踪的性能。但是，现有方法无法以视频帧速率执行推断，因为两个网络无法共享特征。当前多目标跟踪最优的方法通常分为两大类：

两步法MOT——使用两个单独的模型，首先用检测模型定位图像中目标的边界框位置，然后用关联模型对每个边界框提取重识别 (Re-identification, Re-ID) 特征，并根据这些特征定义的特定度量将边界框与现有的一个跟踪结果联结起来。其中检测模型中的目标检测是为了发现当前画面所有的目标，ReID则是将当前所有目标与之前帧的目标建立关联，然后可以通过ReID特征向量的距离比较和目标区域交并比（IOU）来通过使用卡尔曼滤波器和匈牙利算法建立关联。两步方法的优点在于，它们可以针对每个任务分别使用最合适的模型，而不会做出折衷。此外，他们可以根据检测到的边界框裁剪图像补丁，并在预测Re-ID功能之前将其调整为相同大小，这有助于处理对象的比例变化。

单步法MOT——在进行目标检测的同时也进行ReID特征提取，核心思想是在单个网络中同时完成对象检测和身份嵌入（Re-ID功能），以通过共享大部分计算来减少推理时间。现有的方法比如Track-RCNN、JDE（Towards real-time multi-object tracking）直接在Mask R-CNN、YOLOv3的检测端并行加入ReID特征向量输出。很显然这能节约计算时间，但作者研究发现此类方法存在目标ID关联不正确的问题。具体来说，该类方法使用了anchor-based 的目标检测，目标的ReID特征是在anchor区域提取的，anchor 和目标区域会出现不对齐的问题，这会导致网络训练时存在严重的歧义。

本发明与现有技术相比，具有以下优点：

1、本发明将YOLOv5s算法与FairMOT算法相结合，将YOLOv5s多目标识别算法放入FairMOT单步多目标跟踪算法的目标检测模块中。YOLOv5s模型尺寸小，有利于模型的快速部署，更适用于移动端；

2、YOLOv5s训练速度快；模型尺寸小，有利于模型的快速部署；以140FPS（7ms/图）的推理速度明显优于目前已有的目标检测算法；且YOLOv5s在数据增强中通过马赛克增强（Mosaic data augmentation）更容易准确的检测到较小的对象；

3、将YOLOv5s融于FairMOT架构，在单个网络中实现目标检测与重新识别跟踪，从而达到视频速率级别地快速、准确、实时识别跟踪及预测；

4、FairMOT多目标跟踪算法将对象检测和Re-ID（重新标识）任务一起端到端训练，即在单个网络中完成两项任务，并通过FairMOT中去锚、多层特征聚合以及学习低维特征等方式提高单步法的跟踪精度，从而能够应用于车载端以视频速率更加快速准确的对车辆前方多目标进行识别跟踪及预测，本申请方案可在混合交通场景下实现无人驾驶车辆的主动减速、避让、换道、跟驰等行为，对智能交通自动化驾驶系统建设具有重大的实用价值

附图说明：

图1本发明的示意图；

图2为对象检测网络通用架构图；

图3为YOLOv5s网络结构图；

图4为YOLOv5作者提供的算法性能测试图；

图5为FairMOT一步法跟踪器概述图；

图6为FairMOT在MOT挑战评估服务器上的追踪效果。

具体实施方式：

下面结合具体案例对本发明做进一步的说明：

如图1所示，一种车载端多目标识别跟踪预测方法，该方法是一种基于YOLOv5s和FairMOT融合的车载端多目标识别跟踪预测方法，包括如下步骤：

（1）YOLOv5s算法交通场景下多目标识别模型训练

②YOLOv5s图像数据增强（Data Augmentation），图像增强是从现有的训练数据中创建新的训练样本。上述对于交通场景数据集的建立过程中，已经采集并标记尽可能多的数据，但我们不可能为每一个现实世界场景捕捉一个图像，因此我们需要调整现有的训练数据以推广到其他情况，从而允许模型适应更广泛的情况。多样化的先进数据增强技术是最大限度地利用数据集，使对象检测框架取得性能突破的关键，常用的数据增强方法有图像遮挡(Random Erase，Cutout，Hide and Seek，Grid Mask ，MixUp)、多图组合（CutMix，Mosaic）、自对抗训练(

Self-Adversarial Training，简称SAT）等。YOLOv5s通过数据加载器传递每一批训练数据，并同时增强训练数据。数据加载器进行三种数据增强：缩放（Scale），色彩空间调整和马赛克增强（Mosaic data augmentation），Mosaicaugmentation是使用四张训练图像按一定比例组合成一张图像，使模型学会在更小的范围内识别对象，其次还有助于显著减少对batch-size的需求。YOLOv5s通过一系列图像增强技术步骤，可以在不增加推理时延的情况下提高模型的泛化能力。

（2）FairMOT多目标跟踪

④将YOLOv5s检测模型载入FairMOT单步法多目标检测算法的目标检测模块，在将对象检测和Re-ID（重新标识）任务一起端到端训练，即在单个网络中完成两项任务，并通过FairMOT中去锚、多层特征聚合以及学习低维特征等方式提高跟踪精度，从而达到快速、准确的多目标识别跟踪。

1.对象检测网络架构：图2是对象检测网络通用架构图，YOLO网络主要由三个主要组件组成：

（1）Backbone：在不同图像细粒度上聚合并形成图像特征的卷积神经网络。（2）Neck：一系列混合和组合图像特征网络层，并将图像特征传递到预测层。

（3）Head：对图像特征进行预测，生成边界框和并预测类别。

2.YOLOv5s网络结构：图3是YOLOv5s网络结构图，Yolov5s的输入端采用了和Yolov4一样的Mosaic数据增强的方式，还有自适应图片缩放数据增强，在常用的目标检测算法中，不同的图片长宽都不相同，因此常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中。比如Yolo算法中常用416*416，608*608等尺寸。但Yolov5代码中对此进行了改进，在项目实际使用时，很多图片的长宽比不同，因此缩放填充后，两端的黑边大小都不同，而如果填充的比较多，则存在信息冗余，影响推理速度。因此在Yolov5的代码中datasets.py的letterbox函数中进行了修改，对原始图像自适应的添加最少的黑边。图像高度上两端的黑边变少了，在推理时，计算量也会减少，即目标检测速度会得到提升。

Yolov5s的Backbone部分中使用了CSP结构，Yolov4网络结构中，借鉴了CSPNet的设计思路，在主干网络中设计了CSP结构。Yolov5与Yolov4不同点在于，Yolov4中只有主干网络使用了CSP结构，Yolov5s设计了两种CSP结构， CSP1_X结构应用于Backbone主干网络，另一种CSP2_X结构则应用于Neck中。

Yolov5s的Neck与Yolov4相同，都采用FPN+PAN的结构，但如上面CSPNet结构中讲到，Yolov5和Yolov4的不同点在于，Yolov4的Neck结构中，采用的都是普通的卷积操作。而Yolov5的Neck结构中，采用借鉴CSPnet设计的CSP2结构，加强网络特征融合的能力。

Yolov5s中输出端采用GIOU_Loss做为Bounding box的损失函数。

3.YOLOv5s算法性能测试，图4为YOLOv5算法作者提供的在COCO数据集上进行的性能测试图，图中FPS与ms/img的关系是反转的，经过单位转换后我们可以发现，在V100GPU上YOLOv5可以达到250FPS，同时具有较高的mAP。

4.FairMOT跟踪器概述,图5为FairMOT一步法跟踪器概述图，采用无锚对象检测方法来估计高分辨率特征图上的对象中心。消除锚点减轻了歧义性问题，并且高分辨率特征图的使用使Re-ID特征能够更好地与对象中心对齐。添加了一个并行分支，用于估算用于预测对象身份的逐像素Re-ID特征。特别是学习了低维Re-ID特征，这些特征不仅减少了计算时间，而且提高了特征匹配的稳健性。我们为骨干网配备了“深层聚合”运算符，以融合来自多个层的要素，以便处理不同规模的对象。

5.MOT挑战测试仪的结果，图6为FairMOT在MOT挑战评估服务器上的追踪效果图，所有结果都来自“MOT挑战”评估服务器上，并根据“专用检测器”协议获得的。在2DMOT15，MOT17和最近发布的MOT20上，该算法在所有跟踪器中排名第一。需要注意的是，该算法的IDF1得分明显优于其他单次MOT跟踪器10分以上。整个系统的跟踪速度可以达到30FPS。

以上所述案例实施方式只是用于帮助理解本发明，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种车载端多目标识别跟踪预测方法，其特征在于，该方法是一种基于YOLOv5s和FairMOT融合的车载端多目标识别跟踪预测方法，包括如下步骤：

（1）YOLOv5s算法交通场景下多目标识别模型训练

①交通场景数据集的建立及标记，通过对实际场景下大量图片的拍摄以及道路交通场景下监控视频的收集，使用lablimg对样本图象进行标记，使用VOTT对视频数据进行标记；建立标记的数据集包含四种类别的交通对象，分别为货车、汽车、客车和行人；样本图像来自不同场景、同场景下不同角度的视频，且样本图像中包含每一类别同颜色和形态目标在一千个以内；

②YOLOv5s图像增强是从现有的训练数据中创建新的训练样本；YOLOv5s通过数据加载器传递每一批训练数据，并同时增强训练数据；数据加载器进行三种数据增强：缩放，色彩空间调整和马赛克增强；

③YOLOv5s模型训练过程中使用跨阶段局部网络作为在不同图像细粒度上聚合并形成图像特征的卷积神经网络，从输入图像中提取的信息特征；

④YOLOv5s使用路径聚合网络PANET作为Neck来聚合特征；Neck是一系列混合和组合图像特征的网络层，并将图像特征传递到预测层；Neck用于生成特征金字塔，特征金字塔能增强模型对于不同缩放尺度对象的检测，从而能够识别不同大小和尺度的同一个物体；

⑤Head-YOLOv5s检测层,模型Head用于最终检测部分；不同缩放尺度的Head用来检测不同大小的物体，它在特征图上应用锚定框，并生成带有类概率、对象得分和包围框的最终输出向量；

（2）FairMOT多目标跟踪

①去锚，通过FairMOT将MOT问题处理为位于高分辨率特征图顶部的像素级关键点估计和身份分类问题，即采用无锚对象检测方法来估计高分辨率特征图上的对象中心，消除锚点减轻了歧义性问题，并且高分辨率特征图的使用使Re-ID特征能够更好地与对象中心对齐；

②多层特征聚合，即融合不同尺度的特征，将多个卷积特征提取框架提取的特征融合，Re-ID功能利用低级和高级功能来容纳大小两种对象，由于提高了处理标度变化的能力，从而有助于减少单步法的身份切换；

③Re-ID学习低维特征，不同于以往的ReID方法，FairMOT通过学习低维特征减少计算时间，学习低维特征有助于减少过拟合小数据的风险，并提高跟踪的鲁棒性；

④将YOLOv5s检测模型载入FairMOT单步法多目标检测算法的目标检测模块，并通过FairMOT中去锚、多层特征聚合以及学习低维特征的方式提高跟踪精度，从而达到快速、准确的多目标识别跟踪。

2.根据权利要求1所述的车载端多目标识别跟踪预测方法，其特征在于，步骤（1）①中数据集的建立和标记中不局限于图片数据，还包括视频数据，并且使用lablimg和 VOTT分别对两种类型的数据进行标记。

3.根据权利要求1所述的车载端多目标识别跟踪预测方法合成一张图像，使模型学会在更小的范围内识别对象，能减少对一次训练所选取的样本数的需求。

4.根据权利要求1所述的车载端多目标识别跟踪预测方法，其特征在于，步骤（1）③中YOLOv5s使用CSPDarknet作为Backbone。

5.根据权利要求1所述的车载端多目标识别跟踪预测方法，其特征在于，所述PANET基于Mask R-CNN和FPN框架，该网络的特征提取器采用了一种新的增强自下向上路径的FPN结构，输出通过横向连接被添加到自上而下通路的同一阶段特征图中，这些特征图为下一阶段提供信息；同时使用自适应特征池化恢复每个候选区域和所有特征层次之间被破坏的信息路径，聚合每个特征层次上的每个候选区域，避免被任意分配。

6.根据权利要求1所述的车载端多目标识别跟踪预测方法，其特征在于，步骤（2）中将YOLOv5s检测模型载入FairMOT单步法多目标检测算法的目标检测模块，再将对象检测和Re-ID任务一起端到端训练，即在单个网络中同时完成对象检测和身份嵌入功能。