CN116580333A

CN116580333A - 基于YOLOv5和改进StrongSORT的粮库车辆追踪方法

Info

Publication number: CN116580333A
Application number: CN202310391127.XA
Authority: CN
Inventors: 金心宇; 吴浪; 金昀程; 张超杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-08-11

Abstract

本发明涉及图像识别技术领域，具体是一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法，过程为：建立粮库车辆训练数据集和粮库车辆重识别数据集并进行预处理；搭建YOLOv5网络并进行训练；搭建Vehicle_ReID车辆重识别模型并进行训练；使用YOLOv5网络和Vehicle_ReID车辆重识别模型处理输入视频，建立车辆特征查询集Vehicle_bank；搭建改进的StrongSORT模型；使用YOLOv5网络和改进的StrongSORT模型进行粮库车辆追踪。本发明的追踪方法更加适合粮库场景车辆的追踪且追踪精度更高，通过建立车辆特征查询集从而满足多摄像头多目标跟踪的需求。

Description

基于YOLOv5和改进StrongSORT的粮库车辆追踪方法

技术领域

本发明涉及计算机视觉和图像识别技术领域，具体是一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法。

背景技术

粮食安全是国家安全、社会稳定、人民幸福的基础。目前，在智慧粮库安防监控系统中针对粮食出入库时运粮车辆加以在线监控功能和识别。传统的粮库车辆识别方法主要是基于传感器硬件与基于车辆车牌的识别，其中基于传感器硬件的方法主要利用RFID等传感器进行车辆识别，受限于硬件设施的条件，该方法成本昂贵，灵活性差，而基于车辆车牌的方法主要是利用目标检测的方式检测车牌实现车辆识别，对摄像头的位置及性能要求较高，一旦存在车辆无车牌或者车牌遮挡等情况就无法对车辆进行识别。

进一步的，可以运用图像处理技术对卡口摄像头采集到的运粮车辆的图像信息进行检测识别，对粮库车辆跟踪识别功能。现有技术的实时检测与跟踪方法普遍使用YOLO系列算法搭配DeepSORT实现对多目标的检测与追踪，存在使用的DeepSORT模型跟踪精度较低，跟踪框表现不稳定，易发生跳变的问题，而基于DeepSORT改进的StrongSORT解决了上述问题，但其特征提取网络模块针对粮库场景下精度及性能不足，且其跟踪完成后会在单相机下统一给目标赋id值，无法满足粮库车辆在各卡口保持唯一自定义id值的需求。

发明内容

本发明要解决的技术问题是提供一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法，用以提供一种适合粮库场景车辆追踪且追踪精度更高的基于YOLOv5和改进StrongSORT的粮库车辆追踪方法。

为了解决上述技术问题，本发明提供一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法，包括过程如下：

步骤S1、采集待检测视频，然后截取图片，截取图片中包含的粮库车辆作为跟踪目标；

步骤S2、改进的StrongSORT模型包括ECC+NSA卡尔曼滤波预测器、采用训练好的Vehicle_ReID模型作为特征提取网络、使用匈牙利算法作为特征匹配器和Vanilla全局线性赋值模块，采用训练好的YOLOv5网络作为目标检测器作为改进的StrongSORT模型的目标检测输入：

步骤2.1、截取图片按帧时间依次经过训练好的YOLOv5网络获得带有目标检测框的图片；

步骤2.2、将带有目标检测框的图片按帧时间依次输入ECC+NSA卡尔曼滤波预测器进行位置预测，上一帧图片中的目标检测框经过ECC相机运动补偿，利用NSA卡尔曼滤波器来预测更新目标车辆的轨迹状态，得到当前帧预测框；

步骤2.3、计算上一帧图片中的目标检测框位置与步骤S2.2中获得的当前帧预测框之间的马氏距离，并对上一帧的目标检测框与当前帧预测框进行关联后得到车辆运动信息框，并更新时间标志；

步骤2.4、车辆跟踪：将关联后的运动信息框与当前帧图片中的目标检测框使用匈牙利算法作为特征匹配器进行IOU匹配，设定阈值，确认跟踪状态后进行Vanilla全局线性赋值，若匹配成功则确认前后两帧为同一车辆，使用训练好的Vehicle_ReID模型确定当前帧的目标车辆特征，然后在车辆特征查询集Vehicle_bank中查找具有最佳近似度的车辆特征用以确定车辆的自定义id。

作为本发明的一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法的改进：

所述的Vehicle_ReID模型和YOLOv5网络的训练方法为：

分别构建粮库车辆训练数据集和粮库车辆重识别数据集，所述Vehicle_ReID模型为Resnet50网络，采用Smooth-AP函数作为损失函数，利用粮库车辆重识别数据集进行训练；所述YOLOv5网络利用粮库车辆训练数据集进行训练。

作为本发明的一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法的进一步改进：

所述车辆特征查询集Vehicle_bank包括车辆特征与自定义id，建立过程为：

获取出入库时的粮库车辆各种作业下的监控视频，按每秒5帧截取图片作为待检测图片；将待检测图片依次输入所述训练好的YOLOv5模型获得检测结果，然后将检测结果输入所述训练好的Vehicle_ReID模型，提取出每辆车的车辆特征，将车辆特征与自定义id车辆存入特征查询集Vechicle_bank。

步骤2.4所述车辆跟踪的具体过程为：

检测框中检测到的目标都会创建一个轨迹，初始状态为Unconfirmed，连续3帧匹配成功转为confirmed状态；对于所述IOU匹配成功的结果，跟踪状态为confirmed，为IOU匹配成功的结果创建一个追踪器，将轨迹代表的目标的图片经过步骤3中训练好的Vehicle_ReID车辆重识别模型输出其特征向量并存入追踪器，每次关联成功都对追踪器进行更新，利用追踪器中存储的特征向量，使用余弦距离计算与车辆特征查询集Vehicle_bank中所有特征的近似度，确定车辆的自定义id，并将结果存储及可视化；

对于所述IOU匹配未成功的结果，跟踪状态为unconfirmed，将轨迹代表的目标的图片经过步骤3中训练好的Vehicle_ReID模型输出特征向量，并计算与轨迹的追踪器内存储的特征向量之间的最小余弦距离，若距离小于阈值，则再次对轨迹进行卡尔曼滤波得到预测框，再次关联及IOU匹配，并更新时间标志，若再次匹配依旧未成功，状态变为deleted，进行删除，若再次匹配成功，利用追踪器中存储的特征向量，使用余弦距离计算与车辆特征查询集Vehicle_bank中所有特征的近似度，确定车辆的自定义id，并将结果存储及可视化；若距离大于阈值，状态变为deleted，进行删除。

所述构建粮库车辆训练数据集和粮库车辆重识别数据集的过程为：

获取粮库车辆的各种角度的图片，对图片均采用数据增强操作，包括随机镜像操作、随机旋转、随机裁剪及添加噪声；然后对数据增强操作后的的图像进行矩形标注，标注对象为各种车辆，构建粮库车辆训练数据集；截取出图片中车辆区域，并为此车辆自定义id，以此id命名图片，构建粮库车辆重识别数据集。

本发明的有益效果主要体现在：

本发明的具有良好的跟踪识别能力，通过对StrongSORT模型的改进，使用更先进的模块替换原模型中的对应模块，提升了模型特征提取能力进而提升其跟踪性能，在各项性能指标下均有所提高；本发明通过建立车辆特征查询集Vehicle_bank，从而使得车辆跟踪时可以在各摄像头下获得唯一标识ID，即满足多摄像头多目标跟踪的需求。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为本发明的一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法的流程图；

图2为YOLOv5主体网络结构的示意图；

图3为本发明的实施例1的算法实施过程图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1、一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法(下文简称为追踪方法)，如图1-3所示，包括：建立粮库车辆训练数据集和粮库车辆重识别数据集，并进行预处理；搭建YOLOv5网络并进行训练；搭建Vehicle_ReID车辆重识别模型并进行训练；使用YOLOv5网络和Vehicle_ReID车辆重识别模型处理输入视频，建立车辆特征查询集Vehicle_bank；搭建改进的StrongSORT模型；使用YOLOv5网络和改进的StrongSORT模型进行粮库车辆追踪。本发明的追踪方法更加适合粮库场景车辆的追踪且追踪精度更高，具体过程如下：

步骤1、建立粮库车辆训练数据集和粮库车辆重识别数据集，并进行预处理；

步骤1.1、数据的采集主要通过两个途径：一是通过谷歌、百度、搜狗等网络资源搜集运输粮食车辆的图片及部分普通车辆的图片；二是通过和浙江省内相关粮库单位合作获取，这些数据来自粮库内部粮食出入库时粮库车辆各种作业下的监控视频，从视频中获取粮库各种车辆各种角度的图片。

步骤1.2、数据集预处理

为了提高模型的鲁棒性以及泛化能力，对上述2个途径所采集的每张图片均采用常规的数据增强操作，包括随机镜像操作、随机旋转(-10,10)度，随机裁剪及添加噪声等方式；

然后利用Labeling标注工具对数据增强操作后的的图像进行矩形标注，标注对象为各种车辆，构建粮库车辆训练数据集；然后截取出图片中车辆区域，并为此车辆定义id，以此id命名图片，构建粮库车辆重识别数据集；

步骤2、搭建YOLOv5网络并利用粮库车辆训练数据集进行训练

步骤2.1、根据现有技术搭建YOLOv5网络，搭建的YOLOv5网络的结构如图2所示，用于对粮库车辆的检测。

(1)搭建输入端：首先经过Mosaic数据增强将四张图片通过翻转、缩放、区域内的色域变换拼接在一张图片内，然后通过自适应图片缩放将图片规格固定为608*608，

(2)搭建主干层，提取图片特征；

(3)搭建颈部层，对主干层输出的图片特征进行融合，采用FPN(Feature PyramidNetworks，特征金字塔网络)和PAN(Path Aggregation Network，路径聚合网络)结构；

(4)搭建头部检测层，对颈部输出特征进行预测，使用CIOU_Loss作为预测框的损失函数，然后对锚框使用加权NMS方法进行筛选。

步骤2.2、使用步骤1.2中建立的粮库车辆训练数据集训练YOLOv5网络，batch-size设为16，epoch设为250次，使用Adam优化器优化损失函数，设置初始学习率为0.01，得到训练好的YOLOv5网络用于后续粮库车辆的检测。

步骤3、搭建Vehicle_ReID车辆重识别模型(简称为Vehicle_ReID模型)并利用步骤1.2中建立的粮库车辆重识别数据集进行训练，用于对粮库车辆的识别。Vehicle_ReID模型以Resnet50特征提取网络为基础，针对识别精度较小问题进行了改进。

步骤3.1、搭建Resnet50特征提取网络模型；

步骤3.2、使用Smooth-AP改进Resnet50的损失函数以提升模型识别精度，得到Vehicle_ReID模型，Smooth-AP函数是一个即插即用的目标函数，它可以直接优化基于排名的AP(Average Precision，平均精度)度量，Smooth-AP函数如下：

其中AP的计算公式为:

其中S_p代表正样本的相似度集合，S_N代表负样本的相似度集合，D为差分矩阵：

为sigmoid函数，其中τ为温度系数，定义了一个由Smooth-AP loss计算的差分矩阵的梯度可操作区域(operation region)，表达式为：

步骤3.3、训练Vehicle_ReID模型时batch-size设为112，epoch设为120次，τ设为0.01，使用粮库车辆重识别数据集训练搭建好的Vehicle_ReID模型，采用Smooth-AP函数作为训练的损失函数，采用随机梯度下降算法(SGD)作为优化器更新训练参数的梯度，迭代训练120轮后，得到训练好的Vehicle_ReID模型用于后续粮库车辆的识别。

步骤4、建立车辆特征查询集Vehicle_bank

步骤4.1、获取粮库内部粮食出入库时粮库车辆各种作业下的监控视频，按每秒5帧截取图片作为待检测图片；

步骤4.2、将待检测图片依次输入步骤2中训练好的YOLOv5网络，检测的结果为：包含粮库车辆的图片，图片上的粮库车辆带有矩形框标记；

步骤4.3、将步骤4.2检测后包含粮库车辆的图片送入步骤3中训练好的Vehicle_ReID模型，提取出每辆车的车辆特征，即包含粮库车辆的图片经过Vehicle_ReID模型后输出的特征向量(车辆特征)，将车辆特征与自定义id存入车辆特征查询集Vechicle_bank，完成车辆特征查询集Vechicle_bank的建立，用于后续追踪结果的查询。

步骤5、搭建改进的StrongSORT模型

现有技术的StrongSORT模型包括ECC+NSA卡尔曼滤波预测器、特征提取网络、特征匹配器和Vanilla全局线性赋值模块，在本发明中采用步骤3中训练好的Vehicle_ReID模型作为特征提取网络，使用匈牙利算法作为特征匹配器从而构建为改进的StrongSORT模型，采用步骤2中训练好的YOLOv5网络作为目标检测器作为改进的StrongSORT模型的目标检测输入，用于对粮库车辆的追踪。

步骤5.1、使用训练好的YOLOv5网络作为改进的StrongSORT模型的目标检测器，将输入视频按帧获取图片作为目标检测器的输入，输出每张图片的目标框，用来检测视频中的车辆，作为ECC+NSA卡尔曼滤波预测器和特征匹配器的输入；

步骤5.2、使用ECC+NSA卡尔曼滤波算法做位置预测器，输入上一帧检测框，输出当前帧目标的预测框，ECC为相机运动补偿，NSA卡尔曼滤波器是在原DeepSORT的卡尔曼滤波器的基础上增加了自适应计算噪声协方差，提升了预测器预测性能，公式为：

其中R_k是预设的常数测量噪声协方差，c_k是状态k的检测置信度得分。

步骤5.3、使用训练好的Vehicle_ReID模型替换原StrongSORT模型的特征提取网络，输入经目标检测器(YOLOv5网络)检测后的图片，输出为对应目标的特征向量(即车辆特征)，采用的Vehicle_ReID模型提升了原StrongSORT模型中的特征提取网络的性能。

StrongSORT跟踪流程中特征的更新使用EMA特征更新策略，则第t帧处第i个轨迹的外观状态为：

其中α＝0.9是动量项，f_i ^t是当前匹配检测的外观嵌入。

步骤5.4、使用匈牙利算法作为特征匹配器，在跟踪过程中对前后两帧中检测框内车辆进行匹配，若匹配成功则确认前后两帧为同一车辆，确定当前帧的目标车辆特征，然后用余弦距离计算与车辆特征查询集Vehicle_bank中所有特征的最佳近似度用以确定车辆的自定义id，使用车辆特征查询集Vehicle_bank可以实现多相机下同一辆车维持唯一自定义id。

步骤5.5、使用Vanilla全局线性赋值模块替换原DeepSORT的匹配级联模块，此模块为全局匹配模式，不分层级先后顺序，旨在解决匹配级联随着跟踪器变得更强，其附加的先验约束限制匹配精度的问题。

步骤6、使用YOLOv5和改进的StrongSORT模型进行粮库车辆追踪，算法流程如图3所示，包括：视频输入、检测流程和跟踪流程，各流程详细介绍如下：

步骤6.1、采集待检测视频，然后每秒截取5帧图片，截取图片中包含的粮库车辆作为跟踪目标；

步骤6.2、将上一步截取的图片按帧时间依次输入步骤2中训练好的YOLOv5网络，获得带有目标检测框的图片，目标检测框为截取图片中的跟踪目标的标记

步骤6.3、将步骤6.2输出的带有目标检测框的图片按帧时间依次输入ECC+NSA卡尔曼滤波预测器进行位置预测，上一帧图片中的目标检测框经过ECC相机运动补偿，利用基于匀速运动、线性观测模型和自适应计算噪声协方差的NSA卡尔曼滤波器来预测更新目标车辆的轨迹状态，车辆观测变量为(u,v,y,h)，(u，v)为车辆单位候选框的中心坐标，y为纵横比，h为高度，得到当前帧预测框；

步骤6.4、计算上一帧图片中的目标检测框位置与步骤6.3中获得的当前帧预测框之间的马氏距离，对两框进行关联，关联后得到的当前帧预测框称为车辆运动信息框，并更新时间标志；

步骤6.5.将关联后的车辆运动信息框与当前帧图片中的目标检测框进行IOU匹配，设定阈值，确认跟踪状态并直接进行Vanilla全局线性赋值，跟踪状态分为：confirmed，unconfirmed、deleted三种。检测框中检测到的目标都会为其创建一个轨迹，其初始状态为Unconfirmed，连续3帧匹配成功转为confirmed状态。所述IOU匹配，就是把Unconfirmed轨迹和上一帧匹配到的confirmed轨迹，通过匈牙利算法进行匹配，匹配后再次进行Vanilla全局线性赋值，把很久未匹配到的confirmed轨迹和未匹配到的Unconfirmed轨迹进行删除。

步骤6.6.对步骤6.5中IOU匹配成功的结果，即跟踪状态为confirmed的轨迹，为其创建一个容器，称为追踪器，将轨迹代表的目标的图片经过步骤3中训练好的Vehicle_ReID车辆重识别模型输出其特征向量，将此特征向量存入追踪器，每次关联成功都对其进行更新，利用追踪器中存储的特征向量，使用余弦距离计算与车辆特征查询集Vehicle_bank中所有特征的近似度，确定车辆的自定义id，并将结果存储及可视化。

步骤6.7.对步骤6.5中IOU匹配未成功的结果，即跟踪状态为unconfirmed的轨迹，将轨迹代表的目标的图片经过步骤3中训练好的Vehicle_ReID模型输出其特征向量，计算其与轨迹的追踪器内存储的特征向量之间的最小余弦距离，若距离小于阈值，则再次对轨迹进行卡尔曼滤波得到预测框，再次关联及IOU匹配，并更新时间标志，若再次匹配依旧未成功，状态变为deleted，进行删除，若再次匹配成功，利用追踪器中存储的特征向量，使用余弦距离计算与车辆特征查询集Vehicle_bank中所有特征的近似度，确定车辆的自定义id，并将结果存储及可视化。若距离大于阈值，状态变为deleted，进行删除。

实验1：

为进一步验证所提出的方法对粮库车辆的跟踪识别能力，依据上述构建的数据集及网络模型，本实验将本发明的最终改进后的YOLOv5+改进StrongSORT+Vehicle_ReID模型，与基于DeepSORT的YOLOv5+DeepSORT+Resnet50模型及基于StrongSORT的YOLOv5+StrongSORT+Resnet50模型进行对比实验。

实验评价指标如下：

(1)精确率(Precision)和召回率(Recall)

在检测问题的分类预测中，将模型的预测结果与样本的真实标签使用混淆矩阵来表示四种组合，其中分别是真阳性(True Positive，TP)、假阳性(False Positive，FP)、真阴性(True Negative，TN)、假阴性(False Negative，FN)这四种情况，混淆矩阵具体如下表1所示：

表1

精确度也可以称为查准率，是针对预测结果中表示预测为正的样本有多少为真正的正样本，其定义如下：

召回率又被称为查全率，用来说明分类器预测结果中判定为真的正样本占总正样本的比例，其定义如下：

(2)识别精确度(Identification Precision：IDP)

指每个目标框中目标ID识别的精确度，公式为：

其中IDTP指真正ID数，IDFP指假正ID数。

(3)识别召回率(Identification Recall：IDR)

指每个目标框中目标ID识别的召回率，公式为：

其中IDTP指真正ID数，IDFN指假负ID数。

(4)识别F值(Identification F-Score：IDF1)指每个目标框中目标ID识别的F值，公式为：

IDF1是用来评价跟踪器好坏的第一默认指标，一般会选择IDF1作为默认的初始排序指标，IDF1指标代表被检测和跟踪的目标中获取正确的ID的检测目标的比例，综合考虑ID准确率和ID召回率，代表两者的调和均值。

对比实验结果如下表2所示：

表2

结果可以看出，相比与另外两个模型，本发明的模型具有最高的性能评价指标，具有良好的跟踪识别能力。通过对比还可以看出，StrongSORT基于DeepSORT，基本保留其算法流程，使用更先进的模块替换原模型中的对应模块，在各项性能指标下均有所提高，而本发明在StrongSORT的基础上，提出Vehicle_ReID模型替换原特征提取网络，在各项性能指标下有了进一步的提升。

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于YOLOv5和改进StrongSORT的粮库车辆追踪方法，其特征在于：

所述的Vehicle_ReID模型和YOLOv5网络的训练方法为：

3.根据权利要求2所述的基于YOLOv5和改进StrongSORT的粮库车辆追踪方法，其特征在于：

4.根据权利要求3所述的一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法，其特征在于：

步骤2.4所述车辆跟踪的具体过程为：

5.根据权利要求4所述的一种基于YOLOv5和改进StrongSORT的粮库车辆追踪方法，其特征在于：