CN115131760B

CN115131760B - 一种基于改进特征匹配策略的轻量级车辆追踪方法

Info

Publication number: CN115131760B
Application number: CN202210838154.2A
Authority: CN
Inventors: 毛昭勇; 王亦晨; 沈钧戈; 孙健; 王鑫
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-07-17
Filing date: 2022-07-17
Publication date: 2024-04-19
Anticipated expiration: 2042-07-17
Also published as: CN115131760A

Abstract

本发明提供了一种基于改进特征匹配策略的轻量级车辆追踪方法，使用多个公开车辆重识别数据集对特征匹配模块进行训练，提升模型特征提取能力；通过使用度量学习的损失函数，在不增加模型复杂度的情况下有效提升模型特征匹配能力；使用更加轻量的ShuffleNetV2网络，以达到降低模型参数的效果；最终通过多个模块对性能的不同提升实现更稳定的实时车辆追踪。本发明有效降低跟踪算法特征匹配部分的网络参数量，从而有效提升跟踪算法的实时性，在保证跟踪准确度的同时，大大降低了模型的复杂度，具有轻量级的特点，具备实时性，保证了接入实际视频流进行实时跟踪车辆时，模型能够稳定高效的运行，具有广阔的应用前景。

Description

一种基于改进特征匹配策略的轻量级车辆追踪方法

技术领域

本发明涉及计算机视觉领域，尤其是多目标跟踪领域，具体为一种车辆追踪方法。

背景技术

Deepsort算法是一种多目标跟踪算法，使用tracking by detection的方式将传统的卡尔曼滤波算法与深度学习算法的特征匹配策略进行结合，实现目标下一位置的预测与车辆ID的匹配，在工业界被广泛应用。在车辆ID的匹配方面，使用车辆重识别算法，利用表观信息计算余弦距离。

在整个匹配过程中重识别模型的特征匹配是至关重要的，好的特征匹配器可以有效防止ID的跳动，也就保证了跟踪的稳定性。与此同时，特征匹配模块的模型大小也制约着整个模型的复杂度，使用轻量级的匹配模型可以有效降低整个模型的参数量，大大缩短匹配时间，在保证准确度的同时，达到更好的实时检测跟踪效果。

在特征匹配部分，主要使用的特征模型有运动模型和表观模型，其中在表观模型部分，主要使用车辆重识别算法为主流。车辆重识别算法又称为跨镜追踪算法，主要解决的是跨摄像头场景下的同一ID车辆检索，实现在数据Gallery库中对Query目标的检索。

deepsort算法的前身是sort算法，sort算法利用Faster R-CNN的目标检测算法以及两个核心的传统算法：卡尔曼滤波、匈牙利算法。其中卡尔曼滤波包括预测和更新：(1)预测：当目标经过移动，通过上一帧的目标框和速度等参数，预测出当前帧的目标框位置和速度等参数。(2)更新：预测值和观测值，两个正态分布的状态进行线性加权，得到目前系统预测的状态。匈牙利算法目的是解决分配问题，通过求解相似度矩阵解决前后两帧最终目标匹配的问题。同时，SORT计算速度非常快，因为SORT算法中是通过前后两帧IOU来构建相似度矩阵。

deepsort算法最重要的特点就是使用重识别模型来提取特征，大大减少了ID变化的次数，使得跟踪效果稳定性大大增强。

近年来，随着深度学习算法的发展，车辆跟踪算法在工业界得到了广泛应用，但是工业界对算法的实时性要求性比较高，同时为了节约成本，需要尽可能降低对硬件的要求，deepsort算法在整个追踪过程中占用了非常多的资源，在硬件资源有限的情况下，追踪效果往往不理想，不能满足实时性的要求。

发明内容

为了克服现有技术的不足，本发明提供一种基于改进特征匹配策略的轻量级车辆追踪方法，使用多个公开车辆重识别数据集对特征匹配模块进行训练，提升模型特征提取能力；通过使用度量学习的损失函数，在不增加模型复杂度的情况下有效提升模型特征匹配能力；使用更加轻量的ShuffleNetV2网络，以达到降低模型参数的效果；最终通过多个模块对性能的不同提升实现更稳定的实时车辆追踪。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1，使用大规模跨相机视角车辆重识别数据集进行训练，使用VeRi-776，VehicleID、VeRi-wild大型车辆重识别数据集构建新的数据集，根据样本ID及摄像头视角对不同数据集的图像进行编号，其中，VeRi-776数据集包含20台摄像机拍摄的超过50,000张共776辆车的图像，VehicleID包含多个相机拍摄的26267辆车共221763张图像；VeRi-wild包含174个摄像机覆盖超过200平方公里的40万张图片；获取车辆的表征提取模型；

步骤2，使用ShuffleNet替换原来的重识别特征提取网络；

重识别特征提取网络中，首先将输入的图像进行预处理，统一各个图像的尺寸，同时为了减少显存占用量，将原始图像放缩为边长为224～256的正方形；

步骤3，构建改进的三元组度量损失函数：

其中，L_TrpHard表示基于难样本采样的三元组损失函数，L_ImpTrpHard为本发明改进后的三元组损失函数，N表示一个batch中样本的数目，λ为绝对距离权重调整系数，设定为固定值0.5，d_a，p表示anchor样本与正样本之间的绝对距离，d_a，n表示anchor样本与负样本之间的绝对距离，α为人为设定的判断难样本对阈值，设定为固定值0.3；

步骤4，在分类损失的基础之上加入三元组损失函数，分类损失与三元组损失比重为1：1，共同构成训练总损失；在添加三元组损失函数进行训练之后，对训练的超参数进行优化；

步骤5，将步骤4得到的特征模型权重加载到deepsort算法结构中，使用YOLOV5作为目标检测器，deepsort算法根据检测器提供的实时检测框信息进行实时跟踪。

所述步骤2中使用ShuffleNet替换原来的重识别特征提取网络；ShuffleNetV2的基本组成单元引入channel split操作，然后网络被分为两个分支，右分支依次经过卷积核为1×1，步长为1；卷积核为3×3，步长为1；卷积核为1×1，步长为1的三层卷积层。最后，两个分支的特征通过concat操作进行融合，并进行channel shuffle操作。

所述步骤2中使用ShuffleNet替换原来的重识别特征提取网络；ShuffleNetV2的基本组成单元不使用channel split操作，同样分为左右两个分支。具体地，左分支：首先为卷积核为3×3，步长为2的卷积层，然后经过一个BN层，进入卷积核为1×1，步长为1的卷积层，最后再添加BN及ReLu操作。右分支中，首先为卷积核为1×1，步长为1的卷积层，然后分别进行BN及ReLu操作，接下来进入卷积核为3×3，步长为2的卷积层，然后经过BN操作之后进入卷积核为1×1，步长为1的卷积层，再添加BN及ReLu操作。最终，左右两个分支的特征通过concat操作进行融合并进行channel shuffle操作。

所述步骤4中的具体步骤为：

(1)使用BatchNormalization的方式对两个损失函数进行平衡，即BN层之前的特征计算三元组损失，使用BN之后的特征计算分类损失，以平衡分类损失函数以及三元组损失函数；

(2)batchsize设定为128，训练轮次设定为100，使用激活函数为ReLu，其中较大的batchsize有利于训练的稳定性，由于batch中样本数目的增大，能够构造比小样本batch更好的三元组对；

(3)同时使用warmup的学习率调整策略以及AdamW优化器；warmup为先上升后平稳在下降的学习策略，具体初始值设为0.0001，在前10个epoch上升为0.001，然后在逐渐减少，在第100个epoch重新下降为0.0001。

所述步骤5采用YOLOV5+deepsort算法进行多目标跟踪的步骤如下：

(1)给定原始视频，原始视频为存储在计算机上的视频文件，或实时更新的视频流(如rtsp视频流)，读取原始视频流，逐帧获取图像信息；

(2)进行数据预处理：包括对视频帧数据进行形状统一，将原始图像放缩为边长224～256的正方形，将numpy格式的数据转化为tensor；

(3)通过YOLOV5目标检测算法进行车辆目标检测，获取到所有预测框信息；

(4)判断步骤(3)获得的目标的预测框信息是否含有车辆类别的预测框，如果含有目标车辆的车辆类别的预测框，则该帧作为有效帧提供目标框的标注信息，否则继续处理下一帧；

(5)根据步骤(4)的车辆目标标注信息，提取目标所在的位置，将对应目标提取出来，并使用步骤2搭建的重识别模型提取目标特征；

(6)采用马氏距离或欧式距离作为相似度，将前30帧内原始已存储的目标与新一帧中的目标之间的相似度进行匹配，如相似度小于0.2，则两帧属于同一ID，如相似度大于等于0.2，则判定为新的目标，分配新的ID，从而实现多目标跟踪；

(7)根据步骤(6)的匹配结果，为不同的目标分配ID，将原始目标ID删除，并更新为当前帧的目标ID。

本发明的有益效果在于采用YOLO v5目标检测算法以及deepsort跟踪算法为基础，使用改进的轻量级特征匹配策略进行特征匹配。本发明对追踪算法的特征匹配模块进行了改进和优化，有效降低跟踪算法特征匹配部分的网络参数量，从而有效提升跟踪算法的实时性。本发明在保证跟踪准确度的同时，大大降低了模型的复杂度，具有轻量级的特点，具备实时性，保证了接入实际视频流进行实时跟踪车辆时，模型能够稳定高效的运行，具有广阔的应用前景。

附图说明

图1是本发明车辆跟踪算法整体过程示意图。

图2是本发明ShuffleNetV2结构示意图。

图3是本发明空间下采样ShuffleNetV2结构示意图。

图4是本发明重识别特征匹配模块结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

针对追踪算法存在的问题，本发明提出了一种基于改进特征匹配策略的车辆追踪方法。

本发明包括以下步骤：

步骤1：构建用于训练的车辆重识别数据集；

原始deepsort算法深度特征匹配部分原始的使用的模型是行人重识别模型，对于行人特征的匹配比较有效，但是用于车辆跟踪效果无法保证。因此使用车辆重识别数据集进行训练，获取车辆的表征提取模型。

本发明用于车辆追踪场景下，因此需要使用车辆重识别模型的数据集对特征匹配模块进行重新训练，以实现对于车辆目标的有效追踪，防止ID变化过于频繁给下游任务带来的困难。为了使模型的性能更好，采用更多的数据集进行训练，选取多个车辆重识别公开数据集的训练集进行融合，在更大的数据量背景下，提升重识别模型的特征提取能力以及对不同视角数据的匹配能力。

步骤2：构建轻量网络特征匹配器；

针对当前重识别网络参数量大，推理时间长的问题，使用ShuffleNet替换原来的重识别特征提取网络，在精度几乎没有损失的情况下将模型的参数量大大降低，即使在边缘计算板也完全可以正常运行。

所述步骤2中使用ShuffleNet替换原来的重识别特征提取网络；ShuffleNetV2的基本组成单元如图2或图3所示。其中图2单元保持通道数不变进行特征提取，图3单元进行了通道数的扩增进行特征提取，并且通道数扩增为原来的两倍。

在图2单元中引入channel split操作，然后网络被分为两个分支，右分支依次经过卷积核为1×1，步长为1；卷积核为3×3，步长为1；卷积核为1×1，步长为1的三层卷积层。最后，两个分支的特征通过concat操作进行融合，并进行channel shuffle操作；

在图3单元中不使用channel split操作，同样分为左右两个分支。具体地，左分支：首先为卷积核为3×3，步长为2的卷积层，然后经过一个BN层，进入卷积核为1×1，步长为1的卷积层，最后再添加BN及ReLu操作。右分支中，首先为卷积核为1×1，步长为1的卷积层，然后分别进行BN及ReLu操作，接下来进入卷积核为3×3，步长为2的卷积层，然后经过BN操作之后进入卷积核为1×1，步长为1的卷积层，再添加BN及ReLu操作。最终，左右两个分支的特征通过concat操作进行融合并进行channel shuffle操作；

步骤3：构建改进的三元组度量损失函数；

在分类损失的基础之上加入三元组损失函数，仅仅使用分类损失函数进行训练，不能够使网络对难样本进行有效区分，检索的结果精度低。在训练时引入三元组损失函数，增加约束，总的训练损失为：分类损失加三元组损失，且比重为1:1。并在此基础之上对三元组损失函数进行改进，在原始三元组的基础之上加入正样本对的绝对距离，使得在训练的过程中，有效缩小正样本对之间的绝对距离，从而大大增强模型对于难样本的检索能力。

步骤4：训练网络参数；

在添加三元组损失函数进行训练之后，需要对训练的超参数进行优化，以平衡分类损失函数以及三元组损失函数。因为分类损失函数与三元组损失函数下降的趋势有所不同，因此使用BatchNormalization的方式，对两个损失函数进行平衡，使得训练能够平稳进行。同时调整学习率以及优化器，调整训练的batchsize的大小，激活函数的种类等，从而得到更好的特征匹配权重。

步骤5：实现车辆追踪算法；

经过步骤1至步骤4的改进以及训练之后，得到训练好的新的模型权重，将新的模型权重加载到deepsort算法结构中，使用YOLOV5作为目标检测器，deepsort算法根据检测器提供的实时检测框信息进行实时跟踪。

使用YOLOV5+deepsort算法进行多目标跟踪的五个主要步骤：

(1)给定原始视频，可以是存储在计算机上的视频文件，也可以是实时更新的视频流(如rtsp视频流)，读取原始视频流，逐帧获取图像信息

(2)进行数据预处理：包括对视频帧数据进行形状统一(resize为224×224)，将numpy格式的数据转化为tensor。

(3)通过YOLOV5目标检测算法获取到目标检测框。

(4)根据目标检测框的信息进行判断是否含有车辆类别的预测框，如果含有目标车辆则该帧作为有效帧提供目标框的标注信息，否则继续处理下一帧。

(5)根据目标框标注的信息，提取目标所在的位置，将对应目标提取出来，并使用重识别模型提取目标特征。

本发明实施例提供一种轻量网络特征匹配器，基于车辆重识别数据集训练的网络模型和改进三元组度量学习损失函数的车辆追踪算法。

本发明实施例提供一种基于改进特征匹配策略的车辆追踪方法，用以解决实际部署过程中，车辆追踪算法难以保证实时性的问题。以往的deepsort跟踪算法使用的是行人重识别数据训练的网络模型进行特征匹配，但是无法高效高准确度对车辆进行特征匹配。以往的算法中重识别部分模型较大，参数量大，运行时占用的显存较大，难以满足边缘端的需求。在以往模型的训练中，把特征匹配模型当做分类模型来训练，对于模型的约束较小，对于难样本难以有效的区分。

本发明实施例的整体流程如图1所示：首先使用OpenCV读取视频流，然后根据视频流逐帧获取待检测图像；为了使检测的效果更好，对输入的图像进行预处理，调整输入图像的大小。然后使用YOLOV5目标检测器，检测以获取车辆目标的边界框。在此之后，交由deepsort算法进行处理。将所有目标检测框中对应的目标抠出来，进行特征提取(包括表观特征或者运动特征)，通过马氏距离或者欧式距离进行相似度计算，计算前后两帧目标之间的匹配程度(前后属于同一个目标的之间的距离比较小，不同目标之间的距离比较大)。最后进行数据关联，使用匈牙利算法为每个对象分配目标的ID，至此完成目标ID的分配，实现对多个目标的连续跟踪。

步骤1：结合多个重识别公开数据集数据进行训练。

使用多个数据集联合训练，首先对所有数据集数据进行统一命名，以便读取到pytorch的DataLoader类中。然后根据读取到的数据，进行随机打乱，选择batchsize的数据进行重识别特征匹配模块的训练。使用平移、翻转、mixup等数据增强策略进行数据增强。

步骤2：构建轻量级网络特征匹配器。

重识别特征匹配部分的网络参数较大，不适合部署在边缘端，对硬件的要求较高。因此使用更加轻量的网络结构可以进行模型的压缩，大大减少参数量，降低模型的复杂度，在保证准确度的同时有效提升模型的实时性。本发明选用轻量级ShuffleNetV2进行替换，通过pointwise分组卷积使得网络参数量大大减少。相比于resnet和densenet，ShuffleNetV2在速度和精度之间进行了很好的平衡，且在同等复杂度的情况下，ShuffleNetV2比ShuffleNetV1和MobileNetV2更加准确。如图2，展示了ShuffleNetV2结构：

与ShuffleNetV1不同，ShuffleNetV2使用了channel split操作，将输入通道为c的特征图分为两个分支，分出两个分支之后左边的分支不再进行其他的操作，右边分支包括三次通道数一样的卷积操作，然后通过concat操作将两个分支进行合并操作，最后对卷积的通道进行shuffle操作。

作为高效的神经网络结构，ShuffleNetV2严格遵守以下几个要点：

1.使用平衡的卷积，即通道数一样；

2.意识到分组卷积所带来的计算消耗；

3.减少网络分支；

4.减少element-wise操作。

通过进一步在ShuffleNetV1上按照以上规则进行改进，ShuffleNetV2的FLOPs计算量大大减少，运行速度有了明显提升。本发明使用ShuffleNetV2作为重识别的特征提取网络，能够对当前模型实时性不足，模型较大的问题进行有效改进。

FLOPs，理解为计算量。可以用来衡量算法/模型的复杂度。H、W分别表示输出特征图的高度和宽度。C_in表示输入的通道数，C_out表示输出的通道数，K表示卷积核的尺寸。

FLOPs＝2HW(C_inK²+1)C_out

步骤3：构建改进的三元组度量损失函数；

对重识别模型进行训练时使用三元组度量损失函数是非常有效的，因此本发明在原始模型仅仅使用分类损失函数进行训练的情况下，使用改进的三元组损失函数进行训练。与一般的三元组损失函数相比，使用改进的三元组损失函数能够进一步缩小类内距离，在反向传播进行优化的过程中，不断缩小正样本对之间的绝对距离，使得在检索时，对于相同正样本的检索更加容易，从而得到更好的检索效果。

以下为三元组损失函数的公式，f_a，f_p，f_n分别表示anchor样本和正样本、负样本，d_a，p，d_a，n分别表示正样本对以及负样本对之间的绝对距离。

d_a，p＝||f_a-f_p||₂

d_a，n＝||f_a-f_n||₂

改进后的三元组损失函数的公式计算如下：

步骤4：训练网络参数；

因为引入了新的损失函数，需要对网络超参数进行较大的调整，使用SGD作为优化器，学习率初始为0.01，权重衰减系数为0.009，使用warm up学习率策略，预热1000个iterations，batchsize设置为128，将输入的图片同一固定为256*256大小，使用ReLU激活函数，训练100个epoch。

步骤5：实现车辆追踪算法；

训练好新的轻量级从识别特征匹配模型以后，使用新的模型替换原始的模型，然后运行YOLO检测器以及deepsort跟踪代码，实现轻量级的实时追踪算法。

Claims

1.一种基于改进特征匹配策略的轻量级车辆追踪方法，其特征在于包括下述步骤：

步骤2，使用ShuffleNet替换原来的重识别特征提取网络；

步骤3，构建改进的三元组度量损失函数：

2.根据权利要求1所述的一种基于改进特征匹配策略的轻量级车辆追踪方法，其特征在于：

所述步骤2中使用ShuffleNet替换原来的重识别特征提取网络；ShuffleNetV2的基本组成单元引入channel split操作，然后网络被分为两个分支，右分支依次经过卷积核为1×1，步长为1；卷积核为3×3，步长为1；卷积核为1×1，步长为1的三层卷积层，最后，两个分支的特征通过concat操作进行融合，并进行channel shuffle操作。

3.根据权利要求1所述的一种基于改进特征匹配策略的轻量级车辆追踪方法，其特征在于：

所述步骤2中使用ShuffleNet替换原来的重识别特征提取网络；ShuffleNetV2的基本组成单元不使用channel split操作，同样分为左右两个分支，左分支：首先为卷积核为3×3，步长为2的卷积层，然后经过一个BN层，进入卷积核为1×1，步长为1的卷积层，最后再添加BN及ReLu操作；右分支中，首先为卷积核为1×1，步长为1的卷积层，然后分别进行BN及ReLu操作，接下来进入卷积核为3×3，步长为2的卷积层，然后经过BN操作之后进入卷积核为1×1，步长为1的卷积层，再添加BN及ReLu操作；最终，左右两个分支的特征通过concat操作进行融合并进行channel shuffle操作。

4.根据权利要求1所述的一种基于改进特征匹配策略的轻量级车辆追踪方法，其特征在于：

所述步骤4中的具体步骤为：

(2)batchsize设定为128，训练轮次设定为100，使用激活函数为ReLu；

5.根据权利要求1所述的一种基于改进特征匹配策略的轻量级车辆追踪方法，其特征在于：

所述步骤5采用YOLOV5+deepsort算法进行多目标跟踪的步骤如下：

(1)给定原始视频，原始视频为存储在计算机上的视频文件，或实时更新的视频流，读取原始视频流，逐帧获取图像信息；