CN113129336A

CN113129336A - 一种端到端多车辆跟踪方法、系统及计算机可读介质

Info

Publication number: CN113129336A
Application number: CN202110344713.XA
Authority: CN
Inventors: 赵生捷; 王长海; 韩丰夏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-16

Abstract

本发明涉及一种端到端多车辆跟踪方法、系统及计算机可读介质，其中多车辆跟踪方法包括：步骤1：构建并训练目标检测模型；步骤2：构建并训练深度匈牙利网络模型；步骤3：获取视频流当前帧的待追踪图像和前一帧车辆的目标ID和位置；步骤4：通过目标检测模型获取当前帧中待追踪车辆的目标框；步骤5：通过视频流当前帧和前一帧的目标框计算距离矩阵；步骤6：通过匈牙利模型获取指派矩阵；步骤7：依据指派矩阵为当前帧目标框分配目标ID完成目标跟踪。与现有技术相比，本发明具有准确率高、抗干扰性好等优点。

Description

一种端到端多车辆跟踪方法、系统及计算机可读介质

技术领域

本发明涉及车辆跟踪技术领域，尤其是涉及一种基于深度匈牙利网络的端到端多车辆跟踪方法、系统及计算机可读介质。

背景技术

目标跟踪算法是指在给定的视频流当中检测所有的目标并预测出未来的轨迹，在无人监控、自动驾驶领域等领域具有十分重要的意义。其中车辆跟踪是智能交通领域研究的一个关键问题，智能交通系统根据视频流图像进行车流量控制、违法车辆监控等任务，车辆目标的准确检测与跟踪是智能车辆管理的重点研究问题。车辆检测的传统方法主要基于光流的车辆跟踪方法、基于运动估计的车辆跟踪方法、Shift和模板匹配等基础算法的KCF、ECO等跟踪算法，这些方法大部分需要人工提取特征，面对车辆跟踪的复杂场景，如遮挡、快速移动、环境变化等，传统方法很容易产生漂移从而丢失目标。

近几年，由于深度学习的高速发展，一些基于深度学习车辆跟踪算法被提出。使用深度学习可以更好的提取目标的特征，可以更好地处理目标高速变化和防止跟踪器漂移。特别是目标检测领域的蓬勃发展，使得Tracking-by-Detection的方法成为了了主流方法，该方法通过在每一帧进行目标检测，然后使用数据关联的算法将不同帧之间的目标匹配起来，从而完成目标跟踪。但该方法由于评估方法计算预测目标和实际目标的最大匹配数，该计算过程不可微分，所以无法形成端到端的训练，所以无法达到很高的准确性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确率高、抗干扰性好的端到端多车辆跟踪方法、系统及计算机可读介质。

本发明的目的可以通过以下技术方案来实现：

一种端到端多车辆跟踪方法，所述的跟踪方法包括：

步骤1：构建并训练目标检测模型；

步骤2：构建并训练深度匈牙利网络模型；

步骤3：获取视频流当前帧的待追踪图像和前一帧车辆的目标ID和位置；

步骤4：通过目标检测模型获取当前帧中待追踪车辆的目标框；

步骤5：通过视频流当前帧和前一帧的目标框计算距离矩阵；

步骤6：通过匈牙利模型获取指派矩阵；

步骤7：依据指派矩阵为当前帧目标框分配目标ID完成目标跟踪。

优选地，所述的步骤具体为：

步骤1-1：利用开源的预训练的目标检测模型初始化所述目标检测模型；

步骤1-2：将多类型的多张车辆图像数据输入所述目标检测模型进行再训练；

步骤1-3：根据所述目标检测模型输出视频流当前帧的车辆对应的车辆图像及目标框；

步骤1-4：根据所述输出当前帧车辆目标框和前一帧车辆目标框计算距离矩阵。

更加优选地，所述距离矩阵的计算方法为：

计算目标框中心点距离真实中心点的欧氏距离和对应的Jaccard距离的平均值。

优选地，所述的步骤2具体为：

步骤2-1：将距离矩阵输入所述匈牙利网络模型，提取其特征向量；

步骤2-2：计算可微分的神经网络损失函数，通过反向传播计算输出矩阵与实际矩阵的误差，对深度匈牙利网络进行训练；

步骤2-3：得到每个所述当前帧车辆目标与每个所述前一帧车辆目标的指派矩阵，进一步得到车辆目标跟踪结果。

更加优选地，所述的匈牙利网络模型通过匈牙利算法对目标框进行最大匹配，使用双向循环神经网络对数据的距离矩阵进行编码，得到当前帧车辆目标与前一帧车辆目标的指派矩阵。

更加优选地，所述的匈牙利网络模型采用端到端的学习方式，从输入端到输出端会得到一个预测结果，该预测结果与真实结果相比较获得误差，误差会在模型中反向传播，匈牙利网络模型的每一层的表示都会根据误差进行参数调整。

一种用于上述任一项端到端多车辆跟踪方法的多车辆跟踪系统，所述的跟踪系统包括依次相连的输入模块、图像处理模块、目标检测模块、匈牙利算法模块和输出模块；

输入模块，用于将待跟踪视频流输入所述深度神经网络进行跟踪；

图像处理模块，用于对视频流中的图像帧进行图像增强、统一图像大小、运动模糊、均一化、等预处理；

目标检测模块，用于检测待跟踪视频流每一帧的所有待跟踪车辆目标，得到当前帧的车辆对应的车辆图像及目标框；

匈牙利算法模块，用于计算距离矩阵并将距离矩阵输入所述匈牙利网络模型，得到每个所述当前帧车辆目标与每个所述前一帧车辆目标的指派矩阵；

输出模块，用于将所述指派矩阵重新转化车辆数据关联的结果并输出车辆目标跟踪的结果。

更加优选地，所述的目标检测模块包括依次相连的初始化子模块、训练子模块和前向推理模块；

初始化子模块，用于利用开源的预训练模型初始化所述目标检测模型；

训练子模块，用于将车辆数据使用异步随机梯度下降算法对所述目标检测模型进行微调训练；

前向推理模块，用于对所述预处理后的图像进行前向推理得到车辆目标检测的目标框的坐标。

优选地，所述的匈牙利算法模块包括依次相连的转化模块、训练子模块和前向推理模块；

转化模块，用于将所述目标检测模块的输出结果计算为距离矩阵；

训练子模块，用于对输入所述距离矩阵，计算可微分的损失函数，使用异步随机梯度下降算法，对误差进行反向传播；

前向推理模块，用于对输入所述距离矩阵进行前向推理，得到得到每个所述当前帧车辆目标与每个所述前一帧车辆目标的指派矩阵。

一种计算机可读介质，所述的计算机可读介质内存储有如上述任一项所述的多车辆跟踪方法。

与现有技术相比，本发明具有以下有益效果：

一、准确率高：本发明中的多车辆跟踪方法通过使用深度匈牙利网络对目标框的最大匹配求解进行了优化，使得跟踪算法可以端到端地训练和推理，进一步提高了车辆追踪的准确性。

二、抗干扰性好：本发明中的多车辆跟踪方法通过最先进的目标检测模型实现Tracking-by-Detection过程，不仅保证了算法的实时性，而且在复杂的场景中，拥有很强的抗干扰能力，提高了车辆追踪方法的鲁棒性。

附图说明

图1为是本发明实施例提供的基于深度匈牙利网络的端到端多车辆跟踪方法的实施流程图；

图2是本发明实施例提供的基于深度匈牙利网络的端到端多车辆跟踪方法的实施原理图；

图3是本发明实施例提供的基于深度匈牙利网络的端到端多车辆跟踪系统的结构框图；

图4是本发明实施例提供的基于深度匈牙利网络的端到端多车辆跟踪系统的跟踪结果图；

图4(a)、(b)、(c)为第一种示例，图4(d)、(e)、(f)为第二种示例。

图中标号所示：

1、输入模块，2、图像处理模块，3、目标检测模块，4、匈牙利算法模块，5、输出模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种端到端多车辆跟踪方法，包括：

步骤1：构建并训练目标检测模型；

步骤1-4：根据所述输出当前帧车辆目标框和前一帧车辆目标框计算距离矩阵；

距离矩阵的计算方法为：计算目标框中心点距离真实中心点的欧氏距离和对应的Jaccard距离的平均值；

步骤2：构建并训练深度匈牙利网络模型；

步骤2-3：得到每个所述当前帧车辆目标与每个所述前一帧车辆目标的指派矩阵，进一步得到车辆目标跟踪结果；

匈牙利网络模型通过匈牙利算法对目标框进行最大匹配，使用双向循环神经网络对数据的距离矩阵进行编码，得到当前帧车辆目标与前一帧车辆目标的指派矩阵；

匈牙利网络模型采用端到端的学习方式，从输入端到输出端会得到一个预测结果，该预测结果与真实结果相比较获得误差，误差会在模型中反向传播，匈牙利网络模型的每一层的表示都会根据误差进行参数调整；

步骤5：通过视频流当前帧和前一帧的目标框计算距离矩阵；

步骤6：通过匈牙利模型获取指派矩阵；

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明：

图1示出了本发明实施例提供的基于深度匈牙利网络的端到端多车辆跟踪方法的实施流程，详述如下：

步骤1：构建并训练的目标检测模型

构建开源预训练的目标检测模型，收集车辆训练图像包含但不限于不同车辆朝向、不同遮挡物以及不同光照条件的多张车辆图像，对目标检测模型进行再训练，使该模型能够基于监督学习，在实际中达到准确识别并检测车辆目标和在图像中的坐标位置。

在本实施例中，利用YOLOv3作为开源的目标检测模型，因为针对车辆目标进行检测，所以修改原模型的输出多分类信息为输出二分类信息，并收集各种条件下的车辆训练图像或输入数量足够多的车辆训练图像来训练目标检测模型，该车辆训练图像为已知车辆信息的具有坐标框的车辆图像样本，用于调整深度神经网络模型的参数。

在对车辆训练图像进行预处理的时候，可以对图像进行灰度化处理或者进行高斯模糊处理。若选用高斯模糊，则应当附加图像锐化处理，以突出待识别图像中的边界条纹细节，使深度神经网络模型能够从中提取出更具有判定性的车辆识别特征。同时为了更好地进行深度训练，需要将图像重新缩放大小。

在本实施例中，利用车辆图像数据进行再训练时，每幅样本图像中训练样本总数为256，正负样本数量比为1:1，当正样本数量少于128时，用负样本填充；其中，正样本包含以下两种：①与真值框的交并比超过0.7的锚框；②与每一个真值框的交并比最大的锚框；负样本包括：在所有与真值框交并比小于0.3的锚框中，取交并比最小的128个锚框。

步骤2：构建并训练深度匈牙利网络模型

利用深度学习思想模拟匈牙利算法对连续两帧的目标检测模型输出的目标框进行匹配，从而完成追踪任务。深度匈牙利网络模型依据两帧目标框之间的距离矩阵，构建双向LSTM神经网络，学习出可微分的指派矩阵的最优解。

图2示出了所述匈牙利网络模型在本实施例中的网络结构，第一层输入为N×M的距离矩阵，随后在矩阵行方向上平铺成1维向量输入到第二层隐藏层单元为H的双向LSTM中，得到N×M×2H的输出，然后在输出矩阵的列方向上平铺，输入到第三层隐藏层单元为H的双向LSTM中，最后通过全连接层得到输出指派矩阵。

在本实施例中，通过视频流中不同的车辆实际的目标框计算出100000个距离矩阵D，并对应的通过匈牙利算法计算出相应训练标签指派矩阵A，使用随机梯度下降算法，训练深度匈牙利网络。所述深度匈牙利网络的评估损失函数公式如下：

其中，λ为平衡因子，本实施例中取0.5，dMOTA和dMOTP为经典的多目标跟踪评估方法的微分形式，dMOTA计算方法如下：

其中，

为跟踪算法漏检的样本数，

为跟踪算法错检的样本数，IDS为跟踪算法错误匹配的样本数。

本实施例中，依据所述深度匈牙利网络输出的指派矩阵A，在A分别对矩阵的每一行添加值均为0.5的行C^r，然后对该行进行softmax运算，得到概率化的结果。然后按上述概率化的结果分别计算dMOTA中的各类参数：

其中，m和n分别代表指派矩阵当前的行数和列数，

代表着在行方向上添加的位于M+1列的值，

代表着在列方向上添加的位于N+1行的值，

计算前后两帧真正匹配上的位置，||·||₁是计算后的平铺得到的一维向量的L1范数。

在本实施例中，dMOTP的计算方法如下：

步骤3：获取视频流当前帧的待追踪图像和前一帧车辆的目标ID和位置

待追踪车辆的位置信息包括车辆在图像中的坐标和检测框的大小，在算法的流程中，前一帧的车辆的位置由目标检测算法给出，车辆的ID由深度匈牙利网络模型计算指派矩阵完成目标ID的匹配后得到。

步骤4：通过目标检测模型获取当前帧中待追踪车辆的目标框

目标目标框是通过前述训练好的目标检测模型通过对当前帧的图像进行前向推理得到，包括追踪目标车辆在图像中的坐标和检测框的大小。

在本实例中，所述当前帧车辆的目标框可形式化地表示为b_i＝{x_i,y_i,w_i,h_i}∈R⁴，i＝1,…,M，其中M为当前帧检测的车辆目标个数，x_i和y_i分别表示目标框左上角点在图像中的横坐标和纵坐标，w_i和h_i分别表示为所述目标框的宽度和高度。

步骤5：通过视频流当前帧和前一帧的目标框计算出距离矩阵

距离矩阵的计算是依据当前帧和前一帧的目标框的交并比进行计算，已知目标框的位置和大小通过以下公式计算交并比：

其中，Area(·)表示计算目标框所围成矩形的面积，C表示前一帧的目标框，G表示当前帧的目标框。距离矩阵D的计算可以按公式d_mn＝1-IoU,m＝1,…,M,n＝1,…,N的方式计算，其结果越大表示两个目标框重合程度越小，两个目标框表示为同一个目标的置信度就越低，反之亦然。

在本实施例中，因为按交并比的计算方式会导致两个目标框完全没有重叠时，执行梯度下降算法的梯度会为0，导致无法对负样本进行有效的判别，所以对距离矩阵的计算方式进行了改进：

其中，d_mn代表着距离矩阵D中m行n列的一个元素，f表示依据图片大小正则化后的欧几里得距离，其公式如下：

其中，c(·)表示所述目标框的中心点的坐标，H和W分别表示为目标框的高度和宽度。经过计算后的距离矩阵D的元素的值域为[0,1]。

步骤6：通过深度匈牙利网络模型推理出匈牙利算法中对应的指派矩阵

经过前述计算后的距离矩阵输入到前述训练好的深度匈牙利网络模型后，固定模型中的参数，计算输出对应的指派矩阵。

步骤7：依据指派矩阵为当前帧目标框分配目标ID完成跟踪，本实施例中的跟踪结果图如图4所示。

对应于上文实施例所述的基于深度匈牙利网络的端到端多车辆跟踪方法，图3示出了本发明实施例提供的基于深度匈牙利网络的端到端多车辆跟踪系统的结构框图。

多车辆跟踪系统包括依次相连的输入模块1、图像处理模块2、目标检测模块3、匈牙利算法模块4和输出模块5；

输入模块1，用于将待跟踪视频流输入所述深度神经网络进行跟踪；

图像处理模块2，用于对视频流中的图像帧进行图像增强、统一图像大小、运动模糊、均一化、等预处理；

目标检测模块3，用于检测待跟踪视频流每一帧的所有待跟踪车辆目标，得到当前帧的车辆对应的车辆图像及目标框；

匈牙利算法模块4，用于计算距离矩阵并将距离矩阵输入所述匈牙利网络模型，得到每个所述当前帧车辆目标与每个所述前一帧车辆目标的指派矩阵；

输出模块5，用于将所述指派矩阵重新转化车辆数据关联的结果并输出车辆目标跟踪的结果。

目标检测模块3包括依次相连的初始化子模块、训练子模块和前向推理模块；

匈牙利算法模块4包括依次相连的转化模块、训练子模块和前向推理模块；

本实施例还涉及一种计算机可读介质，该介质内存储有上述任一项多车辆追踪方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种端到端多车辆跟踪方法，其特征在于，所述的跟踪方法包括：

步骤1：构建并训练目标检测模型；

步骤2：构建并训练深度匈牙利网络模型；

步骤5：通过视频流当前帧和前一帧的目标框计算距离矩阵；

步骤6：通过匈牙利模型获取指派矩阵；

2.根据权利要求1所述的一种端到端多车辆跟踪方法，其特征在于，所述的步骤具体为：

3.根据权利要求2所述的一种端到端多车辆跟踪方法，其特征在于，所述距离矩阵的计算方法为：

4.根据权利要求1所述的一种端到端多车辆跟踪方法，其特征在于，所述的步骤2具体为：

5.根据权利要求4所述的一种端到端多车辆跟踪方法，其特征在于，所述的匈牙利网络模型通过匈牙利算法对目标框进行最大匹配，使用双向循环神经网络对数据的距离矩阵进行编码，得到当前帧车辆目标与前一帧车辆目标的指派矩阵。

6.根据权利要求4所述的一种端到端多车辆跟踪方法，其特征在于，所述的匈牙利网络模型采用端到端的学习方式，从输入端到输出端会得到一个预测结果，该预测结果与真实结果相比较获得误差，误差会在模型中反向传播，匈牙利网络模型的每一层的表示都会根据误差进行参数调整。

7.一种用于如权利要求1～6中任一项端到端多车辆跟踪方法的多车辆跟踪系统，其特征在于，所述的跟踪系统包括依次相连的输入模块(1)、图像处理模块(2)、目标检测模块(3)、匈牙利算法模块(4)和输出模块(5)；

输入模块(1)，用于将待跟踪视频流输入所述深度神经网络进行跟踪；

图像处理模块(2)，用于对视频流中的图像帧进行图像增强、统一图像大小、运动模糊、均一化、等预处理；

目标检测模块(3)，用于检测待跟踪视频流每一帧的所有待跟踪车辆目标，得到当前帧的车辆对应的车辆图像及目标框；

匈牙利算法模块(4)，用于计算距离矩阵并将距离矩阵输入所述匈牙利网络模型，得到每个所述当前帧车辆目标与每个所述前一帧车辆目标的指派矩阵；

输出模块(5)，用于将所述指派矩阵重新转化车辆数据关联的结果并输出车辆目标跟踪的结果。

8.根据权利要求7所述的一种多车辆跟踪系统，其特征在于，所述的目标检测模块(3)包括依次相连的初始化子模块、训练子模块和前向推理模块；

9.根据权利要求7所述的一种多车辆跟踪系统，其特征在于，所述的匈牙利算法模块(4)包括依次相连的转化模块、训练子模块和前向推理模块；

10.一种计算机可读介质，其特征在于，所述的计算机可读介质内存储有如权利要求1～6中任一项所述的多车辆跟踪方法。