CN116883457B

CN116883457B - 一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法

Info

Publication number: CN116883457B
Application number: CN202310999288.7A
Authority: CN
Inventors: 张弘; 刘家炜; 杨一帆; 袁丁
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2024-01-30
Anticipated expiration: 2043-08-09
Also published as: CN116883457A

Abstract

本发明提出了一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法。利用MOT17数据集训练基于混合密度网络的轨迹估计器；将前一帧的多目标跟踪结果输入检测跟踪联合网络中的回归头和分类头，获得当前帧预测框的粗略位置和置信度；轨迹估计器根据检测框之前的运动规律估计检测框运动分布，利用光束搜索对分布进行采样，通过采样结果对预测结果进行修正，预测上一帧检测框在当前帧的精确位置；将当前帧检测结果与当前帧预测结果，根据置信度和GIOU进行两次匹配，得到上下帧检测框的最佳匹配，更新目标的运动轨迹。该方法降低了网络复杂度和计算消耗，保证了相当的精度，适用于计算/内存资源较低的嵌入式平台部署应用。

Description

一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法

技术领域

本发明属于计算机视觉与模式识别领域，具体为一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法。

背景技术

多目标跟踪(MOT)任务的目标是估计一个视频中多个对象的运动轨迹。这些对象必须用一个精确的边界框标识出来，并随着时间的推移保持它们的身份编号不变。在一个视频中跟踪所有的物体在许多应用程序中都很有用，比如自动驾驶、机器人技术和体育运动领域。

多目标跟踪是一项具有挑战性的任务，因为在拥挤的环境中存在检测缺失和检测错误、目标相互遮挡和目标尺度变化等难题。多目标跟踪目前流行的方式是检测和跟踪独立的方法。它将多目标跟踪任务分为两个步骤。先利用检测网络在每一帧中检测目标位置，再通过匹配算法跨时间匹配相应的检测框形成轨迹。

目前检测和跟踪独立的多目标跟踪方法属于两阶段方法，效率较低，且一旦检测目标增多时，复杂的关联阶段会带来指数级别的计算负担增长。此外，多目标跟踪方法目前的网络结构越来越复杂和计算量越来越大，对于实时的目标跟踪非常不利，导致实时目标跟踪系统的性能下降。因此，实时目标跟踪需要轻量化以及检测跟踪联合网络的方法。以便快速处理大量数据，并且能够在实时帧率下稳定运行。

发明内容

针对多目标跟踪目前存在的耗时长，计算量大，难以满足实时性要求的问题，本发明提出一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法。

为达到上述目的，本发明提供了一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法，包括以下步骤：

步骤一、利用MOT17数据集训练基于混合密度网络的轨迹估计器；

步骤二、设计轻量化检测跟踪联合网络，根据当前帧图像获得图像特征图和目标检测结果；

步骤三、根据上一帧图像的检测框位置和当前帧图像的图像特征图，利用检测跟踪联合网络回归头和分类头，得到上一帧图像的检测框在当前帧图像的目标预测结果，目标预测结果包括预测框和预测框的置信度；

步骤四、使用基于混合密度网络的轨迹估计器建模检测框运动分布，利用光束搜索对检测框运动分布进行采样，利用采样结果对步骤三得到的目标预测结果进行修正；

步骤五、通过基于置信度和GIOU的轨迹二次匹配机制，将当前帧图像的目标检测结果与当前帧图像的目标预测结果进行匹配，得到上下帧检测框的最佳匹配，更新目标运动轨迹。

现有技术普遍采用检测跟踪分离设计，采用卡尔曼滤波对检测框位置进行预测，预测精度低。本发明提出了检测跟踪联合网络与基于混合密度网络的轨迹估计器，降低了网络复杂度，提高了计算速度，保证了多目标跟踪精度。

为了进一步优化上述技术方案，本发明所采取的技术措施还包括：

进一步地，所述步骤(2)中，轻量化骨干网络由多个卷积层、多个批归一化层和多个激活层以及反向残差块构成；批归一化层为BN，激活层为RELU6；反向残差块由深度可分离卷积层、批归一化层、激活层组成；批归一化层为BN，激活层为RELU6。该深度卷积网络应包含4个阶段，第一个阶段分别包含2个卷积核大小为2*2的卷积层，批归一化层与激活层。第二个阶段由1个反向残差块组成，反向残差块由一个卷积核大小为1*1的深度可分离卷积层、批归一化层、激活层组成。第三阶段分别包含8个卷积核大小为2*2卷积层，批归一化层与激活层。第四阶段分别包含2个卷积核大小为2*2卷积层，批归一化层与激活层。网络输入为一张大小为960*540的3通道图片，输出为240*135大小的特征图。

进一步地，所述步骤(3)中，检测跟踪联合网络包含两个分支，回归分支用来预测上一帧检测框在当前帧位置。即预测框的左上角坐标，左下角坐标，右上角坐标，右下角坐标。分类分支用来预测框的置信度分值，维数为目标的类别数。相较于普通方法，检测跟踪联合网络能够显著降低网络复杂度，提升网络的利用率，适宜于对实时性有高要求的场景。

进一步地，所述步骤(4)中，轨迹估计器依据混合密度网络(混合密度网络将传统的神经网络与混合密度模型(例如，高斯混合分布)相结合，利用神经网络估计分布参数)来建模轨迹的运动分布，估计轨迹的偏移量。每个目标都使用一个轨迹估计器进行建模，将当前时刻之前的检测框中心位置，不同时刻检测框中心输入网络，得到目标对应检测框中心运动的高斯混合分布。使用光束搜索考虑多个位置量假设，通过采样多个位置解决可能存在的分布偏移问题，预测下一个时间步中的中心位置来修正预测结果。基于混合密度网络的轨迹估计器方法相较于传统的卡尔曼滤波方法，提高了预测的准确性，并且保证低计算量。

进一步地，所述步骤(5)中，首先根据目标检测结果，根据GIOU大小将高置信度的预测框与检测框位置进行匹配。匹配成功即更新检测框对应目标的轨迹。没有匹配成功的检测框与低置信度的预测框进行基于GIOU的第二次匹配，匹配成功即更新检测框对应目标的轨迹。仍然没有匹配成功的预测框对应的轨迹保存一段时间，如果仍然没有匹配上就删除轨迹。剩余没有匹配成功的检测框，新建一个轨迹来跟踪目标的位置。基于置信度和GIOU的二次匹配机制，显著提高了多目标跟踪的跟踪精度。

本发明的优点在于：

本发明提出了一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法。针对目前多目标跟踪技术计算量大，难以满足实时性要求的问题。设计轻量化特征提取网络，在提高推理速度的同时，保证了网络的特征提取能力。检测跟踪联合网络实现了跟踪检测使用同一网络的目标，降低了网络的复杂性和计算量，提高了多目标跟踪方法的实时性。并且通过设计基于混合密度网络的轨迹估计器和基于置信度和GIOU的轨迹二次匹配方法，提高了多目标跟踪的精度。适合于在嵌入式等计算能力和内存受限的平台上部署。步骤(3)、(4)中的检测跟踪联合网络与基于混合密度网络的轨迹估计器具有跟踪精度更高的优点。

附图说明

图1为本发明的整体流程图；

图2为本发明的检测跟踪联合网络；

图3为本发明的基于置信度和GIOU的轨迹二次匹配机制流程图；

图4为本发明输入的原始图像案例；

图5为本发明方法获得的跟踪结果，行人为跟踪目标。

具体实施方式

本发明提供的一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法。如图1所示，包括以下步骤：

步骤1.本发明根据MOT17数据集制作轨迹估计数据集，并训练轨迹估计器。步骤1主要包括以下三部分。

1.1从MOT17数据集中的14个视频序列中随机采样轨迹序列。并把每个视频序列分成100个轨迹序列，保证每个轨迹序列有不同的开始和结束位置。

1.2将均值为0，方差为1的高斯随机噪声应用到输入轨迹序列。

1.3使用步骤1.1中得到的20000个轨迹序列进行训练，2000个轨迹序列作为验证集，以0.01的学习率训练轨迹估计器100个周期。并且在第15、40、80周期时把学习率减少10倍。

步骤2.设计轻量化跟踪检测联合网络，获取图像特征图和目标检测结果。减少网络计算量，提高检测实时性。步骤2主要包括以下四部分。

2.1利用轻量化骨干网络对输入数据进行特征提取。

轻量化骨干网络由多个卷积层、多个批归一化层和多个激活层以及反向残差块构成；批归一化层为BN，激活层为RELU6；反向残差块由深度可分离卷积层、批归一化层、激活层组成；批归一化层为BN，激活层为RELU6。该深度卷积网络应包含4个阶段，第一个阶段分别包含2个卷积核大小为2*2的卷积层，批归一化层与激活层，第二个阶段由1个反向残差块组成，反向残差块由一个1*1卷积核大小的深度可分离卷积层、批归一化层、激活层组成。第三阶段分别包含8个卷积核大小为2*2卷积层，批归一化层与激活层。第四阶段分别包含2个卷积核大小为2*2卷积层，批归一化层与激活层。输入数据为一张3通道大小为960*540的图片，输出为240*135大小的图像特征图。

2.2将图像特征图送入区域候选网络，生成候选框。

区域候选网络分别由一个卷积核为3*3的卷积层，由全连接层和激活函数组成的回归分支、分类分支以及候选层组成。首先，卷积层利用步骤2.1得到的图像特征图，在图像特征图的每个点生成8个不同尺寸的候选框；分类分支包含一个全连接层和一个激活函数，分类分支输出候选框的置信度，用来预测候选框是否包含目标；回归分支包含一个全连接层，输出候选框的平移量和变化尺度；候选层综合两个分支的输出得到精确的候选框位置。

2.3感兴趣区域池化网络收集区域候选网络的输出，提取候选框位置的特征图。

感兴趣区域池化网络由一个全连接层和一个池化层组成。感兴趣区域池化网络将步骤2.1得到的图像特征图和步骤2.2得到的候选框位置，把候选框映射到图像特征图上，再通过池化层得到300个7*7固定大小的候选区域特征图。

2.4分类头利用候选区域特征图计算候选框属于目标的类别，同时回归头利用候选区域特征图进行边框回归计算检测框最终的精确位置。

分类头由一个全连接层和一个激活函数构成，回归头由一个全连接层构成。把2.3步骤中得到的候选区域特征图分别送入分类头和回归头，得到维数为目标类数的检测框置信度和检测框的左上角坐标，左下角坐标，右上角坐标，右下角坐标。得到所有检测框后使用非极大值抑制，去除相互重叠的检测框，得到最终的目标检测结果。

步骤3.利用检测跟踪联合网络回归头和分类头预测目标在当前帧图像的目标位置。步骤3主要包括以下四部分。

3.1利用上一帧图像的目标位置，通过步骤2.1中的轻量化骨干网络提取上一帧图像中目标位置在当前帧图像的位置的图像特征图。

3.2将3.1步骤中得到的图像特征图，分别送入步骤2.4检测跟踪联合网络的回归头，对目标在当前帧图像中的位置进行回归预测，得到预测框；再把这个新的预测框送入步骤2.4检测跟踪联合网络的分类头得到预测框的置信度。

3.3根据步骤3.2中预测框的置信度，将低于置信度低于0.3的预测框删去。

3.4将步骤3.2得到的预测框和对应的置信度，使用非极大值抑制筛除掉可能重叠的预测框。步骤如下：

(1)对于每一个类别，按分类分数从高到低进行排序，得到预测框的降序列表。

(2)从列表中的分数最高的元素，逐个计算该元素与列表中剩余元素的GIOU，若GIOU大于0.8则将该元素从列表中剔除，同时将第一个元素保留。

(3)对处理过后的降序列表重复执行步骤(2)，直至列表为空。

步骤4.使用基于混合密度网络的轨迹估计器来对预测框位置进行修正。步骤4主要包括以下四部分。

4.1对于每个活跃目标，使用一个依据高斯混合模型的轨迹估计器来建模检测框的运动分布，预测检测框中心的位置。轨迹估计器具体步骤如下：

4.1.1模型输入为向量由两个标量/>组成，/>表示第t帧图像中第k个检测框中心的X轴坐标，/>表示第t帧图像中第k个检测框中心的Y轴坐标。向量x_t输入单层循环神经网络得到模型输出/> 中参数包括：权值输出分量/>混合高斯分布的输出均值/>输出方差/>和输出相关系数/>为了使/>满足形成一个有效的概率密度分布的约束。对模型的输出/>进行多个约束来得到y_t。首先，通过使用softmax归一化：/>来实现权重分量/>满足/>对于其他参数，通过计算得到。其中参数t代表第t帧图像，参数k代表第k个检测框中心，参数M为第t帧图像中检测框的总数。最终根据模型的输出进行采样预测检测框中心的位置。

4.1.2经过约束后计算得到y_t，y_t为Pr(x_t+1|y_t)的参数。Pr(x_t+1|y_t)定义如下： Pr(x_t+1|y_t)为第t+1帧图像中检测框中心位置的高斯混合分布概率密度。/>y_t中参数包括：权值分量/>混合高斯分布的均值/>方差/>和相关系数/>均值/>和方差/>是二维向量，而权值分量/>和相关系数/>是标量。其中参数t代表第t帧图像，参数k代表第k个检测框中心，参数M为第t帧图像中检测框的总数。最终根据模型的输出进行采样预测检测框中心的位置。

4.1.3概率密度Pr(x_t+1|y_t)中，其中x₁和x₂分别代表检测框x轴坐标和y轴坐标，μ₁和μ₂代表检测框x轴坐标和y轴坐标的高斯混合分布均值，σ₁和σ₂代表检测框x轴坐标和y轴坐标的高斯混合分布方差，ρ代表检测框x轴坐标和y轴坐标的高斯混合分布的相关系数。

4.1.4通过最大化诱导密度下目标的对数概率密度来训练混合密度网络。损失函数为负对数似然最小化：表示第t帧图像中第k个检测框中心的高斯混合分布的均值,方差,相关系数和权值分量，x_t+1表示第t+1帧中检测框的位置。其中参数t代表第t帧图像，参数k代表第k个检测框中心，参数T为图像的总数。

4.2将前一时刻的检测框中心位置输入模型，得到检测框的高斯混合运动分布。

4.3使用光束搜索来考虑多个位置假设，每一帧图像采样3个位置，预测下一帧图像中的检测框中心的位置。具体步骤如下：

4.3.1在第一帧图像选取当前高斯混合分布下概率最大的3个检测框中心位置，作为检测框中心位置的预测候选量。

4.3.2之后的每一帧，基于上一帧的检测框中心位置的预测候选量，挑选出所有组合中条件概率最大的3个检测框中心位置，作为检测框中心位置的预测候选序列。

4.3.3根据序列整体概率大小，从检测框中心位置的预测候选序列中挑出概率最大的检测框中心预测位置。

4.3.4利用检测框中心预测位置修正步骤3.4中的预测框，得到预测框的精确位置。

步骤5.使用基于置信度和GIOU的轨迹二次匹配机制，将上下帧的检测框进行匹配。步骤5主要包括以下三部分。

5.1将步骤2.4得到的置信度高于0.7的检测框和步骤4.4得到的预测框计算他们的GIOU，并根据GIOU大小通过匈牙利算法进行检测框和预测框的匹配。

检测框和预测框通过一个4维的向量[x,y,w,h]来表征。其中x,y,w,h均为标量，分别表示框的左上角X轴坐标，左上角Y轴坐标，框的X轴长度与框的Y轴长度。

GIOU的具体计算步骤为：

(1)针对检测框A和预测框B，找到能够包住他们的最小封闭方框C。

(2)根据计算得到IoU。

(3)最终计算

5.2利用步骤2.4得到的置信度在0.4到0.7之间的检测框和步骤3.4得到的预测框计算GIOU，并进行检测框和预测框的第二次匹配。

5.3匹配上的检测框为预测框对应的目标运动轨迹进行更新，并将轨迹移入活跃状态。没有匹配上的检测框，通过新建一个轨迹用来追踪之后检测框的运动轨迹。没有匹配上的预测框对应的目标运动轨迹保留30帧，如果仍然没有匹配上，就将轨迹删除。

此外，本发明检测跟踪联合网络loss计算方法如下：

检测跟踪联合网络的损失函数包含以下几个部分：

(1)回归损失

其中，t_i和分别代表预测框的参数化坐标和真实边框的参数化坐标。smooth L1函数中x表示预测值和真实值之间的误差值。i为预测框的序号。

(2)分类损失

其中，p_i是预测框属于某一类别的置信度，是预测框实际类别的置信度。

(3)总损失

总损失是回归损失和分类损失的加权和，用来衡量检测跟踪联合网络模型的性能。其中N_cls和N_reg为超参，分别控制分类损失和回归损失在总损失中的占比。

本发明实验过程环境配置如下，以Pytorch作为神经网络框架，利用一张A100 GPU进行训练，并测试模型推理速率。本发明具体步骤概括为：

(1)标注待跟踪目标数据，并将标注好的数据拆分为训练集和测试集。

(2)依据MOT17数据集，制作轨迹估计器的训练集和测试集。

(3)将轨迹估计器训练集中的轨迹序列输入轨迹估计器中，得到轨迹估计器损失。通过Pytorch对轨迹估计器进行训练，训练完成后进行测试集测试。

(4)依照图1中的整体流程图，图2中对跟踪检测联合网络的说明，图3对基于置信度和GIOU二次匹配机制的说明，构建网络，网络整体由主干网络、回归头、匹配模块、分类头、感兴趣区域池化网络、区域候选网络六个部分组成。

(5)对网络整体进行训练，将训练集中的图片输入到神经网络结构中，得到检测跟踪联合网络的损失loss。利用学习率自动调整算法和Pytorch框架中的随机梯度下降法调整参数调整速度，最终得到训练好的模型参数并保存。

(6)利用训练好的模型参数对测试集图像进行推理计算，得到测试集对应的置信度预测结果、跟踪框，然后通过非极大值抑制得到最终的多目标跟踪结果，通过多目标跟踪结果和真值比较计算模型的精度。

(7)在A100显卡上使用Pytorch部署模型并测试模型速度。

与现有技术相比，本发明的有益之处在于：针对目前多目标跟踪技术计算量大，难以满足实时性要求的问题。通过检测跟踪联合网络得到检测结果和预测结果。实现了跟踪检测使用同一网络的目标，降低网络复杂度；通过MOT17数据集训练基于混合密度网络的轨迹估计器，轨迹估计器利用检测框的位置对检测框的运动分布进行建模，对预测框位置进行修正，提高了预测精度；设计基于GIOU的目标轨迹二次匹配机制。该方法设计了一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法，通过上下帧检测框的匹配，实现多目标跟踪。多目标跟踪结果如图4，图5所示，对图像内的人群进行多目标跟踪，并对所有人进行标号，标号结果显示在检测框正上方。本发明方法在降低了网络复杂度和计算消耗的同时，保证了相当的精度和实时性，适用于计算/内存资源较低的嵌入式平台部署应用。本发明方法与目前多目标跟踪常用方法的对比结果如表1所示，与其他方法相比，本发明在精度指标(MOTA)上大幅度领先其他方法，并在速度指标上保持领先优势，并可在A100上实现实时跟踪。

表1

以上公开的本发明实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims

1.一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法，其特征在于，实现步骤如下：

步骤五、通过基于置信度和GIOU的轨迹二次匹配机制，将当前帧图像的目标检测结果与当前帧图像的目标预测结果进行匹配，得到上下帧检测框的最佳匹配，更新目标运动轨迹；

所述步骤二中的具体实施步骤如下：

（1）利用轻量化骨干网络对输入图像进行特征提取得到图像特征图；轻量化骨干网络由多个卷积层、多个批归一化层和多个激活层以及反向残差块构成；反向残差块由深度可分离卷积层、批归一化层、激活层组成；批归一化层为BN，激活层为RELU6；

（2）将步骤（1）中得到的图像特征图送入区域候选网络，生成候选框；区域候选网络分别由一个卷积层主干，两个由全连接层和激活函数组成分支以及候选层组成；

（3）将步骤（2）中区域候选网络生成的候选框传递给感兴趣区域池化网络，提取候选框位置固定大小的特征图，感兴趣区域池化网络由一个全连接层和一个池化层组成；

（4）将步骤（3）中得到的固定大小的特征图传递给分类头和回归头；分类头由一个全连接层和一个激活函数构成，回归头由一个全连接层构成，分类头利用固定大小的特征图计算候选框属于不同类别的置信度，置信度的维数为目标的类数，回归头利用固定大小的特征图获得检测框的精准位置，位置的参数为检测框的左上角坐标，左下角坐标，右上角坐标，右下角坐标，得到所有检测框的精准位置后使用非极大值抑制，去除相互重叠的检测框，得到目标检测结果；

所述步骤三的具体实施步骤如下：

（1）利用检测跟踪联合网络的回归头进行回归：利用目标对应的前一帧图像检测框位置，通过检测跟踪联合网络得到这个位置在当前帧图像的图像特征图，图像特征图分别传递给回归头和分类头，得到上一帧图像检测框在当前帧图像的位置的目标预测结果即预测框和预测框的置信度分值；

（2）筛除匹配不上的轨迹：将步骤（1）中得到的预测框置信度分值低于阈值的对应预测框删去，再用非极大值抑制筛除掉互相遮挡的预测框；

所述步骤四的具体实施步骤如下：

（1）每个目标都使用一个轨迹估计器进行建模，轨迹估计器依据混合密度网络来建模检测框的运动分布，预测目标运动轨迹，轨迹估计器输入为之前多个时刻的检测框中心位置，模型输出为目标对应检测框中心当前时刻位置的高斯混合分布；

（2）使用光束搜索考虑多个位置假设，通过每个时间步采样多个位置解决存在的分布偏移问题，采样得到的检测框中心位置用来修正目标预测结果。

2.根据权利要求1所述的基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法，其特征在于：所述步骤一中，训练轨迹估计器步骤如下：

（1）从MOT17数据集中不同视频序列的对象中随机采样轨迹，并把轨迹分成不同轨迹序列；再将轨迹序列中加入噪声，组成轨迹序列集；最终得到训练集和验证集；

（2）采用步骤（1）得到的训练集训练轨迹估计器；轨迹估计器为一个单层循环神经网络；轨迹估计器通过检测框中心的运动轨迹，建模检测框的中心运动的高斯混合分布，预测检测框中心在下一帧图像中的位置。

3.根据权利要求1所述的基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法，其特征在于：所述步骤五的具体实施步骤如下：

（1）首先根据目标检测结果，根据GIOU大小将高置信度的预测框与检测框进行匹配，匹配成功即更新检测框对应目标的轨迹；

（2）对于步骤（1）中没有匹配成功的检测框与低置信度的预测框进行基于GIOU的第二次匹配，匹配成功即更新检测框对应目标的轨迹，仍然没有匹配成功的预测框对应的轨迹保存一段时间，如果仍然没有匹配上就删除轨迹，剩余没有匹配成功的检测框，新建一个轨迹来跟踪目标的位置。