CN114898403A

CN114898403A - 一种基于Attention-JDE网络的行人多目标跟踪方法

Info

Publication number: CN114898403A
Application number: CN202210530683.6A
Authority: CN
Inventors: 何宁; 晏康
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-12

Abstract

本发明提供一种基于Attention‑JDE网络的行人多目标跟踪方法，包括将调整分辨率的图片输入至DarkNet‑53骨干网络提取三个不同尺度的特征图，还包括以下步骤：将三个尺度的特征图作为输入，构建特征金字塔；将特征金字塔的输出分别送入特征增强模块，完成特征精炼，输出三个新尺度的新特征图；将新特征图用于检测行人，生成检测框，利用检测框和对应的嵌入特征进行前后帧相同目标匹配形成轨迹。本发明设计了一种基于注意力机制的特征增强模块，让模型更加关注重要的特征，能够结合多种感受野下的特征，通过添加特征增强模块并引入Mish激活函数能够提升模型对于小目标以及重叠目标的跟踪效果。

Description

一种基于Attention-JDE网络的行人多目标跟踪方法

技术领域

本发明涉及图像处理的技术领域，特别是一种基于Attention-JDE网络的行人多目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域的研究热点，研究的内容主要为如何在视频序列中检测定位感兴趣的目标，随后利用算法预测这些目标在后续序列中的位置、状态等信息。多目标跟踪(Multiple Object Tracking，MOT)，是指在不需要事先知道目标的外观和数量的情况下，对视频中的多个物体进行识别和跟踪。MOT算法通常需要利用目标检测算法将感兴趣目标框出，然后将目标的ID与这些检测框进行关联，不同的目标应该分配不同的ID，以区分类内对象形成完整的跟踪轨迹。行人多目标跟踪是多目标跟踪的一个分支，是行人行为分析的底层基础，为场景理解、人群行为分析等高级语义任务服务，被广泛应用于智能视频监控、智能交通、无人驾驶等领域。在行人跟踪任务中，首先需要对视频数据中拆分出的每一帧图像进行行人目标的特征提取、处理和分析，然后将这些信息与下一帧中相应的信息进行匹配完成跟踪。

多目标跟踪的困难主要来源于目标之间的各种遮挡和交叉，这些目标之间通常还会具有高度相似的外观。因此，多数情况下MOT算法的设计都更为复杂，随着深度学习的迅速发展，越来越多的算法开始利用深度学习的表征能力来解决多目标跟踪任务。但是对于复杂场景下的行人目标，遮挡现象发生更为频繁，且行人目标尺度变化大，小尺度目标难以跟踪，这对于深度学习方法仍然面临着一定的挑战。同时，多目标跟踪处理的是图像序列，这对其实时性要求较高，而当前的趋势是通过设计更深层的网络以获得更好的性能，这增加了计算资源的需求，而实际应用中的计算能力往往来自嵌入式设备或移动设备，远不能满足越来越庞大的计算资源需求，深度网络模型在实际应用中面临诸多挑战。因此，如何增强深度模型对于复杂场景下的行人跟踪能力，并且降低模型所需的计算资源，满足实际应用中的部署和实时性要求的研究具有较强的研究意义和实际价值。

多目标跟踪方法可以分为two-step方法和one-shot方法。Two-step多目标跟踪方法也称为tracking-by-detection方法，是指首先从视频帧中获取一组包含感兴趣目标的边界框，随后将前后帧中包含有相同目标的边界框分配为同一ID，这类方法首先需要检测出视频帧中的目标，随后将目标按照检测框裁剪，然后把裁剪的部分输入到嵌入模型中提取嵌入特征，最后根据嵌入特征和检测框进行相同目标之间的关联完成跟踪，因此目标检测算法的质量也会很大程度上影响最终的跟踪结果。Bewley等提出的Simple Online andRealtime Tracking(SORT)是最早利用卷积神经网络检测行人的MOT算法之一。该方法用Faster R-CNN计算的检测结果代替使用聚合通道特征获得的检测结果，他们使用了一种相对简单的关联方法，即使用卡尔曼滤波器预测物体的运动状态，然后借助匈牙利算法使用交并比(Intersection of Union，IoU)距离来计算代价矩阵，从而将检测结果关联起来。SORT方法仅用检测框的交并比距离作为匹配度量，这导致跟踪过程的的ID切换次数过高，DeepSORT方法为了解决这一问题，进一步使用神经网络提取行人目标特征作为重识别特征，并使用所有目标特征之间的余弦距离计算代价矩阵，再结合IoU距离完成前后帧目标之间的匹配关联，最终相比SORT降低了约45％的ID切换次数，但是即使只计算提取嵌入特征消耗的时间，DeepSORT也仅能达到17.4FPS的跟踪速度。文献同样利用Faster R-CNN检测目标，不同的是，他们使用了基于相似性得分的方法计算代价矩阵并且使用了分组模型来完成关联。Yu等人利用改进的Faster R-CNN同样获得了不错的效果，他们在原Faster R-CNN中添加skip-pooling和多区域特征(multi-region features)在MOT行人跟踪数据集上表现良好。与DeepSORT类似，该方法跟踪速度仅为10FPS。此外在Faster R-CNN上添加一个分割分支的Mask R-CNN，被Zhou等人用于检测和跟踪行人同样取得了良好的效果，这两种方法中使用的关联策略都是卡尔曼滤波和匈牙利算法。

One-shot方法在近期逐渐成为了多目标跟踪领域的研究热点，得益于将表观嵌入和目标检测集成到单一网络中并行完成目标检测和表观特征的提取，二者共享了大部分的计算，one-shot方法能够达到远超Tracking by Detection方法的推理速度，但同时会降低准确率。Track-RCNN在Mask-RCNN的顶部添加一个全连接层提取用于数据关联的128维embedding特征，该方法不仅通过检测边界框进行跟踪，而是能够在像素级层面进行目标跟踪。JDE则将YOLOv3的预测头扩展提取embedding特征，随后用卡尔曼滤波和匈牙利算法完成目标的跟踪和匹配，将原YOLOv3方法转化为分类、定位、跟踪的多任务学习网络模型，相比Tracking by Detection方法节省了一个Re-ID模块的推理耗时，最终在准确率可以接近领先的Tracking by Detection方法的同时获得接近实时的推理速度。FairMot在JDE的工作上继续研究，发现Anchor Box并不适用于MOT任务，这是因为Anchor Box和目标区域会出现不对齐的问题，这导致网络训练时存在严重的歧义，此外，当两个目标的位置有部分重叠时，不同的Anchor Box可能会被分配到同一ID上，这两点导致跟踪的准确率降低，基于这一发现，FairMot使用Anchor free的目标检测器作为基础，将CenterNet扩展为目标跟踪模型，在准确率和推理速度上都获得了优于JDE的效果。LIANG等人认为目标的分类和定位需要的特征是类别的特征，而Re-ID需要区分类内的不同目标，在one-shot方法中，将这两种特征同时学习会导致检测和Re-ID的相互竞争，即在一项任务中准确高性能可能会导致另一项任务的性能下降，针对这个问题，提出了交叉相关网络(cross-correlation network)以学习检测和ReID任务的功能的共性和特殊性。对于特异性学习，学习反映不同特征通道之间的相关性的self-relation，以增强每个任务的特征表达。对于共性学习，可以通过精心设计的交叉关系机制来学习两个任务之间的共享信息。

综上所述，大部分Two-step方法的优势是跟踪的准确率较高，但是由于计算量过大导致跟踪速度很慢，因此能够大幅提升跟踪速度的同时准确率仍能保持优秀的One-shot方法正逐渐引起关注。基于此，需要在保留One-shot方法速度优势的同时提升精度，面对图像数据中行人目标尺度变化大，重叠遮挡等问题，需要针对改进，除此之外，在实际应用中能否进一步提升跟踪速度也是一个至关重要的问题。

公开号为CN111767847A的发明专利申请公开了一种集成目标检测和关联的行人多目标跟踪方法，包括如下步骤：采用训练数据集对追踪模型网络进行训练，得到追踪模型；待追踪视频流中第一帧图像先经过所述检测子模型，根据热图和偏移向量生成行人目标的边界框；再经过外观特征提取子模型对每个行人目标提取特征向量并分配ID和轨迹；待追踪视频流中其他帧图像依次通过追踪模型，根据待追踪视频流中相邻两帧图像中特征向量的相似度，确定各个行人在当前帧图像中对应的轨迹位置，并将待追踪视频流中所有帧图像中同一ID对应的轨迹位置连接起来，即为其对应的追踪结果。该方法的缺点是对于小尺度行人目标和重叠目标并不能进行有效的检测和跟踪，这导致该方法在某些复杂场景下的可用性有待提升。

发明内容

为了解决上述的技术问题，本发明提出了一种基于Attention-JDE网络的行人多目标跟踪方法，设计了一种基于注意力机制的特征增强模块，让模型更加关注重要的特征并且能够结合多种感受野下的特征，通过添加这种特征增强模块并引入Mish激活函数能够提升模型对于小目标以及重叠目标的跟踪效果，最终Attention-JDE算法在MOT16数据集取得了比原JDE方法更高的MOTA并且速度可以达到18.8FPS，具有较强的实时性。

本发明提供一种基于Attention-JDE网络的行人多目标跟踪方法，包括将调整分辨率的图片输入至DarkNet-53骨干网络提取三个不同尺度的特征图，还包括以下步骤：

步骤1：将三个尺度的所述特征图作为输入，构建特征金字塔；

步骤2：将所述特征金字塔的输出分别送入特征增强模块，完成特征精炼，同样输出三个新尺度的新特征图；

步骤3：将所述新特征图用于检测行人，生成检测框，利用检测框和对应的嵌入特征进行前后帧相同目标匹配形成轨迹。

优选的是，所述DarkNet-53骨干网络使用Mish激活函数，所述Mish激活函数图像为

f(x)＝x tanh(ln(1+e^x))

其中，x为输入特征。

在上述任一方案中优选的是，所述图像的分辨率被调整为1088×608。

在上述任一方案中优选的是，所述三个尺度分别为1/8、1/16和1/32。

在上述任一方案中优选的是，所述特征增强模块由通道注意力模块、空间注意力模块和空间金字塔池化模块组成。

在上述任一方案中优选的是，所述通道注意力模块的输入为前一次卷积的输出，表示为

其中，

表示通道数为C且宽为W高为H的输出维度

在上述任一方案中优选的是，所述通道注意力模块的工作方法为：

步骤201：利用最大池化和平均池化获取全局的通道特征分布信息，分别表示为

和

其中，

为表示通道数为C且宽高都为1的输出维度，

为通过最大池化获得的通道特征分布信息，

为通过平均池化获得的通道特征分布信息；

步骤202：将上述两个特征向量经过含有一个隐藏层的多层感知机MLP；

步骤203：将得到的特征向量相加并经过一次sigmoid操作σ得到最终的通道注意力权重M_C(F)；

步骤204：通过M_C(F)与原输入特征相乘，为包含关键信息的通道分配高权值，为其他通道分配低权值，实现通道注意力。

在上述任一方案中优选的是，所述通道注意力的公式为

在上述任一方案中优选的是，所述空间注意力模块的工作方法为

步骤211：对输入特征图在通道维度进行最大池化和平均池化，得到

和

其中，

表示通道数为1且宽为W高为H的输出维度，

为最大池化，

为平均池化；

步骤212：将两个特征图在通道维进行拼接并进行一次7×7的卷积操作；

步骤213：将上一步特征图进行sigmoid操作(σ)获得最终的空间注意力权重

步骤214：通过逐点相乘，为原始输入特征的每个像素点分配权重。

在上述任一方案中优选的是，空间注意力机制的公式为

其中，f^7×7为卷积核尺寸为7的卷积操作。

在上述任一方案中优选的是，所述空间金字塔池化模块包含三次最大池化操作，将输入特征

分别进行5×5、9×9和13×13的最大值池化，均通过在特征图周围补0保持特征图大小，接着将三次池化的特征图进行通道维度的拼接完成特征融合。

在上述任一方案中优选的是，空间金字塔池化的计算过程为

其中，Maxpool_n×n()表示核大小为n的最大池化操作，

表示concatenate操作，F_in为输入特征，F_out为输出特征。

在上述任一方案中优选的是，所述步骤3包括使用目标检测分支完成对目标的分类与定位，使用嵌入分支完成目标表观特征的提取及将表观特征用于后续的轨迹关联。

在上述任一方案中优选的是，所述目标检测分支在网络末端的三个尺度的特征图上利用预定义的Anchor box进行回归，每一个尺度上都分配4个尺寸的Anchor box，所述Anchor box的预定义尺寸通过在基准数据集上使用k-means聚类计算获得，共聚成12类，k-means的代价公式为

其中，k为聚类中心数量，c_j为第j个聚类簇，μ_j为第j个聚类中心，给定样本{x⁽¹⁾,...,x^(m)}，x⁽ⁱ⁾为二维向量，即宽和高，随机选取k个聚类中心{μ₁,...,μ_k}，对于每个样本点，遍历所有的k个聚类中心，计算与该样本点x⁽ⁱ⁾的欧氏距离最小的中心μ_j，将x⁽ⁱ⁾的类别设为μ_j所对应的簇c_i，即

c_i：＝argmin||x⁽ⁱ⁾-μ_j||²

在更新完所有样本的类别后，计算每个簇c_i中所有样本的均值，并将这个均值作为新的聚类中心，进行下一次迭代，直到聚类中心不再变化或者达到最大迭代次数为止，将最终得到的聚类中心作为Anchor box设定，

根据公式转换为实际图像中的位置，转换公式为

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，(b_x,b_y,b_w,b_h)表示边界框的实际中心坐标和宽高，(t_x,t_y,t_w,t_h)是模型输出的中心坐标和宽高，c_x和c_y分别表示当前网格单元的行号和列号，p_w和p_h分别表示Anchorbox的宽和高，σ表示sigmoid函数。

在上述任一方案中优选的是，所述嵌入分支的工作方法为：

步骤31：在网络的特征金字塔后方添加一次卷积操作，提取一段512维的特征图作为跟踪所需的表观特征，尺寸与相应的特征尺度相同；

步骤32：通过多目标跟踪中常用的卡尔曼滤波和匈牙利算法，利用前面提取的表观特征完成轨迹关联。

本发明提出了一种基于Attention-JDE网络的行人多目标跟踪方法，提出的特征增强模块能够有效地增强模型的特征提取能力，从而提升对于小尺度行人和遮挡行人的跟踪效果，并且引入Mish激活函数，进一步增强了模型的跟踪精度，将这些改进用于JDE方法，提出的Attention-JDE能够实现接近实时的行人多目标跟踪。

附图说明

图1为按照本发明的基于Attention-JDE网络的行人多目标跟踪方法的一优选实施例的流程图。

图2为按照本发明的基于Attention-JDE网络的行人多目标跟踪方法的Attention-JDE网络的一优选实施例的结构示意图。

图3为按照本发明的基于Attention-JDE网络的行人多目标跟踪方法的Mish激活函数的一优选实施例的示意图。

图4为按照本发明的基于Attention-JDE网络的行人多目标跟踪方法的特征增强模块的一优选实施例的示意图。

图5为按照本发明的基于Attention-JDE网络的行人多目标跟踪方法的通道注意力模块的一优选实施例的示意图。

图6为按照本发明的基于Attention-JDE网络的行人多目标跟踪方法的空间注意力模块的一优选实施例的示意图。

图7为按照本发明的基于Attention-JDE网络的行人多目标跟踪方法的Attention-JDE输出层的一优选实施例的示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，执行步骤100，将调整分辨率的图片输入至DarkNet-53骨干网络提取三个不同尺度的特征图。所述图像的分辨率被调整为1088×608，三个尺度分别为1/8、1/16和1/32。DarkNet-53骨干网络使用Mish激活函数，所述Mish激活函数图像为

f(x)＝x tanh(ln(1+e^x))

其中，x为输入特征。

执行步骤110，将三个尺度的所述特征图作为输入，构建特征金字塔。

执行步骤120，将所述特征金字塔的输出分别送入特征增强模块，完成特征精炼，同样输出三个新尺度的新特征图。特征增强模块由通道注意力模块、空间注意力模块和空间金字塔池化模块组成。通道注意力模块的输入为前一次卷积的输出，表示为

其中，

表示通道数为C且宽为W高为H的输出维度。通道注意力模块的工作方法为：

执行步骤1201，利用最大池化和平均池化获取全局的通道特征分布信息，分别表示为

和

其中，

表示通道数为C且宽高都为1的输出维度，

为通过最大池化获得的通道特征分布信息，

为通过平均池化获得的通道特征分布信息；

执行步骤1202，将上述两个特征向量经过含有一个隐藏层的多层感知机MLP；

执行步骤1203，将得到的特征向量相加并经过一次sigmoid操作σ得到最终的通道注意力权重M_C(F)；

执行步骤1204，通过M_C(F)与原输入特征相乘，为包含关键信息的通道分配高权值，为其他通道分配低权值，实现通道注意力。

通道注意力的公式为

所述空间注意力模块的工作方法为

执行步骤1211，对输入特征图在通道维度进行最大池化和平均池化，得到

和

其中，

为表示通道数为1且宽为W高为H的输出维度；

执行步骤1212，将两个特征图在通道维进行拼接并进行一次7×7的卷积操作；

执行步骤1213，将上一步特征图进行sigmoid操作(σ)获得最终的空间注意力权重

执行步骤114，通过逐点相乘，为原始输入特征的每个像素点分配权重。

空间注意力机制的公式为

其中，f^7×7为卷积核尺寸为7的卷积操作。

空间金字塔池化模块包含三次最大池化操作，将输入特征

分别进行5×5、9×9和13×13的最大值池化，均通过在特征图周围补0保持特征图大小，接着将三次池化的特征图进行通道维度的拼接完成特征融合。空间金字塔池化的计算过程为

其中，Maxpool_n×n()表示核大小为n的最大池化操作，

表示concatenate操作，F_in为输入特征，F_out为输出特征。

执行步骤130，将所述新特征图用于检测行人，生成检测框，利用检测框和对应的嵌入特征进行前后帧相同目标匹配形成轨迹。使用目标检测分支完成对目标的分类与定位，使用嵌入分支完成目标表观特征的提取及将表观特征用于后续的轨迹关联。

目标检测分支在网络末端的三个尺度的特征图上利用预定义的Anchor box进行回归，每一个尺度上都分配4个尺寸的Anchor box，所述Anchor box的预定义尺寸通过在基准数据集上使用k-means聚类计算获得，共聚成12类，k-means的代价公式为

其中，k为聚类中心数量，c_j为第j个聚类簇，μ_j为第j个聚类中心，给定样本{x⁽¹⁾,...,x^(m)}，x⁽ⁱ⁾在本文中是二维向量，即宽和高，随机选取k个聚类中心{μ₁,...,μ_k}，对于每个样本点，遍历所有的k个聚类中心，计算与该样本点x⁽ⁱ⁾的欧氏距离最小的中心μ_j，将x⁽ⁱ⁾的类别设为μ_j所对应的簇c_i，即

c_i：＝argmin||x⁽ⁱ⁾-μ_j||²

根据公式转换为实际图像中的位置，转换公式为

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

所述嵌入分支的工作方法为：

执行步骤130，在网络的特征金字塔后方添加一次卷积操作，提取一段512维的特征图作为跟踪所需的表观特征，尺寸与相应的特征尺度相同；

执行步骤130，通过多目标跟踪中常用的卡尔曼滤波和匈牙利算法，利用前面提取的表观特征完成轨迹关联。

实施例二

现有行人多目标跟踪的工作，存在模型计算量大，跟踪速度慢的缺点，并且跟踪精度仍有提升空间，尤其对于小尺度行人和遮挡行人的跟踪效果较差。本发明提出的特征增强模块能够有效地增强模型的特征提取能力，从而提升对于小尺度行人和遮挡行人的跟踪效果，并且引入Mish激活函数，进一步增强了模型的跟踪精度，将这些改进用于JDE方法，提出的Attention-JDE能够实现接近实时的行人多目标跟踪。

Attention-JDE网络使用修改的DarkNet-53作为骨干网络，共有5次下采样操作，利用最后三次下采样得到的特征图构建特征金字塔，在特征金字塔的三个尺度的特征图之后分别接入本文提出的特征增强模块，通过特征增强模块能够进一步获得多尺度特征，增强对于小尺度目标的跟踪能力，并且能够使得网络更加关注重要的特征，增强对于重叠目标的检测能力，最后利用三个尺度下的特征图进行预测，输出最终结果，整体网络结构如图2所示。

骨干网络：本发明骨干网络根据DarkNet-53修改设计，该网络在DarkNet-19的基础上加入了残差模块并且使用了大量的3×3和1×1卷积构成的Bottleneck结构，使网络扩展到了53层。如表1所示，DarkNet-53共包含5次下采样卷积操作，每次下采样卷积操作使特征图大小缩小至一半，同时通道数增加一倍，网络末端的特征图比初始输入降低了32倍，因此初始输入图像的大小应该为32的整数倍，本文根据视频数据集的分辨率，将原网络的输入大小修改为1088×608，网络末端输出的特征图大小为34×19，利用最后三个尺度的特征图构建特征金字塔，利用特征金字塔完成多尺度特征融合，有利于提取小尺度目标的特征。除此之外，本文将原DarkNet-53使用的Leaky Relu激活函数替换为Mish激活函数，Mish激活函数是一个光滑的、连续的、非单调函数，并且Mish激活函数无上界有下界，使用Mish激活函数能够让模型的梯度传导更加平滑，保留更多的有效信息，增强模型的泛化能力，在Attention-JDE中使用Mish激活函数能够提升模型对于目标的检测能力，从而更有利于对重叠目标的检测与跟踪，有效的减少ID切换的发生，Mish激活函数的数学形式如公式(1)所示，函数图像如图3所示，

f(x)＝xtanh(ln(1+e^x))#(1)

其中ln表示自然对数，而

特征增强模块：本文在骨干网络末端增加了特征增强模块，如图4所示。特征增强模块由通道注意力模块、空间注意力模块以及空间金字塔池化模块组成，使用该特征增强模块能够有效的提炼关键特征，同时扩大模型感受野，提高特征提取效率。

(a)通道注意力模块

通道注意力模块的输入为前一次卷积的输出，表示为

如图5所示，利用最大池化和平均池化获取全局的通道特征分布信息，分别表示为

下一步将上述两个特征向量经过含有一个隐藏层的多层感知机(MLP)，再将得到的特征向量相加并经过一次sigmoid操作(σ)得到最终的通道注意力权重M_C(F)，通过M_C(F)与原输入特征相乘，为包含关键信息的通道分配高权值，为其他通道分配低权值，从而实现通道注意力，通道注意力的数学公式表示如公式(3)所示：

(b)空间注意力模块

在完成通道注意力权重分配后，继续利用空间注意力模块对空间特征进行权重分配，如图6所示，首先对输入特征图在通道维度进行最大池化和平均池化，得到

接下来将两个特征图在通道维进行拼接并进行一次7×7的卷积操作，不改变特征图大小，再将上一步特征图进行sigmoid操作(σ)获得最终的空间注意力权重，最后通过逐点相乘，目的为原始输入特征的每个像素点分配权重，空间注意力机制表示如公式(4)所示：

其中f^7×7表示卷积核尺寸为7的卷积操作。

(c)空间金字塔池化模块

空间金字塔池化模块(SPP)属于多尺度融合的一种，使用SPP能够扩大模型感受野，使特征包含更多的上下文信息，从而增加模型的目标检测精度，进而提升目标跟踪效果。SPP模块包含三次最大池化操作，将输入特征

分别进行5×5，9×9，13×13的最大值池化，均通过在特征图周围补0保持特征图大小，接着将三次池化的特征图进行通道维度的拼接完成特征融合，SPP的计算过程如公式(5)所示：

其中Maxpool_n×n()表示核大小为n的最大池化操作，

表示concatenate操作。

表1 DarkNet-53网络结构

结果预测：如图7所示，Attention-JDE的输出层可分为两个分支，分别是目标检测分支和嵌入分支，其中目标检测分支完成对目标的分类与定位，嵌入分支完成目标表观特征的提取，随后将表观特征用于后续的轨迹关联。

(a)目标检测分支

采用与YOLOv3相同的方式，本文将目标的分类与定位视为回归任务，在网络末端的三个尺度的特征图上利用预定义的Anchor box进行回归，每一个尺度上都分配4个尺寸的Anchor box。Anchor box的预定义尺寸通过在基准数据集上使用k-means聚类计算获得，共聚成12类，公式(6)表示k-means的代价函数，

给定样本{x⁽¹⁾,...,x^(m)}，x⁽ⁱ⁾在本文中是二维向量，即宽和高，首先随机选取k个聚类中心{μ₁,...,μ_k}，对于每个样本点，遍历所有的k个聚类中心，计算与该样本点x⁽ⁱ⁾的欧氏距离最小的中心μ_j，将x⁽ⁱ⁾的类别设为μ_j所对应的簇c_i，即c_i：＝argmin||x⁽ⁱ⁾-μ_j||²#(7)

接着在更新完所有样本的类别后，计算每个簇c_i中所有样本的均值，并将这个均值作为新的聚类中心，进行下一次迭代，直到聚类中心不再变化或者达到最大迭代次数为止，将最终得到的聚类中心作为本文的Anchor box设定。

根据输入图像的尺寸1088×608，对应网络末端的三个尺度的特征图，分别在图像上划分136×76，68×38，34×19个网格单元，当Ground Truth中目标的坐标落入的网格单元时，那么这个网格单元就负责预测这个目标，利用逻辑回归，得到n_a×(1+4+len(classes))维的向量作为检测结果输出，其中n_a对应每个网格单元上分配的anchor box的数量，在这里设置为4，1对应目标置信度，4对应边界框的中心坐标和宽高，len(classes)对应目标种类的数量。此外，网络输出的边界框的坐标实际上是相对于网格单元的偏移量，因此根据公式(8)转换为实际图像中的位置，(t_x,t_y,t_w,t_h)是模型输出的中心坐标和宽高，σ表示sigmoid函数，c_x,c_y分别表示当前网格单元的行号和列号，p_w,p_h分别表示Anchor box的宽和高，(b_x,b_y,b_w,b_h)表示边界框的实际中心坐标和宽高。

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

(b)嵌入分支

嵌入分支的作用是生成一段能够用于区分同类内不同目标的特征，因此，本文在网络的特征金字塔后方添加一次卷积操作，提取一段512维的特征图作为跟踪所需的表观特征，尺寸与相应的特征尺度相同，为136×76、68×38、34×19，对于单个目标，表观特征就是特征图中的单个512维的特征向量，随后通过多目标跟踪中常用的卡尔曼滤波和匈牙利算法，利用前面提取的表观特征完成轨迹关联，具体做法是，首先根据视频第一帧的检测结果初始化一些轨迹，对于后续帧中检测出的目标，根据它们与现有轨迹之间的表观特征的距离和交并比计算代价矩阵，利用匈牙利算法完成匹配，除此之外还利用卡尔曼滤波预测目标在当前帧的位置，当目标位置与其被分配的轨迹距离超过设定的阈值时放弃匹配这个目标。如果某条轨迹没有被分配新的目标，就将这条轨迹标记为丢失状态，当某条轨迹丢失时间超过给定的阈值时，就放弃继续更新这条轨迹。

实施例三

本发明首先探讨了不同类型的注意力机制对跟踪效果的影响，包括空间域注意力机制(SAM)、通道域注意力机制(CAM)和混合域注意力机制(CBAM)，表2展示了上述几类注意力机制对Attention-JDE的影响，数据在MOT16训练集上验证获得。可以看出SAM对模型提升比CAM大，究其原因，MOT16数据集中的目标类别仅包含行人一类，所以对网络模型的分类能力要求较低，对定位能力要求较高，因此能够使网络更关注目标“在哪里”的空间域注意力机制能够为模型带来更大的提升。此外，本文探讨了混合域中两种排列方式对结果的影响，可以发现，在空间域之后添加通道域后效果反而不如单独添加空间域。

表2不同注意力机制间的对比结果

表3展示了Attention-JDE在MOT16测试集上与其他主流方法的对比，Attention-JDE可以达到62.1％MOTA，同时FPS能够达到19.5，值得注意的是，表3中其他方法都是two-step方法，因此表中的FPS数据只与关联步骤有关，实际应用中检测步骤会消耗更多的时间，而Attention-JDE属于one-shot方法，推理速度与整个系统中从检测到关联所有步骤有关。

表3不同方法在MOT16测试集上的结果对比

同时，本文做了相应的消融实验，如表4所示，本文在JDE方法基础上添加各模块以及修改骨干网络激活函数对MOT16训练集上MOTA的影响。结果显示，添加CBAM后MOTA提升了2.2，添加SPP模块后MOTA提升了1.8，但是也会导致更多的IDSw(ID切换)，使用Mish激活函数MOTA能够提升0.7，同时能够降低IDSw约10％。结果表明，添加特征增强模块后能够有效的提升模型性能，使用Mish激活函数能够有效的改善跟踪过程中的ID切换问题，最终在只降低1.8FPS的情况下提升了2.6MOTA，同时能够减少IDSw。

表4各模块消融实验

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。