CN114926859A

CN114926859A - 一种结合头部跟踪的密集场景下行人多目标跟踪方法

Info

Publication number: CN114926859A
Application number: CN202210513751.8A
Authority: CN
Inventors: 戚周铭; 周冕; 丛钶伦; 刘文轩; 朱国强; 高毅
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2022-01-04
Filing date: 2022-05-12
Publication date: 2022-08-19

Abstract

一种结合头部跟踪的密集场景下行人多目标跟踪方法。为减小密集场景中严重的遮挡现象给跟踪器带来性能下降的负面影响，考虑到头部是行人整个身体最高最不易被遮挡的部位，本发明设计了一种新型的结合头部跟踪的行人多目标跟踪方法。首先，使用头部跟踪器生成行人头部运动轨迹，同时检测出行人的全身边界框；其次计算头部边界框和全身边界框之间的关联程度，使用匈牙利算法对上述计算结果进行匹配；最后根据匹配结果将头部轨迹中头部边界框替换为全身边界框，并输出密集场景下行人全身的运动轨迹。实验证明，本发明有效降低了密集场景下严重遮挡为跟踪器带来的漏报和误报等负面影响。

Description

一种结合头部跟踪的密集场景下行人多目标跟踪方法

【技术领域】

本发明涉及人工智能的多目标跟踪领域，具体而言是一种基于深度学习的，结合头部跟踪的密集场景下行人多目标跟踪方法。

【背景技术】

多目标跟踪(MultipleObjectTracking，MOT)算法是一种通用的算法，可以应用在视觉领域的各个方面，常见的有安防领域、自动驾驶领域以及医疗领域。先检测后跟踪(TrackingByDetection，TDB)是MOT领域的一种范式，TDB具有精度高、速度快、具备实时性的特点，是当前行人多目标跟踪领域的主流方法。DeepSort是一种遵从TDB范式的多目标跟踪算法：在运行DeepSort之前，首先要用检测器在视频的每一帧图片中检测出感兴趣的目标，然后使用卡尔曼滤波器、匈牙利算法、特征提取器等组件，综合考虑目标边界框的运动轨迹、外观相似度、运动相似度等信息，按照预测、匹配、更新的流程来计算目标的运动轨迹。DeepSort运行速度快、可以满足实时性、拥有较高的准确度，因此是目前工业界使用率最高的MOT算法之一。粒子滤波(ParticleFilter)是另外一种多目标跟踪方法，它建立起一组在状态空间中传播的随机样本，使用样本的均值将来寻找目标，进而获得系统状态的最小方差估计，这些样本被形象地称为“粒子”。可以将粒子滤波分为四部分：①目标初始化②目标搜索③加权决策④目标重采样，粒子滤波在运行时按照①->②->③->④->②->③->④……的操作顺序来获得每一帧中目标的运动轨迹。

在多目标跟踪算法的实现过程中，目标被遮挡一直是令研究者头疼的问题。遮挡表现为目标信息的丢失，而跟踪算法的关键就是搜索到足够多的目标信息并判定目标所在，所以遮挡给目标跟踪的可靠性带来很大挑战，可能导致跟踪的不稳定甚至丢失目标。相较于一般的多目标跟踪场景，密集场景中庞大的目标数量导致目标间存在着更严重的互遮挡现象，因此密集场景中目标被遮挡的频率和遮挡程度也更加严重。如何有效的处理遮挡，特别是密集场景中严重和频繁的遮挡，一直是多目标跟踪中的一个难点。目前多数MOT系统都不能处理较严重的遮挡问题，也不能提供标准来判断何时终止及何时重新开启目标的轨迹轨迹，且在目标丢失情况下没有相应的重新获取目标的引导方法。

【发明内容】

本发明的目的是解决密集场景中的目标严重和频繁的遮挡问题,降低密集场景下目标被遮挡给多目标跟踪工作带来的负面影响。综合考虑到行人的头部是行人全身上最不易被遮挡，而且是一个可以被有效跟踪的身体部位，本发明提出了一种行之有效的结合头部跟踪的多目标跟踪方法，该方法在执行密集场景下的多目标跟踪任务时十分有效。

本发明的技术方案

一种结合头部跟踪的密集场景下行人多目标跟踪方法，该方法处理的对象是在行人密集地点拍摄的一段视频，视频中有多个行人在视频画面中走动；该方法对视频中的每一帧图片，按照如下步骤进行操作：

第1步、头部轨迹和全身边界框的生成；

以原始视频帧作为跟踪器的输入，使用头部跟踪器生成行人运动时的带有头部边界框的头部轨迹，同时使用全身检测器生成全身边界框。

第1.1步、头部跟踪的流程符合先检测后跟踪(TrackingByDetection)范式，即先使用头部检测器检测图片中行人头部边界框，然后根据检测结果完成头部跟踪任务。头部检测器的流程如下：

1)使用带有特征金字塔模型和上下文预测模块(ContextSensitivePredictionModule)的Resnet50对图片提取特征；

2)随后使用转置卷积(TransposeConvolution)来提高特征映射的空间分辨率；

3)受到FasterRCNN设计结构的启发，最后将之前步骤1)中提取到图片中头部特征信息输入区域提取网络，后接种类预测模块和边界框预测模块，最终输出行人头部边界框；

第1.2步、接下来根据头部检测器的检测结果对行人头部进行跟踪，头部跟踪器由粒子滤波器(ParticleFilter)改进而来，头部跟踪的流程如下：

1)在视频的开头完成对轨迹的初始化工作，根据边界框在前一帧中的位置，使用头部检测器中的回归头来调整当前帧中每个粒子的位置；

2)接下来使用重采样(Resample)来替换重要性不高的粒子，以降低退化带来的影响；

3)最后使用恒定速度假设(ConstantVelocityAssumption)模型来恢复一些已经被设为非激活状态的轨迹。

第1.3步、使用全身检测器生成全身边界框的流程如下：

1)在Faster-RCNN的基础之上，后接两个1024维的全连接层，由EMD(EarthMover’sDistanceLoss)损失函数获得两组边界框的实例数据。

2)使用一个精炼模块(RefinementModule)对输出结果进行微调，增强全身检测器在密集场景中的泛化能力。

第2步、判断头部边界框和全身边界框是否属于同一目标即行人；

1)使用新型的边界框相似度度量方法包含比(IntersectionOverContainment，IOC)计算当前帧中头部边界框和全身边界框之间的关联程度，IOC通过计算头部边界框被身体边界框包含的程度，反映了头部边界框和身体边界框的对应程度，其具体的计算方式为：头部边界框与全身边界框相交部分的面积除以整个全身边界框的面积，根据IOC的属性,其值域为[0,1]。

2)将IOC的计算结果输入匈牙利算法，匈牙利算法可以将属于同一目标的头部边界框和全身边界框关联起来，得到头部边界框和全身边界框的匹配结果。

第3步、全身运动轨迹的最终确认；

根据第2步的匹配结果，将第1步得到的头部轨迹里的头部边界框替换为全身边界框，本发明的最终输出为包含行人全身边界框的行人全身运动轨迹。

本发明的优点和积极效果

头部是行人全身最高且最不易被遮挡的部位，这一点体现在：密集场景下头部检测器能检测出大量身体检测器不能检测到的目标：在输入同一张图片的前提下，头部检测器检测出64个行人头部边界框，而全身检测器仅能检测出71个目标中的46个，具体效果如图1所示。再一点，相较于行人的整个身体，头部拥有更小的尺寸，这意味着即便在一些特殊情况中头部被遮挡，由于其体态较小的特点，头部信息很快又会重新出现在画面中，而跟踪器往往能在一定程度上恢复短期被遮挡目标的轨迹。因此，在密集场景中使用头部跟踪取代身体跟踪，可以在相当程度上降低由严重遮挡带来的负面影响。

为了解决多目标跟踪器在密集场所表现不佳的问题，综合考虑到行人的头部在密集场景中更适合作为MOT任务的跟踪对象，本发明提出了一种新颖的结合头部跟踪的密集场景下行人多目标跟踪方法。本发明在取得头部运动轨迹的基础上，将头部边界框与全身边界框进行匹配，最后根据匹配结果将头部轨迹中的头部边界框替换为全身边界框。本发明在保证了跟踪精度的基础之上，有效降低了遮挡带来的漏报和误报问题，提高了多目标跟踪器在密集场景中的实际表现。本发明可以在人流量密集的地点和场所，如机场、车站、体育馆、购物中心、十字路口等，执行多目标跟踪任务，具有一定的实用价值。

【附图说明】

图1是头部检测器和身体检测器在密集场景下的效果比较，头部检测器检测出64个行人头部边界框，而全身检测器仅能检测出71个目标中的46个；

图2是本发明整体网络的结构图，对跟踪视频中的每一帧图片执行图中所示的操作。

图3是本发明中头部检测器结构图；

图4是全身检测器结构图，其中(a)为全身检测器的结构图，(b)为全身检测器中精炼模型部分的结构图；

图5是二分图的经典结构：X和Y是两个点集，每个点集中都有若干个端点，端点之间的连线表示两个端点之间的权重；

图6是包含比IOC和交并比IOU(IntersectionOverUnion)的定义，并将两者进行对比；

图7是本发明与多种多目标跟踪算法的对比图，其中“↑”表示该指标越高越好，“↓”表示该指标越低越好。

【具体实施方式】

实施例

一种结合头部跟踪的密集场景下行人多目标跟踪方法，本发明的输入为一段由固定相机录制的关于行人走动的视频录像，本发明由3部分组成，整体结构图如图2所示，下面的“第1步”、“第2步”、“第3步”详细描述了对视频中的每一帧图片做出的操作步骤：

第1步、头部轨迹和全身边界框的生成；

使用头部跟踪器和全身检测器分别生成行人运动时的头部轨迹(包含头部边界框)和全身边界框。其中头部跟踪器的设计遵从TDB范式并由头部检测器和头部跟踪器组成，全身检测器在FasterRCNN的基础上改进而来，接下来对本发明中的头部跟踪器和全身检测器分别展开介绍。

第1.1、头部检测器的整体结构如图3所示。本发明的头部检测器是一个端到端的二级检测器，它由三个功能模块组成。首先，使用Resnet50作为骨干网络，使用FPN提取多尺度模型。考虑到头部在密集场景中往往容易受到无关信息的干扰，故在原有基础上添加了一个上下文预测模块(ContextSensitivePredictionModule)。其次，为了提高特征映射的空间分辨率，我们对所有金字塔层次的特征做了一次转置卷积(TransposeConvolution)操作。最后，我们使用了区域提议网络(RegionProposalNetwork)生成目标提议，并使用回归和分类头分别提供位置偏移和置信度评分。

第1.2、将第1.1中头部检测的输出结果输入头部跟踪器，头部跟踪器由粒子滤波器改进而来，其具体的执行流程如下：

在视频的开头处将对轨迹进行初始化，在无法与现有轨迹匹配的边界框处初始化新的轨迹，初始化后的轨迹粒子的表达形式为：

其中(x_c,y_c,w,h)中的每一项分别表示粒子在x轴方向上的中心坐标、y轴方向上的中心坐标、宽度、高度；而带“·”的项表示对粒子的下一步预测。

对于随后的视频帧，在该帧的特征图上执行感兴趣区域池化操作，对头部边界框进行边界框回归来获得前一帧它出现的位置，并根据其回归头的权重为各自的前景框打分。轨迹的预测位置根据粒子的加权平均值决定：

其中

表示第t帧中第k条轨迹的预测；M是粒子的数量；

表示第t帧中与第k条轨迹向关联的第i个粒子；进一步，

表示

的权重。

粒子滤波本身存在退化的问题，因此我们使用了重采样来替换重要性不高的粒子。当有重要影响的粒子数量对回归头的位置产生的影响到达阈值

时，对该粒子进行重采样。

其中，

M、

表达的含义在上文中已给出，此处不再赘述。

当轨道的估计状态s的分数低于阈值μ时，轨道设置为非激活状态。根据恒定速度假设模型(ConstantVelocityAssumption)对这些轨迹下一步的位置进行估计，如果新轨迹的位置与检测结果有较高的相似度，则恢复对这些轨迹的跟踪，相似度C的计算方式为：

其中α和β是代表权重的超参数，IOU(·)表示计算两个边界框之间的IOU值，d¹(·)表示色调饱和度明度(HueSaturationValue)空间中相应颜色直方图之间的巴氏距离(BhattacharyyaDistance)，

分别表示第t帧中第i条非激活状态的轨迹和第j条新初始化后的轨迹。一旦轨迹被重新识别，我们就重新初始化它新位置周围的粒子。

第1.3、全身检测器的整体构造如图4(a)所示。在本发明中，全身检测器需要胜任在密集场景下执行目标检测的任务，然而实际情况是密集场景下互相重叠较严重的目标难以单独处理，因此将数个彼此间IOU较高的边界框融合在一起，融合后的样本G(b_i)描述为：

其中b_i表示提议框；g_i表示真实边界框；

表示所有真实边界框的集合；θ表示IOU计算时的阈值。

在本发明中，第i个提议框的表示方式为(c_i,l_i)，其中c_i表示提议框的目标类别，l_i表示提议框的相对坐标。对于每一帧图片，提议框的数量往往有多个，因此每帧图片的实例预测由一个提议框集合P(b_i)表示：

其中K是一个预设的常数，表示一帧图像中最多有K个目标。

损失函数

的意义是缩小预测集P(b_i)与真实边界框集G(b_i)的位置和置信度差异，本发明中使用的损失函数表示方法如下：

其中π表示一个确切的序列，该序列共有K项，序列中第k项的值为数值k；

和

在上文已给出，此处不再赘述；

表示第π_k个真实边界框；

和

分别表示分类损失函数和回归损失函数。

每一个融合后的样本都包含了数个边界框，这使得预测后的结果包含更多的边界框，这提高了误报的风险，因此加入了一个补充的精炼模块，该模块视输出结果的好坏情况决定是否添加。精炼模块的结构如图4(b)所示，它将预测作为输入，与提议框相结合，来纠正由于融合带来的错误预测。

第1步中得到的头部边界框和全身边界框可以视为一张二分图，二分图(Bipartite Graph)是一类特殊的图，它可以被划分为两个部分，每个部分内的点互不相连，图5是一张典型的二分图。头部边界框和全身边界框分别构成了二分图的两个点集，两点之间的权重由代表这两个点的头部边界框和全身边界框之间的IOC计算结果得来。

IOC反应了行人头部边界框被全身边界框包含的情况，其计算方式为：头部边界框与全身边界框相交部分的面积除以整个全身边界框的面积，根据IOC的属性,其值域为[0,1]。IOC与IOU计算方式略有不同，不同点展现在IOC除的是较大边界框(全身边界框)的面积，而IOU除的是两个边界框相交部分的面积，图6从视觉角度上展示了两者的特点。

将上述构建出来的二分图输入匈牙利算法，作为一种分配算法，匈牙利算法完成目标(行人)头部边界框和全身边界框的匹配工作。

第3步、全身运动轨迹的最终确认；

根据第2步中头部边界框与全身边界框的匹配情况，将第1步中头部运动轨迹中的头部边界框替换为第1步中得到的身体边界框。对于没有头部边界框与之匹配的身体边界框，和没有身体边界框与之匹配的头部边界框，将直接被舍弃。

我们为本发明做了相应的实验来验证本发明的实际效果，实验的具体内容如下。

MOT Challenge(https://motchallenge.net/)是多目标跟踪领域一个很有影响力的比赛，自从MOT Challenge于2015年发布其第一个多目标跟踪数据集以来，每年都有多篇参赛项目论文被计算机视觉顶会收录，目前大多数行人多目标跟踪的论文也都会使用其中的若干项目来完成自己的实验。MOT Challenge主要专注于多目标行人跟踪，视频分辨率大多为1920*1080，且持续一分钟左右，视频中的绝大多数目标经常会出现遮挡现象。其最新发布的项目，如MOT20、HT21等，属于密集场景的下的多目标跟踪，目标数量庞大，里面的遮挡频率和遮挡程度也都更加频繁。

本发明的实验部分使用了MOT Challenge中的MOT20数据集作为训练集和测试集。MOT20是一个关于密集场景下多目标行人跟踪的数据集，分为训练集和测试集：其中训练集有4个视频序列，共有持续357秒的8931帧图片，目标总的数目为1336920，平均每帧有149.7个目标；测试集有4个视频序列，共有持续178秒的4479帧图片，目标总的数目为765465，平均每帧有170.9个目标。视频拍摄了涵盖广场、车站、街道等行人密集的场所，有在白天拍的，也有晚上拍的，丰富的场景元素可以更加充分地证明跟踪器的性能。

MOTA(MultipleObjectTrackingAccuracy，多目标跟踪准确度，有时也被称为Clear)是MOT领域最常见的评估指标，该指标将跟踪过程中的漏检、误检、目标ID交换等因素综合在一起计算，比较全面地反应了跟踪器的跟踪质量，该数值越高表示跟踪的效果越好，MOTA的计算方式如下：

其中FP(FalsePositive，被模型预测为正的负样本)表示输出结果中的漏检现象；FN(FalseNegative，被模型预测为负的正样本)表示输出结果的误检现象；IDs(ID Switch)表示输出结果中轨迹ID互换的现象，它体现了跟踪器跟踪结果结果的稳定性；gt(GroundTruth，真实结果)是人工手动标注的真实目标；∑_t(·)表示在总帧数为t的视频序列中出现相应现象出现的总次数。

IDF1(Identification F-Score，识别F值)是指每个行人框中行人ID识别的F值，体现了正确识别的检测与平均真实数和计算检测数之比。MOTA的侧重点是跟踪的轨迹是否存在，忽视了多个目标相互之间的ID特性，IDF1的存在弥补了MOTA在这方面的不足，IDF1的计算方式如下：

其中IDTP表示输出结果中目标ID被模型预测为正的正样本出现次数，IDFP表示输出结果中目标ID被模型预测为正的负样本出现次数，IDFN表示输出结果中目标ID被模型预测为负的正样本出现。

MOTA和IDF1的配合使用，可以互相弥补彼此之间的不足，全面地展示了多目标跟踪器输出结果的质量。

我们在MOT20数据集上将本发明的实际表现与其它数个多目标跟踪器进行对比，实验结果如图7所示。由图7可以看出本发明在MOTA和IDF1这两个最为重要的两个指标上均取得了较好的结果，本发明在处理密集场景的行人多目标跟踪任务时较现有方法有明显的提升。在行人密集地点如车站、十字路口、体育馆、医院等执行多目标跟踪任务时，应用改技术能够提供较大的帮助。

Claims

1.一种结合头部跟踪的密集场景下行人多目标跟踪方法，该方法处理的对象是在行人密集地点拍摄的一段视频，视频中有多个行人在视频画面中走动；该方法对视频中的每一帧图片，按照如下步骤进行操作：

第1步、头部轨迹和全身边界框的生成；

以原始视频帧作为跟踪器的输入，使用头部跟踪器和全身检测器分别生成行人运动时带有头部边界框的头部运动轨迹和全身边界框；

使用新型的边界框相似度度量方法包含比(IntersectionOverContainment，IOC)计算当前帧中头部边界框和全身边界框之间的关联程度，将IOC的计算结果输入匈牙利算法(HungarianAlgorithm)，匈牙利算法进一步计算后得到头部边界框和全身边界框的匹配结果；

第3步、全身运动轨迹的最终确认；

根据第2步的匹配结果，将第1步得到的头部轨迹中头部边界框替换为全身边界框，得到的结果是包含行人全身边界框的行人全身运动轨迹，将该结果作为最终输出。

2.根据权利要求1所述的结合头部跟踪的密集场景下行人多目标跟踪方法，其特征在于，第1步中所述使用头部跟踪器和全身检测器分别生成带有头部边界框的头部轨迹和全身边界框的方法如下：

第1.1步、头部跟踪的流程符合先检测后跟踪(TrackingByDetection)范式，即先使用头部检测器检测图片中行人头部边界框，然后根据检测结果完成头部跟踪任务；

头部检测器的流程如下：

3)最后使用恒定速度假设(ConstantVelocityAssumption)模型来恢复一些已经被设为非激活状态的轨迹；

第1.3步、使用全身检测器生成全身边界框的流程如下：

1)在Faster-RCNN的基础之上，后接两个1024维的全连接层，由EMD损失(EarthMover’sDistanceLoss)函数获得两组边界框的实例数据；

3.根据权利要求1所述的结合头部跟踪的密集场景下行人多目标跟踪方法，其特征在于，第2步所述使用IOC计算当前帧中头部边界框和全身边界框之间的关联程度的方法是，IOC通过计算头部边界框被身体边界框包含的程度，反映头部边界框和身体边界框的对应程度，具体的计算方式为：头部边界框与全身边界框相交部分的面积除以整个全身边界框的面积，根据IOC的属性,其值域为[0,1]；将IOC的计算结果输入匈牙利算法，能够将属于同一目标的头部边界框和全身边界框关联起来。