CN117173221A

CN117173221A - 一种基于真实性分级与遮挡恢复的多目标跟踪方法

Info

Publication number: CN117173221A
Application number: CN202311213833.1A
Authority: CN
Inventors: 齐冬莲; 金浩远; 闫云凤; 李启; 韩睿; 梅冰笑; 汪泽州; 陈刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-05
Anticipated expiration: 2043-09-19
Also published as: CN117173221B

Abstract

本发明公开了一种基于真实性分级与遮挡恢复的多目标跟踪方法，涉及复杂场景安全管控的多目标跟踪技术领域。包括以下步骤：图像采集、目标检测、检测分级、分级匹配、轨迹输出。本发明有助于解决多目标跟踪领域中长期困扰的遮挡问题，构建的全新算法框架可达到先进的跟踪性能，提高了方法对于复杂环境的适应能力，可适应难度较高的视频监控安全管控任务。

Description

一种基于真实性分级与遮挡恢复的多目标跟踪方法

技术领域

本发明涉及复杂场景安全管控的多目标跟踪技术领域，尤其涉及一种基于真实性分级与遮挡恢复的多目标跟踪方法。

背景技术

多目标跟踪是计算机视觉中的一项重要任务，其场景人员分析能力在视频监控安全管控等关键领域有着广泛的应用。在一些最先进的方法中，通过检测进行跟踪是一种典型且广泛使用的算法范式。该范式为了解决检测和匹配的双重问题，构建了一个两阶段的框架，利用检测器识别视频帧图像中的类别目标，继而利用相似度信息实现目标与轨迹的匹配，从而实现在线多目标跟踪。相关方法在各类多目标数据集上都表现出来卓越的跟踪性能。

然而，仍然有许多挑战没有得到充分解决，如遮挡、摄像机运动和图像模糊等。其中，复杂场景下等遮挡是一个尤其普遍和严峻的影响因素。针对目标因遮挡造成其可见区域的减少这一难题，已有一些工作探索了利用语义分割、深度估计等一些潜在的解决方案，虽然起到了一定的改善作用，但效果仍然十分有限，导致方法在复杂场景中无法实现令人满意的效果。

通过深入研究通过检测进行跟踪范式可知，遮挡现象对跟踪方法的三个方面造成了较大的影响：首先，检测器输出的检测分数将无法准确地评估遮挡目标的存在性，使得部分遮挡目标因低分而和误检目标一起被丢弃；其次，重叠度衡量的是遮挡目标之间的可见区域重叠程度，无法反应真实区域的位置相似度；最后，常见的行人重识别模块所提取的遮挡目标外观特征十分有限且可靠性低，无法提供有效的外观相似度。

因此，如何提供一种基于真实性分级与遮挡恢复的多目标跟踪方法，解决多目标跟踪领域中长期困扰的遮挡问题，达到先进的跟踪性能，提高方法对于复杂环境的适应能力，适应难度较高的视频监控安全管控任务，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于真实性分级与遮挡恢复的多目标跟踪方法，可以达到具有先进的跟踪性能，提高了方法对于复杂环境的适应能力并提高了分级匹配策略的有效性与鲁棒性的效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于真实性分级与遮挡恢复的多目标跟踪方法，包括以下步骤：

S1、图像采集：采集待测视频帧图像；

S2、目标检测：将S1中的视频帧图像输入至训练好的YOLOX模型中进类别目标检测，输出视频帧图像中所有检测目标的区域坐标及置信度；

S3、检测分级：利用综合性指标存在性分数对S2中所得的检测目标进行真实性评估，检测目标对应的置信度用于存在性分数的计算；通过设定分数阈值将检测目标分为高真实性检测目标和低真实性检测目标；

S4、分级匹配：根据S3中的检测目标分级结果，结合分级匹配策略，高真实性检测目标优先与预测轨迹进行匹配，匹配依据为位置相似度及外观相似度，位置相似度依据采用结合遮挡恢复前处理的恢复重叠度衡量，外观相似度依据通过遮挡行人重识别模块获取，并采用相似度融合矩阵进行组合；低真实性检测目标则与未匹配的预测轨迹进行匹配，匹配依据为位置相似度；

S5、轨迹输出：在S4中的高真实性匹配过程中，匹配的检测目标用于更新相应的预测轨迹，未匹配的检测目标用于创建新的预测轨迹，将未匹配的预测轨迹传入低真实性匹配环节进行二次匹配，匹配的检测目标用于更新相应的预测轨迹，未匹配的检测目标将判定为误检丢弃，未匹配的预测轨迹将保留预设的时间后删除。

上述的方法，可选的，S2中的YOLOX模型采用了COCO预训练权重，在行人数据集CrowdHuman、Cityperson、ETHZ以及多目标跟踪数据MOT17、MOT20上完成训练及测试。

上述的方法，可选的，S3中的检测目标对应的置信度包含目标置信度和类别置信度；

存在性分数计算方法为：

其中，p_object为目标置信度，表示检测包含类别目标的确定性及目标区域定位的准确度；p_class为类别置信度，表示检测类别预测的准确度；α为超参数，作为目标和类别置信度对于最后分数的权重，其取值范围为[0,1]，α设定为0.9；存在性分数S_e的取值范围为[0,1]。

上述的方法，可选的，S4中的检测目标与预测轨迹匹配方法具体为：采用多目标跟踪方法中的匈牙利匹配算法实现匹配，输出包括成功匹配的检测目标和预测轨迹、未匹配的检测目标和未匹配的预测轨迹。

上述的方法，可选的，S4中的遮挡恢复前处理具体步骤为：

S4011、输入预测轨迹坐标B^T及检测目标坐标B^D：

其中，和/>为预测轨迹及检测目标左下角坐标，/>和/> 为右上角坐标；

S4012、计算预测轨迹的宽w^T和高h^T及检测目标的宽w^D和高h^D：

S4013、计算预测轨迹的中心点C^T及检测目标的中心点C^D：

S4014、计算预测轨迹及检测目标的最大宽高w^r和h^r：

w^r＝max(w^T,h^T)，h^r＝max(w^D,h^D)；

S4015、计算遮挡恢复操作后预测轨迹的宽和高/>及检测目标的宽/>和高

其中，β为遮挡恢复参数，表示遮挡恢复的程度，β设定为2；

S4016、输出恢复后的预测轨迹的坐标及检测目标的坐标/>恢复过程保持中心点不变：

上述的方法，可选的，S4中的遮挡行人重识别模块为基于Transformer的独立嵌入模块，遮挡行人重识别模块采用ViT模型在ImageNet-21K上预训练并在ImageNet1K微调后的权重作为初始权重，而后在MOT17和MOT20上完成训练和测试；遮挡行人重识别模块能够从被遮挡目标有限可见区域提取用于重识别的有效外观特征，作为外观相似度依据。

上述的方法，可选的，S4中的外观相似度依据的获取，具体包括以下步骤：

S4021、根据检测目标和预测轨迹的坐标从视频帧中截取区域图像，经过尺寸调整之后作为遮挡行人重识别模块的输入其中，H、W和C分别为高、宽和通道数；

S4022、将调整后的图像分割为N个固定大小的图像块输入线性投射层，并添加额外可学习的类别嵌入令牌；

S4023、输入l-1层的Transformer编码器后，初步编码分别传入全局分支和重组分支，全局分支输出全局特征f_g，重组分支将图像块进行了重组输出k个局部特征

S4024、将全局特征和局部特征进行拼接得到融合外观特征：

上述的方法，可选的，S4中的相似度融合矩阵计算方式为：

其中，C_ij为第i个预测轨迹和第j个检测目标的相似度损失，为两者检测区域之间的恢复重叠度距离，表示位置相似度，/>为两者外观特征/>和/>之间归一化后的余弦距离，表示外观相似度；ξ为余弦距离权重参数，设定为0.8；θ_riou为恢复重叠度距离阈值，和/>分别为余弦距离高低阈值。

上述的方法，可选的，S5中的更新预测轨迹的具体方法为：采用指数移动平均方式代替特征库来更新匹配的预测轨迹外观特征，

其中，和/>分别为当前视频帧t和前一帧t-1的第i个预测轨迹的综合外观特征，/>为当前视频帧t行人重识别模块输出特征，更新参数γ在本发明中设定为0.9。

上述的方法，可选的，S5中的预测轨迹更新、创建和删除的方法具体为：轨迹更新任务采用卡尔曼滤波器作为线性运动模型，利用成功匹配的检测目标区域坐标信息进行预测轨迹坐标更新；轨迹创建任务仅用于高真实性匹配环节的未匹配检测目标，将其作为新出现的轨迹；轨迹删除任务则针对低真实性匹配环节的未匹配预测轨迹，设定一个预测轨迹保留帧数，在达到该帧数之后，预测轨迹会直接删除，不再恢复。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种基于真实性分级与遮挡恢复的多目标跟踪方法，具有以下有益效果：本发明能够有效解决多目标跟踪领域中长期困扰的遮挡问题，构建的全新算法框架可达到先进的跟踪性能，提高了方法对于复杂环境的适应能力，可适应难度较高的视频监控安全管控任务；依据本发明方法，存在性分数代替粗略设计的检测分数，通过有效评估遮挡目标的真实性，避免大量遮挡目标被跟踪流程丢弃，提高了分级匹配策略的有效性与鲁棒性；依据本发明方法，基于遮挡恢复预处理方法的恢复重叠度有效弥补遮挡目标可见区域与真实区域的差异性，提高了外观相似度的可靠性；依据本发明方法，遮挡行人重识别模块从有限可见区域提取有效外观特征，克服对检测目标质量的依赖性，具有重要的理论与现实意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明公开的一种基于真实性分级与遮挡恢复的多目标跟踪方法方法流程图；

图2为本实施例公开的一种基于真实性分级与遮挡恢复的多目标跟踪方法示意图；

图3为本实施例公开的分数对比可视化示意图；

图4为本实施例公开的遮挡恢复前处理可视化示意图；

图5为本实施例公开的遮挡行人重识别模块结构图；

图6为本实施例公开的数据集验证效果可视化示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

参照图1所示，本发明公开了一种基于真实性分级与遮挡恢复的多目标跟踪方法，包括以下步骤：

S1、图像采集：采集待测视频帧图像；

进一步的，S2中的YOLOX模型采用了COCO预训练权重，在行人数据集CrowdHuman、Cityperson、ETHZ以及多目标跟踪数据MOT17、MOT20上完成训练及测试。

进一步的，参照图3所示，S3中的检测目标对应的置信度包含目标置信度和类别置信度；

存在性分数计算方法为：

进一步的，S4中的检测目标与预测轨迹匹配方法具体为：采用多目标跟踪方法中的匈牙利匹配算法实现匹配，输出包括成功匹配的检测目标和预测轨迹、未匹配的检测目标和未匹配的预测轨迹。

进一步的，参照图4所示，S4中的遮挡恢复前处理具体步骤为：

S4011、输入预测轨迹坐标B^T及检测目标坐标B^D：

S4013、计算预测轨迹的中心点C^T及检测目标的中心点C^D：

S4014、计算预测轨迹及检测目标的最大宽高w^r和h^r：

w^r＝max(w^T,h^T)，h^r＝max(w^D,h^D)；

进一步的，参照图5所示，S4中的遮挡行人重识别模块为基于Transformer的独立嵌入模块，遮挡行人重识别模块采用ViT模型在ImageNet-21K上预训练并在ImageNet1K微调后的权重作为初始权重，而后在MOT17和MOT20上完成训练和测试；遮挡行人重识别模块能够从被遮挡目标有限可见区域提取用于重识别的有效外观特征，作为外观相似度依据。

进一步的，S4中的外观相似度依据的获取，具体包括以下步骤：

S4024、将全局特征和局部特征进行拼接得到融合外观特征：

进一步的，S4中的相似度融合矩阵计算方式为：

进一步的，S5中的更新预测轨迹的具体方法为：采用指数移动平均方式代替特征库来更新匹配的预测轨迹外观特征，

进一步的，S5中的预测轨迹更新、创建和删除的方法具体为：轨迹更新任务采用卡尔曼滤波器作为线性运动模型，利用成功匹配的检测目标区域坐标信息进行预测轨迹坐标更新；轨迹创建任务仅用于高真实性匹配环节的未匹配检测目标，将其作为新出现的轨迹；轨迹删除任务则针对低真实性匹配环节的未匹配预测轨迹，设定一个预测轨迹保留帧数，在达到该帧数之后，预测轨迹会直接删除，不再恢复。

参照图2所示，在本发明的一个具体实施例中，在多目标跟踪公开数据集MOT17和MOT20上进行了进行了实验验证，具体实验设定及结果如下：

MOT17由7个序列5316个视频帧的训练集和7个序列5919个视频帧的测试集组成，包含各种环境、灯光等复杂场景，而MOT20由4个序列8931个视频帧的训练集和4个序列4479个视频帧的测试集组成，包含人群更密集的场景；

选择了CLEAR指标来评估本发明提供的方法，包括FP、FN、IDs、MOTA、HOTA、IDF1和FPS；其中，MOTA基于FP、FN和IDs计算获得以关注检测的性能，IDF1可评估身份保持能力以关注关联的性能，HOTA为高阶跟踪精度以综合评价检测、关联和定位的效果，另外，FPS来体现跟踪方法的实时性；

该方法在4张NVIDIA TeslaA100 GPU上完成目标检测模块和遮挡行人重识别模块的训练，并在单张GPU上进行了推理验证，具体训练数据和重要超参数已在相关步骤提及；

MOT17测试集验证结果如表1所示，MOT20测试集验证结果如表2所示，为了说明方法优异性能，列举了若干最先进的算法作为比较，并对最优结果进行了加粗；另外，同时列出了包含与不包含遮挡行人重识别模块的实验结果，“*”表示包含该模块；MOT17和MOT20数据集验证效果可视化示意图参照图6所示；方法核心组件效果验证结果如表3所示，该验证在MOT17的验证集上进行；

表1MOT17测试集验证结果

表2 MOT20测试集验证结果

方法	MOTA↑	IDF1↑	HOTA↑	FP↓	FN↓	IDs↓	FPS↑
								CSTrack	66.6	68.6	54.0	25404	144358	3196	4.5
GSDT	67.1	67.5	53.6	31913	135409	3131	0.9
								SiamMOT	67.1	69.1	-	-	-	-	4.3
RelationTrack	67.2	70.5	56.5	61134	104597	4243	2.7
								SOTMOT	68.6	71.4	-	57064	101154	4209	8.5
StrongSORT	72.2	75.9	61.5	-	-	1066	1.5
								MAATrack	73.9	71.2	57.3	24942	108744	1331	14.7
OCSORT	75.7	76.3	62.4	19067	105894	942	18.7
								ByteTrack	77.8	75.2	61.3	26249	87594	1223	17.5
本发明方法	78.5	76.7	63.0	24083	85927	1373	33.5
								本发明方法*	78.7	77.5	63.6	24322	84532	1387	20.1

表3核心组件效果验证结果

存在性分数	恢复重叠度	重识别模块	MOTA↑	IDF1↑	IDs↓	FP↓	FN↓
								-	-	-	77.03	80.43	134	3206	9037
√	-	-	77.93	80.65	137	2995	8764
								√	√	-	78.19	81.12	133	2736	8884
√	√	√	78.27	81.85	128	2807	8872

本发明提供的一种基于真实性分级与遮挡恢复的多目标跟踪方法在公开数据集的验证结果可得，即使在不引入遮挡行人重识别模块的情况下，该方法已达到优异性能；通过引入遮挡行人重识别模块，其在MOTA、HOTA和IDF1三个重要指标上都明显优于现有的最先进的多目标跟踪方法，FN指标也表明其通过解决遮挡问题实现了减少检测目标丢弃的目的；核心组件效果验证实验则进一步说明了三个针对性技术均有效缓解了遮挡造成的影响，提升了方法跟踪性能。

为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，包括以下步骤：

S1、图像采集：采集待测视频帧图像；

S5、轨迹输出：在S4中的高真实性匹配过程中，匹配的检测目标用于更新相应的预测轨迹，未匹配的检测目标用于创建新的预测轨迹，将未匹配的预测轨迹传入低真实性匹配环节进行二次匹配，匹配的检测目标用于更新对应的预测轨迹，未匹配的检测目标将判定为误检丢弃，未匹配的预测轨迹将保留预设的时间后删除。

2.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S2中的YOLOX模型采用了COCO预训练权重，在行人数据集CrowdHuman、Cityperson、ETHZ以及多目标跟踪数据MOT17、MOT20上完成训练及测试。

3.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S3中的检测目标对应的置信度包含目标置信度和类别置信度；

存在性分数计算方法为：

其中，p_object为目标置信度，表示检测包含类别目标的确定性及目标区域定位的准确度；p_class为类别置信度，表示检测类别预测的准确度；α为超参数，作为目标和类别置信度对于最后分数的权重，其取值范围为[0,1]；存在性分数S_e的取值范围为[0,1]。

4.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S4中的检测目标与预测轨迹匹配方法具体为：采用多目标跟踪方法中的匈牙利匹配算法实现匹配，输出包括成功匹配的检测目标和预测轨迹、未匹配的检测目标和未匹配的预测轨迹。

5.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S4中的遮挡恢复前处理具体步骤为：

S4011、输入预测轨迹坐标B^T及检测目标坐标B^D：

其中，和/>为预测轨迹及检测目标左下角坐标，/>和/>为右上角坐标；

S4013、计算预测轨迹的中心点C^T及检测目标的中心点C^D：

S4014、计算预测轨迹及检测目标的最大宽高w^r和h^r：

w^r＝max(w^T,h^T)，h^r＝max(w^D,h^D)；

S4015、计算遮挡恢复操作后预测轨迹的宽和高/>及检测目标的宽/>和高/>

6.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S4中的遮挡行人重识别模块为基于Transformer的独立嵌入模块，遮挡行人重识别模块采用ViT模型在ImageNet-21K上预训练并在ImageNet1K微调后的权重作为初始权重，而后在MOT17和MOT20上完成训练和测试；遮挡行人重识别模块从被遮挡目标有限可见区域提取用于重识别的有效外观特征，作为外观相似度依据。

7.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S4中的外观相似度依据的获取，具体包括以下步骤：

S4024、将全局特征和局部特征进行拼接得到融合外观特征：

8.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S4中的相似度融合矩阵计算方式为：

其中，C_ij为第i个预测轨迹和第j个检测目标的相似度损失，为两者检测区域之间的恢复重叠度距离，表示位置相似度，/>为两者外观特征/>和/>之间归一化后的余弦距离，表示外观相似度；ξ为余弦距离权重参数；θ_riou为恢复重叠度距离阈值，/>和/>分别为余弦距离高低阈值。

9.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S5中的更新预测轨迹的具体方法为：采用指数移动平均方式代替特征库来更新匹配的预测轨迹外观特征，

其中，和/>分别为当前视频帧t和前一帧t-1的第i个预测轨迹的综合外观特征，/>为当前视频帧t行人重识别模块输出特征，γ为更新参数。

10.根据权利要求1所述的一种基于真实性分级与遮挡恢复的多目标跟踪方法，其特征在于，

S5中的预测轨迹更新、创建和删除的方法具体为：轨迹更新任务采用卡尔曼滤波器作为线性运动模型，利用成功匹配的检测目标区域坐标信息进行预测轨迹坐标更新；轨迹创建任务仅用于高真实性匹配环节的未匹配检测目标，将其作为新出现的轨迹；轨迹删除任务则针对低真实性匹配环节的未匹配预测轨迹，设定一个预测轨迹保留帧数，在达到该帧数之后，预测轨迹会直接删除，不再恢复。