CN115240130A

CN115240130A - 一种行人多目标跟踪方法、装置和计算机可读存储介质

Info

Publication number: CN115240130A
Application number: CN202210677616.7A
Authority: CN
Inventors: 付小雁; 齐浩如
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-25

Abstract

本发明公开了一种行人多目标跟踪方法、装置和计算机可读存储介质。具体方案包括：利用DLA34网络获取行人检测结果与外观特征向量，设置高低置信度阈值对检测结果进行分类，以高置信度检测优先为原则，在对高置信度检测完成外观特征与位置信息双重匹配后，对低置信度检测结果进行双重补充匹配，更好的实现数据关联任务。本发明通过双重补充匹配，将低置信度检测结果纳入待匹配范围，减少了由于遮挡导致的轨迹多帧中断问题，提高了跟踪轨迹的完整程度，进而提高了跟踪准确度。

Description

一种行人多目标跟踪方法、装置和计算机可读存储介质

技术领域

本发明涉及行人跟踪领域，尤其涉及一种行人多目标跟踪方法、装置和计算机可读存储介质。

背景技术

多目标跟踪技术是计算机视觉领域中的一个热门研究方向，旨在定位输入视频中的多个目标，保持其身份标识，并给出其运动轨迹。多目标跟踪的主要跟踪目标可分为行人、无人机、车辆等，且与无人机、车辆目标相比，行人目标存在姿态多样、外观特征多变、行动轨迹灵活等特点，使得面向行人目标的多目标跟踪具有更强的挑战性。现有行人多目标跟踪技术大多可分为行人检测与数据关联两个阶段。

传统多目标跟踪算法大多利用图像的手工特征完成行人检测任务。手工特征计算简单，但鲁棒性较低，难以处理目标形变与遮挡问题。卷积神经网络可以获取图像的深度特征，该特征具备更深层的语义信息与更强大的辨别能力，但训练过程计算量较大。随着CPU、GPU和集成电路计算能力的不断提高，可以满足采用卷积神经网络处理问题的庞大计算量需求，传统多目标跟踪技术逐渐被取代，深度学习方法成为多目标跟踪领域主流技术。

当前行人多目标跟踪技术的数据关联阶段常通过设置阈值过滤掉低置信度检测结果，只对高置信度检测结果实施数据关联。由于低置信度检测结果中易存在被遮挡的行人，这种方式容易将某些被其他行人或建筑物遮挡的目标遗漏，导致轨迹的多帧中断问题。

发明内容

针对上述问题，本发明提出一种行人多目标跟踪方法、装置和计算机可读存储介质，通过设置高、低置信度双阈值对检测结果进行分类，对两类检测结果采用针对性匹配方案，以减少由于遮挡导致的轨迹多帧中断情况，以更好地完成数据关联任务，进而提高跟踪准确度。

为达到上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种行人多目标跟踪方法，所述方法包括以下步骤：

S1、使用一个预训练过的模型，在行人多目标跟踪数据集上进行训练，作为目标检测器；

S2、对视频的每一帧图像利用目标检测器获取行人目标的边界框信息与外观特征；

S3、设定置信度阈值，将行人检测结果分为高置信度检测集与低置信度检测集；

S4、基于先外观相似度后位置相似度原则，优先对高置信度检测集与候选轨迹进行数据关联，并得到未匹配成功的候选轨迹与检测结果，对关联成功的候选轨迹更新其行人外观特征，对未关联成功的检测结果初始化，得到新轨迹；

S5、基于先位置相似度后外观相似度原则，对低置信度检测集与未匹配成功的候选轨迹实施数据关联，将连续多帧未匹配成功的候选轨迹定义为丢失目标。

进一步地，所述S1具体包括：

获取行人多目标跟踪数据集MOT17，该数据集共包含14个视频序列，其中7个视频序列用于训练模型，其余7个用于算法测试；

使用预训练过的DLA34网络模型作为目标检测器，构建损失函数，利用行人多目标跟踪数据集的训练集训练并微调模型参数。

进一步地，所述S2具体包括：

对视频的每一帧图像利用目标检测器输出中心点偏移量、边界框大小、图像热图与外观特征，并通过热图高斯函数变换回归得到行人目标的中心点坐标；

其中，外观特征包含了128维向量，用于在后续的数据关联阶段计算外观特征相似度。

进一步地，所述S3具体包括：

设置高、低置信度阈值δ₁、δ₂，基于置信度的分类方式如下

将置信度大于δ₁的检测结果定义为高置信度检测，将置信度在[δ₁，δ₂]区间内的检测结果定义为低置信度检测，用于后续的分类匹配过程。

进一步地，所述S4具体包括：

计算高置信度检测结果与候选轨迹之间的外观特征相似度，得到相似度矩阵，根据相似度矩阵计算得到匹配成本矩阵，并利用匈牙利匹配算法得到数据关联方案一，将数据关联方案一中成功匹配到检测结果的轨迹从候选轨迹中移除；

基于卡尔曼滤波器，根据轨迹的状态向量计算得到该行人的状态估计值，即预测位置；

计算高置信度检测结果与候选轨迹的预测位置之间的交并比IOU，得到位置相似度矩阵，根据相似度矩阵计算得到匹配成本矩阵，并利用匈牙利匹配算法得到数据关联方案二，将数据关联方案二中成功匹配到检测结果的轨迹从候选轨迹中移除；

将数据关联方案一、二中关联成功的高置信度检测结果加入其对应候选轨迹中，并按一定的权重更新其行人外观特征；

将与候选轨迹未关联成功的高置信度检测结果定义为新目标，对其初始化，得到新轨迹。

进一步地，所述S5具体包括：

计算低置信度检测结果与候选轨迹的预测位置之间的交并比IOU，得到位置相似度矩阵，根据相似度矩阵计算得到匹配成本矩阵，并利用匈牙利匹配算法得到数据关联方案三，将数据关联方案三中成功匹配到检测结果的轨迹从候选轨迹中移除；

计算低置信度检测结果与候选轨迹的行人外观特征间的余弦距离，得到外观相似度矩阵，根据相似度矩阵计算得到匹配成本矩阵，并利用匈牙利匹配算法得到数据关联方案四；

将数据关联方案三、四中关联成功的低置信度检测结果加入其对应候选轨迹中；

若存在连续多帧未匹配成功的候选轨迹，则将其定义为丢失目标，在后续帧跟踪过程中不予其匹配权限。

第二方面，本发明提供一种行人多目标跟踪装置，所述装置包括：

第一获取模块，用于获取待跟踪的第一视频流数据；

第一检测模块，用于检测所述第一视频流中的行人目标信息；

第一分类模块，用于基于置信度将检测结果分为高置信度检测结果与低置信度检测结果；

第一数据关联模块，用于将高置信度检测结果与候选轨迹一一关联；

第二数据关联模块，用于将低置信度检测结果与候选轨迹一一关联；

第一确定模块，用于确定新目标、丢失目标与用于后续跟踪的候选轨迹；

所述新目标为数据关联失败的高置信度检测结果，需为其初始化，得到新轨迹；

所述丢失目标为连续多帧与高、低置信度检测结果关联失败的候选轨迹，当候选轨迹被定义为丢失目标，即不再对其进行数据关联；

所述候选轨迹包含先前帧中除丢失目标外的其他候选轨迹与当前帧中的新轨迹，用于后续帧的跟踪。

第三方面，本发明提供一种计算机可读存储介质，其包括计算机指令，当所述计算机指令在行人多目标跟踪装置上运行时，使得所述装置执行第一、二方面所述任意一项方法。

与现有技术相比，本发明的有益效果为：本发明缓解了行人多目标跟踪场景中由于频繁遮挡造成的轨迹多帧中断问题，通过双重匹配，设置置信度阈值对检测结果分类，并采取针对性匹配策略，在一定程度上将被遮挡的行人检测结果纳入数据关联阶段的待匹配范围，提高了跟踪轨迹的完整程度，从而有效提高跟踪的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面对实施例中使用的附图作简单地介绍。

图1为本发明实施方式的行人多目标跟踪方法示意图；

图2为本发明实施方式的高置信度检测结果匹配流程示意图；

图3为本发明实施方式的低置信度检测结果匹配流程示意图；

图4为本发明实施方式的行人多目标跟踪装置示意图。

具体实施方式

为了更加清楚地说明本发明的技术方案，以下结合附图及实施例，对本发明做进一步描述。

数据关联阶段是行人多目标跟踪技术的重要组成部分。目前行人多目标跟踪技术的数据关联阶段多集中在对高置信度检测结果的匹配上，容易遗漏某些由于被其他行人或建筑物遮挡导致置信度较低的行人目标，从而导致轨迹多帧中断问题。

基于此，本发明提供了一种行人多目标跟踪方法、装置和计算机可读存储介质，通过设置高、低置信度双阈值对检测结果进行分类，对两类检测结果采用针对性匹配方案，减少由于遮挡导致的轨迹多帧中断情况，以更好地完成数据关联任务，进而提高跟踪准确度。

请参阅图1，图1为本发明提供的一种行人多目标跟踪方法的流程图。如图1中所示，本发明提供的行人多目标跟踪方法，包括如下步骤：

S1、使用一个预训练过的模型，在行人多目标跟踪数据集上进行训练，作为目标检测器，该过程通过以下步骤完成：

S11、获取行人多目标跟踪数据集，并对其进行预处理。

所述行人多目标跟踪数据集为MOT Challenge官方网站提供的MOT17数据集，该数据集共包含14个视频序列，其中7个视频序列用于训练模型，其余7个用于算法测试。其涵盖了多种具有强挑战性的跟踪情况，包括来自静态、动态摄像机的拍摄序列，来自高、低视角的拍摄序列，且所有视频序列都存在大目标、小目标；运动目标、静止目标，被遮挡的目标等困难样本。

S12、确定深度网络模型与其输入输出结构。

所述深度网络模型为DLA34深层特征融合网络，该网络在ResNet的基础上进行了多次残差模块间的迭代堆叠，在线性聚合的基础上扩展了层级的深度聚合，考虑到了网络更多的层级，并且融合了浅层级的空间特征与深层级的语义特征，提高了深度特征表示能力。

需要说明的是，本发明所用深度网络的输出结构可以分为检测分支与外观特征提取分支。

进一步地，其检测分支由3个并行的头组成，分别用于估计目标中心位置的热图、边界框大小和目标中心偏移量。

进一步地，其外观特征提取分支用于输出128维的外观特征向量。

S13、确定多任务学习损失函数。

需要说明的是，本发明提供的行人多目标跟踪算法的模型训练过程遵循多任务学习模式，既需要完成行人目标检测任务，确定所有行人的位置信息，又需要提取行人的外观特征向量，用于后续数据关联阶段的相似度计算。

所述多任务学习损失函数由热图回归、边界框回归、外观特征提取三个部分组成。

这里，热图用于确定目标中心点的位置坐标,其损失函数计算如下

其中N为行人目标总数，

为热图估计结果，M为热图标签，α，β为预先定义的参数，用于平衡正负样本训练权重。

这里，边界框回归用于确定边界框大小与目标中心点偏移量，其损失函数采用L1loss方法，计算方式如下

其中

和

分别表示估计的第i个目标的边界框中心点偏移量及边界框大小的预测结果,λ₁、λ₂分别表示中心偏移量回归任务与边界框大小预测任务的权重值。

这里，外观特征提取分支旨在生成能够区分不同目标的特征，使不同目标之间的相似度小于相同目标之间的相似度。

示例的，外观特征提取分支提取热图中每个目标中心位置

相应的深度特征，并根据P＝{p(k)，k∈[1，K]}映射到类别向量P中，其中K表示类别总数。在外观特征提取任务中，一个类别对应着一个行人的身份标识。Lⁱ(k)为人工标注标签中第i个目标的分类结果。外观特征提取任务的损失函数表示如下

进一步地，本发明提供算法的联合损失函数表示如下

其中w₁和w₂是平衡检测分支与外观特征提取分支的可学习参数。

S2、对视频的每一帧图像利用目标检测器获取行人目标的边界框信息与外观特征向量。该过程通过以下步骤完成：

S21、将视频的帧图像输入深度模型，模型中的每个输出头都对网络输出的深度特征进行处理，得到热图、边界框的中心点偏移量、边界框大小与外观特征向量。

所述处理方式为先通过一个3×3卷积层完成深度特征的二次变换，再通过一个1×1卷积层完成降维。

S22、通过对热图的高斯函数变换回归获得中心点坐标信息。

需要说明的是，热图中每个点的响应值皆在0到1之间，响应值越接近1，预测该点为目标中心点的概率越大。

S23、组合中心点坐标、偏移量、边界框大小，得到行人目标检测结果。

S3、设定置信度阈值，将行人检测结果分为高置信度检测集与低置信度检测集，分类方式如以下步骤：

S31、设置高、低置信度阈值δ₁、δ₂，基于置信度的分类方式如下

所述高、低置信度阈值可以通过有限次的实验得到。

S32、将置信度大于δ₁的检测结果定义为高置信度检测，将置信度在[δ₁，δ₂]区间内的检测结果定义为低置信度检测，用于后续的分类匹配过程。

请参阅图2，图2为本发明实施方式的高置信度检测结果匹配流程示意图。其通过以下步骤对高置信度检测结果与候选轨迹进行匹配：

S41、计算高置信度检测结果与候选轨迹之间的行人外观特征相似度，得到相似度矩阵，并计算得到成本矩阵。

所述外观特征相似度的计算度量方式为余弦距离。余弦距离重点关注向量空间内两个特征向量在方向上的差异，检测结果与候选轨迹之间的余弦距离越小，说明向量间夹角越小，两者的外观特征越相似，属于同一行人的可能性越大。余弦距离计算公式如下

dist(D，T)＝1-cos(D，T)

当有N₁个检测结果与N₂个候选轨迹时，需要定义一个N₁×N₂的成本矩阵，矩阵内每个元素代表其行坐标对应的候选检测与列坐标对应的待匹配轨迹进行关联时需要付出的成本大小，成本函数需满足与二者相似度成反比的关系，即候选检测与待匹配轨迹越相似，关联成本越小，候选检测与待匹配轨迹差异越大，关联成本越大。成本矩阵计算公式如下

cost_ij＝1-dist(D_i，T_j)

S42、基于匈牙利匹配算法根据成本矩阵得到数据关联方案一，并将数据关联方案一中成功匹配到检测结果的轨迹从候选轨迹中移除。

所述匈牙利匹配算法是一种经典的用于求解任务分配最优方案的算法,常用于任务安排、资源分配等领域。该算法首先用成本矩阵每行的全部元素减去该行最小值，之后用成本矩阵每列的全部元素减去该列最小值，最后将矩阵内所有0元素用最少的水平线或竖直线划去，循环此过程，直到使用线的数量与N₁、N₂的最小值相等时，即得到了关联矩阵

需要说明的是，关联矩阵A需满足每一个待匹配轨迹至多关联一个候选检测，每一个候选检测也至多关联一个待匹配轨迹，可表示为

S43、基于卡尔曼滤波器，根据轨迹的状态向量计算得到该行人的状态估计值，即预测位置。

所述卡尔曼滤波器先利用一个8维向量

表示候选轨迹的状态，前4维分别表示目标边界框中心点的横纵坐标、宽高比、高度，后4维表示该轨迹的中心点横纵坐标变化率、宽高比变化率、高度变化率，再基于卡尔曼滤波器根据轨迹的状态向量构建行人目标的运动模型，并计算得到该目标的状态估计值。

S44、计算高置信度检测结果与候选轨迹的预测位置之间的交并比IOU，得到位置相似度矩阵，并利用匈牙利匹配算法得到数据关联方案二，并将数据关联方案二中成功匹配到检测结果的轨迹从候选轨迹中移除。

所述IOU是指用两个区域的交叠处面积除以集合处面积所得商值。IOU越大，证明预测框与检测框的重叠比例越大，位置相似度越高，反之，证明位置相似度较低，计算公式如下

这里，用于匈牙利匹配的成本矩阵计算公式为

cost_ij＝1-IOU(Det_i，Pre_j)

S45、将数据关联方案一、二中关联成功的高置信度检测结果加入其对应候选轨迹中，并按一定的权重更新其行人外观特征。

所述特征更新方法为按一定的权重更新，计算公式如下

其中，α是预先定义的参数，用于平衡i_t的重识别特征占轨迹特征的权重，在本发明中将α设置为0.1。

S46、将与候选轨迹未关联成功的高置信度检测结果定义为新目标，为其检测结果初始化，得到新轨迹。

请参阅图3，图3为本发明实施方式的低置信度检测结果匹配流程示意图。其通过以下步骤对低置信度检测结果与候选轨迹进行匹配：

S51、基于卡尔曼滤波器，根据轨迹的状态向量计算得到该行人的状态估计值，即预测位置。

S52、计算低置信度检测结果与待关联轨迹的预测位置之间的交并比IOU，得到位置相似度矩阵，并利用匈牙利匹配算法得到数据关联方案三，并将数据关联方案三中成功匹配到检测结果的轨迹从候选轨迹中移除。

S53、最后计算低置信度检测结果与待关联轨迹的行人外观特征间的余弦距离，得到外观相似度矩阵，并利用匈牙利匹配算法得到数据关联方案四。

S54、将数据关联方案三、四中关联成功的低置信度检测结果加入其对应候选轨迹中。

S55、若存在连续多帧未匹配成功的候选轨迹，则将其定义为丢失目标，在后续帧跟踪过程中不予其匹配权限。

所述状态估计过程、相似度计算度量方式与匹配算法皆与S3中所述相同。

本发明还提供一种行人多目标跟踪装置。请参阅图4，图4为本发明实施方式的行人多目标跟踪装置示意图。如图4所示，该装置包括第一获取模块、第一检测模块、第一分类模块、第一数据关联模块、第二数据关联模块与第一确定模块。

其中，第一获取模块，用于获取待跟踪的第一视频流数据。

其中，第一检测模块，用于检测所述第一视频流中的行人目标信息，包括行人边界框位置信息、对应置信度评分及外观特征向量。

所述边界框位置信息用于标记行人与后续数据关联模块中的位置相似度计算。

所述置信度评分用于对检测结果进行分类。

所述外观特征向量用于后续数据关联模块中的外观特征相似度计算。

其中，第一分类模块，用于设置置信度阈值，将检测结果分为高置信度检测结果与低置信度检测结果。

其中，第一数据关联模块，用于将高置信度检测结果与候选轨迹一一关联。

所述关联方法先基于外观特征相似度，对高置信度检测结果与候选轨迹进行匹配，后基于位置相似度，对未匹配成功的高置信度检测结果与候选轨迹进行补充匹配。

其中，第二数据关联模块，用于将低置信度检测结果与候选轨迹一一关联。

所述关联方法先基于位置相似度，对高置信度检测结果与候选轨迹进行匹配，后基于外观特征相似度，对未匹配成功的低置信度检测结果与候选轨迹进行补充匹配。

所述匹配过程基于匈牙利匹配算法。

其中，第一确定模块，用于确定新目标、丢失目标与用于后续跟踪的候选轨迹。

所述新目标为数据关联失败的高置信度检测结果，需为其初始化，得到新轨迹。

所述丢失目标为连续多帧与高、低置信度检测结果关联失败的候选轨迹，当候选轨迹被定义为丢失目标，即不再对其进行数据关联。

本发明还提供一种计算机可读存储介质，其包括计算机指令，当所述计算机指令在行人多目标跟踪装置上运行时，使得所述装置执行上述实施例中的各个步骤。

Claims

1.一种行人多目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种行人多目标跟踪方法，其特征在于，所述S1具体包括：

3.根据权利要求1所述的一种行人多目标跟踪方法，其特征在于，所述S2具体包括：

4.根据权利要求1所述的一种行人多目标跟踪方法，其特征在于，所述S3具体包括：

5.根据权利要求1所述的一种行人多目标跟踪方法，其特征在于，所述S4具体包括：

6.根据权利要求1所述的一种行人多目标跟踪方法，其特征在于，所述S5具体包括：

7.一种行人多目标跟踪装置，其特征在于，所述装置包括：

第一获取模块，用于获取待跟踪的第一视频流数据；

第一确定模块，用于确定新目标、丢失目标与候选轨迹；

8.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在行人多目标跟踪装置上运行时，使得所述装置执行权利要求1-6中任意一项所述方法的步骤。