CN111652909A

CN111652909A - 一种基于深度哈希特征的行人多目标追踪方法

Info

Publication number: CN111652909A
Application number: CN202010318731.6A
Authority: CN
Inventors: 邵帅; 穆罕穆德阿地力; 练智超
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-09-11
Anticipated expiration: 2040-04-21
Also published as: CN111652909B

Abstract

本发明公开了一种基于深度哈希特征的行人多目标追踪方法。该方法为：选取行人重识别Market‑1501数据集训练残差网络ResNet50；结合行人重识别及哈希图像检索思想，将训练好的ResNet50作为基础网络模型与全连接哈希层相连接构建深度哈希网络模型；选取新的行人重识别数据集训练深度哈希网络，并使用此网络提取行人深度哈希表观特征；结合行人表观特征及与运动特征作为行人特征描述子，并在追踪过程中融合中断恢复机制以完成行人多目标追踪。本发明有效减少了行人多目标追踪过程中由于目标遮挡、目标交互产生的身份交换数量，提升了追踪精度。

Description

一种基于深度哈希特征的行人多目标追踪方法

技术领域

本发明涉及计算机视觉技术领域，特别是一种基于深度哈希特征的行人多目标追踪方法。

背景技术

近年来，随着人工智能技术的发展，计算机视觉愈发得到海内外学者关注。计算机视觉囊括多个研究方向，例如目标检测、目标追踪、图像分类、图像分割等等。随着计算机视觉技术的完善，越来越多的视觉算法也被应用在现实场景中。在安防领域，例如车站、体育场等人员密集场景；小区、银行等安防监控场景；景区、地铁等人流量统计场景，都需要对监控摄像头抓捕的视频信息进行实时分析。传统监控方法主要依靠人工对视频信息进行统计分析，这种方法不仅效率低，误检、漏检情况也相对较多，此外，仅依靠人工分析是如此庞大数量的监控视频是不现实的，所以利用视觉算法对视频进行自动化分析具有重要研究意义。

目标检测与目标追踪是计算机视觉领域的热点问题，而目标追踪中的多目标追踪问题因其实用价值极高更是研究的重中之重，它可以应用于视频监控、人机交互、虚拟现实等方向。目标追踪算法可以对视野内指定目标进行实时追踪，通过目标检测、位置预测、数据关联的方式获取目标移动轨迹。此外，多追踪算法还可以获取目标更为细节的信息，例如位置、速度、加速度、方向等，多样化的信息对目标状态分析、场景状态分析均有很大的帮助，因此越来越多的智能视觉分析算法依赖于多目标追踪完成。在如此大环境下，大量的多目标追踪算法被提出，但算法的准确性、普适性以及实用性仍有巨大的进步空间。多目标跟踪场景一般较为复杂，存在大量影响追踪结果因素例如：频繁遮挡、目标高速移动、目标方向变化等等，在复杂追踪场景中保证追踪准确性也是一大难点。多目标追踪算法作为众多视觉应用的基础，具有重要的研究意义。

早期的多目标追踪算法大多在特征表示部分使用目标的运动特征，例如位置重叠度(IOU)等。当目标运动状态规律且无复杂情况发生时，此类算法表现优异，而在现实复杂场景中运动特征表现不佳。在目标遮挡、目标交互、方向突变、尺度突变情况频发的场景中，若仅使用运动特征，目标遮挡和目标交互会引起追踪过程中频繁的目标ID交换。此外，方向与尺度的突变会造成运动特征失效导致追踪频繁中断而产生大量追踪碎片及冗余轨迹。而这些问题也是多目标追踪问题面临的主要挑战。

发明内容

本发明的目的在于提供一种可以减少目标遮挡、目标交互影响的基于深度哈希特征的行人多目标追踪方法。

实现本发明目的的技术解决方案为：一种基于深度哈希特征的行人多目标追踪方法，在行人多目标追踪过程中使用深度哈希表观特征与运动特征描述行人，同时结合追踪中断恢复机制减少追踪时身份交换次数以提升追踪准确率，包括以下步骤：

步骤1、计算目标检测集合D^t中det_j与目标轨迹集合T^t-1在t帧中预测框trk_i间运动特征相似度Sim_mot(trk_i，det_j)。

步骤2、计算目标检测集合D^t中det_j与目标轨迹集合T^t-1在t帧中预测框trk_i间表观特征相似度Sim_app(trk_i，det_j)。

步骤3、结合步骤1、步骤2结果，计算目标检测集合D^t中det_i与目标轨迹集合T^t-1在t帧中预测框trk_i间相似度Sim_app(trk_i，det_j)，并保存为代价矩阵C。

步骤4、基于代价矩阵使用匈牙利算法计算D^t与T^t-1集合间最优匹配，将成功匹配的检测结果及轨迹存至已匹配矩阵matched matrix，将未匹配det存至未匹配检测集合

未匹配trk存至未匹配轨迹集合

步骤5、遍历matched matrix，如果匹配结果中trk，det的重叠度小于阈值β，计算其表观特征相似度，若表观特征相似度大于阈值γ，认为其匹配成功，否则匹配失败，trk，det从matched matrix移至

步骤6、将未匹配目标集合

视为新出现目标集合，为其中每个det分配新的卡尔曼滤波器。将未匹配目标集合

视为目标暂时消失轨迹集合，记录其集合内每个trk的存在时间，如果在轨迹存在时间达到生命周期θ时仍未匹配到任何目标，认为目标完全消失，追踪结束。

步骤7、当数据关联完成，根据匹配矩阵matched matrix对应关系使用检测集合D^t更新轨迹集合T^t-1，存为新的轨迹集合T^t。

步骤8、返回第t帧目标轨迹集合T^t。

进一步的，步骤1所述计算行人目标检测集合D^t中行人目标检测结果det_j与行人目标轨迹集合T^t-1在t帧中行人位置预测框trk_i运动特征相似度Sim_mot(trk_i，det_j)，具体如下：

使用

表示当前帧共M个目标的检测框集合，其中

表示ID为j的目标检测框，x、y代表检测框左上角点横纵坐标，w、h分别代表检测框的长、宽；使用

表示卡尔曼滤波器对前一帧所有目标在当前帧的预测框集合，其中

det与trk间运动特征相似度的计算方法为，其中Area代表检测框面积：

进一步的，步骤2所述计算行人目标检测集合D^t中行人目标检测结果det_j与行人目标轨迹集合T^t-1在t帧中行人位置预测框trk_i表观特征相似度Sim_app(trk_i，det_j)，具体如下：

步骤2.1：以在ImageNet上预训练的ResNet50为基础网络模型，同时定义网络输入大小为224*224，将原始网络全连接层输出维度从1024维降低至751维，同时调整最终全连接层前两层网络结构并冻结除最后三层外所有网络层参数。

步骤2.2：将ResNet50与全连接Hash层相连构建HashNet网络；在追踪框架中，首先使用HashNet作为深度哈希编码器，通过端到端的方式对检测到的所有目标图像进行深度哈希编码特征提取，之后计算各个目标间的特征相似度进行数据关联：。

步骤2.3：在使用HashNet对目标图像进行特征提取时，首先使用在Market-1501预训练过的Resnet50进行特征提取，之后将此深度特征投入全连接Hash层，通过全连接层将深度图像特征表示转为T维特征表示。最后通过下式激活函数h＝sign(x)对T维特征进行(-1，1)哈希编码，得到位数为T的深度哈希特征。

步骤2.4：最后，设定哈希特征编码位数T＝80，哈希编码方式为(-1，1)编码，采用如下式所示方法计算哈希编码间相似度。

hashcode_x＝{x₁，x₂，...，x_T}

hashcode_y＝{y₁，y₂，...，y_T}

进一步的，步骤3所述结合步骤1、步骤2结果，计算行人目标检测集合D^t中行人目标det_j与行人目标轨迹集合T^t-1在t帧中行人位置预测框trk_i间相似度Sim_app(trk_i，det_j)，并保存为代价矩阵C；具体如下：

步骤3.1：通过设置权重的方式将运动特征与表观特征相结合，提高目标特征鲁棒性。其中选取检测框重叠度(IOU)作为运动特征，特征融合方式如下式所示，其中α为运动特征相似度的权重。

Sim(trk_i，det_j)＝α×Sim_mot(trk_i，det_j)+(1-α)×Sim_app(trk_i，det_j)

步骤3.2：根据不同场景进行调整α的取值。如果场景中没有频繁的目标交互且目标运动状态比较规律，例如高速公路场景，可以适当提高运动特征权重；相反的，当追踪场景复杂则需要降低α，提升表观特征权重以处理遮挡、交互等问题。

步骤3.3：不同预测框与检测框之间的Sim(trk_i，det_j)组成了数据关联模块中匈牙利算法的代价矩阵，匈牙利算法根据代价矩阵寻找不同目标间的最优匹配结果。

进一步的，步骤6所述将未匹配目标集台

视为新出现目标集合，为其中每个det分配新的卡尔曼滤波器。将未匹配目标集台

视为目标暂时消失轨迹集合，记录其集合内每个trk的存在时间，如果在轨迹存在时间达到生命周期θ时仍未匹配到任何目标，认为目标完全消失，追踪结束。具体如下：

步骤6.1：构建特征池

保存当前帧中所有目标在历史帧中特征信息，其中K代表特征池的容量大小。

步骤6.2：追踪过程中实时更新池内特征，当特征池存满后，会将池内存在时间最长的特征替换为新的特征。

步骤6.3：计算trk_i与det_j间表观特征相似度，选取特征池

中id＝i的所有特征作为当前行人id特征集合

之后选择行人检测目标det_j与特征池

集合中特征相似度最大值作为det_j与trk_i的最终特征相似度，其计算表达式如下，其中InnSim代表向量内积相似度：

本发明与现有技术相比，其显著优点为：(1)在追踪数据关联时使用融合特征的思想，将目标表观特征与运动特征相结合以提升特征鲁棒性；(2)在表观特征提取方面，借鉴图像检索、行人重识别的思想，构建深度哈希网络并使用行人重识别数据集对其进行训练。通过此网络提取行人图像深度哈希特征作为行人表观特征，该深度哈希表换特征可以更好地描述行人目标；(3)改进了传统多目标追踪机制，提出特征池的概念保存未匹配到目标的轨迹特征信息以实现追踪中断后的身份恢复。

附图说明

图1为本发明基于深度哈希特征的行人多目标追踪方法的流程图。

图2为在行人视频中追踪实验效果图，其中(a)为对视频中密集的人群完成多目标追踪任务效果图，(b)为对视频中稀疏车辆完成无目标任务效果图。

具体实施方式

本发明基于深度哈希特征的行人多目标追踪方法，该方法核心由运动特征表示模块，表观特征表示模块以及追踪失败恢复模块组成。首先使用行人重识别数据集训练残差网络ResNet50；将训练好的ResNet50与全连接哈希层相连接构建深度哈希网络，并使用此网络提取行人深度哈希表观特征；在获得目标检测框的基础上，采用交并比(IOU)作为行人运动特征表示；通过权重结合目标运动特征与表观特征并使用匈牙利算法进行行人目标数据关联，将关联结果保存为轨迹。在追踪过程中，如果出现目标遮挡、目标交互情况，采用追踪中断恢复机制及时将错误匹配的目标匹配到原有轨迹，避免身份交换情况的发生。本发明方法具体包括以下几个步骤：

步骤3、结合步骤1、步骤2结果，计算目标检测集合D^t中det_j与目标轨迹集合T^t-1在t帧中预测框trk_i间相似度Sim_app(trk_i，det_j)，并保存为代价矩阵C。

未匹配trk存至未匹配轨迹集合

步骤6、将未匹配目标集合

步骤8、返回第t帧目标轨迹集合T^t。

使用

表示当前帧共M个目标的检测框集合，其中

hashcode_x＝{x₁，x₂，...，x_T}

hashcode_y＝{y₁，y₂，...，y_T}

Sim(trk_i，det_j)＝α×Sim_mot(trk_i，det_j)+(1-α)×Sim_app(trk_i，det_j)

进一步的，步骤6所述将未匹配目标集合

步骤6.1：构建特征池

步骤6.3：计算trk_i与det_j间表观特征相似度，选取特征池

中id＝i的所有特征作为当前行人id特征集合

之后选择行人检测目标det_j与特征池

图2展示了本发明在实际拍摄视频中对行人的多目标追踪结果，通过结果可以看出本发明可以准确对行人目标进行追踪，且能够处理一些遮挡、交互情况，追踪准确度较高，效果较好。本发明着重对行人多目标追踪问题中特征表示及数据关联部分进行研究，提出了深度哈希行人特征表示方法并设计追踪中断恢复机制以减少追踪过程中ID交换数量，提升追踪精确度。

Claims

1.一种基于深度哈希特征的行人多目标追踪方法，其特征在于，包括以下几个步骤：

步骤1、计算行人目标检测集合D^t中行人目标检测结果det_j与行人目标轨迹集合T^t-1在t帧中行人位置预测框trk_i间运动特征相似度Sim_mot(trk_i,det_j)；

步骤2、计算行人目标检测集合D^t中行人目标检测结果det_j与行人目标轨迹集合T^t-1在t帧中行人位置预测框trk_i间表观特征相似度Sim_app(trk_i,det_j)。

步骤3、结合步骤1、步骤2结果，计算目标检测集合D^t中det_j与目标轨迹集合T^t-1在t帧中预测框trk_i间相似度Sim_app(trk_i,det_j)，并保存为代价矩阵C；

未匹配trk存至未匹配轨迹集合

步骤6、将未匹配目标集合

视为新出现目标集合，为其中每个det分配新的卡尔曼滤波器；将未匹配目标集合

视为目标暂时消失轨迹集合，记录其集合内每个trk的存在时间，如果在轨迹存在时间达到生命周期θ时仍未匹配到任何目标，认为目标完全消失，追踪结束；

步骤7、当行人检测目标与现存行人轨迹关联完成时，根据匹配矩阵matched matrix对应关系使用检测集合D^t更新轨迹集合T^t-1，存为新的轨迹集合T^t；

步骤8、返回第t帧目标轨迹集合T^t。

2.根据权利要求1所述的基于深度哈希特征的行人多目标追踪方法，其特征在于，步骤1所述计算行人目标检测集合D^t中行人目标检测结果det_j与行人目标轨迹集合T^t-1在t帧中行人位置预测框trk_i运动特征相似度Sim_mot(trk_i,det_j)，具体如下：

使用

表示当前帧共M个目标的检测框集合，其中

3.根据权利要求1所述的基于深度哈希特征的行人多目标追踪方法，其特征在于，步骤2所述计算行人目标检测集合D^t中行人目标检测结果det_j与行人目标轨迹集合T^t-1在t帧中行人位置预测框trk_i表观特征相似度Sim_app(trk_i,det_j)，具体如下：

步骤2.1：以在ImageNet上预训练的ResNet50为基础网络模型，同时定义网络输入大小为224*224，将原始网络全连接层输出维度从1024维降低至751维，同时调整最终全连接层前两层网络结构并冻结除最后三层外所有网络层参数；

步骤2.2：将ResNet50与全连接Hash层相连构建HashNet网络；在追踪框架中，首先使用HashNet作为深度哈希编码器，通过端到端的方式对检测到的所有目标图像进行深度哈希编码特征提取，之后计算各个目标间的特征相似度进行数据关联；

步骤2.3：在使用HashNet对目标图像进行特征提取时，首先使用在Market-1501预训练过的Resnet50进行特征提取，之后将此深度特征投入全连接Hash层，通过全连接层将深度图像特征表示转为T维特征表示；最后通过下式激活函数h＝sign(x)对T维特征进行(-1,1)哈希编码，得到位数为T的深度哈希特征；