CN113012193B

CN113012193B - 一种基于深度学习的多行人跟踪方法

Info

Publication number: CN113012193B
Application number: CN201911323035.8A
Authority: CN
Inventors: 卿粼波; 牛通; 何小海; 许盛宇; 吴晓红; 苏婕
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-07-26
Anticipated expiration: 2039-12-20
Also published as: CN113012193A

Abstract

本发明提供了一种基于深度学习的在线多行人跟踪方法，主要涉及利用深度学习的方式对复杂场景中的多行人进行跟踪。该方法包括：提出一个多层特征融合网络提取目标的外观特征。利用高精度的目标检测器检测视频中目标的位置，并提取目标的外观特征。针对不同状态轨迹，考虑外观特征和运动特征的置信度，利用不同方式计算差异度量矩阵。根据不同状态轨迹的置信度，结合度量矩阵利用匈牙利算法实现检测和轨迹的分层数据关联。最后，根据关联结果更新轨迹信息。本发明充分考虑了目标运动特征和外观特征的置信度，合理利用两种特征计算差异度量矩阵。同时，采用分层关联的数据关联方式更好地处理了行人误检、遮挡等问题，有效减少了轨迹ID变换的次数。

Description

一种基于深度学习的多行人跟踪方法

技术领域

本发明涉及深度学习领域中的多目标跟踪问题，尤其是涉及一种基于深度学习的多行人跟踪方法。

背景技术

基于视频的跟踪算法一直以来都是计算机视觉研究领域的重要分支，而不断兴起的新技术如相关性滤波，卷积神经网络等也极快融入该领域并显著提高了领域的平均水平。随着深度学习技术的大量涌现，计算机视觉领域再次取得了飞速的发展，基于深度学习的跟踪算法在不断进步的同时更是有着十分广泛的应用场景。例如：智能视频监测控制、异常行为识别分析、人机交互、医疗图像分析、公共场所行人流量分析等。

随着检测器精度的不断提高，基于视频的多目标跟踪大多依赖于目标检测，所以基于检测的跟踪框架成为解决多目标跟踪问题的主流框架。基于检测的目标跟踪是指首先通过检测器检测当前帧目标，再由跟踪器将检测结果和已有轨迹一帧接一帧地关联起来，最终得到目标的完整轨迹。本专利利用了主流的基于检测的跟踪方式，并提出了更具可靠性的数据关联方式。

传统的跟踪方法包括稀疏表示方法、相关滤波等，这些方法采用更新的方式，在跟踪过程中不断地更新模型，以适应不断变化的环境和目标姿态。传统方法在目标较多的复杂场景下很容易产生轨迹漂移问题，对遮挡问题的处理能力也有限。而基于深度学习的方法，利用卷积神经网络提取丰富的目标特征，再结合检测的位置信息减少了轨迹漂移现象，有效处理了遮挡问题，很大程度上提高了跟踪准确度。

发明内容

本发明的目的是提供一种基于深度学习的多行人跟踪方法，将深度学习与多行人跟踪任务结合。首先，利用多层融合特征网络提取鉴别度高的外观特征，再通过计算检测结果和轨迹的外观差异矩阵和运动差异矩阵得到数据关联的依据，然后基于轨迹的置信度采用分层数据关联的方式实现数据关联。因为考虑了不同特征的置信度和不同状态轨迹的置信度，所以分层数据关联提高了关联的可靠性，进而减少了轨迹ID变换的次数。

为了方便说明，首先引入如下概念：

监督学习(supervised learning)：监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。

度量学习(metric learning)：也称作相似度学习。本质是学习一个嵌入空间(embedding space)，也可以理解为映射空间，使得同类的物体距离更近，不同类物体距离更远。

本发明具体采用如下技术方案：

提出了基于深度学习的多行人跟踪方法，该方法的主要特征在于：

a.轨迹外观特征的提取利用了多层融合卷积神经网络。

b.针对不同状态的轨迹，考虑特征的置信度，采用不同的方式计算差异度量矩阵。

c.利用基于差异度量矩阵的分层关联方式实现数据关联。

该方法主要包括以下步骤：

(1)以监督学习方式训练跟踪器的外观特征网络。

(2)利用基于深度学习的目标检测器提取多目标的外观特征和运动特征，实现多目标的检测。

(3)计算轨迹和检测的运动特征差异度量矩阵和外观特征差异度量矩阵，并根据轨迹的状态以及特征的置信度，计算整体差异度量矩阵。

(4)依据轨迹的置信度，基于匈牙利算法，采用分层关联的方式实现检测和轨迹的数据关联。

(5)根据数据关联的结果，更新轨迹状态。

(6)重复步骤(2)—(5)，实现逐帧跟踪。

本发明的有益效果是：

(1)充分发扬深度学习中自我学习的优势，让机器自动学习图像特征，有效避免人工选择特征的偏差和低效问题，具有更强的自适应能力。

(2)通过融合不同网络层特征，有效利用了不同层次特征之间的互补性，提高了网络的鲁棒性。

(3)充分考虑了运动特征和外观特征对跟踪准确度的影响，有效规避了遮挡、外观变化等对跟踪的影响，有效减少了轨迹ID变换的次数。

(4)利用基于度量矩阵的全局-局部的数据关联方式，可以更好地处理了行人误检、遮挡、新目标出现以及目标消失等问题。

(5)将深度学习与目标跟踪问题相结合，解决传统方法准确率不高的问题，提高研究价值。

附图说明

图1为基于深度学习的多行人跟踪的框架图。

图2为多层特征融合网络。

具体实施方法

下面结合附图及实施例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

图1中，基于深度学习的多行人跟踪，具体包括以下步骤：

(1)以监督学习方式训练跟踪器的融合外观特征网络：针对不同分支利用cosine-softmax损失函数单独训练，再通过串联融合各分支特征。网络整体的损失函数如式1所示，通过将融合特征的损失函数l_fuse以及三个分支提取特征的损失函数l_{branch_i}求和得到网络整体的损失函数l_all。

(3)计算差异度量矩阵：对于初始态的轨迹，计算检测和预测边界框的IoU值作为差异度量矩阵；对于活跃态轨迹，如式2，先计算检测边界框和预测边界框的IoU值得到运动差异度量矩阵，仅利用外观差异度量矩阵调整。其中，t_k表示轨迹k，d_i表示检测目标i，diff(t_k,d_i)表示轨迹k和检测目标i之间的差异度量值，IoU(t_k,d_i)表示卡尔曼滤波器预测的轨迹k的边界框和检测目标i边界框的IoU值，diff_a(t_k,d_i)表示轨迹k和检测目标i之间的外观差异度量元素，利用余弦距离计算得到，τ_a表示外观阈值，如果外观差异大于阈值则表示不是同一个目标，无法关联。

对于初次关联稳定态轨迹，考虑到相机移动会对运动特征造成影响，运动特征的置信度降低，所以分相机移动和静止两种情况，采用不同的方式计算。其中，在相机移动的情况下，如式3，主要考虑外观特征，仅利用运动特征进行调整。其中，t_k表示轨迹k，d_i表示检测目标i，diff(t_k,d_i)表示轨迹k和检测目标i之间的差异度量值，diff_a(t_k,d_i)表示轨迹k和检测目标i外观特征差异度量值，利用余弦距离计算，diff_m(t_k,d_i)表示轨迹k和检测目标i之间的运动差异度量值，利用马氏距离计算，τ_m表示运动阈值，如果运动差异大于阈值则表示不是同一个目标，无法关联。

在相机静止的情况下，如式4，同样针对两种特征计算差异度量矩阵，再通过超参数λ融合外观差异度量矩阵diff_appearance(t_k,d_i)和运动差异度量矩阵diff_motion(t_k,d_i)得到最终的差异度量矩阵diff(t_k,d_i)。

diff(t_k,d_i)＝λdiff_motion(t_k,di)+(1-λ)diff_appearance(t_k,d_i) (4)

对于二次关联稳定态轨迹，计算方式与初始态轨迹相同。

(4)基于差异度量矩阵利用匈牙利算法按照置信度轨迹置信度排序，分别对初次关联稳定态、二次关联稳定态、活跃态和初始态的轨迹分层数据关联，根据关联结果更新轨迹的状态信息、外观特征信息以及位置信息。

(5)基于数据关联的结果，决定删除、初始化或者继续跟踪轨迹。

(6)重复步骤(2)—(5)，实现逐帧跟踪。

Claims

1.一种基于深度学习的多行人跟踪方法，其特征在于：

a.提出多层融合卷积神经网络提取目标的外观特征；

b.针对不同状态的轨迹，即初始态、活跃态、初次关联稳定态和二次关联稳定态，考虑运动特征和距离特征的置信度，计算预测和检测边框的IoU、余弦距离、马氏距离，并采用不同的差异度量方式构造差异度量矩阵；

c.利用基于度量矩阵的分层关联方式实现数据关联；

该方法主要包括以下步骤：

(1)以监督学习方式训练跟踪器的外观特征网络；

(2)利用基于深度学习的目标检测器提取多目标的外观特征和运动特征，实现多目标的检测；

(3)计算轨迹和检测的运动特征差异度量矩阵和外观特征差异度量矩阵，并根据轨迹的状态以及特征的置信度，计算整体差异度量矩阵；

(4)依据轨迹的置信度，基于匈牙利算法，采用分层关联的方式实现检测和轨迹的数据关联；

(5)根据数据关联的结果，更新轨迹状态；

(6)重复步骤(2)—(5)，实现逐帧跟踪。

2.如权利要求1所述的基于深度学习的多行人跟踪方法，其特征在于在步骤(1)中，采用多层融合的特征提取网络提取目标的特征，并针对不同分支利用cosine-softmax损失函数单独训练，有效利用不同层次特征之间的互补性，提高了网络的鲁棒性。

3.如权利要求1所述的基于深度学习的多行人跟踪方法，其特征在于在步骤(3)中，针对初始态轨迹，通过计算预测和检测边界框的IoU值作为差异度量矩阵；针对活跃态轨迹，首先计算预测和检测边界框的IoU值作为差异度量矩阵，再计算轨迹和检测外观特征的余弦距离，并调整度量矩阵；针对初次关联稳定态轨迹，首先计算轨迹和检测外观特征的余弦距离作为差异度量矩阵，再计算预测和检测边界框的马氏距离，并调整度量矩阵；针对二次关联稳定态轨迹，计算方式与初始态轨迹相同，以上对差异度量矩阵的计算方式，考虑了不同状态轨迹运动特征置信度和外观特征置信度不同的情况，提高了数据关联的可靠性。

4.如权利要求1所述的基于深度学习的多行人跟踪方法，其特征在于在步骤(4)中，初次关联稳定态、二次关联稳定态、活跃态、初始态轨迹的置信度由于成功关联次数的下降，置信度也下降，所以采用分层关联的方式，对不同状态的轨迹依照置信度排序分层关联。