CN107563313B

CN107563313B - 基于深度学习的多目标行人检测与跟踪方法

Info

Publication number: CN107563313B
Application number: CN201710709817.XA
Authority: CN
Inventors: 周忠; 吴威; 孙晨新; 姜那; 李鹤兮
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2020-07-07
Anticipated expiration: 2037-08-18
Also published as: CN107563313A

Abstract

本发明公开了一种基于深度学习的多目标行人检测与跟踪方法，包含如下步骤：步骤一：针对输入的视频进行多目标行人检测和关节点提取，并保存获得的位置信息及关节点信息作为下一阶段的输入；步骤二：间隔一定帧数选择一个关键帧，并针对关键帧内的行人进行表观特征提取，即根据步骤一所得的位置信息与关节点信息，分别提取上半身姿态特征和颜色直方图特征，用于关键帧之间的行人关联；步骤三：针对关键帧内的行人进行连续跟踪，过程中使用本发明所提出的阈值慢起步策略、分块匹配率模型检测算法、保存历史状态投票算法与遮挡检测方法来提高跟踪效果，跟踪结束后返回步骤一，重新检测关键帧来保证方法稳定性。

Description

基于深度学习的多目标行人检测与跟踪方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于深度学习的多目标行人检测与跟踪方法。

背景技术

随着计算机计算能力的发展，计算机视觉技术能够逐渐应用于实际生活中，方便人们的生活。在视频监控领域中，监控视频中很重要的一个任务就是发现人并解释其行为。我们需要知道指定目标是否出现在监控系统中以及出现在了什么地方。在视频序列中识别出行人，属于行人检测问题。考虑到时空关联性，在监控视频中识别并跟踪出现在不同监控中某个目标的问题，被称作目标跟踪。行人检测技术是行人跟踪的基础。监控视频中的视频帧有分辨率低下、光照变化明显、遮挡的不足等问题，如何减轻和减少这些不足和因素带来的影响是解决行人跟踪问题的关键。

目前主流的基于深度神经网络的行人检测中，一类是基于Region Proposal的目标检测方法，如SPP-Net、Faster-RCNN等，这一类检测的精度较高。另外，还有基于回归预测的检测方法，如SSD、YOLO等，这类检测的精度虽然不如前一类的精度，但是检测的速度往往更快。在对速度要求不太高的视频分析中，可以使用基于Region Proposal的目标检测。

目前行人跟踪主要基于两种思路：一方面，不依赖于任何先验知识，直接从图像的序列中检测到运动行人，进行行人识别，最终跟踪到运动行人；另一方面，依赖于运动行人的先验知识，先为运动行人建模，再在图像序列中实时找到相匹配的运动行人。

对不依赖先验知识的目标跟踪来讲，运动检测是实现跟踪的第一步。运动检测即在序列图像中利用块匹配、光流估计等方法将变化区域从背景图像中提取出来。对于依赖于运动目标先验知识的跟踪，可以分为基于主动轮廓的跟踪算法，基于特征的跟踪，基于区域的跟踪，基于模型的跟踪。

同时，跟踪行人距离相机的距离不同导致其在相机内成像大小往往会发生变化，而目前现有的大多数的方法很少考虑到行人成像变化的问题，如Struck算法，CT算法，KCF算法，ASLA算法等，这将会导致跟踪框精度下降，影响行人跟踪效果。一些由于考虑缩放问题而带来的精度问题都是通过行人检测的方式获取行人较为准确的大小，再做关联匹配的，然而这类方法通常需要给定行人类型，并且在行人受到遮挡时经常会检测不到或者检测错误。

在实际应用中，由于遮挡问题大多与环境语义相关，所以目前的行人跟踪算法大多数对障碍物遮挡不作处理，完全遮挡后即丢失行人并且无法重识别，但现实中的监控视频很少有无遮挡的广阔视野，跟丢情况频繁发生。所以针对现有的跟踪算法，本发明在检测到行人以后提出了新的遮挡检测策略和跟丢重识别策略，采用动态的更新方式。最后对于跟踪丢失的情况会扩大搜索范围并根据单相机内的跟踪结果对丢失的情况进行轨迹恢复。

本发明所提出的一种基于深度学习的多目标行人检测与跟踪方法，在行人检测上使用最近在准确度上一直领先的深度学习方法，每间隔一定帧数进行一次检测，加快了整个方法中跟踪的效率。在关键帧间行人匹配上，综合利用了多种行人特征，不仅能够准确的检测、识别出行人，而且在视角变化、遮挡等多种干扰下仍能稳定的跟踪行人，可以应用于视频监控、异常行为分析等现实场景。

发明内容

本发明的目的之一在于提出一种基于深度学习的多目标行人检测与跟踪方法，以提高在视频监控中，在视角、姿态、遮挡等多种干扰因素下，如何较为快速准确的检测到行人、识别行人并对行人进行跟踪。

本发明采用的技术方案为：一种基于深度学习的多目标行人检测与跟踪方法，该方法包括多目标行人检测、关键帧特征提取与关键帧间行人跟踪三个步骤，多目标行人检测步骤为：

(d1)对输入的视频每间隔一定帧数选择一个关键帧，进行多目标行人检测；

(d2)在检测的基础上进行关节点提取，并保存获得的位置信息及关节点信息作为下一阶段的输入；

关键帧特征提取步骤为：

(f1)根据(d2)所得的位置信息针对关键帧内的行人进行颜色直方图特征提取；

(f2)根据(d2)所得的位置信息与关节点信息，提取关键帧内的行人的上半身姿态特征；

(f3)将颜色直方图特征与上半身姿态特征拼接得到该行人的总特征，与上一个关键帧检测到的行人匹配，关联跟踪轨迹；

关键帧之间行人跟踪步骤为：

(t1)使用分块匹配率模型检测算法计算关键帧之间行人匹配率；

(t2)使用阈值慢起步策略跟踪行人匹配率；

(t3)对匹配行人进行保存历史状态投票；

(t4)在(t1)至(t3)步骤中使用遮挡检测方法；

(t5)对暂时跟丢的行人使用跟丢搜索范围变化算法；

(t6)跟踪结束后返回步骤(d1)重新检测。

进一步地，所述步骤(d1)包括如下步骤：

(d1.1)将提取的关键帧输入所训练基于ResNet的行人检测卷积神经网络中，提取最后池化层的特征；

(d1.2)将上述步骤(d1.1)中的特征依次送入一个子网络中，网络计算出包含行人的包围框，以及每个包围框内含有行人的置信度。

进一步地，所述步骤(f2)包括如下步骤：

(f2.1)结合步骤(d2)中检测出的关节点信息与位置信息，计算上半身关节点之间的关节距离；

(f2.2)将步骤(f2.1)的上半身关节点距离构成一个向量。

进一步地，所述步骤(t1)包括如下步骤：

(t1.1)将行人划分为边缘与内部，计算关键帧之间行人匹配率；

(t1.2)如果边缘匹配率首先下降，增加学习率以抵抗遮挡，如果内部匹配率首先下降，除掉一定最近状态。

进一步地，所述步骤(t5)包括如下步骤：

(t5.1)若行人处于暂时跟丢状态，如果行人的跟丢时间小于阈值T，说明行人没有永久性丢失；

(t5.2)如果跟丢时间大于阈值t(阈值t小于步骤(t5.1)中所述阈值T)，则扩大行人的搜索范围；

(t5.3)如果行人的跟丢时间小于阈值t，则搜索范围不变。

本发明的原理在于：一种基于深度学习的多目标行人检测与跟踪方法，将输入的视频解析成视频帧，针对输入的视频帧序列进行多目标行人检测和关节点提取，并保存获得的位置信息及关节点信息作为下一阶段的输入；接着间隔一定帧数选择一个关键帧，并针对关键帧内的行人进行表观特征提取，即根据步骤一所得的位置信息与关节点信息，分别提取上半身姿态特征和颜色直方图特征，用于关键帧之间的行人关联；随后针对关键帧内行人进行连续跟踪，过程中使用本发明所提出的阈值慢起步策略、分块匹配率模型检测算法、保存历史状态投票算法与遮挡检测方法来提高跟踪效果，跟踪结束后返回步骤一重新检测关键帧来保证方法稳定性。

行人检测主要是对视频关键帧进行多目标行人检测，然后在检测的基础上进行关节点提取，并保存获得的位置信息及关节点信息作为下一阶段的输入。在视频帧序列中进行多目标行人检测具体将提取的关键帧输入本专利所训练的基于ResNet的行人检测卷积神经网络中，提取最后池化层的特征，将上述的特征依次送入一个子网络中，网络计算出包含行人的包围框，以及每个包围框内含有行人的置信度。

关键帧特征提取主要是间隔一定帧数选择一个关键帧，根据行人检测中所得的位置信息针对关键帧内的行人进行颜色直方图特征提取，然后根据位置信息与关节点信息，提取上半身姿态特征。该特征的获得需要结合检测出的关节点信息与位置信息，计算上半身关节点之间的关节距离，接着将上述关节点距离构成一个向量。

关键帧之间的行人跟踪主要使用阈值慢起步策略跟踪行人匹配率，并在跟踪过程中分块匹配率模型检测算法匹配行人。对匹配行人的状态，进行保存历史状态投票，使用遮挡检测方法。对短时跟丢的行人使用跟丢搜索范围变化算法。并在跟踪结束后返回检测步骤重新检测。

本发明与现有技术相比的优点在于：在行人检测的过程中，使用卷积神经网络的思想，并且多次利用了关键帧的深度特征，既用来检测行人，又可以用来检测行人的关节点。在关键帧特征提取中，综合的利用了关节点信息与表观特征，在关键帧间匹配效果显著。在关键帧之间跟踪的过程中，使用本发明所提出的阈值慢起步策略、分块匹配率模型检测算法、保存历史状态投票算法与遮挡检测方法来提高跟踪效果，保证跟踪结果的稳定。

附图说明

图1为本发明原理示意图；

图2为行人检测网络结构设计示意图；

图3为匹配率和阈值的变化情况示意图；

图4为障碍物进入与自身形变的分块匹配率变化示意图；

图5为本发明一种基于深度学习的多目标行人检测与跟踪方法示意图。

具体实施方式

下面将结合附图详细描述本发明的具体实施例。

如图1所示，本发明所述的一种基于深度学习的多目标行人检测与跟踪方法，包括如下步骤：

步骤一：针对输入的视频帧序列进行多目标行人检测和关节点提取，并保存获得的位置信息及关节点信息作为下一阶段的输入。具体通过如下步骤实施：

1.1首先在本方法准备阶段，训练一个基于ResNet的行人检测卷积神经网络用于提取视频帧的视觉特征，该卷积网络在结构上使用如图2单元的重复，x为神经网络信号的传入，x经过两层神经网络后与x自身进行加和再传入下一层网络，该卷积网络在ImageNet公开数据集上训练。实验表明，该结构比目前流行的vgg网络能够更好的提取图片中特征，检测效果更好。具体测试使用时，只需将关键帧输入本专利所训练好的基于ResNet多目标行人检测卷积神经网络中，取最后池化层的特征；

1.2在上述步骤1.1中的关键帧的池化层特征上构建一个固定大小的滑动窗口，并将每个滑动窗口的输出映射为9个256维的特征向量送入一个Faster-RCNN网络首先提出的RPN网络中，最后将256维特征向量分别送入2个全连接层，其中一个全连接层输出9对该滑动窗口所对应区域的坐标位置(x,y,w,h)，另一个全连接层输出9个该区域中有行人的概率；

1.3将上述步骤1.1中的特征输出与上述步骤1.2中预测的含有行人的区域结合，计算该候选区域中包含行人的置信度，将候选区域作为包围框，输出包围框与含有行人的置信度；

1.4利用步骤1.3包围框信息，将关键帧中包围框所对应的位置裁剪出来，将裁剪出来的小区域输入Convolutional Pose Machines所提出的6阶段关节点检测神经网络，输出关节点的位置。

步骤二：间隔一定帧数选择一个关键帧，并针对关键帧内的行人进行表观特征提取，即根据步骤一所得的位置信息与关节点信息，分别提取上半身姿态特征和颜色直方图特征，用于关键帧之间的行人关联。具体通过如下步骤实施：

2.1计算表观代价时，使用常用的颜色直方图特征。将第一步检测到的包围框序列中的每一个包围框分成3*8的小块，在每个小块上分别提取HSV、Lab这6个颜色通道的特征，最后取每个小块上视频帧序列的平均，得到了一个单包围框的24块平均颜色直方图特征；

2.2计算步骤2.1给出的24块平均颜色直方图特征与待追踪的行人关键帧平均分块颜色直方图的差异C，计算时设定内部权重高于外围权重以减少周围环境带来的误差；

2.3利用步骤1.4中检测出的关节点信息与位置信息，计算上半身关节点之间的关节距离，将关节距离构成一个向量作为上半身姿态特征；

2.4把颜色直方图特征与上半身姿态特征作为行人的特征，与上一个相邻关键帧行人的特征做对比，关联cos距离最小的特征对应的行人。

步骤三：针对关键帧内行人进行连续跟踪，过程中使用本发明所提出的阈值慢起步策略、分块匹配率模型检测算法、保存历史状态投票算法与遮挡检测方法来提高跟踪效果，跟踪结束后返回步骤一重新检测关键帧来保证方法稳定性。具体通过如下步骤实施：

3.1初始化跟踪状态，如果在行人特征与上一个关键帧特征匹配，则开始行人跟踪，初始化包括行人的Haar-like特征、颜色直方图特征，将Haar-like与颜色直方图特征设置为行人的初始状态，并构建历史状态集；

3.2监控模型匹配率算法，具体包括：计算当前帧与前一帧的行人匹配率，并观察阈值，绘制出在遮挡前后行人模型匹配度随时间的变化图，如图3。在图3中，分别用实线与虚线画出前17帧的匹配率与阈值的变化，分析发现随着障碍物的到来，学习模型的匹配率开始下降，分析发现，设置较高的遮挡阈值，能够在障碍物到来时及时触发。但在行人与障碍物交错后到行人重新被检测到的时间内，由于行人消失了一段时间，此段时间学习模型并未学习到相应的更新数据，因此设置了较低的匹配阈值。如果这时候丢失阈值和重匹配阈值设定为不同的值，可能会导致跟踪震荡，既重识别后又因为匹配率太低而重新丢失，导致无法学到正确的信息。

基于上述结果提出阈值慢起步策略，当处于跟踪状态时，阈值也进入学习状态，随着匹配率的变化而以一定的学习率变化。当进入行人丢失状态时，如图3中黑圈所标识位置，匹配率低于阈值时，阈值进入稳定线性下降保持状态，随着时间的推进，阈值会不断下降来迎接重匹配。当检测到行人时如图3所示的灰圈所标识位置匹配率重新高于阈值，阈值进入跟踪状态，跟踪匹配率的变化。

3.3边缘匹配率变化算法，具体包括：在步骤3.2中得到了行人逐帧匹配率，将行人划分为边缘与内部，对于障碍物遮挡，绝大多数情况障碍物是从匹配框的边缘进入。另一方面如果为了及时检测到遮挡，将阈值比率提的太高，当行人发生转身等操作时，又会产生丢失状态。所以采用分块匹配率模式检测。本专利将模型分块，获取到每一块的匹配策略，采取分块匹配率模式检测。下面根据在行人再识别数据集上的运行结果进一步说明。

a)如图4左，整个方框表示分块匹配区域，当边缘匹配率先进行下降时，我们认为是障碍物有遮挡，及时降低学习率。

b)如图4右，当行人框内部匹配率先进行下降，而边缘匹配率变化较少时，我们认为行人内部出现了变化，及时增加学习率防止跟丢。

3.4保存历史状态投票算法，具体包括：当行人暂时丢失后，如果继续更新模型，则会学习到相应的背景信息。我们需要将模型的学习率降低到0，并在一定时间后，反而将跟踪框内容转换成负样本。但是即使如此，我们还是会学到背景信息导致模型污染或者过早学习负样本导致破坏原有架构。这时候我们就需要保存历史状态。

将原本的单模型跟踪匹配转换成多历史模型投票匹配。建立一个历史模型状态集，其中包含初始状态，丢失前状态，以及丢失前按一定规律进行采样的模型状态。我们的采样策略如下，我们每帧进行一次状态采样，但是随着时间推移，我们会以一定的概率进行历史状态淘汰，直到小于最大状态保存数量。这样做的好处是，时间越近的状态经历的概率淘汰次数越少，时间越远的状态经历的概率淘汰次数越多，时间距离近的模型的权重更高，这样子简化了原先采用显性权值的模型，即不需要每次对模型的权值更新，计算评分时速度也会提高。另外通过增加了概率步骤，减少在某些极端情况下的最差表现，提高了本身的鲁棒性。

当遮挡检测模型检测到遮挡后，我们为了防止最近的状态污染，剔除掉一些最近状态，使用状态集中的其他状态进行投票。每个状态有一个额外的缓存标志位，如果某一次投票中，某模型状态与当前的跟踪图像匹配率最高，则将此状态的缓存标志位置为一，则下次进行状态淘汰时，如果按概率对此状态进行了淘汰，则将淘汰操作转换为对该状态的标志位置为0，即给匹配率最高的模型状态两次机会。

我们的投票策略即状态集中的所有模型都与当前跟踪框的结果进行一次匹配，如果匹配率大于某一阈值的状态数量与状态集的总数的比值大于一定的值，通常设定为0.1到0.3，则我们认为当前图像属于重匹配成功，取最高匹配率作为模型的匹配率。虽然随着状态集的扩大检测时间会延长，但是由于本策略主要集中于单相机行人跟丢后的重匹配，而非实时跟踪，所以在实际应用时产生的滞后感并不明显。

3.5跟丢搜索范围变化算法，具体包括：如3.2判断行人处于暂时跟丢状态，随着跟丢行人后的时间推移，隐藏行人所在的位置随机性越来越大，我们不可避免的要扩大搜索范围。但是搜索范围的扩大意味着候选框数量的增加，检测时间的增长。所以本发明对范围的变化、采样的密度、耗费的时间进行一个权衡。

在遮挡的初始时间内，隐藏行人的位置随机性通常较小，因为行人运动速度是固定的，实际随机性主要来自于行人行走策略的变更。随着时间的后续推移，行人位置的随机性的增幅显著增加，这说明日常事件对于行走策略的影响开始生效。基于这个观察，我们在短时间内的遮挡跟踪中并不扩大搜索范围，因为候选框的增多意味着内存的重分配，特别是在KCF跟踪算法中核函数的内存预分配与搜索范围直接相关，而增加跟踪框保持不变的时间T_keep可以解决跟踪状况较差导致的内存分配抖动。

而当时间大于一定的阈值T_keep时，我们的搜索范围开始随着时间慢慢增大，保证在丢失后的重匹配中能够涵盖可能的行人重出现位置。

扩大搜索范围策略具体可用如下公式表示：

上述公式中，t为跟丢时间，阈值T_keep是跟踪框保持不变的时间，S_orgin是原始跟踪框的方位大小，S_track是跟踪框的范围大小，S_MAX是最大范围限制。

3.6将步骤3.1至3.5设计的算法计算出的跟踪结果引入卡尔曼滤波修正跟踪轨迹，具体包括：本发明对于隐藏行人的中心位置变化通过建模来预测。我们可以将行人位置的随机性和检测的误差当做噪声，将整个行走轨迹看做一个马尔可夫链，该马尔可夫链建立在一个被行人位置变动的高斯噪声干扰的线性算子上。时刻k的状态演化为：

x_k＝F_kx_k-1+B_ku_k+w_k

上述公式中，x_k为k时刻的真实状态，F_k是作用在x_k-1上的状态变换模型，B_k是作用在控制器向量u_k上的输入－控制模型，w_k是过程噪声，并假定其符合均值为零，协方差矩阵为Q_k的多元正态分布，即w_k～N(0，Q_k)。

时刻k，对真实状态x_k的一个测量z_k满足下式：

z_k＝H_kx_k+v_k

上述公式中H_k是观测模型，它把真实状态空间映射为观测空间，v_k是观测噪声，其均值为零，协方差矩阵为R_k，且服从正态分布，即v_k～N(0，R_k)。

认为初始状态以及每一时刻的噪声{x₀，w₁，…，w_k，v₁，…，v_k}是互相独立的。我们用行人的位置组成的整数对向量来表示系统状态，将每一个帧看做离散时间。随着时间的推移，这个线性算子可以作用到当前的位置状态上，产生一个新的位置状态，同时带入一些噪声，并且一些已有的控制信息(比如已知的不可行走的位置)也会被加入。同时，隐藏的线性算子产生出这些隐含状态在高斯噪声干扰下的可见输出。实际上，我们的跟踪模型由于受到环境的干扰，比如部分区域不可进入需要绕路，导致并不确切符合我们的模型；但是由于本身滤波器已经考虑到噪音的情况，一个近似的位置预测已经符合我们的实际应用了，跟踪模型的匹配过程才是确切确定行人位置的方式。

卡尔曼滤波是一个递归评估器，这意味着只需要上一个时间戳上的评估状态和当前测量状态就可以计算出当前的评估状态。不同于批预测技术，卡尔曼滤波不需要任何更远的历史观察和历史评估。卡尔曼滤波可以通过一个单公式来表示，但是他通常通过预测和更新两个概念来描述。预测阶段使用从先前时间戳的状态评估来产生一个当前时间的状态评估，具体如下：

上述第一个公式中

预测状态，第二个公式中P_k|k-1是预测估计的协方差矩阵，其中Q_k为过程噪声w_k的协方差矩阵。预测状态评估也被叫做先验状态评估，因为即使他是一个当前时间的状态评估，它不包含任何当前时间戳的观察信息。

在更新阶段，当前的先验预测会合并到当前的观测结果来重定义一个状态评估，这个新的评估会被定义为后验状态评估。通常，这两个阶段迭代进行，先进行预测然后等新的观察状态到来，更新不符合的预测。

如果还有后续视频帧，则返回步骤一所述检测步骤重新进行检测并按本发明上述过程逐步运行。以上步骤可以用示意图5来说明该方法的具体步骤。

Claims

1.一种基于深度学习的多目标行人检测与跟踪方法，其特征在于：该方法包括多目标行人检测、关键帧特征提取与关键帧间行人跟踪三个步骤，多目标行人检测步骤为：

关键帧特征提取步骤为：

关键帧之间行人跟踪步骤为：

所述步骤(t1)包括如下步骤：

(t1.2)如果边缘匹配率首先下降，增加学习率以抵抗遮挡，如果内部匹配率首先下降，除掉一定最近状态；

(t2)使用阈值慢起步策略跟踪行人匹配率；所述阈值慢起步策略，当处于跟踪状态时，阈值也进入学习状态，随着匹配率的变化而以一定的学习率变化；

(t3)对匹配行人进行保存历史状态投票；所述保存历史状态投票，包括：当行人暂时丢失后，如果继续更新模型，则会学习到相应的背景信息，需要将模型的学习率降低到0，并在一定时间后，反而将跟踪框内容转换成负样本，还是会学到背景信息导致模型污染或者过早学习负样本导致破坏原有架构，需要保存历史状态；

(t4)在(t1)至(t3)步骤中使用遮挡检测方法；

(t5)对暂时跟丢的行人使用跟丢搜索范围变化算法；

(t6)跟踪结束后返回步骤(d1)重新检测。

2.根据权利要求1所述的基于深度学习的多目标行人检测与跟踪方法，其特征在于：所述步骤(d1)包括如下步骤：

3.根据权利要求1所述的基于深度学习的多目标行人检测与跟踪方法，其特征在于：所述步骤(f2)包括如下步骤：

(f2.2)将步骤(f2.1)的上半身关节点距离构成一个向量。

4.根据权利要求1所述的基于深度学习的多目标行人检测与跟踪方法，其特征在于：所述步骤(t5)包括如下步骤：

(t5.2)如果跟丢时间大于阈值t，其中，阈值t小于步骤(t5.1)中所述阈值T，则扩大行人的搜索范围；

(t5.3)如果行人的跟丢时间小于阈值t，则搜索范围不变。