CN108717522A

CN108717522A - 一种基于深度学习和相关滤波的人体目标跟踪方法

Info

Publication number: CN108717522A
Application number: CN201810349970.0A
Authority: CN
Inventors: 张君鹏; 申瑞民; 姜飞
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-10-30

Abstract

本发明涉及一种基于深度学习和相关滤波的人体目标跟踪方法，该方法包括以下步骤：1)读取待跟踪视频的当前帧，利用人体检测器检测人体位置；2)读取待跟踪视频的下一帧，判断是否到达视频结尾，若是，则结束，若否，则执行步骤3)；3)利用上一步检测获得的人体位置初始化相关滤波跟踪器，进行人体跟踪，持续设定时间；4)利用轻量级人体判别器判定当前跟踪目标是否为人体，若是，则记录人体位置，返回步骤2)，若否，则返回步骤1)。与现有技术相比，本发明具有准确性高、实时性好等优点。

Description

一种基于深度学习和相关滤波的人体目标跟踪方法

技术领域

本发明涉及一种目标跟踪技术，尤其是涉及一种基于深度学习和相关滤波的人体目标跟踪方法。

背景技术

视频中的人体目标跟踪是一项涉及模式识别、计算机视觉及人工智能等多领域的研究课题，因其在智能视频监控、安防、教育等领域中广泛的应用价值，一直以来是人们研究的热点。然而，在现实场景中，由于人体姿态变化、视频抖动、遮挡等因素，跟踪算法难以同时兼顾运算实时性与结果准确性，这一问题在长时段跟踪任务中尤为明显。因此，如何实现准确而又具有实时性的人体目标跟踪方法仍然是研究的难点。

文献“High-speed tracking with kernelized correlation filters”(Henriques J F, Caseiro R,Martins P,et al.IEEE Transactions on PatternAnalysis and Machine Intelligence,2015,37(3):583-596)介绍了一种基于相关滤波的目标跟踪技术。该方法首先根据当前帧以及之前帧的信息训练出一个能够分辨跟踪目标与普通背景的相关滤波器。之后对于新输入的帧，在上一帧目标周围区域进行相关性计算，相关性得分最高的点就作为这一帧的跟踪结果。该方法的具体流程可概括为训练和检测两个阶段。训练阶段具体包括：(1)特征提取，包括原始像素、梯度直方图特征或颜色特征；(2)采样并生成循环矩阵，在第一帧目标周围取一块略大于目标的图像区域作为训练样本采样，大于目标的部分用于提供上下文信息，之后将采样图像扩展为循环矩阵，以扩充训练样本数；(3)利用快速傅里叶变换(FFT)与核岭回归方法高效地求解相关滤波参数。检测阶段具体包括：(1)在上一帧目标周围计算相关性；(2)选取相关性得分最高的点作为这一帧的跟踪结果的中心；(3)返回训练阶段，直至视频到达最后一帧。上述方法的不足在于：1、跟踪器不具有判别能力，一旦跟踪过程中出现错误，可能之后所有帧的跟踪都会出错，这一问题在长时段跟踪任务中尤为明显；2、跟踪目标大小给定后就不再改变，无法适应镜头缩放与跟踪目标尺寸变化；3、需要人工给出第一帧的跟踪目标，无法做到全自动化。

发明内容

本发明实现一种基于深度学习和相关滤波的人体目标跟踪方法。

本发明的目的之一是解决现有跟踪技术在长时段目标跟踪时准确率低的问题。

本发明的目的之二是解决现有跟踪技术难以在保证准确率的同时达到计算实时性的问题。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习和相关滤波的人体目标跟踪方法，该方法包括以下步骤：

1)读取待跟踪视频的当前帧，利用人体检测器检测人体位置；

2)读取待跟踪视频的下一帧，判断是否到达视频结尾，若是，则结束，若否，则执行步骤3)；

3)利用上一步检测获得的人体位置初始化相关滤波跟踪器，进行人体跟踪，持续设定时间；

4)利用轻量级人体判别器判定当前跟踪目标是否为人体，若是，则记录人体位置，返回步骤2)，若否，则返回步骤1)；

其中，所述人体检测器基于一人体样本数据库、利用深度卷积神经网络训练获得，所述轻量级人体判别器基于所述人体样本数据库、利用轻量级的深度卷积神经网络训练获得，所述相关滤波跟踪器根据当前帧以及之前帧的信息训练获得。

进一步地，训练所述轻量级人体判别器时使用随机梯度下降作为优化方式。

进一步地，所述轻量级人体判别器的网络结构包括6个卷积层、3个池化层和一个全连接层，并使用softmax进行分类。

进一步地，训练所述相关滤波跟踪器时融合所述轻量级人体判别器在训练过程中提取的卷积特征。

进一步地，所述卷积特征为所述轻量级人体判别器在训练过程中网络最前端的 2个卷积层所提取的卷积特征。

进一步地，所述设定时间为5～15s。

与现有技术相比，本发明具有以下有益效果：

1、本发明使用人体检测器、轻量级人体判别器和相关滤波跟踪器共同协作，提升了人体目标跟踪准确性，尤其是长时段的人体目标跟踪。

2、本发明基于轻量级人体判别器实现，减少了耗时的人体检测器调用次数，提高了跟踪算法效率，保证了跟踪算法的实时性。经测试，本技术方案提出的跟踪算法平均运行速度可以达到30FPS以上。

3、本发明在相关滤波特征提取阶段融合了轻量级人体判别器前两层提取的卷积特征，由于人体判别器针对了大量人体样本进行训练，提取到的特征对人体有更好的表达性，从而增强了相关滤波的准确率。

附图说明

图1为本发明的流程示意图；

图2为本发明的人体检测器结构示意图；

图3为本发明的轻量级人体判别器结构示意图；

图4为本发明相关滤波跟踪器工作流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例实现一种基于深度学习和相关滤波的人体目标跟踪方法，该方法由一个人体检测器、一个轻量级人体判别器和一个相关滤波跟踪器共同协作完成人体目标跟踪任务，包括以下步骤：

4)利用轻量级人体判别器判定当前跟踪目标是否为人体，若是，则记录人体位置，返回步骤2)，相关滤波跟踪器继续工作，若否，则返回步骤1)，代表跟踪出现错误，需要使用人体检测器重新为相关滤波跟踪器提供跟踪目标。

其中，所述人体检测器基于一人体样本数据库、利用深度卷积神经网络(DeepCNN)训练获得；所述轻量级人体判别器基于所述人体样本数据库、利用轻量级的深度卷积神经网络(Lightweight CNN)训练获得，以保证实时性；所述相关滤波跟踪器根据当前帧以及之前帧的信息训练获得。

通过上述不断循环可以最终完成整个跟踪过程。上述人体目标跟踪方法适用于任意场景，尤其针对目标人物需要长时间跟踪的任务场景。

1、样本数据库

该方法需要创建一个拥有大量人体图像样本的数据库，在此基础上基于深度卷积神经网络训练一个人体检测模型，这一模型被称为人体检测器。基于同样的样本，训练一个轻量级的卷积神经网络模型。该模型以一张图片作为输入，输出这张图片是人体/非人体，这一模型被称为轻量级人体判别器，简称人体判别器。

2、人体检测器

本实施例采用现有技术中的一种深度卷积神经网络实现人体检测器，所实现的人体检测器的结构如图2所示。该网络首先使用一组基础的ResNet-Block (conv+relu+pooling层)提取特征图(feature maps)。该特征图之后被共享用于后续的RPN(区域建议网络)层和RoI Pooling(感兴趣区域池化)层。RPN网络用于生成region proposals(候选框)。RoI Pooling层输入feature maps和region proposals，并对每一个候选框池化至统一大小，以便之后进行包围盒回归和候选框分类。最后，网络通过一组卷积层判定候选框中是否存在人体，同时对候选框的大小和位置进行修正，从而得到检测框最终的精确位置。

3、轻量级人体判别器

本实施例轻量级人体判别器的结构如图3所示。轻量级人体判别器网络采用6 个卷积层、3个池化层和一个全连接层堆叠而成，最后使用softmax进行分类。卷积层的卷积核的大小设置为3*3。网络每经过2个卷积层进行一次池化操作,以提取更高层次的语义特征。每个卷积层后，网络使用ReLU函数作为激活函数。在训练与测试阶段，所有样本统一缩放为224*224大小。训练时使用随机梯度下降(SGD) 作为优化方式。在训练完成后，网络最前端的2个卷积层参数单独保留，以用于相关滤波过程中卷积特征的融合。

4、相关滤波跟踪器

相关滤波跟踪器的工作流程如图4所示，该方法首先根据当前帧以及之前帧的信息训练出一个能够分辨跟踪目标与普通背景的相关滤波器。之后对于新输入的帧，在上一帧目标周围区域进行相关性计算，相关性得分最高的点就作为这一帧的跟踪结果。该方法的具体流程可概括为训练和检测两个阶段。

训练阶段具体包括：(1)特征提取，包括梯度直方图特征和卷积特征。本实施例在特征整体提取过程中融合了轻量级人体判别器前两个卷积层提取出的卷积特征。由于轻量级人体判别器针对了大量人体样本进行训练，提取到的特征对人体有更好的表达性，从而增强了相关滤波的准确率。(2)采样并生成循环矩阵，在第一帧目标周围取一块略大于目标的图像区域作为训练样本采样，大于目标的部分用于提供上下文信息。之后将采样图像扩展为循环矩阵，以扩充训练样本数；(3)利用快速傅里叶变换(FFT)与核岭回归方法高效地求解相关滤波参数。

检测阶段具体包括：(1)在上一帧目标周围计算相关性；(2)选取相关性得分最高的点作为这一帧的跟踪结果的中心；(3)返回训练阶段，直至视频到达最后一帧。

相关滤波跟踪器工作的设定时间可由一定时器实现，所述设定时间为5～15s。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度学习和相关滤波的人体目标跟踪方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于深度学习和相关滤波的人体目标跟踪方法，其特征在于，训练所述轻量级人体判别器时使用随机梯度下降作为优化方式。

3.根据权利要求1所述的基于深度学习和相关滤波的人体目标跟踪方法，其特征在于，所述轻量级人体判别器的网络结构包括6个卷积层、3个池化层和一个全连接层，并使用softmax进行分类。

4.根据权利要求3所述的基于深度学习和相关滤波的人体目标跟踪方法，其特征在于，训练所述相关滤波跟踪器时融合所述轻量级人体判别器在训练过程中提取的卷积特征。

5.根据权利要求4所述的基于深度学习和相关滤波的人体目标跟踪方法，其特征在于，所述卷积特征为所述轻量级人体判别器在训练过程中网络最前端的2个卷积层所提取的卷积特征。

6.根据权利要求1所述的基于深度学习和相关滤波的人体目标跟踪方法，其特征在于，所述设定时间为5～15s。