CN109146921A

CN109146921A - 一种基于深度学习的行人目标跟踪方法

Info

Publication number: CN109146921A
Application number: CN201810708758.9A
Authority: CN
Inventors: 凌贺飞; 余成跃; 李平
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2019-01-04
Anticipated expiration: 2038-07-02
Also published as: CN109146921B

Abstract

本发明公开一种基于深度学习的行人目标跟踪方法，将深度学习与相关滤波相结合进行目标跟踪，在保证实时跟踪的前提下，有效提高跟踪的准确性。针对跟踪过程中目标姿态变化大的问题，将基于行人属性的深层卷积特征应用到跟踪中；针对遮挡问题，使用余弦相似度的方法进行遮挡的判断，以有效避免因遮挡带来的脏数据引入；为了提高效率、解决深层卷积特征在相关滤波器中的使用问题，提出双线性插值的方法，在去除量化误差的同时又能避免特征的重复提取，大幅度提高效率；针对目标高速运动的问题，提出将预选框策略融入到跟踪算法中，不仅能对全局图像进行搜索，同时预选框能够作为强负样本加入训练，提高相关滤波器的区分能力。

Description

一种基于深度学习的行人目标跟踪方法

技术领域

本发明涉及属于计算机视觉领域，更具体地，涉及一种基于深度学习的行人目标跟踪方法。

背景技术

近来，国内外恐怖事件频繁发生，严重威胁了人民的生命财产安全和健康幸福生活。随着“平安城市”的建设，大量摄像头的搭建，给人们的生命财产安全、幸福高质量的生活带来保障的同时，也带来了视频数据的爆发式的增长，给视频分析处理技术带来了极大的挑战。在视频监控系统产生的大量数据中绝大多数都是与人相关，而且我们所关心的也大都是人的特征、姿态、动作、行为等等，因此与人相关的信息获取就至关重要。行人目标跟踪，就是对视频序列中行人与背景进行区分，获得一个目标在整个视频序列中完整的运动轨迹。这能有效的把视频中的快照进行关联，大量减少分析的快照数量，提高分析处理速度。另外，行人目标跟踪对行人的运动速度、行人动作分析、事件检测都提供了基础。

跟踪算法一般来说可以分为生成模型方法和判别模型方法。生成模型方法的大概流程是，根据当前帧的目标区域建立模型，在下一帧中寻找与模型最相似的区域，该区域即为预测的目标位置。这一类方法，在面对跟踪过程中的复杂变化时，其鲁棒性和准确度方面的表现都不尽人意。

判别模型方法，又称为tracking-by-detection，与处理其他经典计算机视觉问题的思路一致，即图像特征加机器学习。大体流程是，在提取图像特征后，以真实目标区域为正样本，背景区域为负样本，使用机器学习的方法训练一个分类器，在之后视频帧中，用这个分类器进行预测，查找出最优的区域，并根据预测结果继续对分类器参数进行更新。

相关滤波方法(correlation filter，CF)最早是用在信号领域，用来描述信号之间的相关性。在目标跟踪领域中，该方法设计出密集采样，并引入了循环矩阵和核的概念，解决了传统目标跟踪算法中稀疏采样导致的样本冗余问题，同时对于岭回归快速求解的研究，使得目标跟踪效率极大的提高。另外，结合不同的特征，将其应用到相关滤波器算法中，能够有效的应对形状、尺度、光照等各种变化情况，跟踪效果的鲁棒性更强。

深度卷积神经网络提取的图像特征能够在更高层更加抽象的表达出图像语义特征，对于行人目标跟踪问题，深度卷积特征是一种鲁棒性强、表达能力好的特征。但将其应用到行人目标跟踪任务中，也包含着很多问题，比如针对性的特征选取问题、卷积特征的尺度缩放带来的量化误差问题、训练样本选取问题、遮挡问题等。

综上所述，目前在行人目标跟踪领域进行了大量的研究工作，已经有很多目标跟踪的算法，但是在实际应用场景中，将深度学习应用到行人目标跟踪任务中的方法并不多，主要是现有方法存在提取的特征针对性不强、深度卷积特征跟踪目标位置精确度不高、遮挡带了训练样本的污染等问题，不能直接应用于实际的使用场景中。因此，如何有效利用深度卷积特征的优势，解决其带来的各种问题，同时有能保证实时性，是一个亟待解决的难题。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有行人目标跟踪方法存在提取的特征针对性不强、深度卷积特征跟踪目标位置精确度不高、遮挡带了训练样本的污染等问题，不能直接应用于实际的使用场景中的技术问题。

为实现上述目的，本发明提供一种基于深度学习的行人目标跟踪方法，包括以下步骤：

(1)对包含行人目标的视频解码获得每一帧视频图像；

(2)提取每一帧视频图像的特征信息；

(3)根据每一帧视频图像的特征信息，使用区域候选网络(Region ProposalNetwork,RPN)生成每一帧视频图像的预选框区域，以粗粒度搜索每一帧视频图像，获取每一帧视频图像中有可能是行人目标的候选区域；

(4)在上一帧视频图像行人目标周围产生目标框，将所述目标框与前后关联帧视频图像中有可能是行人目标的候选区域合并，成为细粒度搜索候选集；

(5)用双线性插值算法，将每一帧视频图像特征信息对应的特征图进行扩展，使得扩展后的特征图与原始视频图像分辨率相同，去除因量化带来的目标位置预测不准确的问题，在扩展后的特征图上，确定所述细粒度搜索候选集中各个目标框对应位置的特征；

(6)使用相关滤波器，对细粒度搜索候选集中的区域计算响应值，响应值最大者即为预测的行人目标位置，同时对相关滤波器进行在线更新。

可选地，所述步骤(2)具体包括：

基于行人属性的特征提取模型进行图像特征的提取，所述行人属性的特征提取模型在CaffeNet的基础上，在第6个全连接层后分裂成多个，分别对应于多个行人属性的标签，每个标签对应于各自的分类损失和验证损失层，该模型的训练过程包括：

(21)从N个训练样本中随机选取一个批次的样本进行预处理，所述N个训练样本为N个包含行人图像的图片，用于训练得到行人属性的特征提取模型；

(22)以ImageNet预训练的模型进行网络权重参数的初始化，将一个批次的训练样本和标签输入网络进行正向传播，计算网络各层的值，分别计算得到分类损失和验证损失，最终计算得到总体损失；

(23)若预定总迭代次数达到或者总体损失小于一定阈值，则训练结束；否则，继续步骤(24)；

(24)进行反向传播，用链式法则将损失梯度一层层向前进行传播，每一层利用各自的损失梯度，使用梯度下降算法对网络模型参数进行更新；重复步骤(21)至(23)。

可选地，所述步骤(3)具体包括：

在提取图像特征后，将其输入到RPN网络用于预选框的生成，特征提取网络模型与RPN网络模型的联合训练过程包括：

(31)对训练样本、真实目标区域和相应的行人ID、属性标签进行预处理；

(32)用步骤(2)中的训练得到网络参数，对特征提取模型权重参数进行初始化，并随机初始化RPN参数；

(33)固定卷积参数，训练网络，更新RPN和全连接层参数；

(34)固定卷积参数和RPN参数，用RPN生成预选框，使用预选框区域的卷积特征进行训练，更新全连接层参数。

可选地，所述步骤(5)具体包括：

(51)将每一帧视频图像特征信息对应的卷积特征图与原始图像进行映射，以对卷积特征图进行扩展，此时卷积特征图中将只有部分区域有值；

(52)根据双线性插值公式，对扩展后的卷积特征图进行横向插值，对每一行进行逐一插值；

(53)根据双线性插值公式，对扩展后的卷积特征图进行纵向插值，对每一列进行逐一插值。

可选地，所述步骤(6)具体包括：

(61)将细粒度搜索候选集中的目标框对应区域特征分别通过相关滤波器，计算响应值，并通过比较得出相应值最大者，响应值最大者即为预测的目标位置；

(62)计算预测目标位置与上一帧目标位置之间的特征余弦相似度，若相似度大于阈值，则进行步骤(63)，否则结束；

(63)根据预测结果，对候选集中的目标框进行标记，并以此为预测的行人目标位置，对相关滤波参数进行更新。

可选地，分类损失的计算方式如下：

其中j表示属性标签，每种标签有K^(j)个类别，是图像I_n对于属性j的预测值属于每个类别k的概率；

验证损失的计算方式如下：

其中，代表该特征对所对应的行人对的第j个标签是否一致，表示欧式距离，即L2范数，M为一个阈值，用来防止离群图像特征对间距离过大，|*|表示向量每一项的绝对值，1表示单位向量，‖*‖₁表示第一范数，表示第n组图像对中第一张图像的属性j的特征，表示第n组图像对中第二张图像的属性j的特征；

总体损失的计算方式如下：

其中，μ表示分类所占损失权重，L_C表示总体分类损失，L_V表示总体验证损失，γ表示正则化损失权重，W表示网络参数。

可选地，双线性插值计算公式如下：

其中，f(x)表示对卷积特征图上未知点x双线性插值扩展后的数值，未知点x上的值f(x)通过与之邻近的点x1，x2计算得到。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明公开一种基于深度学习的行人目标跟踪方法，将深度学习与相关滤波相结合进行目标跟踪，在保证实时跟踪的前提下，有效提高跟踪的准确性。

本发明针对跟踪过程中目标姿态变化大的问题，将基于行人属性的深层卷积特征应用到跟踪中；针对遮挡问题，使用余弦相似度的方法进行遮挡的判断，以有效避免因遮挡带来的脏数据引入。

本发明为了提高效率、解决深层卷积特征在相关滤波器中的使用问题，提出双线性插值的方法，在去除量化误差的同时又能避免特征的重复提取，大幅度提高效率。

本发明针对目标高速运动的问题，提出将预选框策略融入到跟踪算法中，不仅能对全局图像进行搜索，同时预选框能够作为强负样本加入训练，提高相关滤波器的区分能力。

附图说明

图1为本发明提供的基于深度学习的行人目标跟踪方法的整体结构图；

图2为本发明提供的行人特征提取模型结构示意图；

图3为本发明提供目标跟踪方法的不同部分的实验结果对比图；

图4为本发明提供的ATTR-CNN+PB+C目标跟踪方法的具体跟踪效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的行人目标跟踪方法，其目的在于利用先验知识，使用卷积神经网络有针对性的提取行人目标的属性特征，并将提取的特征应用到跟踪算法中，达到行人目标跟踪的目的。此方法能够在保证实时性的前提下，将卷积特征应用到相关滤波器中，并且并解决行人目标跟踪中的遮挡问题。

为了实现上述目的，本发明提供了一种基于深度学习的行人目标跟踪方法，该方法包括：

(1)对视频进行解码获得每一帧的视频图像；(2)使用基于行人属性的特征提取模块进行图像特征的提取，得到图像的数学表达，用于后续的目标跟踪；(3)生成预选框区域，以较粗粒度搜索全局图像，获取更有可能是行人目标的区域，这些区域将是细粒度搜索候选集的子集，同时也将是相关滤波器的训练样本的子集；(4)在上一帧目标周围生产目标框，这将与候选区域合并成为细粒度的搜索的候选集；(5)用双线性插值算法，将深度卷积特征图进行扩展，使得特征图与原始图像分辨率相同，去除因量化带来的目标位置预测不准确的问题；(6)使用相关滤波器，对细粒度候选集中的区域计算响应值，响应值最大者即为预测的目标位置，同时对相关滤波器进行在线更新。

进一步地，步骤(2)中的模型是在CaffeNet的基础上，在第6个全连接层后分裂成多个，分别对应于多个行人属性的标签，每个标签对于各自的分类损失层和验证损失层。该模型的训练过程包括：

(21)从N个训练样本中随机选取一个批次的样本进行预处理；

(22)以ImageNet预训练的模型进行网络权重参数的初始化，将一个批次的训练样本和标签输入网络进行正向传播，计算网络各层的值，分别计算得到分类损失和验证损失，最终计算得到总体损失；分类损失的计算方式如下：

其中j表示属性标签，每种标签有K^(j)个类别，是图像I_n对于属性j的预测值属于每个类别k的概率。

验证损失的计算方式如下：

其中，代表该特征对所对应行人对的第j个标签是否一致，表示欧式距离，即L2范数，M为一个阈值，用来防止离群图像特征对间距离过大，|*|表示向量每一项的绝对值，1表示单位向量，‖*‖₁表示第一范数。

总体损失的计算方式如下：

(23)若预定总迭代次数达到或者损失小于一定阈值，则训练结束；否则，继续步骤(24)；

进一步地，所述步骤(3)中的RPN网络需要进行联合训练，具体训练过程包括：

(33)固定卷积参数，训练网络，更新RPN和全连接层参数；

进一步地，所述步骤(5)中的双线性插值方法，具体过程包括：

(51)将卷积特征图与原始图像进行映射，直接将卷积特征图进行扩展，此时卷积特征图中将只有部分区域有值；

进一步的，步骤(6)所述的响应值计算与相关滤波器模型的更新，具体过程包括：

(61)将候选集中的目标框对应区域特征分别通过相关滤波器，计算响应值，并通过比较，响应值最大者即为预测的目标位置；

(63)根据预测结果，对候选集中的目标框进行标记，并以此为训练样本，对相关滤波其参数进行更新。

下面结合附图和具体实施方式对本发明做进一步详细说明。如图1所示，本发明提供的目标跟踪方法分为三部分，分别是离线训练的特征提取部分，在线更新的相关滤波器部分和中间的连接部分。在视频解码后将分别通过这三个部分进行特征提取，特征处理和目标位置预测，具体流程如下所示：

离线模型训练阶段包括以下步骤：

(1)选择6个有区分度的属性，例如，具体可包括：性别、头发长短、上半身样式、上半身颜色、下半身样式和下半身颜色。

(2)训练一个有多种属性标签的卷积神经网络模型，用来提取行人属性特征。

使用CaffeNet为基本结构，对该网络进行修改，如图2所示，在fc6层分裂成7个，具体包括：1个ID层和6个属性层，分别对应属性标签和ID标签，分裂后的全连接层都各自有分类和验证损失层，其中，分类损失层对应ID分类损失层和6个属性分类损失层，验证损失层对应ID验证损失层和6个属性验证损失层。

具体训练卷积神经网络的训练步骤为：

(21)从N个训练样本中随机选取一个批次64张图像作为的训练样本，将图像进行缩放和裁剪，最终获得224×224大小的图像块，减去图像均值后，将作为网络的输入；具体训练参数设置为，初始学习率设为0.001，权重衰减参数为0.0005，梯度下降加速的动量为0.9。训练过程中，学习率的衰减间隔是5000，衰减率为0.6。

多个属性的分类损失的加权组合公式为：

L_C＝L_ATTR+αL_I

验证损失的计算方式如下：

多个属性的验证损失加权表达如下：

总体损失的计算方式如下：

(23)若达到预定总迭代次数10000，则训练结束；否则，继续步骤(24)；

具体分类损失梯度计算表达公式如下：

验证损失梯度计算表达公式如下：

或x≥1

其中，表示第n个样本属性j的特征输入；X_n，i表示第n组中第i张图片的特征，β表示约束项权重，s_n表示第n组图像是否是同一个目标，X_n,1表示第n组中第一张图片特征，X_n,2表示第n组中第二张图片特征，t₁表示验证损失函数中的第一部分，t₂表示验证损失函数中的第二部分，t₃表示验证损失函数中的第三部分；

(3)加入RPN网络后的联合训练，具体训练过程包括：

(33)固定卷积参数，训练网络，更新RPN和全连接层参数；

在线相关滤波器部分和连接部分，都属于在线目标跟踪部分，这里将统一描述，具体目标跟踪过程步骤如下：

(4)对视频进行解码获得每一帧的视频图像；

(5)使用离线训练的卷积神经网络进行行人属性特征的提取，具体为第5个卷积层特征，同时的，通过RPN网络，获取预选框区域；

(6)对卷积特征使用双线性插值方法进行扩展，具体过程如下：

(61)将卷积特征图与原始图像进行映射，直接将卷积特征图进行扩展，此时卷积特征图中将只有部分区域有值；

(62)根据双线性插值公式，对扩展后的卷积特征图进行横向插值，对每一行进行逐一插值；

(63)根据双线性插值公式，对扩展后的卷积特征图进行纵向插值，对每一列进行逐一插值。双线性插值计算公式如下：

其中，未知点x上的值f(x)通过与之邻近的点x1，x2计算得到。

(8)用滑动窗口的方式，在上一帧目标周围生成目标框候选集；

(9)响应值计算与相关滤波器模型的更新，具体过程如下：

(91)将候选集中的目标框对应区域特征分别通过相关滤波器，计算响应值，并通过比较，响应值最大者即为预测的目标位置；

(92)计算预测目标位置与上一帧目标位置之间的特征余弦相似度，若相似度大于阈值，则进行步骤(63)，否则结束；

(93)根据预测结果，对候选集中的目标框进行标记，并以此为预测的行人目标位置，对相关滤波其参数进行更新。

实例：

为了证明基于深度学习的行人目标跟踪方法的性能和效率具有优势，本发明通过以下实验进行验证与分析。

A、实验数据

本发明在MOT-16数据集上进行实验，该数据集中包含14个视频序列。

B、实验平台

硬件：CPU Intel Xeon E5-2650v3，内存64G，GPU GeForce GTX TITANX，显存12G，硬盘4TB 7200转/分。

软件：操作系统windows8、Ubuntu16.04，实验平台Caffe，MatconvNet，Matlab。

C行人目标跟踪评估标准

平均重叠精度(mean Overlap precision，mOP)，速度评估标准FPS，平均跟踪时长。

D实验结果

实验表明，本发明在MOT-16数据集上，mOP达到了82.5％，在速度上FPS达到了34，能够达到实时的效果，在平均跟踪时长上也达到了18.7s。

将本发明中不同部分分别加入到整个方法中进行对比，结果如图3所示，在加入了遮挡判断后，跟踪算法因遮挡带来的目标丢失数量减少，跟踪目标个数与真实数量相差不大，而未加入遮挡判断的算法，跟踪目标数量因遮挡而带来了较多目标丢失。如表1所示为不同方法几种评估标准的比较表，随着不同的方法加入到发明中，实验结果也不断提高。

表1

其中，ATTR-CNN表示仅使用属性特征提取模型的方法，ATTR-CNN+P表示添加预选框策略的方法，ATTR-CNN+PC表示添加预选框策略和图片分割的方法，ATTR-CNN+PB表示添加预选框策略和插值的方法，ATTR-CNN+PB+C表示添加预选框策略、插值和遮挡判断的方法。

如图4所示为利用本发明提供的ATTR-CNN+PB+C目标跟踪方法的具体跟踪效果图。如图4中第一行的四幅图，为发生遮挡时的跟踪效果图，由效果可以看出，对于遮挡的情况，能够很准确的进行判断，以避免跟踪出错。如图4第二行的四幅图所示，由实验效果图可以看出采用本发明提供的目标跟踪算法可以准确的跟踪目标，可靠性较高。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的行人目标跟踪方法，其特征在于，包括以下步骤：

(1)对包含行人目标的视频解码获得每一帧视频图像；

(2)提取每一帧视频图像的特征信息；

(3)根据每一帧视频图像的特征信息，使用区域候选网络RPN生成每一帧视频图像的预选框区域，以粗粒度搜索每一帧视频图像，获取每一帧视频图像中有可能是行人目标的候选区域；

2.根据权利要求1所述的基于深度学习的行人目标跟踪方法，其特征在于，所述步骤(2)具体包括：

3.根据权利要求2所述的基于深度学习的行人目标跟踪方法，其特征在于，所述步骤(3)具体包括：

(33)固定卷积参数，训练网络，更新RPN和全连接层参数；

4.根据权利要求1所述的基于深度学习的行人目标跟踪方法，其特征在于，所述步骤(5)具体包括：

5.根据权利要求1所述的基于深度学习的行人目标跟踪方法，其特征在于，所述步骤(6)具体包括：

6.根据权利要求2所述的基于深度学习的行人目标跟踪方法，其特征在于，分类损失的计算方式如下：

验证损失的计算方式如下：

总体损失的计算方式如下：

7.根据权利要求4所述的基于深度学习的行人目标跟踪方法，其特征在于，双线性插值计算公式如下：