CN108985204A

CN108985204A - 行人检测跟踪方法及装置

Info

Publication number: CN108985204A
Application number: CN201810723526.0A
Authority: CN
Inventors: 杨戈; 陈思平; 黄静
Original assignee: Beijing Normal University Zhuhai
Current assignee: Beijing Normal University Zhuhai
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2018-12-11

Abstract

本发明公开一种行人检测跟踪方法及装置，该方法包括对视频序列的视频帧进行去噪，并根据视频序列确定预跟踪的目标框，对目标框进行检测并且获取检测目标，根据检测目标对跟踪目标的位置进行校正，且将跟踪目标的特征样本输入到粒子滤波系统，并且通过粒子滤波系统对跟踪目标进行特征跟踪，输出跟踪目标的跟踪结果，并且判断当前视频帧是否为最后一帧，如是，则跟踪成功。该装置包括跟踪目标获取模块、检测目标获取模块、粒子滤波模块、跟踪输出模块，用于实现上述的行人检测跟踪方法。本发明在满足实时性要求的基础上，可以大大提高复杂场景的检测和跟踪的准确率。

Description

行人检测跟踪方法及装置

【技术领域】

本发明涉及计算机视觉技术领域，具体的，涉及一种基于行人运动视觉的行人检测跟踪方法以及应用于该方法的装置。

【背景技术】

目前，针对固定的摄像机，即静态背景的目标检测的方法大致可以分为基于背景模型的检测和基于分类器的检测。基于背景模型检测的经典方法有背景差分法、帧间差分法、光流法、图像多特征融合的方法等；基于分类器的检测可以通过一个分类器来实现，其中，当前主流的分类方法有神经网络、Boosting、决策树、支持矢量机(SVM)等。

目标跟踪就解决如何在候选目标中快速有效地选择到目标的问题。搜索一般分为确定性方法和统计性方法两类，确定性方法包括梯度下降、均值移动(Mean Shift)、曲线演化等；统计性方法包括粒子滤波、卡尔曼滤波、扩展卡尔曼滤波等。

主流的跟踪算法有以下几种：基于生成式目标模型的目标跟踪、基于判别式目标模型的目标跟踪、基于粒子滤波的目标跟踪、基于均值移动的目标跟踪、基于水平集的轮廓跟踪等等。跟踪算法复杂多样，不同的算法之间相互补充完善都会使得场景中的目标跟踪性能发生变化。

然而，上述跟踪算法都存在着几个问题，问题1：并没有通用的算法适用于各种场景。问题2：在现实生活中，监控的场景比较复杂，如非线性运动、局部或全局遮挡、光照的变化、天气的变化、前景和背景含有大量杂波、非刚性目标的形变、目标尺度变化等等，这些因素都会严重影响目标检测和跟踪的效果。因此优化算法，提高跟踪技术的鲁棒性、实时性是一个十分有意义的课题。问题3：在人群较为密集的场景的相关技术还不够成熟，相关成果较少，国内的密集人群的视频分析技术还处于萌芽阶段，还有很大的发展空间和研究价值。当前针对高等密度的人群实现个体目标跟踪，主要是采用行人头部检测方法，或者采用面部识别方法实现目标的检测及跟踪。密集场景下的目标跟踪技术有较高的实用性，同时也存在着严峻的挑战。

【发明内容】

本发明的主要目的是提供一种在满足实时性要求的基础上，对复杂场景的检测和跟踪的准确率大大提高的行人检测跟踪方法。

本发明的另一目的是提供一种在满足实时性要求的基础上，对复杂场景的检测和跟踪的准确率大大提高的的行人检测跟踪装置。

为了实现上述的主要目的，本发明提供的一种行人检测跟踪方法包括对视频序列的视频帧进行去噪，并根据视频序列确定预跟踪的目标框；对目标框进行检测并且获取检测目标；根据检测目标对跟踪目标的位置进行校正，且将跟踪目标的特征样本输入到粒子滤波系统，并且通过粒子滤波系统对跟踪目标进行特征跟踪；输出跟踪目标的跟踪结果，并且判断当前视频帧是否为最后一帧，如是，则跟踪成功；其中，检测目标通过以下步骤获得：对视频序列的视频帧进行预处理后获取前景图像，并根据前景图像确定待检测窗口；在待检测窗口中分别提取HOG特征和HSV特征，并且根据HOG特征和HSV特征产生融合特征向量；将融合特征向量输入至SVM分类器，若检测到有行人头肩部信息，则提取信息区域并用矩形框标注作为检测目标，其中，SVM分类器为训练好的SVM分类器。

进一步的方案是，根据选定的目标框的区域对粒子群进行初始化后，对当前帧中采样获得的粒子进行状态转移处理；获取目标框的HOG特征和HSV特征，且根据HOG特征和HSV特征产生融合特征向量，并且判断当前的视频帧是否为初始帧，如是，将融合特征向量作为目标模型；获取预测的目标位置和真实目标位置的相似度值，且判断相似度值是否大于预设阈值，如不是，则获取并更新粒子权重，并根据粒子权重估计目标位置后，将目标位置作为跟踪结果输出。

进一步的方案是，根据相似度值和预设阈值判断跟踪目标是否处于异常状态，若确定相似度值大于预设阈值后，则确定跟踪目标处于异常状态。

进一步的方案是，对视频序列的视频帧进行中值滤波去燥后，将去燥后的连续的视频帧进行背景建模；将当前的视频帧与背景帧通过背景差分法进行背景消除以及提取前景图像。

由此可见，本发明提供的行人检测跟踪方法包括行人检测方法和行人跟踪方法，行人检测方法基于融合特征训练的SVM分类器综合性能高于单一特征训练的分类器，HOG特征能很好表征行人头肩部的轮廓特征，HSV能很好的区分背景与行人特殊的肤色发色，将HOG与HSV两个特征相结合，可以大大提高对行人头肩部检测的准确率，降低漏检率、误检率。所以，基于融合特征的行人检测方法在低密度和中高密度的场景中，均能较高检测出行人，检测准确率较高。

此外，行人跟踪方法对行人的跟踪效果良好，能够准确地跟踪行人，对颜色相似非目标的干扰有很好的抑制，同时，基于颜色直方图的算法对行人的跟踪有偏移情况发生，但是在下一帧中仍能准确地跟踪目标，证明了该方法在环境与目标颜色相似的干扰下仍能较好的完成跟踪。

为了实现上述的另一目的，本发明还提供一种行人检测跟踪装置，包括跟踪目标获取模块，用于对视频序列的视频帧进行去噪，并根据视频序列确定预跟踪的目标框；检测目标获取模块，用于对目标框进行检测并且获取检测目标；粒子滤波模块，根据检测目标用于对跟踪目标的位置进行校正，且将跟踪目标的特征样本输入到粒子滤波系统，并且通过粒子滤波系统对跟踪目标进行特征跟踪；跟踪输出模块，用于输出跟踪目标的跟踪结果，并且判断当前视频帧是否为最后一帧，如是，则跟踪成功；其中，检测目标获取模块包括：预处理模块，用于对视频序列的视频帧进行预处理后获取前景图像，并根据前景图像确定待检测窗口；提取模块，用于在待检测窗口中分别提取HOG特征和HSV特征，并且根据HOG特征和HSV特征产生融合特征向量；获取目标模块，用于将融合特征向量输入至SVM分类器，若检测到有行人头肩部信息，则提取信息区域并用矩形框标注作为检测目标，其中，SVM分类器为训练好的SVM分类器。

由此可见，本发明提供的行人检测跟踪装置可以大大提高对行人头肩部检测的准确率，降低漏检率、误检率，并且，基于融合特征的行人检测方法在低密度和中高密度的场景中，均能较高检测出行人，检测准确率较高。

此外，能够准确地跟踪行人，对行人的跟踪效果良好，对颜色相似非目标的干扰有很好的抑制，同时，基于颜色直方图的算法对行人的跟踪有偏移情况发生，但是在下一帧中仍能准确地跟踪目标，证明了该装置在环境与目标颜色相似的干扰下仍能较好的完成跟踪。

【附图说明】

图1是本发明行人检测跟踪方法实施例的流程框图。

图2是本发明行人检测跟踪方法实施例中所实现的检测目标的行人检测方法的流程框图。

图3是本发明行人检测跟踪方法实施例中所实现的SVM分类器的测试训练方法的流程框图。

图4是本发明行人检测跟踪装置实施例的原理图。

图5是本发明行人检测跟踪装置实施例中检测目标获取模块的原理图。

【具体实施方式】

为了使发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限用于本发明。

行人检测跟踪方法实施例：

参见图1，本实施例的行人检测跟踪方法在对跟踪目标进行检测跟踪时，首先输入视频序列，然后，执行步骤S1，对视频序列的视频帧进行去噪，并根据视频序列确定预跟踪的目标框，其中，可以采用中值滤波对视频图像去噪，并且在系统中用户可以通过鼠标交互的方式，用矩形框将预跟踪的目标框选出来。

然后，执行步骤S2，对目标框进行检测并且获取检测目标，判断人工标记的矩形框中是否有行人的头肩部信息。

接着，执行步骤S3，根据检测目标对跟踪目标的位置进行校正，若检测到行人头肩部则对跟踪目标的位置进行校正，否则重新框选跟踪目标。

然后，执行步骤S4，将跟踪目标的特征样本输入到粒子滤波系统，，并且通过粒子滤波系统对跟踪目标进行特征跟踪。其中，根据选定的目标框的区域对粒子群进行初始化后，对当前帧中采样获得的粒子进行状态转移处理，接着，获取目标框的HOG特征和HSV特征，且根据HOG特征和HSV特征产生融合特征向量，并且判断当前的视频帧是否为初始帧，如是，将融合特征向量作为目标模型，然后，获取预测的目标位置和真实目标位置的相似度值，且判断相似度值是否大于预设阈值，如不是，则获取并更新粒子权重，并根据粒子权重估计目标位置后，将目标位置作为跟踪结果输出。

具体的，根据选定的目标框的区域对粒子群进行初始化，该目标框为矩形框，首先设置粒子的状态参数，用S_K表示第k个粒子的状态。即

a其中x_k,y_k表示上述矩形框的中心，w_k，h_k表示矩形框的宽、高，表示目标的运动矢量，使用式(1－1)得到运动矢量：

其中，a_w,k，a_h,k表示目标尺度的变化比率，由式子(1－2)得到。

a_w,k＝(w_k/w_k-1)

a_h,k＝(h_k/h_k-1) (1－2)

其中，粒子的状态用概率函数的期望表示，如式子(1－3)。

其中N表示粒子总数，将所有粒子初始化为初始状态参数，其中粒子运动矢量置为0，尺度变化率置为1，所有粒子的初始权重设置为1/N。本实施例的粒子数采用100个。

然后，对当前帧中采样获得的粒子进行状态转移处理，由于运动目标具有连续性，因此本实施例中采用二阶自回归模型预测粒子的当前状态。其中，自回归预测法就是用一个变量的时间数列作为因变量数列，用同一变量向过去推移若干期的时间数列作自变量数列，分析一个因变量数列和另一个或多个自变量数列之间的相关关系，建立回归方程进行预测，自回归模型可以是线性的，也可以是非线性的，如果自回归模型中只有一个自变量，称为一阶(一元)自回归模型；有两个自变量，称为二阶(二元)自回归模型。二阶自回归模型表示如式子(1－4)：

S_k＝AS_k-2+BS_k-1+C∑_k-1 (1－4)

其中∑_k-1为系统状态噪声，A、B、C为常数，在本实施例中，设置A＝2，B＝－1，C＝1。

然后，提取标记目标矩形框的HOG特征与HSV特征，采用PCA方法融合特征向量，并且判断当前的视频帧是否为初始帧，若当前帧为初始帧，则将上述融合特征作为目标模型。在本实施例中，该融合特征向量为FHH特征。

然后，获取预测的目标位置和真实目标位置的相似度值，计算特征直方图的巴式距离(Bhattacharyya距离)描述预测的目标位置和真实位置的相似度。在本实施例中，巴式距离用来表示当前粒子与预估粒子之间特征直方图的相似性。假设两个分布分别为P(u)、Q(u)，则P(u)、Q(u)间的归一化可以用式(1－5)来表示：

进而推导出两个直方图P＝{p^u}_u＝1,…,m与Q＝{q^u}_u＝1,…,m间的相似性表达式(1－6)：

其中，可以使用式(1－7)来计算巴式距离：

在本实施例中，设T为预设阈值，d_{Bhattacharyya}表示当前特征直方图与目标模板间的巴式距离，则列出式(1－8)：

其中，根据相似度值和预设阈值判断跟踪目标是否处于异常状态，若确定相似度值大于预设阈值后，则确定跟踪目标处于异常状态。具体地，阈值T表示最大巴式距离，当d_{Bhattacharyya}大于阈值T时，判定当前的跟踪目标失真，可能出现被遮挡、目标速度行为突变、目标消失等情况。针对这种情况需要重新找回目标。当d_{Bhattacharyya}小于阈值T时，判定当前目标为真实目标，更新目标模板并计算更新粒子权值。

若确定跟踪目标处于异常状态，则目标模板不再更新，并且扩大上一帧的跟踪结果范围，由于行人运动具有惯性，因此当异常情况出现时，目标位置不会偏离太远，可通过适当扩大粒子搜索范围的方法找回跟踪目标。然后，重新初始化粒子集，并且采用二阶自回归模型实现目标的轨迹预测。最后，重新对当前帧中采样获得的粒子进行状态转移处理，继续进行粒子跟踪操作。其中，异常情况通常是由于目标的位置被遮挡、突然变速、突然转换方向等原因造成的。因此也可以说巴式距离和阈值T的大小判断是进入遮挡、结束遮挡的条件。

若判定当前目标为真实目标，更新目标模板计算并更新粒子权重。其中，特征直方图对应的巴式距离记为距离d_FHH，则粒子权重的表达式如式子(1－9)：

其中σ_FHH表示融合特征直方图对应的噪声，a为调节权值系数。

然后，进行目标位置估计，根据上述计算出的粒子权重需要对目标的真实位置进行估计。在本实施例中，采用鲁棒均值法进行跟踪估计。具体地，选取权值最大粒子的一定范围内的粒子，计算这些粒子的加权平均值作为估计的目标位置，用式子(1－10)表示：

其中为k时刻权值最大的粒子，ε为允许最大的阈值。

当估计目标位置后，将目标位置作为跟踪结果输出，即执行步骤S5，输出跟踪目标的跟踪结果，并进行重采样操作。即根据重要性权值从粒子集合重采样N个粒子使其中，i＝1,2,...,N。

接着，执行步骤S6，判断当前视频帧是否为最后一帧，如是，则跟踪成功，结束算法，若判断结果为否，则执行步骤S7，导入下一帧视频，并且返回执行步骤S4，重新对当前帧中采样获得的粒子进行状态转移处理。

在上述步骤S2中，获取检测目标可以通过行人检测方法来实现，具体地，参见图2，首先，执行步骤S11，对视频序列的视频帧进行预处理，其中，预处理过程包括：对视频序列的视频帧进行中值滤波去燥后，将去燥后的连续的视频帧运用CodeBook方法进行背景建模，并且对建好的背景模型不断维护更新，然后，将当前的视频帧与背景帧通过背景差分法进行背景消除以及提取前景图像，实现视频连续帧的背景消除及前景提取。

然后，执行步骤S12，获取前景图像，并根据前景图像确定待检测窗口，其中，在得到前景图像后，采用多尺度滑动窗口扫描方法确定待检测窗口。其中，检测窗口为人工标记矩形的扩大化，扩大范围以原位置作为中心将长度和宽度扩大2倍。

接着，执行步骤S13，在待检测窗口中分别提取HOG特征和HSV特征，并且根据HOG特征和HSV特征产生融合特征向量，其中，通过人体头肩部的位置关系，在头肩部待检测窗口的基础上截取头部待检测窗口，对两个待检测窗口分别提取HOG特征、HSV特征。并将两种特征运用PCA方法进行融合降维，得到一个新的融合特征向量即FHH特征。

执行步骤S14，将融合特征向量输入至SVM分类器，从而进行分类，其中，SVM分类器为训练好的SVM分类器。

执行步骤S15，判断是否检测到行人头肩部信息，若检测到有行人头肩部信息，则执行步骤S16，提取信息区域并用矩形框标注作为检测目标。当检测到有行人头肩部信息则框出其位置；若判断结果为否，则忽略这一检测窗口，进行下一窗口的检测。

在本实施例中，可以通过分类器训练检测算法来对SVM分类器进行测试训练，参见图3，图3是本发明行人检测跟踪方法实施例中所实现的SVM分类器的测试训练方法的流程框图。

在对SVM分类器进行测试训练时，首先，执行步骤S21，获取标准数据集，其中，可以从标准数据集中构造行人头肩部正负样本训练数据集、行人头部正负样本训练数据集以及行人测试数据集，将样本分为训练样本与测试样本两部分，将训练样本和测试样本继续划分为正样本与负样本，为SVM分类器的训练及测试做准备。

接着，执行步骤S22，其中，对行人头肩部正负样本训练数据集提取HOG特征，对行人头部正负样本训练数据集提取HSV特征，然后，将两个特征运用PCA算法降维融合，得到FHH融合特征，即执行步骤S23，产生FHH融合特征。

然后，执行步骤S24，训练SVM分类器，其中，输入FHH特征到待训练的SVM分类器中进行训练，最后，执行步骤S25，获取训练好的分类器。

在上述步骤S24中，可以运用行人测试数据集对训练好的SVM分类器进行检测，即执行步骤S26，检测SVM分类器，若检测结果达到预期准确率，则可作为视频图像检测阶段的分类器，否则需要重新进行训练SVM分类器。

在本实施例中，HOG特征和HSV特征可以运用PCA算法降维融合，首先，分别裁剪出行人头肩部图像(大小为32×32像素)和行人头部图像(大小为64×64像素)，在行人头肩部图像中提取HOG特征，并且得到1764维HOG特征向量；在行人头部图像中提取HSV特征，并且得到504维特征向量。然后，将上述将两个特征矩阵直接组合为矩阵data，并且计算矩阵每一列的平均值mean。接着，将原矩阵减去平均值矩阵，即C＝data－mean，接着，计算协方差矩阵和计算协方差矩阵的特征值和特征向量，从大到小排列特征值，按贡献值选取主成分，重投影降维并且输出融合特征矩阵。

所以，本发明提供的行人检测跟踪方法包括行人检测方法和行人跟踪方法，行人检测方法基于融合特征训练的SVM分类器综合性能高于单一特征训练的分类器，HOG特征能很好表征行人头肩部的轮廓特征，HSV能很好的区分背景与行人特殊的肤色发色，将HOG与HSV两个特征相结合，可以大大提高对行人头肩部检测的准确率，降低漏检率、误检率。所以，基于融合特征的行人检测方法在低密度和中高密度的场景中，均能较高检测出行人，检测准确率较高。

行人检测跟踪装置实施例：

由图4可见，图4是本发明行人检测跟踪装置实施例的原理图。行人检测跟踪装置包括跟踪目标获取模块10、检测目标获取模块20、粒子滤波模块30、跟踪输出模块40。

跟踪目标获取模块10用于对视频序列的视频帧进行去噪，并根据视频序列确定预跟踪的目标框。

检测目标获取模块20用于对目标框进行检测并且获取检测目标。

粒子滤波模块30根据检测目标用于对跟踪目标的位置进行校正，且将跟踪目标的特征样本输入到粒子滤波系统，并且通过粒子滤波系统对跟踪目标进行特征跟踪。

跟踪输出模块40用于输出跟踪目标的跟踪结果，并且判断当前视频帧是否为最后一帧，如是，则跟踪成功。

其中，如图5所示，图5是本发明行人检测跟踪装置实施例中检测目标获取模块的原理图。检测目标获取模块包括预处理模块21、提取模块22以及获取目标模块23。预处理模块21用于对视频序列的视频帧进行预处理后获取前景图像，并根据前景图像确定待检测窗口；提取模块22用于在待检测窗口中分别提取HOG特征和HSV特征，并且根据HOG特征和HSV特征产生融合特征向量；获取目标模块23用于将融合特征向量输入至SVM分类器，若检测到有行人头肩部信息，则提取信息区域并用矩形框标注作为检测目标。

所以，本发明提供的行人检测跟踪装置可以大大提高对行人头肩部检测的准确率，降低漏检率、误检率，并且，基于融合特征的行人检测方法在低密度和中高密度的场景中，均能较高检测出行人，检测准确率较高。

需要说明的是，以上仅为本发明的优选实施例，但发明的设计构思并不局限于此，凡利用此构思对本发明做出的非实质性修改，也均落入本发明的保护范围之内。

Claims

1.行人检测跟踪方法，其特征在于，包括：

对视频序列的视频帧进行去噪，并根据所述视频序列确定预跟踪的目标框；

对所述目标框进行检测并且获取检测目标；

根据所述检测目标对跟踪目标的位置进行校正，且将所述跟踪目标的特征样本输入到粒子滤波系统，并且通过所述粒子滤波系统对所述跟踪目标进行特征跟踪；

输出所述跟踪目标的跟踪结果，并且判断当前视频帧是否为最后一帧，如是，则跟踪成功；

其中，所述检测目标通过以下步骤获得：

对视频序列的视频帧进行预处理后获取前景图像，并根据所述前景图像确定待检测窗口；

在所述待检测窗口中分别提取HOG特征和HSV特征，并且根据所述HOG特征和所述HSV特征产生融合特征向量；

将所述融合特征向量输入至SVM分类器，若检测到有行人头肩部信息，则提取信息区域并用矩形框标注作为检测目标，其中，所述SVM分类器为训练好的SVM分类器。

2.根据权利要求1所述的行人检测跟踪方法，其特征在于，所述并且通过所述粒子滤波系统对所述跟踪目标进行特征跟踪，包括：

根据选定的所述目标框的区域对粒子群进行初始化后，对当前帧中采样获得的粒子进行状态转移处理；

获取所述目标框的HOG特征和HSV特征，且根据所述HOG特征和所述HSV特征产生融合特征向量，并且判断当前的视频帧是否为初始帧，如是，将所述融合特征向量作为目标模型；

获取预测的目标位置和真实目标位置的相似度值，且判断所述相似度值是否大于预设阈值，如不是，则获取并更新粒子权重，并根据所述粒子权重估计目标位置后，将所述目标位置作为跟踪结果输出。

3.根据权利要求2所述的行人检测跟踪方法，其特征在于，所述获取预测的目标位置和真实目标位置的相似度值，包括：

根据所述相似度值和所述预设阈值判断所述跟踪目标是否处于异常状态，若确定所述相似度值大于预设阈值后，则确定所述跟踪目标处于异常状态。

4.根据权利要求1或2所述的行人检测跟踪方法，其特征在于，所述对视频序列的视频帧进行预处理后获取前景图像，包括：

对视频序列的视频帧进行中值滤波去燥后，将所述去燥后的连续的视频帧进行背景建模；

将当前的视频帧与背景帧通过背景差分法进行背景消除以及提取所述前景图像。

5.行人检测跟踪装置，其特征在于，包括：

跟踪目标获取模块，用于对视频序列的视频帧进行去噪，并根据所述视频序列确定预跟踪的目标框；

检测目标获取模块，用于对所述目标框进行检测并且获取检测目标；

粒子滤波模块，根据所述检测目标用于对跟踪目标的位置进行校正，且将所述跟踪目标的特征样本输入到粒子滤波系统，并且通过所述粒子滤波系统对所述跟踪目标进行特征跟踪；

跟踪输出模块，用于输出所述跟踪目标的跟踪结果，并且判断当前视频帧是否为最后一帧，如是，则跟踪成功；

其中，所述检测目标获取模块包括：

预处理模块，用于对视频序列的视频帧进行预处理后获取前景图像，并根据所述前景图像确定待检测窗口；

提取模块，用于在所述待检测窗口中分别提取HOG特征和HSV特征，并且根据所述HOG特征和所述HSV特征产生融合特征向量；

获取目标模块，用于将所述融合特征向量输入至SVM分类器，若检测到有行人头肩部信息，则提取信息区域并用矩形框标注作为检测目标，其中，所述SVM分类器为训练好的SVM分类器。

6.根据权利要求5所述的行人检测跟踪装置，其特征在于，所述粒子滤波模块通过所述粒子滤波系统对所述跟踪目标进行特征跟踪，包括：

7.根据权利要求6所述的行人检测跟踪装置，其特征在于，所述粒子滤波模块获取预测的目标位置和真实目标位置的相似度值，包括：

8.根据权利要求5或6所述的行人检测跟踪装置，其特征在于，所述预处理模块对视频序列的视频帧进行预处理后获取前景图像，包括：