CN105809206A

CN105809206A - 一种行人跟踪方法

Info

Publication number: CN105809206A
Application number: CN201410856201.1A
Authority: CN
Inventors: 吕楠; 张丽秋
Original assignee: Abd Smart Eye Electronics Co Ltd
Current assignee: Abd Smart Eye Electronics Co Ltd
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2016-07-27

Abstract

本发明属于视频图像处理技术领域，并提供了一种行人跟踪方法，包括：S1、提取训练样本集中的HOG特征向量；S2、基于SVM算法对所述的HOG特征向量进行训练，得到初始化运动行人分类器；S3、获取监控区域的视频流图像作为输入图像；S4、利用初始化运动行人分类器对输入图像进行运动行人检测；S5、对检测到的运动行人区域进行跟踪集的采集操作；S6、利用改进的粒子滤波算法对检测到的行人进行跟踪和计数。通过本发明，提高了视频检测技术中图像的鲁棒性，提高了对公共区域中呈不规则运动状态的运动行人进行跟踪与计数的效果，有效地提高了对公共区域内对行人进行人数统计的效率与准确度。

Description

一种行人跟踪方法

技术领域

本发明属于计算机视频图像处理技术领域，特别涉及一种行人跟踪方法，用于对公共区域中的行人数量进行精确统计。

背景技术

随着计算机技术和图像处理技术的发展，基于视频的智能监控系统得到了广泛的应用。在保障社会公共安全和交通安全方面、保护人民生命财产安全方面、在工业控制领域保障安全生产和产品检测方面以及有关商业领域方面都发挥着巨大的作用。目前，智能视频监控系统的应用主要在安全防控领域和非安全防控领域。公共场所人群监控、道路交通安全监控、工业生产安全监控等都属于安全防控领域的应用。

对计算机视频图像处理技术而言，对监控区域中的出现的行人进行统计与计数是最终的目标。在现有技术中，通常采用MeanShift算法对运动行人进行跟踪与统计。

MeanShift算法属于核密度估计法，它不需要任何先验知识而完全依靠特征空间中样本点的计算其密度函数值。对于一组采样数据，直方图法通常把数据的值域分成若干相等的区间，数据按区间分成若干组，每组数据的个数与总参数个数的比率就是每个单元的概率值；核密度估计法的原理相似于直方图法，只是多了一个用于平滑数据的核函数。采用核函数估计法，在采样充分的情况下，能够渐进地收敛于任意的密度函数，即可以对服从任何分布的数据进行密度估计。

然而，MeanShift算法对运动行人进行跟踪与计数的现有技术在实际使用过程中的鲁棒性不佳，并伴随对运动行人进行跟踪与计数的效果不佳。因此，有必要对现有技术中，对运动行人的跟踪方法予以改进，以解决上述技术问题。

发明内容

本发明的目的在于公开一种行人跟踪方法，用以解决视频检测技术中图像的鲁棒性不佳的技术问题，提高对公共区域中呈不规则运动状态的运动行人进行跟踪与计数的效果，以及对公共区域内对行人进行人数统计的效率与准确度。

为实现上述发明目的，本发明提供了一种行人跟踪方法，包括以下步骤：

S1、提取训练样本集中的HOG特征向量；

S2、基于SVM算法对所述的HOG特征向量进行训练，得到初始化运动行人分类器；

S3、获取监控区域的视频流图像作为输入图像；

S4、利用初始化运动行人分类器对输入图像进行运动行人检测；

S5、对检测到的运动行人区域进行跟踪集的采集操作；

S6、利用改进的粒子滤波算法对检测到的行人进行跟踪和计数。

作为本发明的进一步改进，所述步骤S6具体包括以下子步骤：

S61、提取跟踪集内样本的超像素特征和LBP特征；

S62、分别对超像素特征和LBP特征进行聚类分析，得到超像素字典和LBP字典；

S63、根据超像素字典和LBP字典建立行人跟踪的判决性模型；

S64、采用随机扰动描述运动行人的状态转移；

S65、对输入图像中的每个候选运动目标进行随机采样处理；

S66、对进、出监控区域的运动行人进行计数，并删掉该运动行人在子跟踪集内的图像信息；

S67、对判决性模型进行实时更新。

作为本发明的进一步改进，所述步骤S62具体为：

利用meanshift算法分别对超像素特征和LBP特征进行聚类分析，得到超像素字典和LBP字典。

作为本发明的进一步改进，所述子步骤S62中的聚类分析包括简单线性聚类分析、模糊聚类分析、基于密度方法的聚类分析。

作为本发明的进一步改进，所述基于密度方法的聚类分析由分段线性隶属度函数确定，所述分段线性隶属度函数为三角形隶属度函数、单调隶属度函数形函数或者梯形隶属度函数。

作为本发明的进一步改进，所述步骤S5具体为：

对于首次出现在监控区域内的运动行人，在跟踪集内建立该运动行人的子跟踪集，所述子跟踪集内保存该运动行人区域的图像信息；

对于已出现在监控区域内的运动行人，将该运动行人区域的图像信息保存在该运动行人在跟踪集中所对应的子跟踪集内。

作为本发明的进一步改进，对于已出现在监控区域的运动行人，若该运动行人在其所对应的子跟踪集内已保存了M+1帧该运动行人区域的图像信息，则删除最先出现在子跟踪集内的该运动行人区域的图像信息。

作为本发明的进一步改进，所述子跟踪集内的运动行人区域的图像信息的删除规则为先进先出，所述运动行人所对应的子跟踪集内保存五帧包含该运动行人区域的图像信息。

作为本发明的进一步改进，所述图像信息包括彩色图像信息与灰度图像信息。

作为本发明的进一步改进，所述子步骤S65具体为：

对候选跟踪目标进行超像素分割得到N个超像素块，然后提取每个超像素块的HSV颜色直方图并进行归一化处理；

对候选目标进行随机提取N个图像块，并计算出每个图像块的LBP直方图并进行归一化处理；

根据得到图像块的HSV颜色直方图和LBP直方图作为特征，来计算图像块与字典中关键字的相似度，相似度的计算公式如下所示，

{sim}^{i} = \frac{1}{\sqrt{2 π} σ^{2}} \exp (- \frac{d^{2} [S_{i}, C_{j}]}{2 σ^{2}}), (j = 1, \cdot \cdot \cdot, cl_num);

其中，simⁱ表示图像块i与每个关键字j的相似度，i＝1，....，N，S_i表示测试图像块i的某特征的特征向量，C_j表示字典中关键字j的特征向量，d[S_i，C_j]表示两个特征向量的相交距离；

统计每个候选目标T中关键字出现的频率作为该特征的特征包，计算公式如下所示，

B_{T} = Σ_{i = 1}^{N} I (\underset{j}{\arg \max} ({sim}^{i}) = j), j = 1, \cdot \cdot \cdot, cl_num;

I (\underset{j}{\arg \max} ({sim}^{i}) = j) = \{\begin{matrix} 1, & \underset{j}{\arg \max} ({sim}^{i}) = j \\ 0, & \underset{j}{\arg \max} ({sim}^{i}) &NotEqual; j \end{matrix}

计算特征包的相似性作为每个候选目标的权值，计算公式如下所示，

w = \frac{1}{\sqrt{2 π} σ^{2}} \exp (- \frac{d_{t}^{2} [B_{T}, B_{m}]}{2 σ^{2}})

其中，B_m表示训练帧的特征包，B_T表示测试帧的特征包，d_t[B_T，B_m]表示测试帧特征包与其最相似的训练帧特征包的相交距离；

对于某个候选目标，将其所有图像块与其对应特征的字典中关键字相似度的最大的值作为该候选目标的似然值。

与现有技术相比，本发明的有益效果是：通过本发明，提高了视频检测技术中图像的鲁棒性，提高了对公共区域中呈不规则运动状态的运动行人进行跟踪与计数的效果，有效地提高了对公共区域内对行人进行人数统计的效率与准确度。

附图说明

图1为本发明一种行人跟踪方法的流程示意图；

图2为步骤S3中获取监控区域的视频流图像作为输入图像的示意图；

图3为基本的LBP算子与对比度的示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

参图1所示的本发明一种行人跟踪方法的具体实施方式。由于行人在行走时头部与肩部的变化较小，基于易于检测方面的考虑，可将训练样本集定义为：只包含行头部和/或肩部的正样本集、不包含行人头部和/或肩部的负样本图集。

首先，执行步骤S1、提取训练样本集中的HOG特征向量。

由于行人在行走时头部与肩部的变化较小，基于易于检测方面的考虑，可将训练样本集定义为：只包含行头部和/或肩部的正样本集、不包含行人头部和/或肩部的负样本图集。

其中，该正样本集中的正样本是包含行人头部和/或肩部的样本(即正样本)；该负样本集中的负样本是不包含行人头部和/或肩部的样本(即负样本)。具体的，该正/负样本集中正/负样本为30×30像素的256阶灰度图像。

具体的，在本实施方式中，在初始化运动行人分类器中的正样本集中的正样本的个数为4000，负样本集中的负样本的个数为6000。

在本实施方式中，该训练样本集包括正/负样本集，正/负样本集中的正/负样本为30×30像素的256阶灰度图像，所述正样本为包含行人区域的图像，所述负样本为不包含或者不完全包含行人区域的图像。进一步的，所谓不包含行人区域的图像，是指训练样本中完全不包含行人任何人体结构特征区域的图像，所谓不完全包含行人区域的图像，是指仅包含部分人体结构特征(例如，头、手、脚或者部分上述人体结构)区域的图像。

然后，执行步骤S2、基于SVM算法对所述的HOG特征向量进行训练，得到初始化运动行人分类器。

具体的，在本实施方式中，先计算正/负样本集中正/负样本的HOG特征向量，然后基于SVM算法对所述HOG特征向量进行训练，以得到初始化运动行人分类器。

然后，执行步骤S3、获取监控区域的视频流图像作为输入图像。

参图2所示，在本实施方式中，摄像机10垂直拍摄并可适用于室外环境和室内环境。在本实施方式中，该步骤中的“通过摄像机获取监控区域的视频流图像”具体为：通过摄像机10获取监控区域30的视频流图像作为输入图像，所述监控区域30位于摄像机10的正下方。

具体的，摄像机10设置在出入口20的正上方，行人可沿着箭头201的方向上在出入口20中来回走动。摄像机10所获取的监控区域30可完全覆盖出入口20的全部区域。该出入口20可设置在需要对行人人数进行统计的商场、车库、银行等需要重点监控场所的大门口或者走廊中。

需要说明的是，本发明在摄像机10垂直地正对着监控区域30时的效果最佳，当然可也将摄像机10倾斜地对着需要进行行人人数计数统计的区域，以通过摄像机10覆盖整个监控区域30。

在本实施方式中，该监控区域30为矩形；当然也可以为正方形或圆形或者其他形状。摄像机10位于监控区域30的中心点301的正上方，此时该监控区域30位于摄像机10的正下方。

然后，执行步骤S4、利用初始化运动行人分类器对输入图像进行运动行人检测。

以30×30像素的图像作为检测窗口，在水平和垂直方向上以2个像素点为步长，对由执行步骤S2所得到的背景图像作行、列滑动扫描，提取扫描区域的HOG特征，并将计算得到的HOG特征送入执行步骤S2所得到的行人分类器中，并根据初始化运动行人分类器的输出结果判断该扫描区域是否为行人区域。若初始化运动行人分类器的输出结果为1，表示扫描区域为行人区域；若初始化运动行人分类器的输出结果-1，表示扫描区域为非行人区域。由于当前是对监控区域30的背景进行检测，则扫描区域被判断为式行人区域，即为误检。

更具体的，在步骤S4中可利用初始化运动行人分类器对输入图像进行选择性的更新训练，该“选择性的更新训练”具体为：对利用初始化运动行人分类器对监控区域30的背景图像进行运动行人检测的检测结果进行判断；若出现误检，则将误检的运动目标添加到负样本集，并仅在设定的时间内检测到的误检数大于或等于误检阈值T时，重新对所述初始化运动行人分类器进行更新训练；若不出现误检，则经过设定的时间后不对所述初始化运动行人分类器进行更新训练。进一步的，所述“设定的时间”选为5分钟；所述误检数量阈值T选为10。

在本实施方式中，应用本发明一种行人跟踪方法可应用于各种不同的复杂环境中，而训练行人分类器所有的负样本集是有限的，所以训练得到的行人分类器不一定适用于所有的监控环境。

为了适应环境的变换，在本实施方式中，采取实施更新负样本集，然后对训练样本集进行再次训练，以更新初始化运动行人分类器。

然后，执行步骤S5、对检测到的运动行人区域进行跟踪集的采集操作，该步骤S5具体为如下所示。

对于首次出现在监控区域30内的运动行人，在跟踪集内建立该运动行人的子跟踪集，所述子跟踪集内保存该运动行人区域的图像信息；对于已出现在监控区域30内的运动行人，将该运动行人区域的图像信息保存在该运动行人在跟踪集中所对应的子跟踪集内。

进一步的，对于已出现在监控区域的运动行人，若该运动行人在其所对应的子跟踪集内已保存了M+1帧该运动行人区域的图像信息，则删除最先出现在子跟踪集内的该运动行人区域的图像信息，删除规则满足先进先出原则。即训练样本集内的各跟踪集内最多只包含M帧同一个运动行人的彩色图像信息和灰度图像信息。在本实施方式中，M具体为5。因此，该运动行人所对应的子跟踪集内保存五帧包含该运动行人区域的图像信息。在本实施方式中，所述图像信息包括彩色图像信息与灰度图像信息。通过这种设置，可有效地降低计算机在图像处理过程中的计算量，提高对运动行人区域进行检测的效率。

最后，执行步骤S6、利用改进的粒子滤波算法对检测到的行人进行跟踪和计数，该步骤S6具体包括以下子步骤：

首先，执行子步骤S61、提取跟踪集内样本的超像素特征和LBP特征。

超像素是将许多相似的像素点组合在一起作为整体来处理，使数量较多的像素点转换成数量较少的整体，这个整体被称为超像素。

在本实施方式中，采用简单线性聚类分析方法作用于训练样本集内的彩色图像上，得到超像素图像，并利用HSV颜色空间的归一化直方图对超像素图像进行特征提取，得到训练样本集的超像素特征即超像素的HSV颜色直方图。

局部二值特征(LocalBinaryPattern，LBP)是一种有效的纹理描述算子，其基本思想是用其中心像素的灰度值作为阈值，周围邻域与中心像素相比较得到的二进制码来表述局部纹理特征，基本的LBP算子与对比度的计算方法参图3所示。

LBP特征作为特征描述算子主要具有以下优点：

首先，LBP特征不随任何单一变换而变化，具有旋转不变性和灰度不变性的优点；

其次，LBP特征由于可以通过小邻域内进行比较操作得到，能够在复杂实时条件下分析图像，具有计算速度快的优点；

最后，LBP特征是一种无参数的方法，在应用过程中不需要对分布进行预先假设。

具体的，该LBP特征描述算子的定义如公式(1)所示：

LBP (P_{c}) = Σ_{n = 0}^{p - 1} s (g_{n} - g_{c}) \times 2^{n} - - - (1);

s (x) = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix}

其中，g_c为训练样本的中心点P_c的灰度值，g_n为训练样本的中心点P_c的周围邻域像素点的灰度值，p为训练样本的中心点周围等距分布的p个像素点。

对训练样本内的灰度图像进行LBP特征提取操作，然后在提取到的LBP特征上进行LBP直方图计算。

经过LBP特征描述算子经过直方图运算后的图像直方图定义如公式(2)所示：

H_{i} = \underset{x, y}{Σ} I (f (x, y) = i), i = 0,1,2, \cdot \cdot \cdot, n - 1 - - - (2);

I (f (x, y) = i) = \{\begin{matrix} 1, & f (x, y) = i \\ 0, & f (x, y) &NotEqual; i \end{matrix}

其中，n＝2^p表示由LBP算子产生的编码位的长度，p代表中心像素的周围邻域像素点的个数。例如，当邻域大小为3×3时(单位：pixel)，p的值为8，n值为256，f(x，y)为像素(x，y)处的LBP特征值，这样，H_i表示LBP特征值为i的像素点的个数，所构成的直方图反映了LBP特征值的分布。具体的，f(x，y)中的“x”为像素(x，y)沿x方向的横坐标变量，f(x，y)中的“y”为像素(x，y)沿y方向的纵坐标变量。

然后，执行子步骤S62、分别对超像素特征和LBP特征进行聚类分析，得到超像素字典和LBP字典。

对于提取出的训练样本的超像素特征和LBP特征集合进行meanshift聚类分析，其中，S_n为超像素特征或LBP特征，k为训练样本集内的第k个跟踪集。这些特征分成多组同样大小的聚类，将每组聚类中心作为成员组成字典，这里cl_max是聚类的个数，也是字典的大小。这些聚类中心能够表示最典型的特征，被看作是字典中的关键字，用来建立特征包。因此，可将一组数量较大的样本特征集合转化为数量较小的字典。在本实施方式中，一个运行行人区域对应两个字典，即超像素字典和LBP字典。

该聚类分析包括简单线性聚类分析、模糊聚类分析、基于密度方法的聚类分析，在本实施方式中，该聚类分析选用简单线性聚类分析。

模糊聚类分析属于模式识别中的无监督学习，它不需要训练样本，可以直接通过机器学习达到自动分类的目的，而且它的软件分类特性符合现实世界对象与类的关系，可以广泛地应用到数据挖掘和信息检索等领域。

基于密度方法的聚类分析没有迭代，避免了模糊聚类分析的结果依赖随机生成的初始聚类中心，并能够快速地得到聚类中心。

然后，执行子步骤S63、根据超像素字典和LBP字典建立行人跟踪的判决性模型。

特征包算法最初是应用在文本分类领域，在该算法中，首先从一些文档中找出一系列具有代表性的关键字，将这些关键字作为成员组成字典，然后对每一篇文档转化为含有关键字的包的形式，再对这些包中的关键字与之前的字典进行匹配，最后统计出字典中各个关键字出现的概率，从而将文档转化为含有关键字的包。

当字典创建以后，对于每个训练样本中的一组特征Sample_k的每一个特征，寻找与其欧式距离(欧几里得距离)最近的关键字，然后统计所有特征对应最近关键字出现的次数，得到最终的直方图，对M个训练样本图像重复以上步骤，我们就将一组训练样本转换成一组直方图，叫做包。一个包就是统计关键字出现的频率，也代表了字典中的关键字在图像中的分布。按照这种方法，M个训练帧就被转化成一系列包这样，行人跟踪的判决性模型已经建立，用于后续的分类决策。

然后，执行子步骤S64、采用随机扰动描述运动行人的状态转移。

在视频跟踪场景中，每个跟踪目标的运动过程都可以认为是相互独立的过程。因此，视频图像的多目标运动模型可以被认为是一个单目标运动模型的联合乘积形式，具体参公式(3)所示：

p (X_{t} | X_{t - 1}) = Π_{t = 1}^{F} p (x_{i, t} | x_{i, t - 1}) - - - (3)

为了简化对运动模型描述，这里假设t时刻和t-1时刻的跟踪目标状态数均为：F(F≥max{F_t-1，F_t})，X_t＝[x_1，t，x_2，t，…，x_F，t]，F_t为X_t中的状态数，F_t-1为X_t-1中的状态数，X_j，t为第j个目标在t时刻的跟踪目标状态。在跟踪目标试验过程中，跟踪目标的轮廓用矩形框表示，即x_j，t＝[x_j，y_j，w_j，h_j]。其中，x_j和y_j分别为矩形框中心在图像中x方向和y方向的坐标，w_j和h_j分别为矩形框的宽度和高度。

为了获得第j个目标在t时刻的状态转移密度函数，我们采用随机扰动模型来描述第j个目标从t-1时刻到t时刻的状态转移，如下公式(4)所示：

p(x_j，t|x_j，t-1)＝N(x_j，t；x_j，t-1，∑)(4)；

其中，N(x_j，t；x_j，t-1，∑)表示正态密度函数，其协方差是对角矩阵∑，它的对角线上的元素对应状态x_j，t中四个参数的方差，即之所以采用随机扰动模型来描述各个目标的运动，主要原因是所跟踪的目标是行人，而每个行人的运动随机性很大，很难通过常速模型或常加速模型来预测行人(即运动行人目标)下一时刻的运动状态。

当处理一帧新的输入图像时，对于跟踪的运动行人目标k，首先根据如上所述进行随机采样，得到T个候选目标。

然后，执行子步骤S65、对输入图像中的每个候选运动目标进行随机采样处理。

对每个候选运动目标进行随机采样处理的具体过程如下所示：

首先，提取N个超像素块。

对候选目标进行超像素分割得到N个超像素块(每个超像素也被看作是一个图像块)，然后提取每个超像素块的HSV颜色直方图并进行归一化处理。归一化是一种无量纲处理手段，使物理系统数值的绝对值变成某种相对值关系。简化计算，缩小量值的有效办法。

然后，提取N个LBP块。

对候选目标进行随机提取N个图像块，并计算出每个图像块的LBP直方图并进行归一化处理。

接下来，根据得到图像块的HSV颜色直方图和LBP直方图作为特征，来计算图像块与字典中关键字的相似度，他们之间的似然函数定义如下公式(5)所示：

{sim}^{i} = \frac{1}{\sqrt{2 π} σ^{2}} \exp (- \frac{d^{2} [S_{i}, C_{j}]}{2 σ^{2}}), (j = 1, \cdot \cdot \cdot, cl_num) - - - (5);

其中，simⁱ表示图像块i与每个关键字j的相似度，i＝1，....，N，S_i表示测试图像块i的某特征的特征向量，C_j表示字典中关键字j的特征向量，d[S_i，C_j]表示两个特征向量的相交距离。

这样，每个候选目标中的图像块都在字典中找到一个最为相似的关键字，统计每个候选目标T中关键字出现的频率作为该特征的特征包，记为B_j，用如下公式(6)所示：

B_{T} = Σ_{i = 1}^{N} I (\underset{j}{\arg \max} ({sim}^{i}) = j), j = 1, \cdot \cdot \cdot, cl_num - - - (6);

I (\underset{j}{\arg \max} ({sim}^{i}) = j) = \{\begin{matrix} 1, & \underset{j}{\arg \max} ({sim}^{i}) = j \\ 0, & \underset{j}{\arg \max} ({sim}^{i}) &NotEqual; j \end{matrix}

接下来，计算特征包的相似性作为每个候选目标的权值，具体参公式(7)所示：

w = \frac{1}{\sqrt{2 π} σ^{2}} \exp (- \frac{d_{t}^{2} [B_{T}, B_{m}]}{2 σ^{2}}) - - - (7);

其中，B_m表示训练帧的特征包，B_T表示测试帧的特征包，d_t[B_T，B_m]表示测试帧特征包与其最相似的训练帧特征包的相交距离。

对于某个候选目标，将其所有图像块与其对应特征的字典中关键字相似度的最大的值作为该候选目标的似然值，观测似然函数定义如下公式(8)所示：

p (Z_{i} | X_{j}) = \max (\frac{1}{\sqrt{2 π} σ^{2}} \exp (- \frac{d^{2} [S_{i}, C_{j}]}{2 σ^{2}})), (i = 1, \cdot \cdot \cdot, N; j = 1, \cdot \cdot \cdot, cl_num) - - - (8) .

按照上述方法，每个候选的跟踪目标都获得两组特征的相似度(针对两个特征提取产生两个字典)和特征包的相似度，分别为：p_superpixel(Z_i|X_j)、p_LBP(Z_i|X_j)、w_superpixel和w_LBP。对于给定t时刻的目标状态X_i，总的目标观测似然函数为公式(9)所示：

p_all(Z_i|X_j)＝a*p_superpixel(Z_i|X_j)+b*p_LBP(Z_i|X_j)(9)；

a = \frac{w_{superpixel}}{w_{superpixel} + w_{LBP}}, b = \frac{w_{LBP}}{w_{superpixel} + w_{LBP}}, a + b = 1

其中，p_superpiexl(Z_i|X_j)，p_LBP(Z_i|X_j)分别为超像素特征和LBP特征的观测似然函数，0≤a，b≤1为两种特征似然函数的权值，它们在粒子转移过程中不断的进行动态变化。

然后，执行子步骤S66、对进、出监控区域的运动行人进行计数，并删掉该运动行人在子跟踪集内的图像信息。

具体的，当跟踪的运动行人已离开或进入该监控区域30时，对进、出该监控区域30的运动行人进行计数，并删掉该运动行人在子跟踪集内的图像信息。在本实施方式中，该图形信息包括彩色图像信息与灰度图像信息。同时，对出现在该监控区域30中的不呈现运动状态的物体不进行计数。

最后，执行子步骤S67、对判决性模型进行实时更新。

由于在跟踪过程中，运动目标的光照、外观、姿态等变化会经常发生，或者出现背景干扰、相互遮挡等其它因素的影响，之前的字典所组成的判决性模型已不适用于对后续目标的跟踪，因此，对判决性模型的更新就显得十分关键和必要。经过五帧以后，就产生了新的图像块集合我们在和原始字典上再一次进行meanshift聚类分析，而新字典的大小仍然保持不变，如公式(10)所示：

C_{new} = {(C_{cl})}_{cl = 1}^{cl_\max} = meanshift ({P_{i}}_{i = 1}^{fp}, μ {(C)}_{cl = 1}^{cl_\max}) - - - (10);

其中，C_new表示新的字典，μ(0＜μ＜1)是遗忘因子，用来降低原始字典的重要性，使得新的字典能够更关注最新帧的图像块。

通过本发明，提高了视频检测技术中图像的鲁棒性，提高了对公共区域中呈不规则运动状态的运动行人进行跟踪与计数的效果，有效地提高了对公共区域内对行人进行人数统计的效率与准确度。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种行人跟踪方法，其特征在于，包括以下步骤：

S1、提取训练样本集中的HOG特征向量；

S3、获取监控区域的视频流图像作为输入图像；

S5、对检测到的运动行人区域进行跟踪集的采集操作；

2.根据权利要求1所述的方法，其特征在于，所述步骤S6具体包括以下子步骤：

S61、提取跟踪集内样本的超像素特征和LBP特征；

S63、根据超像素字典和LBP字典建立行人跟踪的判决性模型；

S64、采用随机扰动描述运动行人的状态转移；

S65、对输入图像中的每个候选运动目标进行随机采样处理；

S67、对判决性模型进行实时更新。

3.根据权利要求2所述的方法，其特征在于，所述步骤S62具体为：

4.根据权利要求2或3所述的方法，其特征在于，所述子步骤S62中的聚类分析包括简单线性聚类分析、模糊聚类分析、基于密度方法的聚类分析。

5.根据权利要求4所述的方法，其特征在于，所述基于密度方法的聚类分析由分段线性隶属度函数确定，所述分段线性隶属度函数为三角形隶属度函数、单调隶属度函数形函数或者梯形隶属度函数。

6.根据权利要求1所述的方法，其特征在于，所述步骤S5具体为：

7.根据权利要求6所述的方法，其特征在于，对于已出现在监控区域的运动行人，若该运动行人在其所对应的子跟踪集内已保存了M+1帧该运动行人区域的图像信息，则删除最先出现在子跟踪集内的该运动行人区域的图像信息。

8.根据权利要求7所述的方法，其特征在于，所述子跟踪集内的运动行人区域的图像信息的删除规则为先进先出，所述运动行人所对应的子跟踪集内保存五帧包含该运动行人区域的图像信息。

9.根据权利要求6、7或8所述的方法，其特征在于，所述图像信息包括彩色图像信息与灰度图像信息。

10.根据权利要求1所述的方法，其特征在于，所述子步骤S65具体为：

{sim}^{i} = \frac{1}{\sqrt{2 π} σ^{2}} \exp (- \frac{d^{2} [S_{i}, C_{j}]}{2 σ^{2}}), (j = 1, \cdot \cdot \cdot, cl_num);

B_{T} = Σ_{i = 1}^{N} I \underset{j}{(\arg \max} ({sim}^{i}) = j), j = 1, \cdot \cdot \cdot, cl_num;

I (\underset{j}{\arg \max} ({sim}^{i}) = j) = \{\begin{matrix} 1, \underset{j}{\arg \max} ({sim}^{i}) = j \\ 0, \underset{j}{\arg \max} ({sim}^{i}) &NotEqual; j \end{matrix}

w = \frac{1}{\sqrt{2 π} σ^{2}} \exp (- \frac{d_{t}^{2} [B_{T}, B_{m}]}{2 σ^{2}})