CN102592138A

CN102592138A - 基于多模块稀疏投影的密集场景目标跟踪方法

Info

Publication number: CN102592138A
Application number: CN2011104514246A
Authority: CN
Inventors: 邵洁
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power; University of Shanghai for Science and Technology
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2012-07-18
Anticipated expiration: 2031-12-30
Also published as: CN102592138B

Abstract

本发明涉及一种基于多模块稀疏投影的密集场景目标跟踪方法，用稀疏投影法表征目标特征，针对密集场景中的严重的互遮挡问题，设计了基于多模块核彩色直方图的重构矩阵，并由此设计了相应的目标匹配和更新算法。此目标跟踪方法实现公共场所人流密集场景的目标自动跟踪，同时针对密集场景中的严重的互遮挡问题也给出了解决方法。

Description

基于多模块稀疏投影的密集场景目标跟踪方法

技术领域

本发明涉及一种计算机视觉领域，特别涉及一种基于多模块稀疏投影的密集场景目标跟踪方法。

背景技术

随着经济的飞速发展，社会的城市化程度越来越高，城市的人口密度越来越大，在公共场所的人群管理问题日益突出。出于对安全保障的需求，大多数的公共场所都安装了闭路电视监控系统（CCTV），特别在地铁、机场等客流密集场所，能够实现大范围的实时图像采集。然而，大多数采集到的影像必须依赖人工监视或者仅作为资料记录保存，没有能够达到实时智能监控的效果。

目标检测和跟踪是计算机视觉领域的基本方法，也为公共场所的智能监控提出了新的解决方法。虽然近年来目标检测与跟踪算法已有巨大的发展，然而密集场景中的目标跟踪对于传统跟踪算法而已仍然是一项巨大的挑战，其中最关键的原因在于传统算法很难区分场景中的大量混杂人群。由于运动的目标相互重叠的充斥了图像的整个或大部分区域，因此单个目标的背景通常为非静止状态。一方面，基于背景去除的静态背景目标检测和跟踪算法无法适用于此类场景；另一方面，基于运动背景的目标检测和跟踪算法无法处理存在大量互遮挡问题的场景。然而，往往在人群密集场所的异常事故发生率较其他场所更高，行人跟踪是人流密度和数据统计、群体行为分析的基础方法之一，所以关于密集场景的目标跟踪的研究在视频监控领域具有更大的发展需求和应用前景。

一个固定摄像头监控系统能够捕获到场景中所有的运动变化，而密集场景中的人群运动会体现为时间与空间域中大量具有不同速度和方向的像素变化。有时，由于人群过于拥挤，或遵循某些运动规则，使得场景中只存在有限种类的运动模式，这一类场景可以被称为有规律的密集场景。比如，排队下楼梯的人群，一群进行马拉松运动的人，或者马路上行驶的车辆等。除此以外，还有另一些密集场景中的运动是无序而杂乱的，在这种情况下，任意时刻发生在任意位置上的运动均不可预料。比如，在广场上自由行走的人，或者某个展览会场中随意参观的人群。这一类型可以称之为随机密集场景。近年来，大多数与密集场景目标跟踪有关的研究方法都只能解决规律密集场景中的目标跟踪。比如利用运动流检测密集客流运动模型或利用训练得到视频区域中每个模块的HMM状态转换模型实现模块运动路径判断。然而对于随机运动的密集场景，此类方法无法正确检测出任意单个目标的运动轨迹。其余一些关注密集场景中单人跟踪的研究成果经实验表明只能处理密集度较低，仅存在有限遮挡的场景。

稀疏投影法是一种针对目标特征的稀疏编码方式，它是压缩感知理论的一个方面。压缩感知理论突破了传统的奈奎斯特采样定理规定的范畴，采用远低于奈奎斯特标准的方式进行数据采样并仍能精确恢复原始信号。近两年这一方法被广泛应用于如人脸识别、图像恢复、纹理分割等研究领域，其原理为通过将目标特征向量（矩阵）投影至模板子空间实现模板权重系数向量的稀疏表达，这种稀疏表达体现为仅与目标特征最相关的子模板权重系数为非零值。作为一种特征提取和表示方法，稀疏投影法表现出了超然的优势和效果，但其适用于不同场景时还有很多需要斟酌的地方。比如重构矩阵的设计，算法的优化等。

发明内容

本发明是针对随机运动的密集场景无法正确检测出任意单个目标的运动轨迹的问题，提出了一种基于多模块稀疏投影的密集场景目标跟踪方法，实现公共场所人流密集场景的目标自动跟踪方法。

本发明的技术方案为：一种基于多模块稀疏投影的密集场景目标跟踪方法，包括如下具体步骤：

1）建立基于观测模型的多模块稀疏表示模型：

Figure 2011104514246100002DEST_PATH_IMAGE002

，其中A为重构权值向量，T为模板重构基向量，

表示存在的噪声，重构矩阵T实现对目标x的稀疏投影；

2）以第一帧图像为模板人为选定目标，由此得到其中心点位置和区域大小，并根据这一数据初始化重构矩阵T，重构权重向量初始值为各分量均为1；

3）进入下一帧，通过粒子滤波器计算获得多个目标预测中心点位置；

4）针对每一个预测位置对应的目标预测区域进行分块，并计算其多模块观测模型X ，

Figure 2011104514246100002DEST_PATH_IMAGE006

，

Figure 2011104514246100002DEST_PATH_IMAGE008

表示目标的第n个特征向量,

Figure 2011104514246100002DEST_PATH_IMAGE010

,即共有N个特征向量，每个模块对应一个特征向量；

5）根据

计算得到最优目标位置

，作为当前帧的目标跟踪结果，其中最优重建权值向量

Figure 2011104514246100002DEST_PATH_IMAGE016

通过

Figure 2011104514246100002DEST_PATH_IMAGE018

得到，每个模块的重建权值向量

Figure 2011104514246100002DEST_PATH_IMAGE020

相互独立；

6）根据

及其相对应的重构权重向量的值，更新重构矩阵T；

7）返回步骤3）进行下一帧的跟踪。

所述步骤4）观测模型X采用一种多特征表示方法建立，输入目标信号特征的数学表达从传统使用的向量形式转换为包含多向量的矩阵形式，算法在彩色直方图表示的基础上引入了一种多模块核彩色直方图表示法：将目标表示成一个矩形区域，将其分成7个部分模块，多模块核彩色直方图表示法的计算基于这7个部分子模块实现，第1个直方图基于整个前景物体区域；第2个到第5个直方图基于将目标矩形区四等份的四个子区域的计算；若保持目标矩形区的中心点不变，产生一个大小为原始矩形一半面积的区域，那么此区域为第6子模块，剩余部分为第7子模块；7个子模块分别对应特征矩阵

Figure 2011104514246100002DEST_PATH_IMAGE022

中的一个特征向量

，因此在这里N=7，若定义

为第n个子模块中的像素点，子模块n的中心点用

表示，高斯核

用于计算像素点的权重值，以实现越远离中心点的像素值对最终直方图分布结果影响越小。

本发明的有益效果在于：本发明基于多模块稀疏投影的密集场景目标跟踪方法，实现公共场所人流密集场景的目标自动跟踪，同时针对密集场景中的严重的互遮挡问题也给出了解决方法。

附图说明

图1为本发明多模块核彩色直方图的7个模块划分示例。

具体实施方式

由于稀疏投影法能够更为有效精确的表征目标特征，因此将其应用于密集客流场景的目标跟踪。针对密集场景中的严重的互遮挡问题，设计了基于多模块核彩色直方图的重构矩阵。并由此设计了相应的目标匹配和更新算法。

稀疏表示法：

假设对第i个对象类存在充分的训练样本集，

，则对于任意属于同一类的测试样本

，可以通过训练样本的线性加权和来表示，即：

，（1）

然而，因为测试样本所属类未知，因此重新定义矩阵T由k个对象类的n个训练样本组成，即：

（2）

因此，x能够通过所有训练样本的线性组合来表示，即有：

（3）

其中，T被称为重构矩阵，为重构加权系数向量。现在已知x和T，求解

。然而由于这个方程组有无穷多解，因此从另一种方面考虑，如果仅希望解尽可能稀疏，比如

尽可能的小，即其中非零元素个数尽可能少，则可以求得满足这一条件的最优解。此时，

，除第i个对象类的样本所对应的系数为非零值外，其他

所含元素全为0，称

为基于T的x的稀疏表达。

其严格定义为：

（4）

可以证明，在存在满足某种条件的常数的情况下，如果

（5）

则0范数优化与1范数优化问题的解相同。由此可以得到寻找x的稀疏表达的过程可以定义为：

（6）

由于1范数求解问题为一个凸优化问题，因此，式（6）的解即为式（3）问题的唯一解。所谓凸优化（Convex Optimization）问题，是指目标函数为凸函数，约束变量取值于一个凸集中的优化问题。

事实上，由于在实际工程处理中都存在噪声，因此式（3）在实际应用中应写成如下形式：

（7）

则通过1范数求解

的最优稀疏值的计算为公式（8）所示。

（8）

本发明实现方法中采用的观测模型：

本发明采用一种多特征表示方法建立观测模型：

，

表示目标的第n个特征向量。因此在本模型中，输入目标信号特征的数学表达从传统使用的向量形式转换为包含多向量的矩阵形式。为了使此观测模型矩阵中不仅包含目标的整体信息还包含局部信息，算法在彩色直方图表示的基础上引入了一种多模块核彩色直方图表示法，如图1所示。

如果将目标表示成一个矩形区域，那么可以将其分成7个部分模块。多模块核彩色直方图表示法的计算基于这7个部分子模块实现。第1个直方图基于整个前景物体区域，第2个到第5个直方图基于将目标矩形区四等份的四个子区域的计算。若保持目标矩形区的中心点不变，产生一个大小为原始矩形一半面积的区域，那么此区域为第6子模块，剩余部分为第7子模块。7个子模块分别对应特征矩阵

中的一个特征向量

，因此在这里N=7。

若定义为第n个子模块中的像素点，子模块n的中心点用

表示，高斯核

用于计算像素点的权重值，以实现越远离中心点的像素值对最终直方图分布结果影响越小。因此，

的第j个颜色统计特征值为：

（9）

上式中，

表示第n个子模块中像素值等于j的像素点的组合，c为归一化系数。因此，可以得到

的表示，

为d维向量：

（10）

基于观测模型的稀疏表示模型：

根据建立的观测模型，在基本的稀疏表示方法的基础上，设计适用于本类应用的重构矩阵T。因此，这一部分的关键问题是如何使用基于模板子空间的重构矩阵T实现对目标x的稀疏投影表示，T的每一列向量被称为模板重构基向量，

表示存在的噪声。重构权值向量A可由求解1范数正则化最小二乘问题求得，这一方法将在下一部分具体论述。

（11）

在密集场景视频跟踪中，噪声和部分遮挡是最常见的两种问题。尤其遮挡的发生常常会使目标检测结果产生不可预料的错误从而影响整个跟踪过程的正确性。遮挡体现为一片非目标区域占据了目标位置，且大多数情况下，仅有部分目标区域被遮挡。因此，在本方法中，目标区域被分成了多个分割模块进行特征提取，这样，非遮挡区域提取的特征仍然可以在稀疏投影过程中确认目标的最优估计位置。相对应于这一思路，重构矩阵

，共包含N组模板，每组模板分别对应一个目标模块。每组中包括M个不同的模板

。每个模板的初始化都在视频的第一帧计算得到，对应于同一子模块的不同模板的采集位置是通过对原模板位置的上下左右单像素距离移动得到。之后在每一帧的计算中将对模板值进行更新以适应目标运动变化。假设当前帧的某一跟踪目标的特征表示为

。作为公式（11）的扩展，任一子模块特征均可表示为：

（12）

，是本算法使用的重建权值向量。

基于稀疏重构的目标匹配方法：

目标实现稀疏表示后，在跟踪过程中通过将稀疏特征重构，并与预测区域匹配的方法确定其在当前时刻（帧）的最优位置。目标位置预测采用粒子滤波的方法完成，在粒子滤波后，可以得到多个当前时刻（帧）的目标预测点（粒子），将粒子滤波产生的粒子

作为候选观测区域的中心点，大小为初始模板大小，根据观测模型计算出相应值代入根据公式（12），即将每个粒子对应位置的多模块外表特征X用于基于模板匹配的稀疏投影。因此首先我们需要计算X与重建权重向量A的关系。在已知重构矩阵T的情况下，定义函数，通过L1正则化最小二乘问题计算观测候选项

中

的置信度，以及最优稀疏向量

。

（13）

式中，

为正则化参数。通过第一项

可以得到稀疏投影重建差。这一项的值越小，模板与观测项子模块就越相似。第二项为稀疏向量正则化，这一项的存在保证了求解L1最小值问题的结果将更有利于范数较大的模板，即假设当模板

为当前帧最优模板时，

越大，所需重建权重越小，

的值也越小。

是公式(13)中的潜在变量，因此，为了能够找到最优跟踪结果，需要针对每一个

最小化公式(13)。L1正则化最小二乘问题可通过Lasso问题求解法实现，这一方法已存在公开代码，在此不再赘述。

求解出对应于每个

的重建权值向量

后，最优重建权值向量

通过下式得到：

（14）

每个模块的重建权值向量

相互独立，因此，每个向量的优化也相互独立。针对目标整体特征

，式(14)的优化过程可以表示为求解：

（15）

与

相对应的观察候选项是最终跟踪结果。用表示t帧时

个观察粒子对应外表状态特征，则最终跟踪结果表示为：

（16）

重构矩阵的更新：

目标物体的外表特征会随着内外部因素的变化而发生改变。因此，为了更稳定的实现精确跟踪，在重构矩阵T在设定初值后必须每帧在线更新。为了能够自适应的更新模板，本算法充分使用了重建权重向量A的特点。重建权重向量A是一个稀疏向量，其中每一个元素值

可看作每一个子模板的权重，观测值与子模板的关联越大，相应的权重值越大，因此A的元素值可看作子模板与观测值的关联程度。除此之外，式(13)中

项的存在表明，与观测值最相关的子模板

的范数越大，其对应的权重

值越小。而式中的第二项

的存在使我们期望A的范数尽可能的小。因此，在模板的自动更新过程中，我们需要给关联度更大的模板赋予更大的范数值。

当重构矩阵T初始化后，将对其进行归一化计算。因此，从第2帧开始的第t帧，我们都可以将

的梯度下降值作为调节量实现对

的更新。

（17）

上式中的

来自于公式(13)，

。 (18)

因此，得到：

。（19）

在更新后，T再进行归一化处理。

为学习率，可以看到在式(19)中，的存在使得随着时间的推移，当前目标的变化对模板变化的影响逐渐变小。

具体实施步骤：

1、以第一帧图像为模板人为选定目标，由此得到其中心点位置和区域大小。并根据这一数据初始化重构矩阵T。重构权重向量初始值为各分量均为1。

2、进入下一帧，通过粒子滤波器计算获得多个目标预测中心点位置。

3、针对每一个预测位置对应的目标预测区域，计算其观测模型X。

4、根据公式（16）计算得到最优目标位置

，作为当前帧的目标跟踪结果。

5、根据

及其相对应的重构权重向量的值，更新重构矩阵T。

6、继续到第2步开始执行。

Claims

1.一种基于多模块稀疏投影的密集场景目标跟踪方法，其特征在于，包括如下具体步骤：

1）建立基于观测模型的多模块稀疏表示模型：，其中A为重构权值向量，T为模板重构基向量，

表示存在的噪声，重构矩阵T实现对目标x的稀疏投影；

，

表示目标的第n个特征向量,

,即共有N个特征向量，每个模块对应一个特征向量；

5）根据计算得到最优目标位置，作为当前帧的目标跟踪结果，其中最优重建权值向量

通过

得到，每个模块的重建权值向量

相互独立；

6）根据

及其相对应的重构权重向量的值，更新重构矩阵T；

7）返回步骤3）进行下一帧的跟踪。

2.根据权利要求1所述基于多模块稀疏投影的密集场景目标跟踪方法，其特征在于，所述步骤4）观测模型X采用一种多特征表示方法建立，输入目标信号特征的数学表达从传统使用的向量形式转换为包含多向量的矩阵形式，算法在彩色直方图表示的基础上引入了一种多模块核彩色直方图表示法：将目标表示成一个矩形区域，将其分成7个部分模块，多模块核彩色直方图表示法的计算基于这7个部分子模块实现，第1个直方图基于整个前景物体区域；第2个到第5个直方图基于将目标矩形区四等份的四个子区域的计算；若保持目标矩形区的中心点不变，产生一个大小为原始矩形一半面积的区域，那么此区域为第6子模块，剩余部分为第7子模块；7个子模块分别对应特征矩阵

中的一个特征向量

，因此在这里N=7，若定义

为第n个子模块中的像素点，子模块n的中心点用

表示，高斯核