CN104504367B

CN104504367B - 一种基于级联字典的人群异常检测方法及系统

Info

Publication number: CN104504367B
Application number: CN201410720230.5A
Authority: CN
Inventors: 孙利民; 文辉; 葛仕明; 陈水仙
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-12-01
Filing date: 2014-12-01
Publication date: 2018-03-30
Anticipated expiration: 2034-12-01
Also published as: CN104504367A

Abstract

本发明涉及一种基于级联字典的人群异常检测方法及系统，其方法包括：步骤1：对输入的训练视频进行预处理，得到多个视频梯度特征；步骤2：将多个视频梯度特征输入多个训练字典中进行迭代训练，得到级联字典；步骤3：接收外部输入的需检测的视频流，对视频流进行预处理，得到视频特征，将视频特征输入级联字典进行检测；步骤4：对级联字典中多个训练字典的检测结果进行判断，如果存在正常状态，判断视频流为正常事件；否则，判断视频流为异常事件。本发明级联架构采用的是由粗粒度到细粒度的流水线型判断，能够将易判断的正常视频段在前几个级检测完毕，提高了运算效率与总体处理速度。

Description

一种基于级联字典的人群异常检测方法及系统

技术领域

本发明涉及一种视频处理技术，尤其涉及一种基于级联字典的人群异常检测方法及系统，属于智能视频处理领域，适用于公共安全视频监控中的群体异常事件检测领域。

背景技术

人群异常检测，通常也被称为人群异常事件检测，是指在人群视频序列中检测出不符合正常行为模式的处理过程。先前关于异常事件检测的研究，通常将人群异常划分为两种类别：局部异常和全局异常。局部异常通常指个体的行为与状态不同于其周围团体，即个体目标的行为模式与全体的行为模式不一致，例如在交通场景中与大多数人车流向相逆行驶，排队购物或买票中的插队等不符合正常行为模式的个体状态。全局异常通常指整个监控场景下的行为模式极大的异于普通状态下的行为模式，例如斗殴、踩踏、恐慌等各种临时突发群体性事件。不管是基于个体行为的异常检测模型，还是基于整体状态的异常检测模型，检测人群异常事件的性能取决于两方面的内容，即异常事件表示和异常事件度量。

在异常事件表示方面，通常是通过视频或图像中的运动信息来表达视频事件的状态，例如基于光流场的时空直方图，其考虑了图像邻域与多帧的视频信息，从而在时间和空间两方面描述运动物体的状态(参见H.Zhong,J.Shi,M.Visontai,Detecting unusualactivity in video.CVPR,2004)。除此之外，异常事件中的人群碰撞状态近似于异常群体运动状态，例如踩踏、斗殴和恐慌在具有突兀变化运动信息的同时，也出现了剧烈的人群碰撞情况，因此可以通过个体之间的方向、速度描述人群碰撞势能，进而度量人群异常事件的可能性。(参见Xinyi Cui,Qingshan Liu,Mingchen Gao,Dimitris N.Metaxas.Abnormaldetection using interaction energy potentials.CVPR 2011)。异常事件的表示，即视频中的视觉特征，影响着人群异常检测算法的处理速度与检测精度，虽然目前的异常事件表达方法能够很好的描述人群状态，但是未能达到实时提取和处理的效果。

在异常事件的度量方面，是根据视觉特征形成“视觉词袋”，对总体特征样本做分布统计，从而获取正常模式下的场景特征分布，一旦获取的视频特征极大地偏离正常模型，则被定义为异常事件。例如基于混合的概率主成分分析模型的异常度量方法，其利用正常的视频数据获得场景视频特征的主成分，通过度量测试视频序列中的主成分与常规场景主成分的不同来度量该场景的异常状态(参见J.Kim and K.Grauman,“Observe Locally,Infer Globally:A Space-Time MRF for Detecting Abnormal Activities withIncremental Updates,”Proc.IEEE Conf.Computer Vision and Pattern Recognition,2009.)。社会力模型从直观的个体间冲突这个角度来描述群体行为，通过个体间的相对方向、相对速度来度量个体间的交叉能量信息，表明个体之间的冲突、形态变化越剧烈，该能量值的数值越大，从而根据该能量值来判断场景的异常状况(参见D.Helbing andP.Molna′r,“Social Force Model for Pedestrian Dynamics,”Physical Rev.E,vol.51,no.5,pp.4282-4286,1995)。然而现有的异常事件度量算法，很少能在复杂场景中实时地检测人群异常。

发明内容

本发明所要解决的技术问题是，针对现有的异常事件检测方法在现实场景上未达到实时检测的效果，且由于监控的现实场景存在着环境变化、目标形变以及噪声的影响，使得传统的异常事件检测方法很难在复杂的环境中实时检测人群异常事件。本发明的目的是提出一种复杂环境下实时准确的基于级联字典的人群异常检测方法及系统。

本发明解决上述技术问题的技术方案如下：一种基于级联字典的人群异常检测方法，具体包括以下步骤：

步骤1：对输入的训练视频进行预处理，得到多个视频梯度特征；

步骤2：将多个视频梯度特征输入多个训练字典中进行迭代训练，得到级联字典；

步骤3：接收外部输入的需检测的视频流，对视频流进行预处理，得到视频特征，将视频特征输入级联字典进行检测；

步骤4：对级联字典中多个训练字典的检测结果进行判断，如果存在正常状态，判断视频流为正常事件，结束；否则，判断视频流为异常事件，结束。

本发明的有益效果是：本发明与传统的异常事件检测方法相比，采用基于级联字典的检测方法对人群异常事件有更好的区分性，方法利用字典之间的差异性更好的适应复杂场景与多样的人群移动模式，在一定程度上提升了检测精度。而且，级联架构采用的是由粗粒度到细粒度的流水线型判断，能够将易判断的正常视频段在前几个级检测完毕，提高了运算效率与总体处理速度。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤2具体包括以下步骤：

步骤2.1：将多个视频梯度特征输入一个训练字典；

步骤2.2：对多个视频梯度特征针对当前训练字典进行训练，得到当前最优检测字典；

步骤2.3：对于当前最优检测字典，判断所有视频梯度特征训练后是否达到收敛条件；如果是，执行步骤2.6；否则，执行步骤2.4；

步骤2.4：判断是否还存在未训练的训练字典，如果是，执行步骤2.5；否则，执行步骤2.6；

步骤2.5：将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练，下一个训练字典成为当前训练字典，执行步骤2.2；

步骤2.6：完成训练的多个训练字典的集合构成级联字典。

进一步，所述步骤2.2具体包括以下步骤：

步骤2.2.1：将多个视频梯度特征预处理为视频特征样本，候选字典数量设定为k；

步骤2.2.2：根据当前的视频特征样本，通过块梯度下降法优化函数，获取视频特征样本在k个维度下训练的候选字典；

步骤2.2.3：选取误差最小的候选字典作为的最优检测字典。

进一步，所述步骤1中所述预处理包括高斯平滑滤波、视频分帧、运动噪声去除和视频梯度特征提取。

进一步，所述步骤4具体包括以下步骤：

步骤4.1：根据级联字典中一个训练字典进行字典重构，得到字典重构误差，判断字典重构误差是否大于预设阈值，如果是，判断为异常状态，执行步骤4.2；否则，为正常状态，判断视频流为正常事件，结束；

步骤4.2：判断当前级联字典中是否存在未训练的训练字典，如果是，执行步骤4.3；否则，判断视频流为异常事件，结束；

步骤4.3：将视频特征输入到级联字典的下一个训练字典中，执行步骤4.1。

本发明解决上述技术问题的技术方案如下：一种基于级联字典的人群异常检测系统，包括预处理模块、迭代训练模块、检测模块和结果判断模块；

所述预处理模块用于对输入的训练视频进行预处理，得到多个视频梯度特征；

所述迭代训练模块用于将多个视频梯度特征输入多个训练字典中进行迭代训练，得到级联字典；

所述检测模块用于接收外部输入的需检测的视频流，对视频流进行预处理，得到视频特征，将视频特征输入级联字典进行检测；

所述结果判断模块用于对级联字典中多个训练字典的检测结果进行判断，如果存在正常状态，判断视频流为正常事件；否则，判断视频流为异常事件。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述迭代训练模块包括输入模块、训练模块和收敛判断模块；

所述输入模块用于将多个视频梯度特征输入一个训练字典；

所述训练模块用于对多个视频梯度特征针对当前训练字典进行训练，得到当前最优检测字典；

所述收敛判断模块用于对于当前最优检测字典，判断所有视频梯度特征训练后是否达到收敛条件；如果是，完成训练的多个训练字典的集合构成级联字典；否则，将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练，下一个训练字典成为当前训练字典，转至训练模块；直至所有训练字典完成训练。

进一步，所述训练模块包括设定模块、优化模块和最优选取模块；

所述设定模块用于将多个视频梯度特征预处理为视频特征样本，候选字典数量设定为k；

所述优化模块用于根据当前的视频特征样本，通过块梯度下降法优化函数，获取视频特征样本在k个维度下训练的候选字典；

所述最优选取模块用于选取误差最小的候选字典作为的最优检测字典。

进一步，所述预处理包括高斯平滑滤波、视频分帧、运动噪声去除和视频梯度特征提取。

进一步，所述结果判断模块将级联字典中所有训练字典依次进行字典重构，得到多个字典重构误差，分别判断字典重构误差是否大于预设阈值，如果所有字典重构误差都大于预设阈值，则判断判断视频流为异常事件；否则，判断视频流为正常事件。

附图说明

图1为本发明所述的一种基于级联字典的人群异常检测方法流程图；

图2为本发明所述的一种基于级联字典的人群异常检测系统结构框图；

图3为本发明实施例所述的一种基于级联字典的人群异常检测方法流程图。

附图中，各标号所代表的部件列表如下：

1、预处理模块，2、迭代训练模块，3、检测模块，4、结果判断模块，21、输入模块，22、训练模块，23、收敛判断模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明所述的一种基于级联字典的人群异常检测方法，具体包括以下步骤：

步骤2：将多个视频梯度特征输入一个训练字典；

步骤3：对多个视频梯度特征针对当前训练字典进行训练，得到当前最优检测字典；

步骤4：对于当前最优检测字典，判断所有视频梯度特征训练后是否达到收敛条件；如果是，执行步骤7；否则，执行步骤5；

步骤5：判断是否还存在未训练的训练字典，如果是，执行步骤6；否则，执行步骤7；

步骤6：将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练，下一个训练字典成为当前训练字典，执行步骤3；

步骤7：完成训练的多个训练字典的集合构成级联字典；

步骤8：接收外部输入的需检测的视频流，对视频流进行预处理，得到视频特征，将视频特征输入级联字典进行检测；

步骤9：根据级联字典中一个训练字典进行字典重构，得到字典重构误差，判断字典重构误差是否大于预设阈值，如果是，判断为异常状态，执行步骤10；否则，为正常状态，判断视频流为正常事件，结束；

步骤10：判断当前级联字典中是否存在未训练的训练字典，如果是，执行步骤11；否则，判断视频流为异常事件，结束；

步骤11：将视频特征输入到级联字典的下一个训练字典中，执行步骤9。

所述步骤3具体包括以下步骤：

步骤3.1：将多个视频梯度特征预处理为视频特征样本，候选字典数量设定为k；

步骤3.2：根据当前的视频特征样本，通过块梯度下降法优化函数，获取视频特征样本在k个维度下训练的候选字典；

步骤3.3：选取误差最小的候选字典作为的最优检测字典。

所述步骤1中所述预处理包括高斯平滑滤波、视频分帧、运动噪声去除和视频梯度特征提取。

如图2所示，为本发明所述的一种基于级联字典的人群异常检测系统，包括预处理模块1、迭代训练模块2、检测模块3和结果判断模块4；

所述预处理模块1用于对输入的训练视频进行预处理，得到多个视频梯度特征；

所述迭代训练模块2用于将多个视频梯度特征输入多个训练字典中进行迭代训练，得到级联字典；

所述检测模块2用于接收外部输入的需检测的视频流，对视频流进行预处理，得到视频特征，将视频特征输入级联字典进行检测；

所述结果判断模块4用于对级联字典中多个训练字典的检测结果进行判断，如果存在正常状态，判断视频流为正常事件；否则，判断视频流为异常事件。

所述迭代训练模块2包括输入模块21、训练模块22和收敛判断模块23；

所述输入模块21用于将多个视频梯度特征输入一个训练字典；

所述训练模块22用于对多个视频梯度特征针对当前训练字典进行训练，得到当前最优检测字典；

所述收敛判断模块23用于对于当前最优检测字典，判断所有视频梯度特征训练后是否达到收敛条件；如果是，完成训练的多个训练字典的集合构成级联字典；否则，将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练，下一个训练字典成为当前训练字典，转至训练模块22；直至所有训练字典完成训练。

所述训练模块包括设定模块、优化模块和最优选取模块；

所述预处理包括高斯平滑滤波、视频分帧、运动噪声去除和视频梯度特征提取。

所述结果判断模块将级联字典中所有训练字典依次进行字典重构，得到多个字典重构误差，分别判断字典重构误差是否大于预设阈值，如果所有字典重构误差都大于预设阈值，则判断判断视频流为异常事件；否则，判断视频流为正常事件。

本发明针对传统人群异常检测方法未能实时处理复杂场景这一问题，发明了一种基于级联字典进行异常事件检测的方法和装置，利用训练得到的级联字典，对监控视频进行逐级检测，当多个字典输出结果为异常则判决为异常事件，否则判决为正常事件，从而实现快速精确的人群异常检测。

本发明所采用的人群异常事件检测方法分为离线训练和在线检测两大步骤，训练阶段利用现有的视频训练生成符合场景要求的级联字典，检测阶段则利用该级联字典对视频场景进行人群异常事件检测，其具体过程如图3所示。

在训练阶段，先对输入视频进行预处理，用以提取视频特征。预处理过程包括高斯平滑滤波、视频分帧、运动噪声去除以及视频梯度特征提取。对于获取的视频梯度特征，根据字典学习的误差重构函数建立对应的最优级联字典，其函数定义为：

公式(1)

其中y_j为训练视频的第j个特征,m为训练特征数，n为训练的级联层数，k为每一层训练的候选字典数。表示第i层中第p个候选字典,表示是否选择作为级联架构中第i层的检测字典,表示特征j根据第i层字典进行重构后是否收敛，表示重构后的稀疏特征。对于一个视频特征，字典学习的任务是训练一个字典满足以下关系：其中λ是重构误差阈值，是由y_i与组成的解析解表示。在字典学习过程中，当前训练的不能使所有的视频特征收敛，则根据其不能收敛的视频特征训练另一个字典如此反复迭代形成级联结构的字典组。同时，每一层有k个不同维度的候选字典，训练过程通过优化公式(1)选取每层最优的候选字典作为级联第i层的字典。

训练算法如下：

1)初始化：设定候选字典数K，迭代次数T，初始级联字典数i＝1，且将训练视频预处理成视频特征样本；

2)级联字典学习：

(a)根据当前的训练特征样本，通过块梯度下降法优化函数获取其在k个维度下训练的候选字典

(b)通过公式(1)选取误差最小的字典作为第i层的最优检测字典；

(c)对于当前训练的最优字典判断是否所有视频特征达到收敛条件若无，则级联层数i＝i+1，然后收集未能满足条件的特征作为训练样本，返回(a)步，训练另一个字典；

3)返回结果：存储迭代中止对应的级联字典{D₁,D₂,...,D_n}。

在检测阶段，视频流通过预处理获取一个小视频段的视频特征，并根据级联字典逐个判断该视频段的特征是否满足当所有字典都不满足条件则判断异常，否则判断为正常。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于级联字典的人群异常检测方法，其特征在于，具体包括以下步骤：

步骤2：将所述多个视频梯度特征输入多个训练字典中进行迭代训练，得到级联字典；

步骤3：接收外部输入的需检测的视频流，对所述视频流进行预处理，得到视频特征，将所述视频特征输入所述级联字典进行检测；

步骤4：对所述级联字典中多个训练字典的检测结果进行判断，如果存在正常状态，判断所述视频流为正常事件，结束；否则，判断所述视频流为异常事件，结束；

步骤2中，具体通过以下公式建立所述级联字典：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>min</mi> <mrow> <mi>&alpha;</mi> <mo>,</mo> <mi>&beta;</mi> <mo>,</mo> <mi>D</mi> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msubsup> <mi>&alpha;</mi> <mi>j</mi> <mi>i</mi> </msubsup> <msubsup> <mi>&beta;</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>p</mi> </msubsup> <msubsup> <mi>x</mi> <mi>j</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msubsup> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>&alpha;</mi> <mi>j</mi> <mi>i</mi> </msubsup> <mo>=</mo> <mn>1</mn> <mo>,</mo> <msubsup> <mi>&alpha;</mi> <mi>j</mi> <mi>i</mi> </msubsup> <mo>=</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow></mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msubsup> <mi>&beta;</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>=</mo> <mn>1</mn> <mo>,</mo> <msubsup> <mi>&beta;</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>=</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> <mo>;</mo> </mrow>

其中，表示的F范数，λ表示平衡因子，y_j为训练视频的第j个特征，m为训练特征数，n为训练的级联层数，k为每一层训练的候选字典数；表示第i层中第p个候选字典，表示是否选择作为级联架构中第i层的检测字典，表示特征j根据第i层字典进行重构后是否收敛，表示重构后的稀疏特征。

2.根据权利要求1所述的一种基于级联字典的人群异常检测方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2.1：将所述多个视频梯度特征输入一个训练字典；

步骤2.2：对所述多个视频梯度特征针对当前训练字典进行训练，得到当前最优检测字典；

步骤2.3：对于所述当前最优检测字典，判断所有视频梯度特征训练后是否达到收敛条件；如果是，执行步骤2.6；否则，执行步骤2.4；

步骤2.5：将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练，所述下一个训练字典成为当前训练字典，执行步骤2.2；

步骤2.6：完成训练的多个训练字典的集合构成级联字典。

3.根据权利要求2所述的一种基于级联字典的人群异常检测方法，其特征在于，所述步骤2.2具体包括以下步骤：

步骤2.2.1：将所述多个视频梯度特征预处理为视频特征样本，候选字典数量设定为k；

步骤2.2.2：根据当前的所述视频特征样本，通过块梯度下降法优化函数，获取所述视频特征样本在k个维度下训练的候选字典；

步骤2.2.3：选取误差最小的所述候选字典作为最优检测字典。

4.根据权利要求1-3任一项所述的一种基于级联字典的人群异常检测方法，其特征在于，所述步骤1中所述预处理包括高斯平滑滤波、视频分帧、运动噪声去除和视频梯度特征提取。

5.根据权利要求4所述的一种基于级联字典的人群异常检测方法，其特征在于，所述步骤4具体包括以下步骤：

步骤4.1：根据所述级联字典中一个训练字典进行字典重构，得到字典重构误差，判断所述字典重构误差是否大于预设阈值，如果是，判断为异常状态，执行步骤4.2；否则，为正常状态，判断所述视频流为正常事件，结束；

步骤4.2：判断当前所述级联字典中是否存在未训练的训练字典，如果是，执行步骤4.3；否则，判断所述视频流为异常事件，结束；

步骤4.3：将所述视频特征输入到所述级联字典的下一个训练字典中，执行步骤4.1。

6.一种基于级联字典的人群异常检测系统，其特征在于，包括预处理模块、迭代训练模块、检测模块和结果判断模块；

所述迭代训练模块用于将所述多个视频梯度特征输入多个训练字典中进行迭代训练，得到级联字典；

所述检测模块用于接收外部输入的需检测的视频流，对所述视频流进行预处理，得到视频特征，将所述视频特征输入所述级联字典进行检测；

所述结果判断模块用于对所述级联字典中多个训练字典的检测结果进行判断，如果存在正常状态，判断所述视频流为正常事件；否则，判断所述视频流为异常事件；

所述迭代训练模块具体通过以下公式建立所述级联字典：

7.根据权利要求6所述的一种基于级联字典的人群异常检测系统，其特征在于，所述迭代训练模块包括输入模块、训练模块和收敛判断模块；

所述输入模块用于将所述多个视频梯度特征输入一个训练字典；

所述训练模块用于对所述多个视频梯度特征针对当前训练字典进行训练，得到当前最优检测字典；

所述收敛判断模块用于对于所述当前最优检测字典，判断所有视频梯度特征训练后是否达到收敛条件；如果是，完成训练的多个训练字典的集合构成级联字典；否则，将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练，所述下一个训练字典成为当前训练字典，转至训练模块；直至所有训练字典完成训练。

8.根据权利要求7所述的一种基于级联字典的人群异常检测系统，其特征在于，所述训练模块包括设定模块、优化模块和最优选取模块；

所述设定模块用于将所述多个视频梯度特征预处理为视频特征样本，候选字典数量设定为k；

所述优化模块用于根据当前的所述视频特征样本，通过块梯度下降法优化函数，获取所述视频特征样本在k个维度下训练的候选字典；

所述最优选取模块用于选取误差最小的所述候选字典作为最优检测字典。

9.根据权利要求6-8任一项所述的一种基于级联字典的人群异常检测系统，其特征在于，所述预处理包括高斯平滑滤波、视频分帧、运动噪声去除和视频梯度特征提取。

10.根据权利要求9所述的一种基于级联字典的人群异常检测系统，其特征在于，所述结果判断模块将所述级联字典中所有训练字典依次进行字典重构，得到多个字典重构误差，分别判断所述字典重构误差是否大于预设阈值，如果所有字典重构误差都大于预设阈值，则判断所述视频流为异常事件；否则，判断所述视频流为正常事件。