CN108805002B

CN108805002B - 基于深度学习和动态聚类的监控视频异常事件检测方法

Info

Publication number: CN108805002B
Application number: CN201810320572.6A
Authority: CN
Inventors: 徐向华; 刘李启明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2022-03-01
Anticipated expiration: 2038-04-11
Also published as: CN108805002A

Abstract

本发明涉及了一种基于深度学习和动态聚类的监控视频异常事件检测方法。特征提取阶段，运用深度学习网络PCANet，通过训练视频学习出对应的网络滤波器，并通过深度网络来将低层的像素点光流特征转化成高层的语义运动特征；同时通过对视频当中运动区域的筛选，剔除掉只包含有背景信息的时空采样块。在特征建模阶段，运用基于两层聚类的非参数模型来对特征向量空间进行建模，并在向量合并阶段采用向量相向合并的方法，最后运用K均值聚类算法将字典集合中的向量聚类成一系列的事件簇，并根据测试向量与事件簇中心向量之间的欧氏距离来进行异常事件判断。本发明有效的避免了因相加而导致的特征向量发生偏移，提高了异常事件检测率。

Description

基于深度学习和动态聚类的监控视频异常事件检测方法

技术领域

本发明涉及一种监控视频异常事件检测方法，特别涉及一个基于深度学习和动态聚类的监控视频异常事件检测方法。

背景技术

随着计算机科学技术的发展，利用图像处理、计算机视觉、机器学习等技术可以突破传统视频监控系统的局限性，实现对视频监控系统的视频智能分析和异常事件的主动检测、实时预警，对于公共安全领域的视频监控应用有重要价值。

监控视频中异常事件检测方法主要分为四个基本步骤：图像预处理、基本事件表示、构建异常检测模型和判断异常事件。其中基本事件表示主要分为基于低级视觉特征的事件表示和基于高级语义特征的事件表示。基于低级视觉特征进行事件表示的做法一般是从用重叠、非重叠或者时空兴趣点的方式将视频体分割成小的视频块，把视频块看作基本的事件，从视频块中提取低级视觉特征对基本事件进行表示。目前，使用较多的低级视觉特征有光流、梯度、纹理等。基于高级语义特征的事件表示主要是需要对数据进行复杂的模式处理，如目标时空轨迹、社会力等方法。常见的异常事件检测模型主要有：基于分类的异常事件检测模型、基于最近邻的异常事件检测模型、基于聚类的异常事件检测模型、基于统计的异常事件检测模型、基于信息理论的异常事件检测模型等。

虽然监控视频下的异常事件检测方法多种多样，但是多数的异常事件检测方法运用参数模型来对运动特征进行建模，这其中需要自行设置许多的模型参数，但是参数经验值在改变视频场景时往往需要重新进行设置。在文献《Online anomaly detection invideos by clustering dynamic exemplars》【J Feng,C Zhang,P Hao】中，作者对于那些视频中新出现的、或是出现概率很低的异常事件，提出了一种基于聚类的非参数模型来对特征向量进行建模，首先从输入的视频流当中提取出MHOF特征，然后将这些特征依次输入到大小固定的字典集合当中进行合并，再将合并后的字典集合运用K均值算法进行聚类；在异常事件判断阶段，该算法通过判断特征向量与聚类码本之间的距离来进行异常判断。

上述算法在检测异常事件上表现良好，但是仍存在着以下问题：

1.该算法采用MHOF特征对视频当中的运动进行描述，而HOF、HOG等人工构造特征的描述效果虽然不错，但是在不同的视频场景中各种特征的适用性不同，改变场景往往需要同时改变所运用的特征，不太适用于多场景的异常事件检测；

2.该算法在字典集合的向量合并中，采用简单的加权相加方式，这样会导致经过大量向量更新之后，字典集合中的特征向量的值相对于原先的值发生了偏移，对最终的检测造成了影响；

3.该算法中对于低频率异常事件的检测通过统计字典集合中向量的出现频次并计算相应码本的频率占比来进行，然而在特征提取阶段采用的则是对整幅图像进行的密集采样，这样当视频场景为稀疏场景时，采样得到的特征向量大部分为背景信息，从而字典集合中表示背景信息的向量的频次计数值就会很大，使得相对应的码本频率占比过高，导致其他运动事件的频率都小于了判断阈值，造成误检。

发明内容

针对上述问题，本发明公开了一种基于深度学习和动态聚类的监控视频异常事件检测方法。该方法运用PCANet自动对视频采样块进行深度特征提取，同时对采样块进行运动区域筛选，并采用一个基于向量合并的两层聚类模型来对特征集合进行聚类建模。

本发明解决其技术问题采用的技术方案步骤如下：

步骤S101：图像预处理。读取监控视频流作为输入，进行灰度化并使用高斯滤波进行降噪处理。

步骤S102：重叠采样。对输入算法的视频流，首先计算出中每一帧图像中每一个像素点的光流值，并用像素点光流值替换掉灰度值；然后对I进行大小固定的重叠采样，输出一系列大小为N×N的视频采样图像块。

步骤S103：运动区域筛选。对于采样得到的所有视频采样图像块，首先运用直方图双峰法统计得到划分图像中运动像素点与背景像素点的划分阈值，然后根据该阈值对每个采样图像块进行判断，筛选出包含运动事件的采样图像块，将那些只包含有背景信息的采样块剔除不予考虑。

步骤S104：深度特征提取。在得到只包含有运动信息的采样图像块之后，将这些视频采样图像块输入到3层PCANet中，来进行参数训练；在深度网络训练完毕之后，再一次将图像块输入到训练好的深度网络当中，网络对于每个采样图像块输出与之对应的深度特征。

步骤S105：动态聚类建模。对于深度特征向量集合，首先将特征向量依次输入大小固定的字典集合当中，若集合数量超过上界，则将最接近的两个特征向量进行合并以维持总数不变；维护好之后，对字典集合运用K均值算法进行聚类操作，输出对应的事件簇码本。

步骤S106：模型构建完毕之后，输入测试视频，对测试视频的每帧图像进行采样并进行运动区域判断，然后将采样图像输入到训练好的PCANet中输出对应的深度特征，最后将特征向量与事件簇码本进行比较，若与所有的码本的距离均大于各自的阈值，就判定为是异常事件。

本发明的有益效果：

1.本发明运用深度学习网络来对采样块进行深度特征提取，与传统的运用人工构造特征相比，深度特征对于视频场景的鲁棒性更好，且不需要花时间对某一特定场景做特征选取实验来决定运用哪一种特征对场景中的运动进行描述。

2.本发明在模型构建阶段，维护大小固定的字典集合中，运用两个向量相向合并的方法来代替简单的加权相加，有效的避免了因相加而导致的特征向量发生偏移，提高了异常事件检测率。

3.本发明在特征提取之前，加入了运动区域筛选过程，剔除掉无用的背景信息，只对包含有显著运动的采样块进行后续计算，不仅提高了算法检测速度，而且在稀疏场景下提高了异常事件检测率。

附图说明

图1为本发明进行监控视频下的异常事件检测的流程图；

图2为本发明进行监控视频下的异常事件检测的示意图；

图3为重叠采样流程图；

图4为运动区域筛选流程图；

图5为深度特征提取流程图；

图6为动态聚类建模流程图；

图7为异常事件检测流程图；

图8为相邻采样块位置示意图；

图9为本发明最终结果图。

具体实施方式

下面结合附图，对本发明的具体实施方案作进一步详细描述。如图1-9所示，其具体步骤描述如下：

步骤S101：图像预处理。

输入视频流I_in，对I_in进行灰度化并使用高斯滤波进行降噪处理。高斯滤波降噪处理的具体操作如下：用一个3×3的高斯卷积核扫描视频帧中的每一个像素，用该卷积确定的领域内像素的加权平均灰度值去替代卷积中心像素点的值，输出经过处理之后的视频流I。

步骤S102：重叠采样。

输入经过处理的视频流I，首先计算视频流I当中每一帧图像的每一个像素点的光流值，并用像素点的光流值替换掉灰度值，然后对I进行大小固定的重叠采样，输出大小相同且固定的视频采样图像块集合Cell。参见图3，具体过程如下：

步骤S301：拟合前一帧视频图像。输入I中相邻两个图像帧中的前一帧，对于相邻连续的两个视频帧中的前一帧，对帧中的每个像素点的邻域使用一个多项式来近似进行表达

其中A为对称矩阵，b为向量，c为标量，其值可以通过加权最小二乘法进行拟合求得，输出对该帧图像的拟合多项式f₁(x)。

步骤S302：拟合后一帧视频图像。输入I中相邻两个图像帧中的后一帧，对于相邻帧中的后一帧，运用同样的方法进行近似表达

并通过加权最小二乘法求得多项式参数，输出该帧图像的拟合多项式f₂(x)。

步骤S303：前后表达式关联求解。输入相邻两帧图像的拟合多项式f₁(x)和f₂(x)，由于两个多项式表示的是视频图像中相邻的连续两帧图像，所以它们之间存在着运动相关性，设两帧之间像素点的位移为d，则有

其中

A₂＝A₁

b₂＝b₁-2A₁d

再将位移d定义为关于x的函数，将对应的A和b定义为

可得像素点x的位移为

d(x)＝A^-1(x)Δb(x)

输出前一帧图像中每个像素点的位移d(x)。

步骤S304：像素点灰度值替换。输入视频流I以及每一帧图像所对应的位移d(x)，在求得视频流I中的每帧每个像素点的光流值之后，对于每个像素点，用该像素点的光流值替换掉原先的灰度值，输出对应的经过替换之后的视频流I_out。

步骤S305：重叠采样。输入替换完毕之后的视频流I_out，从第一帧图像的第一个像素点开始，依次进行大小为N×N，重叠率为θ的重复采样，输出大小相同且固定的视频采样图像块集合Cell。其中N为空间维度上的采样大小，其值根据图像大小而定，一般情况下取N＝24，重复率θ＝0.5，即按照上述参数在采样过程中空间维度每隔12个像素点进行一次采样。

步骤S103：运动区域筛选。

经过步骤S102之后，本阶段输入大小相同且固定的视频采样图像块集合Cell，然而由于是重叠全局采样，所以在一些采样块当中仅仅只包含有背景信息，而不含有任何运动信息，所以本阶段我们对采样块进行筛选，剔除掉那些只包含有背景信息的采样块，输出包含有运动信息的采样块集合Cell_out。参见图4，具体过程如下：

步骤S401：设定划分阈值。输入采样图像块集合Cell。对集合中所有采样块中的所有像素点的光流向量值进行直方图双峰统计，从0开始按照每隔δ为一个区间的方法，将所有像素点的光流值按照大小，在相应的区间中进行计数统计，得到对应的统计直方图，一般情况下δ＝0.025。

计数统计完毕之后，得到对应的统计直方图，首先从小到大扫描直方图找到第一个波峰的位置，然后从大到小扫描直方图找到第二个波峰的位置，最后在两个波峰之间找到波谷的位置，将该波谷所对应的统计区间的中间数作为划分阈值ξ，输出该划分阈值ξ。

步骤S402：采样块运动区域判定。输入划分阈值ξ及采样图像块集合Cell，在得到划分阈值之后，接下来对每一个采样块进行筛选，若采样块中的像素点的光流向量大小大于阈值ξ，则认为该像素点所表示的是运动区域，定义为活跃像素点；若整个采样块中活跃像素点的占比大于P，就认为该采样块表示的是运动区域，否则认定为是背景采样块予以剔除，一般情况下P＝20％，最后输出包含有运动信息的采样块集合Cell_out。

步骤S104：深度特征提取。

经过步骤S103的处理，所剩下来的采样块图像中均存在运动事件。本阶段输入包含有运动信息的采样块集合Cell_out，首先运用这些采样图像来训练一个3层的深度学习网络PCANet；然后再通过训练好的深度网络，来提取对应采样图像的深度特征，输出训练好的网络模型Net以及采样块集合对应的特征集合v。参见图5，具体过程如下：

步骤S501：网络第一层学习。输入采样图像块集合Cell_out，深度网络的第一层设有L₁个滤波器来对输入图像进行滤波。对于大小为N×N的采样图像，首先对其进行大小为k₁×k₂的密集采样，一般取k₁＝k₂＝5，并将每个采样重新排列成一个列向量x_i，那么对于所有的视频采样块，可以得到一个采样向量矩阵X。

然后对矩阵X进行主成分分析，取前L₁个最大特征值所对应的特征向量作为滤波器，将其重新排列成k₁×k₂大小的矩阵。对于每一个滤波器，用它来对输入的图像进行滤波，那么每一张输入的采样图像可以转化成L₁张滤波图像

一般情况下L₁＝4，输出与采样图像相对应的滤波图像I^l。

步骤S502：网络第二层学习。输入第一层滤波图像I^l，在网络的第二层中设有L₂个滤波器，一般L₂＝4。与步骤S501相同，在第二层中首先对所有图像进行大小为k₁×k₂的密集采样并列向量化，得到采样向量矩阵X；然后对该矩阵进行主成分分析，选取前L₂个最大特征值对应的特征向量作为滤波器，并用其对图像进行滤波。

由于输入的光流图像经过第一层之后输出有L₁张滤波图像，所以一张图像在经过深度网络的前两层之后，输出为L₁×L₂张滤波图像

以及训练好的深度网络Net，其中每一个O^l中对应有L₂张滤波图像。

步骤S503：深度特征输出。输入第二层滤波图像

第三层为网络的输出层，对于第二层输出的滤波图像，首先对其进行二值化处理，使得结果中只包含有整数和零。对于每一个图像集合

可以将其转化成一个整数矩阵T^l

其中H(*)为类单位阶跃函数

经过上述处理，每个像素点都被编码成[0,16)之间的整数。在得到整数矩阵T^l之后，再对该矩阵进行直方图统计，得到一个16维的直方图统计向量。

对于所有共L₁个图像集合O^l，可以得到L₁个统计向量，将这些统计向量进行级联操作，输出维度为

的深度特征向量。

步骤S105：动态聚类建模。

经过步骤S104得到了所有采样图像所对应的深度特征。本阶段输入采样图像块的深度特征向量集合v，对于深度特征集合，通过一个两层聚类模型对其进行建模，输出事件簇码本c以及每个码本的最大类内距离d。参见图6，具体过程如下：

步骤S601：字典集合初始化。首先定义一个大小固定为N的空字典集合，然后将所有采样块的深度特征向量逐一加入到这个字典集合当中，并对字典集合中的每一个向量v进行计数ω(v)，一般情况下N＝200。

步骤S602：逐一加入特征向量。输入深度特征向量集合v，将v中的特征向量依次加入到字典集合当中，在加入的过程中，对于每一个新加入的特征向量，如果加入之后字典集合中的向量数量≤N，则直接加入，对应的新加入向量的计数值ω(v)＝1；若＝N+1，则需要对字典集合中的向量进行合并，使得字典集合中的向量总数维持N不变。

步骤S603：向量合并。输入待合并的字典集合，若需要进行向量合并，我们选取字典集合中欧氏距离最小的两个向量v_a＝[x_1a,x_2a,…,x_na]和v_b＝[x_1b,x_2b,…,x_nb]进行合并。在合并过程中，我们将ω(*)值小的向量合并到ω(*)值大的向量当中，这里假设ω(v_a)≥ω(v_b)，将向量v_b合并到v_a当中去。

对于待合并向量的每一维，比较两个向量在该维度上的取值，按照两者之间的取值大小来进行向量合并，设新向量为v＝[x₁,x₂,…,x_n]，则有

x_i＝(1-α)x_ia+α×sign(x_ia,x_ib)×x_ib

并且在合并过程中，合并之后的新向量的计数值ω(v)为

ω(v)＝ω(v_a)+ω(v_b)

并将合并之后总数保持为N的字典集合输出。

步骤S604：码本聚类。输入维护完成之后的字典集合，在将所有深度特征向量依次加入到字典集合之后，最终只剩下N个经过合并之后的向量。对于这N个向量，再运用K均值算法对其进行聚类，将其聚类成k个事件簇码本，每个类代表视频中的一种运动事件，并记录下输出各个事件类中聚类中心与类内向量的最大距离d，其中取k＝16。

步骤S106：异常事件检测。

步骤S105将输入算法的训练数据集转化成了相应的模型，并生成了对应的事件簇码本，每个码本代表了训练视频中的一类运动事件。在本阶段，算法将对输入的测试视频进行异常事件检测，输出经过检测标注之后的视频流，参见图7，具体过程如下：

步骤S701：计算运动事件出现概率。在步骤S105当中，经过K均值聚类，可以得到每个事件簇码本的中心向量，以及该事件簇的最大类内距离。那么对于每个中心向量c_i，定义该事件簇的ω(*)值为所有属于该类的向量的ω(*)值之和。

在得到每个事件簇的计数值ω(*)之后，将计数值转化成对应的出现概率p(c_i)

表示该事件簇码本所对应的运动事件，在训练视频中出现的概率是多少。

步骤S702：测试视频特征提取。计算完概率之后，对于输入的测试视频，首先按照步骤S101进行图像预处理；然后按照步骤S102进行采样，得到一系列的采样块；再安装步骤S103的方法进行运动区域筛选，剔除掉那些只包含有背景信息的采样块，只对包含有运动事件的采样块进行异常判断；筛选完毕之后，对于那些包含有运动信息的采样块，将采样块图像输入到训练好的PCANet网络当中，运用训练好的PCANet网络来生成相应的深度特征向量，输出对应的测试特征向量。

步骤S703：异常事件检测。输入测试特征向量，在得到测试采样块的深度特征向量之后，再对其进行异常判断。对于任意一个测试特征向量v，将其与所有事件簇的中心向量c_i进行逐一比较，如果向量v与其中某一个中心向量c_i之间的欧氏距离小于其对应的最大类内距离d_i，就认为该采样块所对应的运动是正常的，并转到步骤S705；如果向量v与所有c_i之间的欧氏距离均大于各自的d_i，就判定为是异常的，并转到步骤S704。

步骤S704：二次检测。输入被判定为异常的采样块，对于那些被判定为是异常的视频图像采样块，为了消除掉噪声对检测的干扰，对其进行二次检测。对于每一个异常采样块，判断空间及时间维度上与之相邻的采样块(参见图8)，如果其周围同时拥有M个以上的异常采样块，就将其认定为是异常的；否则重新将该采样块划分为正常的，一般情况下M＝2。

步骤S705：在线更新。输入测试特征向量，在异常判断结束之后，需要将该测试采样块的深度特征向量更新到事件簇码本当中去，使得码本能够随着检测的深入逐渐学习视频中新出现的运动事件。为此需要将测试向量运用步骤S105的方法重新对事件簇码本进行更新。

Claims

1.基于深度学习和动态聚类的监控视频异常事件检测方法，运用PCANet自动对视频采样图像块进行深度特征提取，同时对采样图像块进行运动区域筛选，并采用一个基于向量合并的两层聚类模型来对特征集合进行聚类建模，其特征在于包括如下步骤：

步骤1：图像预处理；读取监控视频流作为输入，进行灰度化并使用高斯滤波进行降噪处理；

步骤2：重叠采样；对输入的视频流，首先计算出中每一帧图像中每一个像素点的光流值，并用像素点光流值替换掉灰度值；然后对视频流进行大小固定的重叠采样，输出一系列大小为N×N的视频采样图像块；

步骤3：运动区域筛选；对于采样得到的所有视频采样图像块，首先运用直方图双峰法统计得到划分图像中运动像素点与背景像素点的划分阈值，然后根据该阈值对每个采样图像块进行判断，筛选出包含运动事件的采样图像块，将那些只包含有背景信息的采样图像块剔除不予考虑；

步骤4：深度特征提取；在得到只包含有运动信息的采样图像块之后，将这些视频采样图像块输入到3层PCANet中，来进行参数训练；在深度网络训练完毕之后，再一次将图像块输入到训练好的深度网络当中，网络对于每个采样图像块输出与之对应的深度特征；

步骤5：动态聚类建模；对于深度特征向量集合，首先将特征向量依次输入大小固定的字典集合当中，若集合数量超过上界，则将最接近的两个特征向量进行合并以维持总数不变；维护好之后，对字典集合运用K均值算法进行聚类操作，输出对应的事件簇码本；

步骤6：模型构建完毕之后，输入测试视频，对测试品是的每帧图像进行采样并进行运动区域判断，然后将采样图像输入到训练好的PCANet中输出对应的深度特征，最后将特征向量与事件簇码本进行比较，若与所有的码本的距离均大于各自的阈值，就判定为是异常事件。

2.根据权利要求1所述的基于深度学习和动态聚类的监控视频异常事件检测方法，其特征在于步骤2所述的重叠采样，具体如下：

步骤2-1：拟合前一帧视频图像；输入视频流I中相邻两个图像帧中的前一帧，对于相邻连续的两个视频帧中的前一帧，对帧中的每个像素点的邻域使用一个多项式来近似进行表达

其中A为对称矩阵，b为向量，c为标量，其值可以通过加权最小二乘法进行拟合求得，输出对该帧图像的拟合多项式f₁(x)；

步骤2-2：拟合后一帧视频图像；输入视频流I中相邻两个图像帧中的后一帧，对于相邻帧中的后一帧，运用同样的方法进行近似表达

并通过加权最小二乘法求得多项式参数，输出该帧图像的拟合多项式f₂(x)；

步骤2-3：前后表达式关联求解；输入相邻两帧图像的拟合多项式f₁(x)和f₂(x)，由于两个多项式表示的是视频图像中相邻的连续两帧图像，所以它们之间存在着运动相关性，设两帧之间像素点的位移为d，则有

其中

A₂＝A₁

b₂＝b₁-2A₁d

再将位移d定义为关于x的函数，将对应的A和b定义为

可得像素点x的位移为

d(x)＝A^-1(x)Δb(x)

输出前一帧图像中每个像素点的位移d(x)；

步骤2-4：像素点灰度值替换；输入视频流I以及每一帧图像所对应的位移d(x)，在求得视频流I中的每帧每个像素点的光流值之后，对于每个像素点，用该像素点的光流值替换掉原先的灰度值，输出对应的经过替换之后的视频流I_out；

步骤2-5：重叠采样；输入替换完毕之后的视频流I_out，从第一帧图像的第一个像素点开始，依次进行大小为N×N，重叠率为θ的重复采样，输出大小相同且固定的视频采样图像块集合Cell；其中N为空间维度上的采样大小，其值根据图像大小而定，N＝24，重复率θ＝0.5，即按照上述参数在采样过程中空间维度每隔12个像素点进行一次采样。

3.根据权利要求1所述的基于深度学习和动态聚类的监控视频异常事件检测方法，其特征在于步骤3所述的运动区域筛选，具体如下：

步骤3-1：设定划分阈值；输入采样图像块集合Cell；对集合中所有采样图像块中的所有像素点的光流向量值进行直方图双峰统计，从0开始按照每隔δ为一个区间的方法，将所有像素点的光流向量值按照大小，在相应的区间中进行计数统计，得到对应的统计直方图，δ＝0.025；

计数统计完毕之后，得到对应的统计直方图，首先从小到大扫描直方图找到第一个波峰的位置，然后从大到小扫描直方图找到第二个波峰的位置，最后在两个波峰之间找到波谷的位置，将该波谷所对应的统计区间的中间数作为划分阈值ξ，输出该划分阈值ξ；

步骤3-2：采样图像块运动区域判定；输入划分阈值ξ及采样图像块集合Cell，在得到划分阈值之后，接下来对每一个采样图像块进行筛选，若采样图像块中的像素点的光流向量值大小大于阈值ξ，则认为该像素点所表示的是运动区域，定义为活跃像素点；若整个采样图像块中活跃像素点的占比大于P，就认为该采样图像块表示的是运动区域，否则认定为是背景采样图像块予以剔除，取P＝20％，最后输出包含有运动信息的采样图像块集合Cell_out。

4.根据权利要求1所述的基于深度学习和动态聚类的监控视频异常事件检测方法，其特征在于步骤4所述的深度特征提取，具体如下：

步骤4-1：网络第一层学习；输入采样图像块集合Cell_out，深度网络的第一层设有L₁个滤波器来对输入图像进行滤波；对于大小为N×N的采样图像，首先对其进行大小为k₁×k₂的密集采样，取k₁＝k₂＝5，并将每个采样重新排列成一个列向量x_i，那么对于所有的视频采样图像块，从而得到一个采样向量矩阵X；

然后对矩阵X进行主成分分析，取前L₁个最大特征值所对应的特征向量作为滤波器，将其重新排列成k₁×k₂大小的矩阵；对于每一个滤波器，用它来对输入的图像进行滤波，那么每一张输入的采样图像可以转化成L₁张滤波图像

L₁＝4，输出与采样图像相对应的滤波图像I^l；

步骤4-2：网络第二层学习；输入第一层滤波图像I^l，在网络的第二层中设有L₂个滤波器，取L₂＝4；在第二层中首先对所有图像进行大小为k₁×k₂的密集采样并列向量化，得到采样向量矩阵X；然后对该矩阵进行主成分分析，选取前L₂个最大特征值对应的特征向量作为滤波器，并用其对图像进行滤波；

以及训练好的深度网络Net，其中每一个O^l中对应有L₂张滤波图像；

步骤4-3：深度特征输出；输入第二层滤波图像

第三层为网络的输出层，对于第二层输出的滤波图像，首先对其进行二值化处理，使得结果中只包含有整数和零；对于每一个图像集合

可以将其转化成一个整数矩阵T^l

其中H(*)为类单位阶跃函数

经过上述处理，每个像素点都被编码成[0,16)之间的整数；在得到整数矩阵T^l之后，再对该矩阵进行直方图统计，得到一个16维的直方图统计向量；

的深度特征向量。

5.根据权利要求1所述的基于深度学习和动态聚类的监控视频异常事件检测方法，其特征在于步骤5所述的动态聚类建模，具体如下：

步骤5-1：字典集合初始化；首先定义一个大小固定为N的空字典集合，然后将所有采样图像块的深度特征向量逐一加入到这个字典集合当中，并对字典集合中的每一个向量v进行计数ω(v)，N＝200；

步骤5-2：逐一加入特征向量；输入深度特征向量集合v，将v中的特征向量依次加入到字典集合当中，在加入的过程中，对于每一个新加入的特征向量，如果加入之后字典集合中的向量数量≤N，则直接加入，对应的新加入向量的计数值ω(v)＝1；若＝N+1，则需要对字典集合中的向量进行合并，使得字典集合中的向量总数维持N不变；

步骤5-3：向量合并；输入待合并的字典集合，若需要进行向量合并，选取字典集合中欧氏距离最小的两个向量v_a＝[x_1a,x_2a,…,x_na]和v_b＝[x_1b,x_2b,…,x_nb]进行合并；在合并过程中，将ω(*)值小的向量合并到ω(*)值大的向量当中，这里假设ω(v_a)≥ω(v_b)，将向量v_b合并到v_a当中去；

x_i＝(1-α)x_ia+α×sign(x_ia,x_ib)×x_ib

并且在合并过程中，合并之后的新向量的计数值ω(v)为

ω(v)＝ω(v_a)+ω(v_b)

并将合并之后总数保持为N的字典集合输出；

步骤5-4：码本聚类；输入维护完成之后的字典集合，在将所有深度特征向量依次加入到字典集合之后，最终只剩下N个经过合并之后的向量；对于这N个向量，再运用K均值算法对其进行聚类，将其聚类成k个事件簇码本，每个类代表视频中的一种运动事件，并记录下输出各个事件类中聚类中心与类内向量的最大距离d，其中取k＝16。

6.根据权利要求1所述的基于深度学习和动态聚类的监控视频异常事件检测方法，其特征在于步骤6所述的异常事件检测，具体如下：

步骤6-1：计算运动事件出现概率；在步骤S105当中，经过K均值聚类，可以得到每个事件簇码本的中心向量，以及该事件簇的最大类内距离；那么对于每个中心向量c_i，定义该事件簇的ω(*)值为所有属于该类的向量的ω(*)值之和；

表示该事件簇码本所对应的运动事件，在训练视频中出现的概率是多少；

步骤6-2：测试视频特征提取；计算完概率之后，对于输入的测试视频，首先按照步骤1进行图像预处理；然后按照步骤2进行采样，得到一系列的采样图像块；再根据步骤3进行运动区域筛选，剔除掉那些只包含有背景信息的采样图像块，只对包含有运动事件的采样图像块进行异常判断；筛选完毕之后，对于那些包含有运动信息的采样图像块，将采样图像块图像输入到训练好的PCANet网络当中，运用训练好的PCANet网络来生成相应的深度特征向量，输出对应的测试特征向量；

步骤6-3：异常事件检测；输入测试特征向量，在得到测试采样图像块的深度特征向量之后，再对其进行异常判断；对于任意一个测试特征向量v，将其与所有事件簇的中心向量c_i进行逐一比较，如果向量v与其中某一个中心向量c_i之间的欧氏距离小于其对应的最大类内距离d_i，就认为该采样图像块所对应的运动是正常的，并转到步骤6-5；如果向量v与所有c_i之间的欧氏距离均大于各自的d_i，就判定为是异常的，并转到步骤6-4；

步骤6-4：二次检测；输入被判定为异常的采样图像块，对于那些被判定为是异常的视频图像采样图像块，为了消除掉噪声对检测的干扰，对其进行二次检测；对于每一个异常采样图像块，判断空间及时间维度上与之相邻的采样图像块，如果其周围同时拥有M个以上的异常采样图像块，就将其认定为是异常的；否则重新将该采样图像块划分为正常的，M＝2；

步骤6-5：在线更新；输入测试特征向量，在异常判断结束之后，需要将该测试采样图像块的深度特征向量更新到事件簇码本当中去，使得码本能够随着检测的深入逐渐学习视频中新出现的运动事件；为此需要将测试向量运用步骤5的方法重新对事件簇码本进行更新。