CN111814644B

CN111814644B - 一种基于扰动视觉解释的视频异常事件检测方法

Info

Publication number: CN111814644B
Application number: CN202010619232.0A
Authority: CN
Inventors: 丰江帆; 张莉; 梁渝坤; 熊伟
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2022-05-03
Anticipated expiration: 2040-07-01
Also published as: CN111814644A

Abstract

本发明属于计算机视觉和模式识别领域，具体涉及一种基于扰动视觉解释的视频异常事件检测方法，包括：获取视频数据集，将数据集输入到优化的深度学习模型中进行模型训练；实时获取视频数据，将获取的数据输入到训练好的深度学习模型中，得到检测结果以及解释图；本发明在构建深度学习模型中加入了可解释模型，通过可解释模型提取了输入视频中的重要像素以及重要区域，使得深度学习模型在处理视频数据过程中的更明确，增强了检测结果的可信度。

Description

一种基于扰动视觉解释的视频异常事件检测方法

技术领域

本发明属于计算机视觉和模式识别领域，具体涉及一种基于扰动视觉解释的视频异常事件检测方法。

背景技术

随着计算机科学技术的发展，利用图像处理、计算机视觉、机器学习等技术可以突破传统视频监控系统的局限性，实现对视频监控系统的视频智能分析和异常事件的主动检测和实时预警，对于公共安全领域的视频监控应用有重要价值。

通过设定标签，计算机可以完成“正常事件”与“异常事件”的判别。视频的异常事件检测根据其对标签的选择可以分为三种类型：全监督、半监督、无监督。全监督模型为必须在检测前已知正常事件和异常事件的标签，通过建立二分类器完成检测划分。半监督模型为仅需已知正常事件的标签，训练正常事件的模型，而异常事件无法通过此模型生成。无监督模型为不需要知道任何标签，仅仅通过正常事件比异常事件更普通这一特性进行模型的迭代，并进行事件是否异常的判断。目前，已经有一些方法使用无监督步骤来检测视频中的异常事件。如Yong等人在2017发表了“Abnormal event detection in videos usingspatiotemporal autoencoder”，提出了时空自编码器的模型，该模型对正常模式进行训练，通过输入帧与重建帧之间的重构误差来判断是否异常。Lin Wang等人在2018年发表了“Abnormal event detection in videos using spatio-temporal autoencoder”,探索了一种混合自编码器结构，它不仅能提取出更好的时空上下文，而且还能通过快捷连接提高相应解码器的推断能力。2019年CVPR会议上，Radu等人提出“Object-centric auto-encoders and dummy anomalies for abnormal event detection in video”,通过一个基于以对象为中心的卷积自动编码器的无监督特征学习框架来对运动和外观信息进行编码。

但是目前使用无监督模型进行异常事件检测的算法中，由于采用CNNs的黑盒特性，使得模型缺乏解释性，导致了检测结果的可信度低，检测性能差。

发明内容

为解决以上现有技术的问题，本发明提出了一种基于扰动视觉解释的视频异常事件检测方法，包括：获取视频数据集，将数据集输入到优化的深度学习模型中进行模型训练；实时获取视频数据，将获取的数据输入到训练好的深度学习模型中，得到检测结果；

所述模型训练的过程包括：将训练集的数据进行预处理，并将处理好的数据集输入到空间编码器中学习每个视频帧的空间结构；将空间编码器处理后的数据输入到时间自编码中学习空间结构的时间模式，得到特征图；采用删除解释和保留解释方法对特征图进行处理得到解释图；将特征图输入到解码器中进行反卷积操作，得到重建帧；根据输入帧和重建帧计算输入图像的规律性分数；将得到的规律性分数进行划分，得到视频异常与视频正常的分类，完成模型训练。

优选的，所述深度学习模型包括编码器和解码器；所述编码器包括由三个卷积层组成空间编码器以及由三层卷积长短时记忆模型组成的时间自编码器；解码器为三层反卷积层组成的空间自编码器。

优选的，所述长短时记忆模型为：

f_t＝σ(W_XF*X_t+W_HF*h_t-1+W_CFoC_t-1+b_F)

i_t＝σ(W_XI*X_t+W_HI*h_t-1+W_CIoC_t-1+b_I)

C_t＝f_toC_t-1+i_t·tanh(W_XC*X_t+W_HC*h_t-1+b_c)

O_t＝σ(W_XO*X_t+W_HO*h_t-1+W_COoC_t+b_o)

h_t＝O_to tanh(C_t)

优选的，得到解释图的过程包括：计算输入视频帧的掩码；将输入视频帧与计算得到的掩码相乘，得到解释图

即

对解释图进行优化处理。

优选的，计算掩码的过程包括：输入特征图像x，通过移除与目标类C_T相关或不相关的像素点得到掩码

保留解释的掩码为：

删除解释的掩码为：

优选的，采用神经网络模型对解释图进行优化处理：所述对解释图进行优化处理包括在模型的所有非线性层之后增加约束，在进行约束后，采用调整公式对解释图进行调整，得到优化后的解释图；所述约束为：

其中，

表示对网络中第1层的第i神经元的非线性层进行激活后的激活函数；

所述调整公式对解释图进行调整的过程包括：

优选的，计算输入图像的规律性分数包括：计算输入视频序列中第t帧中的一个像素强度值I在位置(x，y)的重构误差e(x，y，t)；根据重构误差计算视频序列中输入帧与重建帧的欧氏距离e(t)；根据欧氏距离计算输入视频的异常分数S_a(t)与规律性分数S_r(t)。

优选的，计算异常分数S_a(t)与规律性分数S_r(t)的公式包括：

S_r(t)＝1-S_a(t)

本发明在构建深度学习模型中加入了可解释模型，通过可解释模型提取了输入视频中的重要像素以及重要区域，使得深度学习模型在处理视频数据过程中的更明确，增强了检测结果的可信度。

附图说明

图1为本发明的总体流程图；

图2为本发明的构建深度学习模型的总体结构图；

图3为本发明的视频数据中的异常检测流程图；

图4为本发明的网络架构图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于扰动视觉解释的视频异常事件检测方法，如图1所示，包括：获取视频数据集，将数据集输入到优化的深度学习模型中进行模型训练；实时获取视频数据，将获取的数据输入到训练好的深度学习模型中，得到检测结果以及解释图。

如图4所示，本发明的深度学习模型包括编码器和解码器；所述编码器包括空间编码器和时间自编码器；解码器为空间自编码器。

空间编码器由三个卷积层组成；第一层卷积层有128个滤波器，尺寸为11*11，步长为3；第二层卷积层有64个滤波器，尺寸为3*3，步长为2；第三层卷积层有32个滤波器，尺寸为5*5，步长为1。

时间编码器为三层卷积长短时记忆模型；第一层ConvLSTM有64个滤波器，尺寸为5*5；第二层ConvLSTM有32个滤波器，尺寸为5*5；第三层ConvLSTM有64个滤波器，尺寸为5*5。

空间自编码器由三层反卷积层构成；第一层反卷积层有64个滤波器，尺寸为5*5，步长为1；第二层反卷积层有128个滤波器，尺寸为3*3，步长为2；第三层反卷积层有1个滤波器，尺寸为11*11，步长为3。

如图2所示，将训练集中的数据输入到深度学习模型中进行训练的过程中，需要对原始的数据集进行预处理，其过程包括：从原始视频中提取出每一帧并将大小调整为228*228。为了保证输入的图像都在相同的尺度上，将像素值按照0-1的比例缩放，并从全局均值图像中减去每一帧，并进行归一化处理。由于该模型的参数数量较大，需要大量的训练数据，在时间维度上执行数据扩充以增加训练数据集的大小。视频卷作为该模型的输入，其中每个视频卷由10个连续的视频帧和跳过各种步长的视频帧组成。

深度学习模型中包含长短时记忆模型，其中ConvLSTM单元处理的过程包括：

f_t＝σ(W_XF*X_t+W_HF*h_t-1+W_CFoC_t-1+b_F)

其中，f_t为遗忘门的输出值，其决定从存储单元中删除或遗忘一部分信息，h_t-1为上一时刻的输出值，X_t为当前的输入值，W_XF表示输入数据时遗忘门的权重矩阵，W_HF表示上一时刻遗忘门的权重矩阵，W_CF表示在遗忘门中细胞过去状态单元的权重矩阵，b_F表示遗忘门的偏置向量，σ是激活函数sigmoid。

i_t＝σ(W_XI*X_t+W_HI*h_t-1+W_CIoC_t-1+b_I)

此式用来计算输入门的i_t值，以此决定更新多少信息，输出为0-1之间的某个值；

其中，i_t表示输入门，W_XI表示输入数据时输入门的权重矩阵，W_HI表示上一时刻输入门的权重矩阵，W_CI表示在输入门中细胞过去状态单元的权重矩阵，o表示Hadamard乘积，C_t-1表示过去状态单元，b_I表示输入门的偏置向量。

C_t＝f_toC_t-1+i_t·tanh(W_XC*X_t+W_HC*h_t-1+b_c)

此式用来更新细胞状态，旧的细胞状态C_t-1与遗忘门输出值f_t相乘，输出更新的后选值表达式与输入门i_t相乘，二者相加得到新的细胞状态C_t；

其中，C_t表示细胞更新状态单元，tanh(.)表示tanh激活函数，W_XC表示输入数据时输入门的权重矩阵，W_HC表示上一时刻细胞更新状态单元的权重矩阵，b_c表示长期记忆偏置向量。

O_t＝σ(W_XO*X_t+W_HO*h_t-1+W_COoC_t+b_o)

此式用来计算输出门的值O_t，它决定多大比例的记忆用于输出；

其中，W_XO表示输入数据时输出门的权重矩阵，W_HO表示上一时刻输出门的权重矩阵，W_CO表示输出门中细胞过去状态单元的权重矩阵，b_o表示输出门的偏置向量。

h_t＝O_to tanh(C_t)

使用双曲正切函数更新C_t值，使其处于-1～1之间，将输出值O_t。其中，h_t表示当前时刻短时记忆模型的输出值。

如图3所示，进行深度学习模型训练的过程包括：将训练集的数据进行预处理，并将处理好的数据集输入到空间编码器中学习每个视频帧的空间结构；将经过空间编码器的数据集输入到时间自编码器中，得到所编码空间结构的时间模式，并得到特征图；根据特征图求出输入视频的解释图；将特征图输入到解码器中进行反卷积操作，得到重构图；根据输入图和重构图计算输入图像的规律性分数；将得到的规律性分数进行划分，得到视频异常与视频正常的分类，完成模型训练。

得到解释图的过程包括：计算特征图的掩码；将输入视频帧与计算得到的掩码相乘，得到解释图

即

其中，

表示掩码，x表示输入视频帧。

所述计算掩码的过程包括：给定一个输入图像x，通过移除与目标类C_T相关或不相关的像素点得到掩码

由于在计算掩码过程中无法在不替换信息的情况下删除信息，因此采用近似删除符对信息进行删除；

通过Φ操作计算图像x和0值图像r之间的加权平均：

其中，

表示解释图，

表示初始化掩码。

H表示高度，W表示宽度；通过对计算图像x和0值图像r进行平均加权处理，使得不相关的像素被置为0而没有被其他像素结构替代，从而产生可视化解释。

是一个相似性矩阵，用来度量将解释图输入模型后输出的

和将原始图像输入模型后输出的

之间的一致性。

保留解释定义为：

删除解释定义为：

其中，

表示掩码，C_T表示目标类，

表示取最小值，

表示相似性度量，

表示原始图像输入模型后的输出，

表示解释图输入模型后的输出，λ表示系数，

表示初始化掩码，||·||₁表示在保留解释中表示最小化，在删除解释中表示最大化，

表示取最大值。

CNN中的一个神经元要想被解释图激活，那么他必须能被原始图像x激活，这样就保证了解释图是x的一个子集，在模型的所有非线性层之后增加约束：

其中

是网络中第1层的第i神经元在非线性计算后的结果。为了求解满足上述的约束问题，在网络中每个非线性计算后增加一个额外的计算：

其中，

表示调整后的解释图激活，

表示原始解释图的激活，

表示原始图像的激活，e_CT表示解释图，bu表示激活函数的上边界值，bl表示激活函数的下边界值。

上述的梯度裁剪法不增加超参数，在前向传递中保持模型的原始结构，同时支持细粒度解释。

当模型被训练后，计算视频序列第t帧中一个像素的强度值I在位置(x，y)处的重构误差如下：

e(x，y，t)＝||I(x，y，t)-fw(I(x，y，t))||₂

其中，fw为时空模型的学习权值。根据重构误差计算视频序列的输入帧与重建帧之间的欧氏距离e(t)：

e(t)＝||x(t)-fw(x(t))||₂

通过0和1之间的比例计算异常分数S_a(t)。从1中减去异常分数，得到规律性分数S_r(t)：

S_r(t)＝1-S_a(t)

其中，e(t)表示输入视频中的输入帧与重建帧之间的欧氏距离，e(t)_min表示模型训练过程中的最小欧氏距离，e(t)_max表示模型训练过程中的最大欧氏距离。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，包括：获取视频数据集，将数据集输入到优化的深度学习模型中进行模型训练；实时获取视频数据，将获取的数据输入到训练好的深度学习模型中，得到检测结果；

2.根据权利要求1所述的一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，所述深度学习模型包括编码器和解码器；所述编码器包括由三个卷积层组成空间编码器以及由三层卷积长短时记忆模型组成的时间自编码器；解码器为三层反卷积层组成的空间自编码器。

3.根据权利要求2所述的一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，所述长短时记忆模型为：

f_t＝σ(W_XF*X_t+W_HF*h_t-1+W_CFoC_t-1+b_F)

i_t＝σ(W_XI*X_t+W_HI*h_t-1+W_CIoC_t-1+b_I)

C_t＝f_toC_t-1+i_t·tanh(W_XC*X_t+W_HC*h_t-1+b_c)

O_t＝σ(W_XO*X_t+W_HO*h_t-1+W_COoC_t+b_o)

h_t＝O_totanh(C_t)

其中，i_t表示输入门，f_t表示遗忘门，C_t表示细胞更新状态单元，O_t表示输出门，h_t表示短期记忆，*代表卷积操作，o表示Hadamard乘积，σ表示sigmoid激活函数，tanh(.)表示tanh激活函数，C_t-1表示细胞过去状态单元，h_t-1表示上一时刻的输出值，X_t表示当前的输入值，W_XF表示输入数据时遗忘门的权重矩阵，W_HF表示上一时刻遗忘门的权重矩阵，W_CF表示在遗忘门中细胞过去状态单元的权重矩阵，b_F表示遗忘门的偏置向量，W_XI表示输入数据时输入门的权重矩阵，W_HI表示上一时刻输入门的权重矩阵，W_CI表示在输入门中细胞过去状态单元的权重矩阵，b_I表示输入门的偏置向量，W_XC表示输入数据时输入门的权重矩阵，W_HC表示上一时刻细胞更新状态单元的权重矩阵，b_c表示长期记忆偏置向量，W_XO表示输入数据时输出门的权重矩阵，W_HO表示上一时刻输出门的权重矩阵，W_CO表示输出门中细胞过去状态单元的权重矩阵，b_o表示输出门的偏置向量。

4.根据权利要求1所述的一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，得到解释图的过程包括：计算输入视频帧的掩码；将输入视频帧与计算得到的掩码相乘，得到解释图

即

对解释图进行优化处理；

其中，

表示掩码，x表示输入视频帧。

5.根据权利要求4所述的一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，计算掩码的过程包括：输入特征图像x，通过移除与目标类C_T相关或不相关的像素点得到掩码

保留解释的掩码为：

删除解释的掩码为：

其中，

表示掩码，C_T表示目标类，

表示取最小值，

表示取最大值，

表示相似性度量，

表示原始图像输入模型后的输出，

表示解释图输入模型后的输出，λ表示系数，

表示初始化掩码，

其中H表高度，W表示宽度，||.||₁表示在保留解释中表示最小化，在删除解释中表示最大化。

6.根据权利要求4所述的一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，所述对解释图进行优化处理包括在模型的所有非线性层之后增加约束，在进行约束后，采用调整公式对解释图进行调整，得到优化后的解释图。

7.根据权利要求6所述的所述一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，约束条件为：

其中，

表示对网络中第l层的第i神经元的非线性层进行激活后的激活函数；

所述调整公式对解释图进行调整的过程包括：

其中，

表示调整后的解释图激活，

表示原始解释图的激活，

8.根据权利要求1所述的一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，所述计算输入图像的规律性分数包括：计算输入视频序列中第t帧中的一个像素强度值I在位置(x,y)的重构误差e(x,y,t)；根据重构误差计算视频序列中输入帧与重建帧的欧氏距离e(t)；根据欧氏距离计算输入视频的异常分数S_a(t)与规律性分数S_r(t)。

9.根据权利要求8所述的一种基于扰动视觉解释的视频异常事件检测方法，其特征在于，所述计算异常分数S_a(t)与规律性分数S_r(t)的公式包括：

S_r(t)＝1-S_a(t)