CN113449660A

CN113449660A - 基于自注意增强的时空变分自编码网络的异常事件检测方法

Info

Publication number: CN113449660A
Application number: CN202110757097.0A
Authority: CN
Inventors: 赵明; 孔子豪; 苟超; 刘泽; 李森
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-09-28
Anticipated expiration: 2041-07-05
Also published as: CN113449660B

Abstract

一种基于自注意增强的时空变分自编码网络的异常事件检测方法，网络主要包括空间变分自编码器模块、自注意增强的Conv‑LSTM模块。首先对原始采集数据集进行预处理，构造模型训练数据集，搭建SST‑VAE模型；再设计异常得分函数，采用反向传播算法，利用数据集对SST‑VAE模型进行训练；再对视频进行异常事件检测，输出视频帧的异常得分；然后进行自适应阈值选择，评估模型性能；本发明避免了传统VAE中矢量化过程导致的信息丢失；有选择性、动态地调节输入的信息到隐藏的Conv‑LSTM表示中，充分利用视频的时空特征，改善信息流；在视频异常检测领域具有良好的应用前景。

Description

基于自注意增强的时空变分自编码网络的异常事件检测方法

技术领域

本发明涉及视频异常检测技术领域，具体涉及一种基于自注意增强的时空变分自编码网络的异常事件检测方法。

背景技术

近年来，由于智能视频监控系统(IVSS)能够实时自动检测犯罪、斗殴、交通事故、骚乱、踩踏等异常活动以及敏感地点的武器、遗弃物等异常实体，其被广泛应用于商场、医院、银行、街道、智慧城市等多种公共场所，用于保障公众的生命与财产安全。当IVSS的检测结果相比于同一场景下的其他检测结果有显著差异时，研究人员通常认为这个由不同机制产生的特定检测结果即可被称为对应于该场景下的异常。然而，由于异常的模糊性及罕见性、环境条件的多样性、行为的复杂性等不确定性因素，使得视频异常检测具有很大的挑战性。

由于上述挑战的存在，视频异常检测通常被定义为一种半监督学习技术，它通过使用仅依靠弱标记的正常视频实例训练的模型来检测视频中存在的异常活动或实体。而根据输入类型的不同，现有的无监督方法可以分为两类：基于手工特征的方法和基于深度特征的方法。其中，基于手工特征的方法通常依靠手工设计的各种特征描述符来检测视频中的异常事件，例如定向梯度直方图(HOG)和光流直方图(HOF)，然后再通过统计方法或稀疏编码方法学习的正常事件模型完成视频异常事件检测；然而，由于面临着高维特征处理复杂、设计描述符需要一定的先验知识以及手工制作的特征缺乏泛化能力等挑战，这类方法并不能满足日益增长的监控需求。

近年来，随着深度学习的迅速发展，视频异常检测领域中深度模型的应用也受到的研究人员的广泛关注。目前，常用于异常检测的模型有重构模型和预测模型；其中，重构模型是通过卷积自编码结构(CAE)重新生成输入图像，同时将具有较大重构误差的视频帧视为异常。然而，由于深度神经网络具有优秀的生成能力，正常事件和异常事件的重构误差差别很小，仅依靠重构误差不可能完全识别异常事件。幸运的是，预测模型可以在一定程度上缓解上述问题，在预测模型中，视频数据被视为一个时空信号，其特定的帧顺序提供了一个特定的模式，模型的目标是对条件分布P建模，利用过去帧预测当前帧；这类模型通常在CAE的基础上结合三维卷积(3D-Conv)或卷积长短时记忆(Conv-LSTM)等模块，使得该类模型能同时利用空间(外观)和时间(运动)特征，进一步提高检测效果。但是，往往随着预测视界的延长，Conv-LSTM的预测质量显著下降，导致大量模糊和运动物体消失，使得模型检测性能下降。另外，视频异常检测任务中常存在的数据稀缺和数据不平衡等问题，也会导致检测效果仍难以满足智能监控需求。

相比于上述对类别之间的决策边界进行建模的深度判别模型，近年提出的深度生成模型可以通过最大似然原则实现对每个类别的实际分布进行建模，从而有效的解决判别模型面临的数据稀缺和数据不平衡问题。目前，常用的深度生成模型有变分自编码器(VAE)、Adversarial AE、Weighted ConvolutionalAE–LSTM network等。VAE是一维矢量数据建模的一种重要的概率技术，在传统的VAE框架下，潜变量的一般假设是一维的独立多元高斯分布，因此，VAE模型在应用于二维视频图像时，需要潜变量进行矢量化处理(二维转为一维)。但不幸的是，矢量化过程会不可避免地破坏图像的固有结构，从而导致丢失重要的空间信息，难以完全利用深度生成模型的优势。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供了一种基于自注意增强的时空变分自编码网络的异常事件检测方法，避免了传统VAE中矢量化过程导致的信息丢失；有选择性、动态地调节输入的信息到隐藏的Conv-LSTM表示中，充分利用视频的时空特征，改善信息流；在视频异常检测领域具有良好的应用前景。

为实现上述目的，本发明所采用的技术方案是：

一种基于自注意增强的时空变分自编码网络的异常事件检测方法，包括空间变分自编码器(Spatial VAE)模块、自注意增强的Conv-LSTM模块(SAA Conv-LSTM)，空间变分自编码器(Spatial VAE)利用矩阵变量的高斯分布来直接对二维图像信号进行建模，描述了图像的空间结构和局部细节；SAAConv-LSTM是通过自注意机制来控制Conv-LSTM接收到的数据中哪些元素需要保存；模型完成训练，通过定义异常得分及确定自适应阈值来检测视频中的异常事件。

一种基于自注意增强的时空变分自编码网络的异常事件检测方法，包括以下步骤：

步骤1，对原始采集数据集进行预处理：通过尺寸调整、灰度转换、图像归一化将原始采集数据转换为对齐的、可接受的模型输入；

步骤2，构造模型训练数据集：模型的输入是视频片段，其中每个片段由8个时序视频帧组成；

步骤3，在时间维度上执行数据增强，以增加训练数据集的大小；

步骤4，搭建SST-VAE模型；

步骤5，设计异常得分函数：结合L2强度损失、L1梯度损失以及多尺度结构相似度测量来度量预测帧的质量；

步骤6，采用反向传播算法，利用步骤3构建的数据集对步骤4搭建的SST-VAE模型进行训练；

步骤7，使用步骤6训练好的SST-VAE模型对视频进行异常事件检测，输出视频帧的异常得分；

步骤8，自适应阈值选择：在只提供正常样本的情况下，考虑利用K紧邻技术用于自适应确定判定阈值；

步骤9，评估模型性能：通过步骤7输出测试视频帧的异常得分，再根据步骤8得到的判定阈值来检查它是否能够检测到异常事件。

所述的步骤4中SST-VAE模型由3D卷积、3D解卷积、Context模块、SAAConvLSTM模块以及Matrix-Variate Distributions层组成；

3D卷积是指用一个大小为w*h*c的3D卷积核在特征立方体上进行卷积，3D卷积提取连续帧之间的短期运动信息；

3D解卷积即为3D卷积的逆运算；

Context模块由四个不同的分支组成，第一个分支表示原始特征信息，其余三个分支通过不同Rate的膨胀卷积提取多尺度特征，其中小的Rate用于提取小尺寸物体特征，而大的Rate用于提取大尺寸物体特征；另外，在进行膨胀卷积运算前后，增加一个1*1的卷积结构来降低、增加维度；最后，各分支通过LeaklyRelu激活函数融合不同尺度的特征，学习不同尺度的正常模式；

SAA ConvLSTM模块由Self-Attention Augmented Convolution模块和Conv-LSTM模块组成，其中，Conv-LSTM模块是将上一层的输出作为下一层的输入，Conv-LSTM模块加入了卷积操作之后，能够同时提取时空特征；具体公式如下：

其中，i_t为输入门输出；f_t为遗忘门输出；σ为Sigmoid激活函数；h_t-1为上一隐藏层输出，x_t为本层输入；g_t为tanh函数输出；W_hf、W_ii、W_if、W_ig、W_io、W_hg、W_hi和W_ho均为权重；b_hf、b_ii、b_if、b_ig、b_io、b_hg、b_hi和b_ho均为偏置值；c_t-1为上一隐藏层的单元状态；c_t为本层更新的单元状态，o_t为输出门输出，h_t为本层更新的隐藏状态；

Self-AttentionAugmented Convolution模块通过引入自注意机制，从而将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来，以捕获远程的信息交互；Self-Attention Augmented Convolution模块表示如下：

其中，X是模块输入特征；Q＝XW_q是一个查询(query)；K＝XW_k是一个键(Key)；V＝XW_v是一个值(value)；W_q、

是学习得到的投影矩阵；A_h为不同head(h)分支的输出；Concat为级联操作，W^o是学习矩阵，MHA为多head注意图；AAConv(X)即为增强后的特征；

将Self-AttentionAugmented Convolution模块应用于Conv-LSTM模块的输入到状态转换，SSAConv-LSTM的格式如下：

其中，AAConv(x_t)为本层输入；W_ci、W_cf和W_co均为权重；其余参数意义同式(1)；

Matrix-Variate Distributions层是利用矩阵变量的高斯分布来对二维图像信号进行建模，并描述其空间结构和局部细节，其中，采用二维矩阵Z∈R^d*d作为潜在变量的特征映射，这些潜在的特征映射由矩阵变量正态分布(MVN)生成，其参数由编码器网络计算；Matrix-Variate Distributions层表示如下：

其中，S为该层输入特征；reshape执行维度变换操作；μ、Ω、v、Ψ为S的切片特征；M、Sigma分别为均值矩阵和协方差矩阵；Z为潜在变量的特征映射，reparameterize执行重采样操作。

所述的步骤5中异常得分函数Score表示如下：

其中，I为真实视频帧；I^*为预测视频帧；L_recon为L2强度损失；L_grad为L1梯度损失；L_msssim为多尺度结构相似度测量损失；g_d(·)执行梯度计算；msssim(·)执行多尺度结构相似度计算；Score为异常得分函数。

所述的步骤6中模型优化器选择Adam，模型总损失函数L_all为L2强度损失、L1梯度损失、多尺度结构相似度测量损失、KLD损失以及层约束损失的结合，其中，KLD损失即KL散度，用来衡量模型拟合分布与真实后验分布的距离，最小化KLD损失使得两个分布更相似；层约束损失是通过约束每一层输入数据信息损失最小化，增强网络的重建能力，在低维表示中尽可能的保留了原始数据的基本特征；

L_kld＝-0.5*sum(1+logvar-χ²-exp(logvar))

L_all＝L_grad+L_recon+L_msssim+L_layer+L_kld (6)

其中，L_layer为层约束损失；L_kld为KLD损失，χ、var分别为潜在变量分布的均值和方差；L_all为模型总损失函数。

所述的步骤8自适应阈值选择的具体步骤如下：

8.1)利用步骤6中训练好的SST-VAE模型对步骤3得到的训练数据进行检测，得到训练数据的异常得分列表TS；

8.2)通过K近邻算法得到相应的决策阈值，首先，根据输入的数据TS和K值求解KNN相似矩阵；其次，确定sigma_k近邻数，得到sigma矩阵；然后，利用相似矩阵、sigma矩阵以及K值进行谱聚类，得到聚类标签；

8.3)根据聚类标签得到判定阈值T。

所述的步骤9中若测试视频帧的异常得分Score<判定阈值T，则认为视频帧中存在异常；反之，亦然。

本发明的有益效果为：

本发明方法不仅避免了传统VAE中矢量化过程带来的信息丢失，而且充分利用了视频的时空特征，改善了信息流；与此同时，为了更好的利用模型性能，本发明还提出了一种自适应判定阈值算法，避免了手工确定阈值带来的局限性，提高了模型检测的准确率。

附图说明

图1是本发明的流程图。

图2是本发明实施例的基于自注意增强的时空变分自编码网络示意图。

图3是本发明实施例的Context模块示意图。

图4是本发明实施例的SSA Conv-LSTM模块示意图，包含Conv-LSTM Module和Self-Attention Augmented Convolution Module。

图5是本发明实施例的Matrix-Variate Distributions层示意图。

图6是本发明实施例的自适应判定阈值方法的流程图。

图7是本发明实施例在基准数据集Avenue上的演示效果图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

本发明提出一种基于自注意增强的时空变分自编码网络的异常事件检测方法，通过学习正常视频帧的时空特征模式来完成视频异常检测，具体流程如图1所示；检测网络主要包括空间变分自编码器(Spatial VAE)模块、自注意增强的Conv-LSTM模块(SAA Conv-LSTM)；其中，空间变分自编码器(Spatial VAE)利用矩阵变量的高斯分布来直接对二维图像信号进行建模，描述了图像的空间结构和局部细节；SAA Conv-LSTM是通过自注意机制来控制Conv-LSTM接收到的数据中哪些元素需要保存，从而可以有选择性、动态地调节输入的信息到隐藏的Conv-LSTM表示中，充分利用视频的时空特征，改善信息流；一旦模型完成训练，通过定义异常得分及确定自适应阈值来检测视频中的异常事件。

如图1所示，一种基于自注意增强的时空变分自编码网络的异常事件检测方法，包括以下步骤：

步骤1，对原始采集数据集进行预处理：通过尺寸调整、灰度转换、图像归一化等将原始采集数据转换为对齐的、可接受的模型输入；

步骤2，构造模型训练数据集：模型的输入是视频片段，即[x_t-8,x_t-7,···,x_t-1,x_t]，其中每个片段由8个时序视频帧组成；

步骤3，由于模型中的参数数量较多，需要大量的训练数据，因此，在时间维度上执行数据增强，使用了stride-1、stride-2和stride-3连接框架，以增加训练数据集的大小；例如，stride-1序列是由帧{1,2,3,4,5,6,7,8}组成，stride-2序列是由帧{1,3,5,7,9,11,13,15}组成，stride-3序列将包含帧数{1,4,7,10,13,16,19,22}组成；

步骤4，搭建SST-VAE模型：SST-VAE模型由3D卷积、3D解卷积、Context模块、SAAConvLSTM模块以及Matrix-Variate Distributions层组成，如图2所示；

3D卷积是指用一个大小为w*h*c的3D卷积核在特征立方体上进行卷积，相比于传统的2D卷积，3D卷积就是多了一个深度通道，即视频上的连续帧，从而可以提取连续帧之间的短期运动信息；

3D解卷积即为3D卷积的逆运算；

Context模块由四个不同的分支组成，第一个分支表示原始特征信息，其余三个分支通过不同Rate的膨胀卷积提取多尺度特征，其中小的Rate用于提取小尺寸物体特征，而大的Rate用于提取大尺寸物体特征；另外，在进行膨胀卷积运算前后，增加一个1*1的卷积结构来降低、增加维度，从而减少模型的参数数量；最后，各分支通过LeaklyRelu激活函数融合不同尺度的特征，学习不同尺度的正常模式，具体结构如图3所示；

SAA ConvLSTM模块由Self-Attention Augmented Convolution模块和Conv-LSTM模块组成，是通过将Conv-LSTM模块中的普通卷积用Self-Attention AugmentedConvolution模块替代得到，具体结构如图4所示。其中，Conv-LSTM模块类似于传统的LSTM模块，其核心同样是将上一层的输出作为下一层的输入，不同的地方在于Conv-LSTM模块加入了卷积操作之后，不仅能够得到时序关系，而且还能够像卷积层一样提取空间特征，这使得可以同时提取时空特征；具体公式如下：

由于传统的卷积只对特征点的局部领域进行运算，因此会丢失全局信息，而Self-Attention Augmented Convolution模块通过在普通的卷积中引入自注意机制，从而将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来，以捕获远程的信息交互；例如，将图像转为X∈R^HW*Fin，定义了一个query:Q＝XW_q、一个Key:K＝XW_k以及一个value:V＝XW_v，其中，W_q、

是学习得到的投影矩阵，它们将输入映射到不同的表示子空间；然后，选择注意value:V中编码的信息子集，信息的选择由Q与K决定，由于Q、K和V都来源于原始输入X，使得该机制是根据提供的输入X而不是学习到的掩码来动态地调节信息流；最后，输出被重塑为一个张量H*W*d_v，并与输入的普通卷积输出进行连接，得到最后的增强特征AAConv(X)，Self-Attention AugmentedConvolution模块表示如下：

是学习得到的投影矩阵；A_h为不同head(h)分支的输出；Concat为级联操作，W^o是学习矩阵，MHA为多head注意图；AAConv(X)即为增强后的特征。

尽管Conv-LSTM模块可以模拟序列中的时空相关性，但在捕捉长期空间依赖关系方面的能力有限的，而Self-Attention Augmented Convolution模块通过引入自注意机制，使得其以捕获远程的信息交互，因此，将Self-Attention Augmented Convolution模块应用于Conv-LSTM模块的输入到状态转换，SSA Conv-LSTM的格式如下：

Matrix-Variate Distributions层是利用矩阵变量的高斯分布来对二维图像信号进行建模，并描述其空间结构和局部细节，其中，采用二维矩阵Z∈R^d*d作为潜在变量的特征映射，这些潜在的特征映射由矩阵变量正态分布(MVN)生成，其参数由编码器网络计算；例如，该层输入为S∈R^N*4d，其中N为设定的隐藏特征图数目，N＝32；d为隐藏特征尺寸，d＝14，首先，将其按第2维度对特征立方体进行切片，分别得到μ、v、Ω、Ψ，之后，通过张量运算、变形得到相应的均值M、方差Sigma，最后，通过重采样层即可得到解码器输入Z，具体流程如图5所示。Matrix-Variate Distributions层表示如下：

步骤5，设计异常得分函数：结合L2强度损失、L1梯度损失以及多尺度结构相似度测量来度量预测帧的质量，其中，强度损失可以反映原始图像之间的差异和生成的图像，梯度损失可以减少背景的影响，结构相似度损失考虑了图像之间在更多方面的差异，因此，异常得分函数Score表示如下：

步骤6，采用反向传播算法，利用步骤3构建的数据集对步骤4搭建的SST-VAE模型进行训练；模型优化器选择Adam，它具有计算效率高、内存需求小、非常适合数据或参数较大的问题等优点；模型总损失函数L_all为L2强度损失、L1梯度损失、多尺度结构相似度测量损失、KLD损失以及层约束损失的结合，其中，KLD损失即KL散度，用来衡量两个分布(模型拟合分布与真实后验分布)的距离，最小化KLD损失使得两个分布更相似，提升网络性能；层约束损失是通过约束每一层输入数据信息损失最小化，增强网络的重建能力，在低维表示中尽可能的保留了原始数据的基本特征；

L_kld＝-0.5*sum(1+logvar-χ²-exp(logvar))

L_all＝L_grad+L_recon+L_msssim+L_layer+L_kld (6)

步骤7，使用步骤6中训练好的SST-VAE模型对视频进行异常事件检测，输出视频帧的异常得分Score；

步骤8，自适应阈值选择：早期异常检测研究往往忽略了阈值选择的重要性，常通过交叉验证来手工确定阈值，然而，这种方法难以满足多变的监控需求，因此，本专利提出的方法在只提供正常样本的情况下，考虑利用K紧邻技术用于自适应确定判定阈值，具体流程如图6所示，步骤如下：

8.3)根据聚类标签得到判定阈值T；

步骤9，评估模型性能：通过步骤7输出测试视频帧的异常得分，再根据步骤8得到的判定阈值来检查它是否能够检测到异常事件，同时保持较低误报率；若测试视频帧的异常得分Score<判定阈值T，则认为视频帧中存在异常；反之，亦然。

下面结合视频异常检测领域中最常用的基准数据集Avenue对本发明作进一步描述，Avenue数据集中的所有视频都是从固定位置拍摄的，其中，训练视频只包含正常的事件，测试视频中包含正常和异常事件，正常事件是人们在楼梯间和地铁入口之间行走，异常事件是人们奔跑、反向行走、闲逛等，这个数据集的某些视频中存在相机抖动以及训练视频中存在一些异常值。

本发明方法的检测效果如图7所示，图中矩形区域为实际的异常视频帧片段。为了验证本发明方法的有效性，本发明与常用视频异常检测方法在Avenue数据集上进行对比实验，对比方法中的检测模型分别为重构模型(Conv-AE、Conv-LSTM-AE)、预测模型(3D-Conv、FFP)，评价指标选择AUC。

AUC(Area Under Curve)被定义为ROC曲线下的面积，而ROC曲线全称为受试者工作特征曲线(receiver operating characteristic curve)，它是根据一系列不同的二分类方式(分界值或决定阈)，以真阳性率为纵坐标，假阳性率为横坐标绘制的曲线，AUC越接近1.0，检测方法真实性越高；等于0.5时，则真实性最低，无应用价值；对比结果如表1所示。

从表1可以看出，本发明提出的SST-VAE模型相对于对比的重构模型和预测模型，Avenue数据集上的结果比Conv-AE结果高出16.9％，比Conv-LSTM-AE结果高出10.4％，比3D-Conv结果高出9.0％，比FFP结果高出2.0％。通过实验表明，与现有方法相比，本发明的异常检测框架能够更好地识别视频异常。

表1

Claims

1.一种基于自注意增强的时空变分自编码网络的异常事件检测方法，其特征在于：包括空间变分自编码器(Spatial VAE)模块、自注意增强的Conv-LSTM模块(SAA Conv-LSTM)，空间变分自编码器(Spatial VAE)利用矩阵变量的高斯分布来直接对二维图像信号进行建模，描述了图像的空间结构和局部细节；SAA Conv-LSTM是通过自注意机制来控制Conv-LSTM接收到的数据中哪些元素需要保存；模型完成训练，通过定义异常得分及确定自适应阈值来检测视频中的异常事件。

2.一种基于自注意增强的时空变分自编码网络的异常事件检测方法，其特征在于，包括以下步骤：

步骤4，搭建SST-VAE模型；

步骤5，设计异常得分函数：结合L2强度损失(recon_loss)、L1梯度损失(grad_loss)以及多尺度结构相似度测量(msssim损失)来度量预测帧的质量；

3.根据权利要求2所述的一种基于自注意增强的时空变分自编码网络的异常事件检测方法，其特征在于：所述的步骤4中SST-VAE模型由3D卷积、3D解卷积、Context模块、SAAConvLSTM模块以及Matrix-Variate Distributions层组成；

3D解卷积即为3D卷积的逆运算；

Self-Attention Augmented Convolution模块通过引入自注意机制，从而将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来，以捕获远程的信息交互；Self-Attention Augmented Convolution模块表示如下：

将Self-Attention Augmented Convolution模块应用于Conv-LSTM模块的输入到状态转换，SSAConv-LSTM的格式如下：

4.根据权利要求2所述的一种基于自注意增强的时空变分自编码网络的异常事件检测方法，其特征在于：所述的步骤5中异常得分函数Score表示如下：

5.根据权利要求2所述的一种基于自注意增强的时空变分自编码网络的异常事件检测方法，其特征在于：所述的步骤6中模型优化器选择Adam，模型总损失函数L_all为L2强度损失(recon)、L1梯度损失(grad)、多尺度结构相似度测量损失(msssim)、最小化KLD损失以及层约束损失(layer)的结合，其中，KLD损失即KL散度，用来衡量模型拟合分布与真实后验分布的距离，最小化KLD损失使得两个分布更相似；层约束损失是通过约束每一层输入数据信息损失最小化，增强网络的重建能力，在低维表示中尽可能的保留了原始数据的基本特征；

6.根据权利要求2所述的一种基于自注意增强的时空变分自编码网络的异常事件检测方法，其特征在于：所述的步骤8自适应阈值选择的具体步骤如下：

8.3)根据聚类标签得到判定阈值T。

7.根据权利要求1所述的一种基于自注意增强的时空变分自编码网络的异常事件检测方法，其特征在于：所述的步骤9中若测试视频帧的异常得分Score<判定阈值T，则认为视频帧中存在异常；反之，亦然。