CN115527150A

CN115527150A - 一种结合卷积注意力模块的双分支视频异常检测方法

Info

Publication number: CN115527150A
Application number: CN202211343864.4A
Authority: CN
Inventors: 李群; 潘许贝; 杨锐; 肖甫
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2022-12-27

Abstract

本发明属于视频异常检测技术领域，公开了一种结合卷积注意力模块的双分支视频异常检测方法，包括：取训练集中的原始帧，再将原始帧输入到光流提取网络中得到光流帧，然后将原始帧和光流帧分别输入到预测和重建两个分支网络中，并通过联合损失函数对双分支网络进行训练，从而得到一个完整的视频异常检测检测模型，类似的，在测试阶段，取测试集中原始帧，并通过光流提取网络得到光流帧，再将原始帧和光流帧分别输入到预测和重建分支中，分别得到预测帧和重建帧，通过计算得到预测帧和真实帧的预测误差，重建帧和光流帧的重建误差，对两种误差进行加权平衡，得到视频帧异常得分，实现对异常视频帧的检测。本发明可以实现更高的检测精度。

Description

一种结合卷积注意力模块的双分支视频异常检测方法

技术领域

本发明属于视频异常检测技术领域，具体的说是涉及一种结合卷积注意力模块的双分支视频异常检测方法。

背景技术

视频异常检测是计算机视觉领域一个重要的研究课题，近些年来，越来越受到研究者们的关注。视频异常检测任务具体是从一段视频中检测出与正常活动不相符的事件，例如打斗、交通事故或抛物等等，而这些异常事件往往会对公共安全带来危害，因此对视频异常检测的研究对于尽早发现异常事件，进而降低异常事件的危害程度有着重要的意义。

但是由于异常事件种类繁多而且发生的频率很低，从而导致我们不可能收集到所有且足够的异常事件对模型进行训练。与之相反，正常事件很多且采集方便。因此，目前主流的方法是只使用正常事件对模型进行训练。主流的方法可以分为视频帧重建和视频帧预测两大类。视频帧重建是将当前帧通过一个自动编码器，重建得到一个重建帧，通过计算当前帧和重建帧的重构误差，使用重构误差代表异常得分，从而实现异常事件的检测，如AE方法(Mahmudul Hasan,Jonghyun Choi,Jan Neumann,Amit K Roy-Chowdhury,and Larry SDavis.Learning temporal regularity in video sequences.In CVPR,2016.)，但是由于自动编码器具有较强的泛化能力，一些异常事件也能够被很好的重建，因此检测精度不高；视频帧预测是通过连续若干帧预测得到下一个视频帧，再将预测得到的视频帧输入一个判别器判断是否为异常事件，从而实现对异常事件的检测，如(Wen Liu,Weixin Luo,DongzeLian,Shenghua Gao.Future Frame Prediction for Anomaly Detection--A NewBaseline.In CVPR,2018.)，但是由于一些正常事件例如开灯，开门等事件不能很好的预测，从而导致检测的精度不高。

发明内容

为解决现有技术中视频异常检测方法的检测精度不高的技术缺陷，本发明提供了一种结合卷积注意力模块的双分支视频异常检测方法，该方法构造了一个嵌入卷积注意力模块的双分支网络，分别进行视频帧预测和光流帧重建任务，并通过一个联合损失函数对双分支网络进行训练，从而构建一个能对异常事件进行有效检测的网络模型。该视频异常检测方法的具体步骤如下：

S1，收集视频数据，将视频数据分为训练集和待测集。

S2，取S1训练集中的连续t个视频帧，即原始帧，输入到双分支结构中的视频帧预测分支中，预测得到第t+1个视频帧，即预测帧

S3，将S2中的t个原始帧输入到光流提取网络中，提取可得到原始帧的t个光流图像，即光流帧y_1:t，然后将光流帧输入到双分支结构中的光流帧重建分支中，重建得到t个新的光流帧，即重建帧

S4，计算S2中得到的第t+1个预测帧

和第t+1个真实帧x_t+1之间的预测误差L_pred，计算S3中得到的t个重建帧

和输入的t个光流帧y_1:t之间的重构误差L_recon。

S5，结合S4中得到的预测误差L_pred和重构误差L_recon，以及提出的梯度损失L_grad、交叉熵损失L_entro构建一个联合损失函数L对双分支网络进行训练。最终训练得到一个能对异常事件进行有效检测的网络模型。

S6，类似地，取S1中的待测集数据，即连续t个视频帧，依次通过S2、S3和S5步骤，得到待测视频帧的预测误差S_pred和重构误差S_recon，再对两种误差进行加权平衡，最终得到待测视频帧的异常得分S，进而实现对异常事件的检测。

进一步地，所述S1中训练集仅有正常事件视频构成，不含任何异常事件，待测集既有正常事件也有异常事件。

进一步地，所述S2所提出的视频帧预测分支，其主要由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成，该分支的输出结果为第t+1帧的预测结果

具体结构如下：

S2-1，自动编码器主要由一个编码器和解码器构成，二者都具有三层的结构，在编码器中每层的结构由两个卷积层和一个下采样层构成；类似地，在解码器中每层的结构由两个卷积层和一个上采样层构成。

S2-2，由于在编解码的过程中会造成信息的损失，因此在编码器和解码器的对应层之间加入跳跃连接，直接将编码器每一层的特征图和解码器对应层的特征图进行通道拼接操作，从而减少信息的损失。

S2-3，为了让网络更好的学习正常事件的特征表示，在自动编码器结构中嵌入了多个多尺度的记忆内存模块，该模块可以根据余弦相似性原理，得到一个新的特征图，公式如下：

其中，F_in为输入特征图，m_i为记忆内存中每个维度的特征向量，d(F_in,m_i)表示余弦相似性，T表示转置。

其中，exp表示取e的指数，N表示记忆内存的维度，r_i表示记忆内存对应特征向量的查询权重。

根据以上公式可以得到记忆内存模块中每个特征向量对应的查询权重，再将查询权重与对应的特征向量相乘并拼接可以得到一个新的特征图，其公式如下：

其中，F_out表示输出特征图，N表示记忆内存的维度，r_i表示对应记忆内存特征向量的查询权重，m_i表示对应的记忆内存特征向量。

为了学习不同尺度的特征信息，记忆内存模块被嵌入在自动编码器的中间位置和解码器的不同层之间。

S2-4，为了进一步加强网络对输入图像周边语义信息的学习，在自动解码器之后嵌入一个卷积注意力模块。该模块由掩码卷积层和通道注意力层构建。其中掩码卷积层主要由四个小卷积组成，每个小卷积对特征图的边角区域进行操作，最后将四个小卷积的结果相加得到卷积注意力模块的输出结果。通道注意力层分为三个步骤：1、压缩阶段：对输入特征图的每个通道进行全局平均池化，得到一个维度等于特征通道数的一维向量；2、激发阶段：将上一步得到的一维向量输入到两个全连接层中，获得每个特征通道对应一维权重向量；3、重新调整阶段：用上一步得到的一维权重向量与输入的特征图进行相乘操作，从而得到最终的输出结果。为了和输入数据的通道数保持一致，卷积注意力模块的使用个数等于输入数据的通道数。

进一步地，所述S3中的光流提取网络采用常用的flownet2网络。与之前S2中的预测分支类似，所述S3所提出的光流帧重建分支，其主要也由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成，不同的是该分支的输出结果为t个光流重建帧

进一步地，所述S4中的预测误差L_pred和重建误差L_recon分别由以下两个公式得到：

其中，||||₂表示取l₂范数。

其中，||||₂表示取l₂范数。

进一步地，为使预测地结果更加接近于真实结果，所述S5加入了梯度损失L_grad，其公式如下：

其中，k，l代表视频帧的时空索引，||||₁表示取l₁范数，||表示取绝对值。

为了使记忆模块能更好地学习正常事件，我们希望查询权重更加的稀疏，因此，我们加入了交叉熵损失L_entro对查询权重进行约束，其公式如下：

其中，O代表记忆模块的数量，N代表记忆模块的维度，r_i,j代表对应记忆内存中特征向量的查询权重。

对上述四种损失函数进行加权平衡可以得到联合损失函数L，其公式如下：

其中，λ_pred，λ_grad，λ_recon和λ_entro为平衡参数。

进一步地，所述S6中的异常得分S由预测误差S_pred和重构误差S_recon加权平衡得到，公式为：

S＝w_pS_pred+w_rS_recon

其中，

w_p和w_r为平衡参数。

本发明的有益效果是：

(1)本发明提出了一种双分支的网络结构，分别进行视频帧预测和重建任务，生成的特征具有丰富的信息，在多个公开数据集上进行了实验，相比于之前的方法，本发明取得了更好的检测效果。

(2)本发明将卷积注意力模块嵌入双分支网络结构中，有利于分支学习局部特征的全局结构，进一步提高了模型的性能。

(3)本发明在自动编码器中嵌入了多个多尺度的记忆内存模块，有利于网络学习不同尺度下的正常事件特征，进一步提高了模型对异常事件的检测能力。

(4)本发明属于半监督的学习方法，只是用了正常事件作为训练数据，极大地降低了数据采集的成本。

本发明的双分支视频异常检测方法，针对视频帧预测和视频帧重建两个任务设计了双分支的网络结构，并在其中嵌入了卷积注意力模块，再通过设计的联合损失函数对双分支网络进行训练，最终能得到一个能对异常事件进行有效检测的网络模型。

附图说明

图1为本发明实施例中的异常检测方法的流程图。

图2为本发明实施例中的双分支网络的整体结构图。

图3为本发明实例中的分支网络具体结构图。

图4为本发明实施例中的卷积注意力模块掩码卷积核的结构图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本发明是一种结合卷积注意力模块的双分支视频异常检测方法，该异常检测方法具体包括如下步骤：

步骤1，收集视频数据，将视频数据分为训练集和待测集，其中，训练集仅有正常事件视频构成，不含任何异常事件，待测集既有正常事件也有异常事件。

步骤2，取步骤1训练集中的连续t个视频帧，即原始帧，输入到双分支结构中的视频帧预测分支中，预测得到第t+1个视频帧，即预测帧

该预测分支主要由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成，该分支的输出结果为第t+1帧的预测结果

具体结构的构建过程如下：

S2-3，为了让网络更好的学习正常事件的特征表示，在自动编码器结构中嵌入了多个多尺度的记忆内存模块，该记忆内存模块可以根据余弦相似性原理，得到一个新的特征图，公式如下：

为了学习不同尺度的特征信息，记忆内存模块被嵌入在自动编码器的中间位置和解码器的不同层之间，如图2所示。

步骤3，将步骤2中的t个原始帧输入到光流提取网络中，提取可得到原始帧的t个光流图像，即光流帧y_1:t，然后将光流帧输入到双分支结构中的光流帧重建分支中，重建得到t个新的光流帧，即重建帧

其中，光流提取网络采用常用的flownet2网络。与之前步骤2中的预测分支类似，该光流帧重建分支，其主要也由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成，不同的是该分支的输出结果为t个光流重建帧

步骤4，计算步骤2中得到的第t+1个预测帧

和第t+1个真实帧x_t+1之间的预测误差L_pred，计算步骤3中得到的t个重建帧

和输入的t个光流帧y_1:t之间的重构误差L_recon。其中，步骤4中的预测误差L_pred和重建误差L_recon分别由以下两个公式得到：

其中，||||₂表示取l₂范数。

其中，||||₂表示取l₂范数。

步骤5，结合步骤4中得到的预测误差L_pred和重构误差L_recon，以及提出的梯度损失L_grad、交叉熵损失L_entro构建一个联合损失函数L对双分支网络进行训练，最终训练得到一个能对异常事件进行有效检测的网络模型。

为使预测地结果更加接近于真实结果，所述步骤5加入了梯度损失L_grad，其公式如下：

为了使记忆模块能更好地学习正常事件，本发明希望查询权重更加的稀疏，因此，本发明加入了交叉熵损失L_entro对查询权重进行约束，其公式如下：

其中，λ_pred，λ_grad，λ_recon和λ_entro为平衡参数。

步骤6，类似地，取步骤1中的待测集数据，即连续t个视频帧，依次通过步骤2、步骤3和步骤5，得到待测视频帧的预测误差S_pred和重构误差S_recon，再对两种误差进行加权平衡，最终得到待测视频帧的异常得分S，进而实现对异常事件的检测。所述步骤6中的异常得分S由预测误差S_pred和重构误差S_recon加权平衡得到，公式为：

S＝w_pS_pred+w_rS_recon

其中，

w_p和w_r为平衡参数。

本发明属于半监督的学习方法，只是用了正常事件作为训练数据，极大地降低了数据采集的成本。本发明采用了双分支的结构，每个分支分别对不同的任务进行学习，可以有效提高模型的学习能力。同时，本发明将多个记忆模块和卷积注意力模块嵌入双分支网络中，进一步提高了模型对不同尺寸特征的学习能力，因此本发明相比于之前的方法，大大提高了异常检测的精确度。

为使本发明的技术方案更加清楚，下面将结合实验对本发明的检测精确度进行验证。

实验条件

1.实验数据库

在Ped2、Avenue和ShanghaiTech数据集上进行训练和测试。异常检测过程中将数据集分成训练类(有需要再细分成训练类和验证类)和测试集，在不同数据集上有不同的划分，训练类加验证类即为已知类别，测试类为未知类别，二者之间没有交集。

详细介绍见如下表1。

表1数据集的详细介绍

2.实验参数设置

模型固定参数设置如下表2所示：

表2模型固定参数

N	λ<sub>pred</sub>	λ<sub>grad</sub>	λ<sub>recon</sub>	λ<sub>entro</sub>
					2000	1	1	1	0.0002

对于不同的数据集异常得分的平衡参数设置如表3所示：

表3异常得分平衡参数

数据集	w<sub>p</sub>	w<sub>r</sub>
			Ped2	1.0	0.1
Avenue	0.1	1.0
			ShanghaiTech	0.02	1.0

A、实验结果评价标准

此模型针对于异常检测设置，异常检测中测试类的类别有未知类别，也有已知类别，这里用AUC来衡量检测效果。AUC值越高，说明模型效果越好。AUC的计算公式如下：

其中，M为正包样本数，N为负包样本数，分子为预测结果为正包的概率大于预测结果为负包的概率的组合总数。

B、对比试验方案

本实施例在Ped2、Avenue和ShanghaiTech数据集上与其他目前前沿的异常检测方法进行对比。

表4异常检测方法性能比较：

Methods	Ped2	Avenue	ShanghaiTech
				Memae	0.941	0.833	0.712
VEC	0.973	0.902	0.748
				MPN	0.969	0.895	0.738
sRNN	0.922	0.835	0.696
				Ours	0.994	0.911	0.766

Ours是本发明提出的方法，通过表4与目前前沿的异常检测方法对比结果表明本方法的异常检测效果超过了其它比较的方法，客观说明了本文所提出的方法的有效性。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：该方法基于一个双分支的网络结构，并将卷积注意力模块嵌入该双分支网络结构中，加强对特征的学习，两个分支分别进行视频帧预测和光流帧重建任务，具体的该双分支视频异常检测方法包括如下步骤：

步骤1：收集视频数据，将视频数据分为训练集和待测集；

步骤2：取步骤1所述训练集中的连续t个视频帧，即原始帧，输入到双分支结构中的视频帧预测分支中，预测得到第t+1个视频帧，即预测帧

步骤3：将步骤2中的t个原始帧输入到光流提取网络中，提取得到原始帧的t个光流图像，即光流帧y_1:t，然后将光流帧y_1:t输入到双分支结构中的光流帧重建分支中，重建得到t个新的光流帧，即重建帧

步骤4：计算步骤2中得到的第t+1个预测帧

和输入的t个光流帧y_1:t之间的重构误差L_recon；

步骤5：结合步骤4中得到的预测误差L_pred和重构误差L_recon，以及梯度损失L_grad、交叉熵损失L_entro构建一个联合损失函数L对双分支网络进行训练，最终训练得到一个能对异常事件进行有效检测的网络模型；

步骤6：取步骤1中的待测集数据，即连续t个视频帧，依次通过步骤2、步骤3和步骤5，得到待测视频帧的预测误差S_pred和重构误差S_recon，再对预测误差S_pred和重构误差S_recon进行加权平衡，最终得到待测视频帧的异常得分S，进而实现对异常事件的检测。

2.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：步骤2中提出的所述视频帧预测分支主要由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成，该分支的输出结果为第t+1帧的预测结果

3.根据权利要求2所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：所述视频帧预测分支的构建方法为：

步骤2-1：构建自动编码器：自动编码器主要由一个编码器和解码器构成，所述编码器和解码器都具有三层结构，所述编码器由两个卷积层和一个下采样层构成，所述解码器由两个卷积层和一个上采样层构成；

步骤2-2：对步骤2-1中的自动编码器进行通道拼接：在所述编码器和所述解码器的对应层之间加入跳跃连接，直接将所述编码器每一层的特征图和解码器对应层的特征图进行通道拼接操作，从而减少信息的损失；

步骤2-3：在自动编码器结构中嵌入了多个多尺度的记忆内存模块，所述记忆内存模块根据余弦相似性原理，得到一个新的特征图，公式如下：

其中，F_in为输入特征图，m_i为记忆内存中每个维度的特征向量，d(F_in,m_i)表示余弦相似性，T表示转置；

其中，exp表示取e的指数，N表示记忆内存的维度，r_i表示记忆内存对应特征向量的查询权重；

根据以上公式可以得到记忆内存模块中每个特征向量对应的查询权重，再将查询权重与对应的特征向量相乘并拼接得到一个新的特征图，其公式如下：

其中，F_out表示输出特征图，N表示记忆内存的维度，r_i表示对应记忆内存特征向量的查询权重，m_i表示对应的记忆内存特征向量；

步骤2-4：嵌入卷积注意力模块：为了加强网络对输入图像周边语义信息的学习，在自动解码器之后嵌入一个卷积注意力模块，所述卷积注意力模块由掩码卷积层和通道注意力层构建，其中所述掩码卷积层主要由四个小卷积组成，每个小卷积对特征图的边角区域进行操作，最后将四个小卷积的结果相加得到卷积注意力模块的输出结果。

4.根据权利要求3所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：步骤2-4中所述通道注意力层构建主要包括如下步骤：

步骤2-4-1：压缩阶段：对输入特征图的每个通道进行全局平均池化，得到一个维度等于特征通道数的一维向量；

步骤2-4-2：激发阶段：将步骤2-4-1压缩阶段得到的一维向量输入到两个全连接层中，获得每个特征通道对应一维权重向量；

步骤2-4-3：重新调整阶段：用步骤2-4-2激发阶段得到的一维权重向量与输入的特征图进行相乘操作，从而得到最终的输出结果。

5.根据权利要求4所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：卷积注意力模块的使用个数等于输入数据的通道数。

6.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：所述步骤4中的预测误差L_pred和重建误差L_recon分别由以下两个公式得到：

其中，|| ||₂表示取l₂范数，

其中，|| ||₂表示取l₂范数。

7.根据权利要求6所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：所述步骤5中联合损失函数的构建过程为：

步骤5-1：在所述步骤5中加入了梯度损失L_grad，其公式如下：

其中，k，l代表视频帧的时空索引，|| ||₁表示取l₁范数，| |表示取绝对值；

步骤5-2：为了使记忆模块能更好地学习正常事件，查询权重更加的稀疏，因此，加入了交叉熵损失L_entro对查询权重进行约束，其公式如下：

其中，O代表记忆模块的数量，N代表记忆模块的维度，r_i,j代表对应记忆内存中特征向量的查询权重；

步骤5-3：对步骤4中得到的预测误差L_pred和重构误差L_recon，以及梯度损失L_grad、交叉熵损失L_entro进行加权平衡可以得到联合损失函数L，其公式如下：

其中，λ_pred，λ_grad，λ_recon和λ_entro为平衡参数。

8.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：步骤3中的所述光流提取网络采用常用的flownet2网络，所述S3所提出的光流帧重建分支主要由一个自动编码器、多个嵌入其中的记忆内存模块以及一个卷积注意力模块构成，所述光流帧重建分支的输出结果为t个光流重建帧

9.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：步骤6中的异常得分S由预测误差S_pred和重构误差S_recon加权平衡得到，公式为：

S＝w_pS_pred+w_rS_recon

其中，

w_p和w_r为平衡参数。

10.根据权利要求1所述的一种结合卷积注意力模块的双分支视频异常检测方法，其特征在于：所述步骤1中训练集仅有正常事件视频构成，不含任何异常事件，待测集既有正常事件也有异常事件。