CN116152722A

CN116152722A - 基于残差注意力块和自选择学习结合的视频异常检测方法

Info

Publication number: CN116152722A
Application number: CN202310418890.7A
Authority: CN
Inventors: 李群; 潘许贝; 肖甫; 盛碧云; 沙乐天
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-05-23
Anticipated expiration: 2043-04-19
Also published as: CN116152722B

Abstract

本发明属于计算机视觉技术领域，公开了一种基于残差注意力模块和自选择学习结合的视频异常检测方法，包括采集原始视频并提取前后若干帧对象构建时空立方体；随机打乱时空立方体的空间或时间顺序，分别构造空间和时间拼图立方体；利用两种拼图立方体训练由两个预测分支组成的顺序预测模型，两个预测分支由残差注意力模块构建；利用自选择学习策略分别对两个预测分支的训练样本损失进行自选择学习，选中的样本损失参与梯度反向传播过程，多轮迭代训练得到一个完整的视频异常检测网络模型；对待测视频同样进行对象提取操作，不打乱顺序，直接输入到模型中计算预测得分，最终实现视频异常检测。本发明能使无监督视频异常检测的精度得到显著提高。

Description

基于残差注意力块和自选择学习结合的视频异常检测方法

技术领域

本发明属于计算机视觉技术领域，具体的说是涉及一种基于残差注意力块和自选择学习结合的视频异常检测方法。

背景技术

视频异常检测是计算机视觉领域一个活跃且有挑战性的任务，其目的是准确检测出视频图像中出现异常事件的视频帧，例如交通事故、火灾或打斗等异常事件，对于保障公共安全具有重要意义。但是异常事件发生的概率很低并且种类众多，因此无法利用传统完全有监督的方式对每一个训练样本进行标注学习。

根据监督方式的不同，目前主流的视频异常检测方法主要分为三大类：半监督视频异常检测、弱监督视频异常检测和无监督视频异常检测。

在半监督视频异常检测的方法中，训练集只包含正常事件，模型学习和捕捉正常事件包含的正常特征，因此当模型检测到异常事件时，由于异常事件未参与模型训练，会产生更大的检测偏差，从而实现对异常事件的检测，如HF方法(Liu, Z., Nie, Y., Long,C., Zhang, Q., Li, G. 一种基于记忆增强光流重建和光流引导视频帧预测的混合视频异常检测检测框架. 国际计算机视觉大会, 2021)。在弱监督视频异常检测的方法中，训练集既包含正常事件也包含异常事件，但是只有视频级的标签，其代表视频内容中是否包含异常事件。借助视频级的标签，弱监督视频异常检测可以大幅提高检测的精度，如MIST方法(Feng, J.-C.; Hong, F.-T.; and Zheng, W.-S. 用于视频异常检测的多实例自训练框架. 国际计算机视觉与模式识别会议, 2021)。但是半监督和弱监督的视频异常检测方法，都需要对训练集进行人工筛选以满足模型的要求，面对海量的视频数据，需要大量的人工和时间成本。因此不需要任何标签信息的无监督视频异常检测的方法越来越受到关注，其训练集既包含正常事件也包含异常事件，但是由于不存在人工过程，可以实现视频异常检测的完全自动化，但是这也是一个更有挑战性的任务。如GCL方法(Zaheer M Z, MahmoodA, Khan M H, et al. 用于无监督视频异常检测的生成式协同学习. 国际计算机视觉与模式识别会议, 2022.)，但是现有的无监督方法模型泛化能力过强，异常事件不容易被检测出来，因此准确度不高。

发明内容

为了解决上述问题，本发明提供了一种基于全新残差注意力模块和自选择学习结合的视频异常检测方法，该方法使用所构建的全新残差注意力模块作为基础模块搭建预测分支网络，然后对训练样本进行自选择学习使模型聚焦于建模正常特征。

为了达到上述目的，本发明是通过以下技术方案实现：

本发明是一种基于残差注意力块和自选择学习结合的视频异常检测方法，该视频异常检测方法具体包括如下步骤：

S1：收集原始视频数据，利用对象检测器，提取前后若干视频帧的对象构建时间-空间立方体（时空立方体）；

S2：随机打乱S1中时空立方体的空间或时间顺序，分别构建空间拼图立方体和时间拼图立方体；

S3：利用S2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型：空间预测分支和时间预测分支，其中两个预测分支均使用交叉熵损失指导训练过程；

S4：对模型先进行5轮的热启动训练，即两个预测分支的交叉熵损失跳过自选择学习阶段，直接执行S6中的梯度反向传播步骤；

S5：在S4中的热启动训练之后，其后的每一轮训练过程中，对于一个批次的训练样本损失，利用自选择学习策略分别对S3中两个分支的交叉熵损失进行自选择学习，剔除可疑的异常样本损失；

S6：所述S5步骤后剩余的样本损失参与梯度反向传播过程，更新网络参数，经过多轮迭代训练，得到最终的顺序预测模型；

S7：对待测视频进行所述S1中的对象提取操作，获得待测时空立方体；

S8：对于所述S7步骤获得的待测时空立方体，不打乱其空间和时间顺序，直接输入到S6训练得到的最终顺序预测模型中，通过比较，取模型所预测顺序得分的最小值，获得待测时空立方体的空间和时间预测得分；

S9：对所述S8中的两个预测得分进行整合，获得待测时空立方体最终的对象预测得分，对一帧待测视频图像中多个对象预测得分进行比较，取最小的对象得分作为最终的视频帧异常分数，对所有视频帧异常分数进行比较，异常分数偏低的视频帧判定为异常视频帧，从而实现视频异常检测。

其中，所述S1中对象提取操作的过程具体为：

S1-1：对于每一个视频帧，利用已训练好的YOLOv3对象检测器检测一帧图像中的对象，根据检测的置信度，只保留置信度较高的对象，并获得包含检测对象位置信息的锚框；

S1-2：以当前帧为中心，根据S1-1步骤中提取到的锚框，在时间连续的若干视频帧上提取相同位置的图像块；

S1-3：将提取的图像块以时间顺序堆叠，构成时间-空间立方体（时空立方体），其代表当前视频帧的一个基本的对象事件；

其中，所述S2中拼图立方体的构建过程具体为：

S2-1：对于一个时空立方体，在保持其时间顺序的同时，将对像块划分为若干个对象小块，打乱对象小块的顺序，构成空间拼图立方体；

S2-2：对于一个时空立方体，在保持其空间顺序的同时，对其时间顺序进行打乱，构成时间拼图立方体；

本发明的进一步改进在于：所述S3中顺序预测模型的空间预测分支和时间预测分支分别预测被打乱的空间顺序和时间顺序，两个预测分支具有相同的结构，均由连续多个全新残差注意力模块构建而成，其主要由残差模块、注意力模块和跳跃连接三部分组成。所述残差模块由2个3D卷积层、2个3D实例归一化层和1个ReLu激活函数构成；所述注意力模块包括1个全局池化层、2个全连接层、1个ReLu激活函数和1个Sigmoid激活函数；所述跳跃连接直接将输入残差注意力模块的特征图与卷积后的特征图相加，形成输出特征图，如果输出特征图尺寸发生变化，跳跃连接会使用步长为2的1*1卷积对输入特征图尺寸进行调整。

其中，所述S3中指导模型两个分支的训练的交叉熵损失函数具体为：

，

其中，

和

分别为空间拼图立方体的对象小块数量和时间拼图立方体的时间长度，

是计算交叉熵损失操作符，

和

分别为打乱后的空间顺序和模型预测的空间顺序，

和

分别为打乱后的时间顺序和模型预测的时间顺序。

本发明的进一步改进在于：所述S5中自选择学习策略的具体步骤如下：

S5-1：对于空间预测分支和时间预测分支的训练样本损失集

和

，按照从低到高的顺序分别对其进行排序，公式如下：

，

其中，

是递增排序操作符，

和

分别是排序后的样本损失集。

S5-2：空间预测分支和时间预测分支分别根据选择因子

和

，计算选择的损失数量，公式如下：

；

其中，

是向上取整操作符，

和

分别表示样本损失集

和

的样本数量，

和

分别表示应该选择学习的时间预测损失和空间预测损失的数量。

S5-3：在应用自选择策略学习前，每一轮模型训练的目标函数

为：

，

其中，

是最小化操作符，

和

分别是样本损失集

和

第

个样本损失。

在应用自选择学习策略后，每一轮模型训练的目标函数

被调整如下式：

，

其中，

和

分别是排序后的样本损失集

和

第

个样本损失。

其中，所述S9中对象预测得分通过对两个分支的预测分数进行整合获得，

预测得分

，计算公式如下：

，

其中，

和

分别是空间预测分支和时间预测分支的预测分数，

和

分别是权重系数。

本发明的有益效果是：

（1）本发明属于无监督视频异常检测研究领域，不需要人工对数据集进行筛选，可以实现训练数据的即采即训，减少了大量的人工和时间成本，提高了视频异常检测的自动化程度和效率；

（2）本发明提出和构建了一个全新的残差注意力模块，以该模块为基础构建的双分支预测网络，通过对预测打乱顺序这一代理任务的学习，有效提高了模型捕捉和学习深层正常特征的能力。同时双分支结构的设计，能使得每个预测分支专注于解决各自的预测任务，进一步提高了预测的准确性；

（3）本发明针对无监督视频异常检测检测任务的特点，提出了自选择学习策略，能显著减少异常事件对模型的影响，使模型能专注于建模正常特征，大大提高了无监督视频异常检测的精度。

本发明构建了基于全新残差注意力模块的双分支顺序预测网络，该网络能有效捕捉和学习深层正常特征，结合提出的自选择学习策略，大幅降低了异常事件对模型的负面影响，能使无监督视频异常检测的精度得到显著提升。

附图说明

图1为本发明视频异常检测的流程图。

图2为本发明时空立方体的提取流程图。

图3为本发明拼图立方体的构建流程图。

图4为本发明全新残差注意力模块的网络模型结构图。

图5为本发明视频异常检测的网络模型结构图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明是一种基于残差注意力块和自选择学习结合的视频异常检测方法，该视频异常检测方法具体包括如下步骤：

S4：对模型先进行5轮的热启动训练，即两个预测分支的交叉熵损失跳过自选择学习阶段，直接执行步骤6中的梯度反向传播步骤；

S9：对所述S8中的两个预测得分进行整合，获得待测时空立方体最终的对象预测得分，对一帧待测视频图像中多个对象预测得分进行比较，取最小的对象得分作为最终的视频帧异常分数，对所有视频帧异常分数进行比较，异常分数偏低的视频帧判定为异常视频帧，从而实现视频异常检测；

实施例一

A、试验条件

1、实验数据库

本实施例在Ped2、Avenue和ShanghaiTech三个数据集上进行训练和测试。这三个数据集原先为半监督视频异常检测所设计，因此为适应无监督视频异常检测的需要，对数据集进行了重新划分，划分后的详细介绍见如下表1。

表1 数据集的详细介绍

2、实验参数设置

模型固定参数设置如下表2所示：

表2 模型固定参数

具体的，视频异常检测方法包括如下步骤：

S1：采集原始视频构建训练集，本实施例在常用的Ped2、Avenue和ShanghaiTech数据集上分别进行了实验，利用对象检测器提取视频帧中的对象，构建时间-空间立方体即时空立方体，如图2所示，其构建步骤如下：

S1-3：将提取的图像块以时间顺序堆叠，构成时间-空间立方体即时空立方体，其代表当前视频帧的一个基本的对象事件；

S2：随机打乱所述S1中时空立方体的空间或时间顺序，分别构建空间拼图立方体和时间拼图立方体，如图3所示，拼图立方体的构建过程具体如下：

S2-2：对于一个时空立方体，在保持其空间顺序的同时，对图像的时间顺序进行打乱，构成时间拼图立方体；

S3：利用S2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型：空间预测分支和时间预测分支。两个预测分支的任务分别是预测被打乱的空间顺序和时间顺序，双分支均具有相同的结构，即均由连续多个全新残差注意力模块构建而成，两个预测分支均使用交叉熵损失指导训练过程。

如图4所示，全新残差注意力模块的组成结构为：其由残差模块、注意力模块和跳跃连接三部分组成。残差模块由2个3D卷积层、2个3D实例归一化层和1个ReLu激活函数构成；注意力模块包括1个全局池化层、2个全连接层、1个ReLu激活函数和1个Sigmoid激活函数；跳跃连接直接将输入残差注意力模块的特征图与卷积后的特征图相加，形成输出特征图，如果输出特征图尺寸发生变化，跳跃连接会使用步长为2的1*1卷积对输入特征图尺寸进行调整。

指导模型两个分支的训练的交叉熵损失函数

和

分别如下式：

，

其中，

和

是计算交叉熵损失操作符，

和

分别为打乱后的空间顺序和模型预测的空间顺序，

和

分别为打乱后的时间顺序和模型预测的时间顺序；

S4：对模型先进行5轮的热启动训练，即两个预测分支的交叉熵损失跳过自选择学习阶段，直接执行S6中的梯度反向传播操作；

所述S5中自选择学习策略的具体步骤如下：

S5-1：对于两个空间和时间预测分支的训练样本损失集

和

，按照从低到高的顺序分别对其进行排序，公式如下：

，

其中，

是排序操作符，

和

分别是排序后的样本损失集。

S5-2：两个预测分支分别根据选择因子

和

，计算选择的损失数量，公式如下：

，

其中，其中，

是向上取整操作符，

和

分别表示样本损失集

和

的样本数量，

和

S5-3：在应用自选择策略学习前，每一轮模型训练的目标函数

为：

，

其中，

是最小化操作符，

和

分别是样本损失集

和

第

个样本损失。

在应用自选择学习策略后，每一轮模型训练的目标函数

被改变如下是：

，

其中，

和

分别是排序后的样本损失集

和

第

个样本损失。

S6：所述S5步骤后剩余的样本损失参与梯度反向传播过程，更新网络参数，经过多轮迭代训练，得到最终的顺序预测模型，如图5所示；

S7：对待测视频进行S1中的对象提取操作，获得待测时空立方体；

S9：对所述S8中的两个预测得分进行整合，获得待测时空立方体最终的对象预测得分，其得分

计算公式如下：

，

其中，

和

分别是空间预测分支和时间预测分支的预测分数，

和

分别是权重系数。

对一帧待测视频图像中多个对象预测得分进行比较，取最小的对象得分作为最终的视频帧异常分数，对所有视频帧异常分数进行比较，异常分数偏低的视频帧判定为异常视频帧。

B、试验结果评价标准

为了效果评估的公平性，和大多数视频异常检测检测的工作一样，本发明选择受试者工作特征曲线下的面积（AUC）作为评价指标，其反映了预测的正常视频帧得分排在异常视频帧得分前面的概率，AUC的值越高，模型的效果越好。

C、对比试验方案

本实施例在Ped2、Avenue和ShanghaiTech三个数据集上与其他目前前沿的异常检测方法进行了对比，对比结果如表3所示。

表3 视频异常检测效果对比 AUC（%）

STL-RANet是本发明提出的视频异常检测方法，在表3中我们可以看到，相比于前沿的方法，本发明的方法在三个数据集上的效果均实现了最好的效果。在Ped2和Avenue数据集上相比于效果第二的方法分别获得了1.4%和3.2%的效果提升。在ShanghaiTech数据集上，本发明的视频异常检测方法首次突破了80%，效果达到了80.9%。除此之外，与半监督的方法对比，本发明的方法的效果依然具有非常不错的效果。除此之外，本发明的方法不需要人工筛选数据集，可以避免大量的人工和时间成本，因此，本发明的方法相比于半监督的方法具有更大的优势。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于残差注意力块和自选择学习结合的视频异常检测方法，其特征在于：所述视频异常检测方法包括如下步骤：

步骤1：收集原始视频数据，利用对象检测器，提取前后若干视频帧的对象构建时间-空间立方体即时空立方体；

步骤2：随机打乱步骤1中时空立方体的空间或时间顺序，分别构建空间拼图立方体和时间拼图立方体；

步骤3：利用步骤2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型：空间预测分支和时间预测分支，其中所述空间预测分支和所述时间预测分支均使用交叉熵损失指导训练过程；

步骤4：对模型先进行5轮的热启动训练，即空间预测分支和时间预测分支的交叉熵损失跳过自选择学习阶段，直接执行步骤6的梯度反向传播步骤；

步骤5：在步骤4中的热启动训练之后，其后的每一轮训练过程中，对于一个批次的训练样本损失，利用自选择学习策略分别对步骤3中两个分支的交叉熵损失进行自选择学习，剔除可疑的异常样本损失；

步骤6：所述步骤5后剩余的样本损失参与梯度反向传播过程，更新网络参数，经过多轮迭代训练，得到最终的顺序预测模型；

步骤7：对待测视频进行步骤1中的对象提取操作，获得待测时空立方体；

步骤8：对于步骤7获得的待测时空立方体，不打乱其空间顺序和时间顺序，直接输入到步骤6训练得到的最终顺序预测模型中，通过比较，取模型所预测顺序得分的最小值，获得待测时空立方体的空间和时间预测得分；

步骤9：对步骤8中的两个预测得分进行整合，获得待测时空立方体最终的对象预测得分，对一帧待测视频图像中多个对象预测得分进行比较，取最小的对象得分作为最终的视频帧异常分数，对所有视频帧异常分数进行比较，异常分数偏低的视频帧判定为异常视频帧，从而实现视频异常检测。

2.根据权利要求1所述的基于残差注意力块和自选择学习结合的视频异常检测方法，其特征在于：步骤3中，顺序预测模型的所述空间预测分支和所述时间预测分支分别预测被打乱的空间顺序和时间顺序，所述空间预测分支和所述时间预测分支具有相同的结构，均由连续多个全新残差注意力模块构建而成。

3.根据权利要求2所述的基于残差注意力块和自选择学习结合的视频异常检测方法，其特征在于：所述全新残差注意力模块由残差模块、注意力模块和跳跃连接三部分组成，所述残差模块由2个3D卷积层、2个3D实例归一化层和1个ReLu激活函数构成，所述注意力模块包括1个全局池化层、2个全连接层、1个ReLu激活函数和1个Sigmoid激活函数，所述跳跃连接直接将输入残差注意力模块的特征图与卷积后的特征图相加，形成输出特征图。

4.根据权利要求1或3所述的基于残差注意力块和自选择学习结合的视频异常检测方法，其特征在于：步骤3中所述空间预测分支和所述时间预测分支训练过程中使用的交叉熵损失函数具体为：