CN114092856A

CN114092856A - 对抗与注意力联合机制的视频弱监督异常检测系统及方法

Info

Publication number: CN114092856A
Application number: CN202111372389.9A
Authority: CN
Inventors: 张凡; 李慧斌; 李刚; 何平
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-25
Anticipated expiration: 2041-11-18
Also published as: CN114092856B

Abstract

对抗与注意力联合机制的视频弱监督异常检测系统及方法，对训练视频进行预处理，得到包括正常视频特征和异常视频特征的视频特征；将异常视频特征通过FGSM算法进行对抗，得到对抗样本，针对每个异常视频特征，当分类网络对对抗样本误分类时，停止，否则迭代至设定值，然后与包括异常视频特征和正常视频特征的视频特征送入异常得分模块进行训练，得到训练好的模型，训练过程中利用损失函数进行约束；利用测试数据对训练好的模型进行性能评估，完成视频弱监督异常检测。在本发明中结合注意力机制选择了多个实例，增大了对异常片段的关注性，并且在本发明中加入了对抗样本从而使网络更加鲁棒。

Description

对抗与注意力联合机制的视频弱监督异常检测系统及方法

技术领域

本发明属于视频异常检测技术领域，具体涉及一种对抗与注意力联合机制的视频弱监督异常检测方法。

背景技术

视频异常检测方法是自动查找视频中是否有异常事件(如暴力、抢劫、车祸、自然灾害等不符合当前视频场景下正常逻辑的事件)发生的重要检测手段。当视频较大较多时，对视频逐帧标注难以完成，因此只标注视频级别标签的弱监督方法成为实现异常检测的重要手段。本发明提出了一种基于多实例学习下对抗与注意力联合机制的视频弱监督异常检测方法，利用多实例学习方法实现弱监督检测，通过对抗样本数据增强的方法可以增加模型的鲁棒性，利用注意力机制筛选视频中重要事件部分可以有效提高模型检测精度。通过上述检测方式，可对视频进行逐帧检测，最终达到视频帧级别的异常事件检测效果。

视频异常检测技术在自主监控中得到应用，是监控异常事件发生的重要方法。视频异常检测的主要目的是判断检测视频中是否存在异常事件，并定位发生异常事件的时间段，其中异常事件是相对视频正常背景而言，例如正常环境下突发暴力事件或行人路段车辆行驶等，示例如图1。现有技术主要包括两大类：一是基于无监督的异常检测，这类方法不需要对训练数据提前标注，通过对正常视频建模在测试时判断测试视频是否偏离模型指标；二是基于弱监督的异常检测，这类方法只需要给训练视频一个对应的视频级别标签，通过对正常和异常视频共同的建模，可在测试时判断视频各帧的异常概率。

目前，存在大量的视频异常检测技术，其中弱监督检测只需简单给定视频级别标签就可得到相比于无监督方法更精准的帧级别检测效果，但还存在以下不足：

(1)弱监督检测中，由于只存在视频级别标签，异常视频中的正常片段也被赋予异常标签，建模时模型会受错误标签干扰从而减低精度。

(2)目前采用多实例学习的弱监督异常检测中，大部分基于实例之间独立同分布的假设，很少考虑实例特征的相关关系，但实例来自同一个视频，其相关性不能忽略。

(3)当前常见训练集中异常片段出现在异常视频中的占比较小，但现有方法没有很好的重视异常片段部分。

发明内容

为了解决上述现有技术中存在弱监督异常检测异常片段重视程度不高的技术问题，本发明的目的是提供一种对抗与注意力联合机制的视频弱监督异常检测系统及方法。

为实现上述目的，本发明采用的技术方案为：

对抗与注意力联合机制的视频弱监督异常检测方法，包括以下步骤：

对包括正常视频和异常视频的训练视频进行预处理，得到包括正常视频特征和异常视频特征的视频特征；

将异常视频特征通过FGSM算法进行对抗，得到对抗样本，针对每个异常视频特征，当分类网络对对抗样本误分类时，停止，否则迭代至设定值，得到异常视频的对抗样本；

将异常视频特征的对抗样本与包括异常视频特征和正常视频特征的视频特征送入异常得分模块进行训练，得到训练好的模型，训练过程中利用损失函数进行约束；

利用测试数据对训练好的模型进行性能评估，完成视频弱监督异常检测。

进一步的，对包括正常视频和异常视频的训练视频进行预处理，得到包括异常视频特征和正常视频特征的视频特征包括以下步骤：

将包括正常视频和异常视频的训练视频按照对应码率转为视频帧，每帧在中心、左上、右上、左下与右下裁剪出320*240大小的图片，对裁剪的五张图片进行水平翻转，每张视频帧对应10张图片；

对10张图片采用预训练的I3D模型提取视频特征，得到包括异常视频特征和正常视频特征的视频特征。

进一步的，损失函数包括分类损失函数、特征损失函数、对抗样本损失函数和平滑损失函数。

进一步的，分类损失函数l(x,y)为：

l(x,y)＝mean(L)＝mean({l₁,…,l_N}^T,l_n＝y_n·logx_n+(1-y_n)·log(1-x_n)

其中，x为视频异常得分，y为视频真实标签，N为设置的批处理数，L为批处理中所有视频的交叉熵损失，l₁为批处理中第一个视频对应的交叉熵损失，l_N为批处理中第N个视频对应的交叉熵损失，y_n为批处理中第n个视频对应的真实标签，x_n为批处理中第n个视频对应的异常得分。

进一步的，特征损失函数l(f_a,f_n)为：

l(f_a,f_n)＝mean(L)＝mean({l₁,…,l_n…,l_N}^T,

其中，f_a为异常视频所选特征，f_n为正常视频所选特征，γ为特征距离，N为设置的批处理数，

为批处理中第n个异常视频所选特征，

为批处理中第n个正常视频所选特征。

进一步的，对抗样本损失函数

为：

其中，

是对抗样本异常得分，x为干净样本异常得分，m为视频包含的实例数，N为设置的批处理数，

为第i个实例的对抗样本异常得分，x_i为第i个实例的干净样本异常得分。

进一步的，平滑损失函数l(x)为：

l(x)＝mean(L)＝mean({l₁,…,l_n…,l_N}^T,

其中，x为干净样本异常得分，m为视频包含的实例数，N为设置的批处理数，x_i+1为第i+1个实例的干净样本异常得分，x_i为第i个实例的干净样本异常得分。

一种对抗与注意力联合机制的视频弱监督异常检测系统，包括视频预处理模块、异常得分模块以及对抗样本生成模块；

视频预处理模块，用于对包括正常视频和异常视频的训练视频进行预处理，得到包括异常视频特征和正常视频特征的视频特征；

异常得分模块用于对视频特征进行实例级异常得分处理得到实例级异常得分，对视频特征进行注意力机制处理，得到实例重要程度，对实例级异常得分和实例重要程度进行视频级异常得分处理，得到视频级异常得分；当视频级异常得分大于0.5时，视频级伪标签为1，否则，视频级伪标签为0。

对抗样本生成模块，用于对异常得分模块进行预训练，得到预训练网络；将异常视频特征通过FGSM算法利用预训练网络进行对抗，得到对抗样本和视频级伪标签，通过伪标签和真实标签判断对抗样本是否造成误分类；针对每个异常视频特征当分类网络对对抗样本误分类时，停止，否则迭代至设定值，得到异常视频的对抗样本；将异常视频的对抗样本与包括异常视频特征和正常视频特征的视频特征送入异常得分模块进行训练，得到训练好的模型，训练过程中利用损失函数进行约束；测试数据对训练好的模型进行性能评估，完成视频弱监督异常检测。

进一步的，异常得分模块包括实例级异常得分模块、注意力模块与视频级异常得分模块；

实例级异常得分模块，用于将包括异常视频特征和正常视频特征的视频特征平均分为32份，每份代表一个实例，得到训练视频特征维度32*10*2048，将训练视频特征维度32*10*2048输入到视频异常打分模块中，得到1*32维度的分数，每个分数对应相应位置的实例异常程度；

注意力机制模块，用于将训练视频特征维度32*10*2048输入到注意力机制模块，得到1*32维度的分数，每个分数对应相应位置的每个实例重要程度；

视频级异常得分模块，用于根据注意力模块得到每个实例重要程度，选出重要程度排名前三的对应实例，将重要程度排名前三的对应实例的异常得分计算均值，得到视频级异常得分，当视频级异常得分大于0.5时，视频级伪标签为1，否则，视频级伪标签为0。

与现有技术相比，本发明具有的有益效果为：

在本发明中结合注意力机制选择了多个实例，增大了对异常片段的关注性，并且在本发明中加入了对抗样本从而使网络更加鲁棒，克服了弱监督视频异常检测工作通常只选择表现最突出的实例，并且没有考虑模型的鲁棒性的问题。

本发明具有如下特点：

(1)高检测效率。由于异常检测常应用于视频监控工作中，与传统的人工检测异常对比，通过系统自动查找监控视频是否发生异常事件效率更高，大大减少人工投入与时间损失。

(2)高检测准确率。通过加入注意力机制模块大大增强了对异常片段的关注度，从而使模型更加易于学得正常与异常片段的差异，是模型对异常打分更加接近真实标签，提升准确率。

(3)高模型鲁棒性。模型训练中加入异常视频的对抗样本，使得模型在学习检测的过程中挖掘出正常视频与异常视频间更丰富的语义信息，从而提高了模型对新视频的检测能力，使得模型效果更加鲁棒。

附图说明

图1为正常、异常事件示意图。其中，(a)为异常视频中正常片段的某一帧，(b)为异常视频中异常片段的某一帧。

图2为本发明的流程图。

图3为实例级异常得分模块和注意力模块的流程图。

图4为，其中，(a)为异常视频的得分测试结果，(b)为图(a)中b处对应的图片，(c)为图(a)中c处对应的图片，(d)为图(a)中d处对应的图片。

具体实施方式

下面结合附图对本发明进行详细说明。

使用基于多实例学习的弱监督异常检测方法，在此基础上采用伪标签标注赋予异常视频中正常片段标签以用来减少错误标签干扰，通过注意力机制增大对异常视频中异常片段的关注，同时加入对抗样本来提升模型的鲁棒性。参见图1中的(a)和(b)，图(a)为异常视频中正常片段的某一帧，图(b)为异常视频中异常片段的某一帧。

本发明提供一种基于多实例学习下对抗与注意力联合机制的视频弱监督异常检测方法。一般来说，基于多实例学习的视频弱监督异常检测方法常由于异常片段所占部分较少建模时容易受正常片段的影响导致测试结果降低。本发明利用注意力机制加大对异常片段的关注，同时添加对抗样本的离线生成与混合训练模块在增加数据样本的同时提升模型鲁棒性。

整个方法的流程如图2所示，具体实施步骤如下：

1.视频预处理模块

视频预处理模块用于对公开数据集中的训练视频(以上海科技为例)进行预处理操作：首先将视频转为视频帧；然后对视频帧进行裁剪；最后对裁剪部分提取视频I3D特征。具体步骤如下：

(1)视频帧预处理

将训练视频(包括正常视频和异常视频)按照对应码率转为视频帧，每帧在中心、左上、右上、左下、右下五个部分裁剪出320*240大小的图片，对裁剪的五张进行水平翻转，最终每张视频帧对应10张图片。

(2)视频特征提取

对裁剪后的10张图片采用预训练的I3D模型提取视频特征，即每16连续帧提取出1*2048维度特征向量，视频特征包括异常视频特征和正常视频特征。

对于一个完整训练视频输入维度是T*H*W(T为帧数，H为视频帧高度，W为视频帧宽度)，经过视频预处理得到视频特征维度是T/16*10*2048。

2.异常得分模块

异常得分模块包括实例级异常得分模块、注意力模块与视频级异常得分模块。

(1)实例级异常得分模块

训练过程中采用多实例学习方法，多实例学习将一个整体作为一个包(可分为正包和负包)，并将一个包分为多个实例。当一个包中至少存在一个实例为异常，则将这个包定义为正包；当一个包中所有实例均为正常，则将这个包定义为负包。

将多实例学习方法概念转换到本发明，即将一个完整视频看作一个包，将视频分为32份，则每份代表一个实例。当32个实例中出现至少一个异常片段，则视频为异常视频，也就是正包；当32个实例中全部为正常片段，则视频为正常视频，也就是负包。

该实例级异常得分模块用于将每个视频特征平均分为32份，每份代表一个实例，于是得到训练视频特征维度32*10*2048。将训练视频特征维度32*10*2048输入到视频异常打分模块中，视频异常打分模块采用3个全连接层，回归得到1*32维度的分数，每个分数对应相应位置的实例异常程度，作为异常得分，分数在0-1间。具体流程如图3所示，以其中一组32*1*2048数据为例。

(2)注意力模块

注意力机制模块用来判断一个训练视频中每个片段的重要性，将训练视频特征维度32*10*2048输入到注意力机制模块，注意力机制模块采用3个全连接层，回归得到1*32维度的分数，具体过程参见图3，每个分数对应相应位置的实例重要程度，并将得到的32个分数归一化。

(3)视频级异常得分模块

根据注意力模块得到每个实例重要程度得分，选出重要程度排名前三的对应实例，将这三个实例的异常得分计算均值，作为最终视频级别异常得分。当视频级别异常得分大于0.5时，设置该视频级别伪标签为1，否则设置为0。

3.对抗样本生成模块

对抗样本生成采用FGSM(快速梯度符号法，Fast Gradient Sign Method)算法，该算法通过在干净的视频特征上添加由网络梯度生成的噪声而得到对抗样本。FGSM算法的核心思想是在分类网络的梯度方向上对输入特征添加扰动，使分类损失函数增大，从而使分类网络对新特征分类错误。假设异常视频特征为x∈R^m，该视频对应类标签为y，η是对特征x添加的扰动，ε是步长，J(θ,x,y)是损失函数，ΔJ_x(θ,x,y)是损失函数回传到特征x时的梯度，θ是损失函数的参数。因此，可以得到当前需添加的扰动：η＝εSign(ΔJ_x(θ,x,y))，最后通过计算得到对抗样本：

对抗样本生成模块，用于首先，对上述异常得分模块进行预训练，得到预训练网络；其次，将异常视频特征输入到预训练网络，得到视频级别伪标签和异常分数；最后，将异常视频特征通过FGSM算法利用分类网络进行对抗得到对抗样本，对抗过程中分类网络采用预训练网络，对抗过程中对抗样本会生成伪标签，采用对抗样本生成的伪标签和真实标签判断对抗样本是否造成误分类。针对每个异常视频特征，FGSM算法循环次数为设定值，设定值为10，当分类网络对对抗样本误分类时，提前停止，否则迭代至设定值(即十次)，得到最终对抗样本。

4.损失函数设置

本发明中的损失函数共包含四个部分：分类损失函数、特征损失函数、对抗样本损失函数和平滑损失函数。具体损失设置如下：

(1)分类损失函数

分类损失是指视频异常得分与真实标签间的损失，目的为使异常得分更接近真实标签，损失函数采用二元交叉熵并求平均，分类损失函数l(x,y)具体公式为：

l(x,y)＝mean(L)＝mean({l₁,…,l_N}^T,l_n＝y_n·logx_n+(1-y_n)·log(1-x_n)

(2)特征损失函数

特征损失是指一对正常视频与异常视频之间的特征损失，取每个视频得分排名前三对应的平均特征并计算两个特征之间的铰链损失，目的是为拉开正常特征与异常特征的距离，特征损失函数l(f_a,f_n)具体公式为：

l(f_a,f_n)＝mean(L)＝mean({l₁,…,l_n…,l_N}^T,

为批处理中第n个异常视频所选特征，

为批处理中第n个正常视频所选特征。

(3)对抗样本损失函数

对抗样本损失是异常视频中实例异常得分和其对应的对抗实例异常得分间的损失，目的为使对抗样本得分更接近感觉样本得分，损失函数采用L2损失，对抗样本损失函数

具体公式为：

其中，

(4)平滑损失函数

平滑损失是指对视频异常得分进行平滑约束，目的为防止分数突变，使分数更具有连续性，平滑损失函数l(x)具体公式为：

l(x)＝mean(L)＝mean({l₁,…,l_n…,l_N}^T,

因此，本发明最终损失函数为

5.模型完整训练流程

整个模型训练流程包括四部分：特征提取、干净样本预训练、对抗样本生成、对抗训练。

首先，利用I3D模型对训练视频提取特征，得到视频特征；其次，将所有训练视频送入异常得分模块得到预训练模型，此时只利用分类损失函数、特征损失函数和平滑损失函数；然后，利用对抗样本生成模块和预训练模型生成异常视频的对抗样本；最终，将异常视频的对抗样本与干净样本一起送入异常得分模块得到视频最终得分，保存此时的训练好的模型，此过程损失函数包括分类损失函数、特征损失函数、对抗样本损失函数和平滑损失函数。当进行干净样本预训练时，损失函数不包括对抗样本损失部分。

6.利用测试数据对训练好的模型进行性能评估，完成视频弱监督异常检测，并得到帧级准确率。

本发明采用上海科技大学数据集进行测试，帧级准确率达到98.16％。

为了展示模型评估效果，输入一个完整视频，利用训练好的模型评估视频每帧的异常得分，具体测试结果如图4中的(a)所示，线条表示预测分数，图4中的(b)、(c)和(d)代表高分段对应的异常事件场景：

本发明的优点在于：对模型加入注意力机制，提高模型对异常片段的重视程度，最终提高模型检测准确性。模型训练最终采用干净样本与对抗样本共同训练，提高模型检测鲁棒性。

Claims

1.对抗与注意力联合机制的视频弱监督异常检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的对抗与注意力联合机制的视频弱监督异常检测方法，其特征在于，对包括正常视频和异常视频的训练视频进行预处理，得到包括异常视频特征和正常视频特征的视频特征包括以下步骤：

3.根据权利要求1所述的对抗与注意力联合机制的视频弱监督异常检测方法，其特征在于，损失函数包括分类损失函数、特征损失函数、对抗样本损失函数和平滑损失函数。

4.根据权利要求3所述的对抗与注意力联合机制的视频弱监督异常检测方法，其特征在于，分类损失函数l(x，y)为：

l(x，y)＝mean(L)＝mean({l₁，...，l_N}^T，l_n＝y_n·logx_n+(1-y_n)·log(1-x_n)

5.根据权利要求3所述的对抗与注意力联合机制的视频弱监督异常检测方法，其特征在于，特征损失函数l(f_a，f_n)为：

l(f_a，f_n)＝mean(L)＝mean({l₁，...，l_n...，l_N}^T，

为批处理中第n个异常视频所选特征，

为批处理中第n个正常视频所选特征。

6.根据权利要求3所述的对抗与注意力联合机制的视频弱监督异常检测方法，其特征在于，对抗样本损失函数

为：

其中，

7.根据权利要求3所述的对抗与注意力联合机制的视频弱监督异常检测方法，其特征在于，平滑损失函数l(x)为：

l(x)＝mean(L)＝mean({l₁，...，l_n...，l_N}^T，

8.一种对抗与注意力联合机制的视频弱监督异常检测系统，其特征在于，包括视频预处理模块、异常得分模块以及对抗样本生成模块；

对抗样本生成模块，用于对异常得分模块进行预训练，得到预训练网络；将异常视频特征通过FGSM算法利用预训练网络进行对抗，得到对抗样本和视频级伪标签，通过伪标签和真实标签判断对抗样本是否造成误分类；针对每个异常视频特征，当分类网络对对抗样本误分类时，停止，否则迭代至设定值，得到异常视频的对抗样本；将异常视频的对抗样本与包括异常视频特征和正常视频特征的视频特征送入异常得分模块进行训练，得到训练好的模型，训练过程中利用损失函数进行约束；测试数据对训练好的模型进行性能评估，完成视频弱监督异常检测。

9.根据权利要求所述的一种对抗与注意力联合机制的视频弱监督异常检测系统，其特征在于，

异常得分模块包括实例级异常得分模块、注意力模块与视频级异常得分模块；