CN114841312B

CN114841312B - 一种基于自适应图卷积网络的弱监督视频异常检测方法

Info

Publication number: CN114841312B
Application number: CN202210326905.2A
Authority: CN
Inventors: 曹聪琦; 张馨; 张艳宁; 王鹏; 张世周
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2024-02-27
Anticipated expiration: 2042-03-30
Also published as: CN114841312A

Abstract

本发明公开了一种基于自适应图卷积网络的弱监督视频异常检测方法，提出一个基于弱监督的自适应图卷积网络(WAGCN)来建模视频片段之间的上下文关系，而且在生成每个片段的异常概率时，充分考虑了其他视频片段对当前片段的影响。首先结合视频特征具有的时间连续性以及空间上的相似性进行构图，充分利用了视频中异常事件时空特征间存在的关联信息。其次，提出了一个图学习层，打破人为设定拓扑结构的局限性，它基于数据自适应地提取稀疏图邻接矩阵。在两个公共数据集上进行了大量的实验证明了方法的有效性。

Description

一种基于自适应图卷积网络的弱监督视频异常检测方法

技术领域

本发明属于视频监控技术领域，具体涉及一种弱监督视频异常检测方法。

背景技术

随着人们的安全意识逐渐提高，监控摄像日益普及，迫切需要开发一种能够自动检测出异常事件并发出警报的技术，实现高效准确的公共安全管理。异常行为是指那些外观或者动作不同于常见模式的行为，例如打架等行为。这些异常行为通常并不会单独发生，而是直接夹杂在正常的行为活动之中，具有罕见性和辨识的困难性。视频异常检测，作为具有挑战性的问题之一，已被广泛研究多年。最普遍的方法为单分类法，在正常数据集下进行训练，使模型能够较好地拟合正常模式，这样在异常发生时会有较强的响应。但是现实世界中的事件是复杂多样的，数据集不可能包含所有的正常情况，易产生误报。随着弱监督学习算法的发展，另一种有效的方法是使用包含正常和异常视频的弱标记训练数据来训练二元分类器。对正常和异常视频的联合训练可以很好地提高模型的异常识别能力，仅对视频级别进行标记就可以大大减少对训练数据集进行细粒度人工标注所需的时间和精力。在之前的工作中，弱监督异常检测问题被视为多实例学习任务。文献1【Waqas Sultani，ChenChen，and Mubarak Shah，“Real-World Anomaly Detection in Surveillance Videos，”in Proceedings of the IEEE conference on computer vision and patternrecognition，2018，pp.6479-6488.】构建了一个大规模的异常数据集，并提出了使用深度多实例学习排序损失来分离异常实例和正常实例的异常分数。随后，基于此提出了几种改进的方法。文献2【Zhihua Zhou，Yuyin Sun and Yufeng Li，“Multi-instance learningby treating instances as non-iid samples，”in Proceedings of the 26th annualinternational conference on machine learning，2009.】提出在多示例学习中各个示例并不是独立同分布的，它们之间存在一定的关系，学习并利用这种关系将更好地表达视频的动态性特征，更适合于多样性视频的异常事件检测。然而，上述工作忽略了视频片段间的时空联系。

近年来，一些工作在图上应用图卷积网络(GCNs)来建模不同节点之间的关系，并学习计算机视觉的强大表示。文献3【J.-X.Zhong，N.Li，W.Kong，S.Liu，T.H.Li，and G.Li，“Graph convolutional label noise cleaner：Train a plug-and-play actionclassifier for anomaly detection，”in Proceedings of the IEEE conference oncomputer vision and pattern recognition，2019，pp.12237-1246.】利用图卷积网络进行时间关系建模，对异常视频中的正常片段进行去噪，用得到的伪标签训练三维卷积神经网络进行异常检测。然而，尽管在训练阶段捕捉到了完整视频的长距离时间依赖性，但在测试阶段模型只使用了当前信息。而且去噪过程可能会将异常清理，造成信息丢失，从而导致异常事件的识别与定位不够准确。文献4【Peng Wu，Jing Liu，Yujia Shi，Yujia Sun，Fangtao Shao， Zhaoyang Wu，and Zhiwei Yang，“Not only look，but also listen：Learning multimodal violence detection under weak supervision，”in EuropeanConference on Computer Vision， 2020，pp.322-339.】在此基础上改进算法，提出了一个包含三个并行分支的神经网络分别捕获长期依赖关系，局部位置关系和预测得分的接近度来描述视频片段之间的不同关系。然而，三个独立分支不能有效建模视频中耦合在一起的多重关系并且导致迭代优化速度慢。此外，图的邻接矩阵中没有可学习的参数，而自定义的图可能不适合异常检测任务。

已有工作在使用图卷积网络建模时间上下文信息时存在以下挑战，(1)仅采用一种网络结构建模一种类型的关系，或者采用多条独立分支分别建模不同类型的关系，无法有效建模视频内部耦合在一起的多重关系。(2)大多数基于图卷积网络的方法忽略了自定义的图结构不是最优的，应该在训练过程中更新的事实。

发明内容

为了克服现有技术的不足，本发明提供了一种基于自适应图卷积网络的弱监督视频异常检测方法，提出一个基于弱监督的自适应图卷积网络(WAGCN)来建模视频片段之间的上下文关系，而且在生成每个片段的异常概率时，充分考虑了其他视频片段对当前片段的影响。首先结合视频特征具有的时间连续性以及空间上的相似性进行构图，充分利用了视频中异常事件时空特征间存在的关联信息。其次，提出了一个图学习层，打破人为设定拓扑结构的局限性，它基于数据自适应地提取稀疏图邻接矩阵。在两个公共数据集上进行了大量的实验证明了方法的有效性。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：特征提取；

训练集有N个训练视频和相应的弱监督标签/>其中y_n∈{0，1}， y_n＝1表示视频V_n包含至少一个异常片段，但开始和结束时间未知，y_n＝0表示视频V_n里全都是无异常片段；

在每一个视频V_n被送入特征提取器之前，将视频V_n分成固定数量的不重叠的时间片段，用T_n表示片段的数量；采用预训练的神经网络作为特征提取网络提取视频V_n外观和运动信息，构成特征矩阵X_n，X_n的维度为T_n×D维，D表示片段特征的维度；

步骤2：构造全局图模块；

步骤2-1：特征相似图；

首先将特征矩阵X_n经过一个全连接层压缩特征维数；

用图学习层构建一个特征相似图F；采用公式(1)表示视频中每两个片段之间的关系；由于片段之间的邻接矩阵是非负的，用一个归一化的指数函数将相似度约束在 (0，1]的范围内；因此，特征相似图的邻接矩阵A^F被定义为：

其中，W₁和W₂是维度为d×d的权重参数，随着反向传播而更新，所以，A^F的元素在训练过程中与其他模型参数一起进行优化；

步骤2：时间连续图；

时间连续图T直接建立在视频的时间结构上，时间连续图T的邻接矩阵A^T∈R^N×N只依赖于片段的时间位置：

对于第j个片段，离第i个片段越近，分配给它的权重越大，可以更好地反映该段对第i个片段的影响；

步骤3：图卷积模块；

用图卷积网络来建模视频片段之间的关系；对于图卷积网络第k层，图卷积的结果为：

X^k＝σ(W^kX^k-1(A^F+A^T))+X^k-1 (3)

其中是所有视频片段在图卷积网络k-1层的特征，d_m是特征维度，为可训练的参数矩阵，σ为激活函数；

此外，给每个层添加了残差连接，以解决图卷积网络的过平滑问题；如果输入通道的维度与输出通道的维度不一致，则在残差连接中插入一个1×1的卷积，将输入转化为与输出一致的通道维度；

步骤4：损失函数；

使用k-max损失函数；

具体来说，一个包含T_n个片段的视频V_n通过预训练的特征提取器得到T_n×D的特征矩阵F，然后输入图卷积网络得到视频V_n的异常得分选择s中的前m个元素表示其中/>最终的分类损失是预测的标签和训练视频上的真值之间的二元交叉熵值，它由以下公式给出：

优选地，所述预训练的神经网络为在Kinetics数据集上预训练的Inflated 3D。

本发明的有益效果如下：

本发明提出了一个用于视频异常检测的自适应图卷积网络。该方法在考虑了视频片段时空特征间的相似性和片段间的时间连续性的情况下构建了一个全局图。此外，引入了一个图学习层来自适应地构建视频中各片段之间的连接，可以有效地捕捉视频片段之间的时空关系，并增强当前的时间特征。在两个典型的异常数据集上进行的大量实验表明，所提出的方法在视频异常检测方面取得了较高的性能。

附图说明

图1是本发明方法框架图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了一种自适应的图卷积网络来克服现有技术中的挑战，框架如图1所示。对于背景技术的挑战(1)，用时间连续图来刻画一个事件发生区间内的特征关联关系，特征相似图来表达有明确异常事件视频片段特征的关联关系。然而单一的时间连续图卷积网络和单一特征相似图卷积网络对于准确地进行异常事件检测和定位都不是最优的。为了更好地利用视频片段间的内在关联关系，本发明综合考虑这两个角度共同构建一个全局图进行异常事件的时空特征学习。

对于挑战(2)，在邻接矩阵的学习过程中，打破人为设定的局限性，同时考虑视频片段时空特征的相似度以及其他潜在上下文语义关系，学习一个视频内容自适应的图连接矩阵。此外，图卷积网络存在过平滑问题，所有节点的表示都会收敛到一个平稳点，使它们与输入特征无关，并导致梯度消失，考虑加了入残差连接。

一种基于自适应图卷积网络的弱监督视频异常检测方法，包括如下步骤：

步骤1：特征提取；

在每一个视频V_n被送入特征提取器之前，将视频V_n分成固定数量的不重叠的时间片段，用T_n表示片段的数量；采用在Kinetics数据集上预训练的Inflated 3D(13D)作为特征提取网络提取视频V_n外观和运动信息，构成特征矩阵X_n，X_n的维度为T_n×D维， D表示片段特征的维度；

步骤2：构造全局图模块；

异常事件是发生在一段连续的时间内以及会有长时间一致的行为模式。因此，为了更好的建模视频的时间关系，更好地表达视频的动态性特征，结合视频片段时空特征上的相似度以及视频片段时间上的接近度进行构图。

步骤2-1：特征相似图；

来自特征提取器的特征首先经过一个全连接层压缩特征维数。本发明提出用图学习层构建一个特征相似图F，来自适应地提取片段之间的时空相似度。考虑捕捉动态的时空依赖关系。两个连接节点的权重不是直接根据结点输入自定义的，而是随着模型的训练动态地调整。一旦模型用于在线学习，图邻接矩阵随着模型的参数被新的训练数据所更新也可以自适应地变化。

首先将特征矩阵X_n经过一个全连接层压缩特征维数；

采用公式(1)表示视频中每两个片段之间的关系；由于片段之间的邻接矩阵是非负的，用一个归一化的指数函数将相似度约束在(0，1]的范围内；因此，特征相似图的邻接矩阵A^F被定义为：

步骤2：时间连续图；

对于大部分异常视频而言，并不是所有异常段类似于爆炸事件产生得那么剧烈，大部分异常事件需要一个起伏波动的过程时间，时间连续性有利于基于视频的任务。时间连续图T直接建立在视频的时间结构上，时间连续图T的邻接矩阵A^T∈R^N×N只依赖于片段的时间位置：

步骤3：图卷积模块；

为了探索和利用视频片段之间的关系，用图卷积网络来建模视频片段之间的关系；对于图卷积网络第k层，图卷积的结果为：

X^k＝σ(W^kX^k-1(A^F+A^T))+X^k-1 (3)

步骤4：损失函数；

每个视频只有正常或异常的视频级标签。显然，在异常视频中具有较大异常得分的片段更可能是异常片段，而在正常片段中具有较大异常得分的片段仍然是正常片段。为了扩大弱监督下异常片段和正常片段的类间距离，使用k-max损失函数；

具体实施例：

1、数据集

UCF-Crime是由长时间未经剪辑的监控视频构成的大规模数据集。涵盖13个真实世界的异常，包括虐待，逮捕，纵火，袭击，交通事故、入室盗窃、爆炸、打架、抢劫、枪击、偷窃、商店盗窃和故意破坏，这些异常现象都对公共安全有重大影响。数据集包含1,900个未剪辑的长视频，其中包括1,610个训练视频和290个测试视频，训练视频只有视频级别的标签。数据集涵盖了不同的光条件、图像分辨率和相机在复杂场景下的姿势，因此是非常具有挑战性的。

ShanghaiTech是包含437个视频的中型数据集，平均每个视频726帧。数据集包括在上海科技大学收集的13个场景中的130个异常事件，具有复杂的光线和摄像机视角，异常事件包含校园里不寻常的模式，如骑自行车或者开汽车。为了使其适用于评估弱监督异常检测方法，将数据分成两个子集：训练集由175个正常视频和63个异常视频组成，测试集包含155个正常视频和44个异常视频。

2、评估标准

参照以前的工作，使用帧级接收者操作曲线(receiver operatingcharacteristic curve， ROC)和相应的曲线下面积(area under curve，AUC)来评估本发明方法和比较方法的性能，AUC值越高模型的检测效果越好。

3、实验细节

每个视频被分为32个视频片段，即T＝32。模型中的全连接层有512个节点，图卷积网络层分别有128、32和1个节点，其中除最后一层外，每一层后面都有一个ReLU 激活函数和一个dropout函数。最后一层后是一个Sigmoid激活函数。从预训练特征提取网络I3D的“mix 5c”层中提取2048维的特征。采用Adam优化器进行训练，权重衰减为 0.0005，学习率为0.001。批量数为64，每个小批次由随机选择的32个正常和32个异常视频样本组成。

4、实验结果和讨论

在两个数据集上将我们的方法与目前已有的方法进行比较。在UCF-Crime数据集上的结果如表1所示，比较结果表明，使用相同的I3D-RGB特性，我们的方法优于之前基于图卷积网络的方法，高于文献3的方法1.42％，高于文献4的方法0.7％。此外，本发明方法给UCF-Crime数据集增加了时空标记，并且训练卷积三维网络(C3D)和非局部网络(NLN)进行异常检测。这些结果验证了本发明方法比以前的工作更有效。

表1：在UCF-Crime上的AUC结果

表1中，带的结果是用I3D特征重新复现的。

ShanghaiTech数据集的帧级AUC结果见表2。与之前的弱监督学习方法相比，本发明方法取得了更好的性能。本发明方法性能比基于图卷积网络的弱监督方10.58％。这表明本发明方法图卷积网络模块能够更有效地捕捉时间依赖性。使用相同的特征(即结合I3DRGB和I3D Flow)，本发明方法比以前基于多实例学习方法的最佳性能高 4.6％。

表格1：在ShanghaiTech上的AUC结果

表2中，带的结果是用I3D特征重新复现的。

5、消融实验

为了验证本发明提出的图邻接矩阵A^F构造方法的有效性，用不同的方法构造图邻接矩阵进行了实验研究。表3显示了不同形式的A^F的实验结果。使用的Dynamic-A1如公式1所示，Dynamic-A2如公式5所示，Global-A假设邻接矩阵是一个参数矩阵，它包含N²个参数。Csim-A是由片段特征的余弦相似度分数计算的。Jsim-A是由片段特征的杰卡德相似性得分计算的。根据表3观察到：动态构建的邻接矩阵A^F实现了最佳性能。以不同的方式动态构建邻接矩阵对模型的性能影响不大，但都比一开始就固定构建的邻接矩阵要好。如果图的结构完全不依赖于结点的输入特征，最后的结果就会差一些，可能是因为设计的图学习层的在学习中是有局限性的。

表格2：在UCF-Crime数据集上不同图邻接矩阵A^F构造方法的AUC结果

为了验证构建全局图的有效性，构建了特征相似图和时间连续图来训练两个独立的分支并计算两个独立分支结果的平均值。在UCF-Crime数据集上的性能比较见表4，可以看出构造全局图更能表达片段间耦合在一起的复杂关系。

表格3：在UCF-Crime数据集上不同图的AUC结果

Claims

1.一种基于自适应图卷积网络的弱监督视频异常检测方法，其特征在于，包括如下步骤：

步骤1：特征提取；

训练集有N个训练视频和相应的弱监督标签/>其中y_n∈{0,1}，y_n＝1表示视频V_n包含至少一个异常片段，但开始和结束时间未知，y_n＝0表示视频V_n里全都是无异常片段；

步骤2：构造全局图模块；

步骤2-1：特征相似图；

首先将特征矩阵X_n经过一个全连接层压缩特征维数；

用图学习层构建一个特征相似图F；采用公式(1)表示视频中每两个片段之间的关系；由于片段之间的邻接矩阵是非负的，用一个归一化的指数函数将相似度约束在(0,1]的范围内；因此，特征相似图的邻接矩阵A^F被定义为:

步骤2：时间连续图；

步骤3：图卷积模块；

X^k＝σ(W^kX^k-1(A^F+A^T))+X^k-1 (3)

其中是所有视频片段在图卷积网络k-1层的特征，d_m是特征维度，/> 为可训练的参数矩阵，σ为激活函数；

步骤4：损失函数；

使用k-max损失函数；

2.根据权利要求1所述的一种基于自适应图卷积网络的弱监督视频异常检测方法，其特征在于，所述预训练的神经网络为在Kinetics数据集上预训练的Inflated 3D。