CN117409354B

CN117409354B - 基于三路视频流和上下文感知的视频异常检测方法及系统

Info

Publication number: CN117409354B
Application number: CN202311686387.6A
Authority: CN
Inventors: 王少华; 史洋; 刘兴波; 庞瑞英; 聂秀山; 尹义龙
Original assignee: Shandong Guozi Software Co ltd; Shandong Jianzhu University
Current assignee: Shandong Guozi Software Co ltd; Shandong Jianzhu University
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-22
Anticipated expiration: 2043-12-11
Also published as: CN117409354A

Abstract

本发明公开了一种基于三路视频流和上下文感知的视频异常检测方法及系统，涉及视频异常检测技术领域，该方法包括：获取包含多个连续视频帧的视频数据；提取视频数据中每一连续视频帧的视频帧特征，包括RGB视频流视频帧特征、光流视频流视频帧特征、跨模态视频帧特征；将多个连续视频帧的视频帧特征构成特征向量序列，将该序列输入至视频异常检测模型，该序列先进行位置编码得到位置感知的特征向量序列，再通过Transformer网络的编码器和解码器，输出序列最后帧的下一帧预测特征向量，根据预测特征向量和实际特征向量进行判断，输出视频异常检测结果。本发明通过少量样本进行训练，实现针对不同场景视频的高精度异常检测。

Description

基于三路视频流和上下文感知的视频异常检测方法及系统

技术领域

本发明涉及视频异常检测技术领域，尤其涉及一种基于三路视频流和上下文感知的视频异常检测方法及系统。

背景技术

本部分的内容仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着网络技术的发展和数据存储的普及，大量的视频数据不断涌现，这些视频数据对于人们的生活和工作都有着重要的作用。但由于视频数据具有数据量大、复杂度高、维护成本高等特点，给其管理和使用带来了很大的挑战。在实际应用中，视频数据可能会受到各种干扰而导致异常，如遮挡、噪声、失真、运动模糊等，这些异常数据不仅会影响视频的质量和观感，而且还会影响视频的分析和识别结果。因此，在视频数据的处理和应用中，首先需要对异常视频数据进行检测和处理，以保证视频数据的准确性和可靠性。视频异常检测技术能够有效地提高视频数据的使用效率和质量，对于保障视频数据应用的稳定性和准确性具有重要意义。

目前的视频异常检测方法主要包括基于传统图像处理的方法和基于深度学习的方法。其中，基于传统图像处理方法的优点是易于实现和解释，但是其性能受限于特征提取和分类器设计的质量，准确性和鲁棒性较差。基于深度学习的视频异常检测方法可以自动地学习视频的表示和特征，相对而言具有较高的准确性和鲁棒性，成为目前视频异常检测的常用方法，但是这一方法需要大量的数据和计算资源支持。通常，基于深度学习的视频异常检测方法表现良好的根本原因是拥有大规模的视频数据训练集，其对训练数据的要求较高，当视频数据训练样本较少时，难以保证异常检测的准确性。另外，考虑到从一个视频到另一个视频的异常类型各不相同，通过多种、大量的视频数据训练得到的通用异常检测模型，利用该模型进行检测，其最终检测的精确性较差。

此外，目前常见的视频异常检测方法均采用双路视频流的结构，即RGB(Red、Green、Blue, 红、绿、蓝)视频流和光流视频流。这两种视频流的有效性已在当前的工作应用中得到验证，由于RGB视频流和光流视频流属于具有不同属性的不同模态，仅仅单纯根据这两种视频流进行分析并不全面，并不能有效利用和整合RGB视频流和光流视频流之间蕴含的信息，影响对视频异常的分析与检测，使得最终检测效果较差。

发明内容

为解决上述现有技术的不足，本发明提供了一种基于三路视频流和上下文感知的视频异常检测方法及系统，利用RGB视频流和光流视频流数据，整合RGB视频流和光流视频流的跨模态信息，形成三路视频流，同时构建基于Transformer网络的异常检测模型，利用视频中的少量初始帧进行视频帧特征学习，并基于帧序列的依赖性，通过上下文感知预测下一视频帧，根据预测帧和实际帧实现视频异常检测。本发明通过少量样本训练数据训练异常检测模型，实现针对不同场景视频的高精度异常检测。

第一方面，本发明提供了一种基于三路视频流和上下文感知的视频异常检测方法。

一种基于三路视频流和上下文感知的视频异常检测方法，包括：

获取包含多个连续视频帧的视频数据；

基于特征提取网络，提取视频数据中每一连续视频帧的视频帧特征；所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征；

将一个视频帧的视频帧特征构成一个特征向量，多个连续视频帧的视频帧特征构成特征向量序列，将特征向量序列输入至视频异常检测模型中，输出视频异常检测结果；其中，特征向量序列通过线性层后进行位置编码，得到位置感知的特征向量序列，再通过Transformer网络的编码器和解码器，输出序列最后帧的下一视频帧的预测特征向量，根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断，输出视频异常检测结果。

第二方面，本发明提供了一种基于三路视频流和上下文感知的视频异常检测系统。

一种基于三路视频流和上下文感知的视频异常检测系统，包括：

视频数据获取模块，用于获取包含多个连续视频帧的视频数据；

视频帧特征提取模块，用于基于特征提取网络，提取视频数据中每一连续视频帧的视频帧特征；所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征；

视频异常检测模块，用于将一个视频帧的视频帧特征构成一个特征向量，多个连续视频帧的视频帧特征构成特征向量序列，将特征向量序列输入至视频异常检测模型中，输出视频异常检测结果；其中，特征向量序列通过线性层后进行位置编码，得到位置感知的特征向量序列，再通过Transformer网络的编码器和解码器，输出序列最后帧的下一视频帧的预测特征向量，根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断，输出视频异常检测结果。

以上一个或多个技术方案存在以下有益效果：

1、本发明提供了一种基于三路视频流和上下文感知的视频异常检测方法及系统，不仅利用RGB视频流和光流视频流数据，还将其跨模态信息整合在一起，形成三路视频流数据，基于这三路视频流数据进行学习；同时，根据视频特定的少镜头少样本学习方法进行视频异常检测，该方法在没有对数据集进行任何训练的情况下对视频数据中的少量初始帧进行学习，学习视频帧的非异常性质，并基于帧序列的依赖性，通过上下文感知预测下一视频帧，根据预测帧和实际帧实现视频异常检测。本发明通过少量样本训练数据训练异常检测模型，实现针对不同场景视频的高精度异常检测。

2、本发明利用Transformer网络作为基于预测的视频异常检测模型，充分利用其序列依赖性建模功能，在自我上下文的关注下取得了显著的效果，实现捕获视频非异常帧之间的关系和上下文，实现高精度的非异常帧预测，基于该预测帧与实际帧进行对比，实现异常帧检测。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例所述基于三路视频流和上下文感知的视频异常检测方法的整体流程图；

图2为本发明实施例中视频异常检测模型的示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于三路视频流和上下文感知的视频异常检测方法，如图1所示，包括以下步骤：

获取包含多个连续视频帧的视频数据；

通过下述内容对本实施例所提出的视频异常检测方法进行更详细的介绍。

在本实施例中，步骤S1、获取单个包含多个连续视频帧的视频数据，该视频数据可通过下式表示：；其中，/>表示单个视频数据集，/>表示视频的第/>帧视频数据(即第/>帧视频帧)，该视频共包含/>帧连续视频帧。

步骤S2、基于特征提取网络，提取视频数据中每一连续视频帧的视频帧特征。其中，该视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征。在本实施例中，通过对每一连续视频帧的三路视频流处理，获取三路视频帧特征。

步骤S2.1、提取RGB视频流视频帧特征。

如图2所示，将开源预训练的Resnet-512网络作为骨干网络，将连续视频帧输入至这一网络中，通过多层下采样，生成RGB视频流视频帧特征，为：；其中，/>表示第/>帧RGB视频流视频帧特征，/>表示Resnet-512网络，/>表示第/>帧RGB视频流视频帧特征中的第/>层特征。

步骤S2.2、提取光流视频流视频帧特征。

将开源预训练的FlowNet2作为骨干网络，将连续视频帧输入至这一网络中，通过多层下采样，生成光流视频流视频帧特征，为：；其中，/>表示第/>帧光流视频流视频帧特征，/>表示FlowNet2网络，/>表示第/>帧光流视频流视频帧特征中的第/>层特征，/>表示连续视频帧的大小。

步骤S2.3、提取整合RGB视频流和光流视频流的跨模态视频帧特征。

由于较浅/较低的特征通常包含较多的细节信息但存在过多的背景噪声，高层特征包含显著对象的清晰信息但缺乏细节，本实施例中，通过结合高层RGB视频流视频帧特征和光流视频流视频帧特征来生成初始跨模态特征，并从倒数三层开始进行特征组合和前向传播，可以描述为：；其中，/>表示第/>帧整合RGB视频流和光流视频流的初步跨模态视频帧特征中的第/>层特征，/>表示第/>帧RGB视频流视频帧特征中的第/>层特征，/>表示第/>帧光流视频流视频帧特征中的第/>层特征，/>表示逐通道级联操作，/>表示卷积层后接批量归一化(BN)层和ReLU激活功能，分别表示倒数第三层、倒数第二层和倒数第一层的层数。具体地，对于/>，(/>)对应(510，511，512)；对于/>，(/>)对应(/>，/>，/>)；对于/>，(/>)对应(1，2，3)。

进一步的，为了在跨层级和跨模态融合中突出互补信息并抑制不相关的冗余，利用前一个RGB视频流层级生成的空间注意力图来以渐进的方式指导当前层级的特征集成。因此，第层和第/>层的最终整合RGB视频流和光流视频流的跨模态视频帧特征更新为：；/>；其中，/>表示逐元素乘法，/>表示第/>层的注意力图，/>表示空间注意力操作，/>表示下采样操作。

即，首先，基于倒数三层的RGB视频流视频帧特征和光流视频流视频帧特征，通过特征组合和向前传播，生成包含三层次的初始跨模态视频帧特征；其次，针对初始跨模态视频帧特征中的每一层特征，利用前一RGB视频流层级生成的空间注意力图，通过逐元素乘法更新初始跨模态视频帧特征中当前层特征，得到更新后的跨模态视频帧特征。

考虑到RGB视频流和光流视频流属于具有不同属性的不同模态，为了有效地利用和整合RGB视频流和光流视频流，本实施例通过三流结构网络来充分捕获和利用跨模态信息。考虑到不同模态的优势和互补性，通过具有独立RGB视频流和光流视频流的三流结构，可以充分保留丰富的信息并探索不同模态的互补关系，有利于联合整合跨模态信息，后续的编码器和解码器阶段比双流结构更全面和深入。

步骤S3、将一个视频帧的视频帧特征构成一个特征向量，多个连续视频帧的视频帧特征构成特征向量序列，将特征向量序列输入至视频异常检测模型中，输出视频异常检测结果。

在本实施例中，视频异常检测模型的输入为三路视频流视频帧特征，即RGB视频流视频帧特征、光流视频流视频帧特征/>以及整合RGB视频流和光流视频流的跨模态视频帧特征/>，为了便于表示，将三路视频流信息统一表示为一个特征向量，为：；其中，/>表示帧号。

搭建基于三路视频流和Transformer的视频异常检测模型，该模型包括可学习的线性层、Transformer网络的编码器/>、Transformer网络的解码器/>和可学习线性层/>。将上述表征三路视频流信息的特征向量输入至所搭建的视频异常检测模型中，具体包括以下步骤：

步骤S3.1、特征向量构成特征向量序列，每一特征向量受制于可学习的线性层/>，获得Transformer网络所需维度的/>个特征向量。对于通过线性层生成的/>个特征向量，应用位置编码来嵌入序列位置信息，产生/>个位置感知的特征向量/>，其中每一位置感知的特征向量可表示为：/>；其中，/>表示第/>个特征向量/>的位置代码值。

步骤S3.2、个位置感知的特征向量构成特征向量序列输入到仅包含3层的Transformer编码器/>中。在本实施例中，应用单类少样本学习策略进行异常检测，所设计的Transformer网络，其编码器和解码器层的数量比平常少得多，而这足以解决异常视频检测的问题。Transformer网络的编码器/>包括3层，每层中均包含多头自注意力层、线性层、多层感知机和线性层这四个标准模块。特征向量序列输入到Transformer网络的编码器中，重复进行三次相同的操作，最终输出特征/>，表示为：/>。

步骤S3.3、Transformer网络的编码器最后一层的输出特征再输入至仅包含3层的Transformer解码器/>的每一层中。Transformer网络的解码器/>包括3层，每层中均包含多头自注意力层、线性层、多头跨注意力层、线性层和多层感知机这五个标准模块。同时，位置感知的特征向量/>也输入至Transformer的解码器/>中。即，Transformer网络的编码器最后一层的输出特征/>输入至Transformer解码器/>的每一层中，Transformer网络的编码器最后一层的输出特征/>和特征向量序列共同输入至Transformer网络的解码器的第一层，第一层的输出再和特征/>共同输入至Transformer网络的解码器的第二层，第二层的输出再和特征/>共同输入至Transformer网络的解码器的第三层，第三层的输出作为该Transformer网络的解码器的输出。

步骤S3.4、Transformer网络解码器的输出受制于可学习线性层，其提供输入特征向量/>的估计值/>。即，Transformer网络解码器的输出，通过可学习的线性层/>，输出序列下一视频帧的预测特征向量，为：/>。

通过上述方案，从几个连续视频帧中提取的特征向量作为序列输入至编码器，解码器仅根据该序列预测下一个视频帧的特征向量。在这一过程中，相同的输入序列也被送入解码器，因此，在解码器的多头跨注意力层中，输入序列（来自编码器）的学习表示伴随着相同序列（来自解码器）的另一个学习表示，形成自语境。需要注意的是，由于本实施例的Transformer网络的预测来自输入的特征向量序列，其中不包含特征向量/>，因此不需要标准Transformer网络中使用的掩码函数，此外，也不需要任何递归，解码器的输出被作为其输入提供。

在本实施例中，获取输入的连续视频帧序列下一视频帧的预测特征向量后，以预测特征向量和相应的实际特征向量/>之间的均方误差(MSE)构建损失函数，为：；其中，/>，j表示特征的层数，表示连续视频帧的大小。

上述损失函数实际上表示预测特征向量和相应的实际特征向量/>之间的差异，当该差异值大于预设值/>时，则认为连续视频帧序列的下一实际视频帧为异常视频帧，反之则认为下一实际视频帧为正常视频帧，以此实现对异常视频的检测。其中，预设值/>为在利用模型检测第T+1帧的前(T-N)帧的每一帧过程中，每次检测生成的损失函数值和初始预设值的累加平均值。

在本实施例中，上述视频异常检测模型的训练过程包括：

以获取的包含多个连续视频帧的视频数据中前N(N＜＜T)个连续视频帧为训练样本数据集，训练视频异常检测模型，以损失函数最小为目标，通过不断循环迭代，并利用随机梯度下降优化器进行优化，确定模型参数，完成模型的训练。其中，以训练过程中最小化的损失函数值为初始预设值。

在本实施例中，利用训练完成的视频异常检测模型进行异常检测，除了用于模型训练与学习的个初始视频帧（非异常视频帧）外，该视频数据中的所有帧均被考虑用于异常检测。即，对视频数据中的前(T-N)帧的每一视频帧进行异常检测。由于基于Transformer的视频异常检测模型被训练为将以前的帧序列作为输入，预测帧序列最后一帧的下一帧的非异常特征向量，若预测的特征向量与实际的特征向量不同，则下一帧被标记为异常。将实际特征向量和预测特征向量之间的差异（即异常得分）计为/>（即向量差异的规范平方）。对于第/>帧而言，当/>，则该帧被标记为异常。

需要注意的是，由于Transformer网络是以连续视频帧的非异常特征作为预测的输入，因此在随后的预测中，已经被标记为异常的视频帧的预测特征向量（该预测特征向量为非异常特征向量）会被考虑，以用于接下来的帧的异常检测，而不是相应的实际特征向量（该实际特征向量为异常特征向量）。最后，只有当紧邻的帧在时间上也是异常的时候，才会考虑一个帧的时间一致性。

实施例二

本实施例提供了一种基于三路视频流和上下文感知的视频异常检测系统，该系统包括：

以上实施例二中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于三路视频流和上下文感知的视频异常检测方法，其特征是，包括：

获取包含多个连续视频帧的视频数据；

将一个视频帧的视频帧特征构成一个特征向量，多个连续视频帧的视频帧特征构成特征向量序列，将特征向量序列输入至视频异常检测模型中，输出视频异常检测结果；其中，特征向量序列通过线性层后进行位置编码，得到位置感知的特征向量序列，再通过Transformer网络的编码器和解码器，输出序列最后帧的下一视频帧的预测特征向量，根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断，输出视频异常检测结果；

所述视频异常检测模型包括可学习的线性层、Transformer网络的编码器/>、Transformer网络的解码器/>和可学习线性层/>；Transformer网络的编码器/>包括3层，每层中均包含多头自注意力层、线性层、多层感知机和线性层；Transformer网络的解码器包括3层，每层中均包含多头自注意力层、线性层、多头跨注意力层、线性层和多层感知机；

所述通过Transformer网络的编码器和解码器，输出序列最后帧的下一视频帧的预测特征向量，包括：

多个位置感知的特征向量构成特征向量序列输入到仅包含3层的Transformer编码器中，依次重复进行三次相同的操作，最终输出特征/>；

Transformer网络的编码器最后一层输出的特征输入至Transformer网络的解码器的每一层中，Transformer网络的编码器最后一层输出的特征/>和特征向量序列共同输入至Transformer网络的解码器的第一层，第一层的输出再和特征/>共同输入至Transformer网络的解码器的第二层，第二层的输出再和特征/>共同输入至Transformer网络的解码器的第三层，第三层的输出作为Transformer网络的解码器的输出；

Transformer网络的解码器的输出通过可学习线性层，输出序列最后帧的下一视频帧的预测特征向量；

获取输入的连续视频帧序列下一视频帧的预测特征向量后，以预测特征向量和相应的实际特征向量/>之间的均方误差构建损失函数，为：；其中，/>，j表示特征的层数，表示连续视频帧的大小。

2.如权利要求1所述的基于三路视频流和上下文感知的视频异常检测方法，其特征是，所述整合RGB视频流和光流视频流的跨模态视频帧特征的提取，包括：

基于倒数三层的RGB视频流视频帧特征和光流视频流视频帧特征，通过特征组合和向前传播，生成包含三层次的初始跨模态视频帧特征；

针对初始跨模态视频帧特征中的每一层特征，利用前一RGB视频流层级生成的空间注意力图，通过逐元素乘法更新初始跨模态视频帧特征中当前层特征，得到更新后的跨模态视频帧特征。

3.如权利要求1所述的基于三路视频流和上下文感知的视频异常检测方法，其特征是，所述根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断，输出视频异常检测结果，包括：

以损失函数值表示预测特征向量和相应的实际特征向量/>之间的差异，当损失函数值大于预设值/>时，则认为连续视频帧序列的下一实际视频帧为异常视频帧，反之则认为下一实际视频帧为非异常视频帧；

其中，预设值为在利用模型检测第T+1帧的前T-N帧的每一帧过程中，每次检测生成的损失函数值和初始预设值的累加平均值。

4.如权利要求1所述的基于三路视频流和上下文感知的视频异常检测方法，其特征是，所述视频异常检测模型的训练过程包括：

以获取的包含T个连续视频帧的视频数据中前N个连续视频帧为训练样本数据集，训练视频异常检测模型，以损失函数最小为目标，通过不断循环迭代，并利用随机梯度下降优化器进行优化，确定模型参数，完成模型的训练；

其中，以训练过程中最小化的损失函数值为初始预设值，N＜＜T。

5.一种基于三路视频流和上下文感知的视频异常检测系统，其特征是，包括：

视频异常检测模块，用于将一个视频帧的视频帧特征构成一个特征向量，多个连续视频帧的视频帧特征构成特征向量序列，将特征向量序列输入至视频异常检测模型中，输出视频异常检测结果；其中，特征向量序列通过线性层后进行位置编码，得到位置感知的特征向量序列，再通过Transformer网络的编码器和解码器，输出序列最后帧的下一视频帧的预测特征向量，根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断，输出视频异常检测结果；

6.如权利要求5所述的基于三路视频流和上下文感知的视频异常检测系统，其特征是，所述整合RGB视频流和光流视频流的跨模态视频帧特征的提取，包括：