CN117409354B - 基于三路视频流和上下文感知的视频异常检测方法及系统 - Google Patents
基于三路视频流和上下文感知的视频异常检测方法及系统 Download PDFInfo
- Publication number
- CN117409354B CN117409354B CN202311686387.6A CN202311686387A CN117409354B CN 117409354 B CN117409354 B CN 117409354B CN 202311686387 A CN202311686387 A CN 202311686387A CN 117409354 B CN117409354 B CN 117409354B
- Authority
- CN
- China
- Prior art keywords
- video
- layer
- video frame
- feature vector
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 83
- 239000013598 vector Substances 0.000 claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000003287 optical effect Effects 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 230000005856 abnormality Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于三路视频流和上下文感知的视频异常检测方法及系统,涉及视频异常检测技术领域,该方法包括:获取包含多个连续视频帧的视频数据;提取视频数据中每一连续视频帧的视频帧特征,包括RGB视频流视频帧特征、光流视频流视频帧特征、跨模态视频帧特征;将多个连续视频帧的视频帧特征构成特征向量序列,将该序列输入至视频异常检测模型,该序列先进行位置编码得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一帧预测特征向量,根据预测特征向量和实际特征向量进行判断,输出视频异常检测结果。本发明通过少量样本进行训练,实现针对不同场景视频的高精度异常检测。
Description
技术领域
本发明涉及视频异常检测技术领域,尤其涉及一种基于三路视频流和上下文感知的视频异常检测方法及系统。
背景技术
本部分的内容仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着网络技术的发展和数据存储的普及,大量的视频数据不断涌现,这些视频数据对于人们的生活和工作都有着重要的作用。但由于视频数据具有数据量大、复杂度高、维护成本高等特点,给其管理和使用带来了很大的挑战。在实际应用中,视频数据可能会受到各种干扰而导致异常,如遮挡、噪声、失真、运动模糊等,这些异常数据不仅会影响视频的质量和观感,而且还会影响视频的分析和识别结果。因此,在视频数据的处理和应用中,首先需要对异常视频数据进行检测和处理,以保证视频数据的准确性和可靠性。视频异常检测技术能够有效地提高视频数据的使用效率和质量,对于保障视频数据应用的稳定性和准确性具有重要意义。
目前的视频异常检测方法主要包括基于传统图像处理的方法和基于深度学习的方法。其中,基于传统图像处理方法的优点是易于实现和解释,但是其性能受限于特征提取和分类器设计的质量,准确性和鲁棒性较差。基于深度学习的视频异常检测方法可以自动地学习视频的表示和特征,相对而言具有较高的准确性和鲁棒性,成为目前视频异常检测的常用方法,但是这一方法需要大量的数据和计算资源支持。通常,基于深度学习的视频异常检测方法表现良好的根本原因是拥有大规模的视频数据训练集,其对训练数据的要求较高,当视频数据训练样本较少时,难以保证异常检测的准确性。另外,考虑到从一个视频到另一个视频的异常类型各不相同,通过多种、大量的视频数据训练得到的通用异常检测模型,利用该模型进行检测,其最终检测的精确性较差。
此外,目前常见的视频异常检测方法均采用双路视频流的结构,即RGB(Red、Green、Blue, 红、绿、蓝)视频流和光流视频流。这两种视频流的有效性已在当前的工作应用中得到验证,由于RGB视频流和光流视频流属于具有不同属性的不同模态,仅仅单纯根据这两种视频流进行分析并不全面,并不能有效利用和整合RGB视频流和光流视频流之间蕴含的信息,影响对视频异常的分析与检测,使得最终检测效果较差。
发明内容
为解决上述现有技术的不足,本发明提供了一种基于三路视频流和上下文感知的视频异常检测方法及系统,利用RGB视频流和光流视频流数据,整合RGB视频流和光流视频流的跨模态信息,形成三路视频流,同时构建基于Transformer网络的异常检测模型,利用视频中的少量初始帧进行视频帧特征学习,并基于帧序列的依赖性,通过上下文感知预测下一视频帧,根据预测帧和实际帧实现视频异常检测。本发明通过少量样本训练数据训练异常检测模型,实现针对不同场景视频的高精度异常检测。
第一方面,本发明提供了一种基于三路视频流和上下文感知的视频异常检测方法。
一种基于三路视频流和上下文感知的视频异常检测方法,包括:
获取包含多个连续视频帧的视频数据;
基于特征提取网络,提取视频数据中每一连续视频帧的视频帧特征;所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征;
将一个视频帧的视频帧特征构成一个特征向量,多个连续视频帧的视频帧特征构成特征向量序列,将特征向量序列输入至视频异常检测模型中,输出视频异常检测结果;其中,特征向量序列通过线性层后进行位置编码,得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断,输出视频异常检测结果。
第二方面,本发明提供了一种基于三路视频流和上下文感知的视频异常检测系统。
一种基于三路视频流和上下文感知的视频异常检测系统,包括:
视频数据获取模块,用于获取包含多个连续视频帧的视频数据;
视频帧特征提取模块,用于基于特征提取网络,提取视频数据中每一连续视频帧的视频帧特征;所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征;
视频异常检测模块,用于将一个视频帧的视频帧特征构成一个特征向量,多个连续视频帧的视频帧特征构成特征向量序列,将特征向量序列输入至视频异常检测模型中,输出视频异常检测结果;其中,特征向量序列通过线性层后进行位置编码,得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断,输出视频异常检测结果。
以上一个或多个技术方案存在以下有益效果:
1、本发明提供了一种基于三路视频流和上下文感知的视频异常检测方法及系统,不仅利用RGB视频流和光流视频流数据,还将其跨模态信息整合在一起,形成三路视频流数据,基于这三路视频流数据进行学习;同时,根据视频特定的少镜头少样本学习方法进行视频异常检测,该方法在没有对数据集进行任何训练的情况下对视频数据中的少量初始帧进行学习,学习视频帧的非异常性质,并基于帧序列的依赖性,通过上下文感知预测下一视频帧,根据预测帧和实际帧实现视频异常检测。本发明通过少量样本训练数据训练异常检测模型,实现针对不同场景视频的高精度异常检测。
2、本发明利用Transformer网络作为基于预测的视频异常检测模型,充分利用其序列依赖性建模功能,在自我上下文的关注下取得了显著的效果,实现捕获视频非异常帧之间的关系和上下文,实现高精度的非异常帧预测,基于该预测帧与实际帧进行对比,实现异常帧检测。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例所述基于三路视频流和上下文感知的视频异常检测方法的整体流程图;
图2为本发明实施例中视频异常检测模型的示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于三路视频流和上下文感知的视频异常检测方法,如图1所示,包括以下步骤:
获取包含多个连续视频帧的视频数据;
基于特征提取网络,提取视频数据中每一连续视频帧的视频帧特征;所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征;
将一个视频帧的视频帧特征构成一个特征向量,多个连续视频帧的视频帧特征构成特征向量序列,将特征向量序列输入至视频异常检测模型中,输出视频异常检测结果;其中,特征向量序列通过线性层后进行位置编码,得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断,输出视频异常检测结果。
通过下述内容对本实施例所提出的视频异常检测方法进行更详细的介绍。
在本实施例中,步骤S1、获取单个包含多个连续视频帧的视频数据,该视频数据可通过下式表示:;其中,/>表示单个视频数据集,/>表示视频的第/>帧视频数据(即第/>帧视频帧),该视频共包含/>帧连续视频帧。
步骤S2、基于特征提取网络,提取视频数据中每一连续视频帧的视频帧特征。其中,该视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征。在本实施例中,通过对每一连续视频帧的三路视频流处理,获取三路视频帧特征。
步骤S2.1、提取RGB视频流视频帧特征。
如图2所示,将开源预训练的Resnet-512网络作为骨干网络,将连续视频帧输入至这一网络中,通过多层下采样,生成RGB视频流视频帧特征,为:;其中,/>表示第/>帧RGB视频流视频帧特征,/>表示Resnet-512网络,/>表示第/>帧RGB视频流视频帧特征中的第/>层特征。
步骤S2.2、提取光流视频流视频帧特征。
将开源预训练的FlowNet2作为骨干网络,将连续视频帧输入至这一网络中,通过多层下采样,生成光流视频流视频帧特征,为:;其中,/>表示第/>帧光流视频流视频帧特征,/>表示FlowNet2网络,/>表示第/>帧光流视频流视频帧特征中的第/>层特征,/>表示连续视频帧的大小。
步骤S2.3、提取整合RGB视频流和光流视频流的跨模态视频帧特征。
由于较浅/较低的特征通常包含较多的细节信息但存在过多的背景噪声,高层特征包含显著对象的清晰信息但缺乏细节,本实施例中,通过结合高层RGB视频流视频帧特征和光流视频流视频帧特征来生成初始跨模态特征,并从倒数三层开始进行特征组合和前向传播,可以描述为:;其中,/>表示第/>帧整合RGB视频流和光流视频流的初步跨模态视频帧特征中的第/>层特征,/>表示第/>帧RGB视频流视频帧特征中的第/>层特征,/>表示第/>帧光流视频流视频帧特征中的第/>层特征,/>表示逐通道级联操作,/>表示卷积层后接批量归一化(BN)层和ReLU激活功能,分别表示倒数第三层、倒数第二层和倒数第一层的层数。具体地,对于/>,(/>)对应(510,511,512);对于/>,(/>)对应(/>,/>,/>);对于/>,(/>)对应(1,2,3)。
进一步的,为了在跨层级和跨模态融合中突出互补信息并抑制不相关的冗余,利用前一个RGB视频流层级生成的空间注意力图来以渐进的方式指导当前层级的特征集成。因此,第层和第/>层的最终整合RGB视频流和光流视频流的跨模态视频帧特征更新为:;/>;其中,/>表示逐元素乘法,/>表示第/>层的注意力图,/>表示空间注意力操作,/>表示下采样操作。
即,首先,基于倒数三层的RGB视频流视频帧特征和光流视频流视频帧特征,通过特征组合和向前传播,生成包含三层次的初始跨模态视频帧特征;其次,针对初始跨模态视频帧特征中的每一层特征,利用前一RGB视频流层级生成的空间注意力图,通过逐元素乘法更新初始跨模态视频帧特征中当前层特征,得到更新后的跨模态视频帧特征。
考虑到RGB视频流和光流视频流属于具有不同属性的不同模态,为了有效地利用和整合RGB视频流和光流视频流,本实施例通过三流结构网络来充分捕获和利用跨模态信息。考虑到不同模态的优势和互补性,通过具有独立RGB视频流和光流视频流的三流结构,可以充分保留丰富的信息并探索不同模态的互补关系,有利于联合整合跨模态信息,后续的编码器和解码器阶段比双流结构更全面和深入。
步骤S3、将一个视频帧的视频帧特征构成一个特征向量,多个连续视频帧的视频帧特征构成特征向量序列,将特征向量序列输入至视频异常检测模型中,输出视频异常检测结果。
在本实施例中,视频异常检测模型的输入为三路视频流视频帧特征,即RGB视频流视频帧特征、光流视频流视频帧特征/>以及整合RGB视频流和光流视频流的跨模态视频帧特征/>,为了便于表示,将三路视频流信息统一表示为一个特征向量,为:;其中,/>表示帧号。
搭建基于三路视频流和Transformer的视频异常检测模型,该模型包括可学习的线性层、Transformer网络的编码器/>、Transformer网络的解码器/>和可学习线性层/>。将上述表征三路视频流信息的特征向量输入至所搭建的视频异常检测模型中,具体包括以下步骤:
步骤S3.1、特征向量构成特征向量序列,每一特征向量受制于可学习的线性层/>,获得Transformer网络所需维度的/>个特征向量。对于通过线性层生成的/>个特征向量,应用位置编码来嵌入序列位置信息,产生/>个位置感知的特征向量/>,其中每一位置感知的特征向量可表示为:/>;其中,/>表示第/>个特征向量/>的位置代码值。
步骤S3.2、个位置感知的特征向量构成特征向量序列输入到仅包含3层的Transformer编码器/>中。在本实施例中,应用单类少样本学习策略进行异常检测,所设计的Transformer网络,其编码器和解码器层的数量比平常少得多,而这足以解决异常视频检测的问题。Transformer网络的编码器/>包括3层,每层中均包含多头自注意力层、线性层、多层感知机和线性层这四个标准模块。特征向量序列输入到Transformer网络的编码器中,重复进行三次相同的操作,最终输出特征/>,表示为:/>。
步骤S3.3、Transformer网络的编码器最后一层的输出特征再输入至仅包含3层的Transformer解码器/>的每一层中。Transformer网络的解码器/>包括3层,每层中均包含多头自注意力层、线性层、多头跨注意力层、线性层和多层感知机这五个标准模块。同时,位置感知的特征向量/>也输入至Transformer的解码器/>中。即,Transformer网络的编码器最后一层的输出特征/>输入至Transformer解码器/>的每一层中,Transformer网络的编码器最后一层的输出特征/>和特征向量序列共同输入至Transformer网络的解码器的第一层,第一层的输出再和特征/>共同输入至Transformer网络的解码器的第二层,第二层的输出再和特征/>共同输入至Transformer网络的解码器的第三层,第三层的输出作为该Transformer网络的解码器的输出。
步骤S3.4、Transformer网络解码器的输出受制于可学习线性层,其提供输入特征向量/>的估计值/>。即,Transformer网络解码器的输出,通过可学习的线性层/>,输出序列下一视频帧的预测特征向量,为:/>。
通过上述方案,从几个连续视频帧中提取的特征向量作为序列输入至编码器,解码器仅根据该序列预测下一个视频帧的特征向量。在这一过程中,相同的输入序列也被送入解码器,因此,在解码器的多头跨注意力层中,输入序列(来自编码器)的学习表示伴随着相同序列(来自解码器)的另一个学习表示,形成自语境。需要注意的是,由于本实施例的Transformer网络的预测来自输入的特征向量序列,其中不包含特征向量/>,因此不需要标准Transformer网络中使用的掩码函数,此外,也不需要任何递归,解码器的输出被作为其输入提供。
在本实施例中,获取输入的连续视频帧序列下一视频帧的预测特征向量后,以预测特征向量和相应的实际特征向量/>之间的均方误差(MSE)构建损失函数,为:;其中,/>,j表示特征的层数,表示连续视频帧的大小。
上述损失函数实际上表示预测特征向量和相应的实际特征向量/>之间的差异,当该差异值大于预设值/>时,则认为连续视频帧序列的下一实际视频帧为异常视频帧,反之则认为下一实际视频帧为正常视频帧,以此实现对异常视频的检测。其中,预设值/>为在利用模型检测第T+1帧的前(T-N)帧的每一帧过程中,每次检测生成的损失函数值和初始预设值的累加平均值。
在本实施例中,上述视频异常检测模型的训练过程包括:
以获取的包含多个连续视频帧的视频数据中前N(N<<T)个连续视频帧为训练样本数据集,训练视频异常检测模型,以损失函数最小为目标,通过不断循环迭代,并利用随机梯度下降优化器进行优化,确定模型参数,完成模型的训练。其中,以训练过程中最小化的损失函数值为初始预设值。
在本实施例中,利用训练完成的视频异常检测模型进行异常检测,除了用于模型训练与学习的个初始视频帧(非异常视频帧)外,该视频数据中的所有帧均被考虑用于异常检测。即,对视频数据中的前(T-N)帧的每一视频帧进行异常检测。由于基于Transformer的视频异常检测模型被训练为将以前的帧序列作为输入,预测帧序列最后一帧的下一帧的非异常特征向量,若预测的特征向量与实际的特征向量不同,则下一帧被标记为异常。将实际特征向量和预测特征向量之间的差异(即异常得分)计为/>(即向量差异的规范平方)。对于第/>帧而言,当/>,则该帧被标记为异常。
需要注意的是,由于Transformer网络是以连续视频帧的非异常特征作为预测的输入,因此在随后的预测中,已经被标记为异常的视频帧的预测特征向量(该预测特征向量为非异常特征向量)会被考虑,以用于接下来的帧的异常检测,而不是相应的实际特征向量(该实际特征向量为异常特征向量)。最后,只有当紧邻的帧在时间上也是异常的时候,才会考虑一个帧的时间一致性。
实施例二
本实施例提供了一种基于三路视频流和上下文感知的视频异常检测系统,该系统包括:
视频数据获取模块,用于获取包含多个连续视频帧的视频数据;
视频帧特征提取模块,用于基于特征提取网络,提取视频数据中每一连续视频帧的视频帧特征;所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征;
视频异常检测模块,用于将一个视频帧的视频帧特征构成一个特征向量,多个连续视频帧的视频帧特征构成特征向量序列,将特征向量序列输入至视频异常检测模型中,输出视频异常检测结果;其中,特征向量序列通过线性层后进行位置编码,得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断,输出视频异常检测结果。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种基于三路视频流和上下文感知的视频异常检测方法,其特征是,包括:
获取包含多个连续视频帧的视频数据;
基于特征提取网络,提取视频数据中每一连续视频帧的视频帧特征;所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征;
将一个视频帧的视频帧特征构成一个特征向量,多个连续视频帧的视频帧特征构成特征向量序列,将特征向量序列输入至视频异常检测模型中,输出视频异常检测结果;其中,特征向量序列通过线性层后进行位置编码,得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断,输出视频异常检测结果;
所述视频异常检测模型包括可学习的线性层、Transformer网络的编码器/>、Transformer网络的解码器/>和可学习线性层/>;Transformer网络的编码器/>包括3层,每层中均包含多头自注意力层、线性层、多层感知机和线性层;Transformer网络的解码器包括3层,每层中均包含多头自注意力层、线性层、多头跨注意力层、线性层和多层感知机;
所述通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,包括:
多个位置感知的特征向量构成特征向量序列输入到仅包含3层的Transformer编码器中,依次重复进行三次相同的操作,最终输出特征/>;
Transformer网络的编码器最后一层输出的特征输入至Transformer网络的解码器的每一层中,Transformer网络的编码器最后一层输出的特征/>和特征向量序列共同输入至Transformer网络的解码器的第一层,第一层的输出再和特征/>共同输入至Transformer网络的解码器的第二层,第二层的输出再和特征/>共同输入至Transformer网络的解码器的第三层,第三层的输出作为Transformer网络的解码器的输出;
Transformer网络的解码器的输出通过可学习线性层,输出序列最后帧的下一视频帧的预测特征向量;
获取输入的连续视频帧序列下一视频帧的预测特征向量后,以预测特征向量和相应的实际特征向量/>之间的均方误差构建损失函数,为:;其中,/>,j表示特征的层数,表示连续视频帧的大小。
2.如权利要求1所述的基于三路视频流和上下文感知的视频异常检测方法,其特征是,所述整合RGB视频流和光流视频流的跨模态视频帧特征的提取,包括:
基于倒数三层的RGB视频流视频帧特征和光流视频流视频帧特征,通过特征组合和向前传播,生成包含三层次的初始跨模态视频帧特征;
针对初始跨模态视频帧特征中的每一层特征,利用前一RGB视频流层级生成的空间注意力图,通过逐元素乘法更新初始跨模态视频帧特征中当前层特征,得到更新后的跨模态视频帧特征。
3.如权利要求1所述的基于三路视频流和上下文感知的视频异常检测方法,其特征是,所述根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断,输出视频异常检测结果,包括:
以损失函数值表示预测特征向量和相应的实际特征向量/>之间的差异,当损失函数值大于预设值/>时,则认为连续视频帧序列的下一实际视频帧为异常视频帧,反之则认为下一实际视频帧为非异常视频帧;
其中,预设值为在利用模型检测第T+1帧的前T-N帧的每一帧过程中,每次检测生成的损失函数值和初始预设值的累加平均值。
4.如权利要求1所述的基于三路视频流和上下文感知的视频异常检测方法,其特征是,所述视频异常检测模型的训练过程包括:
以获取的包含T个连续视频帧的视频数据中前N个连续视频帧为训练样本数据集,训练视频异常检测模型,以损失函数最小为目标,通过不断循环迭代,并利用随机梯度下降优化器进行优化,确定模型参数,完成模型的训练;
其中,以训练过程中最小化的损失函数值为初始预设值,N<<T。
5.一种基于三路视频流和上下文感知的视频异常检测系统,其特征是,包括:
视频数据获取模块,用于获取包含多个连续视频帧的视频数据;
视频帧特征提取模块,用于基于特征提取网络,提取视频数据中每一连续视频帧的视频帧特征;所述视频帧特征包括RGB视频流视频帧特征、光流视频流视频帧特征以及整合RGB视频流和光流视频流的跨模态视频帧特征;
视频异常检测模块,用于将一个视频帧的视频帧特征构成一个特征向量,多个连续视频帧的视频帧特征构成特征向量序列,将特征向量序列输入至视频异常检测模型中,输出视频异常检测结果;其中,特征向量序列通过线性层后进行位置编码,得到位置感知的特征向量序列,再通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,根据序列最后帧的下一视频帧的预测特征向量和实际特征向量进行判断,输出视频异常检测结果;
所述视频异常检测模型包括可学习的线性层、Transformer网络的编码器/>、Transformer网络的解码器/>和可学习线性层/>;Transformer网络的编码器/>包括3层,每层中均包含多头自注意力层、线性层、多层感知机和线性层;Transformer网络的解码器包括3层,每层中均包含多头自注意力层、线性层、多头跨注意力层、线性层和多层感知机;
所述通过Transformer网络的编码器和解码器,输出序列最后帧的下一视频帧的预测特征向量,包括:
多个位置感知的特征向量构成特征向量序列输入到仅包含3层的Transformer编码器中,依次重复进行三次相同的操作,最终输出特征/>;
Transformer网络的编码器最后一层输出的特征输入至Transformer网络的解码器的每一层中,Transformer网络的编码器最后一层输出的特征/>和特征向量序列共同输入至Transformer网络的解码器的第一层,第一层的输出再和特征/>共同输入至Transformer网络的解码器的第二层,第二层的输出再和特征/>共同输入至Transformer网络的解码器的第三层,第三层的输出作为Transformer网络的解码器的输出;
Transformer网络的解码器的输出通过可学习线性层,输出序列最后帧的下一视频帧的预测特征向量;
获取输入的连续视频帧序列下一视频帧的预测特征向量后,以预测特征向量和相应的实际特征向量/>之间的均方误差构建损失函数,为:;其中,/>,j表示特征的层数,表示连续视频帧的大小。
6.如权利要求5所述的基于三路视频流和上下文感知的视频异常检测系统,其特征是,所述整合RGB视频流和光流视频流的跨模态视频帧特征的提取,包括:
基于倒数三层的RGB视频流视频帧特征和光流视频流视频帧特征,通过特征组合和向前传播,生成包含三层次的初始跨模态视频帧特征;
针对初始跨模态视频帧特征中的每一层特征,利用前一RGB视频流层级生成的空间注意力图,通过逐元素乘法更新初始跨模态视频帧特征中当前层特征,得到更新后的跨模态视频帧特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311686387.6A CN117409354B (zh) | 2023-12-11 | 2023-12-11 | 基于三路视频流和上下文感知的视频异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311686387.6A CN117409354B (zh) | 2023-12-11 | 2023-12-11 | 基于三路视频流和上下文感知的视频异常检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409354A CN117409354A (zh) | 2024-01-16 |
CN117409354B true CN117409354B (zh) | 2024-03-22 |
Family
ID=89491099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311686387.6A Active CN117409354B (zh) | 2023-12-11 | 2023-12-11 | 基于三路视频流和上下文感知的视频异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409354B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN112016500A (zh) * | 2020-09-04 | 2020-12-01 | 山东大学 | 基于多尺度时间信息融合的群体异常行为识别方法及系统 |
CN114581738A (zh) * | 2022-03-22 | 2022-06-03 | 南通大学 | 行为预测网络训练方法、系统及行为异常检测方法、系统 |
CN114612836A (zh) * | 2022-03-15 | 2022-06-10 | 南京邮电大学 | 基于记忆增强未来视频帧预测的监控视频异常检测方法 |
CN115527150A (zh) * | 2022-10-31 | 2022-12-27 | 南京邮电大学 | 一种结合卷积注意力模块的双分支视频异常检测方法 |
CN115909160A (zh) * | 2022-11-24 | 2023-04-04 | 湖南科技大学 | 深度视频插帧检测方法、装置及计算机可读存储介质 |
KR20230095845A (ko) * | 2021-12-22 | 2023-06-29 | 세종대학교산학협력단 | 비디오 이상 감지 방법 및 그 장치 |
WO2023166800A1 (en) * | 2022-03-01 | 2023-09-07 | Mitsubishi Electric Corporation | Method and system for zero-shot cross domain video anomaly detection |
CN117115715A (zh) * | 2023-09-06 | 2023-11-24 | 安徽大学 | 一种基于流重构和帧预测结合的视频异常检测方法 |
-
2023
- 2023-12-11 CN CN202311686387.6A patent/CN117409354B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN112016500A (zh) * | 2020-09-04 | 2020-12-01 | 山东大学 | 基于多尺度时间信息融合的群体异常行为识别方法及系统 |
KR20230095845A (ko) * | 2021-12-22 | 2023-06-29 | 세종대학교산학협력단 | 비디오 이상 감지 방법 및 그 장치 |
WO2023166800A1 (en) * | 2022-03-01 | 2023-09-07 | Mitsubishi Electric Corporation | Method and system for zero-shot cross domain video anomaly detection |
CN114612836A (zh) * | 2022-03-15 | 2022-06-10 | 南京邮电大学 | 基于记忆增强未来视频帧预测的监控视频异常检测方法 |
CN114581738A (zh) * | 2022-03-22 | 2022-06-03 | 南通大学 | 行为预测网络训练方法、系统及行为异常检测方法、系统 |
CN115527150A (zh) * | 2022-10-31 | 2022-12-27 | 南京邮电大学 | 一种结合卷积注意力模块的双分支视频异常检测方法 |
CN115909160A (zh) * | 2022-11-24 | 2023-04-04 | 湖南科技大学 | 深度视频插帧检测方法、装置及计算机可读存储介质 |
CN117115715A (zh) * | 2023-09-06 | 2023-11-24 | 安徽大学 | 一种基于流重构和帧预测结合的视频异常检测方法 |
Non-Patent Citations (2)
Title |
---|
基于关键帧的双流卷积网络的人体动作识别方法;张聪聪;何宁;;南京信息工程大学学报(自然科学版);20191128(第06期);全文 * |
杨敬钰 ; 师雯 ; 李坤 ; 宋晓林 ; 岳焕景 ; .基于时空感知级联神经网络的视频前背景分离.天津大学学报(自然科学与工程技术版).2020,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117409354A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109064507B (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
CN110837842B (zh) | 一种无参考视频质量评估的方法、模型训练的方法及装置 | |
CN112597985B (zh) | 一种基于多尺度特征融合的人群计数方法 | |
CN107437246B (zh) | 一种基于端到端全卷积神经网络的共同显著性检测方法 | |
CN111598156B (zh) | 基于多源异构数据融合的pm2.5预测方法 | |
CN110135386B (zh) | 一种基于深度学习的人体动作识别方法和系统 | |
GB2585261A (en) | Methods for generating modified images | |
CN109711380A (zh) | 一种基于全局上下文信息的时序行为片段生成系统及方法 | |
CN114549985B (zh) | 一种基于自监督对比学习的目标检测方法及系统 | |
CN112651360B (zh) | 一种小样本下骨架动作识别方法 | |
CN112289338B (zh) | 信号处理方法及装置、计算机设备以及可读存储介质 | |
CN114038059B (zh) | 一种基于双帧速率分治行为识别网络的动态手势识别方法 | |
Liu et al. | Atvio: Attention guided visual-inertial odometry | |
CN107910009B (zh) | 一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统 | |
CN112200096A (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
CN117409354B (zh) | 基于三路视频流和上下文感知的视频异常检测方法及系统 | |
CN113887501A (zh) | 行为识别方法、装置、存储介质及电子设备 | |
CN115527159B (zh) | 一种基于跨模态间尺度注意聚合特征的计数系统及方法 | |
CN111275751A (zh) | 一种无监督绝对尺度计算方法及系统 | |
CN116453108A (zh) | 基于非对称并行Transformer网络的三维点云理解处理方法 | |
CN114693953B (zh) | 一种基于跨模态双向互补网络的rgb-d显著性目标检测方法 | |
CN116167015A (zh) | 一种基于联合交叉注意力机制的维度情感分析方法 | |
CN116310375A (zh) | 基于视觉注意力机制的盲图像质量评估方法 | |
CN114547276A (zh) | 基于三通道图神经网络的会话推荐方法 | |
Fan et al. | A malicious traffic detection method based on attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |