CN114332053A

CN114332053A - 一种多模态两阶段无监督视频异常检测方法

Info

Publication number: CN114332053A
Application number: CN202111675203.7A
Authority: CN
Inventors: 田野; 施晓华; 卢宏涛
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本发明公开了一种多模态两阶段无监督异常视频检测方法。该方法充分利用了视频光流信息和记忆网络模块，实现了端到端无监督视频异常检测方法。其中，两阶段是指先使用多尺度记忆增强自编码器网络模块分别的输入视频的图像序列和光流序列进行重建，再使用重建后的图像序列和光流序列，以及光流的记忆网络特征信息输入光流特征融合自编码器网络模块，输出预测的视频图像，根据预测图像与真实图像的误差，重建光流和真实光流的误差来检测视频异常。该方法解决了目前针对视频异常检测的深度自编码器方法常见的漏检率高，鲁棒性不足等问题。

Description

一种多模态两阶段无监督视频异常检测方法

技术领域

本发明涉及机器视觉领域，尤其涉及一种多模态两阶段无监督视频异常检测方法。

背景技术

在现代视频监控系统中，视频异常活动的检测可以分为实时判断和发生异常事件之后的录像查询。实时判断主要依靠监控人员在控制室实时操作多路摄像头，全天候值守。这对监控人员的注意力有很高的要求，并且长期对屏幕进行观察对人体视觉系统损伤严重。发生异常事件后的录像查询需要人工检索存储的视频录像，耗时冗长，往往无法及时获取到异常事件片段。

针对这些弊端，基于计算机视觉技术的智能监控系统越来越受到人们关注，特别是近些年深度学习技术高速发展，基于深度学习的计算机视觉算法层出不穷，但视频异常检测任务本身极具挑战性，有如下难点：首先，异常事件的定义会根据场景环境的不同而改变，例如在人行道上驾驶机动车和在机动车道上驾驶机动车。其次，异常行为数据的获取非常困难，深度学习算法的效果往往依赖大量标注数据，异常行为如偷窃，伤人，纵火等视频资料较少，所以视频异常检测往往采用无监督或弱监督方法，仅通过正常监控视频训练模型，在训练过程中，模型学习如何更好的表征正常监控视频数据，而在测试和实际应用场景中，对于无法正常表征的视频数据，模型判断为异常事件。

早期的无监督方法主要采用人工设计特征与概率图模型。2009年Jaechul Kim和Kristen Grauman使用时空马尔可夫随机场来建模视频不同时空区域之间的关系并使用贝叶斯推断方法检测视频异常(A space-time MRF for detecting abnormal activitieswith incremental updates)。Yang Cong在2011年首先引入了稀疏编码算法对视频进行异常检测(Sparse reconstruction cost for abnormal event detection)。Habib Ullah则在2014年通过提取角要素特征(corner features)并训练随机森林模型用于判断正常或异常视频帧(Dominant motion analysis in regular and irregular crowd scenes)。

得益于深度学习技术的发展，通过深度网络与大规模数据集，模型可以更好地学习如何表征正常视频数据。Mahmudul Hasan在2016年首先提出了全连接神经网络结构的深度自编码器(deep Autoencoder)。通过仅含正常视频数据集的训练，自编码器能够较好重建正常视频输入图像，而对于异常视频的输入图像则会产生较大的重建误差，根据重建误差检测异常事件。在此之后，不同的研究人员设计了各种基于深度自编码器结构的视频异常检测算法。2017年，Weixin Luo为了更好建模视频的时序信息，构建了结合卷积长短期记忆人工神经网络(Convolution Long Short-Term Memory)与全连接神经网络的深度自编码器。同年，Yiru Zhao提出使用时空自编码器用于检测视频异常，利用3D卷积网络更好地学习正常视频的特征表达(Spatio-temporal autoencoder for video anomalydetection)。也有学者结合了传统机器学习与深度学习，Ramin Mehran探索了稀疏编码算法与循环神经网络(Recurrent Neural Network)相结合，将视频的连续时序信息进行稀疏编码并通过循环神经网络进行学习。

基于深度自编码器的方法假定异常帧与重建帧之间会有较大的重建误差，根据重建误差判断视频异常。但在实际应用中发现，由于卷积网络强大的表示能力，基于卷积网络的自动编码器有时能够很好地重建异常帧。这种现象会极大地增加模型漏检几率，导致遗漏了监控视频的异常事件。针对这种现象，需要进一步设计深度自编码器和整体网络结构，使其能够在较好还原正常视频图像输入的同时，降低其还原异常视频图像的能力。

除了设计各种网络框架用于学习表示正常视频的特征，对于模型的输入也有不同的方案。最简单的方案是不做预处理，直接将原始视频图像帧输入网络，网络通过无监督的方法学习输入数据的特征。当测试集光照条件，遮挡情况等与训练集不同时，采用这种方式的模型容易受到干扰，鲁棒性不高。但由于无需进行预处理计算，模型计算负担较少，实时性表现较好。为了加强模型的鲁棒性和测试效果，许多研究者使用目前流行的物体检测算法如Yolo系列对输入视频图像进行物体检测，对检测得到的指定物体(如人或交通工具)进行裁切。这种方法过滤了背景干扰如光照，遮挡等，加强了模型推理时的鲁棒性。这也使得用于预处理的物体检测算法会对整个视频异常检测算法的效果产生很大的影响，同时也会产生额外的计算负担。2020年，Guang Yu等人提出将物体检测算法中的边界框与多帧图像进行结合，将多帧裁剪后的图像组成时空事件方块(Spatio-Temporal Cube)，训练网络模型学习数据集中正常时空事件方块的特征分布。这种方法可以有效过滤背景，降低输入干扰。除了物体检测算法，人体骨骼关键点检测算法意外，还有诸如光流，运动矢量等等通过各种方法提取的图像特征。针对这些方法提取的各种特征，又有学者将多模态学习和视频异常检测相结合，从不止一种输入中综合判断异常。其中光流被认为是一种能够很好表征视频帧运动信息的图像特征。

光流，是关于视域中的物体运动检测中的概念。用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。光流的概念是Gibson在1950年首先提出来的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜(即图像平面)，好像一种光的“流”，故称之为光流(optical flow)。光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。在视频异常检测任务中，可以利用输入视频的光流信息来获取视频中物体的运动信息，如何设计算法有效利用光流信息来辅助检测视频异常是一个亟待研究的问题。

发明内容

有鉴于现有技术的上述缺陷，本发明提供一种多模态两阶段无监督视频异常检测方法，该方法充分利用了视频光流信息和记忆网络模块，实现了端到端无监督视频异常检测算法。其中，两阶段是指先使用光流分支网络以及图像分支网络分别的输入视频的图像序列和光流序列进行重建，再使用重建后的图像序列和光流序列，以及光流的记忆网络特征信息输入光流特征融合自编码器网络模块，输出预测的视频图像，根据预测图像与真实图像的误差，重建光流和真实光流的误差来检测视频异常。该算法解决了目前针对视频异常检测的深度自编码器算法常见的漏检率高，鲁棒性不足等问题。

本发明是通过以下技术方案实现的。

一种多模态两阶段无监督视频异常检测方法，其包括：

(S1)光流分支网络包括编码器模块、多尺度记忆网络模块以及解码器模块；所述编码器模块对输入的光流序列进行特征融合得到多尺度特征图；多尺度记忆网络模块分别对所述编码器模块输出的各尺度特征图分别进行重组；所述解码器模块通过重组后的各尺度特征度特征图重建光流序列并得到光流分支网络输出的多尺度特征图；

(S2)图像分支网络包括编码器模块、多尺度记忆网络模块以及解码器模块；所述编码器模块对输入的图像序列进行特征融合得到多尺度特征图；多尺度记忆网络模块分别对所述编码器模块输出的各尺度特征图分别进行重组；所述解码器模块通过重组后的各尺度特征度特征图重建图像序列；

(S3)光流特征融合自编码器网络包括编码器模块以及光流特征融合解码器模块；所述编码器模块将重建的光流序列以及图像序列进行并联，并进行特征融合得到特征张量；光流特征融合解码器模块对特征张量以及光流分支网络输出的多尺度特征图采用通道融合注意力机制进行逐级融合，以得到预测图像。

本发明的进一步改进在于：所述光流分支网络以及所述图像分支网络的多尺度记忆网络模块均包括多个记忆网络模块，所述记忆网络模块中包括多个记忆网络向量，所述记忆网络模块对输入的特征图进行重组过程中，对输入的特征图的通道维度向量采用记忆网络向量进行表示。

本发明的进一步改进在于：对某个通道维度向量进行重新表示的过程包括以下步骤：

分别求取通道维度向量与各记忆网络向量的余弦距离；

将记忆网络向量对应的余弦距离采用softmax函数进行归一化得到权值矩阵；

按照权值矩阵中的权值对各记忆网络向量进行加权，得到重新表示的通道维度向量。

本发明的进一步改进在于：

构建光流分支网络的过程中，将正常光流序列输入构建光流分支网络得到重建光流序列；并以所述权值矩阵的交叉熵损失

与输入光流序列和重建光流序列的均方误差

加权和为目标函数对光流分支网络进行优化；

构建图像分支网络的过程中，将正常图像序列输入构建图像分支网络得到重建图像序列；并以所述权值矩阵的交叉熵损失

与输入图像序列和重建图像序列的均方误差

加权和为目标函数对图像分支网络进行优化。

本发明的进一步改进在于：所述光流分支网络、所述图像分支网络以及所述光流特征融合自编码器网络中的编码器模块均通过卷积下采样网络进行特征融合。

本发明的进一步改进在于：所述光流分支网络以及所述图像分支网络中的解码器模块均通过反卷积上采样网络进行序列重建；反卷积上采样网络包括多个级联的反卷积上采样层；其中，第一层反卷积上采样层采用重组后的通道数最大的特征图作为输入，其他反卷积上采样层将上一层反卷积上采样层的输出以及同维度的重组后特征图进行并联作为输入。

本发明的进一步改进在于：光流特征融合解码器模块包括多个级联的特征融合模块；第一级特征融合模块将所述光流特征融合自编码器网络的编码器模块所输出的特征张量以及所述光流分支网络输出的相同维度特征图进行并联作为输入张量；其他级特征融合模块将上一级所述特征融合模块的输出张量以及所述光流分支网络输出的相同维度特征图进行并联作为输入张量；

在每一个所述特征融合模块中，对输入张量C和其转置张量C^T进行点积得到格拉姆矩阵D，再由格拉姆矩阵D通过softmax运算生成权值矩阵E，权值矩阵E与输入张量C进行点积运算得到张量F，向量F与输入张量C进行并联操作，得到特征融合后的图像特征张量；对图像特征张量进行通过反卷积层进行上采样得到该特征融合模块的输出张量；

最后一级所述特征融合模块的输出张量为预测图像。

本发明的进一步改进在于：根据重建光流序列得到光流序列质量，根据预测图像得到预测图像质量，联合重建光流序列质量和预测图像质量两个指标判断视频异常。

本发明提供的方法具有以下技术效果：

1、本发明通过设计多尺度记忆增强自编码器网络(光流分支网络以及图像分支网络)，解决了基于卷积网络的深度自动编码器有时能够很好地重建异常帧的现象，有效降低了模型漏检几率。

2、本发明通过设计光流特征融合自编码器网络和两阶段视频异常检测方法，有效融合了输入视频的图像信息和光流运动信息，进一步区分正常视频和异常视频的生成图像质量，有效增强了模型的准确率。

3、本发明通过同时训练降低生成图像误差任务，生成光流误差任务和构建记忆网络模块任务的多任务学习机制，构造了一个无需标注数据的端到端视频异常检测方法。

4、本发明通过联合重建光流序列质量和预测图像质量两个指标判断视频异常，增强了视频异常检测方法的鲁棒性。

附图说明

图1是多模态两阶段无监督异常视频检测方法的总体流程图；

图2是第一阶段光流分支网络以及图像分支网络的网络结构示意图；

图3本发明第二阶段光流特征融合自编码器网络示意图；

图4是第二阶段中特征融合模块示意图；

图5是单个记忆网络模块对某个通道维度向量进行重组过程的示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如图1所示，本发明的实施例包括一种多模态两阶段无监督异常视频检测方法。其中第一阶段设计了一种多尺度记忆增强自编码器网络，利用该网络学习正常视频的图像特征和光流特征，对于正常的视频输入，第一阶段网络能够较好重建输入视频的图像序列和光流序列，对于异常的视频输入，第一阶段网络重建的图像序列和光流序列质量变差，进而影响第二阶段网络重建图像的质量。针对如何融合光流信息生成图像，本发明设计了第二阶段光流特征融合自编码器网络，通过并联输入第一阶段图像序列和光流序列和在解码器网络中对多尺度光流记忆模块的输出进行特征融合的方式，将光流信息和图像信息进行融合，生成预测图像帧。对于正常的视频输入，第一阶段网络生成的高质量图像序列和光流序列不会影响第二阶段网络的生成图像质量，多尺度光流记忆模块的输出也会进一步提高生成图像的质量。对于异常视频输入，第一阶段网络生成的图像序列和光流序列质量较差，多尺度光流记忆模块与真实的光流差别较大，这都会降低第二阶段网络生成图像的质量，放大与真实视频图像的区别，使算法能够更有效的检测视频异常。

在一些实施例中，本发明的多模态两阶段无监督视频异常检测方法，所采用的模型包括第一阶段多尺度记忆增强自编码器网络以及第二阶段的光流特征融合自编码器网络，其中第一阶段多尺度记忆增强自编码器网络包括两个网络结构相似的光流分支网络以及图像分支网络。

光流分支网络包括编码器模块、多尺度记忆网络模块以及解码器模块；所述编码器模块对输入的光流序列进行特征融合得到多尺度特征图。多尺度记忆网络模块分别对所述编码器模块输出的各尺度特征图分别进行重组；所述解码器模块通过重组后的各尺度特征度特征图重建光流序列并得到光流分支网络输出的多尺度特征图。

图像分支网络包括编码器模块、多尺度记忆网络模块以及解码器模块；所述编码器模块对输入的图像序列进行特征融合得到多尺度特征图；多尺度记忆网络模块分别对所述编码器模块输出的各尺度特征图分别进行重组；所述解码器模块通过重组后的各尺度特征度特征图重建图像序列。

光流分支网络以及图像分支网络的主要区别在于输入和输出。光流分支网络以及图像分支网络的编码器模块以及解码器模块均采用如图2所示的类似U-Net结构的编码器编解码器网络。编码器模块均通过卷积下采样网络进行特征融合，在编码器模块中使用卷积层运算对输入进行下采样，解码器模块中使用反卷积层进行上采样还原输入图像尺寸。

反卷积上采样网络包括多个级联的反卷积上采样层。其中，第一层反卷积上采样层采用重组后的通道数最大的特征图作为输入，其他反卷积上采样层将上一层反卷积上采样层的输出以及同维度的重组后特征图进行并联作为输入。特征图为H*W*N的张量，其中H为特征图高度，W为特征图宽度，N为通道数；本实施例中并联指的是两个特征图或者张量在通道维度上并联。例如64*64*32的张量与64*64*16的张量并联可得到形式为64*64*48的张量。

光流分支网络以及图像分支网络的多尺度记忆网络模块均包括多个记忆网络模块。本实施例中，多尺度记忆网络的记忆网络模块与编码器模块输出的特征图一一对应。记忆网络模块通过多个记忆网络向量存储正常视频训练集中的特征，并用记忆网络向量对记忆网络模块对输入的特征图进行重组。在重组过程中对输入的特征图的通道维度向量采用记忆网络向量进行表示，其目的是限制自动编码器对于视频异常帧的重建能力。

对于某个记忆网络模块，假设编码器模块输出的特征图Z向量尺寸为H*W*N，其中H为特征图高度，W为特征图宽度，N为通道数，H*W上的每个向量x尺寸为1*1*N(通道维度向量)，则记忆网络模块存储的记忆网络向量y尺寸也为1*1*N，各个尺度的记忆网络模块根据编码器通道数调整N的大小。

记忆网络模块如图5所示，重组过程中，记忆网络模块中存储的记忆网络向量y_j与编码器模块输出特征图上的每个1*1*N的通道维度向量x_i计算余弦距离，对计算得到的余弦距离向量使用softmax函数归一化后得到权值向量W。通过W向量可以得到编码器模块输出特征图Z中向量x关于记忆网络矩阵中所有正常视频向量y(记忆网络向量)的加权组合表示，将该加权组合得到的特征图输入解码器模块。

通过构建多尺度记忆网络模块，模型以向量的形式存储了正常视频的多尺度特征表达，每个记忆网络模块中存储的向量以加权平均的形式部分替代相应编码器模块的特征图，在减弱异常视频输入时深度自动编码器的解码能力的同时，维持了正常视频输入时，深度自动编码器的解码能力。

与输入光流序列和重建光流序列的均方误差

加权和为目标函数对光流分支网络进行优化；

与输入图像序列和重建图像序列的均方误差

加权和为目标函数对图像分支网络进行优化。

光流特征融合自编码器网络包括编码器模块以及光流特征融合解码器模块。编码器模块将重建的光流序列以及图像序列进行并联，并进行特征融合得到特征张量；光流特征融合解码器模块对特征张量以及光流分支网络输出的多尺度特征图采用通道融合注意力机制进行逐级融合，以得到预测图像。

光流特征融合自编码器网络的编码器模块的网络结构与光流分支网络以及图像分支网络的编码器模块类似，均基于U-Net网络的编码器模块。二者的区别仅在于输入输出的形式不同。光流特征融合自编码器网络的编码器仅输出网络最后一层的特征图作为特征张量(特征图也是张量形式)。

光流特征融合解码器模块包括多个级联的特征融合模块；第一级特征融合模块将所述光流特征融合自编码器网络的编码器模块所输出的特征张量以及所述光流分支网络输出的相同维度特征图进行并联作为输入张量；其他级特征融合模块将上一级所述特征融合模块的输出张量以及所述光流分支网络输出的相同维度特征图进行并联作为输入张量。

如图4所示，在每一个所述特征融合模块中，对输入张量C和其转置张量C^T进行点积得到格拉姆矩阵D，再由格拉姆矩阵D通过softmax运算生成权值矩阵E，权值矩阵E与输入张量C进行点积运算得到张量F，向量F与输入张量C进行并联操作，得到特征融合后的图像特征张量；对图像特征张量进行通过反卷积层进行上采样得到该特征融合模块的输出张量。最后一级所述特征融合模块的输出张量为预测图像。

构建第二阶段光流特征融合解码器模块的多任务损失函数实现端到端训练的过程中，第二阶段的损失函数包括第一阶段光流重建网络的重建误差和第二阶段图像预测网络的预测误差。

在具体实施过程中，首先对存储的正常视频进行图片序列和光流序列进行抽取，建立无监督训练数据集，数据集中只包含正常的图片序列和光流序列，各构建训练光流分支网络以及图像分支网络，以下以图像分支网络为例，对网络构建过程以及训练过程进行描述，光流分支网络与其类似。

分别选取连续4帧视频图像序列输入光流分支网络以及图像分支网络。可使用基于U-Net网络的编码器模块，通过多次包含卷积层(convolution layer)，批量归一化层(batch normalization layer)，激活函数层(Relu layer)下采样模块，将模型下采样后各尺度特征张量(特征图)建立相应的记忆网络模块如图2所示。

编码器模块输出的图像特征向量的尺寸为H*W*N，其中H为特征图高度，W为特征图宽度，N为通道数，H*W上的每个向量x尺寸为1*1*N，记忆网络模块存储的向量y尺寸为1*1*N，记忆网络模块存储向量的个数为超参数，可根据不同实施例数据集复杂性的不同进行实验设置。为了避免异常视频输入通过很多组权重系数很小的记忆网络向量组合还原，丢弃系数小于阈值的记忆网络向量，阈值的设定也可进行实验设置。

编码器模块输出的特征图的尺寸为H*W*N，其中H为特征图高度，W为特征图宽度，N为通道数，H*W上的每个向量x尺寸为1*1*N，记忆网络模块存储的记忆网络向量y的尺寸为1*1*N，记忆网络模块存储的记忆网络向量的个数为超参数，可根据不同实施例数据集复杂性的不同进行实验设置。为了避免异常视频输入通过很多组权重系数很小的记忆网络向量组合还原，丢弃系数小于阈值的记忆网络向量，阈值的设定也可进行实验设置。

解码器模块可使用基于U-Net网络的解码器结构。解码器模块可根据多尺度记忆网络模块输出的正常视频向量通过上采样还原输入图像尺寸，最后生成的图像通过与输入图像进行像素级比较，计算重建均方误差

为了使得记忆网络中存储的记忆网络向量能够更好的正常视频输入向量，希望使用尽量少的存储向量来表示正常向量，所以使用权值向量W中权值系数的交叉熵损失函数

总的损失函数为上述损失函数的加权组合。

在训练完光流分支网络以及图像分支网络后，我们可以对输入的图片序列和光流序列进行重建。分别选取连续5帧图片序列和连续4帧光流序列，取4帧图片序列和光流序列输入到相应的光流分支网络以及图像分支网络进行重建。重建后得到的4帧图片序列和光流序列并联输入到第二阶段的光流特征融合自编码器网络模块，将最后一帧光流的多尺度记忆模块输出输入到第二阶段解码器模块中进行特征融合。解码器通过反卷积操作对融合后的光流图像信息进行上采样，最终生成预测的第5帧图像。通过与真实的第5帧图像进行像素级比较，计算预测均方误差

4帧光流序列的重建误差为

总的损失函数为上述损失函数的加权组合。

在本发明实施例中，视频数据是摄像头监控数据，且摄像头数量较少，可以对每个摄像头监控视频数据训练独立模型，提升方法对视频异常检测效果。

在本发明部分实施例中，视频监控需要对公共场所的犯罪行为进行异常检测，犯罪行为数据获取标注困难，弱监督和有监督视频异常检测方法在实施上有困难。公共场所人流量大，基于动作识别的视频异常检测方法会产生较高的漏检和虚警。同时，公共场所监控摄像头较多，监控视频资源丰富，十分适合使用无监督的视频异常检测方法。但如果使用基于深度自动编码器的视频异常检测方法，漏检的后果十分严重，如何降低漏检率和虚警率是一个迫切需要解决的问题。

基于现实中存在的上述问题，本发明提供了一种多模态两阶段无监督异常视频检测方法，通过无监督学习的深度自动编码器方法，克服犯罪行为标注困难问题的同时充分利用了实施例中的正常监控视频资源。本发明通过多尺度记忆网络的方法，以不同尺度向量的形式存储正常视频训练集中的各尺度特征，并用存储的向量表示编码模块输出的特征向量，降低了异常视频图像输入时解码模块生成图像的能力，从而放大了图像重建误差。本发明还通过两阶段异常视频检测方法，分别对图像和光流特征使用记忆网络进行存储，并使用特征融合自编码器网络结构对这两种特征进行融合，进一步放大了图像重建误差，使得方法能够更有效判断视频异常，降低漏检率。本发明通过联合评估重建光流序列质量和预测图像质量两个指标判断视频异常，增强了视频异常检测方法的鲁棒性。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种多模态两阶段无监督视频异常检测方法，其特征在于：

2.根据权利要求1所述的一种多模态两阶段无监督视频异常检测方法，其特征在于：所述光流分支网络以及所述图像分支网络的多尺度记忆网络模块均包括多个记忆网络模块，所述记忆网络模块中包括多个记忆网络向量，所述记忆网络模块对输入的特征图进行重组过程中，对输入的特征图的通道维度向量采用记忆网络向量进行表示。

3.根据权利要求2所述的一种多模态两阶段无监督视频异常检测方法，其特征在于：对某个通道维度向量进行重新表示的过程包括以下步骤：

分别求取通道维度向量与各记忆网络向量的余弦距离；

4.根据权利要求3所述的一种多模态两阶段无监督视频异常检测方法，其特征在于：

与输入光流序列和重建光流序列的均方误差

加权和为目标函数对光流分支网络进行优化；

与输入图像序列和重建图像序列的均方误差

加权和为目标函数对图像分支网络进行优化。

5.根据权利要求1所述的一种多模态两阶段无监督视频异常检测方法，其特征在于：所述光流分支网络、所述图像分支网络以及所述光流特征融合自编码器网络中的编码器模块均通过卷积下采样网络进行特征融合。

6.根据权利要求1所述的一种多模态两阶段无监督视频异常检测方法，其特征在于：所述光流分支网络以及所述图像分支网络中的解码器模块均通过反卷积上采样网络进行序列重建；反卷积上采样网络包括多个级联的反卷积上采样层；其中，第一层反卷积上采样层采用重组后的通道数最大的特征图作为输入，其他反卷积上采样层将上一层反卷积上采样层的输出以及同维度的重组后特征图进行并联作为输入。

7.根据权利要求1所述的一种多模态两阶段无监督视频异常检测方法，其特征在于：光流特征融合解码器模块包括多个级联的特征融合模块；第一级特征融合模块将所述光流特征融合自编码器网络的编码器模块所输出的特征张量以及所述光流分支网络输出的相同维度特征图进行并联作为输入张量；其他级特征融合模块将上一级所述特征融合模块的输出张量以及所述光流分支网络输出的相同维度特征图进行并联作为输入张量；

最后一级所述特征融合模块的输出张量为预测图像。

8.根据权利要求1所述的一种多模态两阶段无监督视频异常检测方法，其特征在于：根据重建光流序列得到光流序列质量，根据预测图像得到预测图像质量，联合重建光流序列质量和预测图像质量两个指标判断视频异常。