CN115909144A

CN115909144A - 一种基于对抗学习的监控视频异常检测方法及系统

Info

Publication number: CN115909144A
Application number: CN202211381511.3A
Authority: CN
Inventors: 甘翼; 郑博元
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-04-04

Abstract

本发明公开了一种基于对抗学习的监控视频异常检测方法及系统，该方法包括两部分，第一部分将实时视频样本帧送到特征提取网络中，将样本的特征与记忆模块中的特征进行相似度比较，对记忆模块中的特征进行更新与读取，第二部分将从记忆模块中读取的特征与特征读取网络得到的特征进行基于通道的拼接，送入解码器得到重构后的图片，通过重构误差，得到判断此视频序列中视频样本帧正常与否的异常分数。本发明通过基于初步特征提取网络、深度特征提取分类网络以及全卷积神经网络构建视频异常帧检测模型，然后应用视频异常帧检测模型，完成视频样本帧正常或异常检测，更好地提取视频样本帧中的特征信息，提高视频异常帧检测模型的适应能力。

Description

一种基于对抗学习的监控视频异常检测方法及系统

技术领域

本发明涉及视频异常检测技术领域，尤其涉及到基于对抗学习的监控视频异常检测方法及系统。

背景技术

得益于现代社会的数字化和信息化，以及人们公共安全意识的提升，监控网络覆盖了人们大部分的生活、工作环境。监控设备被大量应用于城市的各个角落，尤其是各种人流较大的场所，如商场、医院、学校、街道、小区、机场、车站等。这些摄像头产生了海量的视频数据，对这些视频数据中的人体行为进行异常性检测可以有效地对非法闯入、抢劫、盗窃、踩踏、交通事故等异常情况进行实时监控与证据采集。视频监控技术的蓬勃发展与广泛应用在维持经济繁荣中起到了巨大的作用。

传统的视频监控系统是一种被动型的系统，其主要功能在于对当前发生事件的记录、存储及回放。但是在缺少人工监督的情况下，传统的视频监控系统不能对一些异常事件如打架斗殴、抢劫、火灾等起到识别并及时报警的作用。而仅仅依靠人眼观察监控视频，会消耗大量的人力物力成本，并且随着工作时间的增加，人的精力会出现不同程度的下降，容易出现误检、漏检异常事件的情况。因此，将智能化的监控视频异常检测技术引入监控系统中是未来发展的必然趋势。

随着深度学习算法近年在计算机视觉领域取得的极大成功，基于深度神经网络的算法逐渐应用到视频异常检测任务中。共衍生出两类方法，分别是基于当前帧重建的异常检测方法和未来帧预测的异常检测方法。基于重建当前帧的方法基于异常帧重建误差大的思想来区分异常帧和正常帧。而基于未来帧预测的方法则是基于异常难以预测的思想来决策未来帧的正常与否。虽然这两种不同的异常检测的方法取得了一些效果，但是其利用代理任务实现异常检测的思想却是有本质缺陷。即不管是重建方法还是预测的方法，其本质是输出一个与真实帧尽可能相似的图像。当网络训练的非常好时，受到其思想缺陷的影响这两类方法对正常帧和异常帧的区分度并不一定高，在一些特殊的场景下，效果较低。

发明内容

本发明的主要目的在于提供一种基于对抗学习的监控视频异常检测方法及系统，旨在解决目前现有监控视频异常检测方法的检测准确性和效率不高的技术问题。

为实现上述目的，本发明提供一种基于对抗学习的监控视频异常检测方法，所述方法包括以下步骤：

S1：获得按时间顺序排列的视频样本帧，以每一帧视频样本帧为起点，按时序选择k帧视频样本帧构建视频样本帧组，作为预测网络的输入；

S2：基于卷积神经网络，以视频样本帧为输入，以与视频样本帧所对应的特征图为输出，构建预测网络；

S3：以特征图作为记忆模块网络的输入，以与该特征图同尺度大小的正常样本特征图为记忆模块网络的输出，在无监督的情况下进行端到端的对抗训练；

S4：基于预测网络、记忆模块网络构建视频异常帧检测待训练模型，同时基于各视频样本帧的参与训练，以初步特征提取网络至深度特征提取分类网络的应用，通过引入重构，对抗以及记忆损失，构建分类损失模型；

S5：基于视频样本帧所构建的视频样本帧组，以及各视频样本帧组分别所对应的标签，以视频样本帧为输入，以视频样本帧组分别所对应的标签为输出，结合分类损失模型，针对视频异常帧检测待训练模型进行训练，获得视频异常帧检测模型；

S6：针对每个视频样本帧组中的每一帧视频样本帧，通过判别器模型根据模型重构得到的重构损失判定视频样本帧组中每一帧视频样本帧正常或异常的异常分数，将异常分数大于预设值的视频样本帧判定为异常视频帧，否则为正常视频帧。

可选的，所述步骤S2中，预测网络为U-Net编码器。

可选的，所述步骤S3中，记忆模块网络在训练时采用正常事件样本，在测试时加入异常样本。

可选的，所述步骤S3中，记忆模块网络包括读取和更新两个操作，当获取一个新的正常样本的特征后，会对记忆模块网络进行读取操作，从中选择和自身最相似的正常样本特征；记忆模块网络会根据新的正常样本特征进行更新。

可选的，所述步骤S3，包括：

针对深度特征提取分类网络的输出，得到的尺寸为H×W×C的特征q_t。其中H为特征的高，W为特征的宽，C为通道数；

根据记忆模块网络的匹配算法得到匹配概率最大的特征p_t，尺寸也为H ×W×C；

将查询到的特征p_t与提取的特征q_t进行通道上的拼接得到尺寸为H×W ×2C的新特征，以对记忆模块网络进行更新。

可选的，所述步骤S4，具体包括：

将连续t帧正常训练样本X＝{x₁,x₂,…,x_t}送入预测网络；

预测网络的编码器提取t帧视频帧的特征q_t，预测网络会根据q_t与记忆模块中保存的正常样本特征的相似度，从中读取对应的p_t与q_t拼接得到特征(q_t, p_t)并更新记忆模块网络；

将特征(q_t,p_t)送给预测网络的解码器，最终得到预测的第t+1帧视频帧

将预测损失、记忆损失、对抗损失采用加权的方式得到整体损失函数Loss。可选的，所述整体损失函数Loss的表达式，具体为：

Loss＝L_pred+λ_mL_mem+λ_αL_adv

其中，λ_m、λ_α是用来平衡记忆损失和对抗损失在整个损失函数中所占比重的系数，L_pred为预测损失，L_mem为记忆损失，L_adv为对抗损失。

此外，为了实现上述目的，本发明还提供了一种基于对抗学习的监控视频异常检测系统，所述系统包括：

样本帧获取模块，获得按时间顺序排列的视频样本帧，以每一帧视频样本帧为起点，按时序选择k帧视频样本帧构建视频样本帧组，作为预测网络的输入；

预测网络构建模块，基于卷积神经网络，以视频样本帧为输入，以与视频样本帧所对应的特征图为输出，构建预测网络；

对抗训练模块，以特征图作为记忆模块网络的输入，以与该特征图同尺度大小的正常样本特征图为记忆模块网络的输出，在无监督的情况下进行端到端的对抗训练；

损失模型构建模块，基于预测网络、记忆模块网络构建视频异常帧检测待训练模型，同时基于各视频样本帧的参与训练，以初步特征提取网络至深度特征提取分类网络的应用，通过引入重构，对抗以及记忆损失，构建分类损失模型；

异常检测模型构建模块，基于视频样本帧所构建的视频样本帧组，以及各视频样本帧组分别所对应的标签，以视频样本帧为输入，以视频样本帧组分别所对应的标签为输出，结合分类损失模型，针对视频异常帧检测待训练模型进行训练，获得视频异常帧检测模型；

异常性评分模块，针对每个视频样本帧组中的每一帧视频样本帧，通过判别器模型根据模型重构得到的重构损失判定视频样本帧组中每一帧视频样本帧正常或异常的异常分数，将异常分数大于预设值的视频样本帧判定为异常视频帧，否则为正常视频帧。

本发明实施例提出的一种基于对抗学习的监控视频异常检测方法及系统，该方法包括两部分，第一部分将实时视频样本帧送到特征提取网络中，将样本的特征与记忆模块中的特征进行相似度比较，对记忆模块中的特征进行更新与读取，第二部分将从记忆模块中读取的特征与特征读取网络得到的特征进行基于通道的拼接，送入解码器得到重构后的图片，通过重构误差，得到判断此视频序列中视频样本帧正常与否的异常分数。本发明通过基于初步特征提取网络、深度特征提取分类网络以及全卷积神经网络构建视频异常帧检测模型，然后应用视频异常帧检测模型，完成视频样本帧正常或异常检测，更好地提取视频样本帧中的特征信息，提高视频异常帧检测模型的适应能力，解决了目前现有监控视频异常检测方法的检测准确性和效率不高的技术问题。

附图说明

图1为本发明中基于对抗学习的监控视频异常检测方法的流程示意图；

图2为本发明中视频异常帧检测模型的示意图；

图3为本发明中预测网络的结构示意图；

图4为本发明中记忆模块的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于对抗学习的监控视频异常检测方法，参照图1，图1为本发明基于对抗学习的监控视频异常检测方法的流程示意图。

本实施例中，所述基于对抗学习的监控视频异常检测方法包括以下步骤：

步骤1.获取样本帧：获得按时间顺序排列的视频样本帧，以每一帧视频样本帧为起点，按时序选择4帧视频样本帧构建视频样本帧组，作为预测网络的输入。

步骤2.构建预测网络：基于卷积神经网络，以视频样本帧为输入，以与视频样本帧所对应的特征图为输出，构建预测网络；

步骤3.记忆模块：位于预测网络特征空间的一个结构，用于记录正常视频样本特征。其输入是连续视频帧的特征图，输出是与该特征图同尺度大小的正常样本特征图。整个网络在无监督的情况下，进行端到端的对抗训练。

所述步骤3包括以下步骤：

步骤3-1:针对深度特征提取分类网络的输出，得到的尺寸为H×W×C的特征q_t。其中H为特征的高，W为特征的宽，C为通道数。

步骤3-2:根据记忆模块的匹配算法得到匹配概率最大的特征尺寸也为H ×W×C。

步骤3-3:将查询到的特征p_t与提取的特征q_t进行通道上的拼接得到尺寸为H×W×2C的新特征。在所有的查询项q_t查询到其对应的p_t之后，由于q_t也是正常样本特征，记忆模块学习到了新的正常样本特征，因此此时记忆模块会对自身的记忆单元进行更新。

步骤4.损失模型：基于预测网络、记忆模块网络构建视频异常帧检测待训练模型，同时基于各视频样本帧的参与训练，以初步特征提取网络至深度特征提取分类网络的应用，通过引入重构，对抗以及记忆损失，构建分类损失模型；

所述步骤4包括以下步骤：

步骤4-1:将连续t帧正常训练样本X＝{x₁,x₂,…,x_t}送入预测网络；

步骤4-2:预测网络的编码器会提取t帧视频帧的特征q_t，此时网络会根据q_t与记忆模块中保存的正常样本特征的相似度，从中读取对应的p_t与q_t拼接得到特征(q_t,p_t)并更新记忆模块；

步骤4-3:将特征(q_t,p_t)送给预测网络的解码器，最终得到预测的第t+1帧视频帧

步骤4-4:将预测损失、记忆损失、对抗损失采用加权的方式得到本模型的整体损失函数Loss公式如下：

Loss＝L_pred+λ_mL_mem+λ_αL_adv

其中，式中λ_m、λ_α是用来平衡记忆损失和对抗损失在整个损失函数中所占比重的系数。L_pred为预测损失，L_mem为记忆损失，L_adv为对抗损失。

步骤5.异常检测模型：基于视频样本帧所构建的视频样本帧组，以及各视频样本帧组分别所对应的标签，以视频样本帧为输入，以视频样本帧组分别所对应的标签为输出，结合分类损失模型，针对视频异常帧检测待训练模型进行训练，获得视频异常帧检测模型；

步骤6.基于预测误差的异常性评分：输入样本在经过预测网络之后，会出现部分信息的丢失，预测误差被用来量化丢失的信息量。预测网络在训练时只使用正常事件样本，学习正常样本的特征模式，尽可能对正常事件样本进行预测。因此测试时预测网络会对正常事件样本产生较小的预测误差，而异常样本模式是网络没学习过的，在预测过程中会产生较大的预测误差。基于这一思路，在使用预测网络的异常检测算法中，往往使用输入样本的预测误差作为异常性评分，将预测误差高于事先设定的误差阈值的样本判断为异常样本，反之则判定为正常样本。

经过预测网络得到的预测图像和原始图像的尺寸是一样的，所以预测误差使用原始样本与预测样本像素之间的均方误差表示。对于一帧大小为m×n 的视频帧，其预测误差的计算过程为：

其中，x表示原始视频帧，

表示其对应的预测视频帧，i,j分别表示像素在视频帧上的空间索引，i＝1,2,…,m，j＝1,2,…,n。针对每个视频样本帧组中的每一帧视频样本帧，通过判别器模型根据模型重构得到的重构损失构建判定视频样本帧组中每一帧视频样本帧正常或异常的异常分数，将异常分数大于预设值的视频样本帧判定为异常视频帧，否则为正常视频帧。

所述预测网络为U-Net编码器，所述步骤步骤3中，模型在训练过程中仅采用正常事件样本，在测试过程中才会加入异常样本。将连续t帧正常训练样本X＝{x₁,x₂,…,x_t}送入预测网络，预测网络的编码器会提取这t帧视频帧的特征q_t。提取t帧视频帧特征的网络会根据q_t与记忆模块中保存的正常样本特征的相似度，从中读取对应的p_t与q_t拼接得到特征(q_t,p_t)并更新记忆模块，将特征(q_t,p_t)送给预测网络的解码器,最终得到预测的第t+1帧视频帧

记忆模块中包含读取和更新两个操作。当模型获取一个新的正常样本的特征后，会对记忆模块进行读取操作，从中选择和自身最相似的正常样本特征；然后，记忆模块会根据新的正常样本特征进行更新。

本实施例提供了一种基于对抗学习的监控视频异常检测方法，该方法从人脑认识、理解和识别异常的角度获取了灵感，提出了一种新型的基于“见过是正常，没见过是异常”的思想的异常检测方法。该方法摒弃了过去的两类方法的基本思想，克服了原有的思想的缺陷，通过学习认识视频内容，实现了一种用于视频异常检测的新方法。此方法框架分为两部分，第一部分将实时视频样本帧送到特征提取网络中，将样本的特征与记忆模块中的特征进行相似度比较，对记忆模块中的特征进行更新与读取，第二部分将从记忆模块中读取的特征与特征读取网络得到的特征进行基于通道的拼接，送入解码器得到重构后的图片，通过重构误差，得到判断此视频序列中视频样本帧正常与否的异常分数。

为进一步证明本申请提出的基于记忆模块的生成对抗网络模型异常检测性能的优越性。现提供在UCSD Ped2、Avenue、ShanghaiTech三个数据集上本方法与其他异常检测方法的性能指标比较，从实验数据可以看到，与现有的无监督异常检测算法相比，在UCSDPed2数据集上，本申请所提出的基于记忆模块的生成对抗网络的AUC指标达到了97.8％，本申请的模型是在 UCSD Ped2数据集上异常检测性能最好的算法。而在Avenue数据集上，本申请算法的AUC指标达到了87.3％，仅次于Hyunjong等人所提出的算法，但是本申请算法在其他两个数据集上的异常检测性能都优于Hyunjong等人的算法。在ShanghaiTech数据集上，本申请算法的AUC指标达到了73.5％，仅次于ALOCC算法，但是本申请的算法在UCSDPed2、Avenue数据集上优于ALOCC算法，并且ALOCC算法对输入视频帧进行切块，导致模型的训练和测试过程都比较慢。

实验速度对比：实际的视频监控系统往往需要对监控视频实现实时的异常检测，因此对异常检测算法的检测速度要求较高，本申请对模型在异常检测任务上的检测速度进行了测试，并与其他异常检测算法在UCSD Ped2数据集上的检测速度进行了对比，对比算法的检测速度数据来自其对应的原始论文。UCSD Ped2数据集中视频帧的分辨率为240×360，在实际的测试过程中，将其处理成256×256大小。模型的异常检测速度与输入视频帧的尺寸大小是正相关的，视频帧的尺寸越大，算法的处理速度会越慢。

进一步的，针对各种算法的速度。本申请的异常检测模型对于单个视频帧的处理时间为0.028秒，可以满足视频监控系统对于实时性的要求。与 ALOCC等采用对抗学习的异常检测模型相比，本申请的模型检测速度要更快，主要原因有两个：一个是本文模型没有对输入视频帧进行切块，网络对于整帧图像的处理速度更快；另一个原因是本申请模型在测试阶段摒弃了判别器，模型的结构变得更简洁。

为了更清楚的解释本申请，提出一种基于对抗学习的监控视频异常检测方法的具体实例。

参照图2，本发明提供的一种基于对抗学习的监控视频异常检测方法，按如下步骤1-步骤13，获得视频异常帧检测模型，然后应用视频异常帧检测模型，完成视频样本帧正常或异常检测；

步骤1.获得以按时间顺序排列的视频样本帧，以每一帧视频样本帧为起点，按时序选择5帧视频样本帧构建视频样本帧组(目的是以前4帧预测第5 帧)

步骤2.基于卷积神经网络，以视频样本帧为输入，以与视频样本帧所对应的重构图为输出，构建预测网络；

步骤3.预测网络由三个上采样层和三个下采样层组成，每个下采样层使用窗口大小为2×2的最大池化层来缩小特征图的尺寸，每一个下采样层均会对特征进行两次卷积操作，并采用ReLU作为激活函数，如图3所示。

步骤4.记忆模块中包含读取和更新两个操作。如图4所示，当模型获取一个新的正常样本的特征后，会对记忆模块进行读取操作，从中选择和自身最相似的正常样本特征；然后，记忆模块会根据新的正常样本特征进行更新。记忆模块的读取操作和更新操作的具体流程如下：

步骤5.读取操作:将尺寸为H×W×C的输入样本(连续t帧视频帧)特征q_t在通道处划分成H×W个查询项

的尺寸是1×1×C。对于每一个

从含有N个记忆单元的记忆模块中按照匹配概率

读取相应的信息

该匹配概率

是一个大小为M×K的二维相关图，是通过在

与其对应的记忆单元p_n之间的余弦相似度上应用softmax函数计算得到的。

步骤6.

的计算过程如式下：

步骤7.通过匹配概率

可以计算得到

所对应的拼接特征，如下所示：

步骤8.当为每一个

查询到对应的

之后，所有的

会形成一个与

同样尺寸的特征

然后将

与q_t在通道处进行拼接，得到一个尺寸为H×W×2C的特征图

该特征图用于网络后续的学习。

步骤9.更新操作：在所有的查询项

查询到其对应的

之后，由于

也是正常样本特征，记忆模块学习到了新的正常样本特征，因此此时记忆模块会对自身的记忆单元进行更新。具体的更新规则为，对于每个

选择匹配概率

最大的记忆单元进行更新。

步骤10.更新方式如下：

其中，f(·)代表L2范数，

表示与每个记忆项余弦相似度最大的查询项的索引集合，

n是

n归一化之后的参数，

n、

的计算公式分别如下：

步骤11.为了保证查询项与记忆模块中的记忆单元项尽可能相似，同时为了保证记忆单元的多样性，记忆模块会产生特征紧度损失L_compact和特征分离

其中，p_f是与查询项

余弦距离最小的记忆项，p_S是与

余弦距离第二小的记忆项，α是一个裕度值，用于防止

与记忆项过于相似而破坏记忆单元的多样性。

步骤12.本文采用经典的卷积神经网络作为判别器的基本架构，判别器由5 个卷积层和1个全连接层组成，全连接层使用的激活函数是Sigmoid。为了使模型的训练更加稳定，在每个卷积层后面添加了一个批量归一化(Batch Normalization，BN)层。

步骤13.在训练过程中，将预测网络生成的预测图像和该预测图像所对应的真实图像一起送入判别器进行真伪性判断。前三个卷积层使用大小为5×5 的卷积核，后两个卷积层使用大小为3×3的卷积核，步长都为2，激活函数均使用ReLU，5个卷积层输出特征的通道数分别为64、128、256、512、512。由这5个卷积层进行特征提取，之后送入全连接层进行判别估计，全连接层使用的是Sigmoid激活函数，因此判别器最终的输出是一个[0,1]之间的标量值，该数值即代表判别器对输入图像真伪性的判别结果。

在优选的实施例中，还提出一种基于对抗学习的监控视频异常检测系统，具体包括：

本发明文本基于对抗学习的监控视频异常检测系统的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于对抗学习的监控视频异常检测方法程序，所述基于对抗学习的监控视频异常检测方法程序被处理器执行时实现如上文所述的基于对抗学习的监控视频异常检测方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。确定为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

Claims

1.一种基于对抗学习的监控视频异常检测方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于对抗学习的监控视频异常检测方法，其特征在于，所述步骤S2中，预测网络为U-Net编码器。

3.如权利要求1所述的基于对抗学习的监控视频异常检测方法，其特征在于，所述步骤S3中，记忆模块网络在训练时采用正常事件样本，在测试时加入异常样本。

4.如权利要求1所述的基于对抗学习的监控视频异常检测方法，其特征在于，所述步骤S3中，记忆模块网络包括读取和更新两个操作，当获取一个新的正常样本的特征后，会对记忆模块网络进行读取操作，从中选择和自身最相似的正常样本特征；记忆模块网络会根据新的正常样本特征进行更新。

5.如权利要求1所述的基于对抗学习的监控视频异常检测方法，其特征在于，所述步骤S3，包括：

根据记忆模块网络的匹配算法得到匹配概率最大的特征p_t，尺寸也为H×W×C；

将查询到的特征p_t与提取的特征q_t进行通道上的拼接得到尺寸为H×W×2C的新特征，以对记忆模块网络进行更新。

6.如权利要求1所述的基于对抗学习的监控视频异常检测方法，其特征在于，所述步骤S4，具体包括：

将连续t帧正常训练样本X＝{x₁,x₂,…,x_t}送入预测网络；

预测网络的编码器提取t帧视频帧的特征q_t，预测网络会根据q_t与记忆模块中保存的正常样本特征的相似度，从中读取对应的p_t与q_t拼接得到特征(q_t,p_t)并更新记忆模块网络；

将预测损失、记忆损失、对抗损失采用加权的方式得到整体损失函数Loss。

7.如权利要求6所述的基于对抗学习的监控视频异常检测方法，其特征在于，所述整体损失函数Loss的表达式，具体为：

Loss＝L_pred+λ_mL_mem+λ_αL_adv

8.一种基于对抗学习的监控视频异常检测系统，其特征在于，所述系统包括：

样本帧获取模块：获得按时间顺序排列的视频样本帧，以每一帧视频样本帧为起点，按时序选择k帧视频样本帧构建视频样本帧组，作为预测网络的输入；

预测网络构建模块：基于卷积神经网络，以视频样本帧为输入，以与视频样本帧所对应的特征图为输出，构建预测网络；

对抗训练模块：以特征图作为记忆模块网络的输入，以与该特征图同尺度大小的正常样本特征图为记忆模块网络的输出，在无监督的情况下进行端到端的对抗训练；

损失模型构建模块：基于预测网络、记忆模块网络构建视频异常帧检测待训练模型，同时基于各视频样本帧的参与训练，以初步特征提取网络至深度特征提取分类网络的应用，通过引入重构，对抗以及记忆损失，构建分类损失模型；

异常检测模型构建模块：基于视频样本帧所构建的视频样本帧组，以及各视频样本帧组分别所对应的标签，以视频样本帧为输入，以视频样本帧组分别所对应的标签为输出，结合分类损失模型，针对视频异常帧检测待训练模型进行训练，获得视频异常帧检测模型；

异常性评分模块：针对每个视频样本帧组中的每一帧视频样本帧，通过判别器模型根据模型重构得到的重构损失判定视频样本帧组中每一帧视频样本帧正常或异常的异常分数，将异常分数大于预设值的视频样本帧判定为异常视频帧，否则为正常视频帧。