CN113011399B

CN113011399B - 基于生成协同判别网络的视频异常事件检测方法及系统

Info

Publication number: CN113011399B
Application number: CN202110468639.2A
Authority: CN
Inventors: 李洪均; 李超波; 申栩林; 陈俊杰; 章国安
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-10-03
Anticipated expiration: 2041-04-28
Also published as: CN113011399A; AU2021218192B1

Abstract

本发明涉及一种基于生成协同判别网络的视频异常检测方法及系统，方法包括：采集正常的视频监控数据并转换为原始帧，选取原始未来帧，并在其中添加噪声，得到噪声未来帧；将原始帧输入到生成器中，得到预测未来帧；计算预测未来帧和原始未来帧的前一帧之间的光流信息；计算原始未来帧和原始未来帧的前一帧之间的光流信息，二者的差异，将预测未来帧和原始未来帧输入至判别器中，构建判别器的目标函数；将噪声未来帧和预测未来帧输入至协同器中，构建协同器的目标函数；构建生成器的目标函数；更新生成器，确定测试时的预测未来帧；计算异常分数，根据所述异常分数确定待测帧是否存在异常。本发明中的上述方法能够提高视频中异常事件的检测精度。

Description

基于生成协同判别网络的视频异常事件检测方法及系统

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于生成协同判别网络的视频异常检测方法及系统。

背景技术

当前社会经济、科学技术不断发展，社会安全问题逐渐趋于复杂化，公共安全成为高度关注的焦点。视频监控在生活中得到了广泛的应用并在保障公共安全中发挥了重要的作用。但是普通的视频监控只能起到拍摄和记录功能，如果发生打架、违反公共秩序等异常事件，监控系统并不能起到检测功能，雇用监控人员需要耗费高昂的资金。同时，随着监控摄像头数量的不断增加，监控人员很难去观察到所有监控视频中的异常情况，且当监控人员的注意力不集中或疲劳时容易导致视频中重要信息的漏检。因此，监控视频中异常事件的智能检测对于公共生命和财产安全起着重要作用，受到了人们的广泛关注。

监控视频中异常事件的检测是计算机视觉领域的研究热点，涉及目标检测和分类、目标跟踪、行为识别、图像重建与增强、场景理解等多个方面，具有巨大的研究价值。许多学者对异常检测展开研究，研究方法主要可以分为两种：基于传统的特征提取的异常检测和基于深度神经网络的异常检测。在异常事件检测中基于传统特征提取的典型模型包括混合概率主成分分析(MPPCA)，社会力模型(SF)，混合动态纹理模型(MDT)等。这类方法主要用低层表征对正常事件建模，需要使用先验知识为不同事件获取合适的特征，具有较高的复杂性。

深度学习具有强大的表征能力，一些工作将深度神经网络应用于异常检测。基于深度神经网络的异常检测方法主要分为判别式方法和生成式方法。判别式方法主要通过使用卷积神经网络(CNN)，长短时记忆(LSTM)，全卷积网络(FCN)等来检测异常事件。Xu等人提出了一种用于异常检测和定位的端到端自适应帧内分类网络。Pang等人提出了自训练的深度序数回归方法来检测视频异常。Fan等人提出了一种结合高斯混合模型和全连接网络的双流变分自编码器来计算空间和时间上的异常分数。与基于传统特征提取的方法相比，深度判别式方法取得了更好的结果。但也存在一些难点，例如由于不确定性，不规则性和多样性，很难定义异常；来自现实世界的训练异常数据很少；收集各种异常并获得相应标签的难度较大等。

为了避免异常的定义以及标签的采集，不少工作集中在生成式方法在异常检测的研究中。在异常检测中一些生成方法采用帧重建的思想。Sabokrou等人学习了使用生成对抗网络(GAN)重建视频帧的单分类器。Park等人使用带有更新方案的记忆模块进行异常检测。Song等人提出了一种与注意力模型结合的自动编码器来学习正常模式，同时将偏离正常模式判定为异常。这些模型学习在训练过程中重建正常帧，而异常事件将在测试是会出现较大的重建误差。这些方法通过重建每一帧来关注画面中的表观特征，忽略了深度网络强大的表征能力可以粗略地重构异常视频帧。同时，没有考虑到帧间的关联性，也没有关注视频中运动信息，容易出现漏检。为了结合帧间的关联性以及视频中的时间信息，生成式方法中基于未来帧预测的思想被广泛用于异常检测中。Liu等人介绍了一种基于GAN的异常检测未来帧预测框架(FFP)。Lu等人提出了一种基于卷积变分递归神经网络的顺序生成模型用于未来帧预测。Lee等人提出了双向多尺度聚合网络来预测两个方向之间的帧之间的异常事件检测。这些方法主要通过对比预测未来帧和真实未来帧之间的差异来判定异常，类似于帧重建的思想，不同的是未来帧预测往往可以通过运用LSTM网络、光流等来增加时间域的信息，降低由于表观相似而运动信息不同时的漏检情况。

由于基于未来帧预测的异常检测方法便于将时间特征和空间特征相结合，选择使用基于未来帧预测的异常检测方法。但是现有的结合时间域特征的方法主要通过在空间特征的基础上增加约束来促进空间特征的预测或者将光流特征差异融入异常值判定异常。不同于这些方法，将时间域的运动特征融入到空间生成中，使得运动特征与表观特征同时体现在预测未来帧中，从而提高异常检测性能。此外，无论是帧生成还是未来帧预测方法，都是基于模型仅仅学习了正常目标的特征，异常目标难以重建或预测，或者重建或预测效果不理想的思想。然而实际上很多情况下正常目标和异常目标都属于同一类别，只是在其行为等方面存在比较细微的差别，而且深度网络具有强大的学习能力，异常实际上是可以被粗略地重建或预测，重建或预测的帧与真实帧的差异较小，容易导致异常漏检。因此未来帧预测还需要关注正常和异常间的判别性、细微特征的学习，是否能够充分提炼这些特征关系到检测算法的实际性能。同时，真实场景下采集到的视频可能受到噪声的干扰，进而影响异常检测的准确性。同时，由于外界场景或视频传感器的限制，干扰成为不可避免的问题。因此，异常检测的性能可能会受到所收集视频中的噪声干扰的影响。而且目前大多数算法重视网络的性能但是忽略了噪声对性能的影响。

发明内容

本发明的目的是提供一种基于生成协同判别网络的视频异常检测方法及系统，提高视频中异常事件的检测精度。

为实现上述目的，本发明提供了如下方案：

一种基于生成协同判别网络的视频异常检测方法，所述检测方法包括：

采集正常的视频监控数据；

将所述视频监控数据转换为原始帧I₁,…,I_t；

在所述原始帧中选取第t帧作为原始未来帧I_t；

在所述原始未来帧中添加噪声η～N(0,σ²I)，得到噪声未来帧I_t′；

将所述原始帧输入到生成器中，生成器根据前t-1的连续帧I₁,…,I_t-1学习空间特征和时间特征，得到预测未来帧

计算所述预测未来帧和所述原始未来帧的前一帧I_t-1之间的光流信息，记为第一光流信息/>

计算所述原始未来帧I_t和所述原始未来帧的前一帧I_t-1之间的光流信息，记为第二光流信息f(I_t-1,I_t)；

计算所述第一光流信息和所述第二光流信息的差异，

将所述预测未来帧和所述原始未来帧I_t输入至判别器中，得到预测未来帧/>属于原始帧I₁,…,I_t的概率/>和原始未来帧I_t属于原始帧I₁,…,I_t的概率D(I_t)；

根据所述概率和所述概率D(I_t)构建判别器的目标函数；

将所述噪声未来帧I_t′和所述预测未来帧输入至协同器中，得到噪声未来帧I_t′属于正常未来帧的概率A(I_t′)和预测未来帧/>属于正常未来帧的概率/>

根据所述概率A(I_t′)和所述概率构建协同器的目标函数；

将所述第一光流信息和所述第二光流信息的差异f_d、所述概率以及所述概率/>反馈给生成器，与所述判别器对抗训练，与协同器协同训练优化所述生成器，并构建生成器的目标函数；

基于所述判别器的目标函数、协同器的目标函数以及生成器的目标函数，在迭代过程中不断更新生成器、判别器和协同器，直到生成器、判别器和协同器都无法提升时结束；

基于所述更新后的生成器，确定测试时的预测未来帧

计算所述预测未来帧和所述原始未来帧I_t的峰值信噪比；

基于所述峰值信噪比计算异常分数；

根据所述异常分数确定待测帧是否存在异常。

可选地，在所述“基于所述判别器的目标函数、协同器的目标函数以及生成器的目标函数，在迭代过程中不断更新生成器、判别器和协同器，直到生成器、判别器和协同器都无法提升时结束”步骤之后还包括：

计算像素损失，根据所述像素损失优化所述生成器；

计算梯度损失，根据所述梯度损失优化所述生成器。

可选地，所述像素损失采用以下公式：

其中，/>表示原始未来帧I_t和预测未来帧/>之间的像素损失，||·||₂表示L₂范数。

可选地，所述梯度损失采用以下公式：

其中，/>表示原始未来帧I_t和预测未来帧/>之间梯度损失，(i,j)表示像素的空间位置，||·||₁表示L₁范数。

可选地，所述判别器的目标函数为：

其中，/>为预测未来帧/>属于原始帧I₁,…,I_t的概率，D(I_t)为原始未来帧I_t属于原始帧I₁,…,I_t的概率。

可选地，所述协同器的目标函数为：

其中，A(I_t′)为噪声未来帧I_t′属于正常未来帧的概率，/>为预测未来帧/>属于正常未来帧的概率。

可选地，所述生成器的目标函数为：

其中/>表示预测未来帧，α为常数，λ是L_G损失函数中的平衡系数，/>为预测未来帧/>属于正常未来帧的概率，为预测未来帧/>属于原始帧I₁,…,I_t的概率

可选地，基于所述峰值信噪比计算异常分数具体采用以下公式：

其中，/>表示在多组测试结果中取预测未来帧/>和原始未来帧I_t的峰值信噪比值的最大值，/>表示在多组测试结果中取预测未来帧/>和原始未来帧I_t的峰值信噪比值的最小值，/>表示预测未来帧/>和原始未来帧I_t的峰值信噪比值。

可选地，根据所述异常分数确定待测帧是否存在异常具体包括：

当所述异常分数超过设定阈值时，则待测帧存在异常，否则，待测帧为正常。

本发明另外提供一种基于生成协同判别网络的视频异常检测系统，所述检测系统包括：

视频监控数据采集模块，用于采集正常的视频监控数据；

原始帧转换模块，用于将所述视频监控数据转换为原始帧I₁,…,I_t；

原始未来帧选取模块，用于在所述原始帧中选取第t帧作为原始未来帧I_t；

噪声添加模块，用于在所述原始未来帧中添加噪声η～N(0,σ²I)，得到噪声未来帧I_t′；

预测未来帧确定模块，用于将所述原始帧输入到生成器中，生成器根据前t-1的连续帧I₁,…,I_t-1学习空间特征和时间特征，得到预测未来帧

第一光流信息计算模块，用于计算所述预测未来帧和所述原始未来帧的前一帧I_t-1之间的光流信息，记为第一光流信息/>

第二光流信息计算模块，用于计算所述原始未来帧I_t和所述原始未来帧的前一帧I_t-1之间的光流信息，记为第二光流信息f(I_t-1,I_t)；

差异计算模块，用于计算所述第一光流信息和所述第二光流信息的差异，

第一概率计算模块，用于将所述预测未来帧和所述原始未来帧I_t输入至判别器中，得到预测未来帧/>属于原始帧I₁,…,I_t的概率/>和原始未来帧I_t属于原始帧I₁,…,I_t的概率D(I_t)；

判别器目标函数构建模块，用于根据所述概率和所述概率D(I_t)构建判别器的目标函数；

第二概率计算模块，用于将所述噪声未来帧I_t′和所述预测未来帧输入至协同器中，得到噪声未来帧I_t′属于正常未来帧的概率A(I_t′)和预测未来帧/>属于正常未来帧的概率/>

协同器目标函数构建模块，用于根据所述概率A(I_t′)和所述概率构建协同器的目标函数；

生成器目标函数构建模块，用于将所述第一光流信息和所述第二光流信息的差异f_d、所述概率以及所述概率/>反馈给生成器，与所述判别器对抗训练，与协同器协同训练优化所述生成器，并构建生成器的目标函数；

更新模块，用于基于所述判别器的目标函数、协同器的目标函数以及生成器的目标函数，在迭代过程中不断更新生成器、判别器和协同器，直到生成器、判别器和协同器都无法提升时结束；

测试预测未来帧确定模块，用于基于所述更新后的生成器，确定测试时的预测未来帧

峰值信噪比计算模块，用于计算所述预测未来帧和所述原始未来帧I_t的峰值信噪比；

异常分数计算模块，用于基于所述峰值信噪比计算异常分数；

异常判断模块，用于根据所述异常分数确定待测帧是否存在异常。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明中的上述方法，提高了视频中异常事件的检测精度，提高了学习判别特征的能力，增强了噪声鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于生成协同判别网络的视频异常检测方法流程图；

图2为本发明实时GADNet总体框架图；

图3为本发明实施例不同网络在UCSD Ped1,Ped2和CUHK Avenue的判别性特征提取能力示意图；

图4为本发明实施例基于生成协同判别网络的视频异常检测系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例基于生成协同判别网络的视频异常检测方法流程图，图2为本发明实时GADNet总体框架图，如图1和图2所示，所述方法包括：

步骤101：采集正常的视频监控数据。

步骤102：将所述视频监控数据转换为原始帧I₁,…,I_t。

具体的，是通过分帧技术将采集到的视频转换为原始帧I₁,…,I_t。

步骤103：在所述原始帧中选取第t帧作为原始未来帧I_t。

其中，原始未来帧是指第t帧未来帧(即一帧)，例如I_t；原始帧是从采集视频转换成图像的所有帧(很多帧)，原始帧包括原始未来帧。

步骤104：在所述原始未来帧中添加噪声η～N(0,σ²I)，得到噪声未来帧I_t′。

由于噪声的加入改变了原始未来帧的局部或全局分布特征，导致噪声未来帧和原始未来帧存在着微小的差异，因此噪声未来帧可以粗略地看做是与正常具有细微差异的异常未来帧。

步骤105：将所述原始帧输入到生成器中，生成器根据前t-1的连续帧I₁,…,I_t-1学习空间特征和时间特征，得到预测未来帧

其中生成器的搭建选用U-Net结构，通过跨连接把较浅的卷积层特征与解码后的特征相结合，不仅可以避免部分特征的丢失，而且浅层的卷积特征具有较高的分辨率，更加有利于获得图像中轮廓等细节信息。

步骤106：计算所述预测未来帧和所述原始未来帧的前一帧I_t-1之间的光流信息，记为第一光流信息/>

步骤107：计算所述原始未来帧I_t和所述原始未来帧的前一帧I_t-1之间的光流信息，记为第二光流信息f(I_t-1,I_t)。

步骤108：计算所述第一光流信息和所述第二光流信息的差异，

具体的，是使用差分法计算获得的两个光流信息差异。

步骤109：将所述预测未来帧和所述原始未来帧I_t输入至判别器中，学习特征，判别器分别输出预测未来帧/>属于原始帧I₁,…,I_t的概率/>和原始未来帧I_t属于原始帧I₁,…,I_t的概率D(I_t)。

步骤110：根据所述概率和所述概率D(I_t)构建判别器的目标函数。

其中判别器的搭建主要采用五层卷积网络，通过填充将实际帧的外围转换为特征图的非外围使判别器提取的信息更加完整。在判别器优化中，理论上判别器判断原始未来帧、预测未来帧属于原始帧的概率分别为1和0，因此判别器的目标函数设定为L_D：

步骤111：将所述噪声未来帧I_t′和所述预测未来帧输入至协同器中，此时噪声未来帧I_t′和预测未来帧/>可以分别看作异常未来帧和正常未来帧，协同器学习它们的判别性特征后，输出噪声未来帧I_t′属于正常未来帧的概率A(I_t′)和预测未来帧/>属于正常未来帧的概率/>

步骤112：根据所述概率A(I_t′)和所述概率构建协同器的目标函数。

在协同器优化中，理论上协同器判断噪声未来帧、预测未来帧属于正常帧的概率分别为0和1，因此协同器的目标函数设定为L_A：

步骤113：将所述第一光流信息和所述第二光流信息的差异f_d、所述概率以及所述概率/>反馈给生成器，与所述判别器对抗训练，与协同器协同训练优化所述生成器，并构建生成器的目标函数。

在生成器优化中，理论上判别器判断预测未来帧属于原始帧的概率和协同器判别预测未来帧属于正常的概率均为1，因此生成器的目标函数设定为：

其中表示预测未来帧，为了使L_G中的两个优化项在数值上匹配，设置α为常数2，λ是L_G损失函数中的平衡系数，它是为了平衡判别器和协同器促进生成器优化的速率。

步骤114：基于所述判别器的目标函数、协同器的目标函数以及生成器的目标函数，在迭代过程中不断更新生成器、判别器和协同器，直到生成器、判别器和协同器都无法提升时结束。

空间域上生成器的目标是使得预测未来帧无限趋近于原始未来帧，而判别器是使得预测未来帧尽可能地区别于原始未来帧；此外，通过减小光流信息差异，一方面进一步约束预测未来帧中的运动目标符合视频中运动目标的运动趋势，另一方面，使预测未来帧在空间域上趋近于原始未来帧的同时结合时间域的光流信息差异。即如果存在异常，预测帧中运动特征出现异常，光流信息差异大且会叠加到预测未来帧中，提高预测未来帧和原始未来帧的差异；如果未来帧中没有异常，那么光流信息差异很小或趋近于0，预测的未来帧中不会出现光流信息。

同时为了减少空间域中预测未来帧与原始未来帧I_t的距离，增加了像素损失L_pr：

其中||·||₂表示L₂范数。此外，增加了梯度损失L_gr，计算预测未来帧与原始未来帧I_t沿两个空间维度的梯度差，以保持预测未来帧的清晰度。

其中(i,j)表示像素的空间位置，||·||₁表示L₁范数。

步骤115：基于所述更新后的生成器，确定测试时的预测未来帧

经过多次迭代优化后网络模型达到最优，进行模型测试并获得测试时的预测未来帧

步骤116：计算所述预测未来帧和所述原始未来帧I_t的峰值信噪比。

步骤117：基于所述峰值信噪比计算异常分数。

步骤118：根据所述异常分数确定待测帧是否存在异常。

生成协同判别网络总体上可以看做一个带有图像去噪功能的未来帧预测网络。当原始的前t-1帧图像输入生成器中，预测得到未来的第t帧，该预测帧不包含噪声；在协同器中，同时输入一对图像，即噪声未来帧和预测未来帧，此时预测未来帧可以看作为标签，通过特征学习优化生成器；同时在判别器中，输入预测未来帧和原始未来帧，此时原始未来帧作为标签，进一步学习优化生成器。因此，相当于以预测未来帧为中心，通过将噪声未来帧和原始未来帧进行间接比较，实现未来帧的预测及去噪功能。通过计算峰值信噪比(PSNR)，将预测未来帧与原始未来帧I_t进行了比较。在统计测试视频的总体PSNR后，归一化PSNR得到异常分数S(t)并根据异常分数判断是否异常，当异常分数大于阈值时判定为异常。

相对于现有技术，本方法(GADNet)在总体上检测提高了精度，提高了学习判别性特征的能力，增强了噪声鲁棒性。

在UCSD Ped1，Ped2和CUHK Avenue两个异常检测数据集上进行评估。UCSD数据集分为两个子集：Ped1包含34个训练视频和16个测试视频。每个视频有200帧，分辨率为238×158。Ped2数据集的分辨率为360×240，包含16个训练视频和12个测试视频，每个视频中有150到180帧。由于低分辨率，不同且较小的移动物体以及场景中的一个或多个异常，因此该数据集具有挑战性。CUHK Avenue数据集的分辨率为360×640，包含16个训练视频和21个测试视频。它包含47个异常事件，例如游荡，奔跑，投掷物体等。对于这两个数据集，训练数据集仅包含正常事件，而测试数据集则包含异常事件和正常事件。使用接收者操作特征曲线下的面积(AUC)和等错误率(EER)的值来评估性能。此外，为了进行更定量的比较，使用了异常帧与正常帧之间的差距ΔS来说明判别性特征的提取能力。ΔS越大意味着网络可以学习正常帧和异常帧之间的判别性特征越多，更有能力区分正常事件和异常事件。

(1)总体上提高了检测精度(检测精度的提高得益于总体方案)

为了更好地客观地说明所提出方法的性能，将提出的异常检测方法与一些有代表性的方法在UCSD Ped1，Ped2和CUHK Avenue上进行了比较，采用AUC和EER作为评价指标，结果如表1所示。异常检测方法的比较主要分为三类。第一类是基于传统特征提取的典型方法，包括概率主成分分析(MPPCA)，社会力模型(SF)，光流方向和幅值和熵的直方图(HOFME)，混合动态纹理方法(MDT)和非遮罩(Unmasking)，如表1的前五行所示。第二类基于判别方法，主要与稀疏编码引导的时空特征(SCG-SF)，高斯混合模型和全卷积网络(GMM-FCN)，自适应帧内分类网络(AICN)和对抗判别器(AD)。它们显示在表1的第六至第九行中。第三类基于生成式方法，主要包括AnomalyNet，未来帧预测框架(FFP)，卷积自动编码器模型(Conv-AE)，双流递归变分自动编码器(TSRVAE)和提出的GADNet。这些方法的结果列在表1的最后五行中。

表1不同方法和数据集下的AUC和EER比较

从表1中可以看出，大多数基于传统的特征提取的异常检测方法没有评估在CUHKAvenue数据上的性能，在UCSD Ped1和Ped2中的AUC最高达到81.8％和89.9％，相对比较低。相比于传统的特征提取方法，深度判别式方法在整体上具有较好的性能，特别是在UCSDPed1数据集上，最高AUC可以达到95.1％并且EER达到9.4％。且将判别式方法和生成式方法结合，在Ped1中取得了更好的结果。基于生成式方法在UCSD Ped2和CUHK Avenue中相比与判别式方法具有较好的性能。特别是，提出的方法在Ped1、Ped2和Avenue上的AUC值的准确率分别为84.1％、96.1％和86.1％。在这三个数据集上，与其他生成方法相比达到了最低的EER值。提出的方法在这些基准数据集上优于最现有的生成方法。这也说明基于生成式和判别式方法在不同的异常数据集下各具优势。

为了分析提出的算法中的不同策略在异常检测的贡献程度，进行了消融实验，以进一步了解提出的方法。未来帧预测模型(FFP)是一个典型的异常检测视频预测框架，它在视频预测任务中使用时间约束。为便于比较，以不使用光流的FFP作为基础，且基础模型由一个用于预测的生成器和一个典型的判别器组成。所提出的GADNet模型主要包括生成器、判别器和协同器，并通过光流来引入视频预测中的运动信息。噪声未来帧是协同器的主要输入值之一。所以该方法的主要策略是协同器、光流信息差异和噪声未来帧，主要涉及到光流信息差异的作用，协同器和光流信息差异的共同作用，以及协同器、光流信息差异和噪声未来帧三者的共同作用。通过在AUC和EER评估方面的对比来进一步说明增加不同策略时的性能变化情况如表2所示。

表2不同策略下异常检测性能的比较

从表2可以看出，在增加光流信息差异后有助于提高异常检测的准确率；增加协同器后在三个数据集上的性能都有所提升，当同时增加协同器和噪声未来帧后，相比于只增加协同器的性能提高，在UCSD Ped2数据集上更为显著，AUC提高了0.43％，EER值降低了0.37％。提出的GADNet在同时增加协同器、光流信息差异和噪声未来帧三个策略时，获得最优的检测性能；相比于不使用任何策略时，在UCSD Ped1，Ped2和CUHK Avenue数据集上，AUC值分别获得了2.22％，2.63％和2.40％的提高。实验结果表明三个策略对异常检测都有较高的贡献度，那是因为光流信息差异能够提高预测未来帧和原始未来帧的差异，从而提高对异常的敏感度。协同器可以提高网络在正常和异常中判别性特征的获取。当输入噪声未来帧时，网络整体相当于去噪器，有利于提高网络的鲁棒性并降低对视频帧中噪声对异常检测的干扰。不同策略的组合从不同方面对模型进行优化，因此可以实现较好的异常检测性能。

(2)提高了学习判别性特征的能力

另外，为了说明提出网络在提取正常帧和异常帧之间的判别特征的能力，使用异常帧与正常帧之间的差距ΔS进行评估。将提出的GADNet与FFP、Conv-AE在UCSD Ped1，Ped2和CUHK Avenue中进行了对比，实验结果如图3所示。可以看出提出的GADNet在三个数据集上都获得了最大的ΔS值，提出的GADNet优于Conv-AE和FFP。这说明提出的网络更有利于提取正常和异常事件间的判别性特征，便于提高检测能力。

(3)增强了噪声鲁棒性

由于场景或视频传感器的限制，噪声成为一个不可避免的问题。现实中的噪声帧通常用固定方差的高斯白噪声来模拟。为了说明不同噪声对GADNet的影响并证明其对噪声的鲁棒性，在测试过程中加入了具有不同标准差的高斯噪声。提出方法和典型的FFP模型在不同标准差σ_t的噪声下AUC和EER下的变化情况见表3。可以看出随着添加的噪声越大，导致AUC下降，EER大致增加。在同一噪声下，提出的方法在AUC和EER下几乎优于FFP。说明提出的方法具有更好的噪声鲁棒性。

表3不同噪声下AUC和EER值

图4为本发明实施例基于生成协同判别网络的视频异常检测系统结构示意图，如图4所示所述系统包括：

视频监控数据采集模块201，用于采集正常的视频监控数据；

原始帧转换模块202，用于将所述视频监控数据转换为原始帧I₁,…,I_t；

原始未来帧选取模块203，用于在所述原始帧中选取第t帧作为原始未来帧I_t；

噪声添加模块204，用于在所述原始未来帧中添加噪声η～N(0,σ²I)，得到噪声未来帧I_t′；

预测未来帧确定模块205，用于将所述原始帧输入到生成器中，生成器根据前t-1的连续帧I₁,…,I_t-1学习空间特征和时间特征，得到预测未来帧

第一光流信息计算模块206，用于计算所述预测未来帧和所述原始未来帧的前一帧I_t-1之间的光流信息，记为第一光流信息/>

第二光流信息计算模块207，用于计算所述原始未来帧I_t和所述原始未来帧的前一帧I_t-1之间的光流信息，记为第二光流信息f(I_t-1,I_t)；

差异计算模块208，用于计算所述第一光流信息和所述第二光流信息的差异，/>

第一概率计算模块209，用于将所述预测未来帧和所述原始未来帧I_t输入至判别器中，得到预测未来帧/>属于原始帧I₁,…,I_t的概率/>和原始未来帧I_t属于原始帧I₁,…,I_t的概率D(I_t)；

判别器目标函数构建模块210，用于根据所述概率和所述概率D(I_t)构建判别器的目标函数；

第二概率计算模块211，用于将所述噪声未来帧I_t′和所述预测未来帧输入至协同器中，得到噪声未来帧I_t′属于正常未来帧的概率A(I_t′)和预测未来帧/>属于正常未来帧的概率/>

协同器目标函数构建模块212，用于根据所述概率A(I_t′)和所述概率构建协同器的目标函数；

生成器目标函数构建模块213，用于将所述第一光流信息和所述第二光流信息的差异f_d、所述概率以及所述概率/>反馈给生成器，与所述判别器对抗训练，与协同器协同训练优化所述生成器，并构建生成器的目标函数；

更新模块214，用于基于所述判别器的目标函数、协同器的目标函数以及生成器的目标函数，在迭代过程中不断更新生成器、判别器和协同器，直到生成器、判别器和协同器都无法提升时结束；

测试预测未来帧确定模块215，用于基于所述更新后的生成器，确定测试时的预测未来帧

峰值信噪比计算模块216，用于计算所述预测未来帧和所述原始未来帧I_t的峰值信噪比；

异常分数计算模块217，用于基于所述峰值信噪比计算异常分数；

异常判断模块218，用于根据所述异常分数确定待测帧是否存在异常。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于生成协同判别网络的视频异常检测方法，其特征在于，所述检测方法包括：

采集正常的视频监控数据；

将所述视频监控数据转换为原始帧I₁,…,I_t；

在所述原始帧中选取第t帧作为原始未来帧I_t；

在所述原始未来帧中添加噪声η～N(0,σ²I)，得到噪声未来帧I′_t；

计算所述第一光流信息和所述第二光流信息的差异，

根据所述概率和所述概率D(I_t)构建判别器的目标函数；

将所述噪声未来帧I′_t和所述预测未来帧输入至协同器中，得到噪声未来帧I′_t属于正常未来帧的概率A(I′_t)和预测未来帧/>属于正常未来帧的概率/>

根据所述概率A(I′_t)和所述概率构建协同器的目标函数；

基于所述更新后的生成器，确定测试时的预测未来帧

计算所述预测未来帧和所述原始未来帧I_t的峰值信噪比；

基于所述峰值信噪比计算异常分数；

根据所述异常分数确定待测帧是否存在异常。

2.根据权利要求1所述的基于生成协同判别网络的视频异常检测方法，其特征在于，在所述“基于所述判别器的目标函数、协同器的目标函数以及生成器的目标函数，在迭代过程中不断更新生成器、判别器和协同器，直到生成器、判别器和协同器都无法提升时结束”步骤之后还包括：

计算像素损失，根据所述像素损失优化所述生成器；

计算梯度损失，根据所述梯度损失优化所述生成器。

3.根据权利要求2所述的基于生成协同判别网络的视频异常检测方法，其特征在于，所述像素损失采用以下公式：

4.根据权利要求2所述的基于生成协同判别网络的视频异常检测方法，其特征在于，所述梯度损失采用以下公式：

5.根据权利要求1所述的基于生成协同判别网络的视频异常检测方法，其特征在于，所述判别器的目标函数为：

6.根据权利要求1所述的基于生成协同判别网络的视频异常检测方法，其特征在于，所述协同器的目标函数为：

其中，A(I′_t)为噪声未来帧I′_t属于正常未来帧的概率，/>为预测未来帧/>属于正常未来帧的概率。

7.根据权利要求1所述的基于生成协同判别网络的视频异常检测方法，其特征在于，所述生成器的目标函数为：

其中/>表示预测未来帧，α为常数，λ是L_G损失函数中的平衡系数，/>为预测未来帧/>属于正常未来帧的概率，/>为预测未来帧/>属于原始帧I₁,…,I_t的概率。

8.根据权利要求1所述的基于生成协同判别网络的视频异常检测方法，其特征在于，基于所述峰值信噪比计算异常分数具体采用以下公式：

9.根据权利要求1所述的基于生成协同判别网络的视频异常检测方法，其特征在于，根据所述异常分数确定待测帧是否存在异常具体包括：

10.一种基于生成协同判别网络的视频异常检测系统，其特征在于，所述检测系统包括：

视频监控数据采集模块，用于采集正常的视频监控数据；

噪声添加模块，用于在所述原始未来帧中添加噪声η～N(0,σ²I)，得到噪声未来帧I′_t；

第二概率计算模块，用于将所述噪声未来帧I′_t和所述预测未来帧输入至协同器中，得到噪声未来帧I′_t属于正常未来帧的概率A(I′_t)和预测未来帧/>属于正常未来帧的概率/>

协同器目标函数构建模块，用于根据所述概率A(I′_t)和所述概率构建协同器的目标函数；