CN109522828A

CN109522828A - 一种异常事件检测方法及系统、存储介质及终端

Info

Publication number: CN109522828A
Application number: CN201811293039.1A
Authority: CN
Inventors: 高盛华; 刘闻; 罗伟鑫
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-03-26
Anticipated expiration: 2038-11-01
Also published as: CN109522828B

Abstract

本发明提供一种异常事件检测方法及系统、存储介质及终端，包括以下步骤：在训练数据集中随机获取n个连续视频图像；基于所述n个连续视频图像训练未来帧预测神经网络；重新在训练数据集中随机获取n个连续视频图像，迭代训练所述未来帧预测神经网络，直至迭代次数达到预设次数；获取视频流中的n个连续视频图像；基于所述视频流中的n个连续视频图像中的前n‑1个连续视频图像和训练得到的所述未来帧预测神经网络预测所述n‑1个连续视频图像的未来帧；比较所述未来帧和所述视频流中的n个连续视频图像的最后一帧，判断是否有异常事件。本发明的异常事件检测方法及系统、存储介质及终端极大地提升了异常事件的检测精度。

Description

一种异常事件检测方法及系统、存储介质及终端

技术领域

本发明涉及图像处理的技术领域，特别是涉及一种基于视频未来帧预测的异常事件检测方法及系统、存储介质及终端。

背景技术

在实际应用中，异常事件通常具有多可能性和稀缺性的特点。多可能性是指在同一个场景下异常事件存在多种可能，比如对于马路上行驶的汽车可能出现逆行、抛锚、掉下轮胎、轮胎爆裂、掉下异物、与其他汽车或者物体相撞等等诸多异常的情形，而这些可能性在有些场景中甚至很难列举全面。稀缺性是指异常事件很少发生，比如对于上述场景中的自然、爆炸的事件就很少发生。

由于异常事件的多可能性和稀缺性，导致很多异常事件很难捕捉。因此，在计算机视觉中和机器学习领域，通常的异常事件检测场景设定为训练样本中只含有大量正常的事件，而没有异常事件。异常事件检测任务通常定义为检测那些与训练样本中的正常事件不一致的事件。由于视频中异常事件的多可能性和稀缺性，以及训练样本中只有正常事件的设定，使得异常事件检测在实际应用中存在巨大挑战。因而，视频中的异常事件检测技术具有非常重要的意义以及巨大的潜在价值。

现有技术中，视频中的异常事件检测方法大致可以分类以下两类：

(1)基于手工特征提取的方法

在基于手工特征的异常事件检测中，将人或物体在视频的每一帧中的坐标随着时间的变化而变化所形成的轨迹特征用于视频的特征表达，并以此为基础，利用单分类支持向量机、混合高斯模型以及隐马尔科夫模型等等技术来建模正常行为的轨迹的分布。如果有事件的轨迹落在了正常轨迹的分布之外，则将此判定为异常。因此，基于轨迹的手工特征严重依赖视频跟踪的结果，然而在人流量较大或者有遮挡的情况下，轨迹很容易失效。故在这种场景下，依靠轨迹的手工特征提取的异常事件检测往往会失效。为了解决这个问题，有些方法在考虑空间特征的基础上，引入了时间特征信息，即基于空间-时间特征的异常事件检测也被广泛采用。

(2)基于深度学习的特征提取的方法

基于深度学习的特征提取的异常事件检测考虑到深度学习有着很强的特征提取能力，采用深度学习提取视频特征，然后再使用单分类支持向量机、混合高斯模型或者隐马尔可夫模型来建模正常的事件特征。因此，如何基于深度学习实现异常事件检测成为当前亟待解决的热点课题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种异常事件检测方法及系统、存储介质及终端，基于预测得到的视频未来帧和真实视频帧的比对来检测异常事件，极大地提升了检测精度。

为实现上述目的及其他相关目的，本发明提供一种基于视频未来帧预测的异常事件检测方法，包括以下步骤：在训练数据集中随机获取n个连续视频图像；基于所述n个连续视频图像训练未来帧预测神经网络；重新在训练数据集中随机获取n个连续视频图像，迭代训练所述未来帧预测神经网络，直至迭代次数达到预设次数；获取视频流中的n个连续视频图像；基于所述视频流中的n个连续视频图像中的前n-1个连续视频图像和训练得到的所述未来帧预测神经网络预测所述n-1个连续视频图像的未来帧；比较所述未来帧和所述视频流中的n个连续视频图像的最后一帧，判断是否有异常事件。

于本发明一实施例中，所述未来帧预测神经网络包括预测生成网络和判别网络；基于n个连续视频图像训练未来帧预测神经网络时：

通过L_G＝λ_intL_int+λ_gdL_gd+λ_opL_op+λ_advL_adv优化所述预测生成网络的参数；L_int、L_gd、L_op和L_adv分别为图像像素约束、图像梯度约束、光流束约束和生态农场对抗网络约束；λ_int、λ_gd、λ_op和λ_adv分别为图像像素约束、图像梯度约束、光流束约束和生态农场对抗网络约束；

通过优化所述判别网络的参数，表示所述未来帧，D表示所述判别网络，其中，|| ||₁表示取1的范数，|| ||₂表示取2的范数，i，j分别表示第i行，第j列。

于本发明一实施例中，I_t+1表示所述视频流中的n个连续视频图像的最后一帧； I_t表示所述视频流中的n个连续视频图像的倒数第二帧，f表示预训练好的神经网络。

于本发明一实施例中，λ_int、λ_gd、λ_op和λ_adv分别设置为1.0，1.0，0.05和2.0。

于本发明一实施例中，所述未来帧预测神经网络包括预测生成网络和生成对抗网络；训练所述未来帧预测神经网络时，交替训练所述生成对抗网络和所述预测生成网络。

于本发明一实施例中，训练未来帧预测神经网络所采用的视频图像和预测所述n-1个连续视频图像的未来帧所采用的视频图像均需进行预处理；所述预处理为将视频图像的颜色尺度归一化到[-1，1]，通过双线性插值将图像的大小尺度变化到256 x 256。

于本发明一实施例中，比较所述未来帧和所述视频流中的n个连续视频图像的最后一帧，判断是否有异常事件包括以下步骤：

计算所述未来帧与所述视频流中的n个连续视频图像的最后一帧之间的峰值信噪比；

比较所述峰值信噪比和预设阈值；

当所述峰值信噪比小于所述预设阈值时，判断所述视频流中的n个连续视频图像的最后一帧为异常行为动作；否则，判断所述视频流中的n个连续视频图像的最后一帧为正常行为动作。

对应地，本发明提供一种基于视频未来帧预测的异常事件检测系统，包括第一获取模块、训练模块、迭代模块、第二获取模块、预测模块和检测模块；

所述第一获取模块用于在训练数据集中随机获取n个连续视频图像；

所述训练模块用于基于所述n个连续视频图像训练未来帧预测神经网络；

所述迭代模块用于重新在训练数据集中随机获取n个连续视频图像，迭代训练所述未来帧预测神经网络，直至迭代次数达到预设次数；

所述第二获取模块用于获取视频流中的n个连续视频图像；

所述预测模块用于基于所述视频流中的n个连续视频图像中的前n-1个连续视频图像和训练得到的所述未来帧预测神经网络预测所述n-1个连续视频图像的未来帧；

所述检测模块用于比较所述未来帧和所述视频流中的n个连续视频图像的最后一帧，判断是否有异常事件。

本发明提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于视频未来帧预测的异常事件检测方法。

最后，本发明提供一种终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的基于视频未来帧预测的异常事件检测方法。

如上所述，本发明的异常事件检测方法及系统、存储介质及终端，具有以下有益效果：

(1)基于预测得到的视频未来帧和真实视频帧的比对来检测异常事件，极大地提升了检测精度；

(2)在预测正常视频帧时，在外貌特征上，同时对图像像素、图像梯度和生成对抗网络三方面进行约束；在动作特征上，对光流图进行约束，从而提高了预测精度；

(3)在视频监控、无人驾驶、教育、消费娱乐等诸多领域有着广泛的应用。

附图说明

图1显示为本发明的基于视频未来帧预测的异常事件检测方法于一实施例中的流程图；

图2显示为本发明的基于视频未来帧预测的异常事件检测系统于一实施例中的结构示意图；

图3显示为本发明的终端于一实施例中的结构示意图。

元件标号说明

21 第一获取模块

22 训练模块

23 迭代模块

24 第二获取模块

25 预测模块

26 检测模块

31 处理器

32 存储器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

由于正常事件往往具有可预见性，而异常事件往往是很难预测的。因此本发明的异常事件检测方法及系统、存储介质及终端基于预测得到的视频未来帧和真实视频帧的比对来检测异常事件。具体地，给定一小段连续的视频帧序列，系统预测出未来的视频帧，如果预测出来的视频帧与真实的视频帧接近，那么很有可能是正常事件；反之，则是异常事件的可能性较大。本发明中通过峰值信噪比来衡量预测的未来帧和真实的未来帧是否相似，它的值越大，表明两者之间更相似，即越有可能是正常事件；它的值越小，表明两者之间差异更大，即越有可能是异常事件。

如图1所示，于一实施例中，本发明的基于视频未来帧预测的异常事件检测方法包括以下步骤：

步骤S1、在训练数据集中随机获取n个连续视频图像。

具体地，本发明中采用的训练数据集包括UCSD Ped1，Ped2，CUHK-Avenue和ShanghaiTech Campus。优选地，n取值为5，即在训练数据集中获取5个连续的视频图像。

步骤S2、基于所述n个连续视频图像训练未来帧预测神经网络。

首先，对所述n个连续视频图像进行预处理。所述预处理为将视频图像的颜色尺度归一化到[-1，1]，通过双线性插值将图像的大小尺度变化到256 x 256。

接着，基于前n-1个连续视频图像预测未来帧，即第n个视频图像。由于异常事件的两个特点，包括由外貌特征引起的异常事件和由动作特征引起的异常事件。根据这两个特点分别对外貌特征进行图像像素、图像梯度和生成对抗网络的约束，对动作特征进行光流图的约束。

图像像素约束为I_t+1表示所述视频流中的n个连续视频图像的最后一帧。它的目的是迫使网络预测的未来帧与真实的未来帧I_t+1在图像的颜色空间上接近。

图像梯度约束为其中，|| ||₁表示取1的范数，i，j分别表示第i行，第j列。它的目的是迫使网络预测的未来帧与真实的未来帧I_t+1的边缘信息相似，具体是通过迫使它们之间的图像梯度接近。生成

对抗网络约束为其中，|| ||₂表示取2的范数。它的目的是迫使网络预测的未来帧尽量真实，即看上去更像自然图片。

光流图约束为其中，I_t表示所述视频流中的n个连续视频图像的倒数第二帧，f表示预训练好的神经网络。它的目的是迫使网络预测的未来帧与真实的未来帧I_t+1的动作信息相似，具体通过迫使它们各自的光流接近。在本发明中，使用与训练的FlowNet实现可微分地光流计算。

所述未来帧预测神经网络包括预测生成网络和判别网络。因此，本发明通过L_G＝λ_intL_int+λ_gdL_gd+λ_opL_op+λ_advL_adv优化所述预测生成网络的参数；L_int、L_gd、L_op和L_adv分别为图像像素约束、图像梯度约束、光流束约束和生态农场对抗网络约束；λ_int、λ_gd、λ_op和λ_adv分别为图像像素约束、图像梯度约束、光流束约束和生态农场对抗网络约束。于本发明一实施例中，λ_int、λ_gd、λ_op和λ_adv分别设置为1.0，1.0，0.05和2.0。

通过优化所述判别网络的参数，表示所述未来帧，D表示所述判别网络，。

于本发明一实施例中，所述未来帧预测神经网络包括预测生成网络和生成对抗网络；训练所述未来帧预测神经网络时，交替训练所述生成对抗网络和所述预测生成网络。即先训练一次生成对抗网络，再训练一次预测生成网络，然后依次交替进行，直到训练终止。

步骤S3、重新在训练数据集中随机获取n个连续视频图像，迭代训练所述未来帧预测神经网络，直至迭代次数达到预设次数。

具体地，重新在训练数据集中随机获取n个连续视频图像，重复上述未来帧预测神经网络的训练操作。直至迭代次数等于预设次数。

步骤S4、获取视频流中的n个连续视频图像。

具体地，当需要检测视频中的异常事件时，首先从视频流中获取n个连续视频图像。

步骤S5、基于所述视频流中的n个连续视频图像中的前n-1个连续视频图像和训练得到的所述未来帧预测神经网络预测所述n-1个连续视频图像的未来帧。

具体地，根据训练得到的所述未来帧预测神经网络，可基于所述视频流中n个连续视频图像中的前n-1个连续视频图像来预测得到第n个视频图像，即未来帧。

需要说明的是，在进行预测之前，需对所述视频流中的n个连续视频图像进行预处理；所述预处理为将视频图像的颜色尺度归一化到[-1，1]，通过双线性插值将图像的大小尺度变化到256 x 256。

步骤S6、比较所述未来帧和所述视频流中的n个连续视频图像的最后一帧，判断是否有异常事件。

61)计算所述未来帧与所述视频流中的n个连续视频图像的最后一帧之间的峰值信噪比。

62)比较所述峰值信噪比和预设阈值。优选地，所述预设阈值为35。

63)当所述峰值信噪比小于所述预设阈值时，判断所述视频流中的n个连续视频图像的最后一帧为异常行为动作；否则，判断所述视频流中的n个连续视频图像的最后一帧为正常行为动作。

需要说明的是，对于连续的视频流，可每次去除第一帧图像，增加最后一帧图像，反复进行异常事件检测，直至视频流结束。

优选地，本发明的未来帧预测神经网络采用U-Net网络。下面通过具体实施例来详细说明本发明的基于视频未来帧预测的异常事件检测方法。假定n取值为5。

首先获取监控视频的四帧连续的图像，将这四帧图像分别通过双线性插值的方法将图片尺度变化到256×256。

然后将图片的颜色空间归一化到[-1，1]，再将分别处理后的四帧图像在颜色维度上进行拼接操作形成一个256×256×12的张量输入到生成网络U-Net中。

数据输入到U-Net中首先经过两个3×3×12×64的卷积得到256×256×64的张量，然后经过一次2倍下采样操作得到128×128×64的张量，再依次经过两个3×3×64×128的卷积得到128×128×128的张量，紧接着再进行一次2倍下采样操作得到64×64×128的张量，接下来再经过两个3×3×128×256的卷积得到64×64×256的张量，紧接着再进行一次2倍下采样操作得到32×32×512的张量，然后再进行两个3×3×256×512的卷积得到32×32×512的张量。

之后通过一个间隔为2的3×3×512×256的反卷积得到一个64×64×256，将它与之前得到的64×64×256的张量进行拼接，得到一个64×64×512的张量，并且紧接着两个3×3×512×256的卷积得到一个64×64×256的张量。再通过一个间隔为2的3×3×256×128的反卷积得到一个128×128×128，将它与之前得到的128×128×128的张量进行拼接，得到一个128×128×256的张量，并且紧接着两个3×3×256×128的卷积得到一个128×128×128的张量。然后，再通过一个间隔为2的3×3×128×64的反卷积得到一个256×256×64，将它与之前得到的256×256×64的张量进行拼接，得到一个256×256×128的张量，并且紧接着两个3×3×128×64的卷积得到一个256×256×64的张量。再通过一个3×3×64×3得到最后的预测的未来帧。

最后通过计算预测的未来帧与真实的未来帧之间的峰值信噪比来判断该帧是否异常。

其中，预测生成网络的学习率为0.0002，判别网络的学习率为0.00002。

在数据集UCSD Ped1，Ped2，CUHK-Avenue和ShanghaiTech Campus上采用各种异常事件检测算法的准确率如表1所示。

表1、多个数据集上各异常事件检测算法的准确率

由上表可知，本发明的基于视频未来帧预测的异常事件检测方法的准确度较高，满足实际应用的需求。

如图2所示，于一实施例中，本发明的基于视频未来帧预测的异常事件检测系统包括第一获取模块21、训练模块22、迭代模块23、第二获取模块24、预测模块25和检测模块26。

所述第一获取模块21用于在训练数据集中随机获取n个连续视频图像。

所述训练模块22与所述第一获取模块21相连，用于基于所述n个连续视频图像训练未来帧预测神经网络。

所述迭代模块23与所述第一获取模块21和所述训练模块22相连，用于重新在训练数据集中随机获取n个连续视频图像，迭代训练所述未来帧预测神经网络，直至迭代次数达到预设次数。

所述第二获取模块24用于获取视频流中的n个连续视频图像。

所述预测模块25与所述第二获取模块24和所述迭代模块23相连，用于基于所述视频流中的n个连续视频图像中的前n-1个连续视频图像和训练得到的所述未来帧预测神经网络预测所述n-1个连续视频图像的未来帧。

所述检测模块26与所述第二获取模块24和所述预测模块25相连，用于比较所述未来帧和所述视频流中的n个连续视频图像的最后一帧，判断是否有异常事件。

其中，第一获取模块21、训练模块22、迭代模块23、第二获取模块24、预测模块25和检测模块26的结构和原理与所述基于视频未来帧预测的异常事件检测方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)，或，一个或多个微处理器(DigitalSingnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(FieldProgrammableGateArray，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessingUnit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该程序被处理器执行时实现上述的基于视频未来帧预测的异常事件检测方法。优选地，所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图3所示，于一实施例中，本发明的终端包括：处理器31及存储器32。

所述存储器32用于存储计算机程序。

所述存储器32包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器31与所述存储器32相连，用于执行所述存储器32存储的计算机程序，以使所述终端执行上述的基于视频未来帧预测的异常事件检测方法。

优选地，所述处理器31可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessor，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(FieldProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明的异常事件检测方法及系统、存储介质及终端基于预测得到的视频未来帧和真实视频帧的比对来检测异常事件，极大地提升了检测精度；在预测正常视频帧时，在外貌特征上，同时对图像像素、图像梯度和生成对抗网络三方面进行约束；在动作特征上，对光流图进行约束，从而提高了预测精度；在视频监控、无人驾驶、教育、消费娱乐等诸多领域有着广泛的应用。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于视频未来帧预测的异常事件检测方法，其特征在于：包括以下步骤：

在训练数据集中随机获取n个连续视频图像；

基于所述n个连续视频图像训练未来帧预测神经网络；

重新在训练数据集中随机获取n个连续视频图像，迭代训练所述未来帧预测神经网络，直至迭代次数达到预设次数；

获取视频流中的n个连续视频图像；

基于所述视频流中的n个连续视频图像中的前n-1个连续视频图像和训练得到的所述未来帧预测神经网络预测所述n-1个连续视频图像的未来帧；

比较所述未来帧和所述视频流中的n个连续视频图像的最后一帧，判断是否有异常事件。

2.根据权利要求1所述的基于视频未来帧预测的异常事件检测方法，其特征在于：所述未来帧预测神经网络包括预测生成网络和判别网络；基于n个连续视频图像训练未来帧预测神经网络时：

通过优化所述判别网络的参数，表示所述未来帧，D表示所述判别网络，其中，||||₁表示取1的范数，||||₂表示取2的范数，i，j分别表示第i行，第j列。

3.根据权利要求2所述的基于视频未来帧预测的异常事件检测方法，其特征在于： I_t+1表示所述视频流中的n个连续视频图像的最后一帧； I_t表示所述视频流中的n个连续视频图像的倒数第二帧，f表示预训练好的神经网络。

4.根据权利要求2所述的基于视频未来帧预测的异常事件检测方法，其特征在于：λ_int、λ_gd、λ_op和λ_adv分别设置为1.0，1.0，0.05和2.0。

5.根据权利要求1所述的基于视频未来帧预测的异常事件检测方法，其特征在于：所述未来帧预测神经网络包括预测生成网络和生成对抗网络；训练所述未来帧预测神经网络时，交替训练所述生成对抗网络和所述预测生成网络。

6.根据权利要求1所述的基于视频未来帧预测的异常事件检测方法，其特征在于：训练未来帧预测神经网络所采用的视频图像和预测所述n-1个连续视频图像的未来帧所采用的视频图像均需进行预处理；所述预处理为将视频图像的颜色尺度归一化到[-1，1]，通过双线性插值将图像的大小尺度变化到256x256。

7.根据权利要求1所述的基于视频未来帧预测的异常事件检测方法，其特征在于：比较所述未来帧和所述视频流中的n个连续视频图像的最后一帧，判断是否有异常事件包括以下步骤：

比较所述峰值信噪比和预设阈值；

8.一种基于视频未来帧预测的异常事件检测系统，其特征在于：包括第一获取模块、训练模块、迭代模块、第二获取模块、预测模块和检测模块；

所述第二获取模块用于获取视频流中的n个连续视频图像；

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述的基于视频未来帧预测的异常事件检测方法。

10.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的基于视频未来帧预测的异常事件检测方法。