CN114612836B

CN114612836B - 基于记忆增强未来视频帧预测的监控视频异常检测方法

Info

Publication number: CN114612836B
Application number: CN202210254979.XA
Authority: CN
Inventors: 李群; 杨锐; 肖甫; 盛碧云; 沙乐天
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2024-04-05
Anticipated expiration: 2042-03-15
Also published as: CN114612836A

Abstract

本发明提供一种基于记忆增强未来视频帧预测的监控视频异常检测方法，属于视频异常检测技术领域。该方法，首先搭建并优化学习异常检测模型，异常检测模型包括生成器网络和判别器网络；其中，生成器网络包括编码器、记忆模块和解码器，生成下一时刻的视频帧，即未来视频帧；判别器网络通过计算未来视频帧的异常分数，使用异常分数作为判断未来视频帧是否异常的标准；通过强度损失、梯度损失、光流损失、对抗损失和交叉熵损失对搭建的异常检测模型进行优化学习；然后对监控视频中的异常事件进行检测；该方法能显著提高监控视频中的异常检测精度；生成器网络具有较高的通用性和鲁棒性，能够嵌入到大多数异常检测方法中，提高其异常检测的性能。

Description

基于记忆增强未来视频帧预测的监控视频异常检测方法

技术领域

本发明涉及一种基于记忆增强未来视频帧预测的监控视频异常检测方法，属于视频异常检测技术领域。

背景技术

近年来，深度学习在各个领域取得了广泛的应用，相较于传统的机器学习，在学习高维数据表示方面表现出了巨大的能力，有很大的性能提升。随着人们对安全需求的日益增加，异常检测在数据挖掘、机器学习、计算机视觉和统计等领域发挥着越来越重要的作用。

深度异常检测，是指通过深度神经网络学习数据的特征表示来检测异常。大多数深度模型使用大量有标签的数据样本进行训练，从而使模型具有完成特定任务的能力。然而，异常检测任务有着其独有的特点。真实生活中的异常情况很少发生，研究人员很难收集大量带标记的异常样本用于模型的训练，导致数据类别不平衡，影响异常检测的性能。异常情况种类众多，研究人员不可能收集所有异常情况的数据样本。

另外，异常情况是随环境变化而变化，相同的行为在不同的环境下有着截然不同的意义，例如在教室内奔跑和在操场上奔跑，前者是异常事件，后者是正常事件。这种情况大大增加了检测异常的难度，基于以上原因，研究人员使用原有的训练方法进行异常检测任务会给模型造成精确度的下降和较高的误报率。所以，最近的研究通常使用无监督深度学习方法进行异常检测任务，只使用正常数据进行训练，学习正常样本内在的规律性，使模型具备检测异常情况的能力。

目前无监督异常检测方法主要分两大类：基于重构误差和基于预测帧的方法。基于重构误差方法的基本假设是，正常样本的重构误差较小，因为更接近训练样本，异常样本的重构误差较大。大多数工作使用能够重构输入数据的自动编码器，它能够将输入数据编码成更紧凑且同时保留重要特性的表示形式，并将这种特殊的编码解码回原始形式。例如3DConv方法(Yiru Zhao,Bing Deng,Chen Shen,Yao Liu and Hongtao Lu.Spatio-temporal autoencoder for video anomaly detection,In ACM internationalconference on Multimedia,pp.1933–1941,2017.)使用三维卷积来解决此类问题，除空间信息外，模型能够更好的保留时间特征。然而，这种方法缺乏一种可靠的机制来鼓励模型在异常数据上产生更大的重建误差。

异常可以定义为偏离正态模型或不满足期望的事件，其特征分布与正态样本完全相反。根据这一特征，研究人员使用基于预测帧的方法来检测异常，通过输入连续的视频帧，模型输出预测视频帧，通过对预测视频帧进行下一步操作来进行异常检测，如FutureFrame Prediction方法(Wen Liu,Weixin Luo,Dongze Lian andShenghua Gao.Futureframe prediction for anomaly detection–a new baseline.In CVPR,2018)其中生成新的预测视频帧的是生成对抗网络，生成器网络模拟训练数据分布生成新数据，判别器网络输出数据样本是否来自生成器的概率，并结合损失函数对模型进行约束。但这种方法缺乏一种可靠的机制促使模型对正常数据产生更小的预测误差并对异常数据产生更大的预测误差，识别精度仍有待提高。

上述问题是在基于记忆增强未来视频帧预测的监控视频异常检测方法过程中应当予以考虑并解决的问题。

发明内容

本发明的目的是提供一种基于记忆增强未来视频帧预测的监控视频异常检测方法解决现有技术中存在的识别精度仍有待提高的问题。

本发明的技术解决方案是：

一种基于记忆增强未来视频帧预测的监控视频异常检测方法，包括：

搭建并优化学习异常检测模型，异常检测模型包括生成器网络和判别器网络；

生成器网络包括编码器、记忆模块和解码器，将视频帧输入编码器后，编码器进行卷积、池化操作并进行特征通道的自适应调整后，获得编码特征，编码器将获得的编码特征分别输出给记忆模块和解码器；记忆模块依据与输入的编码特征的相似性来调整内存项目的寻址权重，通过内存项目和寻址权重的线性组合生成查询特征，并将查询特征输入到解码器中；将输入的查询特征和编码特征进行特征融合，进而解码器生成下一时刻的视频帧，即未来视频帧；

判别器网络通过计算未来视频帧的异常分数，使用异常分数作为判断未来视频帧是否异常的标准；

通过强度损失、梯度损失、光流损失、对抗损失和交叉熵损失对搭建的异常检测模型进行优化学习；

由优化学习后的异常检测模型，对监控视频中的异常事件进行检测。

进一步地，搭建并优化学习异常检测模型，具体为，

S1、在数据集上选取训练样本和测试样本，训练样本为具有三通道的彩色视频帧图像X＝(x₁,x_2,x₃,…x_t)，其中，t表示一次输入模型的视频帧数量，视频帧的尺寸表示为H×W×C；

S2、将训练样本的连续视频帧输入到编码器，获得编码特征y；

S3、将步骤S2得到的编码特征y输入到记忆模块，依据与内存项目的相似性来调整其寻址权重r_i，通过记忆模块中的内存项目和寻址权重的线性组合，生成查询特征y'；

S4、将步骤S2所得编码特征y和步骤S3所得查询特征y'进行特征融合，在实现信息对称和抑制梯度的消失的同时，得到特征表示u，进而解码器输出t+1时刻的未来视频帧：x'_t+1＝F_D(u,θ_d)，其中，F_D表示解码器，θ_d表示解码器的参数；

S5、计算步骤S4所得未来视频帧x'_t+1和真实视频帧x_t+1之间的强度损失L_den，计算步骤S4所得未来视频帧x'_t+1和真实视频帧x_t+1之间的梯度损失L_grad，通过轻量级光流估计网络LiteFlownet计算未来视频帧x'_t+1、真实视频帧x_t+1和真实视频帧x_t之间的光流损失L_op，通过最小二乘生成对抗网络Least Squares GAN计算未来视频帧x'_t+1和真实视频帧x_t+1之间的对抗损失；

S6、计算寻址权重r_i的交叉熵损失L_mem；

S7、根据步骤S5所得强度损失L_den、梯度损失L_grad、光流损失L_op、对抗损失和步骤S6所得交叉熵损失L_mem，计算模型整体损失L，对异常检测模型进行反向传播优化参数。

进一步地，步骤S2中，将连续视频帧输入到编码器，获得编码特征y；具体为，

S21、使用卷积网络U-Net作为生成器网络中的自动编码器结构，编码器包括第一编码器层、若干第二编码器层和若干注意力模块，第一编码器层对输入的视频帧进行卷积、最大池化和激活操作后获得特征向量v′，并输出给第二编码器层；

S22、第二编码器层和注意力模块依次交替设置，第二编码器层对输入的特征向量进行卷积、最大池化和激活操作后，输出给注意力模块；注意力模块用于增强重要特征通道的权重，降低次要特征通道的权重，以实现特征通道的自适应调整，以获得新的特征向量；最后一个注意力模块将获得的新的特征向量作为编码特征输出给记忆模块和解码器。

进一步地，步骤S22中，注意力模块用于增强重要特征通道的权重，降低次要特征通道的权重，以实现特征通道的自适应调整，以获得新的特征向量，具体为，

S221、注意力模块将编码器层输出的特征向量压缩成一个大小为1×1×C的全局特征向量：其中F_sq表示压缩过程的函数，R^c表示特征空间；

S222、使用全连接神经网络对压缩之后的结果z_c做非线性变换，作为激发阶段，为每个特征通道生成权重s＝F_ex(z_c,w)，其中，F_ex表示激发过程的函数，w是激发过程中的权重；

S223、将编码器层输出的特征向量与权重s相乘后，得到新的特征向量v。

进一步地，步骤S3中，依据与内存项目的相似性来调整其寻址权重r_i，通过记忆模块中的内存项目和寻址权重的线性组合，生成查询特征y'，具体为，

S31、计算记忆寻址权重r_i，通过记忆模块中的内存项目si和编码特征y之间的相似性得到：

其中，d(·)是近似度量距离，

S32、生成查询特征y'：

其中，S代表记忆模块的记忆存储，由N个内存项目s_i组成，表示为[N,C]的矩阵向量，N表示记忆模块中记忆存储的容量，r_i表示记忆寻址权重。

进一步地，步骤S5具体为，

S51、计算步骤S4所得未来视频帧x'_t+1和真实视频帧x_t+1之间的强度损失L_den：

其中，x'_t+1表示未来视频帧，x_t+1表示真实视频帧；

S52、计算步骤S4所得未来视频帧x'_t+1和真实视频帧x_t+1之间的梯度损失L_grad：

其中，i,j表示视频帧空间位置的像素索引；

S53、通过轻量级光流估计网络LiteFlownet计算未来视频帧x'_t+1、真实视频帧x_t+1和真实视频帧x_t之间的光流损失L_op：

L_op(x'_t+1,x_t+1,x_t)＝||h(x'_t+1,x_t)-h(x_t+1,x_t)||₁

其中，h(·)是经过预训练的模型；

S54、通过Least Squares GAN计算未来视频帧x'_t+1和真实视频帧x_t+1之间的对抗损失，对抗损失包括判别器网络对抗损失和生成器网络对抗损失/>

其中，训练判别器网络D的目的是判断真实视频帧x_t+1为1，判断G(x₁,x₂,x₃…x_t)＝x’_t+1为0，其中0和1分别代表假样本标签和真样本标签，当训练判别器网络D时，将生成器网络G的权值参数设为固定；训练生成器网络G的目的是生成一个未来视频帧x'_t+1且判别器网络D将其判断为1，当训练生成器网络G时，将判别器网络D的权值参数设为固定；L_MSE(·)为均方误差损失函数。

进一步地，步骤S6中，计算记忆寻址权重r_i的交叉熵损失L_mem：

其中，T为输入的视频帧数量。

进一步地，步骤S7中，计算模型整体损失L：

其中，λ_den,λ_grad,λ_op,λ_adver,λ_mem是权重系数。

进一步地，由优化学习后的异常检测模型，对监控视频中的异常事件进行检测，具体为，

S8、将测试样本输入优化学习后的异常检测模型，由生成器网络生成未来视频帧给判别器网络，判别器网络通过计算未来视频帧的异常分数，使用异常分数作为判断视频帧是否异常的标准，对监控视频中的异常事件进行检测。

本发明的有益效果是：

一、该种基于记忆增强未来视频帧预测的监控视频异常检测方法，通过搭建并优化异常检测模型，能够对连续的常规视频帧学习到正常事件的内在规律性，通过强度损失、梯度损失、光流损失、对抗损失和交叉熵损失对异常检测模型进行优化学习，能显著提高异常检测网络模型的鲁棒性和识别精度。

二、本发明方法，突破了已有模型原有的自动编码器结构，在其中创造性地加入记忆模块和注意力模块，通过记忆模块中内存项目和寻址权重的线性组合来重新表示特征向量，弥补了大多数基于重构误差方法异常数据重构误差较小的弊端，导致异常检测准确度下降的情况。在编码器内设置注意力模块，对图像特征通道的激发和压缩操作，促使模型产生更具有代表性的高质量特征表示。通过以上操作，使得生成的特征向量更利于异常检测，对监控视频中的异常事件具有更好的检测准确度。

三、该种基于记忆增强未来视频帧预测的监控视频异常检测方法，由异常检测模型学习正常数据样本的潜在规律性，图像视频帧通过包含注意力模块与记忆模块的生成器网络，生成下一帧的未来视频帧；其中，记忆模块通过记忆存储中的正常典型模型的线性组合生成查询特征向量；注意力模块通过对图像通道操作产生新的有代表性的特征向量，两者的目的都是获得更具代表性更高质量的特征向量。模型中的生成器网络模块和记忆模块具有通用性，能够嵌入到大多数异常检测模型中，使得异常检测更精确，有效提高异常检测的准确率，大大提高模型的鲁棒性。

附图说明

图1是本发明实施例基于记忆增强未来视频帧预测的监控视频异常检测方法的说明示意图。

图2是实施例中注意力模块的说明示意图。

图3是实施例中记忆模块的说明示意图。

图4是实施例基于记忆增强未来视频帧预测的监控视频异常检测方法的具体流程示意图。

图5是实施例基于记忆增强未来视频帧预测的监控视频异常检测方法在异常检测中预测视频帧的可视化说明示意图，其中，(a)是在异常检测中预测视频帧中异常类型为蓄意纵火的说明示意图，(a)是在异常检测中预测视频帧中异常类型为车辆入侵的说明示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例

一种基于记忆增强未来视频帧预测的监控视频异常检测方法，如图1，搭建并优化学习异常检测模型，异常检测模型包括生成器网络和判别器网络。

通过强度损失、梯度损失、光流损失、对抗损失和交叉熵损失对搭建的异常检测模型进行优化学习；由优化学习后的异常检测模型，对监控视频中的异常事件进行检测。

该种基于记忆增强未来视频帧预测的监控视频异常检测方法，通过搭建并优化异常检测模型，能够对连续的常规视频帧学习到正常事件的内在规律性，通过强度损失、梯度损失、光流损失、对抗损失和交叉熵损失对异常检测模型进行优化学习，能显著提高异常检测网络模型的鲁棒性和识别精度。

如图4，搭建并优化学习异常检测模型，具体为，

S1、在数据集上选取训练样本和测试样本，训练样本为具有三通道的彩色视频帧图像X＝(x₁,x₂,x₃,…x_t)，其中，t表示一次输入模型的视频帧数量，视频帧的尺寸表示为H×W×C；

S2、将训练样本的连续视频帧输入到编码器，获得尺寸为(H,W,C)的特征向量y；

S21、使用在图像分割领域性能优异的卷积网络U-Net作为生成器网络中的自动编码器结构，编码器包括第一编码器层、若干第二编码器层和若干注意力模块，第一编码器层对输入的视频帧进行卷积、最大池化和激活操作后获得特征向量v′，并输出给第二编码器层；

S22、第二编码器层和注意力模块依次交替设置，第二编码器层对输入的特征向量进行卷积、最大池化和激活操作后，输出给注意力模块；注意力模块用于增强重要特征通道的权重，降低次要特征通道的权重，以实现特征通道的自适应调整，以获得新的特征向量，如图2；最后一个注意力模块将获得的新的特征向量作为编码特征输出给记忆模块和解码器。

使用U-Net网络作为模型的生成器网络的原因是，U-Net网络中在编码器和解码器之间具有跳跃链接结构，最大可能的降低了特征在数据压缩过程中信息丢失的可能性，同时也避免了梯度消失问题。

S223、将编码器层输出的特征向量与权重s相乘后，得到新的特征向量v。从而使得模型对各个通道的特征有更强的辨别能力。

如图1，实施例的生成器网络中，把3个注意力模块放置在编码器的卷积操作之后，记忆模块之前，通过对编码后的特征向量进行操作，使得重要特征通道的权重数值增加，次要特征通道的权重数值减小。

S3、将步骤S2得到的编码特征y输入到记忆模块，依据与内存项目的相似性来调整其寻址权重r_i，通过记忆模块中的内存项目和寻址权重的线性组合，生成查询特征y'；如图3。

其中，d(·)是近似度量距离，

S32、生成查询特征y'：

S4、将步骤S2所得编码特征y和步骤S3所得查询特征y'进行特征融合，在实现信息对称和抑制梯度的消失的同时，得到特征表示u，进而解码器输出t+1时刻的未来视频帧：x'_t+1＝F_D(u,θ_d)，其中，F_D表示解码器，θ_d表示解码器的参数。

S5、计算步骤S4所得未来视频帧x'_t+1和真实视频帧x_t+1之间的强度损失L_den，计算步骤S4所得未来视频帧x'_t+1和真实视频帧x_t+1之间的梯度损失L_grad，通过轻量级光流估计网络LiteFlownet计算未来视频帧x'_t+1、真实视频帧x_t+1和真实视频帧x_t之间的光流损失L_op，通过最小二乘生成对抗网络Least Squares GAN计算未来视频帧x'_t+1和真实视频帧x_t+1之间的对抗损失。

其中，x'_t+1表示未来视频帧，x_t+1表示真实视频帧；

其中，i,j表示视频帧空间位置的像素索引；

异常检测模型中，使用强度损失和梯度损失对未来视频帧进行空间约束，强度损失增强未来视频帧与真实视频帧在像素级别的相似性，梯度损失使得未来视频帧的边缘更加明显。

S53、通过LiteFlownet计算未来视频帧x'_t+1、真实视频帧x_t+1和真实视频帧x_t之间的光流损失L_op：

L_op(x'_t+1,x_t+1,x_t)＝||h(x'_t+1,x_t)-h(x_t+1,x_t)||₁

其中，h(·)是经过预训练的模型，所有参数是固定的。

除了进行空间约束外，还对未来视频帧施加时间约束，即光流损失。如果缺少时间约束，可能会导致视频帧的像素级别损失较小，但运动差异较大的情况。通过使用LiteFlownet轻量级的卷积神经网络来估计光流，在运行速度和准确率上达到平衡。

其中，训练判别器网络D的目的是判断真实视频帧x_t+1为1，判断G(x₁,x₂,x₃…x_t)＝x′_t+1为0，其中0和1分别代表假样本标签和真样本标签，当训练判别器网络D时，将生成器网络G的权值参数设为固定；训练生成器网络G的目的是生成一个未来视频帧x'_t+1且判别器网络D将其判断为1，当训练生成器网络G时，将判别器网络D的权值参数设为固定；L_MSE(·)为均方误差损失函数。

S6、计算寻址权重r_i的交叉熵损失L_mem：

其中，交叉熵损失函数描述了真实数据样本与模型输出之间的距离，即交叉熵的值越小，两个概率分布越接近。相较于均方误差损失，交叉熵损失权值更新更快，促使模型更快速地达到收敛。

交叉熵损失主要用于度量两个概率分布间的差异性信息，当模型效果差时候，学习速度较快；当模型效果好时，学习速度较慢，相比于均方误差函数，更容易使模型达到全局最优解。另外交叉熵损失函数的曲线是凸曲线，损失函数数值越大，梯度就越大,便于反向传播时快速优化模型。

步骤S7中，计算模型整体损失L：

其中，λ_den,λ_grad,λ_op,λ_adver,λ_mem是权重系数。

该种基于记忆增强未来视频帧预测的监控视频异常检测方法，异常检测模型中生成器网络和判别器网络作为主干网络，生成器网络中，将连续的视频帧输入到编码器中进行编码从而得到编码特征，在编码过程中，注意力模块自动学习特征通道之间的关系，从而实现特征通道的自适应调整。随后将编码特征输入到记忆模块中，通过记忆模块中内存项目和寻址权重的线性组合生成新的特征向量称为查询编码，从而促进模型产生更有代表性的特征表示。最后将查询特征输入到解码器中生成未来视频帧。生成器网络中设置注意力模块和记忆模块，能够生成更具代表性、高质量的特征表示，提高了针对监控视频的异常检测性能。在训练阶段使用强度约束、梯度约束、光流约束、对抗约束和交叉熵约束对模型进行优化学习，测试阶段判别器网络通过计算未来视频帧的异常分数，使用异常分数作为判断视频帧是否异常的标准。

该种基于记忆增强未来视频帧预测的监控视频异常检测方法，突破了已有模型原有的自动编码器结构，在其中创造性地加入记忆模块和注意力模块，通过记忆模块中内存项目和寻址权重的线性组合来重新表示特征向量，能够获得高质量的查询特征，能够很好地提高异常检测的精度，弥补了大多数基于重构误差方法异常数据重构误差较小的弊端，导致异常检测准确度下降的情况。在编码器内设置注意力模块，对图像特征通道的激发和压缩操作，促使模型产生更具有代表性的高质量特征表示。在注意力模块和解码器之间建立连接，即注意力模块不仅将编码特征输入到编码器层，还将其输入到相同分辨率的解码器层中，这种方式抑制了梯度消失并使信息得到对称，解决了编码器层逐渐降低空间分辨率和解码器逐渐增加空间分辨率的过程中会发生梯度消失问题和信息不对称的问题。通过以上操作，使得生成的特征向量更利于异常检测，对监控视频中的异常事件具有更好的检测准确度。

该种基于记忆增强未来视频帧预测的监控视频异常检测方法，过程可分为训练阶段和测试阶段，训练阶段：将训练集输入到模型中进行前向传播依次通过编码器层、注意力模块、记忆模块、解码器，得到模型的输出即未来视频帧，在事先定义的损失函数中，将未来视频帧和真实视频帧进行比较，得到损失数值，接着根据损失数值进行反向传播，更新模型的权值参数，就是这样来回不停的迭代，直到损失函数稳定在一个很小的数值，这时的参数就是模型需要的参数。测试阶段使用的是已经在训练阶段训练好的模型，输入数据，依次通过编码器层、注意力模块、记忆模块、解码器输出未来视频帧，判别器网络获得异常分数后判断是否异常，完成异常检测任务。

该种基于记忆增强未来视频帧预测的监控视频异常检测方法，由异常检测模型学习正常数据样本的潜在规律性，图像视频帧通过包含注意力模块与记忆模块的生成器网络，生成下一帧的未来视频帧；其中，记忆模块通过记忆存储中内存项目即预存正常视频帧编码生成的特征向量作为正常典型模型，依据与输入的编码特征的相似性来调整内存项目的寻址权重，通过内存项目和寻址权重的线性组合生成查询特征；注意力模块通过对图像通道操作产生新的有代表性的特征向量，两者的目的都是获得更具代表性更高质量的特征向量。模型中的注意力模块和记忆模块具有通用性，能够嵌入到大多数异常检测模型中，使得异常检测更精确，有效提高异常检测的准确率，大大提高模型的鲁棒性。

实施例的该种基于记忆增强未来视频帧预测的监控视频异常检测方法进行实验验证如下：

为了验证方法的有效性，在UCSD Ped1、UCSD Ped2、CUHK Avenue、ShanghaiTech和Nut数据集上进行了多组对比实验和消融实验，比较了实施例方法和一些经典或主流方法的性能优劣，并分析了实施例提出的各模块对整个异常检测模型的影响程度。实验在安装有Windows操作系统的计算机上实施。软件环境包括Anaconda、Python、PyTorch、PyCharm等。

对于在以上数据集采用异常检测领域广泛使用的ROC曲线下的面积AUC指标进行评估获得实验结果如表1所示。

表1不同方法在主流数据集上的AUC结果

注：加粗表示该项指标为最优结果，下划线表示该项指标为次优结果。

如表1所示，在UCSD Ped1和Nut数据集上进行测试，实施例方法AUC指标分别为83.3％和78.2％，在所有被比较的方法中是最优的。另外，实施例方法在所有数据集上的表现都优于其他基于重构的异常检测方法。其中，与同样具有记忆模块的MemAE相比，实施例方法对预测的未来视频帧施加了更多的时空约束，在运动方面如光流损失，在空间方面如梯度损失和对抗损失。通过以上操作，实施例方法在训练过程中能够得到更好的优化。实施例方法在CUHKAvenue和ShanghaiTech数据集上表现次优。另外，实施例方法提出的包含记忆模块和注意力模块的生成网络对异常检测有着很好的通用性和鲁棒性，能够嵌入到其他方法中以促进其异常检测的性能。

在异常检测中，正常事件的移动方向有时是不确定的，例如一个人在门口徘徊。如图5的(a)所示，模型输出的未来视频帧的峰值信噪比PSNR值会在下一时刻稍微降低，但是随着时间的推移，PSNR值会逐渐增加，这一种情况对实施例方法会有一点影响。对于真实的异常事件，如自行车闯入行人区和蓄意纵火，实施例方法生成连续较低的PSNR值，这表明实施例方法可以很好地检测监控视频中的异常。图5中有两种类型的异常，蓄意纵火如图5的(a)所示和车辆入侵如图5的(b)所示。实线箭头对应正常事件，虚线箭头对应异常事件。异常事件的发生导致PSNR值急剧下降。图5的(a)中间的未来视频帧会导致PSNR值小幅度下降，这对应于视频中不确定的正常事件。

实施例的该种基于记忆增强未来视频帧预测的监控视频异常检测方法在Nut数据集进行消融实验的AUC指标，如表2所示。

表2 Nut数据集上的消融实验

记忆模块	注意力模块	交叉熵损失	AUC
				×	×	×	76.9％
√	×	×	77.3％
				√	√	×	77.8％
√	√	√	78.2％

由表2可以看出，当移除记忆模块、注意力模块和交熵损失中的任何一个时，实施例方法在进行异常检测时都会发生不同程度上的性能退化。在没有注意力模块的情况下，U-Net网络生成预测视频帧时，模型不能自动学习特征表示的通道之间的重要关系，从而降低了编码特征的质量；在没有记忆模块的情况下，模型直接将编码特征输入到解码器中来进行特征的重构。但是，自动编码器的强大能力会导致异常数据的重构误差较小，造成模型的误报率较高；当模型在训练初期缺少记忆寻址权重的情况下，交叉熵损失对模型起到了很好的约束作用。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于记忆增强未来视频帧预测的监控视频异常检测方法，其特征在于，包括：

其中，搭建并优化学习异常检测模型，具体为，

S5、计算步骤S4所得未来视频帧x'_t+1和真实视频帧x_t+1之间的强度损失L_den，计算步骤S4所得未来视频帧x'_t+1和真实视频帧x_t+1之间的梯度损失L_grad，通过轻量级光流估计网络LiteFlownet计算未来视频帧x'_t+1、真实视频帧x_t+1和真实视频帧x_t之间的光流损失L_op，通过最小二乘生成对抗网络Least SquaresGAN计算未来视频帧x'_t+1和真实视频帧x_t+1之间的对抗损失；

S6、计算寻址权重r_i的交叉熵损失L_mem；

S7、根据步骤S5所得强度损失L_den、梯度损失L_grad、光流损失L_op、对抗损失和步骤S6所得交叉熵损失L_mem，计算模型整体损失L，对异常检测模型进行反向传播优化参数；

2.如权利要求1所述的基于记忆增强未来视频帧预测的监控视频异常检测方法，其特征在于：步骤S2中，将连续视频帧输入到编码器，获得编码特征y；具体为，

3.如权利要求2所述的基于记忆增强未来视频帧预测的监控视频异常检测方法，其特征在于：步骤S22中，注意力模块用于增强重要特征通道的权重，降低次要特征通道的权重，以实现特征通道的自适应调整，以获得新的特征向量，具体为，

S221、注意力模块将编码器层输出的特征向量压缩成一个大小为1×1×C的全局特征向量：z_c∈R^c，其中F_sq表示压缩过程的函数，R^c表示特征空间；

4.如权利要求2所述的基于记忆增强未来视频帧预测的监控视频异常检测方法，其特征在于：步骤S3中，依据与内存项目的相似性来调整其寻址权重r_i，通过记忆模块中的内存项目和寻址权重的线性组合，生成查询特征y'，具体为，

S31、计算记忆寻址权重r_i，通过记忆模块中的内存项目s_i和编码特征y之间的相似性得到：

其中，d(·)是近似度量距离，

S32、生成查询特征y'：

5.如权利要求2所述的基于记忆增强未来视频帧预测的监控视频异常检测方法，其特征在于：步骤S5具体为，

其中，x'_t+1表示未来视频帧，x_t+1表示真实视频帧；

其中，i,j表示视频帧空间位置的像素索引；

L_op(x'_t+1,x_t+1,x_t)＝||h(x'_t+1,x_t)-h(x_t+1,x_t)||₁

其中，h(·)是经过预训练的模型；

S54、通过LeastSquaresGAN计算未来视频帧x'_t+1和真实视频帧x_t+1之间的对抗损失，对抗损失包括判别器网络对抗损失和生成器网络对抗损失/>

其中，训练判别器网络D的目的是判断真实视频帧x_t+1为1，判断G(x₁,x₂,x₃…x_t)＝x'_t+1为0，其中0和1分别代表假样本标签和真样本标签，当训练判别器网络D时，将生成器网络G的权值参数设为固定；训练生成器网络G的目的是生成一个未来视频帧x'_t+1且判别器网络D将其判断为1，当训练生成器网络G时，将判别器网络D的权值参数设为固定；L_MSE(·)为均方误差损失函数。

6.如权利要求2所述的基于记忆增强未来视频帧预测的监控视频异常检测方法，其特征在于：步骤S6中，计算记忆寻址权重r_i的交叉熵损失L_mem：

其中，T为输入的视频帧数量。

7.如权利要求2所述的基于记忆增强未来视频帧预测的监控视频异常检测方法，其特征在于：步骤S7中，计算模型整体损失L：

其中，λ_den,λ_grad,λ_op,λ_adver,λ_mem是权重系数。

8.如权利要求1所述的基于记忆增强未来视频帧预测的监控视频异常检测方法，其特征在于：由优化学习后的异常检测模型，对监控视频中的异常事件进行检测，具体为，