CN114067251B

CN114067251B - 一种无监督监控视频预测帧异常检测方法

Info

Publication number: CN114067251B
Application number: CN202111372421.3A
Authority: CN
Inventors: 李刚; 李慧斌; 张凡; 何平
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-09-15
Anticipated expiration: 2041-11-18
Also published as: CN114067251A

Abstract

一种无监督监控视频预测帧异常检测方法，通过异常检测器生成的预测帧与真实帧计算PSNR指标，进行归一化得到视频帧的评分，若视频帧的评分大于设定的阈值，则判定视频帧异常，否则，视频帧正常。因为异常检测判定方式是计算PSNR值，并且仅需输入若干帧即可判定目标帧是否异常，速度快，延迟低，所以本发明通过建模正常视频帧的分布，将异常视频帧作为离群点检测，所以对异常的判别能力取决于生成器对正常视频帧的建模能力，从而使得检测的误报率低。

Description

一种无监督监控视频预测帧异常检测方法

技术领域

本发明属于视频检测技术领域，具体涉及一种无监督监控视频预测帧异常检测方法。

背景技术

面对日常生活中不断涌现的各类安全威胁和时刻存在的突发状况，以视频监控为工具进行安防的举措已凸显出强大优势。近年来随着社会经济的快速发展与视频传感技术的不断普及，监控系统已被广泛应用于公安、地铁、社区、校园等各类公共场所。然而，快速增长的视频监控系统所产生的海量视频数据对基于人工判读的视频异常事件检测带来了巨大挑战。传统依靠人工观看事后监控影像记录从而发现异常的方式不仅需消耗大量人力资源，而且可能造成无法及时弥补的错误或遗漏。因此，开发一种不依赖大量人力，能自动从监控视频中分析并发现异常情况的技术显得至关重要，而这种技术即为视频异常检测技术。本发明提出了基于循环回顾性GAN的无监督监控视频预测帧异常检测方法，通过一个统一的生成对抗网络(包括一个生成器和两个判别器)可以准确地预测视频帧，利用循环回顾性的限制来保持预测的过去帧和未来帧与视频序列的一致性，减少预测帧出现的模糊情况。并且提出了注意力损失权重，以缓解异常检测中的前景-背景不平衡问题，通过上述两个方式，有效增加了模型的鲁棒性，提高了模型的检测精度与泛化性能，克服了传统异常检测算法检测异常延迟高、误报率高、检测时间长等问题。

视频异常通常指视频中出现不正常的外观或运动属性，或在不正常的时间或空间出现正常的外观或运动属性。由于异常样本的稀缺性和多样性，视频异常检测方法通常仅对正常样本分布进行建模，测试时将偏离正常样本分布的视频帧或视频片段视为异常。从异常类型而言，外观异常通常指空间异常，包括像素级别的局部异常与帧级别的全局异常；运动异常通常指时间异常，即与时序相关的上下文异常。视频异常检测任务即为检测出视频中存在的时间和空间异常。从学习范式而言，依据对视频标签的不同用法，可将其分为有监督、弱监督、无监督和自监督，其中无监督学习是目前普遍使用的一类方法。从实际需求出发，该任务需合理平衡算法处理时间与检测精度，相对于离线算法，在线异常检测方法具有更重要的实际应用价值。

视频异常检测任务通常包括异常状态检测、异常时空定位以及异常类型判定三个方面。现有方法通常利用正常与异常特征表示之间的差异性进行异常检测，流程通常由特征提取、模型训练以及异常判定三部分组成，如图1所示。当给定某一特定场景下的正常视频数据样本，首先提取视频帧或视频窗内图像的运动及外观特征，并建立模型对正常样本的分布进行学习。测试时，将提取的测试样本特征输入模型，模型依据重构误差、预测误差、异常分数、峰值信噪比等指标对其进行异常判定。对于异常的时间定位，可由逐帧视频异常检测算法实现。对于异常的空间定位，可由基于像素位置、目标区域、目标轨迹等空间特征的视频异常检测算法实现。

早期的视频异常检测方法通常采用人工设计的特征来表示视频帧的外观和运动信息。例如方向梯度直方图(Histogram of Oriented Gradients，简称HOG)，运动边界直方图(Moving Boundary Histogram，简称MBH)和光流直方图(Histogram of Flow，简称HOF)等。手工设计的特征通常具有较强的可解释性或一定的物理意义，但与基于表示学习的深度学习特征相比存在显著的性能差异。基于深度学习的视频异常检测方法已受到众多学者的广泛关注。本发明提出的基于循环回顾性GAN的无监督监控视频预测帧异常检测方法，通过一个统一的生成对抗网络(包括一个生成器和两个判别器)可以准确地预测视频帧，利用循环回顾性的限制来保持预测的过去帧和未来帧与视频序列的一致性，减少预测帧出现的模糊情况。并且提出了注意力损失权重，以缓解异常检测中的前景-背景不平衡问题，通过上述两个方式，有效增加了模型的鲁棒性，提高了模型的检测精度与泛化性能，克服了传统异常检测算法检测异常延迟高、精度低、误报率高、检测时间长等问题。

发明内容

本发明的目的是提供了一种无监督监控视频预测帧异常检测方法，具有检测异常延迟低、精度高、误报率低、检测时间短的优点。

为实现上述目的，本发明采用的技术方案为：

一种无监督监控视频预测帧异常检测方法，通过异常检测器生成的预测帧与真实帧计算PSNR指标，进行归一化得到视频帧的评分，若视频帧的评分大于设定的阈值，则判定视频帧异常，否则，视频帧正常。

进一步的，异常检测器通过以下过程的得到：初始化生成器参数后，当训练判别器的帧损失、L1损失、拉普拉斯损失以及序列判别器的序列损失的和与上一次训练完毕时，训练判别器的帧损失、L1损失、拉普拉斯损失以及序列判别器的序列损失的和的差的绝对值小于设定的阈值时，帧判别器和序列判别器，训练完毕，得到单次训练好的帧判别器和序列判别器；

帧判别器和序列判别器参数固定，然后训练生成器，当对抗损失、注意力强度损失、注意力梯度损失与光流损失的和与上一次训练完毕时，对抗损失、注意力强度损失、注意力梯度损失与光流损失的和的差的绝对值小于设定的阈值时，训练完毕，得到单次训练好的生成器，生成器参数固定，循环训练帧判别器和序列判别器若干次，得到异常检测器。

进一步的，光流损失通过以下过程得到：

采用基于梯度的光流方法对下式进行求解，得到光流向量f＝(u,v)：

I_xu+I_yv+I_t＝0 (5)

其中，分别表示图像中像素点的灰度沿X,Y,T方向的偏导数，v为沿Y轴的速度矢量，u为沿X轴的速度矢量；

根据光流向量，得到光流损失L_op；

其中，f＝(u,v)为光流向量，为预测帧，I_t+1为t+1时刻，I_t为t时刻真实帧。

进一步的，注意力强度损失l_ail通过下式计算得到：

其中，A为注意力损失权重；为t时刻的预测帧像素强度，I^t为t时刻的真实帧像素强度；

注意力梯度损失l_agl通过下式计算得到：

其中，i为x轴方向的像素点位置，j为y轴方向的像素点位置，为预测帧在(i,j)位置处的像素强度，/>为预测帧在(i-1,j)位置处的像素强度，/>为真实帧在(i,j)位置处的像素强度，/>为真实帧在(i-1,j)位置处的像素强度。

进一步的，注意力损失权重A通过下式计算：

A＝|M|/(max(M)-min(M))+B

其中：B是背景区域权重，M为注意力图。

进一步的，注意力图M通过下式计算得到：

其中：S(t|M)＝<M,V^t>_F表示与时刻t相关的排名得分，<M,V^t>_F为注意力图M和V^t的F范数，表示时刻t的平均帧数，t₂表示时刻，t₁表示t₂之后的时刻，λ表示正则化参数，_τ表示任意时刻。

进一步的，训练判别器的帧损失通过以下过程得到：

给定指定长度的视频帧序列x_m:n＝{x_m,x_m+1,...,x_n},m<n，x_m表示时刻m的真实帧，x_m+1表示表示时刻m+1的真实帧，x_n表示时刻n的真实帧，m表示时刻m，n表示时刻n，输入到生成器G之后，输出预测的第n+1帧x'_n+1，交给训练判别器D1判断真假，并记录第一判断结果；再将预测的第n+1帧x'_n+1并入到真实帧序列x_m+1:n，得到包含虚假帧的序列经过生成器G，输出预测的第m帧x”_m，继续交给训练判别器D1判断真假，并记录第二判断结果；

给定指定长度的反向视频帧序列x_n+1:m+1＝{x_n+1,x_n,...,x_m+1},m<n，输入到生成器G之后，输出预测的第m帧x'_m，交给训练判别器D1判断真假，并记录第三判断结果；再将第m帧x'_m并入到真实帧序列x_n:m+1，得到包含虚假帧的序列经过生成器G，输出预测的第n+1帧x″_n+1，继续交给训练判别器D1判断真假，并记录第四判断结果；根据第一判断结果、第二判断结果、第三判断结果、第四判断结果，得到训练判别器的帧损失。

进一步的，L1损失以及拉普拉斯损失通过以下过程得到：根据预测的第n+1帧x'_n+1、预测的第m帧x”_m、预测的第m帧x'_m以及预测的第n+1帧x″_n+1，得到图片对集

其中：(x_n+1,x'_n+1)和(x_m,x'_m)分别表示前向预测的误差和后向预测的误差；

对图片对集通过L1范数，计算图片对集/>的L1误差，根据图片对集/>的L1误差，得到L1损失；

对图片对集通过拉普拉斯算法，计算图片对集/>的拉普拉斯误差，根据图片对集/>的拉普拉斯误差，得到拉普拉斯损失。

进一步的，通过下式计算PSNR指标：

其中，I为真实帧，为预测帧，N为视频帧的总个数，I_i为第i个真实帧，/>为第i个预测帧。

进一步的，视频帧的评分通过下式计算得到：

其中，I为真实帧，为预测帧。

与现有技术相比，本发明具有的有益效果：

因为异常检测判定方式是计算PSNR值，并且仅需输入若干帧即可判定目标帧是否异常，速度快，延迟低，所以本发明通过建模正常视频帧的分布，将异常视频帧作为离群点检测，所以对异常的判别能力取决于生成器对正常视频帧的建模能力，从而使得检测的误报率低。

进一步的，通过一个统一的生成对抗网络(包括一个生成器和两个判别器)可以准确地预测视频帧，利用循环回顾性的限制来保持预测的过去帧和未来帧与视频序列的一致性，减少预测帧出现的模糊情况。

进一步的，对于传统的视频预测方法，在计算逐像素误差时，在光照条件发生改变，物体出现遮挡以及相机出现突然的抖动时容易出现错误。同时现有技术中采用基于CNN的方法，因为其最小化生成的帧与训练数据之间的误差，其通常会得到模糊的图片。而本发明中对于基于生成对抗网络的视频预测方法，通过生成器来生成未来帧，通过判别器来判断视频帧是来源于生成器的还是来源于真实数据。

进一步的，因为网络通过引入循环回顾性预测，使得生成器不仅可以预测未来帧也可以预测之前的帧，增强了生成器的视频帧预测能力。

进一步的，因为基于回顾预测的思想引入了帧间循环一致性的约束，即如果预测出来的帧是逼真的，那么即便是输入的帧序列中包含预测的未来帧，那么生成器也可以生成一张逼真的过去帧，并且引入光流信息和注意力图更进一步的加强了生成器的图像生成效果，提高生成器图像生成质量。

进一步的，因为相比于传统的单判别器，还引入了一个序列判别器，判别输入的序列中是否包含生成帧，还是完全来源于真实的数据集，提高了预测视频帧与原始帧序列保持时间一致的鲁棒性。

进一步的，本发明中注意力损失权重可以缓解异常检测中的前景-背景不平衡问题。

附图说明

图1为预测帧算法模型训练流程图。

图2为预测帧算法模型检测异常流程图。

图3为前景、背景损失值曲线。

图4为仿真图。

具体实施方式

下面结合附图对本发明进行详细说明。

本发明利用一个统一的生成对抗网络(包括一个生成器和两个判别器)可以准确地预测视频帧，利用循环回顾性的限制来保持预测的过去帧和未来帧与视频序列的一致性，减少预测帧出现的模糊情况。并且提出了Attention Weight Map，以缓解异常检测中的前景-背景不平衡问题。

对于基于预测的视频异常检测方法，通常假定一段连续的正常视频存在某种有规律的上下文联系，可以学习这种依赖关系并较好的预测未来帧。相反，一段连续异常视频往往违背这些依赖关系，导致未来帧不可预测。因此，可以使用对未来视频帧的预测误差区分正常和异常。

给定t个连续的视频帧x₁,x₂,...,x_t，将t个连续的视频帧输入到预测模型进行预测，预测下一帧并使下一帧/>与真实帧x_t+1尽可能一致，在测试过程中依据模型预测得到的/>与真实x_t+1之间的误差来判定视频帧是否异常。特别的，令h代表预测模型，可表示为：

由于视频帧序列涉及复杂的高维时空信息，预测模型的目标函数需对外观和运动特征进行不同约束，以保证对视频帧的可靠预测。

对于传统的视频帧预测的方法，是通过计算逐像素的运动，然后预测未来帧中像素的线性运动，利用训练的帧来生成未来帧。利用深度神经网络(FlowNet)来计算像素的运动信息，其相比于传统的方法在一些复杂的运动场景下具有更好的效果。缺点是计算逐像素误差时，在光照条件发生改变，物体出现遮挡以及相机出现突然的抖动时容易出现错误。同时采用基于CNN的方法因为其最小化生成的帧与训练数据之间的误差，其通常会得到模糊的图片。因此本发明提出一种基于生成对抗网络的视频预测方法：通过生成器来生成未来帧，通过判别器来判断视频帧是来源于生成器的还是来源于真实数据。

传统的视频帧异常检测模型通过优化重建/预测损失会产生对背景重建/预测的偏优，而不是对前景感兴趣的对象的偏优。

本发明提出了一种简单而有效的解决方案，即注意力损失权重，以缓解异常检测中的前景-背景不平衡问题。通过计算一个注意力图，它总结了移动前景区域的帧演化，并在训练视频片段时抑制背景。将归一化后的注意力图与背景区域权重相结合，构造出注意力损失权重，分别对前景区域和背景区域赋予不同的权重。

整个方法的流程如图2所示，具体实施步骤如下：

1、训练生成器G：

采集现有的监控视频，进行预处理，然后取指定长度的视频帧序列x_m:n＝{x_m,x_m+1,...,x_n},m<n，输入到生成器G。G不仅可以预测未来帧也可以预测过去帧，即使是在输入的序列中包括预测帧的情况下。生成器G的网络结构是Unet结构，包含4个卷积层，9个残差模块以及4个转置卷积层，并且加入了跳跃连接。对于生成器G训练过程中图像约束，除了基本的对抗损失之外，还考虑了时间信息的约束，引入了光流损失，并在强度和梯度损失中加入了注意力损失权重，分别给前景、背景赋予不同的权重，提高了生成视频帧的质量。

(1)计算光流：

光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜(即图像平面)，好像一种光的“流”，故称之为光流。光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。

光流法的基本假设条件如下：

①亮度恒定不变。即同一目标在不同帧间运动时，其亮度不会发生改变。这是基本光流法的假定(所有光流法变种都必须满足)，用于得到光流法基本方程。

②时间连续或运动是小运动。即时间的变化不会引起目标位置的剧烈变化，相邻帧之间位移要比较小。同样也是光流法不可或缺的假定。

考虑视频帧中的一个像素I(x,y,t)在第一帧的光强度(其中，x代表……，y代表……，t代表其所在的时间维度)。像素I(x,y,t)移动了(dx,dy)的距离到下一帧，用了dt时间。因为是同一个像素点，依据上文提到的第一个假设认为该像素在运动前后的光强度是不变的，即：

I(x,y,t)＝I(x+dx,y+dy,t+dt) (1)

将上式右端进行泰勒展开，得到：

其中：ε代表代表二阶无穷小项，可忽略不计。再将式(2)代入式(1)后同除dt，可得：

设u,v分别为光流分别为沿X轴与Y轴的速度矢量，可得：

令：分别表示图像中像素点的灰度沿X,Y,T方向的偏导数。

综上，式(3)可以变形为：

I_xu+I_yv+I_t＝0 (5)

根据式(5)，得到光流向量f＝(u,v)：。

约束方程只有一个，而方程的未知量有两个，这种情况下无法求得u和v的确切值。此时需要引入另外的约束条件，从不同的角度引入约束条件，导致了不同光流场计算方法。按照理论基础与数学方法的区别把它们分成四种：基于梯度(微分)的方法、基于匹配的方法、基于能量(频率)的方法、基于相位的方法和神经动力学方法。本发明采用的是基于梯度(微分)的光流方法。

(2)计算注意力损失权重

传统的视频帧异常检测模型通过优化重建/预测损失会产生对背景重建/预测的偏优，而不是对前景感兴趣的对象的偏优。异常的主要元素是移动的人/物，而不是静止的背景，而且静止的背景也阻碍了有效的训练优化。为了更好地理解这一点，在Ped2数据集的每帧上绘制了未来帧算法的训练损失，如图3所示。背景部分占整体训练损失的很大一部分，而前景感兴趣区域占整体训练损失的很小一部分。在这样一个不平衡的数据集上，如果损失函数对所有区域一视同仁，那么loss值将被训练损失较大的背景所控制。因此，在优化过程中，模型会“失去焦点”，对人/物像素的重建或预测的优先级较低。在现有的工作中，这种前景背景的不平衡问题很少被触及。

为了减轻这种学习偏差，本发明使用了注意力权重损失来规范网络训练，该损失本质上缓解了数据偏差问题，并引导网络更多地关注场景中的感兴趣区域(ROI)。本发明中不是手动提供roi来构建注意力图，而是直接从训练数据中计算它。这是一个标准的RGB注意力图，用来总结整个视频序列的外观和动态。通过计算一个单一的注意力图来总结视频并同时捕捉视频帧的演变，同时平均掉背景像素和背景运动模式，并沿着帧聚焦于行为对象(如人类)。

令M为一系列视频帧I₁,I₂,…,I_T的注意力图，其中，I₁为第一时刻的注意力图，I₂为第一时刻的注意力图，I_T为T时刻的注意力图，T为总的时刻，通过以下的目标函数对M进行优化，求得M；

其中：S(t|M)＝<M,V^t>_F表示与时间步长t相关的排名得分，而〈M,V^t〉_F为M和V^t的F范数，表示时刻t个时间步长的平均帧数，t₁表示t₂之后的时刻，t₂表示时刻，表示正则化参数，_τ表示任意时刻。

式(6)用于将所有有序帧的序列压缩为单一静态图像。

然后在满足t₁≥t₂的所有帧上平均客观损失，再对所有满足t₁≥t₂的帧平均客观损失，即共计2/T(T-1)帧，计算出来注意力图M之后，将注意力图M归一化为[0,1]，进行加权，如式(7)所示，得到注意力损失权重A，避免了可能存在的尺度问题：

A＝|M|/(max(M)-min(M))+B

其中：B是背景区域权重，不能为零，因为在某些场景下背景仍然包含一些重要的静止信息，A表示注意力损失权重。

将注意力损失权重A乘以生成器G训练时用到的LOSS(强度损失和梯度损失)，以此规范生成器G的训练。强度损失乘以计算注意力损失权重，得到注意力强度损失l_ail；

其中A为注意力损失权重。为t时刻的预测帧像素强度，I^t为t时刻的真实帧像素强度；

注意力梯度损失通过以下过程得到：梯度损失乘以计算注意力损失权重得到注意力梯度损失l_agl。

其中，A为注意力损失权重；i为x轴方向的像素点位置，j为y轴方向的像素点位置，为预测帧在(i,j)位置处的像素强度，/>为预测帧在(i-1,j)位置处的像素强度，/>为真实帧在(i,j)位置处的像素强度，/>为真实帧在(i-1,j)位置处的像素强度。

根据光流，得到光流损失L_op：

其中，f为光流向量，/>为预测帧，I_t+1,I_t皆为真实帧。

除了上述损失之外还有生成器G的对抗损失

其中/>为预测帧，i,j为像素点位置。

将生成器G的对抗损失注意力强度损失l_ail、注意力梯度损失l_agl与光流损失L_op的和记为l_G，当每次训练完毕，l_G与上一次训练完毕时l_G'的差的绝对值小于设定的阈值时，判别器训练完毕。

2、训练帧判别器D1以及序列判别器D2：

给定指定长度的视频帧序列x_m:n＝{x_m,x_m+1,…,x_n},m<n，x_m表示时刻m的真实帧，x_m+1表示表示时刻m+1的真实帧，x_n表示时刻n的真实帧，m表示时刻m，n表示时刻n，输入到生成器G之后，输出预测的第n+1帧x'_n+1，交给训练判别器D1判断真假，并记录第一判断结果；再将预测的第n+1帧x'_n+1并入到真实帧序列x_m+1:n，得到包含虚假帧的序列经过生成器G，输出预测的第m帧x”_m，继续交给训练判别器D1判断真假，并记录第二判断结果。

接着给定指定长度的反向视频帧序列x_n+1:m+1＝{x_n+1,x_n,…,x_m+1},m<n，输入到生成器G之后，输出预测的第m帧x'_m，交给训练判别器D1判断真假，并记录第三判断结果。再将第m帧x'_m并入到真实帧序列x_n:m+1，得到包含虚假帧的序列经过生成器G，输出预测的第n+1帧x″_n+1，继续交给训练判别器D1判断真假，并记录第四判断结果。根据第一判断结果、第二判断结果、第三判断结果、第四判断结果，得到训练判别器的帧损失。

根据预测的第n+1帧x'_n+1、预测的第m帧x”_m、预测的第m帧x'_m以及预测的第n+1帧x″_n+1，可得到图片对集

其中：(x_n+1,x'_n+1)和(x_m,x'_m)分别表示前向预测的误差和后向预测的误差。而(x_n+1,x″_n+1)和(x_m,x”_m)则表示回顾预测的误差，因为x'_n+1被用于预测x”_m，而x'_m被用于x″_n+1，所以预测出来的x'_n+1如果是逼真的，那么生成器G也可以将x'_n+1作为输入，预测出逼真的x”_m。

此外，(x'_m,x”_m)和(x'_n+1,x″_n+1)被用于表示循环性约束，因为x'_m是由向前的原始序列预测出来的，而x”_m是由向后的原始序列预测出来的。

因此对图片对集通过L1范数和拉普拉斯算法，计算图片对集/>的L1误差以及拉普拉斯误差。根据图片对集/>的L1误差以及拉普拉斯误差，得到L1损失以及拉普拉斯损失。

其中，利用拉普拉斯算法可以有效地抑制了低频和高频噪声，提高了图像的生成质量。

序列判别器D2网络结构有5个卷积层加上LeakyReLU激活函数组成，而且判别器D1和判别器D2的网络结构是完全一样的，只是训练的时候输入的图片帧数不一致而已。此外在生成器以及判别器的每一层中(除了输入层和输出层)都采用了实例归一化(IN)。

序列判别器D2，用于判断输入序列中是否含有生成的帧，如果有的话，则预测为假，否则预测为真。通过序列判别器D2的判断结果，可得到序列判别器D2的序列损失。

根据帧判别器D1的帧损失、L1损失、拉普拉斯损失以及序列判别器D2的序列损失，训练帧判别器D1和序列判别器D2。

初始化生成器G参数后，当训练判别器的帧损失、L1损失以及拉普拉斯损失以及序列判别器D2的序列损失的和与上一次训练完毕时，训练判别器的帧损失、L1损失以及拉普拉斯损失以及序列判别器D2的序列损失的和的差的绝对值小于设定的阈值时，帧判别器D1和序列判别器D2，训练完毕，得到单次训练好的帧判别器D1和序列判别器D2。

此时，判别器参数固定，然后训练生成器G，训练完毕后，生成器G参数固定，循环训练帧判别器D1和序列判别器D2若干次(次数根据实际情况确定)，得到最终的生成器，即异常检测器。

3、异常检测

假定正常事件可以很好地预测。因此，可以通过异常检测器生成的预测帧与真实帧I计算PSNR指标，进行归一化后得到视频帧的评分S(t)，若视频帧的评分S(t)大于设定的阈值(阈值可以根据实际情况设定)，则判定视频帧异常，否则，视频帧正常。

MSE是一种常用的测量预测图像质量的方法，它通过计算RGB颜色空间中所有像素点的预测值与其地面真实值之间的欧氏距离。然而，经过相关论文研究，峰值信噪比(PSNR)是更好的图像质量评估方法，通过下式计算PSNR指标：

第t帧的高PSNR表明它更有可能是正常的。在计算出每个测试视频的每一帧的PSNR后，将每个测试视频中所有帧的PSNR归一化到[0,1]的范围，并计算出每一帧的常规评分，公式如下：

(1)如果预测出来的帧是逼真的，那么当输入的帧序列中包含预测的未来帧，经过生成器，再次得到预测帧，预测帧跟真实帧的差异很小。

(2)序列判别器的对比目标是整个序列而不是单独的一帧，因此可以提高预测帧与原始序列之间的时间一致性以及预测帧的鲁棒性。

(3)两个判别器的网络结构是完全一样的，只是训练的时候输入的图片帧数不一致而已。此外在生成器以及判别器的每一层中(除了输入层和输出层)都采用了实例归一化(IN)。

(4)传统的视频帧异常检测模型通过优化重建/预测损失会产生对背景重建/预测的偏优，而不是对前景感兴趣的对象的偏优。使用注意力权重损失来规范网络训练，该损失本质上缓解了数据偏差问题，并引导网络更多地关注场景中的感兴趣区域(ROI)。

本发明具有如下优点：

(1)生成器强大的视频帧预测能力。因为网络通过引入循环回顾性预测，使得生成器不仅可以预测未来帧也可以预测之前的帧。

(2)生成器非常高的图像生成质量。因为基于回顾预测的思想引入了帧间循环一致性的约束，即如果预测出来的帧是逼真的，那么即便是输入的帧序列中包含预测的未来帧，那么生成器也可以生成一张逼真的过去帧。并且引入光流信息和注意力图更进一步的加强了生成器的图像生成效果。

(3)高鲁棒性。因为相比于传统的单判别器，还引入了一个序列判别器，判别输入的序列中是否包含生成帧，还是完全来源于真实的数据集，提高了预测视频帧与原始帧序列保持时间一致的鲁棒性。

(4)异常检测延迟低、检测时间短。因为异常检测判定方式是计算PSNR值，并且仅需输入若干帧即可判定目标帧是否异常，速度快，延迟低。

(5)误报率低。因为预测类模型本质上是通过建模正常视频帧的分布，将异常视频帧作为离群点检测的，所以模型对异常的判别能力取决于生成器对正常视频帧的建模能力。并且循环回顾性预测以及注意力图的加入使得生成器的建模非常强，因此检测的误报率也降低不少。

参见图4，仿真图说明：对于正常的视频帧序列，输入到预测模型中，生成的预测帧跟真实帧对比，图像质量极为接近。否则，对于含有异常的视频帧序列，输入到预测模型中，生成的预测帧跟真实帧对比，图像质量差距较大，预测帧会有模糊、颜色失真的现象发生。

Claims

1.一种无监督监控视频预测帧异常检测方法，其特征在于，通过异常检测器生成的预测帧与真实帧计算PSNR指标，进行归一化得到视频帧的评分，若视频帧的评分大于设定的阈值，则判定视频帧异常，否则，视频帧正常；

异常检测器通过以下过程的得到：初始化生成器参数后，当训练判别器的帧损失、L1损失、拉普拉斯损失以及序列判别器的序列损失的和与上一次训练完毕时，训练判别器的帧损失、L1损失、拉普拉斯损失以及序列判别器的序列损失的和的差的绝对值小于设定的阈值时，帧判别器和序列判别器，训练完毕，得到单次训练好的帧判别器和序列判别器；

帧判别器和序列判别器参数固定，然后训练生成器，当对抗损失、注意力强度损失、注意力梯度损失与光流损失的和与上一次训练完毕时，对抗损失、注意力强度损失、注意力梯度损失与光流损失的和的差的绝对值小于设定的阈值时，训练完毕，得到单次训练好的生成器，生成器参数固定，循环训练帧判别器和序列判别器若干次，得到异常检测器；

光流损失通过以下过程得到：

I_xu+I_yv+I_t＝0 (5)

根据光流向量，得到光流损失L_op；

其中，f＝(u,v)为光流向量，为预测帧，I_t+1为t+1时刻，I_t为t时刻真实帧；

注意力强度损失l_ail通过下式计算得到：

注意力梯度损失l_agl通过下式计算得到：

其中，i为x轴方向的像素点位置，j为y轴方向的像素点位置，为预测帧在(i,j)位置处的像素强度，/>为预测帧在(i-1,j)位置处的像素强度，/>为真实帧在(i,j)位置处的像素强度，/>为真实帧在(i-1,j)位置处的像素强度；

注意力损失权重A通过下式计算：

A＝|M|/(max(M)-min(M))+B

其中：B是背景区域权重，M为注意力图；

注意力图M通过下式计算得到：

其中：S(t|M)＝<M,V^t>_F表示与时刻t相关的排名得分，<M,V^t>_F为注意力图M和V^t的F范数，表示时刻t的平均帧数，t₂表示时刻，t₁表示t₂之后的时刻，λ表示正则化参数，_τ表示任意时刻；

训练判别器的帧损失通过以下过程得到：

给定指定长度的视频帧序列x_m:n＝{x_m,x_m+1,...,x_n},m＜n，x_m表示时刻m的真实帧，x_m+1表示表示时刻m+1的真实帧，x_n表示时刻n的真实帧，m表示时刻m，n表示时刻n，输入到生成器G之后，输出预测的第n+1帧x'_n+1，交给训练判别器D1判断真假，并记录第一判断结果；再将预测的第n+1帧x'_n+1并入到真实帧序列x_m+1:n，得到包含虚假帧的序列经过生成器G，输出预测的第m帧x”_m，继续交给训练判别器D1判断真假，并记录第二判断结果；

给定指定长度的反向视频帧序列x_n+1:m+1＝{x_n+1,x_n,...,x_m+1},m＜n，输入到生成器G之后，输出预测的第m帧x'_m，交给训练判别器D1判断真假，并记录第三判断结果；再将第m帧x'_m并入到真实帧序列x_n:m+1，得到包含虚假帧的序列经过生成器G，输出预测的第n+1帧x”_n+1，继续交给训练判别器D1判断真假，并记录第四判断结果；根据第一判断结果、第二判断结果、第三判断结果、第四判断结果，得到训练判别器的帧损失。

2.根据权利要求1所述的一种无监督监控视频预测帧异常检测方法，其特征在于，L1损失以及拉普拉斯损失通过以下过程得到：根据预测的第n+1帧x'_n+1、预测的第m帧x”_m、预测的第m帧x'_m以及预测的第n+1帧x”_n+1，得到图片对集

对图片对集通过拉普拉斯算法，计算图片对集/>的拉普拉斯误差，根据图片对集的拉普拉斯误差，得到拉普拉斯损失。

3.根据权利要求1所述的一种无监督监控视频预测帧异常检测方法，其特征在于，通过下式计算PSNR指标：

4.根据权利要求1所述的一种无监督监控视频预测帧异常检测方法，其特征在于，视频帧的评分通过下式计算得到：

其中，I为真实帧，为预测帧。