CN114067251B - 一种无监督监控视频预测帧异常检测方法 - Google Patents
一种无监督监控视频预测帧异常检测方法 Download PDFInfo
- Publication number
- CN114067251B CN114067251B CN202111372421.3A CN202111372421A CN114067251B CN 114067251 B CN114067251 B CN 114067251B CN 202111372421 A CN202111372421 A CN 202111372421A CN 114067251 B CN114067251 B CN 114067251B
- Authority
- CN
- China
- Prior art keywords
- frame
- loss
- sequence
- predicted
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012544 monitoring process Methods 0.000 title abstract description 13
- 230000002159 abnormal effect Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 55
- 230000003287 optical effect Effects 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 241001270131 Agaricus moelleri Species 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 44
- 230000005856 abnormality Effects 0.000 abstract description 16
- 238000009826 distribution Methods 0.000 abstract description 6
- 230000033001 locomotion Effects 0.000 description 22
- 125000004122 cyclic group Chemical group 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000004580 weight loss Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种无监督监控视频预测帧异常检测方法,通过异常检测器生成的预测帧与真实帧计算PSNR指标,进行归一化得到视频帧的评分,若视频帧的评分大于设定的阈值,则判定视频帧异常,否则,视频帧正常。因为异常检测判定方式是计算PSNR值,并且仅需输入若干帧即可判定目标帧是否异常,速度快,延迟低,所以本发明通过建模正常视频帧的分布,将异常视频帧作为离群点检测,所以对异常的判别能力取决于生成器对正常视频帧的建模能力,从而使得检测的误报率低。
Description
技术领域
本发明属于视频检测技术领域,具体涉及一种无监督监控视频预测帧异常检测方法。
背景技术
面对日常生活中不断涌现的各类安全威胁和时刻存在的突发状况,以视频监控为工具进行安防的举措已凸显出强大优势。近年来随着社会经济的快速发展与视频传感技术的不断普及,监控系统已被广泛应用于公安、地铁、社区、校园等各类公共场所。然而,快速增长的视频监控系统所产生的海量视频数据对基于人工判读的视频异常事件检测带来了巨大挑战。传统依靠人工观看事后监控影像记录从而发现异常的方式不仅需消耗大量人力资源,而且可能造成无法及时弥补的错误或遗漏。因此,开发一种不依赖大量人力,能自动从监控视频中分析并发现异常情况的技术显得至关重要,而这种技术即为视频异常检测技术。本发明提出了基于循环回顾性GAN的无监督监控视频预测帧异常检测方法,通过一个统一的生成对抗网络(包括一个生成器和两个判别器)可以准确地预测视频帧,利用循环回顾性的限制来保持预测的过去帧和未来帧与视频序列的一致性,减少预测帧出现的模糊情况。并且提出了注意力损失权重,以缓解异常检测中的前景-背景不平衡问题,通过上述两个方式,有效增加了模型的鲁棒性,提高了模型的检测精度与泛化性能,克服了传统异常检测算法检测异常延迟高、误报率高、检测时间长等问题。
视频异常通常指视频中出现不正常的外观或运动属性,或在不正常的时间或空间出现正常的外观或运动属性。由于异常样本的稀缺性和多样性,视频异常检测方法通常仅对正常样本分布进行建模,测试时将偏离正常样本分布的视频帧或视频片段视为异常。从异常类型而言,外观异常通常指空间异常,包括像素级别的局部异常与帧级别的全局异常;运动异常通常指时间异常,即与时序相关的上下文异常。视频异常检测任务即为检测出视频中存在的时间和空间异常。从学习范式而言,依据对视频标签的不同用法,可将其分为有监督、弱监督、无监督和自监督,其中无监督学习是目前普遍使用的一类方法。从实际需求出发,该任务需合理平衡算法处理时间与检测精度,相对于离线算法,在线异常检测方法具有更重要的实际应用价值。
视频异常检测任务通常包括异常状态检测、异常时空定位以及异常类型判定三个方面。现有方法通常利用正常与异常特征表示之间的差异性进行异常检测,流程通常由特征提取、模型训练以及异常判定三部分组成,如图1所示。当给定某一特定场景下的正常视频数据样本,首先提取视频帧或视频窗内图像的运动及外观特征,并建立模型对正常样本的分布进行学习。测试时,将提取的测试样本特征输入模型,模型依据重构误差、预测误差、异常分数、峰值信噪比等指标对其进行异常判定。对于异常的时间定位,可由逐帧视频异常检测算法实现。对于异常的空间定位,可由基于像素位置、目标区域、目标轨迹等空间特征的视频异常检测算法实现。
早期的视频异常检测方法通常采用人工设计的特征来表示视频帧的外观和运动信息。例如方向梯度直方图(Histogram of Oriented Gradients,简称HOG),运动边界直方图(Moving Boundary Histogram,简称MBH)和光流直方图(Histogram of Flow,简称HOF)等。手工设计的特征通常具有较强的可解释性或一定的物理意义,但与基于表示学习的深度学习特征相比存在显著的性能差异。基于深度学习的视频异常检测方法已受到众多学者的广泛关注。本发明提出的基于循环回顾性GAN的无监督监控视频预测帧异常检测方法,通过一个统一的生成对抗网络(包括一个生成器和两个判别器)可以准确地预测视频帧,利用循环回顾性的限制来保持预测的过去帧和未来帧与视频序列的一致性,减少预测帧出现的模糊情况。并且提出了注意力损失权重,以缓解异常检测中的前景-背景不平衡问题,通过上述两个方式,有效增加了模型的鲁棒性,提高了模型的检测精度与泛化性能,克服了传统异常检测算法检测异常延迟高、精度低、误报率高、检测时间长等问题。
发明内容
本发明的目的是提供了一种无监督监控视频预测帧异常检测方法,具有检测异常延迟低、精度高、误报率低、检测时间短的优点。
为实现上述目的,本发明采用的技术方案为:
一种无监督监控视频预测帧异常检测方法,通过异常检测器生成的预测帧与真实帧计算PSNR指标,进行归一化得到视频帧的评分,若视频帧的评分大于设定的阈值,则判定视频帧异常,否则,视频帧正常。
进一步的,异常检测器通过以下过程的得到:初始化生成器参数后,当训练判别器的帧损失、L1损失、拉普拉斯损失以及序列判别器的序列损失的和与上一次训练完毕时,训练判别器的帧损失、L1损失、拉普拉斯损失以及序列判别器的序列损失的和的差的绝对值小于设定的阈值时,帧判别器和序列判别器,训练完毕,得到单次训练好的帧判别器和序列判别器;
帧判别器和序列判别器参数固定,然后训练生成器,当对抗损失、注意力强度损失、注意力梯度损失与光流损失的和与上一次训练完毕时,对抗损失、注意力强度损失、注意力梯度损失与光流损失的和的差的绝对值小于设定的阈值时,训练完毕,得到单次训练好的生成器,生成器参数固定,循环训练帧判别器和序列判别器若干次,得到异常检测器。
进一步的,光流损失通过以下过程得到:
采用基于梯度的光流方法对下式进行求解,得到光流向量f=(u,v):
Ixu+Iyv+It=0 (5)
其中,分别表示图像中像素点的灰度沿X,Y,T方向的偏导数,v为沿Y轴的速度矢量,u为沿X轴的速度矢量;
根据光流向量,得到光流损失Lop;
其中,f=(u,v)为光流向量,为预测帧,It+1为t+1时刻,It为t时刻真实帧。
进一步的,注意力强度损失lail通过下式计算得到:
其中,A为注意力损失权重;为t时刻的预测帧像素强度,It为t时刻的真实帧像素强度;
注意力梯度损失lagl通过下式计算得到:
其中,i为x轴方向的像素点位置,j为y轴方向的像素点位置,为预测帧在(i,j)位置处的像素强度,/>为预测帧在(i-1,j)位置处的像素强度,/>为真实帧在(i,j)位置处的像素强度,/>为真实帧在(i-1,j)位置处的像素强度。
进一步的,注意力损失权重A通过下式计算:
A=|M|/(max(M)-min(M))+B
其中:B是背景区域权重,M为注意力图。
进一步的,注意力图M通过下式计算得到:
其中:S(t|M)=<M,Vt>F表示与时刻t相关的排名得分,<M,Vt>F为注意力图M和Vt的F范数,表示时刻t的平均帧数,t2表示时刻,t1表示t2之后的时刻,λ表示正则化参数,τ表示任意时刻。
进一步的,训练判别器的帧损失通过以下过程得到:
给定指定长度的视频帧序列xm:n={xm,xm+1,...,xn},m<n,xm表示时刻m的真实帧,xm+1表示表示时刻m+1的真实帧,xn表示时刻n的真实帧,m表示时刻m,n表示时刻n,输入到生成器G之后,输出预测的第n+1帧x'n+1,交给训练判别器D1判断真假,并记录第一判断结果;再将预测的第n+1帧x'n+1并入到真实帧序列xm+1:n,得到包含虚假帧的序列经过生成器G,输出预测的第m帧x”m,继续交给训练判别器D1判断真假,并记录第二判断结果;
给定指定长度的反向视频帧序列xn+1:m+1={xn+1,xn,...,xm+1},m<n,输入到生成器G之后,输出预测的第m帧x'm,交给训练判别器D1判断真假,并记录第三判断结果;再将第m帧x'm并入到真实帧序列xn:m+1,得到包含虚假帧的序列经过生成器G,输出预测的第n+1帧x″n+1,继续交给训练判别器D1判断真假,并记录第四判断结果;根据第一判断结果、第二判断结果、第三判断结果、第四判断结果,得到训练判别器的帧损失。
进一步的,L1损失以及拉普拉斯损失通过以下过程得到:根据预测的第n+1帧x'n+1、预测的第m帧x”m、预测的第m帧x'm以及预测的第n+1帧x″n+1,得到图片对集
其中:(xn+1,x'n+1)和(xm,x'm)分别表示前向预测的误差和后向预测的误差;
对图片对集通过L1范数,计算图片对集/>的L1误差,根据图片对集/>的L1误差,得到L1损失;
对图片对集通过拉普拉斯算法,计算图片对集/>的拉普拉斯误差,根据图片对集/>的拉普拉斯误差,得到拉普拉斯损失。
进一步的,通过下式计算PSNR指标:
其中,I为真实帧,为预测帧,N为视频帧的总个数,Ii为第i个真实帧,/>为第i个预测帧。
进一步的,视频帧的评分通过下式计算得到:
其中,I为真实帧,为预测帧。
与现有技术相比,本发明具有的有益效果:
因为异常检测判定方式是计算PSNR值,并且仅需输入若干帧即可判定目标帧是否异常,速度快,延迟低,所以本发明通过建模正常视频帧的分布,将异常视频帧作为离群点检测,所以对异常的判别能力取决于生成器对正常视频帧的建模能力,从而使得检测的误报率低。
进一步的,通过一个统一的生成对抗网络(包括一个生成器和两个判别器)可以准确地预测视频帧,利用循环回顾性的限制来保持预测的过去帧和未来帧与视频序列的一致性,减少预测帧出现的模糊情况。
进一步的,对于传统的视频预测方法,在计算逐像素误差时,在光照条件发生改变,物体出现遮挡以及相机出现突然的抖动时容易出现错误。同时现有技术中采用基于CNN的方法,因为其最小化生成的帧与训练数据之间的误差,其通常会得到模糊的图片。而本发明中对于基于生成对抗网络的视频预测方法,通过生成器来生成未来帧,通过判别器来判断视频帧是来源于生成器的还是来源于真实数据。
进一步的,因为网络通过引入循环回顾性预测,使得生成器不仅可以预测未来帧也可以预测之前的帧,增强了生成器的视频帧预测能力。
进一步的,因为基于回顾预测的思想引入了帧间循环一致性的约束,即如果预测出来的帧是逼真的,那么即便是输入的帧序列中包含预测的未来帧,那么生成器也可以生成一张逼真的过去帧,并且引入光流信息和注意力图更进一步的加强了生成器的图像生成效果,提高生成器图像生成质量。
进一步的,因为相比于传统的单判别器,还引入了一个序列判别器,判别输入的序列中是否包含生成帧,还是完全来源于真实的数据集,提高了预测视频帧与原始帧序列保持时间一致的鲁棒性。
进一步的,本发明中注意力损失权重可以缓解异常检测中的前景-背景不平衡问题。
附图说明
图1为预测帧算法模型训练流程图。
图2为预测帧算法模型检测异常流程图。
图3为前景、背景损失值曲线。
图4为仿真图。
具体实施方式
下面结合附图对本发明进行详细说明。
本发明利用一个统一的生成对抗网络(包括一个生成器和两个判别器)可以准确地预测视频帧,利用循环回顾性的限制来保持预测的过去帧和未来帧与视频序列的一致性,减少预测帧出现的模糊情况。并且提出了Attention Weight Map,以缓解异常检测中的前景-背景不平衡问题。
对于基于预测的视频异常检测方法,通常假定一段连续的正常视频存在某种有规律的上下文联系,可以学习这种依赖关系并较好的预测未来帧。相反,一段连续异常视频往往违背这些依赖关系,导致未来帧不可预测。因此,可以使用对未来视频帧的预测误差区分正常和异常。
给定t个连续的视频帧x1,x2,...,xt,将t个连续的视频帧输入到预测模型进行预测,预测下一帧并使下一帧/>与真实帧xt+1尽可能一致,在测试过程中依据模型预测得到的/>与真实xt+1之间的误差来判定视频帧是否异常。特别的,令h代表预测模型,可表示为:
由于视频帧序列涉及复杂的高维时空信息,预测模型的目标函数需对外观和运动特征进行不同约束,以保证对视频帧的可靠预测。
对于传统的视频帧预测的方法,是通过计算逐像素的运动,然后预测未来帧中像素的线性运动,利用训练的帧来生成未来帧。利用深度神经网络(FlowNet)来计算像素的运动信息,其相比于传统的方法在一些复杂的运动场景下具有更好的效果。缺点是计算逐像素误差时,在光照条件发生改变,物体出现遮挡以及相机出现突然的抖动时容易出现错误。同时采用基于CNN的方法因为其最小化生成的帧与训练数据之间的误差,其通常会得到模糊的图片。因此本发明提出一种基于生成对抗网络的视频预测方法:通过生成器来生成未来帧,通过判别器来判断视频帧是来源于生成器的还是来源于真实数据。
传统的视频帧异常检测模型通过优化重建/预测损失会产生对背景重建/预测的偏优,而不是对前景感兴趣的对象的偏优。
本发明提出了一种简单而有效的解决方案,即注意力损失权重,以缓解异常检测中的前景-背景不平衡问题。通过计算一个注意力图,它总结了移动前景区域的帧演化,并在训练视频片段时抑制背景。将归一化后的注意力图与背景区域权重相结合,构造出注意力损失权重,分别对前景区域和背景区域赋予不同的权重。
整个方法的流程如图2所示,具体实施步骤如下:
1、训练生成器G:
采集现有的监控视频,进行预处理,然后取指定长度的视频帧序列xm:n={xm,xm+1,...,xn},m<n,输入到生成器G。G不仅可以预测未来帧也可以预测过去帧,即使是在输入的序列中包括预测帧的情况下。生成器G的网络结构是Unet结构,包含4个卷积层,9个残差模块以及4个转置卷积层,并且加入了跳跃连接。对于生成器G训练过程中图像约束,除了基本的对抗损失之外,还考虑了时间信息的约束,引入了光流损失,并在强度和梯度损失中加入了注意力损失权重,分别给前景、背景赋予不同的权重,提高了生成视频帧的质量。
(1)计算光流:
光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。
一般而言,光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像一种光的“流”,故称之为光流。光流表达了图像的变化,由于它包含了目标运动的信息,因此可被观察者用来确定目标的运动情况。
光流法的基本假设条件如下:
①亮度恒定不变。即同一目标在不同帧间运动时,其亮度不会发生改变。这是基本光流法的假定(所有光流法变种都必须满足),用于得到光流法基本方程。
②时间连续或运动是小运动。即时间的变化不会引起目标位置的剧烈变化,相邻帧之间位移要比较小。同样也是光流法不可或缺的假定。
考虑视频帧中的一个像素I(x,y,t)在第一帧的光强度(其中,x代表……,y代表……,t代表其所在的时间维度)。像素I(x,y,t)移动了(dx,dy)的距离到下一帧,用了dt时间。因为是同一个像素点,依据上文提到的第一个假设认为该像素在运动前后的光强度是不变的,即:
I(x,y,t)=I(x+dx,y+dy,t+dt) (1)
将上式右端进行泰勒展开,得到:
其中:ε代表代表二阶无穷小项,可忽略不计。再将式(2)代入式(1)后同除dt,可得:
设u,v分别为光流分别为沿X轴与Y轴的速度矢量,可得:
令:分别表示图像中像素点的灰度沿X,Y,T方向的偏导数。
综上,式(3)可以变形为:
Ixu+Iyv+It=0 (5)
根据式(5),得到光流向量f=(u,v):。
约束方程只有一个,而方程的未知量有两个,这种情况下无法求得u和v的确切值。此时需要引入另外的约束条件,从不同的角度引入约束条件,导致了不同光流场计算方法。按照理论基础与数学方法的区别把它们分成四种:基于梯度(微分)的方法、基于匹配的方法、基于能量(频率)的方法、基于相位的方法和神经动力学方法。本发明采用的是基于梯度(微分)的光流方法。
(2)计算注意力损失权重
传统的视频帧异常检测模型通过优化重建/预测损失会产生对背景重建/预测的偏优,而不是对前景感兴趣的对象的偏优。异常的主要元素是移动的人/物,而不是静止的背景,而且静止的背景也阻碍了有效的训练优化。为了更好地理解这一点,在Ped2数据集的每帧上绘制了未来帧算法的训练损失,如图3所示。背景部分占整体训练损失的很大一部分,而前景感兴趣区域占整体训练损失的很小一部分。在这样一个不平衡的数据集上,如果损失函数对所有区域一视同仁,那么loss值将被训练损失较大的背景所控制。因此,在优化过程中,模型会“失去焦点”,对人/物像素的重建或预测的优先级较低。在现有的工作中,这种前景背景的不平衡问题很少被触及。
为了减轻这种学习偏差,本发明使用了注意力权重损失来规范网络训练,该损失本质上缓解了数据偏差问题,并引导网络更多地关注场景中的感兴趣区域(ROI)。本发明中不是手动提供roi来构建注意力图,而是直接从训练数据中计算它。这是一个标准的RGB注意力图,用来总结整个视频序列的外观和动态。通过计算一个单一的注意力图来总结视频并同时捕捉视频帧的演变,同时平均掉背景像素和背景运动模式,并沿着帧聚焦于行为对象(如人类)。
令M为一系列视频帧I1,I2,…,IT的注意力图,其中,I1为第一时刻的注意力图,I2为第一时刻的注意力图,IT为T时刻的注意力图,T为总的时刻,通过以下的目标函数对M进行优化,求得M;
其中:S(t|M)=<M,Vt>F表示与时间步长t相关的排名得分,而〈M,Vt〉F为M和Vt的F范数,表示时刻t个时间步长的平均帧数,t1表示t2之后的时刻,t2表示时刻,表示正则化参数,τ表示任意时刻。
式(6)用于将所有有序帧的序列压缩为单一静态图像。
然后在满足t1≥t2的所有帧上平均客观损失,再对所有满足t1≥t2的帧平均客观损失,即共计2/T(T-1)帧,计算出来注意力图M之后,将注意力图M归一化为[0,1],进行加权,如式(7)所示,得到注意力损失权重A,避免了可能存在的尺度问题:
A=|M|/(max(M)-min(M))+B
其中:B是背景区域权重,不能为零,因为在某些场景下背景仍然包含一些重要的静止信息,A表示注意力损失权重。
将注意力损失权重A乘以生成器G训练时用到的LOSS(强度损失和梯度损失),以此规范生成器G的训练。强度损失乘以计算注意力损失权重,得到注意力强度损失lail;
其中A为注意力损失权重。为t时刻的预测帧像素强度,It为t时刻的真实帧像素强度;
注意力梯度损失通过以下过程得到:梯度损失乘以计算注意力损失权重得到注意力梯度损失lagl。
其中,A为注意力损失权重;i为x轴方向的像素点位置,j为y轴方向的像素点位置,为预测帧在(i,j)位置处的像素强度,/>为预测帧在(i-1,j)位置处的像素强度,/>为真实帧在(i,j)位置处的像素强度,/>为真实帧在(i-1,j)位置处的像素强度。
根据光流,得到光流损失Lop:
其中,f为光流向量,/>为预测帧,It+1,It皆为真实帧。
除了上述损失之外还有生成器G的对抗损失
其中/>为预测帧,i,j为像素点位置。
将生成器G的对抗损失注意力强度损失lail、注意力梯度损失lagl与光流损失Lop的和记为lG,当每次训练完毕,lG与上一次训练完毕时lG'的差的绝对值小于设定的阈值时,判别器训练完毕。
2、训练帧判别器D1以及序列判别器D2:
给定指定长度的视频帧序列xm:n={xm,xm+1,…,xn},m<n,xm表示时刻m的真实帧,xm+1表示表示时刻m+1的真实帧,xn表示时刻n的真实帧,m表示时刻m,n表示时刻n,输入到生成器G之后,输出预测的第n+1帧x'n+1,交给训练判别器D1判断真假,并记录第一判断结果;再将预测的第n+1帧x'n+1并入到真实帧序列xm+1:n,得到包含虚假帧的序列经过生成器G,输出预测的第m帧x”m,继续交给训练判别器D1判断真假,并记录第二判断结果。
接着给定指定长度的反向视频帧序列xn+1:m+1={xn+1,xn,…,xm+1},m<n,输入到生成器G之后,输出预测的第m帧x'm,交给训练判别器D1判断真假,并记录第三判断结果。再将第m帧x'm并入到真实帧序列xn:m+1,得到包含虚假帧的序列经过生成器G,输出预测的第n+1帧x″n+1,继续交给训练判别器D1判断真假,并记录第四判断结果。根据第一判断结果、第二判断结果、第三判断结果、第四判断结果,得到训练判别器的帧损失。
根据预测的第n+1帧x'n+1、预测的第m帧x”m、预测的第m帧x'm以及预测的第n+1帧x″n+1,可得到图片对集
其中:(xn+1,x'n+1)和(xm,x'm)分别表示前向预测的误差和后向预测的误差。而(xn+1,x″n+1)和(xm,x”m)则表示回顾预测的误差,因为x'n+1被用于预测x”m,而x'm被用于x″n+1,所以预测出来的x'n+1如果是逼真的,那么生成器G也可以将x'n+1作为输入,预测出逼真的x”m。
此外,(x'm,x”m)和(x'n+1,x″n+1)被用于表示循环性约束,因为x'm是由向前的原始序列预测出来的,而x”m是由向后的原始序列预测出来的。
因此对图片对集通过L1范数和拉普拉斯算法,计算图片对集/>的L1误差以及拉普拉斯误差。根据图片对集/>的L1误差以及拉普拉斯误差,得到L1损失以及拉普拉斯损失。
其中,利用拉普拉斯算法可以有效地抑制了低频和高频噪声,提高了图像的生成质量。
序列判别器D2网络结构有5个卷积层加上LeakyReLU激活函数组成,而且判别器D1和判别器D2的网络结构是完全一样的,只是训练的时候输入的图片帧数不一致而已。此外在生成器以及判别器的每一层中(除了输入层和输出层)都采用了实例归一化(IN)。
序列判别器D2,用于判断输入序列中是否含有生成的帧,如果有的话,则预测为假,否则预测为真。通过序列判别器D2的判断结果,可得到序列判别器D2的序列损失。
根据帧判别器D1的帧损失、L1损失、拉普拉斯损失以及序列判别器D2的序列损失,训练帧判别器D1和序列判别器D2。
初始化生成器G参数后,当训练判别器的帧损失、L1损失以及拉普拉斯损失以及序列判别器D2的序列损失的和与上一次训练完毕时,训练判别器的帧损失、L1损失以及拉普拉斯损失以及序列判别器D2的序列损失的和的差的绝对值小于设定的阈值时,帧判别器D1和序列判别器D2,训练完毕,得到单次训练好的帧判别器D1和序列判别器D2。
此时,判别器参数固定,然后训练生成器G,训练完毕后,生成器G参数固定,循环训练帧判别器D1和序列判别器D2若干次(次数根据实际情况确定),得到最终的生成器,即异常检测器。
3、异常检测
假定正常事件可以很好地预测。因此,可以通过异常检测器生成的预测帧与真实帧I计算PSNR指标,进行归一化后得到视频帧的评分S(t),若视频帧的评分S(t)大于设定的阈值(阈值可以根据实际情况设定),则判定视频帧异常,否则,视频帧正常。
MSE是一种常用的测量预测图像质量的方法,它通过计算RGB颜色空间中所有像素点的预测值与其地面真实值之间的欧氏距离。然而,经过相关论文研究,峰值信噪比(PSNR)是更好的图像质量评估方法,通过下式计算PSNR指标:
第t帧的高PSNR表明它更有可能是正常的。在计算出每个测试视频的每一帧的PSNR后,将每个测试视频中所有帧的PSNR归一化到[0,1]的范围,并计算出每一帧的常规评分,公式如下:
(1)如果预测出来的帧是逼真的,那么当输入的帧序列中包含预测的未来帧,经过生成器,再次得到预测帧,预测帧跟真实帧的差异很小。
(2)序列判别器的对比目标是整个序列而不是单独的一帧,因此可以提高预测帧与原始序列之间的时间一致性以及预测帧的鲁棒性。
(3)两个判别器的网络结构是完全一样的,只是训练的时候输入的图片帧数不一致而已。此外在生成器以及判别器的每一层中(除了输入层和输出层)都采用了实例归一化(IN)。
(4)传统的视频帧异常检测模型通过优化重建/预测损失会产生对背景重建/预测的偏优,而不是对前景感兴趣的对象的偏优。使用注意力权重损失来规范网络训练,该损失本质上缓解了数据偏差问题,并引导网络更多地关注场景中的感兴趣区域(ROI)。
本发明具有如下优点:
(1)生成器强大的视频帧预测能力。因为网络通过引入循环回顾性预测,使得生成器不仅可以预测未来帧也可以预测之前的帧。
(2)生成器非常高的图像生成质量。因为基于回顾预测的思想引入了帧间循环一致性的约束,即如果预测出来的帧是逼真的,那么即便是输入的帧序列中包含预测的未来帧,那么生成器也可以生成一张逼真的过去帧。并且引入光流信息和注意力图更进一步的加强了生成器的图像生成效果。
(3)高鲁棒性。因为相比于传统的单判别器,还引入了一个序列判别器,判别输入的序列中是否包含生成帧,还是完全来源于真实的数据集,提高了预测视频帧与原始帧序列保持时间一致的鲁棒性。
(4)异常检测延迟低、检测时间短。因为异常检测判定方式是计算PSNR值,并且仅需输入若干帧即可判定目标帧是否异常,速度快,延迟低。
(5)误报率低。因为预测类模型本质上是通过建模正常视频帧的分布,将异常视频帧作为离群点检测的,所以模型对异常的判别能力取决于生成器对正常视频帧的建模能力。并且循环回顾性预测以及注意力图的加入使得生成器的建模非常强,因此检测的误报率也降低不少。
参见图4,仿真图说明:对于正常的视频帧序列,输入到预测模型中,生成的预测帧跟真实帧对比,图像质量极为接近。否则,对于含有异常的视频帧序列,输入到预测模型中,生成的预测帧跟真实帧对比,图像质量差距较大,预测帧会有模糊、颜色失真的现象发生。
Claims (4)
1.一种无监督监控视频预测帧异常检测方法,其特征在于,通过异常检测器生成的预测帧与真实帧计算PSNR指标,进行归一化得到视频帧的评分,若视频帧的评分大于设定的阈值,则判定视频帧异常,否则,视频帧正常;
异常检测器通过以下过程的得到:初始化生成器参数后,当训练判别器的帧损失、L1损失、拉普拉斯损失以及序列判别器的序列损失的和与上一次训练完毕时,训练判别器的帧损失、L1损失、拉普拉斯损失以及序列判别器的序列损失的和的差的绝对值小于设定的阈值时,帧判别器和序列判别器,训练完毕,得到单次训练好的帧判别器和序列判别器;
帧判别器和序列判别器参数固定,然后训练生成器,当对抗损失、注意力强度损失、注意力梯度损失与光流损失的和与上一次训练完毕时,对抗损失、注意力强度损失、注意力梯度损失与光流损失的和的差的绝对值小于设定的阈值时,训练完毕,得到单次训练好的生成器,生成器参数固定,循环训练帧判别器和序列判别器若干次,得到异常检测器;
光流损失通过以下过程得到:
采用基于梯度的光流方法对下式进行求解,得到光流向量f=(u,v):
Ixu+Iyv+It=0 (5)
其中,分别表示图像中像素点的灰度沿X,Y,T方向的偏导数,v为沿Y轴的速度矢量,u为沿X轴的速度矢量;
根据光流向量,得到光流损失Lop;
其中,f=(u,v)为光流向量,为预测帧,It+1为t+1时刻,It为t时刻真实帧;
注意力强度损失lail通过下式计算得到:
其中,A为注意力损失权重;为t时刻的预测帧像素强度,It为t时刻的真实帧像素强度;
注意力梯度损失lagl通过下式计算得到:
其中,i为x轴方向的像素点位置,j为y轴方向的像素点位置,为预测帧在(i,j)位置处的像素强度,/>为预测帧在(i-1,j)位置处的像素强度,/>为真实帧在(i,j)位置处的像素强度,/>为真实帧在(i-1,j)位置处的像素强度;
注意力损失权重A通过下式计算:
A=|M|/(max(M)-min(M))+B
其中:B是背景区域权重,M为注意力图;
注意力图M通过下式计算得到:
其中:S(t|M)=<M,Vt>F表示与时刻t相关的排名得分,<M,Vt>F为注意力图M和Vt的F范数,表示时刻t的平均帧数,t2表示时刻,t1表示t2之后的时刻,λ表示正则化参数,τ表示任意时刻;
训练判别器的帧损失通过以下过程得到:
给定指定长度的视频帧序列xm:n={xm,xm+1,...,xn},m<n,xm表示时刻m的真实帧,xm+1表示表示时刻m+1的真实帧,xn表示时刻n的真实帧,m表示时刻m,n表示时刻n,输入到生成器G之后,输出预测的第n+1帧x'n+1,交给训练判别器D1判断真假,并记录第一判断结果;再将预测的第n+1帧x'n+1并入到真实帧序列xm+1:n,得到包含虚假帧的序列经过生成器G,输出预测的第m帧x”m,继续交给训练判别器D1判断真假,并记录第二判断结果;
给定指定长度的反向视频帧序列xn+1:m+1={xn+1,xn,...,xm+1},m<n,输入到生成器G之后,输出预测的第m帧x'm,交给训练判别器D1判断真假,并记录第三判断结果;再将第m帧x'm并入到真实帧序列xn:m+1,得到包含虚假帧的序列经过生成器G,输出预测的第n+1帧x”n+1,继续交给训练判别器D1判断真假,并记录第四判断结果;根据第一判断结果、第二判断结果、第三判断结果、第四判断结果,得到训练判别器的帧损失。
2.根据权利要求1所述的一种无监督监控视频预测帧异常检测方法,其特征在于,L1损失以及拉普拉斯损失通过以下过程得到:根据预测的第n+1帧x'n+1、预测的第m帧x”m、预测的第m帧x'm以及预测的第n+1帧x”n+1,得到图片对集
其中:(xn+1,x'n+1)和(xm,x'm)分别表示前向预测的误差和后向预测的误差;
对图片对集通过L1范数,计算图片对集/>的L1误差,根据图片对集/>的L1误差,得到L1损失;
对图片对集通过拉普拉斯算法,计算图片对集/>的拉普拉斯误差,根据图片对集的拉普拉斯误差,得到拉普拉斯损失。
3.根据权利要求1所述的一种无监督监控视频预测帧异常检测方法,其特征在于,通过下式计算PSNR指标:
其中,I为真实帧,为预测帧,N为视频帧的总个数,Ii为第i个真实帧,/>为第i个预测帧。
4.根据权利要求1所述的一种无监督监控视频预测帧异常检测方法,其特征在于,视频帧的评分通过下式计算得到:
其中,I为真实帧,为预测帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111372421.3A CN114067251B (zh) | 2021-11-18 | 2021-11-18 | 一种无监督监控视频预测帧异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111372421.3A CN114067251B (zh) | 2021-11-18 | 2021-11-18 | 一种无监督监控视频预测帧异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114067251A CN114067251A (zh) | 2022-02-18 |
CN114067251B true CN114067251B (zh) | 2023-09-15 |
Family
ID=80278328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111372421.3A Active CN114067251B (zh) | 2021-11-18 | 2021-11-18 | 一种无监督监控视频预测帧异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114067251B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758282B (zh) * | 2022-04-28 | 2022-12-06 | 杭州电子科技大学 | 基于时序校正卷积的视频预测方法 |
CN115965899B (zh) * | 2023-03-16 | 2023-06-06 | 山东省凯麟环保设备股份有限公司 | 一种基于视频分割的无人扫地机器车异常检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN112052763A (zh) * | 2020-08-27 | 2020-12-08 | 西安电子科技大学 | 基于双向回顾生成对抗网络的视频异常事件检测方法 |
CN113011399A (zh) * | 2021-04-28 | 2021-06-22 | 南通大学 | 基于生成协同判别网络的视频异常事件检测方法及系统 |
CN113298036A (zh) * | 2021-06-17 | 2021-08-24 | 浙江大学 | 一种无监督视频目标分割的方法 |
CN113313037A (zh) * | 2021-06-02 | 2021-08-27 | 郑州大学 | 一种基于自注意力机制的生成对抗网络视频异常检测方法 |
WO2021174771A1 (zh) * | 2020-03-05 | 2021-09-10 | 西北工业大学 | 一种人机协作的视频异常检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783622B2 (en) * | 2018-04-25 | 2020-09-22 | Adobe Inc. | Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image |
-
2021
- 2021-11-18 CN CN202111372421.3A patent/CN114067251B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
WO2021174771A1 (zh) * | 2020-03-05 | 2021-09-10 | 西北工业大学 | 一种人机协作的视频异常检测方法 |
CN112052763A (zh) * | 2020-08-27 | 2020-12-08 | 西安电子科技大学 | 基于双向回顾生成对抗网络的视频异常事件检测方法 |
CN113011399A (zh) * | 2021-04-28 | 2021-06-22 | 南通大学 | 基于生成协同判别网络的视频异常事件检测方法及系统 |
CN113313037A (zh) * | 2021-06-02 | 2021-08-27 | 郑州大学 | 一种基于自注意力机制的生成对抗网络视频异常检测方法 |
CN113298036A (zh) * | 2021-06-17 | 2021-08-24 | 浙江大学 | 一种无监督视频目标分割的方法 |
Non-Patent Citations (3)
Title |
---|
岑仕杰 ; 何元烈 ; 陈小聪 ; .结合注意力与无监督深度学习的单目深度估计.广东工业大学学报.2020,(第04期),全文. * |
李森 ; 许宏科 ; .基于时空建模的视频帧预测模型.物联网技术.2020,(第02期),全文. * |
袁帅 ; 秦贵和 ; 晏婕 ; .应用残差生成对抗网络的路况视频帧预测模型.西安交通大学学报.2018,(第10期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114067251A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Flame detection using deep learning | |
CN114067251B (zh) | 一种无监督监控视频预测帧异常检测方法 | |
JP6797860B2 (ja) | 水上侵入検知システムおよびその方法 | |
CN111382686B (zh) | 一种基于半监督生成对抗网络的车道线检测方法 | |
Shakya et al. | Deep learning algorithm for satellite imaging based cyclone detection | |
Gao et al. | Learning independent instance maps for crowd localization | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
Zhao et al. | Robust unsupervised motion pattern inference from video and applications | |
Xue et al. | Low-rank approximation and multiple sparse constraint modeling for infrared low-flying fixed-wing UAV detection | |
Wang et al. | Low-altitude infrared small target detection based on fully convolutional regression network and graph matching | |
CN110827320A (zh) | 基于时序预测的目标跟踪方法和装置 | |
CN114821434A (zh) | 一种基于光流约束的时空增强视频异常检测方法 | |
Ma et al. | A lightweight neural network for crowd analysis of images with congested scenes | |
CN109887004A (zh) | 一种基于tld算法的无人船海域目标跟踪方法 | |
CN112418149A (zh) | 一种基于深卷积神经网络的异常行为检测方法 | |
CN111127355A (zh) | 一种对缺损光流图进行精细补全的方法及其应用 | |
Albalooshi et al. | Deep belief active contours (DBAC) with its application to oil spill segmentation from remotely sensed sea surface imagery | |
CN116229347A (zh) | 一种人群安全异常事件识别方法 | |
CN109636834A (zh) | 基于tld改进算法的视频车辆目标跟踪算法 | |
CN115601841A (zh) | 一种联合外观纹理和运动骨架的人体异常行为检测方法 | |
Li et al. | Online background learning for illumination-robust foreground detection | |
Wang et al. | Dim Moving Point Target Detection in Cloud Clutter Scenes Based on Temporal Profile Learning | |
Balachandran et al. | Moving scene-based video segmentation using fast convolutional neural network integration of VGG-16 net deep learning architecture | |
Lindstrom et al. | Background and foreground modeling using an online EM algorithm | |
Yi et al. | A Perspective-Embedded Scale-Selection Network for Crowd Counting in Public Transportation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |