CN113947612B - 基于前景背景分离的视频异常检测方法 - Google Patents
基于前景背景分离的视频异常检测方法 Download PDFInfo
- Publication number
- CN113947612B CN113947612B CN202111139846.XA CN202111139846A CN113947612B CN 113947612 B CN113947612 B CN 113947612B CN 202111139846 A CN202111139846 A CN 202111139846A CN 113947612 B CN113947612 B CN 113947612B
- Authority
- CN
- China
- Prior art keywords
- foreground
- background
- image
- network
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 103
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000003287 optical effect Effects 0.000 claims abstract description 47
- 230000002159 abnormal effect Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000010606 normalization Methods 0.000 claims description 26
- 238000012544 monitoring process Methods 0.000 claims description 11
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000000513 principal component analysis Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 45
- 230000004913 activation Effects 0.000 description 23
- 238000004088 simulation Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于前景背景分离网络的视频异常检测方法,解决了在实际中大多数异常事件出现在前景中,现有技术没有区分前景和背景导致不能充分学习正常事件的模式,从而异常事件检测精度不足的问题。实现步骤为:(1)利用主成分分析(PCA)技术提取视频帧的背景图像和前景图像作为groundtruth;(2)基于卷积神经网络构建一个前景背景分离网络;(3)对前景背景分离网络进行迭代训练,得到一个能准确分离视频帧中正常事件的前景和背景,而无法准确分离异常事件的前景和背景的分离器,同时在这个过程中利用光流作为前景的边缘轮廓信息辅助任务执行;(4)根据分离结果与groundtruth的差异进行视频异常检测。
Description
技术领域
本发明属于计算机视觉领域,涉及一种视频异常检测方法,具体涉及一种基于前景背景分离的视频异常检测方法。本发明可用于对视频监控图像中的异常事件进行检测。
背景技术
视频监控对于维护公共安全非常重要,为了应对公共区域日益严重的安全问题,越来越多的地方都部署了视频监控系统。与此同时,监控系统将产生大量的视频数据,因此在没有人工辅助的情况下实时检测异常事件是很有必要的。目前,对于视频监控中的异常事件进行检测主要有两种办法:1)基于手工特征的传统方法。在这种方法中,首先需要利用HOG,HOF等描述子构建与外观或者运动相关的特征,然后通过字典学习的方式重建正常事件,利用对异常事件的重建误差进行异常检测。但是,手工特征有限的表示能力导致这类方法不能适应复杂的场景。2)基于深度学习的方法。一种是基于卷积自编码器学习正常事件的模式来重构视频帧,利用对异常事件的重建误差进行异常检测。另一种是基于历史信息去预测正常视频的未来帧,利用对异常事件的预测误差进行异常检测。由于深度神经网络具有自动抽取高级特征的能力,所以基于深度学习的方法有更高的精度,也使其成为目前主流的方法。
Wen Liu等人在其发表的论文“Future Frame Prediction forAnomalyDetection–ANew Baseline.”(Proceedings ofthe IEEE Conference on ComputerVisionand Pattern Recognition,2018,pp.6536-6545)中提出一种基于未来帧预测的视频异常检测方法。该方法采用Unet作为预测网络来预测视频数据的未来帧,在训练预测网络时,根据前四帧图像来预测第五帧图像,通过最小化预测的未来帧图像与真实未来帧之图像间的梯度损失与强度损失来对预测的未来帧图像进行外观约束,通过最小化预测的未来帧图像与真实将来帧图像之间的光流损失来进行运动约束,并联合生成对抗网络来优化模型。该方法不仅对预测的未来帧图像的外观进行了约束,还通过提取光流来对预测的未来帧图像进行运动约束,能更好地预测出正常视频的未来帧图像,而异常事件与正常事件的模式是不同的,模型对于异常事件会有较大的预测误差,从而利用此误差进行异常检测。但是,该方法仍然存在的不足之处是,忽略了在视频中异常事件大多数情况下都发生在前景中,直接预测完整的未来帧会导致模型在训练的过程中把大量精力都消耗在背景上,不能确保学习一个有效的正常事件的模式,进而异常检测的精度较低。
Y.Tang等人在其发表的论文“Integrating prediction and reconstructionfor anomaly detection,”(Pattern Recognit.Lett.,vol.129,pp.123–130,2020)中提出一种结合未来帧预测和重构的视频异常检测方法。该方法首先根据前四帧视频帧来预测未来帧图像,并重构被预测的未来帧图像,然后通过最小化预测的未来帧图像与真实未来帧图像、重构图像与真实的未来帧图像之间的差值并联合生成对抗网络来优化模型。在测试阶段,首先通过比较由预测网络得到的未来帧图像与真实未来帧图像、生成的重构图像与真实未来帧图像之间的误差,分别得到预测误差和重构误差,然后对得到的预测误差和重构误差进行加权求和处理,得到异常分数,最后根据分数来判断是否发生异常。该方法联合预测误差和重构误差进一步提高了异常检测效果。但是,该方法仍然依赖重构模型和未来帧预测模型,这种框架无法区分前景与背景的优先级,无法保证学习一个有效的正常事件的模式。另外,同时联合预测模型和重构模型使得检测网络过于复杂,降低了检测效率,并且由于场景的多样性,难以选取合适的重构误差和预测误差的权重比例,检测效果会因场景的变化而产生不稳定性。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于前景背景分离的视频异常检测方法,用于解决现有的大多数技术无法区分前景与背景的优先级,导致对视频中的异常事件检测精度不足的问题。
为了达到上述目的,本发明所采用的具体技术方案如下:
一种基于前景背景分离的视频异常检测方法,具体包括以下步骤:
(1)构建一个前景背景分离网络;
(2)搭建一个判别器网络;
(3)将前景背景分离网络与判别器网络级联组成生成对抗网络;
(4)初始化生成对抗网络;
(5)生成训练数据集;
选择正常的连续监控视频,将其进行奇异值分解,得到视频的背景,每一帧减去背景得到前景,计算光流,将原始帧、光流、真实前景、真实背景组成训练数据集;
(6)对前景背景分离网络进行训练;
将原始帧和光流分别输入到前景背景分离网络的图像特征分支和光流特征分支,然后由前景分离分支和背景生成分支分别得到前景估计图像和背景估计图像;
根据视频帧对应的真实前景、真实背景与前景估计图像、背景估计图像之间的误差构建前景背景分离网络损失函数,计算前景背景分离网络损失值,基于反向传播算法和优化器对前景背景分离器网络进行训练;
(7)对判别器网络进行训练;
将前景分离分支得到的前景估计图像与其真实前景图像输入到判别器网络中,判别器网络输出对应的真伪概率;
根据判别器网络输出的真伪概率构建的判别器损失函数,计算判别器网络的损失值;基于反向传播算法和优化器对判别器网络进行训练;
(8)判断前景背景分离网络损失函数是否收敛,若是,则执行步骤(9),否则,执行步骤(6);
(9)完成前景背景分离器的训练,得到并保存前景背景分离器的相关参数;
(10)对视频进行检测;
将视频中的原始帧与光流输入前景背景分离器,得到前景估计图像和背景估计图像,计算真实前景、真实背景与前景估计图像、背景估计图像之间的峰值信噪比,若峰值信噪比超过设定阈值,判断该帧图像中发生异常,否则为正常图像。
优选的,步骤(1)具体包括以下步骤:
(1a)构建图像特征分支;
(1b)构建光流特征分支;
(1c)构建前景分离分支;
(1d)构建背景生成分支;
(1e)光流特征输出与图像特征输出进行拼接得到融合特征输出。
优选的,步骤(2)具体包括以下步骤:
(2a)设置判别器网络结构;
(2b)设置判别器网络每层的参数。
优选的,步骤(6)具体包括以下步骤:
(6a)将原始帧和光流分别输入到前景背景分离网络的图像特征分支和光流特征分支,然后由前景分离分支和背景生成分支分别得到前景估计图像和背景估计图像。
(6b)根据视频帧对应的前景背景真实图像和前景背景估计图像间的误差构建前景背景分离网络损失函数,计算前景背景分离网络损失值;利用梯度下降法将前景背景分离网络的损失值反向传播,计算前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有梯度;根据前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有梯度,使用优化器对前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有权重进行迭代更新。
优选的,步骤(6b)中的前景背景分离网络损失函数如下:
其中,LG表示前景背景分离网络损失函数,*表示相乘操作,表示生成器前景分支输出的前景图像与真实前景图像之间的强度误差损失,/>表示生成器背景分支输出的背景图像与真实背景图像之间的强度损失误差,Lgrad表示生成器前景分支输出的前景图像与真实前景图像之间的梯度误差损失,Ladv表示生成器前景分支的对抗损失;
所述的Lgrad、LD分别由下列公式得到:
其中,||·||2表示2范数操作,If表示与I'f对应的真实前景图像,Ib表示与I'b对应的真实背景图像,K,L表示每帧图像的大小,K,L的取值与W,H的取值相等,m、n分别表示图像中像素的位置坐标,∑表示求和操作,||·||1表示1范数操作,D(·)表示判别器网络的输出。
优选的,步骤(7)具体包括以下步骤:
(7a)将前景分离分支得到的前景估计图像与其真实前景图像输入到判别器网络中,判别器网络输出对应的真伪概率;
(7b)根据判别器网络输出的真伪概率构建的判别器损失函数,计算判别器网络的损失值;利用梯度下降法将判别器网络的损失值反向传播,计算判别器网络每个卷积层的每个卷积核的所有梯度和归一化层的所有梯度;根据判别器网络每个卷积层的每个卷积核的所有梯度和归一化层的所有梯度,使用优化器对判别器网络每个卷积层的每个卷积核的所有权重和归一化层的所有权重进行迭代更新。
优选的,步骤(7b)中所述的判别器损失函数形式如下:
优选的,步骤(10)具体包括以下步骤:
利用在训练数据中计算得到的真实视频背景,计算视频中每一帧对应的真实前景图像,计算每一帧完整图像对应的光流,然后把完整图像与光流输入前景背景分离网络中得到分离的前景估计图像和背景估计图像,计算真实前景背景图像与前景背景估计图像的峰值信噪比得到异常分数S,若该异常分数S超过设定阈值,则判断该帧图像中发生异常,否则,判断该帧图像中未发生异常。
优选的,步骤(10)中所述的计算异常分数S是由下述公式实现的:
S(t)=Sf(t)+0.3*Sb(t)
其中,PSNR(If,I'f)表示真实前景图像与模型生成的前景图像之间的峰值信噪比,PSNR(Ib,I'b)表示真实背景图像与模型生成的背景图像之间的峰值信噪比,If表示真实前景图像,I'f表示从模型生成的前景图像,Ib表示真实背景图像,I'b表示模型生成的图像,log10表示以10为底的对数操作,*表示相乘操作,max表示取最大值操作,min表示取最小值操作,C表示对应图像中像素点的总数,i表示对应真实图像或模型生成的图像中所有像素点的序号,Sf(t)表示第t时刻前景分支提供的异常分数,Sb(t)表示第t时刻背景分支提供的异常分数,S(t)表示预测的第t时刻视频帧的最终异常分数。
本发明的有益效果在于:
第一,本发明构建了一个前景背景分离网络,从视频帧中分离前景像素并基于前景周围的上下文信息生成背景像素,充分学习了正常事件的边缘轮廓与纹理特征,有效的获取了正常事件的模式,克服了现有技术忽略了正常事件大多数情况下都发生在前景,直接重建或者预测未来帧导致无法有效学习正常事件模式的问题,使得本发明的模型具有更强的区分正常事件和异常事件模式的能力,同时兼顾了背景提供的上下文信息,从而提升了检测视频中异常事件的效果。
第二,由于本发明利用了包含在光流中的前景的边缘轮廓信息辅助前景背景分离,光流信息为模型从完整的视频帧图像中分离前景像素提供了较好的先验知识,使得本发明的前景背景分离器分离正常事件的能力更好,拥有更强的区分正常事件与异常事件的能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于前景背景分离的视频异常检测方法的流程图;
图2是前景背景分离网络(生成器网络)各部分的结构示意图;
图3是判别器网络的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的其他实施例,都属于本发明保护的范围。
本发明的思路是,构建一个前景背景分离网络并使其具备分离视频帧中的正常事件的前景与背景但是无法较好的分离异常事件的能力,该模型由特征提取网络和前景背景输出网络组成。特征提取网络又包括图像特征分支和光流特征分支,前景背景输出网络又包括前景分离分支和背景生成分支。前景分离分支负责从视频帧中分离前景图像,背景生成分支负责利用前景周围的上下文信息生成对应区域的背景图像,这种细粒度的像素分离与生成使模型充分学习正常事件前景的边缘轮廓与纹理,确保其获得一个有效的正常事件的模式,同时兼顾了背景提供的上下文信息。另外,通过利用包含在光流中的前景的边缘轮廓信息辅助前景背景分离,使得模型对正常事件的前景有更好的分离效果,提升了对异常事件和正常事件的区分能力,进而提升了视频异常检测精度。
如图1-图3所示,本发明提出了一种基于前景背景分离的视频异常检测方法,具体包括以下步骤:
(1)构建一个前景背景分离网络,设其为生成器;图2为本发明中的前景背景分离网络(生成器)各部分的结构示意图;其中,图2(a)为生成器网络中的图像特征分支的结构示意图,图2(b)为生成器网络中的光流特征分支的结构示意图,图2(c)为生成器网络中的前景分离分支的结构示意图,图2(d)为生成器网络中的背景生成分支的结构示意图,图2(e)为生成器网络中下采样层组合的示意图,图2(f)为生成器网络中上采样层组合的示意图,图2(g)为生成器网络中图像特征与光流特征进行拼接的示意图;
(1a)构建图像特征分支;
构建一个8层的图像特征分支,其结构依次为:图像输入层→第一卷积层→第一归一化层→第一激活函数层→第二卷积层→第二归一化层→第二激活函数层→第一下采样层组合→第二下采样层组合→第三下采样层组合→图像特征输出层;所述每个下采样层组合的结构依次为:第一最大池化层→第一卷积层→第一归一化层→第一激活函数层→第二卷积层→第二归一化层→第二激活函数层。
(1b)构建光流特征分支;
构建一个8层的光流特征分支,其结构依次为:光流输入层→第一卷积层→第一归一化层→第一激活函数层→第二卷积层→第二归一化层→第二激活函数层→第一下采样层组合→第二下采样层组合→第三下采样层组合→光流特征输出层;所述每个下采样层组合的结构依次为:第一最大池化层→第一卷积层→第一归一化层→第一激活函数层→第二卷积层→第二归一化层→第二激活函数层。
(1c)构建前景分离分支;
构建一个10层的前景分离分支,其结构以此为:融合特征输入层→第一上采样层组合→第二上采样层组合→第三上采样层组合→第三卷积层→前景输出层;所述每个上采样层组合的结构依次为:第一反卷积层→第一卷积层→第一归一化层→第一激活函数层→第二卷积层→第二归一化层→第二激活函数层;
(1d)构建背景生成分支;
构建一个10层的背景生成分支,其结构以此为:融合特征输入层→第一上采样层组合→第二上采样层组合→第三上采样层组合→第三卷积层→背景输出层;所述每个上采样层组合的结构依次为:第一反卷积层→第一卷积层→第一归一化层→第一激活函数层→第二卷积层→第二归一化层→第二激活函数层;
(1e)光流特征输出与图像特征输出进行拼接得到融合特征输出。
图像特征分支中的第一、二、三下采样层组合输出的特征图分别与背景生成分支中的第一、二、三上采样层组合输出的特征图进行拼接融合;光流特征分支中的第一、二、三下采样层组合输出的特征图分别与前景分离分支中的第一、二、三上采样层组合输出的特征图进行拼接融合;设置生成器网络中每层的参数为:将第一、二、三卷积层中的卷积核大小均设置为3×3,卷积步长均设置为1,卷积核的个数均为64;第一、二激活函数层均采用ReLU函数实现。
所述每个下采样层组合中的最大池化层的池化卷积核大小均设置为2×2,池化步长均设置2;卷积层的卷积核大小均设置为3×3,卷积步长均设置为1,卷积核的个数分别为128,256,512;激活函数层均采用ReLU函数实现;
所述每个上采样层组合中的反卷积层的卷积核大小均设置为2×2,卷积步长均设置为2;卷积层的卷积核大小均设置为3×3,卷积步长均设置为1,卷积核的个数分别为512,256,128;激活函数层均采用ReLU函数实现。
(2)搭建一个判别器网络;
(2a)设置判别器网络结构;
判别器网络结构依次为:输入层→第一卷积层→第一激活函数层→第二卷积层→第一归一化层→第二激活函数层→第三卷积层→第二归一化层→第三激活函数层→第四卷积层→第四激活函数层→第五卷积层→第五激活函数层→输出层;
(2b)设置判别器网络每层的参数。
设置判别器网络中每层的参数为:将第一、二、三、四、五卷积层的卷积核大小均设置为3×3,卷积步长均设置为2,卷积核的个数依次设置为64、128、256、512、1;第一、二归一化层均采用BatchNorm2d函数实现;第一、二、三、四激活函数层均采用LeakyReLU函数实现,其斜率均设置为0.1;第五激活函数层采用Sigmoid函数实现。
(3)将前景背景分离网络与判别器网络级联组成生成对抗网络;
(4)初始化生成对抗网络;
将生成对抗网络中所有的卷积层和归一化层的权重初始化为满足正态分布的随机值;其中,所述正态分布的均值为0,标准差为0.02;
(5)生成训练数据集;
选取不包含任何异常事件的连续监控视频,将其进行奇异值分解,保留最主要的成分得到视频的背景,每一帧减去背景得到前景,并且计算光流,大小为W×H的多组视频帧对应的原始帧、光流、真实前景、真实背景组成训练数据集;其中,W、H分别表示每帧图像的宽和高,64≤W≤256,64≤H≤256,W和H的单位为像素。
步骤5中所述的视频背景提取方法是由下述方法实现的:
对于一个视角不变的监控拍摄的视频,从主成分分析的角度来看,背景是主要的成分,而前景可以看作一些随机噪声。把任意训练数据中的视频进行奇异值分解,保留最主要的成分即可得到该视频对应的背景,然后任意视频帧减去背景图像则得到前景图像。
(6)对前景背景分离网络进行训练;
将原始帧和光流分别输入到前景背景分离网络的图像特征分支和光流特征分支,然后由前景分离分支和背景生成分支分别得到前景估计图像和背景估计图像;
根据视频帧对应的真实前景、真实背景与前景估计图像、背景估计图像之间的误差构建前景背景分离网络损失函数,计算前景背景分离网络损失值,基于反向传播算法和优化器对前景背景分离器网络进行训练;
具体的,(6a)将原始帧和光流分别输入到前景背景分离网络的图像特征分支和光流特征分支,然后由前景分离分支和背景生成分支分别得到前景估计图像和背景估计图像。
(6b)根据视频帧对应的前景背景真实图像和前景背景估计图像间的误差构建前景背景分离网络损失函数,计算前景背景分离网络损失值;利用梯度下降法将前景背景分离网络的损失值反向传播,计算前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有梯度;根据前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有梯度,使用Adam优化器对前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有权重进行迭代更新。所述Adam优化器的初始学习率为0.0002。
前景背景分离网络损失函数如下:
其中,LG表示前景背景分离网络损失函数,*表示相乘操作,表示生成器前景分支输出的前景图像与真实前景图像之间的强度误差损失,/>表示生成器背景分支输出的背景图像与真实背景图像之间的强度损失误差,Lgrad表示生成器前景分支输出的前景图像与真实前景图像之间的梯度误差损失,Ladv表示生成器前景分支的对抗损失;
所述的Lgrad、LD分别由下列公式得到:
其中,||·||2表示2范数操作,If表示与I'f对应的真实前景图像,Ib表示与I'b对应的真实背景图像,K,L表示每帧图像的大小,K,L的取值与W,H的取值相等,m、n分别表示图像中像素的位置坐标,∑表示求和操作,||·||1表示1范数操作,D(·)表示判别器网络的输出。
(7)对判别器网络进行训练;
将前景分离分支得到的前景估计图像与其真实前景图像输入到判别器网络中,判别器网络输出对应的真伪概率;
根据判别器网络输出的真伪概率构建的判别器损失函数,计算判别器网络的损失值;基于反向传播算法和优化器对判别器网络进行训练;
具体的,(7a)将前景分离分支得到的前景估计图像与其真实前景图像输入到判别器网络中,判别器网络输出对应的真伪概率;
(7b)根据判别器网络输出的真伪概率构建的判别器损失函数,计算判别器网络的损失值;利用梯度下降法将判别器网络的损失值反向传播,计算判别器网络每个卷积层的每个卷积核的所有梯度和归一化层的所有梯度;根据判别器网络每个卷积层的每个卷积核的所有梯度和归一化层的所有梯度,使用Adam优化器对判别器网络每个卷积层的每个卷积核的所有权重和归一化层的所有权重进行迭代更新。所述Adam优化器的初始学习率为0.00002;
所述的判别器损失函数形式如下:
(8)判断前景背景分离网络损失函数是否收敛,若是,则执行步骤(9),否则,执行步骤(6);
(9)完成前景背景分离器的训练,得到并保存前景背景分离器的相关参数;
(10)对视频进行检测;
将视频中的原始帧与光流输入前景背景分离器,得到前景估计图像和背景估计图像,计算真实前景、真实背景与前景估计图像、背景估计图像之间的峰值信噪比,若峰值信噪比超过设定阈值,判断该帧图像中发生异常,否则为正常图像。
具体的,步骤(10)具体包括以下步骤:
利用在训练数据中计算得到的真实视频背景,计算视频中每一帧对应的真实前景图像,计算每一帧完整图像对应的光流,然后把完整图像与光流输入前景背景分离网络中得到分离的前景估计图像和背景估计图像,计算真实前景背景图像与前景背景估计图像的峰值信噪比得到异常分数S,若该异常分数S超过设定阈值,则判断该帧图像中发生异常,否则,判断该帧图像中未发生异常。异常分数S的取值范围为0≤S≤1。
计算异常分数S是由下述公式实现的:
S(t)=Sf(t)+0.3*Sb(t)
其中,PSNR(If,I'f)表示真实前景图像与模型生成的前景图像之间的峰值信噪比,PSNR(Ib,I'b)表示真实背景图像与模型生成的背景图像之间的峰值信噪比,If表示真实前景图像,I'f表示从模型生成的前景图像,Ib表示真实背景图像,I'b表示模型生成的图像,log10表示以10为底的对数操作,*表示相乘操作,max表示取最大值操作,min表示取最小值操作,C表示对应图像中像素点的总数,i表示对应真实图像或模型生成的图像中所有像素点的序号,Sf(t)表示第t时刻前景分支提供的异常分数,Sb(t)表示第t时刻背景分支提供的异常分数,S(t)表示预测的第t时刻视频帧的最终异常分数。
下面结合仿真实验对本发明的效果做进一步的说明:
1.仿真实验条件:
本发明的仿真实验的硬件平台为:处理器为Intel(R)Core i7-10700k CPU,主频为3.8GHz,内存为32GB、显卡为NVIDIAGeForceRTX3090。
本发明的仿真实验的软件平台为:Ubuntu 18.04操作系统,python3.6,PyTorch1.7.0。
2.仿真内容及仿真结果分析:
本发明仿真实验中生成训练集和测试集时,使用了公开的标准数据集CUHKAvenue(Avenue)。该视频数据集时长为20分钟,共有37个视频片段,包含47个异常事件。本发明仿真实验中使用Avenue数据集中的16个正常视频片段组成训练集,21个异常视频片段组成测试集。
本发明仿真实验是采用本发明和三个现有技术(基于未来帧预测的异常检测方法FFP、基于深度预测编码网络的视频异常检测方法AnoPCN、基于记忆引导自编码器的视频异常检测方法MNAD)分别对由组成测试集中的21个视频片段中的异常事件进行检测。
在仿真实验中,采用的三个现有技术是指:
现有技术基于将来帧预测的异常检测方法是指,W.Liu等人在“FutureFramePrediction for Anomaly Detection-A New Baseline,in Proceedings ofthe IEEE Conference on Computer VisionandPatternRecognition,Jun.2018,pp.6536–6545.”中提出的视频异常检测方法,简称基于将来帧预测的异常检测方法。
现有技术基于深度预测编码网络的视频异常检测方法是指,M.Ye等人在“AnoPCN:Video anomaly detection via deep predictive coding network,”in Proceedingsofthe 27thACM InternationalConferenceonMultimedia,2019,pp.1805–1813.”中提出的视频异常检测方法,简称基于深度预测编码网络的视频异常检测方法。
现有技术基于记忆引导自编码器的视频异常检测方法是指,H.Park等人在“Learning memory-guided normality for anomaly detection,”Proceedings of theIEEE Conference on ComputerVision,2020,pp.14360-14369.”中提出的视频异常检测方法,简称基于记忆引导自编码器的视频异常检测方法。
为了对本发明仿真结果的效果进行评估,本发明采用AUC作为性能评价指标与现有的三种技术进行对比,对比结果如表1所示。
从表1中可以看出本发明方法在Avenue数据集上AUC为90.3%,高于3种现有技术方法,证明本方法可以更有效地检测视频中的异常事件。
基于大多数异常事件发生在前景的特点,前景背景分离网络从视频帧中分离前景图像,并基于前景周围区域的上下文信息生成对应的背景图像,这种细粒度的像素分离和生成保证模型充分学习前景中正常事件的边缘轮廓和纹理信息,获得很好的正常事件的模式,提高了区分正常事件与异常事件的能力,同时兼顾了背景提供的上下文信息,是一种非常实用的视频异常事件检测方法。·
表1本发明和三个现有技术AUC值的对比表
以上仿真实验表明:本发明方法构建的前景背景分离网络,从视频帧中分离前景像素,并基于前景周围的上下文信息生成对应的背景像素,同时利用光流中前景的边缘轮廓信息辅助前景背景分离,充分学习正常事件的边缘轮廓与纹理特征,保证模型获得有效的正常事件的模式,解决了现有技术没有区分视频的前景与背景导致无法获得更好的正常事件的模式的问题,从而提高了视频异常事件检测的精度。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,本领域技术人员完全可以在不偏离本发明技术思想的范围内,进行多样的变更以及修改。本发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求书范围来确定其技术性范围。
Claims (9)
1.一种基于前景背景分离的视频异常检测方法,其特征在于,具体包括以下步骤:
(1)构建一个前景背景分离网络;
(2)搭建一个判别器网络;
(3)将前景背景分离网络与判别器网络级联组成生成对抗网络;
(4)初始化生成对抗网络;
(5)生成训练数据集;
选择正常的连续监控视频,将其进行奇异值分解,得到视频的背景,每一帧减去背景得到前景,计算光流,将原始帧、光流、真实前景、真实背景组成训练数据集;
(6)对前景背景分离网络进行训练;
将原始帧和光流分别输入到前景背景分离网络的图像特征分支和光流特征分支,然后由前景分离分支和背景生成分支分别得到前景估计图像和背景估计图像;
根据视频帧对应的真实前景、真实背景与前景估计图像、背景估计图像之间的误差构建前景背景分离网络损失函数,计算前景背景分离网络损失值,基于反向传播算法和优化器对前景背景分离器网络进行训练;
(7)对判别器网络进行训练;
将前景分离分支得到的前景估计图像与其真实前景图像输入到判别器网络中,判别器网络输出对应的真伪概率;
根据判别器网络输出的真伪概率构建的判别器损失函数,计算判别器网络的损失值;基于反向传播算法和优化器对判别器网络进行训练;
(8)判断前景背景分离网络损失函数是否收敛,若是,则执行步骤(9),否则,执行步骤(6);
(9)完成前景背景分离器的训练,得到并保存前景背景分离器的相关参数;
(10)对视频进行检测;
将视频中的原始帧与光流输入前景背景分离器,得到前景估计图像和背景估计图像,计算真实前景、真实背景与前景估计图像、背景估计图像之间的峰值信噪比,若峰值信噪比超过设定阈值,判断该帧图像中发生异常,否则为正常图像。
2.根据权利要求1所述的基于前景背景分离的视频异常检测方法,其特征在于,步骤(1)具体包括以下步骤:
(1a)构建图像特征分支;
(1b)构建光流特征分支;
(1c)构建前景分离分支;
(1d)构建背景生成分支;
(1e)光流特征输出与图像特征输出进行拼接得到融合特征输出。
3.根据权利要求1所述的基于前景背景分离的视频异常检测方法,其特征在于,步骤(2)具体包括以下步骤:
(2a)设置判别器网络结构;
(2b)设置判别器网络每层的参数。
4.根据权利要求1所述的基于前景背景分离的视频异常检测方法,其特征在于,步骤(6)具体包括以下步骤:
(6a)将原始帧和光流分别输入到前景背景分离网络的图像特征分支和光流特征分支,然后由前景分离分支和背景生成分支分别得到前景估计图像和背景估计图像;
(6b)根据视频帧对应的前景背景真实图像和前景背景估计图像间的误差构建前景背景分离网络损失函数,计算前景背景分离网络损失值;利用梯度下降法将前景背景分离网络的损失值反向传播,计算前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有梯度;根据前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有梯度,使用优化器对前景背景分离网络每个卷积层和反卷积层中的每个卷积核的所有权重进行迭代更新。
5.根据权利要求4所述的基于前景背景分离的视频异常检测方法,其特征在于,步骤(6b)中的前景背景分离网络损失函数如下:
其中,LG表示前景背景分离网络损失函数,*表示相乘操作,表示生成器前景分支输出的前景图像与真实前景图像之间的强度误差损失,/>表示生成器背景分支输出的背景图像与真实背景图像之间的强度损失误差,Lgrad表示生成器前景分支输出的前景图像与真实前景图像之间的梯度误差损失,Ladv表示生成器前景分支的对抗损失;
所述的Lgrad、LD分别由下列公式得到:
其中,||·||2表示2范数操作,If表示与I'f对应的真实前景图像,Ib表示与I′b对应的真实背景图像,K,L表示每帧图像的大小,K,L的取值与W,H的取值相等,m、n分别表示图像中像素的位置坐标,∑表示求和操作,||·||1表示1范数操作,D(·)表示判别器网络的输出。
6.根据权利要求1所述的基于前景背景分离的视频异常检测方法,其特征在于,步骤(7)具体包括以下步骤:
(7a)将前景分离分支得到的前景估计图像与其真实前景图像输入到判别器网络中,判别器网络输出对应的真伪概率;
(7b)根据判别器网络输出的真伪概率构建的判别器损失函数,计算判别器网络的损失值;利用梯度下降法将判别器网络的损失值反向传播,计算判别器网络每个卷积层的每个卷积核的所有梯度和归一化层的所有梯度;根据判别器网络每个卷积层的每个卷积核的所有梯度和归一化层的所有梯度,使用优化器对判别器网络每个卷积层的每个卷积核的所有权重和归一化层的所有权重进行迭代更新。
7.根据权利要求6所述的基于前景背景分离的视频异常检测方法,其特征在于,步骤(7b)中所述的判别器损失函数形式如下:
8.根据权利要求1所述的基于前景背景分离的视频异常检测方法,其特征在于,步骤(10)具体包括以下步骤:
利用在训练数据中计算得到的真实视频背景,计算视频中每一帧对应的真实前景图像,计算每一帧完整图像对应的光流,然后把完整图像与光流输入前景背景分离网络中得到分离的前景估计图像和背景估计图像,计算真实前景背景图像与前景背景估计图像的峰值信噪比得到异常分数S,若该异常分数S超过设定阈值,则判断该帧图像中发生异常,否则,判断该帧图像中未发生异常。
9.根据权利要求8所述的基于前景背景分离的视频异常检测方法,其特征在于,步骤(10)中所述的计算异常分数S是由下述公式实现的:
S(t)=Sf(t)+0.3*Sb(t)
其中,PSNR(If,I'f)表示真实前景图像与模型生成的前景图像之间的峰值信噪比,PSNR(Ib,I′b)表示真实背景图像与模型生成的背景图像之间的峰值信噪比,If表示真实前景图像,I'f表示从模型生成的前景图像,Ib表示真实背景图像,I′b表示模型生成的图像,log10表示以10为底的对数操作,*表示相乘操作,max表示取最大值操作,min表示取最小值操作,C表示对应图像中像素点的总数,i表示对应真实图像或模型生成的图像中所有像素点的序号,Sf(t)表示第t时刻前景分支提供的异常分数,Sb(t)表示第t时刻背景分支提供的异常分数,S(t)表示预测的第t时刻视频帧的最终异常分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111139846.XA CN113947612B (zh) | 2021-09-28 | 2021-09-28 | 基于前景背景分离的视频异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111139846.XA CN113947612B (zh) | 2021-09-28 | 2021-09-28 | 基于前景背景分离的视频异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113947612A CN113947612A (zh) | 2022-01-18 |
CN113947612B true CN113947612B (zh) | 2024-03-29 |
Family
ID=79329266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111139846.XA Active CN113947612B (zh) | 2021-09-28 | 2021-09-28 | 基于前景背景分离的视频异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947612B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805015A (zh) * | 2018-04-26 | 2018-11-13 | 常州大学 | 加权卷积自编码长短期记忆网络人群异常检测方法 |
WO2019237567A1 (zh) * | 2018-06-14 | 2019-12-19 | 江南大学 | 基于卷积神经网络的跌倒检测方法 |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN111489372A (zh) * | 2020-03-11 | 2020-08-04 | 天津大学 | 基于级联卷积神经网络的视频前背景分离方法 |
CN111881750A (zh) * | 2020-06-24 | 2020-11-03 | 北京工业大学 | 基于生成对抗网络的人群异常检测方法 |
CN112052763A (zh) * | 2020-08-27 | 2020-12-08 | 西安电子科技大学 | 基于双向回顾生成对抗网络的视频异常事件检测方法 |
-
2021
- 2021-09-28 CN CN202111139846.XA patent/CN113947612B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805015A (zh) * | 2018-04-26 | 2018-11-13 | 常州大学 | 加权卷积自编码长短期记忆网络人群异常检测方法 |
WO2019237567A1 (zh) * | 2018-06-14 | 2019-12-19 | 江南大学 | 基于卷积神经网络的跌倒检测方法 |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN111489372A (zh) * | 2020-03-11 | 2020-08-04 | 天津大学 | 基于级联卷积神经网络的视频前背景分离方法 |
CN111881750A (zh) * | 2020-06-24 | 2020-11-03 | 北京工业大学 | 基于生成对抗网络的人群异常检测方法 |
CN112052763A (zh) * | 2020-08-27 | 2020-12-08 | 西安电子科技大学 | 基于双向回顾生成对抗网络的视频异常事件检测方法 |
Non-Patent Citations (1)
Title |
---|
基于时空感知级联神经网络的视频前背景分离;杨敬钰;师雯;李坤;宋晓林;岳焕景;;天津大学学报(自然科学与工程技术版);20200427(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113947612A (zh) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019213369B2 (en) | Non-local memory network for semi-supervised video object segmentation | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN108805015B (zh) | 加权卷积自编码长短期记忆网络人群异常检测方法 | |
CN112052763B (zh) | 基于双向回顾生成对抗网络的视频异常事件检测方法 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN112699786B (zh) | 一种基于空间增强模块的视频行为识别方法及系统 | |
CN114359526B (zh) | 基于语义gan的跨域图像风格迁移方法 | |
CN109711283A (zh) | 一种联合双字典和误差矩阵的遮挡表情识别算法 | |
CN111738054B (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
CN109801232A (zh) | 一种基于深度学习的单幅图像去雾方法 | |
CN112836602B (zh) | 基于时空特征融合的行为识别方法、装置、设备及介质 | |
CN115018727A (zh) | 一种多尺度图像修复方法、存储介质及终端 | |
CN114429208A (zh) | 基于残差结构剪枝的模型压缩方法、装置、设备及介质 | |
CN117557775A (zh) | 基于红外和可见光融合的变电站电力设备检测方法及系统 | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
CN116485741A (zh) | 一种无参考图像质量评价方法、系统、电子设备及存储介质 | |
CN113947612B (zh) | 基于前景背景分离的视频异常检测方法 | |
CN116485743A (zh) | 一种无参考图像质量评价方法、系统、电子设备及存储介质 | |
CN113256528B (zh) | 基于多尺度级联深度残差网络的低照度视频增强方法 | |
CN115376178A (zh) | 基于域风格滤除的未知域行人重识别方法及系统 | |
CN112581396A (zh) | 一种基于生成对抗网络的反射消除方法 | |
CN114332955B (zh) | 一种行人重识别的方法、装置及计算机可读存储介质 | |
CN117011196B (zh) | 一种基于组合滤波优化的红外小目标检测方法及系统 | |
Chen et al. | An image denoising method of picking robot vision based on feature pyramid network | |
Peterlevitz et al. | Sim-to-Real Transfer for Object Detection in Aerial Inspections of Transmission Towers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |