CN112633180A - 一种基于对偶记忆模块的视频异常检测方法及系统 - Google Patents

一种基于对偶记忆模块的视频异常检测方法及系统 Download PDF

Info

Publication number
CN112633180A
CN112633180A CN202011561521.6A CN202011561521A CN112633180A CN 112633180 A CN112633180 A CN 112633180A CN 202011561521 A CN202011561521 A CN 202011561521A CN 112633180 A CN112633180 A CN 112633180A
Authority
CN
China
Prior art keywords
normal
feature
abnormal
vector
memory module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011561521.6A
Other languages
English (en)
Other versions
CN112633180B (zh
Inventor
郭鑫
蔡登�
金仲明
陈冲
聂贺磊
黄建强
何晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011561521.6A priority Critical patent/CN112633180B/zh
Publication of CN112633180A publication Critical patent/CN112633180A/zh
Application granted granted Critical
Publication of CN112633180B publication Critical patent/CN112633180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于对偶记忆模块的视频异常检测方法及系统,其中,方法的步骤如下:(1)使用连续帧作为输入,利用卷积神经网络提取特征,获得问询向量;(2)使用正常/异常询向量和记忆向量作为输入,利用对偶记忆模块“读操作”,生成新的正常/异常特征;(3)利用判别器生成判别特征,利用生成器生成未来帧;(4)利用未来帧的预测损失和对偶记忆模块的稀疏程度计算异常得分。利用本发明,可以有效的解决视频异常检测中正负样本量极其不均衡的问题,并且能够生成具有判别性的特征空间。

Description

一种基于对偶记忆模块的视频异常检测方法及系统
技术领域
本发明涉及视频和图像处理领域,尤其是涉及一种基于对偶记忆模块的视频异常检测方法及系统。
背景技术
视频异常检测的目标是识别给定视频中存在异常事件的帧。它被广泛用在监控视频上,进行公共异常检测、交通拥堵发现以及实时事故监测。然而,视频异常检测任务非常具有挑战性。首先,正常事件是有边界的而异常则是无边界的,任何不符合正常行为模式的案例都会被视为异常。其次,正常和异常数据量极为不平衡,正常事件每时每刻都在发生,而异常事件在现实生活中很少发生。最后,不同情形下的异常定义千差万别,例如,在购物商场中奔跑被视为异常事件,而在马拉松比赛中奔跑又是正常事件。
传统的视频异常检测模型大多是针对该任务的特点专门设计人工特征。在2001年国际会议International Conference on Image Processing上,《One-class svm forlearning in image retrieval》一文提出了一种单类别支持向量机模型,并被广泛应用到视频异常检测当中。他们假设正常数据类型的特征靠近球心分布在超球面以内,而异常数据类型的特征远离球心分布在超球面以外。除此之外,更多的方法集中在利用视频的时序特征和单帧的空间特征进行特征提取。例如,在2005年国际会议IEEE Conference onComputer Vision and Pattern Recognition上,《Histograms of oriented gradientsfor human detection》提出的HOG方法和2006年顶级会议European Conference onComputer Vision上《Human detection using oriented histograms of flow andappearance》提出的HOF方法分别利用梯度直方图和流直方图作为不同粒度下的低维时空特征。但这些基于人工提取的特征的传统方法在遇到高维数据的时候往往只能获得次优的表现。
目前最常见的视频异常检测模型几乎都是基于“无异常假设”。无异常假设是指在模型训练过程中只使用正常样本而不使用任何异常样本。当前最流行的无异常假设视频异常检测算法分为两种,一种是基于单帧重构,另一种是基于未来帧预测。
基于单帧重构的方法假设异常不能被只用正常数据训练得到的模型很好的重构出来。在2016年国际会议IEEE Conference on Computer Vision and PatternRecognition上,《Learning temporal regularity in video sequences》一文尝试了使用人工提取局部时空特征的同时,利用全卷积自动编码器学习局部时空特征,进而构建了基于单帧重构的框架用以检测异常。在2019年国际会议IEEE International Conference onComputer Vision上《Memorizing normality to detect anomaly:Memory-augmenteddeep autoencoder for unsupervised anomaly detection》在重构模型中引进了单记忆模块来进行视频异常检测。该模型利用单记忆模块记忆典型的正常模式,由于模型加强了对于正常事件的记忆,因此在测试过程中异常数据的重构误差会被增大。这种方法本质上强化了重构误差作为异常检测的判别函数。
基于未来帧预测的方法用连续多帧来预测下一帧,并且假设异常事件的预测误差会比较大。在2015年国际会议ACM International Conference on Multimedia上,《Spatio-temporal autoencoder for video anomaly detection》一文中提出了使用三维卷积进行特征提取,并同时使用了重构分支和预测分支进行未来帧的生成。在2018年国际会议IEEE Conference on Computer Vision and Pattern Recognition上,《Futureframe prediction for anomaly detection-a new baseline》一文中融合了多种技术进行未来帧预测,包括梯度损失、光流、对抗学习等。这些辅助技术极大的增强了模型对正常样本的记忆能力。虽然这样做能够获得很好的效果,但同时也增加了模型的参数和训练难度。在2020年国际会议IEEE Conference on Computer Vision and Pattern Recognition上,《Learning memory-guided normality for anomaly detection》一文考虑了正常样本的多样性,并将其显式的进行建模并减轻了卷积神经网络的表达能力。他们也提出了一种新的单记忆模块用以记忆典型的正常类型。和之前方法中的记忆模块不用的是,该模型基于预测,并且他们的记忆模块和神经网络分开进行迭代和更新。该方法中最后的得分函数综合考虑了记忆模块的稀疏性和未来帧的预测误差两个角度,因此能够获得更好的效果。
然而由于模型具有一定的泛化能力,异常事件在实际中也可能被仅用正常数据训练的模型重构出来,这使得模型对正常和异常的决策边界变得不明确。在2019年国际会议International Joint Conferences on Artificial Intelligence上,《Margin learningembedded prediction for video anomaly detection with a few anomalies》一文中提出在使用大量正常样本的同时联合使用少量的异常样本进行模型训练。他们使用三元组损失函数对正负样本进行采样,从而减缓了数据不均衡的问题。然而他们的工作并没有特别设计任何结构来捕捉少量样本的特性,并且该模型并不能处理未知的异常类型。
发明内容
本发明提供了一种基于对偶记忆模块的视频异常检测方法及系统,利用了正常和异常对偶分支,对正常模式和异常模式进行分别记忆,解决了正负样本不均衡的问题;同时,模型利用两个判别器进行特征空间训练以获得具有判别性的特征空间;最终得以从样本空间的稀疏性和重构损失两个角度检测视频异常。
一种基于对偶记忆模块的视频异常检测方法,包括以下步骤:
(1)将连续帧作为卷积神经网络输入,提取低维特征空间特征作为对偶记忆模块的问询特征;
(2)利用问询特征和对偶记忆模块中的记忆向量,分别计算得到正常和异常特征空间的新特征;
(3)把正常和异常特征空间的新特征分别输入到两个判别器中,利用判别函数训练得到判别特征空间;
(4)将正常和异常特征空间的新特征串联作为生成器的输入,进而生成未来帧;
(5)利用判别函数和重构函数进行模型参数训练,利用记忆模块更新规则更新对偶空间中的正常和异常记忆向量;
(6)联合对偶记忆模块中的稀疏响应和未来帧的预测误差,计算异常得分并判断是否异常。
本发明提出的方法可以理解为从两个角度解决异常检测问题。其一,利用对偶记忆模块分别增强对正常类型和常见异常类型的记忆,这种记忆使得模型对正常和异常样本在对偶记忆模块中有明显不同的稀疏响应。其二,利用记忆模块的更新规则和两个特征判别器,在正常和异常空间中得到明显且合理的判别正常和异常判别特征,该特征进一步增加了模型对于正常和异常样本的区分能力,并扩大了对应的未来帧预测误差。
在提出的模型中,正常样本和异常样本都可以同时经过正常或异常分支。为了区分分支与样本的正常/异常性,本文用印刷体上标N和A表示分支的正常和异常,而用手写体上标
Figure BDA0002860571750000041
Figure BDA0002860571750000042
表示数据的正常和异常。
步骤(1)中,卷积神经网络使用4个卷积模块对连续多帧
It-T,...,It-2,It-1进行特征提取,其中最后一个卷积模块包含两个分支,分别进行正常问询特征QN和异常问询特征QA的提取,公式表述为:
[QN,QA]=CNN(It-T,...,It-2,It-1)
得到的问询特征QN和QA是C×H×W维的张量,模型进一步按照空间维度分别将两个张量拆解为K(=H×W)个C维单位问询向量。
步骤(2)的具体过程为:
(2-1)计算每个正常单位问询向量
Figure BDA0002860571750000051
和正常单位记忆向量
Figure BDA0002860571750000052
的距离矩阵WN
(2-2)将距离矩阵WN沿水平方向计算softmax,得到每个正常单位问询向量
Figure BDA0002860571750000053
对应于正常单位记忆向量
Figure BDA0002860571750000054
的权重
Figure BDA0002860571750000055
Figure BDA0002860571750000056
(2-3)利用权重
Figure BDA0002860571750000057
和正常单位记忆向量
Figure BDA0002860571750000058
计算得到新正常特征,并和原来问询向量
Figure BDA0002860571750000059
串联得到新正常特征向量
Figure BDA00028605717500000510
Figure BDA00028605717500000511
(2-4)将K个新正常特征向量
Figure BDA00028605717500000512
拼接为正常特征张量
Figure BDA00028605717500000513
作为正常特征空间的新特征;
(2-5)用上述步骤(2-1)~(2-4)同样的方法,将K个新异常常特征向量
Figure BDA00028605717500000514
拼接,从而获得异常特征张量
Figure BDA00028605717500000515
作为异常特征空间的新特征。
步骤(3)中,模型将新获得的正常特征张量
Figure BDA00028605717500000516
和异常特征张量
Figure BDA00028605717500000517
分别输入到两个判别器中,训练并增加特征的判别性;模型使用单层3×3卷积和全局平均池化作为判别器网络,并使用三元组损失函数进行特征训练:
Figure BDA00028605717500000518
其中,
Figure BDA0002860571750000061
分别是利用判别器得到的正常特征锚点、正常特征正采样和异常特征负采样,β是边缘距离参数。
步骤(4)中,模型将正常特征张量
Figure BDA0002860571750000062
和异常特征张量
Figure BDA0002860571750000063
串连作为生成器的输入
Figure BDA0002860571750000064
利用生成器预测出未来帧
Figure BDA0002860571750000065
并和它的地标It进行比较并计算重构损失:
Figure BDA0002860571750000066
Figure BDA0002860571750000067
其中,生成器训练时实用正常样本。
步骤(5)中,用以模型参数训练的总损失函数为:
Figure BDA0002860571750000068
Figure BDA0002860571750000069
Figure BDA00028605717500000610
其中,
Figure BDA00028605717500000611
LN(t)、LA(t)分别是重构损失函数、正常分支损失函数和异常分支损失函数。在正常分支损失函数中,
Figure BDA00028605717500000612
分别表示正常特征紧致损失函数、正常特征分离损失函数和正常三元组损失函数,λN、μN、vN分别为其权重系数。在异常分支损失函数中,
Figure BDA00028605717500000613
分别表示异常特征紧致损失函数、异常特征分离损失函数和异常三元组损失函数,λA、μA、vA分别为其权重系数。Ltri的具体表示在步骤(3)中已有具体介绍,此外Lcom和Lsep具体表达式为:
Figure BDA00028605717500000614
Figure BDA00028605717500000615
其中qk表示问询向量,pp表示最近邻记忆向量,pn表示第二近邻记忆向量,α为边缘常数。
对偶记忆模块的更新分为三步:
(5-1)对于正常记忆空间中的任一正常记忆向量
Figure BDA0002860571750000071
模型首先收集所有来自正常分支并且用正常数据生成的问询向量
Figure BDA0002860571750000072
并记它们的集合为
Figure BDA0002860571750000073
(注意这里用手写体表明问询向量是由正常样本产生的);对于所有由正常分支产生的正常问询向量
Figure BDA0002860571750000074
和正常记忆向量
Figure BDA0002860571750000075
模型计算他们间的距离矩阵VN
(5-2)将距离矩阵VN沿垂直方向计算softmax,得到每个正常单位问询向量
Figure BDA0002860571750000076
对应于正常单位记忆向量
Figure BDA0002860571750000077
的权重
Figure BDA0002860571750000078
Figure BDA0002860571750000079
(5-3)按照如下公式更新正常单位记忆向量
Figure BDA00028605717500000710
Figure BDA00028605717500000711
其中,f(·)表示L2标准化;
(5-4)使用步骤(5-1)~(5-3)相同的方法,在异常分支中,利用异常数据产生的问询向量
Figure BDA00028605717500000712
来更新异常记忆向量
Figure BDA00028605717500000713
Figure BDA00028605717500000714
步骤(6)的具体过程为:
(6-1)用重构误差用来刻画预测出的未来帧
Figure BDA00028605717500000715
和它的地标I之间的偏差;本方法使用噪声率的峰值信号来刻画:
Figure BDA00028605717500000716
(6-2)用每个正常问询向量
Figure BDA00028605717500000717
它最近邻的正常记忆向量pp刻画记忆空间的稀疏程度:
Figure BDA00028605717500000718
最终的异常得分
Figure BDA0002860571750000081
由这两部分加权得到:
Figure BDA0002860571750000082
其中,g(·)是对整个视频的标准化,γ是加权系数。
本发明还提供了一种基于对偶记忆模块的视频异常检测系统,包括计算机系统,所述的计算机系统包括以下模块:
特征提取器模块,利用卷积神经网络进行正常和异常问询特征提取;
对偶记忆模块,利用“读”规则,从问询向量和记忆向量得到新的特征向量;利用“更新”规则,更新记忆向量;
判别器模块,两个判别器用于训练模型获得具有判别力的特征空间;
生成器模块,预测并生成下一帧;
计算异常得分模块,根据预测帧的重构损失和对偶记忆模块的稀疏程度计算异常得分,进而判断样本的正常与否。
与现有技术相比,本发明具有以下有益效果:
1、本发明提出的对偶记忆模块能够有效的处理样本不均衡的问题。基于对偶记忆模块,正常记忆空间和异常记忆空间被分开更新,因此,异常样本不会被模型视作噪声,从而避免了被大量的正常样本吞没掉。本发明方法是第一个通过设计一个特殊的模块从而解决视频异常检测中的数据不均衡的问题的模型。
2、本发明利用两个判别器和记忆更新规则,使模型在对偶特征空间中学到了更具有判别性的特征。在记忆所有常见异常模式的同时,本发明方法也同时利用异常数据迫使模型学得更合理的特征空间。
3、本发明相比于其他基准线算法具有更好的模型性能。进一步的分析表明,提出的模型对未知异常类型也能起到很好的作用。
附图说明
图1为本发明方法的整体框架图;
图2为本发明方法关于对偶记忆模块中“读”的过程示意图;
图3为本发明方法关于对偶记忆模块中正常分支“更新”的过程示意图;
图4为本发明方法关于对偶记忆模块中异常分支“更新”的过程示意图;
图5为本发明方法三元组损失函数的示意图;
图6为本发明系统的整体流程示意图;
图7为本发明方法在不同异常数据比例下的效果对比图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,本发明框架主要分为五部分:(a)卷积神经网络特征提取器,本发明方法在主干网络尾部增加了两个网络分支用以正常和异常问询特征张量生成。(b)问询特征生成,由上游特征提取器提取的正常/异常问询张量和向量组成,也是模型的特征空间向量。(c)模型记忆模块“读”与“更新”,由正常记忆向量和异常记忆向量组成,用来记忆各自空间中最具代表性的模式。(d)新特征生成,利用问询模块和记忆模块作为输入,采“读”规则,得到正常分支和异常分支的特征向量。(e)判别器和生成器训练,判别器用以训练模型特征并使其具有判别性,生成器用以未来帧预测。
具体步骤分别阐述如下:
(a)卷积神经网络特征提取器,将前序相邻帧作为输入,提取低维度的问询特征QN和QA
(b)按照空间维度将得到的C×H×W维问询特征张量QN和QA张量,拆解为K(=H×W)个C维单位正常/异常问询向量
Figure BDA0002860571750000091
Figure BDA0002860571750000092
(c)如图2所示,问询向量qk和每个记忆向量pm计算权重wkm,利用权重和记忆向量的加权,经过“读”操作得到新的特征
Figure BDA0002860571750000101
(d)将上游生成的新特征与原问询张量进行拼接的到新特征张量
Figure BDA0002860571750000102
Figure BDA0002860571750000103
(e)利用判别器将特征张量
Figure BDA0002860571750000104
Figure BDA0002860571750000105
分别进行判别行训练,利用生成器生成未来帧
Figure BDA0002860571750000106
如图3所示,在正常记忆空间中,本发明方法仅仅采用正常数据产生的问询
Figure BDA0002860571750000107
和正常记忆向量
Figure BDA0002860571750000108
进行“更新”操作。模型首先找到把
Figure BDA0002860571750000109
视为最近邻的问询集合
Figure BDA00028605717500001010
然后计算该集合中每个向量对应
Figure BDA00028605717500001011
的权重vkm。利用权重和记忆向量的加权得到新的特征正常记忆向量
Figure BDA00028605717500001012
如图4所示,在异常记忆空间中,本方法仅仅采用异常数据产生的问询
Figure BDA00028605717500001013
和异常记忆向量
Figure BDA00028605717500001014
进行“更新”操作。模型首先找到把
Figure BDA00028605717500001015
视为最近邻的问询集合
Figure BDA00028605717500001016
然后计算该集合中每个向量对应
Figure BDA00028605717500001017
的权重vkm。利用权重和记忆向量的加权得到新的特征异常记忆向量
Figure BDA00028605717500001018
如图5所示,模型训练的时候,每次采样一个正常样本作为锚点帧,一个随机正常样本作为正样本帧,一个随机异常样本作为负样本帧。利用模型的正常和异常分支特征输出
Figure BDA00028605717500001019
Figure BDA00028605717500001020
分别计算正常分支的三元组损失
Figure BDA00028605717500001021
和异常分支的三元组损失
Figure BDA00028605717500001022
图6是本发明设计的视频异常检测系统流程示意图。系统流程与图1的算法流程相似,总共分为五大模块,分别是特征提取器模块,对偶记忆模块,判别器模块,生成器模块,计算异常得分模块。
本发明提出的方法在四个公开数据集上与目前最前沿的视频异常检测算法进行比较。UCSD Ped1数据集由34段训练和36段测试视频组成,具有40个异常事件,一场包括滑滑板、骑自行车等;UCSD Ped2数据集由16段训练和12段测试视频组成,具有12个异常事件,一场包括骑自行车、车辆行驶等;CUHK Avenue数据集由16段训练和21段测试视频组成,具有47个异常事件,一场包括抛物体、奔跑等;ShanghaiTech数据集由330段训练和107段测试视频组成,它也是目前混合了多个场景并且最具挑战的数据集。
本发明使用曲线下区域(AUC)逐帧进行评价。AUC为受试者工作特征曲线(ROC)与坐标轴的面积,它由模型选取一系列不同的二分类分界值的结果计算得到。AUC能够全面的衡量模型的分类效果。整体比较效果如表1所示:
表1
AUC(%) Ped1 Ped2 Avenue ShanghaiTech
unmasking 68.4 82.2 80.6 -
AMC - 96.2 86.9 -
Conv-AE 75.0 85.0 80.0 60.9
TSC - 91.0 80.6 67.9
Stacked RNN - 92.2 81.7 68.0
MemAE - 94.1 88.3 71.2
Frame-Pred 83.1 95.4 84.9 72.8
Frame-Pred* 82.7 95.5 83.5 73.3
Mem-Guided - 97.0 88.5 70.5
Mem-Guided* 77.2 94.4 86.8 68.5
MLEP - - 92.8 76.8
本发明方法 88.2 98.5 93.6 77.5
从表1可以看出,本发明提出的方法在所有数据集上显著超过了目前所有其他算法,显示了本发明算法的优越性。
为了进一步说明本发明所提出的算法框架每一部分都是有效模块,本发明进行了全方面的拆解实验,实验结果如表2所示。本发明提出的模型为UNet+DualMem+Disc,当模型去掉对偶记忆模块变成单记忆模块(UNet+Mem+Disc)时,效果显著下降。模型去掉记忆模块(UNet+Disc)或者去掉判别器(UNet+Mem)之后,效果明显不如本发明提出的方法。
表2
AUC(%) Ped1 Ped2 Avenue ShanghaiTech
UNet+Mem 77.2 94.4 86.8 68.5
UNet+Disc 81.9 95.1 86.1 69.4
UNet+Mem+Disc 83.9 96.0 87.7 71.0
UNet+DualMem+Disc 87.2 97.8 91.2 71.5
本发明测试了提出的模型在不同训练集异常比例(异常样本量/全部训练样本量)下的效果。如图7所示,图中(a)表示在Ped1数据集上不同方法的模型测试效果,(b)表示在Ped1数据集上不同方法的模型测试效果。从图7中可以看出,本发明提出的模型(DGDM-UNet)在不同训练集异常比例下均超过其他基线方法,并且即使在异常数据仅占1%的极端情况下本仍具有较好的效果。该实验充分证明本发明提出方法的鲁棒性。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于对偶记忆模块的视频异常检测方法,其特征在于,包括以下步骤:
(1)将连续帧作为卷积神经网络输入,提取低维特征空间特征作为对偶记忆模块的问询特征;
(2)利用问询特征和对偶记忆模块中的记忆向量,分别计算得到正常和异常特征空间的新特征;
(3)把正常和异常特征空间的新特征分别输入到两个判别器中,利用判别函数训练得到判别特征空间;
(4)将正常和异常特征空间的新特征串联作为生成器的输入,进而生成未来帧;
(5)利用判别函数和重构函数进行模型参数训练,利用记忆模块更新规则更新对偶空间中的正常和异常记忆向量;
(6)联合对偶记忆模块中的稀疏响应和未来帧的预测误差,计算异常得分并判断是否异常。
2.根据权利要求1所述的基于对偶记忆模块的视频异常检测方法,其特征在于,步骤(1)中,卷积神经网络使用4个卷积模块对连续多帧It-T,...,It-2,It-1进行特征提取,其中最后一个卷积模块包含两个分支,分别进行正常问询特征QN和异常问询特征QA的提取,公式表述为:
[QN,QA]=CNN(It-T,...,It-2,It-1)
得到的问询特征QN和QA是C×H×W维的张量,模型进一步按照空间维度分别将两个张量拆解为K(=H×W)个C维单位问询向量。
3.根据权利要求1所述的基于对偶记忆模块的视频异常检测方法,其特征在于,步骤(2)的具体过程为:
(2-1)计算每个正常单位问询向量
Figure FDA0002860571740000021
和正常单位记忆向量
Figure FDA0002860571740000022
的距离矩阵WN
(2-2)将距离矩阵WN沿水平方向计算softmax,得到每个正常单位问询向量
Figure FDA0002860571740000023
对应于正常单位记忆向量
Figure FDA0002860571740000024
的权重
Figure FDA0002860571740000025
Figure FDA0002860571740000026
(2-3)利用权重
Figure FDA0002860571740000027
和正常单位记忆向量
Figure FDA0002860571740000028
计算得到新正常特征,并和原来问询向量
Figure FDA0002860571740000029
串联得到新正常特征向量
Figure FDA00028605717400000210
Figure FDA00028605717400000211
(2-4)将K个新正常特征向量
Figure FDA00028605717400000212
拼接为正常特征张量
Figure FDA00028605717400000213
作为正常特征空间的新特征;
(2-5)用上述步骤(2-1)~(2-4)同样的方法,将K个新异常常特征向量
Figure FDA00028605717400000214
拼接,从而获得异常特征张量
Figure FDA00028605717400000215
作为异常特征空间的新特征。
4.根据权利要求3所述的基于对偶记忆模块的视频异常检测方法,其特征在于,步骤(3)中,模型将新获得的正常特征张量
Figure FDA00028605717400000216
和异常特征张量
Figure FDA00028605717400000217
分别输入到两个判别器中,训练并增加特征的判别性;模型使用单层3×3卷积和全局平均池化作为判别器网络,并使用三元组损失函数进行特征训练:
Figure FDA00028605717400000218
其中,
Figure FDA00028605717400000219
分别是利用判别器得到的正常特征锚点、正常特征正采样和异常特征负采样,β是边缘距离参数。
5.根据权利要求4所述的基于对偶记忆模块的视频异常检测方法,其特征在于,步骤(4)中,模型将正常特征张量
Figure FDA00028605717400000220
和异常特征张量
Figure FDA00028605717400000221
串连作为生成器的输入
Figure FDA00028605717400000222
利用生成器预测出未来帧
Figure FDA00028605717400000223
并和它的地标It进行比较并计算重构损失:
Figure FDA0002860571740000031
Figure FDA0002860571740000032
其中,生成器训练时实用正常样本。
6.根据权利要求5所述的基于对偶记忆模块的视频异常检测方法,其特征在于,步骤(5)中,用以模型参数训练的总损失函数为:
Figure FDA0002860571740000033
Figure FDA0002860571740000034
Figure FDA0002860571740000035
其中,
Figure FDA0002860571740000036
LN(t)、LA(t)分别是重构损失函数、正常分支损失函数和异常分支损失函数;在正常分支损失函数中,
Figure FDA0002860571740000037
分别表示正常特征紧致损失函数、正常特征分离损失函数和正常三元组损失函数,λN、μN、vN分别为其权重系数;在异常分支损失函数中,
Figure FDA0002860571740000038
分别表示异常特征紧致损失函数、异常特征分离损失函数和异常三元组损失函数,λA、μA、vA分别为其权重系数;Lcom和Lsep具体表达式为:
Figure FDA0002860571740000039
Figure FDA00028605717400000310
其中qk表示问询向量,pp表示最近邻记忆向量,pn表示第二近邻记忆向量,α为边缘常数;
对偶记忆模块的更新分为三步:
(5-1)对于正常记忆空间中的任一正常记忆向量
Figure FDA00028605717400000311
模型首先收集所有来自正常分支并且用正常数据生成的问询向量
Figure FDA00028605717400000312
并记它们的集合为
Figure FDA00028605717400000313
对于所有由正常分支产生的正常问询向量
Figure FDA00028605717400000314
和正常记忆向量
Figure FDA00028605717400000315
模型计算他们间的距离矩阵VN
(5-2)将距离矩阵VN沿垂直方向计算softmax,得到每个正常单位问询向量
Figure FDA0002860571740000041
对应于正常单位记忆向量
Figure FDA0002860571740000042
的权重
Figure FDA0002860571740000043
Figure FDA0002860571740000044
(5-3)按照如下公式更新正常单位记忆向量
Figure FDA0002860571740000045
Figure FDA0002860571740000046
其中,f(·)表示L2标准化;
(5-4)使用步骤(5-1)~(5-3)相同的方法,在异常分支中,利用异常数据产生的问询向量
Figure FDA0002860571740000047
来更新异常记忆向量
Figure FDA0002860571740000048
Figure FDA0002860571740000049
7.根据权利要求1所述的基于对偶记忆模块的视频异常检测方法,其特征在于,步骤(6)的具体过程为:
(6-1)用重构误差用来刻画预测出的未来帧
Figure FDA00028605717400000410
和它的地标I之间的偏差;本方法使用噪声率的峰值信号来刻画:
Figure FDA00028605717400000411
(6-2)用每个正常问询向量
Figure FDA00028605717400000412
它最近邻的正常记忆向量pp刻画记忆空间的稀疏程度:
Figure FDA00028605717400000413
最终的异常得分
Figure FDA00028605717400000414
由这两部分加权得到:
Figure FDA00028605717400000415
其中,g(·)是对整个视频的最小最大标准化,γ是加权系数。
8.一种基于对偶记忆模块的视频异常检测系统,包括计算机系统,其特征在于,所述的计算机系统包括以下模块:
特征提取器模块,利用卷积神经网络进行正常和异常问询特征提取;
对偶记忆模块,利用“读”规则,从问询向量和记忆向量得到新的特征向量;利用“更新”规则,更新记忆向量;
判别器模块,两个判别器用于训练模型获得具有判别力的特征空间;
生成器模块,预测并生成下一帧;
计算异常得分模块,根据预测帧的重构损失和对偶记忆模块的稀疏程度计算异常得分,进而判断样本的正常与否。
CN202011561521.6A 2020-12-25 2020-12-25 一种基于对偶记忆模块的视频异常检测方法及系统 Active CN112633180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011561521.6A CN112633180B (zh) 2020-12-25 2020-12-25 一种基于对偶记忆模块的视频异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011561521.6A CN112633180B (zh) 2020-12-25 2020-12-25 一种基于对偶记忆模块的视频异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN112633180A true CN112633180A (zh) 2021-04-09
CN112633180B CN112633180B (zh) 2022-05-24

Family

ID=75324885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011561521.6A Active CN112633180B (zh) 2020-12-25 2020-12-25 一种基于对偶记忆模块的视频异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN112633180B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011399A (zh) * 2021-04-28 2021-06-22 南通大学 基于生成协同判别网络的视频异常事件检测方法及系统
CN113537250A (zh) * 2021-08-17 2021-10-22 天津大学 一种基于离散-连续特征耦合的图像异常检测方法
CN114937222A (zh) * 2022-04-14 2022-08-23 电子科技大学 一种基于双分支网络的视频异常检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077347A (zh) * 2012-12-21 2013-05-01 中国电力科学研究院 一种基于改进核心向量机数据融合的复合式入侵检测方法
CN109522828A (zh) * 2018-11-01 2019-03-26 上海科技大学 一种异常事件检测方法及系统、存储介质及终端
CN110717627A (zh) * 2019-09-29 2020-01-21 浙江大学 一种基于对偶图框架的全量交通预测方法
CN111881750A (zh) * 2020-06-24 2020-11-03 北京工业大学 基于生成对抗网络的人群异常检测方法
CN112052763A (zh) * 2020-08-27 2020-12-08 西安电子科技大学 基于双向回顾生成对抗网络的视频异常事件检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077347A (zh) * 2012-12-21 2013-05-01 中国电力科学研究院 一种基于改进核心向量机数据融合的复合式入侵检测方法
CN109522828A (zh) * 2018-11-01 2019-03-26 上海科技大学 一种异常事件检测方法及系统、存储介质及终端
CN110717627A (zh) * 2019-09-29 2020-01-21 浙江大学 一种基于对偶图框架的全量交通预测方法
CN111881750A (zh) * 2020-06-24 2020-11-03 北京工业大学 基于生成对抗网络的人群异常检测方法
CN112052763A (zh) * 2020-08-27 2020-12-08 西安电子科技大学 基于双向回顾生成对抗网络的视频异常事件检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HYUNJONG PARK 等: "Learning Memery-guided Normality for Anomaly Detection", 《ARXIV:2003.13228V1》 *
冯亚闯: "视频中的异常事件检测算法研究", 《中国博士学位论文全文数据库》 *
朱松豪等: "基于半监督生成式对抗网络的异常行为检测", 《南京邮电大学学报(自然科学版)》 *
赵鹏飞: "基于深度学习的异常行为检测技术及其应用", 《中国优秀硕士学位论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011399A (zh) * 2021-04-28 2021-06-22 南通大学 基于生成协同判别网络的视频异常事件检测方法及系统
CN113011399B (zh) * 2021-04-28 2023-10-03 南通大学 基于生成协同判别网络的视频异常事件检测方法及系统
CN113537250A (zh) * 2021-08-17 2021-10-22 天津大学 一种基于离散-连续特征耦合的图像异常检测方法
CN114937222A (zh) * 2022-04-14 2022-08-23 电子科技大学 一种基于双分支网络的视频异常检测方法及系统

Also Published As

Publication number Publication date
CN112633180B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN112633180B (zh) 一种基于对偶记忆模块的视频异常检测方法及系统
Rippel et al. Modeling the distribution of normal data in pre-trained deep features for anomaly detection
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN111814584A (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN107092884B (zh) 一种快速粗精级联行人检测方法
CN111506773A (zh) 一种基于无监督深度孪生网络的视频去重方法
Liao et al. Triplet-based deep similarity learning for person re-identification
CN113569756B (zh) 异常行为检测与定位方法、系统、终端设备及可读存储介质
CN113537110B (zh) 一种融合帧内帧间差异的虚假视频检测方法
CN111046728A (zh) 一种基于特征金字塔网络的秸秆燃烧检测方法
CN112489098A (zh) 一种基于空间通道注意力机制神经网络的图像匹配方法
CN112507778A (zh) 一种基于线特征的改进词袋模型的回环检测方法
Ramalingam Bendlet transform based object detection system using proximity learning approach
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN115588124B (zh) 一种基于软标签交叉熵追踪的细粒度分类去噪训练方法
CN112418358A (zh) 一种强化深度融合网络的车辆多属性分类方法
CN117152072A (zh) 一种基于两阶段特征金字塔网络的遥感图像变化检测方法
CN114565785A (zh) 一种基于三分支孪生网络的无监督视频异常检测方法
CN115393802A (zh) 一种基于小样本学习的铁路场景不常见入侵目标识别方法
CN111556018B (zh) 一种基于cnn的网络入侵检测方法及电子装置
CN110503061B (zh) 一种融合多特征的多因素视频遮挡区域检测方法及系统
CN113657310A (zh) 基于多层卷积神经网络的光伏组件红外热斑故障识别方法
CN113032612A (zh) 一种多目标图像检索模型的构建方法及检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant