CN114565785A - 一种基于三分支孪生网络的无监督视频异常检测方法 - Google Patents

一种基于三分支孪生网络的无监督视频异常检测方法 Download PDF

Info

Publication number
CN114565785A
CN114565785A CN202210066191.6A CN202210066191A CN114565785A CN 114565785 A CN114565785 A CN 114565785A CN 202210066191 A CN202210066191 A CN 202210066191A CN 114565785 A CN114565785 A CN 114565785A
Authority
CN
China
Prior art keywords
abnormal
frame
prediction
normal
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210066191.6A
Other languages
English (en)
Inventor
郭爱斌
郭立君
张�荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN202210066191.6A priority Critical patent/CN114565785A/zh
Publication of CN114565785A publication Critical patent/CN114565785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于三分支孪生网络的无监督视频异常检测方法,首先通过传统的无监督异常检测方法,获取少部分具有高可靠度的正常代表与异常代表,然后使用正常代表训练一个预测模型,在测试阶段,该训练好的模型克隆成3份以构成三分支孪生网络,分别由正常帧代表、异常帧代表、待测试数据作为三分支网络的输入,最后三个输出结合决策函数来计算异常得分。本方法是一种无需人为标注数据的无监督方法,这有效缓解了人力成本的压力;该方法不是训练一个二分类网络,而是结合了正常数据的不同模式特征,训练一个不同模式的正常记忆模块,可以有效地改善训练的性能;该方法采用的决策函数有效的解决了基于预测或重构模型在异常得分策略的缺陷。

Description

一种基于三分支孪生网络的无监督视频异常检测方法
技术领域
本发明涉及视频异常检测技术领域,尤其是涉及一种基于三分支孪生网络的无监督视频异常检测方法。
背景技术
视频中异常检测任务,是在视频序列中找出明显区别于正常模式的的异常事件。视频中异常检测在包括视频监控、互联网视频过滤以及工业过程安全监控等领域具有重要应用价值,例如帮助人们发现火灾、踩踏事故、违规视频发布以及生产过程事故等。异常检测同时也是一项非常具有挑战的任务,首先,异常是一种无法事先界定的事件,甚至同一种活动在不同场景中会被分别识别为正常事件和异常事件,比如在厨房手持刀被认为正常事件,但在地铁上手持刀被认为异常事件。但有一点是确定的,即正常事件是大多数事件,异常事件是少数事件。其次,由于现实中视频量巨大,而异常事件又非常少,导致异常数据标注十分困难且消耗人力。因此,无论从数据集标注、还是从异常检测实际应用场景来看,视频中异常检测都适合通过无监督的学习方法来完成。
随着深度学习方法在各领域的广泛应用,异常检测中目前也是通过深度学习方法获得的检测效果最优异。当前主流的基于深度学习的异常检测方法都是采用对当前帧重构或下一帧预测的深度模型。即通过标注为正常事件的视频集合训练模型学习正常事件的特征表示,再通过对测试阶段的视频帧进行重构或预测,并利用重构或预测误差来判别异常事件,判别依据是异常事件无法通过正常事件的特征表示很好地重构或预测,相对于正常事件,异常事件存在更大的重构或预测误差。此类方法存在一个不足是训练前仍需提供正常事件标注数据集,且需要筛选正常视频。此类模型中多数提取的是normal特征,而不是normal模式。鉴于深度模型中CNN提取的特征具有强大的描述能力,视频中的异常事件仍可以通过正常事件的特征进行重构,由此可能导致基于重构误差的判别方法失效。为此,基于记忆模块的方法(H.Park,J.Noh,and B.Ham,“Learning memory-guided normality foranomaly detection,”in Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition,2020,pp.14372–14381.)引入学习正常模式及其多样性的记忆模块机制,该记忆模块实现了对特征的读取和记忆单元更新的功能,通过记忆模块提高了正常模式及其多样性判别能力,使得该方法在所有预测模型中表现最出色。预测模型方法中一般采用预测帧与真实帧之间的PSNR值来作为异常的判别依据。但由于模型中只有正常数据的标注,没有异常数据,使得模型无法简单地根据PSNR值的大小确定异常。通常采用对全部预测帧的PSNR最大最小化来计算各帧的异常得分。这样的异常得分计算方法存在以下不足:1)无法实现端到端的异常得分计算,即必须对全部帧预测完成后才能计算各帧的异常得分,效率很低;2)这种只依据正常数据的异常得分计算方法有些情况下不可靠,尤其在没有异常帧的视频中。另外,该方法还需人为地从数据集中筛选正常数据,以此数据为基础训练深度学习模型,筛选数据的过程大大增加了人力成本,无法在户外场景下大量应用。
自训练方法(G.Pang,C.Yan,C.Shen,A.v.d.Hengel,and X.Bai,“Self-traineddeep ordinal regression for end-to-end video anomaly detection,”inProceedings of the IEEE/CVF Conference on ComputerVision and PatternRecognition,2020,pp.12173–12182.)利用少量正常/异常数据(伪标签数据)作为模型初始输入,通过迭代训练一个深度次序回归网络对待测视频帧进行分类。迭代学习过程中输入的正常数据与异常数据也只是网络学习的正负样本,在对正常与异常数据的利用方面,没有考虑异常检测中的正常与异常数据的特点,导致通过迭代自学习的优化方式对检测性能的提升在几次迭代后就会遇到瓶颈。
发明内容
本发明所要解决的技术问题是提供一种检测效率高、检测性能好、可靠性强,并且降低成本的一种基于三分支孪生网络的无监督视频异常检测方法。
本发明所采用的技术方案是,一种基于三分支孪生网络的无监督视频异常检测方法,该方法包括下列步骤:
S1、采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表;
S2、建立基于记忆模块的预测模型;
S3、对步骤S2中建立的预测模型进行训练,得到训练后的预测模型;
S4、对训练后的预测模型进行测试:将步骤S3中训练后的预测模型克隆成三份,构成一个三分支孪生网络,将正常帧代表、待测试帧、异常帧代表作为三分支孪生网络的输入,由三分支孪生网络输出三个预测损失结果,最后将三个预测损失结果通过决策函数计算得到异常得分。
本发明的有益效果是:上述一种基于三分支孪生网络的无监督视频异常检测方法,在该方法中,正常帧代表和异常帧代表都是通过无监督异常检测方法获取的,因此本方法是一种无需人为标注数据的方法,即无监督,这有效缓解了人力成本的压力,并且检测效率高;该方法不是训练一个二分类网络,而是结合了正常数据的不同模式特征,训练一个不同模式的正常记忆模块,这样就可以有效地改善模型训练的性能,提高异常检测的性能,且可靠性强;并且,该方法将三个预测损失结果通过决策函数有效的解决了基于预测或重构模型在异常得分策略的缺陷,同时有效解决了低异常率视频检测的问题,进一步提高异常检测的可靠性。
作为优选,在步骤S1中,采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表的具体过程包括下列步骤:
S11、首先使用预先训练好的ResNet-50将视频帧转为1000维的特征向量,再使用主成分分析方法对特征向量降维,并提取最重要的100个成分作为主要特征组成样本集x;
S12、采用孤立森林算法来计算样本集x的异常得分,具体计算方法的表达式为:
Figure BDA0003480193000000031
其中,h(x)表示样本集x从孤立树的根节点到达叶结点所途径的路径长度,等价于样本集x落入叶结点所需的划分次数;E(h(x))表示样本集x在整个孤立森林算法上的平均路径长度;c(n)=2H(n-1)-2(n-1)/n,其中n为训练单颗孤立树的样本数,H(i)为调和级数,且H(i)=In(i)+0.577(欧拉常数),c(n)用于对h(x)进行标准化;
S13、采用主成分重构算法来计算样本集x的异常得分,具体计算方法的表达式为:
Figure BDA0003480193000000032
其中,
Figure BDA0003480193000000033
是第i个样本的第k个特征值对应的特征向量;n表示主成分个数,xi表示第i个样本的n维的特征向量,ev(k)表示前k个主成分多大程度上解释了总体方差,与k值成正比;
S14、将步骤S12和步骤S13中得到的异常得分取平均,得到平均值,将平均值作为初始化异常检测的结果;我们将结果最接近0的20%数据作为正常帧代表,最接近1的1%数据作为异常帧代表。
作为优选,在步骤S2中,建立基于记忆模块的预测模型的具体过程包括下列步骤:
S21、将步骤S1中得到的正常帧代表中的每一帧及其前面的连续四帧作为一组训练样本,得到若干组训练样本,每一组训练样本中,使用连续四帧来预测第五帧,使用U-Net框架来提取特征表达和产生图像,设定t时刻的连续四帧数据为It~t+3,其对应的特征图为qt~t+3
Figure BDA0003480193000000034
(k=1,2...,K)是It~t+3中的一个块特征,大小为1x1xC,K=H×W;
S22、建立一个记忆预测模型;所述记忆预测模型包括M个记忆单元、读取操作和更新操作;对于读取操作,采用cosine相似度衡量
Figure BDA0003480193000000035
和pm的相似性,相似性矩阵S大小为M×K,其垂直方向的值代表M个记忆单元分别和
Figure BDA0003480193000000036
的相似性,在该方向上使用softmax函数,获得
Figure BDA0003480193000000037
在第m个记忆单元上的匹配概率
Figure BDA0003480193000000038
其表达式为:
Figure BDA0003480193000000039
S23、通过对M个记忆单元加权求和获取
Figure BDA0003480193000000041
的记忆信息
Figure BDA0003480193000000042
其表达式为:
Figure BDA0003480193000000043
S24、将读取到的
Figure BDA0003480193000000044
Figure BDA0003480193000000045
(k=1,2…,K)在通道方向上连接起来,合并成H×W×2C的特征图,送入解码器产生预测帧;
S25、使用
Figure BDA0003480193000000046
记录第m个记忆单元对应的查询单元索引的集合;相似性矩阵S沿着水平方向的值代表K个查询单元分别与pm的相似性,在这个方向上应用softmax函数,获得pm在第k个查询单元上的匹配概率
Figure BDA0003480193000000047
其表达式为:
Figure BDA0003480193000000048
S26、对得到的
Figure BDA0003480193000000049
进行归一化,得到
Figure BDA00034801930000000410
的表达式为:
Figure BDA00034801930000000411
得到的
Figure BDA00034801930000000412
保证了离pm最近的查询单元会用100%的权重更新pm;所述pm更新如下:
Figure BDA00034801930000000413
其中,f(·)是L2 norm;
S27、针对记忆模块,所述记忆模块包括M个记忆单元和读取操作,通过记忆模块产生两种损失函数:特征紧凑损失函数和特征分离损失函数;特征紧凑损失函数的表达式为:
Figure BDA00034801930000000414
特征分离损失函数的表达式为:
Figure BDA00034801930000000415
其中,α表示森林间距;
S28、通过解码器输出预测帧
Figure BDA00034801930000000416
Figure BDA00034801930000000417
和It+4的L2距离定义为预测损失函数Lprediction,其表达式为:
Figure BDA00034801930000000418
S29、结合预测损失函数、特征紧凑损失函数和特征分离损失函数,得到基于记忆模块的预测模型的损失函数L,其表达式为:L=LpredictionsLseparatecLcompact
在步骤S3中,对步骤S2中建立的预测模型进行训练,得到训练后的预测模型的具体过程为:采用基于记忆模块的预测模型的损失函数L作为目标损失函数,使用初始学习率为2e-4的优化器Adam最小化该损失函数,并且使用一种余弦退火方法来衰减学习率,最终得到训练后的预测模型。
在步骤S4中,将正常帧代表输入三分支孪生网络,三分支孪生网络对正常帧代表进行处理,得到正常帧代表的平均预测损失,其表达式为:
Figure BDA00034801930000000419
其中,r是正常帧代表中前1/4的数据,βr表示r的大小;将异常帧代表输入三分支孪生网络,三分支孪生网络对异常帧代表进行处理,得到异常帧代表的平均预测损失,其表达式为:Lavg_abnor
Figure BDA0003480193000000051
其中,Λ表示异常帧代表,βΛ表示Λ的大小;根据Lavg_nor、Lavg_abnor以及Lprediction,使用决策函数最终计算得到异常得分:
Figure BDA0003480193000000052
其中,γ和η分别表示平均预测损失Lavg_nor和Lavg_abnor所对应的异常得分。
附图说明
图1为本发明一种基于三分支孪生网络的无监督视频异常检测方法的示意图;
图2为本发明中建立基于记忆模块的预测模型的示意图;
图3为本发明中在Ped1、Ped2和Avenue场景上的异常检测的可视化效果图。
具体实施方式
以下参照附图并结合具体实施方式来进一步描述发明,以令本领域技术人员参照说明书文字能够据以实施,本发明保护范围并不受限于该具体实施方式。
本发明涉及一种基于三分支孪生网络的无监督视频异常检测方法,该方法包括下列步骤:
S1、采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表;
S2、建立基于记忆模块的预测模型;
S3、对步骤S2中建立的预测模型进行训练,得到训练后的预测模型;
S4、对训练后的预测模型进行测试:将步骤S3中训练后的预测模型克隆成三份,构成一个三分支孪生网络,将正常帧代表、待测试帧、异常帧代表作为三分支孪生网络的输入,由三分支孪生网络输出三个预测损失结果,最后将三个预测损失结果通过决策函数计算得到异常得分。
上述一种基于三分支孪生网络的无监督视频异常检测方法,在该方法中,正常帧代表和异常帧代表都是通过无监督异常检测方法获取的,因此本方法是一种无需人为标注数据的方法,即无监督,这有效缓解了人力成本的压力,并且检测效率高;该方法不是训练一个二分类网络,而是结合了正常数据的不同模式特征,训练一个不同模式的正常记忆模块,这样就可以有效地改善模型训练的性能,提高异常检测的性能,且可靠性强;并且,该方法将三个预测损失结果通过决策函数有效的解决了基于预测或重构模型在异常得分策略的缺陷,同时有效解决了低异常率视频检测的问题,进一步提高异常检测的可靠性。
在步骤S1中,采用两种基础算法:孤立森林算法和主成分重构算法来做初始化异常检测,它们都无需标注数据;采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表的具体过程包括下列步骤:
S11、首先使用预先训练好的ResNet-50将视频帧转为1000维的特征向量,再使用主成分分析方法对特征向量降维,并提取最重要的100个成分作为主要特征组成样本集x;
S12、采用孤立森林算法来计算样本集x的异常得分,具体计算方法的表达式为:
Figure BDA0003480193000000061
其中,h(x)表示样本集x从孤立树的根节点到达叶结点所途径的路径长度,等价于样本集x落入叶结点所需的划分次数;E(h(x))表示样本集x在整个孤立森林算法上的平均路径长度;c(n)=2H(n-1)-2(n-1)/n,其中n为训练单颗孤立树的样本数,H(i)为调和级数,且H(i)=In(i)+0.577(欧拉常数),c(n)用于对h(x)进行标准化;
S13、采用主成分重构算法来计算样本集x的异常得分,具体计算方法的表达式为:
Figure BDA0003480193000000062
其中,
Figure BDA0003480193000000063
是第i个样本的第k个特征值对应的特征向量;n表示主成分个数,xi表示第i个样本的n维的特征向量,ev(k)表示前k个主成分多大程度上解释了总体方差,与k值成正比;主成分重构算法依据的是靠前的主成分主要解释了大部分正常样本的方差,而靠后的主成分主要解释了异常样本的方差,靠前的主成分是指对应于更大特征值的特征向量,靠后的主成分是指对应于更小特征值的特征向量;该方法采用了样本在靠后主成分上的偏差应赋予更高权重的策略来拉开正常和异常样本的重构误差;
S14、结合两种无监督异常检测方法,将步骤S12和步骤S13中得到的异常得分取平均,得到平均值,将平均值作为初始化异常检测的结果;得分越接近0,是正常帧代表的可能性越高,越接近1,是异常帧代表的可能性越高;我们将结果最接近0的20%数据作为正常帧代表,最接近1的1%数据作为异常帧代表;
作为优选,在步骤S2中,建立基于记忆模块的预测模型的具体过程包括下列步骤:
S21、将步骤S1中得到的正常帧代表中的每一帧及其前面的连续四帧作为一组训练样本,得到若干组训练样本,每一组训练样本中,使用连续四帧来预测第五帧,使用U-Net框架来提取特征表达和产生图像,设定t时刻的连续四帧数据为It~t+3,其对应的特征图为qt~t+3
Figure BDA0003480193000000064
(k=1,2...,K)是It~t+3中的一个块特征,大小为1x1xC,K=H×W;
S22、建立一个记忆预测模型;所述记忆预测模型包括M个记忆单元、读取操作和更新操作;对于读取操作,采用cosine相似度衡量
Figure BDA0003480193000000066
和pm的相似性,相似性矩阵S大小为M×K,其垂直方向的值代表M个记忆单元分别和
Figure BDA0003480193000000067
的相似性,在该方向上使用softmax函数,获得
Figure BDA0003480193000000068
在第m个记忆单元上的匹配概率
Figure BDA0003480193000000069
其表达式为:
Figure BDA00034801930000000610
S23、通过对M个记忆单元加权求和获取
Figure BDA0003480193000000071
的记忆信息
Figure BDA0003480193000000072
其表达式为:
Figure BDA0003480193000000073
S24、将读取到的
Figure BDA0003480193000000074
Figure BDA0003480193000000075
(k=1,2…,K)在通道方向上连接起来,合并成H×W×2C的特征图,送入解码器产生预测帧,这使得解码器会参考记忆信息去生成新的图像;
S25、对于每个记忆单元,我们从所有查询单元中选择与记忆单元最近的查询单元进行更新,一个记忆单元可能会对应多个查询单元;使用
Figure BDA0003480193000000076
记录第m个记忆单元对应的查询单元索引的集合;相似性矩阵S沿着水平方向的值代表K个查询单元分别与pm的相似性,在这个方向上应用softmax函数,获得pm在第k个查询单元上的匹配概率
Figure BDA0003480193000000077
其表达式为:
Figure BDA0003480193000000078
S26、考虑到只使用
Figure BDA0003480193000000079
中的查询单元对pm更新,对得到的
Figure BDA00034801930000000710
进行归一化,得到
Figure BDA00034801930000000711
Figure BDA00034801930000000712
的表达式为:
Figure BDA00034801930000000713
得到的
Figure BDA00034801930000000714
保证了离pm最近的查询单元会用100%的权重更新pm;所述pm更新如下:
Figure BDA00034801930000000715
其中,f(·)是L2 norm;
S27、针对记忆模块,所述记忆模块包括M个记忆单元和读取操作,通过记忆模块产生两种损失函数:特征紧凑损失函数和特征分离损失函数;这两种损失会将正常帧代表映射到一个多维空间上,正常帧代表会向M个记忆单元聚集,这很好地将正常数据分离开来,但又不会越过正常模式的范围;特征紧凑损失函数的表达式为:
Figure BDA00034801930000000716
特征分离损失函数的表达式为:
Figure BDA00034801930000000717
其中,α表示森林间距;
S28、通过解码器输出预测帧
Figure BDA00034801930000000718
Figure BDA00034801930000000719
和It+4的L2距离定义为预测损失函数Lprediction,其表达式为:
Figure BDA00034801930000000720
S29、结合预测损失函数Lprediction、特征紧凑损失函数Lcompact和特征分离损失函数Lseparate,得到基于记忆模块的预测模型的损失函数L,其表达式为:L=LpredictionsLseparatecLcompact.
在步骤S3中,对步骤S2中建立的预测模型进行训练,得到训练后的预测模型的具体过程为:采用基于记忆模块的预测模型的损失函数L作为目标损失函数,使用初始学习率为2e-4的优化器Adam最小化该损失函数,并且使用一种余弦退火方法来衰减学习率,最终得到训练后的预测模型。
在步骤S4中,为了充分发挥网络中异常帧代表的识别能力,提出了一种基于预测损失的异常评分方法;预测框架的预测损失越大,异常发生的可能性也越大;相反,预测损失越低,异常发生的可能性越低;预测损失与异常分数之间存在线性映射关系;其中,预测损失最小的视频帧对应的异常分数为0,预测损失最高的视频帧对应异常分数为1;在无监督异常检测中,我们无法确定损失最小的正常帧和损失最大的异常帧,但是,可以使用正常帧代表来获得正常帧代表的平均预测损失和平均异常分数,使用异常帧代表来获得异常帧代表的平均预测损失和平均异常分数。
步骤S4中,将正常帧代表输入三分支孪生网络,三分支孪生网络对正常帧代表进行处理,得到正常帧代表的平均预测损失,其表达式为:
Figure BDA0003480193000000081
其中,r是正常帧代表中前1/4的数据,βr表示r的大小;将异常帧代表输入三分支孪生网络,三分支孪生网络对异常帧代表进行处理,得到异常帧代表的平均预测损失,其表达式为:
Figure BDA0003480193000000082
Figure BDA0003480193000000083
其中,Λ表示异常帧代表,βΛ表示Λ的大小;根据Lavg_nor、Lavg_abnor以及Lprediction,使用决策函数最终计算得到异常得分:
Figure BDA0003480193000000084
其中,γ和η分别表示平均预测损失Lavg_nor和Lavg_abnor所对应的异常得分。
考虑到正常帧中可能包含少量的异常帧,基于正常帧的Lavg_nor高于所有真实正常帧的平均预测损失,因此Lavg_nor对应的平均异常得分γ大于0(默认为0.2);相反,基于异常帧的Lavg_abnor小于所有真实异常帧的平均预测损失,因此Lavg_abnor所对应的平均异常得分比1(默认为0.8)要低。当异常得分小于0或大于1时,分别将其设置为0或1。在特殊情况下,如测试视频中的异常率非常低,甚至全部是正常帧,通过初始异常检测得到的异常帧代表中会包含大量的正常帧。因此,Lavg_abnor将接近于Lavg_nor,Lavg_abnor将失去其参考值。在本发明中,需要引用Lavg_nor来确定Lavg_abnor的真实值。在实验中,当Lavg_abnor小于ε乘以Lavg_nor时,重新定义Lavg_abnor=ε*Lavg_nor,其中ε默认为4。
具体实施过程中,为了验证本发明中记忆预测模型的有效性,使用UCSD-ped1、UCSD-ped2、CUHK-Avenue和Entrance进行评估,采用ROC曲线下面积(AUC)作为评价指标。另外,本发明图3给出异常检测可视化效果图。
采用文献[1]、文献[2]、文献[3]、文献[4]、文献[5]、文献[6]、文献[6]、文献[8]、文献[9]以及文献[10]公开的方法来与本发明方法进行对比,其中文献[1]的索引为:W.Liu,W.Luo,D.Lian,and S.Gao,“Future frame prediction for anomaly detection–anew baseline,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018,pp.6536–6545;文献[2]的索引为:M.Hasan,J.Choi,J.Neumann,A.K.Roy-Chowdhury,and L.S.Davis,“Learning temporal regularity invideo sequences,”in Proceedings of the IEEE conference on computer vision andpattern recognition,2016,pp.733–742;文献[3]的索引为:T.-N.Nguyen andJ.Meunier,“Anomaly detection in video sequence with appearance-motioncorrespondence,”in Proceedings of the IEEE International Conference onComputer Vision,2019,pp.1273–1283;文献[4]的索引为:Q.Sun,H.Liu,and T.Harada,“Online growing neural gas for anomaly detection in changing surveillancescenes,”Pattern Recognition,vol.64,pp.187–201,2017;文献[5]的索引为:R.T.Ionescu,F.S.Khan,M.-I.Georgescu,and L.Shao,“Object-centric auto-encodersand dummy anomalies for abnormal event detection in video,”in Proceedingsofthe IEEE Conference on Computer Vision and Pattern Recognition,2019,pp.7842–7851;文献[6]的索引为:H.Park,J.Noh,and B.Ham,“Learning memory-guidednormality for anomaly detection,”in Proceedings ofthe IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.14372–14381;文献[7]的索引为:Tudor Ionescu,S.Smeureanu,B.Alexe,and M.Popescu,“Unmasking the abnormalevents in video,”in Proceedings of the IEEE International Conference onComputer Vision,2017,pp.2895–2903;文献[8]的索引为:G.Pang,C.Yan,C.Shen,A.v.d.Hengel,and X.Bai,“Self-trained deep ordinal regression for end-to-endvideo anomaly detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.12173–12182;文献[9]的索引为:F.T.Liu,K.M.Ting,and Z.-H.Zhou,“Isolation-based anomaly detection,”ACMTransactions on Knowledge Discovery from Data(TKDD),vol.6,no.1,pp.1–39,2012;文献[10]的索引为:K.Veeramachaneni,I.Arnaldo,V.Korrapati,C.Bassias,and K.Li,“Ai^2:training abig data machine to defend,”in 2016 IEEE 2nd InternationalConference on Big Data Security on Cloud(BigDataSecurity),IEEE InternationalConference on High Performance and Smart Computing(HPSC),and IEEEInternational Conference on Intelligent Data and Security(IDS).IEEE,2016,pp.49–54;
从表1中可以明显看出,本发明的方法在所有无数据标注要求的方法中表现最好,在Avenue数据集上甚至超过部分有数据标注要求的方法。具体来说,在Ped1、ped2和Avenue三个数据集上,本发明比提供初始化异常检测的方法分别提高了15%、4%和23.6%。这说明,无论基于传统无监督方法在相应数据集上的初始检测效果如何,本发明都能够较大幅度提升初始的异常检测效果。与文献[8]的方法相比,本发明在ped1和ped2上分别实现了5.4%、4.9%的提高。这说明,同样基于传统无监督方法的初始检测结果,本发明通过一次性的训练学习,就超过了的多次迭代学习效果。此外,在更全面的数据集Avenue上,本发明也超过最好的无数据标注方法2.9%。
表1上半栏中的方法都是有数据标记要求的方法,在Avenue测试集上,本发明的方法得到的AUC值相对于文献[2]和文献[1]分别提高了16.6%和1.7%,与最好的有数据标记要求的文献[5]的方法相比也只低3.6%,这也从另一个角度证明了本发明的有效性和竞争力。表1给出了本发明与6种要求标注数据和4种无要求标注数据的方法在测试数据集上进行比较的结果:
Figure BDA0003480193000000101
表1
消融实验:在基于深度学习的重构或预测模型的异常检测方法中,异常得分策略很重要。本发明研究了文献[5]的异常得分策略,这种异常得分策略是结合预测误差的PSNR值和每个特征与最近的记忆单元的平均L2距离,使用了一个加权系数计算,然后最大最小化来评估异常得分,本发明将这种得分策略命名为PD-MaxMin方式,此类通过最大最小化来评估异常得分的方式是基于重构或预测模型的异常检测方法中常见的得分策略。将PD-MaxMin的得分策略与本文通过决策函数的得分策略进行了比较。为了全面体现两种得分策略优劣,在本发明中使用两种异常得分策略分别在Ped1、Ped2和Avenue的整个数据集以及测试集上进行了评估。评估结果如表2所示,可以看出,针对Ped1和Ped2两个数据集,PD-MaxMin在测试集上取得最好的检测结果,但在整个数据集上检测性能大幅下降。这与测试集中含有较多的异常事件有关。本发明的决策函数在测试集和整个数据集的检测效果保持稳定,在Ped1、Ped2和Avenue的整个数据集上,我们的决策函数分别比PD-MaxMin提高了14.5%、27.3%和5.6%。在Avenue测试集上,本发明的决策函数比PD-MaxMin提高了2.1%。表2给出了两种得分策略的评估结果:
Figure BDA0003480193000000111
表2
图3展现了在Ped1、Ped2和Avenue场景上(从左至右)的异常检测的可视化效果,从上到下分别是输入帧,预测损失和异常区域。为了可视化异常事件,本发明通过像素级的预测损失来定位异常区域。通过设置一个异常帧预测损失的阈值ζ=θ*L_(avg_nor),默认θ为200,该值为经验值。然后,在预测帧内标记预测损失大于ζ的区域。可以看到,预测损失大的区域(高亮点显示)集中在异常区域更多,这些区域都有相应场景中典型的异常事件,如Avenue视频中的丢包等行为以及UCSD两个子集视频中机动车与自行车的出没。

Claims (5)

1.一种基于三分支孪生网络的无监督视频异常检测方法,其特征在于:该方法包括下列步骤:
S1、采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表;
S2、建立基于记忆模块的预测模型;
S3、对步骤S2中建立的预测模型进行训练,得到训练后的预测模型;
S4、对训练后的预测模型进行测试:将步骤S3中训练后的预测模型克隆成三份,构成一个三分支孪生网络,将正常帧代表、待测试帧、异常帧代表作为三分支孪生网络的输入,由三分支孪生网络输出三个预测损失结果,最后将三个预测损失结果通过决策函数计算得到异常得分。
2.根据权利要求1所述的一种基于三分支孪生网络的无监督视频异常检测方法,其特征在于:在步骤S1中,采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表的具体过程包括下列步骤:
S11、首先使用预先训练好的ResNet-50将视频帧转为1000维的特征向量,再使用主成分分析方法对特征向量降维,并提取最重要的100个成分作为主要特征组成样本集x;
S12、采用孤立森林算法来计算样本集x的异常得分,具体计算方法的表达式为:
Figure FDA0003480192990000011
其中,h(x)表示样本集x从ITree的根节点到达叶结点所途径的路径长度,等价于样本集x落入叶结点所需的划分次数;E(h(x))表示样本集x在整个孤立森林算法上的平均路径长度;c(n)=2H(n-1)-2(n-1)/n,其中n为训练单颗iTree的样本数,H(i)为调和级数,且H(i)=In(i)+0.577,c(n)用于对h(x)进行标准化;
S13、采用主成分重构算法来计算样本集x的异常得分,具体计算方法的表达式为:
Figure FDA0003480192990000012
其中,
Figure FDA0003480192990000013
是第i个样本的第k个特征值对应的特征向量;n表示主成分个数,xi表示第i个样本的n维的特征向量,ev(k)表示前k个主成分多大程度上解释了总体方差,与k值成正比;
S14、将步骤S12和步骤S13中得到的异常得分取平均,得到平均值,将平均值作为初始化异常检测的结果;我们将结果最接近0的20%数据作为正常帧代表,最接近1的1%数据作为异常帧代表。
3.根据权利要求2所述的一种基于三分支孪生网络的无监督视频异常检测方法,其特征在于:在步骤S2中,建立基于记忆模块的预测模型的具体过程包括下列步骤:
S21、将步骤S1中得到的正常帧代表中的每一帧及其前面的连续四帧作为一组训练样本,得到若干组训练样本,每一组训练样本中,使用连续四帧来预测第五帧,使用U-Net框架来提取特征表达和产生图像,设定t时刻的连续四帧数据为It~t+3,其对应的特征图为qt~t+3
Figure FDA0003480192990000021
是It~t+3中的一个块特征,大小为1x1xC,K=H×W;
S22、建立一个记忆预测模型;所述记忆预测模型包括M个记忆单元、读取操作和更新操作;对于读取操作,采用cosine相似度衡量
Figure FDA0003480192990000022
和pm的相似性,相似性矩阵S大小为M×K,其垂直方向的值代表M个记忆单元分别和
Figure FDA0003480192990000023
的相似性,在该方向上使用softmax函数,获得
Figure FDA0003480192990000024
在第m个记忆单元上的匹配概率
Figure FDA0003480192990000025
其表达式为:
Figure FDA0003480192990000026
S23、通过对M个记忆单元加权求和获取
Figure FDA0003480192990000027
的记忆信息
Figure FDA0003480192990000028
其表达式为:
Figure FDA0003480192990000029
S24、将读取到的
Figure FDA00034801929900000210
Figure FDA00034801929900000211
在通道方向上连接起来,合并成H×W×2C的特征图,送入解码器产生预测帧;
S25、使用
Figure FDA00034801929900000212
记录第m个记忆单元对应的查询单元索引的集合;相似性矩阵S沿着水平方向的值代表K个查询单元分别与pm的相似性,在这个方向上应用softmax函数,获得pm在第k个查询单元上的匹配概率
Figure FDA00034801929900000213
其表达式为:
Figure FDA00034801929900000214
S26、对得到的
Figure FDA00034801929900000215
进行归一化,得到
Figure FDA00034801929900000216
Figure FDA00034801929900000217
的表达式为:
Figure FDA00034801929900000218
得到的
Figure FDA00034801929900000219
保证了离pm最近的查询单元会用100%的权重更新pm;所述pm更新如下:
Figure FDA00034801929900000220
其中,f(·)是L2norm;
S27、针对记忆模块,所述记忆模块包括M个记忆单元和读取操作,通过记忆模块产生两种损失函数:特征紧凑损失函数和特征分离损失函数;特征紧凑损失函数的表达式为:
Figure FDA00034801929900000221
特征分离损失函数的表达式为:
Figure FDA00034801929900000222
其中,α表示森林间距;
S28、通过解码器输出预测帧
Figure FDA00034801929900000223
Figure FDA00034801929900000224
和It+4的L2距离定义为预测损失函数Lprediction,其表达式为:
Figure FDA00034801929900000225
S29、结合预测损失函数、特征紧凑损失函数和特征分离损失函数,得到基于记忆模块的预测模型的损失函数L,其表达式为:L=LpredictionsLseparatecLcompact
4.根据权利要求1所述的一种基于三分支孪生网络的无监督视频异常检测方法,其特征在于:在步骤S3中,对步骤S2中建立的预测模型进行训练,得到训练后的预测模型的具体过程为:采用基于记忆模块的预测模型的损失函数L作为目标损失函数,使用初始学习率为2e-4的优化器Adam最小化该损失函数,并且使用一种余弦退火方法来衰减学习率,最终得到训练后的预测模型。
5.根据权利要求3所述的一种基于三分支孪生网络的无监督视频异常检测方法,其特征在于:在步骤S4中,将正常帧代表输入三分支孪生网络,三分支孪生网络对正常帧代表进行处理,得到正常帧代表的平均预测损失,其表达式为:
Figure FDA0003480192990000031
其中,r是正常帧代表中前1/4的数据,βr表示r的大小;将异常帧代表输入三分支孪生网络,三分支孪生网络对异常帧代表进行处理,得到异常帧代表的平均预测损失,其表达式为:
Figure FDA0003480192990000032
其中,Λ表示异常帧代表,βΛ表示Λ的大小;根据Lavg_nor、Lavg_abnor以及Lprediction,使用决策函数最终计算得到异常得分::
Figure FDA0003480192990000033
其中,γ和η分别表示平均预测损失Lavg_nor和Lavg_abnor所对应的异常得分。
CN202210066191.6A 2022-01-20 2022-01-20 一种基于三分支孪生网络的无监督视频异常检测方法 Pending CN114565785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210066191.6A CN114565785A (zh) 2022-01-20 2022-01-20 一种基于三分支孪生网络的无监督视频异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210066191.6A CN114565785A (zh) 2022-01-20 2022-01-20 一种基于三分支孪生网络的无监督视频异常检测方法

Publications (1)

Publication Number Publication Date
CN114565785A true CN114565785A (zh) 2022-05-31

Family

ID=81711534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210066191.6A Pending CN114565785A (zh) 2022-01-20 2022-01-20 一种基于三分支孪生网络的无监督视频异常检测方法

Country Status (1)

Country Link
CN (1) CN114565785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842402A (zh) * 2023-09-01 2023-10-03 北京科技大学 基于孪生神经网络提取平稳特征的高炉异常炉况检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842402A (zh) * 2023-09-01 2023-10-03 北京科技大学 基于孪生神经网络提取平稳特征的高炉异常炉况检测方法
CN116842402B (zh) * 2023-09-01 2024-02-13 北京科技大学 基于孪生神经网络提取平稳特征的高炉异常炉况检测方法

Similar Documents

Publication Publication Date Title
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN109612513B (zh) 一种面向大规模高维传感器数据的在线式异常检测方法
CN106991355B (zh) 基于拓扑保持的解析型字典学习模型的人脸识别方法
CN112633180B (zh) 一种基于对偶记忆模块的视频异常检测方法及系统
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN112069940A (zh) 一种基于分阶段特征学习的跨域行人重识别方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN112307995A (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN107301382B (zh) 基于时间依赖约束下深度非负矩阵分解的行为识别方法
CN114022904B (zh) 一种基于两阶段的噪声鲁棒行人重识别方法
CN111401149B (zh) 基于长短期时域建模算法的轻量级视频行为识别方法
CN111104555A (zh) 基于注意力机制的视频哈希检索方法
CN112633051A (zh) 一种基于图像搜索的在线人脸聚类方法
CN111259720A (zh) 基于自监督代理特征学习的无监督行人重识别方法
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
CN111275165A (zh) 一种基于改进卷积神经网络的网络入侵检测方法
CN114565785A (zh) 一种基于三分支孪生网络的无监督视频异常检测方法
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN113705645B (zh) 一种针对脑电信号的自适应联合模型半监督学习分类方法
CN109190471B (zh) 基于自然语言描述的视频监控行人搜索的注意力模型方法
CN110738245A (zh) 一种面向科学数据分析的自动聚类算法选择系统及方法
CN114513367A (zh) 基于图神经网络的蜂窝网络异常检测方法
CN112347965A (zh) 一种基于时空图的视频关系检测方法和系统
CN116246102A (zh) 一种基于自编码器与决策树的图像分类方法与系统
CN114937222A (zh) 一种基于双分支网络的视频异常检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination