CN114565785A

CN114565785A - 一种基于三分支孪生网络的无监督视频异常检测方法

Info

Publication number: CN114565785A
Application number: CN202210066191.6A
Authority: CN
Inventors: 郭爱斌; 郭立君; 张�荣
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-31

Abstract

本发明涉及一种基于三分支孪生网络的无监督视频异常检测方法，首先通过传统的无监督异常检测方法，获取少部分具有高可靠度的正常代表与异常代表，然后使用正常代表训练一个预测模型，在测试阶段，该训练好的模型克隆成3份以构成三分支孪生网络，分别由正常帧代表、异常帧代表、待测试数据作为三分支网络的输入，最后三个输出结合决策函数来计算异常得分。本方法是一种无需人为标注数据的无监督方法，这有效缓解了人力成本的压力；该方法不是训练一个二分类网络，而是结合了正常数据的不同模式特征，训练一个不同模式的正常记忆模块，可以有效地改善训练的性能；该方法采用的决策函数有效的解决了基于预测或重构模型在异常得分策略的缺陷。

Description

一种基于三分支孪生网络的无监督视频异常检测方法

技术领域

本发明涉及视频异常检测技术领域，尤其是涉及一种基于三分支孪生网络的无监督视频异常检测方法。

背景技术

视频中异常检测任务，是在视频序列中找出明显区别于正常模式的的异常事件。视频中异常检测在包括视频监控、互联网视频过滤以及工业过程安全监控等领域具有重要应用价值，例如帮助人们发现火灾、踩踏事故、违规视频发布以及生产过程事故等。异常检测同时也是一项非常具有挑战的任务，首先，异常是一种无法事先界定的事件，甚至同一种活动在不同场景中会被分别识别为正常事件和异常事件，比如在厨房手持刀被认为正常事件，但在地铁上手持刀被认为异常事件。但有一点是确定的，即正常事件是大多数事件，异常事件是少数事件。其次，由于现实中视频量巨大，而异常事件又非常少，导致异常数据标注十分困难且消耗人力。因此，无论从数据集标注、还是从异常检测实际应用场景来看，视频中异常检测都适合通过无监督的学习方法来完成。

随着深度学习方法在各领域的广泛应用，异常检测中目前也是通过深度学习方法获得的检测效果最优异。当前主流的基于深度学习的异常检测方法都是采用对当前帧重构或下一帧预测的深度模型。即通过标注为正常事件的视频集合训练模型学习正常事件的特征表示，再通过对测试阶段的视频帧进行重构或预测，并利用重构或预测误差来判别异常事件，判别依据是异常事件无法通过正常事件的特征表示很好地重构或预测，相对于正常事件，异常事件存在更大的重构或预测误差。此类方法存在一个不足是训练前仍需提供正常事件标注数据集，且需要筛选正常视频。此类模型中多数提取的是normal特征，而不是normal模式。鉴于深度模型中CNN提取的特征具有强大的描述能力，视频中的异常事件仍可以通过正常事件的特征进行重构，由此可能导致基于重构误差的判别方法失效。为此，基于记忆模块的方法(H.Park,J.Noh,and B.Ham,“Learning memory-guided normality foranomaly detection,”in Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition,2020,pp.14372–14381.)引入学习正常模式及其多样性的记忆模块机制，该记忆模块实现了对特征的读取和记忆单元更新的功能，通过记忆模块提高了正常模式及其多样性判别能力，使得该方法在所有预测模型中表现最出色。预测模型方法中一般采用预测帧与真实帧之间的PSNR值来作为异常的判别依据。但由于模型中只有正常数据的标注，没有异常数据，使得模型无法简单地根据PSNR值的大小确定异常。通常采用对全部预测帧的PSNR最大最小化来计算各帧的异常得分。这样的异常得分计算方法存在以下不足：1)无法实现端到端的异常得分计算，即必须对全部帧预测完成后才能计算各帧的异常得分，效率很低；2)这种只依据正常数据的异常得分计算方法有些情况下不可靠，尤其在没有异常帧的视频中。另外，该方法还需人为地从数据集中筛选正常数据，以此数据为基础训练深度学习模型，筛选数据的过程大大增加了人力成本，无法在户外场景下大量应用。

自训练方法(G.Pang,C.Yan,C.Shen,A.v.d.Hengel,and X.Bai,“Self-traineddeep ordinal regression for end-to-end video anomaly detection,”inProceedings of the IEEE/CVF Conference on ComputerVision and PatternRecognition,2020,pp.12173–12182.)利用少量正常/异常数据(伪标签数据)作为模型初始输入，通过迭代训练一个深度次序回归网络对待测视频帧进行分类。迭代学习过程中输入的正常数据与异常数据也只是网络学习的正负样本，在对正常与异常数据的利用方面，没有考虑异常检测中的正常与异常数据的特点，导致通过迭代自学习的优化方式对检测性能的提升在几次迭代后就会遇到瓶颈。

发明内容

本发明所要解决的技术问题是提供一种检测效率高、检测性能好、可靠性强，并且降低成本的一种基于三分支孪生网络的无监督视频异常检测方法。

本发明所采用的技术方案是，一种基于三分支孪生网络的无监督视频异常检测方法，该方法包括下列步骤：

S1、采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表；

S2、建立基于记忆模块的预测模型；

S3、对步骤S2中建立的预测模型进行训练，得到训练后的预测模型；

S4、对训练后的预测模型进行测试：将步骤S3中训练后的预测模型克隆成三份，构成一个三分支孪生网络，将正常帧代表、待测试帧、异常帧代表作为三分支孪生网络的输入，由三分支孪生网络输出三个预测损失结果，最后将三个预测损失结果通过决策函数计算得到异常得分。

本发明的有益效果是：上述一种基于三分支孪生网络的无监督视频异常检测方法，在该方法中，正常帧代表和异常帧代表都是通过无监督异常检测方法获取的，因此本方法是一种无需人为标注数据的方法，即无监督，这有效缓解了人力成本的压力，并且检测效率高；该方法不是训练一个二分类网络，而是结合了正常数据的不同模式特征，训练一个不同模式的正常记忆模块，这样就可以有效地改善模型训练的性能，提高异常检测的性能，且可靠性强；并且，该方法将三个预测损失结果通过决策函数有效的解决了基于预测或重构模型在异常得分策略的缺陷，同时有效解决了低异常率视频检测的问题，进一步提高异常检测的可靠性。

作为优选，在步骤S1中，采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表的具体过程包括下列步骤：

S11、首先使用预先训练好的ResNet-50将视频帧转为1000维的特征向量，再使用主成分分析方法对特征向量降维，并提取最重要的100个成分作为主要特征组成样本集x；

S12、采用孤立森林算法来计算样本集x的异常得分，具体计算方法的表达式为：

其中，h(x)表示样本集x从孤立树的根节点到达叶结点所途径的路径长度，等价于样本集x落入叶结点所需的划分次数；E(h(x))表示样本集x在整个孤立森林算法上的平均路径长度；c(n)＝2H(n-1)-2(n-1)/n，其中n为训练单颗孤立树的样本数，H(i)为调和级数，且H(i)＝In(i)+0.577(欧拉常数)，c(n)用于对h(x)进行标准化；

S13、采用主成分重构算法来计算样本集x的异常得分，具体计算方法的表达式为：

其中，

是第i个样本的第k个特征值对应的特征向量；n表示主成分个数，xi表示第i个样本的n维的特征向量，ev(k)表示前k个主成分多大程度上解释了总体方差，与k值成正比；

S14、将步骤S12和步骤S13中得到的异常得分取平均，得到平均值，将平均值作为初始化异常检测的结果；我们将结果最接近0的20％数据作为正常帧代表，最接近1的1％数据作为异常帧代表。

作为优选，在步骤S2中，建立基于记忆模块的预测模型的具体过程包括下列步骤：

S21、将步骤S1中得到的正常帧代表中的每一帧及其前面的连续四帧作为一组训练样本，得到若干组训练样本，每一组训练样本中，使用连续四帧来预测第五帧，使用U-Net框架来提取特征表达和产生图像，设定t时刻的连续四帧数据为I_t～t+3，其对应的特征图为q_t～t+3，

(k＝1,2...,K)是I_t～t+3中的一个块特征，大小为1x1xC，K＝H×W；

S22、建立一个记忆预测模型；所述记忆预测模型包括M个记忆单元、读取操作和更新操作；对于读取操作，采用cosine相似度衡量

和p_m的相似性，相似性矩阵S大小为M×K，其垂直方向的值代表M个记忆单元分别和

的相似性，在该方向上使用softmax函数，获得

在第m个记忆单元上的匹配概率

其表达式为：

S23、通过对M个记忆单元加权求和获取

的记忆信息

其表达式为：

S24、将读取到的

和

(k＝1,2…,K)在通道方向上连接起来，合并成H×W×2C的特征图，送入解码器产生预测帧；

S25、使用

记录第m个记忆单元对应的查询单元索引的集合；相似性矩阵S沿着水平方向的值代表K个查询单元分别与p_m的相似性，在这个方向上应用softmax函数，获得p_m在第k个查询单元上的匹配概率

其表达式为：

S26、对得到的

进行归一化，得到

的表达式为：

得到的

保证了离p_m最近的查询单元会用100％的权重更新p_m；所述p_m更新如下：

其中，f(·)是L2 norm；

S27、针对记忆模块，所述记忆模块包括M个记忆单元和读取操作，通过记忆模块产生两种损失函数：特征紧凑损失函数和特征分离损失函数；特征紧凑损失函数的表达式为：

特征分离损失函数的表达式为：

其中，α表示森林间距；

S28、通过解码器输出预测帧

将

和I_t+4的L2距离定义为预测损失函数L_prediction，其表达式为：

S29、结合预测损失函数、特征紧凑损失函数和特征分离损失函数，得到基于记忆模块的预测模型的损失函数L，其表达式为：L＝L_prediction+λ_sL_separate+λ_cL_compact。

在步骤S3中，对步骤S2中建立的预测模型进行训练，得到训练后的预测模型的具体过程为：采用基于记忆模块的预测模型的损失函数L作为目标损失函数，使用初始学习率为2e-4的优化器Adam最小化该损失函数，并且使用一种余弦退火方法来衰减学习率，最终得到训练后的预测模型。

在步骤S4中，将正常帧代表输入三分支孪生网络，三分支孪生网络对正常帧代表进行处理，得到正常帧代表的平均预测损失，其表达式为：

其中，r是正常帧代表中前1/4的数据，βr表示r的大小；将异常帧代表输入三分支孪生网络，三分支孪生网络对异常帧代表进行处理，得到异常帧代表的平均预测损失，其表达式为：L_{avg_abnor}＝

其中，Λ表示异常帧代表，β_Λ表示Λ的大小；根据L_{avg_nor}、L_{avg_abnor}以及L_prediction，使用决策函数最终计算得到异常得分：

其中，γ和η分别表示平均预测损失L_{avg_nor}和L_{avg_abnor}所对应的异常得分。

附图说明

图1为本发明一种基于三分支孪生网络的无监督视频异常检测方法的示意图；

图2为本发明中建立基于记忆模块的预测模型的示意图；

图3为本发明中在Ped1、Ped2和Avenue场景上的异常检测的可视化效果图。

具体实施方式

以下参照附图并结合具体实施方式来进一步描述发明，以令本领域技术人员参照说明书文字能够据以实施，本发明保护范围并不受限于该具体实施方式。

本发明涉及一种基于三分支孪生网络的无监督视频异常检测方法，该方法包括下列步骤：

S2、建立基于记忆模块的预测模型；

上述一种基于三分支孪生网络的无监督视频异常检测方法，在该方法中，正常帧代表和异常帧代表都是通过无监督异常检测方法获取的，因此本方法是一种无需人为标注数据的方法，即无监督，这有效缓解了人力成本的压力，并且检测效率高；该方法不是训练一个二分类网络，而是结合了正常数据的不同模式特征，训练一个不同模式的正常记忆模块，这样就可以有效地改善模型训练的性能，提高异常检测的性能，且可靠性强；并且，该方法将三个预测损失结果通过决策函数有效的解决了基于预测或重构模型在异常得分策略的缺陷，同时有效解决了低异常率视频检测的问题，进一步提高异常检测的可靠性。

在步骤S1中，采用两种基础算法:孤立森林算法和主成分重构算法来做初始化异常检测，它们都无需标注数据；采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表的具体过程包括下列步骤：

其中，

是第i个样本的第k个特征值对应的特征向量；n表示主成分个数，xi表示第i个样本的n维的特征向量，ev(k)表示前k个主成分多大程度上解释了总体方差，与k值成正比；主成分重构算法依据的是靠前的主成分主要解释了大部分正常样本的方差，而靠后的主成分主要解释了异常样本的方差，靠前的主成分是指对应于更大特征值的特征向量，靠后的主成分是指对应于更小特征值的特征向量；该方法采用了样本在靠后主成分上的偏差应赋予更高权重的策略来拉开正常和异常样本的重构误差；

S14、结合两种无监督异常检测方法，将步骤S12和步骤S13中得到的异常得分取平均，得到平均值，将平均值作为初始化异常检测的结果；得分越接近0，是正常帧代表的可能性越高，越接近1，是异常帧代表的可能性越高；我们将结果最接近0的20％数据作为正常帧代表，最接近1的1％数据作为异常帧代表；

(k＝1,2...,K)是I_t～t+3中的一个块特征，大小为1x1xC，K＝H×W；

的相似性，在该方向上使用softmax函数，获得

在第m个记忆单元上的匹配概率

其表达式为：

S23、通过对M个记忆单元加权求和获取

的记忆信息

其表达式为：

S24、将读取到的

和

(k＝1,2…,K)在通道方向上连接起来，合并成H×W×2C的特征图，送入解码器产生预测帧，这使得解码器会参考记忆信息去生成新的图像；

S25、对于每个记忆单元，我们从所有查询单元中选择与记忆单元最近的查询单元进行更新，一个记忆单元可能会对应多个查询单元；使用

其表达式为：

S26、考虑到只使用

中的查询单元对p_m更新，对得到的

进行归一化，得到

的表达式为：

得到的

其中，f(·)是L2 norm；

S27、针对记忆模块，所述记忆模块包括M个记忆单元和读取操作，通过记忆模块产生两种损失函数：特征紧凑损失函数和特征分离损失函数；这两种损失会将正常帧代表映射到一个多维空间上，正常帧代表会向M个记忆单元聚集，这很好地将正常数据分离开来，但又不会越过正常模式的范围；特征紧凑损失函数的表达式为：

特征分离损失函数的表达式为：

其中，α表示森林间距；

S28、通过解码器输出预测帧

将

和I_t+4的L2距离定义为预测损失函数L_prediction，其表达式为：

S29、结合预测损失函数L_prediction、特征紧凑损失函数L_compact和特征分离损失函数L_separate，得到基于记忆模块的预测模型的损失函数L，其表达式为：L＝L_prediction+λ_sL_separate+λ_cL_compact.；

在步骤S4中，为了充分发挥网络中异常帧代表的识别能力，提出了一种基于预测损失的异常评分方法；预测框架的预测损失越大，异常发生的可能性也越大；相反，预测损失越低，异常发生的可能性越低；预测损失与异常分数之间存在线性映射关系；其中，预测损失最小的视频帧对应的异常分数为0，预测损失最高的视频帧对应异常分数为1；在无监督异常检测中，我们无法确定损失最小的正常帧和损失最大的异常帧，但是，可以使用正常帧代表来获得正常帧代表的平均预测损失和平均异常分数，使用异常帧代表来获得异常帧代表的平均预测损失和平均异常分数。

步骤S4中，将正常帧代表输入三分支孪生网络，三分支孪生网络对正常帧代表进行处理，得到正常帧代表的平均预测损失，其表达式为：

其中，r是正常帧代表中前1/4的数据，βr表示r的大小；将异常帧代表输入三分支孪生网络，三分支孪生网络对异常帧代表进行处理，得到异常帧代表的平均预测损失，其表达式为：

考虑到正常帧中可能包含少量的异常帧，基于正常帧的L_{avg_nor}高于所有真实正常帧的平均预测损失，因此L_{avg_nor}对应的平均异常得分γ大于0(默认为0.2)；相反，基于异常帧的L_{avg_abnor}小于所有真实异常帧的平均预测损失，因此L_{avg_abnor}所对应的平均异常得分比1(默认为0.8)要低。当异常得分小于0或大于1时，分别将其设置为0或1。在特殊情况下，如测试视频中的异常率非常低，甚至全部是正常帧，通过初始异常检测得到的异常帧代表中会包含大量的正常帧。因此，L_{avg_abnor}将接近于L_{avg_nor}，L_{avg_abnor}将失去其参考值。在本发明中，需要引用L_{avg_nor}来确定L_{avg_abnor}的真实值。在实验中，当L_{avg_abnor}小于ε乘以L_{avg_nor}时，重新定义L_{avg_abnor}＝ε*L_{avg_nor}，其中ε默认为4。

具体实施过程中，为了验证本发明中记忆预测模型的有效性，使用UCSD-ped1、UCSD-ped2、CUHK-Avenue和Entrance进行评估，采用ROC曲线下面积(AUC)作为评价指标。另外，本发明图3给出异常检测可视化效果图。

采用文献[1]、文献[2]、文献[3]、文献[4]、文献[5]、文献[6]、文献[6]、文献[8]、文献[9]以及文献[10]公开的方法来与本发明方法进行对比，其中文献[1]的索引为：W.Liu,W.Luo,D.Lian,and S.Gao,“Future frame prediction for anomaly detection–anew baseline,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018,pp.6536–6545；文献[2]的索引为：M.Hasan,J.Choi,J.Neumann,A.K.Roy-Chowdhury,and L.S.Davis,“Learning temporal regularity invideo sequences,”in Proceedings of the IEEE conference on computer vision andpattern recognition,2016,pp.733–742；文献[3]的索引为：T.-N.Nguyen andJ.Meunier,“Anomaly detection in video sequence with appearance-motioncorrespondence,”in Proceedings of the IEEE International Conference onComputer Vision,2019,pp.1273–1283；文献[4]的索引为：Q.Sun,H.Liu,and T.Harada,“Online growing neural gas for anomaly detection in changing surveillancescenes,”Pattern Recognition,vol.64,pp.187–201,2017；文献[5]的索引为：R.T.Ionescu,F.S.Khan,M.-I.Georgescu,and L.Shao,“Object-centric auto-encodersand dummy anomalies for abnormal event detection in video,”in Proceedingsofthe IEEE Conference on Computer Vision and Pattern Recognition,2019,pp.7842–7851；文献[6]的索引为：H.Park,J.Noh,and B.Ham,“Learning memory-guidednormality for anomaly detection,”in Proceedings ofthe IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.14372–14381；文献[7]的索引为：Tudor Ionescu,S.Smeureanu,B.Alexe,and M.Popescu,“Unmasking the abnormalevents in video,”in Proceedings of the IEEE International Conference onComputer Vision,2017,pp.2895–2903；文献[8]的索引为：G.Pang,C.Yan,C.Shen,A.v.d.Hengel,and X.Bai,“Self-trained deep ordinal regression for end-to-endvideo anomaly detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.12173–12182；文献[9]的索引为：F.T.Liu,K.M.Ting,and Z.-H.Zhou,“Isolation-based anomaly detection,”ACMTransactions on Knowledge Discovery from Data(TKDD),vol.6,no.1,pp.1–39,2012；文献[10]的索引为：K.Veeramachaneni,I.Arnaldo,V.Korrapati,C.Bassias,and K.Li,“Ai^2:training abig data machine to defend,”in 2016 IEEE 2nd InternationalConference on Big Data Security on Cloud(BigDataSecurity),IEEE InternationalConference on High Performance and Smart Computing(HPSC),and IEEEInternational Conference on Intelligent Data and Security(IDS).IEEE,2016,pp.49–54；

从表1中可以明显看出，本发明的方法在所有无数据标注要求的方法中表现最好，在Avenue数据集上甚至超过部分有数据标注要求的方法。具体来说，在Ped1、ped2和Avenue三个数据集上，本发明比提供初始化异常检测的方法分别提高了15％、4％和23.6％。这说明，无论基于传统无监督方法在相应数据集上的初始检测效果如何，本发明都能够较大幅度提升初始的异常检测效果。与文献[8]的方法相比，本发明在ped1和ped2上分别实现了5.4％、4.9％的提高。这说明，同样基于传统无监督方法的初始检测结果，本发明通过一次性的训练学习，就超过了的多次迭代学习效果。此外，在更全面的数据集Avenue上，本发明也超过最好的无数据标注方法2.9％。

表1上半栏中的方法都是有数据标记要求的方法，在Avenue测试集上，本发明的方法得到的AUC值相对于文献[2]和文献[1]分别提高了16.6％和1.7％，与最好的有数据标记要求的文献[5]的方法相比也只低3.6％，这也从另一个角度证明了本发明的有效性和竞争力。表1给出了本发明与6种要求标注数据和4种无要求标注数据的方法在测试数据集上进行比较的结果：

表1

消融实验：在基于深度学习的重构或预测模型的异常检测方法中，异常得分策略很重要。本发明研究了文献[5]的异常得分策略，这种异常得分策略是结合预测误差的PSNR值和每个特征与最近的记忆单元的平均L2距离，使用了一个加权系数计算，然后最大最小化来评估异常得分，本发明将这种得分策略命名为PD-MaxMin方式，此类通过最大最小化来评估异常得分的方式是基于重构或预测模型的异常检测方法中常见的得分策略。将PD-MaxMin的得分策略与本文通过决策函数的得分策略进行了比较。为了全面体现两种得分策略优劣，在本发明中使用两种异常得分策略分别在Ped1、Ped2和Avenue的整个数据集以及测试集上进行了评估。评估结果如表2所示，可以看出，针对Ped1和Ped2两个数据集，PD-MaxMin在测试集上取得最好的检测结果，但在整个数据集上检测性能大幅下降。这与测试集中含有较多的异常事件有关。本发明的决策函数在测试集和整个数据集的检测效果保持稳定，在Ped1、Ped2和Avenue的整个数据集上，我们的决策函数分别比PD-MaxMin提高了14.5％、27.3％和5.6％。在Avenue测试集上，本发明的决策函数比PD-MaxMin提高了2.1％。表2给出了两种得分策略的评估结果：

表2

图3展现了在Ped1、Ped2和Avenue场景上(从左至右)的异常检测的可视化效果，从上到下分别是输入帧，预测损失和异常区域。为了可视化异常事件，本发明通过像素级的预测损失来定位异常区域。通过设置一个异常帧预测损失的阈值ζ＝θ*L_(avg_nor)，默认θ为200，该值为经验值。然后，在预测帧内标记预测损失大于ζ的区域。可以看到，预测损失大的区域(高亮点显示)集中在异常区域更多，这些区域都有相应场景中典型的异常事件，如Avenue视频中的丢包等行为以及UCSD两个子集视频中机动车与自行车的出没。

Claims

1.一种基于三分支孪生网络的无监督视频异常检测方法，其特征在于：该方法包括下列步骤：

S2、建立基于记忆模块的预测模型；

2.根据权利要求1所述的一种基于三分支孪生网络的无监督视频异常检测方法，其特征在于：在步骤S1中，采用无监督异常检测方法从视频中提取置信度最高的正常帧代表和异常帧代表的具体过程包括下列步骤：

其中，h(x)表示样本集x从ITree的根节点到达叶结点所途径的路径长度，等价于样本集x落入叶结点所需的划分次数；E(h(x))表示样本集x在整个孤立森林算法上的平均路径长度；c(n)＝2H(n-1)-2(n-1)/n，其中n为训练单颗iTree的样本数，H(i)为调和级数，且H(i)＝In(i)+0.577，c(n)用于对h(x)进行标准化；

其中，

3.根据权利要求2所述的一种基于三分支孪生网络的无监督视频异常检测方法，其特征在于：在步骤S2中，建立基于记忆模块的预测模型的具体过程包括下列步骤：

是I_t～t+3中的一个块特征，大小为1x1xC，K＝H×W；

的相似性，在该方向上使用softmax函数，获得

在第m个记忆单元上的匹配概率

其表达式为：

S23、通过对M个记忆单元加权求和获取

的记忆信息

其表达式为：

S24、将读取到的

和

在通道方向上连接起来，合并成H×W×2C的特征图，送入解码器产生预测帧；

S25、使用

其表达式为：

S26、对得到的

进行归一化，得到

的表达式为：

得到的

其中，f(·)是L2norm；

特征分离损失函数的表达式为：

其中，α表示森林间距；

S28、通过解码器输出预测帧

将

和I_t+4的L2距离定义为预测损失函数L_prediction，其表达式为：

4.根据权利要求1所述的一种基于三分支孪生网络的无监督视频异常检测方法，其特征在于：在步骤S3中，对步骤S2中建立的预测模型进行训练，得到训练后的预测模型的具体过程为：采用基于记忆模块的预测模型的损失函数L作为目标损失函数，使用初始学习率为2e-4的优化器Adam最小化该损失函数，并且使用一种余弦退火方法来衰减学习率，最终得到训练后的预测模型。

5.根据权利要求3所述的一种基于三分支孪生网络的无监督视频异常检测方法，其特征在于：在步骤S4中，将正常帧代表输入三分支孪生网络，三分支孪生网络对正常帧代表进行处理，得到正常帧代表的平均预测损失，其表达式为：

其中，Λ表示异常帧代表，β_Λ表示Λ的大小；根据L_{avg_nor}、L_{avg_abnor}以及L_prediction，使用决策函数最终计算得到异常得分：：