CN114937222A - 一种基于双分支网络的视频异常检测方法及系统 - Google Patents

一种基于双分支网络的视频异常检测方法及系统 Download PDF

Info

Publication number
CN114937222A
CN114937222A CN202210394205.7A CN202210394205A CN114937222A CN 114937222 A CN114937222 A CN 114937222A CN 202210394205 A CN202210394205 A CN 202210394205A CN 114937222 A CN114937222 A CN 114937222A
Authority
CN
China
Prior art keywords
memory
loss
representing
video
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210394205.7A
Other languages
English (en)
Inventor
霍永青
杜娜
王达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210394205.7A priority Critical patent/CN114937222A/zh
Publication of CN114937222A publication Critical patent/CN114937222A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供了一种基于双分支网络的视频异常检测方法及系统,属于视频处理技术领域。本发明通过将采用堆叠的ConvLSTM网络作为预测分支和3D卷积网络作为记忆分支的双分支网络,提高了学习正常视频特征的能力、有效的提升了正常视频的预测能力而削弱了异常视频的预测能力,解决了深度网络泛化能力过强而导致预测的异常帧与其真值之间的误差较小的问题。

Description

一种基于双分支网络的视频异常检测方法及系统
技术领域
本发明属于视频处理技术领域,尤其涉及一种基于双分支网络的视频异常 检测方法及系统。
背景技术
随着监控视频数量的急剧增加,人工监控由于耗费大量人力、财力不再适 用监控视频领域。因此,开发一种实时监控系统,实现对监控视频中异常模式 的智能检测,是一项紧迫的任务。从模型训练的角度来说,异常模式是一种少 见且不同于正常模式的模式。从异常模式的定义角度来说,异常的种类繁多、 发生的概率较低并很分散,并且在一个场景中被定义为异常的模式在另一个场 景中可能是视作正常的。因此,现有的大多数数据集中的训练集只存在正常模 式标签,很少有标签来标记异常模式。由于异常模式的稀疏性和异常模式标签 数据的缺乏,用单一的分类方法很难完成异常检测任务,因此,当前的主流方法是以无监督的方式在正常视频中学习正常事件模式,目的是使用不包含异常 模式的训练集学习描述正常模式的模型,在测试阶段,异常模式是指外观和运 动模式的变化与训练中观察到的常规模式不一致的模式。
目前,大多数现有算法使用无监督学习方法来建模监控视频中的正常模式。 根据现有假设,异常模式检测方法可分为基于生成的重构帧与其真值之间的重 建误差方法以及基于生成的预测帧及其真值之间的预测误差方法。这两种方法 都是先将多个连续正常帧作为模型的输入,然后提取帧外观信息和上下文信息, 最终目的是重建输入帧或预测即将到来的帧。重构误差方法的基本假设是,在 推理阶段中,正常模式的重建误差与异常模式的重建误差存在显著差异,因此 可以利用这个差异来区分它们。同样,基于预测误差方法的假设是正常模式的 预测误差较小,而异常模式的预测误差较大。自动编码器(AE)在这两种方法 中都得到了广泛的应用,它包含获取低维输入数据表示的编码器和将潜在特征层重构回高维特征表示的解码器。但是这种假设不一定成立,因为卷积神经网 络(CNN)具有过强的深度特征学习能力。最终,正常模式和异常模式的重建 误差将相似,导致无法区分正常模式和异常模式。为了提升监控视频的检测异 常的能力,在2018年国际会议IEEEConference on Computer Vision and Pattern Recognition上,《Future FramePrediction for Anomaly Detection–A New Baseline》引入了一个基于视频预测的视频异常检测框架,该框架以预测的帧与 其真值之间的强度差、梯度差和光流差为损失函数,基于预测误差的方法考虑 连续帧之间的语义,但它仍然面临着网络泛化能力过强的问题。因此,无论是 基于重建误差的方法还是基于预测误差的方法都不能提供完美的解决方案。但 是由于基于预测误差的方法考虑了多帧之间的语义,其异常检测性能优于基于 重构误差的方法,如何提升正常视频的预测能力而削弱网络对异常视频的预测 能力是待解决的技术问题。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于双分支网络的视频异 常检测方法及系统,解决了深度网络泛化能力过强而导致预测的异常帧与其真 值之间的误差较小的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于双分支网络的视频异常检测方法,包括以下步骤:
S1、将正常视频的连续t帧分别作为预测分支和记忆分支的输入;
S2、通过所述记忆分支利用3D卷积神经网络学习正常视频流的特征信息, 并计算得到特征分离损失和特征紧凑损失;
S3、通过所述预测分支利用2D卷积神经网络提取视频帧的外观特征,并根 据外观特征,利用ConvLSTM提取上下文信息得到细胞状态和隐藏状态;
S4、根据步骤S2学习的正常视频流的特征信息,以及步骤S3得到的细胞 状态和隐藏状态生成新的正常视频特征,并根据所述新的正常视频特征利用解 码器生成未来帧;
S5、利用所述未来帧的均方预测损失、特征分离损失和特征紧凑损失对模 型进行训练;
S6、根据训练后的模型,利用未来帧的均方预测损失计算异常得分,并根 据异常得分判别帧是否异常,完成视频异常的检测。
本发明的有益效果是:本发明为了提取视频流的时间上下文信息以及提升 异常检测的精度,采用堆叠的ConvLSTM网络作为预测分支和3D卷积网络作 为记忆分支的双分支网络,解决了深度网络泛化能力过强而导致的预测的异常 帧与其真值之间的误差较小的问题。
进一步地,所述步骤S2包括以下步骤:
S201、通过3D卷积神经网络利用6个3D卷积操作对正常视频的连续t帧 进行特征提取,得到时空特征
Figure BDA0003596701050000031
其中,ZM表示时空特征,zl M表示局部特征,用作寻址,且zl M∈Rc,Rc表示长度为通道数c的向量,Rw×h×c表 示时空特征的尺寸,w表示时空特征的宽度,h表示时空特征的长度,l表示局 部特征的数量;
S202、基于所述记忆分支,初始化s个记忆向量为
Figure BDA0003596701050000032
并根据 局部特征zl M和记忆向量mi,计算得到记忆特征Fmem
S203、利用两层反卷积对所述记忆特征Fmem进行卷积操作,得到新的记忆特 征
Figure RE-GDA0003690203240000041
S204、计算得到局部特征zl M与记忆向量mi间的特征分离损失和特征紧凑损 失。
上述进一步方案的有益效果是:本发明提出的记忆分支通过3D卷积能够提 取紧凑且分散的正常模式特征,并且引入特征紧凑损失和特征分离损失从而得 到多种多样的特征,以正常视频流的上下文语义信息。
进一步地,所述步骤S202中新的记忆特征的表达式如下:
Figure BDA0003596701050000042
Figure BDA0003596701050000043
Figure BDA0003596701050000044
其中,Fmem表示记忆特征,fl mem表示局部记忆特征,w'表示记忆特征的宽度, h'表示记忆特征的高度,l表示局部记忆特征的数量,R'w'×h'×c'表示记忆特征的尺 寸,al-i表示局部特征zl M与第i个记忆向量间的寻址向量,mi表示记忆向量M中 的第i个记忆向量,(mi)T表示mi的转置,c表示记忆特征通道数。
上述进一步方案的有益效果是:本发明通过计算得到新的记忆特征,在模 型训练过程中可以得到与时空特征最接近且多样的记忆向量,并借助记忆向量 得到含有丰富信息的正常视频特征。
再进一步地,所述步骤S204中特征分离损失的表达式如下:
Figure BDA0003596701050000045
Figure BDA0003596701050000046
其中,Lcompact表示特征分离损失,mp表示与局部特征最接近的记忆向量,p 表示与局部特征最接近的记忆向量的索引;
所述特征紧凑损失的表达式如下:
Figure BDA0003596701050000051
Figure BDA0003596701050000052
其中,Lseparate表示特征紧凑损失,mn与局部特征接近的记忆向量,α表示一 个大于0的常数,n表示与局部特征接近的记忆向量的索引。
上述进一步方案的有益效果是:本发明所提出的特征分离损失和特征紧凑 损失可以使得记忆向量与局部特征最接近的项足够近、与局部特征第二接近的 项足够远,促进多样且分散的记忆特征的提取。
再进一步地,所述步骤S3包括以下步骤:
S301、通过所述预测分支,将输入序列的每一帧独立发送至具有2D卷积的 空间编码器Esp,提取视频帧的外观特征;
S302、根据每一帧的外观特征,利用ConvLSTM网络提取帧之间的上下文 信息,得到细胞状态Ct和隐藏状态Ht
上述进一步方案的有益效果是:本发明利用ConvLSTM网络来提取视频流 的时空信息,并综合记忆分支得到的特征,加强模型对正常模式的预测能力, 而削弱模型对异常分支的预测能力。
再进一步地,所述步骤S4包括以下步骤:
S401、将所述细胞状态Ct和新的记忆特征
Figure RE-GDA0003690203240000053
沿通道维度进行拼接,得到 基于通道的注意力At mem
S402、根据所述注意力At mem和新的记忆特征
Figure RE-GDA0003690203240000054
计算得到通道优化后的 记忆特征
Figure RE-GDA0003690203240000055
S403、将记忆特征
Figure RE-GDA0003690203240000056
和隐藏状态Ht沿通道维度进行拼接,得到新的正常 视频特征;
S404、根据新的正常视频特征利用解码器生成未来帧。
上述进一步方案的有益效果是:本发明综合预测分支提取的包含上下文信 息的特征(如细胞状态、隐藏状态)与记忆分支提取到的记忆特征,并利用注 意力优化得到正常视频特征,提升模型提取正常帧特征的能力。
再进一步地,所述记忆特征
Figure RE-GDA0003690203240000061
的表达式如下:
Figure RE-GDA0003690203240000062
其中,
Figure BDA0003596701050000063
表示位置相乘。
上述进一步方案的有益效果是:本发明利用注意力优化记忆特征,使得记 忆特征集中在注意力权重较大的区域。
再进一步地,所述步骤S5中模型的损失函数的表达式如下:
L=LprecLcompactsLseparate
Figure BDA0003596701050000064
其中,L表示模型的损失函数,Lpre、Lcompact和Lseparate分别表示预测损失函数、 特征紧凑损失和特征分离损失,λc和λs分别表示权重系数。
上述进一步方案的有益效果是:本发明综合三种损失函数,使得模型预测 的未来帧与真实的未来帧尽可能的相似,提升了模型预测未来帧的能力。
本发明提供还一种基于双分支网络的视频异常检测系统,包括:
输入模块,用于将正常视频的连续t帧分别作为预测分支和记忆分支的输;
第一处理模块,用于通过所述记忆分支利用3D卷积神经网络学习正常视频 流的特征信息,并计算得到特征分离损失和特征紧凑损失;
第二处理模块,用于通过所述预测分支利用2D卷积神经网络提取视频帧的 外观特征,并根据外观特征,利用ConvLSTM提取上下文信息得到细胞状态和 隐藏状态;
第三处理模块,用于根据学习的正常视频流的特征信息、细胞状态和隐藏 状态生成新的正常视频特征,并根据所述新的正常视频特征利用解码器生成未 来帧;
训练模块,用于利用所述未来帧的均方预测损失、特征分离损失和特征紧 凑损失对模型进行训练;
检测模块,用于根据训练后的模型,利用未来帧的均方预测损失计算异常 得分,并根据异常得分判别帧是否异常,完成视频异常的检测。
本发明的有益效果是:本发明为了提取视频流的时间上下文信息以及提升 异常检测的精度,采用堆叠的ConvLSTM网络作为预测分支和3D卷积网络作 为记忆分支的双分支网络,解决了深度网络泛化能力过强而导致的预测的异常 帧与其真值之间的误差较小的问题。
附图说明
图1为本发明的方法流程图。
图2为本发明的检测示意图。
图3为本实施例中基于Ped1数据集的ROC曲线示意图。
图4为本实施例中基于Ped2数据集的ROC曲线示意图。
图5为本实施例中基于Avenue数据集的ROC曲线示意图。
图6为本发明的系统结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理 解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的 普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精 神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保 护之列。
实施例1
鉴于现实生活中异常情况多种多样,收集和标注所有异常事件几乎是一件 不可能的事情,这使得传统的二分类方法在此不适用,此外,它很难以明确界 定异常情况。目前,现有技术主要利用无监督方法来进行异常检测,即训练视 频仅包含正常样本数据。现有的技术将视频异常检测任务转换为视频帧预测或 者帧重构任务,这是因为异常视频的帧预测误差和帧重构误差相比于正常视频 大。随着深度学习的发展,卷积神经网络广泛运用在异常检测领域,然而深度 网络的泛化能力过强,随着网络训练过程的推进,网络不仅能很好的重构、预 测正常数据也可以重构、预测异常数据。本发明通过构造双分支网络提高了对 异常检测的效率,该双分支网络包含两个分支:根据输入帧预测未来帧的预测 分支和提取紧凑且分散的正常模式特征的记忆分支。如图1所示,本发明提供 了一种基于双分支网络的视频异常检测方法,其实现方法如下:
S1、将正常视频的连续t帧分别作为预测分支和记忆分支的输入;
本实施例中,将正常视频的连续t帧I={I1,I2,...,It}作为两个分支的输入来进行模型训练,其中,It表示第t帧正常视频帧。
本实施例中,首先对视频帧做预处理操作,包括将每一帧的尺寸大小调整 为256×256、像素值大小调整到[-1,1]的范围。
本实施例中,训练集只包含正常样本数据,测试集为有标签的样本(包含 正常与异常数据)。
S2、通过所述记忆分支利用3D卷积神经网络学习正常视频流的特征信息, 并计算得到特征分离损失和特征紧凑损失,其实现方法如下:
S201、通过3D卷积神经网络利用6个3D卷积操作对正常视频的连续t帧 进行特征提取,得到时空特征
Figure BDA0003596701050000091
其中,ZM表示时空特征,zl M表示局部特征,用作寻址,且zl M∈Rc,Rc表示长度为通道数c的向量,Rw×h×c表 示时空特征的尺寸,w表示时空特征的宽度,h表示时空特征的长度,l表示局 部特征的数量;
S202、基于所述记忆分支,初始化s个记忆向量为
Figure BDA0003596701050000092
并根据 局部特征zl M和记忆向量mi,计算得到记忆特征Fmem
S203、利用两层反卷积对所述记忆特征Fmem进行卷积操作,得到新的记忆特 征
Figure RE-GDA0003690203240000093
S204、计算得到局部特征zl M与记忆向量mi间的特征分离损失和特征紧凑损 失。
本实施例中,步骤S2包含四个子步骤,其一为特征提取;其二为获取记忆; 其三为空间对称;其四为计算特征紧凑损失和特征分离损失:
第一,3D卷积神经网络使用6个3D卷积操作对连续t帧I={I1,I2,...,It}进行 特征提取,得到的时空特征为
Figure BDA0003596701050000094
局部特征zl M∈Rc被用来作为 寻址特征。
第二,初始化s个记忆项为
Figure BDA0003596701050000095
其中,mi∈Rc表示一个记忆项。 寻址向量
Figure BDA0003596701050000096
用于寻址记忆M,寻址向量通过式(1)可获得。在式(1) 式中exp(.)/∑exp(.)表示softmax函数,将寻址向量与记忆项矩阵进行相乘得到新 的记忆特征Fmem,如式(2)和(3)。
Figure BDA0003596701050000097
Figure BDA0003596701050000098
Figure BDA0003596701050000099
其中,Fmem表示记忆特征,fl mem表示局部记忆特征,w'表示记忆特征的宽度,h'表示记忆特征的高度,l表示局部记忆特征的数量,R'w'×h'×c'表示记忆特征的尺 寸,al-i表示局部特征zl M与第i个记忆向量间的寻址向量,mi表示记忆向量M中 的第i个记忆向量,(mi)T表示mi的转置,c表示记忆特征通道数。
第三,为了使记忆特征能在预测分支上使用,利用两层的反卷积操作处理 第二步骤的记忆特征
Figure RE-GDA0003690203240000101
第四,计算记忆项与寻址特征之间的特征分离损失Lseparate与特征紧凑损失Lcompact。特性紧凑损失鼓励查询接近记忆中最近的项,从而减少类内变化。使用 特征紧凑损失训练我们的模型只会使所有记忆项相似,因此所有查询都紧密地 映射在记忆空间中,失去了记录各种正常模式的能力。在式(4)中的特征紧凑 损失使得所有查询和内存项彼此接近,从而导致所有记忆项都相似。然而,记 忆项应该彼此足够远,以考虑正常数据的各种模式。为了在获得紧凑的特征表 示时防止此问题,本发明提出了一种特征分离损失。
Figure BDA0003596701050000102
其中p由式(5)获得。
Figure BDA0003596701050000103
Figure BDA0003596701050000104
本发明利用n表示查询zl M的第二个最近记忆项的索引:
Figure BDA0003596701050000105
其中,Lcompact表示特征分离损失,mp表示与局部特征最接近的记忆向量,p 表示与局部特征最接近的记忆向量的索引,Lseparate表示特征紧凑损失,mn与局部 特征接近的记忆向量,α表示一个大于0的常数,n表示与局部特征接近的记忆 向量的索引。
S3、通过所述预测分支利用2D卷积神经网络提取视频帧的外观特征,并根 据外观特征,利用ConvLSTM提取上下文信息得到细胞状态和隐藏状态,其实 现方法如下:
S301、通过所述预测分支,将输入序列的每一帧独立发送至具有2D卷积的 空间编码器Esp,提取视频帧的外观特征;
S302、根据每一帧的外观特征,利用ConvLSTM网络提取帧之间的上下文 信息,得到细胞状态Ct和隐藏状态Ht
S4、根据步骤S2学习的正常视频流的特征信息,以及步骤S3得到的细胞 状态和隐藏状态生成新的正常视频特征,并根据所述新的正常视频特征利用解 码器生成未来帧,其实现方法如下:
S401、将所述细胞状态Ct和新的记忆特征
Figure RE-GDA0003690203240000111
沿通道维度进行拼接,得到 基于通道的注意力At mem
S402、根据所述注意力At mem和新的记忆特征
Figure RE-GDA0003690203240000112
计算得到通道优化后的 记忆特征
Figure RE-GDA0003690203240000113
S403、将记忆特征
Figure RE-GDA0003690203240000114
和隐藏状态Ht沿通道维度进行拼接,得到新的正常 视频特征;
S404、根据新的正常视频特征利用解码器生成未来帧。
本实施例中,预测分支的任务可以表述为如下:目标是优化预测函数F,使 生成的下一帧
Figure BDA0003596701050000115
对于给定的前一个序列I,与实际的下一帧It+1相似。图2显示 了在推断阶段提出的视频异常检测的总体框架。输入序列通过两条路径来预测 未来的帧,一个(图2的下方路径)用于获取正常模式紧凑且分离的记忆特征, 另一个(图2的上方路径)用于使用记忆特征反复预测帧:由图可知,记忆分 支首先利用运动编码器对输入序列进行编码得到时空特征ZM,然后基于记忆M 与时空特征ZM生成记忆特征Fmem;预测分支首先利用空间编码器对输入序列的 每一帧进行编码得到外观特征,然后外观特征被传送至ConvLSTM网络以此提 取输入流的时间特征,细胞状态Ct与记忆特征沿着通道方向拼接,拼接后的特 征经过全连接层得到注意力权重,注意力权重与记忆特征相乘得到优化后的记 忆特征,最后将优化后的记忆特征与隐藏状态Ht沿着通道方向拼接,拼接后的 特征传送到解码器以此预测未来帧。
第一,输入序列的每一帧独立地馈送到具有2D卷积的空间编码器Esp,以 提取外观特征。
第二,ConvLSTM网络以时间步长顺序接收每个提取的空间特征ft sp=Esp(It) 作为输入,从ConvLSTM的循环处理中获得细胞状态Ct∈Rh,w,c和隐藏状态 Ht∈Rh,w,c,其中,ft sp表示第t帧的编码特征,It表示第t帧正常帧,Esp(g)表示编 码函数,Rh,w,c表示尺寸为(h,w,c)的三维立方体。
第三,由于细胞状态Ct包含输入序列从过去到现在的信息,因此本发明使用 细胞状态Ct细化记忆特征
Figure RE-GDA0003690203240000121
以便在当前步骤嵌入所需的运动上下文。细胞状 态Ct和记忆特征
Figure RE-GDA0003690203240000122
沿着通道维度进行拼接,拼接后的特征经过完全连接层来得 到基于通道的注意力At mem。通道优化后的记忆特征由式(8)得到,其中
Figure RE-GDA0003690203240000123
表 示对应位置相乘。
Figure RE-GDA0003690203240000124
第四,优化后的记忆特征
Figure RE-GDA0003690203240000125
与Ht沿着通道方向拼接,拼接后的新特 征作为解码器的输入来预测t+1帧。
S5、利用所述未来帧的均方预测损失、特征分离损失和特征紧凑损失对模 型进行训练;
模型的损失函数的表达式如下:
L=LprecLcompactsLseparate
Figure BDA0003596701050000131
其中,L表示模型的损失函数,Lpre、Lcompact和Lseparate分别表示预测损失函数、 特征紧凑损失和特征分离损失,λc和λs分别表示权重系数。
S6、根据训练后的模型,利用未来帧的均方预测损失计算异常得分,并根 据异常得分判别帧是否异常,完成视频异常的检测。
本实施例中,用预测误差来刻画预测出的未来帧
Figure BDA0003596701050000132
和它的真实的未来帧It+1之间的均方误差,本发明使用峰值信号来刻画:
Figure BDA0003596701050000133
最终的正常得分由预测误差进行归一化后得到:
Figure BDA0003596701050000134
其中,
Figure BDA0003596701050000135
表示
Figure BDA0003596701050000136
与It+1间的峰值信噪比,log10表示以10为底的对数 函数,
Figure BDA0003596701050000137
表示
Figure BDA0003596701050000138
的最大像素值,It+1表示真实的第t+1帧,
Figure BDA0003596701050000139
表示预测的 第t+1帧,N表示一帧中的像素总数,S(t+1)表示正常得分,P(g)表示计算峰值 信号函数,
Figure BDA00035967010500001310
表示一段测试视频中最小的峰值信噪比,
Figure BDA00035967010500001311
表示预测的第 t帧,It表示真实的第t帧,
Figure BDA00035967010500001312
表示一段测试视频中最大的峰值信噪比。
下面对本发明作进一步地说明。
本发明所述的一种基于多尺度视频异常检测方法,如图2所示,本发明框 架主要分为三个部分:(a)记忆分支生成紧凑、分散的记忆向量,然后形成记 忆特征,提升网络对正常帧的预测能力,削弱网络对异常帧的预测能力;(b) 预测分支首先提取时空特征,综合该特征与记忆特征形成新的正常模式特征, 最后基于该特征预测未来帧;(c)综合未来帧的均方预测损失和记忆模块的特 征分离损失、特征紧凑损失来训练该网络。具体步骤分别阐述如下:
(1)利用3D卷积神经网络时空特征提取器将相邻多帧作为输入,提取低 维度的时空特征ZM,然后利用记忆模块生成记忆向量M并作为本发明设计的整 个网络模型的参数参与到网络更新过程中,最后利用记忆向量生成记忆特征 Fmem
(2)利用2D卷积神经网络外观特征提取器将相邻多帧作为输入,提取低 维度的时空特征,将每一帧的外观特征输送至四层ConvLSTM网络中,提取帧 之间的上下文信息以获得细胞状态Ct和隐藏状态Ht,并沿着通道方向拼接细胞 状态Ct与记忆特征Fmem,基于这个拼接后的新特征利用线性层得到注意力权重 At mem,将注意力权重At mem与记忆特征
Figure RE-GDA0003690203240000141
相乘得到新的记忆特征
Figure RE-GDA0003690203240000142
再将新的 记忆特征
Figure RE-GDA0003690203240000143
与隐藏状态Ht沿着通道方向拼接作为解码器的输入完成帧的预测 功能。
本实施例中,本发明提出的方法在三个公开数据集上与目前最前沿的视频 异常检测算法进行比较。UCSD Ped1数据集由34段正常训练视频样本和36段 测试视频样本组成,其异常事件包括滑滑板、骑自行车等;UCSD Ped2数据集 由16段正常训练视频样本和12段测试视频样本组成,其异常事件包括骑自行 车、车辆行驶等;CUHK Avenue数据集由16段正常训练视频样本和21段测试 视频样本组成,其异常事件包括抛物体、奔跑等,训练集只包含正常行为,测 试集中的某一帧可能存在或不存在异常行为。
本实施例中,本发明在帧级别使用AUC(曲线下面积)作为评估指标。受 试者工作曲线(Receiver Operating Characteristic,ROC)下面积的累积结果为AUC 值。较高的AUC值表示更好的异常检测性能。当出现异常模式(如车辆入侵) 时,视频帧的常规分数降低,正常得分S(t+1)值越高,代表解码器所预测的图片 质量越好,其预测帧的值越接近于地面真实值,表明该帧更可能为正常事件, 否则视为异常事件。正常得分S(t+1)越高、AUC的值将越高,整体比较效果如 表1所示。AUC值越大,则模型性能越好。具体的ROC曲线图如图3-5。图3 为本发明在UCSD Ped1数据集上的实验结果,由图可知,ROC曲线下的面积大 于0.5,也即该模型在UCSD Ped1数据集上具有分类效果。图4为本发明在UCSD Ped2数据集上的实验结果,由图可知,ROC曲线下的面积大于0.5,也即该模 型在UCSD Ped2数据集上具有分类效果。图5为本发明在Avenue数据集上的 实验结果,由图可知,ROC曲线下的面积大于0.5,也即该模型在Avenue数据 集上具有分类效果。由此可见,本发明所提出的基于双分支的视频异常检测算 法优于现在的方法,特别在UCSD Ped2数据集上,本发明的算法的AUC分数高达95.3%,与其他方法相比有明显提高,证明了利用记忆分支提取正常模式 的多种多样的紧凑且分散的特征的有效性。
表1
Figure BDA0003596701050000151
实施例2
如图6所示,本发明提供了一种基于双分支网络的视频异常检测系统,包 括:
输入模块,用于将正常视频的连续t帧分别作为预测分支和记忆分支的输;
第一处理模块,用于通过所述记忆分支利用3D卷积神经网络学习正常视频 流的特征信息,并计算得到特征分离损失和特征紧凑损失;
第二处理模块,用于通过所述预测分支利用2D卷积神经网络提取视频帧的 外观特征,并根据外观特征,利用ConvLSTM提取上下文信息得到细胞状态和 隐藏状态;
第三处理模块,用于根据学习的正常视频流的特征信息、细胞状态和隐藏 状态生成新的正常视频特征,并根据所述新的正常视频特征利用解码器生成未 来帧;
训练模块,用于利用所述未来帧的均方预测损失、特征分离损失和特征紧 凑损失对模型进行训练;
检测模块,用于根据训练后的模型,利用未来帧的均方预测损失计算异常 得分,并根据异常得分判别帧是否异常,完成视频异常的检测。
如图6所示实施例提供的一种基于双分支网络的视频异常检测系统可以执 行上述方法实施例一种基于双分支网络的视频异常检测方法所示的技术方案, 其实现原理与有益效果类似,此处不再赘述。
本实施例中,本申请可以根据一种基于双分支网络的视频异常检测方法进 行功能单元的划分,例如可以将各个功能划分为各个功能单元,也可以将两个 或两个以上的功能集成在一个处理单元中。上述集成单元即可以采用硬件的形 式来实现,也可以采用软件功能单元的形式来实现。需要说明的是,本发明中 对单元的划分是示意性的,仅仅为一种逻辑划分,实际实现时可以有另外的划 分方式。
本实施例中,一种基于双分支网络的视频异常检测系统为了实现一种基于 双分支网络的视频异常检测方法的原理与有益效果,其包含了执行各个功能相 应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本发明 所公开的实施例描述的各示意单元及算法步骤,本发明能够以硬件和/或硬件和 计算机软件结合的形式来实现,某个功能以硬件还是计算机软件驱动的方式来 执行,取决于技术方案的特定应用和设计约束条件,可以对每个特定的应用来 使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请的范 围。
本实施例中,本发明为了提取视频流的时间上下文信息以及提升异常检测 的精度,采用堆叠的ConvLSTM网络作为预测分支和3D卷积网络作为记忆分 支的双分支网络,解决了深度网络泛化能力过强而导致的预测的异常帧与其真 值之间的误差较小的问题。
以上所述仅为本发明的较佳实施例而已,并不会限制本发明,凡在本发明 的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的 保护范围之内。

Claims (9)

1.一种基于双分支网络的视频异常检测方法,其特征在于,包括以下步骤:
S1、将正常视频的连续t帧分别作为预测分支和记忆分支的输入;
S2、通过所述记忆分支利用3D卷积神经网络学习正常视频流的特征信息,并计算得到特征分离损失和特征紧凑损失;
S3、通过所述预测分支利用2D卷积神经网络提取视频帧的外观特征,并根据外观特征,利用ConvLSTM提取上下文信息得到细胞状态和隐藏状态;
S4、根据步骤S2学习的正常视频流的特征信息,以及步骤S3得到的细胞状态和隐藏状态生成新的正常视频特征,并根据所述新的正常视频特征利用解码器生成未来帧;
S5、利用所述未来帧的均方预测损失、特征分离损失和特征紧凑损失对模型进行训练;
S6、根据训练后的模型,利用未来帧的均方预测损失计算异常得分,并根据异常得分判别帧是否异常,完成视频异常的检测。
2.根据权利要求1所述的基于双分支网络的视频异常检测方法,其特征在于,所述步骤S2包括以下步骤:
S201、通过3D卷积神经网络利用6个3D卷积操作对正常视频的连续t帧进行特征提取,得到时空特征
Figure RE-FDA0003690203230000011
其中,ZM表示时空特征,zl M表示局部特征,用作寻址,且zl M∈Rc,Rc表示长度为通道数c的向量,Rw×h×c表示时空特征的尺寸,w表示时空特征的宽度,h表示时空特征的长度,l表示局部特征的数量;
S202、基于所述记忆分支,初始化s个记忆向量为
Figure RE-FDA0003690203230000012
并根据局部特征zl M和记忆向量mi,计算得到记忆特征Fmem
S203、利用两层反卷积对所述记忆特征Fmem进行卷积操作,得到新的记忆特征
Figure RE-FDA0003690203230000021
S204、计算得到局部特征zl M与记忆向量mi间的特征分离损失和特征紧凑损失。
3.根据权利要求2所述的基于双分支网络的视频异常检测方法,其特征在于,所述步骤S202中记忆特征Fmem的表达式如下:
Figure FDA0003596701040000022
Figure FDA0003596701040000023
Figure FDA0003596701040000024
其中,Fmem表示记忆特征,fl mem表示局部记忆特征,w'表示记忆特征的宽度,h'表示记忆特征的高度,l表示局部记忆特征的数量,R'w'×h'×c'表示记忆特征的尺寸,al-i表示局部特征zl M与第i个记忆向量间的寻址向量,mi表示记忆向量M中的第i个记忆向量,(mi)T表示mi的转置,c表示记忆特征通道数。
4.根据权利要求3所述的基于双分支网络的视频异常检测方法,其特征在于,所述步骤S204中特征分离损失的表达式如下:
Figure FDA0003596701040000025
Figure FDA0003596701040000026
其中,Lcompact表示特征分离损失,mp表示与局部特征最接近的记忆向量,p表示与局部特征最接近的记忆向量的索引;
所述特征紧凑损失的表达式如下:
Figure FDA0003596701040000027
Figure FDA0003596701040000028
其中,Lseparate表示特征紧凑损失,mn与局部特征接近的记忆向量,α表示一个大于0的常数,n表示与局部特征接近的记忆向量的索引。
5.根据权利要求4所述的基于双分支网络的视频异常检测方法,其特征在于,所述步骤S3包括以下步骤:
S301、通过所述预测分支,将输入序列的每一帧独立发送至具有2D卷积的空间编码器Esp,提取视频帧的外观特征;
S302、根据每一帧的外观特征,利用ConvLSTM网络提取帧之间的上下文信息,得到细胞状态Ct和隐藏状态Ht
6.根据权利要求5所述的基于双分支网络的视频异常检测方法,其特征在于,所述步骤S4包括以下步骤:
S401、将所述细胞状态Ct和新的记忆特征
Figure RE-FDA0003690203230000031
沿通道维度进行拼接,得到基于通道的注意力At mem
S402、根据所述注意力At mem和新的记忆特征
Figure RE-FDA0003690203230000032
计算得到通道优化后的记忆特征
Figure RE-FDA0003690203230000033
S403、将记忆特征
Figure RE-FDA0003690203230000034
和隐藏状态Ht沿通道维度进行拼接,得到新的正常视频特征;
S404、根据新的正常视频特征利用解码器生成未来帧。
7.根据权利要求6所述的基于双分支网络的视频异常检测方法,其特征在于,所述记忆特征
Figure RE-FDA0003690203230000035
的表达式如下:
Figure RE-FDA0003690203230000036
其中,
Figure RE-FDA0003690203230000037
表示位置相乘。
8.根据权利要求7所述的基于双分支网络的视频异常检测方法,其特征在于,所述步骤S5中模型的损失函数的表达式如下:
L=LprecLcompactsLseparate
Figure FDA0003596701040000041
其中,L表示模型的损失函数,Lpre、Lcompact和Lseparate分别表示预测损失函数、特征紧凑损失和特征分离损失,λc和λs分别表示权重系数。
9.一种基于双分支网络的视频异常检测系统,其特征在于,包括:
输入模块,用于将正常视频的连续t帧分别作为预测分支和记忆分支的输;
第一处理模块,用于通过所述记忆分支利用3D卷积神经网络学习正常视频流的特征信息,并计算得到特征分离损失和特征紧凑损失;
第二处理模块,用于通过所述预测分支利用2D卷积神经网络提取视频帧的外观特征,并根据外观特征,利用ConvLSTM提取上下文信息得到细胞状态和隐藏状态;
第三处理模块,用于根据学习的正常视频流的特征信息、细胞状态和隐藏状态生成新的正常视频特征,并根据所述新的正常视频特征利用解码器生成未来帧;
训练模块,用于利用所述未来帧的均方预测损失、特征分离损失和特征紧凑损失对模型进行训练;
检测模块,用于根据训练后的模型,利用未来帧的均方预测损失计算异常得分,并根据异常得分判别帧是否异常,完成视频异常的检测。
CN202210394205.7A 2022-04-14 2022-04-14 一种基于双分支网络的视频异常检测方法及系统 Pending CN114937222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210394205.7A CN114937222A (zh) 2022-04-14 2022-04-14 一种基于双分支网络的视频异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210394205.7A CN114937222A (zh) 2022-04-14 2022-04-14 一种基于双分支网络的视频异常检测方法及系统

Publications (1)

Publication Number Publication Date
CN114937222A true CN114937222A (zh) 2022-08-23

Family

ID=82862837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210394205.7A Pending CN114937222A (zh) 2022-04-14 2022-04-14 一种基于双分支网络的视频异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN114937222A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115663812A (zh) * 2022-12-26 2023-01-31 常州金坛金能电力有限公司 直流输电系统可靠性评估方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633180A (zh) * 2020-12-25 2021-04-09 浙江大学 一种基于对偶记忆模块的视频异常检测方法及系统
KR20210114163A (ko) * 2020-03-10 2021-09-23 한국전자통신연구원 비디오 영상 프레임의 세그먼팅을 이용한 이상 탐지 방법 및 이를 위한 장치
CN113569756A (zh) * 2021-07-29 2021-10-29 西安交通大学 异常行为检测与定位方法、系统、终端设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210114163A (ko) * 2020-03-10 2021-09-23 한국전자통신연구원 비디오 영상 프레임의 세그먼팅을 이용한 이상 탐지 방법 및 이를 위한 장치
CN112633180A (zh) * 2020-12-25 2021-04-09 浙江大学 一种基于对偶记忆模块的视频异常检测方法及系统
CN113569756A (zh) * 2021-07-29 2021-10-29 西安交通大学 异常行为检测与定位方法、系统、终端设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HYUNJONG PARK等: "Learning Memory-guided Normality for Anomaly Detection", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2020 *
SANGMIN LEE等: "Video Prediction Recalling Long-term Motion Context via Memory Alignment Learning", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2021 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115663812A (zh) * 2022-12-26 2023-01-31 常州金坛金能电力有限公司 直流输电系统可靠性评估方法及系统
CN115663812B (zh) * 2022-12-26 2023-03-14 常州金坛金能电力有限公司 直流输电系统可靠性评估方法及系统

Similar Documents

Publication Publication Date Title
Le et al. Attention-based residual autoencoder for video anomaly detection
CN111062297B (zh) 基于eann深度学习模型的暴力异常行为检测方法
CN108734095B (zh) 一种基于3d卷积神经网络的动作检测方法
CN111783540B (zh) 一种视频中人体行为识别方法和系统
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
Li et al. Attention-based anomaly detection in multi-view surveillance videos
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN113128360A (zh) 基于深度学习的司机驾驶行为检测与识别方法
Ji et al. Tam-net: Temporal enhanced appearance-to-motion generative network for video anomaly detection
CN114332053A (zh) 一种多模态两阶段无监督视频异常检测方法
CN114913396A (zh) 一种电机轴承故障诊断方法
CN113553954A (zh) 行为识别模型的训练方法及装置、设备、介质和程序产品
Zhou et al. Transformer-based multi-scale feature integration network for video saliency prediction
Majhi et al. DAM: Dissimilarity attention module for weakly-supervised video anomaly detection
CN114937222A (zh) 一种基于双分支网络的视频异常检测方法及系统
US20240062347A1 (en) Multi-scale fusion defogging method based on stacked hourglass network
Li et al. Multi-Branch GAN-based Abnormal Events Detection via Context Learning in Surveillance Videos
CN115171029B (zh) 基于无人驾驶的城市场景下的实例分割方法及系统
CN116721458A (zh) 一种基于跨模态时序对比学习的自监督动作识别方法
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN115170997A (zh) 一种基于帧预测的监控视频异常检测方法
Zhou et al. A multi-scale spatio-temporal network for violence behavior detection
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN114581738A (zh) 行为预测网络训练方法、系统及行为异常检测方法、系统
CN114565785A (zh) 一种基于三分支孪生网络的无监督视频异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220823