CN116152722A - 基于残差注意力块和自选择学习结合的视频异常检测方法 - Google Patents

基于残差注意力块和自选择学习结合的视频异常检测方法 Download PDF

Info

Publication number
CN116152722A
CN116152722A CN202310418890.7A CN202310418890A CN116152722A CN 116152722 A CN116152722 A CN 116152722A CN 202310418890 A CN202310418890 A CN 202310418890A CN 116152722 A CN116152722 A CN 116152722A
Authority
CN
China
Prior art keywords
cube
time
video
space
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310418890.7A
Other languages
English (en)
Other versions
CN116152722B (zh
Inventor
李群
潘许贝
肖甫
盛碧云
沙乐天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310418890.7A priority Critical patent/CN116152722B/zh
Publication of CN116152722A publication Critical patent/CN116152722A/zh
Application granted granted Critical
Publication of CN116152722B publication Critical patent/CN116152722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,公开了一种基于残差注意力模块和自选择学习结合的视频异常检测方法,包括采集原始视频并提取前后若干帧对象构建时空立方体;随机打乱时空立方体的空间或时间顺序,分别构造空间和时间拼图立方体;利用两种拼图立方体训练由两个预测分支组成的顺序预测模型,两个预测分支由残差注意力模块构建;利用自选择学习策略分别对两个预测分支的训练样本损失进行自选择学习,选中的样本损失参与梯度反向传播过程,多轮迭代训练得到一个完整的视频异常检测网络模型;对待测视频同样进行对象提取操作,不打乱顺序,直接输入到模型中计算预测得分,最终实现视频异常检测。本发明能使无监督视频异常检测的精度得到显著提高。

Description

基于残差注意力块和自选择学习结合的视频异常检测方法
技术领域
本发明属于计算机视觉技术领域,具体的说是涉及一种基于残差注意力块和自选择学习结合的视频异常检测方法。
背景技术
视频异常检测是计算机视觉领域一个活跃且有挑战性的任务,其目的是准确检测出视频图像中出现异常事件的视频帧,例如交通事故、火灾或打斗等异常事件,对于保障公共安全具有重要意义。但是异常事件发生的概率很低并且种类众多,因此无法利用传统完全有监督的方式对每一个训练样本进行标注学习。
根据监督方式的不同,目前主流的视频异常检测方法主要分为三大类:半监督视频异常检测、弱监督视频异常检测和无监督视频异常检测。
在半监督视频异常检测的方法中,训练集只包含正常事件,模型学习和捕捉正常事件包含的正常特征,因此当模型检测到异常事件时,由于异常事件未参与模型训练,会产生更大的检测偏差,从而实现对异常事件的检测,如HF方法(Liu, Z., Nie, Y., Long,C., Zhang, Q., Li, G. 一种基于记忆增强光流重建和光流引导视频帧预测的混合视频异常检测检测框架. 国际计算机视觉大会, 2021)。在弱监督视频异常检测的方法中,训练集既包含正常事件也包含异常事件,但是只有视频级的标签,其代表视频内容中是否包含异常事件。借助视频级的标签,弱监督视频异常检测可以大幅提高检测的精度,如MIST方法(Feng, J.-C.; Hong, F.-T.; and Zheng, W.-S. 用于视频异常检测的多实例自训练框架. 国际计算机视觉与模式识别会议, 2021)。但是半监督和弱监督的视频异常检测方法,都需要对训练集进行人工筛选以满足模型的要求,面对海量的视频数据,需要大量的人工和时间成本。因此不需要任何标签信息的无监督视频异常检测的方法越来越受到关注,其训练集既包含正常事件也包含异常事件,但是由于不存在人工过程,可以实现视频异常检测的完全自动化,但是这也是一个更有挑战性的任务。如GCL方法(Zaheer M Z, MahmoodA, Khan M H, et al. 用于无监督视频异常检测的生成式协同学习. 国际计算机视觉与模式识别会议, 2022.),但是现有的无监督方法模型泛化能力过强,异常事件不容易被检测出来,因此准确度不高。
发明内容
为了解决上述问题,本发明提供了一种基于全新残差注意力模块和自选择学习结合的视频异常检测方法,该方法使用所构建的全新残差注意力模块作为基础模块搭建预测分支网络,然后对训练样本进行自选择学习使模型聚焦于建模正常特征。
为了达到上述目的,本发明是通过以下技术方案实现:
本发明是一种基于残差注意力块和自选择学习结合的视频异常检测方法,该视频异常检测方法具体包括如下步骤:
S1:收集原始视频数据,利用对象检测器,提取前后若干视频帧的对象构建时间-空间立方体(时空立方体);
S2:随机打乱S1中时空立方体的空间或时间顺序,分别构建空间拼图立方体和时间拼图立方体;
S3:利用S2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型:空间预测分支和时间预测分支,其中两个预测分支均使用交叉熵损失指导训练过程;
S4:对模型先进行5轮的热启动训练,即两个预测分支的交叉熵损失跳过自选择学习阶段,直接执行S6中的梯度反向传播步骤;
S5:在S4中的热启动训练之后,其后的每一轮训练过程中,对于一个批次的训练样本损失,利用自选择学习策略分别对S3中两个分支的交叉熵损失进行自选择学习,剔除可疑的异常样本损失;
S6:所述S5步骤后剩余的样本损失参与梯度反向传播过程,更新网络参数,经过多轮迭代训练,得到最终的顺序预测模型;
S7:对待测视频进行所述S1中的对象提取操作,获得待测时空立方体;
S8:对于所述S7步骤获得的待测时空立方体,不打乱其空间和时间顺序,直接输入到S6训练得到的最终顺序预测模型中,通过比较,取模型所预测顺序得分的最小值,获得待测时空立方体的空间和时间预测得分;
S9:对所述S8中的两个预测得分进行整合,获得待测时空立方体最终的对象预测得分,对一帧待测视频图像中多个对象预测得分进行比较,取最小的对象得分作为最终的视频帧异常分数,对所有视频帧异常分数进行比较,异常分数偏低的视频帧判定为异常视频帧,从而实现视频异常检测。
其中,所述S1中对象提取操作的过程具体为:
S1-1:对于每一个视频帧,利用已训练好的YOLOv3对象检测器检测一帧图像中的对象,根据检测的置信度,只保留置信度较高的对象,并获得包含检测对象位置信息的锚框;
S1-2:以当前帧为中心,根据S1-1步骤中提取到的锚框,在时间连续的若干视频帧上提取相同位置的图像块;
S1-3:将提取的图像块以时间顺序堆叠,构成时间-空间立方体(时空立方体),其代表当前视频帧的一个基本的对象事件;
其中,所述S2中拼图立方体的构建过程具体为:
S2-1:对于一个时空立方体,在保持其时间顺序的同时,将对像块划分为若干个对象小块,打乱对象小块的顺序,构成空间拼图立方体;
S2-2:对于一个时空立方体,在保持其空间顺序的同时,对其时间顺序进行打乱,构成时间拼图立方体;
本发明的进一步改进在于:所述S3中顺序预测模型的空间预测分支和时间预测分支分别预测被打乱的空间顺序和时间顺序,两个预测分支具有相同的结构,均由连续多个全新残差注意力模块构建而成,其主要由残差模块、注意力模块和跳跃连接三部分组成。所述残差模块由2个3D卷积层、2个3D实例归一化层和1个ReLu激活函数构成;所述注意力模块包括1个全局池化层、2个全连接层、1个ReLu激活函数和1个Sigmoid激活函数;所述跳跃连接直接将输入残差注意力模块的特征图与卷积后的特征图相加,形成输出特征图,如果输出特征图尺寸发生变化,跳跃连接会使用步长为2的1*1卷积对输入特征图尺寸进行调整。
其中,所述S3中指导模型两个分支的训练的交叉熵损失函数具体为:
Figure SMS_1
其中,
Figure SMS_2
Figure SMS_3
分别为空间拼图立方体的对象小块数量和时间拼图立方体的时间长度,
Figure SMS_4
是计算交叉熵损失操作符,
Figure SMS_5
Figure SMS_6
分别为打乱后的空间顺序和模型预测的空间顺序,
Figure SMS_7
Figure SMS_8
分别为打乱后的时间顺序和模型预测的时间顺序。
本发明的进一步改进在于:所述S5中自选择学习策略的具体步骤如下:
S5-1:对于空间预测分支和时间预测分支的训练样本损失集
Figure SMS_9
Figure SMS_10
,按照从低到高的顺序分别对其进行排序,公式如下:
Figure SMS_11
其中,
Figure SMS_12
是递增排序操作符,
Figure SMS_13
Figure SMS_14
分别是排序后的样本损失集。
S5-2:空间预测分支和时间预测分支分别根据选择因子
Figure SMS_15
Figure SMS_16
,计算选择的损失数量,公式如下:
Figure SMS_17
其中,
Figure SMS_18
是向上取整操作符,
Figure SMS_19
Figure SMS_20
分别表示样本损失集
Figure SMS_21
Figure SMS_22
的样本数量,
Figure SMS_23
Figure SMS_24
分别表示应该选择学习的时间预测损失和空间预测损失的数量。
S5-3:在应用自选择策略学习前,每一轮模型训练的目标函数
Figure SMS_25
为:
Figure SMS_26
其中,
Figure SMS_27
是最小化操作符,
Figure SMS_28
Figure SMS_29
分别是样本损失集
Figure SMS_30
Figure SMS_31
Figure SMS_32
个样本损失。
在应用自选择学习策略后,每一轮模型训练的目标函数
Figure SMS_33
被调整如下式:
Figure SMS_34
其中,
Figure SMS_35
Figure SMS_36
分别是排序后的样本损失集
Figure SMS_37
Figure SMS_38
Figure SMS_39
个样本损失。
其中,所述S9中对象预测得分通过对两个分支的预测分数进行整合获得,
预测得分
Figure SMS_40
,计算公式如下:
Figure SMS_41
其中,
Figure SMS_42
Figure SMS_43
分别是空间预测分支和时间预测分支的预测分数,
Figure SMS_44
Figure SMS_45
分别是权重系数。
本发明的有益效果是:
(1)本发明属于无监督视频异常检测研究领域,不需要人工对数据集进行筛选,可以实现训练数据的即采即训,减少了大量的人工和时间成本,提高了视频异常检测的自动化程度和效率;
(2)本发明提出和构建了一个全新的残差注意力模块,以该模块为基础构建的双分支预测网络,通过对预测打乱顺序这一代理任务的学习,有效提高了模型捕捉和学习深层正常特征的能力。同时双分支结构的设计,能使得每个预测分支专注于解决各自的预测任务,进一步提高了预测的准确性;
(3)本发明针对无监督视频异常检测检测任务的特点,提出了自选择学习策略,能显著减少异常事件对模型的影响,使模型能专注于建模正常特征,大大提高了无监督视频异常检测的精度。
本发明构建了基于全新残差注意力模块的双分支顺序预测网络,该网络能有效捕捉和学习深层正常特征,结合提出的自选择学习策略,大幅降低了异常事件对模型的负面影响,能使无监督视频异常检测的精度得到显著提升。
附图说明
图1为本发明视频异常检测的流程图。
图2为本发明时空立方体的提取流程图。
图3为本发明拼图立方体的构建流程图。
图4为本发明全新残差注意力模块的网络模型结构图。
图5为本发明视频异常检测的网络模型结构图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
如图1所示,本发明是一种基于残差注意力块和自选择学习结合的视频异常检测方法,该视频异常检测方法具体包括如下步骤:
S1:收集原始视频数据,利用对象检测器,提取前后若干视频帧的对象构建时间-空间立方体(时空立方体);
S2:随机打乱S1中时空立方体的空间或时间顺序,分别构建空间拼图立方体和时间拼图立方体;
S3:利用S2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型:空间预测分支和时间预测分支,其中两个预测分支均使用交叉熵损失指导训练过程;
S4:对模型先进行5轮的热启动训练,即两个预测分支的交叉熵损失跳过自选择学习阶段,直接执行步骤6中的梯度反向传播步骤;
S5:在S4中的热启动训练之后,其后的每一轮训练过程中,对于一个批次的训练样本损失,利用自选择学习策略分别对S3中两个分支的交叉熵损失进行自选择学习,剔除可疑的异常样本损失;
S6:所述S5步骤后剩余的样本损失参与梯度反向传播过程,更新网络参数,经过多轮迭代训练,得到最终的顺序预测模型;
S7:对待测视频进行所述S1中的对象提取操作,获得待测时空立方体;
S8:对于所述S7步骤获得的待测时空立方体,不打乱其空间和时间顺序,直接输入到S6训练得到的最终顺序预测模型中,通过比较,取模型所预测顺序得分的最小值,获得待测时空立方体的空间和时间预测得分;
S9:对所述S8中的两个预测得分进行整合,获得待测时空立方体最终的对象预测得分,对一帧待测视频图像中多个对象预测得分进行比较,取最小的对象得分作为最终的视频帧异常分数,对所有视频帧异常分数进行比较,异常分数偏低的视频帧判定为异常视频帧,从而实现视频异常检测;
实施例一
A、试验条件
1、实验数据库
本实施例在Ped2、Avenue和ShanghaiTech三个数据集上进行训练和测试。这三个数据集原先为半监督视频异常检测所设计,因此为适应无监督视频异常检测的需要,对数据集进行了重新划分,划分后的详细介绍见如下表1。
表1 数据集的详细介绍
Figure SMS_46
2、实验参数设置
模型固定参数设置如下表2所示:
表2 模型固定参数
Figure SMS_47
具体的,视频异常检测方法包括如下步骤:
S1:采集原始视频构建训练集,本实施例在常用的Ped2、Avenue和ShanghaiTech数据集上分别进行了实验,利用对象检测器提取视频帧中的对象,构建时间-空间立方体即时空立方体,如图2所示,其构建步骤如下:
S1-1:对于每一个视频帧,利用已训练好的YOLOv3对象检测器检测一帧图像中的对象,根据检测的置信度,只保留置信度较高的对象,并获得包含检测对象位置信息的锚框;
S1-2:以当前帧为中心,根据S1-1步骤中提取到的锚框,在时间连续的若干视频帧上提取相同位置的图像块;
S1-3:将提取的图像块以时间顺序堆叠,构成时间-空间立方体即时空立方体,其代表当前视频帧的一个基本的对象事件;
S2:随机打乱所述S1中时空立方体的空间或时间顺序,分别构建空间拼图立方体和时间拼图立方体,如图3所示,拼图立方体的构建过程具体如下:
S2-1:对于一个时空立方体,在保持其时间顺序的同时,将对像块划分为若干个对象小块,打乱对象小块的顺序,构成空间拼图立方体;
S2-2:对于一个时空立方体,在保持其空间顺序的同时,对图像的时间顺序进行打乱,构成时间拼图立方体;
S3:利用S2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型:空间预测分支和时间预测分支。两个预测分支的任务分别是预测被打乱的空间顺序和时间顺序,双分支均具有相同的结构,即均由连续多个全新残差注意力模块构建而成,两个预测分支均使用交叉熵损失指导训练过程。
如图4所示,全新残差注意力模块的组成结构为:其由残差模块、注意力模块和跳跃连接三部分组成。残差模块由2个3D卷积层、2个3D实例归一化层和1个ReLu激活函数构成;注意力模块包括1个全局池化层、2个全连接层、1个ReLu激活函数和1个Sigmoid激活函数;跳跃连接直接将输入残差注意力模块的特征图与卷积后的特征图相加,形成输出特征图,如果输出特征图尺寸发生变化,跳跃连接会使用步长为2的1*1卷积对输入特征图尺寸进行调整。
指导模型两个分支的训练的交叉熵损失函数
Figure SMS_48
Figure SMS_49
分别如下式:
Figure SMS_50
其中,
Figure SMS_51
Figure SMS_52
分别为空间拼图立方体的对象小块数量和时间拼图立方体的时间长度,
Figure SMS_53
是计算交叉熵损失操作符,
Figure SMS_54
Figure SMS_55
分别为打乱后的空间顺序和模型预测的空间顺序,
Figure SMS_56
Figure SMS_57
分别为打乱后的时间顺序和模型预测的时间顺序;
S4:对模型先进行5轮的热启动训练,即两个预测分支的交叉熵损失跳过自选择学习阶段,直接执行S6中的梯度反向传播操作;
S5:在S4中的热启动训练之后,其后的每一轮训练过程中,对于一个批次的训练样本损失,利用自选择学习策略分别对S3中两个分支的交叉熵损失进行自选择学习,剔除可疑的异常样本损失;
所述S5中自选择学习策略的具体步骤如下:
S5-1:对于两个空间和时间预测分支的训练样本损失集
Figure SMS_58
Figure SMS_59
,按照从低到高的顺序分别对其进行排序,公式如下:
Figure SMS_60
其中,
Figure SMS_61
是排序操作符,
Figure SMS_62
Figure SMS_63
分别是排序后的样本损失集。
S5-2:两个预测分支分别根据选择因子
Figure SMS_64
Figure SMS_65
,计算选择的损失数量,公式如下:
Figure SMS_66
其中,其中,
Figure SMS_67
是向上取整操作符,
Figure SMS_68
Figure SMS_69
分别表示样本损失集
Figure SMS_70
Figure SMS_71
的样本数量,
Figure SMS_72
Figure SMS_73
分别表示应该选择学习的时间预测损失和空间预测损失的数量。
S5-3:在应用自选择策略学习前,每一轮模型训练的目标函数
Figure SMS_74
为:
Figure SMS_75
其中,
Figure SMS_76
是最小化操作符,
Figure SMS_77
Figure SMS_78
分别是样本损失集
Figure SMS_79
Figure SMS_80
Figure SMS_81
个样本损失。
在应用自选择学习策略后,每一轮模型训练的目标函数
Figure SMS_82
被改变如下是:
Figure SMS_83
其中,
Figure SMS_84
Figure SMS_85
分别是排序后的样本损失集
Figure SMS_86
Figure SMS_87
Figure SMS_88
个样本损失。
S6:所述S5步骤后剩余的样本损失参与梯度反向传播过程,更新网络参数,经过多轮迭代训练,得到最终的顺序预测模型,如图5所示;
S7:对待测视频进行S1中的对象提取操作,获得待测时空立方体;
S8:对于所述S7步骤获得的待测时空立方体,不打乱其空间和时间顺序,直接输入到S6训练得到的最终顺序预测模型中,通过比较,取模型所预测顺序得分的最小值,获得待测时空立方体的空间和时间预测得分;
S9:对所述S8中的两个预测得分进行整合,获得待测时空立方体最终的对象预测得分,其得分
Figure SMS_89
计算公式如下:
Figure SMS_90
其中,
Figure SMS_91
Figure SMS_92
分别是空间预测分支和时间预测分支的预测分数,
Figure SMS_93
Figure SMS_94
分别是权重系数。
对一帧待测视频图像中多个对象预测得分进行比较,取最小的对象得分作为最终的视频帧异常分数,对所有视频帧异常分数进行比较,异常分数偏低的视频帧判定为异常视频帧。
B、试验结果评价标准
为了效果评估的公平性,和大多数视频异常检测检测的工作一样,本发明选择受试者工作特征曲线下的面积(AUC)作为评价指标,其反映了预测的正常视频帧得分排在异常视频帧得分前面的概率,AUC的值越高,模型的效果越好。
C、对比试验方案
本实施例在Ped2、Avenue和ShanghaiTech三个数据集上与其他目前前沿的异常检测方法进行了对比,对比结果如表3所示。
表3 视频异常检测效果对比 AUC(%)
Figure SMS_95
STL-RANet是本发明提出的视频异常检测方法,在表3中我们可以看到,相比于前沿的方法,本发明的方法在三个数据集上的效果均实现了最好的效果。在Ped2和Avenue数据集上相比于效果第二的方法分别获得了1.4%和3.2%的效果提升。在ShanghaiTech数据集上,本发明的视频异常检测方法首次突破了80%,效果达到了80.9%。除此之外,与半监督的方法对比,本发明的方法的效果依然具有非常不错的效果。除此之外,本发明的方法不需要人工筛选数据集,可以避免大量的人工和时间成本,因此,本发明的方法相比于半监督的方法具有更大的优势。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (8)

1.一种基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:所述视频异常检测方法包括如下步骤:
步骤1:收集原始视频数据,利用对象检测器,提取前后若干视频帧的对象构建时间-空间立方体即时空立方体;
步骤2:随机打乱步骤1中时空立方体的空间或时间顺序,分别构建空间拼图立方体和时间拼图立方体;
步骤3:利用步骤2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型:空间预测分支和时间预测分支,其中所述空间预测分支和所述时间预测分支均使用交叉熵损失指导训练过程;
步骤4:对模型先进行5轮的热启动训练,即空间预测分支和时间预测分支的交叉熵损失跳过自选择学习阶段,直接执行步骤6的梯度反向传播步骤;
步骤5:在步骤4中的热启动训练之后,其后的每一轮训练过程中,对于一个批次的训练样本损失,利用自选择学习策略分别对步骤3中两个分支的交叉熵损失进行自选择学习,剔除可疑的异常样本损失;
步骤6:所述步骤5后剩余的样本损失参与梯度反向传播过程,更新网络参数,经过多轮迭代训练,得到最终的顺序预测模型;
步骤7:对待测视频进行步骤1中的对象提取操作,获得待测时空立方体;
步骤8:对于步骤7获得的待测时空立方体,不打乱其空间顺序和时间顺序,直接输入到步骤6训练得到的最终顺序预测模型中,通过比较,取模型所预测顺序得分的最小值,获得待测时空立方体的空间和时间预测得分;
步骤9:对步骤8中的两个预测得分进行整合,获得待测时空立方体最终的对象预测得分,对一帧待测视频图像中多个对象预测得分进行比较,取最小的对象得分作为最终的视频帧异常分数,对所有视频帧异常分数进行比较,异常分数偏低的视频帧判定为异常视频帧,从而实现视频异常检测。
2.根据权利要求1所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:步骤3中,顺序预测模型的所述空间预测分支和所述时间预测分支分别预测被打乱的空间顺序和时间顺序,所述空间预测分支和所述时间预测分支具有相同的结构,均由连续多个全新残差注意力模块构建而成。
3.根据权利要求2所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:所述全新残差注意力模块由残差模块、注意力模块和跳跃连接三部分组成,所述残差模块由2个3D卷积层、2个3D实例归一化层和1个ReLu激活函数构成,所述注意力模块包括1个全局池化层、2个全连接层、1个ReLu激活函数和1个Sigmoid激活函数,所述跳跃连接直接将输入残差注意力模块的特征图与卷积后的特征图相加,形成输出特征图。
4.根据权利要求1或3所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:步骤3中所述空间预测分支和所述时间预测分支训练过程中使用的交叉熵损失函数具体为:
Figure QLYQS_1
其中,
Figure QLYQS_2
Figure QLYQS_3
分别为空间拼图立方体的对象小块数量和时间拼图立方体的时间长度,
Figure QLYQS_4
是计算交叉熵损失操作符,
Figure QLYQS_5
Figure QLYQS_6
分别为打乱后的空间顺序和模型预测的空间顺序,
Figure QLYQS_7
Figure QLYQS_8
分别为打乱后的时间顺序和模型预测的时间顺序。
5.根据权利要求4所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:所述步骤5中,自选择学习策略的具体包括如下步骤:
步骤5-1:对于空间预测分支和时间预测分支的训练样本损失集
Figure QLYQS_9
Figure QLYQS_10
,按照从低到高的顺序分别对其进行排序,公式如下:
Figure QLYQS_11
其中,
Figure QLYQS_12
是递增排序操作符,
Figure QLYQS_13
Figure QLYQS_14
分别是排序后的样本损失集;
步骤5-2:空间预测分支和时间预测分支分别根据选择因子
Figure QLYQS_15
Figure QLYQS_16
,计算选择的损失数量,公式如下:
Figure QLYQS_17
其中,
Figure QLYQS_18
是向上取整操作符,
Figure QLYQS_19
Figure QLYQS_20
分别表示样本损失集
Figure QLYQS_21
Figure QLYQS_22
的样本数量,
Figure QLYQS_23
Figure QLYQS_24
分别表示应该选择学习的时间预测损失和空间预测损失的数量;
步骤5-3:在应用自选择策略学习前,每一轮模型训练的目标函数
Figure QLYQS_25
为:
Figure QLYQS_26
其中,
Figure QLYQS_27
是最小化操作符,
Figure QLYQS_28
Figure QLYQS_29
分别是样本损失集
Figure QLYQS_30
Figure QLYQS_31
Figure QLYQS_32
个样本损失,在应用自选择学习策略后,每一轮模型训练的目标函数
Figure QLYQS_33
被调整如下式:
Figure QLYQS_34
其中,
Figure QLYQS_35
Figure QLYQS_36
分别是排序后的样本损失集
Figure QLYQS_37
Figure QLYQS_38
Figure QLYQS_39
个样本损失。
6.根据权利要求1所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:所述步骤1中利用对象检测器提取前后若干视频帧对象的具体提取过程为:
步骤1-1:对于每一个视频帧,利用已训练好的YOLOv3对象检测器检测一帧图像中的对象,根据检测的置信度,只保留置信度较高的对象,并获得包含检测对象位置信息的锚框;
步骤1-2:以当前帧为中心,根据步骤1-1中提取到的锚框,在时间连续的若干视频帧上提取相同位置的图像块;
步骤1-3:将提取的图像块以时间顺序堆叠,构成时间-空间立方体即时空立方体,其代表当前视频帧的一个基本的对象事件。
7.根据权利要求1所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:所述步骤2中构建空间拼图立方体和时间拼图立方体的具体过程为:
步骤2-1:对于一个时空立方体,在保持其时间顺序的同时,将对像块划分为若干个对象小块,打乱对象小块的顺序,构成空间拼图立方体;
步骤2-2:对于一个时空立方体,在保持其空间顺序的同时,对其时间顺序进行打乱,构成时间拼图立方体。
8.根据权利要求1所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:所述步骤9对象预测得分
Figure QLYQS_40
,计算公式如下:
Figure QLYQS_41
其中,
Figure QLYQS_42
Figure QLYQS_43
分别是空间预测分支和时间预测分支的预测分数,
Figure QLYQS_44
Figure QLYQS_45
分别是权重系数。
CN202310418890.7A 2023-04-19 2023-04-19 基于残差注意力块和自选择学习结合的视频异常检测方法 Active CN116152722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310418890.7A CN116152722B (zh) 2023-04-19 2023-04-19 基于残差注意力块和自选择学习结合的视频异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310418890.7A CN116152722B (zh) 2023-04-19 2023-04-19 基于残差注意力块和自选择学习结合的视频异常检测方法

Publications (2)

Publication Number Publication Date
CN116152722A true CN116152722A (zh) 2023-05-23
CN116152722B CN116152722B (zh) 2023-07-04

Family

ID=86352843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310418890.7A Active CN116152722B (zh) 2023-04-19 2023-04-19 基于残差注意力块和自选择学习结合的视频异常检测方法

Country Status (1)

Country Link
CN (1) CN116152722B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037073A (zh) * 2023-09-12 2023-11-10 天津君萌科技有限公司 基于人工智能可视化的对象定位方法及可视化监控系统
CN117557962A (zh) * 2023-11-23 2024-02-13 深圳市大数据研究院 基于图神经网络的异常视频检测方法以及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210201042A1 (en) * 2019-12-30 2021-07-01 Industry Academy Cooperation Foundation Of Sejong University Method and apparatus for detecting abnormal objects in video
WO2021147055A1 (en) * 2020-01-22 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for video anomaly detection using multi-scale image frame prediction network
CN114386518A (zh) * 2022-01-14 2022-04-22 桂林电子科技大学 基于自适应宽度自注意力机制的轻量化异常声事件检测方法
CN115527150A (zh) * 2022-10-31 2022-12-27 南京邮电大学 一种结合卷积注意力模块的双分支视频异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210201042A1 (en) * 2019-12-30 2021-07-01 Industry Academy Cooperation Foundation Of Sejong University Method and apparatus for detecting abnormal objects in video
WO2021147055A1 (en) * 2020-01-22 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for video anomaly detection using multi-scale image frame prediction network
CN114386518A (zh) * 2022-01-14 2022-04-22 桂林电子科技大学 基于自适应宽度自注意力机制的轻量化异常声事件检测方法
CN115527150A (zh) * 2022-10-31 2022-12-27 南京邮电大学 一种结合卷积注意力模块的双分支视频异常检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037073A (zh) * 2023-09-12 2023-11-10 天津君萌科技有限公司 基于人工智能可视化的对象定位方法及可视化监控系统
CN117037073B (zh) * 2023-09-12 2024-05-28 湖北亿立能科技股份有限公司 基于人工智能可视化的对象定位方法及可视化监控系统
CN117557962A (zh) * 2023-11-23 2024-02-13 深圳市大数据研究院 基于图神经网络的异常视频检测方法以及系统

Also Published As

Publication number Publication date
CN116152722B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN116152722B (zh) 基于残差注意力块和自选择学习结合的视频异常检测方法
Doughty et al. The pros and cons: Rank-aware temporal attention for skill determination in long videos
CN110084165B (zh) 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法
US20150154457A1 (en) Object retrieval in video data using complementary detectors
CN110222592B (zh) 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法
CN111046821A (zh) 一种视频行为识别方法、系统及电子设备
CN110674886B (zh) 一种融合多层级特征的视频目标检测方法
CN111046728A (zh) 一种基于特征金字塔网络的秸秆燃烧检测方法
CN115346169B (zh) 一种睡岗行为检测方法及系统
CN112348003A (zh) 基于深度卷积神经网络的飞机加油场景识别方法及系统
CN111860457A (zh) 一种斗殴行为识别预警方法及其识别预警系统
CN109934106A (zh) 一种基于视频图像深度学习的用户行为分析方法
CN112733819A (zh) 一种基于深度学习图像处理的多模式安保监测方法
CN117351271A (zh) 高压配电线路监控设备故障监测方法、系统及其存储介质
CN115331135A (zh) 基于多域特征区域标准分数差异的Deepfake视频检测方法
Li et al. Fire flame image detection based on transfer learning
CN110147876A (zh) 基于视觉特征相似度的神经网络及其动作提案生成方法
Daogang et al. Anomaly identification of critical power plant facilities based on YOLOX-CBAM
CN117392568A (zh) 一种复杂场景下无人机巡检变电设备的方法
CN112487961A (zh) 一种交通事故检测方法、存储介质及设备
Awalgaonkar et al. DEEVA: a deep learning and IoT based computer vision system to address safety and security of production sites in energy industry
CN116152699A (zh) 用于水电厂视频监控系统的实时运动目标检测方法
CN115100546A (zh) 一种基于mobilenet的电力设备小目标缺陷识别方法及系统
CN114581769A (zh) 一种基于无监督聚类的在建房屋识别方法
Liang et al. An elevator door blocking behavior recognition method based on two-stage object detection networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant