CN113312968B - 一种监控视频中的真实异常检测方法 - Google Patents

一种监控视频中的真实异常检测方法 Download PDF

Info

Publication number
CN113312968B
CN113312968B CN202110439306.7A CN202110439306A CN113312968B CN 113312968 B CN113312968 B CN 113312968B CN 202110439306 A CN202110439306 A CN 202110439306A CN 113312968 B CN113312968 B CN 113312968B
Authority
CN
China
Prior art keywords
negative
video
positive
packet
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110439306.7A
Other languages
English (en)
Other versions
CN113312968A (zh
Inventor
陈成成
李启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202110439306.7A priority Critical patent/CN113312968B/zh
Publication of CN113312968A publication Critical patent/CN113312968A/zh
Application granted granted Critical
Publication of CN113312968B publication Critical patent/CN113312968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种监控视频中的真实异常检测方法,将监控视频分成多个片段,根据所述多个片段获取包含第一标签的正包和包含第二标签的负包,所述正包包含至少一个正样本,所述负包包含至少一个负样本;将包含正包和负包的训练集导入C3D网络中,并对每个分割片段进行时空特征提取,经过神经网络后对每一个分割片段进行打分,分别返回正包中得分最高的异常片段和负包中得分最高的异常片段,负包中得分最高的异常片段作为优化的分界面,优化后即可以在若监督中学习一个健壮的分类器并根据优化函数进行优化等步骤,来检测监控视频中的真实世界异常。

Description

一种监控视频中的真实异常检测方法
技术领域
本发明涉及视频处理技术改进领域,特别是涉及一种监控视频中的真实异常检测方法。
背景技术
监控摄像头越来越多地应用于公共场所,如街道、十字路口、银行、购物中心等,以提高公共安全。视频监控的一个关键任务是检测异常事件,一般来说,与正常活动相比,异常事件很少发生。
因此,为了减轻人工和时间的浪费,开发用于视频异常自动检测的智能计算机视觉算法是当务之急。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种监控视频中的真实异常检测方法,监控视频中的真实异常检测方法,通过我们提出了一种深度学习方法来检测监控视频中的真实世界异常,由于这些实际异常的复杂性,仅使用正常数据可能不是异常检测的最佳方法,我们试图利用正常和异常的监控录像。为了避免训练视频中对异常片段进行耗时的标注,我们学习了一种使用弱标记数据的深度多示例排序框架进行异常检测的通用模型,为了验证所提出的方法,一个新的大规模异常数据集组成的各种真实世界的异常被引入。
为实现上述目的及其他相关目的,本发明提供一种监控视频中的真实异常检测方法,所述方法包括步骤:
S1:将监控视频分成多个片段,根据所述多个片段获取包含第一标签的正包和包含第二标签的负包,所述正包包含至少一个正样本,所述负包包含至少一个负样本;
S2:将包含正包和负包的训练集导入C3D网络中,并对每个分割片段进行时空特征提取,经过神经网络后对每一个分割片段进行打分,分别返回正包中得分最高的异常片段和负包中得分最高的异常片段,负包中得分最高的异常片段作为优化的分界面,优化后即可以在若监督中学习一个健壮的分类器并根据优化函数进行优化;
S3:根据S2所得到的优化器函数进行损失函数的定义和计算,损失函数定义为成异常事件与正常事件异常值的排序;
S4:通过排名损失函数反向传播可计算出相应的阈值,以在没有超过异常的阈值的情况下,正示例和负示例在异常得分方面相距很远;
S5:通过最小化相邻视频片段的分数差来加强时间上相邻视频片段的异常分数之间的时间平滑性;
S6:通过多次迭代,获得目标函数,
其中,ω代表模型权重,βa,βn分别是指正包和负包,
l(βa,βn)函数是指排序损失函数。
具体的,所述优化函数的具体表达为:
其中,为第j个训练样本的包级标签,βj是第j个实例,参数i是从实例级标签中取值,z为包的总数,j是第j个包,φ(xi)为视频片段的特征表示,b为偏置,k为训练示例总数,w为待学习的分类器。
具体的,所述排名损失函数的具体表达为:
其中,Ba,Bn分别是正包和负包,l是排名损失函数,
分别是指正常视频和异常视频的第i,q个实例。f是指预测分数函数,max将测试每个视频包的实例。
如上所述,本发明实施例提供的一种监控视频中的真实异常检测方法,监控视频中的真实异常检测方法,通过我们提出了一种深度学习方法来检测监控视频中的真实世界异常,由于这些实际异常的复杂性,仅使用正常数据可能不是异常检测的最佳方法,我们试图利用正常和异常的监控录像。为了避免训练视频中对异常片段进行耗时的标注,我们学习了一种使用弱标记数据的深度多示例排序框架进行异常检测的通用模型,为了验证所提出的方法,一个新的大规模异常数据集组成的各种真实世界的异常被引入。
附图说明
图1是本发明实施例的监控视频中的真实异常检测方法的一种流程示意图。
图2为本发明ROC和AUC的定量比较图;
图3为本发明AUC比较各种方法图;
图4为本发明在一个训练视频上的分数在迭代过程中的演变图;
图5为本发明正常测试视频的误报率比较图;
图6为本发明a图和b图显示数据集使用的C3D和TCNN进行活动识别的混淆矩阵图;
图7为发明C3D和TCNN的活动识别结果图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明实施例的一种监控视频中的真实异常检测方法的主体可以为一种监控视频中的真实异常检测系统,提出利用正常和异常视频来学习异常;提出利用弱标记的训练视频,通过深度多示例排序框架来学习异常,即训练标签(异常或正常)是在视频级而不是剪辑级;在排序损失函数中引入稀疏性和时间平滑约束,以便在训练过程中更好地定位异常。
具体的,如图1所示,公开了一种监控视频中的真实异常检测方法,包括以下步骤:
S1:将监控视频分成多个片段,根据所述多个片段获取包含第一标签的正包和包含第二标签的负包,所述正包包含至少一个正样本,所述负包包含至少一个负样本;
S2:将包含正包和负包的训练集导入C3D网络中,并对每个分割片段进行时空特征提取,经过神经网络后对每一个分割片段进行打分,分别返回正包中得分最高的异常片段和负包中得分最高的异常片段,负包中得分最高的异常片段作为优化的分界面,优化后即可以在若监督中学习一个健壮的分类器并根据优化函数进行优化;
S3:根据S2所得到的优化器函数进行损失函数的定义和计算,损失函数定义为成异常事件与正常事件异常值的排序;
S4:通过排名损失函数反向传播可计算出相应的阈值,以在没有超过异常的阈值的情况下,正示例和负示例在异常得分方面相距很远;
S5:通过最小化相邻视频片段的分数差来加强时间上相邻视频片段的异常分数之间的时间平滑性;
S6:通过多次迭代,获得目标函数。
在步骤S1中,提出的方法首先是在训练期间将监控视频分成固定数量的片段,这些段在一个包中创建示例,同时使用正(异常)包和负(正常)包,我们使用提出的深度MIL排序损失训练异常检测模型;
首先解释一下多示例学习(MIL),平常的深度学习训练都是一个样本对应一个标签,而在MIL中,有了包这个概念。一个包对应一个标签,且一个正包中至少需要有一个是正样本,一个负包中只能全部是负样本。而一个包中包含多个样本,所以称为多示例学习。本文在训练过程中,将视频分割为32段剪辑片段以分别根据标签构成正例包和负例包已备训练。
在步骤S2中,将S1中所得的训练集用于导入C3D网络中并对每段分割片段进行时空特征提取。正负异常检测当作一个回归的问题。经过神经网络后对每一个分割片段进行打分,分别返回正包中得分最高的异常片段和负包中得分最高的异常片段,负包中得分最高的异常片段作为优化的分界面。即通过神经网络主要是返回异常的得分值,
在MIL中,视频中异常事件的发生位置是未知的。相反,只需要显示整个视频中出现异常的视频级标签,包含异常的视频标记为正,没有异常的视频标记为负,由于正示例的确切信息(即示例级标签)是未知的,我们可以针对每个包中得分最高的示例来优化目标函数。当且在铰链损失函数达到最大时进行优化,优化后即可以在若监督中学习一个健壮的分类器。同时,通过下式来进行优化:
式中,为铰链损失,/>为包级标签,z为包的总数,φ(xi)为视频片段的特征表示,b为偏置,k为训练示例总数,w为待学习的分类器。
在步骤S3中,根据S2所得到的优化器进行损失函数的定义和计算。损失函数定义为成异常事件与正常事件异常值的排序。因为在包中不清楚每个具体分割样本的标签,即认为异常事件的异常得分一定要高于正常事件的异常得分。例如:
f(Va)>f(Vn)
其中,Va表示异常包,Vn表示正常包,f()表示模型。f(Va)和f(Vn)分别表示对应的预测分数。上述公式适用于在训练集中已知分割样本的标签情况下,对于包中的分割片段未知标签的若监督下,我们提出以下多示例排序目标函数:
max接管了每个包中的所有视频片段。我们没有对包的每个示例都强制执行排序,而是只对在正包和负包中分别具有最高异常值的两个示例强制执行排序。
在步骤S4中,由上文可知S3产生的正包中异常值最高对应的段最有可能是真正的正示例(异常段)。负包中异常值最高对应的段,就是看起来与异常段最相似但实际是正常示例的段,这就会在异常检测中产生误报的现象,图5为本发明正常测试视频的误报率比较图。为了尽可能避免这一现象,希望将正示例和负示例在异常得分方面相距很远。因此,我们在铰链损失公式中的排名损失如下:
通过排名损失函数反向传播可计算出相应的阈值,且可以降低误报率,即在若监督下将负包中的异常示例归为正常示例(没有超过异常的阈值,正示例和负示例在异常得分方面相距很远)。
在步骤S5中,但是,由S4得到的排名损失函数有缺陷,即会忽略异常视频潜在的时间结构。因为视频中的异常片段通常只发生很短时间,考虑到这种情况,视频包中的异常示例的异常值是稀疏的。其次,因为视频是一个片段序列,异常评分应该在示例之间平滑变化,所述通过最小化相邻视频片段的分数差来加强时间上相邻视频片段的异常分数之间的时间平滑性;
表示稀疏项,/>表示平滑项λ1
λ2分别是稀疏项和平滑项的参数。加入稀疏性和平滑性是根据异常事件发生的规律进行异常的精确定位和平滑曲线提高评价指标AUC(Area Under Curve)。图3为本发明AUC比较各种方法图。更能够通过反向传播增强模型的鲁棒性,以获得模型的最佳性能。
S6:最后,为了防止模型的过拟合,我们增加了L2正则化来防止过拟合的发生。通过对大量正包和负包的训练,我们期望网络能够学习到一个广义模型来预测正包中异常片段的高分,最后,经过多次迭代之后,图4为本发明在一个训练视频上的分数在迭代过程中的演变图。我们给出了完整的目标函数,其中W表示模型权重;
训练出来的模型权重可以在训练的数据集上测试,将对视频进行异常检测可以利用迁移学习将某个数据集上的模型权重微调再使用,或者泛化到更大,更若监督的数据集上进行良好的异常检测。在弱监督条件下,网络能够根据所训练的权重预测异常的时间位置。
其中,C3D网络的FC层FC6中提取视觉特征。
其中,使用基于帧的ROC曲线和曲线下对应的面积AUC来评价我们的方法的性能。图2为本发明ROC和AUC的定量比较图。
最后,我们引入了混淆矩阵和准确度。这些最新的动作识别方法在这个数据集上表现不佳。这是因为这些视频都是未经修剪的长视频,分辨率很低。此外,由于摄像机视点、照明和背景噪音的变化,会有很大的内部变化。在此方面上我们的模型还有进一步的提升空间,图7为发明C3D]和TCNN的活动识别结果图。
本发明的工作原理及使用流程:传统的动作识别方法不能用于真实监控视频中的异常检测。这是因为我们的数据集包含未经修剪的长视频,其中异常通常在短时间内发生,因此,从这些未经裁剪的训练视频中提取的特征对异常事件的识别能力不够。在实验中,二值分类器对几乎所有测试视频都产生很低的异常分数,习的字典不足以区分正常和异常模式。除对视频的正常部分产生低重构误差外,对异常部分也产生低重构误差,很好地学习正常模式。然而,即使对于新常态模式,它也往往会产生较高的异常分数,该方法的性能明显优于,证明了该方法的有效性,并强调了使用异常和正常视频进行训练对于鲁棒异常检测系统是必不可少的。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (2)

1.一种监控视频中的真实异常检测方法,其特征在于,所述方法包括步骤:
S1:将监控视频分成多个片段,根据所述多个片段获取包含第一标签的正包和包含第二标签的负包,所述正包包含至少一个正样本,所述负包包含至少一个负样本;
S2:将包含正包和负包的训练集导入C3D网络中,并对每个分割片段进行时空特征提取,经过神经网络后对每一个分割片段进行打分,分别返回正包中得分最高的异常片段和负包中得分最高的异常片段,负包中得分最高的异常片段作为优化的分界面,优化后即可以在若监督中学习一个健壮的分类器并根据优化函数进行优化;
S3:根据S2所得到的优化器函数进行损失函数的定义和计算,损失函数定义为成异常事件与正常事件异常值的排序;
S4:通过排名损失函数反向传播可计算出相应的阈值;
S5:通过最小化相邻视频片段的分数差来加强时间上相邻视频片段的异常分数之间的时间平滑性;
S6:通过多次迭代,获得目标函数,
其中,ω代表模型权重,βa,βn分别是指正包和负包,ι(βa,βn)函数是指排序损失函数;
所述优化函数的具体表达为:
其中,为第j个训练样本的包级标签,βj是第j个实例,参数i是从实例级标签中取值,z为包的总数,j是第j个包,φ(xi)为视频片段的特征表示,b为偏置,k为训练示例总数,w为待学习的分类器,/>表示第j个训练样本第包级标签,w表示分类器,xi第i个视频片段。
2.根据权利要求1所述的监控视频中的真实异常检测方法,其特征在于,所述排名损失函数的具体表达为:
其中,Ba,Bn分别是正包和负包,l是排名损失函数,和/>分别是指正常视频和异常视频的第i,q个实例,f是指预测分数函数,max将测试每个视频包的实例。
CN202110439306.7A 2021-04-23 2021-04-23 一种监控视频中的真实异常检测方法 Active CN113312968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439306.7A CN113312968B (zh) 2021-04-23 2021-04-23 一种监控视频中的真实异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439306.7A CN113312968B (zh) 2021-04-23 2021-04-23 一种监控视频中的真实异常检测方法

Publications (2)

Publication Number Publication Date
CN113312968A CN113312968A (zh) 2021-08-27
CN113312968B true CN113312968B (zh) 2024-03-12

Family

ID=77372595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439306.7A Active CN113312968B (zh) 2021-04-23 2021-04-23 一种监控视频中的真实异常检测方法

Country Status (1)

Country Link
CN (1) CN113312968B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
CN110084151A (zh) * 2019-04-10 2019-08-02 东南大学 基于非局部网络深度学习的视频异常行为判别方法
CN110263728A (zh) * 2019-06-24 2019-09-20 南京邮电大学 基于改进的伪三维残差神经网络的异常行为检测方法
CN110378233A (zh) * 2019-06-20 2019-10-25 上海交通大学 一种基于人群行为先验知识的双分支异常检测方法
CN111160117A (zh) * 2019-12-11 2020-05-15 青岛联合创智科技有限公司 一种基于多示例学习建模的异常行为检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
CN110084151A (zh) * 2019-04-10 2019-08-02 东南大学 基于非局部网络深度学习的视频异常行为判别方法
CN110378233A (zh) * 2019-06-20 2019-10-25 上海交通大学 一种基于人群行为先验知识的双分支异常检测方法
CN110263728A (zh) * 2019-06-24 2019-09-20 南京邮电大学 基于改进的伪三维残差神经网络的异常行为检测方法
CN111160117A (zh) * 2019-12-11 2020-05-15 青岛联合创智科技有限公司 一种基于多示例学习建模的异常行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵春晖 ; 杨莹 ; 宿南 ; .基于行动片段补充生成器的异常行为检测方法.沈阳大学学报(自然科学版).2019,(第06期),全文. *

Also Published As

Publication number Publication date
CN113312968A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN108108657B (zh) 基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN110378869B (zh) 一种样本自动标注的钢轨扣件异常检测方法
CN111275688A (zh) 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN110309747B (zh) 一种支持多尺度快速深度行人检测模型
Li et al. A new method of image detection for small datasets under the framework of YOLO network
CN104063719A (zh) 基于深度卷积网络的行人检测方法及装置
WO2022007193A1 (zh) 一种基于迭代学习的弱监督视频行为检测方法及系统
CN113011322B (zh) 监控视频特定异常行为的检测模型训练方法及检测方法
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
CN103106394A (zh) 一种视频监控中的人体行为识别方法
CN110163060B (zh) 图像中人群密度的确定方法及电子设备
CN116150509B (zh) 社交媒体网络的威胁情报识别方法、系统、设备及介质
Xu et al. Task-aware meta-learning paradigm for universal structural damage segmentation using limited images
CN110458022A (zh) 一种基于域适应的可自主学习目标检测方法
CN114202803A (zh) 一种基于残差网络的多阶段人体异常动作检测方法
Du et al. Convolutional neural network-based data anomaly detection considering class imbalance with limited data
Shukla et al. Survey on image mining, its techniques and application
Nesen et al. Knowledge graphs for semantic-aware anomaly detection in video
Boppana et al. Comparative analysis of single-stage yolo algorithms for vehicle detection under extreme weather conditions
Hong et al. Wildfire detection via transfer learning: a survey
CN113312968B (zh) 一种监控视频中的真实异常检测方法
Huo et al. Traffic anomaly detection method based on improved GRU and EFMS-Kmeans clustering
CN110728310B (zh) 一种基于超参数优化的目标检测模型融合方法及融合系统
Shine et al. Comparative analysis of two stage and single stage detectors for anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant