CN111626102B - 基于视频弱标记的双模态迭代去噪异常检测方法及终端 - Google Patents

基于视频弱标记的双模态迭代去噪异常检测方法及终端 Download PDF

Info

Publication number
CN111626102B
CN111626102B CN202010284322.9A CN202010284322A CN111626102B CN 111626102 B CN111626102 B CN 111626102B CN 202010284322 A CN202010284322 A CN 202010284322A CN 111626102 B CN111626102 B CN 111626102B
Authority
CN
China
Prior art keywords
video
label
segment
grained
anomaly detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010284322.9A
Other languages
English (en)
Other versions
CN111626102A (zh
Inventor
杨华
林书恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010284322.9A priority Critical patent/CN111626102B/zh
Publication of CN111626102A publication Critical patent/CN111626102A/zh
Application granted granted Critical
Publication of CN111626102B publication Critical patent/CN111626102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于视频弱标记的双模态迭代去噪异常检测方法及终端,将弱标记视作精确标签的噪声,分别从图像控件和特征空间进行标签去噪;利用自编码器从图像空间学习正常和异常视频的特性;利用图卷积模型学习视频片段在不同时间上的特征;利用迭代交替更新分类器和去噪器。本发明通过充分考虑视频的弱标记问题,利用去噪模型的方法来克服标记数据的困难,面对异常检测这种数据难以收集的研究领域,有很强鲁棒性,能够很好解决视频的弱标签问题,具有普遍适用性。

Description

基于视频弱标记的双模态迭代去噪异常检测方法及终端
技术领域
本发明属于计算机视觉技术领域,具体为一种基于视频弱标记的双模态迭代去噪异常检测方法及终端,尤其涉及在监控摄像头下的专注于人群异常行为的异常检测。
背景技术
监控摄像机越来越多地被使用在公共场所之中,比如街道、路口、银行和购物中心等等人流量密集的地方。然而,相关行政执法机构的对监控视频中的异常情况的检测能力却没有跟上,导致不能充分利用监控摄像机的资源,在其使用上存在着明显缺陷。让人来实时观测监控视频也非常不现实,因为如今我国的监控摄像机数量已经十分庞大,光靠人力资源来监测监控视频不仅成本代价极高,而且由于各种不确定的人为因素的存在,使得效率也非常的低。因此,当下面临的挑战是在监控视频中实现自动检测异常事件,比如交通事故,犯罪活动或者违法行为。一般来说,相比于普通正常情况而言,异常情况往往发生数量少,且持续时间相对短。因此,为了减少对人力资源和时间的浪费,研究视频自动异常检测的计算机视觉算法是非常有必要的。
实际异常检测系统的目标是及时检测出不符合正常模式的行为,并且识别出异常发生的开始到结束时间点。因此,异常检测可以被认为是计算机对视频的浅层次理解,即把异常从正常模式中区别出来。一旦监控视频中的异常被检测到,那就可以精确地开展下一步工作,比如通过分类技术来对异常情况进行判别,确定异常情况的属性,最终实现向有关部门及时反馈异常情况,不仅缓解了行政执法部门的压力,而且在机器的24小时监控下,也能对违法犯罪行为加以威慑,从而降低犯罪率,维护社会治安。
近几年,由于神经网络的崛起,手工提取的特征的缺陷便愈加明显。相对与手工特征,卷积神经网络提取的特征随着迭代而改变,最终能根据任务的目标提取出最匹配的特征。一种方法(参见Mahmudul Hasan,Jonghyun Choi,Jan Neumann,Amit K Roy-Chowdhury,and Larry S Davis,“Learning temporal regularity in videosequences,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2016,pp.733–742.)通过学习一个基于深度自编码模型的异常分类器来实现视频中的异常见检测。在最近的研究中(参见Yiru Zhao,Bing Deng,Chen Shen,Yao Liu,Hongtao Lu,and Xian-Sheng Hua,“Spatio-temporal autoencoder for videoanomaly detection,”in Proceedings of the 2017ACM on MultimediaConference.ACM,2017,pp.1933–1941),其通过卷积神经网络对视频提取特征,然后利用一种基于重构误差的方法来进行异常检测。由于现实世界的监控视频中异常情况相对于正常情况而言发生数量少且时间短,因此无干扰的异常样本也难以采集,而人造异常样本如UMN的人群异常行为数据集,人群服从命令执行某些异常行为如突然地跑动,无法有效地展示出足够的人群异常信息。因此大多数的基于异常检测的方法通常全部采用正常样本作为训练输入,没有任何异常样本参与到输入的训练过程中,导致模型只能学习到样本的正常模式。虽然这类基于重构误差的方法在当时的某些数据集上展现了良好的效果,但是在测试的过程中,模型将任何与训练样本相差较大的样本均视为异常,也就是说基于重构误差的异常检测方法会受限于异常样本的稀少,无法合理地对正常、异常模式进行建模,最终地检测效果不稳定。
2018年由UCF的CRCV中心所提出的基于多实例学习的异常检测方法(参见SultaniW,Chen C,Shah M.Real-world anomaly detection in surveillance videos[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:6479-6488.),由于在文中作者提出了一种新的数据集,在一定程度上缓解了异常数据样本不足的缺陷,从而作者有避免使用重构误差作为检测手段地优势,转而采取基于多实例学习地方法进行异常检测。然而,基于多实例的异常检测方法不是端到端的,该方法利用预训练的网络提取特征,然而该网络无法参与到训练中,也就是视频的特征不会随着迭代而更新。
发明内容
针对现有技术中存在的上述问题,本发明的目的是提供一种基于视频弱标记的双模态迭代去噪异常检测方法及终端,该方法利用现有的深度学习方法的优势,提出从图形空间和特征空间分别对数据标签进行去噪的方法,最终利用去噪后的精确标签进行端到端的训练,从而提升了监控摄像头下异常检测的性能。
本发明针对目前数据集的弱标签问题,将弱标记视作精确标签的噪声,分别从图像控件和特征空间进行标签去噪;利用自编码器从图像空间学习正常和异常视频的特性;利用图卷积模型学习视频片段在不同时间上的特征;利用迭代交替更新分类器和去噪器。本发明通过充分考虑视频的弱标记问题,利用去噪模型的方法来克服标记数据的困难,面对异常检测这种数据难以收集的研究领域,有很强鲁棒性,能够很好解决视频的若标签问题,具有普遍适用性。
根据本发明的第一方面,提供一种基于视频弱标记的双模态迭代去噪异常检测方法,包括:
S1:将所有视频划分为相同数量的视频片段si,获取每个视频片段si的粗粒度标签li
S2:所有视频重新划分,将每个视频划分为多个帧数相同的细粒度片段ci,每个细粒度片段ci的标签lc_i为其所在的粗粒度片段si的标签li
S3:将所有的细粒度片段ci进行扩增数据,将扩增后的数据和其对应的标签lc_i输入到分类器中,经过训练,得到每一个细粒度片段ci的特征fi和其初步的平均异常得分
Figure BDA0002447902530000031
S4:将所有的细粒度片段ci按照其初步平均异常得分
Figure BDA0002447902530000032
所在的区间,划分为三个集合,分别是异常近似集Sano、正常近似集Snor和模糊集Samb
S5:将异常近似集Sano和正常近似集Snor分别输入到聚类去噪器中,该去噪器由两个自编码器组成,经过训练,得到两个生成器Gano和Gnor
S6:将三个集合分别输入到两个生成器Gano和Gnor,得到每个集合中的所有视频片段的两个重构误差,根据该误差对对应集合中视频的标签进行初步修正,得到所有片段初步修正的标签y′i
S7:将S6中得到的修正的标签y′i与S3中得到的视频片段的特征fi输入到图卷积去噪器中,构建两个图结构:时间-标签连续性图和特征相似图,利用图卷积训练后得到每个片段的二次修正标签pi
S8:利用二次修正标签pi更新分类器;
S9:重复S3至S8,循环迭代直至收敛;将新的视频片段输入更新后的分类器,输出该视频片段的异常概率。
可选地,S1中,所述将所有视频划分为相同数量的视频片段si,其中:将每个视频划分为32个等长片段。
可选地,S1中,所述获取每个视频片段si的粗粒度标签li,包括:
将每一个视频片段si输入到预训练的社群多示例异常检测模型中,采用双分支多实例学习的方法,对输入的视频片段si学习到其初步的标签即粗粒度标签li
可选地,S2中,将视频按照每片段30帧重新分割视频,得到新的细粒度片段ci,其对应的粗粒度标签与si的关系为:
lc_i=li,ci∈si
可选地,所述S3,包括:
每个视频细粒度片段ci按照中心裁剪和四角裁剪的原则,扩增为5份,再将其水平方向翻转,最终扩增为10份,以达到数据扩增的目的;
将所有扩增后的数据送入到分类器中,采用TSN网络作为分类器,以细粒度片段ci的标签lc_i为分类器的监督标签,最终训练后得到每个片段ci的特征fi和其初步的平均异常得分
Figure BDA0002447902530000041
为其10扩增的数据标签的均值。
可选地,S4中,所述划分为三个集合,其中:
划分原则是:按照
Figure BDA0002447902530000042
k为基于经验的概率划分阈值,三个区间,分别将所有细粒度片段ci对应划分为异常近似集Sano,正常近似集Snor和模糊集Samb
可选地,S5中,将异常近似集Sano,正常近似集Gnor分别送到两个结构相同的自编码器进行学习,自编码器采用3D卷积作为卷积基础,损失函数Lrec为:
Figure BDA0002447902530000043
经过训练后,得到两个生成器Gano和Gnor;M为该模块训练的batchsize(一次训练所选取的样本数),Ii为输入图像,Iirec为重构图像,
Figure BDA0002447902530000044
为二范数。
可选地,所述S6,包括:
将模糊集Samb分别输入到两个生成器Gano和Gnor,模糊集Samb中所有视频片段分别得到两个重构误差
Figure BDA0002447902530000045
Figure BDA0002447902530000046
根据标签修正算法
Figure BDA0002447902530000047
对模糊集Samb中视频的标签进行初步修正,其中
Figure BDA0002447902530000048
同样的,将异常近似集Sano和正常近似集Snor再次分别输入到两个生成器Gano和Gnor,得到各自的重构误差
Figure BDA0002447902530000051
Figure BDA0002447902530000052
后,分别利用标签修正算法
Figure BDA0002447902530000053
Figure BDA0002447902530000054
对其标签进行微调,其中
Figure BDA0002447902530000055
所有片段得到其初步修正的标签y′i;其中,
Figure BDA0002447902530000056
Figure BDA0002447902530000057
分别表示如下:
Figure BDA0002447902530000058
Figure BDA0002447902530000059
Figure BDA00024479025300000510
根据上述标签修正算法,所有片段的初步修正标签y′i生成;ri为每个视频片段的重构误差比值,λ为基于经验的比例参数,ra为异常自编码器的全局重构误差比,rn为正常自编码器的全局重构误差比。
可选地,S7中,所述时间-标签连续性图
Figure BDA00024479025300000511
和特征相似图
Figure BDA00024479025300000512
其中图的边定义如下:
Figure BDA00024479025300000513
其中
Figure BDA00024479025300000514
是一个视频的特征矩阵,由N个片段的特征每个特征d维组成;
Figure BDA00024479025300000515
对应第一个视频中的第i个片段ci的初步修正标签;经过图卷积后,得到每个片段的二次修正标签pi,该图卷积去噪器的损失函数Lgra为:
Figure BDA00024479025300000516
其中
Figure BDA00024479025300000517
为该模块训练时每次迭代的输出pi的加权平均值,
Figure BDA00024479025300000518
为含有N个视频片段的视频,Xi为视频特征矩阵的第i列,Xj为为视频特征矩阵的第j列,T为时间标志,F为特征标志。
可选地,S8中,所述利用二次修正标签pi更新分类器,包括:
利用图卷积去噪器的输出,二次修正标签pi更新分类器,损失函数为Lc
Figure BDA0002447902530000061
其中H表示高置信度片段集合,在每个视频片段ci的扩增数据被分类器输出概率的方差大小中,取方差前30%小的片段用于更新分类器。
根据本发明的第二方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述基于视频弱标记的双模态迭代去噪异常检测方法。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
1、针对收集数据的困难,本发明提供的基于视频弱标记的双模态迭代去噪异常检测方法及终端,将传统异常检测的有监督学习过程转化为半监督的学习过程,本发明利用一种迭代去噪模型(重复S3-S8),即对视频的标记进行矫正,使得训练过程只需要视频级别的标签,克服了标记数据得困难,最终只需要分类器进行测试。
2、本发明提供的基于视频弱标记的双模态迭代去噪异常检测方法及终端,采用自编码器和图卷积,分别在图像空间和特征空间学习异常和正常得特性区别,对视频片段进行去噪,利用预去噪模型引导去噪的优化方向,最大化的挖掘图像空间和特征空间的信息。
附图说明
图1为本发明一实施例中方法原理图;
图2为本发明一实施例中聚类去噪器结构示意图;
图3为本发明一实施例中图卷积去噪器结构示意图;
图4为本发明一实施例中测试和比较结果示意图;其中:(a)为本发明实施例所提供的方法与其余5种方法对比的结果,(b)为本发明所提供的方法在多次迭代去噪中的性能比较。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
本发明通过采用多实例学习方法作为异常检测的主要框架,将视频划分为多个视频片段作为输入单位,在维度上极大程度扩大了训练网络框架可以使用的数据量,为最终取得良好的结果提供了基础保障。本发明使用多示例学习框架进行初步去噪,利用分类器学习视频片段的特征;利用卷积自编码器学习视频的内在相似性和差异性,利用图卷积模块学习视频内部的时间和空间联系。本发明具有鲁棒性和较强的泛化能力。
参照图1所示,本发明实施例提供了一种基于视频弱标记的双模态迭代去噪异常检测方法,可以包括以下步骤:
第一步,将所有视频划分为相同数量的片段si
第二步,将每一个视频片段si输入到预训练的社群多示例异常检测模型中,该模型输出每一个视频片段si的粗粒度标签li
第三步,所有视频重新划分,将每个视频划分为多个帧数相同的细粒度片段ci,每个细粒度片段ci的标签lc_i为其所在的粗粒度片段si的标签li;细粒度片段ci的具体帧数可以根据需要进行选择,比如为30帧;
第四步,将所有的细粒度片段ci利用扩增策略,扩增数据,将扩增后的数据和其对应的标签lc_i输入到分类器中,经过训练,得到每一个细粒度片段ci的特征fi和其初步的平均异常得分
Figure BDA0002447902530000071
扩增数据可以采用10倍扩增策略,当然,也可以根据需要进行选择;
第五步,将所有的片段ci按照其
Figure BDA0002447902530000072
所在的区间,划分为三个集和,分别是异常近似集Sano,正常近似集Snor和模糊集Samb
第六步,将异常近似集Sano,正常近似集Snor分别输入到聚类去噪器中,该去噪器由两个自编码器组成,经过训练,得到两个生成器,Gano和Gnor
第七步,将模糊集Samb分别输入到Gano和Gnor,Samb中所有视频片段分别得到两个重构误差
Figure BDA0002447902530000073
Figure BDA0002447902530000074
根据标签修正算法
Figure BDA0002447902530000075
对模糊集中视频的标签进行初步修正,其中
Figure BDA0002447902530000076
同样的将Sano和Snor再次分别输入到Gano和Gnor,得到各自的重构误差
Figure BDA0002447902530000077
Figure BDA0002447902530000078
后,分别利用标签修正算法
Figure BDA0002447902530000079
Figure BDA0002447902530000081
对其标签进行微调,其中
Figure BDA0002447902530000082
所有片段得到其初步修正的标签y′i
第八步,将第七步中得到的修正的标签y′i与第四步中得到的视频片段的特征fi输入到图卷积去噪器中,构建两个图结构,时间-标签连续性图和特征相似图,利用图卷积训练后得到每个片段的二次修正标签pi
第九步,利用二次修正标签
Figure BDA0002447902530000083
更新分类器,分类器采用高置信度片段更新策略,损失函数为Lc
第十步,重复第四步至第九步,循环迭代直至收敛;进入测试阶段,测试阶段只保留分类器,输入新的视频片段,分类器输出该视频片段的异常概率。
在另一实施例中,本发明还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述基于视频弱标记的双模态迭代去噪异常检测方法。
下面结合一优选的具体实例,对本发明上述实施例中的技术方案进一步详细描述。本具体实例采用的图像帧来自数据库Ucf-Crime(参见:Sultani W,Chen C,ShahM.Real-world anomaly detection in surveillance videos[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2018:6479-6488.)以进行异常检测性能评估。
具体的,本实例涉及的基于视频弱标记的双模态迭代去噪异常检测方法,整体框架如图1所示。具体步骤为:
S1,将每个视频划分为32个等长片段si
S2,采用双分支多实例学习的方法,利用预训练的社群多示例异常检测模型,对输入的视频片段si学习到其初步的标签li;社群多示例异常检测模型可以采用现有技术,比如基于多示例学习的双分支人群行为异常检测技术。
S3,将视频按照每片段30帧重新分割视频,得到新的视频片段ci,其对应的粗粒度标签与si的关系为:
lc_i=li,ci∈si
S4,每个视频片段ci按照中心裁剪和四角裁剪的原则,扩增为5份,再将其水平方向翻转,最终扩增为10份,以达到数据扩增的目的;
将所有扩增后的数据送入到分类器中,采用TSN网络作为分类器,以lc_i为分类器的监督标签,根据10倍扩增策略,最终训练后得到每个原始片段ci的平均特征fi和其初步的平均异常得分
Figure BDA0002447902530000091
也即初步的修正标签。
S5,将所有的片段ci按照其初步异常概率
Figure BDA0002447902530000092
所在的区间对其进行划分,按照初步的概率可能,对近似正常和近似异常的片段进行划分,划分原则是:按照
Figure BDA0002447902530000093
Figure BDA0002447902530000094
三个区间,将所有片段ci划分为异常近似集Sano,正常近似集Snor和模糊集Samb;参照图2所示。
S6,将异常近似集Sano,正常近似集Snor分别送到两个结构相同的自编码器进行学习,自编码器采用3D卷积作为卷积基础,损失函数为:
Figure BDA0002447902530000095
经过训练后,得到两个生成器Gano和Gnor,其对应的原始训练数据分别是异常近似集Sano,正常近似集Snor,从而学习到近似异常和近似正常的图像特征;
S7,将模糊集Samb分别输入到Gano和Gnor,Samb中所有视频片段分别得到两个重构误差
Figure BDA0002447902530000096
Figure BDA0002447902530000097
根据标签修正算法
Figure BDA0002447902530000098
利用重构误差进行标签修正,对模糊集中视频的标签进行初步修正,其中
Figure BDA0002447902530000099
表示如下:
Figure BDA00024479025300000910
同样的将Sano和Snor再次分别输入到Gano和Gnor,得到各自的重构误差后,根据其误差的比值,分别利用标签修正算法
Figure BDA00024479025300000911
Figure BDA00024479025300000912
对其标签进行微调,
Figure BDA00024479025300000913
Figure BDA00024479025300000914
分别表示如下:
Figure BDA00024479025300000915
Figure BDA00024479025300000916
根据该算法,所有片段的初步修正标签y′i生成;
S8,得到的修正的标签y′i与S4中得到的视频片段的特征fi输入到图卷积去噪器中,构建:时间-标签连续性图
Figure BDA00024479025300000917
和特征相似图
Figure BDA00024479025300000918
利用图卷积训练后得到每个片段的二次修正标签
Figure BDA0002447902530000101
图的边定义如下:
Figure BDA0002447902530000102
其中
Figure BDA0002447902530000103
是一个视频的特征矩阵,由N个片段的特征每个特征d维组成;
Figure BDA0002447902530000104
对应第一个视频中的第i个片段ci的初步修正标签。
图卷积的计算公式如下:
Figure BDA0002447902530000105
其中,
Figure BDA0002447902530000106
IN是单位矩阵,
Figure BDA0002447902530000107
是度矩阵,W是参数矩阵。HT表示图卷积的下一层。
经过图卷积后,得到每个片段的二次修正标签pi,该图卷积去噪器的损失函数为:
Figure BDA0002447902530000108
其中
Figure BDA0002447902530000109
为该模块训练时每次迭代的输出pi的加权平均值。图卷积去噪器的结构如图3所示。
S9,利用图卷积去噪器的输出,二次修正标签pi更新分类器,损失函数为Lc
Figure BDA00024479025300001010
根据高置信度策略,在多被数据扩增后,其输出的方差越小,说明其输出约可信,H表示高置信度片段集合,根据每个视频片段ci的10倍扩增数据在分类器的输出的方差大小,取方差前30%小的片段用于更新分类器。
S10,重复步骤S4至S9,直至收敛;测试阶段中,只保留分类器,输入新的视频片段,得到其预测异常概率。
如图4中(a)所示,是基于本发明上述实施例方法的最终异常检测结果示意图,以AUC值(ROC曲线下方的面积大小)作为表征,五条曲线分别是本实施例方法和其他方法的性能,作为参照系用以进行方法的比较;曲线2是一种简单的迭代去噪异常检测方法(参见Jia-Xing Zhong,Nannan Li,Weijie Kong,Shan Liu,Thomas H Li,and Ge Li,“Graphconvolutional label noise cleaner:Train a plug-and-play action classifier foranomaly detection,”in Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,2019,pp.1237–1246.);曲线3表示一种基于人群行为先验知识的双分支多示例学习异常检测方法(参见Shuheng Lin,Hua Yang,Xianchao Tang,TianqiShi,and Lin Chen,“Social mil:Interaction-aware for crowd anomaly detection,”in 2019 16th IEEE International Conference on Advanced Video and Signal BasedSurveillance(AVSS).IEEE,2019,pp.1–8.);曲线4表示一种简单的多示例学习异常检测方法(参见Waqas Sultani,Chen Chen,and Mubarak Shah,“Realworld anomaly detectionin surveillance videos,”in Proceedings of the IEEE Conference on ComputerVision);曲线5代表一种基于重构误差的异常检测方法(参见Mahmudul Hasan,JonghyunChoi,Jan Neumann,Amit K Roy-Chowdhury,and Larry S Davis,“Learning temporalregularity in video sequences,”in Proceedings of the IEEE Conference onComputer Vision and Patter Recognition,2016,pp.733–742.);曲线6表示一种基于字典学习的异常检测方法(参见Cewu Lu,Jianping Shi,and Jiaya Jia,“Abnormal eventdetection at 150fps in matlab,”in Proceedings of the IEEE internationalconference on computer vision,2013,pp.2720–2727.);曲线1表示本实施例的提出的基于视频弱标记的双模态迭代去噪异常检测方法。
从图4中(a)可以看出,本发明上述实施例所提供的方法在测试性能上达到的最好的效果,较之前的方法能够更准确的学习到监控视频下的人群正常行为模式和异常行为模式,识别精度有所提升。
图4中(b)展示了本发明上述实施例在迭代去噪过程的高效性,可以看出基本上在第三次迭代达到最佳效果。
表一中是对应图4中(a)各方法AUC值的对比。
表二是本发明提出的各项模块有效性的对比,第一行是使用了所有模块的性能;第二行去除了图卷积去噪器;第三行去除了聚类去噪器;第四行去除了预去噪器;第五行只保留聚类去噪器;第六行只保留图卷积去噪器。
表一
Figure BDA0002447902530000111
Figure BDA0002447902530000121
表二
预去噪器 聚类去噪器 图卷积去噪器 AUC值(%)
1 83.31
2 83.07
3 81.13
4 80.86
5 77.04
6 79.98
综上所述,本发明实施例所提供的方法通过去噪模型来解决视频弱标记的问题,将视频的不精确标签视作其内部片段的噪声标签,利用迭代去噪模型多次对视频片段的特征清除噪声,是一种解决弱标记问题的手段。在图像空间里,用自编码器对视频进行正常和异常特性的学习,这非常符合人类大脑对异常的判断,即利用视频的图像来判断是否为异常,根据图像间的相似性来判断图像属性的相似性。其次,本实施例方法采用图卷积模型来学习视频片段内部的联系性,在一个视频中异常部分和正常部分是有本质去别的,而这一区别同样可能体现在高级的特征内部。本实施例方法不仅在时间精度的检测上大大增强,而且因为数据的扩增模型的鲁棒性也得到提高,能够很好地解决数据的标记不精确的问题,克服了不能进行端到端训练的难点,具有普遍的实用性。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:包括:
S1:将所有视频划分为相同数量的视频片段si,获取每个视频片段si的粗粒度标签li
S2:所有视频重新划分,将每个视频划分为多个帧数相同的细粒度片段ci,每个细粒度片段ci的标签lc_i为其所在的粗粒度片段si的标签li
S3:将所有的细粒度片段ci进行扩增数据,将扩增后的数据和其对应的标签lc_i输入到分类器中,经过训练,得到每一个细粒度片段ci的特征fi和其初步的平均异常得分
Figure FDA0003506218350000011
S4:将所有的细粒度片段ci按照其初步平均异常得分
Figure FDA0003506218350000012
所在的区间,划分为三个集合,分别是异常近似集Sano、正常近似集Snor和模糊集Samb
S5:将异常近似集Sano和正常近似集Snor分别输入到聚类去噪器中,该去噪器由两个自编码器组成,经过训练,得到两个生成器Gano和Gnor
S6:将三个集合分别输入到两个生成器Gano和Gnor,得到每个集合中的所有视频片段的两个重构误差,根据该误差对对应集合中视频的标签进行初步修正,得到所有片段初步修正的标签y′i
S7:将S6中得到的修正的标签y′i与S3中得到的视频片段的特征fi输入到图卷积去噪器中,构建两个图结构:时间-标签连续性图和特征相似图,利用图卷积训练后得到每个片段的二次修正标签pi
S8:利用二次修正标签pi更新分类器;
S9:重复S3至S8,循环迭代直至收敛;将新的视频片段输入更新后的分类器,输出该视频片段的异常概率。
2.根据权利要求1所述的基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:S1中,所述获取每个视频片段si的粗粒度标签li,包括:
将每一个视频片段si输入到预训练的社群多示例异常检测模型中,采用双分支多实例学习的方法,对输入的视频片段si学习到其初步的标签即粗粒度标签li
3.根据权利要求1所述的基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:S2中,
将视频按照每片段30帧重新分割视频,得到新的细粒度片段ci,其对应的粗粒度标签与si的关系为:
lc_i=li,ci∈si
4.根据权利要求1所述的基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:所述S3,包括:
每个视频细粒度片段ci按照中心裁剪和四角裁剪的原则,扩增为5份,再将其水平方向翻转,最终扩增为10份,以达到数据扩增的目的;
将所有扩增后的数据送入到分类器中,采用TSN网络作为分类器,以细粒度片段ci的标签lc_i为分类器的监督标签,最终训练后得到每个片段ci的特征fi和其初步的平均异常得分
Figure FDA0003506218350000021
Figure FDA0003506218350000029
为其10扩增的数据标签的均值。
5.根据权利要求1所述的基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:S4中,所述划分为三个集合,其中:
划分原则是:按照
Figure FDA0003506218350000022
k为基于经验的概率划分阈值,三个区间,分别将所有细粒度片段ci对应划分为异常近似集Sano,正常近似集Snor和模糊集Samb
6.根据权利要求1所述的基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:S5中,将异常近似集Sano,正常近似集Snor分别送到两个结构相同的自编码器进行学习,自编码器采用3D卷积作为卷积基础,损失函数Lrec为:
Figure FDA0003506218350000023
经过训练后,得到两个生成器Gano和Gnor;M为训练的batchsize,Ii为输入图像,Iirec为重构图像,
Figure FDA0003506218350000024
为二范数。
7.根据权利要求1所述的基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:所述S6,包括:
将模糊集Samb分别输入到两个生成器Gano和Gnor,模糊集Samb中所有视频片段分别得到两个重构误差
Figure FDA0003506218350000025
Figure FDA0003506218350000026
根据标签修正算法
Figure FDA0003506218350000027
对模糊集Samb中视频的标签进行初步修正,其中
Figure FDA0003506218350000028
同样的,将异常近似集Sano和正常近似集Snor再次分别输入到两个生成器Gano和Gnor,得到各自的重构误差
Figure FDA0003506218350000031
Figure FDA0003506218350000032
后,分别利用标签修正算法
Figure FDA0003506218350000033
Figure FDA0003506218350000034
对其标签进行微调,其中
Figure FDA0003506218350000035
所有片段得到其初步修正的标签y′i;其中,
Figure FDA0003506218350000036
Figure FDA0003506218350000037
分别表示如下:
Figure FDA0003506218350000038
Figure FDA0003506218350000039
Figure FDA00035062183500000310
根据上述标签修正算法,所有片段的初步修正标签y′i生成;ri为每个视频片段的重构误差比值,λ为基于经验的比例参数,ra为异常自编码器的全局重构误差比,rn为正常自编码器的全局重构误差比。
8.根据权利要求1所述的基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:S7中,所述时间-标签连续性图
Figure FDA00035062183500000311
和特征相似图
Figure FDA00035062183500000312
其中图的边定义如下:
Figure FDA00035062183500000313
其中
Figure FDA00035062183500000314
*∈(T,F);
Figure FDA00035062183500000315
是一个视频的特征矩阵,由N个片段的特征每个特征d维组成;
Figure FDA00035062183500000316
对应第一个视频中的第i个片段ci的初步修正标签;经过图卷积后,得到每个片段的二次修正标签pi,该图卷积去噪器的损失函数Lgra为:
Figure FDA00035062183500000317
其中
Figure FDA00035062183500000318
为该图卷积去噪器训练时每次迭代的输出pi的加权平均值,N为一个视频中的片段个数。
9.根据权利要求1-8任一项所述的基于视频弱标记的双模态迭代去噪异常检测方法,其特征在于:S8中,所述利用二次修正标签pi更新分类器,包括:
利用图卷积去噪器的输出,二次修正标签pi更新分类器,损失函数为Lc
Figure FDA0003506218350000041
其中H表示高置信度片段集合,在每个视频片段ci的扩增数据被分类器输出概率的方差大小中,取方差前30%小的片段用于更新分类器。
10.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-9任一所述的方法。
CN202010284322.9A 2020-04-13 2020-04-13 基于视频弱标记的双模态迭代去噪异常检测方法及终端 Active CN111626102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010284322.9A CN111626102B (zh) 2020-04-13 2020-04-13 基于视频弱标记的双模态迭代去噪异常检测方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010284322.9A CN111626102B (zh) 2020-04-13 2020-04-13 基于视频弱标记的双模态迭代去噪异常检测方法及终端

Publications (2)

Publication Number Publication Date
CN111626102A CN111626102A (zh) 2020-09-04
CN111626102B true CN111626102B (zh) 2022-04-26

Family

ID=72258839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010284322.9A Active CN111626102B (zh) 2020-04-13 2020-04-13 基于视频弱标记的双模态迭代去噪异常检测方法及终端

Country Status (1)

Country Link
CN (1) CN111626102B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200733B (zh) * 2020-09-09 2022-06-21 浙江大学 一种基于图卷积网络的网格去噪方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563406A (zh) * 2017-07-21 2018-01-09 浙江工业大学 一种自主学习的图像精细分类方法
CN107729799A (zh) * 2017-06-13 2018-02-23 银江股份有限公司 基于深度卷积神经网络的人群异常行为视觉检测及分析预警系统
CN109508671A (zh) * 2018-11-13 2019-03-22 深圳龙岗智能视听研究院 一种基于弱监督学习的视频异常事件检测系统及其方法
CN110009623A (zh) * 2019-04-10 2019-07-12 腾讯科技(深圳)有限公司 一种图像识别模型训练及图像识别方法、装置及系统
CN110378233A (zh) * 2019-06-20 2019-10-25 上海交通大学 一种基于人群行为先验知识的双分支异常检测方法
CN110808067A (zh) * 2019-11-08 2020-02-18 福州大学 基于二值多频带能量分布的低信噪比声音事件检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729799A (zh) * 2017-06-13 2018-02-23 银江股份有限公司 基于深度卷积神经网络的人群异常行为视觉检测及分析预警系统
CN107563406A (zh) * 2017-07-21 2018-01-09 浙江工业大学 一种自主学习的图像精细分类方法
CN109508671A (zh) * 2018-11-13 2019-03-22 深圳龙岗智能视听研究院 一种基于弱监督学习的视频异常事件检测系统及其方法
CN110009623A (zh) * 2019-04-10 2019-07-12 腾讯科技(深圳)有限公司 一种图像识别模型训练及图像识别方法、装置及系统
CN110378233A (zh) * 2019-06-20 2019-10-25 上海交通大学 一种基于人群行为先验知识的双分支异常检测方法
CN110808067A (zh) * 2019-11-08 2020-02-18 福州大学 基于二值多频带能量分布的低信噪比声音事件检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Graph Convolutional Label Noise Cleaner:Train a Plug-and-play Action Classifier for Anomaly Detection;Jia-Xing Zhong等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200131;全文 *
Object-centric Auto-encoders and Dummy Anomalies for Abnormal Event Detection in Video;Radu Tudor Ionescu等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200131;全文 *

Also Published As

Publication number Publication date
CN111626102A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN106778595B (zh) 基于高斯混合模型的人群中异常行为的检测方法
CN112308860B (zh) 基于自监督学习的对地观测图像语义分割方法
CN108197326B (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN111611905B (zh) 一种可见光与红外融合的目标识别方法
CN110084165B (zh) 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法
CN111967313B (zh) 一种深度学习目标检测算法辅助的无人机图像标注方法
CN110378233B (zh) 一种基于人群行为先验知识的双分支异常检测方法
CN114022904B (zh) 一种基于两阶段的噪声鲁棒行人重识别方法
CN111382690B (zh) 基于多损失融合模型的车辆再识别方法
CN110675421B (zh) 基于少量标注框的深度图像协同分割方法
CN111462068A (zh) 一种基于迁移学习的螺钉螺母检测方法
CN115311241B (zh) 一种基于图像融合和特征增强的煤矿井下行人检测方法
CN110096945B (zh) 基于机器学习的室内监控视频关键帧实时提取方法
CN113486886B (zh) 一种自然场景下的车牌识别方法和装置
CN111738044A (zh) 一种基于深度学习行为识别的校园暴力评估方法
CN112434599A (zh) 一种基于噪声通道的随机遮挡恢复的行人重识别方法
CN113628297A (zh) 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统
CN111626102B (zh) 基于视频弱标记的双模态迭代去噪异常检测方法及终端
CN115393928A (zh) 基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置
CN111723852A (zh) 针对目标检测网络的鲁棒训练方法
CN116704490B (zh) 车牌识别方法、装置和计算机设备
CN107729811B (zh) 一种基于场景建模的夜间火焰检测方法
CN110287970B (zh) 一种基于cam与掩盖的弱监督物体定位方法
CN109784244B (zh) 一种指定目标的低分辨率人脸精确识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant