CN110378233A - 一种基于人群行为先验知识的双分支异常检测方法 - Google Patents
一种基于人群行为先验知识的双分支异常检测方法 Download PDFInfo
- Publication number
- CN110378233A CN110378233A CN201910536330.5A CN201910536330A CN110378233A CN 110378233 A CN110378233 A CN 110378233A CN 201910536330 A CN201910536330 A CN 201910536330A CN 110378233 A CN110378233 A CN 110378233A
- Authority
- CN
- China
- Prior art keywords
- video
- crowd
- feature
- branch
- priori knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于人群行为先验知识的双分支行人异常检测方法,包括:利用社会力模型提取视频中人群的交互信息;利用多实例学习方法对视频中不同时间片段学习出异常得分;利用注意力模型捕获视频特征的全局依赖;利用双分支模型将原始视频和其对应的人群交互信息视频结合。本发明充分考虑人类对异常行为判断的先验信息,利用数量充足的正常和异常样本来学习人群行为的正常和异常模式,使得异常检测能在一定地语义层面上对视频中得人群行为进行识别,能很好地解决与适应由于样本数量不足和视频中人群得背景干扰带来的性能损失,更具有鲁棒性;该方法也不需要精确到片段级别的数据标签,即使训练对象是视频的片段,也只需要视频级别的标签。
Description
技术领域
本发明属于计算机视觉技术领域,具体为一种基于人群行为先验知识的双分支异常检测方法,尤其涉及在监控摄像头下的专注于人群异常行为的异常检测。
背景技术
监控摄像机越来越多地被使用在公共场所之中,比如街道、路口、银行和购物中心等等人流量密集的地方。然而,相关行政执法机构的对监控视频中的异常情况的检测能力却没有跟上,导致不能充分利用监控摄像机的资源,在其使用上存在着明显缺陷。让人来实时观测监控视频也非常不现实,因为如今我国的监控摄像机数量已经十分庞大,光靠人力资源来监测监控视频不仅成本代价极高,而且由于各种不确定的人为因素的存在,使得效率也非常的低。因此,当下面临的挑战是在监控视频中实现自动检测异常事件,比如交通事故,犯罪活动或者违法行为。一般来说,相比于普通正常情况而言,异常情况往往发生数量少,且持续时间相对短。因此,为了减少对人力资源和时间的浪费,研究视频自动异常检测的计算机视觉算法是非常有必要的。
实际异常检测系统的目标是及时检测出不符合正常模式的行为,并且识别出异常发生的开始到结束时间点。因此,异常检测可以被认为是计算机对视频的浅层次理解,即把异常从正常模式中区别出来。一旦监控视频中的异常被检测到,那就可以精确地开展下一步工作,比如通过分类技术来对异常情况进行判别,确定异常情况的属性,最终实现向有关部门及时反馈异常情况,不仅缓解了行政执法部门的压力,而且在机器的24小时监控下,也能对违法犯罪行为加以威慑,从而降低犯罪率,维护社会治安。
在早期,比较有代表性的方法有基于目标轨迹的方法(参见Fan Jiang,JunsongYuan,Sotirios A Tsaftaris,and Aggelos K Katsaggelos,“Anomalous video eventdetection using spatiotemporal context,”Computer Vision and ImageUnderstanding,vol.115,no.3,pp.323–333,2011和Claudio Piciarelli and Gian LucaForesti,“On-line trajectory clustering for anomalous events detection,”Pattern Recognition Letters,vol.27,no.15,pp.1835–1842,2006.),但是这些方法主要针对任人物个体进行处理,然而在基于监控摄像头下的异常检测中,目标主要是人群而非单独的个体,由于该方法庞大的计算量,导致这些基于目标轨迹的方法不适用于计算大规模的人群轨迹。为了减少计算量,一些工作(参见Yang Cong,Junsong Yuan,and Ji Liu,“Sparse reconstruction cost for abnormal event detection,”in Computer Visionand Pattern Recognition(CVPR),2011IEEE Conference on.IEEE,2011,pp.3449–3456和Elisa Ricci,Gloria Zen,Nicu Sebe,and Stefano Messelodi,“A prototype learningframework using emd:Application to complex scenes analysis.,”IEEETrans.Pattern Anal.Mach.Intell.,vol.35,no.3,pp.513–526,2013.)提出使用手工特征对视频特征进行提取,比如3D空时梯度,HOG和HOF特征等等,利用这些特征对空时事件模式进行建模,以达到减轻计算量的目的。近几年,由于神经网络的崛起,手工提取的特征的缺陷便愈加明显。相对与手工特征,卷积神经网络提取的特征随着迭代而改变,最终能根据任务的目标提取出最匹配的特征。一种方法(参见Mahmudul Hasan,Jonghyun Choi,JanNeumann,Amit K Roy-Chowdhury,and Larry S Davis,“Learning temporal regularityin video sequences,”in Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,2016,pp.733–742.)通过学习一个基于深度自编码模型的异常分类器来实现视频中的异常见检测。在最近的研究中(参见Yiru Zhao,Bing Deng,ChenShen,Yao Liu,Hongtao Lu,and Xian-Sheng Hua,“Spatio-temporal autoencoder forvideo anomaly detection,”in Proceedings of the 2017ACM on MultimediaConference.ACM,2017,pp.1933–1941),其通过卷积神经网络对视频提取特征,然后利用一种基于重构误差的方法来进行异常检测。由于现实世界的监控视频中异常情况相对于正常情况而言发生数量少且时间短,因此无干扰的异常样本也难以采集,而人造异常样本如UMN的人群异常行为数据集,人群服从命令执行某些异常行为如突然地跑动,无法有效地展示出足够的人群异常信息。因此大多数的基于异常检测的方法通常全部采用正常样本作为训练输入,没有任何异常样本参与到输入的训练过程中,导致模型只能学习到样本的正常模式。虽然这类基于重构误差的方法在当时的某些数据集上展现了良好的效果,但是在测试的过程中,模型将任何与训练样本相差较大的样本均视为异常,也就是说基于重构误差的异常检测方法会受限于异常样本的稀少,无法合理地对正常、异常模式进行建模,最终地检测效果不稳定。
2018年由UCF的CRCV中心所提出的基于多实例学习的异常检测方法(参见SultaniW,Chen C,Shah M.Real-world anomaly detection in surveillance videos[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:6479-6488.),由于在文中作者提出了一种新的数据集,在一定程度上缓解了异常数据样本不足的缺陷,从而作者有避免使用重构误差作为检测手段地优势,转而采取基于多实例学习地方法进行异常检测。该方法在其数据集上表现出了相对不错的性能,其采用比较前沿的特征提取手段—C3D。C3D网络对于视频级别的特征提取任务来说在许多视频类任务上的效果超越了普通卷积神经网络。C3D相比于CNN的优势在于能在一定程度上提取到视频的空时特征,但是就异常检测任务而言,C3D不能精确地提取到视频中人群的行为交互信息。现有的方法也没有很好地利用这种先验知识,这也很有可能导致模型性能不能达到预期。因此,如何将这类先验知识利用在异常检测中成为了一个富有挑战性的任务。
发明内容
针对现有技术中存在的上述问题,本发明的目的是提供一种基于人群行为先验知识的双分支异常检测方法,该方法利用现有的深度学习方法的优势,提出了联合人群行为信息与原始视频的异常检测方法,通过对人群行为信息的单独提取,使框架的注意力从关注整个监控视频到更多地关注视频中人群交互信息,并且利用多实例学习的方法解决了异常视频数据不充足的缺点。从而提升了监控摄像头下异常检测的性能。
本发明通过采用多实例学习方法作为异常检测的主要框架,将视频划分为多个视频片段作为输入单位,在维度上极大程度扩大了训练网络框架可以使用的数据量,为最终取得良好的结果提供了基础保障。本发明使用同一个训练框架,通过分别输入原始视频/社会力图训练出两个不同的模型,在测试阶段将两个模型融合,合理地利用了人群行为先验知识。同时利用一维注意力模型来捕获输入的特征的全局依赖,使特征更具有对原始样本的表示力,增加样本间的独立性。
本发明同时考虑了监控摄像头下的人群行为信息和背景信息,利用多实例学习解决样本不充分问题,利用注意力模型进一步修饰原始特征,使网络框架具有很好的鲁棒性和普遍的适用性。
进一步地,本发明是通过以下技术方案实现的。
一种基于人群行为先验知识的双分支异常检测方法,包括:
S1:将每个视频划分为多个视频片段si;
S2:将每一个视频片段si输入到预训练的C3D网络,并对所有的视频片段si提取特征;其中,以每16帧为单位提取特征,每一个视频片段si的特征为其中所有16帧特征的均值,得到每个视频的多个特征;
S3:利用注意力模型捕获单个特征内的全局依赖,每一个输入的特征A经过注意力模型处理后得到新的特征E,特征E中每一个位置的值为所有位置值的加权和;
S4:利用全连接层输出每一个视频片段si的异常得分值f(si),将异常得分值f(si)输入到多实例损失函数L(Va,Vn)进行梯度下降和反向传播;所述多实例损失函数L(Va,Vn)表达式如下:
其中,Va和Vn分别为一个异常视频和一个正常视频,M()表示多实例排序损失函数,N()表示连续视频片段得分值的连续性限制,S()为一范数的稀疏性限制,‖W‖F为权重约束;和分别为异常视频的片段的异常得分值和正常视频的片段的异常得分值;
S5:通过S1~S4,训练出第一个网络分支,即时空动态分支Bo;
S6:利用社会力模型,对时空动态分支Bo中的数据集视频生成其对应的社会力图,提取出时空动态分支Bo中的人群和周围环境的交互社会力Fint,得到原始视频对应的社会力图,即提取出人群的行为信息,其数据维度与原始视频维度一致;
S7:将所有的社会力图作为输入,重复S1到S4,训练出第二个网络分支,即交互动态分支Bs;
S8:在异常检测阶段,将用于测试的视频和其对应的社会力图分别输入到时空动态分支和交互动态分支,最终测试视频所有的视频片段得到两个异常得分值,采取平均法将这两个异常得分值融合作为视频片段的最终异常分值。
优选地,S1中,采用多实例学习方法,将每个视频作为一个包,将具有固定数量以及固定长度的视频片段作为包内的实例,并将一个视频的多个视频片段作为C3D网络输入。
优选地,S2中,同时对网络输入一个正常视频和一个异常视频,切片后对所有视频片段提取特征,每个视频片段的特征为:
其中,为每一个视频片段内的每个16帧的特征,取均值作为该视频片段的特征。
优选地,S3中,原始输入的特征A经过三次不同的卷积过程,分别形成新的中间特征B、C和D;新特征的完整计算公式如下:
E=Softmax(BT×C)×D+A
其中,Softmax()为全局依赖捕获函数。
优选地,S4中,对于多实例损失函数L(Va,Vn),其中:
优选地,S5中,训练出时空动态分支Bo后,测试视频的视频片段异常得分通过Bo(si)得到。
优选地,S6中,人群与周围环境的交互社会力Fint的计算方法为:
其中,表示此时希望达到的移动速度,vi为行人此时的实际速度,τ为松弛系数。
优选地,S7中,利用原始数据集对应的社会力图作为模型输入,训练得到交互动态分支Bs,测试视频的视频片段异常得分通过Bs(si)得到。
优选地,S8中,最终测试视频的视频片段得分由A(Bs(si),Bo(si))得到,其中,A()为得分融合函数。
优选地,所述方法还包括:
利用ROC曲线来检测所述方法的有效性。
本发明提供的一种基于人群行为先验知识的双分支行人异常检测方法,利用社会力模型提取视频中人群的交互信息;利用多实例学习方法对视频中不同时间片段学习出异常得分;利用注意力模型捕获视频特征的全局依赖;利用双分支模型将原始视频和其对应的人群交互信息视频结合。本发明通过充分考虑人类对异常行为判断的先验信息,利用了数量充足的正常和异常样本来学习人群行为的正常和异常模式,使得异常检测能够在一定地语义层面上对视频中得人群行为进行识别,更具有鲁棒性,该方法能够够好的的解决与适应由于样本数量不足和视频中人群得背景干扰带来的性能损失,具有普遍的适用性。
与现有技术相比,本发明具有如下有益效果:
1、在异常检测中充分考虑了人群行为的先验知识,单独提取出监控视频中的人群交互信息作为模型输入,通过双分支的方法将人群交互信息与原始视频提供的信息相融合,最大程度上地使异常检测框架地注意力集中在了人群的关键时空位置上,在一定的语义程度上实现异常检测。
2、采用多实例学习的方法避免了异常数据不够充分的问题,对于模型框架而言扩充了数据量,有效地避免了以往只能采用正常视频进行训练的缺陷,实现了对正常和异常模式的建模。
附图说明
图1为本发明一实施例中网络结构的具体框架和组成方式示意图;
图2为本发明一实施例中社会力模型提取人群行为信息示意图;
图3为本发明一实施例中注意力模型示意图;
图4为本发明一实施例中测试和比较结果示意图;其中:(a)为本发明所提供的方法与其余4种方法对比的结果,(b)为本发明所提供的方法的注意力模型和引入先验知识有效性的示意图。
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例提供了一种基于人群行为先验知识的双分支异常检测方法,包括以下步骤:
第一步:将每个视频划分多固定数量、固定长度的片段si,该方法不需要精确到片段级别的数据标签,即使训练对象是视频的片段,该方法也只需要视频级别的标签。
第二步:将原始视频切片后输入网络,采用预训练的C3D网络对所有的视频片段提取特征,以每16帧为单位提取特征,每个片段的特征为其中所有16帧特征的均值。
第三步:利用注意力模型捕获单个特征内的全局依赖,每一个输入的特征A经过注意力模型处理后得到新的特征E,E中每一个位置的值为所有位置值得加权和,实现特征内部得全局依赖捕获。网络结构如图3所示。
第四步:利用全连接层输出每一个视频片段的异常得分值f(si),将其输入到多实例损失函数L(Va,Vn)进行梯度下降、反向传播,其中(Va,Vn)为一个异常视频和一个正常视频,实际输入为异常视频和正常视频的片段与的异常得分值,将视频片段的二分类问题转化为回归问题;。
第五步:通过第一步~第四步,训练出第一个网络分支,即时空动态分支Bo;
第六步:利用社会力模型,对时空动态分支Bo中的数据集视频生成其对应的社会力图,提取出原始数据集视频中的人群和周围环境的交互力Fint,得到原始视频对应的社会力图,即提取出人群的行为信息,其数据维度与原始视频维度一致,社会力图例子如图2所示。
第七步:将所有的社会力图作为输入,重复步骤一到四,训练出第二个网络分支,即交互动态分支Bs。
第八步:在异常检测阶段,将用于测试的视频和其对应的社会力图分别输入到这两个网络分支,最终测试视频所有的视频片段得到两个异常得分值,采取平均的方法将这两个异常得分值融合作为视频片段的最终异常分值。
进一步地,第一步中,采取的方法为多实例学习方法,将每个视频视作一个包,将视频片段视作包内的实例,对于网络而言,输入单位为一个视频的多个视频片段si而非整个视频。
进一步地,第二步中,同时对网络输入一个正常视频和一个异常视频(包含异常),切片后对所有片段提取特征,每个片段的特征为:
其中为每个视频片段内每个16帧的特征,取均值作为该视频片段的特征。
进一步地,第三步中,原始输入特征A将经过三次不同的卷积过程,形成新的中间特征B,C和D。新特征的完整计算公式如下:
E=Softmax(BT×C)×D+A
进一步地,第四步中,全连接层的层数输出视频片段的异常得分f(si),被输入到多实例损失函数L(Va,Vn)进行反向传播,该损失函数的计算过程表达式为:
其中M()表示多实例排序损失函数,N()表示连续视频片段得分值的连续性限制,S()为一范数的稀疏性限制,‖W‖F为权重约束,为异常视频的片段的异常得分值,为正常视频的片段的异常得分值。
进一步地,多实例损失函数L(Va,Vn)表达式中:
进一步地,第五步中,训练出时空动态分支Bo后,测试视频的视频片段得分通过Bo(si)得到。
进一步地,第六步中,人群与周围环境的交互社会力Fint的计算方法为:
其中,表示此时希望达到的移动速度,vi为行人此时的实际速度,τ为松弛系数。
进一步地,第七步中,利用原始数据集对应的社会力图作为模型输入,训练得到交互动态分支Bs,测试视频的片段得分通过Bs(si)得到。
进一步地,第八步中,最终测试的视频片段得分由A(Bs(si),Bo(si))得到,A()为得分融合函数。
进一步地,本发明实施例还包括:
第九步:利用ROC曲线来检测该方法的有效性。
下面结合一具体实例,对本发明上述实施例中的技术方案进一步详细描述。
本具体实例采用的图像帧来自数据库Ucf-Crime(参见:Sultani W,Chen C,ShahM.Real-world anomaly detection in surveillance videos[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2018:6479-6488.)以进行异常检测性能评估。
本实例涉及的基于人群行为先验知识的双分支异常检测方法,整体框架如图1所示,包括如下具体步骤:
对所有训练视频进行预处理,作为模型输入。
具体步骤为:
S1、将每个视频划分32个、固定长度的视频片段si,视频片段之间无交叠,对整个视频进行标记,将其扩散到视频片段上,如视频为异常视频,则其所有视频片段标记为1,正常视频所有视频片段标记为0.
S2、对所有视频片段提取特征,首先将每个视频片段再以16帧为单位划分,利用预训练的C3D网络对每16帧提取特征,每个视频片段的特征为其划分的所有16帧特征的均值:
其中为每个视频片段内每个16帧的特征,取均值作为该视频片段的特征。
训练双分支模型,原始视频输入网络训练出第一个模型分支Bo。
具体步骤为:
S3、利用注意力模型捕获特征内部的全局依赖,原始输入特征A将经过三次不同的卷积过程,形成新的中间特征B,C和D。如图3所示,新特征的完整计算公式如下:
E=Softmax(BT×C)×D+A
S41、将修正过后的特征输入到全连接层中,全连接层设置为512×32×1,最后的输出为每一个特征片段的异常得分值f(si)。
S42、将其输入到多实例损失函数L(Va,Vn)进行梯度下降、反向传播,其中(Va,Vn)为一个异常视频和一个正常视频,实际输入为视频的片段与L(Va,Vn)表示如下:
同时将一个正常视频Vn和异常视频Va的所有视频片段输入到网络中,和表示异常和正常,通过第一个式子约束异常视频片段中得分最高者大于正常视频片段中得分最高者。第二个式子 约异常视频片段间的得分尽可能平滑,第三个式子使异常视频片段得分洗稀疏,即异常视频中不包含异常的片段得分尽可能地被约束至0,最后‖W‖F表示模型权重。λ1和λ2取值均可以为8×10-5。将视频片段的二分类问题转化为回归问题;
步骤S5,训练出时空动态分支Bo。
将原始视频处理后作为新的数据输入模型训练出第二个模型分支Bs。
S6、利用社会力模型,对原始视频提取行人交互信息,人群与周围环境的社会力计算公式如下:
其中,表示此时希望达到的移动速度,其中,O(xi,yi)表示粒子i在(xi,yi)空间位置的光流值,此时我们用粒子代替了行人,用光流值和光流平均值表示了群组运动和行人运动。vi为行人此时的实际速度,τ为松弛系数。
S7、将计算出的社会力图作为输入,重复步骤S1~S4,训练出社会力模型分支Bs。
异常检测阶段,利用双分支模型对测试视频进行处理,融合人群行为先验知识到异常检测中。
S81、测试视频输入到时空动态分支Bo中,输出视频所有片段的异常得分值,Bo(si).
S82、测试视频经过社会力模型计算出对应的社会力图,经过预处理过后输入到交互动态分支Bs中,输出所有社会力图片段的异常得分Bs(si)。
S83、最终视频的每个片段的异常分值设定为:
综上所述,本发明实施例所提供的方法通过社会力模型提取视频中的人群行为信息,利用社会力图作为单独输入,将人群行为的先验知识引入到异常检测中,同时利用原始视频作为另一路输入,即有效提取了视频的全局信息,又合理地关注了更多地人群行为信息,完全符合人类大脑对异常地判断思路,在一定的语义层面上实现异常检测。其次在网络框架上,本实施例方法采用多实例学习方法来规避数据集不充分地问题,大多数异常检测方法只能使用正常视频进行训练,然而我们的方法将数据视频划分为多个视频片段进行处理,不仅在时间精度的检测上大大增强,而且因为数据的扩增模型的鲁棒性也得到提高。对于神将网络,本实施例方法使用注意力模型有效地捕获了特征内部的全局依赖,实验证明某些特征内一些在位置上相聚较远的值也有比较强烈的依赖关系,本实施例方法通过注意力模型对特征进行修正,使得特征能更加有效地适用于训练。
如图4中(a)所示,是基于本发明上述实施例方法的最终异常检测结果示意图,以AUC值(ROC曲线下方的面积大小)作为表征,五条曲线分别是本实施例方法和其他方法的性能,作为参照系用以进行方法的比较;曲线4是经典的支持二分类支持向量机的测试结果;曲线5代表一种基于重构误差的异常检测方法(参见Mahmudul Hasan,Jonghyun Choi,JanNeumann,Amit K Roy-Chowdhury,and Larry S Davis,“Learning temporal regularityin video sequences,”in Proceedings of the IEEE Conference on Computer Visionand Patter Recognition,2016,pp.733-742.);曲线3表示一种基于字典学习的异常检测方法(参见Cewu Lu,Jianping Shi,and Jiaya Jia,“Abnormal event detection at150fps in matlab,”in Proceedings of the IEEE international conference oncomputer vision,2013,pp.2720-2727.);曲线2表示本实施例参考的方法(参见SultaniW,Chen C,Shah M.Real-world anomaly detection in surveillance videos[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:6479-6488.)。曲线1表示本实施例的踢出去基于人群行为先验知识的双分支异常检测方法。
从图4中(a)可以看出,本发明上述实施例所提供的方法在测试性能上达到的最好的效果,较之前的方法能够更准确的学习到监控视频下的人群正常行为模式和异常行为模式,识别精度有所提升。
以下表1,是基于本发明上述实施例所提供的方法得到的性能的最终识别准确率的数值比较结果。从上至下依次陈列了用以对照的其他结果同本实施例实施结果的数值比较。可以看到本发明上述实施例精度在不同数据集上都有很好的效果提升。
表1
方法 | AUC |
二分类支持向量机 | 0.4999 |
Lu等人的方法 | 0.5066 |
Hasan等人的方法 | 0.6551 |
Sltani等人的方法 | 0.7489 |
本发明所提供的方法 | 0.7828 |
图4中(b)展示了本发明上述实施例在网络结构中加入的注意力模型以及交互动态分支的有效性;其中曲线1为时空动态分支与注意力模型结合的结果示意图;曲线2只有时空动态分支,不含注意力模型;曲线3为交互动态分支与注意力模型的测试结果;曲线4为只有交互动态分支的测试结果。具体AUC值如表2所示。
表2
综上所述,本发明上述实施例提供的基于人群行为先验知识的双分支行人异常检测方法,以引入人群行为先验知识为基础,利用人类对异常行为判断的思路,将监控视频下人群行为信息单独提取出,参与双分支的网络训练,在一定的语义层级上实现了高效的异常检测;通过多实例学习方法,在原有数据集不变的基础下改变了输入元素,从视频变为视频片段,不仅使网络训练拜托数据集不充分的限制,而且使测试阶段能够比较精确地定位到异常发生地片段,提升了异常检测的鲁棒性;通过注意力模型捕获特征内部的全局依赖,对特征进行修正,以更合理的形态参与整体网络的训练;最终提高了方法的普适性。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种基于人群行为先验知识的双分支异常检测方法,其特征在于:包括:
S1:将每个视频划分为多个视频片段si;
S2:将每一个视频片段si输入到预训练的C3D网络,并对所有的视频片段si提取特征;其中,以每16帧为单位提取特征,每一个视频片段si的特征为其中所有16帧特征的均值,得到每个视频的多个特征;
S3:利用注意力模型捕获单个特征内的全局依赖,每一个输入的特征A经过注意力模型处理后得到新的特征E,特征E中每一个位置的值为所有位置值的加权和;
S4:利用全连接层输出每一个视频片段si的异常得分值f(si),将异常得分值f(si)输入到多实例损失函数L(Va,Vn)进行梯度下降和反向传播;所述多实例损失函数L(Va,Vn)表达式如下:
其中,Va和Vn分别为一个异常视频和一个正常视频,M()表示多实例排序损失函数,N()表示连续视频片段得分值的连续性限制,S()为一范数的稀疏性限制,‖W‖F为权重约束;和分别为异常视频的片段的异常得分值和正常视频的片段的异常得分值;
S5:通过S1~S4,训练出第一个网络分支,即时空动态分支Bo;
S6:利用社会力模型,对时空动态分支Bo中的数据集视频生成其对应的社会力图,提取出时空动态分支Bo中的人群和周围环境的交互社会力Fint,得到原始视频对应的社会力图,即提取出人群的行为信息,其数据维度与原始视频维度一致;
S7:将所有的社会力图作为输入,重复S1到S4,训练出第二个网络分支,即交互动态分支Bs;
S8:在异常检测阶段,将用于测试的视频和其对应的社会力图分别输入到时空动态分支和交互动态分支,最终测试视频所有的视频片段得到两个异常得分值,采取平均法将这两个异常得分值融合作为视频片段的最终异常分值。
2.根据权利要求1所述的基于人群行为先验知识的双分支异常检测方法,其特征是:S1中,采用多实例学习方法,将每个视频作为一个包,将具有固定数量以及固定长度的视频片段作为包内的实例,并将一个视频的多个视频片段作为C3D网络输入。
3.根据权利要求1所述的基于人群行为先验知识的双分支异常检测方法,其特征是:S2中,同时对网络输入一个正常视频和一个异常视频,切片后对所有视频片段提取特征,每个视频片段的特征为:
其中,为每一个视频片段内的每个16帧的特征,取均值作为该视频片段的特征。
4.根据权利要求1所述的基于人群行为先验知识的双分支异常检测方法,其特征是:S3中,原始输入的特征A经过三次不同的卷积过程,分别形成新的中间特征B、C和D;新特征的完整计算公式如下:
E=Softmax(BT×C)×D+A
其中,Softmax()为全局依赖捕获函数。
5.根据权利要求1所述的基于人群行为先验知识的双分支异常检测方法,其特征是:S4中,对于多实例损失函数L(Va,Vn),其中:
6.根据权利要求1所述的基于人群行为先验知识的双分支异常检测方法,其特征是:S5中,训练出时空动态分支Bo后,测试视频的视频片段异常得分通过Bo(si)得到。
7.根据权利要求1所述的基于人群行为先验知识的双分支异常检测方法,其特征是:S6中,人群与周围环境的交互社会力Fint的计算方法为:
其中,表示此时希望达到的移动速度,vi为行人此时的实际速度,τ为松弛系数。
8.根据权利要求1所述的基于人群行为先验知识的双分支异常检测方法,其特征是:S7中,利用原始数据集对应的社会力图作为模型输入,训练得到交互动态分支Bs,测试视频的视频片段异常得分通过Bs(si)得到。
9.根据权利要求1所述的基于人群行为先验知识的双分支异常检测方法,其特征是:S8中,最终测试视频的视频片段得分由A(Bs(si),Bo(si))得到,其中,A()为得分融合函数。
10.根据权利要求1至9中任一项所述的基于人群行为先验知识的双分支异常检测方法,其特征是:还包括:
利用ROC曲线来检测所述方法的有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910536330.5A CN110378233B (zh) | 2019-06-20 | 2019-06-20 | 一种基于人群行为先验知识的双分支异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910536330.5A CN110378233B (zh) | 2019-06-20 | 2019-06-20 | 一种基于人群行为先验知识的双分支异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110378233A true CN110378233A (zh) | 2019-10-25 |
CN110378233B CN110378233B (zh) | 2021-03-09 |
Family
ID=68250476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910536330.5A Active CN110378233B (zh) | 2019-06-20 | 2019-06-20 | 一种基于人群行为先验知识的双分支异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378233B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160117A (zh) * | 2019-12-11 | 2020-05-15 | 青岛联合创智科技有限公司 | 一种基于多示例学习建模的异常行为检测方法 |
CN111523421A (zh) * | 2020-04-14 | 2020-08-11 | 上海交通大学 | 基于深度学习融合各种交互信息的多人行为检测方法及系统 |
CN111626102A (zh) * | 2020-04-13 | 2020-09-04 | 上海交通大学 | 基于视频弱标记的双模态迭代去噪异常检测方法及终端 |
CN112016403A (zh) * | 2020-08-05 | 2020-12-01 | 中山大学 | 一种视频异常事件检测方法 |
CN113312968A (zh) * | 2021-04-23 | 2021-08-27 | 上海海事大学 | 一种监控视频中的真实异常检测方法 |
CN114677638A (zh) * | 2022-03-16 | 2022-06-28 | 西安电子科技大学广州研究院 | 一种基于深度学习和聚类人群异常聚集的检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156880A (zh) * | 2011-04-11 | 2011-08-17 | 上海交通大学 | 基于改进的社会力模型的异常集群行为检测方法 |
CN102682303A (zh) * | 2012-03-13 | 2012-09-19 | 上海交通大学 | 基于lbp加权社会力模型的人群异常事件检测方法 |
CN103020591A (zh) * | 2012-11-21 | 2013-04-03 | 燕山大学 | 一种基于因果网络分析的中等规模人群异常行为检测方法 |
CN104504367A (zh) * | 2014-12-01 | 2015-04-08 | 中国科学院信息工程研究所 | 一种基于级联字典的人群异常检测方法及系统 |
CN104732528A (zh) * | 2015-03-02 | 2015-06-24 | 集美大学 | 基于当前帧粒子加权社会力总和的群体异常事件检测方法 |
US20160132754A1 (en) * | 2012-05-25 | 2016-05-12 | The Johns Hopkins University | Integrated real-time tracking system for normal and anomaly tracking and the methods therefor |
CN106022234A (zh) * | 2016-05-13 | 2016-10-12 | 中国人民解放军国防科学技术大学 | 基于光流计算的异常拥挤行为检测算法 |
CN107169426A (zh) * | 2017-04-27 | 2017-09-15 | 广东工业大学 | 一种基于深度神经网络的人群情绪异常检测和定位方法 |
CN109508671A (zh) * | 2018-11-13 | 2019-03-22 | 深圳龙岗智能视听研究院 | 一种基于弱监督学习的视频异常事件检测系统及其方法 |
-
2019
- 2019-06-20 CN CN201910536330.5A patent/CN110378233B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156880A (zh) * | 2011-04-11 | 2011-08-17 | 上海交通大学 | 基于改进的社会力模型的异常集群行为检测方法 |
CN102682303A (zh) * | 2012-03-13 | 2012-09-19 | 上海交通大学 | 基于lbp加权社会力模型的人群异常事件检测方法 |
US20160132754A1 (en) * | 2012-05-25 | 2016-05-12 | The Johns Hopkins University | Integrated real-time tracking system for normal and anomaly tracking and the methods therefor |
CN103020591A (zh) * | 2012-11-21 | 2013-04-03 | 燕山大学 | 一种基于因果网络分析的中等规模人群异常行为检测方法 |
CN104504367A (zh) * | 2014-12-01 | 2015-04-08 | 中国科学院信息工程研究所 | 一种基于级联字典的人群异常检测方法及系统 |
CN104732528A (zh) * | 2015-03-02 | 2015-06-24 | 集美大学 | 基于当前帧粒子加权社会力总和的群体异常事件检测方法 |
CN106022234A (zh) * | 2016-05-13 | 2016-10-12 | 中国人民解放军国防科学技术大学 | 基于光流计算的异常拥挤行为检测算法 |
CN107169426A (zh) * | 2017-04-27 | 2017-09-15 | 广东工业大学 | 一种基于深度神经网络的人群情绪异常检测和定位方法 |
CN109508671A (zh) * | 2018-11-13 | 2019-03-22 | 深圳龙岗智能视听研究院 | 一种基于弱监督学习的视频异常事件检测系统及其方法 |
Non-Patent Citations (4)
Title |
---|
RAMIN MEHRAN 等: "Abnormal Crowd Behavior Detection using Social Force Model", 《2009 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
TIANQI SHI 等: "Dynamic Attribute Package: Crowd Behavior Recognition in Complex Scene", 《DIGITAL TV AND MULTIMEDIA COMMUNICATION》 * |
WAQAS SULTANI 等: "Real-world Anomaly Detection in Surveillance Videos", 《CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
YANHAO ZHANG 等: "ABNORMAL CROWD BEHAVIOR DETECTION BASED ON SOCIAL ATTRIBUTE-AWARE FORCE MODEL", 《2012 19TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160117A (zh) * | 2019-12-11 | 2020-05-15 | 青岛联合创智科技有限公司 | 一种基于多示例学习建模的异常行为检测方法 |
CN111626102A (zh) * | 2020-04-13 | 2020-09-04 | 上海交通大学 | 基于视频弱标记的双模态迭代去噪异常检测方法及终端 |
CN111626102B (zh) * | 2020-04-13 | 2022-04-26 | 上海交通大学 | 基于视频弱标记的双模态迭代去噪异常检测方法及终端 |
CN111523421A (zh) * | 2020-04-14 | 2020-08-11 | 上海交通大学 | 基于深度学习融合各种交互信息的多人行为检测方法及系统 |
CN111523421B (zh) * | 2020-04-14 | 2023-05-19 | 上海交通大学 | 基于深度学习融合各种交互信息的多人行为检测方法及系统 |
CN112016403A (zh) * | 2020-08-05 | 2020-12-01 | 中山大学 | 一种视频异常事件检测方法 |
CN112016403B (zh) * | 2020-08-05 | 2023-07-21 | 中山大学 | 一种视频异常事件检测方法 |
CN113312968A (zh) * | 2021-04-23 | 2021-08-27 | 上海海事大学 | 一种监控视频中的真实异常检测方法 |
CN113312968B (zh) * | 2021-04-23 | 2024-03-12 | 上海海事大学 | 一种监控视频中的真实异常检测方法 |
CN114677638A (zh) * | 2022-03-16 | 2022-06-28 | 西安电子科技大学广州研究院 | 一种基于深度学习和聚类人群异常聚集的检测方法 |
CN114677638B (zh) * | 2022-03-16 | 2024-04-05 | 西安电子科技大学广州研究院 | 一种基于深度学习和聚类人群异常聚集的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110378233B (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A survey on an emerging area: Deep learning for smart city data | |
CN110378233A (zh) | 一种基于人群行为先验知识的双分支异常检测方法 | |
Zhang et al. | MCnet: Multiple context information segmentation network of no-service rail surface defects | |
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
Liu et al. | Exploring background-bias for anomaly detection in surveillance videos | |
CN110097000A (zh) | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 | |
CN106845373A (zh) | 面向监控视频的行人属性预测方法 | |
CN101894276A (zh) | 人体动作识别的训练方法和识别方法 | |
Wang et al. | Spatial–temporal pooling for action recognition in videos | |
CN110503081A (zh) | 基于帧间差分的暴力行为检测方法、系统、设备及介质 | |
CN109614896A (zh) | 一种基于递归卷积神经网络的视频内容语义理解的方法 | |
Tao et al. | Attention-aggregated attribute-aware network with redundancy reduction convolution for video-based industrial smoke emission recognition | |
Elharrouss et al. | FSC-set: counting, localization of football supporters crowd in the stadiums | |
Chen et al. | Multiscale spatial temporal attention graph convolution network for skeleton-based anomaly behavior detection | |
Sahoo et al. | DISNet: A sequential learning framework to handle occlusion in human action recognition with video acquisition sensors | |
Zhao et al. | Parsing human image by fusing semantic and spatial features: A deep learning approach | |
Li et al. | Human-related anomalous event detection via memory-augmented Wasserstein generative adversarial network with gradient penalty | |
Mohammad et al. | Searching surveillance video contents using convolutional neural network | |
Wang et al. | Deep neural networks in video human action recognition: A review | |
Chang et al. | Visual sensing human motion detection system for interactive music teaching | |
Huang et al. | A detection method of individual fare evasion behaviours on metros based on skeleton sequence and time series | |
Cao et al. | Adaptive receptive field U-shaped temporal convolutional network for vulgar action segmentation | |
Jin et al. | FuTH-Net: fusing temporal relations and holistic features for aerial video classification | |
Wang et al. | RETRACTED ARTICLE: Human behaviour recognition and monitoring based on deep convolutional neural networks | |
Wang et al. | Learning a layout transfer network for context aware object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |