CN112016403A - 一种视频异常事件检测方法 - Google Patents
一种视频异常事件检测方法 Download PDFInfo
- Publication number
- CN112016403A CN112016403A CN202010778939.6A CN202010778939A CN112016403A CN 112016403 A CN112016403 A CN 112016403A CN 202010778939 A CN202010778939 A CN 202010778939A CN 112016403 A CN112016403 A CN 112016403A
- Authority
- CN
- China
- Prior art keywords
- video
- pipeline
- level
- prediction
- instance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
Abstract
本发明公开了一种视频异常事件检测方法,使用了管道‑时间双支结构,在不同的粒度上反映了视频中的信息,一个分支可以把学习到的知识分享给另外一个分支,充当额外的监督作用,鼓励另外一个分支从不同的粒度学习异常事件的特征;从而减轻对人力资源依赖,提高检测效率,同时在只有时序标签的数据集上,利用不同粒度的信息,检测出视频中异常事件发生的事件和区域,并且探索区域之间的关系,提升准确率。
Description
技术领域
本发明涉及异常事件检测技术领域,尤其涉及一种视频异常事件检测方法。
背景技术
视频中的异常事件检测技术,在城市交通分析、交通事故预测以及证据勘察等应用中起着至关重要的作用。目前,视频异常事件检测可以进一步分为人工检测和自动检测两种方案。
(1)、人工检测需要安排大量的工作人员参与其中,让工作人员观察视频的每一秒,标出视频中异常事件的时间、空间信息。
然而,人工检测需要大量的人力,需要工作人员在较长的视频中标记异常事件,劳动力成本较高,并且存在一定的漏检情况。
(2)、自动诊断基于深度学习视频分析技术。通过预先使用一定数量的包含异常事件的视频、不包含异常事件的视频以及其相关的标注数据,训练网络模型自主学习视频中的异常事件的物体形状、物体变化等典型特征,进而检测出视频中的异常事件。
然而,现有的自动检测技术尽管经过不断发展,检测效果越来越好。但是在只有时序标签的数据集上,很多技术仅仅只能在时序上粗糙地标出异常事件发生时间和结束时间,不仅针对的粒度不够,而且不能够提供异常事件发生的区域信息。而既有时序标签又有空间标签的数据集又需要大量的人力去标记。
目前,现有的视频异常事件检测方法主要包括使用了统计学方法,自动编码器,C3D网络模型,GCN网络模型等。统计学方法对数据点进行建模,再以假定的模型根据点的分布来确定是否异常视频,如隐马尔可夫模型和马尔可夫随机场等。自动编码器重构正常视频后的结果与原视频对比错误较少,故而可以使用视频重构后的结果与原视频的差别作为异常事件检测的重要依据。C3D网络模型是一种三维卷积神经网络,改进了二维卷积神经网络在捕捉视频时序信息中的不足,可以作为视频的特征抽取器,使用MIL方法可以训练异常事件检测模型。GCN网络模型在异常事件检测中纠正标签中的噪音,把异常事件检测当作有噪音标签的监督学习,使得在只有弱标签的情况下,也可以使用全监督的分类器去检测异常事件。
因此,目前市面上亟需一种自动化视频异常事件检测策略,可以减轻对人力资源依赖,提高检测效率并提升准确率。
发明内容
本发明提供了一种视频异常事件检测方法,可以减轻对人力资源依赖,提高检测效率并提升准确率。
为了解决上述技术问题,本发明实施例提供了一种视频异常事件检测方法,包括:
获取视频源文件,分别对所述视频源文件进行管道级别实例抽取和视频级别实例抽取,得到管道级别实例和视频级别实例;
分别对所述管道级别实例和视频级别实例进行特征提取,得到管道级别特征和视频级别特征;
分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理,得到管道高级特征和视频高级特征;
分别将所述管道高级特征和视频高级特征输入至各自对应的全连接神经网络进行异常预测,得到管道预测数值和视频预测数值;
根据所述管道预测数值和视频预测数值计算得到异常事件预测分数。
作为优选方案,所述对所述视频源文件进行管道级别实例抽取的步骤具体为:
将所述视频源文件输入到深度学习模型中,输出得到每一帧中物体的区域;
对所有区域中自信心最大的区域进行提取,并在自信心最大的所在区域的同一帧的其他区域中提取出IoU值大于预设阈值的区域,将所述IoU值大于预设阈值的区域合并入已提取的区域组成更大的区域;
在当前帧的所有区域合并完毕之后,选择下一帧的扩展分数最高的区域并入此区域所属的管道,直至所述视频源文件中的所有帧处理完成。
作为优选方案,所述扩展分数定义为:Sl(Bi,Bj)=S(Bi)+S(Bj)+nU(Bi,Bj);
其中,B表示区域,S(Bi)为区域Bi的自信心,U(Bi,Bj)为区域Bi和Bj的IoU分数。
作为优选方案,所述对所述视频源文件进行视频级别实例抽取的步骤具体为:
将所述视频源文件切割为互不重合的多个视频片段,每个视频片段就是一个视频级别的实例。
作为优选方案,所述进行特征提取的步骤,具体为:
把实例输入到C3D网络之后,从所述C3D网络中抽取出fc6层的特征,再进行平均池化层以统一维度。
作为优选方案,所述关系建模的具体结构包括:多层多头自注意力层,每一层多头自注意层均包括多层全连接层和缩放点乘注意层。
作为优选方案,所述进行特征处理的步骤具体为:
将输入的原始特征同时输入到多层全连接层;
将各层全连接层的输出结果输入到缩放点乘注意层中;
将缩放点乘注意层的输出结果输入到下一层的多头自注意力层;
当最后一层多头自注意力层输出结果时,将原始特征和最后一层多头自注意力层输出结果,作为关系建模的最终输出。
作为优选方案,所述进行异常预测的步骤具体为:
分别将所述管道高级特征和视频高级特征输入至各自对应的全连接神经网络,得到管道预测值和视频预测值;
通过sigmoid函数分别对所述管道预测值和视频预测值进行归一化处理,得到管道预测数值和视频预测数值。
作为优选方案,所述根据所述管道预测数值和视频预测数值计算得到异常事件预测分数的步骤具体为:
计算所述管道预测数值和视频预测数值的平均数,作为异常事件预测分数。
作为优选方案,在所述分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理之前,还包括:通过管道损失函数对其对应的关系建模进行训练;同时,通过时间损失函数对其对应的关系建模进行训练;
所述管道损失函数定义如下:
所述时间损失函数定义如下:
相比于现有技术,本发明实施例具有如下有益效果:
本发明技术方案使用了管道-时间双支结构,在不同的粒度上反映了视频中的信息,一个分支可以把学习到的知识分享给另外一个分支,充当额外的监督作用,鼓励另外一个分支从不同的粒度学习异常事件的特征;从而减轻对人力资源依赖,提高检测效率,同时在只有时序标签的数据集上,利用不同粒度的信息,检测出视频中异常事件发生的事件和区域,并且探索区域之间的关系,提升准确率。
附图说明
图1:为本发明实施例提供的一种视频异常事件检测方法的步骤流程图;
图2:为本发明实施例提供的一种视频异常事件检测方法的原理结构图;
图3:为本发明实施例中的关系建模结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参照图1,本发明实施例提供的一种视频异常事件检测方法的步骤流程图,包括步骤101至步骤105,各步骤具体如下:
步骤101,获取视频源文件,分别对所述视频源文件进行管道级别实例抽取和视频级别实例抽取,得到管道级别实例和视频级别实例。
具体地,首先对输入的视频做实例抽取,接下来的网络针对的是实例而不是整个视频。在本步骤使用的视频输入源可以是已经保存好的完整视频,也可以是视频流。如图2所示,为本发明实施例提供的一种视频异常事件检测方法的原理结构图。本步骤使用的是管道-时间双支结构,每一支针对的实例类型不一样。管道分支的输入是管道级别实例,时间分支的输入是视频级别实例。
管道级别实例抽取过程如下:首先使用Faster-RCNN深度学习模型检测视频的每一帧,抽出每一帧中物体的区域,在时间上序列区域即是一个管道。先从所有区域中选取自信心最大的区域,在该区域的同一帧的其他区域中选择IoU(intersection-over-union)大于某个阈值的其他区域,把该区域合并入已选区域组成更大的区域。在该帧的所有区域合并完毕之后,选择下一帧的扩展分数最高的区域并入此区域所属的管道。扩展分数定义为:Sl(Bi,Bj)=S(Bi)+S(Bj)+nU(Bi,Bj)。其中B表示某个区域,S(Bi)为某个区域Bi的自信心,U(Bi,Bj)为区域Bi和Bj的IoU分数。
视频级别实例抽取过程如下:将输入的视频切割为互不重合的32个视频片段,每个视频片段就是一个视频级别的实例。
管道级别实例将会输入到管道分支的特征提取器,视频级别实例将会输入到时间分支的特征提取器。
步骤102,分别对所述管道级别实例和视频级别实例进行特征提取,得到管道级别特征和视频级别特征。
具体地,在抽取出实例之后,需要进行特征提取以便后续操作。本实施例使用的特征提取器基于C3D网络。把实例输入到训练好的C3D网络之后,从该网络抽取出fc6层的特征,再进行平均池化层以统一维度。
步骤103,分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理,得到管道高级特征和视频高级特征。
具体地,得到实例的特征之后,使用多层多头自注意力机制(multi-head self-attention)对实例之间的关系进行建模。如图3所示,为本发明实施例中的关系建模结构示意图,其中SDPA代表缩放点乘注意层(scaled dot-production attention)。关系建模的步骤如下:第一步,把输入的原始特征同时输入到多层全连接层(图3所示为3层全连接层);第二步,把全连接层的输出输入到SDPA模块中去;第三步,SDPA模块的输出输入到下一层的多头自注意力层;第四步,重复第二步、第三步若干次。第五步,把原始输入加上最后一层的SDPA模块的输出,就可以得到关系建模的最终输出。
在SDPA模块中,管道分支的SDPA模块的询问输入(query)和关键输入(key)为管道级别特征和视频级别特征,时间分支的SDPA模块的输入类似。
本实施例通过关系建模,充分利用双支优势,使得输出的特征较原始特征而言,更加能够表达实例之间、实例与背景之间的关系,更加能捕捉特征内部的关系。
步骤104,分别将所述管道高级特征和视频高级特征输入至各自对应的全连接神经网络进行异常预测,得到管道预测数值和视频预测数值。
具体地,把关系建模后输出的特征输入到含有三层隐含层的全连接神经网络。异常预测的步骤如下:第一步:把各支的关系建模的输出输入到各支的异常预测模块中的全连接神经网络中,输出为Ytube和Ytem;第二步,使用sigmoid函数作为全连接神经网络的输出归一化,该函数定义为得到的输出是Predtube和Predtem。
步骤105,根据所述管道预测数值和视频预测数值计算得到异常事件预测分数。
具体地,对Predtube和Predtem取平均数得到最终预测分数Pred,即最终预测分数Pred是一个一维向量,向量中每一个数字取值在[0,1]之间,代表着某个异常事件的预测分数,预测分数越高,神经网络更有自信认为该异常事件在输入的视频中发生了。
在另一实施例中,在所述分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理之前,还包括:通过管道损失函数对其对应的关系建模进行训练;同时,通过时间损失函数对其对应的关系建模进行训练。
具体地,神经网络的训练需要定义好损失函数。使用梯度下降法优化损失函数,训练神经网络,使得神经网络的预测值更加接近真实值。
管道分支的损失函数定义如下:
时间分支的损失定义函数如下:
整个模型最终的损失定义如下:
其中,λ为取值为0到1的实数,LCE是交叉熵,定义如下:
本实施例的网络训练过程中,随机挑选30个正样本和30个负样本组成60个样本为1个训练批次,使用了Adam梯度下降优化器,学习率为0.0005。
与人工检测方案相比,本发明技术方案不需要大量的工作人员人工检测,降低人为错误的可能性,实现智能化检测,提高检测速度;与现有自动检测方案相比,本发明技术方案仅需要只有时序标签的数据集,不依赖空间标签,就能够检测出视频中异常发生的时间和区域;此外,本发明技术方案在视频级别AUC和时空定位准确率指标都在公开数据集ST-UCF-Crime和STRA取得了不错的效果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种视频异常事件检测方法,其特征在于,包括:
获取视频源文件,分别对所述视频源文件进行管道级别实例抽取和视频级别实例抽取,得到管道级别实例和视频级别实例;
分别对所述管道级别实例和视频级别实例进行特征提取,得到管道级别特征和视频级别特征;
分别将所述管道级别特征和视频级别特征输入至各自对应的关系建模中进行特征处理,得到管道高级特征和视频高级特征;
分别将所述管道高级特征和视频高级特征输入至各自对应的全连接神经网络进行异常预测,得到管道预测数值和视频预测数值;
根据所述管道预测数值和视频预测数值计算得到异常事件预测分数。
2.如权利要求1所述的视频异常事件检测方法,其特征在于,所述对所述视频源文件进行管道级别实例抽取的步骤具体为:
将所述视频源文件输入到深度学习模型中,输出得到每一帧中物体的区域;
对所有区域中自信心最大的区域进行提取,并在自信心最大的所在区域的同一帧的其他区域中提取出IoU值大于预设阈值的区域,将所述IoU值大于预设阈值的区域合并入已提取的区域组成更大的区域;
在当前帧的所有区域合并完毕之后,选择下一帧的扩展分数最高的区域并入此区域所属的管道,直至所述视频源文件中的所有帧处理完成。
3.如权利要求2所述的视频异常事件检测方法,其特征在于,所述扩展分数定义为:Sl(Bi,Bj)=S(Bi)+S(Bj)+nU(Bi,Bj);
其中,B表示区域,S(Bi)为区域Bi的自信心,U(Bi,Bj)为区域Bi和Bj的IoU分数。
4.如权利要求1所述的视频异常事件检测方法,其特征在于,所述对所述视频源文件进行视频级别实例抽取的步骤具体为:
将所述视频源文件切割为互不重合的多个视频片段,每个视频片段就是一个视频级别的实例。
5.如权利要求1所述的视频异常事件检测方法,其特征在于,所述进行特征提取的步骤,具体为:
把实例输入到C3D网络之后,从所述C3D网络中抽取出fc6层的特征,再进行平均池化层以统一维度。
6.如权利要求1所述的视频异常事件检测方法,其特征在于,所述关系建模的具体结构包括:多层多头自注意力层,每一层多头自注意层均包括多层全连接层和缩放点乘注意层。
7.如权利要求6所述的视频异常事件检测方法,其特征在于,所述进行特征处理的步骤具体为:
将输入的原始特征同时输入到多层全连接层;
将各层全连接层的输出结果输入到缩放点乘注意层中;
将缩放点乘注意层的输出结果输入到下一层的多头自注意力层;
当最后一层多头自注意力层输出结果时,将原始特征和最后一层多头自注意力层输出结果,作为关系建模的最终输出。
8.如权利要求1所述的视频异常事件检测方法,其特征在于,所述进行异常预测的步骤具体为:
分别将所述管道高级特征和视频高级特征输入至各自对应的全连接神经网络,得到管道预测值和视频预测值;
通过sigmoid函数分别对所述管道预测值和视频预测值进行归一化处理,得到管道预测数值和视频预测数值。
9.如权利要求1所述的视频异常事件检测方法,其特征在于,所述根据所述管道预测数值和视频预测数值计算得到异常事件预测分数的步骤具体为:
计算所述管道预测数值和视频预测数值的平均数,作为异常事件预测分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778939.6A CN112016403B (zh) | 2020-08-05 | 2020-08-05 | 一种视频异常事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778939.6A CN112016403B (zh) | 2020-08-05 | 2020-08-05 | 一种视频异常事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016403A true CN112016403A (zh) | 2020-12-01 |
CN112016403B CN112016403B (zh) | 2023-07-21 |
Family
ID=73498559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010778939.6A Active CN112016403B (zh) | 2020-08-05 | 2020-08-05 | 一种视频异常事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016403B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI769661B (zh) * | 2021-01-12 | 2022-07-01 | 鴻海精密工業股份有限公司 | 圖像異常檢測方法、裝置、電腦裝置及儲存介質 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110378233A (zh) * | 2019-06-20 | 2019-10-25 | 上海交通大学 | 一种基于人群行为先验知识的双分支异常检测方法 |
CN110502988A (zh) * | 2019-07-15 | 2019-11-26 | 武汉大学 | 视频中的组群定位与异常行为检测方法 |
US20200134804A1 (en) * | 2018-10-26 | 2020-04-30 | Nec Laboratories America, Inc. | Fully convolutional transformer based generative adversarial networks |
CN114510939A (zh) * | 2021-12-17 | 2022-05-17 | 深港产学研基地(北京大学香港科技大学深圳研修院) | 实体关系抽取方法、装置、电子设备及存储介质 |
-
2020
- 2020-08-05 CN CN202010778939.6A patent/CN112016403B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
US20200134804A1 (en) * | 2018-10-26 | 2020-04-30 | Nec Laboratories America, Inc. | Fully convolutional transformer based generative adversarial networks |
CN110378233A (zh) * | 2019-06-20 | 2019-10-25 | 上海交通大学 | 一种基于人群行为先验知识的双分支异常检测方法 |
CN110502988A (zh) * | 2019-07-15 | 2019-11-26 | 武汉大学 | 视频中的组群定位与异常行为检测方法 |
CN114510939A (zh) * | 2021-12-17 | 2022-05-17 | 深港产学研基地(北京大学香港科技大学深圳研修院) | 实体关系抽取方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI769661B (zh) * | 2021-01-12 | 2022-07-01 | 鴻海精密工業股份有限公司 | 圖像異常檢測方法、裝置、電腦裝置及儲存介質 |
Also Published As
Publication number | Publication date |
---|---|
CN112016403B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN110738127A (zh) | 基于无监督深度学习神经网络算法的安全帽识别方法 | |
CN111337768A (zh) | 变压器油中溶解气体的深度并行故障诊断方法及系统 | |
CN111401149B (zh) | 基于长短期时域建模算法的轻量级视频行为识别方法 | |
CN111160356A (zh) | 一种图像分割分类方法和装置 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN110599458A (zh) | 基于卷积神经网络的地下管网检测评估云系统 | |
CN112529931B (zh) | 一种前景分割的方法及系统 | |
CN114155474A (zh) | 基于视频语义分割算法的损伤识别技术 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN110348329B (zh) | 基于视频序列帧间信息的行人检测方法 | |
CN114926767A (zh) | 融合隐空间自回归的预测重构视频异常检测方法 | |
CN112016403A (zh) | 一种视频异常事件检测方法 | |
CN117152072A (zh) | 一种基于两阶段特征金字塔网络的遥感图像变化检测方法 | |
CN116721078A (zh) | 一种基于深度学习的带钢表面缺陷检测方法及装置 | |
CN111626102B (zh) | 基于视频弱标记的双模态迭代去噪异常检测方法及终端 | |
CN110460840B (zh) | 基于三维密集网络的镜头边界检测方法 | |
CN114140879A (zh) | 基于多头级联注意网络与时间卷积网络的行为识别方法及装置 | |
CN114373145A (zh) | 基于orb算法的关键帧获取的监控视频场景分类方法 | |
Jia et al. | LPSST: Improved Transformer Based Drainage Pipeline Defect Recognition Algorithm | |
CN116170638B (zh) | 用于在线动作检测任务的自注意力视频流压缩方法及系统 | |
CN113034502B (zh) | 一种排水管道缺陷去冗余方法 | |
Gan et al. | Intelligent fault diagnosis with deep architecture | |
CN115311223A (zh) | 一种多尺度融合的电网智能巡检方法及装置 | |
Xiao et al. | A Video-based Detection Method of Steel Piling with Clip-link Training Strategy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |