CN111666819B - 一种融合多元信息的高精度视频异常事件检测方法 - Google Patents
一种融合多元信息的高精度视频异常事件检测方法 Download PDFInfo
- Publication number
- CN111666819B CN111666819B CN202010391419.XA CN202010391419A CN111666819B CN 111666819 B CN111666819 B CN 111666819B CN 202010391419 A CN202010391419 A CN 202010391419A CN 111666819 B CN111666819 B CN 111666819B
- Authority
- CN
- China
- Prior art keywords
- video
- optical flow
- image
- image data
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 65
- 238000013135 deep learning Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000003287 optical effect Effects 0.000 claims description 305
- 238000012549 training Methods 0.000 claims description 30
- 230000004913 activation Effects 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 abstract description 4
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract 1
- 238000012952 Resampling Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合多元信息的高精度视频异常事件检测方法,实时检测与识别危害或可能危害公共安全的、与人相关的异常事件。针对深度学习算法在人群异常事件检测中的不足,尤其针对复杂场景,本发明提出了一种基于运动信息与光谱信息融合的深度学习网络的视频异常事件检测方法,力图提高异常事件检测在复杂场景中的准确率。视频特征主要包括视频帧的亮度信息和视频中目标的运动信息,通过构建空间特征自编码器和运动特征自编码器,分别进行视频空间特征和运动信息的提取,以及视频序列的重建,对于重建误差大于阈值的视频序列帧标记为异常事件。这种有效融合视频运动信息和光谱亮度信息的方法,较好的提高人群异常事件检测的鲁棒性与实用性。
Description
技术领域
本发明涉及视频内容分析技术,尤其涉及一种融合多元信息的高精度视频异常事件检测方法。
背景技术
视频中的异常事件检测是指识别不符合预期行为的事件。在视频监控应用中是一项非常重要的任务,直接关乎人民群众安全、城市管理、社会稳定。因为异常事件在实际应用中是随时发生的、无法预知的,收集各种异常事件并用分类方法解决问题几乎是不可行的,因此视频人群异常事件检测是视频内容分析中最具挑战性的任务之一。相对于动作识别而言,视频中人群异常行为的定义覆盖极其的广泛,其定义至今都非常模糊。导致目前异常事件检测的处理机制,处理精度与效率都不够理想。
在传统方法中,大多通过手工设计的特征方法来检测异常事件,设计的特征用以代表每个视频,包括视频序列的特征信息和运动信息,并通过重建最小误差的方式去学习字典。对应的异常事件的特征将会具有较大的重建误差。但由于字典没有经过异常事件的训练而且通常过于完整,无法保证期望。
基于深度学习的方法,通常使用自动编码器方式学习深度神经网络,并以重建具有小的重构错误的正常事件为优化目标对神经网络进行优化。但深度神经网络的容量很高,异常事件的重建错误不一定会发生。
发明内容
本发明的目的是针对视频中异常事件检测的方法,提出了一种融合多元信息的高精度视频异常事件检测方法。
为了上述目的,本发明使用目前流行的以卷积神经网络为基础的深度学习方法,对于视频中的异常行为,通常至少在亮度信息上或者运动信息上与正常行为存在差异,例如在人行道上行驶的车辆与行人显然存在着较大的不一致,通过融合目标的运动信息和光谱亮度信息,提高异常事件的检测精度,包括如下步骤:
步骤1:通过无异常事件视频得到多帧视频图像,多帧视频图像通过分组得到多组视频图像数据集,根据多组视频图像数据集构建视频图像训练集,将多帧视频图像通过光流提方法得到多帧光流图像,将多帧光流图像通过分组得到多组光流图像数据集,根据多组光流图像数据集构建光流图像训练集;
步骤2:构建视频光流深度学习网络;
步骤3:随机选择视频图像样本中视频图像数据集以及对应的光流图像样本中光流图像数据集,构建视频光流误差损失模型,视频光流误差损失模型输出最小为优化目标,优化训练视频光流深度学习网络,得到训练后视频光流深度学习网络;
步骤4:将待检测视频图像通过训练后视频光流深度学习网络,通过视频光流误差计算得到待检测视频图像的误差,进一步通过与误差阈值比较从而判断视频图像是否存在异常事件;
作为优选,步骤1所述多帧视频图像为:
Ii,1,Ii,2,...,Ii,N
i∈[1,M]
其中,M为无异常事件视频的数量,N为无异常事件视频中视频图像的帧的数量,Ii,j为第i个无异常事件视频中第j帧图像,j∈[1,N];
Ii,j具体定义为第i个无异常事件视频中第j帧图像:
步骤1所述通过分组得到多组视频图像数据集为:
datai,k={Ii,(k-1)*L+1,Ii,(k-1)*L+2,...,Ii,(k-1)*L+L}
k∈[1,N/L]
其中,datai,k为第i个无异常事件视频中第k组视频图像数据集,L为每组图像数据集中视频图像的帧的数量,N为无异常事件视频中视频图像的帧的数量,Ii,(k-1)*L+l为第i个无异常事件视频中第k组视频图像数据集中第l个图像,Ii,(k-1)*L+l为第i个无异常事件视频中第(k-1)*L+l帧图像,l∈[1,L];
步骤1所述构建视频图像训练集为:
构建视频图像样本为:
testAi=(datai,1,datai,1,...,datai,N/L)
其中,datai,k为第i个无异常事件视频中第k组视频图像数据集;
所述视频图像训练集为:
trainA=(testA1,testA2,...,testAM)
其中,testAi为第i个视频图像样本,i∈[1,M];
步骤1所述多帧视频图像通过Lucas-Kanade光流提方法得到多帧光流图像,具体为:
步骤1所述通过分组得到多组光流图像数据集为:
Oi,1,Oi,2,...,Oi,N
i∈[1,M]
其中,M为无异常事件视频的数量,N为无异常事件视频中视频图像的帧的数量,Oi,j为第i个无异常事件视频中第j帧光流图像,j∈[1,N];
步骤1所述通过分组得到多组视频光流图像数据集为:
其中,为第i个无异常事件视频中第k组视频光流图像数据集,L为每组光流图像数据集中视频光流图像的帧的数量,N为无异常事件视频中视频光流图像的帧的数量,Oi,(k-1)*L+l为第i个无异常事件视频中第k组视频光流图像数据集中第l个图像,Oi,(k-1)*L+l为第i个无异常事件视频中第(k-1)*L+l帧光流图像,l∈[1,L];
步骤1所述构建光流图像训练集为:
构建视频图像样本为:
所述视频图像训练集为:
trainB=(testB1,testB2,...,testBM)
其中,testBi为第i个视频光流图像样本,i∈[1,M];
作为优选,步骤2所述视频光流深度学习网络包括:视频图像特征提取模块、视频图像特征重构模块、光流图像特征提取模块、光流图像特征重构模块;
所述视频图像特征提取模块与所述视频图像特征重构模块串联连接;
所述光流图像特征提取模块与所述光流图像特征重构模块串联连接;
所述视频图像特征提取模块用于输入步骤1所述视频图像样本中视频图像数据集,所述视频图像特征提取模块的输出为视频图像样本中视频图像数据集特征;
所述光流图像特征提取模块用于输入步骤1所述光流图像样本中光流图像数据集,所述视频图像特征提取模块的输出为光流图像样本中光流图像数据集特征;
所述视频图像特征重构模块将特征通过重构,得到重构后视频图像数据集;
所述光流图像特征重构模块将光流图像样本中光流图像数据集特征通过重构,得到重构后光流图像数据集;
所述视频图像特征提取模块由多个视频提取模块依次级联构成;
所述视频提取模块由第一视频提取器、第二视频提取器、第三视频提取器依次级联构成;
每个视频提取器由视频提取卷积层、视频提取隐含层构成;
所述视频图像特征重构模块由多个视频重构模块依次级联构成;
所述视频重构模块由第一视频重构器、第二视频重构器、第三视频重构器依次级联构成;
每个视频重构器由视频重构卷积层、视频重构隐含层构成;
所述光流图像特征提取模块由多个光流提取模块依次级联构成;
所述光流提取模块由第一光流提取器、第二光流提取器、第三光流提取器依次级联构成;
每个光流提取器由光流提取卷积层、光流提取隐含层构成;
所述光流图像特征重构模块由多个光流重构模块依次级联构成;
所述光流重构模块由第一光流重构器、第二光流重构器、第三光流重构器依次级联构成;
每个光流重构器由光流重构卷积层、光流重构隐含层构成;
作为优选,步骤3中所述随机选择视频图像样本中视频图像数据集以及对应的光流图像样本中光流图像数据集为:
在trainA数据集和trainB数据集中随机选择同一视频时刻的视频图像和视频光流图像,(testAk,testBk),k∈[1,M]
步骤3所述构建视频光流误差损失模型为:
其中,datai,k表示第i个待检测视频中第k组视频图像数据集,表示第i个待检测视频中第k组视频的重建的图像数据集。表示第i个待检测视频中第k组视频光流图像数据集,表示第i个待检测视频中第k组视频的重建的光流图像数据集。
步骤3所述优化训练视频光流深度学习网络为:使用随机梯度下降优化方法优化网络参数,所述优化后网络参数为:
第一视频提取器卷积层优化后参数第二视频提取器待卷积层优化后参数第三视频提取器卷积层优化后参数第一视频重构器卷积层优化后参数第二视频重构器卷积层优化后参数第三视频重构器卷积层优化后参数第一光流提取器卷积层优化后参数为第二光流提取器卷积层优化后参数为第三光流提取器卷积层优化后参数为第一光流重构器卷积层优化后参数为第二光流重构器卷积层优化后参数为第三光流重构器卷积层优化后参数为
步骤3所述训练后视频光流深度学习网络为:
通过优化后网络参数构建的训练后视频光流深度学习网络;
作为优选,步骤4所述将待检测视频图像通过训练后视频深度学习网络为:
计算输入的视频图像与重建的视频图像的均方误差LI:
步骤4所述通过视频光流误差计算得到待检测视频光流图像的误差:
计算输入的视频光流图像与重建视频光流图像的均方误差Lo:
步骤4所述进一步通过与误差阈值T比较从而判断视频图像是否存在异常事件为:
联合视频图像的重建误差和视频光流图像的重建误差:
其中,datai,k表示第i个待检测视频中第k组视频图像数据集,表示第i个待检测视频中第k组视频的重建的图像数据集,表示第i个待检测视频中第k组视频光流图像数据集,表示第i个待检测视频中第k组视频的重建的光流图像数据集,Li,k表示为第i个待检测视频中第k组视频;
判断是否存在异常事件,Li,k大于阈值T的表示为第i个待检测视频中第k组视频中有异常事件,Li,k小于阈值T的表示为第i个待检测视频中第k组视频中没有异常事件;
本发明优点在于,使用以卷积神经网络为基础的深度学习方法,对于视频中的异常事件,通过融合目标的运动信息和光谱亮度信息进行异常事件检测,提高了异常事件的检测精度。
附图说明
图1:是本发明方法流程图;
图2:是本发明的视频图像特征提取模块和视频图像特征重构模块;
图3:是本发明的视频光流图像特征提取模块和视频光流图像特征重构模块;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1为本发明方法流程图。本发明方法包括:视频空间特征提取、视频运动特征提取、运动特征与空间特征融合以及视频序列重建。
下面结合图1至图3介绍本发明的具体实施方式为一种融合多元信息的高精度视频异常事件检测方法,具体包括以下步骤:
步骤1:通过无异常事件视频得到多帧视频图像,多帧视频图像通过分组得到多组视频图像数据集,根据多组视频图像数据集构建视频图像训练集,将多帧视频图像通过光流提方法得到多帧光流图像,将多帧光流图像通过分组得到多组光流图像数据集,根据多组光流图像数据集构建光流图像训练集;
步骤1所述多帧视频图像为:
Ii,1,Ii,2,...,Ii,N
i∈[1,M]
其中,M为无异常事件视频的数量,N为无异常事件视频中视频图像的帧的数量,Ii,j为第i个无异常事件视频中第j帧图像,j∈[1,N];
Ii,j具体定义为第i个无异常事件视频中第j帧图像:
步骤1所述通过分组得到多组视频图像数据集为:
datai,k={Ii,(k-1)*L+1,Ii,(k-1)*L+2,...,Ii,(k-1)*L+L}
k∈[1,N/L]
其中,tatai,k为第i个无异常事件视频中第k组视频图像数据集,L为每组图像数据集中视频图像的帧的数量,N为无异常事件视频中视频图像的帧的数量,Ii,(k-)*L+l为第i个无异常事件视频中第k组视频图像数据集中第l个图像,Ii,(k-1)*L+l为第i个无异常事件视频中第(k-1)*L+l帧图像,l∈[1,L];
步骤1所述构建视频图像训练集为:
构建视频图像样本为:
testAi=(datai,1,datai,1,...,datai,N/L)
其中,datai,k为第i个无异常事件视频中第k组视频图像数据集;
所述视频图像训练集为:
trainA=(testA1,testA2,...,testAM)
其中,testAi为第i个视频图像样本,i∈[1,M];
步骤1所述多帧视频图像通过Lucas-Kanade光流提方法得到多帧光流图像,具体为:
步骤1所述通过分组得到多组光流图像数据集为:
Oi,1,Oi,2,...,Oi,N
i∈[1,M]
其中,M为无异常事件视频的数量,N为无异常事件视频中视频图像的帧的数量,Oi,j为第i个无异常事件视频中第j帧光流图像,j∈[1,N];
步骤1所述通过分组得到多组视频光流图像数据集为:
其中,为第i个无异常事件视频中第k组视频光流图像数据集,L为每组光流图像数据集中视频光流图像的帧的数量,N为无异常事件视频中视频光流图像的帧的数量,Oi,(k-1)*L+l为第i个无异常事件视频中第k组视频光流图像数据集中第l个图像,Oi,(k-1)*L+l为第i个无异常事件视频中第(k-1)*L+l帧光流图像,l∈[1,L];
步骤1所述构建光流图像训练集为:
构建视频图像样本为:
所述视频图像训练集为:
trainB=(testB1,testB2,...,testBM)
其中,testBi为第i个视频光流图像样本,i∈[1,M];
步骤2:构建视频光流深度学习网络;
步骤2所述视频光流深度学习网络包括:视频图像特征提取模块、视频图像特征重构模块、光流图像特征提取模块、光流图像特征重构模块;
所述视频图像特征提取模块与所述视频图像特征重构模块串联连接;
所述光流图像特征提取模块与所述光流图像特征重构模块串联连接;
所述视频图像特征提取模块用于输入步骤1所述视频图像样本中视频图像数据集,所述视频图像特征提取模块的输出为视频图像样本中视频图像数据集特征;
所述光流图像特征提取模块用于输入步骤1所述光流图像样本中光流图像数据集,所述视频图像特征提取模块的输出为光流图像样本中光流图像数据集特征;
所述视频图像特征重构模块将特征通过重构,得到重构后视频图像数据集;
所述光流图像特征重构模块将光流图像样本中光流图像数据集特征通过重构,得到重构后光流图像数据集;
所述视频图像特征提取模块由多个视频提取模块依次级联构成;
所述视频提取模块由第一视频提取器、第二视频提取器、第三视频提取器依次级联构成;
每个视频提取器由视频提取卷积层、视频提取隐含层构成;
所述视频图像特征重构模块由多个视频重构模块依次级联构成;
所述视频重构模块由第一视频重构器、第二视频重构器、第三视频重构器依次级联构成;
每个视频重构器由视频重构卷积层、视频重构隐含层构成;
所述光流图像特征提取模块由多个光流提取模块依次级联构成;
所述光流提取模块由第一光流提取器、第二光流提取器、第三光流提取器依次级联构成;
每个光流提取器由光流提取卷积层、光流提取隐含层构成;
所述光流图像特征重构模块由多个光流重构模块依次级联构成;
所述光流重构模块由第一光流重构器、第二光流重构器、第三光流重构器依次级联构成;
每个光流重构器由光流重构卷积层、光流重构隐含层构成;
步骤3:随机选择视频图像样本中视频图像数据集以及对应的光流图像样本中光流图像数据集,构建视频光流误差损失模型,视频光流误差损失模型输出最小为优化目标,优化训练视频光流深度学习网络,得到训练后视频光流深度学习网络;
步骤3中所述随机选择视频图像样本中视频图像数据集以及对应的光流图像样本中光流图像数据集为:
在trainA数据集和trainB数据集中随机选择同一视频时刻的视频图像和视频光流图像,(testAk,testBk),k∈[1,M]
步骤3所述构建视频光流误差损失模型为:
其中,datai,k表示第i个待检测视频中第k组视频图像数据集,表示第i个待检测视频中第k组视频的重建的图像数据集。表示第i个待检测视频中第k组视频光流图像数据集,表示第i个待检测视频中第k组视频的重建的光流图像数据集。
步骤3所述优化训练视频光流深度学习网络为:使用随机梯度下降优化方法优化网络参数,所述优化后网络参数为:
第一视频提取器卷积层优化后参数第二视频提取器待卷积层优化后参数第三视频提取器卷积层优化后参数第一视频重构器卷积层优化后参数第二视频重构器卷积层优化后参数第三视频重构器卷积层优化后参数第一光流提取器卷积层优化后参数为第二光流提取器卷积层优化后参数为第三光流提取器卷积层优化后参数为第一光流重构器卷积层优化后参数为第二光流重构器卷积层优化后参数为第三光流重构器卷积层优化后参数为
步骤3所述训练后视频光流深度学习网络为:
通过优化后网络参数构建的训练后视频光流深度学习网络;
步骤4:将待检测视频图像通过训练后视频光流深度学习网络,通过视频光流误差计算得到待检测视频图像的误差,进一步通过与误差阈值比较从而判断视频图像是否存在异常事件;
步骤4所述将待检测视频图像通过训练后视频深度学习网络为:
计算输入的视频图像与重建的视频图像的均方误差LI:
步骤4所述通过视频光流误差计算得到待检测视频光流图像的误差:
计算输入的视频光流图像与重建视频光流图像的均方误差Lo:
步骤4所述进一步通过与误差阈值T比较从而判断视频图像是否存在异常事件为:
联合视频图像的重建误差和视频光流图像的重建误差:
其中,datai,k表示第i个待检测视频中第k组视频图像数据集,表示第i个待检测视频中第k组视频的重建的图像数据集,表示第i个待检测视频中第k组视频光流图像数据集,表示第i个待检测视频中第k组视频的重建的光流图像数据集,Li,k表示为第i个待检测视频中第k组视频;
判断是否存在异常事件,Li,k大于阈值T的表示为第i个待检测视频中第k组视频中有异常事件,Li,k小于阈值T的表示为第i个待检测视频中第k组视频中没有异常事件;
图2是视频图像特征提取模块和视频图像特征重构模块。将视频序列重采样到256*256大小,输入到空间自编码器中,通过三个3D卷积模块提取输入视频序列的空间特征,和三个3D逆卷积模块将提取到的视频空间特征还原成视频序列。六个卷积模块的参数如下:
Frames-F1:F1维度为256*256*64,当前模块中共2个3D卷积层,卷积核分别为3*3*3*64和3*3*3*64,3D卷积的采样间隔都为(1,1,1),并使用残差连接的F1中的第一个卷积层和第二个卷积层输出。
F1-F2:F2的维度为128*128*128,当前模块中共2个3D卷积层,卷积核分别为3*3*3*128和3*3*3*128,卷积的采样间隔分别为(2,2,2)和(1,1,1),并使用残差连接的F2中的第一个卷积层和第二个卷积层输出。
F2-F3:F3的维度为64*64*256,当前模块中共2个3D卷积层,卷积核分别为3*3*3*256和3*3*3*256,卷积的采样间隔分别为(2,2,2)和(1,1,1),并使用残差连接的F3中的第一个卷积层和第二个卷积层输出。当前模块获取的卷积特征将作为视频的空间特征与视频的运动特征进行融合。
F3-F4:F4的维度为128*128*128,当前模块中共2个3D逆卷积层,卷积核分别为3*3*3*128和3*3*3*128,逆卷积的重采样间隔分别为(2,2,2)和(1,1,1),并使用残差连接的F4中的第一个逆卷积层和第逆二个卷积层输出。
F4-F5:F5的维度为256*256*64,当前模块中共2个3D逆卷积层,卷积核分别为3*3*3*64和3*3*3*64,逆卷积的重采样间隔分别为(2,2,2)和(1,1,1),并使用残差连接的F4中的第一个逆卷积层和第逆二个卷积层输出。
F5-重建frames:重建frames的维度为256*256*1,当前模块中共2个3D逆卷积层,卷积核分别为3*3*3*32和3*3*3*1,逆卷积的重采样间隔都为(1,1,1)。
图3是是本发明的视频光流图像特征提取模块和视频光流图像特征重构模块。将光流序列重采样到256*256大小,输入到运动自编码器中,通过三个3D卷积模块提取输入光流序列的运动特征,和三个3D逆卷积模块将提取到的视频运动特征还原成光流序列。六个卷积模块的参数如下:
OpticalFlows-OF1:OF1维度为256*256*32,当前模块中共2个3D卷积层,卷积核分别为3*3*3*32和3*3*3*32,3D卷积的采样间隔都为(1,1,1),并使用残差连接的OF1中的第一个卷积层和第二个卷积层输出。
OF1-OF2:OF2的维度为128*128*64,当前模块中共2个3D卷积层,卷积核分别为3*3*3*64和3*3*3*64,卷积的采样间隔分别为(2,2,2)和(1,1,1),并使用残差连接的OF2中的第一个卷积层和第二个卷积层输出。
OF2-OF3:OF3的维度为64*64*128,当前模块中共2个3D卷积层,卷积核分别为3*3*3*128和3*3*3*128,卷积的采样间隔分别为(2,2,2)和(1,1,1),并使用残差连接的OF3中的第一个卷积层和第二个卷积层输出。当前模块获取的卷积特征将作为视频的运动特征与视频的空间特征进行融合。
OF3-OF4:OF4的维度为128*128*64,当前模块中共2个3D逆卷积层,卷积核分别为3*3*3*64和3*3*3*64,逆卷积的重采样间隔分别为(2,2,2)和(1,1,1),并使用残差连接的OF4中的第一个逆卷积层和第逆二个卷积层输出。
OF4-OF5:OF5的维度为256*256*32,当前模块中共2个3D逆卷积层,卷积核分别为3*3*3*64和3*3*3*64,逆卷积的重采样间隔分别为(2,2,2)和(1,1,1),并使用残差连接的OF4中的第一个逆卷积层和第逆二个卷积层输出。
OF5-重建OpticalFlows:重建OpticalFlows的维度为256*256*1,当前模块中共2个3D逆卷积层,卷积核分别为3*3*16和3*3*2,逆卷积的重采样间隔都为(1,1,1)。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (1)
1.一种融合多元信息的高精度视频异常事件检测方法,其特征在于,包括以下步骤:
步骤1:通过无异常事件视频得到多帧视频图像,多帧视频图像通过分组得到多组视频图像数据集,根据多组视频图像数据集构建视频图像训练集,将多帧视频图像通过Lucas-Kanade光流提取方法得到多帧光流图像,将多帧光流图像通过分组得到多组光流图像数据集,根据多组光流图像数据集构建光流图像训练集;
步骤2:构建视频光流深度学习网络;
步骤3:随机选择视频图像样本中视频图像数据集以及对应的光流图像样本中光流图像数据集,构建视频光流误差损失模型,视频光流误差损失模型输出最小为优化目标,优化训练视频光流深度学习网络,得到训练后视频光流深度学习网络;
步骤4:将待检测视频图像通过训练后视频光流深度学习网络,通过视频光流误差计算得到待检测视频光流图像的误差,进一步通过与误差阈值器比较从而判断视频图像是否存在异常事件;
步骤1所述多帧视频图像为:
Ii,1,Ii,2,…,Ii,N
i∈[1,M]
其中,M为无异常事件视频的数量,N为无异常事件视频中视频图像的帧的数量,Ii,j为第i个无异常事件视频中第j帧图像,j∈[1,N];
Ii,j具体定义为第i个无异常事件视频中第j帧图像:
步骤1所述通过分组得到多组视频图像数据集为:
datai,k={Ii,(k-1)*L+1,Ii,(k-1)*L+2,...,Ii,(k-1)*L+L}
k∈[1,N/L]
其中,datai,k为第i个无异常事件视频中第k组视频图像数据集,L为每组图像数据集中视频图像的帧的数量,N为无异常事件视频中视频图像的帧的数量,Ii,(k-1)*L+l为第i个无异常事件视频中第k组视频图像数据集中第l个图像,Ii,(k-1)*L+l为第i个无异常事件视频中第(k-1)*L+l帧图像,l∈[1,L];
步骤1所述构建视频图像训练集为:
构建视频图像样本为:
testAi=(datai,1,datai,2,...,datai,N/L)
其中,datai,k为第i个无异常事件视频中第k组视频图像数据集,k∈[1,N/L];
所述视频图像训练集为:
trainA=(testA1,testA2,...,testAM)
其中,testAi为第i个视频图像样本,i∈[1,M];
步骤1所述多帧视频图像通过Lucas-Kanade光流提取方法得到多帧光流图像,具体为:
步骤1所述通过分组得到多组光流图像数据集为:
Oi,1,Oi,2,...,Oi,N
i∈[1,M]
其中,M为无异常事件视频的数量,N为无异常事件视频中视频图像的帧的数量,Oi,j为第i个无异常事件视频中第j帧光流图像,j∈[1,N];
通过分组得到多组视频光流图像数据集为:
k∈[1,N/L]
其中,为第i个无异常事件视频中第k组视频光流图像数据集,L为每组光流图像数据集中视频光流图像的帧的数量,N为无异常事件视频中视频光流图像的帧的数量,Oi,(k-1)*L+l为第i个无异常事件视频中第k组视频光流图像数据集中第1个图像,Oi,(k-1)*L+l为第i个无异常事件视频中第(k-1)*L+l帧光流图像,l∈[1,L];
步骤1所述构建光流图像训练集为:
构建视频图像样本为:
k∈[1,N/L];
所述视频图像训练集为:
trainB=(testB1,testB2,...,testBM)
其中,testBi为第i个视频光流图像样本,i∈[1,M];
步骤2所述视频光流深度学习网络包括:视频图像特征提取模块、视频图像特征重构模块、光流图像特征提取模块、光流图像特征重构模块;
所述视频图像特征提取模块与所述视频图像特征重构模块串联连接;
所述光流图像特征提取模块与所述光流图像特征重构模块串联连接;
所述视频图像特征提取模块用于输入步骤1所述视频图像样本中视频图像数据集,所述视频图像特征提取模块的输出为视频图像样本中视频图像数据集特征;
所述光流图像特征提取模块用于输入步骤1所述光流图像样本中光流图像数据集,所述视频图像特征提取模块的输出为光流图像样本中光流图像数据集特征;
所述视频图像特征重构模块将特征通过重构,得到重构后视频图像数据集;
所述光流图像特征重构模块将光流图像样本中光流图像数据集特征通过重构,得到重构后光流图像数据集;
所述视频图像特征提取模块由多个视频提取模块依次级联构成;
所述视频提取模块由第一视频提取器、第二视频提取器、第三视频提取器依次级联构成;
每个视频提取器由视频提取卷积层、视频提取隐含层构成;
所述视频图像特征重构模块由多个视频重构模块依次级联构成;
所述视频重构模块由第一视频重构器、第二视频重构器、第三视频重构器依次级联构成;
每个视频重构器由视频重构卷积层、视频重构隐含层构成;
所述光流图像特征提取模块由多个光流提取模块依次级联构成;
所述光流提取模块由第一光流提取器、第二光流提取器、第三光流提取器依次级联构成;
每个光流提取器由光流提取卷积层、光流提取隐含层构成;
所述光流图像特征重构模块由多个光流重构模块依次级联构成;
所述光流重构模块由第一光流重构器、第二光流重构器、第三光流重构器依次级联构成;
每个光流重构器由光流重构卷积层、光流重构隐含层构成;
步骤3中所述随机选择视频图像样本中视频图像数据集以及对应的光流图像样本中光流图像数据集为:
在trainA数据集和trainB数据集中随机选择同一视频时刻的视频图像和视频光流图像,(testAk,testBk),k∈[1,M]
步骤3所述构建视频光流误差损失模型为:
i∈[1,M],k∈[1,N/L]
其中,datai,k表示第i个待检测视频中第k组视频图像数据集,表示第i个待检测视频中第k组视频的重建的图像数据集;表示第i个待检测视频中第k组视频光流图像数据集,表示第i个待检测视频中第k组视频的重建的光流图像数据集;
步骤3所述优化训练视频光流深度学习网络为:使用随机梯度下降优化方法优化网络参数,所述优化后网络参数为:
第一视频提取器卷积层优化后参数第二视频提取器待卷积层优化后参数第三视频提取器卷积层优化后参数第一视频重构器卷积层优化后参数第二视频重构器卷积层优化后参数第三视频重构器卷积层优化后参数第一光流提取器卷积层优化后参数为第二光流提取器卷积层优化后参数为第三光流提取器卷积层优化后参数为第一光流重构器卷积层优化后参数为第二光流重构器卷积层优化后参数为第三光流重构器卷积层优化后参数为
步骤3所述训练后视频光流深度学习网络为:
通过优化后网络参数构建的训练后视频光流深度学习网络;
步骤4所述将待检测视频图像通过训练后视频深度学习网络为:
计算输入的视频图像与重建的视频图像的均方误差LI:
i∈[1,M],k∈[1,N/L]
步骤4所述通过视频光流误差计算得到待检测视频光流图像的误差:
计算输入的视频光流图像与重建视频光流图像的均方误差Lo:
i∈[1,M],k∈[1,N/L]
步骤4所述进一步通过与误差阈值T比较从而判断视频图像是否存在异常事件为:
联合视频图像的重建误差和视频光流图像的重建误差:
i∈[1,M],k∈[1,N/L]
其中,datai,k表示第i个待检测视频中第k组视频图像数据集,表示第i个待检测视频中第k组视频的重建的图像数据集,表示第i个待检测视频中第k组视频光流图像数据集,表示第i个待检测视频中第k组视频的重建的光流图像数据集,Li,k表示为第i个待检测视频中第k组视频;
判断是否存在异常事件,Li,k大于阈值T的表示为第i个待检测视频中第k组视频中有异常事件,Li,k小于阈值T的表示为第i个待检测视频中第k组视频中没有异常事件;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010391419.XA CN111666819B (zh) | 2020-05-11 | 2020-05-11 | 一种融合多元信息的高精度视频异常事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010391419.XA CN111666819B (zh) | 2020-05-11 | 2020-05-11 | 一种融合多元信息的高精度视频异常事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666819A CN111666819A (zh) | 2020-09-15 |
CN111666819B true CN111666819B (zh) | 2022-06-14 |
Family
ID=72383502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010391419.XA Active CN111666819B (zh) | 2020-05-11 | 2020-05-11 | 一种融合多元信息的高精度视频异常事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666819B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116543335B (zh) * | 2023-05-08 | 2024-06-21 | 天津大学 | 一种基于时序空间信息增强的视觉异常检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036243A (zh) * | 2014-06-06 | 2014-09-10 | 电子科技大学 | 一种基于光流信息的行为识别方法 |
CN109615019A (zh) * | 2018-12-25 | 2019-04-12 | 吉林大学 | 基于时空自动编码器的异常行为检测方法 |
CN111079655A (zh) * | 2019-12-18 | 2020-04-28 | 航天物联网技术有限公司 | 一种基于融合神经网络的视频中人体行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10121103B2 (en) * | 2016-12-09 | 2018-11-06 | Cisco Technologies, Inc. | Scalable deep learning video analytics |
-
2020
- 2020-05-11 CN CN202010391419.XA patent/CN111666819B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036243A (zh) * | 2014-06-06 | 2014-09-10 | 电子科技大学 | 一种基于光流信息的行为识别方法 |
CN109615019A (zh) * | 2018-12-25 | 2019-04-12 | 吉林大学 | 基于时空自动编码器的异常行为检测方法 |
CN111079655A (zh) * | 2019-12-18 | 2020-04-28 | 航天物联网技术有限公司 | 一种基于融合神经网络的视频中人体行为识别方法 |
Non-Patent Citations (4)
Title |
---|
A survey of variational and CNN-based optical flow techniques;Tu.ZG等;《SIGNAL PROCESSING-IMAGE COMMUNICATION 》;20190531;全文 * |
基于深度学习的视频异常事件检测方法研究;樊亚翔;《中国博士学位论文全文数据库信息科技辑》;20200215(第02期);第四章 * |
基于深度学习的视频监控中人体异常行为研究;苏学威;《中国优秀硕士学位论文全文数据库信息科技辑》;20200115(第01期);第4章 * |
基于贝叶斯融合的时空流异常行为检测模型;陈莹 等;《电子与信息学报》;20190531;第41卷(第5期);第1137-1141页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111666819A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Fire detection in video surveillances using convolutional neural networks and wavelet transform | |
US20190205620A1 (en) | High-quality training data preparation for high-performance face recognition systems | |
CN111738054B (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
CN112767645B (zh) | 一种烟雾识别方法及装置、电子设备 | |
CN109902564B (zh) | 一种基于结构相似性稀疏自编码网络的异常事件检测方法 | |
CN111079539B (zh) | 一种基于异常追踪的视频异常行为检测方法 | |
CN112766195B (zh) | 一种电气化铁路弓网燃弧视觉检测方法 | |
CN113673346A (zh) | 一种基于多尺度SE-Resnet的电机振动数据处理与状态识别方法 | |
CN110826429A (zh) | 一种基于景区视频的旅游突发事件自动监测的方法及系统 | |
CN112132205B (zh) | 一种基于卷积神经网络的遥感图像分类方法 | |
CN109919223B (zh) | 基于深度神经网络的目标检测方法及装置 | |
CN109598301B (zh) | 检测区域去除方法、装置、终端和存储介质 | |
CN115239672A (zh) | 缺陷检测方法及装置、设备、存储介质 | |
CN113870286A (zh) | 一种基于多级特征和掩码融合的前景分割方法 | |
CN112597997A (zh) | 感兴趣区域确定方法、图像内容识别方法及装置 | |
CN111666819B (zh) | 一种融合多元信息的高精度视频异常事件检测方法 | |
CN112419243B (zh) | 一种基于红外图像分析的配电房设备故障识别方法 | |
CN114155165A (zh) | 一种基于半监督的图像去雾方法 | |
CN117274881A (zh) | 基于一致性正则化和分布对齐的半监督视频火灾检测方法 | |
CN116543333A (zh) | 电力系统的目标识别方法、训练方法、装置、设备和介质 | |
CN117152528A (zh) | 绝缘子状态识别方法、装置、设备、存储介质和程序产品 | |
CN113989742A (zh) | 一种基于多尺度特征融合的核电站厂区行人检测方法 | |
CN113743306A (zh) | 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法 | |
CN113034432A (zh) | 一种产品缺陷检测方法、系统、装置及存储介质 | |
CN113034465A (zh) | 一种基于红外图像的电力设备热故障监测方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |