CN112200096A - 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 - Google Patents
基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 Download PDFInfo
- Publication number
- CN112200096A CN112200096A CN202011097795.4A CN202011097795A CN112200096A CN 112200096 A CN112200096 A CN 112200096A CN 202011097795 A CN202011097795 A CN 202011097795A CN 112200096 A CN112200096 A CN 112200096A
- Authority
- CN
- China
- Prior art keywords
- network
- res2net18
- abnormal behavior
- behavior recognition
- compressed video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 25
- 230000003287 optical effect Effects 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 32
- 238000013508 migration Methods 0.000 claims description 7
- 230000005012 migration Effects 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 11
- 238000004364 calculation method Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于压缩视频实现实时异常行为识别的方法,包括通过分段采样操作处理将原始视频均匀划分成若干个片段,并按照一定的采样密度从每个视频片段中获取一个I帧的描述信息和若干个P帧的描述信息;进行异常行为识别网络模型搭建;进行异常行为识别网络模型训练。本发明还涉及基于压缩视频实现实时异常行为识别的装置及其存储介质。采用了本发明的基于压缩视频实现实时异常行为识别的方法,为适应实际监控场景下对异常行为识别的实时性需要,提供了一种直接利用压缩视频进行异常行为检测的方法,规避了对压缩视频的解码和密集光流的计算,从而大幅地节省了计算时间。同时利用压缩视频中易于提取的运动向量和残差,包含了运动信息的描述,从而在满足高实时性要求的同时,也保证了较高异常行为识别的准确率。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及异常行为识别领域,具体是指一种基于压缩视频 实现实时异常行为识别的方法、装置及其计算机可读存储介质。
背景技术
随着视频监控基础设施建设日益完善,监控视频数量显著增长,必须充分发挥视频监控系 统的优势,由被动式的人工监控向主动式的智能监控系统转变。
异常行为识别本质属于行为识别范畴,行为识别作为计算机视觉领域的重点研究内容,受 到了国内外学者的广泛关注。智能监控系统中的异常行为识别技术对行为识别提出了实时性 的要求,而当前行为识别领域的研究大多侧重于准确率,所提出的识别算法通常具有较高的 时间和空间计算复杂度,不能很好地满足实时性需求。
经过对现有技术的检索发现,K.Simonyan等人在2014年的《Advances in neuralinformation processing systems,pp.568-576,(神经信息处理系统进展大会,第568-576页)》 上发表了题为“Two-stream convolutional networks for action recognition invideos(用于视频动 作识别的双流卷积网络)”的文章,该文章提出了双流模型来实现基于视频的动作识别。双 流模型由空间网络模型和时间网络模型构成,空间网络模型以单帧视频图像为输入训练 CNN模型,描述运动的静态外表信息;时间网络模型以密集光流序列为输入训练CNN模 型,描述目标者/摄像机的运动。两个分支的网络分别对动作的类别作出判断,最后对两个 网络的类别得分通过直接平均或SVM的方式进行融合,得到最终的分类结果。
经检索还发现,L.Wang等人在2016年的《European conference on computervision,pp. 20–36,(欧洲计算机视觉会议,第20–36页)》上发表了题为“Temporal segmentnetworks: Towards good practices for deep action recognition(时序分割网络:走向深度行为识别的良好实 践)”的文章,该文章提出了一个视频级的框架TSN,可以基于整段视频进行行为识别。首 先从整段视频中稀疏采样出一系列短的视频片段,然后每个片段给出其本身对于行为识别 类别的预测,然后从这些片段的“共识”中得到视频级的预测结果。
实时的异常行为检测,是针对输入的监控视频流,设置一个固定大小的滑窗,在监控视 频上滑动依次得到一些小片段,然后利用主流方法进行行为识别。若存在异常行为应尽早 发现,因而不能采用计算复杂度过大的算法。而上述框架使用光流捕捉运动信息,作为时 间网络模型的输入,而光流需要提前计算,并且非常耗时,因而无法满足实时性需求。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足实时性好、精准度高、适 用范围较为广泛的基于压缩视频实现实时异常行为识别的方法、装置及其计算机可读存储介 质。
为了实现上述目的,本发明的基于压缩视频实现实时异常行为识别的方法、装置及其计 算机可读存储介质如下:
该基于压缩视频实现实时异常行为识别的方法,其主要特点是,所述的方法包括以下步 骤:
(1)通过分段采样操作处理将原始视频均匀划分成若干个片段,并按照一定的采样密度 从每个视频片段中获取一个I帧的描述信息和若干个P帧的描述信息;
(2)进行异常行为识别网络模型搭建;
(3)进行异常行为识别网络模型训练。
较佳地,所述的步骤(1)具体为:
将原始的压缩视频均匀划分为时间长度相同的K个视频片段,从每个视频片段中随机采 样,得到1个I帧和L个P帧的描述信息。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)通过Res2Net18网络搭建基于P帧累积运动向量的行为分类器和基于P帧累积残 差的行为分类器,将它们分别记为Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络;
(2.2)将从各视频片段中提取到的各类帧信息分别输入到对应网络中,每个网络输出一 个分类得分;
(2.3)根据输入的帧信息类型,对所有视频片段中基于每类输入得到的分类得分进行求 和平均,得到在原始视频层面上基于每类输入的分类得分,即基于I帧图像、基于P帧累积 运动向量和基于P帧累积残差的分类得分;
(2.4)采用加权求和的方式进行融合,得到总分类得分作为异常行为识别网络的输出。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)通过预训练的高水平网络模型初始化异常行为识别网络的参数;
(3.2)根据定义的交叉熵损失函数,使用批量梯度下降算法优化网络参数;
(3.3)对训练后的网络直接处理压缩视频,实时进行异常行为的识别。
较佳地,所述的步骤(3.2)还包括以下步骤:
(3.2-1)对Res2Net18-MV网络,使用监督迁移的方式进行优化。
较佳地,所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络均包含Res2Net模块,所述的Res2Net模块包括:
第一常规卷积层,卷积核大小为1×1,用于通过卷积操作生成特征图C1×1(X);
特征图层,与所述的第一常规卷积层相连接,用于将输入的特征图均匀地划分为s个特征 子图,分别处理各个特征子图,通过3×3的卷积操作得到相应输出并,将特征子图的输出级 联得到特征图层的输出;
第二常规卷积层,与所述的特征图层相连接,卷积核大小为1×1,用于对输入y进行卷 积操作生成特征图C1×1(y);所述的第二常规卷积层的输出通过残差结构与Res2Net模块的输 入相连接,得到Res2Net模块的输出Y。
较佳地,所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络均包含Res2Net模块均采用ReLU作为激活函数。
较佳地,所述的步骤(3.1)具体为:
通过在大规模图像数据集ImageNet上预训练的Res2Net50模型初始化Res2Net50-I的网 络参数;通过预训练的基于光流的Res2Net18模型初始化Res2Net18-MV的网络参数;通过 在大规模图像数据集ImageNet上预训练的Res2Net18模型初始化Res2Net18-RE的网络参数。
较佳地,所述的步骤(3.2-1)具体包括以下处理过程:
(3.2-1.1)通过Res2Net18网络训练基于光流的行为分类器Res2Net18-OP;
(3.2-1.2)引入监督损失函数,通过训练后的Res2Net18-OP网络模型指导Res2Net18-MV 网络模型进行训练,同时得到训练Res2Net18-MV网络的损失函数。
较佳地,所述的步骤(3.2-1.2)中得到训练Res2Net18-MV网络的损失函数,具体为:
根据以下公式得到训练Res2Net18-MV网络的损失函数:
LossRes2Net18-Mv=-[GTlogOsoftmax(V)+ω·Osoftmax(OP)TlogOsoftmax(V)];
其中,G表示真实的分类得分,Osoftmax(OP)表示基于光流信息并应用softmax函数后得 到的概率形式的分类得分,ω为加权参数,(·)T表示转置操作。
较佳地,所述的步骤(1)的I帧的描述信息为经过解码的RGB图像,所述的RGB图像为224×224个像素点的固定尺寸。
较佳地,所述的步骤(1)的P帧的描述信息为累积运动向量和累积残差,用于刻画该帧 相对所参考的I帧的变化。
该基于压缩视频实现实时异常行为识别的装置,其主要特点是,所述的装置包括用于存 储程序的存储器以及用于执行所述的程序的处理器,以实现上述的基于压缩视频实现实时异 常行为识别的方法。
该计算机可读存储介质,其主要特点是,包括程序,所述的程序可被处理器执行以完成 上述的基于压缩视频实现实时异常行为识别的方法。
采用了本发明的基于压缩视频实现实时异常行为识别的方法、装置及其计算机可读存储 介质,为适应实际监控场景下对异常行为识别的实时性需要,提供了一种直接利用压缩视频 进行异常行为检测的方法,规避了对压缩视频的解码和密集光流的计算,从而大幅地节省了 计算时间。同时利用压缩视频中易于提取的运动向量和残差,包含了运动信息的描述,从而 在满足高实时性要求的同时,也保证了较高异常行为识别的准确率。
附图说明
图1为本发明的基于压缩视频实现实时异常行为识别的方法的整体原理示意图。
图2为本发明的基于压缩视频实现实时异常行为识别的方法中的Res2Net模块结构示意 图。
图3为本发明的基于压缩视频实现实时异常行为识别的方法的实施例中提供的行为识别 性能测试结果示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于压缩视频实现实时异常行为识别的方法,其中包括以下步骤:
(1)通过分段采样操作处理将原始视频均匀划分成若干个片段,并按照一定的采样密 度从每个视频片段中获取一个I帧的描述信息和若干个P帧的描述信息;
将原始的压缩视频均匀划分为时间长度相同的K个视频片段,从每个视频片段中随 机采样,得到1个I帧和L个P帧的描述信息;
(2)进行异常行为识别网络模型搭建;
(2.1)通过Res2Net18网络搭建基于P帧累积运动向量的行为分类器和基于P帧累积残差的行为分类器,将它们分别记为Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络;
(2.2)将从各视频片段中提取到的各类帧信息分别输入到对应网络中,每个网络输 出一个分类得分;
(2.3)根据输入的帧信息类型,对所有视频片段中基于每类输入得到的分类得分进 行求和平均,得到在原始视频层面上基于每类输入的分类得分,即基于I帧图像、基于 P帧累积运动向量和基于P帧累积残差的分类得分;
(2.4)采用加权求和的方式进行融合,得到总分类得分作为异常行为识别网络的输 出;
(3)进行异常行为识别网络模型训练;
(3.1)通过预训练的高水平网络模型初始化异常行为识别网络的参数;
通过在大规模图像数据集ImageNet上预训练的Res2Net50模型初始化Res2Net50-I的网络参数;通过预训练的基于光流的Res2Net18模型初始化 Res2Net18-MV的网络参数;通过在大规模图像数据集ImageNet上预训练的 Res2Net18模型初始化Res2Net18-RE的网络参数;
(3.2)根据定义的交叉熵损失函数,使用批量梯度下降算法优化网络参数;
(3.2-1)对Res2Net18-MV网络,使用监督迁移的方式进行优化;
(3.2-1.1)通过Res2Net18网络训练基于光流的行为分类器Res2Net18-OP;
(3.2-1.2)引入监督损失函数,通过训练后的Res2Net18-OP网络模型指导Res2Net18-MV网络模型进行训练,同时得到训练Res2Net18-MV网络的损失函数;
(3.3)对训练后的网络直接处理压缩视频,实时进行异常行为的识别。
作为本发明的优选实施方式,所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV 网络和Res2Net18-RE网络均包含Res2Net模块,所述的Res2Net模块包括:
第一常规卷积层,卷积核大小为1×1,用于通过卷积操作生成特征图C1×1(X);
特征图层,与所述的第一常规卷积层相连接,用于将输入的特征图均匀地划分为s个特 征子图,分别处理各个特征子图,通过3×3的卷积操作得到相应输出并,将特征子图的输 出级联得到特征图层的输出;
第二常规卷积层,与所述的特征图层相连接,卷积核大小为1×1,用于对输入y进行卷 积操作生成特征图C1×1(y);所述的第二常规卷积层的输出通过残差结构与Res2Net模块的 输入相连接,得到Res2Net模块的输出Y。
较佳地,所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络均包含Res2Net模块均采用ReLU作为激活函数。
作为本发明的优选实施方式,所述的步骤(3.2-1.2)中得到训练Res2Net18-MV网络的 损失函数,具体为:
根据以下公式得到训练Res2Net18-MV网络的损失函数:
LossRes2Net18-MV=-[GTlogOsoftmax(V)+ω·Osoftmax(OP)TlogOsoftmax(V)];
其中,G表示真实的分类得分,Osoftmax(OP)表示基于光流信息并应用softmax函数后得 到的概率形式的分类得分,ω为加权参数,(·)T表示转置操作。
作为本发明的优选实施方式,所述的步骤(1)的I帧的描述信息为经过解码的RGB图 像,所述的RGB图像为224×224个像素点的固定尺寸。
作为本发明的优选实施方式,所述的步骤(1)的P帧的描述信息为累积运动向量和累 积残差,用于刻画该帧相对所参考的I帧的变化。
该基于压缩视频实现实时异常行为识别的装置,其中所述的装置包括用于存储程序的存 储器以及用于执行所述的程序的处理器,以实现上述的基于压缩视频实现实时异常行为识别 的方法。
该计算机可读存储介质,其中包括程序,所述的程序可被处理器执行以完成上述的基于 压缩视频实现实时异常行为识别的方法。
本发明的具体实施方式中,直接利用具有更高信息密度的压缩视频训练一个基于卷积神 经网络的异常行为分类器,具体包括:在帧采样策略方面,采用分段采样策略将原始视频 划分成若干个片段,然后按照合适的采样密度从每个视频片段提取帧信息;在网络模型方 面,采用Res2Net50搭建基于I帧图像的行为分类器,采用Res2Net18网络搭建基于P帧累 积运动向量的行为分类器和基于P帧累积残差的行为分类器,采用求和的方式对各分类器 产生的分类得分进行融合;在模型训练方面,采用预训练的高水平网络模型初始化异常行 为识别网络参数,并使用监督迁移机制,用训练好的光流模型指导基于累积运动向量模型 的训练。本发明通过直接利用压缩视频数据中包含的运动信息,有效减少了计算量,在满 足高实时性要求的同时,也保证了较高异常行为识别的准确率。
本发明的基于压缩视频实现实时异常行为识别的方法,其中,包括以下步骤:
第一步、压缩视频采样步骤:
采用分段采样策略将原始视频均匀划分成若干个片段,然后按照一定的采样密度从每个 视频片段中获取一个I帧和若干个P帧的描述信息;
第二步、异常行为识别网络模型搭建步骤:
使用Res2Net50网络搭建基于I帧图像的行为分类器,使用Res2Net18网络搭建基于P 帧累积运动向量的行为分类器和基于P帧累积残差的行为分类器,将它们分别记为Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络。首先,将从各视频片段中提 取到的各类帧信息分别输入到对应网络中,相应地,每个网络会输出一个分类得分;然后, 按照输入的帧信息类型,对所有视频片段中基于每类输入得到的分类得分进行求和平均, 从而得到在原始视频层面上基于每类输入的分类得分,即基于I帧图像、基于P帧累积运 动向量和基于P帧累积残差的分类得分。最后采用加权求和的方式对它们进行融合,得到 一个总的分类得分作为异常行为识别网络的输出;
第三步、异常行为识别网络模型训练步骤:
首先使用预训练的高水平网络模型初始化异常行为识别网络的参数,进而,根据定义的 交叉熵损失函数,使用批量梯度下降算法优化网络参数。特别地,对于Res2Net18-MV网 络,额外使用了监督迁移的方式进行优化。最终训练好的网络可直接处理压缩视频,能够 实时地进行异常行为的识别。
第一步中,压缩视频采样策略,是将原始的压缩视频均匀划分为时间长度相同的K个视 频片段,然后再从每个视频片段中随机采样,得到1个I帧和L个P帧的描述信息。
第一步中,I帧的描述信息,是指经过解码得到的一幅完整的RGB图像,并且被裁剪成224×224个像素点的固定尺寸,记为Ik∈R224×224×3。P帧的描述信息,是指累积运动向 量和累积残差,分别记为和它们用来刻画该帧相对所参考的I帧的变化。
第二步中,Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络均包含Res2Net 模块。其中,Res2Net模块由三个卷积层构成,具体结构如下:
第一层为常规卷积层,卷积核大小为1×1,假设Res2Net模块的输入是X,则经过1×1 的卷积操作后生成特征图C1×1(X);
第二层先将输入的特征图均匀地划分为s个特征子图,记为xi,i∈{1,2,…,s}。每个特 征子图xi和特征图C1×1(X)的空间尺寸大小一样,但前者的通道数只有后者的1/s倍。然后, 使用大小为3×3的卷积核以分级的方式分别处理各个特征子图。具体地,对x1不做任何操 作直接输出,对x2直接进行3×3的卷积操作得到相应输出,对于xi(2<i≤s),将它和上 一特征子图的输出yi-1求和后,再进行3×3的卷积操作得到相应输出。因此,每个特征子 图对应的输出可以表示为:
最后,将s个特征子图的输出级联起来得到y=(y1,y2,…ys),作为该层的输出;
第三层也是卷积核大小为1×1的常规卷积层,对输入y执行1×1的卷积操作生成特征图 C1×1(y)。使用残差结构,将Res2Net模块的输入连接到第三层的输出,最终得到Res2Net 模块的输出为Y=X+C1×1(y)。
除非另有陈述,在Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络中,Res2Net模块里所有的卷积步长默认设为1,特征子图数默认设为4。如存在Res2Net模块 的输入X与输出Y维度不一致的情况,即输入、输出特征图的通道数不同,均采用补零操作 来增加维度。
第二步中,Res2Net50-I网络,由以下各层堆叠而成,包括:
(1)第一组卷积层:输入图像的尺寸为224×224,输入通道数为3,由一个常规的卷积层构成,卷积核大小为7×7,卷积步长为2。
(2)最大池化层:输入特征图的大小为112×112,输入通道数为64,采用最大池化操作,池化核为3×3,池化步长为2。
(3)第二组卷积层:输入特征图大小为56×56,输入通道数为64,由三个Res2Net模块堆叠构成,所有模块的第一、二层输出通道数为64,第三层输出通道数为256。
(4)第三组卷积层:输入特征图大小为56×56,输入通道数为256,由四个Res2Net模块堆叠构成,所有模块的第一、二层输出通道数为128,第三层输出通道数为512。除了 第一个Res2Net模块的第一层的卷积步长设为2以外,其他部分均保持默认设置。
(5)第四组卷积层:输入特征图大小为28×28,输入通道数为512,由六个Res2Net模块堆叠构成,所有模块的第一、二层输出通道数为256,第三层输出通道数为1024。除 了第一个Res2Net模块的第一层的卷积步长设为2以外,其他部分均保持默认设置。
(6)第五组卷积层:输入特征图大小为14×14,输入通道数为1024,由三个Res2Net模块堆叠构成,所有模块的第一、二层输出通道数为512,第三层输出通道数为2048。除 了第一个Res2Net模块的第一层的卷积步长设为2以外,其他部分均保持默认设置。
(7)平均池化层:输入特征图的大小为7×7,输入通道数为2048,采用平均池化操作, 池化核为7×7。
(8)全连层:输入维度为2048,将可供识别的异常行为类别个数记为N,相应的输出维度为N+1。输出值表示分类得分,即当前视频样本存在某类异常行为的分数,其中,最 后一维表示视频不存在异常行为的得分。
第二步中,Res2Net18-MV网络和Res2Net18-RE网络与Res2Net50-I网络结构相似,存 在以下差异:
(1)在Res2Net18-MV网络和Res2Net18-RE网络中,第二组至第五组卷积层是由两个 Res2Net模块堆叠构成;
(2)Res2Net18-MV网络的输入通道数为2;Res2Net18-RE网络的输入通道数为3;
Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络均采用ReLU作为激活函 数。
第二步中,对于从各个视频片段中所提取的经解码和裁剪的I帧图像和用于描述P帧的 累积运动向量和累积残差,分别使用Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络进行处理,相应地,各个网络输出的分类得分可以表示为:
进一步,采用求和平均的方式将所有K个视频片段中基于各类输入得到的分类得分进行 融合,分别得到在原始视频层面上基于I帧图像、基于P帧累积运动向量和基于P帧累积 残差的分类得分,相应的计算公式为:
然后应用softmax函数得到概率形式的分类得分,最后对它们进行加权求和得到一个总 的分类得分作为异常行为识别网络的输出,具体表示为:
O=α·Osoftmax(I)+β·Osoftmax(V)+γ·Osoftmax(R),
其中,α,β,γ为权重参数。
第三步中,异常行为识别网络参数的初始化,使用在大规模图像数据集ImageNet上预 训练的Res2Net50模型初始化Res2Net50-I的网络参数,使用预训练的基于光流的Res2Net18 模型初始化Res2Net18-MV的网络参数,使用在大规模图像数据集ImageNet上预训练的Res2Net18模型初始化Res2Net18-RE的网络参数。
第三步中,对Res2Net18-MV网络采用监督迁移进行训练的方法,首先利用Res2Net18 网络训练一个基于光流的行为分类器,记为Res2Net18-OP。然后利用训练好的Res2Net18-OP 网络模型来指导Res2Net18-MV网络模型的训练。具体而言,额外引入了一个监督损失函 数,使得对于同一个P帧,用Res2Net18-OP处理从该帧提取的光流信息所得到的分类得分, 和用Res2Net18-MV处理从该帧提取的累积运动向量信息所得到的分类得分尽量接近。最 终训练Res2Net18-MV网络的损失函数表示为:
LossRes2Net18-MV=-[GTlogOsoftmax(V)+ω·Osoftmax(OP)TlogOsoftmax(V)].
其中,G表示真实的分类得分,Osoftmax(OP)表示基于光流信息并应用softmax函数后得 到的概率形式的分类得分,ω为加权参数,(·)T表示转置操作。
参照图1所示,本发明的基于压缩视频的实时异常行为识别方法的实施例包括如下步骤:
1、压缩视频采样步骤
采用分段采样策略将原始的压缩视频均匀划分为时间长度相同的K个视频片段,然后按 照一定的采样密度从每个视频片段中随机采样,获取1个I帧和L个P帧的描述信息。其中, I帧的描述信息,是指经过解码得到的一幅完整的RGB图像,并且被裁剪成224×224个像 素点的固定尺寸,记为Ik∈R224×224×3。所述的P帧的描述信息,是指累积运动向量和累积 残差,分别记为和它们用来刻画该帧相对所参考的I帧的 变化。
2、异常行为识别网络模型搭建步骤:
使用Res2Net50网络搭建基于I帧图像的行为分类器,使用Res2Net18网络搭建基于P 帧累积运动向量的行为分类器和基于P帧累积残差的行为分类器,将它们分别记为Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络。这些网络均包含Res2Net模块,Res2Net模块的结构如图2所示,由三个卷积层构成,具体结构如下:
第一层为常规卷积层,卷积核大小为1×1,假设Res2Net模块的输入是X,则经过1×1 的卷积操作后生成特征图C1×1(X);
第二层先将输入的特征图均匀地划分为s个特征子图,记为xi,i∈{1,2,…,s}。每个特 征子图xi和特征图C1×1(X)的空间尺寸大小一样,但前者的通道数只有后者的1/s倍。然后, 使用大小为3×3的卷积核以分级的方式分别处理各个特征子图。具体地,对x1不做任何操 作直接输出,对x2直接进行3×3的卷积操作得到相应输出,对于xi(2<i≤s),将它和上 一特征子图的输出yi-1求和后,再进行3×3的卷积操作得到相应输出。因此,每个特征子 图对应的输出可以表示为:
最后,将s个特征子图的输出级联起来得到y=(y1,y2,…ys),作为该层的输出;
第三层也是卷积核大小为1×1的常规卷积层,对输入y执行1×1的卷积操作生成特征图 C1×1(y)。使用残差结构,将Res2Net模块的输入连接到第三层的输出,最终得到Res2Net 模块的输出为Y=X+C1×1(y)。
除非另有陈述,在所述的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络 中,Res2Net模块里所有的卷积步长默认设为1,特征子图数默认设为4。如存在Res2Net模块的输入X与输出Y维度不一致的情况,即输入、输出特征图的通道数不同,均采用补零操作来增加维度。
Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络结构如图3所示。对于从 各个视频片段中所提取的经解码和裁剪的I帧图像和用于描述P帧的累积运动向量和累积 残差,分别使用Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络进行处理,相应地,各个网络输出的分类得分可以表示为:
进一步,采用求和平均的方式将所有K个视频片段中基于各类输入得到的分类得分进行 融合,分别得到在原始视频层面上基于I帧图像、基于P帧累积运动向量和基于P帧累积 残差的分类得分,相应的计算公式为:
然后应用softmax函数得到概率形式的分类得分,最后对它们进行加权求和得到一个总 的分类得分作为异常行为识别网络的输出,具体表示为:
O=α·Osoftmax(I)+β·Osoftmax(V)+γ·Osoftmax(R),
其中,α,β,γ为权重参数。
3、异常行为识别网络模型训练步骤
使用在大规模图像数据集ImageNet上预训练的Res2Net50模型初始化Res2Net50-I的网 络参数,使用预训练的基于光流的Res2Net18模型初始化Res2Net18-MV的网络参数,使用 在大规模图像数据集ImageNet上预训练的Res2Net18模型初始化Res2Net18-RE的网络参 数。根据定义的交叉熵损失函数,使用批量梯度下降算法优化网络参数。
特别地,对于Res2Net18-MV网络,额外使用了监督迁移的方式进行优化。首先利用Res2Net18网络训练一个基于光流的行为分类器,记为Res2Net18-OP。然后利用训练好的Res2Net18-OP网络模型来指导Res2Net18-MV网络模型的训练。具体而言,额外引入了一 个监督损失函数,使得对于同一个P帧,用Res2Net18-OP处理从该帧提取的光流信息所得 到的分类得分,和用Res2Net18-MV处理从该帧提取的累积运动向量信息所得到的分类得 分尽量接近。最终训练Res2Net18-MV网络的损失函数表示为:
LossRes2Net18-MV=-[GTlogOsoftmax(V)+ω·Osoftmax(OP)TlogOsoftmax(V)].
其中,G表示真实的分类得分,Osoftmax(OP)表示基于光流信息并应用softmax函数后得 到的概率形式的分类得分,ω为加权参数,(·)T表示转置操作。
最终训练好的网络可直接处理压缩视频,能够实时地进行异常行为的识别。
对训练好的异常行为识别网络模型在UCF-101和HMDB-51数据集上进行了性能测试, 测试结果所示,融合后的结果分别取得了92.2%和61.9%的准确率。模型处理batch为16的 批量数据的延时为211.22ms,相当于模型一秒钟能够处理75帧,完全可以满足实时处理视频 的要求,从识别效果和处理速度均满足实时异常行为检测算法的要求。
采用了本发明的基于压缩视频实现实时异常行为识别的方法,为适应实际监控场景下对 异常行为识别的实时性需要,提供了一种直接利用压缩视频进行异常行为检测的方法,规避 了对压缩视频的解码和密集光流的计算,从而大幅地节省了计算时间。同时利用压缩视频中 易于提取的运动向量和残差,包含了运动信息的描述,从而在满足高实时性要求的同时,也 保证了较高异常行为识别的准确率。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种 修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限 制性的。
Claims (14)
1.一种基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的方法包括以下步骤:
(1)通过分段采样操作处理将原始视频均匀划分成若干个片段,并按照一定的采样密度从每个视频片段中获取一个I帧的描述信息和若干个P帧的描述信息;
(2)进行异常行为识别网络模型搭建;
(3)进行异常行为识别网络模型训练。
2.根据权利要求1所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(1)具体为:
将原始的压缩视频均匀划分为时间长度相同的K个视频片段,从每个视频片段中随机采样,得到1个I帧和L个P帧的描述信息。
3.根据权利要求1所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)通过Res2Net18网络搭建基于P帧累积运动向量的行为分类器和基于P帧累积残差的行为分类器,将它们分别记为Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络;
(2.2)将从各视频片段中提取到的各类帧信息分别输入到对应网络中,每个网络输出一个分类得分;
(2.3)根据输入的帧信息类型,对所有视频片段中基于每类输入得到的分类得分进行求和平均,得到在原始视频层面上基于每类输入的分类得分,即基于I帧图像、基于P帧累积运动向量和基于P帧累积残差的分类得分;
(2.4)采用加权求和的方式进行融合,得到总分类得分作为异常行为识别网络的输出。
4.根据权利要求1所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)通过预训练的高水平网络模型初始化异常行为识别网络的参数;
(3.2)根据定义的交叉熵损失函数,使用批量梯度下降算法优化网络参数;
(3.3)对训练后的网络直接处理压缩视频,实时进行异常行为的识别。
5.根据权利要求4所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(3.2)还包括以下步骤:
(3.2-1)对Res2Net18-MV网络,使用监督迁移的方式进行优化。
6.根据权利要求3所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络均包含Res2Net模块,所述的Res2Net模块包括:
第一常规卷积层,卷积核大小为1×1,用于通过卷积操作生成特征图C1×1(X);
特征图层,与所述的第一常规卷积层相连接,用于将输入的特征图均匀地划分为s个特征子图,分别处理各个特征子图,通过3×3的卷积操作得到相应输出并,将特征子图的输出级联得到特征图层的输出;
第二常规卷积层,与所述的特征图层相连接,卷积核大小为1×1,用于对输入y进行卷积操作生成特征图C1×1(y);所述的第二常规卷积层的输出通过残差结构与Res2Net模块的输入相连接,得到Res2Net模块的输出Y。
7.根据权利要求3所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络均包含Res2Net模块均采用ReLU作为激活函数。
8.根据权利要求4所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(3.1)具体为:
通过在大规模图像数据集ImageNet上预训练的Res2Net50模型初始化Res2Net50-I的网络参数;通过预训练的基于光流的Res2Net18模型初始化Res2Net18-MV的网络参数;通过在大规模图像数据集ImageNet上预训练的Res2Net18模型初始化Res2Net18-RE的网络参数。
9.根据权利要求5所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(3.2-1)具体包括以下处理过程:
(3.2-1.1)通过Res2Net18网络训练基于光流的行为分类器Res2Net18-OP;
(3.2-1.2)引入监督损失函数,通过训练后的Res2Net18-OP网络模型指导Res2Net18-MV网络模型进行训练,同时得到训练Res2Net18-MV网络的损失函数。
10.根据权利要求9所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(3.2-1.2)中得到训练Res2Net18-MV网络的损失函数,具体为:
根据以下公式得到训练Res2Net18-MV网络的损失函数:
LossRes2Net18-MV=-[GTlogOsoftmax(V)+ω·Osoftmax(OP)TlogOsoftmax(V)];
其中,G表示真实的分类得分,Osoftmax(OP)表示基于光流信息并应用softmax函数后得到的概率形式的分类得分,ω为加权参数,(·)T表示转置操作。
11.根据权利要求1所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(1)的I帧的描述信息为经过解码的RGB图像,所述的RGB图像为224×224个像素点的固定尺寸。
12.根据权利要求1所述的基于压缩视频实现实时异常行为识别的方法,其特征在于,所述的步骤(1)的P帧的描述信息为累积运动向量和累积残差,用于刻画该帧相对所参考的I帧的变化。
13.一种基于压缩视频实现实时异常行为识别的装置,其特征在于,所述的装置包括用于存储程序的存储器以及用于执行所述的程序的处理器,以实现权利要求1至12中任一项所述的基于压缩视频实现实时异常行为识别的方法。
14.一种计算机可读存储介质,其特征在于,包括程序,所述的程序可被处理器执行以完成权利要求1至12中任一项所述的基于压缩视频实现实时异常行为识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011097795.4A CN112200096B (zh) | 2020-10-14 | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011097795.4A CN112200096B (zh) | 2020-10-14 | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112200096A true CN112200096A (zh) | 2021-01-08 |
CN112200096B CN112200096B (zh) | 2024-05-14 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014923A (zh) * | 2021-03-03 | 2021-06-22 | 西北工业大学 | 一种基于压缩域表征运动向量的行为识别方法 |
CN113205051A (zh) * | 2021-05-10 | 2021-08-03 | 中国科学院空天信息创新研究院 | 基于高空间分辨率遥感影像的储油罐提取方法 |
CN114926555A (zh) * | 2022-03-25 | 2022-08-19 | 江苏预立新能源科技有限公司 | 一种安防监控设备数据智能压缩方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480642A (zh) * | 2017-08-18 | 2017-12-15 | 深圳市唯特视科技有限公司 | 一种基于时域分段网络的视频动作识别方法 |
CN110378208A (zh) * | 2019-06-11 | 2019-10-25 | 杭州电子科技大学 | 一种基于深度残差网络的行为识别方法 |
US10528819B1 (en) * | 2017-11-20 | 2020-01-07 | A9.Com, Inc. | Compressed content object and action detection |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480642A (zh) * | 2017-08-18 | 2017-12-15 | 深圳市唯特视科技有限公司 | 一种基于时域分段网络的视频动作识别方法 |
US10528819B1 (en) * | 2017-11-20 | 2020-01-07 | A9.Com, Inc. | Compressed content object and action detection |
CN110378208A (zh) * | 2019-06-11 | 2019-10-25 | 杭州电子科技大学 | 一种基于深度残差网络的行为识别方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014923A (zh) * | 2021-03-03 | 2021-06-22 | 西北工业大学 | 一种基于压缩域表征运动向量的行为识别方法 |
CN113014923B (zh) * | 2021-03-03 | 2022-12-06 | 西北工业大学 | 一种基于压缩域表征运动向量的行为识别方法 |
CN113205051A (zh) * | 2021-05-10 | 2021-08-03 | 中国科学院空天信息创新研究院 | 基于高空间分辨率遥感影像的储油罐提取方法 |
CN113205051B (zh) * | 2021-05-10 | 2022-01-25 | 中国科学院空天信息创新研究院 | 基于高空间分辨率遥感影像的储油罐提取方法 |
CN114926555A (zh) * | 2022-03-25 | 2022-08-19 | 江苏预立新能源科技有限公司 | 一种安防监控设备数据智能压缩方法与系统 |
CN114926555B (zh) * | 2022-03-25 | 2023-10-24 | 江苏预立新能源科技有限公司 | 一种安防监控设备数据智能压缩方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Unsupervised learning of view-invariant action representations | |
Zhou et al. | Anomalynet: An anomaly detection network for video surveillance | |
Varol et al. | Long-term temporal convolutions for action recognition | |
Kuhnke et al. | Two-stream aural-visual affect analysis in the wild | |
CN109583340B (zh) | 一种基于深度学习的视频目标检测方法 | |
WO2022111506A1 (zh) | 视频动作识别方法、装置、电子设备和存储介质 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN112434608B (zh) | 一种基于双流结合网络的人体行为识别方法及系统 | |
CN110110648B (zh) | 基于视觉感知与人工智能的动作提名方法 | |
Sobral et al. | Comparison of matrix completion algorithms for background initialization in videos | |
CN110580472A (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN113158723A (zh) | 一种端到端的视频动作检测定位系统 | |
CN109948721A (zh) | 一种基于视频描述的视频场景分类方法 | |
CN111062410B (zh) | 基于深度学习的星型信息桥气象预测方法 | |
WO2023035904A9 (zh) | 视频时序动作提名生成方法及系统 | |
Cai et al. | Video based emotion recognition using CNN and BRNN | |
Yi et al. | Human action recognition based on action relevance weighted encoding | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
CN113657200A (zh) | 一种基于掩码r-cnn的视频行为动作识别方法及系统 | |
CN112560618A (zh) | 基于骨架和视频特征融合的行为分类方法 | |
Mucha et al. | Depth and thermal images in face detection-a detailed comparison between image modalities | |
CN114120076B (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
US20230154139A1 (en) | Systems and methods for contrastive pretraining with video tracking supervision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |