CN112699786B - 一种基于空间增强模块的视频行为识别方法及系统 - Google Patents
一种基于空间增强模块的视频行为识别方法及系统 Download PDFInfo
- Publication number
- CN112699786B CN112699786B CN202011603129.3A CN202011603129A CN112699786B CN 112699786 B CN112699786 B CN 112699786B CN 202011603129 A CN202011603129 A CN 202011603129A CN 112699786 B CN112699786 B CN 112699786B
- Authority
- CN
- China
- Prior art keywords
- video
- enhancement module
- convolution
- behavior recognition
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 230000006399 behavior Effects 0.000 claims description 85
- 238000010586 diagram Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 125000003821 2-(trimethylsilyl)ethoxymethyl group Chemical group [H]C([H])([H])[Si](C([H])([H])[H])(C([H])([H])[H])C([H])([H])C(OC([H])([H])[*])([H])[H] 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004626 scanning electron microscopy Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于空间增强模块的视频行为识别方法及系统,该方法包括下述步骤:将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储;采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列;计算行为识别数据集中所有的训练视频帧的三个通道的均值,将所采样的帧图像减去所计算出来的均值;用残差神经网络3D‑ResNet‑18为骨干网络,空间增强模块构建行为识别分类网络;设置训练参数,将训练集输入行为识别分类网络进行训练,保存训练后网络参数;在模型部署阶段,融合空间增强模块的线性运算符;待测视频输入到行为识别分类网络,输出最终的分类结果。本发明提升了行为识别效果,兼具有效性与通用性。
Description
技术领域
本发明涉及计算机视觉的视频行为识别技术领域,具体涉及一种基于空间增强模块的视频行为识别方法及系统。
背景技术
对人体的行为识别一直都是计算机视觉领域中的一项重点研究问题。通过对人体的体态、行为的研究,可以检测出现在公共场合的异常行为,如:快速奔跑,摔倒,打人等。将深度学习理论应用于计算机视觉应用中,可以设计出高精度、高效率的行为识别算法。一个实用性高的行为识别算法为公共安全起到了一份重要的保障,也使得计算机能够自动完成对人体的异常行为检测,节省了管理人员手动查找的时间。视频行为识别的目的就是要识别出一段视频中某个目标的所做动作的具体类别,这在智能安防领域中有非常广泛的应用场景。利用计算机视觉技术进行视频内容的智能分析是当下一种可行的解决方法,值得深入研究。当前主流的基于深度学习的行为识别算法之一是基于3D卷积的行为识别算法。3D卷积可联合学习视频行为的时空特征,在时序性较强的行为数据集上的分类精度显著性的高于2D卷积。然而其对时空特征的联合学习导致了单独对于空间特征的提取能力较2D卷积有很明显的衰减,故在空间特征较强、时序性较弱的数据集上的分类精度弱于2D卷积。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于空间增强模块的视频行为识别方法及系统,本发明在充分考虑视频动作的帧间关联性的基础上,深入挖掘其静态空间特征,具体地说,空间增强模块在其内部利用2D卷积所提取的空间特征来对3D卷积所提取的时空联合特征进行叠加,实现空间增强,从而提升行为识别的准确率;空间特征描述视频中行为及其目标的外观、纹理、穿着,而时空特征主要描述行为在前后帧间的时序性与关联性,若仅考虑时空特征,而忽略其空间特征,在外观较为复杂的行为而帧间关联性较弱的行为上,往往会导致较高的误识别率。因此,本发明通过采用空间增强模块,单独的对行为空间特征进行提取并增强,从而实现行为分类,提升了行为识别效果,兼具有效性与通用性。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于空间增强模块的视频行为识别方法,包括下述步骤:
视频解码:将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;
稀疏采样:采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;
数据预处理:计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值,将所采样的帧图像减去所计算出来的均值,并进行归一化处理,对帧图像进行区域裁剪,用于适应神经网络的输入分辨率;
基于空间增强模块构建神经网络:采用残差神经网络3D-ResNet-18为骨干网络,采用空间增强模块构建行为识别分类网络,增强视频中复杂行为的外观及边缘特征;
设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;
模型部署及模型融合:在模型部署阶段,将空间增强模块内部的线性运算符进行融合;
待测视频输入到行为识别分类网络,输出最终的分类结果。
作为优选的技术方案,所述采取稀疏采样的采样策略,具体步骤包括:
将一段视频的所有帧平均分成长度相等的N段,以每一段的起始帧为起点,选取偏移量,从各视频段中相应偏移量的位置抽取一帧,组成时间维度为N的帧序列。
作为优选的技术方案,所述数据预处理具体步骤包括:
在训练阶段,对原始帧进行随机拉伸后,并缩放至320×240或240×320分辨率,再随机裁剪出224×224的图像块作为输入;在测试阶段,采取中心裁剪的方式裁剪出224×224的图像块作为输入。
作为优选的技术方案,所述采用空间增强模块构建行为识别分类网络,具体包括:
采用残差神经网络3D-ResNet-18为骨干网络,使用空间增强模块替换3D-ResNet-18中的所有3D卷积核,搭建行为识别分类网络,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,在行为识别分类网络的最后采用全连接层对所提取的特征值实行分类。
作为优选的技术方案,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,对3D卷积和2D卷积的输出特征图进行逐元素相加,再送入BN层执行批量归一化操作。
作为优选的技术方案,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,分别对3D卷积和2D卷积的输出特征图执行批量归一化操作,再进行逐元素相加,实现时空联合特征与纯空间特征的叠加。
作为优选的技术方案,所述空间增强模块的算子表示为:
Y=f(Xin*W3D+Xin*W2D)
其中,Xin表示输入到空间增强模块的特征图,W3D表示3D卷积的权值,W2D表示2D卷积的权值,“*”表示卷积运算。
作为优选的技术方案,所述在模型部署阶段,将空间增强模块内部的线性运算符进行融合,具体步骤包括:
所述空间增强模块的内部算子包括卷积、BN、元素相加以及ReLU;
通过线性融合的方式将其内部线性算子合并成为一个单一的3D卷积。
作为优选的技术方案,所述输出最终的特征图,表示为:
M3D=Xin*W3D
M2D=Xin*W2D
其中,所有的粗体变量均表示特征图张量,细体变量表示标量,“*”表示卷积运算,“·”表示标量与张量的数乘运算,Xin表示输入空间增强模块的特征图,W3D和W2D表示3D卷积和2D卷积的权值,γ、β、μ、σ2分别表示接在3D卷积和2D卷积后面的BN层的缩放、偏置、均值及方差,Yout表示空间增强模块最终的输出特征图。
本发明还提供一种基于空间增强模块的视频行为识别系统,包括:视频解码模块、稀疏采样模块、数据预处理模块、行为识别分类网络构建模块、网络训练模块、融合模块和输出模块;
所述视频解码模块用于将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;
所述稀疏采样模块用于采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;
所述数据预处理模块用于计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值,将所采样的帧图像减去所计算出来的均值,并进行归一化处理,对帧图像进行区域裁剪,用于适应神经网络的输入分辨率;
所述行为识别分类网络构建模块用于采用残差神经网络3D-ResNet-18为骨干网络,采用空间增强模块构建行为识别分类网络,增强视频中复杂行为的外观及边缘特征;
所述网络训练模块用于设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;
所述融合模块用于在模型部署阶段,将空间增强模块内部的线性运算符进行融合;
所述输出模块用于将待测视频输入到行为识别分类网络,输出最终的分类结果。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明所设计的空间增强模块充分利用了2D卷积高效的空间特征提取能力,来弥补3D卷积衰减的空间特征提取能力,充分地利用了空间与时间信息,来识别复杂场景中的行为。
(2)本发明的空间增强模块实现了在学习时空特征的同时,增强了其空间特征,可提取到更加全面更加清晰的特征图,可解决视频场景中由于背景环境的复杂性、人体行为的多样性及行为类间差异小而导致的识别准确率不佳的问题。
(3)本发明的空间增强模块包含2D卷积,故其拥有类似于时间分段网络(TSN)的长时间建模能力,大大提高了原始3D卷积网络的长时间建模能力。
(4)本发明的空间增强模块在部署阶段,通过线性融合的方式,以人工的方式,将其内部线性算子合并成为一个单一的3D卷积,由于空间增强模块在融合后,其形式完全与3D卷积相同,故其相比3D卷积不增加额外计算量,并能优化3D卷积的空间特征提取能力,在当前的公开数据集上,空间增强模块的准确率显著地高于3D卷积,亦不涉及复杂运算;在时空联合学习任务如行为识别、目标跟踪中有着重要的实际应用价值,计算简单,通用性强。
(5)本发明所设计的空间增强模块可应用于任何包含3D卷积的计算机视觉任务中去,且易于替换,通用性极高。
附图说明
图1为本实施例基于空间增强模块的视频行为识别方法的流程示意图;
图2(a)为本实施例3D卷积结构示意图;
图2(b)为本实施例空间增强模块(a)结构示意图;
图2(c)为本实施例空间增强模块(b)结构示意图;
图3为本实施例搭建的神经网络中各空间增强模块双支路的均值柱状图;
图4(a)为本实施例3D卷积残差网络示意图;
图4(b)为本实施例采用空间增强模块搭建的残差网络示意图;
图4(c)为本实施例对空间增强模块进行线性融合后的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例采用的数据集是Kinetics-400数据集。Kinetics是一个特大型视频分类数据集,其中的视频均来自于Youtube视频网站,总共包含约23万个训练集视频和约2万个验证集视频,所有视频的时长均为3-10s,分辨率统一为340×256像素或256×340像素;实施例在Linux系统上运行,系统版本为Ubuntu16.04,主要基于Caffe框架来实现,Caffe的依赖库OpenCV版本为3.0,python版本2.7;实验所用显卡为PCI-E Tesla V100,16GB,CUDA版本为9.0.0,cudnn版本为7.1.4。
如图1所示,本实施例提供一种基于空间增强模块的视频行为识别方法,具体步骤包括:
S1:视频解码与稀疏采样:将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;
采取稀疏采样的采样策略,对一个包含特定行为的视频分成相等长度的一系列视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;
具体为:记一段视频总长度记为num_frames,将一段视频的所有帧平均分成长度相等的N段,即num_segments=N,本实施例中取N=8、16,则每一段长度为duration=num_frames//num_segments;以每一段的起始帧为起点,选取偏移量offset∈[0,duration),从各视频段中相应偏移量的位置抽取一帧,组成时间维度为N的帧序列;
S2:数据预处理:读取行为识别数据集中所有的训练视频,计算所有训练视频的所有帧的R、G、B三个通道,所有像素值的平均值,生成Rmean,Gmean,Bmean;将帧图像中所有通道的像素值减去对应通道的均值,生成0均值的帧图像矩阵;将所采样的帧图像减去所计算出来的均值后做归一化处理,并对帧图像做区域裁剪以适应神经网络的输入分辨率;
在本实施例中,采用的python版本为2.7,使用opencv-python库中的VideoCapture类读取视频,使用numpy库的mean函数来计算每个通道的均值,以此操作遍历整个数据集的所有视频,从而获取R、G、B三个通道的均值Rmean,Gmean,Bmean。
记三个通道原始图像矩阵分别为Ir(x,y),Ig(x,y),Ib(x,y),减去均值之后获得的图像矩阵为Jr(x,y),Jg(x,y),Jb(x,y),具体计算公式如下:
Jr(x,y)=Ir(x,y)-Rmean
Jg(x,y)=Ig(x,y)-Gmean
Jb(x,y)=Ib(x,y)-Bmean
在训练阶段,对原始帧进行随机拉伸后,并缩放至320×240或240×320分辨率,再随机裁剪出224×224的图像块作为输入,以达到数据增强、降低过拟合可能性的目的;在测试阶段,采取中心裁剪的方式裁剪出224×224的图像块作为输入;
S3:基于空间增强模块设计神经网络:以残差神经网络3D-ResNet-18为骨干网络,基于空间增强模块设计行为识别分类网络,用以增强视频中复杂行为的外观及边缘特征;
关于本发明所提出的空间增强模块(Spatial Enhanced Module,以下简称SEM),含有2种备选结构,如图2(a)、图2(b)和图2(c)所示,分别为原始3D卷积与2种空间增强模块结构图;
本实施例2种SEM的主体结构均为双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征;区别在于,SEM(a)首先对3D卷积和2D卷积的输出特征图进行逐元素相加,再送入BN层执行批量归一化操作,而SEM(b)是分别对3D卷积和2D卷积的输出特征图执行批量归一化操作,再进行逐元素相加,以实现时空联合特征与纯空间特征的叠加;本实施例分别采用这两种空间增强模块来替换3D-ResNet-18的原始3D卷积,得到两个网络,以搭建行为识别分类网络,在网络的最后采用全连接层对所提取的特征值实行分类。
在本实施例中,空间增强模型算子可表示为:Y=f(Xin*W3D+Xin*W2D),其中Xin表示输入到空间增强模块的特征图;W3D表示3D卷积的权值,W2D表示2D卷积的权值,“*”表示卷积运算。
S4:设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;
在本实施例中,在版本为Ubuntu16.04的linux系统上,采用多线程caffe-MPI训练网络,采用4个GPU并行计算,每个GPU的batch size=16,即实际总批次数量16×4=64;设置初学习率为0.001,学习率衰减率为0.1,学习率lr(t)具体如下所示:
其中,t表示迭代轮次epoch。
选择交叉熵损失(cross-entropy loss)为目标函数,其计算公式为:
其中N是一个批次中视频的数量,M是类别标签的数量,pij表示第i个样本属于第j类的真实概率,qij表示第i个样本经过神经网络所得的预测概率;选择Adam作为优化器;将训练数据集的视频送入设计好的神经网络训练,采用随机梯度下降法(SGD)迭代来寻求最优模型参数。
依据上述设定训练所述三个神经网络,其在Kinetics数据集的验证集准确率如下表1所示:
表1空间增强模块不同子结构的准确率对比表
从上述试验结果可见,SEM(a)的准确率几乎与原始3D网络一致,而SEM(b)相比原始3D网络有明显的准确率提升。
为此探究这个现象的原因,本实施例从所训练好的SEM(b)模型中,读取了阶段conv1到res5中,每一个空间增强模块中的3D卷积和2D卷积输出特征图所有像素的平均值,如图3所示,其中,左边深色柱状图表示3D卷积核输出特征图的均值,右边浅色柱状图表示2D卷积核输出特征图的均值,图中的每个百分比表示2D输出均值与3D输出均值的比值。从图3可以看到,SEM(b)中的每个空间增强模块内部,2D输出均值与3D输出均值的比值的百分比均小于1,因此,当2D和3D输出特征图先执行逐元素相加后再执行批量归一化,2D卷积所增强的空间特征将被压缩至一个非常小的数值,经过逐层前向传播之后,浅层2D所贡献的空间特征将被压缩的越来越小,这种现象与梯度消失现象类似。梯度消失是经过逐层反向传播求导后导致梯度值逐渐趋近于0。故本发明最终所采用的空间增强模块为SEM(b)。
S5:模型部署及模型融合:如图4(a)、图4(b)和图4(c)所示,在模型部署阶段,可将空间增强模块内部的线性运算符进行融合,使计算量保持原始3D卷积的水平。
由于在模型部署阶段,部署平台的不确定性,需使得模型的尺寸、计算量、推理速度尽可能达到最优;本实施例的空间增强模块,其内部算子包括卷积、BN、元素相加以及ReLU,其中线性算子为卷积、BN、元素相加;由于包含线性算子,其可通过手工的方式进行算子参数值的线性融合以达到模型融合的目的。
M3D=Xin*W3D
M2D=Xin*W2D
其中,所有的粗体变量均表示特征图张量,细体变量表示标量,“*”表示卷积运算,“·”表示标量与张量的数乘运算。Xin表示输入空间增强模块的特征图,W3D和W2D表示3D卷积和2D卷积的权值,γ、β、μ、σ2分别表示接在3D卷积和2D卷积后面的BN层的缩放、偏置、均值及方差,Yout表示空间增强模块最终的输出特征图。
于是,融合的卷积核权重及偏置为:
本实施例的模型融合操作采用的编程语言是python2.7,利用caffe的python接口,读取caffemodel文件,将每一个空间增强模块的3D和2D卷积核参数读取存入numpy数组中,再根据所述融合后的权重W*及偏置b*和公式进行空间增强模块的融合,并将融合后的模型使用python接口写入磁盘。另外,在实际操作中,其标准差实为ξ是为了防止模型中存储的方差为0而导致的分母为0而添加的,ξ取值为0.00005。由上所述,在部署阶段,本实施例可采取模型融合的方式,将空间增强模块融合成原始的3D卷积形式,故可知,在不增加额外计算量的前提下,优化了3D卷积的空间特征建模能力,此实验结果证明了本实施例方法的高效性。
S6:待测视频输入到行为识别分类网络,输出视频行为识别结果。
以上即为本发明提出的一种基于空间增强模块的视频行为识别方法的具体实施方案。此实施方案是在Kinetics数据集上进行验证的,Kinetics数据集的数据具有强空间性与弱时序性的特点。Kinetics数据集的所有视频时长均为3-10s,本实施例使用稀疏采样策略所得的帧序列来表示一个视频,以此作为神经网络的输入,分别在采样帧数为8帧和16帧的情况下进行实验,以验证本发明的有效性。本发明用平均准确率(Average Accuracy)对实验结果进行了评估。在与当前使用3D卷积的单一任务模型的比较中,本发明提出的方法取得了领先的检测精度,具体比较结果如下表2所示:
表2不同方法在Kinetics数据集的准确率(%)
从上述实验结果可见,当采样帧数为8帧和16帧两种情况下,本实施例在Kinetics数据集上的性能均比现有的基于原始3D卷积的方法有明显的提升,此实验结果证明了本实施例方法的有效性。
本发明还提供一种基于空间增强模块的视频行为识别系统,包括:视频解码模块、稀疏采样模块、数据预处理模块、行为识别分类网络构建模块、网络训练模块、融合模块和输出模块;
所述视频解码模块用于将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;
所述稀疏采样模块用于采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;
所述数据预处理模块用于计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值,将所采样的帧图像减去所计算出来的均值,并进行归一化处理,对帧图像进行区域裁剪,用于适应神经网络的输入分辨率;
所述行为识别分类网络构建模块用于采用残差神经网络3D-ResNet-18为骨干网络,采用空间增强模块构建行为识别分类网络,增强视频中复杂行为的外观及边缘特征;
所述网络训练模块用于设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;
所述融合模块用于在模型部署阶段,将空间增强模块内部的线性运算符进行融合;
所述输出模块用于将待测视频输入到行为识别分类网络,输出最终的分类结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于空间增强模块的视频行为识别方法,其特征在于,包括下述步骤:
视频解码:将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;
稀疏采样:采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;
数据预处理:计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值,将所采样的帧图像减去所计算出来的均值,并进行归一化处理,对帧图像进行区域裁剪,用于适应神经网络的输入分辨率;
基于空间增强模块构建神经网络:采用残差神经网络3D-ResNet-18为骨干网络,采用空间增强模块构建行为识别分类网络,增强视频中复杂行为的外观及边缘特征;
所述空间增强模块,表示为:
M3D=Xin*W3D
M2D=Xin*W2D
Yout=Y3D+Y2D
其中,所有的粗体变量均表示特征图张量,细体变量表示标量,“*”表示卷积运算,“·”表示标量与张量的数乘运算,Xin表示输入空间增强模块的特征图,W3D和W2D表示3D卷积和2D卷积的权值,γ、β、μ、σ2分别表示接在3D卷积和2D卷积后面的BN层的缩放、偏置、均值及方差,Yout表示空间增强模块最终的输出特征图;
设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;
模型部署及模型融合:在模型部署阶段,将空间增强模块内部的线性运算符进行融合;
待测视频输入到行为识别分类网络,输出最终的分类结果。
2.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述采取稀疏采样的采样策略,具体步骤包括:
将一段视频的所有帧平均分成长度相等的N段,以每一段的起始帧为起点,选取偏移量,从各视频段中相应偏移量的位置抽取一帧,组成时间维度为N的帧序列。
3.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述数据预处理具体步骤包括:
在训练阶段,对原始帧进行随机拉伸后,并缩放至320×240或240×320分辨率,再随机裁剪出224×224的图像块作为输入;在测试阶段,采取中心裁剪的方式裁剪出224×224的图像块作为输入。
4.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述采用空间增强模块构建行为识别分类网络,具体包括:
采用残差神经网络3D-ResNet-18为骨干网络,使用空间增强模块替换3D-ResNet-18中的所有3D卷积核,搭建行为识别分类网络,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,在行为识别分类网络的最后采用全连接层对所提取的特征值实行分类。
5.根据权利要求1或4所述的基于空间增强模块的视频行为识别方法,其特征在于,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,对3D卷积和2D卷积的输出特征图进行逐元素相加,再送入BN层执行批量归一化操作。
6.根据权利要求1或4所述的基于空间增强模块的视频行为识别方法,其特征在于,所述空间增强模块采用双支路形式,一条支路为3D卷积运算,提取时空联合特征,一条支路为2D卷积运算,提取纯空间特征,分别对3D卷积和2D卷积的输出特征图执行批量归一化操作,再进行逐元素相加,实现时空联合特征与纯空间特征的叠加。
7.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述空间增强模块的算子表示为:
Y=f(Xin*W3D+Xin*W2D)
其中,Xin表示输入到空间增强模块的特征图,“*”表示卷积运算。
8.根据权利要求1所述的基于空间增强模块的视频行为识别方法,其特征在于,所述在模型部署阶段,将空间增强模块内部的线性运算符进行融合,具体步骤包括:
所述空间增强模块的内部算子包括卷积、BN、元素相加以及ReLU;
通过线性融合的方式将其内部线性算子合并成为一个单一的3D卷积。
9.一种基于空间增强模块的视频行为识别系统,其特征在于,包括:视频解码模块、稀疏采样模块、数据预处理模块、行为识别分类网络构建模块、网络训练模块、融合模块和输出模块;
所述视频解码模块用于将待测视频解码为帧序列,将解码所得帧序列以图像的形式存储,用于训练及测试;
所述稀疏采样模块用于采取稀疏采样的采样策略,将视频分成多个视频片段,从每个视频片段中抽取一帧,组合而成堆叠的帧序列,输入神经网络以捕获长时间动作信息;
所述数据预处理模块用于计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值,将所采样的帧图像减去所计算出来的均值,并进行归一化处理,对帧图像进行区域裁剪,用于适应神经网络的输入分辨率;
所述行为识别分类网络构建模块用于采用残差神经网络3D-ResNet-18为骨干网络,采用空间增强模块构建行为识别分类网络,增强视频中复杂行为的外观及边缘特征;
所述空间增强模块,表示为:
M3D=Xin*W3D
M2D=Xin*W2D
其中,所有的粗体变量均表示特征图张量,细体变量表示标量,“*”表示卷积运算,“·”表示标量与张量的数乘运算,Xin表示输入空间增强模块的特征图,W3D和W2D表示3D卷积和2D卷积的权值,γ、β、μ、σ2分别表示接在3D卷积和2D卷积后面的BN层的缩放、偏置、均值及方差,Yout表示空间增强模块最终的输出特征图;
所述网络训练模块用于设置训练参数,将训练数据集的视频输入行为识别分类网络进行训练,保存训练后的网络参数;
所述融合模块用于在模型部署阶段,将空间增强模块内部的线性运算符进行融合;
所述输出模块用于将待测视频输入到行为识别分类网络,输出最终的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011603129.3A CN112699786B (zh) | 2020-12-29 | 2020-12-29 | 一种基于空间增强模块的视频行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011603129.3A CN112699786B (zh) | 2020-12-29 | 2020-12-29 | 一种基于空间增强模块的视频行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699786A CN112699786A (zh) | 2021-04-23 |
CN112699786B true CN112699786B (zh) | 2022-03-29 |
Family
ID=75512234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011603129.3A Expired - Fee Related CN112699786B (zh) | 2020-12-29 | 2020-12-29 | 一种基于空间增强模块的视频行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699786B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113568068B (zh) * | 2021-07-22 | 2022-03-29 | 河南大学 | 一种基于mpi并行的三维神经网络的强对流天气预测方法 |
CN113627368B (zh) * | 2021-08-16 | 2023-06-30 | 苏州大学 | 基于深度学习的视频行为识别方法 |
CN113887419B (zh) * | 2021-09-30 | 2023-05-12 | 四川大学 | 一种基于提取视频时空信息的人体行为识别方法及系统 |
CN114037930B (zh) * | 2021-10-18 | 2022-07-12 | 苏州大学 | 基于时空增强网络的视频动作识别方法 |
CN113688801B (zh) * | 2021-10-22 | 2022-02-15 | 南京智谱科技有限公司 | 一种基于光谱视频的化工气体泄漏检测方法及系统 |
CN114863356B (zh) * | 2022-03-10 | 2023-02-03 | 西南交通大学 | 一种基于残差聚合图网络的群体活动识别方法及系统 |
CN115294644B (zh) * | 2022-06-24 | 2024-07-02 | 北京昭衍新药研究中心股份有限公司 | 一种基于3d卷积参数重构的快速猴子行为识别方法 |
CN115063732B (zh) * | 2022-08-16 | 2022-11-11 | 之江实验室 | 基于双流多分辨率综合建模的动作视频分类方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2412471A1 (en) * | 2002-12-17 | 2004-06-17 | Concordia University | A framework and a system for semantic content extraction in video sequences |
CN109829443A (zh) * | 2019-02-23 | 2019-05-31 | 重庆邮电大学 | 基于图像增强与3d卷积神经网络的视频行为识别方法 |
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110751068A (zh) * | 2019-10-08 | 2020-02-04 | 浙江大学 | 基于自适应时空融合的远距离弱小目标视觉检测方法 |
CN112052795A (zh) * | 2020-09-07 | 2020-12-08 | 北京理工大学 | 一种基于多尺度时空特征聚合的视频行为识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897714B (zh) * | 2017-03-23 | 2020-01-14 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
CN109446923B (zh) * | 2018-10-10 | 2021-09-24 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN111695435B (zh) * | 2020-05-19 | 2022-04-29 | 东南大学 | 基于深度混合编解码神经网络的驾驶员行为识别方法 |
-
2020
- 2020-12-29 CN CN202011603129.3A patent/CN112699786B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2412471A1 (en) * | 2002-12-17 | 2004-06-17 | Concordia University | A framework and a system for semantic content extraction in video sequences |
CN109829443A (zh) * | 2019-02-23 | 2019-05-31 | 重庆邮电大学 | 基于图像增强与3d卷积神经网络的视频行为识别方法 |
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110751068A (zh) * | 2019-10-08 | 2020-02-04 | 浙江大学 | 基于自适应时空融合的远距离弱小目标视觉检测方法 |
CN112052795A (zh) * | 2020-09-07 | 2020-12-08 | 北京理工大学 | 一种基于多尺度时空特征聚合的视频行为识别方法 |
Non-Patent Citations (1)
Title |
---|
基于多层卷积神经网络特征和双向长短时记忆单元的行为识别;葛瑞 等;《控制理论与应用》;20170630;第34卷(第6期);第790-796页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112699786A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699786B (zh) | 一种基于空间增强模块的视频行为识别方法及系统 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN112750140B (zh) | 基于信息挖掘的伪装目标图像分割方法 | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN108805015B (zh) | 加权卷积自编码长短期记忆网络人群异常检测方法 | |
CN111046821B (zh) | 一种视频行为识别方法、系统及电子设备 | |
Li et al. | Fast accurate fish detection and recognition of underwater images with fast r-cnn | |
Yue-Hei Ng et al. | Beyond short snippets: Deep networks for video classification | |
CN104268594B (zh) | 一种视频异常事件检测方法及装置 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN112991278B (zh) | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 | |
CN109801232A (zh) | 一种基于深度学习的单幅图像去雾方法 | |
Zhou et al. | Msflow: Multiscale flow-based framework for unsupervised anomaly detection | |
CN113920581A (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN112434599A (zh) | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN113822155A (zh) | 一种聚类辅助的弱监督视频异常检测方法和装置 | |
CN117975577A (zh) | 一种基于面部动态集成的深度伪造检测方法及系统 | |
Zhao et al. | CNN and RNN based neural networks for action recognition | |
Saealal et al. | Three-Dimensional Convolutional Approaches for the Verification of Deepfake Videos: The Effect of Image Depth Size on Authentication Performance | |
CN112560668B (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN118212572A (zh) | 一种基于改进YOLOv7的道路损坏检测方法 | |
CN113255549A (zh) | 一种狼群围猎行为状态智能识别方法及系统 | |
CN116110005A (zh) | 一种人群行为属性的计数方法、系统及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220329 |
|
CF01 | Termination of patent right due to non-payment of annual fee |