CN112800988A - 一种基于特征融合的c3d行为识别方法 - Google Patents
一种基于特征融合的c3d行为识别方法 Download PDFInfo
- Publication number
- CN112800988A CN112800988A CN202110142505.1A CN202110142505A CN112800988A CN 112800988 A CN112800988 A CN 112800988A CN 202110142505 A CN202110142505 A CN 202110142505A CN 112800988 A CN112800988 A CN 112800988A
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- behavior
- algorithm
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000004927 fusion Effects 0.000 title claims abstract description 27
- 230000003287 optical effect Effects 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 41
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 238000012549 training Methods 0.000 abstract description 2
- 238000011176 pooling Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征融合的C3D行为识别方法,属于行为识别技术领域。本发明的目标行为识别方法,应用深度学习技术,包括以下步骤:对摄像头内外参数标定处理,获取视频样本;对视频样本进行预处理,输入待检测的视频序列;利用C3D卷积网络提取视频序列的内容和表征信息;利用TVNet光流算法对输入的图像进行训练以获得光流信息;采用特征融合方法将特征向量加以融合,并输入线性SVM以获得行为预测结果。在UCF101数据集上的实验结果表明,本发明能够在空间和时间上更好的提取视频的动作信息,增强单特征表达能力,提高识别率。
Description
技术领域
本发明属于人体行为识别技术领域,更具体的说,涉及一种基于特征融合的C3D行为识别方法。
背景技术
随着计算机在人机交互领域的不断发展,基于图像的行为识别技术在智能监控、环境监测、人机交互等领域都有着十分广泛的应用前景,为人们的生活提供了极大的便利。行为识别技术作为计算机视觉领域的重要研究课题之一,主要研究如何感知目标对象在图像序列中的时空变化,在视频监控、环境监测、人机互换等领域应用广泛。行为识别算法主要由传统行为识别算法和基于深度学习的行为识别算法组成。传统行为识别方法使用手工制作特征,特征提取效果易受人工设计影响。
与基于人工设计的特征算法相比,卷积神经网络是提取数据的有效策略,因而能够感知抽象到高层语义特征,因而更适合目标和行为识别。C3D网络作为一种深度学习行为识别算法,广泛应用于行为识别,视频相似度分析等领域。但C3D网络在学习时空特征(如前后帧运动信息)时存在容易丢失重要特征的问题,进而导致行为识别的准确率较低。
经检索,关于行为识别技术已有相关专利公开。如,中国专利申请号为202010107288.8的申请案公开了一种基于残差式3D CNN和多模态特征融合的视频动作分类方法,其步骤为:首先将传统C3D网络连接方式改为残差式连接;采用核分解技术将3D卷积核拆解,得到一个空间卷积核,与并行的多个不同时间尺度时间核,再在空间卷积核后插入注意力模型,得到A3D残差模块并将其堆叠成的残差网络;搭建双流动作识别模型,将RGB图像特征和光流特征输入到空间流网络和时间流网络中,并提取出多级卷积特征层特征,再利用多级特征融合策略对两个网络进行融合,实现时空特征互补;最后将分数级融合后的全局视频动作描述子通过PCA降维,再用SVM分类器完成动作分类。该申请案虽然能够利用较少的参数达到不错的识别效率,但在提取光流信息上存在耗时、不易提取等缺点,其整体方法有待进一步改进。
发明内容
1.要解决的问题
本发明的目的在于解决现有C3D网络在学习时空特征时容易丢失重要特征,从而导致行为识别的准确率较低的问题,提供一种基于特征融合的C3D行为识别方法。采用本发明的技术方案能够有效解决行为识别问题,较好地避免出现C3D网络在学习时空特征时丢失重要特征的现象,有效提高了行为识别的准确率。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种基于特征融合的C3D行为识别方法,具体包括以下步骤:
步骤一:对摄像头内外参数进行标定;
步骤二:利用摄像头采集人体行为识别运动视频数据,获得视频样本;
步骤三:通过视频数据处理单元对视频样本进行预处理,将其制作成数据集,以获得处理后的视频序列;
步骤四:通过从步骤三中视频数据处理单元获得的视频序列,利用C3D算法提取视频序列的内容和表征信息;
步骤五:通过从步骤三中视频数据处理单元获得的视频序列,用TVNet光流算法提取视频序列的运动和时间信息;
步骤六:将C3D网络的全连接Fc6层作为特征提取器分别提取时间4096维和空间4096维特征;
步骤七:进行归一化操作;
步骤八:采用串行特征融合方法,对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。
更进一步的,所述步骤三具体是利用了ffmpeg工具对视频样本进行预处理,将其转换为了320×240格式的图片作为数据集。
更进一步的,所述步骤四的具体过程如下:
S1、对于每一个输入的视频图像序列x={x1,x2,…,xn},其中,x1、x2、xn为图像序列中的第1帧、第2帧、第n帧图像;C3D网络的输入为多个视频帧,将输入的视频样本记为c×l×h×w,其中c为图像通道数,l为视频帧长度,w与h为视频的宽与高;将输入C3D网络的视频帧序列长度l设为16,即输入一个16帧的样本;
S2、通过resize运算将图片统一设定为112×112,batch_size为10;输入的视频段shape为[10,16,112,112,3],即每帧大小为[112,112,3];
S3、利用C3D的全连接Fc6层进行特征提取,得到k个4096维的特征向量。
更进一步的,所述步骤五的具体过程如下:
S1、卷积计算,采用卷积层替代像素级计算并定义卷积核:
wc=[0.5,0,-0.5],wf=wb=[-1,1]
其中,wc为卷积核对应的参数,wf和wb为卷积核对应的权重。
TVNet算法通过细化输出边界点,以满足边界条件;首先将pd1的像素向右移一个像素,将pd2像素向下移一个像素,并用零填充pd1的第一列和pd1的第一行,得到p∧ d1和p∧ d2:
div(pd)=p∧ d1*wb+p∧ d2*wT b
式中,u0为物体前后帧的移动变化量,i、j为图像的像素点,u1和u2分别为u0在(i,j)位置的水平和垂直光流,H、W为图像的高度和宽度,I1 W定义扭曲过程,I1表示像素亮度,x表示物体在视频中的位置,m、n为对应灰度点;
S3、由于双线性插值连续和分段光滑,则:
S5、进行归一化操作运算:
式中,x、xi为图像像素的灰度值,min(x),max(x)分别表示图像灰度的最大和最小值,norm为归一化操作简称;
S6、以[-20,20]为阈值将位移线性化到[0,255]范围,输入卷积神经网络为光流矢量归一化后的图像;
S7、采用TVNet光流算法提取图像光流信息,超参数设置中将超参数Nscales、Niters和Nwarps分别设为5、5和10。
更进一步的,所述步骤六的具体过程为:将进行的实验视频样本总帧数记为Num,则每个视频提取特征数为mn:
mn=(Num-16)/16+1
式中,将样本数记为n=13320,则对于视频样本总共提取的C3D网络特征大小为:
更进一步的,所述步骤七的具体过程为:
对提取的特征进行L2正则化操作,其中L2正则化损失函数:
式中,C0为原始的损失函数;w为网络权重;λ(λ>0)是正则化系数,用来平衡正则项。
更进一步的,所述步骤八的具体过程为:
S1、采用串行特征算法,将空间和时间矩阵分别记作和特征分别记作X、Y,特征大小分别为M×N和M′×N′,将M=M′,N=N′两组特征权值分别记作w1,w2,则融合后的特征f=[w1×X+w2×Y],融合后特征大小为M×N;
S2、将光流输入视频长度l设定为16,即w1=w2,实验的时间和空间特征大小分别为30677×4096和30677×4096,串行特征融合后的特征大小为30677×8192,通过线性SVM获得行为预测结果;对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。
3.有益效果
相比于现有技术,本发明的有益效果为:
(1)本发明的一种基于特征融合的C3D行为识别方法,通过利用C3D卷积网络提取视频序列的内容和表征信息,并利用TVNet光流算法对输入的图像进行训练以获得光流信息,再采用串行特征融合方法将特征向量加以融合,并输入线性SVM以获得行为预测结果,从而能够有效解决背景技术中提到的问题,较好地避免出现C3D网络在学习时空特征时丢失重要特征的现象,进而能够更有效地提取视频的相关信息,提高了行为识别的准确率。
(2)本发明的一种基于特征融合的C3D行为识别方法,通过采用双流技术代替单流技术,在原有C3D基础上,采用了3D卷积,通过引入了TVNet算法提取视频运动和时间特性,TVNet算法能够获得视频帧间的运动信息,表达多帧视频序列的运动信息;另外,在此基础上本发明还引入了串行特征融合方法对空间和时间结果进行处理,将提取的特征作为分类输入,突破采用单一特征进行分类识别的局限性,从而能够有效增强原C3D单一的特征表达能力,使其在识别率上能够得到提升,相对于现有基于2D卷积进行双流操作而言,有效提升了识别的准确率。最终,根据UCF101数据集上的实验结果表明,本发明能够在空间和时间上更好的提取视频的动作信息,有效增强单特征表达能力,提高识别率。
附图说明
图1为本发明的一种基于特征融合的C3D行为识别方法的流程图;
图2为本发明的C3D网络层次结构的示意图;
图3为网络shape变化示意图;
图4为本发明的TVNet算法提取的主观图。
具体实施方式
目前,C3D网络在学习时空特征(如前后帧运动信息)时存在容易丢失重要特征,进而导致行为识别的准确率较低的问题。针对该问题,本发明提供了一种基于特征融合的C3D行为识别方法,与背景技术中的中国专利申请号为202010107288.8的专利相比,本发明通过利用TVNet光流算法对输入的图像进行训练以获得光流信息,从而能够较好地提取光流信息并获得较好的行为识别率。具体的,本发明通过采用双流技术代替单流技术,在原有C3D基础上,采用了3D卷积,通过引入了TVNet算法提取视频运动和时间特性,将二者都输入至C3D卷积网络中,同时在此基础上还引入了串行特征融合方法对空间和时间结果进行处理,将提取的特征作为分类输入,从而能够有效增强原C3D单一的特征表达能力,较好地避免出现C3D网络在学习时空特征时丢失重要特征的现象,有效提高了行为识别的准确率。
所述C3D网络层次结构如图2所示,网络共有8个卷积层Conv1a、Conv2a、Conv3a、Conv3b、Conv4a、Conv4b、Conv5a、Conv5b,5个池化层Pool1、Pool2、Pool3、Pool4、Pool5,2个全连接层Fc6、Fc7和一个Softmax损失层,将Conv3a与Conv3b、Conv4a与Conv4b、Conv5a与Conv5b当做同类卷积层来算,其中5类卷积层的卷积核数目为64、128、256、512、512,卷积大小为3×3×3,步长为1×1×1。在进行1次或2次卷积运算后,对特征进行降采样以获得全局性特征;同时在池化运算中,为保持初期时间信息,将第2层至5层的池化层卷积核设为2×2×2,步长为1×1×1,则第1个池化层中卷积核大小为1×2×2、步长为1×2×2;在全连接层Fc6、Fc7中,每层有4096个输出单元。
本发明的一种基于特征融合的C3D行为识别方法,如图1所示,具体包括以下步骤:
步骤一:对摄像头内外参数进行标定;
步骤二:利用摄像头采集人体行为识别运动视频数据,获得视频样本(即视频数据);
步骤三:通过视频数据处理单元对视频样本进行预处理,即利用ffmpeg工具对视频样本进行预处理,将其转换为320×240格式的图片作为数据集,以获得处理后的视频序列;
步骤四:通过从视频数据处理单元获得的视频序列,利用C3D算法提取视频序列的内容和表征信息;该步骤的具体计算过程包括:
S1、对于每一个输入的视频图像序列x={x1,x2,…,xn},其中,x1、x2、xn为图像序列中的第1帧、第2帧、第n帧图像;使用C3D算法提取视频内容和表征信息时,C3D网络的输入为多个视频帧,将输入的视频样本记为c×l×h×w,其中c为图像通道数(输入通道数量为3),l为视频帧长度,w与h为视频的宽与高。为得到固定长度的特征向量,本发明将输入C3D网络的视频帧序列长度l设为16,即输入一个16帧的样本;
S2、通过resize运算将图片统一设定为112×112,batch_size为10,输入的视频段shape为[10,16,112,112,3],即每帧大小为[112,112,3],输入的视频段通过网shape变化如图3所示;
S3、本发明在对C3D网络的8个卷积层和5个池化层处理后,初始shape为[10,16,112,112,3],利用C3D的全连接Fc6层进行特征提取,得到k个4096维的特征向量,并使用分类器输出num类动作结果。
步骤五:利用TVNet光流算法对输入的图像进行训练,以提取视频序列的运动和时间信息(即光流信息),其具体计算过程包括:
S1、卷积计算,采用卷积层替代像素级计算并定义卷积核:
wc=[0.5,0,-0.5],wf=wb=[-1,1]
其中,wc为卷积核对应的参数,wf和wb为卷积核对应的权重。
TVNet算法通过细化输出边界点,以满足边界条件。首先将pd1的像素向右移一个像素,将pd2像素向下移一个像素,并用零填充pd1的第一列和pd2的第一行,得到p∧ d1和p∧ d2:
div(pd)=p∧ d1*wb+p∧ d2*wT b
Padding(填充):对输入图像进行padding,即填充像素;pd1、pd1、p∧ d1、p∧ d2这四者表达了像素填充过程以及填充后的结果。
式中,u0为物体前后帧的移动变化量,i、j为图像的像素点,u1和u2分别为u0在(i,j)位置的水平和垂直光流,H、W为图像的高度和宽度,I1 W定义扭曲过程,I1表示像素亮度,x表示物体在视频中的位置,m、n为对应灰度点。
S3、由于双线性插值连续和分段光滑,则:
式中,为输出特征图上第c个通道某一点的灰度值;Uc nm为输入特征图上第c个通道点(n,m)的灰度。当或大于1时,对应max()取0;当和越小,距离点(n,m)越近,此时梯度的权重值越大。图片经过仿射变换,确定目标的像素点的过程。
S5、为减少卷积网络对运动的灵敏性,在光流数据输入C3D网络前,进行归一化操作运算:
式中,x、xi为图像像素的灰度值,min(x),max(x)分别表示图像灰度的最大和最小值,norm为归一化操作简称。
S6、以[-20,20]为阈值(即临界值,设定阈值范围在norm操作之后)将位移线性化到[0,255]范围,输入卷积神经网络为光流矢量归一化后的图像;
S7、采用TVNet光流算法提取图像光流信息,超参数设置中将超参数Nscales、Niters和Nwarps(这三个参数分别表示定义的命令行参数)分别设为5、5和10,其中TVNet算法提取主观图如图4所示。
步骤六:在上述步骤基础上,C3D网络在卷积、池化等运算后需对计算后的特征图进行分类。当网络训练完成后,利用C3D网络的全连接Fc6层作为特征提取器分别提取时间4096维和空间4096维特征;其计算过程具体如下:
将进行的实验视频样本总帧数记为Num,则每个视频提取特征数为mn:
mn=(Num-16)/16+1
式中,将样本数记为n=13320,则对于视频样本总共提取的C3D网络特征大小为:
步骤七:进行归一化操作;其计算过程具体包括:
对提取的特征进行L2正则化操作,其中L2正则化损失函数:
式中,C0为原始的损失函数;w为网络权重;λ(λ>0)是正则化系数,用来平衡正则项。
正则化项是所有网络权重w的平方和,通过正则运算使模型解偏向于范数较小w,进而限制w范数大小实现对模型空间的限制,从而在一定程度上避免过拟合。
步骤八:采用串行特征融合方法,对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。由于特征融合能提高分类精度,本发明采用特征融合算法的串行特征融合方案对空间和时间结果进行处理,通过将样本空间的多组特征融合为一组新的特征向量,并对合并的特征进行特征提取以作为分类的输入。该串行特征融合方法的计算过程具体包括:
S1、采用串行特征算法,将空间(RGB)和时间(TVNet光流)矩阵分别记作和特征分别记作X、Y,特征大小分别为M×N和M′×N′,将M=M′,N=N′两组特征权值分别记作w1,w2,则融合后的特征f=[w1×X+w2×Y],融合后特征大小为M×N;
S2、为保证时间和空间特征相对应,将光流输入视频长度l设定为16,即w1=w2,实验的时间和空间特征大小分别为30677×4096和30677×4096,串行特征融合后的特征大小为30677×8192,通过线性SVM获得行为预测结果;对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。
Claims (7)
1.本发明的一种基于特征融合的C3D行为识别方法,其特征在于,包括以下步骤:
步骤一:对摄像头内外参数进行标定;
步骤二:利用摄像头采集人体行为识别运动视频数据,获得视频样本;
步骤三:通过视频数据处理单元对视频样本进行预处理,将其制作成数据集,以获得处理后的视频序列;
步骤四:通过从步骤三中视频数据处理单元获得的视频序列,利用C3D算法提取视频序列的内容和表征信息;
步骤五:通过从步骤三中视频数据处理单元获得的视频序列,用TVNet光流算法提取视频序列的运动和时间信息;
步骤六:将C3D网络的全连接Fc6层作为特征提取器分别提取时间4096维和空间4096维特征;
步骤七:进行归一化操作;
步骤八:采用串行特征融合方法,对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。
2.根据权利要求1所述的一种基于特征融合的C3D行为识别方法,其特征在于:所述步骤三具体是利用了ffmpeg工具对视频样本进行预处理,将其转换为了320×240格式的图片作为数据集。
3.根据权利要求1或2所述的一种基于特征融合的C3D行为识别方法,其特征在于,所述步骤四的具体过程如下:
S1、对于每一个输入的视频图像序列x={x1,x2,…,xn},其中,x1、x2、xn为图像序列中的第1帧、第2帧、第n帧图像;C3D网络的输入为多个视频帧,将输入的视频样本记为c×l×h×w,其中c为图像通道数,l为视频帧长度,w与h为视频的宽与高;将输入C3D网络的视频帧序列长度l设为16,即输入一个16帧的样本;
S2、通过resize运算将图片统一设定为112×112,batch_size为10;输入的视频段shape为[10,16,112,112,3],即每帧大小为[112,112,3];
S3、利用C3D的全连接Fc6层进行特征提取,得到k个4096维的特征向量。
4.根据权利要求3所述的一种基于特征融合的C3D行为识别方法,其特征在于,所述步骤五的具体过程如下:
S1、卷积计算,采用卷积层替代像素级计算并定义卷积核:
wc=[0.5,0,-0.5],wf=wb=[-1,1]
其中,wc为卷积核对应的参数,wf和wb为卷积核对应的权重。
TVNet算法通过细化输出边界点,以满足边界条件;首先将pd1的像素向右移一个像素,将pd2像素向下移一个像素,并用零填充pd1的第一列和pd1的第一行,得到p^d1和p^d2:
div(pd)=p^d1*wb+p^d2*wT b
式中,u0为物体前后帧的移动变化量,i、j为图像的像素点,u1和u2分别为u0在(i,j)位置的水平和垂直光流,H、W为图像的高度和宽度,I1 W定义扭曲过程,I1表示像素亮度,x表示物体在视频中的位置,m、n为对应灰度点;
S3、由于双线性插值连续和分段光滑,则:
S5、进行归一化操作运算:
式中,x、xi为图像像素的灰度值,min(x),max(x)分别表示图像灰度的最大和最小值,norm为归一化操作简称;
S6、以[-20,20]为阈值将位移线性化到[0,255]范围,输入卷积神经网络为光流矢量归一化后的图像;
S7、采用TVNet光流算法提取图像光流信息,超参数设置中将超参数Nscales、Niters和Nwarps分别设为5、5和10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110142505.1A CN112800988A (zh) | 2021-02-02 | 2021-02-02 | 一种基于特征融合的c3d行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110142505.1A CN112800988A (zh) | 2021-02-02 | 2021-02-02 | 一种基于特征融合的c3d行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800988A true CN112800988A (zh) | 2021-05-14 |
Family
ID=75813622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110142505.1A Pending CN112800988A (zh) | 2021-02-02 | 2021-02-02 | 一种基于特征融合的c3d行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800988A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408389A (zh) * | 2021-06-10 | 2021-09-17 | 西华大学 | 一种智能识别司机睡意动作的方法 |
CN113657209A (zh) * | 2021-07-30 | 2021-11-16 | 北京百度网讯科技有限公司 | 动作识别方法、装置、电子设备和存储介质 |
CN114926761A (zh) * | 2022-05-13 | 2022-08-19 | 浪潮卓数大数据产业发展有限公司 | 一种基于时空平滑特征网络的动作识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111079655A (zh) * | 2019-12-18 | 2020-04-28 | 航天物联网技术有限公司 | 一种基于融合神经网络的视频中人体行为识别方法 |
CN111950444A (zh) * | 2020-08-10 | 2020-11-17 | 北京师范大学珠海分校 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
-
2021
- 2021-02-02 CN CN202110142505.1A patent/CN112800988A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111079655A (zh) * | 2019-12-18 | 2020-04-28 | 航天物联网技术有限公司 | 一种基于融合神经网络的视频中人体行为识别方法 |
CN111950444A (zh) * | 2020-08-10 | 2020-11-17 | 北京师范大学珠海分校 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
Non-Patent Citations (6)
Title |
---|
(意)保罗•加莱奥内(PAOLO GALEONE)等著: "《TensorFlow 2.0神经网络实践》", 北京:机械工业出版社, pages: 47 * |
LIJIE FAN等: "End-to-End Learning of Motion Representation for Video Understanding", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, 16 December 2018 (2018-12-16), pages 4 * |
MAX JADERBERG等: "Spatial Transformer Networks", 《NIPS2015》 * |
MAX JADERBERG等: "Spatial Transformer Networks", 《NIPS2015》, 31 December 2015 (2015-12-31), pages 3 * |
艾诗卉: "基于视频的人体行为识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
艾诗卉: "基于视频的人体行为识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2019, no. 9, 15 September 2019 (2019-09-15), pages 2 - 4 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408389A (zh) * | 2021-06-10 | 2021-09-17 | 西华大学 | 一种智能识别司机睡意动作的方法 |
CN113657209A (zh) * | 2021-07-30 | 2021-11-16 | 北京百度网讯科技有限公司 | 动作识别方法、装置、电子设备和存储介质 |
CN113657209B (zh) * | 2021-07-30 | 2023-09-12 | 北京百度网讯科技有限公司 | 动作识别方法、装置、电子设备和存储介质 |
CN114926761A (zh) * | 2022-05-13 | 2022-08-19 | 浪潮卓数大数据产业发展有限公司 | 一种基于时空平滑特征网络的动作识别方法 |
CN114926761B (zh) * | 2022-05-13 | 2023-09-05 | 浪潮卓数大数据产业发展有限公司 | 一种基于时空平滑特征网络的动作识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
CN108491835B (zh) | 面向面部表情识别的双通道卷积神经网络 | |
US11967175B2 (en) | Facial expression recognition method and system combined with attention mechanism | |
CN112800988A (zh) | 一种基于特征融合的c3d行为识别方法 | |
CN109670528B (zh) | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 | |
CN110096950A (zh) | 一种基于关键帧的多特征融合行为识别方法 | |
CN111310676A (zh) | 基于CNN-LSTM和attention的视频动作识别方法 | |
CN111260738A (zh) | 基于相关滤波和自适应特征融合的多尺度目标跟踪方法 | |
CN109886281A (zh) | 一种基于四元数超限学习机彩色图像识别方法 | |
CN113255602A (zh) | 基于多模态数据的动态手势识别方法 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN112580545A (zh) | 基于多尺度自适应上下文网络的人群计数方法及系统 | |
CN112507904A (zh) | 一种基于多尺度特征的教室人体姿态实时检测方法 | |
CN114612456B (zh) | 一种基于深度学习的钢坯自动语义分割识别方法 | |
CN114170286A (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN114708615A (zh) | 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质 | |
CN107784664B (zh) | 一种基于k稀疏的快速鲁棒目标跟踪方法 | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
CN110991459A (zh) | 基于arm-lbp和卷积神经网络的行李图像分类算法 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN109829377A (zh) | 一种基于深度余弦度量学习的行人重识别方法 | |
CN114863132A (zh) | 图像空域信息的建模与捕捉方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210514 |