CN112800988A - 一种基于特征融合的c3d行为识别方法 - Google Patents

一种基于特征融合的c3d行为识别方法 Download PDF

Info

Publication number
CN112800988A
CN112800988A CN202110142505.1A CN202110142505A CN112800988A CN 112800988 A CN112800988 A CN 112800988A CN 202110142505 A CN202110142505 A CN 202110142505A CN 112800988 A CN112800988 A CN 112800988A
Authority
CN
China
Prior art keywords
video
feature
behavior
algorithm
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110142505.1A
Other languages
English (en)
Inventor
陶兆胜
李庆萍
周泳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN202110142505.1A priority Critical patent/CN112800988A/zh
Publication of CN112800988A publication Critical patent/CN112800988A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征融合的C3D行为识别方法,属于行为识别技术领域。本发明的目标行为识别方法,应用深度学习技术,包括以下步骤:对摄像头内外参数标定处理,获取视频样本;对视频样本进行预处理,输入待检测的视频序列;利用C3D卷积网络提取视频序列的内容和表征信息;利用TVNet光流算法对输入的图像进行训练以获得光流信息;采用特征融合方法将特征向量加以融合,并输入线性SVM以获得行为预测结果。在UCF101数据集上的实验结果表明,本发明能够在空间和时间上更好的提取视频的动作信息,增强单特征表达能力,提高识别率。

Description

一种基于特征融合的C3D行为识别方法
技术领域
本发明属于人体行为识别技术领域,更具体的说,涉及一种基于特征融合的C3D行为识别方法。
背景技术
随着计算机在人机交互领域的不断发展,基于图像的行为识别技术在智能监控、环境监测、人机交互等领域都有着十分广泛的应用前景,为人们的生活提供了极大的便利。行为识别技术作为计算机视觉领域的重要研究课题之一,主要研究如何感知目标对象在图像序列中的时空变化,在视频监控、环境监测、人机互换等领域应用广泛。行为识别算法主要由传统行为识别算法和基于深度学习的行为识别算法组成。传统行为识别方法使用手工制作特征,特征提取效果易受人工设计影响。
与基于人工设计的特征算法相比,卷积神经网络是提取数据的有效策略,因而能够感知抽象到高层语义特征,因而更适合目标和行为识别。C3D网络作为一种深度学习行为识别算法,广泛应用于行为识别,视频相似度分析等领域。但C3D网络在学习时空特征(如前后帧运动信息)时存在容易丢失重要特征的问题,进而导致行为识别的准确率较低。
经检索,关于行为识别技术已有相关专利公开。如,中国专利申请号为202010107288.8的申请案公开了一种基于残差式3D CNN和多模态特征融合的视频动作分类方法,其步骤为:首先将传统C3D网络连接方式改为残差式连接;采用核分解技术将3D卷积核拆解,得到一个空间卷积核,与并行的多个不同时间尺度时间核,再在空间卷积核后插入注意力模型,得到A3D残差模块并将其堆叠成的残差网络;搭建双流动作识别模型,将RGB图像特征和光流特征输入到空间流网络和时间流网络中,并提取出多级卷积特征层特征,再利用多级特征融合策略对两个网络进行融合,实现时空特征互补;最后将分数级融合后的全局视频动作描述子通过PCA降维,再用SVM分类器完成动作分类。该申请案虽然能够利用较少的参数达到不错的识别效率,但在提取光流信息上存在耗时、不易提取等缺点,其整体方法有待进一步改进。
发明内容
1.要解决的问题
本发明的目的在于解决现有C3D网络在学习时空特征时容易丢失重要特征,从而导致行为识别的准确率较低的问题,提供一种基于特征融合的C3D行为识别方法。采用本发明的技术方案能够有效解决行为识别问题,较好地避免出现C3D网络在学习时空特征时丢失重要特征的现象,有效提高了行为识别的准确率。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种基于特征融合的C3D行为识别方法,具体包括以下步骤:
步骤一:对摄像头内外参数进行标定;
步骤二:利用摄像头采集人体行为识别运动视频数据,获得视频样本;
步骤三:通过视频数据处理单元对视频样本进行预处理,将其制作成数据集,以获得处理后的视频序列;
步骤四:通过从步骤三中视频数据处理单元获得的视频序列,利用C3D算法提取视频序列的内容和表征信息;
步骤五:通过从步骤三中视频数据处理单元获得的视频序列,用TVNet光流算法提取视频序列的运动和时间信息;
步骤六:将C3D网络的全连接Fc6层作为特征提取器分别提取时间4096维和空间4096维特征;
步骤七:进行归一化操作;
步骤八:采用串行特征融合方法,对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。
更进一步的,所述步骤三具体是利用了ffmpeg工具对视频样本进行预处理,将其转换为了320×240格式的图片作为数据集。
更进一步的,所述步骤四的具体过程如下:
S1、对于每一个输入的视频图像序列x={x1,x2,…,xn},其中,x1、x2、xn为图像序列中的第1帧、第2帧、第n帧图像;C3D网络的输入为多个视频帧,将输入的视频样本记为c×l×h×w,其中c为图像通道数,l为视频帧长度,w与h为视频的宽与高;将输入C3D网络的视频帧序列长度l设为16,即输入一个16帧的样本;
S2、通过resize运算将图片统一设定为112×112,batch_size为10;输入的视频段shape为[10,16,112,112,3],即每帧大小为[112,112,3];
S3、利用C3D的全连接Fc6层进行特征提取,得到k个4096维的特征向量。
更进一步的,所述步骤五的具体过程如下:
S1、卷积计算,采用卷积层替代像素级计算并定义卷积核:
wc=[0.5,0,-0.5],wf=wb=[-1,1]
其中,wc为卷积核对应的参数,wf和wb为卷积核对应的权重。
TVNet算法通过细化输出边界点,以满足边界条件;首先将pd1的像素向右移一个像素,将pd2像素向下移一个像素,并用零填充pd1的第一列和pd1的第一行,得到p d1和p d2
div(pd)=p d1*wb+p d2*wT b
S2、双线性插值计算,TVNet采用双线性插值计算,通过
Figure BDA00029296481300000316
定义扭曲:
Figure BDA0002929648130000031
式中,u0为物体前后帧的移动变化量,i、j为图像的像素点,u1和u2分别为u0在(i,j)位置的水平和垂直光流,H、W为图像的高度和宽度,I1 W定义扭曲过程,I1表示像素亮度,x表示物体在视频中的位置,m、n为
Figure BDA0002929648130000032
对应灰度点;
S3、由于双线性插值连续和分段光滑,则:
Figure BDA0002929648130000033
式中,
Figure BDA0002929648130000034
为输出特征图上第c个通道某一点的灰度值;Uc nm为输入特征图上第c个通道点(n,m)的灰度;当
Figure BDA0002929648130000035
Figure BDA0002929648130000036
大于1时,对应max()取0;当
Figure BDA0002929648130000037
Figure BDA0002929648130000038
越小,距离点(n,m)越近,此时梯度的权重值越大;
S4、数值稳定性计算,TVNet算法通过在分母添加较小ε值,ε>0,即
Figure BDA0002929648130000039
以保证算法稳定性;同样在另一除法计算
Figure BDA00029296481300000310
中在分母上添加较小值ε,ε>0,以保证算法稳定性,pd相对于
Figure BDA00029296481300000311
形式如下:
Figure BDA00029296481300000312
Figure BDA00029296481300000313
式中,a和b变量;
Figure BDA00029296481300000314
Figure BDA00029296481300000315
在图像区域的静态区域为零;τ为大于0的数值,
Figure BDA00029296481300000317
为进行泰勒展开的值;
S5、进行归一化操作运算:
Figure BDA0002929648130000041
式中,x、xi为图像像素的灰度值,min(x),max(x)分别表示图像灰度的最大和最小值,norm为归一化操作简称;
S6、以[-20,20]为阈值将位移线性化到[0,255]范围,输入卷积神经网络为光流矢量归一化后的图像;
S7、采用TVNet光流算法提取图像光流信息,超参数设置中将超参数Nscales、Niters和Nwarps分别设为5、5和10。
更进一步的,所述步骤六的具体过程为:将进行的实验视频样本总帧数记为Num,则每个视频提取特征数为mn
mn=(Num-16)/16+1
式中,将样本数记为n=13320,则对于视频样本总共提取的C3D网络特征大小为:
Figure BDA0002929648130000042
更进一步的,所述步骤七的具体过程为:
对提取的特征进行L2正则化操作,其中L2正则化损失函数:
Figure BDA0002929648130000043
式中,C0为原始的损失函数;w为网络权重;λ(λ>0)是正则化系数,用来平衡正则项。
更进一步的,所述步骤八的具体过程为:
S1、采用串行特征算法,将空间和时间矩阵分别记作
Figure BDA0002929648130000044
Figure BDA0002929648130000045
特征分别记作X、Y,特征大小分别为M×N和M′×N′,将M=M′,N=N′两组特征权值分别记作w1,w2,则融合后的特征f=[w1×X+w2×Y],融合后特征大小为M×N;
S2、将光流输入视频长度l设定为16,即w1=w2,实验的时间和空间特征大小分别为30677×4096和30677×4096,串行特征融合后的特征大小为30677×8192,通过线性SVM获得行为预测结果;对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。
3.有益效果
相比于现有技术,本发明的有益效果为:
(1)本发明的一种基于特征融合的C3D行为识别方法,通过利用C3D卷积网络提取视频序列的内容和表征信息,并利用TVNet光流算法对输入的图像进行训练以获得光流信息,再采用串行特征融合方法将特征向量加以融合,并输入线性SVM以获得行为预测结果,从而能够有效解决背景技术中提到的问题,较好地避免出现C3D网络在学习时空特征时丢失重要特征的现象,进而能够更有效地提取视频的相关信息,提高了行为识别的准确率。
(2)本发明的一种基于特征融合的C3D行为识别方法,通过采用双流技术代替单流技术,在原有C3D基础上,采用了3D卷积,通过引入了TVNet算法提取视频运动和时间特性,TVNet算法能够获得视频帧间的运动信息,表达多帧视频序列的运动信息;另外,在此基础上本发明还引入了串行特征融合方法对空间和时间结果进行处理,将提取的特征作为分类输入,突破采用单一特征进行分类识别的局限性,从而能够有效增强原C3D单一的特征表达能力,使其在识别率上能够得到提升,相对于现有基于2D卷积进行双流操作而言,有效提升了识别的准确率。最终,根据UCF101数据集上的实验结果表明,本发明能够在空间和时间上更好的提取视频的动作信息,有效增强单特征表达能力,提高识别率。
附图说明
图1为本发明的一种基于特征融合的C3D行为识别方法的流程图;
图2为本发明的C3D网络层次结构的示意图;
图3为网络shape变化示意图;
图4为本发明的TVNet算法提取的主观图。
具体实施方式
目前,C3D网络在学习时空特征(如前后帧运动信息)时存在容易丢失重要特征,进而导致行为识别的准确率较低的问题。针对该问题,本发明提供了一种基于特征融合的C3D行为识别方法,与背景技术中的中国专利申请号为202010107288.8的专利相比,本发明通过利用TVNet光流算法对输入的图像进行训练以获得光流信息,从而能够较好地提取光流信息并获得较好的行为识别率。具体的,本发明通过采用双流技术代替单流技术,在原有C3D基础上,采用了3D卷积,通过引入了TVNet算法提取视频运动和时间特性,将二者都输入至C3D卷积网络中,同时在此基础上还引入了串行特征融合方法对空间和时间结果进行处理,将提取的特征作为分类输入,从而能够有效增强原C3D单一的特征表达能力,较好地避免出现C3D网络在学习时空特征时丢失重要特征的现象,有效提高了行为识别的准确率。
所述C3D网络层次结构如图2所示,网络共有8个卷积层Conv1a、Conv2a、Conv3a、Conv3b、Conv4a、Conv4b、Conv5a、Conv5b,5个池化层Pool1、Pool2、Pool3、Pool4、Pool5,2个全连接层Fc6、Fc7和一个Softmax损失层,将Conv3a与Conv3b、Conv4a与Conv4b、Conv5a与Conv5b当做同类卷积层来算,其中5类卷积层的卷积核数目为64、128、256、512、512,卷积大小为3×3×3,步长为1×1×1。在进行1次或2次卷积运算后,对特征进行降采样以获得全局性特征;同时在池化运算中,为保持初期时间信息,将第2层至5层的池化层卷积核设为2×2×2,步长为1×1×1,则第1个池化层中卷积核大小为1×2×2、步长为1×2×2;在全连接层Fc6、Fc7中,每层有4096个输出单元。
本发明的一种基于特征融合的C3D行为识别方法,如图1所示,具体包括以下步骤:
步骤一:对摄像头内外参数进行标定;
步骤二:利用摄像头采集人体行为识别运动视频数据,获得视频样本(即视频数据);
步骤三:通过视频数据处理单元对视频样本进行预处理,即利用ffmpeg工具对视频样本进行预处理,将其转换为320×240格式的图片作为数据集,以获得处理后的视频序列;
步骤四:通过从视频数据处理单元获得的视频序列,利用C3D算法提取视频序列的内容和表征信息;该步骤的具体计算过程包括:
S1、对于每一个输入的视频图像序列x={x1,x2,…,xn},其中,x1、x2、xn为图像序列中的第1帧、第2帧、第n帧图像;使用C3D算法提取视频内容和表征信息时,C3D网络的输入为多个视频帧,将输入的视频样本记为c×l×h×w,其中c为图像通道数(输入通道数量为3),l为视频帧长度,w与h为视频的宽与高。为得到固定长度的特征向量,本发明将输入C3D网络的视频帧序列长度l设为16,即输入一个16帧的样本;
S2、通过resize运算将图片统一设定为112×112,batch_size为10,输入的视频段shape为[10,16,112,112,3],即每帧大小为[112,112,3],输入的视频段通过网shape变化如图3所示;
S3、本发明在对C3D网络的8个卷积层和5个池化层处理后,初始shape为[10,16,112,112,3],利用C3D的全连接Fc6层进行特征提取,得到k个4096维的特征向量,并使用分类器输出num类动作结果。
步骤五:利用TVNet光流算法对输入的图像进行训练,以提取视频序列的运动和时间信息(即光流信息),其具体计算过程包括:
S1、卷积计算,采用卷积层替代像素级计算并定义卷积核:
wc=[0.5,0,-0.5],wf=wb=[-1,1]
其中,wc为卷积核对应的参数,wf和wb为卷积核对应的权重。
TVNet算法通过细化输出边界点,以满足边界条件。首先将pd1的像素向右移一个像素,将pd2像素向下移一个像素,并用零填充pd1的第一列和pd2的第一行,得到p d1和p d2
div(pd)=p d1*wb+p d2*wT b
Padding(填充):对输入图像进行padding,即填充像素;pd1、pd1、p d1、p d2这四者表达了像素填充过程以及填充后的结果。
S2、双线性插值计算,TVNet采用双线性插值计算,通过
Figure BDA00029296481300000719
定义扭曲:
Figure BDA0002929648130000071
式中,u0为物体前后帧的移动变化量,i、j为图像的像素点,u1和u2分别为u0在(i,j)位置的水平和垂直光流,H、W为图像的高度和宽度,I1 W定义扭曲过程,I1表示像素亮度,x表示物体在视频中的位置,m、n为
Figure BDA0002929648130000072
对应灰度点。
S3、由于双线性插值连续和分段光滑,则:
Figure BDA0002929648130000073
式中,
Figure BDA0002929648130000074
为输出特征图上第c个通道某一点的灰度值;Uc nm为输入特征图上第c个通道点(n,m)的灰度。当
Figure BDA0002929648130000075
Figure BDA0002929648130000076
大于1时,对应max()取0;当
Figure BDA0002929648130000077
Figure BDA0002929648130000078
越小,距离点(n,m)越近,此时梯度的权重值越大。图片
Figure BDA0002929648130000079
经过仿射变换,确定目标的像素点
Figure BDA00029296481300000710
的过程。
S4、数值稳定性计,TVNet算法通过在分母添加较小ε值,ε>0,即
Figure BDA00029296481300000711
以保证算法稳定性;同样在另一除法计算
Figure BDA00029296481300000712
中在分母上添加较小值ε,ε>0,以保证算法稳定性,pd相对于
Figure BDA00029296481300000713
形式如下:
Figure BDA00029296481300000714
Figure BDA00029296481300000715
式中,a和b变量;
Figure BDA00029296481300000716
Figure BDA00029296481300000717
在图像区域的静态区域为零;τ为大于0的数值,
Figure BDA00029296481300000718
为进行泰勒展开的值。
S5、为减少卷积网络对运动的灵敏性,在光流数据输入C3D网络前,进行归一化操作运算:
Figure BDA0002929648130000081
式中,x、xi为图像像素的灰度值,min(x),max(x)分别表示图像灰度的最大和最小值,norm为归一化操作简称。
S6、以[-20,20]为阈值(即临界值,设定阈值范围在norm操作之后)将位移线性化到[0,255]范围,输入卷积神经网络为光流矢量归一化后的图像;
S7、采用TVNet光流算法提取图像光流信息,超参数设置中将超参数Nscales、Niters和Nwarps(这三个参数分别表示定义的命令行参数)分别设为5、5和10,其中TVNet算法提取主观图如图4所示。
步骤六:在上述步骤基础上,C3D网络在卷积、池化等运算后需对计算后的特征图进行分类。当网络训练完成后,利用C3D网络的全连接Fc6层作为特征提取器分别提取时间4096维和空间4096维特征;其计算过程具体如下:
将进行的实验视频样本总帧数记为Num,则每个视频提取特征数为mn
mn=(Num-16)/16+1
式中,将样本数记为n=13320,则对于视频样本总共提取的C3D网络特征大小为:
Figure BDA0002929648130000082
步骤七:进行归一化操作;其计算过程具体包括:
对提取的特征进行L2正则化操作,其中L2正则化损失函数:
Figure BDA0002929648130000083
式中,C0为原始的损失函数;w为网络权重;λ(λ>0)是正则化系数,用来平衡正则项。
正则化项是所有网络权重w的平方和,通过正则运算使模型解偏向于范数较小w,进而限制w范数大小实现对模型空间的限制,从而在一定程度上避免过拟合。
步骤八:采用串行特征融合方法,对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。由于特征融合能提高分类精度,本发明采用特征融合算法的串行特征融合方案对空间和时间结果进行处理,通过将样本空间的多组特征融合为一组新的特征向量,并对合并的特征进行特征提取以作为分类的输入。该串行特征融合方法的计算过程具体包括:
S1、采用串行特征算法,将空间(RGB)和时间(TVNet光流)矩阵分别记作
Figure BDA0002929648130000091
Figure BDA0002929648130000092
特征分别记作X、Y,特征大小分别为M×N和M′×N′,将M=M′,N=N′两组特征权值分别记作w1,w2,则融合后的特征f=[w1×X+w2×Y],融合后特征大小为M×N;
S2、为保证时间和空间特征相对应,将光流输入视频长度l设定为16,即w1=w2,实验的时间和空间特征大小分别为30677×4096和30677×4096,串行特征融合后的特征大小为30677×8192,通过线性SVM获得行为预测结果;对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。

Claims (7)

1.本发明的一种基于特征融合的C3D行为识别方法,其特征在于,包括以下步骤:
步骤一:对摄像头内外参数进行标定;
步骤二:利用摄像头采集人体行为识别运动视频数据,获得视频样本;
步骤三:通过视频数据处理单元对视频样本进行预处理,将其制作成数据集,以获得处理后的视频序列;
步骤四:通过从步骤三中视频数据处理单元获得的视频序列,利用C3D算法提取视频序列的内容和表征信息;
步骤五:通过从步骤三中视频数据处理单元获得的视频序列,用TVNet光流算法提取视频序列的运动和时间信息;
步骤六:将C3D网络的全连接Fc6层作为特征提取器分别提取时间4096维和空间4096维特征;
步骤七:进行归一化操作;
步骤八:采用串行特征融合方法,对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。
2.根据权利要求1所述的一种基于特征融合的C3D行为识别方法,其特征在于:所述步骤三具体是利用了ffmpeg工具对视频样本进行预处理,将其转换为了320×240格式的图片作为数据集。
3.根据权利要求1或2所述的一种基于特征融合的C3D行为识别方法,其特征在于,所述步骤四的具体过程如下:
S1、对于每一个输入的视频图像序列x={x1,x2,…,xn},其中,x1、x2、xn为图像序列中的第1帧、第2帧、第n帧图像;C3D网络的输入为多个视频帧,将输入的视频样本记为c×l×h×w,其中c为图像通道数,l为视频帧长度,w与h为视频的宽与高;将输入C3D网络的视频帧序列长度l设为16,即输入一个16帧的样本;
S2、通过resize运算将图片统一设定为112×112,batch_size为10;输入的视频段shape为[10,16,112,112,3],即每帧大小为[112,112,3];
S3、利用C3D的全连接Fc6层进行特征提取,得到k个4096维的特征向量。
4.根据权利要求3所述的一种基于特征融合的C3D行为识别方法,其特征在于,所述步骤五的具体过程如下:
S1、卷积计算,采用卷积层替代像素级计算并定义卷积核:
wc=[0.5,0,-0.5],wf=wb=[-1,1]
其中,wc为卷积核对应的参数,wf和wb为卷积核对应的权重。
TVNet算法通过细化输出边界点,以满足边界条件;首先将pd1的像素向右移一个像素,将pd2像素向下移一个像素,并用零填充pd1的第一列和pd1的第一行,得到p^d1和p^d2
div(pd)=p^d1*wb+p^d2*wT b
S2、双线性插值计算,TVNet采用双线性插值计算,通过
Figure FDA0002929648120000021
定义扭曲:
Figure FDA0002929648120000022
式中,u0为物体前后帧的移动变化量,i、j为图像的像素点,u1和u2分别为u0在(i,j)位置的水平和垂直光流,H、W为图像的高度和宽度,I1 W定义扭曲过程,I1表示像素亮度,x表示物体在视频中的位置,m、n为
Figure FDA0002929648120000023
对应灰度点;
S3、由于双线性插值连续和分段光滑,则:
Figure FDA0002929648120000024
式中,Vi c为输出特征图上第c个通道某一点的灰度值;Uc nm为输入特征图上第c个通道点(n,m)的灰度;当
Figure FDA0002929648120000025
Figure FDA0002929648120000026
大于1时,对应max()取0;当
Figure FDA0002929648120000027
Figure FDA0002929648120000028
越小,距离点(n,m)越近,此时梯度的权重值越大;
S4、数值稳定性计算,TVNet算法通过在分母添加较小ε值,ε>0,即
Figure FDA0002929648120000029
以保证算法稳定性;同样在另一除法计算
Figure FDA00029296481200000210
中在分母上添加较小值ε,ε>0,以保证算法稳定性,pd相对于
Figure FDA00029296481200000211
形式如下:
Figure FDA00029296481200000212
Figure FDA00029296481200000213
式中,a和b变量;
Figure FDA00029296481200000214
Figure FDA00029296481200000215
在图像区域的静态区域为零;τ为大于0的数值,▽Ud:为进行泰勒展开的值;
S5、进行归一化操作运算:
Figure FDA0002929648120000031
式中,x、xi为图像像素的灰度值,min(x),max(x)分别表示图像灰度的最大和最小值,norm为归一化操作简称;
S6、以[-20,20]为阈值将位移线性化到[0,255]范围,输入卷积神经网络为光流矢量归一化后的图像;
S7、采用TVNet光流算法提取图像光流信息,超参数设置中将超参数Nscales、Niters和Nwarps分别设为5、5和10。
5.根据权利要求4所述的一种基于特征融合的C3D行为识别方法,其特征在于,所述步骤六的具体过程为:将进行的实验视频样本总帧数记为Num,则每个视频提取特征数为mn
mn=(Num-16)/16+1
式中,将样本数记为n=13320,则对于视频样本总共提取的C3D网络特征大小为:
Figure FDA0002929648120000032
6.根据权利要求5所述的一种基于特征融合的C3D行为识别方法,其特征在于,所述步骤七的具体过程为:
对提取的特征进行L2正则化操作,其中L2正则化损失函数:
Figure FDA0002929648120000033
式中,C0为原始的损失函数;w为网络权重;λ(λ>0)是正则化系数,用来平衡正则项。
7.根据权利要求6所述的一种基于特征融合的C3D行为识别方法,其特征在于,所述步骤八的具体过程为:
S1、采用串行特征算法,将空间和时间矩阵分别记作
Figure FDA0002929648120000034
Figure FDA0002929648120000035
特征分别记作X、Y,特征大小分别为M×N和M′×N′,将M=M′,N=N′两组特征权值分别记作w1,w2,则融合后的特征f=[w1×X+w2×Y],融合后特征大小为M×N;
S2、将光流输入视频长度l设定为16,即w1=w2,实验的时间和空间特征大小分别为30677×4096和30677×4096,串行特征融合后的特征大小为30677×8192,通过线性SVM获得行为预测结果;对特征向量进行分类识别得到最终的预测效果,即完成目标行为识别。
CN202110142505.1A 2021-02-02 2021-02-02 一种基于特征融合的c3d行为识别方法 Pending CN112800988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110142505.1A CN112800988A (zh) 2021-02-02 2021-02-02 一种基于特征融合的c3d行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110142505.1A CN112800988A (zh) 2021-02-02 2021-02-02 一种基于特征融合的c3d行为识别方法

Publications (1)

Publication Number Publication Date
CN112800988A true CN112800988A (zh) 2021-05-14

Family

ID=75813622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110142505.1A Pending CN112800988A (zh) 2021-02-02 2021-02-02 一种基于特征融合的c3d行为识别方法

Country Status (1)

Country Link
CN (1) CN112800988A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408389A (zh) * 2021-06-10 2021-09-17 西华大学 一种智能识别司机睡意动作的方法
CN113657209A (zh) * 2021-07-30 2021-11-16 北京百度网讯科技有限公司 动作识别方法、装置、电子设备和存储介质
CN114926761A (zh) * 2022-05-13 2022-08-19 浪潮卓数大数据产业发展有限公司 一种基于时空平滑特征网络的动作识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
(意)保罗•加莱奥内(PAOLO GALEONE)等著: "《TensorFlow 2.0神经网络实践》", 北京:机械工业出版社, pages: 47 *
LIJIE FAN等: "End-to-End Learning of Motion Representation for Video Understanding", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, 16 December 2018 (2018-12-16), pages 4 *
MAX JADERBERG等: "Spatial Transformer Networks", 《NIPS2015》 *
MAX JADERBERG等: "Spatial Transformer Networks", 《NIPS2015》, 31 December 2015 (2015-12-31), pages 3 *
艾诗卉: "基于视频的人体行为识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
艾诗卉: "基于视频的人体行为识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2019, no. 9, 15 September 2019 (2019-09-15), pages 2 - 4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408389A (zh) * 2021-06-10 2021-09-17 西华大学 一种智能识别司机睡意动作的方法
CN113657209A (zh) * 2021-07-30 2021-11-16 北京百度网讯科技有限公司 动作识别方法、装置、电子设备和存储介质
CN113657209B (zh) * 2021-07-30 2023-09-12 北京百度网讯科技有限公司 动作识别方法、装置、电子设备和存储介质
CN114926761A (zh) * 2022-05-13 2022-08-19 浪潮卓数大数据产业发展有限公司 一种基于时空平滑特征网络的动作识别方法
CN114926761B (zh) * 2022-05-13 2023-09-05 浪潮卓数大数据产业发展有限公司 一种基于时空平滑特征网络的动作识别方法

Similar Documents

Publication Publication Date Title
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN108491835B (zh) 面向面部表情识别的双通道卷积神经网络
US11967175B2 (en) Facial expression recognition method and system combined with attention mechanism
CN112800988A (zh) 一种基于特征融合的c3d行为识别方法
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN110096950A (zh) 一种基于关键帧的多特征融合行为识别方法
CN111310676A (zh) 基于CNN-LSTM和attention的视频动作识别方法
CN111260738A (zh) 基于相关滤波和自适应特征融合的多尺度目标跟踪方法
CN109886281A (zh) 一种基于四元数超限学习机彩色图像识别方法
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN112580545A (zh) 基于多尺度自适应上下文网络的人群计数方法及系统
CN112507904A (zh) 一种基于多尺度特征的教室人体姿态实时检测方法
CN114612456B (zh) 一种基于深度学习的钢坯自动语义分割识别方法
CN114170286A (zh) 一种基于无监督深度学习的单目深度估计方法
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质
CN107784664B (zh) 一种基于k稀疏的快速鲁棒目标跟踪方法
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN110991459A (zh) 基于arm-lbp和卷积神经网络的行李图像分类算法
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法
CN109829377A (zh) 一种基于深度余弦度量学习的行人重识别方法
CN114863132A (zh) 图像空域信息的建模与捕捉方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514