CN108229338B - 一种基于深度卷积特征的视频行为识别方法 - Google Patents

一种基于深度卷积特征的视频行为识别方法 Download PDF

Info

Publication number
CN108229338B
CN108229338B CN201711340444.XA CN201711340444A CN108229338B CN 108229338 B CN108229338 B CN 108229338B CN 201711340444 A CN201711340444 A CN 201711340444A CN 108229338 B CN108229338 B CN 108229338B
Authority
CN
China
Prior art keywords
video
convolution
layer
features
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711340444.XA
Other languages
English (en)
Other versions
CN108229338A (zh
Inventor
许勇
张银珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201711340444.XA priority Critical patent/CN108229338B/zh
Publication of CN108229338A publication Critical patent/CN108229338A/zh
Application granted granted Critical
Publication of CN108229338B publication Critical patent/CN108229338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度卷积特征的视频行为识别方法,包括以下步骤:1)提取视频的密集轨迹;2)提取视频的深度卷积空间特征;3)计算视频光流并提取深度卷积时态特征;4)对深度卷积空间特征和深度卷积时态特征分别依次进行时空归一化、通道间归一化;5)对归一化后的空间特征和时态特征分别沿密集轨迹进行时序池化操作;6)将池化后的空间特征和时态特征联结后利用LSTM网络进行分类。所述方法在结合深度学习特征和轨迹特征的过程中,考虑了轨迹特征的时序信息,能更加有效地利用视频轨迹信息,使特征提取更加准确,最后使用LSTM网络作为分类器,有利地提高了行为识别的准确率。

Description

一种基于深度卷积特征的视频行为识别方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于深度卷积特征的视频行为识别方法。
背景技术
视频作为比图片能承载更多信息的载体,已经逐渐成为生活中一种最重要的视觉数据。视频行为识别技术作为视频分析与理解的基本技术,正受到越来越多学者和工程师的关注。一方面,行为识别在生活生产上应用广泛,诸如实现智能、自动驾驶等。另一方面,行为识别可以推动视频分析理解技术的发展,进一步推动网络视频的传输、存储、网络视频个性推荐等技术的进步。
与图像分类任务相比,基于视频的分类在提取特征过程中,除了提取静态特征之外,还需要考虑时间特征,比如提取光流特征和轨迹特征,复杂度更高。在提取特征时,需要考虑分辨率、光照、遮挡、杂乱背景等变化带来的影响,除此之外,需要考虑如何合理地融合空间特征和时间特征等问题。以上种种使得视频行为识别成为在视觉领域中一个极具挑战性的课题。
现有技术中,通常采用某种特征描述子提取视频特征,然后用所学特征和样本标签训练分类器对视频行为进行分类。传统三维特征描述有3D-SIFT、HOG3D、extended SURF、iDT等,基于深度学习的特征提取可以用卷积神经网络C3D、Two stream网络、LSTM网络等。其中3D-SIFT、HOG3D、extended SURF由其对应的2D特征描述子添加时间维度扩展而来,对空间维度和时间维度上的特征不作区分糅合在一个三维空间中,无法合理处理两种不同空间特征的特性。iDT相比其他特征提取算子,提取并描述了轨迹特征,具有较好效果。深度学习特征相较于手工传统特征,能够学到更具区分性和层次性的特征,没有考虑轨迹特征及其时序性,忽略了运动特性,导致最终分类效果精确率不高。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于深度卷积特征的视频行为识别方法,所述方法在结合深度学习特征和轨迹特征的过程中,考虑了轨迹特征的时序信息,能更加有效地利用视频轨迹信息,使特征提取更加准确,最后使用LSTM网络作为分类器,有利地提高了行为识别的准确率。
本发明的目的可以通过如下技术方案实现:
一种基于深度卷积特征的视频行为识别方法,所述方法包括以下步骤:
S1、对视频序列提取视频的密集轨迹:每隔L帧,使用网格法对视频进行密集采样,使用密集轨迹算法在这L帧内对采样点进行跟踪,获取每个采样点的轨迹,去除静态轨迹和变化值大于设定阈值的轨迹,得到该视频的密集轨迹;
S2、提取视频的深度卷积空间特征:将视频序列输入到预训练好的空间神经网络,最后一层卷积层的特征图即为视频的深度卷积空间特征;
S3、提取视频的深度卷积时态特征:用光流算法对每个视频进行光流场计算,然后归一化成三维的特征图,输入到预训练好的时态神经网络,最后一层卷积层的特征图即为视频的深度卷积时态特征;
S4、规范化处理与时序轨迹池化:将提取的视频的深度卷积空间特征和深度卷积时态特征分别依次进行时空归一化和通道间归一化,然后对归一化后的深度卷积空间特征和深度卷积时态特征分别沿着视频的密集轨迹进行时序池化操作;
S5、训练视频行为识别分类器:将时序池化后的深度卷积空间特征和深度卷积时态特征进行联结后输入到LSTM神经网络中进行训练,得到训练后的LSTM神经网络作为视频行为识别分类器;
S6、视频行为识别:对待识别视频进行与训练集中视频步骤S1至步骤S4相同的密集轨迹提取、深度卷积空间特征提取、深度卷积时态特征提取操作,以及将空间特征和时态特征进行归一化和池化操作,得到的特征输入到步骤S5训练好的视频行为识别分类器中,输出视频行为识别的结果。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明结合视频行为识别中深度学习特征和传统特征描述子的优点,在学得具有区分性和层次性的空间特征和时态特征的同时,能有效利用视频轨迹特征。
2、本发明在对视频的密集轨迹进行池化过程中考虑了时序性,使特征提取更加准确,保留了更多有效信息。
3、本发明利用LSTM神经网络作为最终分类器,有利于时间特征和空间特征之间的融合,利用LSTM神经网络输入特性可以解决输入特征长度不一的问题,这种特性可以充分保留和利用输入信息,有利于行为识别准确率的提高。
附图说明
图1为本发明实施例一种基于深度卷积特征的视频行为识别方法的流程图。
图2为本发明实施例中用于提取深度卷积空间特征和深度卷积时态特征的卷积网络结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于深度卷积特征的视频行为识别方法,所述方法的流程图如图1所示,包括以下步骤:
S1、获取训练数据:获取训练视频数据集中的视频和对应的标签,按某一帧率提取每一帧画面,得到训练样本和其所属的类别,所属类别包括训练数据集中视频涉及的所有行为种类;提取视频的密集轨迹:每隔15帧,使用网格法进行密集采样,使用密集轨迹算法在这15帧内对采样点进行跟踪,获取每个采样点的轨迹,去除静态轨迹和变化过大的轨迹,得到该视频的密集轨迹;
S2、提取视频的深度卷积空间特征:将视频序列输入到预训练好的空间神经网络,最后一层卷积层的特征图即为视频的深度卷积空间特征;所述空间神经网络在ImageNet数据集上预训练、在公开数据集UCF101上微调得到;将ImageNet数据集中的图像及其对应的标签输入至神经网络,以对神经网络进行训练,然后将数据集UCF101中的训练样本及其对应的标签输入至上述训练好的神经网络,对网络进行微调;
S3、提取视频的深度卷积时态特征:用TVL1光流算法对每个视频进行光流场计算,然后归一化成三维的特征图,输入到预训练好的时态神经网络,最后一层卷积层的特征图即为视频的深度卷积时态特征;与空间神经网络的网络结构一样,时态神经网络在公开数据集UCF101上预训练;所述用于提取深度卷积空间特征和深度卷积时态特征的卷积网络结构示意图如图2所示;
S4、规范化处理与时序轨迹池化:将提取的视频的深度卷积空间特征和深度卷积时态特征分别依次进行时空归一化和通道间归一化,然后对归一化后的深度卷积空间特征和深度卷积时态特征分别沿着视频的密集轨迹进行时序池化操作;
S5、训练视频行为识别分类器:将时序池化后的深度卷积空间特征和深度卷积时态特征进行联结后输入到LSTM神经网络中进行训练,得到训练后的LSTM神经网络作为视频行为识别分类器;
S6、视频行为识别:对待识别视频进行与训练集中视频步骤S1至步骤S4相同的密集轨迹提取、深度卷积空间特征提取、深度卷积时态特征提取操作,然后将空间特征和时态特征进行归一化和池化操作,得到的特征输入到步骤S5训练好的视频行为识别分类器中,输出视频行为识别的结果。
进一步地,步骤S1中提取训练集中视频的密集轨迹的具体过程为:对首帧原始尺度空间的视频使用网格划分的方法进行密集采样,采样间隔即网格大小为5像素,其中对采样得到的像素点的计算阈值如下:
Figure BDA0001508278820000041
其中,
Figure BDA0001508278820000042
为图像I中像素点i的自相关矩阵的特征值,η为一般参数,此处取η=0.001,去除采样点中自相关矩阵的特征值低于阈值T的点,剩余的采样点组成被跟踪特征点集P,设第t帧的某一被跟踪特征点Pt=(xt,yt),能够根据光流场和中值滤波器
Figure BDA0001508278820000045
来跟踪其在t+1帧的轨迹点Pt+1
Figure BDA0001508278820000043
其中,
Figure BDA0001508278820000044
表示中值滤波器,*表示卷积操作,ωt=(ut,vt)是第t帧的密集光流场,由此能够计算得到特征点连续L帧的一条轨迹(Pt,Pt+1Pt+2,…,Pt+L),这里L=15,防止漂移现象的出现,最后,去除变化太小的静态轨迹和变化过大的轨迹,得到训练集中视频的密集轨迹。
进一步地,所述提取视频的深度卷积空间特征的具体过程为:
Sa1、将视频提取的帧作为输入层特征图输入到训练好的卷积神经网络;
Sb1、卷积神经网络中首先对输入层特征图进行卷积和激活,得到卷积层C1;
Sc1、将卷积层C1特征图进行局部响应值归一化,得到归一化层N1;
Sd1、将归一化层N1特征图进行最大值池化,得到降采样层P1;
Se1、将降采样层P1特征图进行卷积和激活,得到卷积层C2;
Sf1、将卷积层C2特征图进行局部响应值归一化,得到归一化层N2;
Sg1、将归一化层N2特征图进行最大值池化,得到降采样层P2;
Sh1、将降采样层P2特征图进行卷积和激活,得到卷积层C3;
Si1、将卷积层C3特征图进行卷积和激活,得到卷积层C4;
Sj1、将卷积层C4特征图进行卷积和激活,得到卷积层C5的特征图即为视频的深度卷积空间特征。
进一步地,所述提取视频的深度卷积时态特征的具体过程为:
Sa2、对视频使用TVL1光流算法提取光流,包括垂直和水平分量,对每一帧用后面F-1帧的光流填补为通道数为2F的三维输入数据,将其作为输入层特征图输入到训练好的卷积神经网络;
Sb2、卷积神经网络中首先对输入层特征图进行卷积和激活,得到卷积层C1;
Sc2、将卷积层C1特征图进行局部响应值归一化,得到归一化层N1;
Sd2、将归一化层N1特征图进行最大值池化,得到降采样层P1;
Se2、将降采样层P1特征图进行卷积和激活,得到卷积层C2;
Sf2、将卷积层C2特征图进行最大值池化,得到降采样层P2;
Sg2、将降采样层P2特征图进行卷积和激活,得到卷积层C3;
Sh2、将卷积层C3特征图进行卷积和激活,得到卷积层C4;
Si2、将卷积层C4特征图进行卷积和激活,得到卷积层C5的特征图即为视频的深度卷积时态特征。
进一步地,所述卷积层C1~C5为带参数的隐含层,在卷积层C1~C5的每个卷积层中,经过当前卷积层的第j个卷积核卷积得到的特征图
Figure BDA0001508278820000051
为:
Figure BDA0001508278820000052
其中,
Figure BDA0001508278820000053
表示的是第a层卷积层第i个神经元的第j个卷积核,
Figure BDA0001508278820000054
为第a层卷积层的第j个卷积核的神经元的偏置,f是激活函数,
Figure BDA0001508278820000055
为当前卷积层的上一层第i个神经元输出的特征图。
进一步地,步骤S4中所述将提取的视频的深度卷积空间特征或深度卷积时态特征
Figure BDA0001508278820000056
进行时空归一化的具体过程如下:
Figure BDA0001508278820000057
所述将提取的视频的深度卷积空间特征或深度卷积时态特征
Figure BDA0001508278820000058
进行通道归一化的具体过程如下:
Figure BDA0001508278820000059
其中,H、W、L、N分别表示深度卷积空间特征图或深度卷积时态特征图的长、深度卷积空间特征图或深度卷积时态特征图的宽、视频帧数、深度卷积空间特征图或深度卷积时态特征图的通道数。
进一步地,步骤S4中所述对归一化后的深度卷积空间特征或深度卷积时态特征沿着视频的密集轨迹进行时序池化操作的具体过程为:
Figure BDA00015082788200000510
其中,Wi是根据时序决定其不同重要性的权重,
Figure BDA00015082788200000511
为归一化后的深度卷积空间特征图或深度卷积时态特征图,Tk表示第k条轨迹,
Figure BDA0001508278820000061
表示Tk中的第i个轨迹点的坐标,r表示特征图的尺寸比例,这里r=1/32,
Figure BDA0001508278820000062
表示舍入操作,
Figure BDA0001508278820000063
为轨迹时序池化后的特征。
进一步地,所述根据时序决定其不同重要性的权重Wi是一个从对数正态分布函数中采样得到的一组数:
Wi=f(i%L·(Ed-St)/L+St,u,σ)
其中,%表示取模运算;L表示轨迹长度,这里取L=15;(Ed,St)表示f(x,u,σ)函数的采样区间;u,σ为函数参数;f(x,u,σ)是对数正态分布函数:
Figure BDA0001508278820000064
进一步地,步骤S6中将得到的特征输入到训练好的视频行为识别分类器中进行识别的具体过程为:
Sa3、将视频每一帧提取得到的特征依次输入到训练好的LSTM网络;
Sb3、LSTM网络中将当前帧视频特征与网络的隐含层状态、细胞状态输入到LSTM单元中,得到网络当前隐含层状态和细胞状态,再与下一帧视频特征输入到LSTM单元中,依此循环,直至得到最后一帧视频对应的隐含层状态;
Sc3、将最后一层隐含层状态输入到输出层进行全连接操作,然后采用函数计算该视频分别属于各类行为的概率,以此得到视频中行为所属类别。
进一步地,所述LSTM单元层为带参数的隐含层,处理第t帧视频的特征xt时,经过LSTM单元得到当前帧的细胞状态Ct和隐含层状态ht为:
Figure BDA0001508278820000065
ht=ot*tanh(Ct)
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
Figure BDA0001508278820000066
其中,
Figure BDA0001508278820000067
为LSTM网络四个带参数的结构,σ(·)为sigmoid函数,Ct-1、ht-1分别第t-1帧视频特征对应的细胞状态和隐含层状态,Wf、Wi、Wo、WC为LSTM单元层参数,bf、bi、bo、bC为偏置。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (8)

1.一种基于深度卷积特征的视频行为识别方法,其特征在于,所述方法包括以下步骤:
S1、对视频序列提取视频的密集轨迹:每隔L帧,使用网格法对视频进行密集采样,使用密集轨迹算法在这L帧内对采样点进行跟踪,获取每个采样点的轨迹,去除静态轨迹和变化值大于设定阈值的轨迹,得到该视频的密集轨迹;
S2、提取视频的深度卷积空间特征:将视频序列输入到预训练好的空间神经网络,最后一层卷积层的特征图即为视频的深度卷积空间特征;
S3、提取视频的深度卷积时态特征:用光流算法对每个视频进行光流场计算,然后归一化成三维的特征图,输入到预训练好的时态神经网络,最后一层卷积层的特征图即为视频的深度卷积时态特征;
S4、规范化处理与时序轨迹池化:将提取的视频的深度卷积空间特征和深度卷积时态特征分别依次进行时空归一化和通道间归一化,然后对归一化后的深度卷积空间特征和深度卷积时态特征分别沿着视频的密集轨迹进行时序池化操作;
S5、训练视频行为识别分类器:将时序池化后的深度卷积空间特征和深度卷积时态特征进行联结后输入到LSTM神经网络中进行训练,得到训练后的LSTM神经网络作为视频行为识别分类器;
S6、视频行为识别:对待识别视频进行与训练集中视频步骤S1至步骤S4相同的密集轨迹提取、深度卷积空间特征提取、深度卷积时态特征提取操作,以及将空间特征和时态特征进行归一化和池化操作,得到的特征输入到步骤S5训练好的视频行为识别分类器中,输出视频行为识别的结果;
步骤S4中所述对归一化后的深度卷积空间特征或深度卷积时态特征沿着视频的密集轨迹进行时序池化操作的具体过程为:
Figure FDA0003237167630000011
其中,Wi是根据时序决定其不同重要性的权重,
Figure FDA0003237167630000012
为归一化后的深度卷积空间特征图或深度卷积时态特征图,Tk表示第k条轨迹,
Figure FDA0003237167630000013
表示Tk中的第i个轨迹点的坐标,r表示特征图的尺寸比例,这里r=1/32,
Figure FDA0003237167630000014
表示舍入操作,
Figure FDA0003237167630000015
为轨迹时序池化后的特征;
所述根据时序决定其不同重要性的权重Wi是一个从对数正态分布函数中采样得到的一组数:
Wi=f(i%L·(Ed-St)/L+St,u,σ)
其中,%表示取模运算;L表示轨迹长度,(Ed,St)表示f(x,u,σ)函数的采样区间;u,σ为函数参数;f(x,u,σ)是对数正态分布函数:
Figure FDA0003237167630000021
2.根据权利要求1所述的一种基于深度卷积特征的视频行为识别方法,其特征在于,步骤S1中提取训练集中视频的密集轨迹的具体过程为:对首帧原始尺度空间的视频使用网格划分的方法进行密集采样,采样间隔即网格大小为5像素,其中对采样得到的像素点的计算阈值如下:
Figure FDA0003237167630000022
其中,
Figure FDA0003237167630000023
为图像I中像素点i的自相关矩阵的特征值,η为一般参数,去除采样点中自相关矩阵的特征值低于阈值T的点,剩余的采样点组成被跟踪特征点集P,设第i帧的某一被跟踪特征点Pt=(xt,yt),能够根据光流场和中值滤波器M来跟踪其在t+1帧的轨迹点Pt+1
Figure FDA0003237167630000024
其中,
Figure FDA0003237167630000025
表示中值滤波器,*表示卷积操作,ωt=(ut,vt)是第t帧的密集光流场,由此能够计算得到特征点连续L帧的一条轨迹(Pt,Pt+1,Pt+2,...,Pt+L),防止漂移现象的出现,最后,去除变化太小的静态轨迹和变化过大的轨迹,得到训练集中视频的密集轨迹。
3.根据权利要求1所述的一种基于深度卷积特征的视频行为识别方法,其特征在于,所述提取视频的深度卷积空间特征的具体过程为:
Sa1、将视频提取的帧作为输入层特征图输入到训练好的卷积神经网络;
Sb1、卷积神经网络中首先对输入层特征图进行卷积和激活,得到卷积层C1;
Sc1、将卷积层C1特征图进行局部响应值归一化,得到归一化层N1;
Sd1、将归一化层N1特征图进行最大值池化,得到降采样层P1;
Se1、将降采样层P1特征图进行卷积和激活,得到卷积层C2;
Sf1、将卷积层C2特征图进行局部响应值归一化,得到归一化层N2;
Sg1、将归一化层N2特征图进行最大值池化,得到降采样层P2;
Sh1、将降采样层P2特征图进行卷积和激活,得到卷积层C3;
Si1、将卷积层C3特征图进行卷积和激活,得到卷积层C4;
Sj1、将卷积层C4特征图进行卷积和激活,得到卷积层C5的特征图即为视频的深度卷积空间特征。
4.根据权利要求1所述的一种基于深度卷积特征的视频行为识别方法,其特征在于,所述提取视频的深度卷积时态特征的具体过程为:
Sa2、对视频使用TVL1光流算法提取光流,包括垂直和水平分量,对每一帧用后面F-1帧的光流填补为通道数为2F的三维输入数据,将其作为输入层特征图输入到训练好的卷积神经网络;
Sb2、卷积神经网络中首先对输入层特征图进行卷积和激活,得到卷积层C1;
Sc2、将卷积层C1特征图进行局部响应值归一化,得到归一化层N1;
Sd2、将归一化层N1特征图进行最大值池化,得到降采样层P1;
Se2、将降采样层P1特征图进行卷积和激活,得到卷积层C2;
Sf2、将卷积层C2特征图进行最大值池化,得到降采样层P2;
Sg2、将降采样层P2特征图进行卷积和激活,得到卷积层C3;
Sh2、将卷积层C3特征图进行卷积和激活,得到卷积层C4;
Si2、将卷积层C4特征图进行卷积和激活,得到卷积层C5的特征图即为视频的深度卷积时态特征。
5.根据权利要求3或4所述的一种基于深度卷积特征的视频行为识别方法,其特征在于,所述卷积层C1~C5为带参数的隐含层,在卷积层C1~C5的每个卷积层中,经过当前卷积层的第j个卷积核卷积得到的特征图
Figure FDA0003237167630000031
为:
Figure FDA0003237167630000032
其中,
Figure FDA0003237167630000033
表示的是第a层卷积层第i个神经元的第j个卷积核,
Figure FDA0003237167630000034
为第a层卷积层的第j个卷积核的神经元的偏置,f是激活函数,
Figure FDA0003237167630000035
为当前卷积层的上一层第i个神经元输出的特征图。
6.根据权利要求1所述的一种基于深度卷积特征的视频行为识别方法,其特征在于,步骤S4中所述将提取的视频的深度卷积空间特征或深度卷积时态特征
Figure FDA0003237167630000036
Figure FDA0003237167630000037
进行时空归一化的具体过程如下:
Figure FDA0003237167630000038
所述将提取的视频的深度卷积空间特征或深度卷积时态特征
Figure FDA0003237167630000039
进行通道归一化的具体过程如下:
Figure FDA0003237167630000041
其中,H、W、L、N分别表示深度卷积空间特征图或深度卷积时态特征图的长、深度卷积空间特征图或深度卷积时态特征图的宽、视频帧数、深度卷积空间特征图或深度卷积时态特征图的通道数。
7.根据权利要求1所述的一种基于深度卷积特征的视频行为识别方法,其特征在于,将得到的特征输入到训练好的视频行为识别分类器中进行识别的具体过程为:
Sa3、将视频每一帧提取得到的特征依次输入到训练好的LSTM网络;
Sb3、LSTM网络中将当前帧视频特征与网络的隐含层状态、细胞状态输入到LSTM单元中,得到网络当前隐含层状态和细胞状态,再与下一帧视频特征输入到LSTM单元中,依此循环,直至得到最后一帧视频对应的隐含层状态;
Sc3、将最后一层隐含层状态输入到输出层进行全连接操作,然后采用函数计算该视频分别属于各类行为的概率,以此得到视频中行为所属类别。
8.根据权利要求7所述的一种基于深度卷积特征的视频行为识别方法,其特征在于,所述LSTM单元层为带参数的隐含层,处理第t帧视频的特征xt时,经过LSTM单元得到当前帧的细胞状态Ct和隐含层状态ht为:
Figure FDA0003237167630000042
ht=ot*tanh(Ct)
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
Figure FDA0003237167630000043
其中,ft、it、ot
Figure FDA0003237167630000044
为LSTM网络四个带参数的结构,σ(·)为sigmoid函数,Ct-1、ht-1分别第t-1帧视频特征对应的细胞状态和隐含层状态,Wf、Wi、Wo、WC为LSTM单元层参数,bf、bi、bo、bC为偏置。
CN201711340444.XA 2017-12-14 2017-12-14 一种基于深度卷积特征的视频行为识别方法 Active CN108229338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711340444.XA CN108229338B (zh) 2017-12-14 2017-12-14 一种基于深度卷积特征的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711340444.XA CN108229338B (zh) 2017-12-14 2017-12-14 一种基于深度卷积特征的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN108229338A CN108229338A (zh) 2018-06-29
CN108229338B true CN108229338B (zh) 2021-12-21

Family

ID=62652130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711340444.XA Active CN108229338B (zh) 2017-12-14 2017-12-14 一种基于深度卷积特征的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN108229338B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985223B (zh) * 2018-07-12 2024-05-07 天津艾思科尔科技有限公司 一种人体动作识别方法
CN108875708A (zh) * 2018-07-18 2018-11-23 广东工业大学 基于视频的行为分析方法、装置、设备、系统及存储介质
CN109165561A (zh) * 2018-07-27 2019-01-08 北京以萨技术股份有限公司 一种基于视频特征的交通拥堵识别方法
CN109064507B (zh) * 2018-08-21 2021-06-22 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN108989804B (zh) * 2018-08-23 2021-04-27 杭州雄迈集成电路技术股份有限公司 图像的编码方法及装置
CN110569695B (zh) * 2018-08-31 2021-07-09 创新先进技术有限公司 基于定损图像判定模型的图像处理方法和装置
CN109389055B (zh) * 2018-09-21 2021-07-20 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和系统
CN109389185B (zh) * 2018-11-15 2022-03-01 中国科学技术大学 使用三维卷积神经网络的视频烟雾识别方法
CN109376696B (zh) * 2018-11-28 2020-10-23 北京达佳互联信息技术有限公司 视频动作分类的方法、装置、计算机设备和存储介质
CN109800689B (zh) * 2019-01-04 2022-03-29 西南交通大学 一种基于时空特征融合学习的目标跟踪方法
CN109697815A (zh) * 2019-01-24 2019-04-30 广州市天河区保安服务公司 防盗通讯网络报警方法、装置设备及存储介质
CN109815921A (zh) * 2019-01-29 2019-05-28 北京融链科技有限公司 加氢站中活动类别的预测方法及装置
CN111738037B (zh) * 2019-03-25 2024-03-08 广州汽车集团股份有限公司 一种自动驾驶方法及其系统、车辆
CN110458038B (zh) * 2019-07-19 2021-10-26 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
TWI705016B (zh) * 2019-07-22 2020-09-21 緯創資通股份有限公司 行車預警系統、行車預警方法及使用所述方法的電子裝置
CN110378936B (zh) * 2019-07-30 2021-11-05 北京字节跳动网络技术有限公司 光流计算方法、装置及电子设备
CN110472732B (zh) * 2019-08-19 2023-02-21 杭州凝眸智能科技有限公司 基于优化特征提取装置的图像特征提取系统
CN110516599A (zh) * 2019-08-27 2019-11-29 中国科学院自动化研究所 基于渐进式关系学习的群体行为识别模型及其训练方法
CN110503073B (zh) * 2019-08-29 2023-04-18 大连海事大学 一种第三视角下动态链接的密集多智能体轨迹预测方法
CN110598606B (zh) * 2019-09-02 2022-05-27 南京邮电大学 一种具有视觉隐私保护优势的室内跌倒行为检测方法
JP7412150B2 (ja) * 2019-11-29 2024-01-12 東京エレクトロン株式会社 予測装置、予測方法及び予測プログラム
CN111325149B (zh) * 2020-02-20 2023-05-26 中山大学 一种基于投票的时序关联模型的视频动作识别方法
CN111325292B (zh) * 2020-03-11 2023-05-02 中国电子工程设计院有限公司 一种对象行为的识别方法及装置
CN111680543B (zh) * 2020-04-23 2023-08-29 北京迈格威科技有限公司 动作识别方法、装置及电子设备
CN111639719B (zh) * 2020-06-08 2023-04-07 安徽大学 基于时空运动和特征融合的足迹图像检索方法
CN111897995A (zh) * 2020-08-04 2020-11-06 成都井之丽科技有限公司 视频特征提取方法及应用该方法的视频量化方法
CN112801042B (zh) * 2021-03-08 2023-12-15 南京大学 一种基于深度学习和视频轨迹的学生上课行为识别方法
CN114419524B (zh) * 2022-03-29 2022-08-05 之江实验室 一种基于伪光流辅助的视频分类方法及系统
CN116645917A (zh) * 2023-06-09 2023-08-25 浙江技加智能科技有限公司 Led显示屏亮度调节系统及其方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136489A1 (en) * 2016-02-03 2017-08-10 Caspo, Llc Smart cooking system that produces and uses hydrogen fuel

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654729B (zh) * 2016-03-28 2018-01-02 南京邮电大学 一种基于卷积神经网络的短时交通流量预测方法
CN107273835A (zh) * 2017-06-07 2017-10-20 南京航空航天大学 基于视频分析的暴力行为智能检测方法
CN107463919A (zh) * 2017-08-18 2017-12-12 深圳市唯特视科技有限公司 一种基于深度3d卷积神经网络进行面部表情识别的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136489A1 (en) * 2016-02-03 2017-08-10 Caspo, Llc Smart cooking system that produces and uses hydrogen fuel

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Dense trajectories and motion boundary descriptors for action recognition;H.Wang et al;《IJCV》;20131231;第103卷(第1期);1-10 *

Also Published As

Publication number Publication date
CN108229338A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108229338B (zh) 一种基于深度卷积特征的视频行为识别方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
US20180114071A1 (en) Method for analysing media content
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN109815903A (zh) 一种基于自适应融合网络的视频情感分类方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN112434723B (zh) 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN113688761B (zh) 一种基于图像序列的行人行为类别检测方法
Dai et al. Tan: Temporal aggregation network for dense multi-label action recognition
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
CN112132839B (zh) 一种基于深度卷积级联网络的多尺度快速人脸分割方法
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
Li A deep learning-based text detection and recognition approach for natural scenes
CN116958786A (zh) 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法
CN115527275A (zh) 基于P2CS_3DNet的行为识别方法
CN110211146B (zh) 视交叉仿真的视频前景分割方法及装置
CN114022938A (zh) 视素识别的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant