CN109101896B - 一种基于时空融合特征和注意力机制的视频行为识别方法 - Google Patents

一种基于时空融合特征和注意力机制的视频行为识别方法 Download PDF

Info

Publication number
CN109101896B
CN109101896B CN201810797742.XA CN201810797742A CN109101896B CN 109101896 B CN109101896 B CN 109101896B CN 201810797742 A CN201810797742 A CN 201810797742A CN 109101896 B CN109101896 B CN 109101896B
Authority
CN
China
Prior art keywords
video
sequence
space
frame
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810797742.XA
Other languages
English (en)
Other versions
CN109101896A (zh
Inventor
徐杰
余兴
盛纾纬
魏号亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810797742.XA priority Critical patent/CN109101896B/zh
Publication of CN109101896A publication Critical patent/CN109101896A/zh
Application granted granted Critical
Publication of CN109101896B publication Critical patent/CN109101896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空融合特征和注意力机制的视频行为识别方法,通过卷积神经网络Inception V3提取输入视频的时空融合特征,然后在在时空融合特征的基础上结合人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧,从视频整体上对行为进行识别,这样排出冗余信息对识别的干扰,且提高了视频行为识别的准确率。

Description

一种基于时空融合特征和注意力机制的视频行为识别方法
技术领域
本发明属于行为识别技术领域,更为具体地讲,涉及一种基于时空融合特征和注意力机制的视频行为识别方法。
背景技术
行为识别相关的研究正日益在诸多应用场景中得到了广泛的引用,例如安全监控、自动驾驶、视频检索等。行为识别通常指从视频序列中识别出个体或群体的行为。通常具体的行为发生在连续的视频帧序列上,而不仅仅是单个视频帧。因此视频中的运动信息对行为的识别至关重要,如何有效地表征出视频中的时空特征是行为识别研究领域的一个热点。
传统的行为识别有赖于从视频帧序列和光流序列中提取出的手工特征,例如SIFT、HOG、HOF等。近年来得益于深度学习强大的特征提取能力,许多人尝试采用深度学习的方法进行行为识别相关的研究并取得了一定的进展。视频作为一种复杂的媒体形式,自然地涉及到两方面的信息,视频帧序列中包含的空间场景信息和视频帧之间的运动信息。现在很多研究工作都是基于比较经典的Two stream结构,但是这种网络结构没有考虑到长时间范围视频帧之间的时序联系。Jeffrey Donahue进一步提出了LRCN网络模型,利用LSTM进一步建模CNN卷积特征在长时间范围内的时序联系。在LRCN网络模型中,每一时刻输入的是单个的视频帧,缺乏对全局视频帧的描述。而且视频帧序列中存在大量的冗余信息,这种简单的输入方式未能利用视频帧序列中的关键帧信息。
视频行为识别相关的研究一直是计算机视觉研究领域的热点,传统的识别方法高度依赖提取出的视频特征,因此很多人致力于设计出足够鲁棒的特征。很多图像处理领域的特征进一步拓展可以挖掘视频的时域特征。Laptev将2D哈里斯角点拓展到三维以找出视频中的时空兴趣点。Dollar在3D Harris角点的基础上,首先单独在时间维和空间维采用Gabor滤波器滤波,这样检测出的兴趣点的数目会随着时间和空间的局部领域尺寸的改变而改变。为了更有效地描述局部特征点信息,Paul将传统的SIFT拓展到3D-SIFT。Ronald从多个时空兴趣点中提取出HOG和HOF特征,然后采用词袋模型对特征进行编码。Heng通过提取关键点的稠密轨迹,和每个点的HOG、HOF、MBH特征进一步提高了识别准确率。上述的手工特征一定程度上反应了视频内容信息,但是手工特征的设计需要大量的专业知识和经验。
近年来,得益于深度学习强大的特征提取能力,视频行为的识别和分析取得了突破性进展。视频行为识别的核心在于视频特征的提取,Kpapathy首先采用卷积神经网络提取视频帧的卷积特征,并进一步在时域上进行拓展。Ji则直接将二维卷积拓展到三维,同时从空间和时间两个维度提取视频特征,以提取视频相邻帧之间运动信息。结合人类神经学方面的研究,Simonyan提出了Two stream模型,分别提取视频帧序列特征和光流序列特征,融合两个通道的识别结果做识别。尽管如此,这些基于深度学习的方法只考虑到了短时间范围内的视频帧前后时序联系,忽略了视频的长时信息。
虽然卷积神经网络能够提取视频的空间特征,但无法处理序列问题。因此,提出了一种基于注意力机制的视频行为识别方法,该方法从全局考虑视频信息,同时采用注意力机制选择性的关注视频中的有效信息,降低无效信息的干扰,从而实现视频行为识别。
本发明在此基础上,提出了的注意力机制和时空融合特征,本文提出基于注意力机制的时空融合模型。首先从视频内在的时空特性出发,分别提取出视频帧序列和光流序列的卷积特征,融合成为时空融合特征,在时空融合特征的基础上,再借鉴人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧内容。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于时空融合特征和注意力机制的视频行为识别方法,在时空融合特征的基础上结合人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧,从而实现视频行为识别。
为实现上述发明目的,本发明一种基于时空融合特征和注意力机制的视频行为识别方法,其特征在于,包括以下步骤:
(1)、训练LSTM网络模型
(1.1)、通过卷积神经网络Inception V3提取输入视频的时空融合特征
设输入视频帧序列为X={x1,x2,…,xN},N表示输入视频的总帧数,对输入的相邻两帧依次提取光流,得到光流序列{f1,f2,…,fN-1};
从输入视频帧序列和光流序列中分别等间隔采样出n帧,n<<N;再通过卷积神经网络Inception V3提取这n帧输入视频帧序列的卷积特征序列fsta和光流序列的卷积特征序列fflow;最后以fsta为基准,将fflow拼接在fsta后面,从而生成时空融合特征,其中,vi表示第i视频帧的时空融合特征向量,i=1,2,…,n;
Figure RE-GDA0001771069580000031
(1.2)、以注意力权重
Figure RE-GDA0001771069580000032
组合时空融合特征,得到加权时空融合特征
Figure RE-GDA0001771069580000033
并输入到LSTM网络;
Figure RE-GDA0001771069580000034
其中,t=1,2,…,T,T表示时刻总数;
(1.3)、更新当前时刻LSTM网络状态;
Figure RE-GDA0001771069580000035
Figure RE-GDA0001771069580000036
Figure RE-GDA0001771069580000037
Figure RE-GDA0001771069580000038
Figure RE-GDA0001771069580000039
其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,
Figure RE-GDA00017710695800000310
表示点积运算, Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;
(1.4)、LSTM网络根据当前时刻状态预测视频类别;
计算当前时刻t时视频类别的预测概率分布
Figure RE-GDA00017710695800000311
其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;
(1.5)、重复步骤(1.2)-(1.4),分别预测出其余T-1个时刻的视频行为类别的概率分布pt
(1.6)、计算第T次的预测概率分布值pT和视频标签之间的误差Δε;
计算网络模型损失的交叉熵
Figure RE-GDA0001771069580000041
Figure RE-GDA0001771069580000042
其中,M为本轮学习时使用的视频数,P为数据集中包含的视频的类别数,
Figure RE-GDA0001771069580000043
为某一视频的标签;
将交叉熵
Figure RE-GDA0001771069580000044
和模型复杂度损失Lλ之和作为网络的整体损失,然后采用 BPTT算法将网络损失进行反向传递进而更新LSTM网络中待学习参数,完成本轮迭代;
(1.7)、当本轮迭代完成后,按照步骤(1.2)-(1.6)所述方法进行下一轮迭代,直到完成所有迭代,得到训练好的LSTM网络模型;
(2)、利用训练后的LSTM网络模型对视频进行行为识别
(2.1)、从待检测视频
Figure RE-GDA0001771069580000045
中提取出视频帧序列和光流序列,并按照步骤(1.1)所示提取出长度为n的时空融合特征序列,作为一条测试数据;
(2.2)、将测试数据按照步骤(1.1)-(1.5)所述方法进行测试,将概率最大的类别作为测试视频行为的预测结果。
本发明的发明目的是这样实现的:
本发明一种基于时空融合特征和注意力机制的视频行为识别方法,通过卷积神经网络Inception V3提取输入视频的时空融合特征,然后在在时空融合特征的基础上结合人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧,从视频整体上对行为进行识别,这样排出冗余信息对识别的干扰,且提高了视频行为识别的准确率。
同时,本发明一种基于时空融合特征和注意力机制的视频行为识别方法还具有以下有益效果:
(1)、从视频内在的时空融合特性出发,通过提取视频的时空融合特征能够更有效地利用视频信息,从而提高视频行为识别的准确率。
(2)、通过注意力机制,能够将时空融合特征以注意力权重进行组合,每一时刻模型能够关注到视频内容的关键帧信息,提高视频行为识别的准确率。
附图说明
图1是本发明基于时空融合特征和注意力机制的视频行为识别方法流程图;
图2是基于注意力机制的时空融合模型结构图;
图3是HMDB-51数据集中dribble视频的注意力可视化结果图;
图4是UCF-101数据集中biking视频的注意力可视化结果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
为了方便描述,先对具体实施方式中出现的相关专业术语进行说明:
LSTM(Long Short-Term Memory):长短时记忆网络;
图1是本发明基于时空融合特征和注意力机制的视频行为识别方法流程图。
在本实施例中,
采用LSVRC2012数据集用于Inception V3网络的预训练,采用HMDB-51 和UCF-101数据集进行模型的仿真和验证分析。
HMDB-51数据集包含6849部视频,视频内容主要来自电影片段,分为51 个类别,其中5222部作为训练集,300部作为验证集,1327部作为测试集。
UCF-101数据集是从现实生活中收集的视频动作识别数据集,视频内容全部来源于YouTube视频,包含13320个视频,共101类视频类别,是迄今为止最具挑战性的视频识别数据集之一,其中9537部视频作为训练集,412部作为验证集,3371部作为测试集。
下面我们对本发明一种基于时空融合特征和注意力机制的视频行为识别方法进行详细说明,具体包括以下步骤:
S1、训练LSTM网络模型
S1.1、通过卷积神经网络Inception V3提取输入视频的时空融合特征
设输入视频帧序列为X={x1,x2,…,xN},N表示输入视频的总帧数,对输入的相邻两帧依次提取光流,得到光流序列{f1,f2,…,fN-1};
从输入视频帧序列和光流序列中分别等间隔采样出n帧,n<<N;再通过卷积神经网络Inception V3提取这n帧输入视频帧序列的卷积特征序列fsta和光流序列的卷积特征序列fflow;最后以fsta为基准,将fflow拼接在fsta后面,从而生成时空融合特征,其中,vi表示第i视频帧的时空融合特征向量,i=1,2,…,n;
Figure RE-GDA0001771069580000061
在本实施例中,提取时空融合特征时,采用Inception V3结构,并在 LSCRC2012数据集上进行预训练,然后固定Inception-v3网络参数,提取pooling3 层特征作为视频的卷积特征,特征大小为2048维。在LSTM网络中引入注意力机制,设置LSTM网络的层数为1层,输入单元个数为4096。
在训练时,每部视频内容等间隔抽取16帧作为训练视频,在测试时,测试集视频同样抽取16帧作为测试视频。基于注意力机制的时空融合模型采用Adam 优化算法进行训练,初始学习率为0.001,最大迭代次数为20个epoch。
S1.2、以注意力权重
Figure RE-GDA0001771069580000062
组合空间特征,得到加权空间特征
Figure RE-GDA0001771069580000063
并输入到 LSTM网络;
Figure RE-GDA0001771069580000064
其中,t=1,2,…,T,T=16表示时刻总数;
在本实施例中,如图2所示,基于注意力机制的时空融合模型由两部分组成,一部分是通过卷积神经网络CNN提取视频的时空融合特征,另一部分是以注意力权重
Figure RE-GDA0001771069580000065
组合时空融合特征,供后续网络使用;
S1.3、更新当前时刻LSTM网络状态;
Figure RE-GDA0001771069580000066
Figure RE-GDA0001771069580000067
Figure RE-GDA0001771069580000068
Figure RE-GDA0001771069580000069
Figure RE-GDA00017710695800000610
其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ()是sigmoid函数,
Figure RE-GDA0001771069580000071
表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;
S1.4、计算注意力权重
Figure RE-GDA0001771069580000072
根据LSTM网络当前时刻状态,计算第i帧视频的相关性得分
Figure RE-GDA0001771069580000073
Figure RE-GDA0001771069580000074
其中,Wa、Ua、ba分别为待学习参数,tanh()为双曲正切函数;
将所有帧视频的相关性得分进行归一化,得到第i帧视频的注意力权重
Figure RE-GDA0001771069580000075
Figure RE-GDA0001771069580000076
其中,exp()为指数函数;
注意力权重
Figure RE-GDA0001771069580000077
反映了第i帧视频特征向量在t时刻与整个视频特征向量集合的紧密程度,若该视频帧内容与整个视频内容越相关,则该注意力权重将越大;
Figure RE-GDA0001771069580000078
的学习与上一时刻的LSTM网络状态和当前时刻的输入有关,且
Figure RE-GDA0001771069580000079
满足条件为:
Figure RE-GDA00017710695800000710
S1.5、LSTM网络根据当前时刻状态预测视频类别;
计算当前时刻t时视频类别的预测概率分布
Figure RE-GDA00017710695800000711
其中,softmax()是多分类函数,Up、Wp、bp、d分别为待学习参数;
S1.6、重复步骤S1.2-S1.5,分别预测出其余T-1个时刻的视频类别的预测概率分布pt
S1.7、计算第T次的预测概率分布值pT和视频标签之间的误差Δε;
计算网络模型损失的交叉熵
Figure RE-GDA00017710695800000712
Figure RE-GDA00017710695800000713
其中,M为本轮学习时使用的视频数,P为数据集中包含的视频的类别数,
Figure RE-GDA00017710695800000714
为某一视频的标签;
将交叉熵
Figure RE-GDA00017710695800000715
和模型复杂度损失Lλ之和作为网络的整体损失,然后采用BPTT算法将网络损失进行反向传递进而更新LSTM网络中待学习参数,完成本轮迭代;
S1.8、当本轮迭代完成后,按照步骤S1.2-S1.7所述方法进行下一轮迭代,直到所有迭代,得到训练好的LSTM网络模型;
S2、利用训练后的LSTM网络模型对待检测视频进行行为识别
S2.1、从待检测视频
Figure RE-GDA0001771069580000082
中每间隔m=8帧提取一个长度为n=16视频片段作为测试样本xj,j=1,2,…,L,L表示待检测视频划分为长度为n的视频片段的个数;
S2.2、将L个测试样本xj按照步骤S1.1-S1.6所述方法进行处理,得到L个预测概率分布pT
S2.3、在L个预测概率分布pT中,选取每一个预测概率分布pT中概率最大项的维度所对应的类别作为该测试样本xj的类别,从而得到L个统计结果,再统计L个统计结果中每个类别出现的次数,并将出现次数最多的类别作为待检测视频的类别;如果出现最大次数相等的类别,则以最大次数相等对应的预测概率分布pT中概率最大项的维度所对应的类别作为待检测视频的类别。
仿真验证
基于注意力机制的时空融合模型充分利用视频内在的时空融合特性,又通过注意力机制去挑选视频序列的关键帧内容,为验证基于注意力机制的时空融合模型的识别效果,本实施例将基于注意力机制的时空融合模型与不同的视频内容识别方法进行了比较,比较结果如表1和表2所示。
表1是不同视频内容识别方法在HMDB-51数据集上的识别准确率
Figure RE-GDA0001771069580000081
Figure RE-GDA0001771069580000091
表1
通过表1可知,由于传统的基于稠密轨迹的识别方法采用的是传统的手工特征,在HMDB-51数据集上只实现了57.2%的识别准确率。改进的基于稠密轨迹和编码的识别方法在传统手工特征基础上,利用分层的费舍尔向量做识别,取得了66.8%的识别准确率,但是中间采用了两层费舍尔向量提取,较为繁琐。 Sharma将空间注意力机制引入到视频识别中,提出了空间软注意力模型。让模型捕捉视频的关键运动部位,实现了41.3%的识别准确率。Simonyan等分别利用两路CNN提取视频的时间特征和空间特征,并对时间特征和空间特征的识别结果采用均值和支持向量机两种融合方法。虽然考虑到了视频的时空融合特性,但是没有进行关键帧的选取,分别实现了58.0%和59.4%的识别准确率。本文提出的基于注意力机制的时空融合模型采用两路CNN分别提取视频帧序列和光流序列的卷积特征,并将融合后的特征送入后续的LSTM网络训练。在LSTM网络部分采用注意力机制,改善了模型的动作识别效果,实现了63.82%的识别准确率。
表2是不同视频内容识别方法在UCF-101数据集上的识别准确率;
Figure RE-GDA0001771069580000092
表2
Li Fei-Fei采用缓慢融合直接提取连续视频帧不同分辨率下卷积特征进行识别,整体识别准确率为65.4%。相比于传统的手工特征方法上虽然有一定的创新,但没有考虑视频帧间的运动信息,没有选取视频连续帧间的关键帧,整体的识别准确率有进一步提高的空间。Simonyan,Zisserman提出了基于单帧光流的识别方法,将光流信息应用到行为识别中,取得了73.9%的准确率。相比于缓慢融合方法,准确率有一定的提升。Hao Ye虽然采取了空间早期融合和空间晚期融合两种不同的融合策略,但只使用了视频的空间特征,分别达到了75.73%和 70.29%的识别准确率。本文提出的基于注意力机制的时空融合模型CNN部分使用两路CNN分别提取视频帧序列和光流序列的卷积特征,在输入到LSTM网络单元之前进行时空特征的融合,在LSTM网络部分引入注意力机制,以加权后的视频时空融合特征作为LSTM网络单元的输入。在识别过程中,能够关注视频片段更重要的视频帧,排除无关信息的干扰,实现了75.8%的识别准确率。
下面我们进行可视化分析:基于注意力机制的时空融合模型以加权的视频时空融合特征向量作为LSTM网络的输入,LSTM网络根据当前时刻的输入与之前的网络状态为与视频主题相关的区域分配较大的权重,无关的区域分配较小的权重。从HMDB-51和UCF-101数据集中各选取一部测试视频对基于注意力机制的时空融合模型分配的注意力权重进行了可视化,可视化结果分别如图3 和4所示。
如图3所示,从HMDB-51数据集中选取一段男孩打棒球的测试视频,该视频的标签为swing baseball,时长3秒,视频帧率是30fps,共计包含102个视频帧。每隔6帧选取一帧作为测试视频,作为最终基于注意力机制的时空融合模型的输入。计算模型最后一个时刻各帧的注意力权重并对其做可视化分析。
从3可以看到,在第1帧至第7帧,男孩主要处于准备击球阶段,动作变化幅度不大,基于注意力机制的时空融合模型对其分配的权重较小。而在第8 帧至12帧,男孩完成了击球动作,特别在第8帧,棒球出现在画面中,具有较大的区分度,模型给第8帧至12帧分配了较大的注意力权重。在第13帧至16 帧男孩在完成击球之后开始跑垒,模型给这一段视频帧分配的权重有所减小,是因为相较于跑垒,击球阶段更容易辨识出swing baseball这一行为。不难发现,基于注意力机制的时空融合模型将男孩击球这一段视频帧作为识别行为的关键帧。
如图4所示,从UCF-101数据集中选取的测试视频内容为一个男孩吹灭蜡烛,标签为blowing candles。从图4看到,从第1帧至3帧,画面中的人物正在桌边准备吹蜡烛,基本没有什么动作,基于注意力机制的时空融合模型为其分配了较小的权重。而在第4帧到第6帧,视频中人物开始吹灭蜡烛,模型开始给相应的视频帧分配更大的权重。从第7帧到第12帧,视频中人物开始靠近蜡烛,此时模型分配的权重比第4帧到第6帧的更大,此时间段视频帧明显更容易识别为Blowing Candles这一行为。到第13帧为止,视频中人物基本吹灭蜡烛,因此后续的第13帧到第16帧,基于注意力机制的时空模型分配的权重极少,基本为0。因此可以看出第4帧到第12帧包含了更多的场景信息,并且包含了相关的时间顺序,被模型认定为与动作识别任务更紧密的关键帧,因此分配了更多的注意力权重。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于时空融合特征和注意力机制的视频行为识别方法,其特征在于,包括以下步骤:
(1)、训练LSTM网络模型
(1.1)、通过卷积神经网络Inception V3提取输入视频的时空融合特征
设输入视频帧序列为X={x1,x2,…,xN},N表示输入视频的总帧数,对输入的相邻两帧依次提取光流,得到光流序列{f1,f2,…,fN-1};
从输入视频帧序列和光流序列中分别等间隔采样出n帧,n<<N;再通过卷积神经网络Inception V3提取这n帧输入视频帧序列的卷积特征序列fsta和光流序列的卷积特征序列fflow;最后以fsta为基准,将fflow拼接在fsta后面,从而生成时空融合特征,其中,vi表示第i视频帧的时空融合特征向量,i=1,2,…,n;
Figure FDA0003294810320000011
(1.2)、以注意力权重
Figure FDA0003294810320000012
组合时空融合特征,得到加权时空融合特征
Figure FDA0003294810320000013
并输入到LSTM网络;
Figure FDA0003294810320000014
其中,t=1,2,…,T,T表示时刻总数;
(1.3)、更新当前时刻LSTM网络状态;
Figure FDA0003294810320000015
Figure FDA0003294810320000016
Figure FDA0003294810320000017
Figure FDA0003294810320000018
Figure FDA0003294810320000019
其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,
Figure FDA00032948103200000110
表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;
(1.4)、LSTM网络根据当前时刻状态预测视频类别;
计算当前时刻t时视频类别的预测概率分布
Figure FDA00032948103200000111
其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;
(1.5)、重复步骤(1.2)-(1.4),分别预测出其余T-1个时刻的视频类别的预测概率分布pt
(1.6)、计算第T次的预测概率分布值pT和视频标签之间的误差Δε;
计算网络模型损失的交叉熵
Figure FDA0003294810320000021
Figure FDA0003294810320000022
其中,M为本轮学习时使用的视频数,P为数据集中包含的视频的类别数,
Figure FDA0003294810320000023
为某一视频的标签;
将交叉熵
Figure FDA0003294810320000024
和模型复杂度损失Lλ之和作为网络的整体损失,然后采用BPTT算法将网络损失进行反向传递进而更新LSTM网络中待学习参数,完成本轮迭代;
(1.7)、当本轮迭代完成后,按照步骤(1.2)-(1.6)所述方法进行下一轮迭代,直到完成所有迭代,得到训练好的LSTM网络模型;
(2)、利用训练后的LSTM网络模型对视频进行行为识别
(2.1)、从待检测视频
Figure FDA0003294810320000025
中提取出视频帧序列和光流序列,并按照步骤(1.1)所示提取出长度为n的时空融合特征序列,作为一条测试数据;
(2.2)、将测试数据按照步骤(1.1)-(1.5)所述方法进行测试,将概率最大的类别作为测试视频行为类别的预测结果;
其中,所述的注意力权重
Figure FDA0003294810320000026
的计算方法为:
根据LSTM网络当前时刻状态,计算第i帧视频的相关性得分
Figure FDA00032948103200000210
Figure FDA0003294810320000027
其中,i=1,2,…,n,等间隔采样输入视频帧序列或光流序列的帧数;Wa、Ua、ba分别为待学习参数,tanh(·)为双曲正切函数;
将所有帧视频的相关性得分进行归一化,得到第i帧视频的注意力权重
Figure FDA0003294810320000028
Figure FDA0003294810320000029
其中,exp(·)为指数函数;
其中,所述的注意力权重
Figure FDA0003294810320000031
满足条件为:
Figure FDA0003294810320000032
CN201810797742.XA 2018-07-19 2018-07-19 一种基于时空融合特征和注意力机制的视频行为识别方法 Active CN109101896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810797742.XA CN109101896B (zh) 2018-07-19 2018-07-19 一种基于时空融合特征和注意力机制的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810797742.XA CN109101896B (zh) 2018-07-19 2018-07-19 一种基于时空融合特征和注意力机制的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN109101896A CN109101896A (zh) 2018-12-28
CN109101896B true CN109101896B (zh) 2022-03-25

Family

ID=64846742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810797742.XA Active CN109101896B (zh) 2018-07-19 2018-07-19 一种基于时空融合特征和注意力机制的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN109101896B (zh)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711380B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN109886104A (zh) * 2019-01-14 2019-06-14 浙江大学 一种基于视频前后帧相关信息感知的运动特征提取方法
CN109858407B (zh) * 2019-01-17 2023-11-10 西北大学 一种基于多种信息流特征和异步融合的视频行为识别方法
CN109800717B (zh) * 2019-01-22 2021-02-02 中国科学院自动化研究所 基于强化学习的行为识别视频帧采样方法及系统
CN109871790B (zh) * 2019-01-30 2022-12-16 天津大学 一种基于混合神经网络模型的视频去色方法
CN110619261B (zh) * 2019-03-05 2022-03-22 北方工业大学 基于多特征融合的人体交互行为识别方法、系统及装置
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN109934845B (zh) * 2019-03-15 2022-11-29 腾讯科技(深圳)有限公司 基于自注意力网络的时序行为捕捉框生成方法及装置
CN110096950B (zh) * 2019-03-20 2023-04-07 西北大学 一种基于关键帧的多特征融合行为识别方法
CN109886358B (zh) * 2019-03-21 2022-03-08 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110059587A (zh) * 2019-03-29 2019-07-26 西安交通大学 基于时空注意力的人体行为识别方法
CN110110601B (zh) * 2019-04-04 2023-04-25 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别方法及装置
CN111832351A (zh) * 2019-04-18 2020-10-27 杭州海康威视数字技术股份有限公司 一种事件检测方法、装置和计算机设备
CN110059662B (zh) * 2019-04-26 2021-03-23 山东大学 一种深度视频行为识别方法及系统
CN110222574B (zh) * 2019-05-07 2021-06-29 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN110119703B (zh) * 2019-05-07 2022-10-04 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110334589B (zh) * 2019-05-23 2021-05-14 中国地质大学(武汉) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110210430A (zh) * 2019-06-06 2019-09-06 中国石油大学(华东) 一种行为识别方法及装置
CN110287820B (zh) * 2019-06-06 2021-07-23 北京清微智能科技有限公司 基于lrcn网络的行为识别方法、装置、设备及介质
CN110222653B (zh) * 2019-06-11 2020-06-16 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110334607B (zh) * 2019-06-12 2022-03-04 武汉大学 一种视频人体交互行为识别方法及系统
CN110516113B (zh) * 2019-06-13 2020-11-17 腾讯科技(深圳)有限公司 一种视频分类的方法、视频分类模型训练的方法及装置
CN110287879B (zh) * 2019-06-26 2023-01-17 天津大学 一种基于注意力机制的视频行为识别方法
CN110197235B (zh) * 2019-06-28 2021-03-30 浙江大学城市学院 一种基于独特性注意力机制的人体活动识别方法
CN110335261B (zh) * 2019-06-28 2020-04-17 山东科技大学 一种基于时空循环注意力机制的ct淋巴结检测系统
CN110399705A (zh) * 2019-07-03 2019-11-01 上海上湖信息技术有限公司 判断欺诈用户的方法、装置、设备、及存储介质
CN110427834A (zh) * 2019-07-10 2019-11-08 上海工程技术大学 一种基于骨架数据的行为识别系统及方法
CN110516536B (zh) * 2019-07-12 2022-03-18 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110562810B (zh) * 2019-08-01 2020-10-23 珠海格力电器股份有限公司 电梯调度方法、装置、计算机设备和存储介质
CN110458085B (zh) * 2019-08-06 2022-02-08 中国海洋大学 基于注意力增强三维时空表征学习的视频行为识别方法
CN110516571B (zh) * 2019-08-16 2022-02-11 东南大学 基于光流注意力神经网络的跨库微表情识别方法及装置
CN110807789A (zh) * 2019-08-23 2020-02-18 腾讯科技(深圳)有限公司 图像处理方法、模型、装置、电子设备及可读存储介质
CN112651267A (zh) * 2019-10-11 2021-04-13 阿里巴巴集团控股有限公司 识别方法、模型训练、系统及设备
CN112668366B (zh) * 2019-10-15 2024-04-26 华为云计算技术有限公司 图像识别方法、装置、计算机可读存储介质及芯片
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法
CN110889335B (zh) * 2019-11-07 2023-11-24 辽宁石油化工大学 基于多通道时空融合网络人体骨架双人交互行为识别方法
CN111079594B (zh) * 2019-12-04 2023-06-06 成都考拉悠然科技有限公司 一种基于双流协同网络的视频动作分类识别方法
CN110956148B (zh) * 2019-12-05 2024-01-23 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
CN111160297B (zh) * 2019-12-31 2022-05-13 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置
CN111222464B (zh) * 2020-01-07 2023-11-07 中国医学科学院生物医学工程研究所 情感分析方法以及系统
CN111241338B (zh) * 2020-01-08 2023-09-15 深圳市网联安瑞网络科技有限公司 一种基于注意力机制的深度特征融合视频拷贝检测方法
CN111241996B (zh) * 2020-01-09 2023-06-02 桂林电子科技大学 一种用于识别视频中人物动作的方法
CN111276133B (zh) * 2020-01-20 2023-01-03 厦门快商通科技股份有限公司 音频识别方法、系统、移动终端及存储介质
CN111310659B (zh) * 2020-02-14 2022-08-09 福州大学 基于增进式图卷积神经网络的人体动作识别方法
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN111382679B (zh) * 2020-02-25 2022-08-02 上海交通大学 帕金森病步态运动障碍严重程度的评估方法、系统及设备
CN111242101A (zh) * 2020-03-08 2020-06-05 电子科技大学 一种基于时空上下文关联的行为识别方法
CN111414846B (zh) * 2020-03-18 2023-06-02 青岛科技大学 基于关键时空信息驱动和组群共现性结构化分析的组群行为识别方法
CN111611847B (zh) * 2020-04-01 2021-04-30 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN111597929B (zh) * 2020-04-30 2023-05-05 青岛科技大学 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN111695422B (zh) * 2020-05-06 2023-08-18 Oppo(重庆)智能科技有限公司 视频标签获取方法、装置、存储介质及服务器
CN113627218A (zh) * 2020-05-08 2021-11-09 北京邮电大学 基于视频数据的人物识别方法及装置
CN111709304B (zh) * 2020-05-21 2023-05-05 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法
CN111626171B (zh) * 2020-05-21 2023-05-16 青岛科技大学 基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法
CN111582230A (zh) * 2020-05-21 2020-08-25 电子科技大学 基于空时特征的视频行为分类方法
CN111666852A (zh) * 2020-05-28 2020-09-15 天津大学 一种基于卷积神经网络的微表情双流网络识别方法
CN113836979A (zh) * 2020-06-24 2021-12-24 顺丰科技有限公司 动作识别方法、装置、计算机设备和存储介质
CN111901598B (zh) * 2020-06-28 2023-10-13 华南理工大学 视频解码与编码的方法、装置、介质及电子设备
CN111860222B (zh) * 2020-06-30 2022-11-18 东南大学 基于稠密-分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质
CN111898458A (zh) * 2020-07-07 2020-11-06 中国传媒大学 基于注意力机制的双模态任务学习的暴力视频识别方法
CN111967340B (zh) * 2020-07-27 2023-08-04 中国地质大学(武汉) 一种基于视觉感知的异常事件检测方法及系统
CN111738218B (zh) * 2020-07-27 2020-11-24 成都睿沿科技有限公司 人体异常行为识别系统及方法
CN111881262B (zh) * 2020-08-06 2022-05-20 重庆邮电大学 基于多通道神经网络的文本情感分析方法
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法
CN112085742B (zh) * 2020-09-04 2024-04-16 厦门大学 一种基于上下文注意力的nafld超声视频诊断方法
CN112131981B (zh) * 2020-09-10 2021-06-22 山东大学 一种基于骨架数据行为识别的司机疲劳检测方法
CN112115849A (zh) * 2020-09-16 2020-12-22 中国石油大学(华东) 基于多粒度视频信息和注意力机制的视频场景识别方法
CN112508058B (zh) * 2020-11-17 2023-11-14 安徽继远软件有限公司 基于音频特征分析的变压器故障诊断方法及装置
CN112395505B (zh) * 2020-12-01 2021-11-09 中国计量大学 一种基于协同注意力机制的短视频点击率预测方法
CN112580557A (zh) * 2020-12-25 2021-03-30 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备和可读存储介质
CN112597921B (zh) * 2020-12-28 2024-02-02 杭州电子科技大学 一种基于注意力机制gru深度学习的人体行为识别方法
CN112613486B (zh) * 2021-01-07 2023-08-08 福州大学 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN112364852B (zh) * 2021-01-13 2021-04-20 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112836602B (zh) * 2021-01-21 2024-04-05 深圳市信义科技有限公司 基于时空特征融合的行为识别方法、装置、设备及介质
CN112989955B (zh) * 2021-02-20 2023-09-29 北方工业大学 基于空时双流异构嫁接卷积神经网络人体动作识别方法
CN112560827B (zh) * 2021-02-24 2021-11-19 北京澎思科技有限公司 模型训练方法、装置、预测方法、电子设备及介质
CN112906609B (zh) * 2021-03-05 2022-06-07 清华大学 基于双路交叉注意力网络的视频重要区域预测方法和装置
CN112818948B (zh) * 2021-03-09 2022-03-29 东南大学 一种嵌入式系统下的基于视觉注意力的行为识别方法
CN113011395B (zh) * 2021-04-26 2023-09-01 深圳市优必选科技股份有限公司 一种单阶段动态位姿识别方法、装置和终端设备
CN113343786B (zh) * 2021-05-20 2022-05-17 武汉大学 基于深度学习的轻量化视频动作识别方法及系统
CN113378722B (zh) * 2021-06-11 2023-04-07 西安电子科技大学 基于3d卷积和多级语义信息融合的行为识别方法及系统
CN113705345B (zh) * 2021-07-21 2023-09-12 西安交通大学 一种基于sta-tsn的人类行为识别方法及系统
CN113673433A (zh) * 2021-08-23 2021-11-19 北京市商汤科技开发有限公司 一种行为识别方法及装置、电子设备和存储介质
CN114173206B (zh) * 2021-12-10 2023-06-06 陕西师范大学 融合用户兴趣和行为特征的低复杂度视点预测方法
CN114550047B (zh) * 2022-02-22 2024-04-05 西安交通大学 一种行为速率引导的视频行为识别方法
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法
CN115205763B (zh) * 2022-09-09 2023-02-17 阿里巴巴(中国)有限公司 视频处理方法及设备
CN116434343B (zh) * 2023-04-25 2023-09-19 天津大学 基于高低频双支路的视频动作识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055434B2 (en) * 2013-10-16 2018-08-21 University Of Tennessee Research Foundation Method and apparatus for providing random selection and long-term potentiation and depression in an artificial network
CN104933417B (zh) * 2015-06-26 2019-03-15 苏州大学 一种基于稀疏时空特征的行为识别方法
CN105550699B (zh) * 2015-12-08 2019-02-12 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
US10929674B2 (en) * 2016-08-29 2021-02-23 Nec Corporation Dual stage attention based recurrent neural network for time series prediction
CN106709461B (zh) * 2016-12-28 2019-09-17 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107273800B (zh) * 2017-05-17 2020-08-14 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107330362B (zh) * 2017-05-25 2020-10-09 北京大学 一种基于时空注意力的视频分类方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法

Also Published As

Publication number Publication date
CN109101896A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109101896B (zh) 一种基于时空融合特征和注意力机制的视频行为识别方法
Abu Farha et al. When will you do what?-anticipating temporal occurrences of activities
CN107330362B (zh) 一种基于时空注意力的视频分类方法
De Geest et al. Modeling temporal structure with lstm for online action detection
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
Panda et al. Contemplating visual emotions: Understanding and overcoming dataset bias
CN108537119B (zh) 一种小样本视频识别方法
Liu et al. Spatial-temporal interaction learning based two-stream network for action recognition
CN110569773A (zh) 基于时空显著性行为注意力的双流网络行为识别方法
Escorcia et al. Guess where? actor-supervision for spatiotemporal action localization
CN111259779A (zh) 一种基于中心点轨迹预测的视频动作检测方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN111984820B (zh) 一种基于双自注意力胶囊网络的视频摘要方法
CN109753884A (zh) 一种基于关键帧提取的视频行为识别方法
CN113807176B (zh) 一种基于多知识融合的小样本视频行为识别方法
CN113705490B (zh) 基于重构和预测的异常检测方法
Bilkhu et al. Attention is all you need for videos: Self-attention based video summarization using universal transformers
Shen et al. Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description.
Wang et al. Sscap: Self-supervised co-occurrence action parsing for unsupervised temporal action segmentation
Dai et al. Tan: Temporal aggregation network for dense multi-label action recognition
Ouchra et al. Object detection approaches in images: A weighted scoring model based comparative study
Chappa et al. SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition
Hou et al. Confidence-guided self refinement for action prediction in untrimmed videos
Xin et al. Recurrent temporal sparse autoencoder for attention-based action recognition
Dastbaravardeh et al. Channel Attention-Based Approach with Autoencoder Network for Human Action Recognition in Low-Resolution Frames

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Xu Jie

Inventor after: Yu Xing

Inventor after: Sheng Shuwei

Inventor after: Wei Haoliang

Inventor before: Xu Jie

Inventor before: Yu Xing

Inventor before: Sheng Shuwei

Inventor before: Wei Haoliang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant