CN114821669B - 一种基于深度学习的细粒度行为识别方法 - Google Patents

一种基于深度学习的细粒度行为识别方法 Download PDF

Info

Publication number
CN114821669B
CN114821669B CN202210597200.4A CN202210597200A CN114821669B CN 114821669 B CN114821669 B CN 114821669B CN 202210597200 A CN202210597200 A CN 202210597200A CN 114821669 B CN114821669 B CN 114821669B
Authority
CN
China
Prior art keywords
level
fine
ele
grained
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210597200.4A
Other languages
English (en)
Other versions
CN114821669A (zh
Inventor
葛永新
李自强
陈忠明
俞佳若
徐玲
洪明坚
杨梦宁
张小洪
杨丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210597200.4A priority Critical patent/CN114821669B/zh
Publication of CN114821669A publication Critical patent/CN114821669A/zh
Application granted granted Critical
Publication of CN114821669B publication Critical patent/CN114821669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度学习的细粒度行为识别方法,包括如下步骤:选用公开数据集,构建细粒度行为识别模型M,该模型包括基础行为识别模型TSN/TSM和行为扩展模型DFLM两部分;通过M中的基础行为识别模型对公开数据集中的视频进行特征提取,然后根据特征及相应标签构建得到三条支流结构;通过行为扩展模型DFLM执行自底向上和自顶向下两个阶段得到元素级和集合级的新特征;构建损失函数并通过损失函数对模型M进行训练,得到训练好的细粒度行为识别模型;通过将元素级和集合级的新特征输入到现有的分类器模型中,得到最终的细粒度行为识别结果。本发明方法能够对实际中行为间的差异性引起的更为复杂多变的更细粒度行为进行准确的识别。

Description

一种基于深度学习的细粒度行为识别方法
技术领域
本发明涉及细粒度行为识别领域,特别涉及一种基于深度学习的细粒度行为识别方法。
背景技术
由于行为识别任务在安全监控、自动驾驶、自动视频标注等领域都有广泛的应用,该研究在计算机视觉领域中得到了极大的关注。迄今为止,许多行为识别的创新性工作在一些样本数量大的基准数据集(如Kineetics和ActivityNet)上都取得了显著性的进展,然而此类数据集专注于粗粒度类别的行为,如“奔跑”和“潜水”;基于该类数据集训练得到的识别模型会忽略行为主体本身,仅关注背景信息即可完成分类任务:如区分潜水与奔跑这两种行为,此类模型可以用水池和运动场这种背景信息进行判别,然而实际中的行为间的差异性更为复杂多变且更细粒度化,如竞走和跑步;两者行为差异较为细节且往往具有相似的背景信息,基于粗粒度数据集提出的方法并不适合用于此类行为识别任务。因此,对于细粒度行为识别的方法研究也必不可少。
细粒度行为识别的一大挑战在于不同行为间的差异微小且复杂,识别模型难以学习到判别性特征。基于细粒度识别任务的基准数据集提出后,相关研究工作也取得一定进展,如Rohrbach等人对行为发生部分进行空间部分标注,以更好地关注行为间判别性信息;除此技术,也有近期工作利用跨模态或多模态信息来丰富细粒度行为的表示,利用辅助模态信息区分行为间差异,然而,以上方法却忽略了粗粒度和细粒度标签之间的层次语义关系对细粒度行为分类的贡献。
实事上,不同的细粒度行为也会存在一个共同的粗粒度标签,即不同细粒度类别同属于一个共同的粗粒度类别,这种标签关系类似于父母和孩子的关系,即一种层次语义关系;而值得注意的是,同一个父类下的不同子动作往往容易被混淆成同一个动作,这是因为拥有同一粗粒度标签的不同细粒度行为的类间特有语义表征少,反而存在大量相似的共同语义信息;例如,“打开橱柜”和“打开冰箱”的动作具有一致打开过程的语义模式,而操作对象的具体语义信息却不一致;与此同时,在细粒度数据集中,不同粗粒度标签下的细粒度行为之间可以视为简单样本对,即类间差异大,而同一粗粒度标签下的不同细粒度行为是难样本对,且简单样本对的比例是大于难样本对的。因此,若只使用细粒度行为标签进行监督训练,识别模型偏向于简单样本间的特征差异,而少关注难样本间的弱判别性特征信息。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:目前现有技术对视频中的细粒度行为识别不够准确。
为解决上述技术问题,本发明采用如下技术方案:
一种基于深度学习的细粒度行为识别方法,包括如下步骤:
S100:选用包含N个视频数据的公开数据集其中Vi表示第i个视频,每个视频包含该视频的事件级语义标签/>集合级语义标签/>和元素级语义标签/>其中,Ceve、Cset和Cele分别表示事件级、集合级和元素级对应的类别数目;
S200:构建细粒度行为识别模型M,该细粒度行为识别模型M包括基础行为识别模型TSN/TSM和行为扩展模型DFLM;
S300:令i=1;
S310:将第i个视频输入到基础行为识别模型TSN/TSM中,TSN/TSM模型共包含四层结构,从TSN/TSM模型的第二层提取到相应的粗粒度特征xeve∈Rc×h×w,从TSN/TSM模型的第三层提取到相应的中粒度特征xset∈Rc×h×w,从TSN/TSM模型的第四层提取到相应的细粒度特征xele∈Rc×h×w,其中c表示特征通道数,h和w分别表示特征矩阵的高和宽,粗粒度特征xeve对应事件级语义标签yeve,中粒度特征xset对应集合级语义标签yset,细粒度特征xele对应元素级语义标签yele
每种粒度特征与对应的级语义标签构建得到三条支流结构,分别为事件级支流,集合级支流和元素级支流,每条流的监督信息就为对应的级语义标签;
S320:扩展模型DFLM运算包括自底向上阶段和自顶向下阶段两个阶段;
S321:执行自底向上阶段:
S321-1:拼接细粒度特征xele和中粒度特征xset,然后将拼接结果输入到集合级支流中计算元素级行为的共同语义特征通过将/>与粗粒度特征xeve进行拼接,然后将与粗粒度特征xeve的拼接结果输入到事件级支流中计算集合级行为的共同语义特征具体表达式如下:
其中,表示特征拼接操作,Φset和Φeve分别表示集合级支流和事件级支流中的conv1×1层;
S321-2:分别计算集合级分支特征存储向量和事件级分支特征存储向量完成特征存储库的更新过程,计算表达式如下:
其中,i和j分别表示对应共同特征所属较为粗粒度类别的真实标签,λ表示超参数;
S321-3:使用L2均方损失优化对应粗粒度支流得到的共同语义特征,计算表达式如下:
S322:执行自顶向下阶段:
S322-1:计算元素级支流相似矩阵Aele和集合级支流的相似矩阵Aset,计算表达式如下:
其中,Wele和Wset是可学习的矩阵参数,Γ(·)是卷积核大小为1的2D卷积层;
S322-2:对Aele和Aset进行归一化操作,表达式如下:
Cele=softmax(Aele),Cset=softmax(Aset) (5)
其中,softmax(·)表示对变量在列维度进行操作,Cele和Cset分别表示对应的元素级共同注意图和集合级共同注意图,且同时表示了对应的共同语义特征与相应的细粒度特征/>相似语义部分;
S322-3:根据共同注意力图Cele和Cset,通过取反操作计算对应的图Sele和Sset,表达式如下:
Sele=1-Cele,Sset=1-Cset; (6)
S322-4:通过图Sele和Sset提取出细粒度特征中类特有特征,计算表达式如下:
其中,表示细粒度类特有特征,/>表示中粒度类特有特征,Sele∈Rc×hw以及Sset∈Rc×hw
S322-5:采用注意力机制对类特有特征进行激活且保存原始特征,计算表达式如下:
其中,和/>表示用于更新参数的矩阵,σ(·)是基于空间和通道维度的sigmoid激活函数,aele和aset表示相应的类特有注意力权重值,Rc×h×w为Rc×hw的重转化结果;
S322-6:计算激活元素级支流细粒度特征中的类特定信息和集合级支流细粒度特征中的类特定信息,计算表达式如下:
其中,x′ele表示元素级支流细粒度特征的类特定信息,即元素级新特征;x′set表示集合级支流细粒度特征中的类特定信息,即集合级新特征;
S400:计算细粒度行为识别模型M模型的总损失函数,表达式如下:
L=Lc+β·Ls+γ·Lr (10)
其中,β和γ是损失权重调节的超参数;
S500:根据S400中的总损失函数L对细粒度行为识别模型M进行参数更新;
S600:i=i+1;
S700:如果i大于最大迭代次数,则得到训练好的模型M′,并执行下一步;否则返回S310;
S800:将待预测视频的视频数据输入到训练好的模型M′中,得到该待预测视频的元素级新特征x″ele和集合级新特征x″set
S900:将元素级新特征x″ele和集合级新特征x″set输入到现有的分类器模型中,分类器模型的输出结果就是对待预测视频的细粒度行为识别结果。
作为优选,所述S400中计算细粒度行为识别模型M的总损失函数L的具体步骤如下:
S410:计算扩展模型DFLM三条支流预测的分类概率与真实的层次语义标签的损失函数,计算表达式如下:
Lc=CCE(yele,ψ(xele))+CCE(yset,ψ(xset))+CCE(yeve,ψ(xebe)) (11)
其中,CCE(·)表示交叉熵损失函数,ψ(·)表示为细粒度行为识别模型M;
S420:对和/>进行池化操作,然后利用交叉熵损失对池化操作后的/>进行优化,计算表达式如下:
其中,FC(·)表示一个用于生成类别分数的全连接层;
S430:结合S321-3所述损失函数Lr、S410所述损失函数Lc和S420所述损失函数Ls得到模型总损失函数L。
相对于现有技术,本发明至少具有如下优点:
1.本发明呈现了一个新颖的基于层次语义标签的判别特征学习模型(DFLM),以用于细粒度的行为识别。本方法的DFLM由事件级、集合级和元素级三种粒度的分支组成。在前项过程中,可分为自底向上和自顶向下两个子阶段。在自底向上模阶段,粗粒度支流会对细粒度支流中不同细粒度行为的共同语义特征进行捕捉。在自顶向下阶段中,捕捉到的共同语义特征将在较细粒度支流中用于挖掘较细粒度行为的类特有语义特征。而此类特有的语义特征有助于细粒度的动作识别。本方法在细粒度运动数据集Gym99和Gym288上取得了先进的结果,并且相应的消融实验结果亦显示了自底向上和自顶向下阶段的有效性。
2.本发明提出了一个基于层次语义标签的判别性特征学习模型用于细粒度行为识别。
3.本发明设计了自底向上和自顶向下的两个交互阶段,分别用于共同语义特征提取和特有语义特征解构。
4.本发明提出了一种新颖的判别特征学习模型(Discriminative featurelearning model,DFLM),该模型利用粗粒度标签提取出不同细粒度行为的共同语义特征,然后利用共同语义特征对细粒度标签学习的行为特征进行过滤,挖掘出不同细粒度行为间细微的特有特征。所提出的DFLM是基于事件级(粗粒度)、集合级(中粗粒度)和元素级(细粒度)三个分支网络,且不同分支拥有不同粒度的类别标签作为监督信息。
附图说明
图1为DFLM模型的主要流程结构图。
图2为FineGym数据集的结构图。
图3为前三行显示了在元素级、集合级和事件级标签下训练得到的基线(TSN模型)可视化的类激活映射图CAM和CAM-grad。第四行内容则表示将DFLM扩展到TSN模型,通过元素级标签训练后,用于实现类激活映射图的可视化结果。红色圆圈内容表示基线TSN模型会关注支撑杆,而绿色圆圈则表示DFLM并未激活此类背景语义信息。
具体实施方式
下面对本发明作进一步详细说明。
细粒度行为可定义为同一粗粒度行为下的不同子行为,同一粗粒度行为下的子行为间的共同信息是非常多的,导致了子行为之间难以区分的;因此,对于细粒度视频行为识别而言,捕获同一分类下不同子类的判别性特征能有效提高细粒度行为识别精度。对此,本方法在已有的传统行为识别模型TSN\TSM的基础上进行改进,利用细粒度行为的共同语义信息来挖掘细粒度行为的判别性信息,以提高最终的识别性能。本方法改进的对象则是传统识别模型TSN\TSM建模的特征,在该特征的基础上基于层次语义标签提出自底向上和自顶向下两阶段算法过程,以增强该特征的判别性。
参见图1,一种基于深度学习的细粒度行为识别方法,包括如下步骤:
S100:选用包含N个视频数据的公开数据集其中Vi表示第i个视频,每个视频包含该视频的事件级语义标签/>集合级语义标签/>和元素级语义标签/>其中,Ceve、Cset和Cele分别表示事件级、集合级和元素级对应的类别数目;
S200:构建细粒度行为识别模型M,该细粒度行为识别模型M包括基础行为识别模型TSN/TSM和行为扩展模型DFLM;
S300:令i=1;
S310:将第i个视频输入到基础行为识别模型TSN/TSM中,TSN/TSM模型共包含四层结构,从TSN/TSM模型的第二层提取到相应的粗粒度特征xeve∈Rc×h×w,从TSN/TSM模型的第三层提取到相应的中粒度特征xset∈Rc×h×w,从TSN/TSM模型的第四层提取到相应的细粒度特征xele∈Rc×h×w,其中c表示特征通道数,h和w分别表示特征矩阵的高和宽,基础行为识别模型TSN/TSM为现有技术,粗粒度特征xeve对应事件级语义标签yeve,中粒度特征xset对应集合级语义标签yset,细粒度特征xele对应元素级语义标签yele
每种粒度特征与对应的级语义标签构建得到三条支流结构,分别为事件级支流,集合级支流和元素级支流,每条流的监督信息就为对应的级语义标签;三种标签的介绍:集合级标签是事件级标签的子行为标签,元素级标签是集合级标签的子行为标签。
S320:扩展模型DFLM运算包括自底向上阶段和自顶向下阶段两个阶段;
S321:执行自底向上阶段:
S321-1:拼接细粒度特征xele和中粒度特征xset,然后将拼接结果输入到集合级支流中计算元素级行为的共同语义特征通过将/>与粗粒度特征xeve进行拼接,然后将与粗粒度特征xeve的拼接结果输入到事件级支流中计算集合级行为的共同语义特征具体表达式如下:
其中,表示特征拼接操作,Φset和Φeve分别表示集合级支流和事件级支流中的conv1×1层;
S321-2:分别计算集合级分支特征存储向量和事件级分支特征存储向量完成特征存储库的更新过程,计算表达式如下:
其中,i和j分别表示对应共同特征所属较为粗粒度类别的真实标签,λ表示超参数;超参数用于控制特征更新的平衡;
S321-3:使用L2均方损失优化对应粗粒度支流得到的共同语义特征,计算表达式如下:
特征存储库更新完成后,对应的存储特征向量mele和mset会用于约束对应粗粒度支流生成的不同细粒度行为共同特征,使对应的粗粒度支流关注更完整的共同语义特征;通过自底向上过程,提出的模型DFLM可以完备的过滤出对应不同的细粒度行为的共同语义特征。
S322:执行自顶向下阶段:
S322-1:计算元素级支流相似矩阵Aele和集合级支流的相似矩阵Aset,计算表达式如下:
其中,Wele和Wset是可学习的矩阵参数,Γ(·)是卷积核大小为1的2D卷积层,用于将共同语义特征映射到对应细粒度特征的相同分布上;
S322-2:对Aele和Aset进行归一化操作,表达式如下:
Cele=softmax(Aele),Cset=softmax(Aset) (5)
其中,softmax(·)表示对变量在列维度进行操作,Cele和Cset分别表示对应的元素级共同注意图和集合级共同注意图,且同时表示了对应的共同语义特征与相应的细粒度特征/>相似语义部分;
S322-3:根据共同注意力图Cele和Cset,通过取反操作计算对应的图Sele和Sset,图Sele和Sset表示的为共同语义特征与相应的细粒度特征/>之间的差异部分,即特定语义特征信息;表达式如下:
Sele=1-Cele,Sset=1-Cset; (6)
S322-4:通过图Sele和Sset提取出细粒度特征中类特有特征,计算表达式如下:
其中,表示细粒度类特有特征,/>表示中粒度类特有特征,Sele∈Rc×hw以及Sset∈Rc×hw;此处得到的类特有特征/>和/>表示的为同一粗粒度类别下不同细粒度行为的差异信息,因此其未含有充足的语义信息在整个数据集下进行行为分类;
S322-5:采用注意力机制对类特有特征进行激活且保存原始特征,计算表达式如下:
其中,和/>表示用于更新参数的矩阵,σ(·)是基于空间和通道维度的sigmoid激活函数,aele和aset表示相应的类特有注意力权重值,Rc×h×w为Rc×hw的重转化结果;
S322-6:计算激活元素级支流细粒度特征中的类特定信息和集合级支流细粒度特征中的类特定信息,计算表达式如下:
其中,x′ele表示元素级支流细粒度特征的类特定信息,即元素级新特征;x′set表示集合级支流细粒度特征中的类特定信息,即集合级新特征;
S400:计算细粒度行为识别模型M模型的总损失函数,表达式如下:
L=Lc+β·Ls+γ·Lr (10)
其中,β和γ是损失权重调节的超参数,根据实验此处对β和γ分别设置为0.2和0.6;
所述S400中计算细粒度行为识别模型M的总损失函数L的具体步骤如下:
S410:计算扩展模型DFLM三条支流预测的分类概率与真实的层次语义标签的损失函数,计算表达式如下:
Lc=CCE(yele,ψ(xele))+CCE(yset,ψ(xset))+CCE(yeve,ψ(xeve)) (11)
其中,CCE(·)表示交叉熵损失函数,ψ(·)表示为细粒度行为识别模型M;
S420:对和/>进行池化操作,然后利用交叉熵损失对池化操作后的/>进行优化,计算表达式如下:
其中,FC(·)表示一个用于生成类别分数的全连接层;
S430:结合S321-3所述损失函数Lr、S410所述损失函数Lc和S420所述损失函数Ls得到模型总损失函数L。
S500:根据S400中的总损失函数L对细粒度行为识别模型M进行参数更新;
S600:i=i+1;
S700:如果i大于最大迭代次数,则得到训练好的模型M′,并执行下一步;否则返回S310;
S800:将待预测视频的视频数据输入到训练好的模型M′中,得到该待预测视频的元素级新特征x″ele和集合级新特征x″set
S900:将元素级新特征x″ele和集合级新特征x″set输入到现有的分类器模型中,分类器模型的输出结果就是对待预测视频的细粒度行为识别结果,分类器模型为现有技术。
实验设计与结果分析
1.数据集介绍
本发明方法将在2020年所提出的行为识别数据集FineGym上进行验证评估,而该数据集被划分为两个子数据集Gym99和Gym288。图2展现了FineGym数据集的整体结构,其从粗粒度到细粒度过程的类别标签可以分为三个层次,即事件级(event)、集合级(set)和元素级(element)。其中事件级行为具有四个类别,分别是撑手跳、高低杠、平衡木和自由体操四个大的体育项目。集合级中的行为是在时间维度上从事件级行为中划分的子行为,如从平衡木视频中划分出的子动作跳柱旋转、冲跳单脚驻足等。而元素级中的行为类别则是从集合级行为中通过语义决策树更为细粒度地划分而得,其类别表示为更加详尽的语义信息,如三次旋转后立起。其中,每个细粒度类别行为只属于唯一的粗粒度类别,不存在子属类别交并的情景。
FineGym数据集是从体操运动视频中进行采集的,因此该数据集中的动作会更加快速和复杂,更适合应用到细粒度行为的研究工作中。FineGym数据集被划分为Gym99和Gym288,两个数据集的样本分布不一致且有着对应区别,但此两个数据集的标签依旧含有三层次级别。其中,Gym99数据集由20481个训练样本和8519个测试样本组成,其包含4个事件级类别、14个集合级类别和99个元素级类别。而Gym288数据集共有22,653个训练样本和9634个测试样本,其涵盖4个事件级类别、14个集合级类别、288个元素级类别。与Gym99相比,Gym288含有更多的细粒度(元素级)类别数目,且Gym288中训练样本的类别呈长尾分布。因此,Gym288更具有挑战性。
2.实验设置
1)数据预处理
与传统深度行为识别方法一致,本章方法训练过程中的视频数据输入模态为RGB和光流两种。光流模态的输入为单通道数据灰度图,其由原始RGB视频图像帧序列通过TVL1算法计算得到。RGB和光流模态数据会单独作为输入用于训练两个不同模态工作下的独立识别模型,且两种数据会采用随机裁剪、随机翻转等数据增强方式扩充数据多样性。
2)实现细节
DFLM的模型结构过程是端到端的,为了验证模型的有效性,提出的DFLM模型将扩展到两个经典的2D行为识别模型TSN和TSM中,在细粒度数据集中进行训练。其中TSN和TSM使用在ImageNet上预训练后的resnet50作为骨干网络。对于训练过程中的视频数据样本,本方法采用等段间隔随机采样方法选取8个行为帧作为训练数据。采样得到的8个行为帧首先重新调整大小为340×256,随后进行随机裁剪和翻转后,得到大小为224×224的图像序列作为模型最终的输入。DFLM模型是通过Pytorch框架进行实现,并在含有NVIDIA TITAN VGPU下的服务器进行训练。在训练过程中,训练迭代轮次设置为100,而输入样本的批次数目为20,学习率初始化为0.001,且每经过30次训练轮次学习率下降到0.1倍。此外,为防止模型训练过程过拟合,本方法对用于分类的最后全连接层的dropout率设置为0.8。最后,特征存储库的更新参数λ设置为0.001,而SGD优化器被用于对模型参数进行优化。
3)评估指标
依照传统深度行为识别精度评估标准,本方法亦对Gym99和Gym288数据集提供的测试视频样本进行类别分类精度统计,以用于与现有方法进行公正的对比。
3.结果比较
表1在细粒度数据集Gym99上对细粒度行为(元素级)精度与现有方法的比较
方法 模态 精度(%) 模态 精度(%)
TSN RGB 74.8 光流 84.7
TRN RGB 79.9 光流 85.0
TRNms RGB 79.5 光流 85.5
TSM RGB 80.4 光流 87.1
I3D RGB 74.8 光流 -
TSN(本实验实现) RGB 80.12 光流 84.75
TSM(本实验实现) RGB 84.26 光流 87.25
TSN+DFLM(本发明方法) RGB 82.33 光流 87.07
TSM+DFLM(本发明方法) RGB 86.27 光流 89.21
本方法提出的模型DFLM会扩展流行的2D行为识别模型TSN和TSM中以实现其对细粒度行为特有特征挖掘的功能,该方法分别在细粒度数据集Gym99和Gym288上进行测试并等到相应的分类精度结果。表1展现了相关方法在数据集Gym99上的结果,从表中可知本方法取得了最先进的结果。为对比公平,在本方法实验工作亦复现了TSN与TSM在Gym99上的结果。在DFLM扩展到TSN模型后,RGB模态和光流模态下的结果分别增加了2.21%和2.32%。而将DFLM扩展到TSM模型后,分类精度在RGB和光流模态下也得到了提高,这也验证了本方法提出的DFLM模型可扩展到其它的先进2D行为识别模型中,以提高细粒度行为的识别精度。在更具有挑战的数据集Gym288上,表3也表示了提出的模型DFLM的有效性。当DFLM扩展到TSN中,在RGB和光流模态下,其结果都至少提高了2%。而将DFLM扩展到TSM模型中后,分类精度也得到了不错的提升。总之,在Gym99和Gym288两个数据集上的结果都展现了本方法的优越性。
表2在细粒度数据集Gym99上对事件级和集合级行为分类精度进行方法比较
表3在细粒度数据集Gym288上对细粒度行为(元素级)精度与现有方法的比较
方法 模态 精度(%) 模态 精度(%)
TSN RGB 68.3 光流 78.3
TRN RGB 73.7 光流 79.5
TRNms RGB 73.1 光流 79.7
TSM RGB 73.5 光流 81.6
I3D RGB 66.7 光流 -
TSN(本实验实现) RGB 74.56 光流 79.31
TSM(本实验实现) RGB 79.32 光流 82.15
TSN+DFLM(本发明方法) RGB 77.12 光流 81.61
TSM+DFLM(本发明方法) RGB 81.55 光流 84.01
表4在细粒度数据集Gym288上对事件级和集合级行为分类精度进行方法比较
此外,在表2和表4中也展现了本发明方法和行为识别模型TSN与TSM在Gym99和Gym288数据集中对较为粗粒度的行为标签的分类结果,即集合级与事件级行为类别。在表2中,相比于本实验复现的TSN与TSM模型在Gym99上的结果,本方法对于集合级(中等粗粒度)的行为类别识别精度依旧有一定的提高,而对于事件级(粗粒度)的行为类别的分类精度未有提升且有一定结果波动。在表4中,本实验依旧复现TSN与TSM识别模型在Gym288上的识别结果,本方法与在Gym99上的情况一致。相比于TSN与TSM,DFLM在集合级的行为类别识别精度有一定提升,而在事件级行为类别上未有提高。对于此结果,本实验认定DFLM提取的细粒度类特定特征并不能促进粗粒度行为类别的识别,模型利用视频数据的全局表观信息即可完成类别识别,既符合引言中提及的人类识别行为的假设方式。为验证此结论,本部分对于表2与表4的结果进行分析,发现在粗粒度行为类别分类过程中,行为识别模型在RGB模态下的识别精度高于光流模态下的数据结果。而在表1和表3中,对应的识别模型在光流模态下的识别精度远高于RGB模态下细粒度行为类别分类的精度。由此可知,对于细粒度行为分类,模型更需要细节信息,如动作变化的动态轨迹(光流特征)。而在粗粒度行为类别中,RGB模态的粗粒度外观信息足以提供模型对类别的区分。以上分析内容即可支撑本实验上述得出的结论。
本方法提出的DFLM模型在自顶向下阶段利用注意力机制对细粒度行为中类特有语义特征进行激活,以提高细粒度行为识别精度。为更好验证本发明提出的方法对细粒度行为识别的有效性,本部分将常用的注意力机制自注意力机制(SelfAttention)和CBAM[90]同样扩展到行为识别模型TSN和TSM中,在RGB模态下对细粒度数据集Gym99和Gym288进行测试。表5显示了在两个细粒度数据集上,本发明提出的方法的分类精度比以上的注意力机制取得的结果至少高1%,这也验证了本方法的有效性。从功能上分析,自注意力机制是对单帧数据高信息表征出进行自我激活提升,未考虑帧间关系和层次语义关系,而CBAM也只是对特征进行通道上和空间上进行稀疏激活,亦未考虑层次语义关系。相比以上提出的注意力机制,DFLM构建了不同粒度特征间的层次语义联系,通过自底向上的共同特征聚合和自顶向下的类特有特征激活,达成对细粒度行为间判别性信息的挖掘而提升识别精度。
表5在细粒度数据集Gym99和Gym288与现有注意力机制进行结果比较
表6消融实验:在数据集Gym99RGB模态上,不同方法部分添加在模型上的结果
BU FM TD SFC 精度(%)
未有 未有 未有 未有 80.12
未有 未有 含有 未有 81.32
未有 未有 含有 含有 81.68
含有 含有 含有 未有 81.72
含有 未有 含有 含有 82.01
含有 含有 含有 含有 82.33
4.消融实验
为验证本方法中提及的每一个子方法部分对识别模型的贡献度,本部分展开了相应的消融实验,以识别模型TSN作为本方法的基础模型。表6展现了不同消融实验在细粒度数据集Gym99中RGB模态数据下的结果。BU表示自底向上阶段过程但不包含特征存储库;F-M表示构建特征存储库后,对较粗粒度得到的共同语义特征进行正则化约束;TD是自顶向下过程;SFC表示对提取到的类特有特征进行分类交叉熵损失约束。
表6的结果表明,每增加一个方法的子部分都会提升模型对细粒度行为识别的性能。与TSN模型得到的基线结果相比,添加本方法的自顶向下阶段(TD)能够实现1.4%的精度提升,这表明利用细粒度和粗粒度标签的层次语义关系可以很好地用于细粒度行为中的判别性特征的关注,以提高识别性能。同时结果也显示,对自顶向下过程提取到的类特有特征进行分类损失约束(SFC),有助于促进识别模型对判别性特征的更好建模。另外,在此情况下加入自底向上阶段(BU)也提高了模型的识别精度,即0.33%的提升。此结果说明自顶向下阶段可提取到更多共同语义信息,以协助自顶向下阶段挖掘更具有判别性的特征以更好地识别行为。同时,在自底向上阶段构建特征存储库(FM)对细粒度行为的共同语义特征进行约束,也会对识别模型的性能进一步的改进。最后,将本方法的所有子部分结合在识别模型中,那么DFLM模型对细粒度行为识别的精度是最优的。
5.定性分析
本部分通过定性分析方式以更好显示本方法的有效性。在此,图3显示了不同行为帧在不同粒度标签下得到的类激活映射可视化图(CAM和CAM-grad)。在图3的左部分前三行内容显示出事件级、集合级和元素级标签下TSN模型得到的类激活映射图,可以得知类别标签更为细粒度,相应条件下训练得到的模型关注的部分更为细致且更偏向与行为主体本身。如第一行中事件级的CAM更多关注的为单杠部分,而元素级的CAM则更加关注与人体部分,这也验证了提出细粒度行为识别的必要性。同样,对比图3的右部分中的第三行和第四行内容可知,本章方法的类激活图更为聚焦于行为主体部分,这表示DFLM可以促进识别模型TSN更好关注行为信息以提高行为识别性能。同时,图3的右部分显示的类激活映射梯度图(CAM-grad)的第三行和第四行内容亦表现了本方法更为关注行为部分,而不会激活支撑杆类似的背景信息。简而言之,本章提出的DFLM模型在层次标签的引导下更好的挖掘了类特有的判别性特征,增强了细粒度行为间的判别性特征,以提高识别精度。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于深度学习的细粒度行为识别方法,其特征在于:包括如下步骤:
S100:选用包含N个视频数据的公开数据集其中Vi表示第i个视频,每个视频包含该视频的事件级语义标签/>集合级语义标签/>和元素级语义标签其中,Ceve、Cset和Cele分别表示事件级、集合级和元素级对应的类别数目;
S200:构建细粒度行为识别模型M,该细粒度行为识别模型M包括基础行为识别模型TSN/TSM和行为扩展模型DFLM;
S300:令i=1;
S310:将第i个视频输入到基础行为识别模型TSN/TSM中,TSN/TSM模型共包含四层结构,从TSN/TSM模型的第二层提取到相应的粗粒度特征xeve∈Rc×h×w,从TSN/TSM模型的第三层提取到相应的中粒度特征xset∈Rc×h×w,从TSN/TSM模型的第四层提取到相应的细粒度特征xele∈Rc×h×w,其中c表示特征通道数,h和w分别表示特征矩阵的高和宽,粗粒度特征xeve对应事件级语义标签yeve,中粒度特征xset对应集合级语义标签yset,细粒度特征xele对应元素级语义标签yele
每种粒度特征与对应的级语义标签构建得到三条支流结构,分别为事件级支流,集合级支流和元素级支流,每条流的监督信息就为对应的级语义标签;
S320:扩展模型DFLM运算包括自底向上阶段和自顶向下阶段两个阶段;
S321:执行自底向上阶段:
S321-1:拼接细粒度特征xele和中粒度特征xset,然后将拼接结果输入到集合级支流中计算元素级行为的共同语义特征通过将/>与粗粒度特征xeve进行拼接,然后将/>与粗粒度特征xeve的拼接结果输入到事件级支流中计算集合级行为的共同语义特征/>具体表达式如下:
其中,表示特征拼接操作,Φset和Φeve分别表示集合级支流和事件级支流中的conv1×1层;
S321-2:分别计算集合级分支特征存储向量和事件级分支特征存储向量/>完成特征存储库的更新过程,计算表达式如下:
其中,i和j分别表示对应共同特征所属较为粗粒度类别的真实标签,λ表示超参数;
S321-3:使用L2均方损失优化对应粗粒度支流得到的共同语义特征,计算表达式如下:
S322:执行自顶向下阶段:
S322-1:计算元素级支流相似矩阵Aele和集合级支流的相似矩阵Aset,计算表达式如下:
其中,Wele和Wset是可学习的矩阵参数,Γ(·)是卷积核大小为1的2D卷积层;
S322-2:对Aele和Aset进行归一化操作,表达式如下:
Cele=softmax(Aele),Cset=softmax(Aset) (5)
其中,softmax(·)表示对变量在列维度进行操作,Cele和Cset分别表示对应的元素级共同注意图和集合级共同注意图,且同时表示了对应的共同语义特征与相应的细粒度特征/>相似语义部分;
S322-3:根据共同注意力图Cele和Cset,通过取反操作计算对应的图Sele和Sset,表达式如下:
Sele=1-Cele,Sset=1-Cset; (6)
S322-4:通过图Sele和Sset提取出细粒度特征中类特有特征,计算表达式如下:
其中,表示细粒度类特有特征,/>表示中粒度类特有特征,Sele∈Rc×hw以及Sset∈Rc×hw
S322-5:采用注意力机制对类特有特征进行激活且保存原始特征,计算表达式如下:
其中,和/>表示用于更新参数的矩阵,σ(·)是基于空间和通道维度的sigmoid激活函数,aele和aset表示相应的类特有注意力权重值,Rc×h×w为Rc×hw的重转化结果;
S322-6:计算激活元素级支流细粒度特征中的类特定信息和集合级支流细粒度特征中的类特定信息,计算表达式如下:
其中,x′ele表示元素级支流细粒度特征的类特定信息,即元素级新特征;x′set表示集合级支流细粒度特征中的类特定信息,即集合级新特征;
S400:计算细粒度行为识别模型M模型的总损失函数,表达式如下:
L=Lc+β·Ls+γ·Lr (10)
其中,β和γ是损失权重调节的超参数;
S500:根据S400中的总损失函数L对细粒度行为识别模型M进行参数更新;
S600:i=i+1;
S700:如果i大于最大迭代次数,则得到训练好的模型M′,并执行下一步;否则返回S310;
S800:将待预测视频的视频数据输入到训练好的模型M′中,得到该待预测视频的元素级新特征x″ele和集合级新特征x″set
S900:将元素级新特征x″ele和集合级新特征x″set输入到现有的分类器模型中,分类器模型的输出结果就是对待预测视频的细粒度行为识别结果。
2.如权利要求1所述的一种基于深度学习的细粒度行为识别方法,其特征在于:所述S400中计算细粒度行为识别模型M的总损失函数L的具体步骤如下:
S410:计算扩展模型DFLM三条支流预测的分类概率与真实的层次语义标签的损失函数,计算表达式如下:
Lc=CCE(yele,ψ(xele))+CCE(yset,ψ(xset))+CCE(yeve,ψ(xeve)) (11)
其中,CCE(·)表示交叉熵损失函数,ψ(·)表示为细粒度行为识别模型M;
S420:对和/>进行池化操作,然后利用交叉熵损失对池化操作后的/>和/>进行优化,计算表达式如下:
其中,FC(·)表示一个用于生成类别分数的全连接层;
S430:结合S321-3所述损失函数Lr、S410所述损失函数Lc和S420所述损失函数Ls得到模型总损失函数L。
CN202210597200.4A 2022-05-26 2022-05-26 一种基于深度学习的细粒度行为识别方法 Active CN114821669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210597200.4A CN114821669B (zh) 2022-05-26 2022-05-26 一种基于深度学习的细粒度行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210597200.4A CN114821669B (zh) 2022-05-26 2022-05-26 一种基于深度学习的细粒度行为识别方法

Publications (2)

Publication Number Publication Date
CN114821669A CN114821669A (zh) 2022-07-29
CN114821669B true CN114821669B (zh) 2024-05-31

Family

ID=82519837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210597200.4A Active CN114821669B (zh) 2022-05-26 2022-05-26 一种基于深度学习的细粒度行为识别方法

Country Status (1)

Country Link
CN (1) CN114821669B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646287A (zh) * 2012-03-21 2012-08-22 浙江工业大学 一种基于场景漫游的虚拟森林仿真信息多级联动方法及其系统
CN110852273A (zh) * 2019-11-12 2020-02-28 重庆大学 一种基于强化学习注意力机制的行为识别方法
WO2021050772A1 (en) * 2019-09-12 2021-03-18 Nec Laboratories America, Inc. Action recognition with high-order interaction through spatial-temporal object tracking
CN113159105A (zh) * 2021-02-26 2021-07-23 北京科技大学 一种驾驶行为无监督模式识别方法及数据采集监控系统
CN113569895A (zh) * 2021-02-20 2021-10-29 腾讯科技(北京)有限公司 图像处理模型训练方法、处理方法、装置、设备及介质
CN113887580A (zh) * 2021-09-15 2022-01-04 天津大学 一种考虑多粒度类相关性的对比式开放集识别方法及装置
CN114529842A (zh) * 2022-02-23 2022-05-24 北京大学深圳研究生院 一种基于知识引导下双向注意力机制的人物交互检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5703194B2 (ja) * 2011-11-14 2015-04-15 株式会社東芝 ジェスチャ認識装置、その方法、及び、そのプログラム
CN110807465B (zh) * 2019-11-05 2020-06-30 北京邮电大学 一种基于通道损失函数的细粒度图像识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646287A (zh) * 2012-03-21 2012-08-22 浙江工业大学 一种基于场景漫游的虚拟森林仿真信息多级联动方法及其系统
WO2021050772A1 (en) * 2019-09-12 2021-03-18 Nec Laboratories America, Inc. Action recognition with high-order interaction through spatial-temporal object tracking
CN110852273A (zh) * 2019-11-12 2020-02-28 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN113569895A (zh) * 2021-02-20 2021-10-29 腾讯科技(北京)有限公司 图像处理模型训练方法、处理方法、装置、设备及介质
CN113159105A (zh) * 2021-02-26 2021-07-23 北京科技大学 一种驾驶行为无监督模式识别方法及数据采集监控系统
CN113887580A (zh) * 2021-09-15 2022-01-04 天津大学 一种考虑多粒度类相关性的对比式开放集识别方法及装置
CN114529842A (zh) * 2022-02-23 2022-05-24 北京大学深圳研究生院 一种基于知识引导下双向注意力机制的人物交互检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Procedural Generation of Videos to Train Deep Action Recognition Networks;César Roberto De Souza等;《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition》;20171109;全文 *
基于CSI的行为识别研究综述;王正杰等;计算机工程与应用;20180301(05);全文 *
基于深度特征学习的视频行为识别与定位方法研究;李自强;《万方数据》;20231101;全文 *

Also Published As

Publication number Publication date
CN114821669A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
Li et al. Spatial attention pyramid network for unsupervised domain adaptation
Zhang et al. Citypersons: A diverse dataset for pedestrian detection
Chen et al. Importance-aware semantic segmentation for autonomous vehicles
Chu et al. Multi-task vehicle detection with region-of-interest voting
CN101894276B (zh) 人体动作识别的训练方法和识别方法
CN109583562A (zh) Sgcnn:结构的基于图的卷积神经网络
CN112396027A (zh) 基于图卷积神经网络的车辆重识别方法
Li et al. A generative/discriminative learning algorithm for image classification
Xiao et al. BASeg: Boundary aware semantic segmentation for autonomous driving
He et al. Learning hybrid models for image annotation with partially labeled data
Zhu et al. Efficient action detection in untrimmed videos via multi-task learning
CN105719285A (zh) 一种基于方向倒角距离特征的行人检测方法
Srihari et al. A four-stream ConvNet based on spatial and depth flow for human action classification using RGB-D data
Pei et al. Localized traffic sign detection with multi-scale deconvolution networks
Tian et al. Multi-scale hierarchical residual network for dense captioning
Tzelepis et al. Learning to detect video events from zero or very few video examples
Bao et al. Hierarchical scene normality-binding modeling for anomaly detection in surveillance videos
CN116363374A (zh) 图像语义分割网络持续学习方法、系统、设备及存储介质
Kong et al. Spatiotemporal saliency representation learning for video action recognition
Yang et al. Bottom-up foreground-aware feature fusion for practical person search
Tian et al. Domain adaptive object detection with model-agnostic knowledge transferring
Zhu et al. Dual attention interactive fine-grained classification network based on data augmentation
CN114821669B (zh) 一种基于深度学习的细粒度行为识别方法
Yang et al. Learning discriminative motion feature for enhancing multi-modal action recognition
Li et al. Deep selective feature learning for action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant