CN108960031A - 一种基于分层动力解析与编码的视频动作分类系统及方法 - Google Patents

一种基于分层动力解析与编码的视频动作分类系统及方法 Download PDF

Info

Publication number
CN108960031A
CN108960031A CN201810271460.6A CN201810271460A CN108960031A CN 108960031 A CN108960031 A CN 108960031A CN 201810271460 A CN201810271460 A CN 201810271460A CN 108960031 A CN108960031 A CN 108960031A
Authority
CN
China
Prior art keywords
sequence
stage
appearance features
video
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810271460.6A
Other languages
English (en)
Inventor
苏冰
丁晓青
吴郢
周嘉欢
吕品
徐帆江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201810271460.6A priority Critical patent/CN108960031A/zh
Publication of CN108960031A publication Critical patent/CN108960031A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于分层动力解析与编码的视频动作分类系统及方法,包括表观特征提取模块、动力解析模块、分层动力编码模块以及分类模块;表观特征提取模块从视频的每一帧或每相邻的几帧中提取表观特征,将视频表示成一个表观特征序列或低维状态序列;动力解析模块对表观特征序列或低维状态序列进行时序聚类,用无监督方式将序列分成若干个阶段,得到阶段解析路径;分层动力编码模块,建立一个两层的动力编码结构,在第一层中使用平均池化或排序池化对每个阶段内的图像帧的表观特征进行编码,得到编码序列;在第二层中使用排序池化对编码序列再次进行编码,获得具有固定维数的视频整体表达;分类模块使用支持向量机(SVM)对视频整体表达进行分类。

Description

一种基于分层动力解析与编码的视频动作分类系统及方法
技术领域
本发明属于视频分类技术领域,具体涉及一种基于分层动力解析与编码的视频动作分类系统及方法。
背景技术
视频动作分类的目标是识别出视频中的主体正在执行的动作,在视频安防监控、生物特征识别、行为分析等应用中具有重要作用,因此在计算机视觉领域中受到广泛关注。表观和动力是视频动作的两个重要方面,现有的视频动作分类方法主要可以分为两类:基于表观的方法和基于动力的方法。
基于表观的视频动作表达方法包括人工提取的表观特征表达和从数据中学习的表观特征表达。改进的密集轨迹(improved dense trajectories)【1】是最常用的人工提取的表观表达,该方法首先从视频中提取轨迹特征、HOG、HOF和MBH等局部描述子,然后再用词袋模型、Fisher向量或局部聚集描述符向量【文献2】对这些描述子进行编码,既可以将每一帧中的描述子分别编码得到每一帧的表观表达,也可以对所有帧的描述子统一编码得到整个视频的表观表达。从数据中学习的表观表达通常使用预训练的卷积3D神经网络(C3D)【文献3】,用滑动窗的方法从视频中获取一系列帧级表观特征。
基于动力的视频动作表达方法使用鉴别式或产生式模型对视频动作的动力或运动进行建模,这些模型包括动态时间规整【文献4】、线性动力系统【文献5】、基于光流的深度卷积神经网络【文献6】、回归神经网络【文献7】等。排序池化(rank pooling)【文献8】通过排序学习的方法将一系列有序的帧级表观特征进行池化,将视频动作的动力融入具有固定维数的视频整体表达中。
基于表观的视频动作分类方法没有考虑视频的动力和视频中图像帧之间的时序依赖关系,而动力和时序关系是区分某些动作(比如“起立”和“坐下”)的关键。现有的基于动力的视频动作表达方法或者需要利用复杂的动态模型对视频进行分类,这需要大量训练视频作为监督数据,或者没有考虑动力的时变性质,将不同类型的动力变换不加区分地进行编码,这可能会隐藏视频的关键动力进展,导致对噪声和时序畸变敏感。
【文献1】H.Wang and C.Schmid.Action recognition with improvedtrajectories.In Proceedings of IEEE International Conference on ComputerVision,pages 3551–3558,2013.
【文献2】M.Jain,H.Jégou,and P.Bouthemy,“Better exploiting motion forbetter action recognition,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,Jun.2013,pp.2555–2562.
【文献3】D.Tran,L.Bourdev,R.Fergus,L.Torresani,and M.Paluri,“Learningspatiotemporal features with 3D convolutional networks,”in Proc.IEEEInt.Conf.Comput.Vis.,Dec.2015,pp.4489–4497.
【文献4】J.Wang and Y.Wu,“Learning maximum margin temporal warping foraction recognition,”in Proc.IEEE Int.Conf.Comput.Vis.,Dec.2013,pp.2688–2695.
【文献5】G.Luo,S.Yang,G.Tian,C.Yuan,W.Hu,and S.J.Maybank,“Learninghuman actions by combining global dynamics and local appearance,”IEEETrans.Pattern Anal.Mach.Intell.,vol.36,no.12,pp.2466–2482,Dec.2014.
【文献6】K.Simonyan and A.Zisserman,“Two-stream convolutional networksfor action recognition in videos,”in Proc.Adv.Neural Inf.Process.Syst.,2014,pp.568–576.
【文献7】N.Srivastava,E.Mansimov,and R.Salakhudinov,“Unsupervisedlearning of video representations using LSTMs,”in Proc.32ndInt.Conf.Mach.Learn.(ICML),2015,pp.843–852.
【文献8】B.Fernando,E.Gavves,J.M.Oramas,A.Ghodrati,and T.Tuytelaars,“Modeling video evolution for action recognition,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.,Jun.2015,pp.5378–5387.
【文献9】K.Soomro,A.R.Zamir,and M.Shah,“UCF101:A dataset of 101humanactions classes from videos in the wild,”Center Res.Comput.Vis.,Univ.CentralFlorida,Orlando,FL,USA,Tech.Rep.CRCV-TR-12-01,Nov.2012.
【文献10】I.Laptev,M.Marszalek,C.Schmid,and B.Rozenfeld,“Learningrealistic human actions from movies,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.(CVPR),Jun.2008,pp.1–8.
【文献11】J.C.Niebles,C.-W.Chen,and L.Fei-Fei,“Modeling temporalstructure of decomposable motion segments for activity classification,”inProc.Eur.Conf.Comput.Vis.,Dec.2010,pp.392–405.
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种基于分层动力解析与编码的视频动作分类系统及方法,建立视频动作的多层时序信息和表观信息的联合特征表达,对视频动作进行分类,最终能够无监督地从视频中提取高层有鉴别性的特征表达,有效利用表观特征和动力的分层时序结构两方面的信息,提升视频动作分类的性能。
本发明采取的技术方案是:一种基于分层动力解析与编码的视频动作分类系统,通过动力解析建立视频动作的分层时序结构,对视频动作的非均匀时序动力进行建模,同时将局部平缓动力和整体剧烈动力进行编码,获取融合了表观信息和分层动力信息的视频动作表达。主要包含四个模块:表观特征提取模块、动力解析模块、分层动力编码模块、分类模块。其中
所述表观特征提取模块,使用基于表观的视频动作表达方法,从视频的每一帧或每相邻的几帧中提取表观特征,最终将视频表示成一个表观特征序列,如果表观特征的维数超过设定的阈值高维数,则建立线性动力系统模型提取表观特征序列的低维状态序列;所述表观特征是指颜色、纹理、色调的图像属性特征;
所述动力解析模块,对获取的表观特征序列或低维状态序列进行时序聚类,用无监督地方式将表观特征序列或低维状态序列分成若干个阶段,得到阶段解析路径,即划分出的各个阶段的起始帧的位置序列;
分层动力编码模块,根据动力解析模块的阶段解析路径,建立一个两层的动力编码结构,在第一层中使用平均池化或排序池化对每个阶段内的图像帧的表观特征进行编码,得到由不同阶段的编码组成的编码序列;在第二层中使用排序池化对第一层得到的编码序列进行编码,获得具有固定维数的视频的整体表达;
分类模块,使用支持向量机(SVM)对通过分层编码模块得到的视频的整体表达进行分类,最终得到视频的动作类别标签。
所述动力解析模块,对获取的表观特征序列或低维状态序列进行时序聚类。时序聚类用无监督地方式将表观特征序列或低维状态序列分成若干个阶段,得到阶段解析路径,即划分出的各个阶段的起始帧的位置,其具体实现如下:
(1)输入表观特征序列或低维状态序列,拟划分出的阶段个数L;
(2)用平均分割路径作为初始化阶段解析路径,即将表观特征序列或低维状态序列平均分成L段,将每段的起始帧位置组成的序列作为初始阶段解析路径;
(3)根据当前阶段解析路径,计算每个阶段内的表观特征或低维状态的均值;所有L个阶段的均值组成一个长为L的本质序列;
(4)使用动态时间规整算法计算从表观特征序列或低维状态序列到本质序列之间的对齐路径,即对齐到本质序列的所有L个元素的起始帧的位置组成的序列;用该对齐路径更新阶段解析路径;
(5)判断阶段解析路径是否收敛,如果未收敛,返回(3);如果收敛,输出阶段解析路径。
所述分层动力编码模块具体实现如下:
(1)输入表观特征序列和阶段解析路径;
(2)对每个阶段,将划分到该阶段内的所有帧对应的表观特征通过平均池化或排序池化进行编码,称为第一层编码,得到编码向量;将所有L个阶段的第一层编码向量组成一个序列,作为第一层编码序列;
(3)对第一层编码序列通过排序池化进行编码,称为第二层编码,得到一个具有固定维数的编码向量,将该编码向量作为视频的整体表达输出;
(4)可以继续构建更多层动力编码,将第一层编码序列作为输入,使用动力解析模块,得到该编码序列的阶段解析路径,再返回(2),直到达到指定的层数,将(3)的输出作为视频的整体表达输出。
所述表观特征提取模块设定的高维数为4000;所述低维为15-30维。
本发明的一种基于分层动力解析与编码的视频动作分类方法,包括以下步骤:
(1)对于输入视频,从第t帧中提取的表观特征向量记为xt,所有帧的表观特征组成表观特征序列X=[x1,x2,…,xT],其中T为视频的总帧数,若xt的维数超过设定的高数,则通过线性动态系统求解表观特征序列的低维状态序列为“S=[s1,s2,…,sT],st是对应第t帧的隐状态向量;
(2)以X或S作为输入序列,使用动力解析模块获取输入序列的阶段解析路径,令L表示拟解析出的阶段数,将解析分割路径记为:P=[p1,…,pl,…,pL],其中pl=[sl,el]T表示第l个阶段的起始点范围,l表示1,…,L中的第l个,是个索引号,sl和el分别表示第l个阶段的开始帧和结束帧的索引号,首先用平均分割初始化阶段解析路径P,即将X中的T个特征平均分到L个阶段中;
(3)根据当前的阶段解析路径P,从表观特征序列X或低维状态序列S中计算一个本质序列U=[μ12,…,μL],其中μj是被分到第j个阶段中的所有帧的表观特征或低维状态的均值向量;
(4)根据当前的本质序列U,通过修改后的动态时间规整算法计算从表观特征序列X或低维状态序列S到本质序列U的最优对齐路径,来更新阶段解析路径P,修改后的动态时间规整算法的过程如下:考虑一个将X或S中前i个表观特征对齐到U中前j个均值向量的部分对齐路径,其中X或S中前i个表观特征中的最后l个表观特征被对齐到U中第j个均值向量,d(i,j,l)表示该部分对齐路径中两两对应的向量之间的距离之和,则对于X,所述距离采用如下的回归方式决定:
对于S,所述距离采用如下的回归方式决定:
其中,lm=f·lave,是允许对齐到每个阶段的表观特征个数的最大值,f是用户设定的带宽因子,是均匀分割下每个阶段的长度,该式是一个标准的动态规划过程;当i和j各自达到T和L时,最优对齐路径对应的距离由决定,最优对齐路径采用用反向跟踪的方式获得,将该最优对齐路径作为更新后的阶段解析路径P;
(5)如果阶段解析路径未收敛,即更新后的阶段解析路径和更新前的阶段解析路径的差距大于一个设定的阈值,则返回(3)继续迭代;
(6)如果阶段解析路径收敛,能输出阶段解析路径P;
(7)对每个阶段,将划分到该阶段内的所有帧的表观特征通过平均池化或排序池化进行编码,称为第一层编码,得到第一层编码向量;将所有L个阶段的第一层编码向量组成一个序列,作为第一层编码序列;
(8)对第一层编码序列通过排序池化再次进行编码,称为第二层编码,得到一个具有固定维数的编码向量,将该编码向量作为视频的整体表达;
(9)使用支持向量机对视频整体表达进行分类,输出视频的动作类别标签。
本发明与现有技术相比的有益效果是:
(1)本发明实现了对视频动作的无监督分层动力解析和编码,使用层级结构逐步抽取显著动力,最终生成的视频整体表达融入了高层信息,且对视频动作的速度和局部畸变不敏感;
(2)本发明实现了对特征序列的高效无监督动力解析,能够在不需要任何真值标注和训练的情况下,从序列本身推理出解析结果,将序列分割成多个内部表观平缓变化的阶段;
(3)本发明的视频动作分类方法在多个视频动作数据库上取得了较好的实验结果。比较结果见正文最后,表2-表4。
附图说明
图1为基于分层动力解析与编码的视频动作分类系统组成框架;
图2为分层动力解析与编码流程图;
图3为多层动力编码示意图;
图4为解析阶段数对分类性能的影响图;其中a为Hollywood2数据集下,用BOW对局部表观描述子进行编码得到的特征序列作为输入;b为Hollywood2数据集下,用FV对局部表观描述子进行编码得到的特征序列作为输入;
图5为带宽因子对分类性能的影响图,其中a为Hollywood2数据集下,用BOW对局部表观描述子进行编码得到的特征序列作为输入;b为Hollywood2数据集下,用FV对局部表观描述子进行编码得到的特征序列作为输入。
具体实施方式
下面结合附图和实例对本发明进行详细说明。
如图1所示,本发明提供的基于分层动力解析与编码的视频动作分类系统,主要包含四个模块:表观特征提取模块、动力解析模块、分层动力编码模块以及分类模块。其中表观特征提取模块使用基于表观的视频动作表达方法,从视频的每一帧或每相邻的几帧中提取表观特征,最终将视频表示成一个局部表观特征的序列,如果表观特征的维数过高,则建立线性动力系统模型提取特征序列的低维状态特征序列;动力解析模块对获取的特征序列进行时序聚类,用无监督地方式将序列分成若干个内部平缓变化的阶段,每个阶段对应动作的一个时序结构或关键姿态;分层动力编码模块根据动力解析的结果,在第一层中使用平均池化或排序池化对每个阶段内的局部平缓动力进行编码,得到由这些对应不同阶段的编码组成的序列;在第二层中使用排序池化对阶段间的整体动力进行编码,获得具有固定维数的视频的整体表达;分类模块使用支持向量机(SVM)对通过分层编码模块得到的视频动作的整体表达进行分类。
对于一个记录动作的视频,本发明首先通过表观特征提取模块将视频表示成一系列特征的序列,既可以从每一帧中提取改进的密集轨迹特征,用词袋(BOW)模型或Fisher向量(FV)对每一帧中密集采样点处提取的轨迹、HOG、HOF和MBH描述子进行编码,得到每一帧的特征,又可以用滑动窗的方法,从每一个滑动窗对应的相邻若干帧中,利用3D卷积神经网络(C3D)提取特征,进而将视频表示成每一帧表观特征的序列。将从第t帧中提取的特征向量记为xt,称为帧级表观特征,则从输入视频中提取的表观特征序列表示为X=[x1,x2,…,xT],其中T为视频的长度(总帧数)。
无论是改进的密集轨迹特征还是C3D特征,得到的特征向量的维数都可能较高。这时候可以采用线性动态系统对特征序列进行如下建模:
其中,S=[s1,s2,…,sT]是低维状态序列,st是对应第t帧的隐状态向量。A和B分别是系统动力转移矩阵和表观映射矩阵,γt和ηt分别是对应第t帧的系统噪声和观测噪声。S可以通过对X做SVD分解并截断奇异值求解。X的SVD分解记为:X=UΛVT,其中Λ为对角矩阵,对角线为奇异值;令表示只保持d'个最大的奇异值的对角矩阵,则S可以估计为:st的维数d'远远低于xt的维数d。
表观特征提取模块的输出是表观特征序列X和低维状态序列S。动力解析模块将X或者S解析分割成L个时序阶段,其中解析阶段数L的值由用户设定。以X作为输入为例,将X的解析分割路径记为:P=[p1,p2,…,pL],其中pl=[sl,el]T表示第l个阶段的起始点范围,sl和el分别表示第l个阶段的开始帧和结束帧的索引号。路径P满足如下限制:序列中的同一个帧级表观特征不能被同时分到两个阶段中;序列的每一个帧级表观特征必须且只能被分到一个阶段中;且起始帧索引满足:s1=1,eL=T,
同时,为了避免出现解析阶段的长度极端不平衡的情况,比如某个噪声或异常帧级表观特征被单独划分成一个阶段,对每个阶段的长度做出限制,即每个阶段包含的帧级表观特征的个数不超过lm=f·lave个,f是用户设定的带宽因子,是均匀分割下每个阶段的长度。
给定一个解析路径P,可以从表观特征序列X中计算一个本质序列U=[μ12,…,μL],其中μj是被分到第j个阶段中的所有帧级表观特征的均值向量。序列U中只包含反应X本质进展的基本单元,因此被称为本质序列。每个基本单元可以看成对应动作的一个关键姿态。
反过来,给定了本质序列U后,解析路径P可以通过一个修改后的动态时间规整算法计算从原始特征序列X到U的最优对齐路径来获得。最优对齐路径是指对齐路径上所有被对齐的向量之间的距离之和最小,即:
该对齐算法的过程如下:考虑一个将X中前i个特征对齐到U中前j个向量的部分对齐路径,其中X中前i个特征中的最后l个特征被对齐到U中第j个向量。令
d(i,j,l)表示该部分对齐路径中两两对应的向量之间的距离之和,则该部分距离可用如下的回归方式决定:
该式是一个标准的动态规划过程。当i和j各自达到T和L时,最优对齐路径对应的距离由决定,而最优对齐路径P则可用反向跟踪的方式获得。
本发明动力解析模块中的时序聚类方法通过迭代交替地进行上述两个过程来联合推理P和U。时序聚类方法首先用平均分割初始化解析路径P,即将X中的T个特征平均分割成L个阶段;然后根据解析路径P计算本质序列U;再通过前述的动态时间规整算法通过将X对齐到U来更新解析路径P;而更新后的P又可以导出新的本质序列U;这两个过程可以一直交替迭代下去直至收敛。由于这两个过程都会降低目标函数(1)的值,而目标函数(1)的值有下界0,因此时序聚类方法保证收敛。动力解析模块使用该时序聚类方法对输入的特征序列X或状态序列S进行分割解析,输出解析路径P。
如图2所示,动力解析与分层动力编码模块的示例流程,分层动力编码模块以特征序列X和解析路径P作为输入。在第一层编码中,用平均池化或排序池化对每个阶段内的所有表观特征进行池化编码,得到每个阶段的编码表达。平均池化将阶段内的表观特征的平均向量作为池化向量,该池化向量的维数等于表观特征的维数。而排序池化用一个线性函数对阶段内的表观特征进行排序,用排序学习的方式学习线性函数的系数,通常前向排序和后向排序各学到一组系数,将两组系数连接成的向量作为池化向量,该池化向量的维数等于表观特征维数的二倍。由于阶段内动力的进展是比较平缓的,因此阶段的编码表达融合了表观和平缓局部动力信息。所有阶段的编码表达按阶段的时序顺序组成一个新的序列,称为阶段编码序列,该序列作为第一层编码的输出。
第二层编码进一步用排序池化对第一层编码得到的序列中的向量进行池化,最终得到一个固定维数的向量,该向量将阶段内的编码信息之间的剧烈变化再次进行编码,因此融合了局部平缓动力信息和全局剧烈动力信息。将该向量作为输入视频的整体特征表达,如果第一层使用平均池化,则该表达的维数是帧级表观特征维数的二倍;如果第一层使用排序池化,则该表达的维数是帧级表观特征维数的四倍。
如图3所示,本发明的动力解析模块与分层动力编码模块可以扩展到更多层。在使用分层动力编码模块中的第一层编码得到阶段编码序列后,不直接进行第二层编码,而是使用动力解析模块再次对阶段编码序列进行解析,得到解析路径后,再次使用分层动力编码模块中的第一层编码对阶段编码序列进行编码,得到更短的阶段编码序列。该过程可以一直进行下去,直到阶段编码序列的长度变成1。用户可以设定扩展的层数,对于长度为T的输入视频,最大层数为T-1。在达到用户设定的层数后,使用分层动力编码模块中的第二层编码对最终层的阶段编码序列进行编码,或者对每一层的阶段编码序列分别编码后组合起来,得到最终的视频特征表达。
本发明的前三个模块都是无监督的,仅仅对单个输入视频本身进行处理。在用前三个模块对所有训练视频进行特征表达提取之后,分类模块使用支持向量机(SVM)训练一个多类分类器,或者分别对每个动作类别训练一个两类分类器。对于一个测试视频,首先使用前三个模块将该视频表示成一个固定维数的向量表达,然后在分类模块中使用训练好的SVM分类器进行分类,预测该视频的动作类别。
在本发明的表观特征提取模块中,既可以直接将特征序列,也可以通过LDS从中提取状态序列输入动力解析模块中的时序聚类方法,以获得解析路径;在分层动力编码模块中,第一层编码既可以使用平均池化,也可以使用排序池化。在UCF101数据集【文献9】上,使用C3D提取帧级表观特征后,直接将表观特征序列以及经过LDS建模之后的状态序列进行动力解析,第一层编码中使用平均池化以及排序池化进行编码,在不同的解析阶段数下,对本发明最终视频动作分类的准确率的影响如表1所示。可以观察到在UCF101数据集这种只包含单个动作的视频片段,解析出的阶段内的动力相对平缓,使用平均池化技术可以强化局部表观信息,因此相对于排序池化,整体上平均池化的效果相对较好。
表1
方法 L=5 L=10 L=15 L=20 L=25
特征序列,平均池化 83.44 83.53 83.58 83.34 83.20
状态序列,平均池化 83.46 83.53 83.58 83.36 83.23
特征序列,排序池化 81.98 82.17 82.52 82.58 83.02
状态序列,排序池化 81.97 82.12 82.56 82.75 82.98
本发明提出的基于分层动力解析与编码的视频动作分类方法主要有两个参数:解析阶段数L和带宽因子f。在Hollywood2数据集上,提取改进的密集轨迹特征作为帧级表观特征,固定f的值为2,本发明最终分类性能随着L值从10增加到50时的变化如图4所示,其中a是在提取改进的密集轨迹特征时,用BOW模型对局部描述子进行编码时的性能变化;b示出了用Fisher向量对局部描述子进行编码时的性能变化。可以发现,开始时分类性能随着解析阶段数L的增加而提高,这是因为解析出的时序结构增加,能够获取更多的时序信息;当L超过一定值时,性能不再提高,这是因为过多的解析阶段数会导致冗余阶段,这可能会对第二层编码的排序池化产生干扰。
在Hollywood2数据集【文献10】上,提取改进的密集轨迹特征作为帧级表观特征,固定L的值为20,本发明最终分类性能随着f值从1.2增加到3时的变化如图5所示,其中a是在提取改进的密集轨迹特征时,用BOW模型对局部描述子进行编码时的性能变化;b示出了用Fisher向量对局部描述子进行编码时的性能变化。可以观测到,当f过小时,解析基本被限制为均匀分割,获得的阶段不能反应动作的时序差异;当f过大时,由于异常或噪声帧特征可能被划分成单独的阶段等原因,可能会产生极端不均衡的阶段分割。
在Olympic Sports【文献11】数据集上,本发明方法和不同方法的性能比较如表2所示。在这个数据集上,改进的密集轨迹【文献1】和本发明方法都采用改进的密集轨迹特征作为表观特征,其中局部描述子用词袋模型编码,采用平均精度均值(mean averageprecision,MAP)作为性能指标。在Hollywood2数据集上,本发明方法和不同方法的性能比较如表3所示,改进的密集轨迹【文献1】、排序池化【文献8】和本发明方法都采用改进的密集轨迹特征作为表观特征,其中局部描述子用Fisher向量编码,采用平均精度均值作为性能指标。在UCF101数据集上,本发明方法和不同方法的性能比较如表4所示。在这个数据集上,C3D【文献3】,排序池化【文献8】和本发明方法都使用C3D特征作为帧级表观特征。从表2-4中可以观察到,在不同视频数据集下,提取不同的表观特征作为输入,本发明的方法的实验结果均超过或接近其它方法的结果,取得了较好的动作分类性能。
表2
方法 MAP
改进的密集轨迹【文献1】 83.3
局部聚集描述符向量【文献2】 83.2
本发明方法 89.12
表3
方法 MAP
改进的密集轨迹【文献1】 64.3
局部聚集描述符向量【文献2】 62.5
排序池化【8】 69.6
本发明方法 69.22
表4
方法 准确率
空间支流网络【文献6】 72.6
回归神经网络【文献7】 75.8
C3D【文献3】 82.3
排序池化【文献8】 77.12
本发明方法 83.58
本发明未详细阐述部分属于本领域技术人员的公知技术。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (5)

1.一种基于分层动力解析与编码的视频动作分类系统,其特征在于:包括表观特征提取模块、动力解析模块、分层动力编码模块和分类模块,其中:
所述表观特征提取模块,使用基于表观的视频动作表达方法,从视频的每一帧或每相邻的几帧中提取表观特征,最终将视频表示成一个表观特征序列,如果表观特征的维数超过设定的阈值高维数,则建立线性动力系统模型提取表观特征序列的低维状态序列;所述表观特征指颜色、纹理、色调的图像属性特征;
所述动力解析模块,对获取的表观特征序列或低维状态序列进行时序聚类,用无监督地方式将表观特征序列或低维状态序列分成若干个阶段,得到阶段解析路径,所述阶段解析路径即划分出的各个阶段的起始帧的位置序列;
分层动力编码模块,根据动力解析模块的阶段解析路径,建立一个两层的动力编码结构,在第一层中使用平均池化或排序池化对每个阶段内的图像帧的表观特征进行编码,得到由不同阶段的编码组成的编码序列;在第二层中使用排序池化对第一层得到的编码序列进行编码,获得具有固定维数的视频的整体表达;
分类模块,使用支持向量机(SVM)对通过分层编码模块得到的视频的整体表达进行分类,最终得到视频的动作类别标签。
2.根据权利要求1所述的基于分层动力解析与编码的视频动作分类系统,其特征在于:所述动力解析模块具体实现如下:
(1)输入表观特征序列或低维状态序列,拟划分出的阶段个数L;
(2)用平均分割路径作为初始化阶段解析路径,即将表观特征序列或低维状态序列平均分成L段,将每段的起始帧位置组成的序列作为初始阶段解析路径;
(3)根据当前阶段解析路径计算每个阶段内的表观特征或低维状态的均值;所有L个阶段的均值组成一个长为L的本质序列;
(4)使用动态时间规整算法计算从表观特征序列或低维状态序列到本质序列之间的对齐路径,即对齐到本质序列的所有L个元素的起始帧的位置组成的序列;用该对齐路径更新阶段解析路径;
(5)判断阶段解析路径是否收敛,如果未收敛,返回(3);如果收敛,输出阶段解析路径。
3.根据权利要求书1所述的一种基于分层动力解析与编码的视频动作分类系统,其特征在于:所述分层动力编码模块具体实现如下:
(1)输入表观特征序列和阶段解析路径;
(2)对每个阶段,将划分到该阶段内的所有帧对应的表观特征通过平均池化或排序池化进行编码,称为第一层编码,得到编码向量;将所有L个阶段的第一层编码向量组成一个序列,作为第一层编码序列;
(3)对第一层编码序列通过排序池化进行编码,称为第二层编码,得到一个具有固定维数的编码向量,将该编码向量作为视频的整体表达输出;
(4)可以继续构建更多层动力编码,将第一层编码序列作为输入,使用动力解析模块,得到该编码序列的阶段解析路径,再返回(2),直到达到指定的层数,将(3)的输出作为视频的整体表达输出。
4.根据权利要求书1所述的一种基于分层动力解析与编码的视频动作分类系统,其特征在于:所述表观特征提取模块设定的高维数为4000;所述低维为15-30维。
5.一种基于分层动力解析与编码的视频动作分类方法,其特征在于:包括以下步骤:
(1)对于输入视频,从第t帧中提取的表观特征向量记为xt,所有帧的表观特征组成表观特征序列X=[x1,x2,…,xT],其中T为视频的总帧数,若xt的维数超过设定的高数,则通过线性动态系统求解表观特征序列的低维状态序列为“S=[s1,s2,…,sT],st是对应第t帧的隐状态向量;
(2)以X或S作为输入序列,使用动力解析模块获取输入序列的阶段解析路径,令L表示拟解析出的阶段数,将解析分割路径记为:P=[p1,…,pl,…,pL],其中pl=[sl,el]T表示第l个阶段的起始点范围,l表示1,…,L中的第l个,是个索引号,sl和el分别表示第l个阶段的开始帧和结束帧的索引号,首先用平均分割初始化阶段解析路径P,即将X中的T个特征平均分到L个阶段中;
(3)根据当前的阶段解析路径P,从表观特征序列X或低维状态序列S中计算一个本质序列U=[μ12,…,μL],其中μj是被分到第j个阶段中的所有帧的表观特征或低维状态的均值向量;
(4)根据当前的本质序列U,通过修改后的动态时间规整算法计算从表观特征序列X或低维状态序列S到本质序列U的最优对齐路径,来更新阶段解析路径P;所述修改后的动态时间规整算法的过程如下:考虑一个将X或S中前i个表观特征对齐到U中前j个均值向量的部分对齐路径,其中X或S中前i个表观特征中的最后l个表观特征被对齐到U中第j个均值向量,d(i,j,l)表示该部分对齐路径中两两对应的向量之间的距离之和,则对于X,所述距离采用如下的回归方式决定:
对于S,所述距离采用如下的回归方式决定:
其中,lm=f·lave,是允许对齐到每个阶段的表观特征个数的最大值,f是用户设定的带宽因子,是均匀分割下每个阶段的长度,该式是一个标准的动态规划过程;当i和j各自达到T和L时,最优对齐路径对应的距离由决定,最优对齐路径采用反向跟踪的方式获得,将所述最优对齐路径作为更新后的阶段解析路径P;
(5)如果阶段解析路径未收敛,即更新后的阶段解析路径和更新前的阶段解析路径的差距大于一个设定的阈值,则返回(3)继续迭代;
(6)如果阶段解析路径收敛,能输出阶段解析路径P;
(7)对每个阶段,将划分到该阶段内的所有帧的表观特征通过平均池化或排序池化进行编码,称为第一层编码,得到第一层编码向量;将所有L个阶段的第一层编码向量组成一个序列,作为第一层编码序列;
(8)对第一层编码序列通过排序池化再次进行编码,称为第二层编码,得到一个具有固定维数的编码向量,将该编码向量作为视频的整体表达;
(9)使用支持向量机对视频整体表达进行分类,输出视频的动作类别标签。
CN201810271460.6A 2018-03-29 2018-03-29 一种基于分层动力解析与编码的视频动作分类系统及方法 Pending CN108960031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810271460.6A CN108960031A (zh) 2018-03-29 2018-03-29 一种基于分层动力解析与编码的视频动作分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810271460.6A CN108960031A (zh) 2018-03-29 2018-03-29 一种基于分层动力解析与编码的视频动作分类系统及方法

Publications (1)

Publication Number Publication Date
CN108960031A true CN108960031A (zh) 2018-12-07

Family

ID=64498567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810271460.6A Pending CN108960031A (zh) 2018-03-29 2018-03-29 一种基于分层动力解析与编码的视频动作分类系统及方法

Country Status (1)

Country Link
CN (1) CN108960031A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
WO2020177722A1 (zh) * 2019-03-06 2020-09-10 腾讯科技(深圳)有限公司 一种视频分类的方法、模型训练的方法、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593661A (zh) * 2013-11-27 2014-02-19 天津大学 一种基于排序方法的人体动作识别方法
CN103793054A (zh) * 2014-01-17 2014-05-14 中南民族大学 一种模拟陈述性记忆过程的动作识别方法
CN106845375A (zh) * 2017-01-06 2017-06-13 天津大学 一种基于层级化特征学习的动作识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593661A (zh) * 2013-11-27 2014-02-19 天津大学 一种基于排序方法的人体动作识别方法
CN103793054A (zh) * 2014-01-17 2014-05-14 中南民族大学 一种模拟陈述性记忆过程的动作识别方法
CN106845375A (zh) * 2017-01-06 2017-06-13 天津大学 一种基于层级化特征学习的动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BING SU等: ""Unsupervised Hierarchical Dynamic Parsing and Encoding for Action Recognition"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020177722A1 (zh) * 2019-03-06 2020-09-10 腾讯科技(深圳)有限公司 一种视频分类的方法、模型训练的方法、设备及存储介质
US11941883B2 (en) 2019-03-06 2024-03-26 Tencent Technology (Shenzhen) Company Limited Video classification method, model training method, device, and storage medium
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110135386B (zh) * 2019-05-24 2021-09-03 长沙学院 一种基于深度学习的人体动作识别方法和系统

Similar Documents

Publication Publication Date Title
Li et al. BSNet: Bi-similarity network for few-shot fine-grained image classification
Plummer et al. Conditional image-text embedding networks
CN106778854B (zh) 基于轨迹和卷积神经网络特征提取的行为识别方法
Cong et al. A review of convolutional neural network architectures and their optimizations
Hasan et al. A continuous learning framework for activity recognition using deep hybrid feature models
CN107609460A (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN112668627A (zh) 一种基于对比学习的大规模图像在线聚类系统及方法
CN104809469A (zh) 一种面向服务机器人的室内场景图像分类方法
Li et al. Multiple VLAD encoding of CNNs for image classification
Hu et al. Video2vec: Learning semantic spatio-temporal embeddings for video representation
Ge et al. Fine-grained bird species recognition via hierarchical subset learning
Kindiroglu et al. Temporal accumulative features for sign language recognition
CN108960031A (zh) 一种基于分层动力解析与编码的视频动作分类系统及方法
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
Zhang et al. Knowledge amalgamation for object detection with transformers
CN113779283A (zh) 一种深度监督与特征融合的细粒度跨媒体检索方法
Wang et al. Transhp: Image classification with hierarchical prompting
Gozuacik et al. Turkish movie genre classification from poster images using convolutional neural networks
Jo et al. Cross-modal variational auto-encoder with distributed latent spaces and associators
CN109859062A (zh) 一种结合深度稀疏编码器和拟牛顿法的社区发现分析方法
CN111274908B (zh) 一种人体动作识别方法
Saha et al. Class2str: End to end latent hierarchy learning
Xu et al. Ontological random forests for image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181207

WD01 Invention patent application deemed withdrawn after publication