CN104298974B - 一种基于深度视频序列的人体行为识别方法 - Google Patents

一种基于深度视频序列的人体行为识别方法 Download PDF

Info

Publication number
CN104298974B
CN104298974B CN201410529814.4A CN201410529814A CN104298974B CN 104298974 B CN104298974 B CN 104298974B CN 201410529814 A CN201410529814 A CN 201410529814A CN 104298974 B CN104298974 B CN 104298974B
Authority
CN
China
Prior art keywords
msub
space
mrow
time
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410529814.4A
Other languages
English (en)
Other versions
CN104298974A (zh
Inventor
李承锦
孙艳丰
胡永利
张坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201410529814.4A priority Critical patent/CN104298974B/zh
Publication of CN104298974A publication Critical patent/CN104298974A/zh
Application granted granted Critical
Publication of CN104298974B publication Critical patent/CN104298974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度视频序列的人体行为识别方法,该方法计算视频序列内所有像素点的四维法向量,通过在不同时空领域内构建行为序列的时空金字塔模型,提取像素点在不同层的底层特征,基于底层特征学习组稀疏字典,得到底层特征的稀疏编码,利用空间平均池和时间最大池整合编码,从而获得高层特征作为最终行为序列的描述符。这种描述符能够有效保留人体行为时空多分辨率的信息,同时通过消除不同行为类别所含有的相似内容,获得表达力更强的稀疏字典,以有效提高行为识别率。

Description

一种基于深度视频序列的人体行为识别方法
技术领域
本发明属于计算机模式识别的技术领域,具体地涉及一种基于深度视频序列的人体行为识别方法。
背景技术
视觉是人类观察和认识世界的重要途径。随着计算机处理能力的不断提高,我们希望计算机能够具有人类的部分视觉功能,帮助甚至代替人眼和大脑对外界事物进行观察和感知。伴随着计算机硬件处理能力的提高和计算机视觉技术的出现,人们对计算机的这一期望有可能成为现实。人体行为识别一直是模式识别、计算机视觉,人工智能等领域的研究热点。基于视频的人体行为识别的目的是理解和识别人的个体动作,人与人之间的交互运动,人与周围环境的交互关系等。它利用计算机技术,在不需要人为干预或者尽少加入人为干预的条件下,实现基于视频的人体行为识别。尽管这对于人体认知系统而言是一件很简单的本能反映,但对于计算机系统来说,考虑到周围环境的复杂性,人类体态,运动习惯等方面的差异性,准确理解和识别视频中的人体行为具有很大的挑战性。
传统的人体行为识别方法主要是基于彩色信息的。基于时空兴趣点的方法已被大量研究。主要分为时空兴趣点检测和局部特征描述两个步骤。特征广泛应用基于K-means聚类的词袋模型(Bag-of-Words,BOW)表示。具体而言,经典的Cuboid和Harris3D等用来检测特征,HOG3D和3DSIFT等用来描述特征,BOW模型用来表示特征。
但是传统的基于颜色信息的方法,在实际应用中受到了一定的条件约束限制,如果人体图像带有复杂光照变化和大面积同色干扰带来的噪声情况下,很多基于颜色信息的人体行为识别方法的识别率就下降了。
所以出现了很多基于深度信息的方法,考虑到深度信息的稳定性,它是场景中物体到摄像机的距离,是不随着光照等变化而变化,也不受颜色的干扰。相对于颜色信息,深度信息在行为识别中具有以下优势:(1)能提供更多的体型和结构信息,这已经成功的应用到从一幅深度图像恢复骨骼关节点上;(2)在深度图像中不受颜色和纹理的影响,这使得人体检测和分割问题变得更容易;(3)深度传感器不易受光照的变化影响,这对在黑暗的环境中监控系统带来极大的好处;目前基于深度信息的方法大致分为以下二种:(1)基于骨骼关节点构建特征,例如HOJ3D等;(2)基于梯度向量构建特征,例如HON4D等。
现有人体行为识别技术以基于法向量最为流行,基于法向量的人体行为识别方法目前存在以下两点问题:(1)在利用法向量构建描述符时,由于提取的都是基于某点的一层时空邻域内的信息,不能更准确的表示局部描述符的详细信息;(2)为待识别行为的视频序列进行分类时,用过完备字典中的原子来表示待识别视频序列,如果不同行为的视频序列有相似的特征,那么相似的特征也被部分表示了出来,错误得到的表示系数将会降低用于分类的识别率。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于深度视频序列的人体行为识别方法,其能够有针对性地保留局部描述符的多层时空领域内的信息,避免不同类别含有相似内容的信息的干扰,使得字典表达能力更强,大大提高识别率。
本发明的技术解决方案是:这种基于深度视频序列的人体行为识别方法,该方法计算视频序列内所有像素点的四维法向量,通过在不同时空领域内构建行为序列的时空金字塔模型,提取像素点在不同层的底层特征,基于底层特征学习组稀疏字典,得到底层特征的稀疏编码,利用空间平均池和时间最大池整合编码,从而获得高层特征作为最终行为序列的描述符。
本发明构建时空金字塔模型,有针对性的保留局部描述符的多层时空领域内的信息,同时由于采用了组稀疏字典对底层特征进行编码,避免了不同类别含有相似信息的干扰,使得字典表达能力更强,大大提高识别率。
附图说明
图1是根据本发明的基于深度视频序列的人体行为识别方法的流程图。
具体实施方式
如图1所示,这种基于深度视频序列的人体行为识别方法,该方法计算视频序列内所有像素点的四维法向量,通过在不同时空领域内构建行为序列的时空金字塔模型,提取像素点在不同层的底层特征,基于底层特征学习组稀疏字典,得到底层特征的稀疏编码,利用空间平均池和时间最大池整合编码,从而获得高层特征作为最终行为序列的描述符。
本发明构建时空金字塔模型,有针对性的保留局部描述符的多层时空领域内的信息,同时由于采用了组稀疏字典对底层特征进行编码,避免了不同类别含有相似信息的干扰,使得字典表达能力更强,大大提高识别率。
优选地,这种方法包括以下步骤:
(1)初始化一个深度视频序列,构建自适应时空金字塔得到时空单元;
(2)计算4D法向量:计算深度视频序列的所有点的法向量;
(3)利用时空金字塔和局部金字塔模型,从局部时空领域聚集法向量,从而计算多维金字塔向量{Pi},在一个深度视频序列,与每个点关联的多维金字塔向量由这个点在不同时空领域Ω内的N个多维向量连接构成:个数N是由两个参数nl和np决定,其中nl定义为空间金字塔的层数,np定义为每层金字塔内维的个数,与每个点关联的多维向量由这个点Ω领域内的M个法向量连接构成:n1,...,nM∈Ω,邻域Ω是由两个参数ns和nt决定的时空深度子空间,其中ns定义为空间邻域内点的个数,nt定义为时间邻域内点的个数;
(4)稀疏编码:根据学习后的字典和时空单元通过组稀疏编码计算{Pi}对应的系数{xi},{xi}表示{Pi}在组稀疏字典下对应的稀疏系数,是一个与字典列数相同维数的列向量,每个元素表示{Pi}在字典不同基底下的投影;
(5)构建P-SNV描述符:对于网格,i=1:|V|;对于视觉词,k=1:K;对于空间最大池,对于时间最大池,for i=1,...,f;构建表示在第i个网格中,对于第1个视觉词,经过空间平均池和时间最大池得到的向量,表示在第i个网格中,对于第k个视觉词,经过空间平均池和时间最大池得到的向量;得到表示第1个网格对应的描述符,表示第V个网格对应的描述符,将一个视频划分的V个网格整合成该视频的最终描述符P-SNV;
(6)SVM分类;
(7)输出分类结果。
优选地,在所述步骤(1)中深度视频序列用函数表示:R3→R1:z=f(x,y,t),其构成了一个4D平面S,表示为满足S(x,y,t,z)=f(x,y,t)-z=0的点(x,y,t,z)的集合,x,y,t和z分别表示横坐标,纵坐标,帧索引,深度值。
优选地,在所述步骤(2)中面S的法向量通过公式(1)获得:
n为法向量,为对S求偏导,分别表示z对x,y,t求偏导。只有法向量的方向是与4D面S的形状相关。法向量的方向分布能够比传统的梯度方向提供更多的几何信息。
为了保持相邻的法向量之间的相关性,使它们对噪声更具有鲁棒性,本发明利用时空金字塔和局部金字塔模型,从局部时空领域聚集法向量。时空金字塔可以与局部金字塔组合以得到进一步的改善。Pyramid-Polynormal的构成是通过改变局部领域的大小来控制用来计算每个Polynormal的子区域的大小和数量。Pyramid-Polynormal由多层Polynormal构成,用来描述同一图像块在不同层次的细节信息。
优选地,在所述步骤(3)中,在一个深度视频序列中,与每个点关联的多维向量Polynormal由这个点Ω领域内的M个法向量连接构成:n1,...,nM∈Ω;
邻域Ω是由两个参数ns和nt决定的时空深度子空间,其中ns定义为空间邻域内点的个数,nt定义为时间邻域内点的个数,与每个点关联的多维金字塔向量Pyramid-Polynormal由这个点在不同时空领域Ω内的N个Polynormal连接构成:个数N是由两个参数nl和np决定,其中nl为空间金字塔的层数,np为每层金字塔内Polynormal的个数。
在视觉识别领域,一幅图像或一个视频的全局描述符通常是通过提取底层特征,用一个学习后的字典将其编码。编码之后,识别过程中将不再使用底层特征。而在我们的框架中,通过记录它们与视觉词之间的差异来保留底层特征,相关的替换可以提供底层特征的额外信息。我们学习组稀疏字典并对Pyramid-Polynormal进行编码。
在经典的稀疏编码中,如果将一个视频的特征看作一维向量,给定一个冗余字典,那么这个向量在冗余字典下的低维投影就是稀疏表示,投影系数即为稀疏表示系数。给定足够的训练样本,Y=[y1,y2,L,yN]∈RF×N,稀疏编码问题可以表示为:
其中D是F×K维的字典,每一列表示一个视觉词。X是K×N维的系数向量,每一列表示样本yi对应的系数。λ是稀疏正则项。||·||0为l0范数。第一项用来最小化重构误差,第二项用来最小化系数的非零元素个数。然而,上述问题是一个NP-hard问题,因此在稀疏编码文献中,研究专家们使用l1范数来近似,表示为:
在编码阶段,我们希望系数是稳定的,同类的样本变化对系数有较小的影响,提高识别率。为了改善稳定性,我们引入组稀疏,使得在同一组内的系数同时为零或非零。加入组稀疏约束对特定类的字典学习有3个优势。(1)由于同一类的特征倾向于选择同一组中的基底,组内的特征变化可以被压缩。(2)由于同一组内的稀疏系数同时为零或非零,不同子字典的相关基底的影响将会减弱。(3)由于系数具有组聚类的特点,系数分布的随机性将被移除。我们引入l2范数形成弹性网(elastic net)问题。增加弹性网正则项作为租稀疏约束。弹性网正则项是l1范数和l2范数的组合。l1范数促进系数稀疏,l2范数促进系数组聚类。给定一个学习后的字典,其由所有子字典构成,和第i类的输入特征,理想的情况是使用第i类的子字典去重构它。此外,相似的特征应该具有相似的系数。受到其它研究专家的激励,我们提出在特殊字典学习过程中加入组稀疏约束。
给定C个类包含N个特征的训练样本Y=[Y1,...,YC],其中表示第i类的F维样本,我们设计学习一个具有判别力的字典D=[D1,…,DC],总共具有K个基底表示与第i类相关的特殊类的子字典。
优选地,在所述步骤(4)中组稀疏编码表示为:
其中X=[X1,...,XC]表示系数向量,表示第i类的第j个特征的系数,D∈i=[0,...,Di,...,0]具有K列,表示使用字典D重构的最小误差,使得第i类的特征通过属于子字典Di中的基底能很好的重构且不属于该类子字典的基底不能很好的重构,表示组稀疏约束,Yi表示输入样本,||·||表示对向量求其一范数,表示对向量求其F范数,λ1,λ2分别表示l1范数和F范数的正则项系数。
为了捕获全局时空信息,一个深度视频序列被划分成一个时空单元的集合。我们从每个单元提取一个特征向量U,然后连接在一起作为P-SNV描述符。这样表示有几个显著的优势:(1)与SNV相比,我们能捕获到更多层次的时空信息;(2)与视觉词的差异,保留了一些特征在量化过程丢失的信息;(3)使用一个较小的(例如300)并且据说较强判别力的字典来计算P-SNV,增加识别率的同时也减少了计算成本;(4)P-SNV使用简单的线性SVM分类器,在训练和测试阶段效果显著。
由于不同人在执行同一行为时具有不同的运动速度和频率。通过沿时间轴均匀划分一个视频来处理这种变化时是不灵活的。为了处理这种问题,我们使用基于运动能量的自适应的时空金字塔。优选地,在所述步骤(1)中使用三层的时空金字塔:{t0,t4},{t0t2,t2t4}和{t0t1,t1t2,t2t3,t3t4},与空间网格结合,自适应时空金字塔生成nH×nW×7个时空单元,t0,t1,t2,t3,t4分别表示视频按三层的时空金字塔划分对应的帧索引,nH,nW分别表示将每帧图像按行和列划分的份数。
为了验证提出的P-SNV算法的有效性,本发明采用了公共标准数据库:MSRAction3D进行了实验测试。在实验中,生成Pyramid-Polynormal时,我们选择每个点的9×9×3领域,使用三层金字塔。在稀疏编码阶段,每个子字典大小设置为15,λ1=0.15,λ2=0.015。自适应的时空金字塔使用的是典型的4×3×7个时空单元。最后使用线性SVM进行分类。
MSRAction3D是一个通过深度相机获取深度序列的行为数据库。包含10个目标面对相机执行20个行为,每个目标执行每个行为2或3次,共计567个深度视频序列。深度图像的大小为640×480。
为了便于公平的比较,我们在10个目标中,选择第1,3,5,7,9个目标进行训练,第2,4,6,8,10个目标进行测试。本文提出的P-SNV算法的识别率为98.91%,已经远远超越现有的算法,如表1所示。
表1
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (5)

1.一种基于深度视频序列的人体行为识别方法,其特征在于,该方法计算视频序列内所有像素点的四维法向量,通过在不同时空邻域内构建行为序列的时空金字塔模型,提取像素点在不同层的底层特征,基于底层特征学习组稀疏字典,得到底层特征的稀疏编码,利用空间平均池和时间最大池整合编码,从而获得高层特征作为最终行为序列的描述符;
包括以下步骤:
(1)初始化一个深度视频序列,构建自适应时空金字塔得到时空单元;
(2)计算4D法向量:计算深度视频序列的所有点的法向量;
(3)利用时空金字塔和局部金字塔模型,从局部时空邻域聚集法向量,从而计算多维金字塔向量{Pi},在一个深度视频序列,与每个点关联的多维金字塔向量由这个点在不同时空邻域Ω内的N个多维向量连接构成:个数N是由两个参数nl和np决定,其中nl定义为空间金字塔的层数,np定义为每层金字塔内维的个数,与每个点关联的多维向量由这个点Ω邻域内的M个法向量连接构成:n1,...,nM∈Ω,邻域Ω是由两个参数ns和nt决定的时空深度子空间,其中ns定义为空间邻域内点的个数,nt定义为时间邻域内点的个数;
(4)稀疏编码:根据学习后的字典和时空单元通过组稀疏编码计算{Pi}对应的系数{xi},{xi}表示{Pi}在组稀疏字典下对应的稀疏系数,是一个与字典列数相同维数的列向量,每个元素表示{Pi}在字典不同基底下的投影;
(5)构建P-SNV描述符:对于网格,i=1:|V|;对于第k个视觉词dk,k=1:K;对于空间平均池,对于时间最大池,for i=1,...,f;构建 表示在第i个网格中,对于第1个视觉词,经过空间平均池和时间最大池得到的向量,表示在第i个网格中,对于第k个视觉词,经过空间平均池和时间最大池得到的向量;得到 表示第1个网格对应的描述符,表示第V个网格对应的描述符,将一个视频划分的V个网格整合成该视频的最终描述符P-SNV;
(6)SVM分类;
(7)输出分类结果。
2.根据权利要求1所述的基于深度视频序列的人体行为识别方法,其特征在于,在所述步骤(1)中深度视频序列用函数表示:R3→R1:z=f(x,y,t),其构成了一个4D平面S,表示为满足S(x,y,t,z)=f(x,y,t)-z=0的点(x,y,t,z)的集合,x,y,t和z分别表示横坐标,纵坐标,帧索引,深度值。
3.根据权利要求2所述的基于深度视频序列的人体行为识别方法,其特征在于,在所述步骤(2)中面S的法向量通过公式(1)获得:n为法向量,为对S求偏导,分别表示z对x,y,t求偏导。
4.根据权利要求3所述的基于深度视频序列的人体行为识别方法,其特征在于,在所述步骤(4)中组稀疏编码表示为:
<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mrow> <mi>D</mi> <mo>,</mo> <mi>X</mi> </mrow> </munder> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>DX</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>D</mi> <mrow> <mo>&amp;Element;</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mo>&amp;NotElement;</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>1</mn> </msub> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>i</mi> </msub> </munderover> <mo>|</mo> <mo>|</mo> <msubsup> <mi>x</mi> <mi>j</mi> <mi>i</mi> </msubsup> <mo>|</mo> <mo>|</mo> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>d</mi> <mi>k</mi> <mi>T</mi> </msubsup> <mo>,</mo> <msub> <mi>d</mi> <mi>k</mi> </msub> <mo>&amp;le;</mo> <mn>1</mn> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>K</mi> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中X=[X1,...,XC]表示系数向量,表示第i类的第j个特征的系数,D∈i=[0,...,Di,...,0]具有K列,表示使用字典D重构的最小误差,使得第i类的特征通过属于子字典Di中的基底能很好的重构且不属于该类子字典的基底不能很好的重构,表示组稀疏约束,Yi表示输入样本,||·||表示对向量求其一范数,表示对向量求其F范数,λ1,λ2分别表示l1范数和F范数的正则项系数。
5.根据权利要求1所述的基于深度视频序列的人体行为识别方法,其特征在于,在所述步骤(1)中使用三层的时空金字塔:{t0,t4},{t0t2,t2t4}和{t0t1,t1t2,t2t3,t3t4},与空间网格结合,自适应时空金字塔生成nH×nW×7个时空单元,t0,t1,t2,t3,t4分别表示视频按三层的时空金字塔划分对应的帧索引,nH,nW分别表示将每帧图像按行和列划分的份数。
CN201410529814.4A 2014-10-10 2014-10-10 一种基于深度视频序列的人体行为识别方法 Active CN104298974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410529814.4A CN104298974B (zh) 2014-10-10 2014-10-10 一种基于深度视频序列的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410529814.4A CN104298974B (zh) 2014-10-10 2014-10-10 一种基于深度视频序列的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN104298974A CN104298974A (zh) 2015-01-21
CN104298974B true CN104298974B (zh) 2018-03-09

Family

ID=52318695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410529814.4A Active CN104298974B (zh) 2014-10-10 2014-10-10 一种基于深度视频序列的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN104298974B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989358A (zh) * 2016-01-21 2016-10-05 中山大学 一种自然场景视频识别方法
CN105956604B (zh) * 2016-04-20 2019-12-24 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于两层时空邻域特征的动作识别方法
CN106022213B (zh) * 2016-05-04 2019-06-07 北方工业大学 一种基于三维骨骼信息的人体动作识别方法
CN106204635B (zh) * 2016-06-27 2018-11-30 北京工业大学 基于l0最小化的人体连续帧骨骼优化方法
CN107871111B (zh) * 2016-09-28 2021-11-26 苏宁易购集团股份有限公司 一种行为分析方法及系统
EP3321844B1 (en) * 2016-11-14 2021-04-14 Axis AB Action recognition in a video sequence
CN109960965A (zh) * 2017-12-14 2019-07-02 翔升(上海)电子技术有限公司 基于无人机识别动物行为的方法、装置和系统
CN108427967B (zh) * 2018-03-13 2021-08-27 中国人民解放军战略支援部队信息工程大学 一种实时影像聚类方法
CN108681700B (zh) * 2018-05-04 2021-09-28 苏州大学 一种复杂行为识别方法
CN110443813B (zh) * 2019-07-29 2024-02-27 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN111414827B (zh) * 2020-03-13 2022-02-08 四川长虹电器股份有限公司 基于稀疏编码特征的深度图像人体检测方法及系统
CN112749671A (zh) * 2021-01-19 2021-05-04 澜途集思生态科技集团有限公司 一种基于视频的人体行为识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473530A (zh) * 2013-08-30 2013-12-25 天津理工大学 基于多视图和多模态特征的自适应动作识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473530A (zh) * 2013-08-30 2013-12-25 天津理工大学 基于多视图和多模态特征的自适应动作识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于在线词典学习视觉跟踪算法的实现;刘师师,徐学军,李敏;《智能计算机与应用》;20140601;全文 *
基于时空金字塔稀疏编码的动作识别;张晓婧;《中国优秀硕士学位论文全文数据库》;20140815(第2014年08期);全文 *
结合稀疏编码和金字塔匹配的视频检索;甘玲,汪子彧;《计算机工程与应用》;20131101(第2013年21期);正文第1页第2段,第1.1节第1段,第2.1节第1段,第3.1节第1段 *

Also Published As

Publication number Publication date
CN104298974A (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN104298974B (zh) 一种基于深度视频序列的人体行为识别方法
Zhang et al. A lightweight and discriminative model for remote sensing scene classification with multidilation pooling module
CN108717568B (zh) 一种基于三维卷积神经网络的图像特征提取与训练方法
Basu et al. Deepsat: a learning framework for satellite imagery
CN109086773A (zh) 基于全卷积神经网络的断层面识别方法
CN104361363B (zh) 深度反卷积特征学习网络、生成方法及图像分类方法
CN105512661B (zh) 一种基于多模态特征融合的遥感影像分类方法
Soltani-Farani et al. Spatial-aware dictionary learning for hyperspectral image classification
CN105069400B (zh) 基于栈式稀疏自编码的人脸图像性别识别系统
Yao et al. Human action recognition by learning bases of action attributes and parts
CN109615582A (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN107229914B (zh) 一种基于深度q学习策略的手写数字识别方法
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN106778921A (zh) 基于深度学习编码模型的人员再识别方法
CN110119703A (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN107977932A (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN108108699A (zh) 融合深度神经网络模型和二进制哈希的人体动作识别方法
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106651915B (zh) 基于卷积神经网络的多尺度表达的目标跟踪方法
CN108345860A (zh) 基于深度学习和距离度量学习的人员再识别方法
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
Zhu et al. A classification supervised auto-encoder based on predefined evenly-distributed class centroids
CN108734171A (zh) 一种深度协同稀疏编码网络的合成孔径雷达遥感图像海洋浮筏识别方法
CN109063724A (zh) 一种增强型生成式对抗网络以及目标样本识别方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant