CN110532960A - 一种基于图神经网络的目标辅助的动作识别方法 - Google Patents

一种基于图神经网络的目标辅助的动作识别方法 Download PDF

Info

Publication number
CN110532960A
CN110532960A CN201910817670.5A CN201910817670A CN110532960A CN 110532960 A CN110532960 A CN 110532960A CN 201910817670 A CN201910817670 A CN 201910817670A CN 110532960 A CN110532960 A CN 110532960A
Authority
CN
China
Prior art keywords
video
frame
feature
neural network
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910817670.5A
Other languages
English (en)
Other versions
CN110532960B (zh
Inventor
王乐
翟长波
谭浩亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910817670.5A priority Critical patent/CN110532960B/zh
Publication of CN110532960A publication Critical patent/CN110532960A/zh
Application granted granted Critical
Publication of CN110532960B publication Critical patent/CN110532960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图神经网络的目标辅助的动作识别方法,包括:首先利用深度神经网络计算视频每一帧的深度特征,并且根据每一帧的深度特征来提取视频帧内每一个目标边界框对应目标的特征,这些目标之间具有交互关系或者在时间前后具有对应关系,利用这些目标的特征和它们之间的关系构建图模型;然后构建两个映射函数自动的计算任意两个节点之间的相似度,用此相似度来控制图模型上节点特征信息的迭代更新过程中的信息交互,对图模型上节点的特征进行迭代更新;最后利用更新之后的目标特征和原视频的特征进行动作分类来实现视频的动作识别,可提升动作识别的准确性。

Description

一种基于图神经网络的目标辅助的动作识别方法
技术领域
本发明属于计算机视觉与模式识别技术领域,特别涉及一种基于图神经网络的目标辅助的动作识别方法。
背景技术
视频动作识别作为视频处理的关键步骤,对视频的分析和处理有很大影响,在理论和实际应用中具有重要的研究价值。目前现有的视频动作识别技术普遍存在以下几个问题:(1)大多数视频动作识别方法是基于深度神经网络提取视频的特征,然后对视频特征进行分类;现实中的动作都会有时间上的前后关联或者人物之间的交互,这种方法并没有考虑视频中目标之间和帧之间的关系,会导致分类鲁棒性较差。(2)通过对视频帧进行密集采样,利用帧之间时序相关性构造时间图来辅助动作定位;这种时间图模型仅仅利用了视频中目标之间的时间关系,没有利用目标和交互物体之间的关系。
人类的动作大多都和其他物体有交互,比如“看书”这个动作就和“书”有交互;利用目标与交互的物体之间的关系和目标前后时间之间的关系可以辅助动作识别,提高动作识别的准确率,但是目前还没有方法尝试利用这种关系。
综上,亟需一种新的基于图神经网络的目标辅助动作识别方法。
发明内容
本发明的目的在于提供一种基于图神经网络的目标辅助的动作识别方法,以解决上述存在的视频动作识别准确率较低的技术问题。本发明的方法,基于端对端的目标辅助的图模型,有效的利用了视频中目标前后帧之间的关系,以及目标与交互物体之间的关系,可提高视频动作识别的准确率。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于图神经网络的目标辅助的动作识别方法,包括以下步骤:
步骤1,对待动作识别的原视频进行降采样,采样获得的视频帧序列为V={v1,v2,...,vi,...vT},其中vi表示第i个视频帧,共采样出T帧;将视频帧序列输入给深度神经网络,获得每一帧的深度特征;
步骤2,根据视频帧序列中每一帧的深度特征以及其对应的帧内目标的边界框信息,提取获得每一帧内所有目标边界框的特征;通过所有目标边界框的特征对图模型的节点进行初始化,获得初始化后的图模型;
步骤3,构造两个映射函数,通过映射函数计算图模型中任意两个节点之间的相似性;
步骤4,根据步骤3中构建的映射函数,通过图更新的过程迭代更新图模型的节点特征信息,直到节点特征达到收敛;
步骤5,对更新之后的节点特征进行平均池化得到目标交互特征表示,对视频帧序列所有帧的深度特征进行平均池化得到全局视频特征表示;将池化得到的目标交互特征和全局视频特征拼接获得最终的视频特征表示,对最终的视频特征进行分类,完成动作识别。
本发明的进一步改进在于,步骤1中,将视频帧输入给深度神经网络,获得每一帧的深度特征的具体步骤包括:将每一帧的图像大小通过双线性插值调整为固定预设大小像素,然后将每一帧图像输入给一个深度神经网络得到每一帧的深度特征;
其中,深度神经网络的输出特征图大小为W×H,通道数位C。
本发明的进一步改进在于,步骤2具体包括:
图模型的节点用V中所有视频帧内的边界框对应的特征来初始化,对于视频中的第t帧vt,t∈{1,2,...,T},有Nt个目标边界框,将每个边界框对应位置的特征在特征图中提取出来并调整为固定大小7×7×C;然后对每个特征通道的特征进行最大池化得到尺度为1×1×C的该物体的特征表示;对于vt,得到的所有目标边界框的特征为:
其中,Xt为第t帧上所有目标边界框对应的特征, 为第t帧上第Nt个边界框对应的特征,
视频帧序列V中所有帧的目标边界框的特征表示为:
其中,X表示整个视频所有帧的边界框的特征,
本发明的进一步改进在于,步骤3中,对于任意两个节点xi,k和xj,g,相似性分数计算过程如下:
其中,f(xi,k,xj,g)为节点xi,k和xj,g之间的相似度,i,j∈{1,2,...,T},k∈{1,2,...,Ni},g∈{1,2,...,Ng},Θ、bθ和Φ、分别为两个映射函数的参数,
获得关系矩阵表达式为:
然后对矩阵进行归一化,使得矩阵每一行数值的和为1,表达式为:
其中,fnorm为归一化后的相似性,i∈{1,2,...,T},k∈{1,2,...,Ni}。
本发明的进一步改进在于,步骤4中,通过图更新的过程迭代更新图模型的节点特征信息,直到节点特征达到收敛的过程中,第s次迭代时的更新过程为:
Xs=Xs-1+Fnorm(Xs-1)·Xs-1
其中,Xs是第s次迭代之后所有节点的特征,X0为步骤2中初始化的节点信息,s∈{1,2,...,S},总的次数S可设置;最终的节点状态
本发明的进一步改进在于,步骤5中,
对所有节点更新之后的节点特征进行平均池化得到关系特征表示rOAG对视频帧序列V中每一帧的深度特征进行平局池化得到平均池化得到全局视频特征表示rGlobal将池化获得的两种特征拼接,得到最终的视频特征表示r=[rOAG,rGlobal],
最后对特征r进行分类,得到预测的动作类别,完成动作识别。
与现有技术相比,本发明具有以下有益效果:
本发明的方法,首先利用深度神经网络计算视频每一帧的深度特征,并且根据深度特征来提取视频帧内每一个目标边界框对应目标的特征,这些目标之间具有交互关系或者在时间前后具有对应关系,利用这些目标的特征和它们之间的关系构建图模型;然后构建映射函数自动计算任意两个节点之间的相似度,用此相似度来控制图模型上节点特征信息的迭代更新过程中的信息交互;对图模型上节点的特征进行迭代更新;最后利用更新之后的目标特征和视频帧序列的特征进行动作分类来实现视频的动作识别,能够提升动作识别的准确性。综上,本发明的动作识别方法,通过一种端对端的目标辅助图模型,能够有效利用视频中目标前后帧之间的关系和目标与交互物体之间的关系,可以提高动作识别的准确率。
进一步地,通过构建两个简单的映射函数自动的计算任意两个节点之间的相似度,用此相似度来控制图模型上节点特征信息的迭代更新过程中的信息交互。
进一步地,视频中的目标具有时间关系,而且人在做动作时会与其他物体有交互,这两种关系都可以用来辅助进行动作识别,本发明方法用图模型来建模这两种关系,进而可提高动作识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中,验证数据集(Object-Charades)动作的类别和步骤1中检测出来的目标边界框示意图;
图2是本发明实施例的一种基于图神经网络的目标辅助的动作识别方法的流程示意图;
图3是本发明实施例中,图神经网络模型框架示意图;其中,图3(a)为模型的输入示意图,输入包括采样的视频帧序列和对应的目标边界框;图3(b)为提取每一帧的深度特征的示意图,每一帧得到的特征图大小为W×H,通道数位C;图3(c)为初始化图模型和图模型更新的过程示意图;图3(d)为完成动作识别的示意图;
图4是本发明实施例中,在Object-Charades数据集上某些动作类别上相比于未采用目标辅助的基准模型的性能提升示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图2,本发明实施例的一种基于图神经网络的目标辅助的动作识别方法,包含以下步骤:
步骤1,输入待动作识别的原视频,对视频进行降采样以消除视频的冗余信息,采样出来的视频帧序列为V={v1,v2,...,vT},其中vi表示第i个视频帧;所述视频中一共采样出T帧,将V输入到一个深度神经网络来提取每一帧的深度特征;
步骤2,根据每一帧的深度特征和对应的帧内目标的边界框信息,提取出每个目标边界框的特征,利用这些特征对图模型的节点进行初始化,构建获得初始化后的图模型;
步骤3,构造两个简单的映射函数来计算图模型中任意两个节点之间的相似性;其中,映射函数的参数可以通过网络的迭代过程自动更新学习;
步骤4,根据步骤3中的映射函数,通过图更新的过程迭代更新节点特征信息,直到节点特征达到收敛;
步骤5,对更新之后的节点特征进行平均池化得到目标交互特征表示,同时对视频帧序列所有帧的特征进行平均池化得到全局视频特征表示;把这两个池化之后的特征拼接起来得到最终的视频特征表示,然后对该特征进行分类就可以得到该视频的动作类别,完成动作识别。
综上所述,本发明公开了一种基于图卷积网络的目标辅助的动作识别方法,属于模式识别与计算机视觉领域,本发明针对一段包含某个动作实例的视频,主要思路是首先利用深度神经网络计算视频每一帧的深度特征,并且根据每一帧的深度特征来提取视频帧内每一个目标边界框对应目标的特征,这些目标之间具有交互关系或者在时间前后具有对应关系,利用这些目标的特征和它们之间的关系构建图模型;然后构建两个简单的映射函数自动的计算任意两个节点之间的相似度,用此相似度来控制图模型上节点特征信息的迭代更新过程中的信息交互;然后对图模型上节点的特征进行迭代更新。最后利用更新之后的目标特征和原视频的特征进行动作分类来实现视频的动作识别,提升动作识别的准确性。
实施例
请参阅图1,图1是验证本发明方法可行性的公开数据集Object-Charades:该数据集是一个大型的多标签的视频数据集,里面的动作都包含人物交互,视频的真值信息包含该视频的动作和视频中每一帧内的人和与之交互的物体的边界框,这些边界框是用一个预训练的目标检测器检测出来的。该数据集包含52类动作,超过7000段视频,平均每个视频的长度是30秒左右,其中的动作发生的场景都是在室内。如图1所示,每个图片代表一个视频,视频中包含人和交互物体的边界框,图片下面是该视频的动作标签。
请参阅图2,本发明实施例的一种基于图神经网络的目标辅助的动作识别方法,具体包括以下步骤:
步骤1:深度特征提取:
对一个视频进行降采样,采样出来的视频帧序列为V={v1,v2,...,vT},其中vi表示第i个视频帧,该视频中一共采样出T帧;并把每一帧的图像大小通过双线性插值调整为224×224像素,然后把每一帧图像输入给一个深度神经网络得到每一帧的深度特征,如图3(b)所示,网络的输出特征图大小为W×H,通道数位C。
步骤2:构建图模型并初始化:
视频中的目标具有时间关系,而且人在做动作时会与其他物体有交互,这两种关系都可以用来辅助进行动作识别,本方法用图模型来建模这两种关系。图模型的节点用V中所有视频帧内的边界框对应的特征来初始化,对于视频中的第t帧vt(t∈{1,2,...,T}),有Nt个目标边界框,将每个边界框对应位置的特征在特征图中提取出来并调整为固定大小7×7×C,然后对每个特征通道的特征进行最大池化得到尺度为1×1×C的该物体的特征表示,则对于vt,得到的所有特征为:
其中,Xt为第t帧上所有边界框对应的特征, 为第t帧上第Nt个边界框对应的特征,
整个视频所有帧的边界框的特征表示为:
其中,X表示整个视频所有帧的边界框的特征,
如图3(c)所示,用所有的边界框特征来初始化图模型的节点。
步骤3:计算节点之间的相似度:
在图的迭代更新过程中,需要计算每对节点之间的相关性,并以此为基础计算每个节点更新时的传入信息。本发明利用了两个简单的映射函数来计算任意两个节点之间的相关性,对于节点xi,k和xj,g,相似性分数计算过程如下:
其中,f(xi,k,xj,g)为节点xi,k和xj,g之间的相似度,i,j∈{1,2,...,T},k∈{1,2,...,Ni},g∈{1,2,...,Ng},Θ、bθ和Φ、分别为两个映射函数的参数,在后面图更新的过程中映射函数的参数也会自动学习更新。
最终可以得到一个关系矩阵:
然后对该矩阵进行归一化让矩阵每一行数值的和为1,即:
其中,fnorm为归一化后的相似性,i∈{1,2,...,T},k∈{1,2,...,Ni}。
步骤4,图节点更新:
图的更新过程迭代进行,本发明根据步骤3来自动计算每次迭代时节点之间的相似度。在第s次迭代时的更新过程为:
Xs=Xs-1+Fnorm(Xs-1)·Xs-1
其中,Xs是第s次迭代之后所有节点的特征,X0为步骤2中初始化的节点信息,s∈{1,2,...,S},总的次数S是可以设置的。最终的节点状态
步骤5:动作分类:
最终的视频特征表示由视频中所有帧的深度特征和图更新之后的节点特征拼接得到。如图3(d)所示,对所有节点更新之后的特征进行平均池化得到关系特征表示rOAG然后对所有视频帧的特征进行平局池化得到平均池化得到全局视频特征表示rGlobal对以上两种特征拼接得到最终的视频特征表示r=[rOAG,rGlobal],
最后对特征r进行分类得到预测的动作类别。
表1和表2是Obiect-Charades数据集上动作识别方法的实验结果,其中表1中的方法基准网络是2D网络,表2中的方法的基准网络是3D网络。
表1.2D基准网络在Object-Charades数据集上的实验结果
表2.3D基准网络在Object-Charades数据集上的实验结果
表1和表2分别是2D基准网络和3D基准网络(提取深度特征的网络模型)在Object-Charades数据集上的实验结果,实验结果的评价指标是平均准确率。从表1和表2中,加入本发明方法之后动作识别的性能相比于基准网络提高了两个百分点左右。图4是在2D网络的基础上,右侧和左侧分别是本发明方法相对于基准网络分类结果提升和下降的前10个类别,从图中可以看出本发明方法带来的性能收益远大于性能下降。综合表1、表2和图4中可以看出,本发明采用基于图卷积网络的目标辅助的动作识别方法,利用人和物体之间的交互辅助进行动作识别,有效的提高了动作识别的准确率。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (9)

1.一种基于图神经网络的目标辅助的动作识别方法,其特征在于,包括以下步骤:
步骤1,对待动作识别的原视频进行降采样,采样获得的视频帧序列为V={v1,v2,…,vi,…vT},其中vi表示第i个视频帧,共采样出T帧;将视频帧序列输入给深度神经网络,获得每一帧的深度特征;
步骤2,根据视频帧序列中每一帧的深度特征以及其对应的帧内目标的边界框信息,提取获得每一帧内所有目标边界框的特征;通过所有目标边界框的特征对图模型的节点进行初始化,获得初始化后的图模型;
步骤3,构造两个映射函数,通过映射函数计算图模型中任意两个节点之间的相似性;
步骤4,根据步骤3中构建的映射函数,通过图更新的过程迭代更新图模型的节点特征信息,直到节点特征达到收敛;
步骤5,对更新之后的节点特征进行平均池化得到目标交互特征表示,对视频帧序列所有帧的深度特征进行平均池化得到全局视频特征表示;将池化得到的目标交互特征和全局视频特征拼接获得最终的视频特征表示,对最终的视频特征进行分类,完成动作识别。
2.根据权利要求1所述的一种基于图神经网络的目标辅助的动作识别方法,其特征在于,步骤1中,将视频帧输入给深度神经网络,获得每一帧的深度特征的具体步骤包括:将每一帧的图像大小通过双线性插值调整为固定预设大小像素,然后将每一帧图像输入给一个深度神经网络得到每一帧的深度特征;
其中,深度神经网络的输出特征图大小为W×H,通道数位C。
3.根据权利要求2所述的一种基于图神经网络的目标辅助的动作识别方法,其特征在于,步骤2具体包括:
图模型的节点用V中所有视频帧内的边界框对应的特征来初始化,对于视频中的第t帧vt,t∈{1,2,…,T},有Nt个目标边界框,将每个边界框对应位置的特征在特征图中提取出来并调整为固定大小7×7×C;然后对每个特征通道的特征进行最大池化得到尺度为1×1×C的该物体的特征表示;对于vt,得到的所有目标边界框的特征为:
其中,Xt为第t帧上所有目标边界框对应的特征, 为第t帧上第Nt个边界框对应的特征,
视频帧序列V中所有帧的目标边界框的特征表示为:
其中,X表示整个视频所有帧的边界框的特征,
4.根据权利要求3所述的一种基于图神经网络的目标辅助的动作识别方法,其特征在于,步骤3中,对于任意两个节点xi,k和xj,g,相似性分数计算过程如下:
其中,f(xi,k,xj,g)为节点xi,k和xj,g之间的相似度,i,j∈{1,2,…,T},k∈{1,2,…,Ni},g∈{1,2,…,Ng},Θ、bθ和Φ、分别为两个映射函数的参数,获得关系矩阵表达式为:
然后对矩阵进行归一化,使得矩阵每一行数值的和为1,表达式为:
其中,fnorm为归一化后的相似性,i∈{1,2,…,T},k∈{1,2,…,Ni}。
5.根据权利要求4所述的一种基于图神经网络的目标辅助的动作识别方法,其特征在于,步骤4中,通过图更新的过程迭代更新图模型的节点特征信息,直到节点特征达到收敛的过程中,
第s次迭代时的更新过程为:
Xs=Xs-1+Fnorm(Xs-1)·Xs-1
其中,Xs是第s次迭代之后所有节点的特征,X0为步骤2中初始化的节点信息,s∈{1,2,…,S},总的次数S可设置;最终的节点状态
6.根据权利要求5所述的一种基于图神经网络的目标辅助的动作识别方法,其特征在于,步骤5中,
对所有节点更新之后的节点特征进行平均池化得到关系特征表示roAG对视频帧序列V中每一帧的深度特征进行平局池化得到平均池化得到全局视频特征表示rGlobal将池化获得的两种特征拼接,得到最终的视频特征表示r=[rOAG,rGlobal],
最后对特征r进行分类,得到预测的动作类别,完成动作识别。
7.根据权利要求1所述的一种基于图神经网络的目标辅助的动作识别方法,其特征在于,2D基准网络在Object-Charades数据集上的实验结果为,
8.根据权利要求1所述的一种基于图神经网络的目标辅助的动作识别方法,其特征在于,3D基准网络在Object-Charades数据集上的实验结果为,
9.根据权利要求1所述的一种基于图神经网络的目标辅助的动作识别方法,其特征在于,步骤3中,在图更新的过程中映射函数的参数自动学习更新。
CN201910817670.5A 2019-08-30 2019-08-30 一种基于图神经网络的目标辅助的动作识别方法 Active CN110532960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910817670.5A CN110532960B (zh) 2019-08-30 2019-08-30 一种基于图神经网络的目标辅助的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910817670.5A CN110532960B (zh) 2019-08-30 2019-08-30 一种基于图神经网络的目标辅助的动作识别方法

Publications (2)

Publication Number Publication Date
CN110532960A true CN110532960A (zh) 2019-12-03
CN110532960B CN110532960B (zh) 2022-02-11

Family

ID=68665909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910817670.5A Active CN110532960B (zh) 2019-08-30 2019-08-30 一种基于图神经网络的目标辅助的动作识别方法

Country Status (1)

Country Link
CN (1) CN110532960B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633209A (zh) * 2020-12-29 2021-04-09 东北大学 一种基于图卷积神经网络的人类动作识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815579A (zh) * 2017-01-22 2017-06-09 深圳市唯特视科技有限公司 一种基于多区域双流卷积神经网络模型的动作检测方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN109948483A (zh) * 2019-03-07 2019-06-28 武汉大学 一种基于动作和面部表情的人物交互关系识别方法
CN110084201A (zh) * 2019-04-29 2019-08-02 福州大学 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN110148152A (zh) * 2019-04-02 2019-08-20 浙江工业大学 基于卷积神经网络的sar目标交互行为识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815579A (zh) * 2017-01-22 2017-06-09 深圳市唯特视科技有限公司 一种基于多区域双流卷积神经网络模型的动作检测方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN109948483A (zh) * 2019-03-07 2019-06-28 武汉大学 一种基于动作和面部表情的人物交互关系识别方法
CN110148152A (zh) * 2019-04-02 2019-08-20 浙江工业大学 基于卷积神经网络的sar目标交互行为识别方法
CN110084201A (zh) * 2019-04-29 2019-08-02 福州大学 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENYANG SI ET AL.: "Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning", 《ARXIV》 *
SUNOH KIM ET AL.: "Skeleton-Based Action Recognition of People Handling Objects", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
莫宇剑 等: "面向行为识别的人体空间协同运动结构特征表示与融合", 《北京航空航天大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633209A (zh) * 2020-12-29 2021-04-09 东北大学 一种基于图卷积神经网络的人类动作识别方法
CN112633209B (zh) * 2020-12-29 2024-04-09 东北大学 一种基于图卷积神经网络的人类动作识别方法

Also Published As

Publication number Publication date
CN110532960B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN104143079B (zh) 人脸属性识别的方法和系统
CN111310659B (zh) 基于增进式图卷积神经网络的人体动作识别方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
Li et al. Robust visual tracking based on convolutional features with illumination and occlusion handing
CN105550678A (zh) 基于全局显著边缘区域的人体动作特征提取方法
CN106529499A (zh) 基于傅里叶描述子和步态能量图融合特征的步态识别方法
CN112686928B (zh) 一种基于多源信息融合的运动目标视觉跟踪方法
Wang et al. Sparse observation (so) alignment for sign language recognition
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN105718873A (zh) 基于双目视觉的人流分析方法
Eum et al. Continuous human action recognition using depth-MHI-HOG and a spotter model
CN103903013A (zh) 一种无标记平面物体识别的优化算法
CN113762009B (zh) 一种基于多尺度特征融合及双注意力机制的人群计数方法
CN107527054B (zh) 基于多视角融合的前景自动提取方法
CN108363973A (zh) 一种无约束的3d表情迁移方法
CN109063643B (zh) 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
WO2022218396A1 (zh) 图像处理方法、装置和计算机可读存储介质
CN108021869A (zh) 一种结合高斯核函数的卷积神经网络跟踪方法
CN113158943A (zh) 一种跨域红外目标检测方法
Núñez et al. Multiview 3D human pose estimation using improved least-squares and LSTM networks
CN108898623A (zh) 目标跟踪方法及设备
CN108830222A (zh) 一种基于信息性和代表性主动学习的微表情识别方法
Zhang et al. A Gaussian mixture based hidden Markov model for motion recognition with 3D vision device
CN112507893A (zh) 一种基于边缘计算的分布式无监督行人重识别方法
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant