CN113196289B - 人体动作识别方法、人体动作识别系统及设备 - Google Patents

人体动作识别方法、人体动作识别系统及设备 Download PDF

Info

Publication number
CN113196289B
CN113196289B CN202080006320.1A CN202080006320A CN113196289B CN 113196289 B CN113196289 B CN 113196289B CN 202080006320 A CN202080006320 A CN 202080006320A CN 113196289 B CN113196289 B CN 113196289B
Authority
CN
China
Prior art keywords
human body
vector
joint point
human
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080006320.1A
Other languages
English (en)
Other versions
CN113196289A (zh
Inventor
周泓
杨诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Publication of CN113196289A publication Critical patent/CN113196289A/zh
Application granted granted Critical
Publication of CN113196289B publication Critical patent/CN113196289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种人体动作识别方法、人体动作识别系统、设备,所述人体动作识别方法,包括:获取包含人体动作行为的视频,对视频帧进行重采样和预处理;提取视频帧的图像特征;基于人体骨骼信息获得视频帧对应人体关节点序列;将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。通过将包含有环境信息的图像特征和人体关节点序列构建模型,对环境变化鲁棒且能充分利用环境信息进行人体动作识别,准确率高。

Description

人体动作识别方法、人体动作识别系统及设备
技术领域
本发明涉及图像处理技术领域,其特别涉及一种人体动作识别方法、人体动作识别系统及人体动作识别方法设备。
背景技术
目前,人体识别领域中的动作识别方法主要包括基于RGB图像的人体动作识别和基于人体骨骼的人体动作识别。
其中,基于RGB图像的人体动作识别以RGB图像序列作为输入,现在效果最好的方法通常使用卷积神经网络进行端到端的训练与学习,即特征的提取与动作的分类同时完成。这种方法的好处在于提取了整个环境中的特征,为准确的人体动作识别提供了更加完备的信息,但是也正是由于这种方法提取的是整个环境的特征,难以针对人体本身提取特征,人体动作识别的准确率受环境的影响较大,例如受光照变化、遮挡等因素影响较大,缺乏鲁棒性。
基于人体骨骼的动作学习以人体关节点序列作为输入,这些输入仅仅包含人体关键点的2D或者3D坐标这样更加抽象的信息,减少了环境噪声的影响,可以构建鲁棒性更强的动作算法,但是缺失了环境信息,对于一些需要环境信息的人体动作识别准确率较差。因为动作的含义并不能完全由人体的运动来定义。在现实世界中,动作在不同的环境下做出可能会有不同的含义,为了做到准确的人体动作识别,我们需要环境信息作为辅助信息,而基于人体骨骼的人体动作识别缺失了所有的环境信息。
发明内容
本发明为了克服现有技术的不足,提供一种人体动作识别方法、人体动作识别系统、设备及可读存储介质,以人体骨骼的人体动作识别为主构建模型,用合适的方式将环境信息编码到模型中,实现对环境变化鲁棒且能充分利用环境信息进行人体动作识别。
为了实现上述目的,本发明实施例提供了一种人体动作识别方法,包括:
获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
提取视频帧的图像特征;
基于人体骨骼信息获得视频帧对应人体关节点序列;
将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。
可选的,获取动作类别的具体步骤包括:
获取第一向量,所述第一向量表征视频帧的图像特征;
利用所述人体关节点序列构建人体关节点图;
将所述人体关节点图输入图卷积神经网络,生成第二向量;
将第一向量和第二向量进行连接并输入全连接层,生成第三向量;
将所述第三向量输入分类器,获取预测的动作类别。
可选的,利用所述人体关节点序列构建人体关节点图的具体步骤包括:
将构建的人体关节点图记为G=(V,E),其中V表示图的顶点集合,V={Vti|t=1,…,T,i=1,…,N},T表示骨骼序列的数量,N表示一张图片检测的关节点数目;Vti表示第t张图片第i个关节点,E表示图的边,由两部分组成,分别是一帧图像内关节点的连接状态E1以及不同帧之间关节点的连接状态ED,E1是一帧图像的不同关节点之间的物理连接状态,ED是不同帧之间同一个关节点的连接,为了方便后续捕捉时序特征而定义的一个虚拟物理连接;在实现过程中,利用一个N×N的邻接矩阵A来表示同一帧内关节点的连接状态,如果关节点i和关节点j存在物理连接则Aij为1,否则为0。
可选的,生成第二向量的具体步骤包括:
图卷积神经网络由图卷积层堆叠而成,每一层图卷积层都执行相同的操作;
在每一个图卷积层中,执行两个不同维度的操作,一个是在空间维度上执行图卷积操作,一个是在时间维度上执行普通卷积操作;
对所述图神经网络模块的输出进行变换得到第二向量。
可选的,在空间维度上执行图卷积操作的具体步骤包括:
在空间维度上,对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系,具体实现如下式所示:
Figure BDA0003069649030000021
上式中I表示单位矩阵,A是邻接矩阵,D是度矩阵,Dii=∑i(Aij+Iij),Xin是输入,是一个N×U的张量;W是图卷积层的权重参数,用于对特征进行变换。
可选的,在时间维度上执行普通卷积操作的具体步骤包括:
在时间维度上,针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。
可选的,获取第一向量的具体步骤包括:
从视频帧中选取若干图片,将所述若干图片分别输入在Imagenet图像数据集上预训练的ResNet-50残差网络,将最后一个全连接层的输出作为图片的特征,获得若干初始向量,对所述若干初始向量取平均值,得到第一向量。
本发明实施了还提供了一种人体动作识别系统,包括:
视频帧获取模块,用于获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
图像特征提取模块,用于提取视频帧的图像特征;
人体关节点序列提取模块,用于基于人体骨骼信息获得视频帧对应人体关节点序列;
动作类别获取模块,将所述图像特征与所述人体关节点序列输入深度神经网络,获取动作类别。
本发明实施例还提供了一种人体动作识别设备,所述人体动作识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别程序,所述人体动作识别程序被所述处理器执行时实现上述的人体动作识别方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有人体动作识别程序,所述人体动作识别程序被处理器执行时实现上述的人体动作识别方法的步骤。
本发明有益效果:
通过提取视频帧的图像特征和人体关节点序列,将所述图像特征与所述人体关节点序列输入图卷积神经网络,进行动作类别的预测,通过将包含有环境信息的图像特征和人体关节点序列构建模型,对环境变化鲁棒且能充分利用环境信息进行人体动作识别,准确率高。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
附图说明
图1所示为本发明一实施例提供的人体动作识别方法的流程示意图;
图2所示为本发明一实施例提供的获取动作类别具体方法的流程示意图;
图3所示为本发明一实施例所构建的人体关节点图;
图4所示为本发明一实施例提供的人体动作识别系统的结构框图。
具体实施方式
由于现有技术基于RGB图像的人体动作识别提取的是整个环境的特征,难以针对人体本身提取特征,人体动作识别的准确率受环境的影响较大,缺乏鲁棒性。而基于人体骨骼的动作学习虽然可以构建鲁棒性更强的动作算法,但是缺失了环境信息,对于一些需要环境信息的人体动作识别准确率较差。
因此,本发明实施例基于人体骨骼的人体动作识别为主构建模型,用合适的方式将环境信息编码到模型中,实现对环境变化鲁棒且能充分利用环境信息的人体动作识别。
请参考图1,为本发明实施例的人体动作识别方法的流程示意图,具体包括:
步骤S10,获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
步骤S20,提取视频帧的图像特征;
步骤S30,基于人体骨骼信息获得视频帧对应人体关节点序列;
步骤S40,将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。
具体的,首先,执行步骤S10,对包含人体动作行为的视频,进行视频帧重采样和预处理。
在本实施例中,对于一段包含人体动作行为视频,使用opencv的图像库对视频进行采样,每一秒采样25帧,按时间顺序进行排列得到视频帧图像序列,同时使用opencv对所有图像进行预处理缩放,使所有图像的分辨率为224*224。
在其他实施例中,也可以采用其他图像库对视频进行采样,分辨率也可以设置为其他值。
执行步骤S20,在步骤S101中获得的视频帧图像序列中随机选择n张图片,分别提取视频帧的图像特征。在本实施例中,选择3张图片进行图像特征的提取,在其他实施例中,还可以为4张、5张、6张等。但是数量过多的话会引入过多的计算量,不是非常必要,因此本实施例选择3张图片进行提取。
在本实施例中,所述提取视频帧的图像特征具体包括:
将所述3张图片分别输入在Imagenet图像数据集上预训练的ResNet-50残差网络,将最后一个全连接层的输出作为图像特征,获得三个2048维的向量,对这三个向量取平均值,得到一个2048维的向量,将其记为环境向量Xcon
在本实施例中,采用ResNet-50残差网络进行图像特征提取,在其他实施例中,也可以采用其他传统的特征描述,例如SIFT算法等提取特征,也可以使用其他的预训练深度模型如VGG-19和ResNet-152等提取特征。
将所述环境向量Xcon输入到两层全连接层组成的编码器,输出一个K维的第一向量XC
由于提取的图像特征和图卷积网络提取的人体骨骼特征可能存在非常大的空间不匹配,会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间,因此使用可学习的编码器从数据中学习如何将两个不同网络提取的特征映射到同一个隐空间之中。
执行步骤S30,基于人体骨骼信息获得视频帧对应人体关节点序列。
在本实施例中,使用openpose算法从选取的图片中获得人体关节点序列,每一张图片检测15个关节点,所述openpose算法为卡耐基梅隆大学提出的一个人体姿态估计开源算法,用于检测人体关节点并输出人体关节点的2D或者3D坐标。
在其他实施例中,也可以使用其他算法获取人体关节点序列。
其中,步骤S20和步骤S30不分先后,可以互换。
执行步骤S40,将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。
获取动作类别具体步骤请参考图2,包括:
步骤S41,获取第一向量,所述第一向量表征视频帧的图像特征。
将所述环境向量Xcon输入到两层全连接层组成的编码器,输出一个K维的第一向量Xc
由于提取的图像特征和图卷积网络提取的特征可能存在非常大的空间不匹配,会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间,因此使用可学习的编码器从数据中学习如何将两个不同网络提取的特征映射到同一个隐空间之中。其中获取第一向量和第二向量没有先后顺序,可以同时进行也可以任意先后。
步骤S42,利用所述人体关节点序列构建人体关节点图。
请参考图3,为所述构建的人体关节点图,将所构建的人体关节点图记为G=(V,E),其中V表示图的顶点集合,V={Vti|t=1,…,T,i=1,…,N},T表示骨骼序列的数量,N表示一张图片检测的关节点数目;Vti表示第t张图片第i个关节点;E表示图的边,由两部分组成,分别是一帧图像内关节点的连接状态E1以及不同帧之间关节点的连接状态ED,E1是一帧图像的不同关节点之间的物理连接状态,ED是不同帧之间同一个关节点的连接,为了方便后续捕捉时序特征而定义的一个虚拟物理连接;在实现过程中,利用一个N×N的邻接矩阵A来表示连接状态,如果关节点i和关节点j存在物理连接则Aij为1,否则为0。
步骤S43,将所述人体关节点图输入图卷积神经网络,生成第二向量。
所述图卷积神经网络由图卷积层堆叠而成,每一层图卷积层都执行相同的操作;在每一个图卷积层中,执行两个不同维度的操作,一个是在空间维度上执行图卷积操作,一个是在时间维度上执行普通卷积操作;
其中,在空间维度上执行图卷积操作的具体步骤包括:
在空间维度上,对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系,具体实现如下式所示:
Figure BDA0003069649030000061
上式中I表示单位矩阵,即对角线元素是1其他元素为0的矩阵,在这里就表示一个自连接矩阵,即每一个顶点和自身有连接,A是邻接矩阵,表示连接状态,如果关节点i和关节点j存在物理连接则Aij为1,否则为0;D是度矩阵,即描述每一个顶点连接的边有多少条,只有对角线元素不为0,其他元素都为0,Dii=∑i(Aij+Iij),Xin是输入,是一个N×U的张量;W是图卷积层的权重参数,用于对特征进行变换。
其中,在时间维度上执行普通卷积操作的具体步骤包括:
在时间维度上,针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。
之所以在两个不同的维度执行不同的卷积操作,因为在空间维度上执行卷积操作主要目的是捕捉不同关节点之间的联系,在时间维度上执行卷积操作目的是捕捉关节点随着时间的移动。在两个维度做不同的两次卷积是因为动作是一个动态过程,由关节点在空间上的关系以及时间上的变化共同组成,且使用不同的卷积是因为卷积的输入不同,空间上的卷积输入是同一个时刻不同关节点,且关节点之间以图的形式连接,使用图卷积;在时间维度上,输入是不同时刻的同一个关节点,使用常规卷积。
对所述图神经网络模块的输出进行维度转换得到一个K维的第二向量Xk。
由于提取的图像特征和图卷积网络提取的特征可能存在非常大的空间不匹配,会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间,因此通过转化为与第一向量相同维度的第二向量,使用可学习的编码器从数据中能够学习如何将两个不同网络提取的特征映射到同一个隐空间之中。
步骤S44,将第一向量和第二向量进行连接并输入全连接层,生成第三向量。
将第一向量Xc和第二向量Xk进行连接并输入到一个有Q个神经元的全连接层,输出一个Q维第三向量Xq
步骤S45,将所述第三向量输入分类器,获取预测的动作类别。
本发明通过将一种将环境信息的图像特征编码到现有的基于骨骼的人体动作识别模型之中,从而同时利用了环境信息和人体骨骼信息,进而保证了模型对环境变化鲁棒且能充分利用环境信息。
本发明实施了还提供了一种人体动作识别系统,请参考图4,包括:
视频帧获取模块10,用于获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
图像特征提取模块20,用于提取视频帧的图像特征;
人体关节点序列提取模块30,用于基于人体骨骼信息获得视频帧对应人体关节点序列;
动作类别获取模块40,将所述图像特征与所述人体关节点序列输入深度神经网络,获取动作类别。
本发明实施例还提供了一种人体动作识别设备,所述人体动作识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别程序,所述人体动作识别程序被所述处理器执行时实现上述的人体动作识别方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有人体动作识别程序,所述人体动作识别程序被处理器执行时实现上述的人体动作识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。

Claims (5)

1.一种人体动作识别方法,其特征在于,包括:
获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
提取视频帧的图像特征;
基于人体骨骼信息获得视频帧对应人体关节点序列;
将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别;
获取动作类别的具体步骤包括:
获取第一向量,所述第一向量表征视频帧的图像特征;
利用所述人体关节点序列构建人体关节点图;
将所述人体关节点图输入图卷积神经网络,生成第二向量;
将第一向量和第二向量进行连接并输入全连接层,生成第三向量;
将所述第三向量输入分类器,获取预测的动作类别;
利用所述人体关节点序列构建人体关节点图的具体步骤包括:
将构建的人体关节点图记为G=(V,E),其中V表示图的顶点集合,V={Vti|t=1,…,T,i=1,…,N},T表示骨骼序列的数量,N表示一张图片检测的关节点数目;Vti表示第t张图片第i个关节点,E表示图的边,由两部分组成,分别是一帧图像内关节点的连接状态E1以及不同帧之间关节点的连接状态ED,E1是一帧图像的不同关节点之间的物理连接状态,ED是不同帧之间同一个关节点的连接,为了方便后续捕捉时序特征而定义的一个虚拟物理连接;在实现过程中,利用一个N×N的邻接矩阵A来表示同一帧内关节点的连接状态,如果关节点i和关节点j存在物理连接则Aij为1,否则为0;
生成第二向量的具体步骤包括:
图卷积神经网络由图卷积层堆叠而成,每一层图卷积层都执行相同的操作;
在每一个图卷积层中,执行两个不同维度的操作,一个是在空间维度上执行图卷积操作,一个是在时间维度上执行普通卷积操作;
对所述图神经网络模块的输出进行变换得到第二向量;
在空间维度上执行图卷积操作的具体步骤包括:
在空间维度上,对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系,具体实现如下式所示:
Figure FDA0004144364390000021
上式中I表示单位矩阵,A是邻接矩阵,D是度矩阵,Dii=∑j(Aij+Iij),Xin是输入;W是图卷积层的权重参数,用于对特征进行变换;
在时间维度上执行普通卷积操作的具体步骤包括:
在时间维度上,针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。
2.根据权利要求1所述的人体动作识别方法,其特征在于,获取第一向量的具体步骤包括:
从视频帧中选取若干图片,将所述若干图片分别输入在Imagenet上预训练的ResNet-50残差网络,将最后一个全连接层的输出作为图片的特征,获得若干初始向量,对所述若干初始向量取平均值,得到第一向量。
3.一种人体动作识别系统,其特征在于,包括:
视频帧获取模块,用于获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
图像特征提取模块,用于提取视频帧的图像特征;
人体关节点序列提取模块,用于基于人体骨骼信息获得视频帧对应人体关节点序列;
动作类别获取模块,将所述图像特征与所述人体关节点序列输入深度神经网络,获取动作类别;
所述视频帧获取模块获取动作类别的具体方法为:
获取第一向量,所述第一向量表征视频帧的图像特征;
利用所述人体关节点序列构建人体关节点图;
将所述人体关节点图输入图卷积神经网络,生成第二向量;
将第一向量和第二向量进行连接并输入全连接层,生成第三向量;
将所述第三向量输入分类器,获取预测的动作类别;
所述视频帧获取模块利用所述人体关节点序列构建人体关节点图的具体方法为:
将构建的人体关节点图记为G=(V,E),其中V表示图的顶点集合,V={Vti|t=1,…,T,i=1,…,N},T表示骨骼序列的数量,N表示一张图片检测的关节点数目;Vti表示第t张图片第i个关节点,E表示图的边,由两部分组成,分别是一帧图像内关节点的连接状态E1以及不同帧之间关节点的连接状态ED,E1是一帧图像的不同关节点之间的物理连接状态,ED是不同帧之间同一个关节点的连接,为了方便后续捕捉时序特征而定义的一个虚拟物理连接;在实现过程中,利用一个N×N的邻接矩阵A来表示同一帧内关节点的连接状态,如果关节点i和关节点j存在物理连接则Aij为1,否则为0;
所述视频帧获取模块生成第二向量的具体方法为:
图卷积神经网络由图卷积层堆叠而成,每一层图卷积层都执行相同的操作;
在每一个图卷积层中,执行两个不同维度的操作,一个是在空间维度上执行图卷积操作,一个是在时间维度上执行普通卷积操作;
对所述图卷积神经网络的输出进行变换得到第二向量;
所述视频帧获取模块在空间维度上执行图卷积操作的具体方法为:
在空间维度上,对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系,具体实现如下式所示:
Figure FDA0004144364390000031
上式中I表示单位矩阵,A是邻接矩阵,D是度矩阵,Dii=∑j(Aij+Iij),Xin是输入,W是图卷积层的权重参数,用于对特征进行变换;
所述视频帧获取模块在时间维度上执行普通卷积操作的具体方法为:
在时间维度上,针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。
4.一种人体动作识别设备,其特征在于,所述人体动作识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别程序,所述人体动作识别程序被所述处理器执行时实现如权利要求1至2中任一项所述的人体动作识别方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有人体动作识别程序,所述人体动作识别程序被处理器执行时实现如权利要求1至2中任一项所述的人体动作识别方法的步骤。
CN202080006320.1A 2020-07-02 2020-07-02 人体动作识别方法、人体动作识别系统及设备 Active CN113196289B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/099920 WO2022000420A1 (zh) 2020-07-02 2020-07-02 人体动作识别方法、人体动作识别系统及设备

Publications (2)

Publication Number Publication Date
CN113196289A CN113196289A (zh) 2021-07-30
CN113196289B true CN113196289B (zh) 2023-05-26

Family

ID=76973873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080006320.1A Active CN113196289B (zh) 2020-07-02 2020-07-02 人体动作识别方法、人体动作识别系统及设备

Country Status (2)

Country Link
CN (1) CN113196289B (zh)
WO (1) WO2022000420A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494962A (zh) * 2022-01-24 2022-05-13 上海商汤智能科技有限公司 对象识别方法、网络训练方法、装置、设备及介质
CN114663593B (zh) * 2022-03-25 2023-04-07 清华大学 三维人体姿态估计方法、装置、设备及存储介质
CN114821640B (zh) * 2022-04-12 2023-07-18 杭州电子科技大学 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法
CN114582030B (zh) * 2022-05-06 2022-07-22 湖北工业大学 一种基于服务机器人的行为识别方法
CN115035596B (zh) * 2022-06-05 2023-09-08 东北石油大学 行为检测的方法及装置、电子设备和存储介质
CN115294228B (zh) * 2022-07-29 2023-07-11 北京邮电大学 基于模态引导的多图人体姿态生成方法及装置
CN115410137B (zh) * 2022-11-01 2023-04-14 杭州新中大科技股份有限公司 基于时空特征的双流工人劳动状态识别方法
CN115797841B (zh) * 2022-12-12 2023-08-18 南京林业大学 基于自适应时空图注意力Transformer网络的四足动物行为识别方法
CN116246338B (zh) * 2022-12-20 2023-10-03 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN117475518B (zh) * 2023-12-27 2024-03-22 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117854155B (zh) * 2024-03-07 2024-05-14 华东交通大学 一种人体骨骼动作识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法
CN110263720A (zh) * 2019-06-21 2019-09-20 中国民航大学 基于深度图像和骨骼信息的动作识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4709723B2 (ja) * 2006-10-27 2011-06-22 株式会社東芝 姿勢推定装置及びその方法
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN104156693B (zh) * 2014-07-15 2017-06-06 天津大学 一种基于多模态序列融合的动作识别方法
CN109726672B (zh) * 2018-12-27 2020-08-04 哈尔滨工业大学 一种基于人体骨架序列和卷积神经网络的摔倒检测方法
CN110222611B (zh) * 2019-05-27 2021-03-02 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置
CN110532861B (zh) * 2019-07-18 2021-03-23 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN110633736A (zh) * 2019-08-27 2019-12-31 电子科技大学 一种基于多源异构数据融合的人体跌倒检测方法
CN110751072B (zh) * 2019-10-12 2020-12-08 西安电子科技大学 基于知识嵌入图卷积网络的双人交互识别方法
CN111079578A (zh) * 2019-12-02 2020-04-28 海信集团有限公司 行为检测方法及装置
CN111160164B (zh) * 2019-12-18 2023-08-22 上海交通大学 基于人体骨架和图像融合的动作识别方法
CN111209861B (zh) * 2020-01-06 2022-03-18 浙江工业大学 一种基于深度学习的动态手势动作识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法
CN110263720A (zh) * 2019-06-21 2019-09-20 中国民航大学 基于深度图像和骨骼信息的动作识别方法

Also Published As

Publication number Publication date
WO2022000420A1 (zh) 2022-01-06
CN113196289A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN113196289B (zh) 人体动作识别方法、人体动作识别系统及设备
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN111783748B (zh) 人脸识别方法、装置、电子设备及存储介质
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN110738103A (zh) 活体检测方法、装置、计算机设备和存储介质
CN112543936A (zh) 用于动作识别的动作结构自注意力图卷积网络
CN112528902A (zh) 一种基于3d人脸模型的视频监控动态人脸识别方法及装置
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN116843834A (zh) 一种三维人脸重建及六自由度位姿估计方法、装置及设备
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN113657200A (zh) 一种基于掩码r-cnn的视频行为动作识别方法及系统
CN113591528A (zh) 文档矫正方法、装置、计算机设备和存储介质
CN114841887A (zh) 一种基于多层次差异学习的图像恢复质量评价方法
CN111709945B (zh) 一种基于深度局部特征的视频拷贝检测方法
JP5485044B2 (ja) 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム
CN114511877A (zh) 一种行为识别方法、装置、存储介质及终端
JP7349290B2 (ja) 対象物認識装置、対象物認識方法、及び対象物認識プログラム
CN113963202A (zh) 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN114663910A (zh) 基于多模态学习状态分析系统
CN113609957A (zh) 一种人体行为识别方法及终端
CN111275183A (zh) 视觉任务的处理方法、装置和电子系统
LU101933B1 (en) Human action recognition method, human action recognition system and equipment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant