CN111507219A - 一种动作识别方法、装置及电子设备和存储介质 - Google Patents

一种动作识别方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN111507219A
CN111507219A CN202010269317.0A CN202010269317A CN111507219A CN 111507219 A CN111507219 A CN 111507219A CN 202010269317 A CN202010269317 A CN 202010269317A CN 111507219 A CN111507219 A CN 111507219A
Authority
CN
China
Prior art keywords
target video
video segment
human body
hand
action type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010269317.0A
Other languages
English (en)
Inventor
刘文印
钟经谋
陈俊洪
梁达勇
朱展模
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010269317.0A priority Critical patent/CN111507219A/zh
Publication of CN111507219A publication Critical patent/CN111507219A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种动作识别方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取目标视频段,识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征;将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。本申请提供的动作识别方法,通过结合人体姿势和手部姿势,利用无向空间时间图对人体关节点位置和手部关节点位置在时间和空间上建模,可以识别视频中复杂的动作。

Description

一种动作识别方法、装置及电子设备和存储介质
技术领域
本申请涉及机器人技术领域,更具体地说,涉及一种动作识别方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
近年来,人类动作识别在视频理解和人机交互中起着至关重要的作用,人类动作识别的准确性和时效性将直接影响机器人与人的协作成功率。同时,机器人通过识别人类动作能够更好的理解人类的行为动机,从而更好的协助人类日常工作,加快工作效率。
动作识别在计算机视觉邻域是一项具有挑战性的任务,在相关技术中采用双流卷积网络提取视频帧的RGB特征和光流特征,并在空间和时间上进行建模以进行动作识别。上述方案存在一定的局限性,例如,在背景嘈杂、光照变化和外观变化的情况下识别效果不好。另外,对于一些复杂、精细的动作,例如切片、搅拌等,识别效果不好。
因此,如何实现复杂动作的识别是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种动作识别方法、装置及一种电子设备和一种计算机可读存储介质,实现了复杂动作的识别。
为实现上述目的,本申请提供了一种动作识别方法,包括:
获取目标视频段,识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;
基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征;
将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。
其中,所述基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征,包括:
利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征。
其中,所述无向空间时间图包括点集合和边集合;
所述点集合包括第一点集合、第二点集合和第三点集合,所述第一点集合为根节点的集合,所述第二点集合为比所述根节点更靠近骨架重心的相邻节点的集合,所述第三点集合为比所述根节点更远离所述骨架重心的相邻节点的集合;
所述边集合包括描述骨骼间连接的第一边集合和描述相邻帧间的连接的第二边集合。
其中,将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别,包括:
将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率;
将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。
其中,所述获取目标视频段,包括:
获取原始视频,并将所述原始视频划分为多个时间长度为预设值的目标视频段;
相应的,将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别,包括:
将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率;
基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值;
将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。
为实现上述目的,本申请提供了一种动作识别装置,包括:
识别模块,用于获取目标视频段,识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
构建模块,用于根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;
提取模块,用于基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征;
输入模块,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。
其中,所述输入模块包括:
输入单元,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率;
第一确定单元,用于将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。
其中,所述识别模块包括:
获取单元,用于获取原始视频,并将所述原始视频划分为多个时间长度为预设值的目标视频段;
识别单元,用于识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
相应的,所述输入模块包括:
输入单元,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率;
计算单元,用于基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值;
第二确定单元,用于将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述动作识别方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述动作识别方法的步骤。
通过以上方案可知,本申请提供的一种动作识别方法,包括:获取目标视频段,识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征;将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。
本申请提供的动作识别方法,通过结合人体姿势和手部姿势,利用无向空间时间图对人体关节点位置和手部关节点位置在时间和空间上建模,从而进行动作识别。手部作为人体最灵活的一部分,生活中的大多动作都离不开手部的操作,将人体姿势和手部姿势相结合,更能体现人体动作的特征,因此手部姿势对识别操作动作具有一定的指导意义,可以识别视频中复杂的动作。本申请还公开了一种动作识别装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种动作识别方法的流程图;
图2为根据一示例性实施例示出的一种人体关节点位置的示意图;
图3为根据一示例性实施例示出的一种手部关节点位置的示意图;
图4为根据一示例性实施例示出的一种点集合的示意图;
图5为根据一示例性实施例示出的另一种动作识别方法的流程图;
图6为根据一示例性实施例示出的一种动作识别装置的结构图;
图7为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种动作识别方法,实现了复杂动作的识别。
参见图1,根据一示例性实施例示出的一种动作识别方法的流程图,如图1所示,包括:
S101:获取目标视频段,识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
本实施例的目的在于识别目标视频段中的动作类型,此处不限定目标视频段的来源和演示环境。在本步骤中,可以利用姿势预测算法(openpose)从目标视频段中的每帧图像中识别人体关节点位置和手部关节点位置,识别得到的人体关节点位置如图2所示,手部关节点位置如图3所示。
S102:根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;
本步骤旨在基于每帧图像的的人体关节点位置和手部关节点位置构建无向空间时间图。其中,所述无向空间时间图包括点集合和边集合;所述点集合包括第一点集合、第二点集合和第三点集合,所述第一点集合为根节点的集合,所述第二点集合为比所述根节点更靠近骨架重心的相邻节点的集合,所述第三点集合为比所述根节点更远离所述骨架重心的相邻节点的集合;所述边集合包括描述骨骼间连接的第一边集合和描述相邻帧间的连接的第二边集合。
具体的,点集合V={vti|t=1,...,T,i=1,...,N}包含T帧视频的人体姿势和手部姿势的关键点,vti为第t帧i点的坐标,优选的,N=67,T=300。在本实施例中,可以使用多子集分区策略,即将点集合划分为包括根节点的第一点集合、包括比根节点更靠近骨架重心的相邻节点的第二点集合,包括比根节点更远离骨架重心的相邻节点的第三点集合。如图4所示,画叉处为骨架中心,实心点为根节点,单向阴影点为比根节点更靠近骨架重心的相邻节点,组成第二点集合,双向阴影点为比根节点更远离骨架重心的相邻节点,组成第三点集合。边集合由两部分组成,第一边集合为描述骨骼间连接的边集合Es={vtivtj|(i,j)},H人体和手部自然连接结构,vti为第t帧i点的坐标,vtj为第t帧j点的坐标第二边集合为描述帧间的连接的边集合EF={vtiv(t+1)i},表示人体动作的轨迹,vti为第t帧i点的坐标。
S103:基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征;
在本步骤中,基于目标视频段对应的无向空间时间图提取人体姿势特征和手部姿势特征,后续步骤利用手部姿势特征进行动作识别,并充分利用视频中人体姿势特征,可以实现复杂动作的识别。
作为一种优选实施方式,本步骤可以包括:利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征。在具体实施中,时空图卷积网络结构由九层时空图卷积模块组成,前三层输出64通道,中间三层输出128通道,后三层输出256通道。一共有9个时间卷积,在每个时空图卷积使用残差连连接,使用dropout进行特征正则化处理。在第4、7层时间卷积层设置为池化层,最后对输出的256个通道的输出进行全局池化成256维的向量,并由softmax进行分类。对于动作的预测,采用时空图卷积提取人体姿势特征和手部姿势特征,挖掘人体姿势和手部姿势空间上对预测动作的影响以及人体和手部运动轨迹对动作的预测动作的影响。
时空图卷积模块的定义:
Figure BDA0002442526900000061
其中,j为各个子集分区策略Λ=A+I,A为人体姿势和手部姿势的邻接矩阵,即人体姿势和手部姿势自然连接的拓扑结构,I为单位矩阵,fin为人体姿势和手部姿势的关节点坐标,Wj为可学习参数。
在本实施例中,时空图卷积网络的训练时间短,计算量较小,训练完成后可以识别视频中复杂的动作,且本实施例为端到端的动作识别方案,时空图卷积网络训练完成后,不需要预设其他输入。
S104:将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。
由于上一步骤提取到了人体姿势特征和手部姿势特征,在本步骤中,利用得到的特征向量训练softmax分类器,训练完成的分类器可以实现目标视频段的动作分类。即本步骤可以包括:将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率;将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。
本申请实施例提供的动作识别方法,通过结合人体姿势和手部姿势,利用无向空间时间图对人体关节点位置和手部关节点位置在时间和空间上建模,从而进行动作识别。手部作为人体最灵活的一部分,生活中的大多动作都离不开手部的操作,将人体姿势和手部姿势相结合,更能体现人体动作的特征,因此手部姿势对识别操作动作具有一定的指导意义,可以识别视频中复杂的动作。
本申请实施例公开了一种动作识别方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图5,根据一示例性实施例示出的另一种动作识别方法的流程图,如图5所示,包括:
S201:获取原始视频,并将所述原始视频划分为多个时间长度为预设值的目标视频段;
在本实施例中,原始视频为长视频,将其划分为时间长度为预设值的多个目标视频段。即对于时间长度超过预设值的视频进行分割,在训练时空图卷积网络时每个目标视频段给定一个动作标签,对于时间跨度不足预设值的视频段,将不足的时间内的人体姿势特征和所述手部姿势特征填充0。
S202:识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
S203:根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;
S204:利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征;
S205:将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率;
S206:基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值;
S207:将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。
在具体实施中,对于每个目标视频段进行分别预测,即得到每个目标视频段对应的每个候选动作类型的概率。对于整个原始视频来说,基于目标视频段对应的每个候选动作类型的概率和目标视频段的数量可以得到每个候选动作类型的概率平均值,将概率平均值最大的候选动作类型确定为原始视频对应的动作类型。
下面对本申请实施例提供的一种动作识别装置进行介绍,下文描述的一种动作识别装置与上文描述的一种动作识别方法可以相互参照。
参见图6,根据一示例性实施例示出的一种动作识别装置的结构图,如图6所示,包括:
识别模块601,用于获取目标视频段,识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
构建模块602,用于根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;
提取模块603,用于基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征;
输入模块604,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。
本申请实施例提供的动作识别装置,通过结合人体姿势和手部姿势,利用无向空间时间图对人体关节点位置和手部关节点位置在时间和空间上建模,从而进行动作识别。手部作为人体最灵活的一部分,生活中的大多动作都离不开手部的操作,将人体姿势和手部姿势相结合,更能体现人体动作的特征,因此手部姿势对识别操作动作具有一定的指导意义,可以识别视频中复杂的动作。
在上述实施例的基础上,作为一种优选实施方式,所述提取模块603具体为利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征的模块。
在上述实施例的基础上,作为一种优选实施方式,所述无向空间时间图包括点集合和边集合;
所述点集合包括第一点集合、第二点集合和第三点集合,所述第一点集合为根节点的集合,所述第二点集合为比所述根节点更靠近骨架重心的相邻节点的集合,所述第三点集合为比所述根节点更远离所述骨架重心的相邻节点的集合;
所述边集合包括描述骨骼间连接的第一边集合和描述相邻帧间的连接的第二边集合。
在上述实施例的基础上,作为一种优选实施方式,所述输入模块604包括:
输入单元,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率;
第一确定单元,用于将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。
在上述实施例的基础上,作为一种优选实施方式,所述识别模块601包括:
获取单元,用于获取原始视频,并将所述原始视频划分为多个时间长度为预设值的目标视频段;
识别单元,用于识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
相应的,所述输入模块604包括:
输入单元,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率;
计算单元,用于基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值;
第二确定单元,用于将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图7,本申请实施例提供的一种电子设备700的结构图,如图7所示,可以包括处理器11和存储器12。该电子设备700还可以包括多媒体组件13,输入/输出(I/O)接口14,以及通信组件15中的一者或多者。
其中,处理器11用于控制该电子设备700的整体操作,以完成上述的动作识别方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件15可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的动作识别方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述动作识别方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器12,上述程序指令可由电子设备700的处理器11执行以完成上述的动作识别方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种动作识别方法,其特征在于,包括:
获取目标视频段,识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;
基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征;
将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。
2.根据权利要求1所述动作识别方法,其特征在于,所述基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征,包括:
利用时空图卷积网络从所述无向空间时间图中提取所述目标视频段中的人体姿势特征和手部姿势特征。
3.根据权利要求1所述动作识别方法,其特征在于,所述无向空间时间图包括点集合和边集合;
所述点集合包括第一点集合、第二点集合和第三点集合,所述第一点集合为根节点的集合,所述第二点集合为比所述根节点更靠近骨架重心的相邻节点的集合,所述第三点集合为比所述根节点更远离所述骨架重心的相邻节点的集合;
所述边集合包括描述骨骼间连接的第一边集合和描述相邻帧间的连接的第二边集合。
4.根据权利要求1至3中任一项所述动作识别方法,其特征在于,将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别,包括:
将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率;
将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。
5.根据权利要求1至3中任一项所述动作识别方法,其特征在于,所述获取目标视频段,包括:
获取原始视频,并将所述原始视频划分为多个时间长度为预设值的目标视频段;
相应的,将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别,包括:
将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率;
基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值;
将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。
6.一种动作识别装置,其特征在于,包括:
识别模块,用于获取目标视频段,识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
构建模块,用于根据每帧所述图像的人体关节点位置和手部关节点位置构建所述目标视频段对应的无向空间时间图;
提取模块,用于基于所述无向空间时间图提取所述目标视频段中的人体姿势特征和手部姿势特征;
输入模块,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便完成动作识别。
7.根据权利要求6所述动作识别装置,其特征在于,所述输入模块包括:
输入单元,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到所述目标视频段对应的每个候选动作类型的概率;
第一确定单元,用于将概率最大的候选动作类型确定为所述目标视频段对应的动作类型。
8.根据权利要求6所述动作识别装置,其特征在于,所述识别模块包括:
获取单元,用于获取原始视频,并将所述原始视频划分为多个时间长度为预设值的目标视频段;
识别单元,用于识别所述目标视频段中每帧图像的人体关节点位置和手部关节点位置;
相应的,所述输入模块包括:
输入单元,用于将所述人体姿势特征和所述手部姿势特征输入分类器中以便得到每个所述目标视频段对应的每个候选动作类型的概率;
计算单元,用于基于每个所述目标视频段对应的每个所述候选动作类型对应的概率计算每个所述候选动作类型的概率平均值;
第二确定单元,用于将概率平均值最大的候选动作类型确定为所述原始视频对应的动作类型。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述动作识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述动作识别方法的步骤。
CN202010269317.0A 2020-04-08 2020-04-08 一种动作识别方法、装置及电子设备和存储介质 Pending CN111507219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010269317.0A CN111507219A (zh) 2020-04-08 2020-04-08 一种动作识别方法、装置及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010269317.0A CN111507219A (zh) 2020-04-08 2020-04-08 一种动作识别方法、装置及电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN111507219A true CN111507219A (zh) 2020-08-07

Family

ID=71864533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010269317.0A Pending CN111507219A (zh) 2020-04-08 2020-04-08 一种动作识别方法、装置及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111507219A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466444A (zh) * 2020-11-11 2021-03-09 湖南德雅曼达科技有限公司 一种防护用品综合管理系统
CN113033458A (zh) * 2021-04-09 2021-06-25 京东数字科技控股股份有限公司 动作识别方法和装置
CN113542774A (zh) * 2021-06-04 2021-10-22 北京格灵深瞳信息技术股份有限公司 视频同步方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573665A (zh) * 2015-01-23 2015-04-29 北京理工大学 一种基于改进维特比算法的连续动作识别方法
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN110348482A (zh) * 2019-06-05 2019-10-18 华东理工大学 一种基于深度模型集成架构的语音情感识别系统
CN110532988A (zh) * 2019-09-04 2019-12-03 上海眼控科技股份有限公司 行为监控方法、装置、计算机设备和可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573665A (zh) * 2015-01-23 2015-04-29 北京理工大学 一种基于改进维特比算法的连续动作识别方法
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN110348482A (zh) * 2019-06-05 2019-10-18 华东理工大学 一种基于深度模型集成架构的语音情感识别系统
CN110532988A (zh) * 2019-09-04 2019-12-03 上海眼控科技股份有限公司 行为监控方法、装置、计算机设备和可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SIJIE YAN 等: "Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition", 《HTTPS://ARXIV.ORG/ABS/1801.07455》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466444A (zh) * 2020-11-11 2021-03-09 湖南德雅曼达科技有限公司 一种防护用品综合管理系统
CN112466444B (zh) * 2020-11-11 2023-10-20 湖南德雅曼达科技有限公司 一种防护用品综合管理系统
CN113033458A (zh) * 2021-04-09 2021-06-25 京东数字科技控股股份有限公司 动作识别方法和装置
CN113033458B (zh) * 2021-04-09 2023-11-07 京东科技控股股份有限公司 动作识别方法和装置
CN113542774A (zh) * 2021-06-04 2021-10-22 北京格灵深瞳信息技术股份有限公司 视频同步方法、装置、电子设备及存储介质
CN113542774B (zh) * 2021-06-04 2023-10-20 北京格灵深瞳信息技术股份有限公司 视频同步方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11282207B2 (en) Image processing method and apparatus, and storage medium
CN110096933B (zh) 目标检测的方法、装置及系统
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
US20200394499A1 (en) Identifying complex events from hierarchical representation of data set features
CN108681743B (zh) 图像对象识别方法和装置、存储介质
CN110889325A (zh) 多任务面部动作识别模型训练和多任务面部动作识别方法
CN111507219A (zh) 一种动作识别方法、装置及电子设备和存储介质
CN111783692A (zh) 一种动作识别方法、装置及电子设备和存储介质
US11417095B2 (en) Image recognition method and apparatus, electronic device, and readable storage medium using an update on body extraction parameter and alignment parameter
CN113326835B (zh) 一种动作检测方法、装置、终端设备和存储介质
CN109871800A (zh) 一种人体姿态估计方法、装置和存储介质
CA3148760C (en) Automated image retrieval with graph neural network
KR20220081261A (ko) 객체 포즈 추정 방법 및 장치
US20200265294A1 (en) Object Animation Using Generative Neural Networks
KR101794399B1 (ko) 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템
CN113449610A (zh) 一种基于知识蒸馏和注意力机制的手势识别方法和系统
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN112699837A (zh) 一种基于深度学习的手势识别方法及设备
CN114937285B (zh) 动态手势识别方法、装置、设备及存储介质
Ku et al. A virtual sign language translator on smartphones
CN112199994B (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
CN112906554B (zh) 基于视觉图像的模型训练优化方法、装置及相关设备
CN113312966A (zh) 一种基于第一人称视角的动作识别方法及装置
CN117275086A (zh) 手势识别方法、装置、计算机设备、存储介质
CN111571567A (zh) 机器人转译技能训练方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200807