CN111488773A

CN111488773A - 一种动作识别方法、装置、设备及存储介质

Info

Publication number: CN111488773A
Application number: CN201910088190.XA
Authority: CN
Inventors: 张树业; 王俊东; 梁柱锦; 梁德澎; 张壮辉; 叶天才; 周卫
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-08-04
Anticipated expiration: 2039-01-29
Also published as: EP3907653A1; EP3907653A4; US20220101654A1; WO2020156245A1; CN111488773B

Abstract

本发明公开了一种动作识别方法、装置、设备及存储介质。该方法包括：根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征；获取各视频帧的图像特征；根据浅层特征和图像特征得到各视频帧的动作特征；将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率；根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态。本发明实施例中动作特征融合了浅层特征和图像特征，提高了动作识别的准确度。在确定每个视频帧的目标动作的执行状态时，不仅根据该视频帧的动作识别结果，还结合其它视频帧的动作识别结果，从而进一步提高了动作识别的准确度。

Description

一种动作识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机视觉技术，尤其涉及一种动作识别方法、装置、设备及存储介质。

背景技术

动作识别是计算机视觉领域中最具有挑战性的研究方向之一，被广泛应用于移动端的娱乐互动领域，如实时短视频制作、直播实时交互和体感游戏等。

现有技术中，通常采用如下两种方式对动作进行识别，具体的：方式一、将视频的RGB图像和光流信息输入卷积神经网络，得到视频中所包含的动作类型；方式二、采用人体骨骼关键点识别算法得到各视频帧的人体骨骼关键点，并将人体骨骼关键点输入卷积神经网络，得到视频中所包含的动作类型以及人体骨骼关键点的位置信息和速度信息。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：针对方式一，由于仅能得到视频中所包含的动作类型，而无法得出人体骨骼关键点的位置信息和速度信息，因此，使得上述方式的灵活性和扩展性受到限制。针对方式二，由于人体骨骼关键点识别算法对光照、环境和运动速度比较敏感，因此，经常会出现人体骨骼关键点丢失或人体骨骼关键点偏离真实位置等情况，上述使得动作识别的准确度不高。

发明内容

本发明实施例提供一种动作识别方法、装置、设备及存储介质，以提高动作识别的准确度。

第一方面，本发明实施例提供了一种动作识别方法，该方法包括：

根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征；

获取所述各视频帧的图像特征；

根据所述浅层特征和所述图像特征得到各视频帧的动作特征；

将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，所述动作识别结果包括动作的状态和状态概率；

根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态。

第二方面，本发明实施例还提供了一种动作识别装置，该装置包括：

浅层特征确定模块，用于根据待识别视频中各视频帧中的人体骨骼关键点，确定各视频帧的浅层特征；

图像特征获取模块，用于获取所述各视频帧中的图像特征；

动作特征获取模块，用于根据所述浅层特征和所述图像特征得到各视频帧的动作特征；

动作识别结果获取模块，用于将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，所述动作识别结果包括动作的状态和状态概率；

执行状态确定模块，用于根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态。

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例第一方面所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例第一方面所述的方法。

本发明实施例通过根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征，获取各视频帧的图像特征，根据浅层特征和图像特征得到各视频帧的动作特征，将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率，根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态，由于动作特征融合了浅层特征和图像特征，使得动作特征可以在准确体现人体的姿态和运动信息的同时，还可以体现一定的语义信息，将其作为输入变量输入动作识别模型，提高了动作识别的准确度。此外，在确定每个视频帧的目标动作的执行状态时，不仅根据该视频帧的动作识别结果，还结合其它视频帧的动作识别结果，从而进一步提高了动作识别的准确度

附图说明

图1是本发明实施例中的一种动作识别方法的流程图；

图2是本发明实施例中的另一种动作识别方法的流程图；

图3是本发明实施例中的一种动作识别装置的结构示意图；

图4是本发明实施例中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例

将动作识别应用于移动端的人机交互和娱乐游戏方面时，其对动作识别算法的识别准确性、实时性和灵活性有较高的要求，具体的：针对识别准确性，其需要满足在复杂多变的环境下，仍可以得到准确的识别结果，以便于可根据准确的识别结果生成准确的反馈结果，提升用户体验；针对实时性，其需要满足可实时运行于不同应用系统，如Android系统或IOS系统；针对灵活性，其需要提供每个视频帧的动作类型，还需要提供该视频帧的人体骨骼关键点的位置信息和速度信息，以满足上层的应用需求。

传统技术中的动作识别算法均无法全部满足上述要求，为了使动作识别算法可满足上述要求，可考虑对动作识别算法进行改进，下面将结合具体实施例对上述内容进行说明。

图1为本发明实施例提供的一种动作识别方法的流程图，本实施例可适用于在视频中进行动作识别的情况，该方法可以由动作识别装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图1所示，该方法具体包括如下步骤：

步骤110、根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征。

在本发明的实施例中，视频是指将一系列静态画面以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术，当连续的静态画面变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单张的静态画面，看上去是平滑连续的视觉效果，这样连续的静态画面叫做视频。本发明实施例将静态画面称为视频帧。基于上述，可将视频理解为是由至少一个视频帧组成的图像序列。待识别视频指的是需要对其包含的动作进行识别的视频。为了对待识别视频中的动作进行识别，可将视频划分为至少一个视频帧，分别对每个视频帧进行分析。该视频可以是用户在使用短时频应用程序或直播应用程序等时，通过移动端的摄像头实时拍摄上传的视频，还可以是保存在移动端本地的视频，具体视频的来源方式可根据实际情况进行设定，在此不作具体限定。

针对动作识别来说，可将人体看成是由人体骨骼关键点相连接的不同部件组成，动作识别可以根据各个人体骨骼关键点的位置信息来确定，其中，人体骨骼关键点的位置信息可以用一个平面二维坐标来表示。动作识别通常需要获取头顶、下巴、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左脚踝和右脚踝等14个人体骨骼关键点。人体骨骼关键点包含了丰富的人体姿态信息和运动信息，可以为后续的人体动作识别提供可靠的依据。

可以采用基于卷积神经网络的人体骨骼关键点算法从视频帧中识别人体骨骼关键点，其中，卷积神经网络解决的核心问题就是如何自动提取并抽象特征，进而将特征映射到任务目标解决实际问题，一个卷积神经网络一般由以下三部分组成，第一部分是输入层，第二部分由卷积层、激励层和池化层(或下采样层)组合而成，第三部分由一个全连接的多层感知机分类器构成。卷积神经网络具有权值共享特性，权值共享即指可以通过一个卷积核的卷积操作提取整张图像不同位置的同一特征，换句话说，即是在一张图像中的不同位置的相同目标，它们的局部特征是基本相同的。可以理解到，使用一个卷积核只能得到一种特征，可以通过设置多核卷积，用每个卷积核来学习不同的特征来提取图像的特征。需要说明的是，由于本发明实施例的技术方案主要应用于移动端，因此，可在上述卷积神经网络的基础上进行简化，具体的：在算法层面上，可以采用通道剪枝、层间融合和网络蒸馏等方法；在指令层面上，可以采用定点量化和汇编优化等方法，通过上述简化操作，形成轻量级卷积神经网络。需要说明的是，为了确保动作识别的准确度，将对每个视频帧都进行人体骨骼关键点识别。

对于每个视频帧，在得到该视频帧的人体骨骼关键点后，可以根据该人体骨骼关键点确定该视频帧的浅层特征，浅层特征可以包括静态特征、四肢特征、对称特征和动态特征。由于浅层特征是基于人体骨骼关键点得到的，因此，浅层特征可以体现人体的姿态和运动信息。

步骤120、获取各视频帧的图像特征。

在本发明的实施例中，为了进一步提高动作识别的准确度，可考虑提取各视频帧的图像特征。针对图像特征可进一步提高动作识别的准确度，可作如下理解：在复杂的背景或光照条件下，根据人体骨骼关键点算法得到的人体骨骼关键点容易出现失真或严重偏离实际的情况，使得根据人体骨骼关键点得到的浅层特征并不准确，如果仅根据浅层特征进行动作识别，将影响人体动作视频的准确度，而图像特征则不存在上述情况，即图像特征对背景和光照等因素并不敏感，在复杂的背景和光照条件下，获取到的各视频帧的图像特征仍比较准确。此外，图像特征还可以提供一定的语义信息，上述信息可以提高动作识别的准确度。

各视频帧的图像特征可通过如下两种方式获取，具体的：方式一、将各视频帧均输入预先训练的图像特征识别模型来得到各视频帧的图像特征，其中，图像特征识别模型可基于神经网络训练生成；方式二、将各视频帧划分为至少两个视频帧序列；将各视频帧序列中第一视频帧输入图像特征识别模型，得到各视频帧序列中第一视频帧的图像特征，并将各视频帧序列中第一视频帧的图像特征作为各视频帧序列中各视频帧的图像特征，图像特征识别模型基于神经网络训练生成。

步骤130、根据浅层特征和图像特征得到各视频帧的动作特征。

在本发明的实施例中，根据各视频帧的浅层特征和图像特征可得到各视频帧的动作特征，换句话说，各视频帧的动作特征融合了各视频帧的浅层特征和图像特征，动作特征将具有浅层特征和图像特征各自的优点，即浅层特征可以提供准确的人体姿态和运动信息，图像特征相比于浅层特征鲁棒性更好，同时，图像特征还可以提供一定的语义信息。将动作特征作为动作识别模型的输入变量，有助于提高动作识别的准确度。

步骤140、将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率。

在本发明的实施例中，为了可以准确确定每个视频帧正在执行哪个动作的哪个状态，可对动作进行状态拆分，即将每个动作拆分为至少一个状态。示例性的，如将跑步动作拆分为趾部离地、手脚摆动、接触地面、支撑体重和趾部离地五个状态。当然可以理解到，可根据每个动作的实际情况，对该动作进行拆分，相应的，不同动作所包括的状态大多数情况下是不同的，但也存在相同的情况，此外，不同动作所包括的状态的个数可能相同，也可能不同。还可以理解到，还可对每个动作拆分得到的状态进行归类，即将每个动作拆分为起始状态、中间状态和结束状态，如前文所提及的跑步动作，可将趾部离地归类为起始状态，将手脚摆动、接触地面和支撑体重归类为中间状态，将趾部离地归类为结束状态。可进行上述归类的原因在于：在实际业务中，上层应用需要在某个动作的中间状态和结束状态分别执行不同的操作，但是对于中间状态并不作具体区分，如前文所述的跑步动作，上层应用仅需要在该动作的中间状态和结束状态执行不同的操作，中间状态均执行相同的操作而不作具体区分，即手脚摆动、接触地面和支撑体重均执行相同的操作。

需要说明的是，本发明实施例所提供的动作识别模型可用于识别N个动作，将第n个动作记为A_n，n∈{0，1，2，......，N-1}。同时，A_n又可拆分为若干个状态，即A_n＝{S_n,0,S_n,1,......,S_n,m,......,S_n,M}，其中，S_n,m表示第n个动作的第m个状态，m∈{0，1，......，M}，则该动作识别模型可识别出的状态的个数为

|A_n|表示第n个动作包括的状态的个数。可以理解到，当动作识别模型确定后，其可以识别的动作的状态便随之确定，这里所述的动作的状态指的是所有动作的状态。通过动作识别模型得到的动作识别结果包括动作的状态和状态概率，动作的状态与状态概率相对应，即每个动作的状态对应一个状态概率。此外，由于动作识别模型确定后，其可以识别的动作的状态便随之确定，因此，不同输入变量输入动作识别模型得到的动作识别结果中，动作的状态是相同的，所不同的是动作的状态概率。

针对本发明实施例的技术方案来说，每个视频帧的动作特征作为输入变量输入动作识别模型，得到该视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率，不同视频帧的动作识别结果中动作的状态相同，这是由所选择的动作识别模型相同所决定的，所不同的是状态概率。

动作识别模型可以由训练样本基于预先训练的分类器模型训练生成，其中，训练样本可以包括训练视频帧和各训练视频帧的原始动作状态。目前，常用的分类器模型可以包括随机森林、全连接神经网络、全卷积神经网络和循环神经网络等，其中，随机森林是一个包含多个决策树的分类器，其输出的类别是由个别树输出的类别的众数而定。全卷积神经网络指的是不包含全连接层的卷积神经网络。由于视频包含时序信息，因此，可以采用循环神经网络和全卷积神经网络结合的方式来学习时序信息，这里所述的循环神经网络处理包括循环神经网络自身外，还包括循环神经网络的变种形式，循环神经网络的变种形式可以包括长短时序网络

步骤150、根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态。

在本发明的实施例中，每个视频帧的目标动作的执行状态表示的是该视频帧中目标对象正在执行哪个动作的哪个状态。其中，正在执行的动作称为目标动作，示例性的，如视频帧V中目标对象B正在执行跑步动作的趾部离地，其中，正在执行的跑步动作即为目标动作。

根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态，可作如下两种理解：其一、对于每个视频帧，根据该视频帧的动作识别结果以及该视频帧的前T个视频帧的动作识别结果，确定该视频帧的目标动作的执行状态；其二、对于每个视频帧，根据该视频帧的动作识别结果，确定该视频帧的目标动作的执行状态。两者的区别在于：针对某视频帧而言，前者在确定该视频帧的目标动作的执行状态时，不仅根据该视频帧的动作识别结果，还根据该视频帧的前T个视频帧的动作识别结果。而后者在确定该视频帧的目标动作的执行状态时，仅根据该视频帧的动作识别结果。即前者在确定该视频帧的目标动作的执行状态时，将结合该视频帧的前T个视频帧的动作识别结果来共同确定，后者只根据该视频帧的动作识别结果来确定。由于前者确定每个视频帧的目标动作的执行状态时，结合了该视频帧的前T个视频帧的动作识别结果，因此，两者比较而言，前者所确定的视频帧的目标动作的执行状态的准确性更高，原因在于：

第一方面，动作识别模型可能存在误识别的情况，换句话说，无法保证每个视频帧的动作识别结果是正确的，在此基础上，根据该视频帧的动作识别结果所确定的目标动作的执行状态的正确性也无法保证的。

第二方面，视频中各视频帧之间具有一定的关联性，这种关联性体现在动作识别为：相邻多个视频帧之间的目标动作的执行状态具有关联性，这是由于动作包括多个具有时序关联关系的状态，上述具有时序关联关系的状态将出现在相邻的多个视频帧中。基于上述，对于每个视频帧，可根据该视频帧的前T个视频帧的动作识别结果验证根据该视频帧的动作识别结果所确定的目标动作的执行状态的正确性，即对于每个视频帧，根据该视频帧的动作识别结果确定目标动作的执行状态，该视频帧的目标动作的执行状态的正确性，可通过该视频帧的前T个视频帧的动作识别结果来进行验证。示例性的，如根据当前视频帧的动作识别结果确定当前视频帧的目标动作的执行状态为目标对象B正在执行动作α的结束状态，可以理解到，由于动作的状态之间具有时序关联关系，因此，在理论上，当前视频帧的前T个视频帧中存在动作α的起始状态和中间状态。如果当前视频帧的前T个视频帧中存在动作α的起始状态和中间状态，则可以确定根据当前视频帧的动作识别结果确定的目标动作的执行状态是正确的；如果当前视频帧的前T个视频帧中不存在动作α的起始状态和/或中间状态，则可以确定根据当前视频帧的动作识别结果确定的目标动作的执行状态是不正确的。

对于每个视频帧，根据第一方面，可理解到，只根据该视频帧的动作识别结果确定该视频帧的目标动作的执行状态的准确性较低。根据第二方面，可理解到，可根据该视频帧的前T个视频帧的动作识别结果来验证根据该视频帧的动作识别结果所确定的目标动作的执行状态的正确性，只有验证其正确，才可以确定根据该视频帧的动作识别结果所确定的目标动作的执行状态确实为该视频帧的目标动作的执行状态。基于上述两方面，可说明前者所确定的视频帧的目标动作的执行状态的准确性更高。

需要说明的是，如果某视频帧为该视频的第一视频帧，而第一视频帧并不存在前T个视频帧，则只需要根据该视频帧的动作识别结果来确定该视频帧的目标动作的执行状态。

另需要说明的是，将实时向上层应用发送所确定的视频帧的目标动作的执行状态，以便于上层应用可根据目标动作的执行状态设置不同的操作，如添加不同的视频特效等。

可选的，在上述技术方案的基础上，根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态，具体可以包括：根据动作的状态概率对动作的状态排序，并根据排序结果确定各视频帧的动作的目标状态。根据各视频帧的动作的目标状态确定各视频帧的目标动作的执行状态。

在本发明的实施例中，视频帧的动作识别结果包括动作的状态和状态概率，并根据前述可知，不同视频帧的动作识别结果中动作的状态相同，所不同的是动作的状态概率。

对于每个视频帧，可根据该视频帧的动作识别结果中动作的状态概率对动作的状态按降序方式进行排序，并选取前U个动作的状态作为动作的目标状态。需要说明的是，所确定的动作的目标状态可能为同一动作的状态，也可能为不同动作的状态。示例性的，如设定U＝3，则某视频帧的动作的目标状态为{S_n,3，S_n-2,1，S_n,1}，可以看出，动作的目标状态并不全是同一动作的状态，其中，S_n,1和S_n,3为同一动作的状态，而S_n-2,1为另一工作的状态。或者，某视频帧的动作的目标状态为{S_n,3，S_n,0，S_n,1}，可以看出，动作的目标状态为同一动作的状态。还需要说明的是，如果出现动作的状态概率相同的情况，则可随机选择其中一个动作的状态概率所对应的动作即可。

在确定每个视频帧的动作的目标状态的基础上，根据各视频帧的动作的目标状态确定各视频帧的目标动作的执行状态，具体可作如下两种理解：对于每个视频帧，根据该视频帧的动作的目标状态以及该视频帧的前T个视频帧的动作的目标状态，确定该视频帧的目标动作的执行状态；其二、对于每个视频帧，根据该视频帧的动作的目标状态，确定该视频帧的目标动作的执行状态。两者的区别在于：针对某视频帧而言，前者在确定该视频帧的目标动作的执行状态时，不仅根据该视频帧的动作的目标状态，还根据该视频帧的前T个视频帧的动作的目标状态。而后者在确定该视频帧的目标动作的执行状态时，仅根据该视频帧的动作的目标状态。即前者在确定该视频帧的目标动作的执行状态时，将结合该视频帧的前T个视频帧的动作的目标状态来共同确定，后者只根据该视频帧的动作的目标状态来确定。同样的，由于前者确定每个视频帧的目标动作的执行状态时，结合了该视频帧的前T个视频帧的动作的目标状态，因此，两者比较而言，前者所确定的视频帧的目标动作的执行状态的准确性更高。

可选的，在上述技术方案的基础上，根据各视频帧的动作的目标状态确定各视频帧的目标动作的执行状态，具体可以包括：对于每个视频帧，根据视频帧的动作的目标状态和视频帧的前T个视频帧的动作的目标状态，确定视频帧的目标动作的执行状态。

在本发明的实施例中，为了提高确定的视频帧的目标动作的执行状态的准确度，可考虑在确定每个视频帧的目标动作的执行状态时，结合该视频帧的前T个视频帧的动作的目标状态，即根据该视频帧的前T个视频帧的动作的目标状态来验证所确定的该视频帧的目标动作的执行状态的正确性。可采用上述方式的原因可参见前文所述的从两个方面进行阐述部分，在此不再具体赘述。需要说明的是，视频帧的动作的目标状态是根据该视频帧的动作识别结果所确定的。在此基础上，虽然前文所述的是根据该视频帧的前T个视频帧的动作识别结果来验证根据该视频帧的动作识别结果所确定的目标动作的执行状态的正确性，但由于视频帧的动作的目标状态是根据该视频帧的动作识别结果所确定的，因此，这里可采用上述方式的原因与前文所述的原因相同。

对于每个视频帧，可根据该视频帧的动作的目标状态和该视频帧的前T个视频帧的动作的目标状态，确定该视频帧的目标动作的执行状态，具体的：对于每个视频帧，视频帧的动作的目标状态为目标动作的起始状态，则确定视频帧的目标动作正在执行。视频帧的动作的目标状态为目标动作的中间状态且视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态，则确定视频帧的目标动作正在执行。视频帧的动作的目标状态为目标动作的结束状态且视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态和中间状态，则确定视频帧的目标动作结束。

需要说明的是，视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态和中间状态，这里目标动作的起始状态和中间状态存在于不同视频帧中，且目标动作的起始状态对应的视频帧位于目标动作的中间状态对应的视频帧之前，即目标动作的状态应该符合时序关系。

可选的，在上述技术方案的基础上，对于每个视频帧，根据视频帧的动作的目标状态和所述视频帧的前T个视频帧的动作的目标状态，确定视频帧的目标动作的执行状态，具体可以包括：对于每个视频帧，视频帧的动作的目标状态为目标动作的起始状态，则确定视频帧的目标动作正在执行。视频帧的动作的目标状态为目标动作的中间状态且视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态，则确定视频帧的目标动作正在执行。视频帧的动作的目标状态为目标动作的结束状态且视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态和中间状态，则确定视频帧的目标动作结束。

在本发明的实施例中，对于每个视频帧，如果该视频帧的动作的目标状态为目标动作的起始状态，则可以确定视频帧的目标动作正在执行。

如果该视频帧的动作的目标状态为目标动作的中间状态，则需要确定该视频帧的前T个视频帧的动作的目标状态中是否存在该目标动作的起始状态，这是由于如果该视频帧的动作的目标状态为目标动作的中间状态，则在理论上，该视频帧的前T个视频帧的动作的目标状态中应该存在该目标动作的起始状态，只有这样才可以形成一条完整的动作路径。基于上述，如果该视频帧的前T个视频帧的动作的目标状态中存在该目标动作的起始状态，则可以确定该视频帧的目标动作正在执行。

如果该视频帧的动作的目标状态为目标动作的结束状态，则需要确定该视频帧的前T个视频帧的动作的目标状态中是否存在该目标动作的起始状态和中间状态，这是由于如果该视频帧的动作的目标动作的结束状态，则在理论上，该视频帧的前T个视频帧的动作的目标状态中应该存在该目标动作的起始状态和中间状态，只有这样才可以形成一条完整的动作路径。如果该视频帧的前T个视频帧的动作的目标状态中存在该目标动作的起始状态和中间状态，则可以确定该视频帧的目标动作结束。

需要说明的是，根据前文所述，对于每个视频帧，根据该视频帧的动作识别结果中动作的状态概率对动作的状态按降序方式进行排序，并选取前U个动作的状态作为动作的目标状态。再根据该视频帧的动作的目标状态确定该视频帧的目标动作的执行状态。这里将根据U个动作的目标状态中排序第一的动作的目标状态来确定该视频帧的目标动作的执行状态，其它U-1个动作的目标状态将用于参与确定该视频帧之后的视频帧的目标动作的执行状态。

示例性的，如设定动作A_n＝{S_n,0，S_n,1，S_n,2}，即动作A_n包括三个状态，分别为S_n,0、S_n,1和S_n,2，其中，S_n,0为动作A_n的起始状态，S_n,1为动作A_n的中间状态，S_n,2为动作A_n的结束状态。动作A_n-2＝{S_n-2,0，S_n-2,1，S_n-2,2}，即A_n-2包括三个状态，分别为S_n-2,0、S_n-2,1和S_n-2,2，其中，S_n-2,0为动作A_n-2的起始状态，S_n-2,1为动作A_n-2的中间状态，S_n-2,2为动作A_n-2的结束状态。

针对第t视频帧，其动作的目标状态为{S_n,2，S_n,1，S_n-2,2}，其中，S_n,2为排序第一的动作的目标状态，根据S_n,2确定该视频帧的动作的目标状态为目标动作A_n的结束状态，则需要确定该视频帧的前T个视频帧的动作的目标状态中是否存在目标动作A_n的起始状态S_n,0和中间状态S_n,1。如表1所示，给出了该视频帧(即第t视频帧)以及该视频帧的前T个视频帧的动作的目标状态。

表1

根据表1可知，在该视频帧的前T个视频帧中存在该视频帧的目标动作A_n的起始状态S_n,0和中间状态S_n,1，并且，存在目标动作A_n的起始状态S_n,0对应的视频帧位于目标动作A_n的中间状态S_n,1对应的视频帧之前。基于上述，可以确定该视频帧的目标动作A_n结束。

需要说明的是，T的取值可结合移动端的硬件性能以及实际业务需求进行设置，在此不作具体限定。

还需要说明的是，步骤110和步骤120可以同步执行，也可以先执行步骤110再执行步骤120，还可以先执行步骤120再执行步骤110，上述两个步骤执行的先后顺序可根据实际情况进行确定，在此不作具体限定。

本实施例的技术方案，通过根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征，获取各视频帧的图像特征，根据浅层特征和图像特征得到各视频帧的动作特征，将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率，根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态，由于动作特征融合了浅层特征和图像特征，使得动作特征可以在准确体现人体的姿态和运动信息的同时，还可以体现一定的语义信息，将其作为输入变量输入动作识别模型，提高了动作识别的准确度。此外，在确定每个视频帧的目标动作的执行状态时，不仅根据该视频帧的动作识别结果，还结合其它视频帧的动作识别结果，从而进一步提高了动作识别的准确度。

可选的，在上述技术方案的基础上，可以通过如下方式训练动作识别模型：获取训练样本，训练样本包括两个或两个以上训练视频帧和各训练视频帧的原始动作状态，并将训练样本划分为训练集和验证集。根据各训练视频帧的人体骨骼关键点，确定各训练视频帧的浅层特征。获取各训练视频帧的图像特征。根据各训练视频帧的浅层特征和图像特征得到各训练视频帧的动作特征。将训练集中各训练视频帧的动作特征作为输入变量，训练集中各训练视频帧的原始动作状态作为输出变量，训练分类器，得到待校验动作识别模型。将验证集中各训练视频帧的动作特征输入待校验动作识别模型，得到验证集中各训练视频帧的预测动作状态，并根据验证集中各训练视频帧的原始动作状态和预测动作状态构建混淆矩阵。根据混淆矩阵调整各训练视频帧的原始动作状态，继续训练待校验动作识别模型，直至各训练视频帧的原始动作状态的识别率大于等于识别率阈值，则将训练完成的待校验动作识别模型作为动作识别模型。

在本发明的实施例中，考虑到动作识别模型可运行于移动端，因此，需要选用运算速度较快的分类器模型，分类器可以包括随机森林、全连接神经网络、卷积神经网络、循环神经网络及其改进的循环神经网络等。其中，改进的循环神经网络的变种可以包括长短时记忆网络，长短时记忆网络可以解决循环神经网络中存在的梯度爆炸或消失的问题。

需要说明的是，考虑到动作识别模型将运行于移动端，而移动端的硬件性能有限，基于上述，其一、在算法层面，对分类器的结构大小进行了约束。具体的：如对随机森林中的树数量、全连接神经网络的隐含层数以及每个隐含层中神经元数量以及卷积神经网络的深度和宽度等进行了约束。其二、在指令层面上，采用定点计算，此外，对某些操作还做了汇编级别的优化。

还需要说明的是，可以根据移动端的硬件性能以及实际业务需求选择分类器的具体形式，并且可以选择一种或多种分类器的具体形式，在此不作具体限定。

可以通过如下方式训练动作识别模型：获取训练样本，训练样本包括两个或两个以上训练视频帧和各训练视频帧的原始动作状态，并将训练样本划分为训练集和验证集。其中，各视频帧的原始动作状态是预先标注的，所标注的依据是：动作识别模型可用于识别N个动作，将第n个动作记为A_n，n∈{0，1，2，......，N-1}。同时，将A_n拆分为若干个原始动作状态，即A_n＝{S_n,0',S_n,1',......,S_n,m',......,S_n,P'}，其中，S_n,m'表示第n个动作的第m个原始动作状态，m∈{0，1，......，P}。需要说明的是，上述将各个动作拆分为若干个原始动作状态是自定义的，因此，可能存在着自定义的原始动作状态之间互相混淆或者互有重合的问题，上述将给动作识别模型的训练带来干扰，增加了训练的难度，进而将降低模型的识别率。为了解决上述问题，采用了通过构建混淆矩阵的方式来解决，具体的：

根据各训练视频帧的人体骨骼关键点，确定各训练视频帧的浅层特征。获取各训练视频帧的图像特征，根据各训练视频帧的浅层特征和图像特征得到各训练视频帧的动作特征，即每个训练视频帧均有对应的动作特征，其是根据该训练视频帧的浅层特征和该训练视频帧的图像特征得到的。需要说明的是，这里所述的训练视频帧指的是训练样本中的，包括训练集中的训练视频帧，也包括验证集中的训练视频帧。

将训练集中各训练视频帧的动作特征作为输入变量，训练集中各训练视频帧的原始动作状态作为输出变量，训练分类器，得到待校验动作识别模型。再将验证集中各训练视频帧的动作特征输入待校验动作识别模型，得到验证集中各训练视频帧的预测动作状态，并根据验证集中各训练视频帧的原始动作状态和预测动作状态构建混淆矩阵。混淆矩阵是一种可视化的分类效果示意图。它可以用来描绘样本数据的真实归属类别和预测类别的关系。混淆矩阵的每一行表示样本的真实归属类别，每一列表示样本的预测类别。可以理解到，混淆矩阵中对角线元素表示被正确分类的数量，非对角线元素表示被错误分类的数量，可以通过混淆矩阵直观的看出哪里有错误。

在本发明的实施例中，样本数据的真实归属类别指的是验证集中各训练视频帧的原始动作状态，预测类别指的是验证集中各训练视频帧的预测动作状态，可以通过混淆矩阵的识别率得出容易混淆的原始动作状态。根据混淆矩阵得出的结果调整各训练视频帧的原始动作状态，即对上述容易混淆的原始动作状态进行合并或重新拆分，使得各训练视频帧的原始动作状态得到更新，并基于更新后的各训练视频帧的原始动作状态，继续训练待校验动作识别模型，直至各训练视频帧的原始动作状态的识别率大于等于识别率阈值，即将训练集中各训练视频帧的动作特征作为输入变量，将训练集中更新后的各训练视频帧的原始动作状态作为输出变量，训练待校验动作识别模型，将验证集中更新后的各训练视频帧的动作特征输入待校验动作识别模型，得到验证集中各训练视频帧的预测动作状态，并根据验证集中更新后的各训练视频帧的原始动作状态和预测动作状态构建混淆矩阵，根据混淆矩阵调整更新后的各训练视频帧的原始动作状态，继续训练待校验动作识别模型，直至各训练视频帧的原始动作状态的识别率大于等于识别率阈值。最终可将训练完成的待校验动作识别模型作为动作识别模型。

需要说明的是，前文所述的将A_n拆分为若干个原始动作状态，即A_n＝{S_n,0',S_n,1',......,S_n,m',......,S_n,P'}，其中，S_n,m'表示第n个动作的第m个原始动作状态，m∈{0，1，......，P}，可能会随着训练过程中对各原始动作状态的调整而发生变化。

还需要说明的是，为了提高动作识别模型的鲁棒性，可考虑在训练过程中对训练样本进行数据增强处理，数据增强方法可以包括尺度变换、翻转变换、平移变换、缩放变换和RGB通道增强等。示例性的，如对训练视频帧的人体骨骼关键点进行水平翻转。

另需要说明的是，在模型训练过程中，还将标记训练视频帧中原始动作状态所对应的时间戳。

上述通过构建混淆矩阵，使得自定义的原始动作状态逐步符合实际情况，进而提高了经训练得到的动作识别模型的识别准确度。

可选的，在上述技术方案的基础上，浅层特征包括静态特征、四肢特征、对称特征和动态特征。可以通过如下公式计算各视频帧的静态特征、对称特征和动态特征：

其中，

p^(t)表示第t视频帧的人体骨骼关键点的坐标集合，K表示第t视频帧中包含的人体骨骼关键点的个数，

表示第t视频帧的第i人体骨骼关键点的坐标，i∈[0,1,......,K-1]，

表示第t视频帧的第j人体骨骼关键点的坐标，j∈[2,4，......，K-2]；(x^(t),y^(t))表示第t视频帧中左肩到右肩连线的几何中心，l^(t)表示第t视频帧中左肩到右胯距离和右肩到左胯距离的平均值；

表示第t视频帧的静态特征，

表示第t-τ视频帧的静态特征，

表示第t-2τ视频帧的静态特征；

表示第t视频帧的对称特征；

表示第t视频帧的动态特征。

在本发明的实施例中，根据各视频帧的人体骨骼关键点确定各视频帧的浅层特征，其中，浅层特征可以包括静态特征、四肢特征、对称特征和动态特征。人体骨骼关键点可以用二维坐标表示，人体骨骼关键点包括头顶、下巴、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左脚踝和右脚踝。各视频帧中均包括上述人体骨骼关键点。第t视频帧的人体骨骼关键点的坐标集合p^(t)可表示为

表示第t视频帧的第i人体骨骼关键点的坐标，i∈[0,1,......,K-1]，K表示第t视频帧中包含的人体骨骼关键点的个数。

第t视频帧的静态特征

可表示为：

其中，(x^(t),y^(t))表示第t视频帧中左肩到右肩连线的几何中心，l^(t)表示第t视频帧中左肩到右胯距离和右肩到左胯距离的平均值。选择左肩到右肩连线的几何中心为(x^(t),y^(t))的原因在于：左肩和右肩的定位相对准确，且在不同动作中，左肩和右肩的位置相对稳定。选择左肩到右胯距离和右肩到左胯距离的平均值为l^(t)的原因在于：左肩到右胯距离和右肩到左胯距离的平均值在不同动作中变化比较小。

第t视频帧的对称特征

可以表示为：

获取视频帧的对称特征的原因在于：其一、视频是用户正对移动端的摄像头拍摄得到的，且用户在站立时，身体本身就是左右对称的；其二、某些动作(如抬右手或跺左脚等)将使得原本对称的身体变得不对称，相应的，也将使得原本对称的人体骨骼关键点变得不对称。基于上述，如果可以利用上述信息，则有助于提高动作识别的准确度。需要说明的是，本发明实施例中

和

为一组对称特征，且随着j取值不同，上述对称特征可以为：左肩和右肩、左肘和右肘、左手腕和右手腕、左胯和右胯、左膝和右膝、左脚踝和右脚踝。还需要说明的是，本发明实施例中j∈[2,4，......，K-2]，上述与人体骨骼关键点采用哪个数字进行标识有关，示例性的，如本发明实施例中K＝14，头顶、下巴、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左脚踝和右脚踝分别用0,1,......,K-1进行标识。

第t视频帧的动态特征

可以表示为：

其中，

表示第t视频帧的静态特征，

表示第t-τ视频帧的静态特征，

表示第t-2τ视频帧的静态特征，

获取视频帧的动态特征的原因在于：由于通过静态特征仅可获知每个人体骨骼关键点在当前视频帧的位置，无法获知人体骨骼关键点的运动轨迹，对于某些相似的动作来说，上述动作在某视频帧的人体骨骼关键点的位置相似，但是在该视频帧的相邻几个视频帧中的运动方向和速度并不相同，因此，如果仅根据静态特征，则无法很好的识别不同的动作。基于上述，对于某视频帧来说，可以考虑结合该视频帧的相邻几个视频帧的静态特征形成动态特征来提升动作识别的准确度。

此外，考虑到运行效率，采用差分方式来利用相邻几个视频帧的静态特征形成动态特征。可以理解到，视频帧的动态特征包含了人体骨骼关键点的运动方向和运动速度。还可以理解到，获取视频帧的动态特征的计算复杂度低，实现简单。

针对四肢特征来说，在不同动作中，头部和躯干部分中人体骨骼关键点的变动相对较小，而四肢部分的人体骨骼关键点的变动相对较大，因此，提取四肢部分人体骨骼关键点的位置信息形成四肢特征。

四肢特征具体可以包括：左肩到左肘的归一化距离、左肩与左肘连线与水平方向所形成的夹角、左肘到左腕的归一化距离、左肘到左腕连线与水平方向所形成的夹角、右肩到右肘的归一化距离、右肩与右肘连线与水平方向所形成的夹角、右肘到右腕的归一化距离以及右肘到右腕连线与水平方向所形成的夹角。针对第t视频帧来说，其四肢特征可以表示为

其中，

可选的，在上述技术方案的基础上，获取各视频帧的图像特征，具体可以包括：将各视频帧输入图像特征识别模型，得到各视频帧的图像特征，图像特征识别模型基于神经网络训练生成。

在本发明的实施例中，可以将各视频帧均输入图像特征识别模型，得到各视频帧的图像特征，其中，图像特征识别模型可以基于神经网络训练生成，神经网络可以包括卷积神经网络。

可选的，在上述技术方案的基础上，获取各视频帧的图像特征，具体可以包括：将各视频帧划分为至少两个视频帧序列。将各视频帧序列中第一视频帧输入图像特征识别模型，得到各视频帧序列中第一视频帧的图像特征，并将各视频帧序列中第一视频帧的图像特征作为各视频帧序列中各视频帧的图像特征。

在本发明的实施例中，虽然图像特征具有上述优点，但是频繁的获取图像特征会增加时间开销。为了降低在获取图像特征方面的时间开销，采用了跳帧复用的方式来获取视频帧的图像特征，具体的：

将视频中的各视频帧按时间顺序划分为至少两个视频帧序列，各视频帧序列之间不重叠，每个视频帧序列中所包括的视频帧的个数可以相同，也可以不同，具体可根据实际情况进行确定，在此不作具体限定。同时，在各视频帧序列中，按时间顺序可分为第一视频帧、第二视频帧、…….、第P视频帧，现将各视频帧序列中第一视频帧的图像特征作为该视频帧序列中各视频帧的图像特征，即对于每个视频帧序列，将该视频帧序列中第一视频帧输入图像特征识别模型，得到该视频帧序列中第一视频帧的图像特征，将该视频帧序列中第一视频帧的图像特征作为该视频帧序列中各视频帧的图像特征。

可以理解到，相比于将各视频帧均输入图像特征识别模型，得到各视频帧的图像特征而言，采用上述跳帧复用方式来获取各视频帧的图像特征，可以降低在获取图像特征方面的时间开销。

需要说明的是，本发明实施例所提供的技术方案，由于对基于卷积神经网络的人体骨骼关键点识别方法在算法层面和指令层面进行了改进，以及对基于神经网络训练生成的图像特征识别模型在算法层面和指令层面进行了改进，使得本发明实施例所提供的技术方案可以实时运行于移动端。

图2为本发明实施例提供的另一种动作识别方法的流程图，本实施例可适用于在视频中进行动作识别的情况，该方法可以由动作识别装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图2所示，该方法具体包括如下步骤：

步骤210、根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征。

步骤220、将各视频帧划分为至少两个视频帧序列。

步骤230、将各视频帧序列中第一视频帧输入图像特征识别模型，得到各视频帧序列中第一视频帧的图像特征，并将各视频帧序列中第一视频帧的图像特征作为各视频帧序列中各视频帧的图像特征。

步骤240、根据各视频帧的浅层特征和图像特征得到各视频帧的动作特征。

步骤250、将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率。

步骤260、根据动作的状态概率对动作的状态排序，并根据排序结果确定各视频帧的动作的目标状态。

步骤270、对于每个视频帧，根据视频帧的动作的目标状态和视频帧的前T个视频帧的动作的目标状态，确定视频帧的目标动作的执行状态。

在本发明的实施例中，对于每个视频帧，根据视频帧的动作的目标状态和视频帧的前T个视频帧的动作的目标状态，确定视频帧的目标动作的执行状态，具体可以包括：对于每个视频帧，视频帧的动作的目标状态为目标动作的起始状态，则确定视频帧的目标动作正在执行。视频帧的动作的目标状态为目标动作的中间状态且视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态，则确定视频帧的目标动作正在执行。视频帧的动作的目标状态为目标动作的结束状态且视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态和中间状态，则确定述视频帧的目标动作结束。

本实施例的技术方案，通过根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征，获取各视频帧的图像特征，根据浅层特征和图像特征得到各视频帧的动作特征，将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率，根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态，由于动作特征融合了浅层特征和图像特征，使得动作特征可以在准确体现人体的姿态和运动信息的同时，还可以体现一定的语义信息，将其作为输入变量输入动作识别模型，提高了动作识别的准确度。此外，在确定每个视频帧的目标动作的执行状态时，不仅根据该视频帧的动作识别结果，还结合其它视频帧的动作识别结果，从而进一步提高了动作识别的准确度

图3为本发明实施例提供的一种动作识别装置的结构示意图，本实施例可适用于在视频中进行动作识别的情况，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图3所示，该装置具体包括：

浅层特征确定模块310，用于根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征。

图像特征获取模块320，用于获取各视频帧的图像特征。

动作特征获取模块330，用于根据浅层特征和图像特征得到各视频帧的动作特征。

动作识别结果获取模块340，用于将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率。

执行状态确定模块350，用于根据各视频帧的动作识别结果确定各视频帧的目标动作的执行状态。

可选的，在上述技术方案的基础上，执行状态确定模块350，具体可以包括：

动作的目标状态确定单元，用于根据动作的状态概率对动作的状态排序，并根据排序结果确定各视频帧的动作的目标状态。

执行状态确定单元，用于根据各视频帧的动作的目标状态确定各视频帧的目标动作的执行状态。

可选的，在上述技术方案的基础上，执行状态确定单元，具体可以用于：

对于每个视频帧，根据视频帧的动作的目标状态和视频帧的前T个视频帧的动作的目标状态，确定视频帧的目标动作的执行状态。

可选的，在上述技术方案的基础上，对于每个视频帧，根据视频帧的动作的目标状态和视频帧的前T个视频帧的动作的目标状态，确定视频帧的目标动作的执行状态，具体可以包括：

对于每个视频帧，视频帧的动作的目标状态为目标动作的起始状态，则确定视频帧的目标动作正在执行。

视频帧的动作的目标状态为目标动作的中间状态且视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态，则确定视频帧的目标动作正在执行。

视频帧的动作的目标状态为目标动作的结束状态且视频帧的前T个视频帧的动作的目标状态中存在目标动作的起始状态和中间状态，则确定视频帧的目标动作结束。

可选的，在上述技术方案的基础上，可以通过如下方式训练动作识别模型：

获取训练样本，训练样本包括两个或两个以上训练视频帧和各训练视频帧的原始动作状态，并将训练样本划分为训练集和验证集。

根据各训练视频帧的人体骨骼关键点，确定各训练视频帧的浅层特征。

获取各训练视频帧的图像特征。

根据各训练视频帧的浅层特征和图像特征得到各训练视频帧的动作特征。

将训练集中各训练视频帧的动作特征作为输入变量，训练集中各训练视频帧的原始动作状态作为输出变量，训练分类器，得到待校验动作识别模型。

将验证集中各训练视频帧的动作特征输入待校验动作识别模型，得到验证集中各训练视频帧的预测动作状态，并根据验证集中各训练视频帧的原始动作状态和预测动作状态构建混淆矩阵。

根据混淆矩阵调整各训练视频帧的原始动作状态，继续训练待校验动作识别模型，直至各训练视频帧的原始动作状态的识别率大于等于识别率阈值，则将训练完成的待校验动作识别模型作为动作识别模型。

可选的，在上述技术方案的基础上，浅层特征包括静态特征、四肢特征、对称特征和动态特征。

可以通过如下公式计算各视频帧的静态特征、对称特征和动态特征：

其中，

表示第t视频帧的静态特征，

表示第t-τ视频帧的静态特征，

表示第t-2τ视频帧的静态特征；

表示第t视频帧的对称特征；

表示第t视频帧的动态特征。

可选的，在上述技术方案的基础上，图像特征获取模块320，具体可以包括：

第一图像特征获取单元，用于将各输入图像特征识别模型，得到各视频帧的图像特征，图像特征识别模型基于神经网络训练生成。

可选的，在上述技术方案的基础上，图像特征获取模块320，具体还可以包括：

视频帧序列划分单元，用于将各视频帧划分为至少两个视频帧序列。

第二图像特征获取单元，用于将各视频帧序列中第一视频帧输入图像特征识别模型，得到各视频帧序列中第一视频帧的图像特征，并将各视频帧序列中第一视频帧的图像特征作为各视频帧序列中各视频帧的图像特征，图像特征识别模型基于神经网络训练生成。

本发明实施例所提供的动作识别装置可执行本发明任意实施例所提供的动作识别方法，具备执行方法相应的功能模块和有益效果。

图4为本发明实施例提供的一种设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备412的框图。图4显示的设备412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，设备412以通用计算设备的形式表现。设备412的组件可以包括但不限于：一个或者多个处理器416，系统存储器428，连接于不同系统组件(包括系统存储器428和处理器416)的总线518。

总线418表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Instruction Set Architecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型(Instruction Set Architecture，ISA)总线、视频电子标准协会(Video ElectronicsStandards Association，VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnect，PCI)总线。

设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被移动终端412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)530和/或高速缓存存储器432。设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如(Computer Disc Read-Only Memory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储器428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器524等)通信，还可与一个或者多个使得用户能与该设备412交互的设备通信，和/或与使得该设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且，设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器420通过总线418与设备412的其它模块通信。应当明白，尽管图4中未示出，可以结合设备412使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在系统存储器428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种动作识别方法，包括：

根据待识别视频中各视频帧的人体骨骼关键点，确定各视频帧的浅层特征。

获取各视频帧的图像特征。

根据浅层特征和图像特征得到各视频帧的动作特征。

将各视频帧的动作特征输入动作识别模型，得到各视频帧的动作识别结果，动作识别结果包括动作的状态和状态概率。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供应用于设备的动作识别的技术方案。该设备的硬件结构以及功能可参见实施例的内容解释。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的一种动作识别方法，该方法包括：

获取各视频帧的图像特征。

根据浅层特征和图像特征得到各视频帧的动作特征。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Computer Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——局域网(Local AreaNetwork，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

当然，本发明实施例所提供的一种计算机可读存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的设备的动作识别方法中的相关操作。对存储介质的介绍可参见实施例中的内容解释。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。