CN107704799A

CN107704799A - 一种人体动作识别方法及设备、计算机可读存储介质

Info

Publication number: CN107704799A
Application number: CN201710682779.3A
Authority: CN
Inventors: 李臣阳
Original assignee: Shenzhen Jinli Communication Equipment Co Ltd
Current assignee: Shenzhen Jinli Communication Equipment Co Ltd
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2018-02-16

Abstract

本发明实施例公开了一种人体动作识别方法及设备、计算机可读存储介质。其中该方法包括：获取深度视频图像，其中，深度视频图像包括多帧深度图像；将多帧深度图像分别向空间坐标系投影以获得多类深度子图像组；将每类深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作；根据预设帧间差分法计算每个子动作对应的时间深度动态模型；通过空间金字塔方向梯度直方图对时间深度动态模型进行编码以生成特征描述符；通过分类算法建立特征描述符与运动类别之间的对应关系以识别人体动作。该方法可以提高人体动作的识别率，同时提高人体动作识别的速率。

Description

一种人体动作识别方法及设备、计算机可读存储介质

技术领域

本发明涉及人体动作识别技术领域，尤其涉及一种人体动作识别方法及设备、计算机可读存储介质。

背景技术

人体动作识别是图像处理、计算机视觉、模式识别、机器学习、人工智能等多个学科的交叉研究课题，在视频监控、视频检索、人机交互、虚拟现实、医疗看护等领域具有很强的实用性。

目前，人体动作识别方法主要包括:(1)基于时空的时空轨迹、时空兴趣点、时空剪影等方法，然而该类方法都是基于传统的彩色图像，而且该类方法成本高，二维信息不足，动作识别效果不佳；(2)基于深度数据的动作识别方法，该类方法虽然计算量小，但该类方法需要在一个改进的球面坐标系中计算3D骨骼节点的位置，然而现有技术对骨骼节点的估计并不是很准确，这就导致该类方法的动作识别效果不佳。

发明内容

本发明实施例提供一种人体动作识别方法及设备、计算机可读存储介质，可以提高人体动作的识别率。

第一方面，本发明实施例提供了一种人体动作识别方法，其包括：

获取深度视频图像，其中，所述深度视频图像包括多帧深度图像；

将多帧所述深度图像分别向空间坐标系投影以获得多类深度子图像组；

将每类所述深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作；

根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型；

通过空间金字塔方向梯度直方图对所述时间深度动态模型进行编码以生成特征描述符；

通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作。

第二方面，本发明实施例还提供了一种人体动作识别设备，其包括：

获取单元，用于获取深度视频图像，其中，所述深度视频图像包括多帧深度图像；

投影获取单元，用于将多帧所述深度图像分别向空间坐标系投影以获得多类深度子图像组；

划分单元，用于将每类所述深度子图像组中的多帧深度子图像按照预设划分规则分成多个子动作；

模型计算单元，用于根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型；

生成单元，用于通过空间金字塔方向梯度直方图对所述时间深度动态模型进行编码以生成特征描述符；

识别单元，用于通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作。

第三方面，本发明实施例又提供了一种人体动作识别设备，其包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储程序代码，所述处理器被配置用于调用所述程序代码，执行本发明提供的任一项所述的人体动作识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行发明提供的任一项所述的人体动作识别方法。

本发明实施例通过将深度视频图像中的多帧深度图像分别向空间坐标系投影以获得多类深度子图像组，再将每类深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作；根据预设帧间差分法计算每个子动作对应的时间深度动态模型；通过空间金字塔方向梯度直方图对时间深度动态模型进行编码以生成特征描述符；通过分类算法建立特征描述符与运动类别之间的对应关系以识别人体动作。该人体动作识别方法可以提高人体动作的识别率，同时，整个人体动作识别过程所需的计算量较小，可提高人体动作识别过程中的运算速率，从而提高人体动作识别的速率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种人体动作识别方法的示意流程图；

图2是图1所示的人体动作识别方法中步骤S103的示意流程图；

图3是图1所示的人体动作识别方法中步骤S104的示意流程图；

图4为本发明实施例中前视图的时间深度动态模型的示意图；

图5是图1所示的人体动作识别方法中步骤S105的示意流程图；

图6为本发明实施例中时间深度动态模型在每层空间金字塔中的划分结构示意图；

图7是图1所示的人体动作识别方法中步骤S106的示意流程图；

图8为MSR-Action3D数据库上空间金字塔不同层数L的测试结果对比图；

图9是本发明实施例提供的一种人体动作识别设备的结构框图；

图10是本发明实施例提供的一种人体动作识别设备的另一结构框图；

图11是本发明实施例提供的一种人体动作识别设备的又一结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的一种人体动作识别方法的示意流程图。该方法可以运行在人体动作识别设备上。在此，该人体动作识别设备可以包括具有人体动作识别功能的电子设备。譬如，具有人体动作识别功能的智能终端、平板电脑、计算机等。如图1所示，该方法包括步骤S101～S106。

S101、获取深度视频图像，其中，所述深度视频图像包括多帧深度图像。

深度图像是记录场景中各个点相对于镜头的距离的图像。多帧深度图像按照时间先后顺序排列就形成了深度视频图像。

在本实施例中，先获取深度视频图像，并对深度视频图像中的多帧深度图像做相应处理，以通过多帧深度图像来识别出人物的动作。

S102、将多帧所述深度图像分别向空间坐标系投影以获得多类深度子图像组。

在一实施例中，空间坐标系可以为三维笛卡尔坐标系，将多帧所述深度图像分别向空间坐标系投影以获得多类深度子图像组具体包括：将多帧所述深度图像分别向三维笛卡尔坐标系中的三个平面投影以获得三类深度子图像组。

为了方便后续表述，可以将三类深度子图像组分别标记为前视图f、侧视图s和俯视图t。另外，可以理解的是，每类深度子图像组中均包括多个深度子图像。

譬如，深度视频图像包括27帧深度图像，那么在27帧深度图像分别向三维笛卡尔坐标系的三个平面投影后所获得的三类深度子图像组中，每类深度子图像组均包括27帧深度子图像。

S103、将每类所述深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作。

具体地，在一实施例中，请参阅图2所示，图2为图1所示人体动作识别方法中步骤S103的具体流程示意图。在获得多类深度子图像组之后，将每类所述深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作，具体可以包括步骤S103a～103b。

S103a、将每类所述深度子图像组中的多帧深度子图像按照帧索引平均划分成N个子动作，其中，N为正整数。

由于多帧深度图像是按照时间顺序排列的，即按照帧索引的顺序排列的，那么每类深度子图像组中的多帧深度子图像也是按照帧索引的顺序排列的。因此，可以将每类深度子图像组中的多帧深度子图像按照帧索引平均划分成N个子动作。

譬如，每类深度子图像组均包括27帧深度子图像，那么可以将前9帧深度子图像划分为第一个子动作，将中间9帧深度子图像划分为第二个子动作，将后9帧深度子图像划分为第三个子动作。这样，每类深度子图像组按照步骤S103a的方法均可以划分成3个子动作，即N的取值为3。

S103b、将每类所述深度子图像组中的多帧深度子图像划分为第N+1个子动作。

为了可以获取人物的整体运动信息，将每类深度子图像组中的多帧深度子图像作为整体划分为第N+1个子动作。譬如，将每类深度子图像组中的27帧深度子图像作为整体划分成第四个子动作。

至此，按照步骤S103a至S103b所示的预设划分规则，每类深度子图像组中的多帧深度子图像均被划分成4个子动作，三类深度子图像组对应的子动作总数为12个。

可以理解的是，在其他实施例中，还可以采用其他划分规则来将多帧深度子图像划分成多个子动作，在此不对预设划分规则做具体限制。

S104、根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型。

在获取到多个子动作之后，将根据预设帧间差分法计算每个子动作对应的时间深度动态模型。具体地，在一实施例中，请参阅图3，图3为图1所示人体动作识别方法中步骤S104的具体流程示意图。根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型可以包括步骤S104a至S104b。

S104a、计算每个所述子动作中相邻两帧所述深度子图像中相应位置处像素差值的绝对值，并对所述绝对值进行累加以获得每个所述子动作对应的准时间深度动态模型。

具体地，准时间深度动态模型DMM_v可以用如下公式表示：

其中，M表示起始帧的帧索引，i表示帧索引，v∈(f,s,t)，表示在前视图f、侧视图s或俯视图t上的子动作中第i帧深度子图像。

譬如，当v取值为f时，DMM_f表示前视图f上的一个子动作对应的准时间深度动态模型。根据公式(1)可以依次获得每类深度子图像组中4个子动作分别对应的准时间深度动态模型。

在本实施例中，由于直接对每个所述子动作中相邻两帧深度子图像中相应位置处像素差值的绝对值进行累加，可以大大提高计算速度，进而提高人体动作识别的速度。

S104b、提取所述准时间深度动态模型中的有效区域作为所述时间深度动态模型。

由于准时间深度动态模型中包括了一些非人体动作的区域，即准时间深度动态模型中边缘区域存在全零行和/或全零列。为了可以提取人体动作的有效区域，将去除准时间深度动态模型中处于边缘的全零行和全零列，将准时间深度动态模型中的剩余区域，即有效区域，作为每个子动作对应的时间深度动态模型，在此，将时间深度动态模型标记为TDM。

另外，可以理解的是，由于三类深度子图像组的子动作总数为12个，因此，在采用S104a至S104b所示的预设帧间差分法计算每个子动作对应的时间深度动态模型后，将总共获得12个时间深度动态模型，其中每类深度子图像组中包括四个时间深度动态模型。

譬如，请参阅图4，图4为本发明实施例中前视图的时间深度动态模型的示意图。图4示出了前视图f上的四个子动作对应的四个时间深度动态模型，分别标记为TDM_f1、TDM_f2、TDM_f3和TDM_f4。

需要说明的是，预设帧间差分法的具体计算过程及内容不局限于上述所示的情况，预设帧间差分法还可以为其他类型的帧间差分法，在此不做具体限制。

S105、通过空间金字塔方向梯度直方图对所述时间深度动态模型进行编码以生成特征描述符。

具体地，在一实施例中，请参阅图5，图5为图1所示人体动作识别方法中步骤S105的具体流程示意图。通过空间金字塔方向梯度直方图(Space Pyramid HistogramofOriented Gradient，简称SPHOG)对所述时间深度动态模型进行编码以生成特征描述符包括步骤S105a～S105d。

S105a、计算所述时间深度动态模型中每个像素点的梯度幅值和梯度方向。

具体地，将时间深度动态模型中像素点(x,y)的梯度幅值标记为m(x,y)，梯度方向标记为θ(x,y)，那么某一像素点(x,y)的梯度幅值m(x,y)和梯度方向θ(x,y)的表达式可以为：

其中，g_x(x,y)和g_y(x,y)分别是沿着三维笛卡尔坐标系的x轴方向的水平梯度和y轴方向的垂直梯度。

根据公式(2)和公式(3)可以分别计算出每个时间深度动态模型中每个像素点的梯度幅值和梯度方向。

S105b、将所述时间深度动态模型分别放在空间金字塔的多层中的每一层，并将每层中的所述时间深度动态模型划分成多个网格，其中，不同层中所述时间深度动态模型划分的网格尺寸不同。

在一实施例中，为了提高人体动作的识别率，空间金字塔优选为三层。当然，在其他实施例中，空间金字塔的层数还可以为更多层或更少层，在此不做具体限制。

当空间金字塔为三层时，将每个时间深度动态模型分别放在空间金字塔的三层中的每一层，然后将每层中的时间深度动态模型划分成多个网格。

具体地，在一实施例中，如图6所示，图6为本发明实施例中时间深度动态模型在每层空间金字塔中的划分结构示意图。图6示出了三类深度子图像组对应的时间深度动态模型在每层空间金字塔中的划分结构，即前视图f、侧视图s和俯视图t对应的时间深度动态模型。为了图示的简洁性，分别用标记为TDM_f、TDM_s和TDM_t表示每类深度子图像组对应的四个时间深度动态模型。

也就是说，前视图f对应的时间深度动态模型TDM_f包括TDM_f1、TDM_f2、TDM_f3和TDM_f4四个时间深度动态模型；侧视图s对应的时间深度动态模型TDM_s包括TDM_s1、TDM_s2、TDM_s3和TDM_s4四个时间深度动态模型；俯视图t对应的时间深度动态模型TDM_t包括TDM_t1、TDM_t2、TDM_t3和TDM_t4四个时间深度动态模型。

从图6可以看出，每层中时间深度动态模型划分的网格尺寸均不同，即第一层中时间深度动态模型划分的网格尺寸为2×2，第二层中时间深度动态模型划分的网格尺寸为4×4，第三层中时间深度动态模型划分的网格尺寸为12×9。

可以理解的是，在其他实施例中，每层的网格尺寸不同于上述三种尺寸，在此不对每层的网格尺寸做具体限制。

S105c、根据所述梯度幅值和梯度方向对每个所述网格进行方向梯度直方图计算以获得每个所述网格对应的网格特征向量。

在对空间金字塔的每层中的时间深度动态模型进行划分之后，将根据步骤S105a中计算的每个时间深度动态模型中每个像素点的梯度幅值和梯度方向，对每个网格进行方向梯度直方图(HOG)运算。

在一实施例中，在对每个网格进行方向梯度直方图运算的过程中，将每个网格的梯度方向360°分成B个区域。为了提高人体动作的识别率，B的取值范围可以为大于等于8且小于等于16。优选地，B的取值为10。

可以理解的是，在其他实施例中，B的取值可以为8至16之间的其他数值，也可以为小于8或大于16的其他数值，在此不做具体限制。

在选取完B的取值之后，将根据每个像素点的梯度幅值和梯度方向，对网格内每个像素点在直方图中进行加权投影，从而获得每个网格对应的方向梯度直方图，即每个网格对应的网格特征向量。

其中，该网格特征向量的维数与B的取值有关。譬如，当B的取值为10时，每个网格对应的网格特征向量的维数为10。

通过步骤S105c可以计算出每个时间深度动态模型在每层中的多个网格特征向量。譬如，空间金字塔的第一层对应的网格特征向量的数量为2×2个，第二层对应的网格特征向量的数量为4×4个，第三层对应的网格特征向量的数量为12×9个。

也就是说，每个时间深度动态模型对应的网格特征向量的总个数为(12×9+4×4+2×2)个，即128个。那么12个时间深度动态模型对应的网格特征向量的总数就为1536个。

S105d、根据所有所述时间深度动态模型在每层中的网格特征向量生成特征描述符。

在计算出每个时间深度动态模型在每层中的多个网格特征向量之后，将根据所有时间深度动态模型在每层中的网格特征向量生成特征描述符。具体地，将所有的网格特征向量按照行向量的形式串联起来以生成特征描述符。

譬如，将12个时间深度动态模型对应的1536个维数为10的网格特征向量按照行向量的形式串联起来，就可以得到一个维数为15360的行向量，该维数为15360的行向量为特征描述符。

在该实施例中，步骤S105a～S105d直接对整个时间深度动态模型进行空间金字塔方向梯度直方图编码，无需提取人物的边缘和兴趣区域，可以降低采用空间金字塔方向梯度直方图对时间深度动态模型进行编码的难度，提高人体动作的识别率。

可以理解的是，在其他实施例中，采用空间金字塔方向梯度直方图对时间深度动态模型进行编码的具体步骤以及内容不局限于上述步骤S105a～S105d所示的情况。另外，也可以采用其他方式对时间深度动态模型进行编码以获得特征描述符。

S106、通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作。

在获取到特征描述符之后，将通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作。

在一实施例中，通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作包括步骤S106a～S106b。

S106a、对所述特征描述符进行降维以生成特征向量。

根据前面所述的特征描述符可以知道，特征描述符一般都是维数较大的向量，为了降低计算量，需要对特征描述符进行降维处理。在一实施例中，可以采用PCA(PrincipalComponentAnalysis，简称PCA)数据分析方法对特征描述符进行降维处理，以生成维数较低的特征向量。

可以理解的是，在其他实施例中，可以采用其他方法对特征描述符进行降维处理，在此不做具体限制。

S106b、通过分类算法建立所述特征向量与运动类别之间的对应关系以识别人体动作。

在获取特征向量之后，将通过分类算法建立特征向量与运动类别之间的对应关系，从而达到识别人体动作的目的。

在一实施例中，分类算法可以为支持向量机(SupportVectorMachine，简称SVM)。在其他实施例中，分类算法也可以为其他种算法，在此不做具体限制。

本实施例提供的人体动作识别方法，可以有效地提取人体动作的运动部分，避免现有技术中只计算整体人体动作而带来的运动信息丢失的问题，该方法具有较高的人体动作识别率，同时，在人体动作识别的过程中所需的计算量较小，加快了人体动作识别的速度。

为了验证本实施例中的人体动作识别方法的可行性以及其所具有的较高识别率，本说明书给出了分别采用MSRAction3D数据库和MSR Gesture3D数据库测试本实施例中的人体动作识别方法的实验过程，具体如下所示。

(一)采用MSRAction3D数据库的测试实验

MSRAction3D数据库是由一台深度摄像机拍摄的共567个深度视频数据，其包括原始的深度图像和骨骼数据。该数据库共有20个动作，由10个人来完成20个动作，每人分别做所有动作2到3次。该20个动作具体如表1所示。

表1

在表1中，陈列出了该20个动作，分别为：HighWave(1),Horizontal Wave(2),Hammer(3),Hand catch(4),Forward Punch(5),High Throw(6),Draw X(7),Draw Tick(8),Draw Circle(9),Hand Clap(10),Two Hand Wave(11),Side Boxing(12),Bend(13),Forward Kick(14),Side Kick(15),Jogging(16),Tennis Swing(17),Tennis Serve(18),GolfSwing(19),Pickup Throw(20)。

在实验中，如表1所示，把20个动作分成了3组，分别标记为AS1，AS2和AS3，每组均包含8个动作。为了验证本实施例中的人体动作识别方法具有较好的识别率，实验中将具有相似性的动作分在同一组。每一组分别有三种测试：测试1(Test1)，测试2(Test2)和交叉测试(Cross Subject Test)。

在测试1中，每个人的第1个动作数据当作训练样本，第2个和第3个动作数据当作测试数据；在测试2中，前2个动作数据当作训练样本，最后1个动作当作测试数据；在交叉测试中，测试人物编号为1、3、5、7、9的动作数据当作训练样本，测试人物编号为2、4、6、8、10的动作数据当作测试数据。

由于在整个视频数据流的最初几帧中，人体一直保持着站立的姿势或者说动作很微小，这容易引入很大的噪声，会直接影响最后的人体动作识别率。因此，在MSRAction3D数据库上，往往需先删除最开始的M帧，再对剩余的视频数据进行实验。在本实验中，将M取值为2。

另外，由于不同测试人物之间的身高、胖瘦都有所区别，也会引入巨大的类间误差，所以本实验把得到的所有时间深度动态模型TDM都重新调整大小为48×48。对于MSRAction3D数据库，余下部分将用相应数字代表相应动作。

实验参数的设定：在进行空间金字塔方向梯度直方图运算时，需要选取空间金字塔的层数。在此，对空间金字塔的层数进行了相关模拟实验。该模拟实验选取空间金字塔的层数L为4层，且设置第一层的网格大小为2×2，第二层的网格大小为4×4，第三层的网格大小为12×9，第四层的网格大小为18×12，实验结果如图8所示。

在图8中，纵坐标为识别率(％)，横坐标Ti-n表示实验i的ASn分组，CT表示交叉测试，其中，i＝1，2，n＝1，2，3。从图8可以看出，随着层数L的增加，识别率会得到一定的提升，但计算量也会增加，L＝3时有着较快的速度和较高的识别率。因此，本实验中选择空间金字塔的层数L为3层。

另外，在进行空间金字塔方向梯度直方图运算时，还需要设置B的取值大小。通过相关实验可以获得B的取值为10比较合适，因此，本实验中将B的取值设置为10。

采用PCA对特征描述符进行降维运算，经过PCA方法降维后，特征描述符的维数从15360降到200维左右。

在设置完实验的参数之后，将在MSRAction3D数据库上对本实施例中的人体动作识别方法进行测试，并将测试结果与现有技术中的测试结果进行对比，如表2所示。

表2

在表2中，给出了现有的6种识别方法，分别为：Bag of 3D Points、Histograms of3d Joints(简称：HOJ3D)、Eigenjoints、基于流行学习方法、Space-Time OccupancyPatterns(简称：STOP)和Depth Motion Maps(简称：DMM)。其中，HOJ3D和Eigenjoints方法是关于骨骼节点的人体动作识别方法，Bag of3D Points、STOP、和DMM方法都是关于原始深度图像的人体动作识别方法。

从表2可以看出，本实施例提供的人体动作识别方法的平均识别率均高于其他方法的平均识别率。另外本实施例提供的人体动作识别方法中的特征描述符在MSRAction3D数据库各个测试组(Test1，Test2和交叉测试)上的识别率基本超过了94％，这一结果足以表明本实施例提供的人体动作识别方法中的特征描述符在该MSRAction3D数据库上有着非常出色的表现。

(二)采用MSR Gesture3D数据库的测试实验

MSRGesture3D数据库是一个只有原始深度图像的手势数据库，同样它也是由一台深度摄像机拍摄。该数据库包含有美国手语协会定义的12种手语动作，分别是Z、J、Where、Store、Pig、Past、Hungry、Green、Finish、Blue、Bathroom和Milk。动作由10个人完成，每个人完成同一动作2到3次。该MSRGesture3D数据库一共有333个视频数据，所有的手势都是动态手势，每个手势的形状和运动轨迹都有它独特的含义。

在本实验中，取1个人的所有动作当作测试样本，其他9个人的数据当作训练样本。同样的，实验中采用了B＝10、L＝3的组合。如表3所示，本实施例提供的人体动作识别方法中特征描述符在该MSRGesture3D数据库上得到了94.86％的识别率，高于现有的识别方法的识别率。

表3

方法	识别率/％
		Action Graph on Occupancy	80.50％
Action Graph on Silhouette	87.70％
		Random Occupancy Pattern	88.50％
Depth Motion Maps	89.20％
		HON4D	92.45％
本实施例提供的识别方法	94.86％

因此，从上述在MSRAction3D数据库和MSR Gesture3D数据库上的测试结果可以看出，本实施例提供的人体动作识别方法具有可行性，同时其识别率要高于现有的识别方法的识别率，具有较好的识别效果。

请参阅图9，图9是本发明实施例提供的一种人体动作识别设备的示意性框图。人体动作识别设备300可以为包括具有人体动作识别功能的电子设备。譬如，具有人体动作识别功能的智能终端、平板电脑、计算机等。如图9所示，人体动作识别设备300包括获取单元310、投影获取单元320、划分单元330、模型计算单元340、生成单元350和识别单元360。

(1)获取单元310；

获取单元310，用于获取深度视频图像，其中，所述深度视频图像包括多帧深度图像。

在本实施例中，获取单元310先获取深度视频图像，这样便于人体动作识别设备300对深度视频图像中的多帧深度图像做相应处理，以通过多帧深度图像来识别出人物的动作。

(2)投影获取单元320；

投影获取单元320，用于将多帧所述深度图像分别向空间坐标系投影以获得多类深度子图像组。

在一实施例中，空间坐标系可以为三维笛卡尔坐标系。相应地，投影获取单元320具体用于将多帧所述深度图像分别向三维笛卡尔坐标系中的三个平面投影以获得三类深度子图像组。

(3)划分单元330；

划分单元330，用于将每类所述深度子图像组中的多帧深度子图像按照预设划分规则分成多个子动作。

由于多帧深度图像是按照时间顺序排列的，即按照帧索引的顺序排列的，那么每类深度子图像组中的多帧深度子图像也是按照帧索引的顺序排列的。因此，在一实施例中，划分单元330具体用于将每类深度子图像组中的多帧深度子图像按照帧索引平均划分成N个子动作，其中，N为正整数。

为了可以获取人物的整体运动信息，划分单元330还具体用于将每类深度子图像组中的多帧深度子图像作为整体划分为第N+1个子动作。

可以理解的是，在其他实施例中，划分单元330还可以采用其他划分规则来将多帧深度子图像划分成多个子动作，在此不对划分单元330所采用的划分规则做具体限制。

(4)模型计算单元340；

模型计算单元340，用于根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型。

在获取到多个子动作之后，模型计算单元340将根据预设帧间差分法计算每个子动作对应的时间深度动态模型。

具体地，在一实施例中，请参阅图10，图10为本发明实施例中一种人体动作识别设备的另一示意性框图。该模型计算单元340具体包括计算单元341和提取单元342。

(41)计算单元341；

计算单元341，用于计算每个所述子动作中相邻两帧所述深度子图像中相应位置处像素差值的绝对值，并对所述绝对值进行累加以获得每个所述子动作对应的准时间深度动态模型；

具体地，准时间深度动态模型DMM_v可以用如下公式表示：

譬如，当v取值为f时，DMM_f表示前视图f上的一个子动作对应的准时间深度动态模型。根据公式(1)计算单元341可以依次获得每类深度子图像组中4个子动作分别对应的准时间深度动态模型。

在本实施例中，由于计算单元341直接对每个所述子动作中相邻两帧深度子图像中相应位置处像素差值的绝对值进行累加，可以大大提高计算速度，进而提高人体动作识别的速度。

(42)提取单元342。

提取单元342，用于提取所述准时间深度动态模型中的有效区域作为所述时间深度动态模型。

由于准时间深度动态模型中包括了一些非人体动作的区域，即准时间深度动态模型中边缘区域存在全零行和/或全零列。为了可以提取准时间深度动态模型中的有效区域，提取单元342将去除准时间深度动态模型中处于边缘的全零行和全零列，将准时间深度动态模型中的剩余区域，即有效区域，作为每个子动作对应的时间深度动态模型，在此，将时间深度动态模型标记为TDM。

需要说明的是，模型计算单元340采用预设帧间差分法的具体计算过程及内容不局限于上述所示的情况。另外，模型计算单元340还可以采用其他类型的帧间差分法进行计算，在此不做具体限制。

(5)生成单元350；

生成单元350，用于通过空间金字塔方向梯度直方图对所述时间深度动态模型进行编码以生成特征描述符。

具体地，在一实施例中，请参阅图10所示，该生成单元350具体包括梯度计算单元351、网格划分单元352、向量计算单元353和描述符生成单元354。

(51)梯度计算单元351；

梯度计算单元351，用于计算所述时间深度动态模型中每个像素点的梯度幅值和梯度方向；

梯度计算单元351根据公式(2)和公式(3)可以分别计算出每个时间深度动态模型中每个像素点的梯度幅值和梯度方向。

(52)网格划分单元352；

网格划分单元352，用于将所述时间深度动态模型分别放在空间金字塔的多层中的每一层，并将每层中的所述时间深度动态模型划分成多个网格，其中，不同层中所述时间深度动态模型划分的网格尺寸不同；

当空间金字塔为三层时，网格划分单元352将每个时间深度动态模型分别放在空间金字塔的三层中的每一层，然后将每层中的时间深度动态模型划分成多个网格。

网格划分单元352将每层中时间深度动态模型划分成尺寸不同的网格，即第一层中时间深度动态模型划分的网格尺寸为2×2，第二层中时间深度动态模型划分的网格尺寸为4×4，第三层中时间深度动态模型划分的网格尺寸为12×9。

可以理解的是，在其他实施例中，每层的网格尺寸也可以不同于上述三种尺寸，在此不对每层的网格尺寸做具体限制。

(53)向量计算单元353；

向量计算单元353，用于根据所述梯度幅值和梯度方向对每个所述网格进行方向梯度直方图计算以获得每个所述网格对应的网格特征向量；

在网格划分单元352对空间金字塔的每层中的时间深度动态模型进行划分之后，向量计算单元353将根据梯度计算单元351计算的每个时间深度动态模型中每个像素点的梯度幅值和梯度方向，对每个网格进行方向梯度直方图(HOG)运算。

在一实施例中，在向量计算单元353对每个网格进行方向梯度直方图运算的过程中，向量计算单元353将每个网格的梯度方向360°分成B个区域。为了提高人体动作的识别率，B的取值范围可以为大于等于8且小于等于16。优选地，B的取值为10。

向量计算单元353将根据每个像素点的梯度幅值和梯度方向，对网格内每个像素点在直方图中进行加权投影，从而获得每个网格对应的方向梯度直方图，即每个网格对应的网格特征向量。

(54)描述符生成单元354。

描述符生成单元354，用于根据所有所述时间深度动态模型在每层中的网格特征向量生成特征描述符。

在向量计算单元353计算出每个时间深度动态模型在每层中的多个网格特征向量之后，描述符生成单元354将根据所有时间深度动态模型在每层中的网格特征向量生成特征描述符。

具体地，描述符生成单元354将所有的网格特征向量按照行向量的形式串联起来以生成特征描述符。

在该实施例中，生成单元350直接对整个时间深度动态模型进行空间金字塔方向梯度直方图编码，无需提取人物的边缘和兴趣区域，可以降低采用空间金字塔方向梯度直方图对时间深度动态模型进行编码的难度，提高人体动作的识别率。

(6)识别单元360。

识别单元360，用于通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作。

在生成单元350生成特征描述符之后，识别单元360将通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作。

在一实施例中，请参阅图10所示，该识别单元360包括降维单元361和动作识别单元362。具体如下：

(61)降维单元361；

降维单元361，用于对所述特征描述符进行降维以生成特征向量。

一般来说，特征描述符都是维数较大的向量，为了降低计算量，需要对特征描述符进行降维处理。在一实施例中，降维单元361可以采用PCA(Principal ComponentAnalysis，简称PCA)数据分析方法对特征描述符进行降维处理，以生成维数较低的特征向量。

可以理解的是，在其他实施例中，降维单元361可以采用其他方法对特征描述符进行降维处理，在此不做具体限制。

(62)动作识别单元362

动作识别单元362，用于通过分类算法建立所述特征向量与运动类别之间的对应关系以识别人体动作。

在降维单元361获取到特征向量之后，动作识别单元362将通过分类算法建立特征向量与运动类别之间的对应关系，从而达到识别人体动作的目的。

本实施例提供的人体动作识别设备300，可以有效地提取人体动作的运动部分，避免现有技术中只计算整体人体动作而带来的运动信息丢失的问题，该设备具有较高的人体动作识别率，同时，在人体动作识别的过程中所需的计算量较小，加快了人体动作识别的速度。

请参阅图11，图11是本发明实施例提供的一种人体动作识别设备的示意性框图。该人体动作识别设备500可以为包括具有人体动作识别功能的电子设备。譬如，具有人体动作识别功能的智能终端、平板电脑、计算机等。

该人体动作识别设备500可以包括一个或者一个以上处理核心的处理器510、一个或一个以上计算机可读存储介质的存储器520、通信单元530、电源540、输入设备550、以及输出设备560等部件，其中，处理器510、存储器520、通信单元530、电源540、输入设备550和输出设备560通过总线570相互连接。

其中，所述处理器510用于运行存储在存储器520中的程序代码，以实现如下功能：获取深度视频图像，其中，所述深度视频图像包括多帧深度图像；将多帧所述深度图像分别向空间坐标系投影以获得多类深度子图像组；将每类所述深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作；根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型；通过空间金字塔方向梯度直方图对所述时间深度动态模型进行编码以生成特征描述符；通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作。

在一实施例中，处理器510在执行将每类所述深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作时，具体执行如下程序：将每类所述深度子图像组中的多帧深度子图像按照帧索引平均划分成N个子动作，其中，N为正整数；以及将每类所述深度子图像组中的多帧深度子图像划分为第N+1个子动作。

在一实施例中，处理器510在执行根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型时，具体执行如下程序：计算每个所述子动作中相邻两帧所述深度子图像中相应位置处像素差值的绝对值，并对所述绝对值进行累加以获得每个所述子动作对应的准时间深度动态模型；提取所述准时间深度动态模型中的有效区域作为所述时间深度动态模型。

在一实施例中，处理器510在执行时通过空间金字塔方向梯度直方图对所述时间深度动态模型进行编码以生成特征描述符，具体执行如下程序：计算所述时间深度动态模型中每个像素点的梯度幅值和梯度方向；将所述时间深度动态模型分别放在空间金字塔的多层中的每一层，并将每层中的所述时间深度动态模型划分成多个网格，其中，不同层中所述时间深度动态模型划分的网格尺寸不同；根据所述梯度幅值和梯度方向对每个所述网格进行方向梯度直方图计算以获得每个所述网格对应的网格特征向量；根据所有所述时间深度动态模型在每层中的网格特征向量生成特征描述符。

在一实施例中，处理器510在执行通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作时，具体执行如下程序：对所述特征描述符进行降维以生成特征向量；通过分类算法建立所述特征向量与运动类别之间的对应关系以识别人体动作。

应当理解，在本发明实施例中，处理器510可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器510还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器520可以包括只读存储器和随机存取存储器，并向处理器510提供程序代码和数据。存储器520的一部分还可以包括非易失性随机存取存储器。例如，存储器520还可以存储设备类型的信息。

通信单元530可用于收发信息过程中信号的接收和发送。

电源540(比如电池)，优选的，电源540可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

输入设备550可以包括触控板、麦克风等。

输出设备560，可用于显示由用户输入的信息或提供给用户的信息以及人体动作识别设备500的各种接口，这些接口可以由图形、文本、图标、视频和其任意组合来构成。输出设备560可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。

具体实现中，本发明实施例中所描述的处理器510、输入设备550、输出设备560可执行上述针对人体动作识别方法的任意一个实施例中所描述的实现方式，也可执行本发明实施例所描述的人体动作识别设备的实现方式，在此不再赘述。

本领域技术人员可以理解，图11中示出的人体动作识别设备500结构并不构成对人体动作识别设备500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本发明的另一实施例中提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时实现：获取深度视频图像，其中，所述深度视频图像包括多帧深度图像；将多帧所述深度图像分别向空间坐标系投影以获得多类深度子图像组；将每类所述深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作；根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型；通过空间金字塔方向梯度直方图对所述时间深度动态模型进行编码以生成特征描述符；通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作。

在一实施例中，该程序指令被处理器执行时具体实现：将每类所述深度子图像组中的多帧深度子图像按照帧索引平均划分成N个子动作，其中，N为正整数；以及将每类所述深度子图像组中的多帧深度子图像划分为第N+1个子动作。

在一实施例中，该程序指令被处理器执行时具体实现：计算每个所述子动作中相邻两帧所述深度子图像中相应位置处像素差值的绝对值，并对所述绝对值进行累加以获得每个所述子动作对应的准时间深度动态模型；提取所述准时间深度动态模型中的有效区域作为所述时间深度动态模型。

在一实施例中，该程序指令被处理器执行时具体实现：计算所述时间深度动态模型中每个像素点的梯度幅值和梯度方向；将所述时间深度动态模型分别放在空间金字塔的多层中的每一层，并将每层中的所述时间深度动态模型划分成多个网格，其中，不同层中所述时间深度动态模型划分的网格尺寸不同；根据所述梯度幅值和梯度方向对每个所述网格进行方向梯度直方图计算以获得每个所述网格对应的网格特征向量；根据所有所述时间深度动态模型在每层中的网格特征向量生成特征描述符。

在一实施例中，该程序指令被处理器执行时具体实现：对所述特征描述符进行降维以生成特征向量；通过分类算法建立所述特征向量与运动类别之间的对应关系以识别人体动作。

该计算机可读存储介质可以是前述任一实施例中的人体动作识别设备的内部存储单元，例如人体动作识别设备的硬盘或内存。该计算机可读存储介质也可以是人体动作识别设备的外部存储设备，例如人体动作识别设备上配备的插接式硬盘。

进一步地，该计算机可读存储介质还可以既包括人体动作识别设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储计算机程序以及人体动作识别设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的人体动作识别设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例人体动作识别设备中的单元可以根据实际需要进行合并、划分和删减。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，人体动作识别设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种人体动作识别方法，其特征在于，包括：

2.根据权利要求1所述的人体动作识别方法，其特征在于，所述将每类所述深度子图像组中的多帧深度子图像按照预设划分规则划分成多个子动作，包括：

将每类所述深度子图像组中的多帧深度子图像按照帧索引平均划分成N个子动作，其中，N为正整数；以及

将每类所述深度子图像组中的多帧深度子图像划分为第N+1个子动作。

3.根据权利要求1所述的人体动作识别方法，其特征在于，所述根据预设帧间差分法计算每个所述子动作对应的时间深度动态模型，包括：

计算每个所述子动作中相邻两帧所述深度子图像中相应位置处像素差值的绝对值，并对所述绝对值进行累加以获得每个所述子动作对应的准时间深度动态模型；

提取所述准时间深度动态模型中的有效区域作为所述时间深度动态模型。

4.根据权利要求1所述的人体动作识别方法，其特征在于，所述通过空间金字塔方向梯度直方图对所述时间深度动态模型进行编码以生成特征描述符，包括：

计算所述时间深度动态模型中每个像素点的梯度幅值和梯度方向；

将所述时间深度动态模型分别放在空间金字塔的多层中的每一层，并将每层中的所述时间深度动态模型划分成多个网格，其中，不同层中所述时间深度动态模型划分的网格尺寸不同；

根据所述梯度幅值和梯度方向对每个所述网格进行方向梯度直方图计算以获得每个所述网格对应的网格特征向量；

根据所有所述时间深度动态模型在每层中的网格特征向量生成特征描述符。

5.根据权利要求1所述的人体动作识别方法，其特征在于，所述通过分类算法建立所述特征描述符与运动类别之间的对应关系以识别人体动作，包括：

对所述特征描述符进行降维以生成特征向量；

通过分类算法建立所述特征向量与运动类别之间的对应关系以识别人体动作。

6.一种人体动作识别设备，其特征在于，包括：

7.根据权利要求6所述的人体动作识别设备，其特征在于，所述划分单元具体用于将每类所述深度子图像组中的多帧深度子图像按照帧索引平均划分成N个子动作，其中，N为正整数；将每类所述深度子图像组中的多帧深度子图像划分为第N+1个子动作。

8.根据权利要求6所述的人体动作识别设备，其特征在于，所述模型计算单元包括：

计算单元，用于计算每个所述子动作中相邻两帧所述深度子图像中相应位置处像素差值的绝对值，并对所述绝对值进行累加以获得每个所述子动作对应的准时间深度动态模型；

提取单元，用于提取所述准时间深度动态模型中的有效区域作为所述时间深度动态模型。

9.一种人体动作识别设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储程序代码，所述处理器被配置用于运行所述程序代码，执行如权利要求1-5任一项所述的人体动作识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的人体动作识别方法。