CN105608421B

CN105608421B - 一种人体动作的识别方法及装置

Info

Publication number: CN105608421B
Application number: CN201510955077.9A
Authority: CN
Inventors: 程俊; 姬晓鹏
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2019-01-18
Anticipated expiration: 2035-12-18
Also published as: CN105608421A

Abstract

本发明适用于模式识别技术领域，提供了一种人体动作的识别方法及装置，所述识别方法包括：获取深度图像序列，对所述深度图像序列进行变换得到对应的深度运动序列；对所述深度运动序列进行时间维度上的划分和空间维度上的划分，得到多个运动历史立方体及其对应的多个空间子立方块；根据所述空间子立方块计算所述运动历史立方体对应的特征向量，组合所述多个运动历史立方体对应的特征向量，得到所述深度运动序列的特征向量；根据所述深度运动序列的特征向量，利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果。本发明解决了现有人体动作识别方法存在自遮挡的问题，增强了对人体运动的描述能力，提高了人体动作的识别准确度。

Description

一种人体动作的识别方法及装置

技术领域

本发明属于模式识别技术领域，尤其涉及一种人体动作的识别方法及装置。

背景技术

为了准确衡量动作标签的相似度，现有技术提出了多种基于深度图像序列的人体动作识别方法，比如三维点云、人体骨架模型以及超曲面法向量等方法。然而，现有技术通过深度图像序列进行人体动作识别的方法依然存在以下几个方面的缺点：

1.在人体自遮挡情况下，比如“胸前挥手”，动作识别的准确度不高；

2.对物体在时间尺度上的运动信息的描述能力不够强，比如“放下东西”和“拿起东西”；

3.所选取的特征较为复杂且数据维度高，增加了特征抽取和动作分类的计算复杂度，实用性较差。

发明内容

鉴于此，本发明实施例提供一种人体动作的识别方法及装置，以解决现有人体动作识别方法存在自遮挡的问题，增强对人体运动的描述能力，提高人体动作的识别准确度。

第一方面，提供了一种人体动作的识别方法，所述识别方法包括：

获取深度图像序列，对所述深度图像序列进行变换得到对应的深度运动序列；

对所述深度运动序列进行时间维度上的划分，获得每一个时间区域内的运动历史立方体；

针对每一个时间区域内的运动历史立方体，按照预设的空间网格对所述运动历史立方体进行空间维度上的划分，获得每一个运动历史立方体对应的多个空间子立方块；

根据每一个运动历史立方体对应的空间子立方块计算所述运动历史立方体对应的特征向量，连接所述每一个时间区域内的运动历史立方体对应的特征向量，得到所述深度运动序列的特征向量；

根据所述深度运动序列的特征向量，利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果。

第二方面，提供了一种人体动作的识别装置，所述识别装置包括：

获取模块，用于获取深度图像序列，对所述深度图像序列进行变换得到对应的深度运动序列；

第一划分模块，用于对所述深度运动序列进行时间维度上的划分，获得每一个时间区域内的运动历史立方体；

第二划分模块，用于针对每一个时间区域内的运动历史立方体，按照预设的空间网格对所述运动历史立方体进行空间维度上的划分，获得每一个运动历史立方体对应的多个空间子立方块；

特征提取模块，用于根据每一个运动历史立方体对应的空间子立方块计算所述运动历史立方体对应的特征向量，连接所述每一个时间区域内的运动历史立方体对应的特征向量，得到所述深度运动序列的特征向量；

训练模块，用于根据所述深度运动序列的特征向量，利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果。

与现有技术相比，本发明实施例通过将获取到的深度图像序列变换为对应的深度运动序列，解决了现有人体动作识别方法存在的自遮挡问题。再通过对所述深度运动序列进行时间维度上的划分以及空间维度上的划分，得到多个空间子立方块，然后根据所述空间子立方块计算得到所述运动历史立方体对应的特征向量，进而得到所述深度运动序列的特征向量；最后利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果。通过本发明实施例所得到的深度运动序列的特征向量增强了对人体运动的描述能力，有效地描述了人体在空间的位移变化情况，从而提高了对人体动作识别的准确度，且解决了现有人体动作识别方法存在的自遮挡问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的人体动作的识别方法的实现流程图；

图2是本发明实施例提供的人体动作的识别方法中步骤S101的具体实现流程图；

图3是本发明实施例提供的深度运动序列的获取示意图；

图4是本发明实施例提供的人体动作的识别方法中步骤S102的具体实现流程图；

图5是本发明实施例提供的3层时间立方金字塔的划分示意图；

图6是本发明实施例提供的运动历史立方体在空间维度上的划分示意图；

图7是本发明实施例提供的人体动作的识别方法中步骤S104的具体实现流程图；

图8是本发明实施例提供的人体动作的识别装置的组成结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过将获取到的深度图像序列变换为对应的深度运动序列，解决了现有人体动作识别方法存在的自遮挡问题。再通过对所述深度运动序列进行时间维度上的划分以及空间维度上的划分，得到多个空间子立方块，然后根据所述空间子立方块计算得到所述运动历史立方体对应的特征向量，进而得到所述深度运动序列的特征向量；最后利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果。通过本发明实施例所得到的深度运动序列的特征向量增强了对人体运动的描述能力，有效地描述了人体在空间的位移变化情况，从而提高了对人体动作识别的准确度。本发明还提供了相应的装置，以下分别进行详细的说明。

图1示出了本发明实施例提供的人体动作的识别方法的实现流程。

参阅图1，所述识别方法包括：

在步骤S101中，获取深度图像序列，对所述深度图像序列进行变换得到对应的深度运动序列。

在本发明实施例中，所述深度图像序列通过Kinect传感器获取。所述Kinect传感器中的深度摄像头在获取图像信息时，实时获取物体的距离信息，并且不受光照变化和纹理信息的影响，即使是黑暗环境下也有很好的适应性。

在这里，对所述深度图像序列进行变换包括对所述深度图像序列进行投影变换和差异处理。图2示出了本发明实施例提供的人体动作的识别方法中步骤S101的具体实现流程。参阅图2，所述步骤S101包括：

在步骤S201中，获取所述深度图像序列中的任意第i帧深度图像，将所述第i帧深度图像投影到笛卡尔坐标系的三个正交平面上，获取每一个正交平面上的投影图像，得到所述第i帧深度图像的正视角投影图像、侧视角投影图像以及俯视角投影图像。

在步骤S202中，根据所述第i帧深度图像的正视角投影图像、侧视角投影图像以及俯视角投影图像，计算其对应的正视角差分图、侧视角差分图以及俯视角差分图，组合所述正视角差分图、侧视角差分图以及俯视角差分图，得到所述第i帧深度图像对应的深度运动立方体

在步骤S203中，遍历所述深度图像序列中的每一帧深度图像，组合每一帧深度图像对应的深度运动立方体，得到所述深度图像序列对应的深度运动序列。

其中，所述第i帧深度图像的正视角差分图为第i+1帧深度图像的正视角投影图像与第i帧深度图像的正视角投影图像之间对应像素的像素值之差；所述第i帧深度图像的侧视角差分图为第i+1帧深度图像的侧视角投影图像与第i帧深度图像的侧视角投影图像之间对应像素的像素值之差；所述第i帧深度图像的俯视角差分图为第i+1帧深度图像的俯视角投影图像与第i帧深度图像的俯视角投影图像之间对应像素的像素值之差。

为了便于说明，图3示出了本发明实施例提供的深度运动序列的获取示意图。假设给定一个包含N帧的深度图像序列{I¹,I²,I³,…,I^N}。对于N帧深度图像中的任意一帧，为了便于描述，这里记为第i帧，将所述第i帧深度图像投影到笛卡尔坐标系下的三个正交平面，得到三个视角的投影图像在这里，所述其中，表示正视角，表示侧视角，表示俯视角。在得到所述N帧深度图像序列中的每一帧深度图像对应的投影图像后，按照公式对其中两两相邻的两帧深度图像进行差分处理，所述差分处理包括对两者的正视角投影图像进行相减、对两者的侧视角投影图像进行相减、对两者的俯视角投影图像进行相减。比如，对于第i帧深度图像，得到第i帧深度图像对应的正视角差分图、侧视角差分图以及俯视角差分图。然后组合所述第i帧深度图像对应的正视角差分图、侧视角差分图以及俯视角差分图，得到所述第i帧深度图像对应的深度运动立方体组合所述N帧深度图像对应的深度运动立方体，从而得到所述深度图像序列对应的深度运动序列。本发明实施例通过对深度图像序列进行投影变换，得到的深度运动序列能够有效地描述自遮挡情况下的人体动作，并且保留了在时间方向的人体运动分布情况。

作为本发明的另一个优选示例，还可以设置最小差异值ε_v。针对任意的第i帧深度图像，保留对应像素的像素值之差的绝对值大于或等于所述最小差异值ε_v的差值，以所述差值组成每一帧深度图像对应的正视角差分图、侧视角差分图以及俯视角差分图，以所述正视角差分图、侧视角差分图以及俯视角差分图组成深度运动立方体即

在步骤S102中，对所述深度运动序列进行时间维度上的划分，获得每一个时间区域内的运动历史立方体。

在本发明实施例中，优选采用n_t层的时间金字塔来对所述深度运动序列进行划分。图4示出了本发明实施例提供的人体动作的识别方法中步骤S102的具体实现流程。参阅图4，所述步骤S102包括：

在步骤S401中，按照运动能量计算公式获取每一帧深度图像对应的深度运动立方体的运动能量值，对所述运动能量值进行归一化处理。

在这里，所述运动能量计算公式为：

其中，E(i)表示第i帧深度图像对应的深度运动立方体的运动能量值，ω_v表示视角的权重，即时，表示正视角的权重，时，表示侧视角的权重，时，表示俯视角的权重，snz(·)表示计算深度运动立方体中的非零元素的个数。表示第1帧至第i帧深度图像对应的深度运动立方体中每一个深度运动立方体的非零元素的个数之和。

从上述运动能量计算公式可以得到，每一帧深度图像对应的深度运动立方体的运动能量值由其对应的正视角、侧视角、俯视角上的像素个数组成。

由于不同测试者在演示同一动作时会有不同的执行速度，因此，在进行时间维度的划分之前，对每一帧深度图像对应的深度运动立方体的运动能量值进行归一化处理，以使得由所有的深度运动立方体的运动能量值组成的深度运动序列的总能量为1，即以简化计算的复杂度，提高计算效率。

在步骤S402中，按照n_t层的时间立方金字塔将所述深度运动序列在时间维度上划分为个时间区域。

在这里，所述n_t层的时间立方金字塔包中，第m层包括2^m-1个时间区域(1≤m≤n_t)，即第一层(m＝1)包括1个时间区域，即以整个深度运动序列为1个时间区域；第二层(m＝2)包括2个时间区域，即整个深度运动序列被划分为2个时间区域；第三层(m＝3)包括4个时间区域，即整个深度运动序列被划分为4个时间区域，以此类推。因此，每一层中的深度运动序列的总能量值为1。每个时间区域包括多个深度运动立方体，同一层中的每一个时间区域所包括的深度运动立方体的运动能量值之和相等。示例性地，图5示出了本发明实施例提供的3层时间立方金字塔的划分示意图。在这里，图示的深度图像序列包括51帧深度图像，对应的深度运动序列包括51个深度运动立方体，其总能量为1，即对于时间金字塔中的第三层，划分为4个时间区域，分别为t₀到t₁区域(包括第1帧到第25帧)、t₁到t₂区域(包括第26帧到第35帧)、t₂到t₃区域(包括第36帧到第45帧)、t₃到t₄区域(包括第46帧到第51帧)。每一个时间区域所包括的深度运动立方体的运动能量值之和均相等，为0.25，即t₀到t₁区域所包括的第1帧到第25帧深度运动立方体对应的运动能量值之和、t₁到t₂区域所包括的第26帧到第35帧深度运动立方体对应的运动能量值之和、t₂到t₃区域所包括的第36帧到第45帧深度运动立方体对应的运动能量值之和、t₃到t₄区域所包括的第46帧到第51帧深度运动立方体对应的运动能量值之和均相等。在这里，所述运动能量值表征了人体动作的快慢，通过采用归一化的运动能量曲线来进行每一层的时间区域划分，且保持同一层中的每一个时间区域的运动能量值之和相同，避免了不同测试者在演示同一动作时不同的执行速度带来的干扰，与现有技术中按照时间长度进行均匀划分相比，有效地增强了对人体在空间的位移变化情况的描述力度。

在步骤S403中，对于每一个时间区域，将所述时间区域内的深度运动立方体的对应像素的像素值进行叠加，得到所述时间区域对应的运动历史立方体

其中，k为时间区域的编号，

在将深度运动序列划分成n_t层，共个时间区域后，每一个时间区域都包括若干个深度运动立方体将所述若干个深度运动立方体的对应像素的像素值进行叠加，从而得到所述时间区域对应的运动历史立方体比如，当第k个时间区域包括M个深度运动立方体时，则所述时间区域对应的运动历史立方体

在本发明实施例中，所述通过像素值叠加得到的运动历史立方体，有效地描述了不同时间尺度内人体动作在空间维度上的几何特征。

在步骤S103中，针对每一个时间区域内的运动历史立方体，按照预设的空间网格对所述运动历史立方体进行空间维度上的划分，获得每一个运动历史立方体对应的多个空间子立方块。

在本发明实施例中，针对任意第k个时间区域内的运动历史立方体优选采用n_r×n_c×n_d的空间网格将所述运动历史立方体划分为多个空间子立方块

其中，所述(r,c,d)表示空间子立方块在所述运动历史立方体中的位置标号，r、c、d均为正整数，且1≤r≤n_r、1≤c≤n_c、1≤d≤n_d。示例性地，图6示出了本发明实施例提供的运动历史立方体在空间维度上的划分示意图。

在步骤S104中，根据每一个运动历史立方体对应的空间子立方块计算所述运动历史立方体对应的特征向量，连接所述每一个时间区域内的运动历史立方体对应的特征向量，得到所述深度运动序列的特征向量。

本发明实施例在将运动历史立方体在空间维度上划分成多个空间子立方体之后，通过提取每一个空间子立方体的特征向量来获得所述运动历史立方体对应的特征向量。图7示出了本发明实施例提供的人体动作的识别方法中步骤S104的具体实现流程。参阅图7，所述步骤S104包括：

在步骤S701中，获取任意第k个时间区域对应的运动历史立方体将所述运动历史立方体中的每一个空间子立方块的尺度修正为预设尺度。

对于不同的深度图像序列，根据所述深度图像序列获得的运动历史立方体其在正视角、侧视角以及俯视角平面上所包含的像素个数不相同，为了降低计算的复杂度，提高计算效率，预先将运动历史立方体中的每一个空间子立方块的尺度修正为预设尺度。示例性地，给定预设尺度为24*24*24像素，当空间子立方体的尺度为32*18*16像素，则通过增补像素或删减像素的方式，将所述空间子立方体的尺度从32*18*16像素修改为预设尺度24*24*24像素。

在步骤S702中，对于修正后的空间子立方块分别从正视、侧视、俯视三个视角进行特征提取，得到所述空间子立方块对应的特征向量。

在本发明实施例中，分别提取所述空间子立方块在正视角、侧视角、俯视角上的子特征向量，组合所述子特征向量，从而得到所述空间子立方块对应的特征向量u^k(r,c,d)。

在这里，所述空间子立方块对应的特征向量u^k(r,c,d)表示为：

其中，表示所述空间子模块在正视角方向的权重比例；表示所述空间子模块在侧视角方向的权重比例；表示所述空间子模块在俯视角方向的权重比例；表示空间子立方块在正视角方向上的子特征向量；表示空间子立方块在侧视角方向上的子特征向量；表示空间子立方块在俯视角方向上的子特征向量。

可选地，所述特征提取的方法优选为HOG(方向梯度直方图)特征提取法。示例性地，图6给出了从空间子立方块提取对应特征向量的实现示意图。在图6中，对所述空间子立方块进行正视角、侧视角、俯视角上的特征提取后，得到正视角、侧视角、俯视角上的HOG特征向量(即子特征向量)，组合所述HOG特征向量，即将所述HOG特征向量连接起来，从而得到所述空间子立方块对应的特征向量u^k(r,c,d)。在这里，本发明实施例使用的HOG特征，采用8*8像素的单元格，2*2的块大小，9个直方图通道。以24*24像素的图像为例，图像块的数量为[(24/8-2)/(2-1)+1]×[(24/8-2)/(2-1)+1]＝4；这样，24*24像素的图像的HOG特征维度为4×(2×2)×9＝144；一个24*24*24像素的空间子立方块对应的特征向量u^k(r,c,d)的维度为144×3＝432。

在步骤S703中，将所述第k个时间区域对应的运动历史立方体中的每一个空间子立方块对应的特征向量组合起来，得到所述运动历史立方体的特征向量。

在这里，假设第k个时间区域对应的运动历史立方体的特征向量表示为u^k，则u^k＝[u^k(1,1,1),……，u^k(n_r,n_c,n_d)]。

以n_r×n_c×n_d＝3×3×3个空间网格划分为例，一个运动历史立方体的HOG特征向量u^k的维度为432×3×3×3＝11664。

在步骤S704中，将所述个时间区域对应的运动历史立方体的特征向量组合起来，得到所述深度运动序列的特征向量。

将个时间区域对应的运动历史立方体的特征向量连接起来，组成整个深度运动序列的特征向量u，其中，

以n_t＝3为例，一个深度运动序列的HOG特征向量的维度为11664×(2³-1)＝81648。

需要说明的是，所述HOG(方向梯度直方图)特征提取法仅为本发明的一个优选示例，在实际应用中，也可以采用其他特征提取法对于修正后的空间子立方块分别从正视、侧视、俯视三个视角进行特征提取，此处不做限制。

本发明实施例中步骤S102所提出的时间立方金字塔划分方法，将人体随时间位移变化信息转化为局部和全局的运动历史立方体；步骤S103所提出的空间网格划分方法和步骤S104所提出的基于立方体融合方法对空间子立方块进行特征融合，能够有效地描述人体在空间的位移变化情况。与现有的基于超曲面法向量、人体骨架模型以及三维点云的方法相比，本发明实施例大幅度地缩减了人体动作时间的计算复杂度，降低了对计算资源的需求，并提高了人体动作识别的准确度。

在步骤S105中，根据所述深度运动序列的特征向量，利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果。

本发明实施例通过将获取到的深度图像序列变换为对应的深度运动序列，解决了现有人体动作识别方法存在的自遮挡问题。再通过对所述深度运动序列进行时间维度上的划分以及空间维度上的划分，得到多个空间子立方块，然后根据所述空间子立方块计算得到所述运动历史立方体对应的特征向量，进而得到所述深度运动序列的特征向量；最后利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果。通过本发明实施例所得到的深度运动序列的特征向量增强了对人体运动的描述能力，有效地描述了人体在空间的位移变化情况，从而提高了对人体动作识别的准确度，且解决了现有人体动作识别方法存在的自遮挡问题。

图8示出了本发明实施例提供的人体动作的识别装置的组成结构，为了便于说明，仅示出了与本发明实施例相关的部分。

在本发明实施例中，所述人体动作的识别装置用于实现上述图1至图7实施例中任一项所述的人体动作的识别方法，可以是内置与计算机内部的软件单元、硬件单元或者软硬件结合的单元。

参阅图8，所述人体动作的识别装置包括：

获取模块81，用于获取深度图像序列，对所述深度图像序列进行变换得到对应的深度运动序列。

第一划分模块82，用于对所述深度运动序列进行时间维度上的划分，获得每一个时间区域内的运动历史立方体。

第二划分模块83，用于针对每一个时间区域内的运动历史立方体，按照预设的空间网格对所述运动历史立方体进行空间维度上的划分，获得每一个运动历史立方体对应的多个空间子立方块。

特征提取模块84，用于根据每一个运动历史立方体对应的空间子立方块计算所述运动历史立方体对应的特征向量，连接所述每一个时间区域内的运动历史立方体对应的特征向量，得到所述深度运动序列的特征向量。

训练模块85，用于根据所述深度运动序列的特征向量，利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果。

进一步对，所述获取模块81包括：

投影单元811，用于获取所述深度图像序列中的任意第i帧深度图像，将所述第i帧深度图像投影到笛卡尔坐标系的三个正交平面上，获取每一个正交平面上的投影图像，得到所述第i帧深度图像的正视角投影图像、侧视角投影图像以及俯视角投影图像。

差分图获取单元812，用于根据所述第i帧深度图像的正视角投影图像、侧视角投影图像以及俯视角投影图像，计算其对应的正视角差分图、侧视角差分图以及俯视角差分图，组合所述正视角差分图、侧视角差分图以及俯视角差分图，得到所述第i帧深度图像对应的深度运动立方体

组合单元813，用于遍历所述深度图像序列中的每一帧深度图像，组合每一帧深度图像对应的深度运动立方体，得到所述深度图像序列对应的深度运动序列。

本发明实施例通过对深度图像序列进行投影变换，得到的深度运动序列能够有效地描述自遮挡情况下的人体动作，并且保留了在时间方向的运动分布情况。

进一步地，所述第一划分模块82包括：

归一化处理单元821，用于按照运动能量计算公式获取每一帧深度图像对应的深度运动立方体的运动能量值，对所述运动能量值进行归一化处理。

第一划分单元822，用于按照n_t层的时间立方金字塔将所述深度运动序列在时间维度上划分为个时间区域，其中，第m层包括2^m-1个时间区域(1≤m≤n_t)，每个时间区域包括多个深度运动立方体，且同一层中每一个时间区域所包括的深度运动立方体的运动能量值之和相等。

叠加单元823，用于对于每一个时间区域，将所述时间区域内的深度运动立方体的对应像素的像素值进行叠加，得到所述时间区域对应的运动历史立方体其中，k为时间区域的编号，

进一步地，所述第二划分模块83包括：

第二划分单元831，用于针对每一个时间区域内的运动历史立方体采用n_r×n_c×n_d的空间网格将所述运动历史立方体划分为多个空间子立方块

其中，所述(r,c,d)表示空间子立方块在所述运动历史立方体中的位置标号。

进一步地，所述特征提取模块84包括：

修正单元841，用于获取任意第k个时间区域对应的运动历史立方体将所述运动历史立方体中的每一个空间子立方块的尺度修正为预设尺度。

特征提取单元842，用于对于修正后的空间子立方块分别从正视、侧视、俯视三个视角进行特征提取，得到所述空间子立方块对应的特征向量。

第一组合单元843，用于将所述第k个时间区域对应的运动历史立方体中的每一个空间子立方块对应的特征向量组合起来，得到所述运动历史立方体的特征向量。

第二组合单元844，用于将所述个时间区域对应的运动历史立方体的特征向量组合起来，得到所述深度运动序列的特征向量。

本发明实施例通过第一划分模块82对深度运动序列按照时间立方金字塔进行划分，将人体随时间位移变化信息转化为局部和全局的运动历史立方体；通过第二划分模块83进行的空间维度上的划分和特征提取模块84进行的立方体融合，有效地描述了人体在空间的位移变化情况。与现有的基于超曲面法向量、人体骨架模型以及三维点云的方法相比，本发明实施例大幅度地缩减了人体动作时间的计算复杂度，降低了对计算资源的需求，并提高了人体动作识别的准确度。

需要说明的是，本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实例中的相关描述，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的人体动作的识别方法及装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块、单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元、模块单独物理存在，也可以两个或两个以上单元、模块集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人体动作的识别方法，其特征在于，所述识别方法包括：

根据所述深度运动序列的特征向量，利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果；

所述获取深度图像序列，对所述深度图像序列进行变换得到对应的深度运动序列包括：

获取所述深度图像序列中的任意第i帧深度图像，将所述第i帧深度图像投影到笛卡尔坐标系的三个正交平面上，获取每一个正交平面上的投影图像，得到所述第i帧深度图像的正视角投影图像、侧视角投影图像以及俯视角投影图像；

根据所述第i帧深度图像的正视角投影图像、侧视角投影图像以及俯视角投影图像，计算其对应的正视角差分图、侧视角差分图以及俯视角差分图，组合所述正视角差分图、侧视角差分图以及俯视角差分图，得到所述第i帧深度图像对应的深度运动立方体

遍历所述深度图像序列中的每一帧深度图像，组合每一帧深度图像对应的深度运动立方体，得到所述深度图像序列对应的深度运动序列；

其中，所述第i帧深度图像的正视角差分图为第i+1帧深度图像的正视角投影图像与第i帧深度图像的正视角投影图像之间对应像素的像素值之差；所述第i帧深度图像的侧视角差分图为第i+1帧深度图像的侧视角投影图像与第i帧深度图像的侧视角投影图像之间对应像素的像素值之差；所述第i帧深度图像的俯视角差分图为第i+1帧深度图像的俯视角投影图像与第i帧深度图像的俯视角投影图像之间对应像素的像素值之差；1≤i≤N，N表示深度图像序列包括的深度图像的帧数。

2.如权利要求1所述的人体动作的识别方法，其特征在于，所述对所述深度运动序列进行时间维度上的划分，获得每一个时间区域内的运动历史立方体包括：

按照运动能量计算公式获取每一帧深度图像对应的深度运动立方体的运动能量值，对所述运动能量值进行归一化处理；

按照n_t层的时间立方金字塔将所述深度运动序列在时间维度上划分为2^nt-1个时间区域，其中，第m层包括2^m-1个时间区域，每个时间区域包括多个深度运动立方体，且同一层中每一个时间区域所包括的深度运动立方体的运动能量值之和相等；

对于每一个时间区域，将所述时间区域内的深度运动立方体的对应像素的像素值进行叠加，得到所述时间区域对应的运动历史立方体

其中，n_t为正整数，k为时间区域的编号，1≤m≤n_t。

3.如权利要求2所述的人体动作的识别方法，其特征在于，所述针对每一个时间区域内的运动历史立方体，按照预设的空间网格对所述运动历史立方体进行空间维度上的划分，获得每一个运动历史立方体对应的多个空间子立方块包括：

针对每一个时间区域内的运动历史立方体采用n_r×n_c×n_d的空间网格将所述运动历史立方体划分为多个空间子立方块

其中，所述(r,c,d)表示空间子立方块在运动历史立方体中的位置标号，r、c、d均为正整数，且1≤r≤n_r、1≤c≤n_c、1≤d≤n_d。

4.如权利要求3所述的人体动作的识别方法，其特征在于，所述根据每一个运动历史立方体对应的空间子立方块计算所述运动历史立方体对应的特征向量，连接所述每一个时间区域内的运动历史立方体对应的特征向量，得到所述深度运动序列的特征向量包括：

获取任意第k个时间区域对应的运动历史立方体将所述运动历史立方体中的每一个空间子立方块的尺度修正为预设尺度；

对于修正后的所述空间子立方块分别从正视、侧视、俯视三个视角进行特征提取，得到所述空间子立方块对应的特征向量；

将所述第k个时间区域对应的运动历史立方体中的每一个空间子立方块对应的特征向量组合起来，得到所述运动历史立方体的特征向量；

将所述个时间区域对应的运动历史立方体的特征向量组合起来，得到所述深度运动序列的特征向量。

5.一种人体动作的识别装置，其特征在于，所述识别装置包括：

训练模块，用于根据所述深度运动序列的特征向量，利用支持向量机SVM进行模型训练和测试，以得到人体动作的识别结果；

所述获取模块包括：

投影单元，用于获取所述深度图像序列中的任意第i帧深度图像，将所述第i帧深度图像投影到笛卡尔坐标系的三个正交平面上，获取每一个正交平面上的投影图像，得到所述第i帧深度图像的正视角投影图像、侧视角投影图像以及俯视角投影图像；

差分图获取单元，用于根据所述第i帧深度图像的正视角投影图像、侧视角投影图像以及俯视角投影图像，计算其对应的正视角差分图、侧视角差分图以及俯视角差分图，组合所述正视角差分图、侧视角差分图以及俯视角差分图，得到所述第i帧深度图像对应的深度运动立方体

组合单元，用于遍历所述深度图像序列中的每一帧深度图像，组合每一帧深度图像对应的深度运动立方体，得到所述深度图像序列对应的深度运动序列；

6.如权利要求5所述的人体动作的识别装置，其特征在于，所述第一划分模块包括：

归一化处理单元，用于按照运动能量计算公式获取每一帧深度图像对应的深度运动立方体的运动能量值，对所述运动能量值进行归一化处理；

第一划分单元，用于按照n_t层的时间立方金字塔将所述深度运动序列在时间维度上划分为个时间区域，其中，第m层包括2^m-1个时间区域，每个时间区域包括多个深度运动立方体，且同一层中每一个时间区域所包括的深度运动立方体的运动能量值之和相等；

叠加单元，用于对于每一个时间区域，将所述时间区域内的深度运动立方体的对应像素的像素值进行叠加，得到所述时间区域对应的运动历史立方体

其中，n_t为正整数，1≤m≤n_t，k为时间区域的编号，

7.如权利要求6所述的人体动作的识别装置，其特征在于，所述第二划分模块包括：

第二划分单元，用于针对每一个时间区域内的运动历史立方体采用n_r×n_c×n_d的空间网格将所述运动历史立方体划分为多个空间子立方块

8.如权利要求7所述的人体动作的识别装置，其特征在于，所述特征提取模块包括：

修正单元，用于获取任意第k个时间区域对应的运动历史立方体将所述运动历史立方体中的每一个空间子立方块的尺度修正为预设尺度；

特征提取单元，用于对于修正后的所述空间子立方块分别从正视、侧视、俯视三个视角进行特征提取，得到所述空间子立方块对应的特征向量；

第一组合单元，用于将所述第k个时间区域对应的运动历史立方体中的每一个空间子立方块对应的特征向量组合起来，得到所述运动历史立方体的特征向量；

第二组合单元，用于将所述个时间区域对应的运动历史立方体的特征向量组合起来，得到所述深度运动序列的特征向量。