CN104978583B

CN104978583B - 人物动作的识别方法及装置

Info

Publication number: CN104978583B
Application number: CN201410145741.9A
Authority: CN
Inventors: 陈大伟; 任献普; 李旭
Original assignee: Sumavision Technologies Co Ltd
Current assignee: Sumavision Technologies Co Ltd
Priority date: 2014-04-11
Filing date: 2014-04-11
Publication date: 2018-07-03
Anticipated expiration: 2034-04-11
Also published as: CN104978583A

Abstract

本发明公开了一种人物动作的识别方法及装置，在上述方法中，采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；通过训练得到的姿势模型计算动作模型；根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别。根据本发明提供的技术方案，进而大幅度减少了动作识别时的计算量，提高了动作识别的准确度，可以方便地在模型中加入新动作。

Description

人物动作的识别方法及装置

技术领域

本发明涉及图像识别领域，具体而言，涉及一种人物动作的识别方法及装置。

背景技术

目前，相关技术中主要使用色彩图来识别人物动作，其在人物提取以及动作表现上均会受到环境光以及阴影等多方面因素的影响，稳定性较差。

另外，相关技术中所生成的动作模型无法识别连续的人物动作，而且，对于人物动作识别必须设定初始状态和结束状态。

发明内容

本发明提供了一种人物动作的识别方法及装置，以至少解决相关技术中在人物连续运动时无法识别出人物动作的问题。

根据本发明的一个方面，提供了一种人物动作的识别方法。

根据本发明实施例的人物动作的识别方法包括：采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；通过训练得到的姿势模型计算动作模型；根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别。

优选地，采用深度图像集合训练姿势模型包括：计算深度图像集合中每一幅深度图像的人物身高；采用计算出的人物身高对该幅深度图像进行归一化处理；将经过归一化处理后的深度图像分别向三维直角坐标系中的XY、XZ和YZ三个平面进行投影，得到二维投影图像集合，其中，分别计算二维投影图像集合中的每幅二维投影图像的轮廓，并对轮廓的像素点进行随机均匀采样；将经过采样处理后的样本像素点作为特征进行聚类处理；分别对聚类处理结果中的每个类别使用最大期望算法训练得到高斯混合模型。

优选地，在聚类处理中使用的距离度量为：d_ij=(1+exp(-α(d_h(fi,f_j)-β)))^-1，其中，α和β为常数，f_i和f_j为两个不同的作为特征的样本像素点，

优选地，采用预设算法对人物动作进行识别包括：依次使用每个姿势模型p_i对实时采集的深度图像x进行预测；将满足max{Pr(x|p_i)}>TH_p的预测概率最大的k个姿势模型放入缓冲区，其中，TH_p为第一预设阈值，k为正整数；当缓冲区被填满时，执行字符串快速匹配算法，依次使用每个动作模型进行匹配，如果max{Pr({x_k}|φ_l)}>TH_φ，则返回识别成功的动作其中，为第二预设阈值，{x_k}为待匹配的姿势序列，L为动作数量。

根据本发明的另一方面，提供了一种人物动作的识别装置。

根据本发明实施例的人物动作的识别装置包括：训练模块，用于采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；计算模块，用于通过训练得到的姿势模型计算动作模型；识别模块，用于根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别。

优选地，训练模块包括：计算单元，用于计算深度图像集合中每一幅深度图像的人物身高；第一处理单元，用于采用计算出的人物身高对该幅深度图像进行归一化处理；第二处理单元，用于将经过归一化处理后的深度图像分别向三维直角坐标系中的XY、XZ和YZ三个平面进行投影，得到二维投影图像集合，其中，分别计算二维投影图像集合中的每幅二维投影图像的轮廓，并对轮廓的像素点进行随机均匀采样；第三处理单元，用于将经过采样处理后的样本像素点作为特征进行聚类处理；训练单元，用于分别对聚类处理结果中的每个类别使用最大期望算法训练得到高斯混合模型。

优选地，第三处理单元，用于在聚类处理中使用的距离度量为：d_ij=(1+exp(-α(d_h(f_i,f_j)-β)))^-1，

其中，α和β为常数，f_i和f_j为两个不同的作为特征的样本像素点，

优选地，识别模块包括：第二预测单元，用于依次使用每个姿势模型p_i对实时采集的深度图像x进行预测；第四处理单元，用于将满足max{Pr(x|p_i)}>TH_p的预测概率最大的k个姿势模型放入缓冲区，

其中，TH_p为第一预设阈值，k为正整数；识别单元，用于当缓冲区被填满时，执行字符串快速匹配算法，依次使用每个动作模型进行匹配，如果max{Pr({x_k}|φ_l)}>TH_φ，则返回识别成功的动作其中，为第二预设阈值，{x_k}为待匹配的姿势序列，L为动作数量。

通过本发明实施例，先采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；再通过训练得到的姿势模型计算动作模型；最后根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别，由此解决了相关技术中在人物连续运动时无法识别出人物动作的问题，进而大幅度减少了动作识别时的计算量，提高了动作识别的准确度，可以方便地在模型中加入新动作。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的人物动作的识别方法的流程图；

图2是根据本发明实施例的人物动作的识别装置的结构框图；

图3是根据本发明优选实施例的人物动作的识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是根据本发明实施例的人物动作的识别方法的流程图。如图1所示，该方法可以包括以下处理步骤：

步骤S102：采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；

步骤S104：通过训练得到的姿势模型计算动作模型；

步骤S106：根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别。

相关技术中，在人物连续运动时无法识别出人物动作。采用如图1所示的方法，先采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；再通过训练得到的姿势模型计算动作模型；最后根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别，由此解决了相关技术中在人物连续运动时无法识别出人物动作的问题，在给定人物深度信息的情况下，能够完成对人物动作的实时识别，不但解决了使用色彩图难于识别人物动作的问题，而且在各种场景中均可以确保较好的稳定性和准确性，同时还会使得人机交互的体验更加自然。

需要说明的是，本发明实施例所提供的技术方案在已经提取出目标人物的深度信息的基础上，实现人物动作的识别。在深度测量设备输出深度图后，可以采用预设的目标提取算法会提取当前场景中的人物，然后提供目标人物的深度信息，最后再使用本发明实施例所提供的技术方案对当前场景中人物的动作进行识别。

优选地，在步骤S102中，采用深度图像集合训练姿势模型可以包括以下操作：

步骤S1：计算深度图像集合中每一幅深度图像的人物身高；

步骤S2：采用计算出的人物身高对该幅深度图像进行归一化处理；

步骤S3：将经过归一化处理后的深度图像分别向三维直角坐标系中的XY、XZ和YZ三个平面进行投影，得到二维投影图像集合，其中，分别计算二维投影图像集合中的每幅二维投影图像的轮廓，并对轮廓的像素点进行随机均匀采样；

步骤S4：将经过采样处理后的样本像素点作为特征进行聚类处理；

步骤S5：分别对聚类处理结果中的每个类别使用最大期望算法训练得到高斯混合模型。

在优选实施例中，上述深度图像为不限定分辨率的数字图像，其中每个像素点为当前场景中物体与摄像头主光轴的欧氏距离。对包含若干动作的深度图的训练集合中的每一幅深度图。

优选地，在步骤S4，聚类处理中使用的距离度量为：

d_ij=(1+exp(-α(d_h(fi,f_j)-β)))^-1，

在优选实施例中，使用包含全部已设计动作的深度图的训练集，通过训练得到姿势模型。其训练的过程可以包括以下操作：

首先，计算每一幅深度图中人物的身高；

其次，使用计算出的身高对该幅深度图进行归一化处理；

再次，将经过归一化处理后的深度图向XY平面进行投影，以得到XY平面的二维投影图像，计算该二维投影图像中的轮廓，并对轮廓像素点进行随机均匀采样；

然后，使用训练集中全部深度图对应的样本点作为特征进行聚类，得到C个类别。对于特征f_i和f_j，聚类使用的距离度量为：

d_ij=(1+exp(-α(d_h(fi,f_j)-β)))^-1，

其中，α和β为常数，d_h(f_i,f_j)为

其中，d(a,b)为像素点a和b之间的欧氏距离。

最后，对C个类别中的每一类使用最大期望算法训练得到一个高斯混合模型。

在该优选实施例中，最大期望算法可以包括以下两个步骤：

（1）计算期望，利用对隐含变量的现有估计值，计算其最大似然估计值；

（2）最大化，利用最大似然估计值来计算参数的值；

两步交替反复进行直到收敛。最大期望算法训练得到的高斯混合模型即为一个姿势模型在XY平面上的分量。同样的，将归一化的深度图分别向XZ平面和YZ平面进行投影，并对投影得到的二维图像按照上述过程进行聚类和模型训练，便能得到姿势模型在XZ平面和YZ平面的分量，这三个平面的分量共同构成完整的姿势模型。

优选地，在步骤S104中，通过训练得到的姿势模型计算动作模型可以包括以下步骤：

步骤S6：对于动作的每一个训练样本，按照深度图像集合中各个深度图像的先后顺序依次使用每个姿势模型对深度图x_k进行预测，其中，x_k的姿势类别为p_i为第i个姿势模型，C为姿势模型的数量；

步骤S7：根据动作的姿势序列确定动作的动作模型，其中，对姿势序列中相同的相邻两个姿势进行合并。

在优选实施例中，在训练集中，一个动作的训练样本是指若干个深度图序列，其中，每一个深度图序列对应于一次该动作的执行过程。对于动作的每一个训练样本，按照深度图的先后顺序，对深度图x_k依次使用第一步训练得到的每一个姿势模型进行预测，x_k的姿势类别为：

其中，p_i为第i个姿势模型，C为姿势模型的数量，动作的姿势序列为如果相邻两个序列的姿势相同，则需要进行合并，该姿势序列即为的动作模型。

优选地，在步骤S106中，采用预设算法对人物动作进行识别可以包括以下操作：

步骤S8：依次使用每个姿势模型pi对实时采集的深度图像x进行预测；

步骤S9：将满足max{Pr(x|p_i)}>TH_p的预测概率最大的k个姿势模型放入缓冲区，其中，TH_p为第一预设阈值，k为正整数；

步骤S10：当缓冲区被填满时，执行字符串快速匹配算法，依次使用每个动作模型进行匹配，如果max{Pr({x_k}|φ_l)}>TH_φ，则返回识别成功的动作

其中，为第二预设阈值，{x_k}为待匹配的姿势序列，L为动作数量。

在优选实施例中，根据上述训练得到的姿势模型和计算得到的动作模型，使用快速匹配算法对实时采集的深度图中的人物动作进行识别，其识别方法为：对于实时采集的每一帧深度图x，依次使用每一个姿势模型p_i对其预测，如果max{Pr(x|p_i)}<TH_p，其中TH_p为预设阈值，则丢弃该帧；否则，将预测概率最大的k个姿势模型（预测概率均大于TH_p）放入缓冲区；当缓冲区满时，执行字符串快速匹配算法，依次使用每一个动作模型进行匹配，如果其中为预设阈值，{x_k}为待匹配的姿势序列，则以先入先出规则置换缓冲区中的数据；否则，返回识别成功的动作。

其中，L为动作数目，并从缓冲区中清除已经匹配成功的姿势数据。如此反复进行直到程序被终止。

图2是根据本发明实施例的人物动作的识别装置的结构框图。如图2所示，该人物动作的识别装置可以包括：训练模块10，用于采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；计算模块20，用于通过训练得到的姿势模型计算动作模型；识别模块30，用于根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别。

采用如图2所示的装置，解决了相关技术中在人物连续运动时无法识别出人物动作的问题，进而大幅度减少了动作识别时的计算量，提高了动作识别的准确度，可以方便地在模型中加入新动作。

优选地，如图3所示，训练模块10可以包括：计算单元100，用于计算深度图像集合中每一幅深度图像的人物身高；第一处理单元102，用于采用计算出的人物身高对该幅深度图像进行归一化处理；第二处理单元104，用于将经过归一化处理后的深度图像分别向三维直角坐标系中的XY、XZ和YZ三个平面进行投影，得到二维投影图像集合，其中，分别计算二维投影图像集合中的每幅二维投影图像的轮廓，并对轮廓的像素点进行随机均匀采样；第三处理单元106，用于将经过采样处理后的样本像素点作为特征进行聚类处理；训练单元108，用于分别对聚类处理结果中的每个类别使用最大期望算法训练得到高斯混合模型。

优选地，第三处理单元106，用于在聚类处理中使用的距离度量为：

d_ij=(1+exp(-α(d_h(fi,f_j)-β)))^-1，

优选地，如图3所示，识别模块30可以包括：第二预测单元300，用于依次使用每个姿势模型p_i对实时采集的深度图像x进行预测；第四处理单元302，用于将满足max{Pr(x|p_i)}>TH_p的预测概率最大的k个姿势模型放入缓冲区，其中，TH_p为第一预设阈值，k为正整数；识别单元304，用于当缓冲区被填满时，执行字符串快速匹配算法，依次使用每个动作模型进行匹配，如果max{Pr({x_k}|φ_l)}>TH_φ，则返回识别成功的动作其中，为第二预设阈值，{x_k}为待匹配的姿势序列，L为动作数量。

从以上的描述中，可以看出，上述实施例实现了如下技术效果（需要说明的是这些效果是某些优选实施例可以达到的效果）：根据本发明实施例所提供的技术方案，在给定人物深度信息的情况下，能够完成对人物动作的实时识别，不但解决了使用色彩图难于识别人物动作的问题，而且在各种场景中均可以确保较好的稳定性和准确性，同时还会使得人机交互的体验更加自然。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人物动作的识别方法，其特征在于，包括：

采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；

通过训练得到的姿势模型计算动作模型；

根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别；

其中，通过训练得到的姿势模型计算所述动作模型包括：对于动作的每一个训练样本，按照所述深度图像集合中各个深度图像的先后顺序依次使用每个姿势模型对深度图x_k进行预测，其中，x_k的姿势类别为p_i为第i个姿势模型，C为姿势模型的数量；根据动作的姿势序列确定动作的动作模型，其中，对所述姿势序列中相同的相邻两个姿势进行合并。

2.根据权利要求1所述的方法，其特征在于，采用所述深度图像集合训练所述姿势模型包括：

计算所述深度图像集合中每一幅深度图像的人物身高；

采用计算出的人物身高对该幅深度图像进行归一化处理；

将经过归一化处理后的深度图像分别向三维直角坐标系中的XY、XZ和YZ三个平面进行投影，得到二维投影图像集合，其中，分别计算所述二维投影图像集合中的每幅二维投影图像的轮廓，并对所述轮廓的像素点进行随机均匀采样；

将经过采样处理后的样本像素点作为特征进行聚类处理；

分别对聚类处理结果中的每个类别使用最大期望算法训练得到高斯混合模型。

3.根据权利要求2所述的方法，其特征在于，在所述聚类处理中使用的距离度量为：

d_ij＝(1+exp(-α(d_h(f_i,f_j)-β)))^-1，

d(a,b)为像素点a与像素点b之间的欧氏距离。

4.根据权利要求1所述的方法，其特征在于，采用所述预设算法对所述人物动作进行识别包括：

依次使用每个姿势模型p_i对所述实时采集的每一帧深度图x进行预测；

将满足max{Pr(x|p_i)}＞TH_p的预测概率最大的k个姿势模型放入缓冲区，其中，TH_p为第一预设阈值，k为正整数；

当所述缓冲区被填满时，执行字符串快速匹配算法，依次使用每个动作模型进行匹配，如果max{Pr({x_k}|φ_l)}＞TH_φ，则返回识别成功的动作

其中，为第二预设阈值，{x_k}为待匹配的深度图序列，L为动作数量。

5.一种人物动作的识别装置，其特征在于，包括：

训练模块，用于采用全部表征人物与图像采集设备之间距离的深度图像集合训练姿势模型；

计算模块，用于通过训练得到的姿势模型计算动作模型；

识别模块，用于根据训练得到的姿势模型以及计算得到的动作模型，采用预设算法对实时采集的深度图像中的人物动作进行识别；

其中，所述计算模块包括：第一预测单元，用于对于动作的每一个训练样本，按照所述深度图像集合中各个深度图像的先后顺序依次使用每个姿势模型对深度图x_k进行预测，其中，x_k的姿势类别为p_i为第i个姿势模型，C为姿势模型的数量；确定单元，用于根据动作的姿势序列确定动作的动作模型，其中，对所述姿势序列中相同的相邻两个姿势进行合并。

6.根据权利要求5所述的装置，其特征在于，所述训练模块包括：

计算单元，用于计算所述深度图像集合中每一幅深度图像的人物身高；

第一处理单元，用于采用计算出的人物身高对该幅深度图像进行归一化处理；

第二处理单元，用于将经过归一化处理后的深度图像分别向三维直角坐标系中的XY、XZ和YZ三个平面进行投影，得到二维投影图像集合，其中，分别计算所述二维投影图像集合中的每幅二维投影图像的轮廓，并对所述轮廓的像素点进行随机均匀采样；

第三处理单元，用于将经过采样处理后的样本像素点作为特征进行聚类处理；

训练单元，用于分别对聚类处理结果中的每个类别使用最大期望算法训练得到高斯混合模型。

7.根据权利要求6所述的装置，其特征在于，所述第三处理单元，用于在所述聚类处理中使用的距离度量为：

d_ij＝(1+exp(-α(d_h(f_i,f_j)-β)))^-1，

d(a,b)为像素点a与像素点b之间的欧氏距离。

8.根据权利要求5所述的装置，其特征在于，所述识别模块包括：

第二预测单元，用于依次使用每个姿势模型p_i对所述实时采集的每一帧深度图x进行预测；

第四处理单元，用于将满足max{Pr(x|p_i)}＞TH_p的预测概率最大的k个姿势模型放入缓冲区，其中，TH_p为第一预设阈值，k为正整数；

识别单元，用于当所述缓冲区被填满时，执行字符串快速匹配算法，依次使用每个动作模型进行匹配，如果max{Pr({x_k}|φ_l)}＞TH_φ，则返回识别成功的动作