CN104598889A

CN104598889A - 人体行为识别的方法和装置

Info

Publication number: CN104598889A
Application number: CN201510050043.5A
Authority: CN
Inventors: 曹林; 朱希安; 朱国刚; 傅小康; 陈仕林
Original assignee: China United Coalbed Methane Corp Ltd; Beijing Information Science and Technology University
Current assignee: China United Coalbed Methane Corp Ltd; Beijing Information Science and Technology University
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2015-05-06
Anticipated expiration: 2035-01-30
Also published as: CN104598889B

Abstract

本发明公开了一种人体行为识别的方法和装置，属于图像理解与识别领域。所述方法包括：获取人体行为的多个时空训练样本，每个时空训练样本包括人体行为的一段连续的多帧图像；对所述多个时空训练样本提取三维时空直方图特征；对所述多个时空训练样本提取二维轮廓特征；将三维时空直方图特征和二维轮廓特征组合成混合特征；用所述混合特征输入SVM进行训练得到分类器；使用所述分类器对测试样本进行识别，得到人体行为的识别结果。所述装置包括：获取模块、三维特征提取模块、二维特征提取模块、混合模块、训练模块和识别模块。本发明结合了三维时空直方图特征和二维轮廓特征来描述人体行为，实现了较为理想的识别结果，不易受噪声的干扰，提高了识别率。

Description

人体行为识别的方法和装置

技术领域

本发明涉及图像理解与识别领域，特别涉及一种人体行为识别的方法和装置。

背景技术

人体行为识别在计算机视觉、模式识别、人工智能等领域中，已经成为一个极具意义的研究热点。它具有广阔的应用前景，包括智能视频监控、虚拟现实技术等。关于人体行为分析、识别及人体异常行为检测的研究可以追溯到上世纪90年代，到目前为止，国内外已经取得了许多具有阶段性的重要研究成果。

从传统的研究来看，人体行为识别的方法主要有基于模板的方法以及基于机器学习的方法。基于模板方法主要有模板匹配、动态时间规整等，它通过人体行为序列与预设数据进行匹配，依据两者之间的相似度来进行识别。而基于机器学习的方法主要有动态贝叶斯网络、支持向量机、隐马尔科夫模型等，它通过特征提取、行为描述以及样本学习来训练得到分类器，最后对未知的人体行为进行识别与检测。

人体行为的复杂性不言而喻，相比于其它模式识别的研究更具挑战性。传统的人体行为识别方法在进行人体行为的特征提取时，大多关注二维轮廓特征，如边缘、形状、姿态、轨迹等等，但是，对于复杂的人体行为而言，该方法易受噪声的干扰，识别率不高。

发明内容

有鉴于此，本发明提供了一种人体行为识别的方法和装置，以提高人体行为的识别率。所述技术方案如下：

第一方面，本发明提供了一种人体行为识别的方法，包括：

获取人体行为的多个时空训练样本，每个时空训练样本包括人体行为的一段连续的多帧图像；

对所述多个时空训练样本提取三维时空直方图特征；

对所述多个时空训练样本提取二维轮廓特征；

将所述三维时空直方图特征和所述二维轮廓特征组合成混合特征；

用所述混合特征输入支持向量机SVM进行训练得到分类器；

使用所述分类器对测试样本进行识别，得到人体行为的识别结果。

其中，所述对所述多个时空训练样本提取三维时空直方图特征，包括：

对所述多个时空训练样本中的每一个时空训练样本执行以下操作：

在所述时空训练样本上采样多个兴趣点并确定每个兴趣点的特征描述符，根据所述特征描述符保留具有空间特征描述性的兴趣点，由保留的兴趣点的特征描述符组成所述时空训练样本的时空特征矩阵；

使用聚类算法将所述时空特征矩阵聚成K个聚类；

对所述时空特征矩阵中的每个特征描述符所属聚类进行标记后做直方图，得到所述时空训练样本的三维时空直方图特征。

其中，所述确定每个兴趣点的特征描述符，包括：

对所述时空训练样本上的每一个兴趣点执行以下操作：

以所述兴趣点为中心抽取指定边长的立方体，将所述立方体划分为多个子立方体，且每个子立方体划分为多个单位立方体，其中，一个单位立方体代表一个像素点；

采用柏拉图立体统计每个子立方体的梯度方向，得到每个子立方体的梯度直方图；

由所述多个子立方体的梯度直方图组成所述兴趣点的特征描述符。

其中，所述根据所述特征描述符保留具有空间特征描述性的兴趣点，包括：

对所述时空训练样本上的每一个兴趣点执行以下操作：

以所述兴趣点为中心抽取指定边长的立方体，所述立方体包括多个像素点；

采用柏拉图立体统计所述立方体的梯度方向，得到所述立方体的梯度直方图；

在所述梯度直方图中按照峰值从高到低取前三个峰值，分别对应所述兴趣点至柏拉图立体相应面中心点的三个向量：第一向量、第二向量和第三向量；

判断所述第一向量和第二向量之间的夹角以及所述第一向量和第三向量之间的夹角是否均小于指定值，如果是，则去除所述兴趣点，否则，保留所述兴趣点。

其中，所述对所述多个时空训练样本提取二维轮廓特征，包括：

对所述时空训练样本中的每帧图像，使用图像显著性检测方法提取出人体轮廓图，并在所述人体轮廓图上提取二维轮廓特征；

根据提取的每帧图像的二维轮廓特征计算得到所述时空训练样本的二维轮廓特征。

第二方面，本发明提供了一种人体行为识别的装置，包括：

获取模块，用于获取人体行为的多个时空训练样本，每个时空训练样本包括人体行为的一段连续的多帧图像；

三维特征提取模块，用于对所述多个时空训练样本提取三维时空直方图特征；

二维特征提取模块，用于对所述多个时空训练样本提取二维轮廓特征；

混合模块，用于将所述三维时空直方图特征和所述二维轮廓特征组合成混合特征；

训练模块，用于用所述混合特征输入支持向量机SVM进行训练得到分类器；

识别模块，用于使用所述分类器对测试样本进行识别，得到人体行为的识别结果。

其中，所述三维特征提取模块包括：循环单元、矩阵获取单元、聚类单元和直方图单元；

所述循环单元，用于触发所述矩阵获取单元、聚类单元和直方图单元，对所述多个时空训练样本中的每一个时空训练样本执行相同的操作，得到每一个时空训练样本的三维时空直方图特征；

所述矩阵获取单元，用于在所述时空训练样本上采样多个兴趣点并确定每个兴趣点的特征描述符，根据所述特征描述符保留具有空间特征描述性的兴趣点，由保留的兴趣点的特征描述符组成所述时空训练样本的时空特征矩阵；

所述聚类单元，用于使用聚类算法将所述时空特征矩阵聚成K个聚类；

所述直方图单元，用于对所述时空特征矩阵中的每个特征描述符所属聚类进行标记后做直方图，得到所述时空训练样本的三维时空直方图特征。

其中，所述矩阵获取单元包括：

特征描述符确定子单元，用于对所述时空训练样本上的每一个兴趣点执行以下操作：以所述兴趣点为中心抽取指定边长的立方体，将所述立方体划分为多个子立方体，且每个子立方体划分为多个单位立方体，其中，一个单位立方体代表一个像素点；采用柏拉图立体统计每个子立方体的梯度方向，得到每个子立方体的梯度直方图；由所述多个子立方体的梯度直方图组成所述兴趣点的特征描述符。

其中，所述矩阵获取单元包括：

兴趣点过滤子单元，用于对所述时空训练样本上的每一个兴趣点执行以下操作：以所述兴趣点为中心抽取指定边长的立方体，所述立方体包括多个像素点；采用柏拉图立体统计所述立方体的梯度方向，得到所述立方体的梯度直方图；在所述梯度直方图中按照峰值从高到低取前三个峰值，分别对应所述兴趣点至柏拉图立体相应面中心点的三个向量：第一向量、第二向量和第三向量；判断所述第一向量和第二向量之间的夹角以及所述第一向量和第三向量之间的夹角是否均小于指定值，如果是，则去除所述兴趣点，否则，保留所述兴趣点。

其中，所述二维特征提取模块包括：

二维特征提取单元，用于对所述多个时空训练样本中的每一个时空训练样本执行以下操作：对所述时空训练样本中的每帧图像，使用图像显著性检测方法提取出人体轮廓图，并在所述人体轮廓图上提取二维轮廓特征；根据提取的每帧图像的二维轮廓特征计算得到所述时空训练样本的二维轮廓特征。

本发明提供的技术方案带来的有益效果是：通过获取人体行为的多个时空训练样本，并提取三维时空直方图特征和二维轮廓特征，且组合成混合特征，用混合特征输入SVM进行训练得到分类器，对测试样本进行识别，得到人体行为的识别结果，由于结合了三维时空直方图特征和二维轮廓特征来描述人体行为，实现了较为理想的识别结果，不易受噪声的干扰，提高了识别率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的人体行为识别的方法流程图；

图2是本发明另一实施例提供的时空训练样本的示意图；

图3是本发明另一实施例提供的获取时空训练样本的示意图；

图4是本发明另一实施例提供的人体行为识别的方法流程图；

图5是本发明另一实施例提供的人体行为的示意图；

图6是本发明另一实施例提供的提取三维时空直方图特征的流程示意图；

图7是本发明另一实施例提供的提取人体轮廓图的过程和结果比较示意图；

图8是本发明另一实施例提供的人体行为识别的方法流程图；

图9是本发明另一实施例提供的兴趣点对应的立方体的示意图；

图10是本发明另一实施例提供的对柏拉图立体进行细化的示意图；

图11是本发明另一实施例提供的统计子立方体的梯度方向的示意图；

图12是本发明另一实施例提供的确定兴趣点空间特征描述性时抽取立方体的示意图；

图13是本发明另一实施例提供的人体轮廓的最小外接矩形高与宽的示意图；

图14是本发明另一实施例提供的SVM的输入特征矩阵示意图；

图15是本发明另一实施例提供的参数对平均识别正确率的影响示意图；

图16是本发明另一实施例提供的人体行为识别的装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1，本发明一实施例提供了一种人体行为识别的方法，包括：

101：获取人体行为的多个时空训练样本，每个时空训练样本包括人体行为的一段连续的多帧图像。

本实施例中，一个时空训练样本可以包括F帧连续的图像，F的数值可以根据需要设定，如50、100、200、300等等，本实施例对此不做具体限定。另外，每帧图像的大小本实施例也不限定，如可以为160*120或者其它大小等等。

例如，参见图2，为时空训练样本的示意图。其中，该时空训练样本包括F帧连续的图像，图像的内容为一个人在户外的行走运动。该F帧连续的图像可以反映人体行为的变化，如人由近逐渐走远。

本实施例中，时空训练样本可以从视频数据库中获取，且可以每隔固定的周期获取一个时空训练样本，本实施例对此不做具体限定。

例如，参见图3，为获取时空训练样本的示意图。其中，从视频数据库获取的视频数据共有a帧图像，从中提取一段连续的F帧图像作为一个时空样本。为获得多个时空样本，每间隔b帧提取下一个时空样本。具体地，第1个时空样本为第1帧到第F帧，第2个时空样本为第1+b帧到第F+b帧，以此类推，可以得到N个时空训练样本，由上述数据可以计算得到时空训练样本个数如下：

N = \frac{a - F}{b} + 1 - - - (1)

102：对该多个时空训练样本提取三维时空直方图特征。

103：对该多个时空训练样本提取二维轮廓特征。

其中，二维轮廓特征可以为一个或多个，优选地，为多个，包括但不限于：人体轮廓的最小外接矩形的高宽比、人体的姿态变化率或人体轮廓中心点等等，本实施例对此不做具体限定。

104：将该三维时空直方图特征和该二维轮廓特征组合成混合特征。

本实施例中，所述混合可以具体为串接，串接的先后顺序不限定。例如，三维时空直方图特征在前，二维轮廓特征在后，二者进行串接得到混合特征；或者，二维轮廓特征在前，三维时空直方图特征在后，二者进行串接得到混合特征。

105：用该混合特征输入支持向量机进行训练得到分类器。

支持向量机(Support Vector Machine，简称：SVM))由Vapnik首先提出，是一种二类分类模型。它的主要思想是建立一个分类超平面作为决策曲面，使得两类之间的隔离边缘被最大化。本实施例采用多分类支持向量机(Multi-classSVM)算法，主要思想是通过组合多个二分类器来实现多分类器的构造。

106：使用该分类器对测试样本进行识别，得到人体行为的识别结果。

本实施例中，可选的，所述对该多个时空训练样本提取三维时空直方图特征，可以包括：

对该多个时空训练样本中的每一个时空训练样本执行以下操作：

在该时空训练样本上采样多个兴趣点并确定每个兴趣点的特征描述符，根据该特征描述符保留具有空间特征描述性的兴趣点，由保留的兴趣点的特征描述符组成该时空训练样本的时空特征矩阵；

使用聚类算法将该时空特征矩阵聚成K个聚类；

对该时空特征矩阵中的每个特征描述符所属聚类进行标记后做直方图，得到该时空训练样本的三维时空直方图特征。

本实施例中，可选的，所述确定每个兴趣点的特征描述符，可以包括：

对该时空训练样本上的每一个兴趣点执行以下操作：

以该兴趣点为中心抽取指定边长的立方体，将该立方体划分为多个子立方体，且每个子立方体划分为多个单位立方体，其中，一个单位立方体代表一个像素点；

由该多个子立方体的梯度直方图组成该兴趣点的特征描述符。

本实施例中，可选的，所述根据该特征描述符保留具有空间特征描述性的兴趣点，包括：

对该时空训练样本上的每一个兴趣点执行以下操作：

以该兴趣点为中心抽取指定边长的立方体，该立方体包括多个像素点；

采用柏拉图立体统计该立方体的梯度方向，得到该立方体的梯度直方图；

在该梯度直方图中按照峰值从高到低取前三个峰值，分别对应该兴趣点至柏拉图立体相应面中心点的三个向量：第一向量、第二向量和第三向量；

判断该第一向量和第二向量之间的夹角以及该第一向量和第三向量之间的夹角是否均小于指定值，如果是，则去除该兴趣点，否则，保留该兴趣点。

本实施例中，可选的，所述对该多个时空训练样本提取二维轮廓特征，可以包括：

对该时空训练样本中的每帧图像，使用图像显著性检测方法提取出人体轮廓图，并在该人体轮廓图上提取二维轮廓特征；

根据提取的每帧图像的二维轮廓特征计算得到该时空训练样本的二维轮廓特征。

本实施例提供的上述方法，通过获取人体行为的多个时空训练样本，并提取三维时空直方图特征和二维轮廓特征，且组合成混合特征，用混合特征输入SVM进行训练得到分类器，对测试样本进行识别，得到人体行为的识别结果，由于结合了三维时空直方图特征和二维轮廓特征来描述人体行为，实现了较为理想的识别结果，不易受噪声的干扰，提高了识别率。

参见图4，本发明另一实施例提供了一种人体行为识别的方法，包括：

201：获取人体行为的多个时空训练样本，每个时空训练样本包括人体行为的一段连续的多帧图像。

本实施例中，可以针对每种待识别的人体行为，获取N个时空训练样本。其中，待识别的人体行为可以有多种，包括但不限于：走、跑、慢跑、拳击、跳、挥手、拍手、蹲、跺脚等等，本实施例对此不做具体限定。

本实施例中，可以从KTH行为数据库提取时空训练样本。该KTH数据库是由25个不同性别、不同体型的人，分别进行6种行为walking、boxing、handwaving、handclapping、jogging和running，并且每个人每种行为分别在四种场景：户外、户外镜头变焦、户外不同着装和室内下依次采集。

例如，参见图5，为KTH行为数据库中六种人体行为的示意图。其中，图5a-f依次对应的人体行为是：走、拳击、挥手、拍手、慢跑和跑。

如果有M种待识别的人体行为，且每种人体行为获取N个时空训练样本，则总共可以得到T＝M*N个时空训练样本。本实施例对M和N的具体数值不限定。

202：对该多个时空训练样本中的每一个时空训练样本执行以下操作：获取该时空训练样本的时空特征矩阵。

其中，获取该时空训练样本的时空特征矩阵，可以包括以下步骤：

在该时空训练样本上采样多个兴趣点并确定每个兴趣点的特征描述符，根据该特征描述符保留具有空间特征描述性的兴趣点，由保留的兴趣点的特征描述符组成该时空训练样本的时空特征矩阵。

上述步骤中，所述确定每个兴趣点的特征描述符，可以包括：

对该时空训练样本上的每一个兴趣点执行以下操作：

以该兴趣点为中心抽取指定边长的立方体，将该立方体划分为多个子立方体，且每个子立方体划分为多个单位立方体，其中，一个单位立方体代表一个像素点；采用柏拉图立体统计每个子立方体的梯度方向，得到每个子立方体的梯度直方图；由该多个子立方体的梯度直方图组成该兴趣点的特征描述符。

上述步骤中，所述根据该特征描述符保留具有空间特征描述性的兴趣点，可以包括：

对该时空训练样本上的每一个兴趣点执行以下操作：

以该兴趣点为中心抽取指定边长的立方体，该立方体包括多个像素点；采用柏拉图立体统计该立方体的梯度方向，得到该立方体的梯度直方图；在该梯度直方图中按照峰值从高到低取前三个峰值，分别对应该兴趣点至柏拉图立体相应面中心点的三个向量：第一向量、第二向量和第三向量；判断该第一向量和第二向量之间的夹角以及该第一向量和第三向量之间的夹角是否均小于指定值，如果是，则去除该兴趣点，否则，保留该兴趣点。

203：使用聚类算法将该时空特征矩阵聚成K个聚类。

其中，聚类算法是研究分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类算法包括多种，如划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)、K-MEANS算法等等。本实施例可以采用任一种聚类算法对时空特征矩阵进行聚类，此处不限定。优选地，可以采用K-MEANS算法。

204：对该时空特征矩阵中的每个特征描述符所属聚类进行标记后做直方图，得到该时空训练样本的三维时空直方图特征。

经过上述步骤202-204，可以得到每一个时空训练样本的三维时空直方图特征。

例如，参见图6，为提取三维时空直方图特征的流程示意图。其中，在输入视频数据后，获取各种人体行为的多个时空训练样本，并提取出每个时空训练样本的时空特征矩阵。对各个时空训练样本的时空特征矩阵进行聚类，然后，对每一个时空特征矩阵中各个特征描述符所属聚类进行标记，得到三维时空直方图特征。

205：对该多个时空训练样本中的每一个时空训练样本执行以下操作：对该时空训练样本中的每帧图像，使用图像显著性检测方法提取出人体轮廓图，并在该人体轮廓图上提取二维轮廓特征，根据提取的每帧图像的二维轮廓特征计算得到该时空训练样本的二维轮廓特征。

经过本步骤，可以得到每一个时空训练样本的二维轮廓特征。

其中，图像显著性检测(saliency measure)也是计算机视觉的研究内容，它将人类视觉对重要区域注意的生物学理论(模拟生物视觉注意的机制)引用到图像处理中，筛选出图像中有意义的或重要的信息。其思想是，首先提取图像中颜色、亮度、方向、纹理、边缘等各种特征，然后计算图像像素点在这些特征中由于差异所造成的显著性，最后把得到的显著性归一化后显示出一幅显著性图。

本实施例中，对于每一个时空训练样本中的每一帧图像，都可以采用图像显著性检测方法来提取出人体轮廓图，具体地，可以包括以下步骤：

采用显著性检测算法求出当前图像内每个像素点的显著性值；

对每个像素点的显著性值进行归一化处理，处理后的值在0至1之间；

将当前图像中每个像素点的显著性值与预先设定的阈值作比较，如果显著性值大于或等于该阈值，则将该像素点的值置为1，如果显著性值小于阈值，则将该像素点的值置为0，由此得到当前图像的前景图；

对得到的前景图采用膨胀与腐蚀算法进行形态学处理，以使前景图的边缘更圆滑；

采用边缘检测算法处理经形态学处理后的前景图，得到人体轮廓图。

其中，所述阈值的大小可以根据需要设定，具体数值不限定。边缘检测算法有多种，如可以采用sobel边缘检测算法等，此处不限定。

当然，除了显著性检测方法外，还可以采用其他方式来提取人体轮廓图，如帧差法或背景减法等等，本实施例对此不做具体限定。

参见图7，为本发明另一实施例提供的提取人体轮廓图的过程和结果比较示意图。其中，图7a为一帧图像，为人体在户外的挥手运动。经过上述显著性处理后得到如图7b所示的前景图。经过形态学处理和边缘检测处理后，得到如图7c所示的人体轮廓图。图7d为使用背景减法得到的前景图，与图7b使用显著性检测法得到的前景图相比，图7b中前景图的效果更好。

206：将该三维时空直方图特征和该二维轮廓特征组合成混合特征。

207：用该混合特征输入支持向量机SVM进行训练得到分类器。

208：使用该分类器对测试样本进行识别，得到人体行为的识别结果。

本实施例提供的上述方法，通过获取人体行为的多个时空训练样本，并提取三维时空直方图特征和二维轮廓特征，且组合成混合特征，用混合特征输入SVM进行训练得到分类器，对测试样本进行识别，得到人体行为的识别结果，考虑到时空中蕴含着丰富的能够描述行为关键位置的信息，因此将三维时空直方图特征和二维轮廓特征两者结合，能够实现更为丰富和完整的描述人体行为，达到了较为理想的识别结果。并通过K-means提取时空直方图特征，最后结合SVM算法实现了不易受噪声的干扰，提高了识别率。

参见图8，本发明另一实施例提供了一种人体行为识别的方法，包括：

301：获取人体行为的多个时空训练样本，每个时空训练样本包括人体行为的一段连续的多帧图像。

302：对该多个时空训练样本中的每一个时空训练样本执行以下步骤303-306，获取该时空训练样本的时空特征矩阵。

303：在当前的时空训练样本上采样多个兴趣点，这里该时空训练样本为所述多个时空训练样本中的任一个时空训练样本。

其中，可以利用Sample函数对每个时空训练样本进行随机采样，得到多个兴趣点，本实施例对采样得到的兴趣点的个数不做具体限定，如5个、10个、20个等等。

304：对该时空训练样本上的每一个兴趣点执行以下操作，得到兴趣点的特征描述符：

其中，所述指定边长可以根据需要设定，具体数值不限定。立方体内包含的子立方体的个数，以及子立方体内包含单位立方体的个数，本实施例均不限定。所述柏拉图立体有多种，如正四面体、正八面体、正十二面体、正二十面体等等，本实施例可以采用其中的任意一种，此处不限定。通常，柏拉图立体的面数越多，统计的结果越精确。因此，优选地，可以采用柏拉图立体中的正二十面体。进一步地，还可以对柏拉图立体进行细化，以得到更多面的立体，从而提高精度。其中，细化的方式不限定，如将一个面划分为等分的四个面等等。由于柏拉图立体具有每个面的面积都相等的特点，在作直方图统计时，每个柱代表的时空区域大小可以保持一致，因此，基于柏拉图立体来统计子立方体的梯度方向更准确，效果较好。

例如，获取包括多帧连续图像的时空训练样本，并在每一个时空训练样本上采样多个兴趣点。对于其中任意一个兴趣点，执行以下操作：以该兴趣点为中心，抽取边长为8像素大小的立方体；将该立方体划分为固定的8个子立方体，且每个子立方体中包含有64个单位立方体，每个单位立方体代表该兴趣点所在空间内的一个像素。参见图9，为兴趣点对应的立方体的示意图。左边是一个时空训练样本，包括连续的多帧图像，右边是以某个兴趣的为中心抽取的边长为8像素的立方体，其中，该立方体划分为8个子立方体，每个子立方体有64个单元立方体。

本实施例中，每个子立方体的梯度直方图的维数，就是柏拉图立体或者细化后的柏拉图立体的面的个数。直方图中统计的值为子立方体内所有单位立方体的梯度方向穿过各个面的累加值。

例如，采用柏拉图立体的正二十面体作为初始的立体，它由20个正三角形面组成，所有正三角形的大小均相同。然后，对该正二十面体进行细化，将其中每个正三角形面分成四个大小相等的正三角形面，得到八十面体。采用该八十面体对子立方体的梯度方向进行直方图统计。

参见图10，为对柏拉图立体进行细化的示意图。图10a为柏拉图立体中的正二十面体，按照图10b所示的方式进行细化，对于任一个正三角形面(A,B,C)，将其划分为三个大小相等的正三角形(A,a,c)，(B,b,a)，(C,c,b)和(a,b,c)。因此，在对每一个正三角形面进行划分后，可以得到一个正八十面体，共有20×4＝80个面，近似于一个多面球体，如图10c所示。

参见图11，为统计子立方体的梯度方向的示意图。其中，左侧为一个兴趣点划分后得到8个子立方体，每个子立方体包括64个单位立方体。将该8个子立方体中的任一个子立方体放入已得到的正八十面体中，计算其中64个单位立方体的梯度方向。对于任一个单位立方体来说，其梯度方向肯定会穿过正八十面体的80个面中的某一个面。对该80个面中的64个单位立方体作直方图统计，对于其中的每一个面，如果有一个单位立方体的梯度方向穿过该面，则对该面累加1。对一个子立方体统计完成后，可以得到一个维数为80的直方图。在对该8个子立方体统计完成后，可以得到8×80＝640维的直方图，将该640维的直方图作为该兴趣点的特征描述符。

305：根据各个兴趣点的特征描述符，在所有兴趣点中保留具有空间特征描述性的兴趣点。

其中，空间特征描述性是指一个兴趣点的特征区分性。当一个兴趣点的特征区分性大时，该兴趣点提供的特征价值较大，具有保留的价值，可以将该兴趣点保留，进行特征提取；当一个兴趣点的特征区分性小时，该兴趣点提供的特征价值较小，不具有保留的价值，可以将该兴趣点去除，不予考虑。

本步骤可以具体包括以下步骤：

对该时空训练样本上的每一个兴趣点执行以下操作：

其中，所述指定边长可以根据需要设定，具体数值不限定，一般可以设置比304步骤中确定兴趣点的特征描述符时所取的指定边长小即可。例如，在确定兴趣点的特征描述符时，取指定边长为8像素大小，则此处可以取指定边长为4像素大小等等。本步骤中计算立方体的梯度直方图的方法，与上面步骤中计算立方体的梯度直方图的方法相同，此处不赘述。

参见图12，为确定兴趣点空间特征描述性时抽取立方体的示意图。其中，左图为多个连续帧图像组成的一个时空训练样本。中图为在该时空训练样本上取的一个兴趣点对应一个立方体，且在该兴趣点中抽取一个子立方体，如图中虚线所示，其边长为该立方体的一半。该子立方体可以划分为多个单位立方体，每个单位立方体为一个像素。如右图所示为包括多个单位立方体的子立方体。对该子立方体作梯度直方图统计，直方图的维数是80。

本实施例中，根据梯度直方图中的峰值确定兴趣点是否保留的过程，可以具体如下：

在上述得到的子立方体的梯度直方图中按照峰值从高到低取前三个峰值，对应正八十面体的三个面，其中每一个面都有一个中心点，由兴趣点至该每一个面的中心点可以得到一个向量。因此，所述三个峰值分别对应该兴趣点至正八十面体相应面中心点的三个向量：第一向量a、第二向量b和第三向量c。判断第一向量a和第二向量b之间的夹角θ₁以及该第一向量a和第三向量c之间的夹角θ₂是否均小于指定值，如果是，则去除该兴趣点，否则，保留该兴趣点。

具体地，可以采用以下方式来判断：

计算第一向量a与第二向量b的内积，以及第一向量a与第三向量c的内积，公式如下：

a·b＝|a||b|cosθ₁ (2)

a·c＝|a||c|cosθ₂ (3)

上述公式(2)为第一向量a与第二向量b的内积，公式(3)为第一向量a与第三向量c的内积。|a|为第一向量的范数，|b|为第二向量的范数，|c|为第三向量的范数。

由上述两个公式可以得到如下表达式：

\cos θ_{1} = \frac{a \cdot b}{| a | | b |}, θ_{1} &Element; (0, π) - - - (4)

\cos θ_{2} = \frac{a \cdot c}{| a | | c |}, θ_{2} &Element; (0, π) - - - (5)

可以将上述两个余弦值与预先设定的阈值T_h作比较，当cosθ₁与cosθ₂同时大于该阈值T_h时，表明θ₁、θ₂角度越小，这种情况下，说明大多数像素点的梯度方向都穿过空间中同一小块区域，该兴趣点的特征区分性很小，提供的特征价值不大，所以将该兴趣点去除。当cosθ₁与cosθ₂同时小于或等于该阈值T_h时，情况正好与上面相反，因此，可以保留该兴趣点。

306：由保留的兴趣点的特征描述符组成该时空训练样本的时空特征矩阵。

经过上述处理后，有的兴趣点被去除，有的兴趣点被保留，对于保留的所有兴趣点，将其特征描述符组成时空特征矩阵。其中，保留的兴趣点的个数小于或者等于采样的兴趣点的总数。

以上述640维为例，则每个时空训练样本的时空特征矩阵可以表示为：X∈R^m×640，其中，m为保留的兴趣点的个数。

307：使用聚类算法将该时空特征矩阵聚成K个聚类，对该时空特征矩阵中的每个特征描述符所属聚类进行标记后做直方图，得到该时空训练样本的三维时空直方图特征。

经过上述步骤302-307，可以得到每一个时空训练样本的三维时空直方图特征。

例如，有M种待识别的人体行为，其中每种人体行为提取N个时空训练样本，由此可以得到T＝M×N个时空特征矩阵，其中每个时空特征矩阵X_j的向量形式可以表示如下：

X_{j} = [\begin{matrix} x_{1} \\ x_{2} \\ . . . \\ x_{m} \end{matrix}] - - - (6)

式中为时空特征矩阵，共有T个，其中m为每个时空训练样本上保留的兴趣点的个数，n为时空特征矩阵的维数。

使用K-means算法将上述T个时空特征矩阵聚成K个聚类，并求出聚类中心。其中，K-means算法的输入样本可以表示如下：

{x_{1}^{(1)}, x_{2}^{(1)}, . . ., x_{m}^{(1)}, x_{1}^{(2)}, x_{2}^{(2)}, . . ., x_{m}^{(2)}, . . . . . ., x_{1}^{(MN)}, x_{2}^{(MN)}, . . ., x_{m}^{(MN)}} - - - (7)

式中，i∈(1,m),j∈(1,MN)是一个时空特征描述符，作为一个K-means样本。

在K-means算法中，随机选取K个初始聚类中心，然后进行相关迭代运算，得到K个聚类中心，记为z₁,z₂,...,z_k。

将上述时空特征矩阵中的每个时空特征描述符按上述的聚类中心进行聚类，并对进行类别标记，例如，属于第一类的标记为1，属于第二类的标记为2，属于第三类的标记为3，以此类推。最终可以得到时空特征矩阵的聚类标记向量对C_j做直方图，最后得到三维时空直方图特征

308：对该多个时空训练样本中的每一个时空训练样本执行以下操作：对该时空训练样本中的每帧图像，使用图像显著性检测方法提取出人体轮廓图，并在该人体轮廓图上提取二维轮廓特征，根据提取的每帧图像的二维轮廓特征计算得到该时空训练样本的二维轮廓特征。

本实施例中，提取的二维轮廓特征可以为一个，优选地，为多个。下面具体举例说明。

对于每个时空训练样本都可以提取如下四个二维轮廓特征：

1)提取当前的时空训练样本的每帧图像中人体轮廓的最小外接矩形的高(H)与宽(W)之比，最后求出该时空训练样本中连续F帧图像的高宽比平均值：

α = \frac{1}{F} Σ_{i = 1}^{F} H / W - - - (8)

参见图13，为人体轮廓的最小外接矩形高与宽的示意图。W为人体轮廓的最小外接矩形的宽，H为人体轮廓的最小外接矩形的高。

2)计算运动人体的姿态变化率，即前一帧图像的高宽比平均值α_τ-1与当前帧的高宽比平均值α_τ之比，其中τ表示当前帧，最后求出该时空训练样本中连续F帧图像的姿态变化率平均值：

β = \frac{1}{F} Σ_{i = 1}^{F} α_{τ - 1} / α_{t} - - - (9)

3)提取该时空训练样本中每帧图像的人体轮廓中心点(x,y)，然后求出连续F帧图像的x与y的坐标值和的平均值：

γ = \frac{1}{F} Σ_{i = 1}^{F} (x + y) - - - (10)

4)计算该时空训练样本的每帧图像中人体轮廓点到人体轮廓中心点的平均距离S，最后求出该时空训练样本的F帧图像的平均距离的平均值：

δ = \frac{1}{F} Σ_{i = 1}^{F} S - - - (11)

通过上述过程，一个时空训练样本可得到4种二维轮廓特征。值得一提的是，二维轮廓特征的个数可以不是4个，采用其它的个数，此处不限定。

309：将该三维时空直方图特征和该二维轮廓特征组合成混合特征，用该混合特征输入支持向量机SVM进行训练得到分类器。

如果将上述提取的四个二维轮廓特征表示为π_j＝[α,β,γ,δ]^T，则把这些二维轮廓特征与上述三维时空直方图特征y_j串接起来，可以得到混合特征q_j，表示如下：

q_{j} = {[y_{j}^{T}, π_{j}^{T}]}^{T} - - - (12)

其中二维轮廓特征与三维时空直方图特征的串接顺序也不限定，哪个特征在先都可以。

在训练SVM时，可以将T个时空训练样本的混合特征q_j作为SVM训练的输入特征矩阵，对SVM进行训练，该输入特征矩阵可以表示如下：

参见图14，为SVM的输入特征矩阵示意图。左边M×N表示三维时空直方图特征，右边四列表示二维轮廓特征，二者串接后得到混合特征。

310：使用该分类器对测试样本进行识别，得到人体行为的识别结果。

其中，使用该分类器对测试样本进行识别包括以下过程：

首先与时空训练样本的上述处理过程类似，同样对测试样本提取三维时空直方图特征和二维轮廓特征，以及组成得到混合特征等步骤，其中区别仅在于对测试样本提取三维时空直方图特征的步骤不同。该步骤具体如下：对测试样本提取出时空特征矩阵，并分别求出该时空特征矩阵到上述K个聚类中心的欧式距离，选取最小的欧式距离所对应的聚类，作为该测试样本所属的聚类，对该时空特征矩阵中每个特征描述符所属聚类进行标记后做直方图，得到该测试样本的三维时空直方图特征。然后将得到的测试样本的混合特征输入到该分类器进行识别，最后得到识别结果，并对识别结果进行验证，从而确定识别准确率。

另外，值得一提的是，上述方法中不同参数值的选取也会对人体识别的准确率有影响。例如，参见图15，参数对平均识别准确率的影响示意图。其中，涉及的参数包括：聚类的个数K和时空训练样本的总数N。两条曲线分别对应N＝1800和N＝1200。从图中可以看出：当K-means聚类个数K低于50时，识别效果很差，而且此时增加时空训练样本总数N也无法提高识别率；而随着聚类个数K和时空训练样本总数N的增加，平均识别准确率显著提高，当K＝100时，平均识别准确率能达到90％左右；但是，当聚类个数K和时空训练样本总数N达到一定值时，识别率曲线趋于平缓，此时很难再提高准确率，而且当K与N的值过高时，将会大大增加算法的时间成本，因此，可以根据需要在耗费时间与追求准确率之间寻找适合的平衡点。

再有，为了验证本实施例提供的上述方法对人体行为的识别效果，本实施例还采用以下数据进行了实验。其中，采用每隔10帧提取连续的300帧作为一个时空训练样本，提取每个视频数据中的时空训练样本，得到的时空特征矩阵的维数为：m＝50，n＝640。待识别的人体行为个数为M＝6，分别人工标记为：走(1)、拳击(2)、挥手(3)、拍手(4)、慢跑(5)、跑(6)。每种人体行为提取时空训练样本数为N＝300，采用K-means聚类得到聚类数K＝150。采用每种人体行为的测试样本数为100，6种人体行为的测试样本数总计为600个。采用上述方法进行测试后，得到的上述六种人体行为的测试结果准确率分别为：94％、100％、100％、98％、90％和90％。可以看出，这六种人体行为的识别准确率均在90％以上，表明本发明的算法效果显著。

参见图16，本发明另一实施例还提供了一种人体行为识别的装置，包括：

获取模块401，用于获取人体行为的多个时空训练样本，每个时空训练样本包括人体行为的一段连续的多帧图像；

三维特征提取模块402，用于对该多个时空训练样本提取三维时空直方图特征；

二维特征提取模块403，用于对该多个时空训练样本提取二维轮廓特征；

混合模块404，用于将该三维时空直方图特征和该二维轮廓特征组合成混合特征；

训练模块405，用于用该混合特征输入支持向量机SVM进行训练得到分类器；

识别模块406，用于使用该分类器对测试样本进行识别，得到人体行为的识别结果。

本实施例中，可选的，该三维特征提取模块402可以包括：循环单元、矩阵获取单元、聚类单元和直方图单元；

该循环单元，用于触发该矩阵获取单元、聚类单元和直方图单元，对该多个时空训练样本中的每一个时空训练样本执行相同的操作，得到每一个时空训练样本的三维时空直方图特征；

该矩阵获取单元，用于在该时空训练样本上采样多个兴趣点并确定每个兴趣点的特征描述符，根据该特征描述符保留具有空间特征描述性的兴趣点，由保留的兴趣点的特征描述符组成该时空训练样本的时空特征矩阵；

该聚类单元，用于使用聚类算法将该时空特征矩阵聚成K个聚类；

该直方图单元，用于对该时空特征矩阵中的每个特征描述符所属聚类进行标记后做直方图，得到该时空训练样本的三维时空直方图特征。

本实施例中，可选的，该矩阵获取单元可以包括：

特征描述符确定子单元，用于对该时空训练样本上的每一个兴趣点执行以下操作：以该兴趣点为中心抽取指定边长的立方体，将该立方体划分为多个子立方体，且每个子立方体划分为多个单位立方体，其中，一个单位立方体代表一个像素点；采用柏拉图立体统计每个子立方体的梯度方向，得到每个子立方体的梯度直方图；由该多个子立方体的梯度直方图组成该兴趣点的特征描述符。

本实施例中，可选的，该矩阵获取单元可以包括：

兴趣点过滤子单元，用于对该时空训练样本上的每一个兴趣点执行以下操作：以该兴趣点为中心抽取指定边长的立方体，该立方体包括多个像素点；采用柏拉图立体统计该立方体的梯度方向，得到该立方体的梯度直方图；在该梯度直方图中按照峰值从高到低取前三个峰值，分别对应该兴趣点至柏拉图立体相应面中心点的三个向量：第一向量、第二向量和第三向量；判断该第一向量和第二向量之间的夹角以及该第一向量和第三向量之间的夹角是否均小于指定值，如果是，则去除该兴趣点，否则，保留该兴趣点。

本实施例中，可选的，该二维特征提取模块403可以包括：

二维特征提取单元，用于对该多个时空训练样本中的每一个时空训练样本执行以下操作：对该时空训练样本中的每帧图像，使用图像显著性检测方法提取出人体轮廓图，并在该人体轮廓图上提取二维轮廓特征；根据提取的每帧图像的二维轮廓特征计算得到该时空训练样本的二维轮廓特征。

本实施例提供的上述装置可以执行上述任一方法实施例中提供的方法，详细过程见方法实施例中的描述，此处不赘述。

本实施例提供的上述装置，通过获取人体行为的多个时空训练样本，并提取三维时空直方图特征和二维轮廓特征，且组合成混合特征，用混合特征输入SVM进行训练得到分类器，对测试样本进行识别，得到人体行为的识别结果，由于结合了三维时空直方图特征和二维轮廓特征来描述人体行为，实现了较为理想的识别结果，不易受噪声的干扰，提高了识别率。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人体行为识别的方法，其特征在于，所述方法包括：

对所述多个时空训练样本提取三维时空直方图特征；

对所述多个时空训练样本提取二维轮廓特征；

用所述混合特征输入支持向量机SVM进行训练得到分类器；

2.根据权利要求1所述的方法，其特征在于，所述对所述多个时空训练样本提取三维时空直方图特征，包括：

使用聚类算法将所述时空特征矩阵聚成K个聚类；

3.根据权利要求2所述的方法，其特征在于，所述确定每个兴趣点的特征描述符，包括：

对所述时空训练样本上的每一个兴趣点执行以下操作：

4.根据权利要求3所述的方法，其特征在于，所述根据所述特征描述符保留具有空间特征描述性的兴趣点，包括：

对所述时空训练样本上的每一个兴趣点执行以下操作：

5.根据权利要求1所述的方法，其特征在于，所述对所述多个时空训练样本提取二维轮廓特征，包括：

6.一种人体行为识别的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述三维特征提取模块包括：循环单元、矩阵获取单元、聚类单元和直方图单元；

8.根据权利要求7所述的装置，其特征在于，所述矩阵获取单元包括：

9.根据权利要求8所述的装置，其特征在于，所述矩阵获取单元包括：

10.根据权利要求6所述的装置，其特征在于，所述二维特征提取模块包括：