CN101894276A

CN101894276A - 人体动作识别的训练方法和识别方法

Info

Publication number: CN101894276A
Application number: CN2010101958024A
Authority: CN
Inventors: 秦磊; 胡琼; 黄庆明; 蒋树强
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2010-06-01
Filing date: 2010-06-01
Publication date: 2010-11-24
Anticipated expiration: 2030-06-01
Also published as: CN101894276B

Abstract

本发明提供一种人体动作识别的训练方法，包括：从视频文件中提取时空兴趣点；将所有时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上，并为视频单词生成统计直方图；根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时空邻域内的其它视频单词，由该视频单词与某一满足时空约束的其它视频单词形成时空视频词组；对视频单词所在时空邻域内的时空上下文做聚类，得到语境单词，由视频单词与语境单词形成时空视频单词团体；从时空视频词组中选择代表性时空视频词组，从时空视频单词团体中选择代表性时空视频单词团体；利用视频单词、代表性时空视频词组、代表性时空视频单词团体中的一种特征或将多种特征融合后的结果训练分类器。

Description

人体动作识别的训练方法和识别方法

技术领域

本发明涉及视频分析领域，特别涉及人体动作识别的训练方法和识别方法。

背景技术

近年来，随着影视、网络等媒体的迅速普及和发展，视频已经成为承载信息的主要工具，且视频数据的数目呈爆炸式增长，每时每刻都会有大量新的内容产生。面对海量涌现的视频数据，如何去自动获取、分析其中包含的信息，理解其中发生的动作、行为或是事件成了一个亟待解决的问题。

大多数视频记录的是作为社会活动主体的人的活动，如何使计算机能够“看”视频或“理解”视频中人的动作，成为了计算机视觉、图像处理、模式识别、机器学习、人工智能等多个学科共同关注的问题，具有深远的理论研究意义和很强的实用价值，对人机交互、虚拟现实和基于内容的视频检索、压缩编码等方面都有重要意义。另一方面，一个标准的视频监控系统通常有几十路甚至上千路视频及相应的数字录像数据，如果仅通过人工方式，由操作人员通过观测每一路视频从而发现报警事件很不现实，且这种事后分析的方法，需要消耗操作人员大量的时间来找出相应片段。解决以上问题的一个有效方法是对视频中人的动作和行为进行自动识别，提取和记录用户感兴趣的动作事件，从而达到及时报警和有效检索视频数据的目的。

基于视频的人体动作识别就是通过计算机来对视频数据进行处理和分析，学习理解其中人的动作和行为，在运动检测、特征提取的基础之上，通过分析获得人体运动模式，在视频内容和动作类型描述之间建立映射关系。在现有技术中，对视频中人体动作识别的相关方法依据人体动作建模方法的不同，大体上可以分为三类：非参数方法、参数化时间序列方法以及立方体(Volumetric)分析方法。非参数方法通常以单帧图像为单位从视频中提取特征，然后将这些特征与存储的动作模板(template)进行匹配；参数化时间序列的方法对运动的动态过程用一个特定模型来拟合，如：隐马尔可夫模型(HMMS，hidden Markov Models)，线性动态系统(LDSs，Linear DynamicalSystems)等，通过对训练样本数据的学习来获得每类动作特定的模型参数；而立方体分析方法不再将视频视为一帧一帧图像组成的时序序列，而是作为一个三维的时空立方体来处理。

现有的立方体分析方法中，研究者开始把视频时空体看作是一些局部部分的集合，而其中的每个局部部分可以包含不同的动作类型，因而对动作的描述更加灵活而有效。目前较有影响力也被广泛采用的是由Neibels在2006年BMVC上发表的论文“J.C.Niebles，H.Wang，and L.Fei-Fei，“UnsupervisedLearning of Human Action Categories Using Spatial-Temporal Words”，In Proc.British Machine Vision Conference(BMVC)，2006”(参考文献1)中所提出的Bag-of-Words(BoWs)模型，该模型将人的动作表示成通过训练数据预先生成的码本中独立码字的集合，然后通过对这些码字的识别来实现对人体动作的识别。此方法的缺点在于，视频中包含的时间信息在图像处理的过程中丢失，因此无法利用时间信息辅助实现对人体动作的识别。

很多研究表明，在图像表示技术的基础之上，时间信息可以集成到兴趣点的检测器和描述子中，进而扩展到对视频中的兴趣点进行定位和描述。Laptev和Lindeberg在参考文献2“I.Laptev，“On space-time interest points”，International Journal of Computer Vision(IJCV)，vol.64，no.2 or 3，pp.107-123，2005”中提出一种三维兴趣点检测器，通过对Harris角点检测器增加一些时间约束从而达到在时空维度中检测局部结构的目的，用这种方法检测到的兴趣点在时间维度和空间维度上都有很大的变化。在这项研究的基础上，Scovanner在参考文献3“P.Scovanner，S.Ali，and M.Shah，“A3-dimensional sift descriptor and its application to action recognition”，ACMMultimedia，pp.357-360，2007”中做了进一步扩展，他通过利用sub-histogram来对局部的时间和空间信息进行编码，构造出三维的SIFT描述子。这种检测兴趣点的方法存在的问题是，有时候检测到的点很少，而不足以捕获人体动作的全部特征，进而导致识别性能的下降。Dollar则在参考文献4“P.Dollar，V.Rabaud，G.Cottrell，and S.Belongie，“Behavior recognitionvia sparse spatio-temporal features”，International Workshop on VisualSurveillance and Performance Evaluation of Tracking and Surveillance(VS-PETS)，pp.65-72，2005”中采用可分离的线性滤波的方法来取代这种时空域兴趣点检测的方法，在空域采用二维的高斯滤波，在时域上采用两个正交的一维Gabor滤波器来检测运动特征。由于这些特征是基于线性操作产生的，如：滤波及时空梯度等，因此这些描述子对外观的改变，噪声以及遮挡等很敏感，而由于它们的局部特性，对非平稳背景比较鲁棒。

上述描述子可以和机器学习算法(如SVM及图模型等)相结合，用于人体动作的检测和识别。Schuldt在参考文献5“C.Schuldt，I.Laptev，and B.Caputo，“Recognizing human actions：a local svm approach”，In InternationalConference on Pattern Recognition(CVPR)，2004”中采用前述参考文献2中的局部描述子，结合SVM对拳击、拍手、挥手、走、跑和慢跑等六类动作进行识别并取得了较好的结果。但这些早期的研究还只是局限于受限场景下的人体动作识别，比如特定的视角、动作人、背景和光照，在自然场景下，取消上述种种限制的情况下，该方法的性能急剧下降甚至不再适用。

发明内容

本发明的目的是克服现有的人体动作识别方法受到自然环境限制的缺陷，从而提供一种人体动作识别的训练方法和识别方法。

为了实现上述目的，本发明提供了一种人体动作识别的训练方法，包括：

步骤1)、从视频文件中提取时空兴趣点；

步骤2)、将步骤1)得到的所有时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上，并为所述视频单词生成统计直方图；所述视频单词为所有时空兴趣点的特征描述子所构成的集合中，子集聚类后的结果；

步骤3)、根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时空邻域内的其它视频单词，由该视频单词与某一满足时空约束的其它视频单词形成时空视频词组；

步骤4)、对视频单词所在时空邻域内的时空上下文做聚类，得到语境单词，由所述视频单词与所述语境单词形成时空视频单词团体；

步骤5)、从所述时空视频词组中选择代表性时空视频词组，从所述时空视频单词团体中选择代表性时空视频单词团体；

步骤6)、利用所述视频单词、代表性时空视频词组、代表性时空视频单词团体中的一种特征或将多种特征融合后的结果训练分类器。

上述技术方案中，所述的步骤2)包括：

步骤2-1)、从所有时空兴趣点的特征描述子构成的集合中通过随机抽样得到子集；

步骤2-2)、将所述子集聚类到K个视频单词，所述K个视频单词形成一视频单词词典，所述视频单词词典中的各个视频单词分别用相应的标号表示；

步骤2-3)、所述时空兴趣点通过距离度量找到所述视频单词词典中与该时空兴趣点距离最近的视频单词，并将该视频单词的标号赋给相应的时空兴趣点；

步骤2-4)、为所述时空兴趣点生成统计直方图，所述统计直方图的横坐标表示视频单词的类型，纵坐标表示视频单词出现的次数。

上述技术方案中，所述的步骤3)包括：

步骤3-1)、由时空兴趣点提取过程中的局部时空立方体找到相应的时空邻域；

步骤3-2)、由所述时空邻域内的视频单词的分布直方图得到时空上下文信息；

步骤3-3)、将所述视频单词与其时空上下文内的任一其它视频单词形成时空视频词组。

上述技术方案中，所述的步骤4)包括：

步骤4-1)、将视频单词周围的邻域立方体内计算的视频单词的分布直方图视为该视频单词的时空上下文；

步骤4-2)、将所述的代表时空上下文的分布直方图做进一步的聚类，得到语境单词；

步骤4-3)、将所述的视频单词与其周围的语境单词构成时空视频单词团体。

上述技术方案中，所述的步骤5)包括：

步骤5-1)、计算所述时空视频词组中两个视频单词的共生频率，或所述时空视频单词团体中视频单词和语境单词的共生频率；

步骤5-2)、将步骤5-1)中所得到的共生频率做归一化操作；

步骤5-3)、将包含某一动作类型的所有视频文件的归一化后的共生频率求平均值，得到时空视频词组或时空视频单词团体的类内的共生频率；

步骤5-4)、由每个时空视频词组或时空视频单词团体的类内的共生频率计算所有类之间的共生频率；

步骤5-5)、由步骤5-3)所得到的类内的共生频率与步骤5-4)所得到的所有类之间的共生频率按照TF-IDF准则计算每个时空视频词组或时空视频单词团体的分值，按照所述分值的高低排序得到所述的代表性时空视频词组或代表性时空视频单词团体。

上述技术方案中，所述的步骤6)包括：

步骤6-1-1)、从所述视频单词、代表性时空视频词组、代表性时空视频单词团体所形成的特征集合中选择一种特征或多种特征，若所选择的特征有多种，将多种特征组合形成特征向量；

步骤6-1-2)、利用所选择的一种特征或多种特征组合得到的特征向量训练分类器。

上述技术方案中，所述的步骤6)包括：

步骤6-2-1)、从所述视频单词、代表性时空视频词组、代表性时空视频单词团体所形成的特征集合中选择一种特征或多种特征，将所选择特征中简化为相应的语义概念得分；

步骤6-2-2)、集成所述语义概念得分，利用集成后的语义概念得分训练分类器。

本发明还提供了一种人体动作识别方法，包括：

步骤1)、从视频文件中提取时空兴趣点；

步骤6)、将所述视频单词、代表性时空视频词组、代表性时空视频单词团体所组成集合中的一种特征或将多种特征融合后的结果送入所述的人体动作识别的训练方法所得到的分类器中，实现对视频文件中人体动作的识别。

本发明的优点在于：

本发明通过对时空兴趣点之间的时空关系进行建模，有效地融入了时空上下文信息，得到更具描述能力的特征；通过引入TF-IDF权重机制逐类选取出最具代表性的特征点，能够得到对摄像机运动，光照变化，人体外观形状变化等相对鲁棒的特征。这些特征能够很好地捕获各种动作的本质属性，对真实复杂场景下拍摄的复杂动作视频数据取得了较好的识别结果。

附图说明

图1为本发明方法的流程图；

图2为时空视频词组和时空视频单词团体的构造方法的示意图。

具体实施方式

在对本发明做详细说明之前，首先对本发明中的一些相关概念做统一的说明。

时空兴趣点(STIPs)：通过一些时空兴趣点检测器算法(如前述参考文献2和4中所提出的算法)对给定视频序列进行处理，在一定阈值范围内，通过非最大值抑制(non-maximal supression)处理后，响应函数的局部极大值定义为时空兴趣点。时空兴趣点表现为在时间维度上和空间维度上都有较大的变化，一般用光流直方图或是梯度直方图进行描述，由于其局部性，具有较好的旋转、平移和缩放不变性，但没有对全局运动的描述。

视频单词：在所有训练视频中提取到的时空兴趣点描述子构成的集合中，随机选择一个子集，采用K-均值算法聚类，形成一个视频单词码书(video-word vocabulary)，每个时空兴趣点描述子都对应着一个与其距离最近的码字，称为视频单词(video-word)。

时空视频词组：时空视频词组是指一定的时空尺度范围内同时出现的视频单词对。时空视频词组是本发明中新引入的概念，为了便于理解，在此一并对时空视频词组的生成过程加以说明。

参考图2，对于一个标号为视频单词p的时空兴趣点(关于如何为时空兴趣点生成视频单词标号为现有技术，在下文中对步骤S2的描述中也有相应的说明)，在时空兴趣点提取的过程中会得到一个与该时空兴趣点相关的小的局部时空立方体，该局部时空立方体的具体尺度按照下列公式由时空滤波器的空间尺度和时间尺度得到：

size_s＝szf×2×sqrt(σ_s) (1)

size_t＝szf×2×sqrt(σ_t) (2)

在上述公式中，szf表示计算时空兴趣点的特征描述子时所取块大小的系数；σ_s，σ_t分布表示时空滤波器在空域和时域的方差，sqrt表示求取平方根。

以p为中心，其周围与计算其特征描述子所用到的局部时空立方体大小成比例的更大的立方体被视为p的时空邻域。在此邻域内，不同的视频单词的分布直方图即为时空上下文信息，可用下列公式表示：

H(p，s)＝[t₁，t₂，...，t_n] (3)

在上述公式中，p表示时空邻域中心视频单词的标号，s表示确定时空邻域大小的尺度系数，t_i表示在该邻域中标号为i的视频单词出现的次数，而n表示视频单词词典中视频单词的总数。

时空邻域立方体的尺度的计算公式为：

size＝s×size_p (4)

在上述公式中，size_p表示通过前述公式(1)和公式(2)计算得到的时空兴趣点的尺度，s为确定时空邻域大小的尺度系数，s的取值越大，计算复杂度越高，可能引入的噪声也越多。p和出现在其邻域局部直方图中的另一个视频单词可构成一个视频单词对，形成所述的时空视频词组。从对时空视频词组的生成过程可见，一个时空兴趣点周围可能形成多个时空视频词组。

时空视频单词团体：一个视频单词和它周围的语境单词构成一个时空视频单词团体。

在前面对时空视频词组的说明过程中已经提到，视频单词p周围的邻域立方体内计算的视频单词的分布直方图被视为视频单词p的时空上下文，如图2所示，将这些代表时空上下文的分布直方图做进一步的聚类，可得到语境单词。视频单词与其周围的语境单词即构成时空视频单词团体。从时空视频单词团体的生成过程可见，一个时空兴趣点周围只能形成唯一的时空视频单词团体。

代表性时空视频词组：代表性时空视频词组是指对某一特定动作类型更具描述能力的时空视频词组。

代表性时空视频单词团体：代表性时空视频单词团体是指对某一特定动作类型更具描述能力的时空视频单词团体。

本领域普通技术人员很容易理解，每一类人体动作都有它特有的表示基元，如：特定的视频单词、时空视频词组以及时空视频单词团体等，以区分于其他不同的动作类别。因此，在人体动作识别的过程中，找到这些对各种人体动作来说最具描述性的模式对于人体动作识别极具意义。

选取的模式应当具有下列属性：

1)、选取的模式在其所要表示的动作类别中出现得应更加频繁；

2)、为了保持选取出来的模式对特定的动作类别的独特性，其在其他所有动作类别中出现得应相对较少。

上述两条属性与信息检索理论中常用的TF-IDF权重机制正好吻合，因此本发明引入TF-IDF的方法从大量的时空视频词组和时空视频单词团体中逐类选取代表性时空视频词组和代表性时空视频单词团体。

首先，计算时空视频词组中两个视频单词或是时空视频单词团体中视频单词和语境单词的共生频率。

对于时空视频词组，两个视频单词之间的共生关系被存储在对其中的视频单词计算的局部直方图中。对视频文件v，其中被标为i和j的两个视频单词的共生频率按照下面的公式(5)进行计算：

T_{v}^{dvp} (i, j) = \underset{p &Element; {p_{i}}}{Σ} t_{j} - - - (5)

在上述公式中，{p_i}是视频文件v中所有标号为i的视频单词的集合，t_j是以p_i为中心计算的局部直方图H(p_i，s)中的第j个元素。

对于时空视频单词团体，视频单词i和语境单词j之间的共生频率可按照下面的公式(6)进行计算：

T_{v}^{dvc} (i, j) = f ({vw}_{i}, {cw}_{j}) - - - (6)

上述公式表示当视频单词vw的标号为i且其周围的语境单词cw的标号为j时，便将视频单词i和语境单词j的共生频率f(vw_i，cw_j)加一。

将上述公式(5)和公式(6)中所涉及的T_v ^dvp(i，j)和T_v ^dvc(i，j)统一记为T_v ^*(i，j)，并将该值除以视频文件v中所提取到的时空兴趣点的总数，以抵消视频文件长度不等的影响，归一化之后的频率记为NT_v ^*(i，j)。对某一动作类型C中所有视频文件取平均值，即得到时空视频词组或是时空视频单词团体的类内的共生频率：

T_{C}^{*} (i, j) = \frac{1}{| T_{v} |} \underset{{v &Element; C}}{Σ} {NT}_{v}^{*} (i, j) - - - (7)

在上述公式中，符号|T_v|表示所有属于动作类型C的视频文件的总数。据此，

是一个大小为VW_numxVW_num的矩阵，

是一个大小为VW_numxCW_num的矩阵，这里VW_num表示视频单词的总数，CW_num表示语境单词的总数。

通过上述公式(5)、(6)、(7)计算得到每个时空视频词组或是时空视频单词团体类内的共生频率之后，所有类之间的共生频率按照下面的公式(8)进行计算：

T^{*} = \frac{1}{| C |} \underset{{C}}{Σ} T_{C}^{*} - - - (8)

在上述公式中，|C|表示动作类别的种数，T^*是T^dvp和T^dvc的统一记号。

通过上述计算过程，时空视频词组或时空视频单词团体可以按照下列的公式(9)得到一个得分值：

S^{*} (i, j) = T_{C}^{*} (i, j) / T^{*} (i, j) - - - (9)

在生成得分值以后，对每一类动作，可将时空视频词组和时空视频单词团体按照得分高低分别排序，即可以选出得分最高的前N个代表性时空视频词组和得分最高的前M个代表性时空视频单词团体。

在对本发明中的相关概念进行说明后，下面结合附图和具体实施步骤对本发明的方法加以说明。

参考图1，在步骤S1中，从包含人体动作的视频文件中提取时空兴趣点。从视频文件中提取时空兴趣点为本领域技术人员的公知技术，通过三维Harris角点检测器或是线性可分的时空滤波器都可实现时空兴趣点的提取。由于所提取的时空兴趣点通常都包含有噪声，会对后续操作产生影响，因此作为一种优选实现方式，可对所述的时空兴趣点做过滤操作，以去除相应的噪声。

在步骤S2中，将步骤S1中得到的所有时空兴趣点根据其所包含的特征描述子量化到特定的视频单词上。具体地，对所有时空兴趣点的特征描述子构成的集合，用随机抽样的方法得到一个子集，采用K-均值聚类算法或是现有技术中的其他聚类算法将其聚类到K个视频单词，这K个视频单词可形成一视频单词词典，视频单词词典中的各个视频单词分别用相应的标号表示。在得到视频单词词典后，每一时空兴趣点可通过距离度量找到视频单词词典中与其距离最近的视频单词，并将该视频单词的标号赋给相应的时空兴趣点。经过本步骤的相关操作后，视频文件即可被视为一系列带视频单词标号的时空兴趣点的集合。

在步骤S2中，除了要生成所述的视频单词外，还要为所述的视频单词生成统计直方图BoWs。为视频单词生成统计直方图的实现方法为本领域技术人员所公知的现有技术，图2中给出了统计直方图的一个范例，该统计直方图中的横坐标表示视频单词的类型，纵坐标表示视频单词出现的次数。

在步骤S3中，需要在步骤S2所得到的视频单词的基础上形成时空视频词组，然后在所形成的时空视频词组中选取代表性时空视频词组。时空视频词组的形成以及代表性时空视频词组的选择可参考前文中的说明。

在步骤S4中，对视频单词所在时空邻域内的时空上下文做聚类，得到语境单词，由所述视频单词与所述语境单词形成时空视频单词团体，然后从所有所形成的时空视频单词团体中选择代表性时空视频单词团体。详细过程见前文说明，在此不再赘述。

虽然在上述说明中，在步骤S3中完成时空视频词组的形成以及代表性时空视频词组的选择，而在步骤S4中完成时空视频单词团体的形成以及代表性时空视频单词团体的选择，但这两个步骤可以同步执行。

在步骤S5中，前述步骤S2得到的视频单词、步骤S3得到的代表性时空视频词组以及步骤S4得到的代表性时空视频单词团体构成了对视频特征不同粒度的描述，基于这些特征以及它们之间的融合可以训练分类器，并进一步实现融合多特征的人体动作识别。

对于单独使用各种特征(如：视频单词，代表性时空视频词组或是代表性时空视频单词团体)进行人体动作识别时，相关方法与传统的BoWs方法相同，在此不再赘述。

对于融合前述两种或是三种特征进行动作识别时，可以进行早期融合(early fusion)也可以进行晚期融合(late fusion)。

早期融合，是指在语义概念学习之前进行的融合，也即特征级的融合，在这一融合过程中将多种特征描述子组合形成一个单一的特征描述子。比如，可以采用特征的顺序级联形式，将各种特征描述子单独表示的分布直方图进行加权级联得到的特征向量如下面的公式(10)所示：

H＝[αH_VWsβH_ST-DVPs(1-α-β)H_ST-DVCs] (10)

在上述公式中，H_VWs，H_ST-DVPs和H_ST-DVCs分别表示视频单词、代表性时空视频词组和代表性时空视频单词团体的分布直方图，而α，β和(1-α-β)分别表示三种描述子各自的权重系数，各权重系数的取值区间为[0，1]，该权重可通过交叉验证的方法得到，最后得到的直方图的长度为使用到的不同描述子各自直方图的长度之和。

经由早期融合将多种特征描述子组合形成一个单一的特征描述子后，融合后的特征可用于分类器的训练和分类。分类器在完成所述的训练和分类后，即可实现对待检测视频中人体动作的识别。

晚期融合是先将单一特征简化为一种语义概念的得分，然后将这些得分集成到一起进行语义概念的学习。比如，可以通过基于χ²距离的泛化的多通道的高斯核函数训练SVM分类器并进行分类：

χ^{2} (H_{i}, H_{j}) = \frac{1}{2} Σ_{b = 1}^{k} (\frac{{(H_{i} (b) - H_{j} (b))}^{2}}{H_{i} (b) + H_{j} (b)}) - - - (11)

K (i, j) = \underset{c &Element; C}{Σ} ω_{c} \exp (- \frac{1}{A_{c}} χ^{2} (H_{i}^{c}, H_{j}^{c})), - - - (12)

其中C＝{VWs，ST-DVPs，ST-DVCs}

在上述公式中，χ²(H_i，H_j)表示以一种特征的分布直方图H_i和H_j之间的χ²距离，其中的b是对直方图中bin的索引，k表示该种特征的分布直方图中bin的总数。C表示需要融合的特征集，在这里指视频单词、代表时空性视频词组以及代表性时空视频单词团体的集合。

表示动作视频i和j以特征c表示的分布直方图。A_c表示核函数中的尺度参数，等于在特征c表示下训练样本之间的平均距离。ω_c表示不同特征融合时特征c的权重系数。

以上是对利用视频文件训练分类器的相关过程的说明，在得到分类器以后，利用分类器实现视频文件中人体动作的识别与上述过程相类似，也需要从待检测视频文件中提取时空兴趣点，将时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上，并为所述视频单词生成统计直方图，也需要由视频单词生成时空视频词组与时空视频单词团体，并从中选出代表性时空视频词组与代表性时空视频单词团体，在得到待检测视频文件的上述特征后，对这些特征加以融合，最后由分类器根据融合后的特征实现对视频文件中人体动作的识别。由于上述过程的具体实现在前面的描述中已经有详细的说明，因此不再对相应的细节做重复说明。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种人体动作识别的训练方法，包括：

步骤1)、从视频文件中提取时空兴趣点；

2.根据权利要求1所述的人体动作识别的训练方法，其特征在于，所述的步骤2)包括：

3.根据权利要求1所述的人体动作识别的训练方法，其特征在于，所述的步骤3)包括：

4.根据权利要求1所述的人体动作识别的训练方法，其特征在于，所述的步骤4)包括：

5.根据权利要求1所述的人体动作识别的训练方法，其特征在于，所述的步骤5)包括：

步骤5-2)、将步骤5-1)中所得到的共生频率做归一化操作；

6.根据权利要求1所述的人体动作识别的训练方法，其特征在于，所述的步骤6)包括：

7.根据权利要求1所述的人体动作识别的训练方法，其特征在于，所述的步骤6)包括：

8.一种人体动作识别方法，包括：

步骤1)、从视频文件中提取时空兴趣点；

步骤6)、将所述视频单词、代表性时空视频词组、代表性时空视频单词团体所组成集合中的一种特征或将多种特征融合后的结果送入权利要求1-7之一的人体动作识别的训练方法所得到的分类器中，实现对视频文件中人体动作的识别。