CN106971145A

CN106971145A - 一种基于极限学习机的多视角动作识别方法及装置

Info

Publication number: CN106971145A
Application number: CN201710124150.7A
Authority: CN
Inventors: 何威; 刘波; 肖燕珊; 袁嘉棋; 胡超
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2017-07-21

Abstract

本发明实施例公开了一种基于极限学习机的多视角动作识别方法及装置，具有使用相对简单，比传统神经网络更快速，得到也不是唯一的输出，而是选取结果大多数一致的分类作为最终结果，精度更高，对未知数据分类能力更好。

Description

一种基于极限学习机的多视角动作识别方法及装置

技术领域

本发明涉及人体动作识别领域，尤其涉及一种基于极限学习机的多视角动作识别方法及装置。

背景技术

人体动作识别的一般方法大都是利用摄像机等设备捕获人体动作后，对产生的图像时间序列进行特征提取，然后对其进行分析，获得人体运动特征的有关参数，实现对人体动作的分类。通常在人机交互、智能监控、体育运动分析和基于内容的检索等方面，动作识别技术都存在重要意义。

目前的人体识别算法大都基于步态视频的基础上进行研究，利用摄像机拍摄人体行走、跑步和下蹲等进行分析和识别。已知的单视角方法通常假设人在相机下是可见的，这种假设通常在实际运用中是不常见的，所以适用性是有限的。

发明内容

本发明实施例提供了一种基于极限学习机的多视角动作识别方法及装置，具有使用相对简单，比传统神经网络更快速，得到也不是唯一的输出，而是选取结果大多数一致的分类作为最终结果，精度更高，对未知数据分类能力更好。

本发明实施例提供的一种基于极限学习机的多视角动作识别方法，其特征在于，包括：

S1：获取多个视角下的预置的已标记的动作视频，通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像，获取已标记的动作视频的姿势向量；

S2：对已标记的动作视频的姿势向量进行模糊化处理，获取已标记的动作视频的离散化动作特征向量，通过已标记的动作视频的离散化动作特征向量和已标记的动作视频的动作标签获得极限学习机的输出权重；

S3：获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，获取未标记的动作视频的姿势向量，对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

优选地，所述步骤S1具体包括：

获取多个视角下的预置的已标记的动作视频，通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像，对已标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化，获取已标记的动作视频的姿势向量P_ij，其中i表示已标记的动作视频的索引下标，j表示第i个已标记的动作视频下的第j个视频帧，j＝1,2,3,...N_i。

优选地，所述步骤S2具体包括：

通过K邻近算法和已标记的动作视频的姿势向量P_ij产生D个基本姿势向量V_d，通过已标记的动作视频的姿势向量P_ij和基本姿势向量V_d之间的第一模糊相似度公式对已标记的动作视频的动作特征进行模糊化处理，对所述第一模糊相似度进行平均化处理获得已标记的动作视频的离散化动作特征向量S_i，通过已标记的动作视频的离散化动作特征向量S_i和已标记的动作视频的动作标签获得极限学习机的输出权重，其中第一模糊相似度公式为

U_ij＝(||P_ij-V_d||₂)^-2/(m-1)，d＝1,2,...D，U_ij为已标记的动作视频的姿势向量P_ij和基本姿势向量V_d之间的第一模糊相似度，

S_i为已标记的动作视频的离散化动作特征向量。

优选地，所述步骤S3具体包括：

获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，对未标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化，获取未标记的动作视频的姿势向量；

对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

优选地，所述步骤S3具体包括：

通过K邻近算法和未标记的动作视频的姿势向量产生基本姿势向量，通过未标记的动作视频的姿势向量和基本姿势向量之间的第二模糊相似度公式对未标记的动作视频的动作特征进行模糊化处理，对所述第二模糊相似度进行平均化处理获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

本发明实施例中提供的一种基于极限学习机的多视角动作识别装置，包括：

第一获取单元，用于获取多个视角下的预置的已标记的动作视频，通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像，获取已标记的动作视频的姿势向量；

第二获取单元，用于对已标记的动作视频的姿势向量进行模糊化处理，获取已标记的动作视频的离散化动作特征向量，通过已标记的动作视频的离散化动作特征向量和已标记的动作视频的动作标签获得极限学习机的输出权重；

第三获取单元，用于获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，获取未标记的动作视频的姿势向量，对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

优选地，所述第一获取单元具体包括：

第一获取子单元，具体用于获取多个视角下的预置的已标记的动作视频；

提取子单元，具体用于通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像；

裁剪子单元，具体用于对已标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化；

第二获取子单元，具体用于获取已标记的动作视频的姿势向量P_ij，其中i表示已标记的动作视频的索引下标，j表示第i个已标记的动作视频下的第j个视频帧，j＝1,2,3,...N_i。

优选地，所述第二获取单元具体包括：

生成子单元，具体用于通过K邻近算法和已标记的动作视频的姿势向量P_ij产生D个基本姿势向量V_d；

模糊处理子单元，具体用于通过已标记的动作视频的姿势向量P_ij和基本姿势向量V_d之间的第一模糊相似度公式对已标记的动作视频的动作特征进行模糊化处理；

离散化子单元，具体用于对所述第一模糊相似度进行平均化处理获得已标记的动作视频的离散化动作特征向量S_i；

第三获取子单元，具体用于通过已标记的动作视频的离散化动作特征向量S_i和已标记的动作视频的动作标签获得极限学习机的输出权重，其中第一模糊相似度公式为

S_i为已标记的动作视频的离散化动作特征向量。

优选地，所述第三获取单元具体包括：

第四获取子单元，具体用于获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，对未标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化，获取未标记的动作视频的姿势向量；

第五获取子单元，具体用于对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

优选地，所述第四获取子单元具体包括：

第一获取模块，具体用于获取多个视角下的预置的未标记的动作视频；

提取模块，具体用于通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像；

裁剪模块，具体用于对未标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化；

第二获取模块，具体用于获取未标记的动作视频的姿势向量；

所述第五获取子单元具体包括：

生成模块，具体用于通过K邻近算法和未标记的动作视频的姿势向量产生基本姿势向量；

模糊处理模块，具体用于通过未标记的动作视频的姿势向量和基本姿势向量之间的第二模糊相似度公式对未标记的动作视频的动作特征进行模糊化处理；

离散化模块，具体用于对所述第二模糊相似度进行平均化处理获取未标记的动作视频的离散化动作特征向量；

第三获取模块通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中提供的一种基于极限学习机的多视角动作识别方法及装置，其中，一种基于极限学习机的多视角动作识别方法包括：S1：获取多个视角下的预置的已标记的动作视频，通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像，获取已标记的动作视频的姿势向量；S2：对已标记的动作视频的姿势向量进行模糊化处理，获取已标记的动作视频的离散化动作特征向量，通过已标记的动作视频的离散化动作特征向量和已标记的动作视频的动作标签获得极限学习机的输出权重；S3：获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，获取未标记的动作视频的姿势向量，对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。本实施例中，通过对多个视角下的动作特征模糊离散化过程和利用已标记的特征向量及相应的动作类标签输入到极限学习机中训练网络输出权值，具有使用相对简单，比传统神经网络更快速，得到也不是唯一的输出，而是选取结果大多数一致的分类作为最终结果，精度更高，对未知数据分类能力更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1本发明实施例中提供的一种基于极限学习机的多视角动作识别方法的一个实施例的流程示意图；

图2本发明实施例中提供的一种基于极限学习机的多视角动作识别装置的一个实施例的结构示意图；

图3本发明实施例中提供的一种基于极限学习机的多视角动作识别装置的另一个实施例的结构示意图；

图4本发明实施例中提供的一种极限学习机示意图；

图5本发明实施例中提供的一种人体动作姿势向量的模糊化处理前后过程。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中提供的一种基于极限学习机的多视角动作识别方法的一个实施例包括：

101、获取多个视角下的预置的已标记的动作视频，通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像，获取已标记的动作视频的姿势向量；

利用部分已标记的动作实例训练出分类器；动作训练过程主要包括:选取已添加标注的人体动作训练视频，然后利用图像分割技术提取视频帧中的人体动作时空兴趣点图像，裁剪成固定(N_X×N_y)像素大小，将图像列向量化，目的是为了产生姿势向量i表示视频的索引下标，j表示第i个视频下相应的第j帧，j＝1,2,3,...N_i；

102、对已标记的动作视频的姿势向量进行模糊化处理，获取已标记的动作视频的离散化动作特征向量，通过已标记的动作视频的离散化动作特征向量和已标记的动作视频的动作标签获得极限学习机的输出权重；

利用K-Means(K邻近算法)聚类将获得的姿势向量P_ij表示成D个人体动作的基本姿势向量V_d，可以理解为一个人行走的过程可以分解为若干个动作图像，视频是由一帧帧图像组成，例如图5将行走过程分为3个动作，第一个2帧，第二个4帧，第三个5帧，P_ij是动作视频中的帧通过图像特征提取并裁剪成固定大小后的姿势向量，P_ij与K-Means(K邻近算法)聚类无关，K-Means(K邻近算法)聚类是产生D个人体基本动作的姿势向量V_d，通过模糊函数映射处理后取平均隶属度向量作为模糊化后的人体动作姿势向量S_i，平均隶属度向量指的是行走过程中3个动作(分别为2帧，4帧，5帧)向量的平均值，也就是经过模糊处理后U_ij的平均隶属度向量，因为U_ij＝(||P_ij-V_d||₂)^-2/(m-1)d＝1,2,...D是模糊化处理公式，动作姿势向量S_i可以理解为离散化后的特征向量，整个离散化就是从多帧动作向量变为D(D个基本姿势向量)帧动作向量，动作从连续变成不连续，所以称之为离散化，这个过程如图5所示，人跑的多个连续动作通过模糊离散化后得到3个动作姿势向量，图5将人走的多个连续动作离散化后得到4个动作姿势向量。

103、获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，获取未标记的动作视频的姿势向量，对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

利用未标记的动作视频来测试一个视角下的动作分类结果，同样多个视角下的动作分类可以通过多次动作识别，最终通过投票决策得到多个视角下的动作识别分类结果。测试过程首先重复动作训练过程中提取未标记动作视频中通过离散化后的动作向量，输入到极限学习机中，提取过程指的是从测试未标记动作视频帧中提取动作图像，通过滤波裁剪后生成姿势向量P_ij，然后通过公式U_ij＝(||P_ij-V_d||₂)^-2/(m-1)d＝1,2,...D模糊化处理，通过离散化处理得到未标记测试动作的动作特征向量；也就是和动作训练过程的动作特征处理方法一样。极限学习机中可以输入D个动作特征向量，通过中间隐藏层处理后，输出有N_A个动作分类，N_A个分类中数量最多的类标签作为人体动作的分类结果。同理，多个视角会有多个分类结果，通过投票得到最终的动作分类结果。将得到的模糊离散化处理后的动作特征向量S_i输入到极限学习机中，因为神经网络输出权值已经在动作训练阶段已经得出，输入测试动作的动作特征向量S_i会有多个动作类标签输出，其中选取输出最多的那个动作类标签作为结果，达到了动作识别的目的。

上面是对一种基于极限学习机的多视角动作识别方法进行详细的描述，下面将对一种基于极限学习机的多视角动作识别方法的过程进行详细的描述，本发明实施例中提供的一种基于极限学习机的多视角动作识别方法的另一个实施例包括：

201、获取多个视角下的预置的已标记的动作视频，通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像，对已标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化，获取已标记的动作视频的姿势向量P_ij，其中i表示已标记的动作视频的索引下标，j表示第i个已标记的动作视频下的第j个视频帧，j＝1,2,3,...N_i。

已标记图像样本是来自于一些公开免费的动作数据集，里面有各种已标记的动作图像，不用人工标记，可以直接下载获取，例如一个人行走的动作，将图像通过图像处理技术可以转化为动作向量表示，通常可以用MATLAB软件直接将图像转化为图像向量，标记的意思就是图像有行走的标签，检索标签就能检索到这张图像，未标记的图像数据就是没有相应的动作类标签，可以理解为还未下定义，已标记的动作训练样本数据可以提供动作向量和相应的动作标签，通过利用部分已标记的图像数据样本来训练极限学习机的神经网络的输出权值，然后未标记动作图像数据转化为动作向量后输入到极限学习机中就会有相应的动作类标签输出，达到动作识别的目的。

提取视频帧中的时空兴趣点图像，常用的方法有高斯滤波或者Gabor滤波方法，然后裁剪成固定(N_X×N_y)像素大小，将图像列向量化，目的是为了产生姿势向量i表示视频的索引下标，j表示第i个视频下相应的第j帧，j＝1,2,3,...N_i；

202、通过K邻近算法和已标记的动作视频的姿势向量P_ij产生D个基本姿势向量V_d，通过已标记的动作视频的姿势向量P_ij和基本姿势向量V_d之间的第一模糊相似度公式对已标记的动作视频的动作特征进行模糊化处理，对所述第一模糊相似度进行平均化处理获得已标记的动作视频的离散化动作特征向量S_i，通过已标记的动作视频的离散化动作特征向量S_i和已标记的动作视频的动作标签获得极限学习机的输出权重，其中第一模糊相似度公式为

S_i为已标记的动作视频的离散化动作特征向量。

在训练数据阶段，P_ij表示N_T个训练视频中的所有的姿势向量，生成_D个姿势向量原型d＝1,2,...D,V_d表示的是简单日常生活中的D个基本姿势向量，这是通过K-Means(K邻近算法)聚类方法将基本姿势向量分为D类，接着将每个姿势向量P_ij映射到称作为隶属度向量U_ij∈R^D中，以下公式根据模糊参数m＞1表示姿势向量P_ij和D个基本姿势向量V_d间的模糊相似度：

U_ij＝(||P_ij-V_d||₂)^-2/(m-1)d＝1,2,...D

隶属度向量U_ij归一化是为了生成l₂范数，利用平均隶属度向量来计算表示一个训练动作视频，其中向量S_i∈R^D，表示所有训练视频归一化后有零均值和单位方差；如图5中表示人体动作的姿势向量模糊离散化过程，图5上表示人跑的多个连续动作通过模糊离散化后得到3个动作姿势向量，图5下表示将人走的多个连续动作离散化后得到4个动作姿势向量。测试动作向量也依据上述特征提取方法。

通过以上方法获得的训练动作向量S_i以后，我们利用部分已知训练数据相应的动作标签来训练一个单隐层前馈神经网络ELM(Extreme Learning Machine)极限学习机。假设S_i和C_i,i＝1,...l,分别表示集合中已标记的动作向量和相应的动作类标签，分类问题涉及到D维动作向量S_i,每一个动作向量都属于N_A个动作类标签之一，这个神经网络包含D个输入，H个隐藏层和N_A个输出神经元。t_i表示的是动作训练阶段已标记样本动作向量S_i的动作类输出向量，网络输出目标向量t_i＝[t_i1,...,t_iNA]^T,其中每一项对应着一个已标记的动作向量S_i，如果t_ij＝1,表示动作向量属于动作类j,即集合中已标记的动作向量相应的动作类标签C_i＝j,如果t_ij＝-1，情况反之。

将经过上述模糊化处理后得到的动作向量S_i和已标记的人体动作类标签C_i输入到一个单隐层前馈神经网络中，即ELM(Extreme Learning Machine)极限学习机，已标记的人体动作类标签C_i是已标记动作实例提供的，已标记的动作实例可以提供动作向量P_ij和相应的动作类标签，极限学习机(Extreme Learning Machine)是一种相对快速的单隐层前馈神经网络训练算法，这个神经网络包含D个输入，H个隐藏层和N_A个输出神经元。这个极限学习机是一个3层的神经网络，分别为输入层，隐藏层和输出层，是通过利用部分已标记的动作训练样本数据，随机选取输入权值和偏置值，最终来训练网络的输出权值，如图4所示，图中X_j可以理解为输入层的动作向量，a_i可以理解为输入权值，b_i可以理解为隐藏层的偏置，O_j可以理解为已标记样本动作向量X_j的动作类输出向量，目的是为了训练网络输出权值β_i。传统的神经网络训练算法需要对网络权值和偏差进行调整，而极限学习机的输入权重和隐藏层的偏置值是随机选择的，训练的目的是为了得到隐藏层网络输出权重；

在极限学习机中，网络输入权重W_in∈R^D×H和隐藏层偏置值b∈R^H是随机选取，输出权重通过分析计算得出。让V_j表示网络输入权重W_in的第j列，U_k表示输出权重W_out的第k行，U_kj表示输出权重W_out的第k行U_k的第j个元素，通过对隐藏层给定一个线性激活函数输出神经元，ELM神经网络输出相应的训练动作向量S_i用如下输出公式给定：

b_j表示的是H个隐藏层中第j个偏置，多种激活函数φ()能够应用于隐藏层输出，其中最常用的是sigmoid激活函数：

通过用一个矩阵φ来存储隐藏层神经元输出:

动作向量的输出公式可以被写成如下矩阵形式:最后，通过假设预期网络输出O等于理想输出，即O_i＝t_i,i＝1,...l,通过如下公式计算：

T＝[t₁,...t_l]是一个包含网络目标向量的矩阵，使网络输出权值最小化通过计算,是φ^T的伪逆矩阵。

203、获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，对未标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化，获取未标记的动作视频的姿势向量；

一个视角的测试动作向量S_t,i输入到ELM网络中最终的动作类是网络输出结果N_A中数量最多的，即：

其中i和S_t,i表示相应动作视频的索引和动作向量，O_t,i是S_t,i的网络输出。

测试一个人完成一个动作的同时被N个视角相机捕获视频，经过上述动作训练过程对视频帧进行模糊化处理后得到N个测试动作向量S_t,i，i＝1,...,N；输入到ELM空间得到N个分类结果C_t,i，最后使用投票算法得到最后分类结果，即：

如果C_t,i＝j，a_ij＝1，a_ij＝0,情况反之。

在N个视角下会得到N个动作分类结果，如果其中一个视角下的动作分类结果满足C_t,i＝j，j＝1,...,N_A，则令a_ij＝1，即第j个动作类计数1次，对N个动作分类结果计数，最终选择计数最多的那一个动作类作为多个视角下的动作类。

上述涉及到的K-means(K邻近算法)的主要处理流程：

(1)从n个数据对象任意选择k个对象作为初始聚类中心；

(2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

(3)重新计算每个(有变化)聚类的均值(中心对象)

(4)循环(2)到(3)直到每个聚类不再发生变化为止

K-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

本实施例中，对多个视角下的动作特征模糊离散化过程和利用已标记的特征向量及相应的动作类标签输入到极限学习机中训练网络输出权值，对多个视角下的动作进行分类，先是对图像进行特征提取，然后通过处理后得到隶属度向量，主要是运用改进了的神经网络ELM(极限学习机)作为分类训练器，该方法具有使用相对简单，比传统神经网络更快速，得到也不是唯一的输出，而是选取结果大多数一致的分类作为最终结果，精度更高，对未知数据分类能力更好。

本实施例通过K邻近算法对滤波裁剪后的姿势向量P_ij进行的模糊化处理以及神经网络运用到动作识别过程中，用K-Means(K邻近算法)聚类是产生D个人体基本动作的姿势向量V_d，通过公式U_ij＝(||P_ij-V_d||₂)^-2/(m-1)d＝1,2,...D对动作特征进行模糊化处理，取U_ij得平均隶属度向量，根据公式

对动作特征进行离散化处理，最终得到模糊离散化后的动作特征向量S_i。扩展了思路，而且ELM(极限学习机)是一种改进了的神经网络，具有在保证精准度的前提下速度得到很大提升，节约了时间，而且对参数的要求简单，应用广泛；本实施例运用K-means聚类将姿势向量分类，将姿势向量P_ij映射到隶属度向量中，最终取隶属度向量平均值，得到将要输入到训练网络(ELM)极限学习机中的输入向量，通过随机选取输入权重和隐藏偏置值，得到最佳权重输出，所以把神经网络当作最终训练出的分类器，对输出的多个结果选出数量最多的作为分类结果，然后测试不同视角下的分类结果，用投票决策选出多个视角得出的最终分类。最终分类决策部分可以找到其它方法进行替代，尤其是在分类器训练部分，有多种分类方法，例如SVM(支持向量机)，K-means邻近算法，动态贝叶斯网络，条件随机场都可以进行动作分类，还可以考虑半监督优化问题，让训练数据和测试数据的输出结果进行最小差值优化。

请参阅图2，本发明实施例中提供的一种基于极限学习机的多视角动作识别装置的一个实施例包括：

第一获取单元301，用于获取多个视角下的预置的已标记的动作视频，通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像，获取已标记的动作视频的姿势向量；

第二获取单元302，用于对已标记的动作视频的姿势向量进行模糊化处理，获取已标记的动作视频的离散化动作特征向量，通过已标记的动作视频的离散化动作特征向量和已标记的动作视频的动作标签获得极限学习机的输出权重；

第三获取单元303，用于获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，获取未标记的动作视频的姿势向量，对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

上面是对一种基于极限学习机的多视角动作识别装置各单元进行详细的描述，下面将对一种基于极限学习机的多视角动作识别装置各附加单元进行详细的描述，请参阅图3，本发明实施例中提供的一种基于极限学习机的多视角动作识别装置的另一个实施例包括：

第一获取单元401，用于获取多个视角下的预置的已标记的动作视频，通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像，获取已标记的动作视频的姿势向量；

所述第一获取单元401具体包括：

第一获取子单元4011，具体用于获取多个视角下的预置的已标记的动作视频；

提取子单元4012，具体用于通过图像分割技术提取已标记的动作视频下的视频帧中的动作时空兴趣点图像；

裁剪子单元4013，具体用于对已标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化；

第二获取子单元4014，具体用于获取已标记的动作视频的姿势向量P_ij，其中i表示已标记的动作视频的索引下标，j表示第i个已标记的动作视频下的第j个视频帧，j＝1,2,3,...N_i。

第二获取单元402，用于对已标记的动作视频的姿势向量进行模糊化处理，获取已标记的动作视频的离散化动作特征向量，通过已标记的动作视频的离散化动作特征向量和已标记的动作视频的动作标签获得极限学习机的输出权重；

所述第二获取单元402具体包括：

生成子单元4021，具体用于通过K邻近算法和已标记的动作视频的姿势向量P_ij产生_D个基本姿势向量V_d；

模糊处理子单元4022，具体用于通过已标记的动作视频的姿势向量P_ij和基本姿势向量V_d之间的第一模糊相似度公式对已标记的动作视频的动作特征进行模糊化处理；

离散化子单元4023，具体用于对所述第一模糊相似度进行平均化处理获得已标记的动作视频的离散化动作特征向量S_i；

第三获取子单元4024，具体用于通过已标记的动作视频的离散化动作特征向量S_i和已标记的动作视频的动作标签获得极限学习机的输出权重，其中第一模糊相似度公式为

S_i为已标记的动作视频的离散化动作特征向量。

第三获取单元403，用于获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，获取未标记的动作视频的姿势向量，对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

所述第三获取单元403具体包括：

第四获取子单元4031，具体用于获取多个视角下的预置的未标记的动作视频，通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像，对未标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化，获取未标记的动作视频的姿势向量；

所述第四获取子单元4031具体包括：

第一获取模块40311，具体用于获取多个视角下的预置的未标记的动作视频；

提取模块40312，具体用于通过图像分割技术提取未标记的动作视频下的视频帧中的动作时空兴趣点图像；

裁剪模块40313，具体用于对未标记的动作视频下的视频帧中的动作时空兴趣点图像裁剪成预定像素大小并进行列向量化；

第二获取模块40314，具体用于获取未标记的动作视频的姿势向量；

第五获取子单元4032，具体用于对未标记的动作视频的姿势向量进行模糊化处理，获取未标记的动作视频的离散化动作特征向量，通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

所述第五获取子单元4032具体包括：

生成模块40321，具体用于通过K邻近算法和未标记的动作视频的姿势向量产生基本姿势向量；

模糊处理模块40322，具体用于通过未标记的动作视频的姿势向量和基本姿势向量之间的第二模糊相似度公式对未标记的动作视频的动作特征进行模糊化处理；

离散化模块40323，具体用于对所述第二模糊相似度进行平均化处理获取未标记的动作视频的离散化动作特征向量；

第三获取模块40324，具体用于通过未标记的动作视频的离散化动作特征向量和极限学习机的输出权重，获得多个视角下的预置的未标记的动作视频的分类。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于极限学习机的多视角动作识别方法，其特征在于，包括：

2.根据权利要求1所述的基于极限学习机的多视角动作识别方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求2所述的基于极限学习机的多视角动作识别方法，其特征在于，所述步骤S2具体包括：

S_{i} = \frac{1}{N_{i}} Σ_{j = 1}^{N_{i}} U_{i j}

S_i为已标记的动作视频的离散化动作特征向量。

4.根据权利要求3所述的基于极限学习机的多视角动作识别方法，其特征在于，所述步骤S3具体包括：

5.根据权利要求4所述的基于极限学习机的多视角动作识别方法，其特征在于，所述步骤S3具体包括：

6.一种基于极限学习机的多视角动作识别装置，其特征在于，包括：

7.根据权利要求6所述的基于极限学习机的多视角动作识别装置，其特征在于，所述第一获取单元具体包括：

8.根据权利要求7所述的基于极限学习机的多视角动作识别装置，其特征在于，所述第二获取单元具体包括：

S_{i} = \frac{1}{N_{i}} Σ_{j = 1}^{N_{i}} U_{i j}

S_i为已标记的动作视频的离散化动作特征向量。

9.根据权利要求8所述的基于极限学习机的多视角动作识别装置，其特征在于，所述第三获取单元具体包括：

10.根据权利要求9所述的基于极限学习机的多视角动作识别方法，其特征在于，所述第四获取子单元具体包括：

所述第五获取子单元具体包括：