CN108596068B

CN108596068B - 一种动作识别的方法和装置

Info

Publication number: CN108596068B
Application number: CN201810342934.1A
Authority: CN
Inventors: 曾铭宇; 刘波; 肖燕珊
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2022-04-19
Anticipated expiration: 2038-04-17
Also published as: CN108596068A

Abstract

本发明实施例公开了一种动作识别的方法和装置，利用模糊特征提取算法，从待测试的视频中提取相应的姿势向量；利用K‑means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量；查询预先建立的动作识别模型，以确定出所述动作向量对应的动作类型。运用模糊特征提取经由K‑means聚类处理的方式，提高了特征提取的速度。依据于近似核心极限学习机的最小偏差算法建立动作识别模型，在保持高精度的情况下，降低了计算复杂度、减少了运存损耗。并且，在进行动作识别时，直接查询该动作识别模型即可确定出动作向量对应的动作类型，极大的提高了动作识别的效率。

Description

一种动作识别的方法和装置

技术领域

本发明涉及视频监控技术领域，特别是涉及一种动作识别的方法和装置。

背景技术

随着人工智能的发展，动作识别技术的应用越来越广泛，例如，人机交互、增强现实(Augmented Reality，AR)、智能视觉监控。以智能视觉监控为例，是利用计算机视觉技术对视频信号进行处理、分析和理解，在不需要人为干预的情况下，通过对序列图像自动分析对监控场景中的变化进行定位、识别和跟踪，并在此基础上分析和判断目标物体的行为，能在异常情况发生时及时发出警报或提供有用信息，有效地协助安全人员处理危机，并最大限度地降低误报和漏报现象。由此可知，在视频监控领域中，准确的识别目标物体的动作具有重要的意义。

目标物体的动作识别可以划分为特征提取和动作识别两部分。现有技术中，通常采用尺度不变特征变换(Scale-Invariant Features Transform，SIFT)、加速稳健特征(Speeded Up Robust Features,SURF)或者是方向梯度直方图(Histogram of OrientedGradient,HOG)等算法进行特征提取。在特征提取的基础上，依据K近邻、拉普拉斯-支持向量机或者极限学习机等算法进行动作识别，从而判断出目标物体执行的是何种动作。依据上述算法进行动作识别时，为了保证判断的精度，算法的时间复杂度会较高，从而需要花费较多的时间并且消耗较大的内存，才能实现动作识别，导致动作识别的效率较低。

可见，如何在保证精度的情况下提高动作识别的效率，是本领域技术人员亟待解决的问题。

发明内容

本发明实施例的目的是提供一种动作识别的方法和装置，可以在保证精度的情况下提高动作识别的效率。

为解决上述技术问题，本发明实施例提供一种动作识别的方法，包括：

利用模糊特征提取算法，从待测试的视频中提取相应的姿势向量；

利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量；

查询预先建立的动作识别模型，以确定出所述动作向量对应的动作类型；其中所述动作识别模型的建立依据于近似核心极限学习机的最小偏差算法。

可选的，所述动作向量和动作类型的对应关系的建立过程包括：

利用所述模糊特征提取算法，从目标视频中获取相应的姿势向量；其中，所述目标视频对应的动作类型为已知信息；

利用所述K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量；

利用所述近似核心极限学习机的最小偏差算法，计算所述动作向量与所述动作类型的权重系数；

依据所述权重系数，确定出所述动作向量和所述动作类型的对应关系，以完成动作识别模型的建立。

可选的，所述利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量包括：

利用如下公式，计算所述姿势向量对应的模糊向量u_ij，

其中，P_ij表示第i个视频流的第j帧图片对应的姿势向量，v_d表示第d个动作类别的基本向量模型，m表示模糊参数且m＞1；

利用如下公式对所述模糊向量进行处理，计算出对应的动作向量x_i，

其中，N_i表示第i个视频流的帧图片的个数。

可选的，还包括：

当无法确定出所述动作向量对应的动作类型时，则向目标设备发送提示信息。

可选的，还包括：

接收所述目标设备反馈的动作类型；利用所述近似核心极限学习机的最小偏差算法，确定出待处理的动作向量和所述动作类型的对应关系，并将所述对应关系存储于预先建立的所述动作向量和动作类型的对应关系中。

本发明实施例还提供了一种动作识别的装置，包括提取单元、得到单元和查询单元；

所述提取单元，用于利用模糊特征提取算法，从待测试的视频中提取相应的姿势向量；

所述得到单元，用于利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量；

所述查询单元，用于查询预先建立的动作识别模型，以确定出所述动作向量对应的动作类型；其中所述动作识别模型的建立依据于近似核心极限学习机的最小偏差算法。

可选的，还包括计算单元和确定单元；

所述提取单元还用于利用所述模糊特征提取算法，从目标视频中获取相应的姿势向量；其中，所述目标视频对应的动作类型为已知信息；

所述得到单元还用于利用所述K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量；

所述计算单元，用于利用所述近似核心极限学习机的最小偏差算法，计算所述动作向量与所述动作类型的权重系数；

所述确定单元，用于依据所述权重系数，确定出所述动作向量和所述动作类型的对应关系，以完成动作识别模型的建立。

可选的，所述得到单元包括映射子单元和处理子单元；

所述映射子单元，用于利用如下公式，计算所述姿势向量对应的模糊向量u_ij，

所述处理子单元，用于利用如下公式对所述模糊向量进行处理，计算出对应的动作向量x_i，

其中，N_i表示第i个视频流的帧图片的个数。

可选的，还包括发送单元；

所述发送单元，用于当无法确定出所述动作向量对应的动作类型时，则向目标设备发送提示信息。

可选的，还包括接收单元和存储单元；

所述接收单元，用于接收所述目标设备反馈的动作类型；

所述存储单元，用于利用所述近似核心极限学习机的最小偏差算法，确定出待处理的动作向量和所述动作类型的对应关系，并将所述对应关系存储于预先建立的所述动作向量和动作类型的对应关系中。

由上述技术方案可以看出，利用模糊特征提取算法，从待测试的视频中提取相应的姿势向量；利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量；查询预先建立的动作识别模型，以确定出所述动作向量对应的动作类型。运用模糊特征提取经由K-means聚类处理的方式，提高了特征提取的速度。依据于近似核心极限学习机的最小偏差算法建立动作识别模型，在保持高精度的情况下，降低了计算复杂度、减少了运存损耗。并且，在进行动作识别时，直接查询该动作识别模型即可确定出动作向量对应的动作类型，极大的提高了动作识别的效率。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种动作识别的方法的流程图；

图2为本发明实施例提供的一种建立动作识别模型的方法的流程图；

图3为本发明实施例提供的一种动作识别的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

接下来，详细介绍本发明实施例所提供的一种动作识别的方法。图1为本发明实施例提供的一种动作识别的方法的流程图，该方法包括：

S101：利用模糊特征提取算法，从待测试的视频中提取相应的姿势向量。

待测试视频为动作类型未知的视频。在本发明实施例中，需要对待测试视频中的动作进行识别，判断出视频中所包含的动作类型。

在本发明实施例中可以将属于同一动作类型的多个连续的帧图片作为一个视频流。在一个待测试的视频中可能包含有多个动作类型，也即可以将待测试的视频划分成多个视频流。每个视频流中动作识别的过程类似，接下来将以一个视频流的处理过程为例展开介绍。

模糊特征提取算法能够量化视频流，将待测试的视频中的每一帧图片提取出来，一帧图片对应有一个矩阵信息，通过将该矩阵信息进行合并处理，可以得到对应的姿势向量。

姿势向量反映的是帧图片所对应的图片信息。一个视频流中可以包含有多个帧图片，每个帧图片有其对应的一个姿势向量。

S102：利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量。

K-means聚类算法用于将得到的多个姿势向量进行分类处理，并通过映射的方式，将姿势向量转化成动作向量。

动作向量是以向量的形式表示动作的类别。

不同的动作类型有其对应的类别，每个类别有其对应的一个基本向量模型。在本发明实施例中，通过分类映射的方式，可以将姿势向量转化为动作向量。

在具体实现中，可以利用如下公式，计算所述姿势向量对应的模糊向量u_ij，

其中，P_ij表示第i个视频流的第j帧图片对应的姿势向量，v_d表示第d个动作类别的基本向量模型，m表示模糊参数且m＞1。

模糊向量和动作向量属于同一种形式的向量。在待测试的视频中可能会存在多个帧图片中包含的动作属于同一个动作类型，利用上述公式，可以计算出这些帧图片各自对应的模糊向量，由于这些模糊向量对应的是同一个动作类型，故此，在本发明实施例中，可以通过计算平均向量的方式，得到模糊向量所对应的动作向量。具体的，可以按照如下公式对所述模糊向量进行处理，计算出对应的动作向量x_i，

其中，N_i表示第i个视频流的帧图片的个数。

S103：查询预先建立的动作识别模型，以确定出所述动作向量对应的动作类型。

在本发明实施例中，可以利用近似核心极限学习机的最小偏差算法，对动作类型已知的视频进行分析，预先建立出动作识别模型，该动作识别模型中存储有动作向量和动作类型的对应关系。通过查询该动作识别模型，便可以直接确定出所述动作向量对应的动作类型。

在建立动作识别模型时，视频中的动作类型为已知信息，因此建立出的动作向量和动作类型的对应关系准确性较高，从而依据该动作识别模型确定出的动作类型的准确性可以得到有效保证。

接下来将对动作识别模型的建立过程展开介绍，如图2所示，该建立过程包括：

S201：利用模糊特征提取算法，从目标视频中获取相应的姿势向量。

在本发明实施例中通过对目标视频进行训练，确定出相应的动作识别模型。其中，目标视频中的动作类型均为已知信息。

在具体实现中，首先将视频中每一帧图片提取出来，从而生成姿势向量P_ij∈R，其中i是视频数，j是第i个视频流的第j帧，j＝1,······,N_i。

在训练的阶段，所有的姿势向量P_ij都来自于目标视频。

S202：利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量。

运用K-means聚类算法，将姿势向量P_ij聚成D类，而这D个类就是各个动作类型的基本向量模型v_d∈R，d＝1,······,D。

通过将P_ij投影，得到模糊向量u_ij∈R^D，其中投影的公式为

最后通过公式

计算出模糊向量的平均向量x_i，用x_i∈R^D来表示第i个视频流的动作向量。

S203：利用近似核心极限学习机的最小偏差算法，计算所述动作向量与所述动作类型的权重系数。

S204：依据所述权重系数，确定出所述动作向量和所述动作类型的对应关系，以完成动作识别模型的建立。

在本发明实施例中，近似核心极限学习机的最小偏差算法是在极限学习机的基础上引入近似核心和最小偏差的处理方式。

确定动作向量和动作类型的对应关系时，需要对目标视频进行多次训练。传统方式中，每次训练过程均需计算核心矩阵。在本发明实施例中，采用近似核心的处理方式对目标视频进行训练，只需计算一次核心矩阵，在后续训练过程中依据该次计算出的核心矩阵进行训练即可。通过近似核心的处理方式，有效提升了模型训练的效率。

采用近似核心的处理方式对模型训练的精度影响很小，并且在本发明实施例中，为了提升模型训练的精度，引入了最小偏差的处理方式。

其中，最小偏差的处理方式是指采用多视角处理，对同一个动作类型在不同视角下的视频进行映射整合处理，以提升模型训练的精度。

为了便于计算机分析识别，在本发明实施例中，可以将动作类型转化成向量的形式表示。权重系数用于表示动作向量和动作类型之间的关联关系。

通过上述模糊特征提取操作，能够获得动作向量x_i∈R^D。用X表示N个动作向量的数据集，c_i是它对应的每个动作类型的标签，c_i∈{1,······,C}。

一个近似核心极限学习机算法的神经网络包含着输入层D，隐藏层L，输出层C。神经网络的目标向量元素为t_i＝[t_i1,...t_iC]^T，每个元素对应于一个动作向量x_i，如果它被设置为t_ik＝1的话，那么他就属于k类，以此类推。我们知道，在神经网络中，有了输入权重W_in∈R^D×L，和隐藏层的偏差值b∈R^L，就可以算出输出权重W_out∈R^L×C。

用q_j表示为W_in的第j列，w_k表示W_out的第k行，w_kj表示w_k的第j个元素。通过一个激励函数Φ(·)，能够得到一个向量o_i＝[o_i1,...,o_iC]^T，表达式为

我们把上述过程转换成用矩阵形式的话，有以下表示，隐藏层网络的输出为φ_i∈R^L，它所对应的动作向量x_i,i＝1,······,N，矩阵形式为Φ＝[φ₁,...,φ_N]^T。存在表达式

O∈R^C×N是一个对应于动作向量x_i，的响应。

假设o_i＝t_i，i＝1,······,N，或者说矩阵表示为O＝T，其中T＝[t₁,...,t_N]是目标向量的矩阵形式，网络的输出权重W_out可以通过

计算出来，其中，

最终，我们计算出来输出权重W_out，运用表达式

就可以进行分类计算。

若x_l∈R^D，就有

其中，φ_l是x_i的网络隐藏层输出。

通常情况下，在计算权重W_out的过程，我们会加入约束计算，从而达到更高的精度。其中正则化约束的表达式为：

ξ_i∈R^C是对应于x_i的最小错误向量，参数λ>0。

加入约束计算后，获得权重的计算就为：

其中K∈R^N×N就是极限学习机的核心矩阵。核心矩阵的元素

分类的表达式就为：

A＝TQ，

k_l∈R^N是元素为

i＝1,…,N的一个向量。

在近似核心极限学习机中，我们引入了

其中E是一个单位矩阵，M∈R^N ^×n是元素为M_ii＝1和M_ij＝0(i≠j)的一个矩阵，设置成O＝T表达的话，就有：

是原核心矩阵K∈R^N×N的一个副矩阵，那么就有

因此对于x_l∈R^D的输出就为：

此时，我们在近似核心极限学习机的基础上加入最小偏差约束计算，表达式为：

其中，S＝ΦLΦ^T，L＝D-V，D的元素为

V∈R^N×N的元素是来自于Φ的拉普拉斯投影。那么存在表达式：

令▽_AJ_MVAKELM＝0，有

经由主要成分分析，有表达式

e∈R^N是单位向量，则

所以，我们通过对A的计算分析以后得出近似核心极限学习机的最小偏差算法的时间复杂度为O((2p²+p)N³+(p²+p+0.5)N²+CN)，这比极限学习机算法的时间复杂度低。并且通过实验发现，近似核心极限学习机的最小偏差算法有着较高的精度。

在本发明实施例中，采用近似核心极限学习机的最小偏差算法，确定动作向量和动作类型的对应关系。在保持高识别精度的情况下，降低了计算复杂度、减少了运存损耗，提高了动作识别的速率。

动作类型往往多种多样，当出现一个新的动作类型时，可能在预先建立的动作识别模型中并不涵盖该动作类型，此时依据上述动作识别的流程，可能无法识别出视频中的动作类型，为了便于提醒管理人员对该种情况进行及时的处理，可以设置相应的提示机制。具体的，当无法确定出所述动作向量对应的动作类型时，则向目标设备发送提示信息。

目标设备可以是管理人员所使用的设备，例如手机、电脑等。

在执行动作识别的系统中可以预先存储目标设备的相关信息，以便于可以及时向目标设备发送提示信息。

目标设备类型不同，其对应的相关信息可以有所不同。例如，当目标设备为电脑时，目标设备的相关信息可以是目标设备的IP地址；当目标设备为手机时，目标设备的相关信息可以是手机号。

通过向目标设备发送提示信息可以及时提醒管理人员对无法识别动作类型的视频进行处理。

为了保证后续进行动作识别时，可以识别出新出现的动作类型，可以对预先建立的对应关系进行补充完善。

具体的，可以接收所述目标设备反馈的动作类型；利用近似核心极限学习机的最小偏差算法，确定出待处理的动作向量和所述动作类型的对应关系，并将所述对应关系存储于预先建立的所述动作向量和动作类型的对应关系中。

待处理的动作向量即为上述步骤中未确定出动作类型的动作向量。

通过模糊特征提取和K-means聚类，可以获取到待测试的视频的动作向量，当获取到目标设备反馈的动作类型时，此时动作向量和动作类型为已知信息，依据上述S203和S204的操作步骤，可以计算出该动作向量和动作类型的权重系数，从而确定出该动作向量和动作类型的对应关系，并将该对应关系存储于预先建立的动作识别模型中，以补充完善预先建立的对应关系。

在本发明实施例中，也可以对建立的对应关系进行修改、调整等操作，其原理与上述补充过程类似，在此不再赘述。

图3为本发明实施例提供的一种动作识别的装置的结构示意图，所述装置包括提取单元31、得到单元32和查询单元33；

所述提取单元31，用于利用模糊特征提取算法，从待测试的视频中提取相应的姿势向量；

所述得到单元32，用于利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量；

所述查询单元33，用于查询预先建立的动作识别模型，以确定出所述动作向量对应的动作类型；其中所述动作识别模型的建立依据于近似核心极限学习机的最小偏差算法。

可选的，还包括计算单元和确定单元；

所述提取单元还用于利用模糊特征提取算法，从目标视频中获取相应的姿势向量；其中，所述目标视频对应的动作类型为已知信息；

所述得到单元还用于利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量；

所述计算单元，用于利用近似核心极限学习机的最小偏差算法，计算所述动作向量与所述动作类型的权重系数；

可选的，所述得到单元包括映射子单元和处理子单元；

其中，N_i表示第i个视频流的帧图片的个数。

可选的，还包括发送单元；

可选的，还包括接收单元和存储单元；

所述接收单元，用于接收所述目标设备反馈的动作类型；

所述存储单元，用于利用近似核心极限学习机的最小偏差算法，确定出待处理的动作向量和所述动作类型的对应关系，并将所述对应关系存储于预先建立的所述动作向量和动作类型的对应关系中

图3所对应实施例中特征的说明可以参见图1和图2所对应实施例的相关说明，这里不再一一赘述。

以上对本发明实施例所提供的一种动作识别的方法和装置进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种动作识别的方法，其特征在于，包括：

查询预先建立的动作识别模型，以确定出所述动作向量对应的动作类型；其中所述动作识别模型的建立依据于近似核心极限学习机的最小偏差算法；

其中，所述近似核心极限学习机的最小偏差算法是在极限学习机引入近似核心得到近似核心极限学习机的基础上，加入最小偏差的处理方式得到的；所述近似核心处理方式是指只需计算一次核心矩阵，后续训练过程中依据所述核心矩阵进行训练；所述最小偏差的处理方式是指采用多视角处理，对同一个动作类型在不同视角下的视频进行映射整合处理；

在近似核心极限学习机的基础上加入最小偏差的处理方式，获得所述近似核心极限学习机的最小偏差算法的表达式为：

其中，参数λ>0，Φ＝[φ₁,...,φ_N]^T，φ是动作向量x_i的隐藏层网络输出的矩阵形式，φ₁是隐藏层网络的输出所对应的第1个动作向量x₁的矩阵向量，φ_N是隐藏层网络的输出所对应的第N个动作向量x_N的矩阵向量，T＝[t₁,...,t_N]是目标向量的矩阵形式，S＝ΦLΦ^T，L＝D-V，D的元素为

V_ij表示矩阵V第i行第j列个元素，V∈R^N×N的元素是来自于Φ的拉普拉斯投影，R^N×N表示一个NⅹN的实数矩阵，N为N个动作向量，W_out为输出权重，

2.根据权利要求1所述的动作识别的方法，其特征在于，所述动作向量和动作类型的对应关系的建立过程包括：

3.根据权利要求1或2所述的动作识别的方法，其特征在于，所述利用K-means聚类算法，对所述姿势向量进行聚类分析，得到离散化的动作向量包括：

利用如下公式，计算所述姿势向量对应的模糊向量u_ij，

其中，N_i表示第i个视频流的帧图片的个数。

4.根据权利要求1所述的动作识别的方法，其特征在于，还包括：

5.根据权利要求4所述的动作识别的方法，其特征在于，还包括：

6.一种动作识别的装置，其特征在于，包括提取单元、得到单元和查询单元；

所述查询单元，用于查询预先建立的动作识别模型，以确定出所述动作向量对应的动作类型；其中所述动作识别模型的建立依据于近似核心极限学习机的最小偏差算法；其中，所述近似核心极限学习机的最小偏差算法是在极限学习机引入近似核心得到近似核心极限学习机的基础上，加入最小偏差的处理方式得到的；所述近似核心处理方式是指只需计算一次核心矩阵，后续训练过程中依据所述核心矩阵进行训练；所述最小偏差的处理方式是指采用多视角处理，对同一个动作类型在不同视角下的视频进行映射整合处理；在近似核心极限学习机的基础上加入最小偏差的处理方式，获得所述近似核心极限学习机的最小偏差算法的表达式为：

7.根据权利要求6所述的动作识别的装置，其特征在于，还包括计算单元和确定单元；

8.根据权利要求6或7所述的动作识别的装置，其特征在于，所述得到单元包括映射子单元和处理子单元；

其中，N_i表示第i个视频流的帧图片的个数。

9.根据权利要求6所述的动作识别的装置，其特征在于，还包括发送单元；

10.根据权利要求9所述的动作识别的装置，其特征在于，还包括接收单元和存储单元；

所述接收单元，用于接收所述目标设备反馈的动作类型；