CN109325440B

CN109325440B - 人体动作识别方法及系统

Info

Publication number: CN109325440B
Application number: CN201811091488.8A
Authority: CN
Inventors: 崔星星; 和锐
Original assignee: Shenzhen Yingshi Sports Technology Co ltd
Current assignee: Shenzhen hongjindi sports intelligence Co.,Ltd.
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2021-04-30
Anticipated expiration: 2038-09-19
Also published as: CN109325440A

Abstract

本发明公开了一种人体动作识别方法及系统，方法包括：获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，并提取分割后的动作序列，获得若干时序帧；采用预设网络模型对若干时序帧进行特征提取，获得特征矩阵；采用预设的LSTM网络模型，对所述特征矩阵进行分类识别，得到人体动作识别结果。本发明用预训练好的深度模型能够充分提取图像的丰富特征，其次对于分类任务，传统机器学习算法对时序复杂问题表现力不足，本发明采用长短期记忆网络(LSTM)正是解决时序问题的有效方法。仅需一个摄像头，具有成本低、实时检测、准确性高等优点。

Description

人体动作识别方法及系统

技术领域

本发明涉及深度学习中人体动作识别技术领域，尤其涉及一种人体动作识别方法及系统。

背景技术

目前，在人体动作识别技术中，通常采用如下几种方式：

(1)对于接触式的识别广泛采用便携式的可穿戴工具传感器实时记录人体动作数据，包括加速度、角速度、GPS等，运用一定的数理统计方法进行识别判断。

(2)对于非接触式的识别一般先对识别目标ROI进行定位，然后用人工设计的特征对输入图像进行特征提取，然后采用一些分类算法(比如KNN、SVM算法)进行分类。

(3)近年来，随着深度学习技术的发展，基于预训练的深度网络、人体关节点坐标实时提取、长短期记忆网络深度技术，给人体动作识别带来了新的方向。

但是，现有的人体动作识别技术，存在以下缺点：

(1)以网球运动员为例，当网球运动员进行运动时，可穿戴设备对运动员会造成一种运动不便性，另外附带的传感器相对普通的摄像头价格高昂。

(2)网球运动员一个动作是一个多帧的连续时间序列，单帧图片无法判断球员的动作，使得人工设计的特征提取存在一定的局限性。

(3)人体关节点的2D坐标信息作为动作特征欠缺丰富性，不能够完全代表球员的整个动作过程，特征信息存在损失。

发明内容

本发明提供一种可以提高人体动作识别准确性，且成本低并能够实时检测的人体动作识别方法及系统。

为实现上述目的，本发明提供一种人体动作识别方法，所述人体动作识别方法包括以下步骤：

获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，并提取分割后的动作序列，获得若干时序帧；

采用预设网络模型对若干时序帧进行特征提取，获得特征矩阵；

采用预设的LSTM网络模型，对所述特征矩阵进行分类识别，得到人体动作识别结果。

其中，所述获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，并提取分割后的动作序列，获得若干时序帧的步骤包括：

获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，将分割后的动作序列输入预训练识别模型进行识别，提取动作序列，并获得预测分数，将预测分数低于预设分数阈值的动作序列舍弃，将预测分数高于预设分数阈值的动作序列保存，得到保存的动作序列的若干时序帧。

其中，所述采用预设网络模型对若干时序帧进行特征提取，获得特征矩阵的步骤包括：

采用inception-v3网络模型对若干时序帧按照时间顺序进行图像特征提取，每张图像可以获得2048维特征向量，一个序列可以获得2048*S的特征矩阵，其中，S为该序列的总帧数。

其中，所述采用预设的LSTM网络模型，对所述特征矩阵进行分类识别，得到人体动作识别结果的步骤包括：

所述LSTM网络模型包括若干LSTM单元，第一个LSTM单元采用初始网络状态和序列的第一个时间步进行预测，并将更新的网络状态输出到下一个LSTM单元，其中，每个LSTM单元从前一单元获取更新的网络状态并输出预测和新的更新的网络状态。

其中，所述获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，并提取分割后的动作序列，获得若干时序帧的步骤之前还包括：

设计LSTM网络模型。

其中，所述设计LSTM网络模型的步骤包括：

确定特征向量维度和LSTM隐含层单元个数；

根据预设的若干个动作类别进行监督训练，得到LSTM网络模型。

其中，所述人体动作识别至少包括：网球运动员动作识别。

本发明还提出一种人体动作识别系统，包括存储器、处理器、以及存储在所述存储器上的人体动作识别程序，所述人体动作识别程序被所述处理器运行时实现如上所述的人体动作识别方法的步骤。

本发明的有益效果为：对于球员的动作识别，用传统方法较难对球员的动作进行分析，主要在于特征的选择，在计算力和大数据的背景下，本发明用预训练好的深度模型能够充分提取图像的丰富特征，其次对于分类任务，传统机器学习算法对时序复杂问题表现力不足，本发明采用长短期记忆网络(LSTM)正是解决时序问题的有效方法。本发明基于深度学习技术，仅需一个摄像头，具有成本低、实时检测、准确性高等优点。

附图说明

图1是本发明人体动作识别方法实施例的流程示意图；

图2是本发明实施例中动作时间序列分割流程示意图；

图3是LSTM原理结构图；

图4是LSTM单元示意图；

图5是球员动作识别流程图；

图6是本发明的总流程示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参照图1，图1是本发明提出的人体动作识别方法实施例的流程示意图。

如图1所示，本发明实施例提出一种人体动作识别方法，所述人体动作识别方法包括以下步骤：

步骤S1，获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，并提取分割后的动作序列，获得若干时序帧；

步骤S2，采用预设网络模型对若干时序帧进行特征提取，获得特征矩阵；

步骤S3，采用预设的LSTM网络模型，对所述特征矩阵进行分类识别，得到人体动作识别结果。

其中，设计LSTM网络模型的步骤包括：

确定特征向量维度和LSTM隐含层单元个数；

根据预设的7个动作类别进行监督训练，得到LSTM网络模型。

所述采用预设网络模型对若干时序帧进行特征提取，获得特征矩阵的步骤包括：

所述采用预设的LSTM网络模型，对所述特征矩阵进行分类识别，得到人体动作识别结果的步骤包括：

以下对本发明实施例方案进行详细阐述：

具体地，本发明方案应用场合广泛，包括但不仅限于网球运动员动作识别，其他运动项目识别分类，文本数据预测，语音识别等。本实施例以网球运动员动作识别进行举例。

网球运动员各类动作行为的识别，包括发球，单反，双反，反手截击，正手截击，正手，高压7个动作，其中，识别技术在其他智能领域也具有参考意义，动作类别根据实际情况设定。

本发明方案包含两个部分：CNN提取图像特征，LSTM预测分类结果。

主要概括为：对视频中的人体进行ROI分割，然后对其进行一段动作序列提取，获得的若干时序帧，用inception-v3网络进行特征提取，每张图像可以获得2048维特征向量，一个序列可以获得2048*S的特征矩阵。设计LSTM网络结构，主要是维度的确定和LSTM隐含层单元个数的确定，对于复杂任务，适当增加LSTM层数和隐含单元个数，最后根据7个动作类别进行有监督的训练。训练好后的网络对于新的样本特征输入到网络，即可进行识别。

更为具体地，对于动作时间序列分割：

一个比较完整的动作序列分割决定着识别的准确率，本发明中，通过视频自动识别分割和人工确认的方法进行。具体为输入一段视频，根据预训练的识别模型进行识别，给定一分数阈值，对于预测分数较低于阈值的就舍弃，高于分数阈值的就保存该序列。最后人工调整及确认该动作序列。流程如图2所示。

对于inception-v3提取图像序列特征：

针对上一步的结果，按照时间顺序提取图像特征，输入图像大小为299*299*3，提取“avg_pool”层的特征，使得这一层的特征reshape到2048*1大小，设第i个序列提取的特征矩阵大小为2048*S，每一列为单帧图像的特征，S为该序列的总长度。

对于LSTM网络分类：

LSTM是RNN网络中的一种，可以学习长期依赖的问题。一个LSTM单元中有4个不同的结构，分别为input gate、forget gate、input modulation gate、output gate，他们以一种非常特殊的方式进行交互，如图3、图4所示。

具体其交互方式为：图3是图5中LSTM层的具体内部结构，而图4是图3中LSTM单元的内部结构。图3中的X为特征矩阵，t为动作序列的时刻值，D为特征矩阵的维度，S为动作序列的长度，其余数学符号由以下公式所述。

其计算公式如下：

细胞状态(cell state)：

c_t＝f_t⊙c_t-1+i_t⊙g_t

输出状态(output state):

h_t＝o_t⊙tanh(c_t)

输入门(input gate):

i_t＝σ(W_ix_t+R_ih_t-1+b_i)

遗忘门(forget gate):

f_t＝σ(W_fx_t+R_fh_t-1+b_f)

输入调制门(input modulation gate):

g_t＝σ(W_gx_t+R_gh_t-1+b_g)

输出门(output gate):

o_t＝σ(W_ox_t+R_oh_t-1+b_o)

其中，

分别表示输入权重，递归权重，偏置权重；符号⊙表示哈达玛乘积；σ(x)为

LSTM工作方式为：第一个LSTMUnit采用初始网络状态和序列的第一个时间步进行预测，并将更新的网络状态输出到下一个LSTM单元。每个LSTM单元从前一单元获取更新的网络状态并输出预测和新的更新的网络状态。

对于分类任务，其具体流程如图5所示。

分类网络的工作方式为：通过输入已知的动作序列图像到网络，网络将信息特征逐层传递到最后层，同时通过与最后层计算的误差进行反向传播，不断迭代调整各个层的权重和偏差，从而学习一个可以分类的深度网络。

本发明实施例的动作识别总流程如图6所示，主要包括动作序列分割、Inception-v3特征提取、LSTM学习网络分类三大部分。

相比现有技术，对于球员的动作识别，用传统方法较难对球员的动作进行分析，主要在于特征的选择，在计算力和大数据的背景下，本发明用预训练好的深度模型能够充分提取图像的丰富特征，其次对于分类任务，传统机器学习算法对时序复杂问题表现力不足，本发明采用长短期记忆网络(LSTM)正是解决时序问题的有效方法。本发明基于深度学习技术，仅需一个摄像头，具有成本低、实时检测、准确性高等优点。

此外，本发明还提出一种人体动作识别系统，包括存储器、处理器、以及存储在所述存储器上的人体动作识别程序，所述人体动作识别程序被所述处理器运行时实现如上所述的人体动作识别方法的步骤。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，电视机，电脑等)执行本发明各个实施例的方法。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种人体动作识别方法，其特征在于，所述人体动作识别方法包括以下步骤：获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，并提取分割后的动作序列，获得若干时序帧；采用预设网络模型对若干时序帧进行特征提取，获得特征矩阵；采用预设的LSTM网络模型，对所述特征矩阵进行分类识别，得到人体动作识别结果；

所述获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，并提取分割后的动作序列，获得若干时序帧的步骤包括：获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，将分割后的动作序列输入预训练识别模型进行识别，并获得预测分数，将预测分数低于预设分数阈值的动作序列舍弃，将预测分数高于预设分数阈值的动作序列保存，得到保存的动作序列的若干时序帧。

2.根据权利要求1所述的人体动作识别方法，其特征在于，所述采用预设网络模型对若干时序帧进行特征提取，获得特征矩阵的步骤包括：采用inception-v3网络模型对若干时序帧按照时间顺序进行图像特征提取，每张图像可以获得2048维特征向量，一个序列可以获得2048*S的特征矩阵，其中，S为该序列的总帧数。

3.根据权利要求1所述的人体动作识别方法，其特征在于，所述采用预设的LSTM网络模型，对所述特征矩阵进行分类识别，得到人体动作识别结果的步骤包括：所述LSTM网络模型包括若干LSTM单元，第一个LSTM单元采用初始网络状态和序列的第一个时间步进行预测，并将更新的网络状态输出到下一个LSTM单元，其中，每个LSTM单元从前一单元获取更新的网络状态并输出预测和新的更新的网络状态。

4.根据权利要求1-3中任一项所述的人体动作识别方法，其特征在于，所述获取采集的人体视频图像，对所述人体视频图像中的人体进行动作序列分割，并提取分割后的动作序列，获得若干时序帧的步骤之前还包括：设计LSTM网络模型。

5.根据权利要求4所述的人体动作识别方法，其特征在于，所述设计LSTM网络模型的步骤包括：确定特征向量维度和LSTM隐含层单元个数；根据预设的若干个动作类别进行监督训练，得到LSTM网络模型。

6.根据权利要求4所述的人体动作识别方法，其特征在于，所述人体动作识别至少包括：网球运动员动作识别。

7.一种人体动作识别系统，其特征在于，包括存储器、处理器、以及存储在所述存储器上的人体动作识别程序，所述人体动作识别程序被所述处理器运行时实现如权利要求1-6中所述的人体动作识别方法的步骤。