CN111401209A

CN111401209A - 一种基于深度学习的动作识别方法

Info

Publication number: CN111401209A
Application number: CN202010167013.3A
Authority: CN
Inventors: 张宏; 叶汉京; 何力; 管贻生; 黄兴鸿; 陈广诚
Original assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Current assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-10
Anticipated expiration: 2040-03-11
Also published as: CN111401209B

Abstract

本发明公开了一种基于深度学习的动作识别方法，包括如下步骤：对视频帧F进行提取，划分为T*16帧；对每16帧f_i进行光流提取得到相应光流图；利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取，分别得到两个特征向量x_original和x_optical；将获得的两个特征向量串联在一起得到特征向量x_i，维度为d₁；重复上述步骤并行处理T次，最终得到一个维度为(d₁,T)的特征矩阵X；通过一个以注意力机制为核心构建的一个网络，得到权值矩阵A；将权值矩阵A代入公式M＝A*X^T获得新的特征矩阵M；将新的特征矩阵M输入至LSTM网络，再经过全连接层的降维，得到特征向量X_final；最后利用softmax进行分类，取最大值对应的类别为所识别的动作类别。

Description

一种基于深度学习的动作识别方法

技术领域

本发明涉及计算机视觉识别技术领域，尤其涉及一种基于深度学习的动作识别方法。

背景技术

随着计算机视觉技术、机器学习技术、特别是深度学习技术的发展，人体行为识别领域得到了长足的进步，并且该领域具有广阔的应用前景，如人机交互、监控无人化、健身训练、医学仿真等等。

随着健身产业的兴起，越来越多的人希望能够得到更多的健身动作指导，但是由于场地和专业人员的有限，人们往往未能够得到实时且准确的指导。但是，我们可以借助于人体行为识别技术，做到足不出户便可以知道所做的健身动作正确与否。且相较于较为复杂多样的行为动作识别，健身动作识别的可操作性更强。因为健身动作通常是在固定视角下，且主体在做重复且频率相对一致的健身动作，如深蹲、俯卧撑、桥等等。如此背景单一、主体运动单一的健身动作可以较为轻易地被机器学习模型所学习。

传统的动作识别与评判方法，通常是利用基于光度梯度的局部特征检测算法从视频中提取显著光度变化的兴趣点，然后运用专家知识对其进行空间特性、时间特性或时空特性进行描述；最后在特征空间中建立模型进行学习，如支持向量机、高斯判别模型等。但是此类方法得到的模型泛化性不强。

近年来，深度学习的发展十分迅猛，深度学习能够有效地从信息中提取特征，特别是卷积神经网络在图像领域的特征表示，但是其不能直接应用于人体行为此类具有三维信息的视频。

且由于健身视频中拍摄的角度不同、动作人的频率不同、动作的多样性等等，使得同一健身动作具有多义性。所以现有的技术根据人体关节点如流程图般定义的判断方法是难以泛化的。

而一段健身视频中的有效健身片段是不确定的，所以现有的技术仅仅利用递归模型，如LSTM、贝叶斯滤波、GNU等，往往效果不好，因为它们将无效片段也引入递归模型，使得模型的表现不佳。因此，现有技术需要进一步改进和完善。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习的动作识别方法。

本发明的目的通过下述技术方案实现：

一种基于深度学习的动作识别方法，该识别方法主要包括如下步骤：

步骤S1：对视频帧F进行提取，划分为T*16帧，即F＝(f₁,f₂,...,f_T)；

步骤S2：对每16帧f_i进行光流提取得到相应的16张光流图；

步骤S3：利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取，分别得到两个特征向量x_original和x_optical；

步骤S4：将获得的两个特征向量串联在一起得到特征向量x_i，维度为d₁；

步骤S5：重复上述步骤并行处理T次，最终得到一个维度为(d₁,T)的特征矩阵X；

步骤S6：通过一个以注意力机制为核心构建的一个网络，得到权值矩阵A；

步骤S7：将权值矩阵A代入公式M＝A*X^T获得新的特征矩阵M；

步骤S8：将新的特征矩阵M输入至LSTM网络，再经过全连接层的降维，得到特征向量X_final；

步骤S9：最后利用softmax进行分类，取最大值对应的类别为所识别的动作类别。

作为本发明的优选方案，所述步骤S1中，如果视频帧F不足16帧，则对最后一帧图像进行复制补充即可。

作为本发明的优选方案，所述步骤S2的多尺度包含多空间尺度和多时间尺度。

作为本发明的优选方案，所述步骤S1还包括将视频每一帧图片缩放成224*224像素大小。

本发明的工作过程和原理是：本发明提供一种基于图像流加光流的双流法、3D卷积、多尺度信息融合和注意力机制的深度学习方法，用以有效地解决动作识别面临的多义性、多方式、有效动作序列难以确定等等问题。该方法可以利用任意健身动作视频作为训练集进行训练，不需要截取有效片段。

与现有技术相比，本发明还具有以下优点：

(1)本发明所提供的基于深度学习的动作识别方法通过光流提取技术能够充分地利用健身动作的光度梯度变化信息，增强识别效果。

(2)本发明所提供的基于深度学习的动作识别方法利用多尺度的3D卷积神经网络可以有效地提取视频特征，对视频进行准确、全面的表征。

(3)本发明所提供的基于深度学习的动作识别方法采用注意力机制网络，通过训练使其能够加权选择出真正有效的健身运动片段，提高识别效果。

附图说明

图1是本发明所提供的基于深度学习的动作识别方法的结构示意图。

图2是本发明所提供的基于深度学习的动作识别方法的实施例2的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明作进一步说明。

实施例1：

如图1所示，本实施例公开了一种基于深度学习的动作识别方法，该识别方法主要包括如下步骤：

步骤S2：对每16帧f_i进行光流提取得到相应的16张光流图；

步骤S7：将权值矩阵A代入公式M＝A*X^T获得新的特征矩阵M；

本发明的工作过程和原理是：本发明提供一种基于图像流加光流的双流法、3D卷积、多尺度信息融合和注意力机制的深度学习方法，用以有效地解决健身动作识别面临的多义性、多方式、有效动作序列难以确定等等问题。该方法可以利用任意健身动作视频作为训练集进行训练，不需要截取有效片段。

实施例2：

本实施例公开了一种基于深度学习的动作识别方法，其整体框架如图1所示，而图2为该模型结构的详细参数以及模型运行步骤：

1、将视频每一帧图片缩放成224*224大小，并且以16帧为单位划分成(f₁,f₂,...,f_T)共T个片段；运用TVL1光流法对f_i进行光流提取，得到16张x和y方向的光流图。

2、16帧RGB图像(维度：224*224*3)和光流图(维度：224*224*2)分别通过结构相同的3D卷积神经网络，3D卷积神经网络结构如图2所示。数字含义代表：3D卷积核(卷积核个数*深度*宽度*高度，步长，(填充))，池化层(深度*宽度*高度，步长)。该结构中所用的激活函数为ReLU。

3D卷积层1通过不同深度的卷积核并行处理原始输入数据，进而有效地捕捉了视频的短、中、长的外观和时间特征，如此可以有效地提升模型的特征提取能力，使得后续的特征向量表征更为丰富与准确。而卷积层4类似于GoogleNet的Inception模块，通过如此多个空间尺度的特征提取和融合，同样可以增强后续特征向量的表达。而最终的全连接层1和2的作用在于非线性化处理RGB和光流串联的特征向量，如此有利于降维和提高最终特征向量的表征泛化能力。最终得到特征向量x_i(4096,1)。如上并行处理(f₁,f₂,...,f_T)，最终得到特征向量(x₁,x₂,...,x_T)。

3、将步骤2得到的特征向量(x₁,x₂,...,x_T)并联在一起，得到维度为(4096,T)的特征矩阵X。注意力机制网络实际上就是线性降维与非线性化的组合，如此以得到原特征矩阵的加权值。通过数据集学习，该加权值将为较为重要的时间片段赋予较大的权值。特征矩阵X输入至注意力机制网络，输出权值矩阵A，公式如下所示：

A＝σ₁(W_S2σ₂(W_S1F))

σ₁和σ₂分别为softmax,hyperbolic tangent函数，W_S1和W_S2维度分别为(2048,4096),(1024,2048)。求得的A维度为(1024,T)

于是新的特征矩阵M可由权值矩阵A线性求解得到，公式如下所示：

M＝A*X^T

M的维度为(1024,4096)。

4、将步骤3得到的特征矩阵M输入至LSTM网络，再经过全连接层的降维，得到特征向量X_final，最后利用softmax进行分类，取最大值对应的类别为所识别的健身动作类别。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的动作识别方法，其特征在于，包括如下步骤：

步骤S2：对每16帧f_i进行光流提取得到相应的16张光流图；

步骤S7：将权值矩阵A代入公式M＝A*X^T获得新的特征矩阵M；

2.根据权利要求1所述的基于深度学习的动作识别方法，其特征在于，所述步骤S1中，如果视频帧F不足16帧，则对最后一帧图像进行复制补充即可。

3.根据权利要求1所述的基于深度学习的动作识别方法，其特征在于，所述步骤S2的多尺度包含多空间尺度和多时间尺度。

4.根据权利要求1所述的基于深度学习的动作识别方法，其特征在于，所述步骤S1还包括将视频每一帧图片缩放成224*224像素大小。