CN109948475B

CN109948475B - 一种基于骨架特征和深度学习的人体动作识别方法

Info

Publication number: CN109948475B
Application number: CN201910167706.XA
Authority: CN
Inventors: 姚剑; 汪颖夫; 许哲源; 涂静敏
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2021-03-16
Anticipated expiration: 2039-03-06
Also published as: CN109948475A

Abstract

本发明提出了一种基于骨架数据和深度学习的人体动作识别方法，用于提高基于骨架的人体动作识别效果。本发明针对基于骨架的动作识别任务，设计了一个多特征学习网络，具有数个独立学习的网络流，能够鲁棒的处理针对不同维度的各低维特征，并有效的将其经过网络学习进行高维特征的特征融合，实现通过人体骨架运动精确识别人体动作。本发明对于不同的相机视角，动作类别及实施对象均有良好的识别效果。相对于目前的方法，本方法具有更好的动作识别精度，且相对于绝大部分基于深度学习的方法有更好的计算效率。

Description

一种基于骨架特征和深度学习的人体动作识别方法

技术领域

本发明属于视频图像处理技术领域，特别是涉及一种基于骨架特征和深度学习技术的人体动作识别方法

背景技术

由深度相机采集的人体骨架序列，具有旋转不变性和尺度不变性等优良性质。因而，相对于基于视频数据的人体动作识别，基于骨架序列的人体动作识别方法在处理遮挡及复杂场景等问题时具有显著优势。要想利用骨架序列去识别人体动作，一个关键的步骤是提取骨架序列节点之间的特征。只有获取或学习到有效的骨架特征，才能实现对人体动作的精确识别。

现有的基于骨架的人体动作识别主要分为以下两种方法：基于手工骨架特征的人体动作识别和基于深度学习技术的人体动作识别。在基于深度学习技术的人体动作识别方法中，又可细分为基于递归神经网络(Recurrent Neural Network,RNN)和基于卷积神经网络(Convolutional Neural Network，CNN)的方法。

基于手工骨架特征的人体动作识别方法是先针对骨架数据和待识别动作，设计对人体动作或人体-对象交互有概况性的特征描述子。这些特征通常具有旋转不变性，对时序数据有较强的鲁棒性，能够一定程度处理数据缺失或置信度不高等问题。这些方法不需要大型数据集进行特征学习，可以直接对待识别任务进行部署，且运算量较小，无需高算力硬件加速运算。但识别精度很差，特征本身对动作和场景的鲁棒性较弱，当面对复杂识别任务时无法有效实现动作精确识别，因此目前几乎不再被单独使用。

基于递归神经网络的方法是将每帧的骨架作为神经网络的一个输入，通过学习各种递归神经网络，实现对整个动作类别的预测。长短期记忆网络(Long-Short TermMemory,LSTM)被认为是目前处理长时间序列关联问题的一种较好的解决方案，能够有效解决普通递归神经网络中存在的梯度弥散等问题，因此该方法被有效移植到基于骨架数据的动作识别中。这些方法通常能够有效学习骨架在时序上的特征，相较基于手工特征的方法精度得到了很大的提高，但是缺少对于骨架在空间特征和结构化特征的学习。因此基于递归神经网络的方法的识别精度距离实际应用还有较大的距离，目前该类方法仍有较少的研究。

基于卷积神经网络的方法是将骨架序列视为一个多维矩阵，其中包括骨架帧数，骨架节点数，特征数，动作人数等，通过在各维度序列相邻节点之间共享卷积核参数的方式学习各动作在时空关系上的骨架特征。其中，空间坐标和骨架光流是两个常用输入特征，分别用于学习该动作在空间维度和时间维度上的特征。这类方法是目前这一领域中最常用的方法，并且凭借卷积神经网络强大的学习能力在动作识别结果上取得了最好的精度表现，但是在特征学习方式和动作识别精度上，仍有很大的提高空间。

目前，缺少一种基于骨架特征和深度学习技术的人体动作识别方法能够对不同的低级输入特征进行鲁棒的学习，并对得到的高层次特征有效融合映射到动作类别上。

本发明对骨架获取方式没有限制，适用于基于结构光、多目视觉、飞行时间距离原理等方法的深度相机。本发明对低层次特征输入没有限制，包括并不仅限于空间坐标，骨架光流，节点图邻接矩阵等网络特征输入。

发明内容

为了解决以上方法中存在的问题，进一步提高基于骨架的人体动作识别效果，本发明设计了一种多特征融合网络(Multi-Feature Fusion Net,MFF-Net)，并以此为基础实现了一种基于骨架数据和深度学习技术的人体动作识别方法。本发明测试于Ubuntu16.04操作系统，Python3.7.0程序语言，Pytorch1.0Stable开源深度学习框架，并使用了一颗GTX1080Ti的图形处理器和CUDA9.0(通用并行计算架构)加速神经网络计算。本发明具体包括以下步骤：

步骤1，对深度相机采集的待训练和待识别人体骨架序列进行预处理，获得相应的训练数据和待识别数据；

步骤2，多流神经网络模型训练，包括如下子步骤，

步骤2.1，对步骤1得到的训练数据进行增强；

步骤2.2，利用增强后的训练数据生成多个低维特征，所述多个低维特征分别为骨架的空间维信息，时间维信息和结构维信息；

步骤2.3，设计多流神经网络，并将多个低维特征作为输入对多流神经网络进行训练，获得训练数据对应的动作识别结果；

步骤3，人体动作预测：将步骤1中得到的待识别数据输入到步骤2中经过训练学习后的多流神经网络模型中，输出各骨架序列的动作预测结果。

进一步的，步骤1中对深度相机采集的待训练和待识别人体骨架序列进行预处理的具体实现方式如下，

对于整体待训练和待识别人体骨架序列数据，分别创建一个大小为(N,C,T_max,V,M)的高维矩阵，其中N为骨架序列个数，T_max为骨架序列长度最大值，C为骨架特征数，通常为一个三维的空间坐标，V为该深度相机采集的骨架关节点数目，M为在该序列中出现的最大人数，然后将骨架序列数据中的空间坐标特征输入到该高维矩阵中，不存在的数据用0补齐，得到训练数据和待识别数据，并按照文件名和数据长度，同时记录训练数据对应的标签和各序列对应的序列长度。

进一步的，步骤2.1中对训练数据进行增强的具体实现方式如下，

根据骨架序列长度数据截取该序列中的有效数据，再按照一个随机的百分比去掉该数据的头尾部分序列，然后对该序列进行一个从当前序列长度到网络窗口大小的下采样操作，实现训练数据的数据增强和标准化，其中网络窗口大小由用户自定义。

进一步的，步骤2.2中所述低维特征的具体计算方法如下，

骨架的空间维信息计算如下：

其中V为骨架节点集，即骨架关节点数目，T表示时间节点集，f_t ^spa(t)表示第i个节点的第t个空间维特征，

是第i个节点在时间t时的空间坐标；

时间维信息在骨架数据中视其为在相邻帧之间的差分计算，具体如下式表示：

其中f_t ^opt(i)表示第i个节点的第t个时间维特征；

结构维信息的具体表示如下：

其中A为骨架的邻接矩阵的一维表示，f_t ^adj(i)表示第i个节点的第t个结构维特征。

进一步的，步骤2.3所述多流神经网络中的每一网络流包括时序卷积网络模块和分类器模块，具体结构如下，

所述时序卷积模块包括若干个一维卷积模块和池化层，其中卷积模块由一个卷积层，一个激活函数和一个批标准化层构成；

所述分类器模块包括一个二维卷积层，一个激活函数层，一个批标准化层和一个映射到动作类别的一维卷积层，以及最后的全局池化。

进一步的，步骤2.3中获得训练数据对应的动作识别结果的具体实现方式如下，

步骤2.3.1，对于步骤2.2计算得到的多个低维特征，首先对每一流低维特征进行维度变化操作，再输入到时序卷积模块上，提取高维时序特征，再进行维度变化操作，然后利用若干个二维卷积模块对时间维度和原特征维度进行计算，实现骨架的全局特征学习；

步骤2.3.2，利用晚融合和特征连接的融合策略对多个高维特征进行融合，将原始各流的高维特征和融合后特征分别输入到分类器模块中，得到原始各流的预测结果和融合后预测结果，最后对各流预测结果和融合后预测结果进行一次平均得到最终的动作识别结果。

进一步的，步骤2.3.2中原始各流的预测结果通过最小化以下损失函数获得，

多流神经网络中每个网络流独立的完成一个特征预测，并与真实标签求交叉熵损失函数，后馈调整网络参数，损失函数具体计算方法如下：

其中，x为网络流的输出预测结果，c为输入数据的标签，C表示最大类别数。

本发明针对基于骨架的动作识别任务，设计了一个多特征学习网络，具有数个独立学习的网络流，能够鲁棒的处理针对不同维度的各低维特征，并有效的将其经过网络学习进行高维特征的特征融合，实现通过人体骨架运动精确识别人体动作。此外对于单个骨架序列，在上述运行环境下识别时间约0.002s，证明了本方法具有极高的运行效率。

附图说明

图1：本发明实施的骨架特征图。

图2：本发明实施的神经网络结构图。

图3：本发明实施的特征融合方法图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

本发明提供的一种基于骨架特征和深度学习的人体动作识别方法，具体包括如下步骤：

步骤1，骨架序列预处理。

由深度相机采集的人体骨架序列中，通常每个序列为一个独立的文本文件，其中包括了采集的骨架人数，骨架序列个数等元数据和骨架关节点空间坐标在内的数据。根据骨架元数据，对每个骨架序列开辟一个大小为(C,T_file,V,M)的高维矩阵，其中C为骨架特征数，通常为一个三维的空间坐标，即大小3；T_file为骨架序列长度；V为该深度相机采集的骨架关节点数目；M为在该序列中出现的最大人数。然后将骨架数据中的空间坐标等特征输入到该高维矩阵中，不存在的数据用0补齐。这是本发明采用的单个骨架序列预处理方法。

对于整体待训练数据和待识别数据，分别创建一个大小为(N,C,T_max,V,M)的高维矩阵，其中N为骨架序列个数，T_max为骨架序列长度最大值，其余变量同上文。然后按照上述单个骨架序列预处理方法，将全部骨架序列依次读入矩阵，得到训练数据和待预测数据，并按照文件名和数据长度，同时记录训练数据对应的标签和各序列对应的序列长度。

步骤2，多流神经网络模型训练。

首先对步骤1中得到的训练数据进行数据增强，得到标准化批数据，再计算复数个对骨架数据有概括性的低维特征，分别作为多流神经网络的输入。然后利用时序卷积网络和全局特征学习提取各骨架特征的高维特征，并利用连接的方式在网络末尾，将多流网络生成的高维特征融合到一起，最后使用分类器模块预测初始各流的预测结果和融合后的预测结果，根据标签后馈计算调整模型中的网络参数，循环上述过程实现多流神经网络模型的训练，进一步包括以下子步骤：

步骤2.1，数据输入增强

在一次迭代中，在未训练的数据中随机选取批大小等于Batch_Size的训练数据，使用随机裁剪的策略对各预处理序列进行预处理，具体为：根据序列长度数据截取该序列中的有效数据，再按照一个随机的百分比去掉该数据的头尾部分序列，然后对该序列进行一个从当前序列长度到网络窗口大小的下采样操作，实现训练数据的数据增强和标准化，其中网络窗口大小由用户自定义。

步骤2.2，低级特征生成

如附图1所示，在本发明的实验中，使用了骨架节点空间坐标，骨架节点光流，骨架图邻接矩阵三个常用低维特征作为多流神经网络的特征输入，分别代表骨架的空间维信息，时间维信息和结构维信息，各特征的作用和计算方法如下：

空间维信息：各骨架节点的三维坐标是最简单有效的空间特征，具体如下式表示：

其中T表示时间节点集，f_t ^spa(i)表示第i个节点的第t个空间维特征，

是第i个节点在时间t时的空间坐标。

时间维信息：光流特征是时序特征提取任务中最常用的时间维特征，在骨架数据中可以视其为在相邻帧之间的差分计算，具体如下式表示：

其中f_t ^opt(i)表示第i个节点的第t个时间维特征。

结构维信息：在骨架节点之间的关系是另一个重要的人体动作表征，但经常被研究忽视。本发明以图的数据结构形式表示人体骨架，即G＝(V，E)，其中G为各骨架的图数据，E为骨架节点之间的关系。在节点集V在空间特征中已有所表示的前提下，图结构特征即需要表示骨架节点之间的关系E。本发明中使用节点之间的空间坐标差值作为关系E，也可视为图G的邻接矩阵的一维空间坐标表示，具体如下式所示：

其中A为骨架的邻接矩阵的一维表示，作为一个传感器的内参输入，f_t ^adj(i)表示第i个节点的第t个结构维特征。

步骤2.3.1，对于步骤2.2得到的低维特征输入，如附图2所示输入到本发明设计的多特征融合网络中。该多流神经网络的每一流主要包括附图2中(b)分类器模块，(c)时序卷积模块这两个模块，其中时序卷积模块中包含多个二维的卷积模块；具体如下：

时序卷积模块：人体动作作为一个时序的行为，时序特征是最为重要的，在学习结构化全局特征前，网络使用了若干个一维卷积模块和池化层构成的时序卷积模块，提取时序上的高维特征，并利用池化层的下采样操作压缩数据，降低网络的计算量并减少过拟合。如图2所示，时序卷积模块包括依次连接的2个卷积模块连接、池化层连接、卷积模块、池化层、卷积模块。其中卷积模块由一个卷积层，一个激活函数和一个批标准化层构成。卷积层通过共享参数的形式学习相邻向量之间的特征，是生成高维特征的主要方式；激活函数ReLU(Rectified Linear Unit)是目前最常用的激活函数，用于学习非线性特征；批标准化层用于处理数据减少训练数据过拟合。这三层网络的组合构成了卷积模块，也是本发明中主要的数据操作模块。

分类器模块：对于神经网络输出的高维特征，需要一个分类器映射到动作类别上。在实验中本发明发现，对于融合的特征，一个对时间维和特征维操作的二维卷积，有助于提升分类器效果。因此，本发明的分类器包括一个二维卷积层，一个激活函数层，一个批标准化层和一个映射到动作类别的一维卷积层，此外最后的全局池化用于去掉不需要的维度。

结合上述神经网络模块，得到了如附图2(d)的多流神经网络高维特征提取方法，具体计算方法如下：首先本发明对于多人动作问题，采用了将每个人的动作视为整体多人动作平等的一部分的策略，即计算每个人的动作预测结果，再对所有人的结果取平均值表示最终预测结果。因此对于步骤2.2得到的，大小为(N,C,T,V,M)的各流输入矩阵数据，其中N为Batch_Size，其余同上，要进行一个维度变化操作，使其变成(N*M,C,T,V)的矩阵，再输入到时序卷积模块上，提取高维时序特征。此后再进行一个维度变化操作，交换特征维度C和节点维度V的位置，利用若干个二维卷积模块对时间维度和原特征维度进行计算，实现骨架的全局特征学习。此后本发明采用了晚融合和特征连接的策略组合，进行高维特征融合。

步骤2.3.2，对于多特征学习中的特征融合问题，本发明对特征融合位置和特征融合方法进行了实验，验证了目前常用的晚融合和特征连接的融合策略对于人体动作识别的有效性。附图3为本发明在不同融合位置的示意图，其展示了融合前后的详细网络结构和不同融合位置对网络结构带来的影响，本发明是在原始网络的最后进行融合，即附图3中最后一个卷积层之后，在三个指向concatenate的箭头处。进一步的，相较传统融合策略，本发明做出了如下改进：

1)多流网络中每个网络流独立的完成一个特征预测，并与真实标签求交叉熵损失函数，后馈调整网络参数，损失函数具体计算方法如下：

其中，x为神经网络的输出预测结果，c为输入数据的标签，C表示最大类别数。

2)在原始网络的最后进行特征融合，在分类器模块中增加了二维卷积层以更好的学习融合各流特征。

3)对于融合后部分单独学习容易过拟合的问题，使用了各流数据结果与融合后结果再取一次平均值的策略，有效的提升了识别精度。

此后，再对原始各流高维特征和融合后特征分别输入到分类器模块，并对高维矩阵进行多次全局池化降低维度，得到各流的预测结果，最后对各流预测结果和融合后预测结果进行一次平均得到最终的动作识别结果。

步骤3，人体动作预测。

将步骤1中得到的待识别骨架序列预处理矩阵，输入到步骤2中经过训练数据学习后的神经网络模型中去，输出模型对各骨架序列的动作预测结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于骨架特征和深度学习的人体动作识别方法，其特征在于，包括如下步骤：

步骤2，多流神经网络模型训练，包括如下子步骤，

步骤2.1，对步骤1得到的训练数据进行增强；

步骤2.3所述多流神经网络中的每一网络流包括时序卷积网络模块和分类器模块，具体结构如下，

所述时序卷积网络模块包括若干个一维卷积模块和池化层，其中卷积模块由一个卷积层，一个激活函数和一个批标准化层构成；

所述分类器模块包括一个二维卷积层，一个激活函数层，一个批标准化层和一个映射到动作类别的一维卷积层，以及最后的全局池化；

步骤2.3中获得训练数据对应的动作识别结果的具体实现方式如下，

步骤2.3.2，利用晚融合和特征连接的融合策略对多个高维特征进行融合，将原始各流的高维特征和融合后特征分别输入到分类器模块中，得到原始各流的预测结果和融合后预测结果，最后对各流预测结果和融合后预测结果进行一次平均得到最终的动作识别结果；

2.如权利要求1所述的一种基于骨架特征和深度学习的人体动作识别方法，其特征在于：步骤1中对深度相机采集的待训练和待识别人体骨架序列进行预处理的具体实现方式如下，

对于整体待训练和待识别人体骨架序列数据，分别创建一个大小为(N,C,T_max,P,M)的高维矩阵，其中N为骨架序列个数，T_max为骨架序列长度最大值，C为骨架特征数，为一个三维的空间坐标，P为该深度相机采集的骨架关节点数目，M为在该序列中出现的最大人数，然后将骨架序列数据中的空间坐标特征输入到该高维矩阵中，不存在的数据用0补齐，得到训练数据和待识别数据，并按照文件名和数据长度，同时记录训练数据对应的标签和各序列对应的序列长度。

3.如权利要求2所述的一种基于骨架特征和深度学习的人体动作识别方法，其特征在于：步骤2.1中对训练数据进行增强的具体实现方式如下，

4.如权利要求2或3所述的一种基于骨架特征和深度学习的人体动作识别方法，其特征在于：步骤2.2中所述低维特征的具体计算方法如下，

骨架的空间维信息计算如下：

其中V为骨架节点集，即骨架关节点数目，T表示时间节点集，f_t ^spa(i)表示第i个节点的第t个空间维特征，

是第i个节点在时间t时的空间坐标；

其中f_t ^opt(i)表示第i个节点的第t个时间维特征；

结构维信息的具体表示如下：

5.如权利要求1所述的一种基于骨架特征和深度学习的人体动作识别方法，其特征在于：步骤2.3.2中原始各流的预测结果通过最小化以下损失函数获得，