CN111723662A

CN111723662A - 一种基于卷积神经网络的人体姿态识别方法

Info

Publication number: CN111723662A
Application number: CN202010419639.9A
Authority: CN
Inventors: 张雷; 唐寅; 王嘉琦; 滕起
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-09-29
Anticipated expiration: 2040-05-18
Also published as: CN111723662B

Abstract

本发明公开了一种基于卷积神经网络的人体姿态识别方法，包括：移动传感器原始数据采集并打上标签、数据频率降采样和归一化处理并划分训练集和测试集、卷积神经网络训练、模型移植到安卓端进行人体姿态识别。根据卷积神经网络用于人体姿态识别方法，该实施引入了Split‑Transform‑Merge策略，提出了一组更小通道数的乐高卷积核，按照随机映射和循环矩阵的方法堆叠这些卷积核以此实现卷积操作，最后将生成的乐高特征图垂直合并经过全连接层送入分类器用于传感器数据的识别。本发明具有识别速度快、识别准确度高、计算量小、泛化能力强等特点，同时在智能家居、健康检测、运动追踪等方面具有十分重要的作用。

Description

一种基于卷积神经网络的人体姿态识别方法

技术领域

本发明属于穿戴式设备智能监控领域，尤其涉及一种基于卷积神经网络的人体姿态识别方法。

背景技术

近年来，随着信息技术的发展和智能科技的普及，全球科技变革正在进一步推进，云计算、物联网、大数据和人工智能等技术也在飞速发展。其中，人体姿态识别技术已开始在计算机视觉相关领域中广泛应用。其应用范围十分广泛，可用于人机交互、影视制作、运动分析、游戏娱乐等各种领域。人们可以利用人体姿态识别定位人体关节点运动轨迹并记录其运动数据，实现3D动画模拟人体运动来制作电影电视；也可以通过记录的轨道和数据对运动进行分析等。

随着智能可穿戴设备研究的不断发展，基于可穿戴传感器的人体姿态识别已经成为了重要的研究领域，如运动姿态的检测、智能家居、智能医疗助手等等。但是人体的姿态形式可谓多种多样，即使同一种姿态都会因为个体的差异有很大的区别，所以如何建立一个高精度的网络模型便成为了亟待解决的问题。

通常，为了解决直接在人体上安置多个传感器设备导致的不方便，如何使用较少甚至只是用一组传感器进行高准确率的人体姿态识别是一个非常实际的研究问题。然而使用智能手机或智能手表的内置传感器进行人体姿态识别，国内外早已有很多研究应用，目前市面上多数智能手环手表和手机均有姿态识别的应用程序APP。此类人体姿态识别方法绝大多数为阈值检测法，即通过判断传感器原始或处理后的数据是否大于或小于预先设定的好阈值来分类动作类型。这种方法计算简单，占用智能移动设备的内存少，但与此同时，其缺点也很明显：不同产品准确率参差不齐，能够识别的动作类别也十分有限。这一方面是各个公司研发人员技术差距的原因，更重要的一方面原因是此类方法的局限。需要识别的动作类别越多，此种算法构建起来越复杂。

深度学习在模式识别上有着很好的发展前景。其中以卷积神经网络为代表的模型架构更是掀起了高潮。卷积神经网络在计算机视觉领域受到极大关注，它不仅可以处理多维数据，而且在分类搭建上比传统方法效果更加显。对比传统的机器学习方法，例如支持向量机、决策树、朴素贝叶斯等，虽然在精度上有着显著的提高，同时因为网络结构的复杂给计算机带来的计算量同样惊人。因此如何降低对硬件设备的需求度和保证计算精度质量的前提下减轻计算机负荷便成为首要解决的问题。

发明内容

发明目的：针对上述问题，本发明的目的是提供一种基于更小滤波器的卷积神经网络用于可穿戴式设备的人体姿态识别方法，以摆脱计算机运算负荷大，运算时间长、识别准确度低的问题。

技术方案：一种基于卷积神经网络的人体姿态识别方法，该方法包括如下步骤：

Step1，通过移动传感器采集各活动类别人体姿态动作信号数据，并对这些动作信号数据附上相应的动作类别标签；

Step2，对上述采集到的动作信号数据进行数据预处理，并将处理后的数据划分为训练样本和测试样本；所述处理包括：数据进行时间序列信号频率降采样排列为数据信号图，将上述处理得到的数据信号图进行归一化处理即将其按比例缩放，使之落入特定的(0,1)区间；

Step3，对上述处理后的数据作为输入样本送进卷积神经网络训练，并调节卷积神经网络模型参数，以得到最优卷积神经网络模型；

Step4，将训练好的最优网络模型保存并生成.pt文件并将文件移植到移动智能终端，通过利用移动智能终端获取人体姿态动作数据，最终编译运行得到人体姿态动作识别结果。

进一步的，所述Step1中，降采样频率设定为30Hz-40Hz。

进一步的，所述Step2中，包括对数据进行空值剔除和剔除后按照数据所属对应活动类别重新整理，并按照一定比例分别作为训练样本和测试样本。

进一步的，在Step3中，上述处理后的数据是一个四维张量，其数据格式为(N，W，H，C)，其中，N为数据个数，W为经过上述数据处理后的数据图宽度，H为经过上述数据处理后的数据图高度，C为经过上述数据处理后的数据图通道数，接下来定义和初始化神经网络权重和偏置函数，并将上述处理后的数据作为输入样本送进卷积神经网络训练，调节卷积神经网络模型权重和偏置值，以得到最优卷积神经网络模型。

进一步的，所述神经网络的的结构包括输入层、三层卷积层、全连接层、输出层。

进一步的，所述第一层卷积层卷积操作如下：将处理后的数据送入输入层得到一个输入矩阵，将此输入矩阵送入第一层卷积神经网络进行网络训练以提取输入数据样本的特征信息，第一层卷积神经网络包括一组卷积核(F＝{f_1,f_2,...,f_n}∈R^d×1×c×n，其中，d×1是卷积核F的尺寸，c是其通道数，n是卷积核f的个数，与输入数据样本进行卷积操作，Y＝X^TF，其中，Y是进行该卷积操作后的输出矩阵，X^T是输入数据样本经过输入层以后得到的输入矩阵的转置，F是实施该卷积操作所使用的卷积核。

进一步的，所述第二层卷积层卷积操作如下：将第一层卷积神经网络的输出矩阵Y堆叠成特征图送入第二层卷积神经网络进行卷积操作，

其中

是进行该卷积操作后的输出矩阵，Y^T是第一层卷积神经网络进行卷积操作后的输出矩阵的转置，B是实施该卷积操作所使用的一组乐高卷积核。

进一步的，第二层卷积层卷积的具体过程如下：

Step1：Split：将第一层卷积神经网络执行卷积操作后得到的特征图等分成o个部分，将等分的特征图作为新的输入送入第二层卷积神经网络；

Step2：Transform：将等分的o张特征图分别与乐高卷积核b执行卷积操作得到o×b张新的特征图；

Step3：Merge：将第二步生成的特征图垂直合并，最后堆叠成一张输出特征图送入第三层卷积神经网络进行相应的卷积操作。

进一步的，第三层卷积层卷积的具体过程如下：第三层的卷积操作和第二层的卷积操作相同，将此输出特征图平铺展成一维向量的形式送入全连接层，全连接层的输出连接到最后的Softmax输出层进行人体姿态动作的识别分类。

有益效果：和现有技术相比，本发明的技术方案具有以下有益技术效果：

原始数据进行频率降采样处理可将数据特征三轴彼此柔和，并通过卷积神经网络训练后实现高精度判别同时可以大幅度削减网络模型的参数量从而降低对于计算机的硬件要求，并能大幅缩短网络训练时间；本发明在保证数据不失去动作特征情况下，采用滑窗技术快速地对数据进行预处理，有效避免了传统数据处理的弊端；本发明在经过多层更加有效的卷积神经网络训练后可轻松地应用于安卓智能手机和智能手表等移动终端，适应时代发展潮流。

附图说明

图1是本发明的流程图；

图2是本发明的原理图；

图3是本发明原始三轴加速度数据的小批次波形图；

图4是本发明进行频率降采样和归一化处理后对应小批次波形图；

图5是本发明训练次数对应的损失值变化图；

图6是本发明测试数据集的混淆矩阵图；

图7是本发明移植到安卓端的识别界面图。

具体实施方式

以下将结合附图和具体实施，对本发明的技术方案及效果进行详细说明。

本发明提出一种基于卷积神经网络的人体姿态识别方法，包括如下步骤：

Step1，招募志愿者，并佩戴移动传感器，记录志愿者不同身体部位(如腕部、胸部、腿部等)动作(如站立、坐下、上楼梯、下楼梯、跳跃、走路等)下的三轴加速度数据，并对这些动作信号数据附上相应的动作类别标签；

Step2，对采集到的三轴加速度数据进行遍历，同时去除其中传感器未能正确记录而出现的空值，将遍历后的数据进行频率降采样处理，经过归一化处理后将数据分为训练集和测试集，所述频率降采样处理和归一化处理为：数据进行时间序列信号频率降采样排列为数据信号图、将上述处理得到的数据信号图进行归一化处理即将其按比例缩放，使之落入特定的(0,1)区间；

Step3，上述处理后的数据是一个四维张量，其数据格式为(N，W，H，C)，其中N为数据个数，W为经过上述数据处理后的数据图宽度，H为经过上述数据处理后的数据图高度，C为经过上述数据处理后的数据图通道数(其中该处理后的数据的通道数为1)。接下来定义和初始化神经网络权重和偏置函数，并将上述处理后的数据作为输入样本送进卷积神经网络训练，调节卷积神经网络模型权重和偏置值，以得到最优卷积神经网络模型；

Step4，将上述训练好的最优卷积神经网络模型保存并生成.pt文件移植到移动智能终端，通过利用移动智能终端获取人体姿态动作数据，最终编译运行得到人体姿态动作识别结果。

本发明基于卷积神经网络用于可穿戴式设备的人体姿态识别方法，能对跳跃，走路，上楼，下楼，站立，坐下六种动作姿态进行识别。

图1为发明对象的流程图，从移动传感器采集到人体运动的三维加速度时间序列，经过数据预处理后输入到卷积神经网络进行模型训练，并将训练后得到的理想模型应用于移动智能终端上，以此实现人体姿态的辨别。

图2为卷积神经网络结构图，包括：输入层、三层卷积层、全连接层、输出层。

具体来说，首先将从移动传感器采集到的各活动类别人体姿态动作信号数据进行时间序列信号频率降采样和归一化处理，将处理后的数据送入输入层得到一个输入矩阵，将此输入矩阵送入第一层卷积神经网络进行网络训练以提取输入数据样本的特征信息，第一层卷积神经网络具体实施过程如图2中的Conv模块所示，由一组卷积核：F＝{f_1,f_2,...,f_n}∈R^d×1×c×n，其中d×1是卷积核F的尺寸，c是其通道数，n是卷积核f的个数，与输入数据样本进行卷积操作，即Y＝X^TF，其中，Y是进行该卷积操作后的输出矩阵，X^T是输入数据样本经过输入层以后得到的输入矩阵的转置，F是实施该卷积操作所使用的卷积核。

实验过程中卷积核F的尺寸为(6，1)，卷积步长为(2，1)，卷积层填充设置为(1，0)，共有128个卷积核，使用ReLu激活函数并加入BatchNorm层。经过第一层卷积神经网络训练后，得到的输出特征图的通道数为实施该层卷积操作的卷积核f的个数即128，最后经过BatchNorm层后得到输出通道数为128的特征图。通常情况下卷积核F的通道数c比较大，这导致了整个网络的参数量和FLOPs剧增，使得整个模型的复杂度很大从而增加了计算机的负荷。

基于上述问题，该发明实施了一组乐高卷积核

其中d×1是卷积核B的尺寸，

是其通道数，k是卷积核b的个数)。正如图2中的LWConv所示，将第一层卷积神经网络的输出矩阵Y堆叠成特征图送入第二层卷积神经网络进行卷积操作(

其中

是进行该卷积操作后的输出矩阵，Y^T是第一层卷积神经网络进行卷积操作后的输出矩阵的转置，B是实施该卷积操作所使用的一组乐高卷积核)。实验过程中卷积核B的尺寸为(6，1)，卷积步长为(2，1)，卷积层填充设置为(1，0)，共有256个卷积核，使用ReLu激活函数并加入BatchNorm层。经过第二层卷积神经网络训练后，得到的输出特征图的通道数为128，最后经过BatchNorm层后得到输出通道数为256的特征图。由于该卷积核B的通道数

这使得在卷积操作过程中大大地降低了计算机运算成本从而到达更有效的实施。

第二层卷积神经网络的卷积操作具体实施如下：

本实施采用经典的Split-Transform-Merge策略，使用一组乐高卷积核

其中d×1是卷积核B的尺寸，

是其通道数，k是乐高卷积核b的个数)进行卷积操作，分如下三步：

Step1：Split：将第一层卷积神经网络执行卷积操作后得到的特征图(通道数为128)按通道数等分成o个部分(实验过程中，o＝2，即等分成2个部分以得到2张通道数为64的新的特征图)，将等分的特征图作为新的输入送入第二层卷积神经网络；

Step2：Transform：将等分的o张(实验过程中，o＝2)特征图分别与乐高卷积核b执行卷积操作。

实验过程中，经过第一层卷积神经网络执行卷积操作后得到的特征图(通道数为128)按通道数被切分成2份以得到2张通道数为64的新的特征图，乐高卷积核b的个数为256个，将切分好的2张通道数为64的特征图分别与256个乐高卷积核执行卷积操作，每张特征图均与乐高卷积核进行卷积，一共生成512张新的特征图。

值得注意的是，该卷积操作过程中涉及到两个超参数o和m的调节，其中，o代表经过第一层卷积神经网络执行卷积操作后得到的特征图被切分成的份数；m代表经过乐高卷积操作后得到的输出特征图的通道数与普通卷积操作后得到的输出特征图的通道数的比值，具体说来，对于某一层普通卷积而言，若实施该卷积操作的卷积核个数为256个，则经过该层卷积操作后得到的输出特征图的通道数等于其卷积核的个数为256；对于某一层乐高卷积而言，若实施该卷积操作的乐高卷积核个数为256个，则经过该层乐高卷积操作后得到的输出特征图的通道数和m取值有关，若m＝0.5，则通道数为128。其中m一般取值范围是0.125-0.5，该实施中o＝2，m＝0.5。

Step3：Merge：将第二步生成的特征图垂直合并，最后堆叠成一张输出特征图，由于实验中设置了超参数m＝0.5，所以堆叠后的输出特征图的通道数为128，并经过BatchNorm层后得到输出通道数为256的特征图送入第三层卷积神经网络进行相应的卷积操作。

具体地，将上述Step3输出的特征图(通道数为256)送入第三层卷积神经网络重复执行第二层卷积神经网络所述步骤，即将上述Step3输出的特征图(通道数为256)等分成2份得到2张通道数为128的新的特征图，分别与384个乐高卷积核执行卷积操作，每张特征图均与乐高卷积核进行卷积，一共生成768张新的特征图用于提取更多的特征信息，将这些新的特征图垂直合并，堆叠成一张输出特征图。由于实验中设置了超参数m＝0.5，所以堆叠后的输出特征图的通道数为192，并经过BatchNorm层后得到输出通道数为384的特征图。

将此输出特征图平铺展成一维向量的形式送入全连接层，全连接层的输出连接到最后的Softmax输出层进行人体姿态动作的识别分类。

实验过程中，上述第三层卷积网络的卷积核B的尺寸为(6，1)，卷积步长为(2，1)，卷积层填充设置为(1，0)，共有384个卷积核，使用ReLu激活函数并加入BatchNorm层，全连接层神经元个数为15000。网络训练中采用动态学习率确保曲线震荡小，初始学习率设置为0.001，每100epochs下降原来的0.1倍。

对比传统的卷积神经网络，本实施能够极大地减少整个网络模型的参数量并且大幅度降低计算成本，同时拥有较强的泛化能力等。通过实验对比可知，该实施能够保持和常规卷积神经网络模型同样的精度甚至提高了整个网络的收敛速度。

图3是原始传感器三轴加速度数据的小批次波形图。移动传感器的下采样频率优选设定在33Hz左右。图4是原始数据经过预处理后对应小批次变化波形图。

为了训练卷积神经网络，本发明将采集到的数据样本分为两类：训练样本和测试样本。训练样本作为卷积神经网络的输入进行模型训练，测试样本作为识别准确率的考量依据。本实施例中，把数据集的70％作为训练集，把数据集的30％作为测试集。

图5是该神经网络模型经过500epochs训练后得到的损失图。

该损失图记录了网络训练中所使用的两个超参数o和m的取值，即o＝2，m＝0.5。通过调节o和m不同的取值，该神经网络模型最终对人体姿态动作的识别性能也有所不同，从而提高了网络的泛化能力。

图6是本实施测试集混淆矩阵图。

通过对混淆矩阵进行分析，可以得出卷积神经网络模型对不同动作的识别精度情况，从而帮助修改网络参数。当训练的卷积神经网络符合设计要求，即不同动作的识别精度在97％左右，即可将该模型移植到智能终端上使用。

图7是本发明移植到安卓端的识别界面图。

值得注意的是，该实施采用PyTorch框架搭建网络结构并保存训练好的模型参数。特别地，若选择在Android Studio中调用TensorFlow Inference库进行姿态识别，即在移植到安卓端的过程中，需要进行模型间的转换工作，即.pth文件→.onnx文件→.pb文件。

需要说明的是，本发明实施例中的人体姿态识别装置具体可以集成在智能移动终端中，上述智能终端具体可以是智能手机、智能手表等终端，此处不作限定。

由上可见，本发明实施例中的人体姿态识别装置通过采集智能终端的加速度数据，然后对采集到的数据进行时间序列信号频率降采样和归一化处理，并将预处理后的数据输入到一个人体姿态识别神经网络模型，最后得到人体姿态识别结果。由于人体姿态识别模型是基于预设的训练集合卷积神经网络训练得到，因此，通过将加速度数据预处理后输入已训练好的人体姿态识别模型，即可实现对人体姿态的识别，从而实现了基于加速度数据的非视觉手段的人体姿态识别。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于卷积神经网络的人体姿态识别方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的姿态识别方法，其特征在于，所述Step1中，降采样频率设定为30Hz-40Hz。

3.根据权利要求1或2所述的姿态识别方法，其特征在于，所述Step2中，包括对数据进行空值剔除和剔除后按照数据所属对应活动类别重新整理，并按照一定比例分别作为训练样本和测试样本。

4.根据权利要求1或2所述的姿态识别方法，其特征在于，在Step3中，上述处理后的数据是一个四维张量，其数据格式为(N，W，H，C)，其中，N为数据个数，W为经过上述数据处理后的数据图宽度，H为经过上述数据处理后的数据图高度，C为经过上述数据处理后的数据图通道数，接下来定义和初始化神经网络权重和偏置函数，并将上述处理后的数据作为输入样本送进卷积神经网络训练，调节卷积神经网络模型权重和偏置值，以得到最优卷积神经网络模型。

5.根据权利要求4所述的姿态识别方法，其特征在于，所述神经网络的的结构包括输入层、三层卷积层、全连接层、输出层。

6.根据权利要求5所述的姿态识别方法，其特征在于，所述第一层卷积层卷积操作如下：将处理后的数据送入输入层得到一个输入矩阵，将此输入矩阵送入第一层卷积神经网络进行网络训练以提取输入数据样本的特征信息，第一层卷积神经网络包括一组卷积核(F＝{f₁,f₂,...,f_n}∈R^d×1×c×n，其中，d×1是卷积核F的尺寸，c是其通道数，n是卷积核f的个数，与输入数据样本进行卷积操作，Y＝X^TF，其中，Y是进行该卷积操作后的输出矩阵，X^T是输入数据样本经过输入层以后得到的输入矩阵的转置，F是实施该卷积操作所使用的卷积核。

7.根据权利要求6所述的姿态识别方法，其特征在于，所述第二层卷积层卷积操作如下：将第一层卷积神经网络的输出矩阵Y堆叠成特征图送入第二层卷积神经网络进行卷积操作，

其中

8.根据权利要求7所述的姿态识别方法，其特征在于，第二层卷积层卷积的具体过程如下：

9.根据权利要求8所述的姿态识别方法，其特征在于，第三层卷积层卷积的具体过程如下：第三层的卷积操作和第二层的卷积操作相同，将此输出特征图平铺展成一维向量的形式送入全连接层，全连接层的输出连接到最后的Softmax输出层进行人体姿态动作的识别分类。