CN109711324A

CN109711324A - 基于傅里叶变换和卷积神经网络的人体姿态识别方法

Info

Publication number: CN109711324A
Application number: CN201811585913.9A
Authority: CN
Inventors: 毛进伟; 张雷; 谢非; 滕起; 王震宇; 王焜
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-03

Abstract

本发明公开了一种基于傅里叶变换和卷积神经网络的人体姿态识别系统，包括以下步骤：1、收集九轴陀螺仪和加速度计的数据集；2.对收集的数据进行预处理，并且按照一定的比例把数据分成测试集和训练集；3.将训练集和测试集送入卷积神经网络进行训练，网络自发完善自身的参数；4.将训练好的网络移植到终端上。在实际过程中，手机自带的陀螺仪加速度计采集到的数据可以输入到已经训练好的网络中，实现对当前行为的姿态识别。本发明有效的提高了数据的辨识度；识别精度高，识别类型多；识别方法识别的动作数量具有可扩展性，且扩展操作简单，易于开发人员操作；相比于视频或者图像识别的方法，可以有效的保护用户隐私。

Description

基于傅里叶变换和卷积神经网络的人体姿态识别方法

技术领域

本发明涉及人工智能领域的数据处理优化方法和神经网络层结构的合理化方法，尤其涉及一种基于傅里叶变换和卷积神经网络的人体姿态识别方法。

背景技术

人体姿态识别是是当前计算机视觉领域的一个重点研究的问题，同时，也是当前的一个研究热点。例如在机场、工厂等一些比较复杂的环境下，采用动作姿态识别这类人机交互技术能够提供比其他识别(语音等)更加精确的信息输入。总之，在智能监控、虚拟现实、感知用户接口以及基于内容的视频检索等领域，人体动作姿态的识别都有广阔的应用前景。然而，由于人体姿态的多样性，以及个体动作的差异性，如何建立一种识别能力强的模型就一直是一个重点的研究课题。

深度学习在模式识别上有着很好的发展前景。深度学习(Deep Learning)起源于人工神经网络(Artificial Neural Network,ANN)的研究。其中卷积神经网络是含有卷积层(Convolutional Layer)的神经网络。卷积神经网络在计算机视觉领域受到极大关注，卷积神经网络不仅可以处理一维数据(例如，文本)，它还特别适合处理二维数据(例如，图像)和三维数据(例如，视频以及本专利提及的三维加速度数据)。卷积神经网络属于人工智能范畴，在模式识别分类器的构建上比传统方法效率更高，且易于扩展，能够实现比传统方法动作识别类型更多的识别模型。

发明内容

发明目的：为了解决现有技术存在的问题，本发明的目的是提供一种基于傅里叶变换和卷积神经网络的人体姿态识别系统，该方法识别精度高，能够识别多种类型的姿态。

技术方案：一种基于傅里叶变换和卷积神经网络的人体姿态识别方法，包括如下步骤：

步骤1、收集九轴加速度计的数据集；

步骤2、对收集的数据进行预处理，并且按照一定的比例把数据分成测试集和训练集；优选的，将数据集按照4：1的比例分为训练集和测试集。

步骤3、构建卷积神经网络的层结构，将训练集和测试集送入卷积神经网络进行训练；

步骤4、将训练好的网络移植到智能终端上，利用智能终端的陀螺仪加速度计采集数据，输入到网络中，实现对当前姿态的识别。

所述步骤1中，采样频率为20-30Hz。

所述步骤2中，对数据的预处理过程包括归一化处理和傅里叶变换处理，处理完后将数据按照要求存储；所述处理完后的数据按照如下步骤存储：

2.1、先将九轴数据进行堆叠处理，每36个数据按照‘123456789、135792468、147158259、369483726’的顺序堆叠，并且进行归一化操作；

2.2、对堆叠的数据进行二维的离散傅里叶变换；

2.3、将数据以每一个批次长为128、宽为36进行保存。

所述步骤3中，所述卷积神经网络包括两个卷积层，两个池化层，一个全连接层以及一个分类输出层。

进一步的，所述第一个卷积层使用二维的卷积神经网络，输入参数为预处理之后的数据，卷积核数量为5，大小为(5，5)，每一次的步长大小为(1，1)，使用relu函数处理；第一个池化层使用一维的最大池化层，输入参数为第一个卷积层的输出数据，池化大小为(4，4)，步长为(4，4)；所述第二个卷积层使用二维的卷积神经网络，输入参数为预处理之后的数据，卷积核数量为10，大小为(5，5)，每一次的步长大小为(1，1)，使用relu函数来处理；第二个池化层使用一维的最大池化层，输入参数为第一个卷积层的输出数据，池化大小为(2，2)，步长为(2，2)；所述全连接层包括1000个隐藏节点，激励函数为relu。

采用上述方案后，由于卷积神经网络的优势，只要样本数量足够，通过调整参数，本发明可以将能够分类的动作类别扩展到更多。本发明在智能监控、人体姿态识别等方面具有重要实际应用意义。

有益效果：和现有技术相比，本发明具有如下显着进步：1、利用傅里叶变换来处理数据，将时域变成频域，有效的提高了数据的辨识度。2、利用人工智能-卷积神经网络识别方法，识别精度高，识别类型多。3、识别方法识别的动作数量具有可扩展性，且扩展操作简单，易于开发人员操作；4、相比于视频或者图像识别的方法,可以有效的保护用户隐私。

附图说明

图1为本发明的目标处理流程图；

图2为数据处理结果示意图；

图3为卷积神经网络结构图；

图4、图5、图6为训练过程示意图。

具体实施方式

下面结合附图和具体实施例对发明的技术方案及有益效果进行详细说明。

一种基于傅里叶变换处理和卷积神经网络的多类别人体姿态识别方法，包括如下步骤：

步骤一，在第三者监督记录的情况下获取九轴陀螺仪加速度计的数据，数据可通过两个方法来进行采集：1、采取智能手机本身的陀螺仪加速度计来进行采集。2、采取一些研究所或者大学有现成的九轴陀螺仪加速度计数据。如果用智能终端采集数据，采样频率优选为25Hz。

步骤二，对九轴陀螺仪加速度计数据进行预处理，处理过程包括归一化，二维离散型傅里叶变换，处理完后将数据按照要求存储。具体的，每次取四组数据，每一组数据均为九轴的，按照123456789的顺序排序，将九轴陀螺仪加速度计按照‘123456789 135792468147158259 369483726’的顺序堆叠，并且进行归一化操作，再对数据进行二维的离散傅里叶变换，将数据以每一个批次长为128、宽为36的格式进行保存。

处理完之后将数据分成两类，一类是测试集，一类是训练集；优选的，将数据集按照4：1的比例分为训练集和测试集。

步骤三，构建卷积神经网络的层结构，将训练集和测试集送入卷积神经网络进行训练，网络会自发的完善自己的参数，来使得该网络的准确度上升。具体步骤为：

3.1、第一个卷积层使用二维的卷积神经网络，输入参数为预处理之后的数据，卷积核数量为5，大小为(5，5)，每一次的步长大小为(1，1)，使用relu函数来处理。

3.2、第一个池化层使用一维的最大池化层，输入参数为第一个卷积层的输出数据，池化大小为(4，4)，步长为(4，4)。

3.3、第二个卷积层使用二维的卷积神经网络，输入参数为预处理之后的数据，卷积核数量为10，大小为(5，5)，每一次的步长大小为(1，1)，使用relu函数来处理。

3.4、第二个池化层使用一维的最大池化层，输入参数为第一个卷积层的输出数据，池化大小为(2，2)，步长为(2，2)。

3.5、全连接层包括1000个隐藏节点，激励函数为relu。

步骤四，将训练好的网络移植到终端上，例如智能手机，利用智能终端的陀螺仪加速度计采集数据，输入到网络中，在实际过程中，手机自带的陀螺仪加速度计采集到的数据可以输入到已经训练好的网络中，实现对当前行为的姿态识别。

本发明基于预设的训练集和卷积神经网络结构训练得到人体姿态识别模型，能对走、跑、上楼、下楼、坐立、站立六种种动作姿态进行识别。

图1所述为目标处理的流程图，从智能移动终端采集到人体运动的三维加速度时间序列后，整合处理后输入至初始卷积神经网络进行模型训练，将训练好的符合设计要求的模型输出至移动终端上，使之能在移动智能终端上离线识别人体动作。

如图2所示，可以看出九轴数据在进行堆叠和再傅里叶变换后频域的特征非常明显，这样也便于卷积神经网络的识别。

作为卷积神经网络的输入，加速度数据需要进行折叠。本实施例将九轴陀螺仪加速度计数据尺寸设置为(128,36,1)，分别代表长、宽和深度。这样就可以使每一小段时间内的数据形如像素图片，以适配卷积神经网络的训练。当然，可以根据实际需求自行设置合适的值，此处不做限定。

图3为卷积神经网络结构图，主要包括：输入层，两层卷积和最大池化层，一个全连接层和一个输出层。

神经网络基本单元神经元的公式如下：

其中，x是神经元输入，n是输入参数个数，b是偏置，h_W,b(x)是神经元输出。

卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。

本发明此部分只需要设置卷积核的大小及神经元个数即可。卷积核大小和神经元个数的取值为经验值，没有固定的取值方法，实施例中卷积核大小为5*5，两个卷积层的神经元个数分别为5和10，此数据仅供参考。

子采样也叫做池化(pooling)，通常有均值子采样(mean pooling)和最大值子采样(max pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。

模型最终的具体实验参数列举如下：第一层卷积核的数据尺寸为(5,5)，共有5个卷积核；整个实验的池化核都为(4，4)，池化步长都为2，都使用最大池化策略；第二层卷积层的卷积核数据尺寸为(5,5)，共有10个卷积核；全连接层包含1000个隐藏节点；学习率为0.0001；drop-out为1。

图4、图5、图6为训练的过程，可以看出,是一个较为正常的趋势，无论是训练还是测试都是一个上升的趋势，最后能够超过0.90，loss也在这个进程下无限趋近与0。

当训练的卷积神经网络符合设计要求，即可将该模型提取到移动智能终端上使用。若训练的卷积神经网络不符合设计要求，需要修改各隐藏层的神经元个数。神经元个数修改到哪个值为宜，需要反复测试。若上述修改各隐藏层的神经元个数的方法对识别准确率影响甚微，建议添加隐藏层数或增加训练样本数。

由上可见，本发明实施例中的人体姿态识别装置通过采集智能终端的加速度数据，基于采集到的所述智能终端的加速度数据，并将预处理后的数据输入已训练好的人体姿态识别模型，得到人体姿态识别结果。由于人体姿态识别模型是基于预设的训练集合卷积神经网络训练得到，因此，通过将加速度数据预处理后输入已训练好的人体姿态识别模型，即可实现对人体姿态的识别，从而实现了基于加速度数据的非视觉手段的人体姿态识别。

Claims

1.一种基于傅里叶变换和卷积神经网络的人体姿态识别方法，其特征在于，包括如下步骤：

步骤1、收集九轴加速度计的数据集；

步骤2、对收集的数据进行预处理，并且按照一定的比例把数据分成测试集和训练集；

2.根据权利要求1所述人体姿态识别方法，其特征在于：所述步骤1中，采样频率为20-30Hz。

3.根据权利要求1所述人体姿态识别方法，其特征在于：所述步骤2中，对数据的预处理过程包括归一化处理和傅里叶变换处理，处理完后将数据按照要求存储。

4.根据权利要求3所述人体姿态识别方法，其特征在于，所述处理完后的数据按照如下步骤存储：

2.2、对堆叠的数据进行二维的离散傅里叶变换；

2.3、将数据以每一个批次长为128、宽为36进行保存。

5.根据权利要求1所述人体姿态识别方法，其特征在于，所述步骤3中，所述卷积神经网络包括两个卷积层，两个池化层，一个全连接层以及一个分类输出层。

6.根据权利要求5所述人体姿态识别方法，其特征在于：所述第一个卷积层使用二维的卷积神经网络，输入参数为预处理之后的数据，卷积核数量为5，大小为(5，5)，每一次的步长大小为(1，1)，使用relu函数处理；第一个池化层使用一维的最大池化层，输入参数为第一个卷积层的输出数据，池化大小为(4，4)，步长为(4，4)；所述第二个卷积层使用二维的卷积神经网络，输入参数为预处理之后的数据，卷积核数量为10，大小为(5，5)，每一次的步长大小为(1，1)，使用relu函数来处理；第二个池化层使用一维的最大池化层，输入参数为第一个卷积层的输出数据，池化大小为(2，2)，步长为(2，2)；所述全连接层包括1000个隐藏节点，激励函数为relu。

7.根据权利要求1所述人体姿态识别方法，其特征在于：所述步骤2中，将数据集按照4：1的比例分为训练集和测试集。