CN111753683A

CN111753683A - 一种基于多专家卷积神经网络的人体姿态识别方法

Info

Publication number: CN111753683A
Application number: CN202010528771.3A
Authority: CN
Inventors: 张雷; 程鑫; 刘悦
Original assignee: Nanjing Normal University
Current assignee: Nanjing University; Nanjing Normal University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-09

Abstract

本发明公开了一种基于多专家卷积神经网络的人体姿态识别方法。该实施引入了多专家卷积核策略，首先是对输入样本利用路由函数产生路由权重，然后再和多个专家卷积核进行相乘。这样就完成了在卷积操作之前将输入样本映射给各个专家，然后线性结合过的各专家将再次对原样本进行卷积，经过多层训练后，各专家将特征图送入分类层用于各动作数据的识别。大多数路由权重集中在0和1附近，所以整个网络可以看成是一个稀疏矩阵，即当样本输入时，仅需激活网络的一小部分即可实现精准识别。本发明具有识别精准、瞬时响应、可移植能力强等特点，在运动检测，人机交互和健康监视等方面作用显著。

Description

一种基于多专家卷积神经网络的人体姿态识别方法

技术领域

本发明属于穿戴式设备智能监控领域，尤其涉及一种基于多专家卷积神经网络的人体姿态识别方法。

背景技术

近年来，随着计算机技术的发展和智能科技的普及，当前已经进入了新一轮的全球科技变革，大规模云计算、物联网、大数据和人工智能等技术也在飞速发展。其中，人体姿态识别技术也在计算机视觉相关领域的一个重要研究趋势。其应用范围十分广泛，可用于健康监视，运动检测，人机交互、影视制作、游戏娱乐等各种领域。人们可以利用人体随身佩戴的传感器来收集人体关节点运动轨迹数据来实现姿态识别，还可以实现3D动画模拟人体运动来制作电影电等。

随着智能可穿戴设备研究的不断发展，基于可穿戴传感器的人体姿态识别已经成为了重要的研究领域，他是通过分析能够反映人体运动行为的相关信息来判断人体运动行为状态的技术。在健康监护、室内定位与导航、用户社交行为分析，体感游戏等。但是目前的人体姿态识别系统大都存在识别精度低，推断速度慢等问题，所以如何建立一个高精度的网络模型同时保持推断速度便成为了亟待解决的问题。

人体姿态识别目前最为广泛的应用是在于智能监控中。智能监控与一般普通监控的区别主要在于将人体姿态识别技术嵌入视频服务器中,运用算法,识别、判断监控画面场景中的动态物体——行人、车辆的行为,提取其中关键信息,当出现异常行为时,及时向用户发出警报。同样,固定场景下的人体姿态识别技术可以应用于家庭监控,如为了预防独居老人摔倒情况的发生,可以通过在家中安装识别摔倒姿态的智能监控设备,对独居老年人摔倒情况的识别,当出现紧急情况时及时做出响应。人类社会的不断发展与生活质量的不断提升,视频监控已经被非常广泛地应用到各个领域,人们生活空间的不断扩大和延展,公共及私人场所的领域也在随之发展,遇到各种突发情况的概率在不断增加,尤其是在公共场所,由于其监控难度较大,人口密集。通过简单的监控,已经无法满足当今社会发展的要求,简单地依靠值班人员的坚守,想要真正做到人体姿态预测还有较大难度,对于社会资源也是一种潜在的浪费。因此,选用独立于个体的智能监控系统已经成为当前社会解决这一根本问题的必由之路,在社交的过程中,人类除了语言以外其肢体动作也能传递一定的信息,通过较为科学合理的预测能够实现动作的含义解读,并且更好帮助人们的实现社交。

深度学习在模式识别上有着很好的发展前景。其中以卷积神经网络为代表的模型架构更是占据了主流地位。卷积神经网络在计算机视觉领域受到极大关注，它不仅可以处理多维数据，而且在大数据量的前提下比传统方法效果更加显。对比传统的机器学习方法，例如逻辑回归，决策树，马尔科夫模型等，虽然在精度上有着显著的提高，同时因为网络结构的复杂给计算机带来的计算量同样惊人。许多研究人员一味地追求精度提升，构造更深层次更复杂的网络，由此带来的计算量也是成倍增加的，忽略了人体姿态识别更多是应用在小内存和小处理器的基础上。因此如何在减少运算复杂度的同时大幅度提高精度便成为首要解决的问题。

发明内容

发明目的：针对上述问题，本发明的目的是提供一种基于多专家卷积神经网络的人体姿态识别方法，以摆脱计算机运算负荷大，运算时间长、识别精度低的问题。

技术方案：一种基于多专家卷积神经网络的人体姿态识别方法，该方法包括如下步骤：

Step1，通过移动传感器采集各活动类别人体姿态动作信号数据，例如坐下、站立、上楼、下楼等，并对这些动作信号数据附上相应的动作属性标签。采集到的数据是沿着时间不断变化的传感器数值；

Step2，对上述采集到的动作信号数据进行数据预处理，并将处理后的数据划分为训练样本和测试样本；所述处理包括：采用滑窗技术将原始数据沿着时间维度滑动处理，将经过上述处理得到的数据进行归一化处理即将其按比例缩放，使之落入特定的(0，1)区间，以减少运算量，加快模型运算速度。最后处理完的数据是四维数据，第一个维度是样本数，表示有多少个样本。第二个维度是数据，表示具体的传感器数值。第三个维度是滑动窗口的大小，表示每次滑动取多长时间内的数据变化。第四个维度是通道维，是因为需要应用多滤波器卷积而拓展的维度；

Step3，对上述处理后的数据作为输入样本送进卷积神经网络训练，设置好采样窗口的大小以及学习率以后，通过梯度下降不断更新权重参数，最后得到精度最高的卷积神经网络模型；

Step4，将训练好的最优网络模型保存并转换成.pb文件并将文件移植到移动智能终端，通过利用移动智能终端的内置传感器获取人体姿态动作数据，最终编译运行得到人体姿态动作识别结果。

具体地，所述Step2中，数据重采样频率设定为30Hz-40Hz。

所述Step2中，将处理后的数据中的70％作为训练样本，30％作为测试样本。

所述Step3中，具体包括如下内容：

3.1，建立4层卷积神经网络模型，四层全部为应用了条件计算的卷积层用于特征提取，最后通过全局平均池化操作将原始数据处理为2维来与真实分类标签矩阵对齐；从整体模型来看为四层卷积层，与传统卷积神经网络模型无异，但是在每个卷积层内，我们增加了下述A、B两个操作。

A：获取路由权重：

当上一层的输出进入本层以后，为了得到路由权重α，先将前一层的输入特征图通过全局平均池化操作将原始的四维数据处理成二维的，所以每一个值可以代表一张特征图。全局平均池化操作如下段所述。然后后面接一个全连接层，这个层的隐藏单元数为专家数，则输出可以看做是一个二维矩阵，每一行对应一个样本，每一列代表n个专家，这样对于每一个样本，都在n个专家上有对应的权重数值。通过这个操作就可以将所有样本映射给n个专家，这样针对于每个样本，都会得到他在不同专家上的路由权重。

全连接网络的作用就是将最后一层卷积得到的特征图处理成向量，对这个向量做乘法，最终降低其维度，然后输入到softmax层中得到对应的每个类别的得分。而全局平均池化在通道上下手，如果我们最终有1000类，那么最后一层卷积输出的特征图就只有1000个通道，然后对这个通道应用全局池化，输出长度为1000的向量，直接赋予了每个通道实际的类别意义，同时四维数据也被处理成二维。

综上所述，步骤A通过全局平均池化操作和一个全连接层将每个样本映射给n个专家卷积核。

B：进行条件卷积：

将上述A步骤生成的路由权重与n个专家卷积核进行相乘再线性相加，然后再使用这n个专家卷积核与所有的样本进行卷积操作，产生输出。这一步与传统卷积不同的是，传统卷积使用的是一个普通的卷积核与所有样本进行卷积操作，而这里使用的是附带权重的多专家卷积核与样本进行卷积操作。这样卷积核在提取信息的时候不仅考虑了当前的信息，还考虑了原始样本信息，增加了模型的准确率。

3.2，导入训练样本调节卷积神经网络模型参数，得到高准确率的模型。

特别地，所述卷积神经网络模型中，第一层卷积核尺寸为(6，1)，步长为为(2，1)；第二层卷积核尺寸为(6，1)，步长为(2，1)；第三层卷积核尺寸为(6，1)，步长为(2，1)；卷积层填充设置为(1，0)。激活函数均使用ReLu并逐层加入BatchNorm以减少过拟合可能性。每层的专家数量都设置为8，能够获得倾向性更加明显的分类效果。

有益效果：与现有技术相比，本发明的技术方案具有如下显著进步：

原始数据进行频率重采样处理可将时间维度和特征维度融合在一起进行综合考量，并通过卷积神经网络训练后实现高精度判别。同时因为产生的路由权重大多集中在0和1附近，所以整个权重矩阵我们可以看做是一个稀疏矩阵，因此当新的数据输入时，只需要激活整个网络的一小部分，达到稀疏激活的效果，加快的网络的响应速度；本发明在保证数据不失去动作特征情况下，采用滑窗技术快速地对数据进行预处理，有效避免了传统数据处理的弊端；本发明在经过多层更加有效的卷积神经网络训练后可轻松地应用于安卓智能手机和智能手表等移动终端，适应时代发展潮流。

附图说明

图1是本发明的流程图；

图2是本发明的原理图；

图3是本发明原始三轴加速度数据的小批次波形图；

图4是本发明中路由权重的频数分布图；

图5是本发明训练次数对应的精度变化图；

图6是本发明测试数据集的混淆矩阵图；

图7是本发明移植到安卓端的识别界面图。

具体实施方式

以下将结合附图和具体实施，对本发明的技术方案及效果进行详细说明。

本发明提出一种基于多专家卷积神经网络的人体姿态识别方法，包括如下步骤：

Step4，将上述训练好的最优卷积神经网络模型保存并转换为.pb文件移植到移动智能终端，通过移动智能终端的内置传感器获得传感器数据，最终编译运行得到人体姿态动作识别结果。

本发明基于卷积神经网络用于可穿戴式设备的人体姿态识别方法，能对跳跃，走路，上楼，下楼，站立，坐下六种动作姿态进行识别。

图1为发明对象的流程图，从原始传感器数据采集，经过数据预处理后输入到卷积神经网络进行模型训练，并将训练后得到的理想模型应用于移动智能终端上，以此实现人体姿态的辨别。

图2为基于条件计算的卷积神经网络模型的结构图。其中包含了三层卷积和最后的分类层。图中还包含了条件计算的内部结构，即数据输入进来以后，先通过路由函数进行路由权重的采集，然后将路由权重映射到n个专家上去，最后带有路由权重的的多专家卷积核再重新对输入进行卷积操作。

具体来说，首先将从移动传感器采集到的各类别人体姿态动作信号数据进行时间序列信号频率重样和归一化处理，将处理后的数据送入卷积神经网络先进行路由权重的计算，然后与n个初始化的权重进行相乘再线性相加，然后通过卷积操作进行网络训练以综合提取时间维度和特征维度的信息，通常情况是先卷积再线性相加，这会导致对于同一个特征图卷积多次，大大增加了FLOPs。

每一层卷积神经网络具体实施过程如图2中的Conv模块所示。实验过程中卷积核F的尺寸为(6，1)，卷积步长为(2，1)，卷积层填充设置为(1，0)，共有128个卷积核，专家数目设置为8，使用ReLu激活函数并加入BatchNorm层。

基于上述问题，该发明将原本的计算公式进行了改进。基于传感器数据的识别，对速度和精度都有同样高的要求，而卷积神经网络中耗费计算资源最大的就是卷积操作，所以我们对上述公式进行更改，具体表示为：Output＝σ((α₁·W₁+...+α_n·W_n)*X)。W是多个专家卷积核，α是把输入映射给各个专家后的路由权重，n是卷积核的个数也就是专家的个数。因此仅仅进行一次卷积操作，就可以综合多个专家的运算结果。因此并没有耗费巨大的计算资源，这使得整个模型的运算时大大地减少了计算资源的耗费从而到达更有效的实施。对于每个卷积层内我们有如下A、B两个操作。

A：获取路由权重：

B：进行条件卷积：

特别地，所述卷积神经网络模型中，第一层卷积核尺寸为(6，1)，步长为为(2，1)；第二层卷积核尺寸为(6，1)，步长为(2，1)；第三层卷积核尺寸为(6，1)，步长为(2，1)；卷积层填充设置为(1，0)。激活函数均使用ReLu并逐层加入BatchNorm以减少过拟合可能性。每层的专家数量都设置为8，能够获得更加倾向性更加明显的分类效果。

网络训练中采用动态学习率确保曲线震荡小，初始学习率设置为0.0001，每50epochs下降原来的0.1倍。

对比传统的卷积神经网络，本实施能够在与传统卷积相差无几的FLOPs下大幅度提高运算精度，模型固定后每次新的输入仅仅需要激活网络的一小部分即可得到精确的分类结果，极大地减少了计算资源的使用，同时拥有较强的泛化能力等。通过实验对比可知，该实施在精度上能够明显优于传统的卷积神经网络并且速度基本持平。

图3是原始传感器三轴加速度数据的小批次波形图。移动传感器的下采样频率优选设定在33Hz左右。

图4是经过训练后的路由权重在最后一层的频数分布直方图，可见权重服从于两极分布，大多数参数是0或1，即当输入进来以后，要么被高权重激活，要么乘0以后不被激活。这样可以加快模型的推断速度。

为了训练卷积神经网络，本发明将采集到的数据样本分为两类：训练样本和测试样本。训练样本作为卷积神经网络的输入进行模型训练，测试样本作为识别准确率的考量依据。本实施例中，把数据集的70％作为训练集，把数据集的30％作为测试集。

图5是该神经网络模型经过400epochs训练后得到的精度变化图。

该精度图中随着专家数量的提高，模型的准确率不断上升，即当n＝1,2,4,8时可以看到模型的精度不断上升，从而提高了网络的泛化能力。

图6是本实施测试集混淆矩阵图，混淆矩阵是用于总结分类算法性能的技术。如果每个类中的样本数量不等，或者数据集中有两个以上的类，则仅用分类准确率作为评判标准的话可能会产生误导。计算混淆矩阵可以让我们更好地了解分类模型的表现情况以及它所犯的错误的类型。在图中我们可以看到，横轴是预测的结果，纵轴是真实的标签结果，主对角线上即为预测结果和真实结果相同的样本数量。

通过对混淆矩阵进行分析，可以得出卷积神经网络模型对不同动作的识别精度情况，从而帮助修改网络参数。最后的模型分类精度为99.60满足实际应用的要求，可将该模型移植到智能终端上使用。

图7是本发明移植到安卓端的识别界面图。

值得注意的是，该实施采用Keras(TensorFlow后端)框架搭建网络结构并保存训练好的模型参数。特别地，若选择在Android Studio中调用TensorFlow Inference库进行姿态识别，以及手机端的sensormanger进行传感器数据的获取。同时在移植到安卓端的过程中，需要进行模型间的转换工作，即.hdf5文件→.pb文件。

需要说明的是，本发明实施例中的人体姿态识别装置具体可以集成在智能移动终端中，上述智能终端具体可以是智能手机、智能手表等终端，此处不作限定。

由上可见，本发明实施例中的人体姿态识别装置通过采集智能终端的加速度数据，然后对采集到的数据进行时间序列信号频率降采样和归一化处理，并将预处理后的数据输入到一个人体姿态识别神经网络模型，最后得到人体姿态识别结果。由于人体姿态识别模型是基于预设的训练集合卷积神经网络训练得到，因此，通过将加速度数据预处理后输入已训练好的人体姿态识别模型，即可实现对人体姿态的识别，从而实现了基于加速度数据的非视觉手段的人体姿态识别。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于多专家卷积神经网络的人体姿态识别方法，其特征在于，该方法包括如下步骤：

Step1，通过移动传感器采集各活动类别人体姿态动作信号数据，并对这些动作信号数据附上相应的动作属性标签，所述采集到的数据是沿着时间不断变化的传感器数值；

Step2，对上述采集到的动作信号数据进行数据预处理，并将处理后的数据划分为训练样本和测试样本；

Step3，对上述处理后的数据作为输入样本送进卷积神经网络训练，设置好采样窗口的大小以及学习率以后，通过梯度下降不断更新权重参数，最后训练得到卷积神经网络模型；

Step4，将训练好的神经网络模型保存并转换成.pb文件并将文件移植到移动智能终端，通过利用移动智能终端的内置传感器获取人体姿态动作数据，最终通过所述神经网络模型识别出人体姿态动作。

2.根据权利要求1所述一种基于多专家卷积神经网络的人体姿态识别方法，其特征在于，Step2中，所述数据预处理包括：采用滑窗技术将原始数据沿着时间维度滑动处理，将经过上述处理得到的数据进行归一化处理即将其按比例缩放，使之落入特定的(0，1)区间，最后处理完的数据是四维数据：第一个维度是样本数，表示有多少个样本，第二个维度是数据，表示具体的传感器数值，第三个维度是滑动窗口的大小，表示每次滑动取多长时间内的数据变化，第四个维度是通道维，表示需要应用多滤波器卷积而拓展的维度。

3.根据权利要求1或2所述一种基于多专家卷积神经网络的人体姿态识别方法，其特征在于，所述Step2中，将处理后的数据中的70％作为训练样本，30％作为测试样本。

4.根据权利要求1所述一种基于多专家卷积神经网络的人体姿态识别方法，其特征在于，所述Step3中，具体包括如下步骤：

3.1，建立4层卷积神经网络模型，四层全部为应用了条件计算的卷积层用于特征提取，最后通过全局平均池化操作将原始数据处理为2维来与真实分类标签矩阵对齐；在每个卷积层内，增加了下述A、B两个操作；

A：获取路由权重：

当上一层的输出进入本层以后，为了得到路由权重α，先将前一层的输入特征图通过全局平均池化操作将原始的四维数据处理成二维的，所以每一个值可以代表一张特征图，然后后面接一个全连接层，这个层的隐藏单元数为专家数，则输出看做是一个二维矩阵，每一行对应一个样本，每一列代表n个专家卷积核，对于每一个样本，都在n个专家卷积核上有对应的权重数值，通过这个操作就可以将所有样本映射给n个专家卷积核，这样针对于每个样本，都会得到其在不同专家上的路由权重；全连接网络的作用就是将最后一层卷积得到的特征图处理成向量，对这个向量做乘法，最终降低其维度，然后输入到softmax层中得到对应的每个类别的得分；

B：进行条件卷积：

将上述A步骤生成的路由权重与n个专家卷积核进行相乘再线性相加，然后再使用这n个专家卷积核与所有的样本进行卷积操作，产生输出；

3.2，导入训练样本调节卷积神经网络模型参数，得到训练好的卷积神经网络模型。

5.根据权利要求4所述的一种基于多专家卷积神经网络的人体姿态识别方法，其特征在于，所述卷积神经网络模型中，第一层卷积核尺寸为(6，1)，步长为(2，1)；第二层卷积核尺寸为(6，1)，步长为(2，1)；第三层卷积核尺寸为(6，1)，步长为(2，1)；卷积层填充设置为(1，0)，激活函数均使用ReLu并逐层加入BatchNorm以减少过拟合可能性，每层的专家数量都设置为8。