CN114970640B

CN114970640B - 一种基于知识蒸馏的手势识别方法及系统

Info

Publication number: CN114970640B
Application number: CN202210705959.XA
Authority: CN
Inventors: 张雷; 鲍蓉; 朱永红; 田传耕; 胡局新; 梁逍
Original assignee: Xuzhou University of Technology
Current assignee: Xuzhou University of Technology
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2023-10-27
Anticipated expiration: 2042-06-21
Also published as: CN114970640A

Abstract

本发明提供了一种基于知识蒸馏的手势识别方法及系统，包括如下步骤：采集手势的CSI数据，并对所述CSI数据进行去噪处理；采用主成分分析和局部异常因子算法，对去噪后的所述CSI数据进行分割，获得动态手势；将所述动态手势构建为手势图像，并对所述手势图像进行预处理；构建EfficientNet‑GRU模型；采用知识蒸馏的方法，对所述EfficientNet‑GRU模型进行压缩，基于压缩后的所述EfficientNet‑GRU模型，完成对预处理后的所述手势图像的分类。本发明用知识蒸馏对模型进行压缩，保证了能够应用到移动端的学生模型有较高的识别精度，并提高手势识别的实时性。

Description

一种基于知识蒸馏的手势识别方法及系统

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于知识蒸馏的手势识别方法及系统。

背景技术

随着传感技术、网络通信技术、大数据、云计算等技术的快速发展，物联网应用正不断向各个领域渗透，为人机交互的发展奠定了坚实的基础。人机交互是人与智能设备通过特殊语言来交互信息的行为，过去的人机交互技术主要以智能设备为中心，其交互方式相对单一，如鼠标、键盘等设备；未来的人机交互应用将主要以用户为核心，让智能设备服务于人。如今，机器学习与人工神经网络等算法的发展已经使得多项人机交互技术应用于现实生活中，比如手势识别、人脸识别、智能语音助手等。

手势是一种被广泛应用的交际方式，具有表现力强和灵活性高的特点，而且在人类文明的发展历程中，手势起着关键的推动作用。从语言沟通的角度来说，人们能够通过手势来表达自己心中所想，传递丰富的信息，达到沟通交流的目的，而且手势也是聋哑人主要的沟通方式；从人机交互的角度来说，人们能够通过手势自由地掌控智能家居设备，并且在虚拟现实和体感游戏等领域，手势能够增强用户的现实感和互动性。

手势识别作为一种更直接、更高效的交互方式，建立起了人与智能设备之间的桥梁。智能设备通过采集手势信息，经过手势检测、追踪、特征提取和分类等步骤，在理解手势指令后完成人们提出的要求。近年来，随着硬件设备和算法效率的提升，手势识别的过程逐渐简单化，不需要太多复杂操作便可实现，已成为了现实生活中必不可少的一部分。

当前，手势识别主要通过传感器、摄像机和传统的无线射频设备来完成的。其一，基于传感器的手势识别方法需要用户时刻穿戴传感器设备，而且对设备的佩戴方式也有严格的要求，若佩戴不当就难以达到较好的效果，从而给用户带来极大的不便。其二，基于计算机视觉的手势识别方法主要是通过相机来捕捉人员手势的图像或视频信息，但是该技术需要良好的光照条件，它在非视距或光线较暗的场景下无法使用或识别准确率极低；此外，该方法需要捕获大规模的视频数据，因此必须有较大的储存空间和较高的算力支持，这是普通用户所难以企及的，而且如果有视频信息泄露也极易给用户带来严重的隐私隐患。其三，基于传统无线射频技术的手势识别方法主要是采用特定的设备来获取与人员手势相关的信号，通过分析信号变化与手势运动之间的关系来实现手势识别；但传统的射频检测方法主要是采用雷达和超宽带设备，这些设备成本高且操作难度大，仅能应用到一些特殊场景，难以普及到人们的日常生活中。因此，以上方式均不能满足室内的手势识别需求。

无线局域网技术逐渐兴起，使得Wi-Fi设备在人们生活中普及开来。基于WiFi信号的感知技术凭借其低成本、非接触式、不受光照影响、隐私性更好等优势，成为了人机交互的新兴研究方向，也逐渐被应用于入侵检测、身份识别、人员定位等领域。该方法获得的数据形式主要分为信号强度指示(RSSI)和信道状态信息(CSI)，其中，RSSI的稳定性差，在室内传播过程中容易产生较大的偏差，适用于粗粒度的行为识别；而CSI是物理层的细粒度信息，很容易从商用Wi-Fi设备中获取，并且它能够通过多载波的形式来量化手势的变化过程，非常适合用于细粒度的手势识别。因此，基于WiFi信号的手势识别技术有望于应用于医疗服务、家庭娱乐、智能驾驶和智能穿戴等领域，具有巨大的发展潜力。

随着人工智能技术的飞速发展，将手势识别技术应用到移动端设备已经提上了科研人员的研究日程，而高效的深度学习方法有助于改善移动设备处理复杂手势识别任务的能力。

发明内容

为解决上述技术问题，本发明提出一种基于知识蒸馏的手势识别方法及系统，将去噪后的手势数据采用PCA和LOF算法消除静态手势，并搭建成手势图像；然后将手势图像依照顺序输入到EfficientNet-GRU模型中提取时空特征并分类；并用知识蒸馏对模型进行压缩，保证了能够应用到移动端的学生模型有较高的识别精度，并提高手势识别的实时性。

一方面为实现上述目的，本发明提供了一种基于知识蒸馏的手势识别方法，包括如下步骤：

采集手势的CSI数据，并对所述CSI数据进行去噪处理；

采用主成分分析和局部异常因子算法，对去噪后的所述CSI数据进行分割，获得动态手势；

将所述动态手势构建为手势图像，并对所述手势图像进行预处理；

构建EfficientNet-GRU模型；

采用知识蒸馏的方法，对所述EfficientNet-GRU模型进行压缩，基于压缩后的所述EfficientNet-GRU模型，完成对预处理后的所述手势图像的分类。

可选地，采用主成分分析和局部异常因子算法，对去噪后的所述CSI数据进行分割，获得动态手势的方法为：

采用主成分分析算法，对去噪后的所述CSI数据进行降维，获得第一主成分分量；

利用局部异常因子算法，计算所述第一主成分分量中各数据点的相对密度，获得动态手势。

可选地，将所述动态手势构建为手势图像的方法为：

将所述动态手势的振幅和相位按行进行拼接；

将拼接后的所述动态手势进行整合，获得所述手势图像。

可选地，对所述手势图像进行预处理的方法为：

采用transforms.Resize方法,对所述手势图像的尺寸进行调整，获得大小一致的手势图像；

采用transforms.Normalizede方法，对所述大小一致的手势图像进行标准化处理。

可选地，对所述EfficientNet-GRU模型进行压缩的方法为：

将EfficientNet-GRU网络作为教师模型，MoblieNet-GRU网络作为学生模型。

可选地，基于压缩后的所述EfficientNet-GRU模型，完成对预处理后的所述手势图像的分类的方法为：

采用EfficientNet网络，提取预处理后的所述手势图像的空间特征；

采用GRU网络，建立所述空间特征之间的关联，实现对预处理后的所述手势图像的分类。

另一方面为实现上述目的，本发明提供了一种基于知识蒸馏的手势识别系统，包括：采集模块、获得模块、预处理模块、构建模块和分类模块；

所述采集模块用于采集手势的CSI数据，并对所述CSI数据进行去噪处理；

所述获得模块用于采用主成分分析和局部异常因子算法，对去噪后的所述CSI数据进行分割，获得动态手势；

所述预处理模块用于将所述动态手势构建为手势图像，并对所述手势图像进行预处理；

所述构建模块用于构建EfficientNet-GRU模型；

所述分类模块用于采用知识蒸馏的方法，对所述EfficientNet-GRU模型进行压缩，基于压缩后的所述EfficientNet-GRU模型，完成对预处理后的所述手势图像的分类。

可选地，所述获得模块包括：主成分分析单元和局部异常因子单元；

所述主成分分析单元用于采用主成分分析算法，对去噪后的所述CSI数据进行降维，获得第一主成分分量；

所述局部异常因子单元用于利用局部异常因子算法，计算所述第一主成分分量中各数据点的相对密度，获得动态手势。

与现有技术相比，本发明具有如下优点和技术效果：

本发明提出了一种基于知识蒸馏的手势识别方法及系统。首先将去噪后的手势数据采用PCA和LOF算法消除静态手势，详细阐述了算法的计算过程及手势图像的搭建过程；然后将手势图像依照顺序输入到EfficientNet-GRU模型中提取时空特征并分类；采用知识蒸馏的方法对模型进行压缩，保证了能够应用到移动端的学生模型有较高的识别精度，并提高了手势识别的实时性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一的一种基于知识蒸馏的手势识别方法流程示意图；

图2为本发明实施例一的预处理后的振幅信息示意图，其中(a)为天线1的振幅，(b)天线2的振幅，(c)天线3的振幅；

图3为本发明实施例一的第一主成分分量及分割的动态手势示意图，其中(a)为天线1的第一主成分及分割的动态手势，(b)天线2的第一主成分及分割的动态手势，(c)天线3的第一主成分及分割的动态手势；

图4为本发明实施例一的手势图像样本示意图，其中(a)为手势图像1，(b)手势图像2，(c)手势图像3；

图5为本发明实施例一的MBConv模块示意图；

图6为本发明实施例一的DW卷积示意图；

图7为本发明实施例一的GRU结构示意图；

图8为本发明实施例一的知识蒸馏示意图；

图9为本发明实施例一的倒残差结构示意图；

图10为本发明实施例一的教师模型的识别精度示意图，其中(a)为教师模型1的准确率示意图，(b)为教师模型2的准确率示意图；

图11为本发明实施例一的学生模型的识别精度示意图，其中(a)为蒸馏前的准确率示意图，(b)为蒸馏后的准确率示意图；

图12为本发明实施例一的不同算法的实验结果示意图；

图13为本发明实施例一的视距和非视距下的振幅示意图,其中(a)为视距下的振幅示意图，(b)为非视距下的振幅示意图；

图14为本发明实施例一的视距和非视距下的识别精度示意图；

图15为本发明实施例一的手速对识别精度的影响示意图,其中(a)为不同手速的CSI振幅示意图，(b)为不同手速的识别精度示意图；

图16为本发明实施例一的蒸馏温度对识别精度的影响示意图；

图17为本发明实施例一的软硬标签的权值对准确率的影响示意图；

图18为本发明实施例二的一种基于知识蒸馏的手势识别系统示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，本发明提供一种基于知识蒸馏的手势识别方法，包括如下步骤：

采集手势的CSI数据，并对CSI数据进行去噪处理；

采用主成分分析和局部异常因子算法，对去噪后的CSI数据进行分割，获得动态手势；

将动态手势构建为手势图像，并对手势图像进行预处理；

构建EfficientNet-GRU模型；

采用知识蒸馏的方法，对EfficientNet-GRU模型进行压缩，基于压缩后的EfficientNet-GRU模型，完成对预处理后的手势图像的分类。

动态手势分割

本实施例采集的手势数据是在空中连续书写的3个数字，三条天线上的振幅信息如图2所示。可以看出，受试者在一段时间内执行了多个手势，采集数据的时间相对较长，所以CSI信息的数据点相对较多。其中，在手势执行前和执行完成后，手势是处于一种静止的状态，这段静态的CSI信息不仅会增加计算量和计算时间，也可能会对识别结果造成一定的影响。因此，本实施例提出了基于主成分分析(Principal Component Analysis，PCA)和局部异常因子(Local Outlier Factor，LOF)的动态手势分割算法，算法的计算过程如下：

Step1：通过PCA算法对每条天线的CSI矩阵进行降维，得到每条天线中贡献率最大的主成分分量。其中，PCA算法的计算过程如下：

首先，对采集的样本去中心化，CSI矩阵可表示为X＝{x₁,x₂……,x_n}，x_n的矩阵维度表示为m，计算过程为：

然后，求解协方差矩阵，计算过程为：

再对矩阵C进行特征分解，将得到的特征值由大到小排序，则可获取特征值对应的特征向量矩阵V，可表示为：

V＝(v₁,v₂,v₃,…,v_n)

最后，将矩阵按照贡献率映射到新的特征空间Y中，计算过程为：

Y＝XV

Step2：LOF算法通过计算第一主成分分量中各数据点的相对密度，从而分割出动态手势。LOF算法的计算过程如下：

假设CSI矩阵中有两个点，分别为p点和o点，d(p,o)表示两点间的距离。同时，可定义p点的第k距离为d_k(p)＝d(p,o)，该距离必须满足在以p点为圆点、d(p,o)为半径的圆内最多有不包括p点在内的k-1个点。其中，第k距离领域点的个数|N_k(p)|≥k。由此可得o点到p点的可达距离为：

reach_k＝max{d_k(o),d(p,o)}

则p点的局部可达密度为：

由此推导得到p点的局部离群因子为：

当人体处于静止状态时，CSI的波动幅度较小，相对稳定；当手势发生时，CSI的波动幅度较大。因此，可根据求得的LOF值判断手势的起始点，当LOF值小于等于1时，说明此时该点周围密度均匀，数据点相对密集，此时为静止状态；当LOF值大于1时，说明此时该点周围密度较低，为异常点，此时手势发生。

Step3：如图3所示，蓝线表示每条天线上的主成分分量；两条红线的内侧表示分割后的手势分类。将最左端的红线视为手势的起点，最右端的红线视为终点，分割出动态手势区间。由此可以看出，本实施例采用的方法能够有效地消除静态分量，完整地保留了手势信息。

手势图像构建

若将整个CSI样本直接输入EfficientNet网络中，可能会造成部分手势特征的缺失，影响识别精度。因此，本实施例将3条天线的振幅和相位信息按行进行拼接，并将3条链路上的CSI信息整合为一个三通道的矩阵，随后将其三等分，得到三张图像。其中，为了把CSI矩阵H整理为图像的形式，需要将H中的元素映射到[0,255]之间，其映射的计算公式如下：

式中，H_n表示H中的第n个元素。

由于整理得到的每个手势图像尺寸大小不同，无法直接输入到CNN中，因此采用transforms.Resize方法对图像尺寸进行调整，保证手势图像大小一致后，再采用transforms.Normalize进行图像标准化。其中，也可以采用翻转、旋转和裁剪等方法实现图像数据增强，使每个手势样本更加灵活，CSI手势片段图像如图4所示。

EfficientNet-GRU模型

针对连续的手势图像片段，本实施例设计了一种基于EfficientNet-GRU的网络模型，首先采用EfficientNet网络来提取手势图像的空间特征，然后通过GRU网络建立手势图像之间的关联，从而实现手势的分类。

EfficientNet网络

相较于传统的卷积神经网络，EfficientNet网络平衡了模型的深度、宽度和输入图像分辨率，使其在参数量大大减少的情况下，获得了更加优异的识别效果。

EfficientNet网络的关键就是堆叠了多层MBConv模块，MBConv模块具体细节如图5所示。首先，采用批量归一化(Batch Normalization，BN)对经过1×1的卷积升维后的特征进行处理，同时使用Swish函数激活特征，而MBConv1模块不需要进行特征升维；然后，对升维后的特征矩阵采用深度可分离卷积(Depthwise Convolution，DW)，再采用BN层和Swish函数后采用SE模块标记通道特征；最后，采用Dropout对经过1×1的卷积降维后的特征进行处理，再使用短路连接将输入特征与经过卷积学习后的特征进行叠加。为了使模型具有更好的性能，本实施例采用了ECA模块代替了原来的SE模块。

与常规的卷积方式不同的是，DW卷积的每个卷积核仅与一个特征通道进行卷积运算，因此卷积后的特征通道数与输入特征图的特征通道数完全相同，这一过程极大地降低了运算成本。DW卷积的示意图如图6所示。

门控神经网络

GRU是LSTM的改进形式，它采用更新门替换了LSTM中的输入门和遗忘门，并采用重置门替换了输出门，这使得GRU的内部结构更加简单，需要计算的内部状态量也更少，从而减少了模型的训练时间。因此，对于较长的手势序列而言，GRU能够在提升训练速度情况下保证较高分类的准确率，其网络的基本结构如图7所示。

在前向传播过程中，GRU网络的计算过程如下：

式中，h_t-1表示t-1时刻隐藏层的状态变量；h_t表示t时刻隐藏层的状态变量；r_t表示更新门状态变量；z_t表示重置门状态变量；表示当前的候选集状态；y_t表示当前状态；W_r、W_z、W_b、W_O表示权重。

时空域特征提取及分类

本实施例首先将手势图像按照时间顺序依次输入到EfficientNet网络提取空间特征；然后为了提高特征提取效果，在输入GRU网络之前采用2层全连接层对特征进行降维，再采用GRU挖掘图像之间的时序关联；最后经过全连接层后采用Softmax函数输出每种手势的概率值。EfficientNet-GRU模型的具体参数如表1所示。

表1

教师-学生模型

为了在保证识别精度的同时提高手势识别的效率，本实施例将采用知识蒸馏的方式对模型进行压缩，具体是将EfficientNet-GRU网络作为教师模型，MoblieNet-GRU网络作为学生模型。

知识蒸馏

知识蒸馏的思想由人工智能教父Geoffrey Hinton于2015年提出并应用于分类任务中，其核心思想是通过知识迁移，使参数量更多、模型更复杂且识别精度更高的教师模型通过KL散度建立起与参数量更少、模型更简单且识别精度较低的学生模型之间的损失关系，将软标签和硬标签学到的知识进行结合并传递给学生模型，使得它达到与教师模型相近的识别效果，从而提高手势识别的效率。

知识蒸馏的具体流程如图8所示，主要包括以下步骤：

Step1：训练教师模型。与常规的训练方式相同，采用one-hot标签对手势类别进行标注，比如本实施例中的6种手势数据，分别是110、119、120、520、987和885，若输入的手势为119，那么这个类别的标签为[0,1,0,0,0,0]。教师模型在训练完成后经过Softmax函数得到每个类别的输出概率，如[0.03,0.91,0.03,0.01,0.01,0.01]，即0.03的概率表示“110”，0.91是“119”，0.03是“120”，0.01是“520”，0.01是“987”，0.01是“885”。其中，Softmax函数得到的概率分布可表示为：

式中，q_i表示每个类别输出的概率；z_i表示每个类别输出的logits。

Step2：高温蒸馏产生软标签。直接使用教师模型输出的概率值作为软标签会带来这样一个问题，即：当Softmax的输出概率分布的熵较小时，正标签的概率接近于1，负标签的概率接近于0，从而正样本会主导损失函数的训练过程，导致负标签对损失函数的贡献极小。因此，为了提高负标签对损失函数的贡献率，采用“温度T”加入Softmax函数进行蒸馏，使得概率输出相对平滑，其数学计算过程如下公式所示。

式中，T表示温度。当温度T＝1时，这就是标准的Softmax公式。T越高，Softmax函数输出的概率值越趋于平滑，模型将会更加关注负标签携带的信息。

Step3：使用软标签和硬标签同时训练学生模型。使用硬标签能够在一定程度上降低教师网络出错的风险。其中，软标签的计算过程如下：

式中，表示教师模型在温度T时第j类的输出概率值；/>表示学生模型在温度T时第j类的输出概率值；L_soft表示软标签的损失函数。其中，/>和/>可表示为：

硬标签的计算过程如下：

式中，c_j表示第j类的真值；表示学生模型在温度为1时第j类的输出概率值；L_hard表示硬标签的损失函数。其中，/>可表示为：

高温蒸馏得到的模型损失由蒸馏模型损失和学生模型损失加权得到，计算过程如公式5-14表示。

L＝αL_soft+(1-α)L_hard

式中，α表示权值；L表示高温蒸馏得到的损失函数。

Step4：设置温度T＝1，使用学生模型做在线预测。

更加轻量的学生模型从教师模型那里获得了更加丰富的知识，从而提升了自身的分类精度。其中，知识蒸馏中温度T的取值影响学生模型训练过程中对负标签的关注程度，当温度控制较低时，对负标签关注较少；当温度控制较高时，正负标签之间的差值逐渐减小，学生网络对负标签的关注逐渐增多。同时，温度T的选择是出于先验性的，本质上需要关注如下两点：

1.当负标签中包含部分信息量时，提高温度；

2.当负标签中包含噪声影响时，降低温度。

教师模型

在学校里，一名学生能够在多名教师的指导下拓宽自身的知识面。类比于此，本实施例采用两个教师模型来提升学生模型的分类表现，这种方式能够保证在某个教师模型产生较大误差时整个模型仍然可以达到较好的预测效果。

因此，本实施例选择了EfficientNet-B3-GRU作为教师模型1，EfficientNet-B0-GRU作为教师模型2，原因有二：其一，较深的网络感受野较大，能够获取一个图像区域内的语义信息；其二，较浅的网络感受野较小，提取的特征粒度更细。此时，以算数平均的方式得到软标签的损失函数为：

式中，L_soft1表示教师模型1的软标签损失函数；L_soft2表示教师模型2的软标签损失函数。

学生模型

在过去的研究中，通过降低特征张量的维度来减少模型的计算量，但是在整个模型中仅采用低维的张量可能会引发特征提取不充分的问题。因此，MoblieNetV2网络在bottleneck内部引入倒残差块。倒残差块如图9所示，可以看到，它呈现出了两头大、中间小的形式。此外，MoblieNetV2网络为了解决ReLU激活函数导致信息缺失的问题，改用了ReLU6激活函数，这有助于提升模型的稳定性，ReLU6的数学表达式为：

Re LU6＝min(6,max(0,x′)

MoblieNetV2网络的参数量仅有2.96M，计算速度更快，能够较好地应用到移动端设备。因此，本实施例采用MoblieNetV2-GRU作为学生模型，其中，MoblieNetV2网络参数如表2所示。

表2

实验分析

本实施例将通过实验验证所提方法的可行性，实验采集了6种手势，分别是110、119、120、987、520和885，实验数据集大小为1800，单个手势样本为300个。各超参数设置为：动量0.9；学习率0.001，当每轮结束后学习率调整为原来的0.99倍；批次大小为16；准确率24次不再上升后停止训练；优化器选择SGD。

系统的总体性能

教师模型识别精度的混淆矩阵如图10(a)、10(b)所示，可以看出，两个教师模型都具有相对较好的性能，教师1的平均准确率为97％，教师2的平均准确率为95.7％。其中，教师模型1的训练时间为6097s，教师模型2的训练时间为5537s。

学生模型的识别精度如图11所示。蒸馏前的学生模型识别精度的混淆矩阵如图11(a)所示，其平均准确率为89.5％，此时学生模型在不同手势类别的识别精度相差较大。其中，119和110动作相似，使模型产生了一定程度上的误判，导致二者的识别精度较低；885和520的精度相对较高，这是由于两种手势的执行过程有较大的差异，模型比较容易区分。蒸馏后的学生模型识别精度的混淆矩阵如图11(b)所示，其平均准确率为94.2％，对各类手势样本的识别精度也相对平均，均达到了92％以上；同时，学生模型的训练时间为4197s。由此可以说明，知识蒸馏不仅能够在较大程度上改善学生模型的性能，而且也节省了手势识别的时间。

为了评估本实施例的整体性能，本实施例将采用学生模型与两种代表性的算法进行比较，分别是SignFi和FingerDraw。其中，SignFi利用9层卷积神经网络提取特征进行手势识别；FingerDraw利用信号的时频域特征进行分类。

实验结果如图12所示，可以看出，本实施例的评价指标均在94％左右，模型的效果均高于SignFi和FingerDraw。这是由于本实施例采集的手势数据的信息量较大，SignFi仅采用浅层的CNN网络难以提取到精准的手势特征，同时CSI信息中的静态分量也会对识别精度造成一定的影响；而FingerDraw根据人工的判断来消除静态分量，这极易产生较大的误差，并且它提取的特征相对单一，采用的传统机器学习的分类方法也仅适用于规模较小的数据集。此外，二者的特征提取能力也无法满足移动端设备的精度要求。

视距与非视距条件对比分析

视距传播(Line-of-sight propagation，LOS propagation)是指收发机在相互的视线范围内，无线信号可以从发射机直接到达接收机；非视距传播(Non Line-of-sightpropagation，NLOS propagation)是指收发机之间存在障碍物导致无线信号在传播过程中质量较低。为了研究以上两种条件下对识别效果的影响，本实施例收集了两种条件下的手势信息进行对比分析，如图13所示。图13(a)表示视距情况下的手势信息；图13(b)表示非视距情况下的手势信息。可以看出，视距条件下的手语波动较为明显，而非视距环境下的手势遭到了大量杂波的覆盖，导致手势难以分辨。

实验结果如图14所示，视距环境下的识别准确率明显高于非视距环境。其中，非视距环境下的平均识别精度为84.7％；视距环境下的平均识别精度为95.8％。这是由于非视距环境下手势信息受到了大量杂波的干扰，仅能获取相对微弱的手势信息，从而导致识别精度相对较低。

手速对识别精度的影响

在实验中可以发现，受试者在做相同或不同类别的手势时所耗时长是各不相同的，有时较快，有时较慢，手速的快慢会直接影响到接收端所收集的数据包个数，从而有可能导致识别精度产生误差。出于以上原因，本实施例将通过实验探究手速对识别精度造成怎样的影响。

如图15(a)所示，实验设置了三种不同速度的手势，相同类别的手势执行时间分别为1.7s、3s和6s，可以看出，由于速度不同，所获取的CSI数据包存在长短差异，从而导致模型提取的手势特征存在差异。本实施例采集了5位受试者的不同手速实验数据，实验结果如图15(b)所示，可以发现，正常手速的识别精度最高，较慢或较快的识别精度都相对较低。其中，快速的手势平均准确率为93.5％；正常的手势平均准确率为95.5％；慢速的手势平均准确率为92.9％。这是由于较快的手势能够获取的特征较少，较慢的手势信息量较大，但是本实施例所提出的方法均能在不同手速的情况下实现较好的识别效果。

蒸馏温度优化分析

在知识蒸馏的过程中，温度的高低影响着学生模型对负标签的关注程度，为了获取更加有利于学生模型学习的温度，本实施例将通过实验分析不同的温度对学生模型识别准确率的影响。

不同温度的实验结果如图16所示，可以看出当温度为1时，学生模型仅通过自身的能力对手势进行分类，精度相对较低；随着温度的提升，识别精度逐渐升高，当温度超过8时，准确率开始降低。这是由于当温度较低时，模型对负标签的关注较少，学生模型学到的知识较少；温度较高时，类别的输出相对平滑，学生模型学到的知识较多。但是，当温度过高时，蒸馏之后正例的概率值和负例的概率值逐渐趋于相等，学生模型从教师模型那里学到的知识更少，从而导致学生模型的识别精度逐渐降低。

软硬标签权重取值优化分析

在知识蒸馏中，软标签和硬标签占损失函数的比例是不同的，α代表软标签所占的比重，α的取值影响着教师模型对学生模型的贡献程度。因此，本实施例通过实验验证不同α的取值对学生模型识别精度的影响。

实验结果如图17所示，当α取零时，仅采用硬标签的损失函数，此时仅采用学生模型进行手势分类，识别精度相对较低；当α取1时，仅采用软标签的损失函数，此时仅教师模型进行手势分类，识别精度较高。由此可见，若软标签的权重越高，教师模型对知识迁移的贡献率越高，使得学生模型能够更加容易地识别手势样本，但如果α取1的话，并不能达到模型压缩的目的，为了能够使得学生模型能够高效地应用到移动端设备，在今后的研究中应当适当考虑α的取值。在本实施例的模型中，当α＝0.8能够达到较好的效果。

实施例二

如图18所示，本发明还提供了一种基于知识蒸馏的手势识别系统，包括：采集模块、获得模块、预处理模块、构建模块和分类模块；

采集模块用于采集手势的CSI数据，并对CSI数据进行去噪处理；

获得模块用于采用主成分分析和局部异常因子算法，对去噪后的CSI数据进行分割，获得动态手势；

预处理模块用于将动态手势构建为手势图像，并对手势图像进行预处理；

构建模块用于构建EfficientNet-GRU模型；

分类模块用于采用知识蒸馏的方法，对EfficientNet-GRU模型进行压缩，基于压缩后的EfficientNet-GRU模型，完成对预处理后的手势图像的分类。

进一步地，获得模块包括：主成分分析单元和局部异常因子单元；

主成分分析单元用于采用主成分分析算法，对去噪后的CSI数据进行降维，获得第一主成分分量；

局部异常因子单元用于利用局部异常因子算法，计算第一主成分分量中各数据点的相对密度，获得动态手势。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于知识蒸馏的手势识别方法，其特征在于，包括以下步骤：

采集手势的CSI数据，并对所述CSI数据进行去噪处理；

基于主成分分析和局部异常因子的动态手势分割算法的计算过程为：

Step1：通过PCA算法对每条天线的CSI矩阵进行降维，得到每条天线中贡献率最大的主成分分量；其中，PCA算法的计算过程为：

首先，对采集的样本去中心化，CSI矩阵表示为，/>的矩阵维度表示为/>，计算过程为：

，

然后，求解协方差矩阵，计算过程为：

，

再对矩阵C进行特征分解，将得到的特征值由大到小排序，获取特征值对应的特征向量矩阵V，表示为：

，

Step2：LOF算法通过计算第一主成分分量中各数据点的相对密度，从而分割出动态手势；LOF算法的计算过程为：

假设CSI矩阵中有两个点，分别为点和/>点，/>表示两点间的距离；同时，定义点的第/>距离为/>，第/>距离必须满足在以/>点为圆点、/>为半径的圆内最多有不包括/>点在内的/>个点；其中，第/>距离邻域点的个数；得到/>点到/>点的距离为：

，

则点的局部密度为：

，

由此推导得到点的局部离群因子为：

，

当人体处于静止状态时，CSI的波动幅度小，相对稳定；当手势发生时，CSI的波动幅度大；因此，根据求得的LOF值判断手势的起始点，当LOF值小于等于1时，说明点周围密度均匀，数据点相对密集，为静止状态；当LOF值大于1时，说明点周围密度低，为异常点，手势发生；

将所述动态手势构建为手势图像的方法为：

将所述动态手势的振幅和相位按行进行拼接；

将拼接后的所述动态手势进行整合，获得所述手势图像；

将手势图像按照时间顺序依次输入到EfficientNet网络提取空间特征，EfficientNet网络的关键就是堆叠了多层MBConv模块，为了使模型具有更好的性能，采用了ECA模块代替了MBConv中原来的SE模块，为了提高特征提取效果，在输入GRU网络之前采用2层全连接层对特征进行降维，再采用GRU挖掘图像之间的时序关联，GRU网络的隐层节点数一个为128，一个为56，网络层数分别为1，最后经过全连接层后采用函数输出每种手势的概率值；

构建EfficientNet-GRU模型；

采用知识蒸馏的方法，对所述EfficientNet-GRU模型进行压缩，基于压缩后的所述EfficientNet-GRU模型，完成对预处理后的所述手势图像的分类；

将EfficientNet-GRU网络作为教师模型，MoblieNet-GRU网络作为学生模型；

采用两个教师模型来提升学生模型的分类表现：选择EfficientNet-B3-GRU作为教师模型1，EfficientNet-B0-GRU作为教师模型2，以算数平均的方式得到软标签的损失函数为：

，

式中，表示教师模型1的软标签损失函数；/>表示教师模型2的软标签损失函数；

采用MoblieNetV2-GRU作为学生模型，MoblieNetV2网络在bottleneck内部引入倒残差块；改用了ReLU6激活函数，ReLU6的数学表达式为：

。

2.根据权利要求1所述的基于知识蒸馏的手势识别方法，其特征在于，对所述手势图像进行预处理的方法为：

采用transforms.Normalize方法，对所述大小一致的手势图像进行标准化处理。

3.一种基于知识蒸馏的手势识别系统，其特征在于，包括：采集模块、获得模块、预处理模块、构建模块和分类模块；

，

然后，求解协方差矩阵，计算过程为：

，

则点的局部密度为：

，

由此推导得到点的局部离群因子为：

，

将所述动态手势构建为手势图像的方法为：

将所述动态手势的振幅和相位按行进行拼接；

将拼接后的所述动态手势进行整合，获得所述手势图像；

所述构建模块用于构建EfficientNet-GRU模型；

所述分类模块用于采用知识蒸馏的方法，对所述EfficientNet-GRU模型进行压缩，基于压缩后的所述EfficientNet-GRU模型，完成对预处理后的所述手势图像的分类；

，

。