CN117612247A

CN117612247A - 一种基于知识蒸馏的动静态手势识别方法

Info

Publication number: CN117612247A
Application number: CN202311453607.0A
Authority: CN
Inventors: 朱智勤; 徐国峰; 周中奎; 周锋; 帅林宏; 曹龙汉; 李银国
Original assignee: Chongqing Lilong Zhongbao Intelligent Technology Co ltd
Current assignee: Chongqing Lilong Zhongbao Intelligent Technology Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-02-27

Abstract

本发明提供一种基于知识蒸馏的动静态手势识别方法，涉及图像识别技术领域，该方法通过对动态手势进行关键帧提取、通过三维卷积网络和二维卷积网络分别对动态手势和静态手势特征进行提取，最后，通过以教师网络和学生网络组成的知识蒸馏学习框架进行蒸馏学习。本发明利用关键帧的提取，能够有效克服关键帧间的距离大、关键信息严重不足、提取精度差等问题，从而提升识别的准确性与稳定性；利用分别对动态手势与静态手势的特征提取，确保动、静态手势的相同维度，避免出现不匹配、提取精度差以及计算量庞大等问题；通过教师网络与学生网络知识蒸馏学习框架的构建，实现轻量级的同时、完成训练模型的指导与校正，实现不断优化。

Description

一种基于知识蒸馏的动静态手势识别方法

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于知识蒸馏的动静态手势识别方法。

背景技术

手势识别技术一直是人工智能领域的重要研究方向，其旨在从图像或视频中提取人的手部特征来理解人的身体运动或“手势”，然后将每个样本进行归类或标记为特定的标签。随着人工智能和深度学习的发展，手势识别技术在智能家居、汽车交互、虚拟现实等领域有着广泛的应用前景。

现有的手势识别方法主要分为动态手势识别和静态手势识别。其中，动态手势识别的方法主要有基于手工提取特征的方法和基于深度学习神经网络的方法：基于手工特征提取的动态手势识别方法包括利用HOG描述符、LBP描述符等描述子对动态手势进行逐帧特征提取，再对提取到的手势特征序列进行直接对比或二次处理、得到表征动作时空信息的特征，最后利用分类器对特征进行分类输出；然而，上述方法均受动态手势的背景影响大，且需要人为提取手势图像特征、耗时长；基于深度学习神经网络的动态手势识别方法包括循环神经网络(Recurrent Neural Network，RNN)、长短期记忆递归神经网络(Long Short-Term Memory，LSTM)及三维卷积神经网络(3DCNNS)等，其中，循环神经网络和长短期记忆递归神经网络通过将动态手势处理为序列数据，同时对动态手势的时空特征进行编码，从而学习动态手势长短期的时空关系，三维卷积神经网络通过在二维卷积核的基础上引入时间维度，从而可以同时提取动态手势的空间特征和时间特征。与基于手工提取特征的方法相比，基于深度学习神经网络的方法能够直接从动态手势数据中学习手势特征，避免了人工提取特征的过程，然而，现有的深度学习神经网络结构过于复杂、识别的实时性低，且网络参数量庞大、需要占用较多内存以及较大计算量的设备，严重制约深度学习神经网络在手势识别中的应用。同时，由于动态手势数据采取视频方式进行保存，手势采集时没有开始与结束标志，导致动态手势视频数据存在部分冗余帧和静止帧，且同一个手势动作的多段数据包含的特征信息有所不同，因而手势采集数据更为庞大，易出现采集的特征信息不完全、手势识别不准确、误差大等问题。

静态手势识别的方法也主要有基于手工提取特征的方法和基于深度学习神经网络的方法：基于手工提取特征静态手势识别方法包括SIFT(Scale-invariant featuretransform)和SURF(Speeded up robust features)等，这些方法均是针对某一系列特定的静态手势而设计，不一定适用于其它的手势系统、适用性差，且手工特征选取的过程非常依赖领域内专家自身的经验，人为影响因素高、不确定性大，局限性较高；基于深度学习神经网络的静态手势识别方法不受特定手势和经验的影响，能够提取到更深层的信息。但与动态手势识别方法一致，随着网络不断加深，基于深度学习神经网络的静态手势识别方法的参数量愈加庞大，加之特征的感受野明显不足，会丢失一些层级的手势特征，致使网络不同层级的特征信息无法被复用。

综上所述，现有基于深度学习神经网络用于动态手势识别与静态手势识别均存在计算量庞大、耗时长、易丢失采集的数据特征、手势识别误差大、受环境影响因素大、稳定性差等问题。

发明内容

针对以上现有技术存在的问题，本发明的目的在于提供一种基于知识蒸馏的动静态手势识别方法，该方法通过对动态手势进行关键帧提取、关键帧引用注意力机制进行动态手势预处理，利用三维卷积网络和二维卷积网络分别对动态手势和静态手势特征进行提取，然后经过LSTM与注意力机制学习全局时空，并通过联合教师网络和学生网络使用蒸馏学习生成轻量化网络对动静态手势进行训练与识别，从而有效解决上述现有技术中应用基于深度学习神经网络对动态手势与静态手势识别存在的问题。

本发明的目的通过以下技术方案实现：

一种基于知识蒸馏的动静态手势识别方法，包括：

步骤A、动态手势关键帧提取：首先利用原始动态手势生成光流视频，并将原始动态手势与其生成的光流视频的每一帧图像作为一个小块，分别计算每段视频图像的注意力分数；然后，将获得的注意力分数进行相加操作，并分别对比每段图像中的注意力分数，将注意力分数较小所对应的动态手势图像去除、保留余下动态手势，获得动态手势关键帧、并将其作为输入；

步骤B、动态手势与静态手势特征提取：针对动态手势与静态手势不同特点，分别采用三维卷积网络与二维卷积网络对动态手势与静态手势进行特征提取；

步骤C、动态手势与静态手势训练识别：采用特征提取模型MGLSTM作为教师网络、采用轻量化模型Mobilenet作为学生网络，通过知识蒸馏学习框架分别对步骤B中的动态手势特征与静态手势特征进行蒸馏学习，利用不断优化的教师网络目标函数实现更多动态手势特征与静态手势特征的学习、并对学生网络目标函数指导优化。

基于上述方案的进一步优化，所述步骤A具体为：

步骤A1、首先，获取每个动态手势的原始数据L_i(i＝1,2,…，n)、并将其生成对应的光流视频I_i，然后将原始数据L_i与光流视频I_i转换为连续帧图像；

步骤A2、对步骤A1中原始数据L_i与光流视频I_i转换后的连续帧图像进行划分、将其每帧划分为k个patch；

步骤A3、对动态手势的原始数据L_i与光流视频I_i中每一个patch，采用卷积层生成特征向量的方式提取每帧图像的抽象特征：

f(patch_i)＝Conv(patch_i)；

式中：f(patch_i)表示特征向量；patch_i表示原始数据L_i或光流视频I_i中第i个patch；Conv(patch_i)表示对第i个patch进行卷积；

步骤A4、将步骤A3中生成的特征向量应用到全连接层，获取每个patch的查询值与键值：

Q_i＝FC_q(f(patch_i))；

K_i＝FC_k(f(patch_i))；

式中：Q_i表示查询值；K_i表示键值；FC_q表示获得的每个patch查询值的全连接层；FC_k表示获得的每个patch键值的全连接层；

步骤A5、分别通过查询值与键值计算原始数据L_i或光流视频I_i每个patch的注意力得分，具体为：

式中：表示原始数据L_i的注意力得分；/>表示光流视频I_i的注意力得分；/>表示动态手势原始数据中第i个patch的查询值；/>表示动态手势原始数据中第i个patch的键值；/>表示动态手势光流视频中第i个patch的查询值；/>表示动态手势光流视频中第i个patch的键值；

步骤A6、分别对每帧动态手势原始数据L_i与光流视频I_i的k个patch进行注意力得分的计算，然后分别对每帧动态手势原始数据L_i的注意力得分、光流视频I_i的注意力得分进行求和与求均值；之后，将每帧动态手势原始数据L_i与其对应的光流视频L_i的注意力得分进行相加、获得该帧对应的最终注意力分数S_i；将最终注意力分数S_i与前述获得的注意力分数均值相比较，并将最终注意力分数S_i低于注意力分数均值最小值的对应帧去除，保留余下的帧作为动态手势关键帧进行输出。

基于上述方案的进一步优化，所述步骤A2中，若连续帧中一个帧的尺寸为H·W·C(其中，H表示高度、W表示宽度、C表示通道数)，将该帧划分为sqrt(m)·sqrt(m)个patch，每个patch的尺寸为：

基于上述方案的进一步优化，所述步骤B具体为：

步骤B1、针对动态手势：分别利用三维卷积层提取原始动态手势关键帧与手势光流视频关键帧的初步特征，具体为：

式中：F_Li表示原始动态手势关键帧L_Gi的初步特征；表示手势光流视频关键帧I_Gi的初步特征；3Dconv(L_Gi)表示对原始动态手势关键帧L_Gi进行三维卷积提取；3Dconv(I_Gi)表示对手势光流视频关键帧I_Gi进行三维卷积提取；

并利用初步特征与初步特征/>分别获得对应的手势特征值/>和/>

步骤B2、针对静态手势：首先，采用数据增强方式对静态手势图像进行数据增强、获得输入图像I₁；然后，将输入图像I₁进行二维卷积层提取、得到输入特征F_I：

F_I＝2DConv(I_l)；

式中：2DConv(I_l)表示对输入图像进行二维卷积提取；

步骤B3、通过特征重塑将输入特征F_I重塑为序列特征，进而使其与经过三维卷积提取的初步特征(即初步特征与初步特征/>)匹配，具体为：

F_flattened＝reshape[F_I,(H·W,D)]；

式中：H、W分别表示输入特征F_I的高度与宽度，D表示输入特征F_I的通道数；F_flattened表示输入特征F_I重塑后的序列特征；

并通过序列特征F_flattened获得静态手势特征值V_flattened；

步骤B4、建立BiLSTM结构，通过初步特征初步特征/>及序列特征F_flattened通过BiLSTM结构分别获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征H_l。

基于上述方案的进一步优化，所述步骤B2中数据增强方式包括旋转、裁剪、噪声处理等一系列手段组合。

基于上述方案的进一步优化，所述步骤B4中BiLSTM结构由两组LSTM层组成：一组用于前向处理，一组用于后向处理；其中，LSTM结构包括遗忘门、输入门和输出门；

遗忘门具体为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)；

式中：σ表示sigmoid激活函数；W_f、b_f表示遗忘门中可学习的网络参数；h_t-1表示前(t-1)时刻的隐层状态；x_t表示模型在第t时刻的输入；

输入门具体为：

i_t＝σ(W_F·[h_t·l,x_t]+b_i)；

式中：W_F、b_i、W_c、b_c表示输入门中可学习的网络参数；C_t表示第t时刻的单元状态；

输出门具体为：

式中：W_o、b_o表示输出门中可学习的网络参数。

为了进一步体现动态手势原始数据特征动态手势光流视频特征/>以及静态手势特征H_l中的重要特征，基于上述方案的进一步优化，所述步骤B4中，获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征H_l后，首先将动态手势原始数据特征/>动态手势光流视频特征/>及静态手势特征H_l转换为各自的查询值Q、键值K以及手势特征值V(即/>及V_flattened)；

然后分别计算查询值Q与对应键值K之间的注意力得分scores：

scores＝Q·K^T；

注意力得分用于衡量查询值Q与键值K之间的匹配程度；

之后，通过softmax函数对注意力得分进行归一化处理，得到注意力权重：

最后，通过注意力权重对手势特征值V进行加权求和，同时完成加权后输出特征与时空特征之间的加权融合，进而完成对各个手势特征的加权处理；具体为：

F_out＝scores_attention·V+T_G；

式中：T_G表示时空特征。

基于上述方案的进一步优化，所述步骤C具体为：为了兼顾大模型的计算量和小模型的轻量实时特点，将特征提取模型MGLSTM作为教师网络，用轻量化模型Mobilenet作为学生网络；

针对动态手势：将步骤B提取的动态手势原始数据集和动态手势光流视频，输入到特征提取模型中得到动态手势教师网络，通过训练以下第一目标函数进行动态手势教师网络优化：

式中：表示第i个动态手势属于第m个类的概率；/>表示教师生成的软标签；W_S表示学生网络的权值；N表示动态手势训练视频的个数；M表示训练总的动态手势个数；

同时采用Mobilenet对动态手势原始数据集和动态手势光流视频的特征进行提取，通过不断训练以下第二目标函数优化学生网络：

式中：表示学生网络生成的第i个动态手势视频属于m类的概率；/>表示硬标签信息；N表示动态手势训练视频的个数；M表示训练总的动态手势个数；

再通过对第一目标函数与第二目标函数进行加权，实现教师网络更好的指导学生网络进行学习，具体为：

式中：W表示学生网络的权重；α₁、β₁分别表示教师网络与学生网络的相对权重，且α₁+β₁＝1；T表示缩放因子，用于调整教师网络与学生网络的软目标之间的相似性；

针对静态手势：将静态手势图像输入到特征提取模型中得到静态手势的教师网络，通过训练以下第三目标函数进行动态手势教师网络优化：

同时采用Mobilenet对静态手势图像的特征进行提取，通过不断训练以下第四目标函数优化学生网络：

再通过对第三目标函数与第四目标函数进行加权，实现教师网络更好的指导学生网络进行学习，具体为：

式中：W表示学生网络的权重；α₂、β₂分别表示教师网络与学生网络的相对权重，且α₂+β₂＝1；T表示缩放因子，用于调整教师网络与学生网络的软目标之间的相似性。

本发明具有如下技术效果：

本申请方法首先对动态手势进行关键帧提取，利用原始动态手势数据集生成光流动态手势数据，然后对两种动态手势数据进行注意力加权得分，删除掉两种动态手势中得分低的帧数据，获得得分高的帧数据作为后续网络输入的关键帧数据，从而有效剔除动态手势中的冗余帧与静态帧等，一是有效缩减计算量、提升计算效率，二是避免冗余帧对识别结果的干扰；之后，采用旋转、剪裁和噪声处理等一系列的数据增强方法，获得静态手势的初步输入数据。然后通过三种类型数据分别输入到对应特征提取模型中，由特征提取模型对数据特征进行提取，利用分类提取确保特征提取的准确性、避免环境因素干扰，同时分类提取能够有效节省时间、提升识别效率。最后，为了使网络更加轻量化，提出一种知识蒸馏学习框架，通过教师网络的学习，不断优化目标函数，达到对学生网络的指导，进一步提升识别的效率与准确性。

附图说明

图1为本发明实施例中动态手势关键帧提取的结构示意图。

图2为本发明实施例中动静态手势特征提取示意图。

图3为本发明实施例中知识蒸馏的学习框架示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。

实施例1：

参照图1～图3所示：一种基于知识蒸馏的动静态手势识别方法，包括：

步骤A、动态手势关键帧提取：首先利用原始动态手势生成光流视频，并将原始动态手势与其生成的光流视频的每一帧图像作为一个小块，分别计算每段视频图像的注意力分数；然后，将获得的注意力分数进行相加操作，并分别对比每段图像中的注意力分数，将注意力分数较小所对应的动态手势图像去除、保留余下动态手势，获得动态手势关键帧、并将其作为输入；具体为：

步骤A2、对步骤A1中原始数据L_i与光流视频I_i转换后的连续帧图像进行划分、将其每帧划分为k个patch；例如：若连续帧中一个帧的尺寸为H·W·C(其中，H表示高度、W表示宽度、C表示通道数)，将该帧划分为sqrt(m)·sqrt(m)个patch，每个patch的尺寸为：

f(patch_i)＝Conv(patch_i)；

Q_i＝FC_q(f(patch_i))；

K_i＝FC_k(f(patch_i))；

步骤B、动态手势与静态手势特征提取：针对动态手势与静态手势的不同特点，分别采用三维卷积网络与二维卷积网络对动态手势与静态手势进行特征提取；具体为：

式中：表示原始动态手势关键帧L_Gi的初步特征；/>表示手势光流视频关键帧I_Gi的初步特征；3Dconv(L_Gi)表示对原始动态手势关键帧L_Gi进行三维卷积提取；3Dconv(I_Gi)表示对手势光流视频关键帧I_Gi进行三维卷积提取；

步骤B2、针对静态手势：首先，采用包括旋转、裁剪、噪声处理等一系列手段组合的数据增强方式(需要说明的是：旋转、裁剪、噪声处理等手段均采用本领域常规手段，本实施例中不做过多限定)对静态手势图像进行数据增强、获得输入图像I₁；然后，将输入图像I₁进行二维卷积层提取、得到输入特征F_I：

F_I＝2DConv(I_l)；

式中：2DConv(I_l)表示对输入图像进行二维卷积提取；

F_flattened＝reshape[F_I,(H·W,D)]；

并通过序列特征F_flattened获得静态手势特征值V_flattened；

步骤B4、建立BiLSTM结构，通过初步特征初步特征/>及序列特征F_flattened通过BiLSTM结构分别获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征H_l。其中，BiLSTM结构由两组LSTM层组成：一组用于前向处理，一组用于后向处理；其中，LSTM结构包括遗忘门、输入门和输出门；

遗忘门具体为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)；

式中：σ表示sigmoid激活函数；W_f、b_f表示遗忘门中可学习的网络参数；h_t-1表示前(t-1)时刻时的隐层状态；x_t表示模型在第t时刻的输入；

输入门具体为：

i_t＝σ(W_F·[h_t·l,x_t]+b_i)；

输出门具体为：

式中：W_o、b_o表示输出门中可学习的网络参数。

步骤C、动态手势与静态手势训练识别：采用特征提取模型MGLSTM作为教师网络、采用轻量化模型Mobilenet作为学生网络，通过知识蒸馏学习框架分别对步骤B中的动态手势特征与静态手势特征进行蒸馏学习，利用不断优化的教师网络目标函数完成更多动态手势特征与静态手势特征学习、以及对学生网络目标函数指导优化；具体为：

为了兼顾大模型的计算量和小模型的轻量实时特点，将特征提取模型MGLSTM作为教师网络，用轻量化模型Mobilenet作为学生网络；

针对动态手势：将步骤B提取的动态手势原始数据集和动态手势光流视频输入到特征提取模型中得到动态手势教师网络，通过训练以下第一目标函数进行动态手势教师网络优化：

实施例2：

作为对本申请方案的进一步优化，在实施例1方案的基础上，为了进一步体现动态手势原始数据特征动态手势光流视频特征/>以及静态手势特征H_l中的重要特征，上述实施例1方案的步骤B4中，获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征H_l后，首先将动态手势原始数据特征/>动态手势光流视频特征/>及静态手势特征H_l转换为各自的查询值Q、键值K以及手势特征值V(即/>及V_flattened)；

然后分别计算查询值Q与对应键值K之间的注意力得分scores：

scores＝Q·K^T；

注意力得分用于衡量查询值Q与键值K之间的匹配程度；

F_out＝scores_attention·V+T_G；

式中：T_G表示时空特征。

Claims

1.一种基于知识蒸馏的动静态手势识别方法，其特征在于：包括：

步骤C、动态手势与静态手势训练识别：采用特征提取模型MGLSTM作为教师网络、采用轻量化模型Mobilenet作为学生网络，通过知识蒸馏学习框架分别对步骤B中的动态手势特征与静态手势特征进行蒸馏学习，利用不断优化的教师网络目标函数，完成更多动态手势特征与静态手势特征学习、以及对学生网络目标函数指导优化。

2.根据权利要求1所述的一种基于知识蒸馏的动静态手势识别方法，其特征在于：所述步骤A具体为：

f(patch_i)＝Conv(patch_i)；

Q_i＝FC_q(f(patch_i))；

K_i＝FC_k(f(patch_i))；

3.根据权利要求1或2所述的一种基于知识蒸馏的动静态手势识别方法，其特征在于：所述步骤A2中，若连续帧中一个帧的尺寸为H·W·C，将该帧划分为sqrt(m)·sqrt(m)个patch，每个patch的尺寸为：

4.根据权利要求1或2所述的一种基于知识蒸馏的动静态手势识别方法，其特征在于：所述步骤B具体为：

F_I＝2DConv(I_l)；

式中：2DConv(I_l)表示对输入图像进行二维卷积提取；

步骤B3、通过特征重塑将输入特征F_I重塑为序列特征，进而使其与经过三维卷积提取的初步特征匹配，具体为：

F_flattened＝reshape[F_I,(H·W,D)]；

并通过序列特征F_flattened获得静态手势特征值V_flattened；

5.根据权利要求4所述的一种基于知识蒸馏的动静态手势识别方法，其特征在于：所述步骤B4中BiLSTM结构由两组LSTM层组成：一组用于前向处理，一组用于后向处理；其中，LSTM结构包括遗忘门、输入门和输出门；

遗忘门具体为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)；

输入门具体为：

i_t＝σ(W_F·[h_t·l,x_t]+b_i)；

输出门具体为：

式中：W_o、b_o表示输出门中可学习的网络参数。

6.根据权利要求1或5所述的一种基于知识蒸馏的动静态手势识别方法，其特征在于：所述步骤C具体为：为了兼顾大模型的计算量和小模型的轻量实时特点，将特征提取模型MGLSTM作为教师网络，用轻量化模型Mobilenet作为学生网络；