CN114529949A

CN114529949A - 一种基于深度学习的轻量级手势识别方法

Info

Publication number: CN114529949A
Application number: CN202210268407.7A
Authority: CN
Inventors: 蔡向东; 王庆鑫
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-05-24

Abstract

本发明公开了一种基于深度学习的轻量级手势识别方法，属于人工智能技术领域。所述方法包括以下步骤：在手部检测阶段，提出了改进的MobileNetv2‑YOLOv3网络结构，在保证准确率的同时大幅度减小模型的参数量以及计算量；在手部关键点检测阶段，提出了基于注意力的选择性手势蒸馏方法(Attention‑based Selective Hand Distillation,ASHD)，首先设计表达能力强、参数量大的知识网络(Teacher Model,T)和轻量型基础网络(Student Model,S)，然后通过基于注意力的手势蒸馏方法有选择的迁移知识网络的结构化知识，联合真实标签共同训练参数量少的基础网络；在手势分类阶段，采用ResNet作为基础网络，同时结合一系列tricks来提高模型的泛化能力。本发明所述方法用来设计一种轻量化模型，在保证准确率的同时降低计算量，能够部署在算力要求不大的嵌入式设备上。

Description

一种基于深度学习的轻量级手势识别方法

技术领域

本发明专利属于人工智能技术领域，特别涉及一种基于深度学习的轻量级手势识别方法。

背景技术

人机交互技术作为计算机领域的一个重点研究方向，随着深度学习等技术的发展，取得了很大的进展。手势具有丰富的表达能力，有着非常大的应用前景和价值。手势识别技术在虚拟现实、机器人领域、智能家居等领域具有很强的应用前景。专利《基于手势识别手套的手势识别方法、系统及手势识别手套》完整地提取出了手势，但手势识别手套限制了更多手势姿势的表达且并在与人手的接触中依赖于数据手套中传感器的灵敏性；专利《一种基于深度学习的手势识别方法及设备》提出了一种手势识别的完整流程，但没有对模型进行压缩，无法达到实时性的检测要求。针对上述问题，本发明将从模型的内存占比以及计算量上出发，设计了一种基于深度学习的轻量级手势实时识别算法，在保证模型检测精度与速度均衡的同时，尽可能减小模型的训练时间及模型占比内存，使其有利于在移动端设备上的部署。

发明内容

本发明旨在提供基于深度学习的轻量级手势识别算法，可部署在轻量级嵌入式设备上，提高设备的运行速度。为实现以上目的，本发明采用如下技术方案：

步骤S1、建立手势检测图像库及其标签库：包括多种场景下的手势，图像为自然场景下的手势图片和影视作品中的手势图片，按照图片像素宽度不超过1024或像素高度不低于720的规则进行等比缩放。

步骤S2、建立深度学习目标检测模型：采用改进的MobileNetv2-YOLOv3算法来实现手部检测框的快速定位；改进的MobileNetv2-YOLOv3算法用基础网络MobileNetv2进行特征提取，输出三种不同尺度的特征图，对不同尺度的特征图进行融合，可以同时实现大目标、小目标的识别。

步骤S3、建立手部关键点检测模型：采用基于注意力机制的选择性手势蒸馏方法(Attention-based Selective Hand Distillation,ASHD)来实现手部关键点的准确定位；ASHD涉及到两个网络，知识网络(Teacher Model,T)和轻量型基础网络(Student Model,S)，同时使用注意力机制，对传递的知识进行挖掘和区分，让基础网络尽可能有选择学到更多有用的知识，以此提高S模型的性能。

步骤S4、建立深度学习图像分类模型：采用深度残差网络ResNet，ResNet包含49层卷积层，除了第一层是7*7卷积外，其余都是1*1卷积和3*3卷积，其包含残差模块，最后一层为SoftMax分类层；另外，加入数据增强方法，包括旋转、裁剪等，对图像使用Mix-up数据增强，以线性插值的方式来构建新的训练样本和标签，提高模型的拟合能力；为了防止过拟合，继续加入Label smoothing正则化方法，防止模型在训练时过于自信地预测标签，改善泛化能力差的问题。

步骤S5、数据增强：利用数据扩增技术扩充步骤S2、S3的图片集，增加图片集的多样性，包括随机地将原图像通过旋转、平移、裁剪等数据增强操作变换为一张新的图片，使其作为训练时的数据输入。

步骤S6、训练手部检测模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8：2，利用步骤S2中改进的是MobileNetv2-YOLOv3目标检测模型通过反向传播算法在训练集上进行训练，训练过程中使用SGD优化器对梯度进行更新，最终得到手部检测模型。

步骤S7、训练手部关键点检测模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8：2，利用步骤S3中的ASHD方法在训练集上进行训练，最终得到手部关键点检测模型。

步骤S8、训练手势分类模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8：2，利用步骤S4所建立的ResNet图像分类模型通过反向传播算法在训练集上训练，训练过程中使用SGD优化器对梯度进行更新，最终得到手势分类模型。

步骤S9、手势识别：将待检测的手势影像输入到手部目标检测模型中，获得手部图像区域；将手部图像区域送入到ASHD手部关键点检测模型中得到手部关键点的坐标以及连线；最后将手部图像区域送入到手势分类模型中得到手势动作的标签值。

本发明具有如下有益效果：

(1)能够准确地预测出手势中的关键点以及对应的类别；

(2)相对于传统方法本发明大大地减少了模型的计算量以及内存占比。

附图说明

图1一种基于深度学习的轻量级手势识别方法工作流程图；

图2Mobilenetv2-Yolov3网络结构图；

图3基于注意力机制的选择性手势蒸馏方法(ASHD)网络结构图；

图4深度卷积神经网络分类流程图；

图5手势识别效果图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种基于深度学习的轻量级手势识别方法，包括如下步骤：

步骤S2、建立深度学习目标检测模型：采用改进的MobileNetv2-YOLOv3算法来实现手部检测框的快速定位；改进的MobileNetv2-YOLOv3算法在主干网络结构上用MobileNetv2代替传统YOLOv3中的Darknet-53网络，MobileNetv2网络主要引用了深度可分离卷积来替代标准卷积从而大幅度减少了计算量；其次在损失函数的设计上使用DIoU作为边界框坐标回归损失，其可以直接最小化两个目标框的距离，收敛速度较快；另外，针对手部检测任务重新聚类新的Anchor；网络通过多尺度的方式最终输出目标种类的置信度和目标位置坐标。

步骤S3、建立手部关键点检测模型：采用基于注意力机制的选择性手势蒸馏方法(Attention-based Selective Hand Distillation,ASHD)来实现手部关键点的准确定位；ASHD涉及到两个网络，知识网络(Teacher Model)和轻量型基础网络(Student Model),然后通过基于注意力的手势蒸馏方法有选择的迁移知识网络的结构化知识，联合真实标签共同训练参数量少的基础网络，有效改善S模型对部分模棱两可和欠拟合样本的表达和鉴别。

步骤S8、训练手势分类模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8：2，利用步骤S4所建立的ResNet图像分类模型以及一系列的tricks通过反向传播算法在训练集上训练，训练过程中使用SGD优化器对梯度进行更新，最终得到手势分类模型。

所述步骤S4中，基于注意力机制的选择性手势蒸馏方法(Attention-basedSelective Hand Distillation,ASHD)涉及到两个网络，知识网络(Teacher Model)和基础网络(Student Model)，教师网络选用HG(堆叠沙漏模型)，在知识迁移过程中，设定平衡参数a，用于平衡T模型和真实标签之间的监督力度，调节α可以得到S模型模仿T模型的最佳方式。其中，选择性的知识是因为知识网络经过注意力模块后输出结果WOut_T包含热力图P_T,i和热力图的重要程度的重要程度w_j两部分结果,w_j通过注意力机制模块直接得到,其中j∈J，J表示关节点的个数,见式(1)-(3)所示。

WOut_T＝{ω_j；P_T，i} (1)

ω_j＝{ω₁，ω₂，...，ω_J} (2)

P_T，j＝f_T(·；θ) (3)

通过注意力残差模块自动获得关节点对基础网络梯度更新所起到的重要程度，该操作会选择性的将知识迁移给基础网络，激励学生从中吸收重要和难的知识，忽略那些基础网络自身就可以学到的知识；于是，提出了如式(4)所示的基于注意力的姿态蒸馏迁移方式。

上述式(4)中，

和

表示知识网络T模型和基础网络S模型的预测热力图，为保证知识迁移的有效性和姿态估计的完整性，姿态差异性约束是仍然使用MSE函数，因此，第二阶段的训练过程可以用式(5)来表示。

L＝αL_apd+(1-α)L_mse (5)

其中，α用来平衡真实标签和知识网络的监督信息，α＝0表示正常的训练过程全部使用真实标签进行监督，当α＝1表示全部使用迁移知识进行指导学习。因为L_apd存在，可以弥补基础网络对模棱两可样本的区分和对难样本的响应。

以下为本发明的具体实现过程。

为了使本发明的目的、技术方案、和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明，本发明分为离线训练阶段和推断阶段两个相对独立的阶段。在离线训练阶段中，手部检测图像及其标签、手部关键点检测图像及其标签、手势分类图像及其标签投入各自的模型中进行训练。每一批数据队列在投入训练模型之前先经过数据增强，再进行反向传播更新模型参数。在多次迭代训练后，择优保存模型作为推断阶段的检测模型，模型一旦训练完成，即可部署到不同的嵌入式设备上使用，无需重复训练。在推断阶段，将手势影像输入到训练好的模型内，可得到手势的全貌以及对应的标签，将结果记录于服务器内。

1、建立手势检测图像库及其标签库：包括多种场景下的手势，图像为自然场景下的手势图片和影视作品中的手势图片，按照图片像素宽度不超过1024或像素高度不低于720的规则进行等比缩放。标签文件按照COCO格式建立，内含手部检测框的bbox，含有手部关键点的key points，以及手势对应的类别。

2、建立深度学习目标检测模型：采用改进的MobileNetv2-YOLOv3算法来实现手部检测框的快速定位；改进的MobileNetv2-YOLOv3算法在主干网络结构上用MobileNetv2代替传统YOLOv3中的Darknet-53网络，MobileNetv2网络主要引用了深度可分离卷积来替代标准卷积从而大幅度减少了计算量；其次在损失函数的设计上使用DIoU作为边界框坐标回归损失，其可以直接最小化两个目标框的距离，收敛速度较快；输入图片首先经过预处理之后通过MobileNetv2进行特征提取，加入残差网络以使网络在深层能够很快的收敛继续训练下去，然后通过YOLO层得到三种不同尺度的特征图(13*13，26*26，52*52)，每个尺度的特征图用来预测不同大小的目标；预测时该网络采用多个独立的逻辑分类器来计算属于特定标签的可能性，在计算分类损失时，对每个标签使用二元交叉熵损失，降低了计算的复杂度。

3、建立手部关键点检测模型：采用基于注意力机制的选择性手势蒸馏方法(Attention-based Selective Hand Distillation,ASHD)来实现手部关键点的准确定位；ASHD涉及到两个网络，知识网络(Teacher Model)和轻量型基础网络(Student Model),知识网络选用HG(堆叠沙漏模型)，基础网络选用通道数更少的HG网络；然后通过基于注意力的手势蒸馏方法有选择的迁移知识网络的结构化知识，联合真实标签共同训练参数量少的基础网络，有效改善S模型对部分模棱两可和欠拟合样本的表达和鉴别。

4、建立深度学习图像分类模型：采用深度残差网络ResNet，ResNet包含49层卷积层，除了第一层是7*7卷积外，其余都是1*1卷积和3*3卷积，其包含残差模块，最后一层为SoftMax分类层；另外，加入数据增强方法，包括旋转、裁剪等，对图像使用Mix-up数据增强，以线性插值的方式来构建新的训练样本和标签，提高模型的拟合能力；为了防止过拟合，继续加入Label smoothing正则化方法，防止模型在训练时过于自信地预测标签，改善泛化能力差的问题。

5、数据增强：利用数据扩增技术扩充步骤的图片集，增加图片集的多样性，包括随机地将原图像通过旋转、平移、裁剪等数据增强操作变换为一张新的图片，所有的操作以0.2的概率施加在原图上，即一张图片可能被同时施加多种数据增强操作。

6、训练手部检测模型。按照8：2的比例，对手势数据集进行训练集与测试机的划分；使用Mobilenetv2-Yolov3目标检测模型通过反向传播算法在训练集上进行训练，其中，预训练模型为COCO目标检测数据集上训练所得的模型，参数更新方式为SGD，初始学习率为0.0025，动量系数为0.9，权重衰减为0.0005。

7、训练手部关键点检测模型。按照8：2的比例，对手势数据集进行训练集与测试机的划分，使用基于注意力机制的手势蒸馏方法(ASHD)首先训练参数量较大的HG网络作为T模型，使用参数量较少的HG网络作为S模型，预训练模型为COCO目标检测数据集上训练所得的模型，参数更新方式为SGD，初始学习率为0.0025，动量系数为0.9，权重衰减为0.0005。

8、训练手势分类模型。按照8：2的比例，对手势数据集进行训练集与测试机的划分，利用ResNet图像分类模型通过反向传播算法在训练集上进行训练，参数更新方式为SGD，初始学习率为0.0025，动量系数为0.9，权重衰减为0.0005。

9、手势识别：将待检测的手势影像输入到手部目标检测模型中，输出手部图像区域(x_min,y_min,x_max,y_max)；将手部检测框输入到手部关键点检测模型中得到手部的21个关键点(k₀,k₁,...,k₂₀)以及手部关键点的连线示意图；将手部检测框输入到手势分类模型中得到手势对应的label值。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于深度学习的轻量级手势识别方法，其特征在于，包括以下步骤：

步骤S1、建立手势检测图像库及标签库：包括多种场景下的手势，图像为自然场景下的手势图片和影视作品中的手势图片，按照图片像素宽度不超过1024或像素高度不低于720的规则进行等比缩放；

步骤S2、建立深度学习目标检测模型：采用改进的MobileNetv2-YOLOv3算法来实现手部检测框的快速定位；改进的MobileNetv2-YOLOv3算法用基础网络MobileNetv2进行特征提取，输出三种不同尺度的特征图，对不同尺度的特征图进行融合，可以同时实现大目标、小目标的识别；

步骤S3、建立手部关键点检测模型：采用基于注意力机制的选择性手势蒸馏方法(Attention-based Selective Hand Distillation,ASHD)来实现手部关键点的准确定位；

步骤S4、建立深度学习图像分类模型：采用深度残差网络ResNet，ResNet包含49层卷积层，除了第一层是7*7卷积外，其余都是1*1卷积和3*3卷积，其包含残差模块，最后一层为SoftMax分类层；

步骤S5、数据增强：利用数据扩增技术扩充步骤S2、S3的图片集，增加图片集的多样性，包括随机地将原图像通过旋转、平移、裁剪等数据增强操作变换为一张新的图片，使其作为训练时的数据输入；

步骤S6、训练手部检测模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8：2，利用步骤S2中改进的是MobileNetv2-YOLOv3目标检测模型通过反向传播算法在训练集上进行训练，训练过程中使用SGD优化器对梯度进行更新，最终得到手部检测模型；

步骤S7、训练手部关键点检测模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8：2，利用步骤S3中的ASHD方法在训练集上进行训练，最终得到手部关键点检测模型；

步骤S8、训练手势分类模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8：2，利用步骤S4所建立的ResNet图像分类模型通过反向传播算法在训练集上训练，训练过程中使用SGD优化器对梯度进行更新，最终得到手势分类模型；

步骤S9、手势识别：将待检测的手势影像输入到手部目标检测模型中，获得手部图像区域；将手部图像区域送入到ASHD手部关键点检测模型中得到手部关键点的坐标以及连线；最后将手部图像区域送入到手势分类模型中得到手势动作的标签值；

所述的一种基于深度学习的轻量级手势识别方法，其特征在于，所述步骤S2-S4中，选用的网络以及算法同时兼顾了准确率与计算量，能够实现准确而且快速的手势识别；

所述的一种基于深度学习的轻量级手势识别方法，其特征在于，所述步骤S6-S7中，训练所用的初始化模型为在COCO数据集上训练所得到的模型。