CN116469164A

CN116469164A - 基于深度学习的人体手势识别人机交互方法及系统

Info

Publication number: CN116469164A
Application number: CN202310329077.2A
Authority: CN
Inventors: 陈遥; 马晓辉; 王科宇; 陈来; 李万海; 项新建
Original assignee: Zhejiang Yi Polytron Technologies Inc
Current assignee: Zhejiang Yi Polytron Technologies Inc
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-21

Abstract

本发明属于人体手势识别技术领域，具体涉及基于深度学习的人体手势识别人机交互方法及系统。包括如下步骤：S1，手势数据采集；S2，数据的标注；S3，数据的预处理；S4，确定关节坐标；S5，模型训练：将数据集分成训练集、验证集和测试集；训练集用于训练改进后的YOLOv5s神经网络模型；验证集则用于调整所述YOLOv5s神经网络模型参数；测试集用于选出最优参数的YOLOv5s神经网络模型；S6，模型部署；S7，人体手势识别；S8，人机交互。本发明具有方便维修技师实时上传保养状态信息，提高维修的工作效率，实现保养工作标准化、透明化，提升服务流转的质量与效率的特点。

Description

基于深度学习的人体手势识别人机交互方法及系统

技术领域

本发明属于人体手势识别技术领域，具体涉及基于深度学习的人体手势识别人机交互方法及系统。

背景技术

透明车间是一种在汽车保养过程中维修技师通过人机交互实时上传各种汽车保养状态与信息，方便车主实时监督车辆服务情况，实现保养工作标准化、透明化，提升服务流转的质量与效率的汽车保养模式。在透明车间维修技师要进行大量的人机交互，现有人机交互方式存在，在维修过程中需要佩戴手套无法直接触摸人机交互屏，手中布满油污需要洗净双手后才能触摸人机交互屏，不能实时将人机交互屏携带在身边，需要等维修完成后到人机交互屏边才能上传维修状态等问题，导致无法实时简单有效的上传保养状态，延误了保养流程，降低了维修效率。

目前手势识别技术包括基于传感器的识别技术和基于计算机视觉的识别技术。基于传感器的手势识别技术方法中，传感器设备如数据手套价格昂贵，且佩戴复杂，携带不便。基于计算机视觉识别技术又分为基于传统机器学习算法的手势识别方法，以及基于深度学习的手势识别方法，传统机器学习算法存在需要人工设计特征的局限性。而现有的基于深度学习的手势识别方法模型识别过程复杂，推理速度慢，具有庞大的参数量，很难直接部署在嵌入式设备上。

因此，设计一种方便维修技师实时上传保养状态信息，提高维修的工作效率，实现保养工作标准化、透明化，提升服务流转的质量与效率的基于深度学习的人体手势识别人机交互方法及系统，就显得十分必要。

例如，申请号为CN201310404839.7的中国专利文献描述的一种基于人体手势识别的人机交互方法，通过KINECT设备对用户行为过程中手臂动作和手指动作进行采集，并对采集后的图像进行运算处理，对处理后的图像进行识别，识别后进行操作控制；对手臂动作进行识别时，通过KINECT设备进行图像采集，得到人体的骨骼图像数据，进行真人到虚拟人的映射，处理获取的数据得到手肘和手掌的行为，进行计算和分析来识别相应的动作后执行控制操作；对手指动作进行识别时，通过KINECT设备获取深度图像，根据手掌坐标获取手的位置，截取合适的手掌区域，再通过对手掌深度图像进行处理，得到手指图像的HU不变矩，通过与标准手势匹配后执行控制操作。虽然实现无缝的人机交互，给用户带来新的体验，但是其缺点在于，上述方法采用的手势识别方法模型识别过程复杂，推理速度慢，具有庞大的参数量，很难直接部署在嵌入式设备上，且无法应用于透明车间系统中。

发明内容

本发明是为了克服现有技术中，现有的深度学习人体手势识别存在识别速度慢，参数量大，无法直接部署嵌入式设备上的问题，提供了一种方便维修技师实时上传保养状态信息，提高维修的工作效率，实现保养工作标准化、透明化，提升服务流转的质量与效率的基于深度学习的人体手势识别人机交互方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于深度学习的人体手势识别人机交互方法，包括如下步骤：

S1，手势数据采集：

通过摄像头，在不同环境，不同光照，不同人员的情况下，采集进行多种人体手势动作视频的，并将视频进行剪辑后，进行整理与分类，获得数据集；

S2，数据的标注：

对数据集进行打标，用数据标注工具对目标进行标定,将视频中的人体手势用矩形框标出，并形成对应的文件；

S3，数据的预处理：

对标注后的数据集进行扩增，增加数据集中的图片数量；

S4，确定关节坐标：

将预处理后的图片通过soft-argmax函数将特征图转换成参数化的骨骼表示或完全可微框架中的关节坐标；

S5，模型训练：

将数据集分成训练集、验证集和测试集；训练集用于训练改进后的YOLOv5s神经网络模型；验证集则用于调整所述YOLOv5s神经网络模型参数；测试集用于选出最优参数的YOLOv5s神经网络模型；

S6，模型部署：

将步骤S5中表现最优的YOLOv5s神经网络模型部署到透明车间系统中，用于对维修人员手势进行识别并分类；

S7，人体手势识别：

透明车间系统自动对维修人员的手势进行识别和判断，并进行分类，将得到的手势与事前设置的信息相匹配；

S8，人机交互：

透明车间系统将识别到的人体手势所对应的信息，输入透明车间信息管理系统，实现透明车间业务人机交互的功能。

作为优选，步骤S2中，所述矩形框的坐标信息包括：矩形框的中心点坐标、矩形框的宽度与高度。

作为优选，步骤S3中扩增数据集的方法包括对同一图片进行翻转、旋转、缩放、裁剪和移位。

作为优选，步骤S5中所述改进后的YOLOv5s神经网络模型包括骨干网络和头部网络；所述骨干网络为GhostNet轻量级神经网络结构、Conv卷积结构和SPP空间金字塔池化层结构的组合；所述头部网络由BiFPN加权双向特征金字网络结构组成。

作为优选，步骤S5中所述改进后的YOLOv5s神经网络模型选用EIoU作为预测的损失函数，具体公式如下：

其中，IoU损失函数为L_IoU，距离损失函数为L_dis和宽高损失为L_asp；C_W和C_h分别代表目标框和预测框的最小外接矩形的宽度和高度；w、h为预测框的宽和高，w^gt、h^gt为目标框的宽和高，b和b^gt分别表示预测框和目标框的中心点，ρ表示两点欧式距离，C表示目标框和预测框的最小外接矩形的对角线距离。

作为优选，步骤S5中，所述训练集、验证集和测试集的比例为8：1：1。

本发明还提供了基于深度学习的人体手势识别人机交互系统包括：

手势数据采集模块，用于通过摄像头，在不同环境，不同光照，不同人员的情况下，采集进行多种人体手势动作视频的，并将视频进行剪辑后，进行整理与分类，获得数据集；

数据的标注模块，用于对数据集进行打标，用数据标注工具对目标进行标定,将视频中的人体手势用矩形框标出，并形成对应的文件；

数据的预处理，用于对标注后的数据集进行扩增，增加数据集中的图片数量；

关节坐标确定模块，用于将预处理后的图片通过soft-argmax函数将特征图转换成参数化的骨骼表示或完全可微框架中的关节坐标；

模型训练模块，用于将数据集分成训练集、验证集和测试集；训练集用于训练改进后的YOLOv5s神经网络模型；验证集则用于调整所述YOLOv5s神经网络模型参数；测试集用于选出最优参数的YOLOv5s神经网络模型；

模型部署模块，用于将表现最优的YOLOv5s神经网络模型部署到透明车间系统中，用于对维修人员手势进行识别并分类；

人体手势识别模块，用于自动对维修人员的手势进行识别和判断，并进行分类，将得到的手势与事前设置的信息相匹配；

人机交互模块，用于将识别到的人体手势所对应的信息，输入透明车间信息管理系统，实现透明车间业务人机交互的功能。

本发明与现有技术相比，有益效果是：(1)本发明通过引入Ghost模块，在不降低准确度的同时减少模型参数量和提升设备运行效率，从而提升计算速度，降低延时，提高人体手势识别的速度，能够快速准确找到人体手势对应的信息；(2)本发明通过引入加权双向特征金字网络的技术特征，提高了对人体手势识别的准确性，对人体手势进准确的分类，实现系统对人体手势的实时识别，降低模型处理图像的时间，提高工作的效率；(3)本发明使用的是轻量级卷积神经网络，不需要过多的算力，具有性价比高和实用性强的优点，以实现系统在低功耗边缘嵌入式设备上的部署。

附图说明

图1为本发明中基于深度学习的人体手势识别人机交互方法的一种流程图；

图2为本发明中基于深度学习的人体手势识别人机交互系统的一种原理框图；

图3为本发明中数据标注过程的一种示意图；

图4为本发明中确定关节坐标过程的一种示意图；

图5为本发明中改进后的YOLOv5s神经网络模型的一种构架示意图；

图6为现有技术中普通卷积的一种示意图；

图7为本发明中Ghost卷积的一种示意图；

图8为本发明中GhostNet结构的一种示意图；

图9为PANet网络结构和BiFPN网络结构的一种示意图；

图10为本发明中EIoU损失函数预测目标框和预测框中心点之间距离的一种变化和重合程度示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例：

如图2所示，本发明提供了基于深度学习的人体手势识别人机交互方法，包括如下步骤：

S1，手势数据采集：

S2，数据的标注：

对数据集进行打标，用数据标注工具对目标进行标定,将视频中的人体手势用矩形框标出，并形成对应的文件；所述矩形框的坐标信息包括：矩形框的中心点坐标、矩形框的宽度与高度；数据标注工具可采用labeling/labelme工具；

S3，数据的预处理：

对标注后的数据集进行扩增，增加数据集中的图片数量；

S4，确定关节坐标：

S5，模型训练：

将数据集分成训练集、验证集和测试集；训练集用于训练改进后的YOLOv5s神经网络模型；验证集则用于调整所述YOLOv5s神经网络模型参数；测试集用于选出最优参数的YOLOv5s神经网络模型；所述训练集、验证集和测试集的比例为8：1：1；

S6，模型部署：

S7，人体手势识别：

S8，人机交互：

方法总体分成两个部分，一部分是事先收集人体手势图片，训练人体手势识别神经网络模型，另一部分则是实时采集人体手势进行识别，完成人机交互。

训练人体手势识别神经网络模型。收集整理人体手势各种图片，进行图像的预处理，其中包括图像的增强，图像相关特征的标注等，然后将处理好的图像通过soft-argmax函数将特征图转换成参数化的骨骼表示或完全可微框架中的关节坐标，最后输入到改进后的Yolov5s的神经网络模型中进行端到端的训练，得到训练好的模型将其部署到MCU中，为后续的人体手势识别提供一个好的神经网络模型。

人体手势识别和人机交互。摄像头采集维修技师的人体手势，输入到训练好的模型中，进行分类，识别到人体相应的手势，然后将得到的手势与事前设置的信息相匹配，具体人体手势含义如下表1所示，最后将相关信息传入透明车间人机交互系统，完成人机交互的功能。

表1人体手势含义对应表

进一步的，对于步骤S2，本发明使用的是labeling/labelme工具对目标进行标定，运行平台是Windows，输出为VOC和YOLO格式，标注形式框为矩形框，首先将步骤S1中采集到的数集图片加载到labeling软件中，然后选用矩形标注框，然后将视频的人体手势用矩形框出来，最后将矩形框输出，其中包括了矩形框的中心点坐标、矩形框的宽度与高度，标注前后对比，标注效果如图3所示。

进一步的，步骤S3中扩增数据集的方法包括对同一图片进行翻转、旋转、缩放、裁剪和移位。数据增强使数据集中包括同一张图片在不同角度、不同尺度的各种数据，增加了数据集中图片的个数。在扩增数据集的同时，相应的矩形框信息也随之变化，并形成相对应正确的文件信息，通过扩充数据集，可以防止图像样本过少导致的过拟合问题，另外，还能够提高训练好后模型的识别性能和泛化能力。

进一步的，步骤S4具体如下：

如图4所示，将整理数集图片中标注的人物进行关节坐标的确定，通过soft-argmax函数,将特征图转换成参数化的骨骼表示或完全可微框架中的关节坐标，将人体姿态确定为十四个关节点，算法主要包含两个部分，关键点检测和关键点聚类，将图片中所有类别的所有关键点全部检测出来，然后对这些关键点进行聚类处理，将不同人的不同关键点连接在一块，从而聚类产生不同的个体。

进一步的，步骤S5中所述改进后的YOLOv5s神经网络模型包括骨干网络和头部网络；所述骨干网络为GhostNet轻量级神经网络结构、Conv卷积结构和SPP空间金字塔池化层结构的组合；所述头部网络由BiFPN加权双向特征金字网络结构组成，具体如图5所示。

本发明设计一种高效且轻量的网络模型，以YOLOv5s为基础，运用Ghost模块替换传统卷积，在不降低准确度的同时减少模型参数量和提升设备运行效率。同时运用加权双向特征金字网络(Bi-directional Feature Pyramid Network，BiFPN)替换初始聚合网络(Path Aggregation Network，PAN)结构，对网络提取的不同尺寸目标特征进行有效的融合，最后选用EIoU作为预测的损失函数，以提高模型的定位精度。

1.Ghost模块替换传统卷积

目前现有的模型识别过程复杂，推理速度慢，具有庞大的参数量，无法进行部署在嵌入式设备上，其主要原因是因为现有模型使用的是普通卷积，如图6所示，其为了更全面地提取特征，采用大量卷积生成特征图，但较大的卷积核数量与通道数会产生冗余信息，导致计算量较大，这样子做会大大的降低模型推理的速度。

本发明中的模型采用的是GhostNet模块，其中组成部分Ghost卷积，如图7所示，首先利用较少的计算量通过常规卷积生成数量较少的特征图，然后通过线性操作再进一步利用较少的特征图，生成新的相似特征图，最后将两组特征图中的信息进行组合，作为全部特征信息。GhostNet模块的组成部分是Ghost卷积，如图8所示。相比于传统的卷积，GhostNet分两步走，首先GhostNet采用正常的卷积计算，得到channel较少的特征图，然后利用cheapoperation得到更多的特征图，然后将不同的特征图concat到一起，组合成新的output，这么处理，大量节省了计算量，提高了推理的速度。

相比于直接用常规卷积，Ghost卷积的计算量大幅度降低，仅用简单线性变换就能产生大部分的特征信息。利用Ghost卷积这些特征，本文设计了ghostNet模块作为骨干网络中的卷积层，使整体网络结构在保持适度深度的同时具备多尺度检测的能力，让模型更适合人体手势识别的目标检测。

2.使用BiFPN替换PAN

YOLOv5s原有的PANet网络是在FPN的基础上增加了一条额外的自底向上的路径进行信息增强,有效保留更多的浅层特征。如图9所示，BiFPN是在PANet基础上改进的网络结构。BiFPN的主要思想是添加了跨尺度连接,在同一尺度的输入节点和输出节点间增加一个跳跃连接，在不增加较多成本的同时，融合了更多的特征。在同一特征尺度上，把每一个双向路径看作一个特征网络层，并多次反复利用同一层，以实现更高层次的特征融合。以便在不增加太多计算成本的前提下融合更多的特征。原有的YOLOv5s只有三个通道，本发明模型在原有的基础上再添加一个通道，能更好的保留浅层图像的特征，高效融合了人体手势的更多特征，使输出的每个特征图都包含了更完整的人体手势的信息，提升模型识别的精确度。

3.使用EIoU作为损失函数

在原始的YOLOv5s使用GIoU，GIoU使用最小外接矩形的方法既可以计算非重叠区域的比例，又可以计算重叠区域的面积，能够更好地反应预测框和目标框的远近距离和重合程度。但GIoU也存在一些问题，例如当预测框在目标框内部时，计算得到的GIoU等于IoU值，使得GIoU退化成了GIoU，这时候GIoU就不能很好地计算相对位置之间的关系，当预测框在水平或者在垂直方向时就会变得收敛速度慢，优化也比较困难。针对GIoU的缺点，本发明模型引入EIoU损失函数，综合考虑了三个几何因素，即预测框与目标框的重叠度、中心点距离和长宽差值。EIoU使目标盒与锚盒的宽度和高度之差最小，使得收敛速度更快定位效果更好，如图10所示表示的是EIoU损失函数预测目标框和预测框中心点之间距离的变化和重合程度，图中d和C指能够同时包含两框最小矩形封闭区域对角线距离。EIoU损失函数的具体公式如下：

其中，IoU损失函数为L_IoU，距离损失函数为L_dis和宽高损失为L_asp；C_W和C_h分别代表目标框和预测框的最小外接矩形的宽度和高度；w、h为预测框的宽和高，w^gt、h^gt为目标框的宽和高，b和b^gt分别表示预测框和目标框的中心点，ρ表示两点欧式距离，C表示目标框和预测框的最小外接矩形的对角线距离。图中d，c指能够同时包含两框最小矩形封闭区域对角线距离，附图表示的是EIoU损失函数预测真实框和预测框中心点之间距离的变化和重合程度。

另外，本发明还提供了基于深度学习的人体手势识别人机交互系统包括：

具体的系统搭建如图1所示，本发明设计一套高效且轻量的网络模型，以YOLOv5s为基础，运用Ghost模块替换传统卷积，在不降低准确度的同时减少模型参数量和提升设备运行效率。同时运用加权双向特征金字网络(Bi-directional Feature Pyramid Network，BiFPN)，替换传统的路径聚合网络(Path Aggregation Network，PAN)结构，对网络提取的不同尺寸目标特征进行有效的融合，选用EIoU作为预测预测的损失函数，提高了模型的定位精度。本系统包括了摄像头，人体手势识别系统和人机交互系统。摄像头采集人体手势视频，输入人体手势识别系统，由人体手势识别系统进行识别与判断，并将信息传输给人机交互系统，实现透明车间业务人机交互的功能。

本发明以YOLOv5s为基础，运用Ghost模块替换传统卷积，在不降低准确度的同时减少模型参数量，提升设备运行效率。同时运用加权双向特征金字网络，替换初始聚合网络结构，对网络提取的不同尺寸目标特征进行有效的融合，选用EIoU作为预测预测的损失函数，提高了模型的定位精度。本发明方法与系统使用深度学习技术，摄像头采集维修人员的手势，通过soft-argmax函数将特征图转换成参数化的骨骼表示或完全可微框架中的关节坐标，输入到事先训练好而且改进的轻量级积神经网络模型对人体手势进行识别检测，将对应信息输入透明车间系统，完成上传保养状态，实现透明车间业务人机交互的功能。本发明方法与系统能够使得维修技师更加方便，准确，高效上传保养状态。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于深度学习的人体手势识别人机交互方法，其特征在于，包括如下步骤：

S1，手势数据采集：

S2，数据的标注：

S3，数据的预处理：

对标注后的数据集进行扩增，增加数据集中的图片数量；

S4，确定关节坐标：

S5，模型训练：

S6，模型部署：

S7，人体手势识别：

S8，人机交互：

2.根据权利要求1所述的基于深度学习的人体手势识别人机交互方法，其特征在于，步骤S2中，所述矩形框的坐标信息包括：矩形框的中心点坐标、矩形框的宽度与高度。

3.根据权利要求1所述的基于深度学习的人体手势识别人机交互方法，其特征在于，步骤S3中扩增数据集的方法包括对同一图片进行翻转、旋转、缩放、裁剪和移位。

4.根据权利要求1所述的基于深度学习的人体手势识别人机交互方法，其特征在于，步骤S5中所述改进后的YOLOv5s神经网络模型包括骨干网络和头部网络；所述骨干网络为GhostNet轻量级神经网络结构、Conv卷积结构和SPP空间金字塔池化层结构的组合；所述头部网络由BiFPN加权双向特征金字网络结构组成。

5.根据权利要求4所述的基于深度学习的人体手势识别人机交互方法，其特征在于，步骤S5中所述改进后的YOLOv5s神经网络模型选用EIoU作为预测的损失函数，具体公式如下：

6.根据权利要求1所述的基于深度学习的人体手势识别人机交互方法，其特征在于，步骤S5中，所述训练集、验证集和测试集的比例为8：1：1。

7.基于深度学习的人体手势识别人机交互系统，用于实现权利要求1-6任一项所述的基于深度学习的人体手势识别人机交互方法，其特征在于，所述基于深度学习的人体手势识别人机交互系统包括：