CN113792635A

CN113792635A - 一种基于轻量化卷积神经网络的手势识别方法

Info

Publication number: CN113792635A
Application number: CN202111042613.8A
Authority: CN
Inventors: 于恒成
Original assignee: Yancheng Institute of Technology
Current assignee: Yancheng Institute of Technology
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-14

Abstract

本发明公开了一种基于轻量化卷积神经网络的手势识别方法，包括：对获取的动态手势进行分帧处理，分为若干帧图像；从所述若干帧图像中提取关键帧图像；对每个关键帧图像使用肤色高斯模型分割出手势区域；采用一种YOLOv4(You Only Once Version4)的轻量化混合神经网络建立手势识别模型。此混合网络使用轻量级MobileNeXt网络模型为主干特征提取网络，并利用改进后RFB(Receptive Field Block)模型来增强特征提取网络，进而增大感受野；引入通道注意力机制SE(Squeeze‑and‑Excitation)，过滤筛选出高质量信息。实验结果表明，整体网络对手势识别相比于传统模型更加轻量高效，在各数据集上此网络模型平均大小仅占20.5MB，很大程度上降低了原YOLOv4模型参数量，mAP(Mean Average Precision)达到83.55％，帧处理速率为29.8frames/s。

Description

一种基于轻量化卷积神经网络的手势识别方法

技术领域

本发明属于模式识别技术领域，涉及一种基于轻量化卷积神经网络的手势识别方法。

背景技术

随着机器学习，人工智能的不断发展，人与计算机的交互活动越来越频繁。手势是人机交互的方式之一，手势相比其他人机交互方式，其表现方式更加自然多变，因此携带信息量也更加多元。目前基于手势识别的人机交互已经广泛应用于智能电视，VR，车载智能交互等。手势识别即利用计算机分析出每个手势的具体含义，进而获知手势发起者的整个表达，以达到实现人机交互的直观化和智能化的目的。

在计算机识别领域，卷积神经网络模型被广泛应用在图像识别、物体检测等机器视觉任务中，并取得了巨大成功。然而，由于当前基于卷积神经网络的图像识别往往存在计算复杂度高，对硬件要求苛刻的限制，卷积神经网络模型在嵌入式设备上的存储与计算仍然是一个巨大的挑战。

发明内容

为了解决现有技术的不足，本公开提供了一种基于轻量化卷积神经网络的手势识别方法，其使用肤色高斯模型分割出手势区域；将分割出的手势区域利用卷积神经网络的方法进行图像的识别；为避免计算过程中复杂度高，计算量过大问题，提出一种基于YOLOv4轻量化混合卷积神经网络的识别方法。

基于轻量化卷积神经网络的手势识别方法，该方法包括如下步骤：

1)获取的动态手势进行分帧处理，分为若干帧图像；

2)对步骤1)所述若干帧图像中提取关键帧图像；

3)对每个关键帧图像使用肤色高斯模型分割出手势区域，然后采用一种基于YOLOv4 的轻量化混合神经网络建立手势识别模型。

3.1)此混合网络采用轻量级MobileNeXt网络模型为主干特征提取网络，并使用改进后RFB(Receptive Field Block)模型来增强特征提取网络，进而增大感受野。

4)引入通道注意力机制SE模块，过滤筛选出高质量信息，使整个网络模型对特征提取更加轻量高效。

进一步地，所述步骤1)中，

对获取的动态手势数据进行分帧处理，分为若干帧图像具体步骤为，将动态图像的每一帧作为一帧图像。

进一步地，所述步骤2)中，从所述若干帧图像中提取若干关键帧图像的具体方式为：

对动态手势进行分帧处理，基于运动分析的方法得到若干帧图像；

按照时间顺序，将所述若干帧图像划分为K个视频段，每个视频段中均包括N帧图像；

提取每个动态手势图像段中每一帧图像的手势运动量，根据每一帧图像中手势运动信息量从大到小进行排序，选择排序靠前的P帧图像作为关键帧图像；

所述手势运动信息量，是由图像中每一个像素点光流的水平分量和垂直分量累加而得到；

在视频图像中分析物体运动的光流量，每次选择视频图像中光流移动次数最少的视频帧作为提取到的关键帧。

关键帧提取的有益效果是，可以提升识别的精度，因为提取的是关键帧图像，关键帧图像相比其余帧图像更具有代表性，其特征信息量也较其余帧图像更多。

进一步地，所述步骤3)中，

对每个关键帧图像使用肤色高斯模型分割出手势区域的具体步骤为：

在YCbCr空间下利用肤色高斯分布对人体手势肤色建模，计算出图像中各点属于肤色的概率值，进而分割出手势区域。

进一步地，所述步骤3.1)中，采用一种基于YOLOv4的轻量化混合神经网络建立手势识别模型的具体步骤为：

将YOLOv4算法与MobileNeXt轻量化网络结合，使整个主干特征提取网络更加轻量高效；

进一步地，所述步骤4)中，

模拟人类视觉系统引入改进RFB网络和通道注意力机制结合的混合网络，加强轻量化网络整体特征提取能力。具体实现方式为：

RFB模块通过考虑感受野和离心率之间关系，来增强网络特征提取的鲁棒性和可区分性。RFB模块是多分支卷积块，每个分支中采用瓶颈结构；

所述瓶颈结构主要包括两部分：不同尺寸卷积核的多分支卷积层，以及空洞卷积层，可同时提高模型识别的速度和精度。

与现有技术相比，本发明的有益效果是：

1、使用光流量提取视频图像的关键帧，提升模式识别的效率，此方法具有通用性，可从大部分视频图像中提取关键帧；

2、将关键帧使用肤色高斯模型分割出手势区域，避免在复杂背景下，人工特征提取的主观性和局限性，为手势的精确识别提供基础；

3、采用YOLOv4算法与MobileNeXt轻量化网络结合，使整个主干特征提取网络更加轻量高效；

4、模拟人类视觉系统引入改进RFB网络和通道注意力机制结合的混合网络，加强轻量化网络整体特征提取能力。

附图说明

构成本发明的一部分的说明附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明实施方式的方法流程图

图2为高斯模型检测的肤色区域

图3基于改进YOLOv4混合轻量级网络结构

图4不同剩余瓶颈块的概念图

图5通道注意力机制模块

图6改进后的RFB-s和SE混合网络结构

具体实施方式

下面结合附图和具体实施方法对本发明作进一步详细说明。

本发明提出的一种基于轻量化卷积神经网络的手势识别方法，方法流程图如图1，包括以下步骤：

步骤1)对获取的动态手势数据进行分帧处理，将动态图像的每一帧作为一帧图像，分为若干帧图像。从所述若干帧图像中提取若干关键帧图像。在静态手势识别中，我们的识别对象是一张包含手的静态图片，而在动态手势识别中，识别对象是由许多连续视频帧组成的视频片段。利用MATLAB视频分帧函数，以下代码可从视频中提取图片，即将视频中的每一帧图片都保持下来。

代码中，读取的视频和保存的图片均在MATLAB的当前文件夹中。

步骤2)针对一个动态手势，不同的人有不同的表现形式，即使是同一个人在每次表现时也会有手姿势和手运动速度上的不同，这造成每一段视频中包含数量不一的帧。因此需要提取一段视频中的关键帧来代替原始视频，关键帧的提取不仅会去除原视频中冗余帧使每一段视频具有固定的帧数，而且也方便后续卷积神经网络模型提取手势的时域特征。

关键帧的提取方法有很多主要包括三种：1.基于镜头的关键帧提取；2.基于运动分析关键帧提取；3.基于视频聚类关键帧提取。我们采用的是第二种基于运动分析的关键帧提取，此种方法是基于物体运动特征的属性提出的一种关键帧提取算法，它的一般实现过程是：在视频镜头中分析物体运动的光流量，每次选择视频镜头中光流移动次数最少的视频帧作为提取到的关键帧。利用光流法计算视频帧的运动量公式如下所示：

M(k)＝∑∑|L_x(i，j，k)|+|L_y(i，j，k)|

式中，M(k)表示第k帧的运动量，L_x(i，j，k)表示第k帧像素点(i，k)处光流x的分量，L_y(i，j，k)表示第k帧像素点(i，k)处光流y的分量。计算完成后，取局部最小值作为所要提取的关键帧。计算公式如下所示：

M(k_i)＝min[M(k)]

此种方法可以从大部分视频镜头中提取适量的关键帧，提取的关键帧也可以有效地表达出视频运动特征，提升后续图像的识别效率。

步骤3)由于手势图像的背景较为复杂，且不同光照变化下也会导致肤色的亮度发生变化，需要采用一个可靠的肤色模型来检测出手势区域。研究结果表明，不同人种的肤色在亮度上的差异远远小于在色度上的差异。YCbCr颜色空间具有亮度和色度分离的优点，有较好的聚类性和稳定性，且近似呈现高斯分布的统计规律。因此，在YCbCr空间下利用高斯分布对肤色建模，计算出图像中各点属于肤色的概率值，进而分割出手势区域。基于高斯分布对肤色建模的计算公式如下所示：

P(Cb，Cr)＝exp{-0.5(x-m)^TC^-1(x-m)}

式中，

x＝(Cb，Cr)^T

m＝E(x)

C＝E{(x-m)(x-m)^T}

通过计算图像中每个像素点属于肤色的概率值P，可以建立一个完整的肤色概率分布矩阵，采用最大类间方差法(OTSU)对肤色概率矩阵进行自适应阈值的二值化处理，在二值化处理的图像中，像素值为1的亮色区域表示为肤色点，像素值为0的暗色区域表示为非肤色点如图2所示。

步骤3.1)针对YOL0v4模型网络参数量过多、计算复杂度较高等问题，在YOL0v4算法基础上，本发明提出一种基于YOLOv4的轻量级混合网络。将YOLOv4与MobileNeXt轻量化网络结合，使整个主干特征提取网络更加轻量高效。该网络是由MobileNeXt、SE-RFBs、PANet以及YOLO Head等模块组成的混合轻量级网络，其整体网络结构如图3所示。

轻量级网络已经成为了大势所趋。因反转剩余块中瓶颈之间恒等映射可能导致信息丢失，特征维度降低也会导致梯度混淆，从而影响模型性能。在MobileNeXt、ResNet等倒残差结构模型基础上进行改进，对反转剩余块结构进行镜像从而设计出一种新瓶颈模块，称为沙漏块(Sandglass Block)，使其能在更高维度上执行恒等映射和空间转换，提出新一代轻量化神经网络架构MobileNeXt，这种瓶颈结构比反向瓶颈结构更有利于嵌入式平台和移动网络。

近年来，深度神经网络往往是通过基于瓶颈结构的反向剩余块来堆叠结构，残差网络(ResNet)中已引入了剩余瓶颈块结构如图4a，在高维中定位恒等映射。传统剩余瓶颈块主要由(1×1，3×3，1×1)三个卷积层组成，三个卷积层一次分别用于降维、空间信息变换、升维；轻量级网络MobileNetv2引入了反转剩余块如图4b，将剩余瓶颈块结构进行反转的思想，在线性瓶颈之间建立捷径，三个卷积层依次分别用于升维、空间信息变换、降维；本发明使用的MobileNeXt网络沙漏残差块如图4c是传统瓶颈结构的拓展，在线性高维之间建立捷径，使块间传递更丰富的信息，将其应用于拓宽的高维特征空间并利用点卷积来进行通道衰减与扩张，有效解决反转剩余块出现的问题，与传统瓶颈结构类似，沙漏残差块主要由(1×1，3×3，1×1)卷积层组成，依次分别用于空间信息变降维、升维、空间信息变换。MobileNeXt网络主体结构如表1所示。

表1

步骤4)注意力机制在目标识别领域应用已取得很好的效果。在2017年最后一届ImageNet图像分类竞赛中，SENet引入注意力机制以绝对优势获得了冠军。SE模块如图 5是一种通过了解模型通道间相关性来自适应校准通道特征响应机制，该机制利用全局信息来加强提取有用信息特征并且抑制无用特征，其压缩和扩张发生在同一分支求和之前。表示特征映射转换操作，输入输出定义如下：

F_tr：X→U，X∈R^{W′×H′×C′}，U∈R^W×H×C

其中X为模块输入，U为X的特征映射，R表示向量空间，W′表示输入特征图的宽， H′表示输入特征图的高，W表示映射后特征图的宽，H表示映射后特征图的高，C表示通道数，利用下式得到Squeeze输入：

X＝[x¹，x²，...，x^C′]，u_C∈R^H×W

式中*表示卷积，x^s表示第s个输入，v_c表示第c个卷积核，u_c表示U中第c个二维矩阵。利用下式全局平均池化(F_sq(·)操作)将H×W×C矩阵压缩到1×1×C，其压缩实质是将所有通道信息用统一描述符表示出来，统计量z中第c个元素(即全局信息)可以通过下式计算：

根据通道间相关依赖性，并通过下式将压缩信息通道关系进行建模扩张：

S＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中δ表示ReLU函数，σ表示一个特殊门控函数，进行建模时利用全连接层保持高度非线性和灵活性，实现模型变换的低参数高度拟合复原。最后将扩张处理得到的权重值乘以原始矩阵得到重新校准后的网络输出，即利用下式将通道权重S_c与特征图u_c按通道相乘：

u_C∈R^H×W

步骤4.1)当前针对性能较高的模式目标检测器往往计算量太复杂，轻量级检测器模型精度也需要进一步提高，RFB模块通过模拟人类视觉系统感受野特点，引入手工机制构建准确、快速的检测器来增强深层特征表示，有效增大了感受野(Receptive Filed)，可加强网络特征提取能力。

RFB模块通过考虑感受野大小和离心率之间关系，来增强网络特征提取的鲁棒性和可区分性。RFB模块(如图)是多分支卷积块，每个分支中采用瓶颈结构，所述瓶颈结构主要包括两部分：不同尺寸卷积核的多分支卷积层，以及空洞卷积层，可同时提高模型识别的速度和精度。

RFB与RFB-s不同之处在于，为了是模型更加轻量化，RFB-s中利用两个堆叠的3×3卷积层代替RFB中5×5卷积层，另外用一个3×1和一个1×3卷积层代替原始3×3卷积层。RFB模块与YOLOv4网络中SPP模块相比，结构大同小异，只不过是对特征图特征进行不同尺度提取。在轻量级网络中使用RFB网络比SPP模块能获得更大感受野，并且不会增加网络深度和计算量。

在传统RFB-s基础上，本发明提出改进RFB-s与SE的混合网络，其中改进的RFB-s每个分支在原始RFB-s基础上保留1×1卷积层用以减少输入特征图通道数，在同一分支上用一个1×7和一个7×1卷积层来代替n×n卷积层，同时将SE通道注意力机制融入改进后RFB-s，其体系结构如图6。有SE模块与改进RFB-s组成的新混合网络将扩大感受野面积和保持深层非线性，保持实时速度同时达到先进的检测性能，完成对主干网络特征更高效提取。

本发明提出的轻量化卷积神经网络，在各数据集上此网络模型平均大小仅占20.5MB，很大程度上降低了原YOLOv4模型参数量，mAP(Mean Average Precision)达到83.55％，帧处理速率为29.8frames/s。在模型的大小、精度、速度方面都比原YOLOv4有很大提高，能够实现较好的检测效果和较强的鲁棒性，在实际场景中也有很好的应用价值。

Claims

1.一种基于轻量化卷积神经网络的手势识别方法，其特征在于，包括如下步骤：

1)获取的动态视频手势进行分帧处理，分为若干帧图像；

2)对步骤1)所述若干帧图像中提取关键帧图像；

3)对每个关键帧图像使用肤色高斯模型分割出手势区域，然后采用一种基于YOLOv4的轻量化混合神经网络建立手势识别模型；

3.1)此混合网络采用轻量级MobileNeXt网络模型为主干特征提取网络，并使用改进后RFB(Receptive Field Block)模型来增强特征提取网络，进而增大感受野；

2.根据权利要求1所述的一种基于轻量化卷积神经网络的手势识别方法，其特征在于，所述步骤1中)对获取的动态手势数据进行分帧处理，分为若干帧图像具体步骤为，利用MATLAB函数VideoReader读取视频数据，将动态图像的每一帧保存为每一张图像。

3.根据权利要求1所述的一种基于轻量化卷积神经网络的手势识别方法，其特征在于，所述步骤2)中，

对于提取关键帧图像的具体方式为，对动态手势进行分帧处理，基于运动分析的方法得到若干帧图像；

提取每个动态手势图像段中每一帧图像的手势运动量，根据每一帧图像中手势运动信息量从大到小进行排序，选择排序靠前的P帧图像作为关键帧图像；所述手势运动信息量，是由图像中每一个像素点光流的水平分量和垂直分量累加而得到；

4.根据权利要求1所述的一种基于轻量化卷积神经网络的手势识别方法，其特征在于，所述步骤3)中，

对每个关键帧图像使用肤色高斯模型分割出手势区域的具体步骤为，在YCbCr空间下利用肤色高斯分布对人体手势肤色建模，计算出图像中各点属于肤色的概率值，进而分割出手势区域。

5.根据权利要求1所述的一种基于轻量化卷积神经网络的手势识别方法，其特征在于，所述步骤3.1)中，

采用一种基于YOLOv4的轻量化混合神经网络建立手势识别模型的具体步骤为：将YOLOv4算法与MobileNeXt轻量化网络结合，使整个主干特征提取网络更加轻量高效；该网络是由MobileNeXt、SE-RFBs、PANet以及YOLO Head等模块组成的混合轻量级网络；

因反转剩余块中瓶颈之间恒等映射可能导致信息丢失，特征维度降低也会导致梯度混淆，从而影响模型性能，在MobileNeXt、ResNet等倒残差结构模型基础上进行改进，对反转剩余块结构进行镜像从而设计出一种新瓶颈模块，称为沙漏块(Sandglass Block)，使其能在更高维度上执行恒等映射和空间转换，提出新一代轻量化神经网络架构MobileNeXt，这种瓶颈结构比反向瓶颈结构更有利于嵌入式平台和移动网络。

6.根据权利要求1所述的一种基于轻量化卷积神经网络的手势识别方法，其特征在于，所述步骤4)中，

模拟人类视觉系统引入改进RFB网络和通道注意力机制结合的混合网络，加强轻量化网络整体特征提取能力，具体实现方式为：RFB模块通过考虑感受野和离心率之间关系，来增强网络特征提取的鲁棒性和可区分性，RFB模块是多分支卷积块，每个分支中采用瓶颈结构；

所述瓶颈结构主要包括两部分：不同尺寸卷积核的多分支卷积层，以及空洞卷积层，可同时提高模型识别的速度和精度；

RFB与RFB-s不同之处在于，为了是模型更加轻量化，RFB-s中利用两个堆叠的3×3卷积层代替RFB中5×5卷积层，另外用一个3×1和一个1×3卷积层代替原始3×3卷积层；RFB模块与YOLOv4网络中SPP模块相比，结构大同小异，只不过是对特征图特征进行不同尺度提取；在轻量级网络中使用RFB网络比SPP模块能获得更大感受野，并且不会增加网络深度和计算量；

在传统RFB-s基础上，本发明提出改进RFB-s与SE的混合网络，其中改进的RFB-s每个分支在原始RFB-s基础上保留1×1卷积层用以减少输入特征图通道数，在同一分支上用一个1×7和一个7×1卷积层来代替n×n卷积层，同时将SE通道注意力机制融入改进后RFB-s，其体系结构如图6，有SE模块与改进RFB-s组成的新混合网络将扩大感受野面积和保持深层非线性，保持实时速度同时达到先进的检测性能，完成对主干网络特征更高效提取。