CN115328319A

CN115328319A - 一种基于轻量型手势识别的智能控制方法及装置

Info

Publication number: CN115328319A
Application number: CN202211250478.0A
Authority: CN
Inventors: 周智恒; 张明月; 钟华喜; 尹浩林; 邓铭; 宋雨庭
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2022-11-11
Anticipated expiration: 2042-10-13
Also published as: CN115328319B

Abstract

本发明公开了一种基于轻量型手势识别的智能控制方法及装置。所述方法包括：S1、获取手势数据集；S2、构建轻量型手势识别网络，所述网络包括基础网络结构，多尺度结构与轻量型注意力结构；S3、引入预训练权重作为轻量型手势识别网络的初始权重，并将训练数据输入所述网络进行重新训练；S4、计算损失值并基于损失值反馈至轻量型手势识别网络中并对网络进行不断参数修正，得到训练后的网络；S5、利用网络来对手势图像进行预测，以控制家电的工作状态。智能控制装置包括：树莓派控制器，图像采集器，红外发射器。本发明具有轻量化、精度高、易于部署等优点，在人机交互、虚拟现实、手语识别与智能家居等领域具有巨大的应用价值。

Description

一种基于轻量型手势识别的智能控制方法及装置

技术领域

本发明属于AI（Artificial Intelligence,人工智能）及家用电器智能控制领域，具体涉及一种基于轻量型手势识别的智能控制装置及方法。

背景技术

手势识别是指从图像中准确识别出手势信息，手势识别技术在人机交互、智能家居、虚拟现实（VR）和增强现实（AR）等领域起到重要的作用。在人机交互的形式中，由于手的自然特性，使得交互方式更加自然和舒适。当前，手势识别技术更多的是在电脑与服务器平台上完成手势预测任务，很少能进行手势识别技术产品落地，其中一些原因是手势识别模型较大，很难进行部署，还有些原因受限于合适的硬件平台，在这个领域的研究人员对于模型部署落地关注度并不高，更多的是聚焦模型优化问题。此外，为能够得到高效识别，人们通常会选用价格昂贵的设备，从而导致手势识别的成本较高，当该识别技术成为人们生活不可缺少的部分时，这无疑会增加消费者的经济负担。

现有技术中，朱鹏等在中国公开发明专利CN112699837A中公开了“一种基于深度学习的手势识别方法及设备”，该方法主要采用了基于Resnet34作为骨干网络，生成多种尺度的特征图形成特征金字塔，将特征金字塔的高层特征图与低层特征图进行融合，再将融合后的每层特征图分别与卷积核进行卷积操作，输出的特征图进行多任务学习。这种网络结构设计会出现大量的冗余参数，部署在嵌入式端并不能进行实时预测，且该发明没有实现模型部署研究。

常志强在CN109613977A 中公开了“基于手势识别的智能控制装置及方法”，该方案通过采集手势的图像信息和声波信息；对图像信息进行特征提取，对声波信息进行分析；分析后的声波信息作为辅助对特征进行训练生成初始化的手势信息。初始化控制装置中的手势信息，并将初始化的手势信息存储至控制装置；采集用户的手势信息，并将采集的用户手势信息与初始化的手势信息进行比对；根据比对结果生成相应的控制信息；通过相应的发射模块将控制信息发射至相应的智能设备。该发明提取的手势信息方法与智能控制装置，但该方案在手势识别方法上采用了声波信息辅助，增加了辅助信息的同时也会导致模型复杂化。此外手势信息的采集是来自接收点阵投影和相机共同完成，从而增加了采集的难度与成本。

发明内容

本发明的主要目的在于提出一种基于轻量型手势识别的智能控制装置及方法，设计一个轻量型网络结构，并实现了模型在嵌入式端部署与应用，以克服现有方法所存在的识别精度不高、模型参数过大，以及模型部署与应用不足等问题。

本发明至少通过如下技术方案之一实现。

一种基于轻量型手势识别的智能控制方法，其方法包括如下步骤：

S1、获取手势数据集；

S2、构建轻量型手势识别网络，所述轻量型手势识别网络包括基础网络结构，多尺度结构与轻量型注意力结构，多尺度结构用于提取不同尺度下的手势特征信息，轻量型注意力结构用于处理图像中上下文的纹理信息的相关性，其中，所述多尺度结构用表达式表示为：

其中，Y 表示改进的空洞卷积金字塔池化模块输出的特征图；BN(·)表示批归一化；f _n,m(·)表示卷积核为n*n的映射函数，m表示膨胀率；F表示输入特征图；δ _c(·)表示激活函数，c表示通道数；

所述轻量型注意力结构用表达式表示为：

其中，

与

表示中间特征图； f _n (·) 表示卷积核为n*n的映射函数； BN (·)表示批归一化；_c(·)表示激活函数，c表示通道数；⊗表示点乘；M _c与M _s 分别表示通道注意力和空间注意力，

、

分别表示通道与空间注意力的结果；

为轻量型注意力结构最后输出结果；

S3、引入预训练权重作为轻量型手势识别网络的初始化权重，并将训练数据输入所述轻量型手势识别网络进行重新训练，输出预测结果；

S4、将轻量型手势识别网络预测的结果与训练数据集中的对应标签数据进行不断对比，计算对应的损失值；将所述损失值反馈至轻量型手势识别网络中并对网络进行不断参数修正，得到训练后的轻量型手势识别网络；

S5、利用训练后的轻量型手势识别网络来对手势图像进行预测，以控制家用电器的工作状态。

进一步地，所述基础网络包括用于提取特征信息的3*3卷积块、用于进行下采样的2*2池化、深度可分离系列组、自适应平均池化、1*1卷积块和全连接层，两个3*3卷积块、2*2池化依次连接，深度可分离系列组、自适应平均池化、1*1卷积块和全连接层依次连接，多尺度结构设置在2*2池化和深度可分离系列组之间，轻量型注意力结构设置在深度可分离系列组之后。

进一步地，在全连接层前还采用了Dropout策略。

进一步地，基础网络中的激活函数采用Hard-swish激活函数。

进一步地，所述多尺度结构包括改进的空洞卷积金字塔池化模块和1*1卷积块，空洞卷积金字塔池化模块包括采用五分支的空洞卷积，1*1卷积块用于对空洞卷积金字塔池化模块的各分支获取的不同尺度的特征图进行拼接，以获取融合特征信息。1*1卷积块采用的是1*1卷积、批归一化与激活函数操作，通过1*1卷积块对改进的空洞卷积金字塔进行各分支获取的不同尺度的特征图融合。采用改进的空洞卷积金字塔池化模块在不增加参数的情况下，增大感受野，能有效提取不同手势尺度特征信息。

进一步地，空洞卷积金字塔池化模块的五分支的空洞卷积中，第一个空洞卷积分支采用卷积核为1*1，膨胀系数设为1的卷积，其余分支卷积核为3*3，膨胀系数分别设为3，6，12，18卷积，对应的输出通道数设为256，128，64，32，16。

进一步地，轻量型注意力结构包括深度可分离卷积块和注意力模块，深度可分离卷积块用于获取空间信息，注意力模块包括通道注意力模块和空间注意力模块，用于关注重要的特征，抑制不重要的特征。先在通道上采用注意力机制，接着在空间上采用空间注意力机制，这样能有效节约参数和计算资源。

进一步地，所述深度可分离卷积块包括5*5卷积块和1*1卷积块，5*5卷积块用于获取更多上下文信息，1*1卷积块用于对不同通道进行融合。

进一步地，采用交叉熵损失函数来获得相应的损失值，交叉熵损失函数L为：

其中，M表示类别的数量，k表示第k个类别；y _i,k表示符号函数，如果样本i的真实类别等于k时取1，否则取0；p_i,k表示观测样本i属于类别k的预测概率。

进一步地，所述引入其他数据训练的预训练权重作为网络结构的初始化权重，并将训练数据输入所述轻量型手势识别网络进行重新训练，输出预测结果：首先轻量型手势识别网络在handpose_gesture_v1数据集上进行训练，获取到的权重参数作为本发明在HGR1与OUHANDS数据集上的训练的初始权重，其次调整在不同数据集上输出的分类数，最后基于初始权重在HGR1与OUHANDS数据集上重新训练，获取满意的识别结果。

一种基于轻量型手势识别的智能控制装置，包括：

树莓派控制器，用于部署权前述提供的轻量型手势识别网络并接收图像采集器采集的手势信息，通过轻量型手势识别网络对手势信息进行比对运算生成能供调用的红外发射控制指令；

图像采集器，设置在所述树莓派控制器输入端，用于实时采集家用电器控制的手势图像，并将所述手势的图像信号发送给所述树莓派控制器；

红外发射器，用于根据红外发射控制指令进行信号发射以控制所述家用电器的工作状态，实现智能控制家用电器。

与现有技术相比，本发明能够实现的有益效果至少如下：

（1）识别精度高：本发明采用了多尺度结构与轻量型注意力机制，都能有效提升识别精度，同时采用了Hard-swish激活函数来取代ReLU激活函数。并使用预训练权重对网络初始化，能有效缓解随机初始化权重学习缓慢，以及数据集不足的问题。

（2）模型参数量少：多尺度结构主要由改进的空洞卷积金字塔池化模块与1*1卷积块组成。轻量型注意力结构，该结构主要由深度可分离卷积块与注意力模块组成，注意力模块分为两个独立的子模块，通道注意力模块和空间注意力模块，先在通道上采用注意力机制，接着在空间上采用空间注意力机制。其中多尺度结构与轻量型注意力结构能够采用少参数操作：膨胀卷积、1*1卷积块、以及深度可分离卷积操作，在同等性能条件下能有效降低参数量。

（3）易于部署：本发明轻量模型由于内存占用少，满足绝大多数嵌入式设备部署，同时本发明算子对于部署工具友好。

附图说明

图1为本发明实施例中手势识别方法的流程图。

图2为本发明实施例中手势识别方法网络的整体结构图。

图3为本发明实施例中手势识别方法的多尺度结构示意图；

图4为本发明实施例中手势识别方法的轻量型注意力结构示意图；

图5为本发明实施例中智能控制装置结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

请参阅图1，本发明提供的一种基于轻量型手势识别的智能控制方法，所述方法包括如下步骤：

S1、获取手势数据集。

在本发明的其中一些实施例中，采用了两个手势基准数据集，分别是HGR1数据集和OUHANDS数据集。其中，HGR1数据集包含899张自然场景下拍摄的手部图像，将其划分为训练集、验证集和测试集，分别有631，179和89张图像。由12个人做出25种不同的手势，数据集中包含手势掩膜图像、关键点和RGB图像。该数据集收集波兰手语和美国手语的手势。该数据集背景复杂多样、手势图像类型多样、手势图像尺寸不一、手势遮挡严重等特点。OUHANDS数据集包含3000张图像，将该数据集按比例进行划分为训练集、验证集和测试集，分别有2100，600，300张图像。该数据集由23个人做出的10种不同的手势，数据集包含边界框、深度图像、分割图像、RGB图像。该数据集背景复杂多样、光照变化大、手势图像类型多样、手势图像尺寸不一、手脸遮挡等特点。

S2、构建轻量型手势识别网络，轻量型手势识别网络包括基础网络结构、多尺度结构和轻量型注意力结构。

基础网络采用类似于MobileNetV1的结构，由于Intel的CPU加速库对深度可分离卷积块进行了深度优化，使用深度可分离卷积操作，在嵌入式端能提升推理速度。本发明的基础网络在网络深度以及使用深度可分离卷积的数量与位置上与MobileNetV1存在较大的差异性，MobileNetV1主体结构采用的卷积都是深度可分离卷积，最后采用平均池化与全连接层进行分类，全部采用深度可分离卷积会得到过少的参数，导致网络可能无法在训练中正确学习。而本发明基础网络结构如图2所示，图中移除多尺度结构与轻量型注意力结构即为基础网络结构，基础网络开始采用了两个标准的3*3卷积块与池化操作，能获得较多的特征信息，随后采用2*2池化操作进行下采样操作，为了有效压缩特征、降低计算量、缓解过拟合的情况，其后为了进一步获得特征信息，在多尺度结构后采用了四个深度可分离系列组，在获得更深的特征信息的同时有效控制了参数量，最后采用自适应平均池化、1*1卷积块与全连接层进行预测，为了提高模型的泛化能力，在全连接层前采用了Dropout策略，此外还采用了Hard-swish激活函数来取代ReLU激活函数操作，避免进行大量的求幂运算，增加计算量。

在基础网络上增加了多尺度结构，如图3所示，多尺度结构主要包括改进的空洞卷积金字塔池化模块和1*1卷积块。原始的空间金字塔池化模块采用四路并行的空洞卷积，卷积核为3*3，膨胀系数分别设为6，12，18，24，在手势识别任务中会造成信息提取的不连续，采用了过大的采样率，会导致滤波器有的会跑到padding上，产生无意义的权重。本发明采用的改进的空洞卷积金字塔池化模块采用五分支的空洞卷积，第一个空洞卷积分支采用卷积核为1*1，膨胀系数设为1的卷积，其余分支卷积核为3*3，膨胀系数分别设为3，6，12，18卷积，对应的输出通道数设为256，128，64，32，16，能有效改善原始空洞卷积金字塔池化存在的不足。

在本发明的其中一些实施例中，1*1卷积块采用的是1*1卷积、批归一化与激活函数操作，通过1*1卷积块对改进的空洞卷积金字塔各分支获取的不同尺度的特征图进行拼接，获取融合特征信息。多尺度结构可以在不增加参数的情况下增加感受野，有效地提取不同尺度下的手势特征信息。

所述多尺度结构表示为：

其中，Y 表示改进的空洞卷积金字塔池化模块输出的特征图；BN(·)表示批归一化；f _n,m(·)表示卷积核为n*n的映射函数，m表示膨胀率；F表示输入特征图；δ _c(·)表示 Hard-Swish激活函数，c表示通道数；

表示多尺度结构最终的输出。

同时基于基础网络上增加了轻量型注意力结构，如图4所示，轻量型注意力结构能有效处理图像中上下文的纹理信息的相关性，该结构主要包括深度可分离卷积块与注意力模块，其中深度可分离卷积块包括5*5卷积块和1*1卷积块，5*5卷积块比3*3卷积具有更大的感受野，能有效获得更多的上下文信息，但由于是对通道分别进行卷积，这样会导致通道之间缺失相关性，1*1卷积块能对不同通道进行融合，获得更多的通道间相关性，深度可分离卷积块在降低参数量的情况下有效获取更多的空间信息。注意力模块分为两个独立的子模块，即通道注意力模块和空间注意力模块，先在通道上采用注意力机制，接着在空间上采用空间注意力机制，通道与空间注意力模块的作用是让网络关注重要的特征，抑制不重要的特征，同时也能有效节约参数和计算资源。

所述轻量型注意力结构表示为：

其中，

与

表示中间特征图； f _n (·) 表示卷积核为n*n的映射函数； BN (·)表示批归一化；δ _c(·)表示Hard-Swish激活函数，c表示通道数；⊗表示点乘；M _c与M _s 分别表示通道注意力和空间注意力，

、

分别表示通道与空间注意力的结果。

S3、通过引入其他数据训练的预训练权重作为网络结构的初始化权重，并将训练数据输入所述轻量型手势识别网络进行重新训练，输出预测结果。

在本发明的其中一些实施例中，首先将轻量型手势识别网络在handpose_gesture_v1数据集（包括网络爬取手势图像及数据集“Large-scale Multiview 3D HandPose Dataset”筛选动作重复度低的部分图像，由Eric.Lee制作）上进行训练，获取到的权重参数作为本发明在HGR1数据集与OUHANDS数据集上训练的初始权重，由于HGR1数据集与OUHANDS数据集采集的手势图像类别数与handpose_gesture_v1不同，HGR1：25类，OUHANDS：10类，要调整在HGR1数据集与OUHANDS数据集上输出的手势识别类别，最后基于初始权重在HGR1数据集与OUHANDS数据集上重新训练，分别获得96.35%与99.67%的准确率。

S4、将轻量型手势识别网络预测的结果与训练数据集中的对应标签数据通过交叉熵损失函数不断进行计算，获得相应的损失值；将所述损失值反馈至轻量型手势识别网络中并对轻量型手势识别网络不断进行参数修正。

所述手势识别交叉熵损失函数L为：

其中，M表示类别的数量；y _i,k表示符号函数，如果样本i的真实类别等于k时取1，否则取0；p_i,k表示观测样本i属于类别k的预测概率；

通过交叉熵损失函数L的值来调节轻量型手势识别网络的参数，当目标损失函数的值达到极小值时，停止轻量型手势识别网络参数的更新，得到最终的手势识别网络模型。

S5、采用所述最终的手势识别网络模型即可对手势进行识别预测，以控制家用电器的工作状态。

本发明还提供智能控制装置，树莓派采用部署的轻量型手势识别网络进行手势预测，通过预测结果与树莓派控制器中存储的红发发射控制器所对应按键信息进行比对，从而调用对应的红发发射控制器按键信息进行信号发射，实现多种家用电器的智能控制。具体地，如图5所示，本发明提供的一种基于轻量型手势识别的智能控制装置，包括：

树莓派控制器，用于接收图像采集器采集的手势信息，并对手势信息进行比对运算生成可以调用红外发射控制指令；

在本发明的其中一些实施例中，所述树莓派控制器，采用的是树莓派4B（ARMCortex-A72 1.5GHz（四核）），Raspbian操作系统，提供了丰富的对外接口。树莓派控制器通过图像采集器采集手势图像，并将上述的轻量型模型部署在树莓派控制器中，对手势图像进行实时预测，产生对应可供调用的红外发射控制指令，从而通过所述红外发射控制器控制所述家用电器的工作状态。

图像采集器，连接所述树莓派控制器的输入端，用于实时采集家用电器控制的手势图像，并将所述手势图像信号发送给所述树莓派控制器；

在本发明的其中一些实施例中，所述图像采集器，采用Pi相机能够拍摄高达 3280x 2464 像素分辨率的静态图片，以30fps 的速度拍摄高达 1080p 的视频。图像采集器用于所述树莓派控制器输入端，采集手势的动态图像，并将所述手势的图像信号发送给所述树莓派控制器。

红外发射器，树莓派识别的结果调用红外发射控制指令，通过红外发射器进行信号发射，从而实现智能控制家用电器。

采用硬件为：红外发射管TSAL6200，红外接收管 HS0038B。由于遥控器不同按键对设备具有不同的操作，为了记录下不同按键的信号，使用遥控器按下不同按键，通过树莓派控制器连接的红外接收管接收红外信号，并对信号进行存储。树莓派采用部署的轻量型手势识别网络进行手势预测，预测结果对树莓派控制器中存储的按键信息进行调用，再通过红外发射器发射对应的按键信息，从而实现多种家用电器的智能控制。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于轻量型手势识别的智能控制方法，其特征在于，包括如下步骤：

S1、获取手势数据集；

其中，Y 表示改进的空洞卷积金字塔池化模块输出的特征图；BN(·)表示批归一化；f _n,m(·)表示卷积核为n*n的映射函数，m表示膨胀率；F表示输入特征图；δ _c(·)表示激活函数，c表示通道数，

表示多尺度结构最终的输出；

所述轻量型注意力结构用表达式表示为：

其中，

与表示中间特征图； f _n (·) 表示卷积核为n*n的映射函数； BN(·)表示批归一化；_c(·)表示激活函数，c表示通道数；

表示点乘；M _c与M _s 分别表示通道注意力和空间注意力，

、

分别表示通道与空间注意力的结果；

为轻量型注意力结构最后输出结果；

2.根据权利要求1所述的一种基于轻量型手势识别的智能控制方法，其特征在于，所述基础网络包括用于提取特征信息的3*3卷积块、用于进行下采样的2*2池化、深度可分离系列组、自适应平均池化、1*1卷积块和全连接层，两个3*3卷积块、2*2池化依次连接，深度可分离系列组、自适应平均池化、1*1卷积块和全连接层依次连接，多尺度结构设置在2*2池化和深度可分离系列组之间，轻量型注意力结构设置在深度可分离系列组之后。

3.根据权利要求2所述的一种基于轻量型手势识别的智能控制方法，其特征在于，在全连接层前还采用了Dropout策略。

4.根据权利要求2所述的一种基于轻量型手势识别的智能控制方法，其特征在于，基础网络中的激活函数采用Hard-swish激活函数。

5.根据权利要求1所述的一种基于轻量型手势识别的智能控制方法，其特征在于，所述多尺度结构包括改进的空洞卷积金字塔池化模块和1*1卷积块，空洞卷积金字塔池化模块包括采用五分支的空洞卷积，1*1卷积块用于对空洞卷积金字塔池化模块的各分支获取的不同尺度的特征图进行拼接，以获取融合特征信息。

6.根据权利要求5所述的一种基于轻量型手势识别的智能控制方法，其特征在于，空洞卷积金字塔池化模块的五分支的空洞卷积中，第一个空洞卷积分支采用卷积核为1*1，膨胀系数设为1的卷积，其余分支卷积核为3*3，膨胀系数分别设为3，6，12，18卷积，对应的输出通道数设为256，128，64，32，16。

7.根据权利要求1所述的一种基于轻量型手势识别的智能控制方法，其特征在于，轻量型注意力结构包括深度可分离卷积块和注意力模块，深度可分离卷积块用于获取空间信息，注意力模块包括通道注意力模块和空间注意力模块，用于关注重要的特征，抑制不重要的特征。

8.根据权利要求7所述的一种基于轻量型手势识别的智能控制方法，其特征在于，所述深度可分离卷积块包括5*5卷积块和1*1卷积块，5*5卷积块用于获取上下文信息，1*1卷积块用于对不同通道进行融合。

9.根据权利要求1-8任一所述的一种基于轻量型手势识别的智能控制方法，其特征在于，步骤S4中，采用交叉熵损失函数来获得相应的损失值，交叉熵损失函数L为：

10.一种基于轻量型手势识别的智能控制装置，其特征在于，包括：

树莓派控制器，用于部署权利要求1-9任一项提供的训练好的轻量型手势识别网络并接收图像采集器采集的手势信息，通过轻量型手势识别网络对手势信息进行比对运算生成能供调用的红外发射控制指令；

红外发射器，用于根据红外发射控制指令进行信号发射以控制家用电器的工作状态。