CN115690853B

CN115690853B - 手势识别方法及电动卫生罩启闭控制系统

Info

Publication number: CN115690853B
Application number: CN202211716525.6A
Authority: CN
Inventors: 何厚明; 王竞; 王恩源
Original assignee: Guangzhou Ant Nest Intelligent Technology Co ltd
Current assignee: Guangzhou Ant Nest Intelligent Technology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-28
Anticipated expiration: 2042-12-30
Also published as: CN115690853A

Abstract

本发明公开了一种手势识别方法及电动卫生罩启闭控制系统，属于手势识别和电动卫生罩技术领域。手势识别方法包括获取用于手势识别的算法模型，获取需要识别的手势图像，将手势图像输入算法模型中，手势图像顺次经过特征挖掘模块和分类器后，分类器输出得到分类结果等步骤。其中，特征挖掘模块中设有第一卷积组件、第一融制机构、第二卷积组件、第二融制机构和第三融制机构。本发明在电动卫生罩旁边安装图像采集设备，将图像输入算法模型进行识别，实现了无接触控制电动卫生罩，有效避免了用户之间间接肢体接触。算法模型无需经过目标检测和图像分割就能直接对手势图像进行准确识别，计算量小、硬件性能要求低、实时性好。

Description

手势识别方法及电动卫生罩启闭控制系统

技术领域

本发明属于手势识别和电动卫生罩技术领域，具体地说，涉及一种手势识别方法及电动卫生罩启闭控制系统。

背景技术

如图1所示，现有技术中，为了增强对食品的卫生防护，在食品盛放装置上方设置了电动卫生罩，没有用户取餐时，卫生罩处于关闭状态。当用户需要取餐时，按动相应的按钮，卫生罩在电机的带动下开启。取餐完成后，再次按动按钮，控制卫生罩关闭。但是，对于这种开闭方式，不同用户之间仍然存在间接肢体接触，病毒可能通过控制按钮传播，现有的电动卫生罩设计有待于进一步改进。

发明内容

针对现有技术中上述的不足，本发明提供一种手势识别方法及电动卫生罩启闭控制系统，通过手势控制电动卫生罩开闭，有效避免了通过按钮间接肢体接触，进一步提升了安全性。

为了达到上述目的，本发明采用的解决方案是：一种手势识别方法，包括以下步骤：

S100、获取用于手势识别的算法模型；所述算法模型已经预先完成训练，所述算法模型中设有特征挖掘模块和分类器，所述特征挖掘模块用于挖掘获取图像的特征信息；

S200、获取需要识别的手势图像；

S300、将所述手势图像输入所述算法模型中，所述手势图像顺次经过所述特征挖掘模块和所述分类器后，所述分类器输出得到分类结果，完成手势识别；

其中，所述特征挖掘模块中设有第一卷积组件、第一融制机构、第二卷积组件、第二融制机构和第三融制机构；所述第一卷积组件包括多个并联设置的前置卷积单体，所述第二卷积组件包括多个并联设置的后置卷积单体，所述前置卷积单体和所述后置卷积单体均包括顺次连接的卷积层和激活层，所述特征挖掘模块的计算操作过程为：

T1、输入所述特征挖掘模块的特征图分别经过各个所述前置卷积单体，然后利用所述第一融制机构将各个所述前置卷积单体输出的特征图融合，得到第一融制特征图；

T2、所述第一融制特征图分别经过各个所述后置卷积单体，然后利用所述第二融制机构将各个所述前置卷积单体输出的特征图、所述第一融制特征图和各个所述后置卷积单体输出的特征图一起融合，得到第二融制特征图；

T3、对所述第二融制特征图进行下采样，以减小所述第二融制特征图宽度和高度方向的尺寸，得到芯级特征图；

T4、分别对各个所述后置卷积单体输出的特征图进行下采样，以减小各个后置卷积单体输出特征图宽度和高度方向的尺寸，得到对应的多个边级特征图；

T5、将所述芯级特征图和所有边级特征图输入所述第三融制机构，利用所述第三融制机构将所述芯级特征图和多个边级特征图融合，生成得到层级特征图。

进一步地，所述第一卷积组件中各个卷积层的卷积核大小各不相同，所述第二卷积组件中各个卷积层的卷积核大小也各不相同。

进一步地，所述特征挖掘模块为多个，多个所述特征挖掘模块首尾顺次连接，最后一个所述特征挖掘模块与所述分类器之间还设有全局平均池化层和全连接层。

进一步地，所述第一融制机构与所述第三融制机构内部操作过程相同，所述第一融制机构和所述第三融制机构内部均包括依次设置的拼接操作层、变维卷积层和融合激活层。

进一步地，所述第二融制机构内部操作过程表示为如下数学模型：

其中，LP代表所述第一融制特征图，TV1、TV1、…、TVn分别表示各个所述前置卷积单体输出的特征图，×表示元素对应乘积，PM1表示将第一融制特征图与所有前置卷积单体输出的特征图相加后生成的特征图，PM2表示将第一融制特征图与所有前置卷积单体输出的特征图做元素对应乘积后生成的特征图，SV1、SV1、…、SVn分别表示各个所述后置卷积单体输出的特征图，<>表示对其中的特征图做拼接操作，ζs表示卷积运算，δs表示非线性激活函数，PM3表示所述第二融制机构输出的第二融制特征图。

进一步地，所述特征挖掘模块中设有注意力机制，所述注意力机制以所述第二融制特征图作为输入，然后生成并输出校准图，各个所述边级特征图先分别与所述校准图做元素对应乘积，然后再输入所述第三融制机构。

进一步地，所述注意力机制内部操作过程的数学模型为；

其中，PM3表示所述第二融制特征图，Cm表示做全局最大池化操作，Ce表示做全局中值池化操作，Ca表示做全局平均池化操作，Cm、Ce和Ca对特征图的操作方向均为通道方向，<>表示对其中的特征图做拼接操作，ζa表示注意力卷积运算，δa表示注意力激活函数，AR表示所述注意力机制输出的校准图。

本发明还提供了一种电动卫生罩启闭控制系统，包括处理器和存储器，所述存储器储存有计算机程序，所述处理器通过加载所述计算机程序，用于执行如上所述的手势识别方法。

进一步地，电动卫生罩气闭控制系统还包括图像采集设备，所述图像采集设备与所述处理器电连接，所述图像采集设备用于采集获取需要识别的手势图像。

本发明的有益效果是：

（1）本发明在电动卫生罩旁边安装图像采集设备（如摄像头），当距离传感器检测到有物体（正常使用场景下通常为用户手部）进入设定的区域后，图像采集设备拍摄获取设定区域的图像，然后将图像输入算法模型进行识别，实现了无接触控制电动卫生罩，有效避免了用户之间间接肢体接触，进一步提高用餐过程中的卫生性和安全性；

（2）采用多尺度的特征提取结构往往能更加有效地提取特征信息，但是，当输入信息中包含大量噪音时，如何有效整合和过滤信息显得更加重要；本发明针对输入图像存在复杂背景的特点，结合手势识别的目标，设计了特征挖掘模块，通过第二融制机构将前方多尺度特征提取结构中多层次特征信息融合并过滤掉干扰信息，算法模型无需经过目标检测和图像分割就能直接对手势图像进行准确识别，计算量小、硬件性能要求低、实时性好；

（3）为了避免融合并过滤特征信息后出现信息流断层，同时也为了使模型泛化能力更强，特征挖掘模块中，还直接对各个后置卷积单体输出的特征图进行下采样，得到对应的多个边级特征图，然后利用第三融制机构将芯级特征图和多个边级特征图融合；但在一些场景中实验发现，直接对后置卷积单体输出的特征图下采样，会将部分噪音引到特征挖掘模块输出端，影响识别精度，因此，本发明创造性地利用第二融制机构输出的特征图作为注意力机制的输入，通过第二融制机构配合注意力机制来抑制噪音，实现了在连续的特征流中有效地筛除噪音，模型抗干扰能力和泛化能力都很好；

（4）针对算法模型中信息流特征和手势识别的目标，发明人创造性地设计了注意力机制内部结构，以相对简单的运算逻辑实现了对特征信息的高效校准。

附图说明

图1为电动卫生罩结构示意图；

图2为实施例1的算法模型整体结构示意图；

图3为实施例1的特征挖掘模块内部结构示意图；

图4为实施例1的第二融制机构内部结构示意图；

图5为实施例1的注意力机制内部结构示意图；

图6为对比例1的第二融制机构内部结构示意图；

图7为对比例2的特征挖掘模块内部结构示意图；

附图中：

1-手势图像，2-特征挖掘模块，21-前置卷积单体，22-第一融制机构，23-后置卷积单体，24-第二融制机构，25-第三融制机构，26-注意力机制，3-全局平均池化层，4-全连接层，5-分类器，6-分类结果，7-首部卷积层，8-电动卫生罩。

具体实施方式

以下结合附图对本发明作进一步描述：

实施例1：

图2展示了本实施例的算法模型整体结构，其前端为首部卷积层7（卷积核尺寸3*3，步长1），手势图像1输入模型后，先利用首部卷积层7进行卷积运算，然后输出得到尺寸为X*Y*16(高度*宽度*通道数，下同）的首部特征图。特征挖掘模块2数量为五个，各个特征挖掘模块2输出的特征图尺寸分别为X/2*Y/2*32、X/4*Y/4*64、X/8*Y/8*128、X/16*Y/16*256、X/32*Y/32*512。

如图3所示，在本实施例中，所有特征挖掘模块2内部的第一卷积组件均包括两个前置卷积单体21，其中一个前置卷积单体21中卷积层的卷积核尺寸为3*3、步长为1，另一个前置卷积单体21中卷积层的卷积核尺寸为5*5、步长为1。第二卷积组件均包括两个后置卷积单体23，其中一个后置卷积单体23中卷积层的卷积核尺寸为3*3、步长为1，另一个后置卷积单体23中卷积层的卷积核尺寸为5*5、步长为1。所有前置卷积单体21中的激活层和所有后置卷积单体23中的激活层均采用ReLU函数实现。

第一融制机构22与第三融制机构25内部操作过程相同，第一融制机构22和第三融制机构25内部均包括依次设置的拼接操作层、变维卷积层和融合激活层。其中，变维卷积层的卷积核尺寸为1*1、步长为1，融合激活层采用ReLU函数实现。第二融制机构24内部计算操作过程如图4所示，在第二融制机构24内部，ζs是卷积核尺寸为1*1、步长为1卷积运算，δs表示非线性激活函数ReLU。假设输入某个特征挖掘模块2的特征图尺寸为M*N*C，则其中前置卷积单体21输出特征图、第一融制机构22输出特征图、后置卷积单体23输出特征图、第二融制机构24输出特征图尺寸均为M*N*C。

在本实施例中，通过池化操作（池化窗口尺寸为2*2、步长为2）对第二融制特征图进行下采样，以减小所述第二融制特征图宽度和高度方向的尺寸，得到的芯级特征图尺寸为M/2*N/2*C。通过跨步卷积分别对各个后置卷积单体23输出的特征图进行下采样，以减小各个后置卷积单体输出特征图宽度和高度方向的尺寸，得到的边级特征图尺寸均为M/2*N/2*C。其中，当后置卷积单体23中卷积层的卷积核尺寸为3*3时，对应的跨步卷积卷积核尺寸为3*3、步长为2；后置卷积单体23中卷积层的卷积核尺寸为5*5时，对应的跨步卷积卷积核尺寸为5*5、步长为2。最后第三融制机构25输出得到尺寸为M/2*N/2*2C的层级特征图。

如图5所示，在注意力机制26内部，分别对第二融制特征图在通道方向做全局中值池化、全局平均池化和全局最大池化后，对应生成第一矩阵、第二矩阵和第三矩阵，第一矩阵、第二矩阵和第三矩阵的尺寸均为M*N*1。然后第一矩阵减去第二矩阵，并将作差得到的矩阵与第三矩阵拼接，得到尺寸为M*N*2的过程矩阵。本实施例中ζa的卷积核为3*3、步长为2，δa为sigmoid函数，注意力机制26输出的校准图尺寸为M/2*N/2*1。校准图分别与各个边级特征图做元素对应乘积运算，为边级特征图不同空间位置分配不同大小的权重参数，达到校准效果。

最后一个特征挖掘模块2与分类器5之间设有全局平均池化层3和全连接层4，全局平均池化层3用于对最后一个特征挖掘模块2输出的特征图在空间方向做全局平均池化操作，生成并输出长度为512的向量。全连接层4的输入节点数为512，输出节点数为3。分类器5采用现有的softmax分类器实现，分类器5输出得到分类结果6，实现手势识别。本实施例中分类结果6包含三类，第一类为开启电动卫生罩8的信号，该信号传递给处理器后，处理器控制电机带动电动卫生罩8开启。类似地，第二类为关闭电动卫生罩8的信号，第三类为其他信号，当模型分类结果6为第三类时，不对电动卫生罩8做任何操作。

采用自建训练集对模型进行训练，利用交叉熵损失函数对模型中的参数进行优化。epoch设置为800，初始学习率设置为0.001，训练过程中，每经过100个epoch，学习率变为原来的一半。将训练完成的模型在自建测试集上进行测试，结果达到了98.14%的识别正确率，相比之下，在相同的条件下进行训练和测试，VGG模型的识别正确率为87.33%，DenseNet模型的识别正确率为92.83%。

对比例1：

本对比例对实施例1中的第二融制机构24内部结构进行了修改，对比例1中采用的第二融制机构24内部结构如图6所示，包括拼接、1*1卷积和ReLU激活层，模型中的其他部分均与实施例1相同。经过与实施例1相同的训练过程后，对比例1训练完成的模型在相同测试集上得到了95.72%的识别正确率，有效证明了本发明提供的第二融制机构24对提升手势识别效果具有促进作用。

对比例2：

本对比例将实施例1中特征挖掘模块2内的注意力机制26去掉，对比例2中采用的特征挖掘模块2内部结构如图7所示，模型中的其他部分均与实施例1相同。经过与实施例1相同的训练过程后，对比例2训练完成的模型在相同测试集上得到了94.26%的识别正确率，有效证明了本发明提供的注意力机制26对提升手势识别效果具有促进作用。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种手势识别方法，其特征是：包括以下步骤：

S200、获取需要识别的手势图像；

2.根据权利要求1所述的手势识别方法，其特征是：所述第一卷积组件中各个卷积层的卷积核大小各不相同，所述第二卷积组件中各个卷积层的卷积核大小也各不相同。

3.根据权利要求1所述的手势识别方法，其特征是：所述特征挖掘模块为多个，多个所述特征挖掘模块首尾顺次连接，最后一个所述特征挖掘模块与所述分类器之间还设有全局平均池化层和全连接层。

4.根据权利要求1所述的手势识别方法，其特征是：所述第一融制机构与所述第三融制机构内部操作过程相同，所述第一融制机构和所述第三融制机构内部均包括依次设置的拼接操作层、变维卷积层和融合激活层。

5.根据权利要求1所述的手势识别方法，其特征是：所述第二融制机构内部操作过程表示为如下数学模型：

其中，LP代表所述第一融制特征图，TV1、TV1、…、TVn分别表示各个所述前置卷积单体输出的特征图，×表示元素对应乘积，PM1表示将第一融制特征图与所有前置卷积单体输出的特征图相加后生成的特征图，PM2表示将第一融制特征图与所有前置卷积单体输出的特征图做元素对应乘积后生成的特征图，SV1、SV1、…、SVn分别表示各个所述后置卷积单体输出的特征图，< >表示对其中的特征图做拼接操作，ζs表示卷积运算，δs表示非线性激活函数，PM3表示所述第二融制机构输出的第二融制特征图。

6.根据权利要求1所述的手势识别方法，其特征是：所述特征挖掘模块中设有注意力机制，所述注意力机制以所述第二融制特征图作为输入，然后生成并输出校准图，各个所述边级特征图先分别与所述校准图做元素对应乘积，然后再输入所述第三融制机构。

7.根据权利要求6所述的手势识别方法，其特征是：所述注意力机制内部操作过程的数学模型为；

其中，PM3表示所述第二融制特征图，Cm表示做全局最大池化操作，Ce表示做全局中值池化操作，Ca表示做全局平均池化操作，Cm、Ce和Ca对特征图的操作方向均为通道方向，< >表示对其中的特征图做拼接操作，ζa表示注意力卷积运算，δa表示注意力激活函数，AR表示所述注意力机制输出的校准图。

8.一种电动卫生罩启闭控制系统，包括处理器和存储器，所述存储器储存有计算机程序，其特征是：所述处理器通过加载所述计算机程序，用于执行如权利要求1至7任一项所述的手势识别方法。

9.根据权利要求8所述的电动卫生罩启闭控制系统，其特征是：还包括图像采集设备，所述图像采集设备与所述处理器电连接，所述图像采集设备用于采集获取需要识别的手势图像。