CN113792573A

CN113792573A - 一种小波变换低频信息与Xception网络的静态手势识别方法

Info

Publication number: CN113792573A
Application number: CN202110788462.4A
Authority: CN
Inventors: 王学慧; 王嘉炜; 刘燕娜
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU; Zhejiang University of Science and Technology ZUST
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-12-14

Abstract

本发明提出了一种小波变换低频信息与Xception网络的静态手势识别方法，首先获取静态手势源图像和预设类型标签，构成样本训练集；再提取静态手势源图像的低频信息；之后建立Xception网络模型，包括输入层、中间层和输出层；将静态手势源图像的低频信息作为所述的输入层的输入，将输入层的输出结果再经过中间层循环处理8次，最后经输出层输出；结合Xception网络模型的输出结果和预设类型标签，对Xception网络模型进行训练，得到训练好的静态手势识别模型；最后针对待识别的静态手势源图像，经过步骤S2提取静态手势源图像的低频信息，将低频信息作为训练好的静态手势识别模型的的输入，得到识别结果。

Description

一种小波变换低频信息与Xception网络的静态手势识别方法

技术领域

本发明涉及手势识别领域，尤其涉及一种小波变换低频信息与Xception网络的静态手势识别方法。

背景技术

手势是一种具有自然、简洁、直接和丰富等特性的人机交互方式，同时人机交互也是人工智能发展的重要方向，其最终目标是实现人与机器无故障的交流。手势识别则是识别人类有意义的动作表达，手势识别技术的应用是多方面的，可以应用于计算机辅助的哑语教学、智能家电、医疗康复、虚拟现实、机器人控制、游戏娱乐等多个方面，同时也有助于改善有听力障碍的人的生活、学习和工作条件。因此，手势识别的研究具有极高的社会价值和研究意义。

针对近年来国内外手势识别研究，一种基于数据手套的研究数据手套可以精确的获取手指的运动等信息。但数据手套的成本昂贵，设备笨重导致佩戴和使用不便。在人机交互中限制手势的自由性极大的减弱手势识别的自然性和直接性，因此该方面的研究大都停留在实验室阶段。

因此，针对以上研究的不足，本发明提了一种基于小波变换低频信息与 Xception网络的静态手势识别方法。在保证识别准确度和提升图像采集速度的同时解决了传统方法对于复杂手势的识别困难问题。采用Xception网络结构，减少了手势图像模型所需的存储容量和参量，为相关学者针对小波变换和神经网络的研究提供了一种新的思路。

发明内容

本发明提出一种小波变换低频信息与Xception网络的静态手势识别方法。首先使用小波变换提取静态手势图像的低频信息，然后利用Xception网络提取手势图像的深层次特征进行识别。

本发明提供的技术方案是：

一种小波变换低频信息与Xception网络的静态手势识别方法，包括以下步骤：

S1，获取静态手势源图像和预设类型标签，构成样本训练集；

S2，提取静态手势源图像的低频信息；

S3，建立Xception网络模型，包括输入层、中间层和输出层；将静态手势源图像的低频信息作为所述的输入层的输入，将输入层的输出结果再经过中间层循环处理8次，最后经输出层输出；结合Xception网络模型的输出结果和预设类型标签，对Xception网络模型进行训练，得到训练好的静态手势识别模型；

S4，针对待识别的静态手势源图像，首先经过步骤S2提取静态手势源图像的低频信息，再将低频信息作为训练好的静态手势识别模型的的输入，得到识别结果。

进一步地，所述的低频信息计算公式为：

式中，(x,y)表示静态手势源图像像素点的横坐标和纵坐标，

表示在基本小波母函数

下求得的小波常数W，M和N分别表示图像的横向尺寸和纵向尺寸，j₀表示初始尺度，f(x,y)表示静态手势源图像像素点(x,y)处的低频数值，

表示尺度函数，m表示小波分解出的幅度，n(x,y)表示在像素点(x,y) 处小波分解的比例尺。

进一步地，对步骤S3建立的Xception网络模型进行训练时，达到预设训练次数时训练停止。

进一步地，所述的输入层包括依次连接的第一卷积层、第二卷积层和三个可分离卷积模块；所述的可分离卷积模块包括第一可分离卷积层、第二可分离卷积层和池化层；在第一卷积层、第二卷积层以及每一个可分离卷积模块中的第一可分离卷积层之后都接有一个激活函数层；

所述的第二卷积层的输出还经过第三卷积层处理，所述的第三卷积层的处理结果与输入层中的第一个可分离卷积模块的结果相加，共同作为第二个可分离卷积模块的输入；

所述的第三卷积层的处理结果还经过第四卷积层处理，所述的第四卷积层的处理结果与输入层中的第二个可分离卷积模块的结果相加，共同作为第三个可分离卷积模块的输入；

所述的第四卷积层的处理结果还经过第五卷积层处理，所述的第五卷积层的处理结果与输入层中的第三个可分离卷积模块的结果相加，共同作为中间层的输入。

进一步地，第二个可分离卷积模块和第三个可分离卷积模块的输入之前还设有一个激活函数层。

进一步地，所述的激活函数层采用ReLU函数。

进一步地，所述的中间层由交替的三个激活函数层和三个可分离卷积层构成。

进一步地，所述的输出层由一个可分离卷积模块、交替的两个激活函数层和两个可分离卷积层、全局池化层、全连接层和分类层依次连接构成；

所述的中间层的输出结果还经过第六卷积层处理，所述的第六卷积层的处理结果与输出层中的可分离卷积模块的输出结果相加，共同作为激活函数层的输入。

与现有技术相比，本发明的优势在于：本发明实验结果表明，将小波变换得到的四种图像和原始图像分别作为Xception网络的输入进行手势识别，其中小波变换低频信息和图像训练的平识别准确率都达到97％及以上。为了论证 Xception网络的有效性，通过5次实验将Xception与常用的手势识别算法模型进行对比分析。对比发现Xception模型比其他深度卷积模型的分类效果更好。本发明提出的方法压缩了数据存储的容量，减少了训练网络模型的学习时间，并提高了速度。

附图说明

图1是本发明的手势识别算法流程图；

图2是二维频域划分示意图；

图3是二维小波变换的Mallat算法滤波器组图；

图4是Xception模型的主要网络模块示意图；

图5是部分原手势图像数据集；

图6是二维离散小波变换实验；

图7是小波变换预处理后的图像数据集；

图8是原图像使用Xception训练网络的实验结果比较图；

图9是水平高频图像(CH)使用Xception训练网络的实验结果比较图；

图10是垂直高频图像(CV)使用Xception训练网络的实验结果比较图；

图11是对角线高频图像(CD)使用Xception训练网络的实验结果比较图。

具体实施方式

下面结合附图和实施例，对本发明进行进一步的描述。本发明提出了一种使用小波变换算法对ASL静态手势的图像进行初步处理的方法，该方法首先采用二维离散小波特征对每一张二维的静态手势图进行提取，然后利用小波中的低通滤波器和高通滤波器一层一层分解剥离图像信息，最终获取图像的小波特征值。

二维离散小波特征变换提取出图像的特征信息的方法可以准确地获取图像信息，通过二维小波得到图像的高频和低频信息，得到图像的高频、低频的数值：用f(x,y)∈L²(R²)来表示，其中(x,y)表示图像像素点的横坐标和纵坐标，L2表示指的是由2次可积函数所组成的函数空间，R表示可积函数。

其中，W表示小波常数；

表示基本小波母函数

下求得的小波常数W，

表示在离散小波函数ψ_(j,m,n)下求得的的高频分量 l＝{1,2,3}的小波常数W，l＝1，2，3分别是水平高频图像CH，垂直高频图像CV 和对角线高频图像；j₀和j分别表示初始尺度和小波分解的级数， j＝0,1,...,log₂ N或j＝0,1,...,log₂M；m和n分别代表由小波分解出的幅度及比例尺；M和N分别表示最大幅度和最大缩放比例；

表示尺度函数，ψ_j表示小波函数。

在算出图像的高频、低频数值后，采用二维小波多分辨率分解的方法，将图像信息通过低通滤波器和高通滤波器逐层分离，方便后期图像的分析处理。具体原理在于：分别在水平和垂直方向对静态手势图像进行滤波，该过程是垂直和水平高通和低通算子连续作用于图像的行和列的过程。图2是二维频域划分示意图，对于滤波器h，二维小波分解的Mallet算法的公式如下：

其中，

表示手势图像的低频带LL，包含图像在下一尺度的概貌，

分别是经过一级分解后的手势图像的LH、HL和HH三个子带，分别在水平、垂直和对角线方向上反映了图像的高频细节；

表示低通滤波器，

表示高通滤波器，

表示m行n列的低通滤波器算子，

表示m行 n列的高通滤波器算子，

表示第n行序列。本发明对二维离散小波变换进行了一次分解，实现了计算机生成手势图像的特征提取。手势图像的离散二维小波变换等价于图像在水平和垂直方向上独立的一维小波变换，推出二维小波变换的 Mallat算法，其滤波器组如图3所示。工程解释：对任一固定的列数n，先用

与 c^j+1的每一列向量做卷积，进行向下抽样得到(保留偶数行)

然后，再用

与

的每一个行向量做卷积，进行向下二抽样得到c^j。本发明约定：前者称为列卷积，后者称为行卷积。

如图4所示，本发明采用的Xception网络模型包括输入层、中间层和输出层；将静态手势源图像的低频信息作为所述的输入层的输入，将输入层的输出结果再经过中间层循环处理8次，最后经输出层输出预测结果。

本实施例中，所述的输入层包括依次连接的第一卷积层、第二卷积层和三个可分离卷积模块；所述的可分离卷积模块包括第一可分离卷积层、第二可分离卷积层和池化层；在第一卷积层、第二卷积层以及每一个可分离卷积模块中的第一可分离卷积层之后都接有一个激活函数层；

所述的第二卷积层的输出还经过第三卷积层处理，所述的第三卷积层的处理结果与输入层中的第一个可分离卷积模块的结果相加，共同作为第二个可分离卷积模块的输入；所述的第三卷积层的处理结果还经过第四卷积层处理，所述的第四卷积层的处理结果与输入层中的第二个可分离卷积模块的结果相加，共同作为第三个可分离卷积模块的输入；所述的第四卷积层的处理结果还经过第五卷积层处理，所述的第五卷积层的处理结果与输入层中的第三个可分离卷积模块的结果相加，共同作为中间层的输入。

输入层中的第二个可分离卷积模块和第三个可分离卷积模块的输入之前还设有一个激活函数层，优选ReLU函数。

所述的中间层由交替的三个激活函数层和三个可分离卷积层构成。

所述的输出层由一个可分离卷积模块、交替的两个激活函数层和两个可分离卷积层、全局池化层、全连接层和分类层依次连接构成；述的中间层的输出结果还经过第六卷积层处理，所述的第六卷积层的处理结果与输出层中的可分离卷积模块的输出结果相加，共同作为激活函数层的输入。

所有的卷积核大小优选图4中标注的大小。

实施例

本发明采用ASL数据集为美国手语字母表的图像集合。一共有87000张 200x200像素的静态手势图像，包含了29种手势，其中26个分类是字母A-Z， 3个分类是space、del和nothing。如图1所示，本发明随机抽取8000张照片包含29种手势，作为源数据集进行实验。每种手势涵盖了不同场景的光照变化、背景噪声等复杂背景和不同年龄、肤色、手部形状大小等差异。本实验将静态手势图像按照4:1的比例设置了训练集和测试集。部分原手势图如图5所示。

本发明先对8000张29类手势图像进行了小波变换预处理，分解每张图像一次，以获得到1个低频信息图像CA和3个高频信息图像，分别是水平高频图像 CH，垂直高频图像CV和对角线高频图像CD。如图6所示为ASL数据集中的其中一张A类图像经过二维离散小波变换的示意图。一种获取经过一次小波分解后的4×8000张图像小波特征值，部分经过小波变换后的手势图像数据集如图 7所示。

本发明对经过小波变换预处理后的四类图像和源图像共五种数据集分别实验，一共进行五次实验。每次实验使用图像大小规格为200x200像素的8000张， 5次实验一共使用5×8000张图像。实验过程为将手势图像送入相同参数的 Xception卷积神经网络模型进行特征提取和识别，五次实验除数据集不同，其余都相同，预设模型的训练次数为200次。

在每次实验训练时，训练集为8000×4/5＝6400张手势图，测试集为 8000×1/5＝1600张手势图，五种数据集的训练次数和损失率关系分别如图8-11 中的图(a)所示，五种数据集的训练次数与准确率关系分别如图8-11中的图(b) 所示，其中，acc表示模型训练精度，val_acc表示模型在验证集上的精度，loss 表示训练集的损失，val_loss表示验证集的损失值。

本实施例预设训练过程中的批处理大小batch_size＝32，训练的迭代周期 epoch＝200，学习率＝0.0005。五次实验的统计结果如表1所示。

表1五次实验识别性能比较

根据表1和图8-11的分析，本发明提出的基于小波变换低频信息与Xception 网络进行静态手势识别获得识别率和使用源图像进行手势识别的准确率相差 0.2％，平均识别准确率为97.11％。经过小波变换后的低频图像的图像内存占用只占用原来的2/13，大大减少了训练图像所需的存储容量，实现了图像的压缩。经实验验证，本发明方法对公共手势图像数据集ASL进行小波分析后，在内存容量大幅下降的情况下也能取得较高的识别率，充分证明了提出方法的有效性。

本发明为了验证所采用的Xception网络模型的有效性，将此模型与常用的手势识别分类网络模型VGG16、VGG19、ResNet以及ResNetV2作对比分析。设计5种模型在提取的静态手势图像的低频信息CA数据集上分别进行特征提取与识别的实验，使每个模型训练同样的实验参数并且确保各个模型在相同条件下完成训练，5种模型的总运行时间和平均识别准确率的比较结果如表2所示。

表2不同模型训练时间比较

根据表2发现，ReNet和VGG16模型运行时间较短，但是二者的平均识别准确率相对于其他三个网络模型相差很大，手势识别效果较差。Xception模型比VGG19模型运行时间短并且识别准确率高，识别效果较优。Xception模型和 ReNetV2模型准确率都达到97％以上，但是RenetV2模型的运行时间几乎是 Xception模型的1.5倍，RenetV2模型的平均识别准确率只比Xception模型高 0.5％，效果不是很显著。综上Xception模型在运行时间较短的同时也能够获得较高的识别率，平均识别准确率能够达到97％以上。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种小波变换低频信息与Xception网络的静态手势识别方法，其特征在于，包括以下步骤：

S2，提取静态手势源图像的低频信息；

2.根据权利要求1所述的小波变换低频信息与Xception网络的静态手势识别方法，其特征在于，所述的低频信息计算公式为：

式中，(x,y)表示静态手势源图像像素点的横坐标和纵坐标，

表示在基本小波母函数

表示尺度函数，m表示小波分解出的幅度，n(x,y)表示在像素点(x,y)处小波分解的比例尺。

3.根据权利要求1所述的小波变换低频信息与Xception网络的静态手势识别方法，其特征在于，对步骤S3建立的Xception网络模型进行训练时，达到预设训练次数时训练停止。

4.根据权利要求1所述的小波变换低频信息与Xception网络的静态手势识别方法，其特征在于，所述的输入层包括依次连接的第一卷积层、第二卷积层和三个可分离卷积模块；所述的可分离卷积模块包括第一可分离卷积层、第二可分离卷积层和池化层；在第一卷积层、第二卷积层以及每一个可分离卷积模块中的第一可分离卷积层之后都接有一个激活函数层；

5.根据权利要求1所述的小波变换低频信息与Xception网络的静态手势识别方法，其特征在于，第二个可分离卷积模块和第三个可分离卷积模块的输入之前还设有一个激活函数层。

6.根据权利要求4或6所述的小波变换低频信息与Xception网络的静态手势识别方法，其特征在于，所述的激活函数层采用ReLU函数。

7.根据权利要求1所述的小波变换低频信息与Xception网络的静态手势识别方法，其特征在于，所述的中间层由交替的三个激活函数层和三个可分离卷积层构成。

8.根据权利要求1所述的小波变换低频信息与Xception网络的静态手势识别方法，其特征在于，所述的输出层由一个可分离卷积模块、交替的两个激活函数层和两个可分离卷积层、全局池化层、全连接层和分类层依次连接构成；